8000字讲透OBSA原理与应用实践
OBSA项目是围绕OBS建立的大数据和AI生态,其在不断的发展和完善中,目前有如下子项目:hadoop-obs项目和flink-obs项目。
kettle连接sparksql
kettle连接sparksql
Hadoop+hive+flask+echarts大数据可视化项目之系统信息数据上传及上传的底层实现
使用linux定时任务采集系统数据信息,上传到hadoop平台,使用hive进行系统数据的分析,分析的结果以flask接口传送到前端,前端以echarts图表展示。此博文主要针到系统信息数据如何上传到hadoop中去保存。...
Hadoop学习之hadoop安装、JDK安装、集群启动(完全分布式)
hadoop完全分布式环境安装过程中的hadoop安装以及JDK安装作详细的介绍,以及集群启动。
大数据开发写sql写烦了,要不要转?
如果说大数据是每天写sql还不太精准(精准的是用各种方式写SQL)当你不创造东西时,你只会根据自己的感觉而不是能力去看待问题。会不会转别的,看个人兴趣,大数据方向还有那么多。瞅瞅方向:如数据分析师、大数据开发工程师、大数据分析师、数据开发工程师、大数据架构师、大数据运维工程师、ELT工程师、数据仓库
Hadoop(hdfs, yarn, mapreduce)理论详解
hadoop,hdfs,yarn,mapreduce
Hadoop生态之Hive(一)
数仓工具之Hive,深度解析Hive结构以及原理
Hadoop集群启动和停止方法
先看一下集群是怎么规划的,这样就知道哪个服务器该开哪个了,不能瞎开啊! 注意点:所有服务器的 HDFS 都有 DataNode,YARN 都有 NodeManagerResourceManager 很消耗内存,不能和 NameNode、SecondaryNameNode 配置在同一台机
Hive基础02、安装Hive
由于命名不合适,所以更换一下:完整配置文件百度网盘下载链接:5、创建hive环境变量输入以下内容,先按【i】 进入输入模式。【esc】+【:wq】保存并退出。执行脚本6、复制MySQL的驱动包到hive的lib文件夹下 5、初始元数据仓库在【/opt/soft/hive/bin】成功........
Hadoop总结
Hadoop总结
大数据面试题——spark
讲一下spark 的运行架构????Cluster Manager(Master):在standalone模式中即为Master主节点,控制整个集群,监控worker。在YARN模式中为资源管理器???? Worker节点:从节点,负责控制计算节点,启动Executor或者Driver。???? D
【原生HADOOP分布式集群搭建】
原生HADOOP分布式搭建
MapReduce详细解析完整流程
其中ReduceTask的处理流程如下 :优点 : 易于编程,扩展性高,高容错性,适合PB以上海量离线数据处理,可实现上前台服务器集群并发工作缺点 : 不擅长实时计算,反应慢.不适合流式计算,因为MR是静态的,流式计算输入数据必须是动态的,不擅长DAG(有向图)计算,多个应用程序存在依赖关系,后一个
# HDFS常问面经和个人学习经验
自己关于HDFS文件存储系统的一些理解,详细介绍的HDFS的存储过程和机制,也是面试过程中经常会问的
hadoop综合实验(对日志的处理mapreduce保存到csv)
综合实验:网站访问日志采集、处理及分析实验步骤注:截图必须使用实验机的带水印截图功能,题目中要求截图但未提供的视为未做一、使用Flume导入日志数据数据文件下载地址:新建一个待监控的文件夹,放入三个日志文件我这里是lhx1、(代码)创建flume配置,文件内容及部分属性注释(注意路径):2、(截图)
Hadoop生态之HDFS
用一万字文章来深层次理解HDFS文件上传系统的底层原理,爆肝半天的极品文章,需要资源私信博主奥里给。。。。
flink hadoop 从0~1分布式计算与大数据项目实战(3)三台机器 hdfs HA模式从0~1 部署
flink hadoop 从0~1项目实战(3)三台机器 hdfs HA模式从0~1 部署
DStream转换操作
DStream转换操作
阿里大数据面试题集合:Hadoop+HBase+Spark+Zookeeper
阿里大数据面试题集合:Hadoop+HBase+Spark+Zookeeper
hadoop yarn资源调度
yarn资源调度