Hadoop运行环境搭建(开发重点三)、在hadoop102安装JDK、配置JDK环境变量、测试JDK是否安装成功
为什么只在hadoop102上安装JDK,因为在hadoop102中安装后将JDK拷贝到hadoop103和hadoop104中,同样后面安装Hadoop的时候也是这样的操作、解压JDK到/opt/module目录下、配置好后需要source一下,重新加载一下内容、在Linux系统下的opt目录中查
HIVE高级调优(四)
HIVE高级调优
Hadoop——Hadoop优势、组成、大数据技术生态体系、系统框架图
HadoopDistributedFileSystem,简称HDFS,是一个分布式文件系统。存储文件的元数据,如文件名,文件目录结构,文件属性(生成时间、副本数、文件权限),以及每个文件的块列表和块所在的DataNode等。在本地文件系统存储文件块数据,以及块数据的校验和。每隔一段时间对NameNo
Hadoop运行环境搭建(开发重点)、VMware 安装
推荐的软件为VMware,VMware可以使用户在一台计算机上同时运行多个操作系统,还可以像Windows应用程序一样来回切换。用户可以如同操作真实安装的系统一样操作虚拟机系统,甚至可以在一台计算机上将几个虚拟机系统连接为一个局域网或者连接到互联网。一台电脑本身是可以装多个操作系统的,但是做不到多个
CDH/CDP 是什么?
CDH ( Cloudera Distribution Hadoop )是 Cloudera 公司提供的包含 Apache Hadoop 及其相关项目的软件发行版本。CDP(Cloudera Data Platform)是 CDH 的继任者。CDP 是面向企业的云计算平台。
8000字讲透OBSA原理与应用实践
OBSA项目是围绕OBS建立的大数据和AI生态,其在不断的发展和完善中,目前有如下子项目:hadoop-obs项目和flink-obs项目。
kettle连接sparksql
kettle连接sparksql
Hadoop+hive+flask+echarts大数据可视化项目之系统信息数据上传及上传的底层实现
使用linux定时任务采集系统数据信息,上传到hadoop平台,使用hive进行系统数据的分析,分析的结果以flask接口传送到前端,前端以echarts图表展示。此博文主要针到系统信息数据如何上传到hadoop中去保存。...
Hadoop学习之hadoop安装、JDK安装、集群启动(完全分布式)
hadoop完全分布式环境安装过程中的hadoop安装以及JDK安装作详细的介绍,以及集群启动。
大数据开发写sql写烦了,要不要转?
如果说大数据是每天写sql还不太精准(精准的是用各种方式写SQL)当你不创造东西时,你只会根据自己的感觉而不是能力去看待问题。会不会转别的,看个人兴趣,大数据方向还有那么多。瞅瞅方向:如数据分析师、大数据开发工程师、大数据分析师、数据开发工程师、大数据架构师、大数据运维工程师、ELT工程师、数据仓库
Hadoop(hdfs, yarn, mapreduce)理论详解
hadoop,hdfs,yarn,mapreduce
Hadoop生态之Hive(一)
数仓工具之Hive,深度解析Hive结构以及原理
Hadoop集群启动和停止方法
先看一下集群是怎么规划的,这样就知道哪个服务器该开哪个了,不能瞎开啊! 注意点:所有服务器的 HDFS 都有 DataNode,YARN 都有 NodeManagerResourceManager 很消耗内存,不能和 NameNode、SecondaryNameNode 配置在同一台机
Hive基础02、安装Hive
由于命名不合适,所以更换一下:完整配置文件百度网盘下载链接:5、创建hive环境变量输入以下内容,先按【i】 进入输入模式。【esc】+【:wq】保存并退出。执行脚本6、复制MySQL的驱动包到hive的lib文件夹下 5、初始元数据仓库在【/opt/soft/hive/bin】成功........
Hadoop总结
Hadoop总结
大数据面试题——spark
讲一下spark 的运行架构????Cluster Manager(Master):在standalone模式中即为Master主节点,控制整个集群,监控worker。在YARN模式中为资源管理器???? Worker节点:从节点,负责控制计算节点,启动Executor或者Driver。???? D
【原生HADOOP分布式集群搭建】
原生HADOOP分布式搭建
MapReduce详细解析完整流程
其中ReduceTask的处理流程如下 :优点 : 易于编程,扩展性高,高容错性,适合PB以上海量离线数据处理,可实现上前台服务器集群并发工作缺点 : 不擅长实时计算,反应慢.不适合流式计算,因为MR是静态的,流式计算输入数据必须是动态的,不擅长DAG(有向图)计算,多个应用程序存在依赖关系,后一个
# HDFS常问面经和个人学习经验
自己关于HDFS文件存储系统的一些理解,详细介绍的HDFS的存储过程和机制,也是面试过程中经常会问的
hadoop综合实验(对日志的处理mapreduce保存到csv)
综合实验:网站访问日志采集、处理及分析实验步骤注:截图必须使用实验机的带水印截图功能,题目中要求截图但未提供的视为未做一、使用Flume导入日志数据数据文件下载地址:新建一个待监控的文件夹,放入三个日志文件我这里是lhx1、(代码)创建flume配置,文件内容及部分属性注释(注意路径):2、(截图)