【大数据入门核心技术-Hadoop】(六)Hadoop3.2.1高可用集群搭建
独立模式又称为单机模式,仅1个机器运行1个java进程,主要用于调试。伪分布模式也是在1个机器上运行HDFS的NameNode和DataNode、YARN的 ResourceManger和NodeManager,但分别启动单独的java进程,主要用于调试。单Namenode节点模式-高可用HA模式集
非常详细HDFS读写流程+完美视觉的HDFS读写流程图
DataStreamer 将数据包流式传输到管线中第 1 个DataNode(dn1),该 DataNode(dn1) 存储数据包并将它发送到管线中的第 2 个 DataNode(dn2)。同样地,第 2 个 DataNode(dn2) 存储该数据包并且发送给管线中的第3个DataNode(dn3)
hive之入门配置
学习hive之路就此开启啦,让我们共同努力。
HBase 架构
包含访问HBase的接口并维护cache来加快对HBase的访问。
MapReduce实战小案例(自定义排序、二次排序、分组、分区)
MapReduce实战小案例
简单配置HDFS
搭建最基本的完全分布式集群环境,简单的hdfs基础配置
Hadoop 高可用集群的启动与关闭命令
Hadoop 高可用集群的启动与关闭命令
HADOOP 伪分布式集群搭建
HDFS 会以128M为单位将上传的文件进行切分为若干个block 存储在不同的datanode中,由于为了在不可靠的机器上进行提供可靠的服务,所以采用多副本机制进行存储。由于Hadoop 依赖于JDK运行环境,笔者这里采用的是hadoop3.3.4版本,支持JDK11,所以笔者安装的也是JDK11
hadoop单机模式搭建
搭建hadoop单机模式
Hive任务实施(航空公司客户价值数据)
注意命令的使用与输入文件路径的引用建表字段的顺序。
读取hive表中的数据进行数据可视化
1,目的将数据导入到hive中,通过数据分析后将结果存到新的表中,然后读取hive中的数据进行数据可视化。2,hive中的操作首先将数据上传到HDFS,然后启动hive,如果因为namenode处于安全模式而无法启动hive可参考我的另一篇博文:“Name node is in safe mode”
Hive内部表与外部表的区别具体说明
将hdfs上的数据上传到内部表中,数据是被剪切到内部表中,内部表删除,hdfs上的数据也被删除;将hdfs上的数据上传到外部表中,数据是被拷贝到外部表中,外部表删除,hdfs上的数据不会被删除。
eclipse和hadoop连接攻略(详细)
超详细eclipse与hadoop链接,不踩雷,看了10篇+稿子的终极版
24.大数据---Hive的连接三种连接方式
hive的三种连接方式
元数据管理-解决方案调研三:元数据管理解决方案——开源解决方案
数据血缘、基于角色的安全策略、表或列级标签以及中央审计功能使数据管理员可以轻松自信地管理和保护数据访问,直接在 Lakehouse 上满足合规性和隐私需求。2、查看自动化和精选的元数据:使用自动化和精选的元数据建立对数据的信任——表和列的描述、其他常用用户、表上次更新时间、统计信息、数据预览(如果允
大数据 | Spark安装及性能测试
Spark On Yarn集群模式下的安装和基本测试
用idea操作hbase数据库,并映射到hive
用idea操作hbase数据库,并映射到hive
BigTop3.2.0 大数据组件编译--组件编译
接上篇环境准备,环境准备好以后就可以开始bigtop大数据组件编译了,建议使用科学上网方式,降低网络连接报错,主要网络报错出现在nodejs npm yarn bower等前端资源的下载上。搞定网络问题后,按本文的方式可以完成大数据相关组件的编译,编译后生成的rpm包在output目录中,包含源码r
MapReduce 编程实例:词频统计
1.右击resources目录,单击【new】选择【resources bundle】,弹出下图界面输入log4j,单击【ok】按钮。在export目录下,创建wordcount目录,在里面创建words.txt文件,向words.txt输入下面内容。2.在弹出的【Create Resource B