mongodb数据同步到hive
通过 datax 从 mongodb 同步数据到 hive
Hadoop问题:start-all.sh显示未找到命令
在sbin文件夹下是start-all.sh可以运行的,但是到了别的文件夹下就不行了,于是想到了是文件路径问题,因为hadoop环境是和java环境一起配置的导致sbin写成了bin。(补充)其实也有其他方法,就是在profile中设置环境变量,但一般不建议在这配置,因为在这个文件中配置是对所有用户
【Hive-小文件合并】Hive外部分区表利用Insert overwrite的暴力方式进行小文件合并
【Hive-小文件合并】Hive外部分区表利用Insert overwrite的暴力方式进行小文件合并
hiveSql调优
| 前是map阶段执行,后的reduce阶段执行1、执行 from,进行表的查找与加载,注意要join的表也要加载进来(MapJoin除外);2、执行 where,sql 语句中 left join 写在 where 之前的,但是实际执行先执行 where 操作,因为 Hive 会对语句进行优化,如
hadoop完全分布式搭建
Hadoop完全分布式搭建需要按照以下步骤进行:安装虚拟机:首先需要安装虚拟机软件,例如VMware等,然后在虚拟机软件中创建新的虚拟机,设置虚拟机的操作系统、内存、处理器等参数。配置网络:在虚拟机中配置网络,使得虚拟机可以与外部网络进行通信。安装Hadoop:在虚拟机中安装Hadoop,并配置相关
启动hive时去掉没有用的日志信息
log4j.rootLogger:这个是设置日志级别的,当设置成不同的日志级别时,展示的日志输出是不一样的。当日志级别为WARN时,打印的还是不少日志信息。
MapReduce词频统计(一)
在Map阶段,文件wordfile1.txt和文件wordfile2.txt中的文本数据被读入,以<key,value>的形式提交给Map函数进行处理,其中,key是当前读取到的行的地址偏移量,value是当前读取到的行的内容。<key,value>提交给Map函数以后,就可以运行我们自定义的Map
大数据技术原理与应用 概念、存储、处理、分析和应用(林子雨)——第三章 分布式文件系统HDFS
林子雨主编的大数据技术原理与应用第三章学习记录。
hive 问题解决 Class path contains multiple SLF4J bindings
hive输入命令时出现日志冲突提示(问题不复杂,是个warn,强迫症解决,做项目经常遇到,项目里是处理maven。这里处理方法思路类似。这里选简单的删除日志冲突包,删除hive目录下的包。一种是屏蔽日志冲突包,一种删除多余包。日志冲突提示已消失。
【Python大数据笔记_day10_Hive调优及Hadoop进阶】
Hive调优及Hadoop进阶
【HDFS实战】HDFS联合(联邦)集群的发展史
HDFS联合(联邦)机制
一文快速学会Hadoop伪分布式环境搭建,很详细
dfs.replication: ⽤于指定⽂件块的副本数量。HDPS特别适合于存储⼤⽂件,它会将⼤⽂件切分成每128MB⼀块,存储到不同的DataNode节点上,且默认将每⼀块备份2份,共3份,即此配置的默认值为3,最⼤为512MB。yarn.resourcemanager.hostname:⽤于指
Hive 的角色和权限控制
的权限模型中,用户可以拥有多个角色,一个角色可以包含多个用户。管理员可以根据需要创建和管理角色,并为这些角色分配相应的权限。中的角色控制是通过角色的概念来实现的,角色可以理解为一组用户的集合,可以对这个集合中的用户进行权限的管理。用户可以根据自己的需求创建和管理角色,并为这些角色分配相应的权限。中的
解决hbase报ERROR: KeeperErrorCode = NoNode for /hbase/master
zookeeper的data使用的/tmp路径修改conf下的zoo.cfg。
Hadoop学习总结(MapRdeuce的词频统计)
MapRdeuce编程示例——词频统计
Hive 的安装与配置
hive的详细安装与配置
Kafka实时数据即席查询应用与实践
在实际应用中,Kafka实时数据即席查询可以用于多种场景,如实时监控、实时报警、实时统计、实时分析等。数据质量:Kafka实时数据即席查询需要保证数据质量,避免数据重复、丢失或错误等问题,需要进行数据质量监控和调优。系统复杂性:Kafka实时数据即席查询需要涉及到多个系统和组件,包括Kafka、数据
【大数据】HDFS 的常用命令
操作命令是以 hdfs dfs 开头的命令。通过这些命令,用户可以完成 HDFS 文件的复制、删除和查找等操作,Shell 命令的一般格式如下。
Cloudera Manager6.3.1&CDH6.3.2集群部署(超详细,亲测可用)
Cloudera Manager是一个拥有集群自动化安装、中心化管理、集群监控、报警功能的一个工具,使得安装集群从几天的时间缩短在几个小时内,运维人员从数十人降低到几人以内,极大的提高集群管理的效率。
大数据之 Hadoop
hadoop主要解决:海量数据的存储和海量数据的分析计算hadoop发展历史Google是hadoop的思想之源(Google在大数据方面的三篇论文)2006年3月,Map-reduce和Nutch Distributed File System(NDFS)分别被纳入到Hadoop项目,Hadoop