Hadoop - overfit.cn

Hadoop框架---HDFS的Shell命令操作

其有很多命令，但在生产环境中我们经常使用的命令并没有那么多，因此需要时再回头查阅上图中的命令即可。put命令和copyFromLocal命令有着相同的复制效果，所以我们。这里我们把3台服务器各自对应的节点都打开了，为了方便后续测试。在使用shell命令前，一定要确保我们的Hadoop。自由选择以上任

overfit同步小助手 2023-12-17 02:03:59 0 收藏

Hive 查询优化

set hive.exec.mode.local.auto=true;set mapperd.job.tracker=local;set mapreduce.framework.name=local;set hive.vectorized.execution.enabled=true;

overfit同步小助手 2023-12-17 02:03:54 0 收藏

hadoop权威指南第四版

迭代处理(iterative processing) spark.例如机器学习算法，需要很多迭代。4 SEARCH 搜索 solr (Solr它是一种开放源码的、基于Lucene Java 的搜索服务器)。因为计算机硬盘的发展趋势是：寻址时间的提升远远不如传输速率的提升，如果访问包含大量地址的

overfit同步小助手 2023-12-17 00:03:53 0 收藏

Hive之建表的三种方式

执行的结果是table1 的表与table2的表结构是一致的，但是table1表中的数据为空；Hive建表方式统计了常见的三种建表，分别为直接命令行建表，like建表和as建表。将查询的table2表中id=1的结果插入到table1;或者使用as建表，但表结构会与原表不一致，具体往下看；#原理：直

overfit同步小助手 2023-12-16 17:03:50 0 收藏

mongodb数据同步到hive

通过 datax 从 mongodb 同步数据到 hive

overfit同步小助手 2023-12-16 16:03:49 0 收藏

Hadoop问题：start-all.sh显示未找到命令

在sbin文件夹下是start-all.sh可以运行的，但是到了别的文件夹下就不行了，于是想到了是文件路径问题，因为hadoop环境是和java环境一起配置的导致sbin写成了bin。（补充）其实也有其他方法，就是在profile中设置环境变量，但一般不建议在这配置，因为在这个文件中配置是对所有用户

overfit同步小助手 2023-12-16 11:03:45 0 收藏

【Hive-小文件合并】Hive外部分区表利用Insert overwrite的暴力方式进行小文件合并

overfit同步小助手 2023-12-16 08:03:31 0 收藏

hiveSql调优

| 前是map阶段执行，后的reduce阶段执行1、执行 from，进行表的查找与加载，注意要join的表也要加载进来（MapJoin除外）；2、执行 where，sql 语句中 left join 写在 where 之前的，但是实际执行先执行 where 操作，因为 Hive 会对语句进行优化，如

overfit同步小助手 2023-12-15 11:03:50 0 收藏

hadoop完全分布式搭建

Hadoop完全分布式搭建需要按照以下步骤进行：安装虚拟机：首先需要安装虚拟机软件，例如VMware等，然后在虚拟机软件中创建新的虚拟机，设置虚拟机的操作系统、内存、处理器等参数。配置网络：在虚拟机中配置网络，使得虚拟机可以与外部网络进行通信。安装Hadoop：在虚拟机中安装Hadoop，并配置相关

overfit同步小助手 2023-12-15 08:03:22 0 收藏

启动hive时去掉没有用的日志信息

log4j.rootLogger：这个是设置日志级别的，当设置成不同的日志级别时，展示的日志输出是不一样的。当日志级别为WARN时，打印的还是不少日志信息。

overfit同步小助手 2023-12-15 07:03:43 0 收藏

MapReduce词频统计（一）

在Map阶段，文件wordfile1.txt和文件wordfile2.txt中的文本数据被读入，以<key,value>的形式提交给Map函数进行处理，其中，key是当前读取到的行的地址偏移量，value是当前读取到的行的内容。<key,value>提交给Map函数以后，就可以运行我们自定义的Map

overfit同步小助手 2023-12-15 04:03:17 0 收藏

大数据技术原理与应用概念、存储、处理、分析和应用（林子雨）——第三章分布式文件系统HDFS

林子雨主编的大数据技术原理与应用第三章学习记录。

overfit同步小助手 2023-12-15 01:03:49 0 收藏

hive 问题解决 Class path contains multiple SLF4J bindings

hive输入命令时出现日志冲突提示（问题不复杂，是个warn，强迫症解决，做项目经常遇到，项目里是处理maven。这里处理方法思路类似。这里选简单的删除日志冲突包，删除hive目录下的包。一种是屏蔽日志冲突包，一种删除多余包。日志冲突提示已消失。

overfit同步小助手 2023-12-15 00:03:15 0 收藏

【Python大数据笔记_day10_Hive调优及Hadoop进阶】

Hive调优及Hadoop进阶

overfit同步小助手 2023-12-14 01:03:26 0 收藏

通过Web的方式访问HDFS

请注意，要能够访问这些Web界面，你需要确保Hadoop集群已经正确配置和运行，并且你的网络环境允许从你的机器访问集群中的这些节点。如果你的Hadoop集群有定制的配置或者有其他特殊要求，你可能需要参考你所使用Hadoop版本的文档以获取详细的信息。这是Hadoop集群的资源管理器界面，它提供了有关

overfit同步小助手 2023-12-13 04:02:58 0 收藏

【HDFS实战】HDFS联合（联邦）集群的发展史

HDFS联合（联邦）机制

overfit同步小助手 2023-12-13 00:03:22 0 收藏

一文快速学会Hadoop伪分布式环境搭建，很详细

dfs.replication: ⽤于指定⽂件块的副本数量。HDPS特别适合于存储⼤⽂件，它会将⼤⽂件切分成每128MB⼀块，存储到不同的DataNode节点上，且默认将每⼀块备份2份，共3份，即此配置的默认值为3，最⼤为512MB。yarn.resourcemanager.hostname：⽤于指

overfit同步小助手 2023-12-12 13:03:11 0 收藏

Hive 的角色和权限控制

的权限模型中，用户可以拥有多个角色，一个角色可以包含多个用户。管理员可以根据需要创建和管理角色，并为这些角色分配相应的权限。中的角色控制是通过角色的概念来实现的，角色可以理解为一组用户的集合，可以对这个集合中的用户进行权限的管理。用户可以根据自己的需求创建和管理角色，并为这些角色分配相应的权限。中的

overfit同步小助手 2023-12-12 09:03:53 0 收藏

解决hbase报ERROR: KeeperErrorCode = NoNode for /hbase/master

zookeeper的data使用的/tmp路径修改conf下的zoo.cfg。

overfit同步小助手 2023-12-12 09:03:44 0 收藏

Hadoop学习总结（MapRdeuce的词频统计）

MapRdeuce编程示例——词频统计

overfit同步小助手 2023-12-11 19:03:51 0 收藏