Hadoop - overfit.cn

Hive（23）：Select高级查询之SORT/ORDER/CLUSTER/DISTRIBUTE BY

order by会对输入做全局排序，因此只有一个reducer，会导致当输入规模较大时，需要较长的计算时间。sort by不是全局排序，其在数据进入reducer前完成排序。因此，如果用sort by进行排序，并且设置mapred.reduce.tasks>1，则sort by只保证每个reduce

overfit同步小助手 2023-08-03 07:03:45 0 收藏

Hadoop: High Available

即HDFS 支持一主一备的架构最多支持 5 个，官方推荐使用 3 个基于Hadoop3.x. 总的来说就是要借助Zookeeper来实现高可用,然后就是编辑Hadoop的配置文件已实现高可用[email protected]。

overfit同步小助手 2023-08-02 22:04:04 0 收藏

大数据平台环境搭建

大数据平台环境搭建（最详细最全面最无脑）

overfit同步小助手 2023-08-02 12:04:23 0 收藏

Hive Code2报错排查

大多数可能的code2报错一般是内存不够，所以加下面这个配置可以有效解决这个问题#取消小表加载至内存中但这个不一定是因为内存不够，其实很多错误都是报这种官方错误的，所以一定要去yarn上看日志。很多人看日志也找不到问题，因为并没有看到全部日志，翻到最底下，点击check here 才能看到完整日志。

overfit同步小助手 2023-08-01 23:04:25 0 收藏

HDFS基本操作命令

命令：hadoop fs -getmerge [-n1] [-skip-empty-file]-p选项的行为与unix mkdir -p非常相似，他会沿着路径创建父目录。下载文件到本地文件系统指定目录，localdst必须是目录。和-put功能一样，只不过上传结束，源数据会被删除。-p保留访问和修改

overfit同步小助手 2023-08-01 21:04:26 0 收藏

Kerberos安全认证-连载10-Hive Kerberos 安全配置及访问

技术连载系列，前面内容请参考前面连载9内容:Hive底层数据存储在HDFS中，HQL执行默认会转换成MR执行在Yarn中，当HDFS配置了Kerberos安全认证时，只对HDFS进行认证是不够的，因为Hive作为数据仓库基础架构也需要访问HDFS上的数据。因此，为了确保整个大数据环境的

overfit同步小助手 2023-08-01 15:08:28 0 收藏

bash: 未预期的符号 `newline‘ 附近有语法错误——解决方法

bash: 未预期的符号 `newline' 附近有语法错误

overfit同步小助手 2023-08-01 13:04:40 0 收藏

构建大数据环境：Hadoop、MySQL、Hive、Scala和Spark的安装与配置

安装Hadoop 首先，从Apache Hadoop的官方网站下载所需的Hadoop发行版。选择适合你系统的二进制发行版，下载完成后解压缩到安装目录。然后配置环境变量，并修改Hadoop的配置文件，根据需要进行修改。安装MySQL 安装MySQL服务器是搭建大数据环境的重要一步。更新包管理器后，执行

overfit同步小助手 2023-08-01 10:04:11 0 收藏

hive之with as 和 create temporary区别

在写hivesql语句时，通常因为实现一个比较复杂的逻辑时。

overfit同步小助手 2023-07-31 22:04:33 0 收藏

大数据：Hadoop HDFS，基础架构，去中心化，中心化模式，HDFS基础架构，虚拟机和云服务器部署HDFS

overfit同步小助手 2023-07-31 20:04:37 0 收藏

Hive中的HASH函数规则及示例

Hive中的哈希函数采用的是MurmurHash算法，这是一种非常高效的哈希算法。该算法将输入数据分为若干个块，每个块都进行哈希计算，最终将所有块的哈希值合并起来得到最终的哈希值。在执行上述查询语句时，Hive会自动调用HASH函数对每个姓名进行哈希计算，并将具有相同哈希值的姓名放入同一个分组中，最

overfit同步小助手 2023-07-31 11:04:08 0 收藏

分布式文件系统与HDFS的shell操作及查看元数据

overfit同步小助手 2023-07-31 10:04:20 0 收藏

HDFS面试（自己学习版）

大：设置太大，磁盘传输时间明显大于定位块的时间，因为块大了，块总数就相对少了，寻址时间相对少很多，而块过大，磁盘传输时间变大。与寻址时间有关：默认寻址时间为传输时间的百分之一为最优。小：块总数变多，寻址时间增大了。1s*磁盘传输速率就是块大小。假设10ms找到目标，

overfit同步小助手 2023-07-31 08:03:56 0 收藏

Hadoop 实战实例

Hadoop是GoogleMapReduce的一个Java实现。MapReduce是一种简化的分布式编程模式，让程序自动分布到一个由普通机器组成的超大集群上并发执行。就如同java程序员可以不考虑内存泄露一样，MapReduce的run-time系统会解决输入数据的分布细节，跨越机器集群的程序执行

overfit同步小助手 2023-07-31 05:04:04 0 收藏

Hadoop高可用(HA)集群搭建

查看namenode节点状态：hdfs haadmin -getServiceState nn1|nn2。这里装了四台机器，ant151,ant152,ant153,ant154。恢复ant152的namenode进程。rm1状态：standby。kill掉active进程。rm2状态：active

overfit同步小助手 2023-07-31 01:04:21 0 收藏

windows环境hadoop报错‘D:\Program‘ 不是内部或外部命令,也不是可运行的程序或批处理文件。

错误：windows环境hadoop报错’D:\Program’ 不是内部或外部命令,也不是可运行的程序或批处理文件。错误方法：（1）配置HADOOP_HOME环境变量时，将路径中的Program Files修改为Progra~1，以便系统识别，无效（2）将地址中的D:/Program Files

overfit同步小助手 2023-07-31 00:04:56 0 收藏

ALTER TABLE 分区操作-动态增加一级，多级分区，动态删除分区

1.8.5.6 ALTER TABLE 分区操作alter 分区操作包括增加分区和删除分区操作，这种分区操作在Spark3.x之后被支持，spark2.4版本不支持，并且使用时，必须在spark配置中加入spark.sql.extensions属性，其值为：org.apache.iceberg.sp

overfit同步小助手 2023-07-30 21:04:20 0 收藏

大数据篇 | Hadoop、HDFS、HIVE、HBase、Spark之间的联系与区别

overfit同步小助手 2023-07-30 17:04:22 0 收藏

分布式文件系统使用——MinIO

overfit同步小助手 2023-07-30 11:03:48 0 收藏

Hive调优之计算资源配置(一）

hive调优

overfit同步小助手 2023-07-30 00:04:02 0 收藏