Hadoop - overfit.cn

关于Hive的使用技巧

可以使用SET命令来设置相关参数，如mapreduce.job.reduces、hive.exec.parallel、hive.exec.dynamic.partition.mode等。优化查询：在编写查询语句时，可以使用HiveQL的优化技巧来提高查询性能。分区和桶：使用分区和桶可以提高查询性能。

overfit同步小助手 2023-08-16 03:05:20 0 收藏

【Hive实战】Hive的压缩池与锁

Hive的压缩池与锁

overfit同步小助手 2023-08-16 03:05:03 0 收藏

hive所有窗口函数详情总结

开窗函数用于为行定义一个窗口（指运算将要操作的行的集合），它对一组值进行操作，不需要使用 Group By 子句对数据进行分组，能够在同一行中同时返回基础行的列和聚合列。percent_rank ：窗口内当前行的RANK值-1/窗口内总行数-1(这里的rank值就是指的是rank 函数的的返回值)有

overfit同步小助手 2023-08-16 03:04:57 0 收藏

【hadoop】部署hadoop全分布模式

2023/7/15

overfit同步小助手 2023-08-15 23:04:06 0 收藏

hadoop 相关环境搭建

备注。因为beeline一直报错，最有一怒之下把hive的lib下所有jar都拷贝到hadoop的share\hadoop\common\lib各软件的相关命令最好到各自安装目录或者bin目录下执行，防止初始化目录的时候位置不对。

overfit同步小助手 2023-08-15 23:03:51 0 收藏

Hive常见错误及解决办法

overfit同步小助手 2023-08-15 20:04:25 0 收藏

如何对HDFS进行节点内(磁盘间)数据平衡

特别是这种情况：当DataNode原来是挂载了几个数据盘，当磁盘占用率很高之后，再挂载新的数据盘。由于Hadoop 2.x 版本并不支持HDFS的磁盘间数据均衡，因此，会造成老数据磁盘占用率很高，新挂载的数据盘几乎很空。2.使用系统的hdfs.keytab进行认证，一般在/var/run/cloud

overfit同步小助手 2023-08-15 20:03:58 0 收藏

HDFS的数据存储

HDFS内存存储是一种十分特殊的存储方式，将会对集群数据的读写带来不小的性能提升，而HDFS异构存储则能帮助我们更加合理地把数据存到应该存的地方。

overfit同步小助手 2023-08-15 11:04:26 0 收藏

hdfs-namenode

其中dfs.namenode.name.dir 属性就是配置namenode这几个（fsimage,edits,seed_txid,version）文件存放的地方，也是core-site.xml中配置的临时目录的地方。配置文件：hdfs-default.xml - 配置namenode的各种属性是

overfit同步小助手 2023-08-15 09:03:52 0 收藏

清空hive表姿势大全

- 清空分区表为什么着重强调分区表,因为分区表清空可能会因为分区过多导致清理速度特别慢.

overfit同步小助手 2023-08-15 07:03:52 0 收藏

05-Hadoop集群部署(普通用户)

format操作只在hadoop集群初次启动时执行一次 format多次会造成我们数据的丢失，还可能会造成Hadoop集群主从角色之间相互不识别（解决方法：将所以节点的hadoop.tmp.dir目录删除，删除所有机器的data和logs目录删除，后重新格式化）

overfit同步小助手 2023-08-15 05:06:25 0 收藏

Hadoop 之 Spark 配置与使用（五）

Spark 单机部署、集群部署Java 访问 Spark 测试

overfit同步小助手 2023-08-14 23:03:55 0 收藏

Hadoop集成Hive

说明：服务器已用主机名代替，可根据自己的需求，改为IP地址环境1、java版本1.82、Rsync CentOS中默认存在3、zstd、openssl、autoconf、automake、libtool、ca-certificates安装4、ISA-L5、nasm与yasm6、ssh7、hadoop

overfit同步小助手 2023-08-14 19:04:04 0 收藏

Hadoop-yarn-未授权访问漏洞

Hadoop是由Apache基金会所开发的分布式系统基础架构，由于服务器直接开放了Hadoop的某些端口而造成了漏洞。本文是docker中的Hadoop-yarn-未授权访问漏洞复现。

overfit同步小助手 2023-08-14 13:04:36 0 收藏

Hadoop的伪分布式安装方法

若成功启动则会列出如下进程:NameNode, DataNode和SecondaryNameNode（如果SecondaryNameNode没有启动，请运行./sbin/stop-dfs.sh关闭进程，然后再次尝试启动）。sudo tar -zxvf ~/Downloads/hadoop-3.3.2

overfit同步小助手 2023-08-14 00:04:33 0 收藏

Hadoop简介以及集群搭建详细过程

hadoop加群包括两个集群：hdfs集群，yarn集群两个集群逻辑上分离，通常物理上在一起两个集群都是标准的主从架构集群逻辑上分离：两个集群相互之间没有依赖，互不影响物理上在一起：某些角色今晚往往部署在同一台物理服务器上MapReduce集群呢？MapReduce是计算框架、代码层面的组件没有集群

overfit同步小助手 2023-08-13 19:04:05 0 收藏

大数据课程D1——hadoop的初识

6. 在Nutch0.8的时候，Doug发现NDFS和MapReduce不只可以用于搜索引擎，也可以用于其他的分布式处理，所以就把NDFS和MapReduce以及其他的一些需要的基本以来分离出来，组成了一个新的框架Hadoop，同时NDFS改名为HDFS(Hadoop Distributed Fil

overfit同步小助手 2023-08-13 12:04:44 0 收藏

Hive-数据倾斜

在计算各省份的GMV时，有可能会发生数据倾斜，解决办法如下：

overfit同步小助手 2023-08-13 06:04:22 0 收藏

hive 全量表、增量表、快照表、切片表和拉链表

切片表根据基础表，往往只反映某一个维度的相应数据。其表结构与基础表结构相同，但数据往往只有某一维度，或者某一个事实条件的数据。：记录每条信息的生命周期，当一条记录的生命周期结束，就会重新开始一条新的记录，并把当前日期放入生效开始日期。3）合并变动数据和旧拉链表数据（有更新的信息需要修改生效结束日期，

overfit同步小助手 2023-08-13 02:04:21 0 收藏

hadoop的8088端口无法访问

如果 8080 端口无法访问，可能是因为以下几种原因之一：该端口可能被防火墙阻止了访问。您可以尝试关闭防火墙，或者将 8080 端口添加到防火墙的信任列表中。Hadoop 服务可能没有启动。您可以尝试通过运行 start-dfs.sh 和 start-yarn.sh 脚本来启动 Hadoop 服务。

overfit同步小助手 2023-08-12 20:04:06 0 收藏