大数据 Hadoop - overfit.cn

HDFS面试（自己学习版）

大：设置太大，磁盘传输时间明显大于定位块的时间，因为块大了，块总数就相对少了，寻址时间相对少很多，而块过大，磁盘传输时间变大。与寻址时间有关：默认寻址时间为传输时间的百分之一为最优。小：块总数变多，寻址时间增大了。1s*磁盘传输速率就是块大小。假设10ms找到目标，

overfit同步小助手 2023-07-31 08:03:56 0 收藏

Hadoop 实战实例

Hadoop是GoogleMapReduce的一个Java实现。MapReduce是一种简化的分布式编程模式，让程序自动分布到一个由普通机器组成的超大集群上并发执行。就如同java程序员可以不考虑内存泄露一样，MapReduce的run-time系统会解决输入数据的分布细节，跨越机器集群的程序执行

overfit同步小助手 2023-07-31 05:04:04 0 收藏

Hadoop高可用(HA)集群搭建

查看namenode节点状态：hdfs haadmin -getServiceState nn1|nn2。这里装了四台机器，ant151,ant152,ant153,ant154。恢复ant152的namenode进程。rm1状态：standby。kill掉active进程。rm2状态：active

overfit同步小助手 2023-07-31 01:04:21 0 收藏

windows环境hadoop报错‘D:\Program‘ 不是内部或外部命令,也不是可运行的程序或批处理文件。

错误：windows环境hadoop报错’D:\Program’ 不是内部或外部命令,也不是可运行的程序或批处理文件。错误方法：（1）配置HADOOP_HOME环境变量时，将路径中的Program Files修改为Progra~1，以便系统识别，无效（2）将地址中的D:/Program Files

overfit同步小助手 2023-07-31 00:04:56 0 收藏

ALTER TABLE 分区操作-动态增加一级，多级分区，动态删除分区

1.8.5.6 ALTER TABLE 分区操作alter 分区操作包括增加分区和删除分区操作，这种分区操作在Spark3.x之后被支持，spark2.4版本不支持，并且使用时，必须在spark配置中加入spark.sql.extensions属性，其值为：org.apache.iceberg.sp

overfit同步小助手 2023-07-30 21:04:20 0 收藏

大数据篇 | Hadoop、HDFS、HIVE、HBase、Spark之间的联系与区别

overfit同步小助手 2023-07-30 17:04:22 0 收藏

分布式文件系统使用——MinIO

overfit同步小助手 2023-07-30 11:03:48 0 收藏

Hive调优之计算资源配置(一）

hive调优

overfit同步小助手 2023-07-30 00:04:02 0 收藏

hadoop命令行查看hdfs容量剩余

hadoop dfsadmin -report 也可以通过浏览器访问50070端口查看。

overfit同步小助手 2023-07-29 15:04:16 0 收藏

Hive窗口函数-lead/lag函数

overfit同步小助手 2023-07-29 13:04:35 0 收藏

Hbase Shell操作

overfit同步小助手 2023-07-29 07:04:14 0 收藏

Hive（25）：Select高级查询之Subqueries子查询

1 from子句中子查询在Hive0.12版本，仅在FROM子句中支持子查询。而且必须要给子查询一个名称，因为FROM子句中的每个表都必须有一个名称。子查询返回结果中的列必须具有唯一的名称。子查询返回结果中的列在外部查询中可用，就像真实表的列一样。子查询也可以是带有UNION的查询表达式。Hive支

overfit同步小助手 2023-07-29 05:04:13 0 收藏

聊聊hdfs中的rpc问题

hdfs中的rpc问题

overfit同步小助手 2023-07-28 20:04:32 0 收藏

什么是HBase

HBase是一个基于Hadoop的分布式列式存储系统，可以存储非结构化和半结构化的大数据，具有高可用性、高扩展性、高性能等特点，常用于大规模实时数据处理。

overfit同步小助手 2023-07-28 10:03:56 0 收藏

开启hadoop的命令和方法

要开启 Hadoop，你需要进入 Hadoop 的安装目录，然后输入以下命令：sbin/start-dfs.shsbin/start-yarn.sh这会启动 Hadoop 的两个核心组件：Hadoop Distributed File System (HDFS) 和 Yet Another Reso

overfit同步小助手 2023-07-28 09:04:19 0 收藏

【Hadoop 01】简介

Hadoop适合海量数据分布式存储和分布式计算Java改为支持8及以上HDFS支持纠删码HDFS支持多NameNodeMR任务级本地优化多重服务默认端口变更Hadoop主要包含三大组件：HDFS+MapReduce+YARNHDFS负责海量数据的分布式存储MapReduce是一个计算模型，负责海量

overfit同步小助手 2023-07-28 04:04:02 0 收藏

【hadoop】Linux安装和配置

安装和配置Linux，修改时间2023/7/5

overfit同步小助手 2023-07-27 21:04:15 0 收藏

Hive 窗口函数大全

hive的窗口函数使用集合和使用示例

overfit同步小助手 2023-07-27 14:04:14 0 收藏

Flink 保存点

保存点 (Savepoint) ：用户手动触发保存状态。savepoint 恢复作业, 并修改状态后端。checkpoint 恢复作业。优雅停止 , 并触发保存点。

overfit同步小助手 2023-07-27 13:03:55 0 收藏

配置Kettle连接大数据HDFS

如果需要使用HBase集群，hbase-site.xml文件也需要替换。2.ETL工具Kettle，版本：pdi-ce-7.0.0.0-25。3. Kettle连接HDFS需要替换的Hadoop文件。1.Hadoop集群,版本：Hadoop3.3.0。3.MySQL服务器，版本：mysql5.7.3

overfit同步小助手 2023-07-27 12:04:37 0 收藏