HDFS面试(自己学习版)
大:设置太大,磁盘传输时间明显大于定位块的时间,因为块大了,块总数就相对少了,寻址时间相对少很多,而块过大,磁盘传输时间变大。与寻址时间有关:默认寻址时间为传输时间的百分之一为最优。小:块总数变多,寻址时间增大了。1s*磁盘传输速率就是块大小。假设10ms找到目标,
Hadoop 实战实例
Hadoop是GoogleMapReduce的一个Java实现。MapReduce是一种简化的分布式编程模式,让程序自动分布到一个由普通机器组成的超大集群上并发执行。就如同java程序员可以不考虑内存泄露一样,MapReduce的run-time系统会解决输入数据的分布细节,跨越机器集群的程序执行
Hadoop高可用(HA)集群搭建
查看namenode节点状态:hdfs haadmin -getServiceState nn1|nn2。这里装了四台机器,ant151,ant152,ant153,ant154。恢复ant152的namenode进程。rm1状态:standby。kill掉active进程。rm2状态:active
windows环境hadoop报错‘D:\Program‘ 不是内部或外部命令,也不是可运行的程序 或批处理文件。
错误:windows环境hadoop报错’D:\Program’ 不是内部或外部命令,也不是可运行的程序 或批处理文件。错误方法:(1)配置HADOOP_HOME环境变量时,将路径中的Program Files修改为Progra~1,以便系统识别,无效(2)将地址中的D:/Program Files
ALTER TABLE 分区操作-动态增加一级,多级分区,动态删除分区
1.8.5.6 ALTER TABLE 分区操作alter 分区操作包括增加分区和删除分区操作,这种分区操作在Spark3.x之后被支持,spark2.4版本不支持,并且使用时,必须在spark配置中加入spark.sql.extensions属性,其值为:org.apache.iceberg.sp
大数据篇 | Hadoop、HDFS、HIVE、HBase、Spark之间的联系与区别
大数据篇 | Hadoop、HDFS、HIVE、HBase、Spark之间的联系与区别
分布式文件系统使用——MinIO
分布式文件系统使用——MinIO
Hive调优之计算资源配置(一)
hive调优
hadoop命令行查看hdfs容量剩余
hadoop dfsadmin -report 也可以通过浏览器访问50070端口查看。
Hive窗口函数-lead/lag函数
Hive窗口函数-lead/lag函数
Hbase Shell操作
Hbase Shell操作
Hive(25):Select高级查询之Subqueries子查询
1 from子句中子查询在Hive0.12版本,仅在FROM子句中支持子查询。而且必须要给子查询一个名称,因为FROM子句中的每个表都必须有一个名称。子查询返回结果中的列必须具有唯一的名称。子查询返回结果中的列在外部查询中可用,就像真实表的列一样。子查询也可以是带有UNION的查询表达式。Hive支
聊聊hdfs中的rpc问题
hdfs中的rpc问题
什么是HBase
HBase是一个基于Hadoop的分布式列式存储系统,可以存储非结构化和半结构化的大数据,具有高可用性、高扩展性、高性能等特点,常用于大规模实时数据处理。
开启hadoop的命令和方法
要开启 Hadoop,你需要进入 Hadoop 的安装目录,然后输入以下命令:sbin/start-dfs.shsbin/start-yarn.sh这会启动 Hadoop 的两个核心组件:Hadoop Distributed File System (HDFS) 和 Yet Another Reso
【Hadoop 01】简介
Hadoop适合海量数据分布式存储和分布式计算Java改为支持8及以上HDFS支持纠删码HDFS支持多NameNodeMR任务级本地优化多重服务默认端口变更Hadoop主要包含三大组件:HDFS+MapReduce+YARNHDFS负责海量数据的分布式 存储MapReduce是一个计算模型,负责海量
【hadoop】Linux安装和配置
安装和配置Linux,修改时间2023/7/5
Hive 窗口函数大全
hive的窗口函数使用集合和使用示例
Flink 保存点
保存点 (Savepoint) :用户手动触发保存状态。savepoint 恢复作业, 并修改状态后端。checkpoint 恢复作业。优雅停止 , 并触发保存点。
配置Kettle连接大数据HDFS
如果需要使用HBase集群,hbase-site.xml文件也需要替换。2.ETL工具Kettle,版本:pdi-ce-7.0.0.0-25。3. Kettle连接HDFS需要替换的Hadoop文件。1.Hadoop集群,版本:Hadoop3.3.0。3.MySQL服务器,版本:mysql5.7.3