overfit同步小助手

2023-07-31 08:03:56

HDFS面试（自己学习版）

1.简单问题

1. HDFS的优点？

处理大数据
容易扩展，直接加服务器
高容错，多副本
低要求不需要优秀的服务器（负载均衡）

2.HDFS的缺点？

不适应实时，修改速率相对较慢（只能追加）
无法对小数据进行大量的存储，因为NN的容量是一定的，
不支持并发写入，文件随机修改：同时只能一个线程对文件进行写操作，只能追加写

3.说说HDFS的结构

NN（NameNode）存储元数据和目录，处理客户端的读写请求
DN(DataNode) 存储数据块和校验和，执行数据块的读写操作
S NN 备份NN，对元数据进行更新操作（滚动日志+fsimage）
客户端：自己将文件切割称相应的块，然后上传。与NN进行交互获取块。与DN进行交互，执行操作。

4.HDFS文件块大小设定

与寻址时间有关：默认寻址时间为传输时间的百分之一为最优
假设10ms找到目标，
10ms/0.01 = 1s
1s*磁盘传输速率就是块大小
默认是128

5.为什么块不能太大，也不能太小

大：设置太大，磁盘传输时间明显大于定位块的时间，因为块大了，块总数就相对少了，寻址时间相对少很多，而块过大，磁盘传输时间变大。
小：块总数变多，寻址时间增大了。

2.读写解析

1.HDFS是怎么进行写操作的?

客户端向NN发起请求(要传入目标路径)，请求上传（因为要判断是否有权限上传）
NN收到请求并校验(校验目标路径和权限z`)，回应说可以上传
客户端请求上传第一个块，要求返回DN(注意块是一个一个上传的)
NN收到，发送3个DN（根据备份个数）
客户端先和3个DN进行交互，检测是否连接成功
DN返回应答
客户端对DN串行发送块数据，并行保存。(C->D1->D2->D3)

2.读操作

客户端向NN发送请求要求读数据（下载）
NN回应，将元数据发送过去
客户端向DN请求块（优先级是就近原则，但是也是并行读）
DN发送数据给客户端（以packet为单位校验）
客户端以packet为单位接收，先在本地缓存，然后写入文件

标签： hdfs 学习 hadoop

本文转载自: https://blog.csdn.net/qq_42265608/article/details/131793559
版权归原作者 叫我莫言鸭 所有，如有侵权，请联系我们删除。

发表评论

登录后发布评论

“HDFS面试（自己学习版）”的评论:

还没有评论

关于作者

overfit同步小助手

文章同步

相关阅读

网络安全法-网络运行安全

使用selenium/drissionpage时如何阻止chrome自动跳转http到https

docker desktop 里部署的Open WebUI 管理员密码忘记了的处理方法

在ubuntu20.04中搭建onsite比赛运行环境

利用开源的低代码表单设计器FcDesigner高效管理和渲染复杂表单结构

Kafka学习笔记

【前端】浏览器输入url到页面呈现发生了什么？

文章导航