Hadoop 面试题（十一）

1. 简述Hadoop-2.6.5 集群中，HDFS 默认副本块（含原数据块）的个数是？

A：1
B：2
C：3
D：4

Hadoop-2.6.5 集群中，HDFS 默认的副本块（含原数据块）的个数是：

C：3

Hadoop 2.x 版本中，默认的副本因子是3，这意味着每个数据块会被复制三次，存储在不同的DataNode上，以此来保证数据的高可用性。

2. Google三驾马车是Hadoop等分布式系统的基石，其中论文()不属于三驾马车之一？

A：GFS
B：MapReduce
C：OpenTSDB
D：BigTable

不属于Google三驾马车之一的论文是：

C：OpenTSDB - OpenTSDB是一个时间序列数据库，并不是Google三驾马车之一。Google的三驾马车指的是GFS（Google File System）、MapReduce和BigTable。这三篇论文分别介绍了分布式文件系统、分布式计算模型和分布式数据库的设计和实现，对后来的分布式系统，包括Hadoop，产生了深远的影响。

3. 简述关于安全模式命令，正确的是？

A：退出安全模式：hadoop dfsadmin -safemode leave
B：退出安全模式：hadoop dfs -safemode leave
C：进入安全模式：hadoop dfs -safemode enter
D：进入安全模式：hadoop dfsadmin enter

正确的命令是：

A：退出安全模式：

hadoop dfsadmin -safemode leave

这个命令用于安全地退出HDFS的安全模式。

其他选项的说明：

B：退出安全模式：

hadoop dfs -safemode leave

这个命令格式不正确，应该使用
```
dfsadmin
```
而不是
```
dfs
```
。

C：进入安全模式：

hadoop dfs -safemode enter

这个命令格式不正确，正确的命令是
```
hadoop dfsadmin -safemode enter
```
。

D：进入安全模式：

hadoop dfsadmin enter

这个命令格式不正确，没有
```
enter
```
这个子命令。正确的命令是
```
hadoop dfsadmin -safemode enter
```
。

4. 简述以下不属于Hadoop中NameNode的功能点的选项是？

A：负责管理Hadoop中文件块Block的数据
B：响应客户端请求
C：管理DataNode上文件块Block的均衡
D：维持副本数量

不属于Hadoop中NameNode的功能点的选项是：

C：管理DataNode上文件块Block的均衡 - 这个描述不完全准确。NameNode不直接管理DataNode上的块均衡，而是通过HDFS的Balancer工具来实现块的均衡。Balancer作为一个独立的守护进程，负责在DataNode之间移动数据块以平衡集群的存储负载。

其他选项的说明：

A：负责管理Hadoop中文件块Block的数据 - 这个描述是正确的。NameNode负责管理HDFS中的文件系统命名空间，包括文件和目录的元数据，以及文件块（Block）的位置信息。

B：响应客户端请求 - 这个描述是正确的。NameNode响应客户端的读写请求，处理文件的打开、关闭、数据块的查找等操作。

D：维持副本数量 - 这个描述是正确的。NameNode负责维护每个数据块的副本数量，确保数据的高可用性和容错性。

5. 简述Hadoop系统中查看指定目录/path最大的五个文件(文件夹算总体的一个文件)的指令为？

A：hadoop fs -du /path | sort -nr | head -n 5
B：hadoop fs -du /path | head -n 5
C：hadoop fs -du /path | sort -nr
D：hadoop fs -du /path | sort -n 5 | head -nr

正确的指令是：

C：hadoop fs -du /path | sort -nr - 这个命令组合首先使用

hadoop fs -du /path

查看指定路径

/path

下各个文件和目录的磁盘使用情况，然后通过管道

将结果传递给

sort -nr

命令进行排序，

-n

表示以数字大小排序，

-r

表示逆序（从大到小）。

其他选项的说明：

A：hadoop fs -du /path | sort -nr | head -n 5 - 这个命令会得到最大的五个文件，但是由于

head -n 5

在排序之前没有限制输出，所以它可能不只显示前五个最大的文件。

B：hadoop fs -du /path | head -n 5 - 这个命令只是简单地显示了

/path

下内容的前五个条目，而不是最大的五个文件。

D：hadoop fs -du /path | sort -n 5 | head -nr - 这个命令的语法不正确，

sort -n 5

不是有效的排序命令，正确的应该是

sort -nr

。此外，

head -nr

没有这样的选项，正确的是

head -n

后跟数字。

6. Hadoop常用命令中，找出某个已存在在Hadoop系统中，且绝对路径为/tmp/1.txt文件中含有字符’111’的行的命令为（）？

A：hdfs dfs -cat 1.txt | grep 111
B：cat 1.txt | grep 111
C：hdfs dfs -cat /tmp/1.txt | grep 111
D：hdfs -cat /tmp/1.txt | grep 111

正确的命令是：

C：hdfs dfs -cat /tmp/1.txt | grep 111 - 这个命令使用

hdfs dfs -cat /tmp/1.txt

来查看HDFS上

/tmp/1.txt

文件的内容，并通过管道

将输出传递给

grep 111

命令，以查找包含字符’111’的行。

其他选项的说明：

A：hdfs dfs -cat 1.txt | grep 111 - 这个命令没有指定文件的完整路径，可能无法正确执行，除非

1.txt

在当前工作目录下，并且该工作目录已经映射到HDFS的某个目录。

B：cat 1.txt | grep 111 - 这个命令仅在本地文件系统上执行，没有指定路径，并且不会在HDFS上查找文件。

D：hdfs -cat /tmp/1.txt | grep 111 - 这个命令中

hdfs -cat

的语法不正确，正确的命令是

hdfs dfs -cat

。

7. 简述下列进程中哪些不是Hadoop集群中Hadoop分别需要启动的？

A：TaskNode
B：SecondaryNameNode
C：DataNode
D：ResourceManager

不是Hadoop集群中需要启动的进程是：

A：TaskNode - 这个术语不是Hadoop官方文档中定义的标准进程或组件。可能是指TaskTracker（老版本的MapReduce任务跟踪器）或NodeManager（YARN的计算节点管理器），但"TaskNode"本身不是一个正确的Hadoop组件名称。

其他选项的说明：

B：SecondaryNameNode - 这是Hadoop集群中的一个进程，它辅助NameNode工作，通过合并编辑日志和文件系统映像来减少NameNode的内存压力。

C：DataNode - 这是Hadoop集群中的关键进程，负责存储实际的数据块，并处理与数据相关的读写请求。

D：ResourceManager - 这是Hadoop集群中的一个进程，特别是在启用YARN时，ResourceManager负责集群的资源管理和作业调度。

标签： hadoop 大数据分布式

本文转载自: https://blog.csdn.net/jianing1018/article/details/139972621
版权归原作者 依邻依伴 所有，如有侵权，请联系我们删除。

Hadoop 面试题（十一）

1. 简述Hadoop-2.6.5 集群中，HDFS 默认副本块（含原数据块）的个数是？

2. Google三驾马车是Hadoop等分布式系统的基石，其中论文()不属于三驾马车之一？

3. 简述关于安全模式命令，正确的是？

4. 简述以下不属于Hadoop中NameNode的功能点的选项是？

5. 简述Hadoop系统中查看指定目录/path最大的五个文件(文件夹算总体的一个文件)的指令为？

6. Hadoop常用命令中，找出某个已存在在Hadoop系统中，且绝对路径为/tmp/1.txt文件中含有字符’111’的行的命令为（）？

7. 简述下列进程中哪些不是Hadoop集群中Hadoop分别需要启动的？

发表评论