【scau大数据原理】期末复习——堂测题

一、集群安装知识

启动集群的命令start-all.sh位于 Hadoop安装目录的sbin文件夹目录下。
bin文件夹下包含常见的Hadoop,yarn命令；sbin命令下包含集群的启动、停止命令。

启动集群的命令start-all.sh包含同时启动start-dfs.sh和start-yarn.sh 功能。
先启动文件系统start-dfs.sh，然后启动计算相关start-yarn.sh。

集群完全启动（dfs和yarn）后，master端包括 NameNode、SecondaryNameNode、ResourceManager 进程
文件系统相关：NameNode、SecondaryNameNode；

    计算相关的资源管理进程：ResourceManager

集群完全启动后，salve工作节点包含进程：DataNode、NodeManager
文件存储进程：DataNode；节点计算进程：NodeManager

集群启动dfs后，master端包含 NameNode、SecondaryNameNode 进程与dfs相关。

集群启动yarn后，工作节点包含 NodeManager 进程与yarn相关。

**假设集群的安装目录是/home/zkpk/hadoop-3.1.3，则集群的配置文件子目录是 /home/zkpk/hadoop-3.1.3/etc/hadoop **

配置文件在HADOOP_HOME的etc/hadoop子目录下

**linux的系统环境配置文件是 /etc/profile **

系统环境文件为/etc/profile，通常JAVA_HOME在此设置

**Linux中记录主机Ip地址与主机名称的文件是 /etc/hosts **

文件名为/etc/hosts；文件内容：每一行包含IP地址主机名

Linux中：～表示用户的HOME目录；修改/etc/profile需要root用户操作；

** 语句cd和cd~相同，都是表示返回当前用户的HOME目录；cd..表示返回上一级目录。**

二、HADOOP知识

大数据的4V理论：数据量大（Volume）；数据类型繁多（Variety）；

** 处理速度快（Velocity）；价值密度低（Value）。**

4V+特征
数据量大（Volume）
数据类型繁多（Variety）
数据价值密度低（Value）
数据速度快时效高（Velocity）
可变性（Variability）、真实性(Veracity)

大数据计量单位：GB-TB-PB-EB-ZB（其中ZB是容量最大的单位）

大数据的四种计算模式：批处理；流计算；图计算；查询分析计算。

关于Hadoop的说法：高可靠性；可容错性；高可扩展性；低成本

HADOOP生态系统组件：YARN、SPARK、MapReduce、Hive、Hbase......

安装HADOOP集训需要用到ssh面密码登录：

** 需要配置master到所有slave主机，slave相互之间的免密登录。**

Hadoop 3.X的WebUI浏览端口是9870

查看/打印集群上的根目录下abc文件夹的文件：hadoop fs -ls /abc；hadoop fs -cat /abc/*

上传一个Linux当前目录下的test.a文件到集群根目录下，应该使用命令：hadoop fs -put test.a /

关于MapReduce的说法：核心思想是“分而治之”；Map阶段的输出作为Reduce阶段的输入；

** Map任务全部完成后，才能进行Reduce任务；**

** 不同Map/Reduce任务之间不会进行通信。**

关于MR的说法：Map端的结果要写入本次磁盘；

** 一个Reduce任务处理一个分区数据；**

** Shuffle-就是从map端输出到reduce端输入之间的过程；**

** Map端输出时，要进行分区、排序、合并、归并等操作**

一个文件大小是800M，集群block大小为256，Split分片大小为150M，则启动Map任务的数量是6

在Hadoop中，Map任务的数量通常是由输入文件被切分成的Split数量决定的。每个Split会对应一个Map任务。文件大小/split分片大小=800/150=6个

HADOOP序列化类型中与JAVA数据类型的描述中，

** hadoop的Text类型与java的String对应；**

** hadoop的IntWritable类型与java的int 对应；**

** hadoop的LongWritable类型与java的long 对应；**

** hadoop的NullWritable空类型与Java的null对应**

Yarn的说法中：yarn是一个通用的资源管理调度框架；

** yarn的目标是“一个集群多个框架”；**

** yarn支持strom计算框架；**

** yarn把集群中的资源以容器（Container）方式分配给提出申请的应用程序。 **

标签：大数据 java 开发语言

本文转载自: https://blog.csdn.net/weixin_53762564/article/details/140054665
版权归原作者稷_ 所有，如有侵权，请联系我们删除。

【scau大数据原理】期末复习——堂测题

一、集群安装知识

二、HADOOP知识

发表评论

“【scau大数据原理】期末复习——堂测题”的评论:

关于作者

overfit同步小助手

相关阅读

文章导航