0


【scau大数据原理】期末复习——堂测题

一、集群安装知识

启动集群的命令start-all.sh位于 Hadoop安装目录的sbin文件夹 目录下。
bin文件夹下包含常见的Hadoop,yarn命令;sbin命令下包含集群的启动、停止命令。

启动集群的命令start-all.sh包含 同时启动start-dfs.sh和start-yarn.sh 功能。
先启动文件系统start-dfs.sh,然后启动计算相关start-yarn.sh。

集群完全启动(dfs和yarn)后,master端包括 NameNode、SecondaryNameNode、ResourceManager 进程
文件系统相关:NameNode、SecondaryNameNode;

    计算相关的资源管理进程:ResourceManager

集群完全启动后,salve工作节点包含进程:DataNode、NodeManager
文件存储进程:DataNode;节点计算进程:NodeManager

集群启动dfs后,master端包含 NameNode、SecondaryNameNode 进程与dfs相关。

集群启动yarn后,工作节点包含 NodeManager 进程与yarn相关。

**假设集群的安装目录是/home/zkpk/hadoop-3.1.3,则集群的配置文件子目录是 /home/zkpk/hadoop-3.1.3/etc/hadoop **

配置文件在HADOOP_HOME的etc/hadoop子目录下

**linux的系统环境配置文件是 /etc/profile **

系统环境文件为/etc/profile,通常JAVA_HOME在此设置

**Linux中记录主机Ip地址与主机名称的文件是 /etc/hosts **

文件名为/etc/hosts;文件内容:每一行包含IP地址 主机名

Linux中:~表示用户的HOME目录;修改/etc/profile需要root用户操作;

** 语句cd和cd~相同,都是表示返回当前用户的HOME目录;cd..表示返回上一级目录。**

二、HADOOP知识

大数据的4V理论:数据量大(Volume);数据类型繁多(Variety);

** 处理速度快(Velocity);价值密度低(Value)。**

4V+特征
数据量大(Volume)
数据类型繁多(Variety)
数据价值密度低(Value)
数据速度快时效高(Velocity)
可变性(Variability)、真实性(Veracity)

大数据计量单位:GB-TB-PB-EB-ZB(其中ZB是容量最大的单位)

大数据的四种计算模式:批处理;流计算;图计算;查询分析计算。

关于Hadoop的说法:高可靠性;可容错性;高可扩展性;低成本

HADOOP生态系统组件:YARN、SPARK、MapReduce、Hive、Hbase......

安装HADOOP集训需要用到ssh面密码登录:

** 需要配置master到所有slave主机,slave相互之间的免密登录。**

Hadoop 3.X的WebUI浏览端口是9870

查看/打印集群上的根目录下abc文件夹的文件:hadoop fs -ls /abc;hadoop fs -cat /abc/*

上传一个Linux当前目录下的test.a文件到集群根目录下,应该使用命令:hadoop fs -put test.a /

关于MapReduce的说法:核心思想是“分而治之”;Map阶段的输出作为Reduce阶段的输入;

** Map任务全部完成后,才能进行Reduce任务;**

** 不同Map/Reduce任务之间不会进行通信。**

关于MR的说法:Map端的结果要写入本次磁盘;

** 一个Reduce任务处理一个分区数据;**

** Shuffle-就是从map端输出到reduce端输入之间的过程;**

** Map端输出时,要进行分区、排序、合并、归并等操作**

一个文件大小是800M,集群block大小为256,Split分片大小为150M,则启动Map任务的数量是6

在Hadoop中,Map任务的数量通常是由输入文件被切分成的Split数量决定的。每个Split会对应一个Map任务。文件大小/split分片大小=800/150=6个

HADOOP序列化类型中与JAVA数据类型的描述中,

** hadoop的Text类型与java的String对应;**

** hadoop的IntWritable类型与java的int 对应;**

** hadoop的LongWritable类型与java的long 对应;**

** hadoop的NullWritable空类型与Java的null对应**

Yarn的说法中:yarn是一个通用的资源管理调度框架;

** yarn的目标是“一个集群多个框架”;**

** yarn支持strom计算框架;**

** yarn把集群中的资源以容器(Container)方式分配给提出申请的应用程序。 **


本文转载自: https://blog.csdn.net/weixin_53762564/article/details/140054665
版权归原作者 稷_ 所有, 如有侵权,请联系我们删除。

“【scau大数据原理】期末复习——堂测题”的评论:

还没有评论