一、填空题
1.大数据的数据结构类型包括结构化数据、半结构化数据和___非结构化数据____。
2.大数据的4V10是(只填英文)__数据量大__Volume____、_数据类型多_Variety____、_处理速度快_Velocity____、__价值密度低_Value____和___On-Line____。(5.0分)
- 大数据预处理方法包括___数据清洗___、___数据集成_____、___数据变换___和___数据规约_____。
4.四种大数据分析处理系统是批量数据处理(如Hadoop_______)、流式数据处理(如 Storm_____)、交互式数据处理(如Spark________)和图数据处理(如Trinity)。
5.Tableau是一个功能强大的__可视化_____数据分析软件。
6.相比Hadoop1.0,Hadoop2.0引入___Yarn___,用于管理资源和调度任务。
7.HDFS是Hadoop的__分布式文件__系统,负责__存储____和管理数据。
- Hadoop文件系统的元数据Metadata包括______名称空间_______、文件到文件块的映射和文件块到___DataNode____的映射三部分。
9、分布式文件系统HDFS由以下组成(只填英文):
1客户端Client,负责把文件切分成小的Block,获取文件的位置信息,读取或者写入数据等等。
2文件目录营理节点___NameNode___,负责整个分布式文件系统的元数据(MetaData)管理。
3.文件存储节点___DataNode___,负责文件数据的存储和读写操作,HDFS将文件数据分割成若干块
(block),每个文件存储节点存储一部分block,这样文件就分布存储在整个HDFS服务器集群中。
4检查点节点____SecondaryNamenode____,是文件存储节点的冷备份,辅助、分担文件目录管理节点工作量。在HA架构里它不存在了,取而代之是热备份,提供高可用性,解决单点故障问题。
10MapReduce采用分而治之的思想,___Maper___是一个映射函数,对列表的
每一个元素进行指定的操作。____Reducer____是一个化简函数,对列表的元素进行合并、归约。
11.NoSQL的四种类型:___键值___存储,如Redis;___列___存储,如HBase;___面向文档___存储,如MongoDB;___图形___存储,如Neo4J。
12相比Hadoop1.0,Hadoop2.0引入___Yarn___,用于营理资源和调度任务。
13.HDFS是Hadoop的___分布式文件___系统,负责___存储___和管理数据。
14.HBase是Hadoop的数据库,是利用Hadoop的___HDFS___作为其文件存储系统,利用Hadoop的___MapReduce___处理Hbase中的海量数据。利用___Zookeeper___作为其协调工具。HBase的体系结构是一个主从式的结构,主节点___HMaster___在整个集群当中只有—个在运行,从节点HRegionServer有很多个在运行。
15.Spark尤其适合__迭代____运算和交互式数据分析,能够提升大数据处理的实时性和准确性,一个主要原因是没有用HDFS,而是用__内存____存储中间结果。
16.HBase是Hadoop的数据库,是利用Hadoop的______作为其文件存储系统,利用Hadoop的______来处理Hbase中的海量数据。利用______作为其协调工具HBase的体系结构是一个主从式的结构,主节点______在整个集群当中只有一个在运行,从节点HRegionServer有很多个在运行。
17CAP原则又称CAP定理,指的是在一个分布式系统中有三个特性(填中文):一致性(Consistency)、可用性 (Availability) 分区容错性(Partitiontolerance)。CAP原则指的是,这三个要素最多只能同时实现___两___个,不可能三者兼顾。
18Spark室用三种编程语言、和___Scala___,___Java___和__Python____。
19.RDD执行过程为一个DAG,根据RDD之间的依赖关系将DAG图划分为不同的阶段,RDD之间的依赖关系分为:___窄依赖___和___宽依赖___。
20在HadoopMapReduce1.0,jobtracker负责资源管理和job掉度/监视,2.0采用Yarn架构,将jobtracker的功能拆分成两个部分(只填英文)__ResourceManager____(英文),负责资源管理,和ApplicationMaster,负责管理整个任务的生命周期。另外,将TaskTracker用___NodeManager___(英文)取代,负责管理集群中单个计算节点的任务。
21创建HDFS的路径/aa,从本地当前目录上传文件abc.txt到HDFS的路径/aa下,SHELL命令
Hdfsdfs-mkdir______/aa
hdfsdfs-put___abc.txt___/aa
22Hive的___元数据___信息存储在MySQL上,另一部分实际的数据文件存放在HDFS上。
二解答题:
15从本地当前目录上传文件abc.txt到HDFS的路径/aa下,SHELL命令是: (10.0分)
____hdfs__dfs-putabc.txt/aa
或者
Hdfsdfs-copyFromLocal______abc.txt/aa
16运行scala程序计算SPARK_HOME路径下的README文件中包含"a"的行数和包含"b"的行数。
写出scala程序,并上传运行结果截图。
17补充程序,实现把本地某目录下的文件abc.txt上传到HDFS某个目录下。
public class HDFSUpload{
private static InputStream input
private static OutputStream output;
public static void main(String[] args)throws IOException{
//创建HDFS连接对象client
Configuration conf=new Configuration();
conf.set("fs.defaultFS","hdfs://bigdata128:9000"); FileSystem client=FileSystem.get(conf_);
//创建本地文件的输入流
input=new FileinputStream(“c:\hdfs\abc.txt”);
//创建HDFS的输出流
output=client.create_(new Path("/adir/aaout.txt"));
//写文件到HDFS
IOUtils.copy(input,output);
//防止输出数据不完整
output.flush();
//关闭输入输出流
input.close();
output.close();
}
}
第一章
1.4V1O:数据量大(Volume)、数据类型繁多(Variety)、处理速度快(Velocity)、价值密度低(Value)。On-Line。
2.大数据的数据结构类型包括:结构化数据、半结构化数据、非结构化数据
3.大数据关键技术:数据采集与预处理、数据存储和管理、数据处理与分析、数据安全和隐私保护。
4.大数据预处理方法:数据清洗、数据集成、数据变换、数据规约。
6.四种大数据分析处理系统是批量数据处理(如Hadoop)、流式数据处理(如Storm)、交互式数据处理(如Spark)和图数据处理(如Trinity)。
第二章
6.Hadoop是基于Java语言开发的。
7.Tableau是一个功能强大的可视化数据分析软件。
8.Hadoop的特性:高可靠性、高效性、高扩展性、高容错性、成本低、运行在Linux操作系统上、支持多种编程语言。
9.Hadoop的核心是分布式文件系统(HDFS)和MapReduce。HDFS负责存储和管理数据。
10.MapReduce采用分而治之的思想,Maper是一个映射函数,对列表的每一个元素进行指定的操作。Reducer是一个化简函数,对列表的元素进行合并、归约。
11.Hadoop生态系统:HDFS、Hbase、MapReduce、Hive、Pig、Mahout、ZooKeeper、Flume、Sqoop、Ambari。
12.谷歌的三驾马车:GFS、MapReduce、BigTable。
- Hadoop伪分布式运行启动后所具有的进程:NodeManager、 Jps NameNode 、DataNode、 SecondaryNameNode、 ResourceManager
第三章
14.Client客户端,HDFS的主节点Master Node,名称节点NameNode,
从节点Slave Node,数据节点DataNode。
块64MB
第四章
15.Hbase表由行和列组成,列分为若干个列族。表由若干行组成,每个行由行键标识。
16.行键,列族,列限定符,时间戳
17.访问表中的行三种方法:通过单个行键访问、通过一个行键的区间来访问,全表扫描
18.Hbase三级寻址:首先访问ZooKeeper,获取-ROOT-表的位置信息;访问-ROOT-表,获得.META表的信息;访问.META表,找到所需的Region位于哪个Region服务器,到该服务器读取数据(用户数据表)
19.Hbase系统架构:客户端、ZooKeeper服务器、Master主服务器、Region服务器。HDFS为底层数据存储系统
第七章
20.MapReduce:工作流程:Map任务运行在数据存储节点上,Map任务结束,生成中间结果,中间结果分发到Reduce任务,相同key的<key,value>发送到同一个Reduce任务,Reduce任务对中间结果汇总计算得到结果,输出
- MapReduce各个执行阶段:InputFormatàInputSplitàRecordReader(RR)àMapàShuffleàReduceàOutputFormat
第八章
22.Hadoop1.0不足
(1)抽象层次低(2)表达能力有限(3)开发者自己管理作业之间的依赖关系(4)难以看到程序整体逻辑(5)执行迭代操作效率低(6)资源浪费(7)实时性差
- Hadoop1.0问题
HDFS(1)单一名称节点,存在单点失效问题(2)单一命名空间,无法实现资源隔离
MaoReduce(3)资源管理效率低
Hadoop2.0改进
HDFS(1)HDFS HA,提供名称节点热备份机制(2)HDFS联邦,管理多个命名空间
MapReduce(3)设计了新的资源管理框架Yarn
第九章
24.Hive系统架构主要由三个模块组成:用户接口模块、驱动模块以及元数据存储模块(Metastore)
第十章
25.Spark生态系统包含Spark Core、Spark SQL、Spark Streaming、Structured Streaming、MLlib、GraphX
26.Spark架构:集群管理器Cluster Manager、工作节点Work Node、任务控制节点Driver、执行进程Executor
27.RDD依赖关系:窄依赖和宽依赖
第十一章
28.数据分为静态数据和流数据,静态数据用批量计算,流数据用实时计算
29.流计算:高性能、海量式、实时性、分布式、易用性、可靠性
30.流计算框架:IBM InfoSphere Streams商业级高级计算平台、IBM StreamBase商业流计算系统。
开源流计算框架Twitter Storm、Yahoo!S4.
公司为支持自身业务开发的流计算框架:DStream(百度开发)、银河流数据处理平台(淘宝)、Super Mario
第十二章
31.大数据Lambda架构:批处理层(MapReduce,Spark),实时处理层(Storm,Spark Streaming)
32.Flink核心组件栈:物理部署层、Runtime核心层、API&Libraries层
33.Flink体系架构JobManager,TaskManager
Flink编程模型:SQL,Table API,DataStream/DataSet API(核心API),有状态数据流处理
版权归原作者 weixin_48332297 所有, 如有侵权,请联系我们删除。