太原理工大学大数据期末复习（随心所欲版）

就是随便出了一个，可能有许多有错误的地方，互相知道就行了不要较真毕竟是随心所欲版🤣，划横线的可能会有简答大题我看有前辈说是实验

一

1.大数据的4V特性：

2.三次信息化浪潮主要解决

3.大数据颠覆了传统思维方式，3个转变：

4.大数据技术的层面：

5.大数据计算模式：

6.云计算的关键技术：

7.搭建集群的时候，namenode，datanode可以在一个节点上

8.云计算服务模式：

7.人类在科学研究上先后经历的四种范式：

8.信息科技在大数据时代提供的3大技术支撑：

9.物联网分为四层

10.物联网的关键技术：

11.大数据与云计算，物联网的关系

二

1Hadoop基于开发，核心是都是基于谷歌

hadoop实验

三

1hdfs（gfs）协调集群的数据存储，而且安全性弱，文件完成后无法修改（rdd）

2hdfs延迟高，hbase延迟低

3hdfs读取时以为单位，默认 mb

4名称结点有和组成（额外的），各自作用，工作流程

5数据结点作用

6第二名称结点解决什么问题，解决过程

7hdfs命名空间包括，和。

8名称结点，数据结点和客户端是怎么进行通信的

9数据错误与恢复（3）

10hdfs实验

四

1四个坐标确定一个hbase单元格

2hbase是面向的存储，以为单位进行分解

3hbase的功能组件：3

4客户端是通过master服务器读取数据吗？如果不是说出如何读取？客户端怎么获取region位置信息？

5三级寻址

6 是负载均衡和数据分发的基本单位，是实现不同region服务器之间的负载均衡

7zookeeper的作用

8region服务器的工作原理

9habase的核心模块为，是它的核心

10hlog是预写式日志，更新数据是先写入日志才能写入memstore缓存

11每个region服务器共用一个hlog

五

1nosql（not only sql）的优点

2和关系数据库比较

查询数据完整性一致性

3nosql四大类型

4nosql三大基石

七

1mapreduce抽象为两个函数

3shuffle说出各个端的过程

八

2hdfsha解决了问题，ha集群中设置了一个节点和一个节点，来决定这个。一是通过来同步editlog，二是通过来同步元数据信息

3hdfs联邦解决了问题，它设置了独立的，使命名服务扩展，它们共享底层的存储资源

4访问联邦的多个命名空间采用

5mapreduce1.0的缺陷（资源，jobtracker）和2.0yarn的优势

6hadoop生态系统组件及各自作用

7yarn的目标

8.yarn的组成及作用

九

1Hive借助和实现数据的存储处理，用编写的处理逻辑，最终都要转换成任务运行。

2 可作为hive的替代工具。Pig是一种数据流语言和运行环境，在Hadoop平台上查询半结构化数据集，将外部数据装载到Hadoop集群中，转化为用户需要的数据格式。

3 为hive提供实时数据访问。Hbase面向列的，分布式的，可伸缩的数据库，可提供数据的实时访问，hive只能处理静态数据。两者互补。

4Hive是一个的数据集合，用于支持管理决策。它可以保留历史数据

5hive体系结构的4层次：

6hive的系统架构，包括和。包括。是

7hive采用mapreduce完成处理。缺点为。而impala支持。

它们的区别有什么相同点有什么（各3）

8impala由，和组成各自作用

十

1spark 计算模式也属于，但不局限于map和reduce的操作

2spark计算中间结果放入

3spark基于优于mapreduce的迭代运算效率

（hadoop表达能力有限，磁盘io开销大，延迟高）

4spark的设计理念

5BDAS框架主要部分

spark core

spark sql（开发人员可直接处理rdd）

spark streaming

graphx

mlib

6spark的应用场景

7scala的优点：并发性语法简洁兼容Java，运行速度快支持java python R（在spark shell可进行交互式编程）

8rdd只读记录分区，不能直接修改。有转换（rdd）和行动（值）。

十一

1什么是流计算

2流计算的数据处理流程

3spark stresming 的工作原理

4 spark stresming 与storm的对比

标签：软件工程

本文转载自: https://blog.csdn.net/weixin_65173577/article/details/138182261
版权归原作者 优雅的榴莲 所有，如有侵权，请联系我们删除。

太原理工大学大数据期末复习（随心所欲版）

发表评论

“太原理工大学大数据期末复习（随心所欲版）”的评论:

关于作者

overfit同步小助手

相关阅读

文章导航