就是随便出了一个,可能有许多有错误的地方 ,互相知道就行了 不要较真 毕竟是随心所欲版🤣,划横线的可能会有简答 大题我看有前辈说是实验
一
1.大数据的4V特性:
2.三次信息化浪潮主要解决
3.大数据颠覆了传统思维方式,3个转变:
4.大数据技术的层面:
5.大数据计算模式:
6.云计算的关键技术:
7.搭建集群的时候,namenode,datanode可以在一个节点上
8.云计算服务模式:
7.人类在科学研究上先后经历的四种范式:
8.信息科技在大数据时代提供的3大技术支撑:
9.物联网分为四层
10.物联网的关键技术:
11.大数据与云计算,物联网的关系
二
1Hadoop基于 开发,核心是 都是基于谷歌
- hadoop实验
三
1hdfs(gfs)协调集群的数据存储,而且安全性弱,文件完成后无法修改(rdd)
2hdfs延迟高,hbase延迟低
3hdfs读取时以 为单位,默认 mb
4名称结点有 和 组成(额外的 ),各自作用,工作流程
5数据结点作用
6第二名称结点解决什么问题,解决过程
7hdfs命名空间包括 , 和 。
8名称结点,数据结点和客户端是怎么进行通信的
9数据错误与恢复(3)
- 10hdfs实验
四
1四个坐标确定一个hbase单元格
2hbase是面向 的存储,以 为单位进行分解
3hbase的功能组件:3
4客户端是通过master服务器读取数据吗?如果不是说出如何读取?客户端怎么获取region位置信息?
5三级寻址
6 是负载均衡和数据分发的基本单位, 是实现不同region服务器之间的负载均衡
7zookeeper的作用
8region服务器的工作原理
9habase的核心模块为 , 是它的核心
10hlog是预写式日志,更新数据是先写入日志才能写入memstore缓存
11每个region服务器共用一个hlog
五
1nosql(not only sql)的优点
2和关系数据库比较
查询 数据完整性 一致性
3nosql四大类型
4nosql三大基石
七
1mapreduce抽象为两个函数
3shuffle说出各个端的过程
八
1
2hdfsha解决了 问题,ha集群中设置了一个 节点和一个 节点, 来决定这个。一是通过 来同步editlog,二是通过 来同步元数据信息
3hdfs联邦解决了 问题,它设置了独立的 ,使命名服务扩展,它们共享底层的 存储资源
4访问联邦的多个命名空间采用
5mapreduce1.0的缺陷(资源,jobtracker)和2.0yarn的优势
6hadoop生态系统组件及各自作用
7yarn的目标
8.yarn的组成及作用
九
1Hive借助 和 实现数据的存储处理,用 编写的处理逻辑,最终都要转换成 任务运行。
2 可作为hive的替代工具。Pig是一种数据流语言和运行环境,在Hadoop平台上查询半结构化数据集,将外部数据装载到Hadoop集群中,转化为用户需要的数据格式。
3 为hive提供实时数据访问。Hbase面向列的,分布式的,可伸缩的数据库,可提供数据的实时访问,hive只能处理静态数据。两者互补。
4Hive是一个 的数据集合,用于支持管理决策。它可以保留历史数据
5hive体系结构的4层次:
6hive的系统架构, 包括 和 。 包括 。 是
7hive采用mapreduce完成 处理。缺点为 。而impala支持 。
它们的区别有什么 相同点有什么(各3)
8impala由 , 和 组成各自作用
十
1spark 计算模式也属于 ,但不局限于map和reduce的操作
2spark计算中间结果放入
3spark基于 优于mapreduce的迭代运算效率
(hadoop表达能力有限,磁盘io开销大,延迟高)
4spark的设计理念
5BDAS框架主要部分
spark core
spark sql(开发人员可直接处理rdd)
spark streaming
graphx
mlib
6spark的应用场景
7scala的优点:并发性 语法简洁 兼容Java,运行速度快 支持java python R(在spark shell可进行交互式编程)
8rdd只读记录分区,不能直接修改。有转换(rdd)和行动(值)。
十一
1什么是流计算
2流计算的数据处理流程
3spark stresming 的工作原理
4 spark stresming 与storm的对比
版权归原作者 优雅的榴莲 所有, 如有侵权,请联系我们删除。