面试系列-各种组件问一下（二）

欢迎大家对答案进行补充、勘误，可以私信或者文章底部评论

1、spark宽窄依赖区分
宽依赖：是指一个父RDD分区对应多个子RDD的分区，比如map、filter等算子
窄依赖：是指多个父RDD分区对应一个子RDD分区，比如groupByKey,reduceByKey等算子，会产生shuffler操作
区分：可以通过stage划分，stage是根据是否产生shuffle(宽依赖)操作，将前后划分成2个stage
2、hbase元数据、数据写入
3、hdfs读写原理
4、hive内部表、外部表区别
a.建表时外部表会多一个external关键字
b.删除表时，内部表的原始数据、元数据全删，而外部表只删除外部表
5、hive分区与分桶区别
a.从表现形式上：分区是目录形式，分桶是文件形式
b.从建表语句上：分区是使用partitioned by指定，分桶是clustered by指定
c.从作用上：分区是避免全表扫描，分桶是提高查询效率
6、hive为什么要分桶
a. 获得更高的查询处理效率
b. 使取样效率更高
7、kafka数据倾斜怎么处理
a.在设计数据写入时，需要考虑key是否会重复
b.如果数据确实发生了不均匀，需要重新增加随机前缀将数据重新分区
8、kafka如何保证数据一致性
a.从生产者角度看：可以设置acks=-1，保证不丢数据
b.kafka是有事务的，可以开启幂等性，保证了发送重复数据时，broker都指挥持久化一条，保证了数据不重复
c.从消费者角度看：可以手动提交offset，保证数据不重复消费
9、flink水位介绍一下
a.watermark是衡量event time的机制，可以理解为逻辑始终
b.watermark是和窗口一起使用，触发窗口计算，用于处理迟到数据
10、hbase的rowkey设计原则有哪些
a.rowkey长度原则
b.rowkey散列原则
c.rowkey唯一原则
11、clickhouse用过哪些组件
a.replacingMergeTree引擎会根据主键去重
12、hbase中hmaster作用
a.管理元数据
b.接受用户的命令请求
c.负责监控集群中所有的regionserver，进行负载均衡、故障转移和region的拆分
13、hbase中region server的作用
a.负责数据cell的处理，比如数据写入和查询
b.拆分和合并region的执行
14、介绍下region
a.region是Hbase数据管理的基本单位

15、hdfs数据块损坏怎么处理？
a.检查数据块丢失情况
b.修复指定路径的hdfs文件

标签：大数据面试

本文转载自: https://blog.csdn.net/luo981695830/article/details/129952422
版权归原作者 你好，我叫罗鹏程 所有，如有侵权，请联系我们删除。

面试系列-各种组件问一下（二）

发表评论

“面试系列-各种组件问一下（二）”的评论:

关于作者

overfit同步小助手

相关阅读

文章导航