0


面试系列-各种组件问一下(二)

欢迎大家对答案进行补充、勘误,可以私信或者文章底部评论

1、spark宽窄依赖区分
宽依赖:是指一个父RDD分区对应多个子RDD的分区,比如map、filter等算子
窄依赖:是指多个父RDD分区对应一个子RDD分区,比如groupByKey,reduceByKey等算子,会产生shuffler操作
区分:可以通过stage划分,stage是根据是否产生shuffle(宽依赖)操作,将前后划分成2个stage
2、hbase元数据、数据写入
3、hdfs读写原理
4、hive内部表、外部表区别
a.建表时外部表会多一个external关键字
b.删除表时,内部表的原始数据、元数据全删,而外部表只删除外部表
5、hive分区与分桶区别
a.从表现形式上:分区是目录形式,分桶是文件形式
b.从建表语句上:分区是使用partitioned by指定,分桶是clustered by指定
c.从作用上:分区是避免全表扫描,分桶是提高查询效率
6、hive为什么要分桶
a. 获得更高的查询处理效率
b. 使取样效率更高
7、kafka数据倾斜怎么处理
a.在设计数据写入时,需要考虑key是否会重复
b.如果数据确实发生了不均匀,需要重新增加随机前缀将数据重新分区
8、kafka如何保证数据一致性
a.从生产者角度看:可以设置acks=-1,保证不丢数据
b.kafka是有事务的,可以开启幂等性,保证了发送重复数据时,broker都指挥持久化一条,保证了数据不重复
c.从消费者角度看:可以手动提交offset,保证数据不重复消费
9、flink水位介绍一下
a.watermark是衡量event time的机制,可以理解为逻辑始终
b.watermark是和窗口一起使用,触发窗口计算,用于处理迟到数据
10、hbase的rowkey设计原则有哪些
a.rowkey长度原则
b.rowkey散列原则
c.rowkey唯一原则
11、clickhouse用过哪些组件
a.replacingMergeTree引擎会根据主键去重
12、hbase中hmaster作用
a.管理元数据
b.接受用户的命令请求
c.负责监控集群中所有的regionserver,进行负载均衡、故障转移和region的拆分
13、hbase中region server的作用
a.负责数据cell的处理,比如数据写入和查询
b.拆分和合并region的执行
14、介绍下region
a.region是Hbase数据管理的基本单位

15、hdfs数据块损坏怎么处理?
a.检查数据块丢失情况
b.修复指定路径的hdfs文件

标签: 大数据 面试

本文转载自: https://blog.csdn.net/luo981695830/article/details/129952422
版权归原作者 你好,我叫罗鹏程 所有, 如有侵权,请联系我们删除。

“面试系列-各种组件问一下(二)”的评论:

还没有评论