一、Flink面试问题集
1、 Flink是如何实现 End-To-End Exactly-once的?
- Source端
- transform
- Sink端 flink+kafka 如何保证精准一次 - 支持事务+两阶段提交
2、Flink提交方式, 使用pre-job还是yarn-session模式,以及Application模式,好处?
- Flink提交模式
- 模式对比
3、Flink UV统计实现
- set
- 布隆过滤器+redis 有误差
- HyperLogLog
4、Flink的CEP实现延迟支付提醒
- Flink CEP 编程
5、Flink Join方式
- 官方介绍
- flink join
- 与regular join相比较,interval join只支持带有时间属性的append-only流
- 广播流 实现动态配置
6、Time-Watermark
7、动态表
8、Flink数据倾斜如何处理
9、GC导致的 Shuffle文件拉取失败,报错 Shuffle file not found
二、Spark面试问题集
1、RDD介绍 五大特性
2、缓存策略 cache、persist、checkpoint
3、任务调度 - 提交模式 yarn-client yarn-cluster避免driver热点问题
4、数据倾斜
5、Flink中的Checkpoint和Spark中的Checkpoint区别
6、参数调优
7、常用算子
- 算子使用
三、数据仓库
酒店行业数据仓库
数据仓库设计
- HZ数据仓库建模
- 数据建模-业务分类、数据域、主题
1、数仓搭建规范说一下,表命名规范、数仓分层、数仓主题、数据域、业务域等
2、结合自己负责的业务主线,详细简述一个主题,业务流程、概念模型、实体节点
3、主题域-一级主题-业务过程 ,描述自己在这个过程中做了哪些事情
参考:
https://blog.csdn.net/weixin_40035038/article/details/135521590
Flink目录导读
大数据知识面试题-Spark(2022版)
版权归原作者 宝哥大数据 所有, 如有侵权,请联系我们删除。