0


数据仓库面试题集&离线&实时

一、Flink面试问题集

1、 Flink是如何实现 End-To-End Exactly-once的?

  • Source端
  • transform
  • Sink端 flink+kafka 如何保证精准一次 - 支持事务+两阶段提交

2、Flink提交方式, 使用pre-job还是yarn-session模式,以及Application模式,好处?

  • Flink提交模式
  • 模式对比

3、Flink UV统计实现

  • set
  • 布隆过滤器+redis 有误差
  • HyperLogLog

4、Flink的CEP实现延迟支付提醒

  • Flink CEP 编程

5、Flink Join方式

  • 官方介绍
  • flink join
  • 与regular join相比较,interval join只支持带有时间属性的append-only流
  • 广播流 实现动态配置

6、Time-Watermark
7、动态表
8、Flink数据倾斜如何处理
9、GC导致的 Shuffle文件拉取失败,报错 Shuffle file not found

二、Spark面试问题集

1、RDD介绍 五大特性
2、缓存策略 cache、persist、checkpoint
3、任务调度 - 提交模式 yarn-client yarn-cluster避免driver热点问题
4、数据倾斜
5、Flink中的Checkpoint和Spark中的Checkpoint区别
6、参数调优
7、常用算子

  • 算子使用

三、数据仓库

酒店行业数据仓库

数据仓库设计

  • HZ数据仓库建模
  • 数据建模-业务分类、数据域、主题

1、数仓搭建规范说一下,表命名规范、数仓分层、数仓主题、数据域、业务域等

2、结合自己负责的业务主线,详细简述一个主题,业务流程、概念模型、实体节点

3、主题域-一级主题-业务过程 ,描述自己在这个过程中做了哪些事情

在这里插入图片描述

参考:
https://blog.csdn.net/weixin_40035038/article/details/135521590
Flink目录导读
大数据知识面试题-Spark(2022版)


本文转载自: https://blog.csdn.net/wuxintdrh/article/details/143662342
版权归原作者 宝哥大数据 所有, 如有侵权,请联系我们删除。

“数据仓库面试题集&离线&实时”的评论:

还没有评论