大数据面试核心101问【大厂超级喜欢这些题】

之前出过《史上最全的大数据开发八股文》这篇文章，同学们都觉得还不错，但是有些同学觉得那个背起来还是有些吃力，于是我再次回顾了自己之前面试所有大厂的一些面试题以及牛客上面的一些面经，然后总结了频率问的最高的101问，包括了大数据、java、计算机网络、操作系统、数据库、HQL、场景题等内容

注意：以下顺序就是按照科目来进行划分的，重要性不分先后

HDFS的架构 7
HDFS的读写流程 7
小文件过多有什么危害，你知道的解决办法有哪些 8
join原理 9
yarn 的任务提交流程是怎样的 10
简述什么是CAP理论，zookeeper满足CAP的哪两个 11
简述flume基础架构 13
请说一下你提到的几种source的不同点 14
kafka是如何保证数据不丢失和数据不重复 16
kafka中的数据是有序的吗，如何保证有序的呢 18
HBase和hive的区别 21
HBase在写过程中的region的split时机 22
说一下HBase 的 rowkey 设计原则 23
hive的join底层实现 25
Order By和Sort By的区别 26
行转列和列转行函数 26
Hive优化 29
简述hadoop 和 spark 的不同点（为什么spark更快） 31
简述spark的shuffle过程 31
spark的作业运行流程是怎么样的 33
你知道Application、Job、Stage、Task他们之间的关系吗 34
Spark常见的算子介绍一下（10个以上） 34
简述groupByKey和reduceByKey的区别 35
宽依赖和窄依赖之间的区别 35
简单介绍一下Flink 39
Flink和SparkStreaming区别 39
简述Flink运行流程（基于Yarn） 40
Connect算子和Union算子的区别 40
Flink的时间语义有哪几种 * 40
Flink 是如何保证 Exactly-once 语义的 42
java的深拷贝和浅拷贝的区别 43
java中==和equals的区别 44
String和StringBuffer、StringBuilder的区别 44
简述面向对象三大特征 45
java中方法重载和重写的区别 46
HashMap底层实现 47
HashMap扩容过程 48
ConcurrentHashMap原理 48
java反射机制 49
异常体系 49
JVM垃圾收集器 55
java实现多线程有几种方式 59
线程池相关内容 60
TCP是如何做到可靠传输的 63
TCP和UDP的区别 63
浏览器输入URL到显示页面的过程 64
进程和线程的区别 64
简述事务 66
数据库事务并发会引发哪些问题 66
事务的四个隔离级别有哪些 67
MVCC讲一下（怎么实现） 67
为什么要对数据仓库分层 67
维度建模中表的类型 68
事实表的设计过程 69
留存问题 71
数据倾斜 72

标签：大数据面试 hadoop

本文转载自: https://blog.csdn.net/qq_42397330/article/details/129330384
版权归原作者 三石大数据 所有，如有侵权，请联系我们删除。

大数据面试核心101问【大厂超级喜欢这些题】

发表评论

“大数据面试核心101问【大厂超级喜欢这些题】”的评论:

关于作者

overfit同步小助手

相关阅读

文章导航