之前出过《史上最全的大数据开发八股文》这篇文章,同学们都觉得还不错,但是有些同学觉得那个背起来还是有些吃力,于是我再次回顾了自己之前面试所有大厂的一些面试题以及牛客上面的一些面经,然后总结了频率问的最高的101问,包括了大数据、java、计算机网络、操作系统、数据库、HQL、场景题等内容
注意:以下顺序就是按照科目来进行划分的,重要性不分先后
- HDFS的架构 7
- HDFS的读写流程 7
- 小文件过多有什么危害,你知道的解决办法有哪些 8
- join原理 9
- yarn 的任务提交流程是怎样的 10
- 简述什么是CAP理论,zookeeper满足CAP的哪两个 11
- 简述flume基础架构 13
- 请说一下你提到的几种source的不同点 14
- kafka是如何保证数据不丢失和数据不重复 16
- kafka中的数据是有序的吗,如何保证有序的呢 18
- HBase和hive的区别 21
- HBase在写过程中的region的split时机 22
- 说一下HBase 的 rowkey 设计原则 23
- hive的join底层实现 25
- Order By和Sort By的区别 26
- 行转列和列转行函数 26
- Hive优化 29
- 简述hadoop 和 spark 的不同点(为什么spark更快) 31
- 简述spark的shuffle过程 31
- spark的作业运行流程是怎么样的 33
- 你知道Application、Job、Stage、Task他们之间的关系吗 34
- Spark常见的算子介绍一下(10个以上) 34
- 简述groupByKey和reduceByKey的区别 35
- 宽依赖和窄依赖之间的区别 35
- 简单介绍一下Flink 39
- Flink和SparkStreaming区别 39
- 简述Flink运行流程(基于Yarn) 40
- Connect算子和Union算子的区别 40
- Flink的时间语义有哪几种 * 40
- Flink 是如何保证 Exactly-once 语义的 42
- java的深拷贝和浅拷贝的区别 43
- java中==和equals的区别 44
- String和StringBuffer、StringBuilder的区别 44
- 简述面向对象三大特征 45
- java中方法重载和重写的区别 46
- HashMap底层实现 47
- HashMap扩容过程 48
- ConcurrentHashMap原理 48
- java反射机制 49
- 异常体系 49
- JVM垃圾收集器 55
- java实现多线程有几种方式 59
- 线程池相关内容 60
- TCP是如何做到可靠传输的 63
- TCP和UDP的区别 63
- 浏览器输入URL到显示页面的过程 64
- 进程和线程的区别 64
- 简述事务 66
- 数据库事务并发会引发哪些问题 66
- 事务的四个隔离级别有哪些 67
- MVCC讲一下(怎么实现) 67
- 为什么要对数据仓库分层 67
- 维度建模中表的类型 68
- 事实表的设计过程 69
- 留存问题 71
- 数据倾斜 72
版权归原作者 三石大数据 所有, 如有侵权,请联系我们删除。