🌟今天下午面试两家,字节跳动数据研发一面和百度三面,百度那边突然不面了,hr说下个星期再看看,是直接过了还是再来一面,需要和部门商量一下,先来总结一下字节跳动的面试,对百度面试感兴趣的同学可以参考如下文章:
- 链接: 2022百度大数据开发工程师实习面试经历.
- 链接: spark学习之并行度、并发、core数和分区的关系.
👊废话不多上,先上图,这里有个小插曲啊,我简历上的邮箱写错了,赶紧打电话给hr小姐姐,帮我重新发了一下面试链接,小姐姐人真好,给她点赞👍
目录
1. 一面问题
- 面试官先自我介绍了一下(👍)
- 自我介绍(用自己的)
- 说一下你在滴滴出行做的项目(正常的数据建模项目,拉链表项目)
- 你们的数据量大吗?(不太大,企业内部数据,大概几百个g)
- 你说你用的数据仓库分层理论,你说说各层有啥用?为什么要分层?(ods、dwd、dws、app回答一下)
- 你看过什么大数据的书吗?(这里我说的太多了,阿里巴巴大数据之路,spark权威指南、flink教程,hadoop之类的)
- 既然你看过《阿里巴巴大数据之路》,和我说一下维度建模和其他维度建模的特点,以及为什么要采用维度建模?(解释了一下维度建模的原理)
- 我看你有个flink的项目,你介绍一下这个项目?(介绍博客里的项目,问到的频率太高了,我下次好好整理一下)
- 说一下mapreduce的过程?(maptask、reducetask)
- 你在滴滴实现了全体员工表拉链表,说一下为什么使用拉链表,为什么不使用快照表?(解释拉链表)
- 滴滴出行大数据的技术栈有哪?(批处理spark、流处理flink)
- 你们用的olap数据库是什么?存了多少数据?(我们以前用mysql,现在也转换到clickhouse上了,存了几百个g)
- 我看你简历里,学校经历里面你做的项目有点少呀?(我所做的东西都在我的博客里,您可以看下)
- 我看你的博客里写到了日志采集,你知道日志是如何采集的吗?以及采集日志有几种方式吗?(这道理就是我博客里看书的时候写的,很早写的,被挖出来,我只回答了在网页里设置埋点,然后面试官说说到一部分,这道题有点超纲了,跳过。)
- 做题:1. sql 我们有一张表table1,字段有room_id ,create_time,useid分别代表直播间号,用户来到直播间的时间,和用户id,请求出3-4点之间,每分钟的用户数量,直播间粒度?(用户可以进入同一个直播间多次,但只算第一次的进入时间。)(这道题先要分组去重,然后筛选出时间为3-4点之间的,然后分组count()即可,正确完成)
- 你碰见过distinct会执行很久的情况吗?(数据倾斜,所有数据到一个reduce里,会很卡,建议使用group by去重)
- 做题:2. 给你一个字符’([]){]}’,判断合理括号,合理返回true,不合理返回false。(leetcode 20题,用一个栈,即可解决,正确完成)
- 我在你做题段时间看了一下你的博客,各方面都有所涉及,你以后想从事哪方面的工作呢?(把自己创作的博客的东西大致说了一下,还说了一些以后的打算,就当作闲聊了。)
- 你有什么想问的吗?(你就问你想问的,我问了一些部门的问题,和面试要几轮,然后聊了一会)
2. 面试感觉
面试完后,小姐姐叫我回去等hr的通知,整体来说,感觉还行,大多数问题都回答出来了,唯一的不足可能是有些书读的不是很透彻,有些概念能说出为什么这样做,但没法像书上的那些话一样,简练而精准地描述数仓的一些概念,有待加强吧,还有就是,多刷题,sql和算法一起刷,希望我的经历能给大家一点帮助。
版权归原作者 柳小葱 所有, 如有侵权,请联系我们删除。