2022暑期实习字节跳动数据研发面试经历

🌟今天下午面试两家，字节跳动数据研发一面和百度三面，百度那边突然不面了，hr说下个星期再看看，是直接过了还是再来一面，需要和部门商量一下，先来总结一下字节跳动的面试，对百度面试感兴趣的同学可以参考如下文章：

链接: 2022百度大数据开发工程师实习面试经历.
链接: spark学习之并行度、并发、core数和分区的关系.

👊废话不多上，先上图，这里有个小插曲啊，我简历上的邮箱写错了，赶紧打电话给hr小姐姐，帮我重新发了一下面试链接，小姐姐人真好,给她点赞👍
在这里插入图片描述

1. 一面问题

面试官先自我介绍了一下（👍）
自我介绍（用自己的）
说一下你在滴滴出行做的项目（正常的数据建模项目，拉链表项目）
你们的数据量大吗？（不太大，企业内部数据，大概几百个g）
你说你用的数据仓库分层理论，你说说各层有啥用？为什么要分层？（ods、dwd、dws、app回答一下）
你看过什么大数据的书吗？（这里我说的太多了，阿里巴巴大数据之路，spark权威指南、flink教程，hadoop之类的）
既然你看过《阿里巴巴大数据之路》，和我说一下维度建模和其他维度建模的特点，以及为什么要采用维度建模？（解释了一下维度建模的原理）
我看你有个flink的项目，你介绍一下这个项目？（介绍博客里的项目，问到的频率太高了，我下次好好整理一下）
说一下mapreduce的过程？（maptask、reducetask）
你在滴滴实现了全体员工表拉链表，说一下为什么使用拉链表，为什么不使用快照表？（解释拉链表）
滴滴出行大数据的技术栈有哪？（批处理spark、流处理flink）
你们用的olap数据库是什么？存了多少数据？（我们以前用mysql，现在也转换到clickhouse上了，存了几百个g）
我看你简历里，学校经历里面你做的项目有点少呀？（我所做的东西都在我的博客里，您可以看下）
我看你的博客里写到了日志采集，你知道日志是如何采集的吗？以及采集日志有几种方式吗？（这道理就是我博客里看书的时候写的，很早写的，被挖出来，我只回答了在网页里设置埋点，然后面试官说说到一部分，这道题有点超纲了，跳过。）
做题：1. sql 我们有一张表table1，字段有room_id ,create_time,useid分别代表直播间号，用户来到直播间的时间，和用户id，请求出3-4点之间，每分钟的用户数量，直播间粒度？（用户可以进入同一个直播间多次，但只算第一次的进入时间。）（这道题先要分组去重，然后筛选出时间为3-4点之间的，然后分组count()即可，正确完成）
你碰见过distinct会执行很久的情况吗？（数据倾斜，所有数据到一个reduce里，会很卡，建议使用group by去重）
做题：2. 给你一个字符’([]){]}’，判断合理括号，合理返回true，不合理返回false。（leetcode 20题，用一个栈，即可解决，正确完成）
我在你做题段时间看了一下你的博客，各方面都有所涉及，你以后想从事哪方面的工作呢？（把自己创作的博客的东西大致说了一下，还说了一些以后的打算，就当作闲聊了。）
你有什么想问的吗？（你就问你想问的，我问了一些部门的问题，和面试要几轮，然后聊了一会）

2. 面试感觉

面试完后，小姐姐叫我回去等hr的通知，整体来说，感觉还行，大多数问题都回答出来了，唯一的不足可能是有些书读的不是很透彻，有些概念能说出为什么这样做，但没法像书上的那些话一样，简练而精准地描述数仓的一些概念，有待加强吧，还有就是，多刷题，sql和算法一起刷，希望我的经历能给大家一点帮助。

标签： flink big data spark

本文转载自: https://blog.csdn.net/weixin_48077303/article/details/123283016
版权归原作者 柳小葱 所有，如有侵权，请联系我们删除。

2022暑期实习字节跳动数据研发面试经历

目录

1. 一面问题

2. 面试感觉

发表评论

“2022暑期实习字节跳动数据研发面试经历”的评论:

关于作者

overfit同步小助手

相关阅读

文章导航