overfit同步小助手

2024-06-10 12:04:00

Spark中的Driver、Executor、Stage，2024年最新写给大数据开发软件工程师的3条建议

工作流程：

Driver 创建 SparkSession 并将应用程序转化为执行计划，将作业划分为多个 Stage，并创建相应的 TaskSet。
Driver 将 TaskSet 发送给 TaskScheduler 进行调度和执行。
TaskScheduler 根据资源情况将任务分发给可用的 Executor 进程执行。
Executor 加载数据并执行任务的操作，将计算结果保存在内存中。
Executor 将任务的执行结果返回给 Driver。
DAGScheduler 监控任务的执行状态和依赖关系，并根据需要调整任务的执行顺序和依赖关系。
TaskScheduler 监控任务的执行状态和资源分配情况，负责任务的调度和重新执行。

在 Spark 中，有多个概念和组件相互协作，以实现分布式数据处理。下面是这些概念和组件的详细说明及它们之间的工作关系：

Driver（驱动器）：

Driver 是 Spark 应用程序的主要组件，负责整个应用程序的执行和协调。
它包含了应用程序的主函数，并将用户程序转化为执行计划。
Driver 与集群管理器通信，请求资源，并监控应用程序的执行状态。
它还与 Executor 进程进行通信，发送任务并接收任务执行结果。

Executor（执行器）：

E

标签：大数据 spark 分布式

本文转载自: https://blog.csdn.net/2401_84166878/article/details/137489752
版权归原作者 2401_84166878 所有，如有侵权，请联系我们删除。

发表评论

登录后发布评论

“Spark中的Driver、Executor、Stage，2024年最新写给大数据开发软件工程师的3条建议”的评论:

还没有评论

关于作者

overfit同步小助手

文章同步

相关阅读

网络安全法-网络运行安全

使用selenium/drissionpage时如何阻止chrome自动跳转http到https

docker desktop 里部署的Open WebUI 管理员密码忘记了的处理方法

在ubuntu20.04中搭建onsite比赛运行环境

利用开源的低代码表单设计器FcDesigner高效管理和渲染复杂表单结构

Kafka学习笔记

【前端】浏览器输入url到页面呈现发生了什么？

文章导航