【大数据】Flink 详解(七):源码篇 Ⅱ

调度器是 Flink 作业执行的核心组件,管理作业执行的所有相关过程,包括 JobGraph 到 ExecutionGraph 的转换、作业生命周期管理(作业的发布、取消、停止)、作业的 Task 生命周期管理(Task 的发布、取消、停止)、资源申请与释放、作业和 Task 的 Faillover

flink入门-流处理

flink入门-流处理

大数据Flink(五十九):Flink on Yarn的三种部署方式介绍以及注意

如果使用的是flink on yarn方式,想切换回standalone模式的话,需要删除文件:【/tmp/.yarn-properties-root】到这里,我们以 Pre-Job 的方式成功部署了 PyFlink 的作业!但是会话模式的话,如果是kill掉任务,其不会执行自动删除这个文件的步骤,

Hadoop --- HDFS介绍

HDFS 文件存储系统。适合一次写入,多次读出的场景。HDFS不需要单独安装,安装Hadoop的时候带了HDFS系统。

Log4j2 配置日志记录发送到 kafka 中

log4j2 在 2.11.0 之后的版本,已经内置了 KafkaAppender 支持可以将打印的日志直接发送到 kafka 中,在这之前如果想要集中收集应用的日志,就需要自定义一个 Layout 来实现,相对来说还是比较麻烦的。

【Hive/Spark】常见参数配置

(用于spark3中字段类型不匹配(例如datetime无法转换成date),消除sql中时间歧义,将Spark .sql. LEGACY . timeparserpolicy设置为LEGACY来恢复Spark 3.0之前的状态来转化)(4)set spark.sql.finalStage.adap

深入解读 Flink 1.17

摘要:本文整理自阿里云技术专家,Apache Flink PMC Member & Committer、Flink CDC Maintainer 徐榜江(雪尽) 在深入解读 Flink 1.17 Meetup 的分享。

Git版本管理

Git 是一个分布式版本控制系统,它被广泛用于协作软件开发和管理代码的变更。Git 的设计目标是为了处理速度快、灵活性强、数据完整性好的版本管理需求。以下是 Git 版本管理的详细介绍:版本控制系统 (VCS):Git 是一种版本控制系统,用于跟踪和管理文件的不同版本和变更历史。版本控制系统允许开发

Flink - sink算子

Flink中常见的sink算子,对接Kafka、Redis、ES、自定义sink、jdbc sink。案例代码使用。

【新星计划】Kafka分布式发布订阅消息系统

Producer是消息的生产者,通常情况下,数据消息源可是服务器日志、业务数据及Web服务数据等,生产者采用推送的方式将数据消息发布到Kafka的主题中,主题本质就是一个目录,而主题是由Partition Logs(分区日志)组成,每条消息都被追加到分区中。与点对点消息系统不同的是,消费者可以订阅一

Scala安装步骤详解

Scala安装步骤详解:1.在网页上运行Scala 2.在Windows系统上安装scala 3.在Linux和macOS系统上安装Scala 4.在软件中安装scala插件 1.下载与安装IDEA 2.scala插件的安装与使用 3.安装完成后测试scala插件

【大数据之Hive】二十五、HQL语法优化之小文件合并

小文件优化可以从两个方面解决,在Map端输入的小文件合并,在Reduce端输出的小文件合并。

大数据Hadoop完全分布式及心得体会

认识hadoop,根据所学知识完成作业,并总结本学期心得体会。

数据仓库-核心概念

数据仓库,英文名称为Data Warehouse,可简写为DW或DWH。数据仓库,是为企业所有级别的决策制定过程,提供所有类型数据支持的战略集合。它是单个数据存储,出于分析性报告和决策支持目的而创建。为需要业务智能的企业,提供指导业务流程改进、监视时间、成本、质量及控制。

Hadoop步骤二:设置免密码登录

Hadoop步骤二:安装SHH 一些常见的问题

Hive 的 UDF 函数(Python 版本)

Python 实现 Hive 的 UDF 函数其实非常的简单

以管理员身份修改hosts文件的方法及其在大数据中的应用

通过修改hosts文件,我们可以将不同的节点名称映射到相应的IP地址,从而实现虚拟集群的搭建和管理。通过修改hosts文件,我们可以将不同的节点名称映射到不同的IP地址,从而实现资源调度和负载均衡策略。通过修改hosts文件,我们可以将虚拟节点和主机映射到特定的IP地址,从而模拟分布式集群环境,进行

ApacheCon - 云原生大数据上的 Apache 项目实践

实时数据湖是现代数据架构的核心组成部分,它允许企业实时分析和查询大量数据。在这场分享中,我们将首先介绍实时数据湖目前存在的痛点,比如数据的高时效性,多样性,一致性和准确性等。然后介绍我们如何基于 Flink 和 Iceberg 构建实时数据湖,主要通过如下两部分展开:如何将数据实时入湖、如何使用 F

云计算与大数据入门实验一 —— linux(ubuntu)常用命令

云计算与大数据入门实验一 —— linux(ubuntu)常用命令实验目的Hadoop运行在Linux系统上,因此,需要学习实践一些常用的Linux命令。本实验旨在熟悉常用的Linux操作和Hadoop操作,为顺利开展后续其他实验奠定基础实验平台操作系统:Linux(建议Ubuntu16.04);H

Hadoop分布式集群搭建(三台虚拟机)

搭建hadoop集群完整教程(一步步手把手教你搭建),新建一台虚拟机hadoop01并克隆hadoop02、hadoop03两台虚拟机,配置虚拟机网络,进行配置文件的修改,完成搭建hadoop的分布式集群。

登录可以使用的更多功能哦! 登录
作者榜
...
资讯小助手

资讯同步

...
内容小助手

文章同步

...
Deephub

公众号:deephub-imba

...
奕凯

公众号:奕凯的技术栈