Flink checkpoint 源码分析- Flink Checkpoint 触发流程分析

Flink的checkpoint的过程依赖于异步屏障快照算法,该算法在《Lightweight Asynchronous Snapshots for Distributed Dataflows》这篇paper中被提出。理解了这篇paper也就明白了flink的chekpoint机制。paper整体来

flink sql 优化

不是所有job资源越堆越多好。有时作业的复杂或数据的特殊情况(外部系统性能除外,例如写数据库),增加资源只会让job性能越来越差或报错(亲身经历job性能差,特别痛苦,一直加资源性能还是差或运行报错)。需要不断找根源问题,多使用不同方法测试才能找到适合job的处理性能。如果优化很多次后job性能还是

19、Flink 的 State Backends 配置详解

Flink 的 State Backends 配置详解

大数据Hive中的UDF:自定义数据处理的利器(上)

在大数据技术栈中,扮演着数据仓库的关键角色,它提供了丰富的数据操作功能,并通过类似于SQL的HiveQL语言简化了对Hadoop数据的处理。然而,内置函数库虽强大,却未必能满足所有特定的业务逻辑需求。此时,用户定义函数(UDF)的重要性便凸显出来。Hive UDF)是Hive中的一种扩展机制,它允许

大数据最全《离线和实时大数据开发实战》(一)构建大数据开发知识体系图谱

比如离线的主要数据处理技术是基于 Hadoop MapReduce 的 Hive ,而 Hive 是一种 SQL on Hadoop 的技术,但类似的 SQL on Hadoop 技术和框架还有很多,比如 Cloudera 的 Impala ,Apache Druid 以及 Presto、Shark

【大数据】Hadoop 2.X和1.X升级优化对比

一文详解hadoop 2.X版本对于1.X版本做出的优化和升级

Hbase基础操作Demo(Java版)

HBase Java基础操作样例

Flink CDC 原理

Flink CDC(Change Data Capture)是 Apache Flink 提供的一个变更数据捕获工具集。它可以监控数据库的变更,并将这些变更实时地以流的形式提供给下游系统,这些变更包括插入、更新和删除操作。Flink CDC 适用于需要实时数据管道和数据流处理的场景,如实时数据分析、

实验四 Spark Streaming编程初级实践

数据流:数据流通常被视为一个随时间延续而无限增长的动态数据集合,是一组顺序、大量、快速、连续到达的数据序列。通过对流数据处理,可以进行卫星云图监测、股市走向分析、网络攻击判断、传感器实时信号分析。

Flink时间语义 | 大数据技术

Flink中,时间通常分为三类EventTime:事件(数据)时间,是事件/数据真真正正发生时/产生时的时间IngestionTime:摄入时间,是事件/数据到达流处理系统的时间ProcessingTime:处理时间,是事件/数据被处理/计算时的系统的时间Flink的三种时间语义中,处理时间和摄入时

hadoop报错:HADOOP_HOME and hadoop.home.dir are unset. 解决方法

1.下载apache-hadoop-3.1.0-winutils-master。

记录一次脏数据导致flink任务失败的处理

这个报错,我记得以前有字符长度不够时,日志会记录是哪个字段长度不够导致的,但这次的日志没有指出具体是哪个字段有问题,排查发现应该不是mysql字段长度不够导致,后来在网上看可能是时间类型字段不匹配也会导致此报错。最终抓取到异常数据,有个日期相关的字段值为‘0024-01-16’(正确的应该为2024

linux搭建hadoop集群

  Hadoop是一个由Apache基金会所开发的分布式系统基础架构。用户可以在不了解分布式底层细节的情况下,开发分布式程序。充分利用集群的威力进行高速运算和存储。Hadoop实现了一个分布式文件系统( Distributed File System),其中一个组件是HDFS(H

Spark中方法运用

spark.read的具体操作,在创建Dataframe之前,为了支持RDD转换成Dataframe及后续的SQL操作,需要导入import.spark.implicits._包启用隐式转换。Spark SQL是Spark用来处理结构化数据的一个模块,它提供了一个编程抽象结构叫做DataFrame的

spark方法

Spark是一个开源的、大规模的、快速的数据处理引擎,专为大规模数据处理而设计。它提供了一个统一的编程模型来处理批处理、交互式查询、实时流处理和图计算等多种类型的数据处理任务。Scala源自Java,构建在JVM之上,与Java兼容、互通。Scala的优势:1.多范式编程:(1)面向对象编程:每个值

spark

在进行处理时,reduceByKey()方法将相同键的前两个值传给输入函数,产生一个新的返回值,新产生的返回值与RDD中相同键的下一个值组成两个元素,再传给输入函数,直到最后每个键只有一个对应的值为止。使用flatMap()方法时先进行map(映射)再进行flat(扁平化)操作,数据会先经过跟map

Hadoop伪分布式平台搭建

搭建Hadoop伪分布式环境是在单台机器上模拟完整的Hadoop分布式系统,使得所有的Hadoop守护进程(如NameNode、DataNode、ResourceManager、NodeManager等)都在同一台机器上运行。这样可以在一台机器上体验Hadoop的分布式特性,适合学习、测试和开发。

hadoop大数据原理与应用------初识Hadoop数据集

这样,整个集群就可以协同工作,处理大数据集的计算和存储任务。在执行`start-dfs.sh`之前,需要确保Hadoop的配置文件已经正确设置,包括`hdfs-site.xml`、`core-site.xml`等,并且集群中的所有节点都能够相互通信。在这个例子中,`hadoop-master`、`h

Hive详解(一篇文章让你彻底学会Hive)

最详细的Hive讲解,一篇既可以学会hive的相关知识。

列族:HBase中列族的概念和用法

1.背景介绍HBase是一个分布式、可扩展、高性能的列式存储系统,基于Google的Bigtable设计。HBase提供了一种高效的数据存储和查询方法,可以处理大量数据并提供快速的读写操作。HBase的核心数据结构是列族(column family),这一概念在HBase中非常重要,对于HBase的

登录可以使用的更多功能哦! 登录
作者榜
...
资讯小助手

资讯同步

...
内容小助手

文章同步

...
Deephub

公众号:deephub-imba

...
奕凯

公众号:奕凯的技术栈