大数据 - overfit.cn

Flink checkpoint 源码分析- Flink Checkpoint 触发流程分析

Flink的checkpoint的过程依赖于异步屏障快照算法，该算法在《Lightweight Asynchronous Snapshots for Distributed Dataflows》这篇paper中被提出。理解了这篇paper也就明白了flink的chekpoint机制。paper整体来

overfit同步小助手 2024-05-30 13:03:35 0 收藏

flink sql 优化

不是所有job资源越堆越多好。有时作业的复杂或数据的特殊情况(外部系统性能除外，例如写数据库)，增加资源只会让job性能越来越差或报错(亲身经历job性能差，特别痛苦，一直加资源性能还是差或运行报错)。需要不断找根源问题，多使用不同方法测试才能找到适合job的处理性能。如果优化很多次后job性能还是

overfit同步小助手 2024-05-30 12:03:39 0 收藏

19、Flink 的 State Backends 配置详解

Flink 的 State Backends 配置详解

overfit同步小助手 2024-05-30 11:03:27 0 收藏

大数据Hive中的UDF：自定义数据处理的利器（上）

在大数据技术栈中，扮演着数据仓库的关键角色，它提供了丰富的数据操作功能，并通过类似于SQL的HiveQL语言简化了对Hadoop数据的处理。然而，内置函数库虽强大，却未必能满足所有特定的业务逻辑需求。此时，用户定义函数（UDF）的重要性便凸显出来。Hive UDF）是Hive中的一种扩展机制，它允许

overfit同步小助手 2024-05-30 10:03:52 0 收藏

大数据最全《离线和实时大数据开发实战》（一）构建大数据开发知识体系图谱

比如离线的主要数据处理技术是基于 Hadoop MapReduce 的 Hive ，而 Hive 是一种 SQL on Hadoop 的技术，但类似的 SQL on Hadoop 技术和框架还有很多，比如 Cloudera 的 Impala ，Apache Druid 以及 Presto、Shark

overfit同步小助手 2024-05-30 09:03:55 0 收藏

【大数据】Hadoop 2.X和1.X升级优化对比

一文详解hadoop 2.X版本对于1.X版本做出的优化和升级

overfit同步小助手 2024-05-30 08:03:44 0 收藏

Hbase基础操作Demo（Java版）

HBase Java基础操作样例

overfit同步小助手 2024-05-30 07:03:50 0 收藏

Flink CDC 原理

Flink CDC（Change Data Capture）是 Apache Flink 提供的一个变更数据捕获工具集。它可以监控数据库的变更，并将这些变更实时地以流的形式提供给下游系统，这些变更包括插入、更新和删除操作。Flink CDC 适用于需要实时数据管道和数据流处理的场景，如实时数据分析、

overfit同步小助手 2024-05-30 06:03:28 0 收藏

实验四 Spark Streaming编程初级实践

数据流：数据流通常被视为一个随时间延续而无限增长的动态数据集合，是一组顺序、大量、快速、连续到达的数据序列。通过对流数据处理，可以进行卫星云图监测、股市走向分析、网络攻击判断、传感器实时信号分析。

overfit同步小助手 2024-05-30 05:04:01 0 收藏

Flink时间语义 | 大数据技术

Flink中，时间通常分为三类EventTime:事件(数据)时间,是事件/数据真真正正发生时/产生时的时间IngestionTime:摄入时间,是事件/数据到达流处理系统的时间ProcessingTime:处理时间,是事件/数据被处理/计算时的系统的时间Flink的三种时间语义中，处理时间和摄入时

overfit同步小助手 2024-05-30 04:03:49 0 收藏

hadoop报错：HADOOP_HOME and hadoop.home.dir are unset. 解决方法

1.下载apache-hadoop-3.1.0-winutils-master。

overfit同步小助手 2024-05-30 03:03:49 0 收藏

记录一次脏数据导致flink任务失败的处理

这个报错，我记得以前有字符长度不够时，日志会记录是哪个字段长度不够导致的，但这次的日志没有指出具体是哪个字段有问题，排查发现应该不是mysql字段长度不够导致，后来在网上看可能是时间类型字段不匹配也会导致此报错。最终抓取到异常数据，有个日期相关的字段值为‘0024-01-16’（正确的应该为2024

overfit同步小助手 2024-05-30 01:03:54 0 收藏

linux搭建hadoop集群

&emsp;&emsp;Hadoop是一个由Apache基金会所开发的分布式系统基础架构。用户可以在不了解分布式底层细节的情况下，开发分布式程序。充分利用集群的威力进行高速运算和存储。Hadoop实现了一个分布式文件系统（ Distributed File System），其中一个组件是HDFS（H

overfit同步小助手 2024-05-30 00:03:57 0 收藏

Spark中方法运用

spark.read的具体操作，在创建Dataframe之前，为了支持RDD转换成Dataframe及后续的SQL操作，需要导入import.spark.implicits._包启用隐式转换。Spark SQL是Spark用来处理结构化数据的一个模块，它提供了一个编程抽象结构叫做DataFrame的

overfit同步小助手 2024-05-29 23:04:05 0 收藏

spark方法

Spark是一个开源的、大规模的、快速的数据处理引擎，专为大规模数据处理而设计。它提供了一个统一的编程模型来处理批处理、交互式查询、实时流处理和图计算等多种类型的数据处理任务。Scala源自Java，构建在JVM之上，与Java兼容、互通。Scala的优势：1.多范式编程：(1)面向对象编程：每个值

overfit同步小助手 2024-05-29 23:03:56 0 收藏

spark

在进行处理时，reduceByKey()方法将相同键的前两个值传给输入函数，产生一个新的返回值，新产生的返回值与RDD中相同键的下一个值组成两个元素，再传给输入函数，直到最后每个键只有一个对应的值为止。使用flatMap()方法时先进行map（映射）再进行flat（扁平化）操作，数据会先经过跟map

overfit同步小助手 2024-05-29 23:03:51 0 收藏

Hadoop伪分布式平台搭建

搭建Hadoop伪分布式环境是在单台机器上模拟完整的Hadoop分布式系统，使得所有的Hadoop守护进程（如NameNode、DataNode、ResourceManager、NodeManager等）都在同一台机器上运行。这样可以在一台机器上体验Hadoop的分布式特性，适合学习、测试和开发。

overfit同步小助手 2024-05-29 23:03:46 0 收藏

hadoop大数据原理与应用------初识Hadoop数据集

这样，整个集群就可以协同工作，处理大数据集的计算和存储任务。在执行`start-dfs.sh`之前，需要确保Hadoop的配置文件已经正确设置，包括`hdfs-site.xml`、`core-site.xml`等，并且集群中的所有节点都能够相互通信。在这个例子中，`hadoop-master`、`h

overfit同步小助手 2024-05-29 23:03:42 0 收藏

Hive详解（一篇文章让你彻底学会Hive）

最详细的Hive讲解，一篇既可以学会hive的相关知识。

overfit同步小助手 2024-05-29 22:03:57 0 收藏

列族：HBase中列族的概念和用法

1.背景介绍HBase是一个分布式、可扩展、高性能的列式存储系统，基于Google的Bigtable设计。HBase提供了一种高效的数据存储和查询方法，可以处理大量数据并提供快速的读写操作。HBase的核心数据结构是列族(column family)，这一概念在HBase中非常重要，对于HBase的

overfit同步小助手 2024-05-29 20:03:59 0 收藏