大数据 - overfit.cn

【Flink】关于jvm元空间溢出，mysql binlog冲突的问题解决

：原理就是我们把原来7张在一个数据库的表放到一个flink source中读取，在指定传输到那个starrocks表时，官方已经实现了代码支持，我们只需要增加一个flink算子转换成sink支持的对象即可，（关联一个source对应多个sink解决思路）可以看官方的issues：https://is

overfit同步小助手 2023-10-12 02:03:48 0 收藏

Flink-Window详细讲解

Flink 窗口是实时数据处理中的关键概念，它允许您将数据流划分为有限的数据集，然后在这些数据集上执行各种计算和分析操作。不同类型的窗口适用于不同的实时数据处理需求，包括时间窗口、计数窗口和会话窗口等。通过合理地应用窗口操作符和聚合函数，您可以轻松实现实时分析、监控、异常检测等功能，为您的业务提供有

overfit同步小助手 2023-10-12 00:03:47 0 收藏

Building a big data platform system, architecture desig

作者：禅与计算机程序设计艺术 1.简介Apache Hadoop是一个开源的分布式计算平台，它可以运行在廉价的商用硬件上，并提供可扩展性和高容错性。作为Hadoop框架的一部分，MapReduce是一种编程模型和执行引擎，用于对大数据集进行并行处理。但是，由于其

overfit同步小助手 2023-10-11 23:03:48 0 收藏

HBase实战：大数据存储技术——学习HBase数据库的应用场景和使用技巧

Apache HBase是一个分布式、可扩展、高性能的NoSQL数据库。它是一个列族数据库，由Apache基金会所开发。它支持稀疏和密集存储，提供了一个高度可伸缩的系统，并能够在线地进行横向扩展。HBase提供了一个高效率的数据访问接口，可以使用SQL或Java API访问HBase数据库。HBas

overfit同步小助手 2023-10-11 20:04:24 0 收藏

Kafka详解

Apache Kafka 是一个分布式发布 - 订阅消息系统和一个强大的队列，可以处理大量的数据，并使你能够将消息从一个端点传递到另一个端点。Kafka 适合离线和在线消息消费。Kafka 消息保留在磁盘上，并在群集内复制以防止数据丢失。Kafka 构建在 ZooKeeper 同步服务之上。它与 A

overfit同步小助手 2023-10-11 20:04:13 0 收藏

SpringBoot 整合 RabbitMQ

把版本改为 2.7.14配置 application.yml文件。

overfit同步小助手 2023-10-11 20:03:28 0 收藏

Flink 流式读写文件、文件夹

overfit同步小助手 2023-10-11 19:03:53 0 收藏

RabbitMq:Topic exchange(主题交换机)的理解和使用

主题交换机的流程，相当于报纸订阅。有一个总报社`(相当于生产者)`发出各种类型的报纸到各个分报社，分报社相当于不同的`交换机`，每种类型报纸相当于不同的`routing_key`，再往下有卖报点去分报社去报纸，但每个卖报点根据消费者的需求所需要的类型不一样。比如一个分报社手里有两种类型的报纸：`新闻

overfit同步小助手 2023-10-11 18:03:23 0 收藏

【保姆级教程—全网最快】一拿出手就羡煞旁人的RabbitMQ安装文档

恭喜所有看到本篇文章的小伙伴，成功解锁了羡煞旁人的RabbitMQ安装文档????通过本文，你将以全网最快的速度部署属于你自己的RabbitMQ????

overfit同步小助手 2023-10-11 17:03:52 0 收藏

Kafka的底层“真面目”

kafka是一个分布式消息队列。具有高性能、持久化、多副本备份、横向扩展能力。生产者往队列里写消息，消费者从队列里取消息进行业务逻辑。一般在架构设计中起到解耦、削峰、异步处理的作用。kafka对外使用topic的概念，生产者往topic里写消息，消费者从读消息。为了做到水平扩展，一个topic实际是

overfit同步小助手 2023-10-11 17:03:46 0 收藏

Flink 应用实践：无限序列生成器

作者：禅与计算机程序设计艺术 1.简介在大数据计算领域，数据的处理方式经历了从离线到实时再到流处理（streaming）的演变。为了能够对流数据进行高效、低延迟地计算和分析，Apache Flink 提供了丰富的 API 和组件来支持各种数据处理工作负载，包括批

overfit同步小助手 2023-10-11 15:04:03 0 收藏

2023_Spark_实验十：RDD基础算子操作

RDD基础算子操作，1. 生成RDD。2. 求交并集，去重结果。 3. cogroup,groupByKey。 4. reduceByKey。

overfit同步小助手 2023-10-11 15:03:29 0 收藏

【hadoop】在linux上设置Hadoop的环境变量

2023/7/15

overfit同步小助手 2023-10-11 14:04:00 0 收藏

大数据Flink（七十六）：SQL的渐进式窗口（CUMULATE）

这类指标是一段周期内的累计状态，对分析师来说更具统计分析价值，而且几乎所有的复合指标都是基于此类指标的统计（不然离线为啥都要累计一天的数据，而不要一分钟累计的数据呢）。渐进式窗口可以认为是首先开一个最大窗口大小的滚动窗口，然后根据用户设置的触发的时间间隔将这个滚动窗口拆分为多个窗口，这些窗口具有相同

overfit同步小助手 2023-10-11 13:03:46 0 收藏

启动 Hadoop 后没有 dataNode 进程

原因：进行 hadoop 格式化的时候没有事先结束所有进程，或者多次进行了 format 导致的 datanode 的 clusterID 和 namenode 的 clusterID 不匹配，从而在启动后没有 datanode 进程。

overfit同步小助手 2023-10-11 12:04:14 0 收藏

ubuntu22.04开机自启动Eureka服务

eurekaService.sh内容为。eureka.service内容为。

overfit同步小助手 2023-10-11 12:03:42 0 收藏

大数据之hadoop入门

是一个分布式系统架构，Apache基金会所开发的。主要解决海量数据的存储和海量数据的分析计算问题。Hadoop通常指一个更广泛的概念，Hadoop生态圈（Hadoop, Hive, ）大数据之父：Doug Cutting，开发了Lucene，一个搜索引擎，类似谷歌搜索引擎。为了在对Lucene进行优

overfit同步小助手 2023-10-11 11:03:58 0 收藏

大数据编程实验二：熟悉常用的HDFS操作

实验目的1、理解HDFS在Hadoop体系结构中的角色2、熟悉使用HDFS操作常用的Shell命令3、熟悉HDFS操作常用的Java API实验平台1、操作系统：Windows2、Hadoop版本：3.1.33、JDK版本：1.8。

overfit同步小助手 2023-10-11 07:03:46 0 收藏

大数据ETL说明（外）

元数据（Metadata）是关于数据的数据，指对数据进行描述和说明的数据，包括数据的标识、类型、格式、来源、创建时间、修改时间等。数据源是数据仓库和数据挖掘系统中数据的来源，对数据的质量和可靠性有直接的影响。它是一个集成的、一致的、历史的、经过清洗的数据存储，可以帮助企业更好地理解其业务和客户，并做

overfit同步小助手 2023-10-11 05:03:47 0 收藏

Kafka3.0.0版本——消费者（消费者组原理）

overfit同步小助手 2023-10-11 04:04:08 0 收藏