大数据 - overfit.cn

RabbitMQ的Web管理页面

为了让各个用户可以互不干扰的工作，RabbitMQ添加了虚拟主机（Virtual Hosts）的概念。其实就是一个独立的访问路径，不同用户使用不同路径，各自有自己的队列、交换机，互相不会影响。无论生产者还是消费者，都需要与RabbitMQ建立连接后才可以完成消息的生产和消费，在这里可以查看连接情况。

overfit同步小助手 2024-07-20 17:03:38 0 收藏

Flink-Watermark机制详解：(第39天)

Watermark机制，在Apache Flink这样的流处理框架中，扮演着至关重要的角色，特别是在处理事件时间（Event Time）窗口时，它能够有效解决数据乱序和延迟到达的问题，本文对Watermark机制的详细解析，涵盖其定义、原理、应用场景、核心算法以及优化策

overfit同步小助手 2024-07-20 16:03:24 0 收藏

【大数据离线项目四：什么是海豚调度？怎么使用可以将海豚调度应用到我们的大数据项目开发中？】

Apache DolphinScheduler（海豚调度）是一个分布式、去中心化、易扩展的可视化DAG工作流任务调度系统，致力于解决数据处理流程中错综复杂的依赖关系，使调度系统在数据处理流程中开箱即用。Apache DolphinScheduler 旨在解决复杂的大数据任务依赖关系，并为应用程序提供

overfit同步小助手 2024-07-20 15:03:45 0 收藏

数仓工具—Hive语法之正则表达式函数

在我的其他文章中，我们已经看到了如何使用Hive正则表达式从字符串中提取日期值。正则表达式的另一个常见用途是提取数值，例如从字符串数据中提取区号或电话号码。当您处理不同的数据源时，可能需要从给定的字符串类型列中提取数字值，如电话号码或区号。例如，考虑下面的Hive示例，使用函数中的不同表达式从字符串

overfit同步小助手 2024-07-20 15:03:42 0 收藏

kafka启动报错(kafka.common.InconsistentClusterIdException)

错误原因是这个错误表明 Kafka 服务器在启动时遇到了一个严重问题，导致它无法正确加入集群。错误信息中指出了一个矛盾的集群 ID，即当前 Kafka 服务器尝试加入的集群 ID 与存储在 meta.properties 文件中的集群 ID 不匹配。

overfit同步小助手 2024-07-20 15:03:17 0 收藏

深入了解 Kafka 和 Pulsar 的区别

在本篇博文中，我们将深入探讨 Apache Kafka 和 Apache Pulsar 之间的主要区别。通过研究这两个消息传递系统的核心区别和独特功能，我们希望让您初步了解它们的核心机制和实现。我们希望这种分析不仅能帮助您在两者之间做出选择时做出明智的决定，而且还能作为宝贵的资源来支持进一步探索和理

overfit同步小助手 2024-07-20 14:03:42 0 收藏

【大数据】—量化交易实战案例双均线策略（移动平均线）

声明：股市有风险，投资需谨慎！本人没有系统学过金融知识，对股票有敬畏之心没有踏入其大门，今天用另外一种方法模拟炒股，后面的模拟的实战全部用同样的数据，最后比较哪种方法赚的钱多。，也被称为算法交易，是一种使用数学模型和计算机算法来分析市场数据、识别交易机会并自动执行交易的交易方式。这种交易方法依赖于统

overfit同步小助手 2024-07-20 14:03:38 0 收藏

Kafka topic消息清理几种方式

执行命令bin/kafka-topics.sh --delete --topic test --zookeeper zk:2181或者使用kafka-manage集群管理工具删除。参考链接：https://cloud.tencent.com/developer/article/1590094。，只需

overfit同步小助手 2024-07-20 12:03:09 0 收藏

认识流式处理框架Apache Flink

Apache Flink 是一个框架和分布式处理引擎，用于在无边界和有边界数据流上进行有状态的计算。Flink 能在所有常见集群环境中运行，并能以内存速度和任意规模进行计算。近年来Apache Flink计算框架发展迅速，Flink以流处理为基础，对批数据也有很好的支持，尤其是在流计算领域相

overfit同步小助手 2024-07-20 11:03:27 0 收藏

Kafka 学习手册中文第二版（一）

本书旨在帮助您熟悉 Apache Kafka，并解决与发布者-订阅者架构中数百万条消息消耗相关的挑战。它旨在让您开始使用 Kafka 进行编程，以便您将有一个坚实的基础，深入研究不同类型的 Kafka 生产者和消费者的实现和集成。除了解释 Apache Kafka 之外，我们还花了一章的时间探索 K

overfit同步小助手 2024-07-20 10:03:43 0 收藏

Apache Flink：实时流处理与批处理的统一框架

Apache Flink是一个强大的实时流处理和批处理框架，它打破了传统流处理和批处理的界限，提供了一个统一的平台来处理各种类型的数据。通过其精确一次的状态一致性、高吞吐量、低延迟等特性，Flink已经被广泛应用于各种实时分析和批处理任务中。

overfit同步小助手 2024-07-20 08:03:54 0 收藏

大数据做「AI大模型」数据清洗调优基础篇

其次，对于像HDFS这种分布式文件系统来说，为了控制数据同步的速率，可以通过DN的bandwith来控制台数据复制的带宽大小，如果服务本身的这种带宽限制比较小的话呢，也会影响数据同步的效率，所以一般而言，要根据整个集群的规模大小，所处的场景是单纯存储还是单纯计算还是存储和计算都有，如果是单存储场景的

overfit同步小助手 2024-07-20 08:03:42 0 收藏

Kafka基础组件图推演

虽然每个分区的同步过程是独立的，但每个Broker会为它所管理的每个分区（无论是Leader还是Follower）启动相应的复制线程，这些线程负责处理具体的同步任务。每个分区的Leader和Follower之间的同步是独立进行的。是Kafka的网络通信框架的一个核心部分，负责管理和调度网络请求。一个

overfit同步小助手 2024-07-20 08:03:27 0 收藏

大数据前沿技术分享——数据编织：现代数据管理的革命性方法

数据编织（Data Fabric）是一种现代数据管理架构，旨在通过集成、管理和提供数据访问来简化复杂的数据环境。它利用自动化和智能技术，如机器学习和人工智能，来实现数据的无缝连接和统一视图，帮助企业更高效地管理和利用数据资源。数据编织不仅仅是一个技术解决方案，它更是一种战略方法，旨在解决数据孤岛、数

overfit同步小助手 2024-07-20 06:03:48 0 收藏

Spark基于DPU的Native引擎算子卸载方案

随着SSD和万兆网卡普及以及I/O技术的提升，Spark用户的数据负载计算能力逐渐受到CPU性能瓶颈的约束。由于Spark本身基于JVM的Task计算模型的CPU指令优化，要远远逊色于其他的Native语言（C++等），再加上开源社区的Native引擎已经发展得比较成熟，具备优秀的量化执行能力，这就

overfit同步小助手 2024-07-20 06:03:31 0 收藏

Zookeeper与Apache Hadoop的集成与应用

1.背景介绍Zookeeper与Apache Hadoop的集成与应用Apache Zookeeper是一个开源的分布式应用程序协调服务，它为分布式应用提供一致性、可靠性和可扩展性。Zookeeper可以用来实现分布式协调服务、配置管理、集群管理、命名注册、分布式同步等功能。Apache Hadoo

overfit同步小助手 2024-07-20 06:03:24 0 收藏

RabbitMQ(1)

RabbitMQ知识点

overfit同步小助手 2024-07-20 05:04:04 0 收藏

大数据国赛第2套任务B-子任务一数据抽取

抽取shtd_store库中order_detail的增量数据进入Hudi的ods_ds_hudi库中表order_detail，根据ods_ds_hudi.order_detail表中create_time作为增量字段，只将新增的数据抽入，字段名称、类型不变，同时添加分区，分区字段为etl_dat

overfit同步小助手 2024-07-20 05:03:51 0 收藏

Spark SQL函数

开窗函数row_number()是Spark SQL中常用的一个窗口函数，使用该函数可以在查询结果中对每个分组的数据，按照其排列的顺序添加一列行号（从1开始），根据行号可以方便地对每一组数据取前N行（分组取TopN）。上述代码中，df指的是DataFrame对象，使用s

overfit同步小助手 2024-07-20 05:03:41 0 收藏

Spring Kafka常用配置详解

spring kafka常用配置

overfit同步小助手 2024-07-20 05:03:29 0 收藏