分布式 - overfit.cn

Kafka中，如何配置和使用消费者群组？

在 Apache Kafka 中，消费者群组（Consumer Group）是一组订阅相同主题的消费者实例。消费者群组的主要目的是实现消息的共享消费，即一个主题的消息会被分发给群组内的不同消费者，而不是所有消费者都接收所有消息。

overfit同步小助手 2024-10-18 17:03:17 0 收藏

Hadoop

Hadoop 是处理大规模数据的强大工具，它通过 HDFS 提供分布式存储，通过 MapReduce 实现分布式计算，通过 YARN 管理资源，构成了一个高度可扩展的分布式系统。尽管 Hadoop 由于其批处理特点不适用于所有场景，但它在大数据领域依然具有不可替代的重要地位，尤其是在数据湖和批处理任

overfit同步小助手 2024-10-18 15:03:42 0 收藏

RabbitMQ

极端情况就是消费者一直无法执行成功，那么消息requeue就会无限循环，导致mq的消息处理飙升，带来不必要的压力，当然，上述极端情况发生的概率还是非常低的，不过不怕一万就怕万一。不过需要注意的是，交易服务并不知道用户会在什么时候支付，如果查询的时机不正确（比如查询的时候用户正在支付中），可能查询到的

overfit同步小助手 2024-10-18 09:03:39 0 收藏

kafka单条消息过大发送失败

生产者尝试发送到Kafka的消息在序列化后大小超过了Kafka配置中的参数的限制

overfit同步小助手 2024-10-18 06:03:49 0 收藏

如何安装部署kafka

安装和部署需要以下几个步骤，包括下载 Kafka、配置 ZooKeeper（或者使用 Kafka 自带的 Kafka Raft 模式替代 ZooKeeper），以及启动 Kafka 服务。以下是一个但基于 Linux 的典型安装流程，可以根据需要改装到其他操作系统。

overfit同步小助手 2024-10-18 03:04:03 0 收藏

Kafka消息堆积问题排查

背景业务架构图根据微服务重构：Mysql+DTS+Kafka+ElasticSearch解决跨表检索难题所描述，我们使用了Es解决微服务重构中遇到的Mysql库拆分问题，业务架构图如下所示：Kakfa消息堆积导致的数据一致性问题在下午14:15左右，收到用户反馈，短暂时间内，出现了业务数据一致性问

overfit同步小助手 2024-10-18 02:03:11 0 收藏

rabbitmq高可用集群搭建

在进行RabbitMQ搭建时，我们基于现有的连接数据和业务需求进行了深入分析。目前的统计数据显示，连接数为631，队列数为80418。为了确保业务需求的顺利满足，我们需要在云产品和自建RabbitMQ消息队列服务之间做出选择。经过比较发现，即使选择腾讯云的最高规格配置，其Queue数也难以满足我们的

overfit同步小助手 2024-10-18 00:03:49 0 收藏

基于Hadoop的个性化图书推荐系统的设计与实现大数据分析系统(源码+lw+部署文档+讲解等)

💗博主介绍：✌全网粉丝10W+,CSDN特邀作者、博客专家、CSDN新星计划导师、全栈领域优质创作者，博客之星、掘金/华为云/阿里云/InfoQ等平台优质作者、专注于Java、小程序技术领域和毕业项目实战✌💗👇🏻精彩专栏推荐订阅👇🏻2025-2026年最值得选的微信小程序毕业设计选题大

overfit同步小助手 2024-10-18 00:03:43 0 收藏

一场 Kafka CRC 异常引发的血案

间歇性 Kafka CRC 异常

overfit同步小助手 2024-10-17 21:03:25 0 收藏

Kafka-参数详解

我们从producer、consumer、broker三方面对Kafka的参数分别做下整理。

overfit同步小助手 2024-10-17 18:03:45 0 收藏

IT技术分享--kafka消息大小设置

kafka消息大小默认为1M，当需要调整消息大小时，可通过以下方式配置，亲测有效。

overfit同步小助手 2024-10-17 12:03:44 0 收藏

如何在hadoop上进行词频统计（完全分布）

可以通过，web UI的方式查看是否上传成功。进入到这个页面，点击右上角的，Utilities，点击第一个选项，即可查看文件是否上传成功。不要自己创建output目录，如果自己创建了output目录会导致程序运行失败，也可以改一个没有碰到过的命令。那么最后，可以去HDFS的ui查看统计结果，结果存放

overfit同步小助手 2024-10-17 10:03:57 0 收藏

【分布式微服务云原生】windows+docker+mysql5.7.44一主一从主从复制

在Windows系统上通过Docker部署MySQL主从复制，以下是详细的步骤和命令，帮助你设置一主一从的MySQL复制环境。

overfit同步小助手 2024-10-17 08:07:01 0 收藏

Spark高级用法-数据源的读取与写入

使用read和write实现数据导入导出读取mysql数据库的原始数据表在将读取到的数据导入数仓中。

overfit同步小助手 2024-10-17 08:06:03 0 收藏

Spark 任务与 Spark Streaming 任务的差异详解

任务调度：Spark 任务基于静态数据集，采用一次性批处理模式；Spark Streaming 任务基于流数据，采用微批处理模式，每隔一个时间窗口生成新的任务。数据处理：Spark 处理静态的 RDD，数据只计算一次；Spark Streaming 处理离散化的流数据，每个时间窗口生成一个新的 RD

overfit同步小助手 2024-10-16 18:03:33 0 收藏

RabbitMQ 监控与调试

RabbitMQ 的监控与调试是保障消息队列系统稳定运行的关键。通过监控队列深度、消息吞吐量、内存使用等关键指标，可以及时发现性能瓶颈或异常情况。结合 RabbitMQ 提供的管理插件和日志分析工具，能够快速定位问题并进行调试。同时，在生产环境中合理配置死信队列、消息确认机制和连接池，可以有效提升

overfit同步小助手 2024-10-16 10:03:24 0 收藏

RabbitMQ（每秒处理几万到几十万的消息）

当消费者处理完这些消息后，它会发送一个确认信号给 RabbitMQ，告诉 RabbitMQ 可以再次发送消息给它。可以将不同顺序的消息分别发送到不同的队列中，并创建多个消费者，每个消费者只消费其中一个队列中的消息。在消费消息时，消费者必须先确认之前的消息才能继续处理后续的消息。使用该插件后，可以在创

overfit同步小助手 2024-10-16 00:03:31 0 收藏

【分布式微服务云原生】掌握Java分布式事务：2PC、3PC、TCC与Seata全解析

在现代互联网应用中，分布式事务是确保数据一致性的关键技术。本文深入探讨了分布式事务的核心技术，包括两阶段提交（2PC）、三阶段提交（3PC）、TCC（Try-Confirm-Cancel）以及Seata。读者将能够理解这些技术的原理、优缺点以及在实际项目中的应用。

overfit同步小助手 2024-10-16 00:01:56 0 收藏

全面解析数据仓库：发展历程、核心作用与未来趋势

数据湖与数据仓库相结合，可以实现数据的全生命周期管理，既满足数据仓库对高质量数据的需求，又具备数据湖对原始数据的灵活存储和处理能力。在当今信息化社会，数据已经成为企业最重要的资产之一，而数据仓库作为一种能够有效存储、管理和分析大量数据的技术，已经成为各行各业的重要支撑。本文将深入探讨数据仓库的发展历

overfit同步小助手 2024-10-15 22:03:55 0 收藏

Spark 的 Skew Join 详解

数据倾斜指的是当某些key关联了异常大量的数据，而其他key关联的数据量较少时，数据分布的不均衡会导致计算瓶颈。例如，在JOIN操作中，如果表 A 中某个key具有大量的数据，而表 B 中同样的key也有大量数据，当这两个表基于这个key进行JOIN时，由于该key被分配到一个或少数几个分区，相关的

overfit同步小助手 2024-10-15 19:03:53 0 收藏