分布式 - overfit.cn

RabbitMQ---交换机-Fanout-Direct

rabbitmq 交换机

overfit同步小助手 2024-07-11 01:03:52 0 收藏

Kafka 实战 - 消费者poll消息的细节与消费者心跳配置

方法来高效拉取消息，同时要关注消费者心跳配置以保持与集群的稳定连接和 rebalance 的正常进行。在实践中，应根据具体业务场景和性能指标调整相关参数，以实现最佳的消费性能和消息处理可靠性。消费者心跳是消费者向群组协调器发送的定期信号，用于表明自己仍处于活跃状态，并维持与 Kafka 的连接。方法

overfit同步小助手 2024-07-11 00:03:47 0 收藏

Kafka数据同步

由于0.11版本之前Kafka的副本备份机依赖HW存数据不一致问题和丢失数据问题，因此在0.11版本引入了 Leader Epoch同步机制解决这个问题。其中Leader负责对应分区的读写、Follower负责同步分区的数据，0.11 版本之前Kafka使用highwatermarker（高水位）机

overfit同步小助手 2024-07-10 19:03:56 0 收藏

【Hadoop实战】Hadoop集群搭建攻略零失误，最完整的Hadoop搭建流程

Hadoop搭建攻略，HDFS教程，MapReduce，网络配置，免密配置，环境配置，核心配置文件，授权访问等等

overfit同步小助手 2024-07-10 18:03:48 0 收藏

Kafka性能优化策略综述：提升吞吐量与可靠性

优化 Kafka 的性能可以从多个方面入手，包括配置调优、架构设计和硬件资源优化。

overfit同步小助手 2024-07-10 14:04:13 0 收藏

Spark动态分区合并底层原理详解：案例解析（第30天）

本文主要详解Spark动态分区合并底层原理和应用场景。

overfit同步小助手 2024-07-10 14:03:53 0 收藏

企业spark案例 —— 出租车轨迹图表展示（头歌）

text: '各出租车平台年使用率'text: '各平台各服务数量'

overfit同步小助手 2024-07-10 12:03:32 0 收藏

Kafka第四篇——生产数据总体概括，源码解析分区策略，数据收集器，Sender发送线程，key值

流程图以及总体概述拦截器分区器以及分区计算策略为啥进行分区计算？producer生产者怎么知道有哪些分区？分区计算如何自定义实现分区器？想说的在图里啦！宝宝！💡如果key值忘记传递了呢！？数据校验数据收集器注意Sender发送线程

overfit同步小助手 2024-07-10 12:03:23 0 收藏

Redisson 分布式限流器 RRateLimiter 的使用及原理

基本使用、实现原理

overfit同步小助手 2024-07-10 11:02:29 0 收藏

arm上的kafka测试

我们通常将Apache Kafka用在两类程序：1. 建立实时数据管道，以可靠地在系统或应用程序之间获取数据；2. 构建实时流应用程序，以转换或响应数据流。模型如下：Producers：可以有很多的应用程序，将消息数据放入到Kafka集群中。Consumers：可以有很多的应用程序，将消息数据从Ka

overfit同步小助手 2024-07-10 09:03:48 0 收藏

Kafka 技术总结

Kafka 是由 LinkedIn 创建并于 2011 年开源的一款分布式流处理平台，通过高吞吐量、低延迟、高可靠性和可扩展性特性，广泛应用于实时数据处理、数据集成与传输、日志和监控、消息队列等场景。创建主题：kafka-topics.sh --create --topic example-topi

overfit同步小助手 2024-07-09 22:03:42 0 收藏

分布式数据处理：Hadoop与Spark的全面比较

1.背景介绍分布式数据处理是大数据时代的必经之路，随着数据规模的不断扩大，单机处理的能力已经不能满足需求。因此，分布式计算技术逐渐成为了主流。Hadoop和Spark是目前最为流行的分布式计算框架之一，它们各自具有不同的优势和应用场景。在本文中，我们将对Hadoop和Spark进行全面的比较，以帮助

overfit同步小助手 2024-07-09 21:03:18 0 收藏

RabbitMQ知识总结一

本文总结RabbitMQ的基础部分

overfit同步小助手 2024-07-09 18:03:35 0 收藏

【spark】新浪新闻网数据采集实时分析项目

该项目是一个基于Spark的综合实训项目，旨在实现对新浪新闻网数据的实时采集和分析。项目包括数据采集（使用Python和Scrapy框架将新浪新闻数据存入MongoDB）、数据转存（使用Scala将数据从MongoDB实时导入HDFS）、数据分析与存储（使用Spark Streaming对HDFS上

overfit同步小助手 2024-07-09 14:03:15 0 收藏

基于RabbitMQ原理的自定义消息队列实现

本项目实现了一个消息队列系统，支持跨域/跨主机消息转发与通信，管理虚拟机、交换机、队列、绑定和消息，实现Direct、Fanout、Topic三种交换机转发方式。系统具有数据持久化、异常恢复、垃圾回收优化存储等功能，基于TCP自定义应用层协议进行网络通信，统一管理硬盘和内存操作，设计虚拟主机功能，实

overfit同步小助手 2024-07-09 13:03:27 0 收藏

zookeeper+kafka

zookeeper是一个开源的分布式的，为分布式框架提供协调服务的Apache项目Kafka 是一个分布式的基于发布/订阅模式的消息队列（MQ，Message Queue），主要应用于大数据实时处理领域。

overfit同步小助手 2024-07-09 12:03:27 0 收藏

Kafka 3.6.1 Kraft模式集群安装

1）缓存/消峰有助于控制和优化数据流经过系统的速度，解决和生产消息和消费者消息的处理速度不一致的情况2）解耦允许你独立的扩展或修改两边的处理过程，只要确保它们遵守同样的接口约束3）异步通信允许用户把一个消息放入队列，但并不立即处理它，然后再需要的时候再去处理它们。

overfit同步小助手 2024-07-09 11:03:52 0 收藏

kafka底层原理性能优化详解：大案例解析(第29天)

Kafka的底层原理涉及多个方面，包括其架构设计、消息传递机制、数据存储结构以及集群管理等。本文是对Kafka底层原理和性能优化的详细解析，并结合实例进行说明。提示：以下是本篇文章正文内容，下面案例可供参考Kafka的底层原理涉及多个方面，包括其架构设计、消息传递机制、数据存储结构以及集群管理等。

overfit同步小助手 2024-07-09 08:03:36 0 收藏

Hadoop框架

Hadoop由Apache Software Foundation开发，是一个用于存储和处理大数据的开源框架。它能够在计算机集群上分布式存储和处理大量数据，并具备高容错性和高可扩展性。Hadoop最初由Doug Cutting和Mike Cafarella开发，并以《指环王》中的角色“哈比人”（Ho

overfit同步小助手 2024-07-09 02:04:15 0 收藏

Hadoop

Hadoop开发是一个针对大规模数据集处理的开源分布式计算框架。以下是关于Hadoop开发的一些关键信息和概念：一、Hadoop概述Hadoop是一个开源的分布式计算框架，主要用于处理大规模数据集。它包含两个核心组件：Hadoop Distributed File System (HDFS) 用于存

overfit同步小助手 2024-07-09 02:04:08 0 收藏