分布式 - overfit.cn

案例系列：客户流失预测_使用Spark进行特征工程_FeatureTools

问题：在“特征工程”中，我们开发了一个自动化特征工程的流水线，使用客户交易和标签时间的数据集。在单个客户分区上运行此流水线需要大约15分钟，这意味着如果一个一个地完成所有功能，则需要几天时间。解决方案：将数据集分成独立的客户分区，并并行运行多个子集。这可以使用单个机器上的多个处理器或机器集群来完成。

overfit同步小助手 2024-02-17 09:03:31 0 收藏

【RabbitMQ（二）】：Exchange 详解 | Message Convert 消息转换器

💡 后面不再每次强调队列的创建，大家可以自主创建队列来进行模拟或者参考我代码中的队列。👉 监听端和上面的代码相同，没什么变化，仍然指向监听的队列即可，将这两个队列绑定到。👉 所以为了使得预取数量可以按照自己的能力来取得，可以手动将预取的数量设定为。提供了一些 API 去创建新的队列和交换机可以

overfit同步小助手 2024-02-17 08:03:45 0 收藏

怎样查看kafka写数据送到topic是否成功

属性来控制确认级别。当设置为 1 或 all 时，生产者会等待主题的 leader 和副本确认消息的写入，从而确保消息被成功写入到 Kafka。如果写入失败，生产者将会重试发送消息，直到达到确认级别。请注意，Kafka 是一种分布式消息系统，消息的写入和确认可能涉及多个节点和异步操作。：创建一个 K

overfit同步小助手 2024-02-17 06:03:56 0 收藏

RabbitMQ——基于 KeepAlived + HAProxy 搭建 RabbitMQ 高可用负载均衡集群

当单台 RabbitMQ 服务器的处理消息的能力达到瓶颈时，此时可以通过 RabbitMQ 集群来进行扩展，从而达到提升吞吐量的目的。RabbitMQ 集群是一个或多个节点的逻辑分组，集群中的每个节点都是对等的，每个节点共享所有的用户，虚拟主机，队列，交换器，绑定关系，运行时参数和其他分布式状态等信

overfit同步小助手 2024-02-17 05:03:57 0 收藏

Zookeeper的群集管理与监控

1.背景介绍Zookeeper是一个开源的分布式协调服务，它为分布式应用提供一致性、可靠性和原子性的数据管理。Zookeeper的核心功能包括：集群管理、配置管理、分布式同步、组管理、选举等。在分布式系统中，Zookeeper被广泛应用于协调和管理各种服务，如Kafka、Hadoop、Spark等。

overfit同步小助手 2024-02-16 22:03:31 0 收藏

浅学消息队列（Kafka篇）

一提到Kafka大家都想起了什么，反正在我的脑海里会出现这几个词汇：海量数据，发布订阅，日志处理......第一次Kafka印象深刻是在我的一次项目部署过程中。本着我把它全学会了就是我的的思想，恬不知耻的将其一位大神的项目copy了下来。当时就觉得，对于已经能够成功搭建老版本Hadoop的我来说这不

overfit同步小助手 2024-02-16 21:03:52 0 收藏

hadoop面试题

大数据面试必问框架&hadoop（HDFS、YARN、MapReduce）

overfit同步小助手 2024-02-16 20:03:16 0 收藏

RabbitMQ面试题

Exchange是消息的交换机，它接收发布到RabbitMQ的消息，并根据指定的规则将消息路由到一个或多个Queue中。在RabbitMQ中，Queue（队列）是消息的缓冲区，用于存储待处理的消息。RabbitMQ中的死信队列（Dead Letter Queue）是一种特殊的队列，用于存储无法被消费

overfit同步小助手 2024-02-16 19:03:18 0 收藏

分布式消息服务kafka

分布式消息队列(kafka)

overfit同步小助手 2024-02-16 16:03:56 0 收藏

Kafka本地安装⭐️(Windows)并测试生产消息以及消费消息的可用性

2023.12.17 天气晴温度较低一、 kafka简介Kafka 是一个分布式的流处理平台，由 LinkedIn 公司开发。它是一种高吞吐量、低延迟的消息传递系统，主要用于处理实时数据流和日志数据。Kafka 是一个基于发布-订阅（publish-subscribe）的模

overfit同步小助手 2024-02-16 11:03:51 0 收藏

Hadoop-Yarn-ResourceManagerHA

在Hadoop2.4之前，ResourceManager是YARN集群中的单点故障ResourceManager HA是通过 Active/Standby 体系结构实现的，在任何时候其中一个RM都是活动的，并且一个或多个RM处于备用模式，等待在活动发生任何事情时接管。1、判断配置文件中是否配置了HA

overfit同步小助手 2024-02-16 11:03:16 0 收藏

Kafka

Kafka的分区策略主要分为两种，一种是生产者分区策略，另一种是消费者分区策略。对于生产者分区策略，Kafka提供了默认的分区策略，同时也支持用户自定义分区策略。生产者将消息发送到哪个分区的决策过程主要由这个策略决定。对于消费者分区策略，Kafka同样提供了三种选择：RangeAssignor、Ro

overfit同步小助手 2024-02-16 10:03:37 0 收藏

“深入理解RabbitMQ交换机的原理与应用“

RabbitMQ是一个开源的消息代理软件，它遵循AMQP（高级消息队列协议）标准，用于在分布式系统中存储和转发消息。作为消息中间件，RabbitMQ扮演着消息传递和消息队列的角色，允许应用程序之间进行异步通信。RabbitMQ交换机作为消息中间件的核心组件，其灵活的路由规则和丰富的特性为分布式系统和

overfit同步小助手 2024-02-16 07:03:41 0 收藏

Kafka零拷贝技术与传统数据复制次数比较

overfit同步小助手 2024-02-16 06:03:26 0 收藏

go消息队列RabbitMQ - 直连模式与work模式

本文纯属rabbitmq在集中模式下的操作，对于rabbitmq的八股文介绍就不做过多解释了。首先，使用go get安装amqp代码公共部分，所有需要使用到rabbitmq都需要导入amqp。

overfit同步小助手 2024-02-16 04:03:52 0 收藏

【万字长文】带你搞懂Kafka中的所有知识点

本文详细介绍了kafka中的全部知识点。包括：主题、分区、日志、生产者、消费者、集群、事务等详细内容。

overfit同步小助手 2024-02-16 04:03:22 0 收藏

如何为Kafka加上账号密码（二）

上篇文章中我们讲解了Kafka认证方式和基础概念，并比较了不同方式的使用场景。我们在《》中集群统一使用PLAINTEXT通信。Kafka通常是在内网使用，但也有特殊的使用场景需要暴漏到公网上，如果未设置认证的Kafka集群允许通过公网访问，或暴漏给全部研发人员是极不安全的方式。本小节我们就为Kafk

overfit同步小助手 2024-02-16 03:03:53 0 收藏

Spark编程实验五：Spark Structured Streaming编程

通过实验掌握Structured Streaming的基本编程方法；掌握日志分析的常规操作，包括拆分日志方法和分析场景。

overfit同步小助手 2024-02-15 22:03:13 0 收藏

5.0 ZooKeeper 数据模型 znode 结构详解

在 zookeeper 中，可以说 zookeeper 中的所有存储的数据是由 znode 组成的，节点也称为 znode，并以 key/value 形式存储数据。我们直观的看到此时存储的数据在根目录下存在 runoob 和 zookeeper 两个节点，zookeeper 节点下存在 quota

overfit同步小助手 2024-02-15 20:03:22 0 收藏

MQ面试题之Kafka

本文详细介绍了Kafka核心知识，有利于深入理解消息队列。

overfit同步小助手 2024-02-15 19:03:35 0 收藏