分布式 - overfit.cn

分布式事务，zookeeper，dubbo，rocketmq

CAP理论是分布式领域中非常重要的一个指导理论，C（Consistency）表示强一致性，A（Availability）表示可用性，P（Partition Tolerance）表示分区容错性，CAP理论指出在目前的硬件条件下，一个分布式系统是必须要保证分区容错性的，而在这个前提下，分布式系统要么保证

overfit同步小助手 2024-04-01 11:03:54 0 收藏

高冷学霸给我送了一周早餐竟是为了...我的Spark笔记？！！

速度快：由于ApacheSpark支持内存计算，并且通过DAG（有向无环图）执行引擎支持无环数据流，所以官方宣称其在内存中的运算速度要比Hadoop的MapReduce快100倍，在硬盘中要快10倍易使用：Spark的版本已经更新到了Spark3.1.2（截止日期2021.06.01），支持了包括J

overfit同步小助手 2024-04-01 04:03:47 0 收藏

Kafka可用与可靠机制

如果一个follower在设定的replica.lag.time.max.ms时间周期内时刻保持与leader的数据更新，则认为该follower是同步的，它将被leader保留在ISR列表中，反之将被从ISR中剔除。是否允许将新leader切换到数据不同步的follower(故障切换时，uncle

overfit同步小助手 2024-04-01 04:03:43 0 收藏

深入了解Hadoop：特性与伪分布式运行进程

Hadoop是一个强大的分布式计算框架，它能够对大规模数据进行可靠、高效和可伸缩的处理。随着数据量的不断增长，企业对于处理大规模数据的需求也越来越高，Hadoop因此成为了大数据处理领域的首选技术。本文将深入探讨Hadoop的特性以及伪分布式运行启动后所具有的进程。

overfit同步小助手 2024-04-01 02:03:47 0 收藏

安装配置Kafka

一个典型的Kafka集群中包含若干Producer（可以是Web前端FET，或者是服务器日志等），若干Broker（Kafka支持水平扩展，一般Broker数量越多，集群吞吐率越高），若干ConsumerGroup，以及一个ZooKeeper集群。Producer使用push模式将消息发布到Brok

overfit同步小助手 2024-03-31 19:03:36 0 收藏

RabbitMQ消息重复的原因与解决方案

对于消息队列（MQ）来说，消息丢失/消息重复/消费顺序/消息堆积是比较常见的问题，都属于消息异常，这几个问题比较重要，面试中也会经常问到。

overfit同步小助手 2024-03-31 18:03:48 0 收藏

【Hadoop】实践总结

本文将以离线批处理大数据为例，演示简单的Hadoop流程，不作过多理论概念介绍。具体内容具体可分为：1、文件导入Hdfs；2、MapReduce作业；3、Hive建模；4、Sqoop数据抽取。

overfit同步小助手 2024-03-31 16:03:53 0 收藏

SpringBoot3的RabbitMQ消息服务

配置一个fanout类型的交换器，不需要指定对应的路由键（Routing key），同时会将消息路由到每一个消息队列上，然后每个消息队列都可以对相同的消息进行接收存储，在同一交换器下的所有队列都将收到消息。配置一个direct类型的交换器，并指定不同的路由键值（Routing key）将对应的消息从

overfit同步小助手 2024-03-31 12:03:39 0 收藏

【数仓】Kafka消息可视化工具：Offset Explorer（原名kafka Tool）

Offset Explorer（以前称为Kafka Tool）是一个用于管理和使用Apache Kafka®集群的GUI应用程序。它提供了一个直观的界面，允许用户快速查看Kafka集群中的对象以及集群主题中存储的消息。它包含面向开发人员和管理员的功能。Offset Explorer仅供个人使用。未经

overfit同步小助手 2024-03-31 12:03:36 0 收藏

kafka的Docker镜像使用说明(wurstmeister/kafka)

在hub.docker.com网站上，Star最多的kafka镜像是wurstmeister/kafka，今天一起来实践这个镜像，使用此镜像搭建kafka环境，并且生产和消费消息；

overfit同步小助手 2024-03-31 10:03:41 0 收藏

Kafka SASL_SSL双重认证

kafka提供了多种安全认证机制，主要分为SASL和SSL两大类。在 Kafka 中启用 SASL_SSL 安全协议时，SASL 用于客户端和服务器之间的身份验证，SSL 则用于加密和保护数据的传输。不仅提供身份验证，还提供加密和数据保护的功能。因工作需要，需要在测试环境搭建一套基于SASL_SSL

overfit同步小助手 2024-03-31 06:03:29 0 收藏

Spark—GraphX实战 OneID

ID Mapping 是OneID 的提前，OneID 是ID Mapping 的结果，所以要想做OneID必须先做ID MappingOneID 是为了打通整个数据体系的数据，所以OneID 需要以服务的方式对外提供服务，在数仓里面就是作为基础表使用，对外的话我们就需要提供接口对外提供服务。

overfit同步小助手 2024-03-31 04:03:48 0 收藏

RabbitMQ 的高阶应用及可靠性保证

上篇文章介绍了 RabbitMQ 的基本概念和使用，这篇文章就来介绍下其高阶应用和可靠性保证。

overfit同步小助手 2024-03-31 02:03:28 0 收藏

使用Docker部署DataX3.0+DataX-Web

注意：datax_web:3.0.1镜像已经整合了datax3.0和datax-web，整合后的镜像大小约990M。1、准备基础镜像，开通所需端口。

overfit同步小助手 2024-03-31 02:02:36 0 收藏

RabbitMQ消息的重复消费问题

消息重复消费是分布式消息传递系统常见的一个问题。：设计消费者的消息处理逻辑，确保即使消息被多次消费也不会对系统造成不良影响。：在消息或处理逻辑中使用唯一标识符，并在消费者中实现去重检查。：通过手动确认（acknowledgment）消息，可以控制消费者何时确认消息，如果处理失败可以选择重新入队或者丢

overfit同步小助手 2024-03-30 16:03:44 0 收藏

浅谈 kafka

Kafka传统定义：kafka是一个分布式的基于发布/订阅模式的消息队列。Kafka最新定义：kafka用于构建实时数据处理系统，它具有横向扩展、高可用，速度极快等特点，已经被很多公司使用。

overfit同步小助手 2024-03-30 15:03:50 0 收藏

从零开始手写RPC框架（3）——ZooKeeper入门

ZooKeeper简介 ZooKeeper中的一些概念 ZooKeeper安装与常用命令常用命令 ZooKeeper Java客户端 Curator入门

overfit同步小助手 2024-03-30 12:03:47 0 收藏

Kafka入门及生产者详解

传统定义：分布式的、基于发布/订阅模式的消息队列，主要用于大数据实时处理领域。发布/订阅模式中，发布者不会直接将消息发送给特定的订阅者，而是将发布的消息分为不同的类别，订阅者只接受感兴趣的消息。官网最新定义：开源的分布式事件流平台（Event Streaming Platform），用于高性能数据管

overfit同步小助手 2024-03-30 11:03:51 0 收藏

Hadoop 专栏

Hadoop 是使用 Java 编写，允许分布在集群，使用简单的编程模型的计算机大型数据集处理的Apache 的开源框架。也是我们最早常用的开源的大数据框架，以至于到现在很多大数据的技术框架底层或者生态都是依赖它的，也是我们学习大数据或者从事互联网的人学习的第一个大数据框架。而且它的思想至今也是很多

overfit同步小助手 2024-03-30 09:03:47 0 收藏

Spark Map 和 FlatMap 的比较

本节将介绍Spark中map(func)和两个函数的区别和基本使用。

overfit同步小助手 2024-03-30 09:03:30 0 收藏