分布式事务,zookeeper,dubbo,rocketmq
CAP理论是分布式领域中非常重要的一个指导理论,C(Consistency)表示强一致性,A(Availability)表示可用性,P(Partition Tolerance)表示分区容错性,CAP理论指出在目前的硬件条件下,一个分布式系统是必须要保证分区容错性的,而在这个前提下,分布式系统要么保证
高冷学霸给我送了一周早餐竟是为了...我的Spark笔记?!!
速度快:由于ApacheSpark支持内存计算,并且通过DAG(有向无环图)执行引擎支持无环数据流,所以官方宣称其在内存中的运算速度要比Hadoop的MapReduce快100倍,在硬盘中要快10倍易使用:Spark的版本已经更新到了Spark3.1.2(截止日期2021.06.01),支持了包括J
Kafka可用与可靠机制
如果一个follower在设定的replica.lag.time.max.ms时间周期内时刻保持与leader的数据更新,则认为该follower是同步的,它将被leader保留在ISR列表中,反之将被从ISR中剔除。是否允许将新leader切换到数据不同步的follower(故障切换时,uncle
深入了解Hadoop:特性与伪分布式运行进程
Hadoop是一个强大的分布式计算框架,它能够对大规模数据进行可靠、高效和可伸缩的处理。随着数据量的不断增长,企业对于处理大规模数据的需求也越来越高,Hadoop因此成为了大数据处理领域的首选技术。本文将深入探讨Hadoop的特性以及伪分布式运行启动后所具有的进程。
安装配置Kafka
一个典型的Kafka集群中包含若干Producer(可以是Web前端FET,或者是服务器日志等),若干Broker(Kafka支持水平扩展,一般Broker数量越多,集群吞吐率越高),若干ConsumerGroup,以及一个ZooKeeper集群。Producer使用push模式将消息发布到Brok
RabbitMQ消息重复的原因与解决方案
对于消息队列(MQ)来说,消息丢失/消息重复/消费顺序/消息堆积是比较常见的问题,都属于消息异常,这几个问题比较重要,面试中也会经常问到。
【Hadoop】 实践总结
本文将以离线批处理大数据为例,演示简单的Hadoop流程,不作过多理论概念介绍。具体内容具体可分为:1、文件导入Hdfs;2、MapReduce作业;3、Hive建模;4、Sqoop数据抽取。
SpringBoot3的RabbitMQ消息服务
配置一个fanout类型的交换器,不需要指定对应的路由键(Routing key),同时会将消息路由到每一个消息队列上,然后每个消息队列都可以对相同的消息进行接收存储,在同一交换器下的所有队列都将收到消息。配置一个direct类型的交换器,并指定不同的路由键值(Routing key)将对应的消息从
【数仓】Kafka消息可视化工具:Offset Explorer(原名kafka Tool)
Offset Explorer(以前称为Kafka Tool)是一个用于管理和使用Apache Kafka®集群的GUI应用程序。它提供了一个直观的界面,允许用户快速查看Kafka集群中的对象以及集群主题中存储的消息。它包含面向开发人员和管理员的功能。Offset Explorer仅供个人使用。未经
kafka的Docker镜像使用说明(wurstmeister/kafka)
在hub.docker.com网站上,Star最多的kafka镜像是wurstmeister/kafka,今天一起来实践这个镜像,使用此镜像搭建kafka环境,并且生产和消费消息;
Kafka SASL_SSL双重认证
kafka提供了多种安全认证机制,主要分为SASL和SSL两大类。在 Kafka 中启用 SASL_SSL 安全协议时,SASL 用于客户端和服务器之间的身份验证,SSL 则用于加密和保护数据的传输。不仅提供身份验证,还提供加密和数据保护的功能。因工作需要,需要在测试环境搭建一套基于SASL_SSL
Spark—GraphX实战 OneID
ID Mapping 是OneID 的提前,OneID 是ID Mapping 的结果,所以要想做OneID必须先做ID MappingOneID 是为了打通整个数据体系的数据,所以OneID 需要以服务的方式对外提供服务,在数仓里面就是作为基础表使用,对外的话我们就需要提供接口对外提供服务。
RabbitMQ 的高阶应用及可靠性保证
上篇文章介绍了 RabbitMQ 的基本概念和使用,这篇文章就来介绍下其高阶应用和可靠性保证。
使用Docker部署DataX3.0+DataX-Web
注意:datax_web:3.0.1镜像已经整合了datax3.0和datax-web,整合后的镜像大小约990M。1、准备基础镜像,开通所需端口。
RabbitMQ消息的重复消费问题
消息重复消费是分布式消息传递系统常见的一个问题。:设计消费者的消息处理逻辑,确保即使消息被多次消费也不会对系统造成不良影响。:在消息或处理逻辑中使用唯一标识符,并在消费者中实现去重检查。:通过手动确认(acknowledgment)消息,可以控制消费者何时确认消息,如果处理失败可以选择重新入队或者丢
浅谈 kafka
Kafka传统定义:kafka是一个分布式的基于发布/订阅模式的消息队列。Kafka最新定义:kafka用于构建实时数据处理系统,它具有横向扩展、高可用,速度极快等特点,已经被很多公司使用。
从零开始手写RPC框架(3)——ZooKeeper入门
ZooKeeper简介 ZooKeeper中的一些概念 ZooKeeper安装与常用命令 常用命令 ZooKeeper Java客户端 Curator入门
Kafka入门及生产者详解
传统定义:分布式的、基于发布/订阅模式的消息队列,主要用于大数据实时处理领域。发布/订阅模式中,发布者不会直接将消息发送给特定的订阅者,而是将发布的消息分为不同的类别,订阅者只接受感兴趣的消息。官网最新定义:开源的分布式事件流平台(Event Streaming Platform),用于高性能数据管
Hadoop 专栏
Hadoop 是使用 Java 编写,允许分布在集群,使用简单的编程模型的计算机大型数据集处理的Apache 的开源框架。也是我们最早常用的开源的大数据框架,以至于到现在很多大数据的技术框架底层或者生态都是依赖它的,也是我们学习大数据或者从事互联网的人学习的第一个大数据框架。而且它的思想至今也是很多
Spark Map 和 FlatMap 的比较
本节将介绍Spark中map(func)和两个函数的区别和基本使用。