RabbitMQ高可用架构涉及常用功能整理

探讨rabbitmq的系统架构以及以及整体常用的命令和系统分析，本文主要探讨高可用版本的rabbitmq集群，并基于日常工作中的沉淀进行思考和整理。更多关于分布式系统的架构思考请参考文档关于常见分布式组件高可用设计原理的理解和思考

1. rabbitmq的集群模式

rabbitmq不同于kafka，rabbitmq的集群部署一共有3种模式

单机模式（通常不会应用于生产）单机模式就比较简单了，就是我们当最初要接触RabbitMQ的时候，为了快速了解到它的使用方式和特性，可以从官网下载一个RabbitMQ包安装到本机，在线上环境中，是不会采用这种方式的。也根本不存在高可用性了。
普通模式（通常不会应用于生产）在普通模式中，会在N台机器上部署N个RabbitMQ，但是创建的Queue只会在其中的一台机器上，然后N个RabbitMQ直接同步Queue的元数据信息，通过这个元数据信息，就可以找到创建了Queue的那台机器的MQ实例，当有消费者要消费消息的时候，如果请求到了没有Queue的那个实例，那么它会通过Queue的元数据信息将请求转发到Queue所在的那个实例，并将数据拉取出来。这种方式其实并不是真正的分布式，因为每次随机请求到N个RabbitMQ实例上，最终都是需要从Queue所在的实例上获取数据，如果这个实例挂掉了，那么就出现了单点故障，使得整个普通集群模式无法对外提供服务。

那么这种方案并不会提升MQ的高可用性，但是可以比单机模式提高一定的吞吐量。不过Queue所在的MQ实例会是最终的性能瓶颈。

在这里插入图片描述

镜像模式镜像集群模式跟普通集群模式相同的点就是N台机器上部署N个RabbitMQ实例。但是，与其不同的是，Queue和元数据信息都会存在于这N个RabbitMQ实例上，也就是说，每个RabbitMQ的节点上面都会存在全量的数据。当生产者每次发送消息到MQ集群的时候，这个消息都会被同步到多个RabbitMQ实例上。这种模式的好处可以提高集群的高可用性，并且即使有机器宕机了，那么由于其他RabbitMQ的实例依然都保存有全量的数据，所以，也不会有什么问题。但是缺点是，由于MQ每次接收到消息后，都需要同步给其他实例节点，造成了很大的性能损耗，而且网络带宽的压力也会比较大。其次，由于每个节点都保存了全量的数据，所以，即使扩展机器，新加入的机器依然要保存全量数据，如果数据量很大的话，依然会存在超出机器所能承受的最大容量。（由于数据没有采用分片模式，因此集群的吞吐和性能容易成为瓶颈）

在这里插入图片描述

2. 镜像模式高可用系统架构和相关组件

2.1 架构说明

rabbitmq的整体架构如下
在这里插入图片描述

相关核心的组件和角色作用如下
组件部署模式组件作用备注producer客户端部署生产者创建消息消息一般可以包含 2 个部分：消息体和标签broker多机部署它负责接收、存储和管理消息数据接收和存储消息数据：rabbitmq broker接收来自producer发送的消息，并将这些消息存储在自己的磁盘上。consumer客户端部署消费者连接到 RabbitMQ 服务器，订阅到队列。消费者消费一条消息时，只消费消息的消息体（payload）在消息路由的过程中，消息的标签会丢弃，存入到队列中的消息只有消息体，消费者只会消费到消息体，也就不知道消息的生产者是谁，当然消费者也不需要知道
镜像镜像队列本质上是一个HA模式的集群

Leader提供读写服务，数据写入需要从Leader开始，而后同步到Follower节点
Follower提供读服务

普通模式配置镜像模式，只需要进行如下配置即可。

# 所有队列exchangess都为镜像模式
rabbitmqctl set_policy ha-all "^"'{"ha-mode":"all"}'
Setting policy "ha-all"for pattern "^" to "{"ha-mode":"all"}" with priority "0"for vhost "/"...

# # 所有队列queue都为镜像模式
rabbitmqctl set_policy --priority0 --apply-to queues mirror_queue "^"'{"ha-mode":"exactly","ha-params":2,"ha-sync-mode":"automatic"}'

在这里插入图片描述

2.2 相关概念说明

角色说明角色作用备注channel消息通道，在客户端的每个连接里，可建立多个 channel，每个 channel 代表一个会话任务exchange消息交换机，它指定消息按什么规则，路由到哪个队列交换机提供了消息的路由能力，根据不同的消息特性提供不同的路由策略routing key路由关键字，exchange 根据这个关键字进行消息投递binding绑定，它的作用就是把 exchange 和 queue 按照路由规则绑定起来vhost虚拟主机，一个 broker 里可以开设多个 vhost，用作不同用户的权限分离消息和权限设计都是基于vhost，可以通过vhost配置多租户进行数据和权限隔离

2.3 7种消息路由策略

由于rabbitmq面对的是队列概念，因此在众多特性中，exchange实现的消息投递策略就显得尤为重要。

2.3.1 简单模式(Hello World)

在这里插入图片描述
做最简单的事情，一个生产者对应一个消费者，RabbitMQ相当于一个消息代理，负责将A的消息转发给B。单生产者，单消费者，单队列。

2.3.2 工作队列模式(Work queues)

在这里插入图片描述
在多个消费者之间分配任务(竞争的消费者模式)，一个生产者对应多个消费者。适用于资源密集型任务，单个消费者处理不过来，需要多个消费者进行处理的场景，从而实现消息的均衡（类似kafka相同消费组中的不同消费者，相同消费组内的消费者消费的消息不同）

2.3.3 发布订阅模式(Publish/Subscribe)

在这里插入图片描述
一次向许多消费者发送消息，将消息将广播到所有的消费者。单生产者，多消费者，多队列。所有队列订阅到的消息相同（类似kafka不同的消费组，不同消费组消费的消息相同）

2.3.4 路由模式(Routing)

在这里插入图片描述
根据Routing Key有选择地接收消息。多消费者，选择性多队列，每个队列通过routing key全文匹配。相对于工作模式能够提供更加丰富的路由策略，并且能够有效的控制不同key的投递到不同的队列中。

2.3.5 主题模式(Topics)

在这里插入图片描述

主题交换机方式接收消息，将routing key和模式进行匹配。多消费者，选择性多队列，每个队列通过模式匹配。路由模式的升级版

2.3.6 远程过程调用(RPC)

在这里插入图片描述
在远程计算机上运行功能并等待结果。

2.3.7 发布者确认(Publisher Confirms)

与发布者进行可靠的发布确认，发布者确认是RabbitMQ扩展，可以实现可靠的发布。

3. rabbitmq的核心参数

3.1 常用核心参数

cluster_name = tce-product-tcenter-support-cmq-1-1
cluster_formation.peer_discovery_backend = rabbit_peer_discovery_k8s
cluster_formation.k8s.host = kubernetes.default
cluster_formation.k8s.address_type =hostname
cluster_formation.node_type = disc
cluster_partition_handling = pause_minority
queue_master_locator = min-masters
vm_memory_high_watermark.relative =0.6
heartbeat =10000000

3.2 镜像策略

客户端可以通过设置队列的参数和配置，从而定义对应的队列的数据副本策略。
ha-modeha-params结果exactlycount集群中队列副本的数量（主队列加上镜像）。如果集群节点数量少于count时候，队列会复制到所有节点上。如果集群节点数量大于count，有一个节点crash后，新进入节点也不会做新的镜像。all不设置队列跨集群中的所有节点镜像。当一个新节点被添加到集群中时，队列将被镜像到该节点。这个设置非常保守。建议设置的副本值为大多数节点N / 2 + 1。镜像到所有节点会给所有集群节点带来额外的负担，包括网络I/O、磁盘I/O和磁盘空间的使用。nodes节点名称队列被镜像到节点名中列出的节点。节点名是在rabbitmqctl cluster_status中出现的Erlang节点名；它们的形式通常是“rabbit@hostname”。如果这些节点名中有任何一个不是集群的一部分，则不构成错误。如果在声明队列时列表中的节点都不在线，则将在声明客户机连接的节点上创建队列
通过如下示例演示配置队列的镜像策略

queue_args("x-ha-policy":"all") //定义字典来设置额外的队列声明参数
channel.queue_declare(queue="hello-queue",argument=queue_args)

可以通过命令行查看那个主节点进行了同步

rabbitmqctl list_queue name slave_pids synchronised_slave_pids

3.3 新镜像同步策略

ha-sync-mode说明manual这是默认模式。新队列镜像将不接收现有消息，它只接收新消息。一旦使用者耗尽了仅存在于主服务器上的消息，新的队列镜像将随着时间的推移成为主服务器的精确副本。如果主队列在所有未同步的消息耗尽之前失败，则这些消息将丢失。您可以手动完全同步队列，详情请参阅未同步的镜像部分。automatic当新镜像加入时，队列将自动同步。值得重申的是，队列同步是一个阻塞操作。如果队列很小，或者您在RabbitMQ节点和ha-sync-batch-size之间有一个快速的网络，那么这是一个很好的选择。

3.4 从节点晋升策略

镜像队列主节点出现故障时，最老的从节点会被提升为新的主节点。如果新提升为主节点的这个副本与原有的主节点并未完成数据的同步，那么就会出现数据的丢失，而实际应用中，出现数据丢失可能会导致出现严重后果。
rabbitmq 提供了 ha-promote-on-shutdown，ha-promote-on-failure 两个参数让用户决策是保证队列的可用性，还是保证队列的一致性；两个参数分别控制正常关闭、异常故障情况下从节点是否提升为主节点，其可设置的值为 when-synced 和 always。
ha-promote-on-shutdown/ha-promote-on-failure说明when-synced从节点与主节点完成数据同步，才会被提升为主节点always无论什么情况下从节点都将被提升为主节点

这里要注意的是ha-promote-on-failure设置为always，插拔网线模拟网络异常的两个测试场景：当网络恢复后，其中一个会重新变为mirror，具体是哪个变为mirror，受cluster_partition_handling处理策略的影响。

例如两台节点A，B组成集群，并且cluster_partition_handling设置为autoheal，队列的master位于节点A上，具有全量数据，mirror位于节点B上，并且还未完成消息的同步，此时出现网络异常，网络异常后两个节点交互决策：如果节点A节点成为赢家，此时B节点内部会重启，这样数据全部保留不会丢失；相反如果B节点成为赢家，A需要重启，那么由于ha-prromote-on-failure设置为always，B节点上的mirror提升为master，这样就出现了数据丢失。

3.5 主队列选择策略

RabbitMQ中的每个队列都有一个主队列。该节点称为队列主服务器。所有队列操作首先经过主队列，然后复制到镜像。这对于保证消息的FIFO排序是必要的。通过在策略中设置 queue-master-locator 键的方法可以定义主队列选择策略，这是常用的方法。
queue-master-locator说明min-masters选择承载最小绑定主机数量的节点client-local选择客户机声明队列连接到的节点min-masters随机选择一个节点

4. rabbitmq常用命令

4.1 常用基础命令

4.1.1 服务管理

启动: systemctl start rabbitmq-server 或 rabbitmq-service start
关闭: systemctl stop rabbitmq-server 或 rabbitmq-service stop
重启: systemctl restart rabbitmq-server
状态: rabbitmqctl status

4.1.2 用户管理

新增账号： rabbitmqctl add_user user-xx passwd-xx
删除用户: rabbitmqctl delete_user user-xx
所有用户: rabbitmqctl list_users
修改密码: rabbitmqctl change_password user-xx passwd-xx2
清除密码: rabbitmqctl clear_password {user-xx}

4.1.3 角色管理

用户角色分为5中类型：
none：无任何角色。新创建的用户的角色默认为 none。
management：可以访问web管理页面。
policymaker： 包含managerment所有权限，并且可以管理策略(Policy)和参数(Parameter)
monitoring： 包含management所有权限，并且可以看到所有链接、信道及节点相关的信息
administartor：包含monitoring所有权限，并且可以管理用户、虚拟机、权限、策略、参数等。(最高权限)
设置用户角色: rabbitmqctl set_user_tags zhaojigang administrator
设置多个角色: rabbitmqctl set_user_tags hncscwc monitoring policymaker
查看用户角色: rabbitmqctl list_users

4.1.4 vhost管理

所有虚拟主机: rabbitmqctl list_vhosts
添加虚拟主机: rabbitmqctl add_vhost vhostname
删除虚拟主机： rabbitmqctl delete_vhost vhostname

4.1.5 权限管理

命令格式如下：rabbitmqctl set_permissions [-p vhost]{user}{conf}{write}{read}
查询所有权限：rabbitmqctl list_permissions  [-p  VHostPath]
查看用户权限：rabbitmqctl list_user_permissions user-xx
清除用户权限：rabbitmqctl clear_permissions [-p VHostPath] user-xx

4.1.6 查看插件

rabbitmq-plugins list

4.1.7 监控管理器

rabbitmq-plugins enable rabbitmq_management #启动
rabbitmq-plugins disable rabbitmq_management #关闭

4.1.8 应用管理

关闭应用：rabbitmqctl stop_app
启动应用：rabbitmqctl start_app

4.1.9 队列管理

查看所有队列：rabbitmqctl list_queues
清除所有队列：rabbitmqctl reset #需要先执行rabbitmqctl stop_app
强制清除队列：rabbitmqctl force_reset

4.1.10 集群管理

查看集群状态: rabbitmqctl cluster_status

查看集群报告：rabbitmqctl report
摘除节点： rabbitmqctl forget_cluster_node [--offline]
组成集群命令: rabbitmqctl join_cluster <clusternode>[--ram]
修改节点存储形式: rabbitmqctl change_cluster_node_type disc |ram
修改节点名称： rabbitmqctl rename_cluster_node oldnode1 newnode1 [oldnode2 newnode2][oldnode3 newnode3...]

修改集群名称: rabbitmqctl set_cluster_name [cluster_name]

4.1.11 集群添加节点

将rabbit2节点添加到rabbit集群中

# 停止 rabbit2 的应用 
rabbitmqctl -n rabbit2 stop_app 
# 重置 rabbit2 的设置 
rabbitmqctl -n rabbit2 reset 
# rabbit2 节点加入到 rabbit的集群中 
rabbitmqctl -n rabbit2 join_cluster rabbit
# 启动 rabbit2 节点 
rabbitmqctl -n rabbit2 start_app
# 查看集群状态
rabbitmqctl cluster_status

4.1.12 集群剔除节点

从rabbit集群中剔除rabbit2节点

# 首先将要移除的节点停机 
rabbitmqctl -n rabbit2 stop_app 
# 在主节点,也就是发起进群的主机上进行节点的移除 
rabbitmqctl -n rabbit forget_cluster_node rabbit2
# 查看集群状态
rabbitmqctl cluster_status

5. 镜像队列原理

5.1 镜像队列的数据流

5.1.1 客户端连接主节点

首先看生产者消费者直接与主节点连接的情况。该情况下队列的主副本所在的节点与生产者/消费者直接连接，效率较高。

在这里插入图片描述

5.1.1 数据生产过程

生产者连接到 RabbitMQ 后，在 RabbitMQ 内部会创建对应的 Connection，Channel 进程。
Connecton 进程从 socket 上接收生产者发送的消息后投递到 Channel 进程。
在 Channel 进程中，根据消息发送的 exchange 与消息的 routing-key，在内部数据库的路由表中，查找所有匹配的 Queue 的进程 PID，然后将消息投递到Queue 的进程中。在镜像队列的情况下，Channel 进程除了将消息发送给队列的 Leader 进程外，还会将消息发送给队列所有的 Follower 进程，而 Follower 进程都在远端节点上，因此这里就多了一次集群间的网络交互。
镜像队列的 Leader 进程收到消息后，需要将消息同步给所有的 Follower 进程。RabbitMQ 采用 GM（组播）算法实现，镜像队列中的 Leader 和所有 Follower 都会发送一次消息和接收一次消息，同时还会发送一次对消息的 ACK，和接收一次消息的 ACK。
当所有的Follower都接受到消息并返回给Leader后，代表数据已经完成写入
broker返回给producer ACK代表数据完成写入

5.1.2 数据消费过程

消费者连接到 RabbitMQ 后，在 RabbitMQ 内部会创建对应的 Connection，Channel 进程，连接到Leader队列
消费者进行数据消费，完成数据处理后，进行数据commit
rabbitmq数据被客户端commit的消息会被删除(rabbitmq一个队列中的消费只能被消费一次，注意这是跟kafka有很大的区别)

5.1.2 客户端连接从节点

在这里插入图片描述

如果客户端连接到的节点上只运行了Follower队列，进行数据生产和消费，整体流程跟连接到Leader节点差别不大。有所差别的是，生产和消费过程由于都是Leader节点进行，因此数据的生产和消费都会在broker内部通信，投递到Leader节点进行数据写入和消费。

5.2 镜像队列的实现原理

5.2.1 普通队列结构

在这里插入图片描述

通常队列由两部分组成

amqqueue_process ，负责协议相关的消息处理，即接收生产者发布的消息、向消费者投递消息、处理消息 confirm、acknowledge 等等
backing_queue，它提供了相关的接口供 amqqueue_process 调用，完成消息的存储以及可能的持久化工作等。

5.2.2 镜像队列结构

在这里插入图片描述

镜像队列同样由这两部分组成，amqqueue_process 仍旧进行协议相关的消息处理，backing_queue 则是由 master 节点和 slave 节点组成的一个特殊的 backing_queue。Leader 节点和 Follower 节点都由一组进程组成，一个负责消息广播的 GM，一个负责对 GM 收到的广播消息进行回调处理。

在 Leader 节点上回调处理是 coordinator，在slave节点上则是 mirror_queue_slave。mirror_queue_slave 中包含了普通的 backing_queue 进行消息的存储，Leader 节点中 backing_queue 包含在 mirror_queue_master 中由 amqqueue_process 进行调用。

5.2.3 GM(Guaranteed Multicast)

GM 模块实现的是一种可靠的组播通信协议，该协议能够保证组播消息的原子性，即保证组中活着的节点要么都收到消息要么都收不到。
它的实现大致为：将所有的节点形成一个循环链表，每个节点都会监控位于自己左右两边的节点，当有节点新增时，相邻的节点保证当前广播的消息会复制到新的节点上 : 当有节点失效时，相邻的节点会接管以保证本次广播的消息会复制到所有的节点。在 Leader 和 Follower 上的这些 GM 形成一个组 (gm_group) ，这个组的信息会记录在 Mnesia 中。不同的镜像队列形成不同的组。操作命令从 Leader 对应的 GM 发出后，顺着链表传送到所有的节点。由于所有节点组成了一个循环链表， Leader 对应的 GM 最终会收到自己发送的操作命令，这个时候 Leader 就知道该操作命令都同步到了所有的 slave 上。

5.2.4 消息的广播

消息从 Leader 节点发出，顺着节点链表发送。在这期间，所有的 Follower 节点都会对消息进行缓存，当 Leader 节点收到自己发送的消息后，会再次广播 ack 消息，同样 ack 消息会顺着节点链表经过所有的 Follower 节点，其作用是通知 Follower 节点可以清除缓存的消息，当 ack 消息回到 Leader 节点时对应广播消息的生命周期结束。

下图为一个简单的示意图，A 节点为 Leader 节点，广播一条内容为 test 的消息。1 表示消息为广播的第一条消息；id=A表示消息的发送者为节点 A。右边是Follower 节点记录的状态信息。
在这里插入图片描述

为什么所有的节点都需要缓存一份发布的消息呢？
master发布的消息是依次经过所有slave节点，在这期间的任何时刻，有可能有节点失效，那么相邻的节点可能需要重新发送给新的节点。例如，A->B->C->D->A形成的循环链表，A为master节点，广播消息发送给节点B，B再发送给C，如果节点C收到B发送的消息还未发送给D时异常结束了，那么节点B感知后节点C失效后需要重新将消息发送给D。同样，如果B节点将消息发送给C后，B,C节点中新增了E节点，那么B节点需要再将消息发送给新增的E节点。

6. 疑问和思考

6.1 rabbitmq的数据删除策略是怎样的？

rabbitmq持久化的消息不会在任何情况下自动删除。它们将一直存在于队列中，直到以下情况之一发生：

消息被成功消费，然后被确认，从队列中删除。
消息的过期时间（TTL）到期，并被自动删除。
手动从队列中删除消息。

6.2 rabbitmq希望一个数据能够被多个消费者消费，该如何实现？

由于rabbitmq中每个队列的消息被消费者commit后就会删除，因此单个队列无法多次消费相同的消息。但是如果能够把1条消息，投递到多个队列，不同的客户端消费不同的队列，就能够实现1条消息被多个客户端多次消费，使用可以实现该功能

在RabbitMQ中，可以创建一个交换机（Exchange）和多个队列（Queue）。生产者将消息发送到交换机，交换机将消息路由到绑定到它的所有队列中，然后多个消费者可以独立地从不同的队列中接收消息。

具体的步骤如下：

创建一个交换机：使用RabbitMQ的管理界面或者采用编程方式创建一个交换机，设置其类型为"fanout"，表示该交换机将消息广播到所有绑定的队列中。
创建多个队列：创建多个队列，并绑定到上一步创建的交换机上。每个消费者都可以独立地从一个队列中接收消息。
生产者发送消息：生产者将消息发送到上一步创建的交换机中，交换机将消息广播到所有绑定的队列中。
多个消费者消费消息：每个消费者独立地从一个队列中接收消息，并进行相应的处理。

这样，同一个数据就可以被多个消费者消费了。每个消费者可以独立地从一个队列中接收消息，而无需竞争资源。

6.1 broker 离线后重新上线表现

基本的问题是，当 broker 离线并再次恢复时，它在镜像中的任何数据都将被丢弃。这是关键的设计缺陷。现在，镜像已恢复在线，但为空，管理员需要做出决定:是否同步镜像。“同步”意味着将当前消息从 leader 复制到镜像。

6.2 队列的同步阻塞问题

此时第二个致命的设计缺陷显露了出来。如果要同步消息，会阻塞整个队列，让这个队列不可用。当队列比较短的时候这通常不是什么问题，但当队列很长或者消息总大小很大的时候，同步将会需要很长时间。不仅如此，同步会导致集群中与内存相关的问题，有时甚至会导致同步卡住，需要重新启动。
默认情况下，所有镜像队列都会自动同步，但也有人用户不同步镜像。这样，所有新消息都将被复制，老消息都不会被复制，这将减少冗余，会使消息丢失的概率加大。
这个问题也引发滚动升级的问题，因为重新启动的 broker 将丢弃其所有数据，并需要同步来恢复全部数据冗余。

可以看出，镜像模式最大的问题就是性能问题。

7. 参考文档

暂无

标签： rabbitmq 架构分布式

本文转载自: https://blog.csdn.net/weixin_43845924/article/details/136073818
版权归原作者 李姓门徒 所有，如有侵权，请联系我们删除。

RabbitMQ高可用架构涉及常用功能整理

RabbitMQ高可用架构涉及常用功能整理

1. rabbitmq的集群模式

2. 镜像模式高可用系统架构和相关组件

2.1 架构说明

2.2 相关概念说明

2.3 7种消息路由策略

2.3.1 简单模式(Hello World)

2.3.2 工作队列模式(Work queues)

2.3.3 发布订阅模式(Publish/Subscribe)

2.3.4 路由模式(Routing)

2.3.5 主题模式(Topics)

2.3.6 远程过程调用(RPC)

2.3.7 发布者确认(Publisher Confirms)

3. rabbitmq的核心参数

3.1 常用核心参数

3.2 镜像策略

3.3 新镜像同步策略

3.4 从节点晋升策略

3.5 主队列选择策略

4. rabbitmq常用命令

4.1 常用基础命令

4.1.1 服务管理

4.1.2 用户管理

4.1.3 角色管理

4.1.4 vhost管理

4.1.5 权限管理

4.1.6 查看插件

4.1.7 监控管理器

4.1.8 应用管理

4.1.9 队列管理

4.1.10 集群管理

4.1.11 集群添加节点

4.1.12 集群剔除节点

5. 镜像队列原理

5.1 镜像队列的数据流

5.1.1 客户端连接主节点

5.1.1 数据生产过程

5.1.2 数据消费过程

5.1.2 客户端连接从节点

5.2 镜像队列的实现原理

5.2.1 普通队列结构

5.2.2 镜像队列结构

5.2.3 GM(Guaranteed Multicast)

5.2.4 消息的广播

6. 疑问和思考

6.1 rabbitmq的数据删除策略是怎样的？

6.2 rabbitmq希望一个数据能够被多个消费者消费，该如何实现？

6.1 broker 离线后重新上线表现

6.2 队列的同步阻塞问题

7. 参考文档

发表评论

“RabbitMQ高可用架构涉及常用功能整理”的评论:

关于作者

overfit同步小助手

相关阅读

文章导航