0


二、kafka生产与消费全流程

一、使用Java代码生产、消费消息

1、生产者

  1. package com.allwe.client.simple;
  2. import lombok.extern.slf4j.Slf4j;
  3. import org.apache.kafka.clients.producer.KafkaProducer;
  4. import org.apache.kafka.clients.producer.ProducerConfig;
  5. import org.apache.kafka.clients.producer.ProducerRecord;
  6. import org.apache.kafka.common.serialization.StringSerializer;
  7. import java.util.Properties;
  8. /**
  9. * kafka生产者配置
  10. *
  11. * @Author: AllWe
  12. * @Date: 2024/09/24/17:57
  13. */
  14. @Slf4j
  15. public class HelloKafkaProducer {
  16. public static void main(String[] args) {
  17. // 设置属性
  18. Properties properties = new Properties();
  19. // 指定连接的kafka服务器地址,多台就用“,”隔开,如果某一台宕机生产者依然可以连接
  20. properties.put(ProducerConfig.BOOTSTRAP_SERVERS_CONFIG, "127.0.0.1:9092");
  21. // 设置key和value的序列化器,使java对象转换成二进制数组
  22. properties.put("key.serializer", StringSerializer.class);
  23. properties.put("value.serializer", StringSerializer.class);
  24. // new一个生产者producer
  25. KafkaProducer<String, String> producer = new KafkaProducer<>(properties);
  26. try {
  27. ProducerRecord<String, String> producerRecord;
  28. try {
  29. // 构建消息
  30. producerRecord = new ProducerRecord<>("topic_1", "student", "allwe");
  31. // 发送消息
  32. producer.send(producerRecord);
  33. System.out.println("消息发送成功");
  34. } catch (Exception e) {
  35. e.printStackTrace();
  36. }
  37. } finally {
  38. // 释放连接
  39. producer.close();
  40. }
  41. }
  42. }

2、消费者

  1. package com.allwe.client.simple;
  2. import lombok.extern.slf4j.Slf4j;
  3. import org.apache.kafka.clients.consumer.ConsumerConfig;
  4. import org.apache.kafka.clients.consumer.ConsumerRecord;
  5. import org.apache.kafka.clients.consumer.ConsumerRecords;
  6. import org.apache.kafka.clients.consumer.KafkaConsumer;
  7. import org.apache.kafka.clients.producer.ProducerConfig;
  8. import org.apache.kafka.common.serialization.StringDeserializer;
  9. import java.time.Duration;
  10. import java.util.Collections;
  11. import java.util.Properties;
  12. /**
  13. * kafka生产者配置
  14. *
  15. * @Author: AllWe
  16. * @Date: 2024/09/24/17:57
  17. */
  18. @Slf4j
  19. public class HelloKafkaConsumer {
  20. public static void main(String[] args) {
  21. // 设置属性
  22. Properties properties = new Properties();
  23. // 指定连接的kafka服务器地址,多台就用“,”隔开,如果某一台宕机生产者依然可以连接
  24. properties.put(ProducerConfig.BOOTSTRAP_SERVERS_CONFIG, "127.0.0.1:9092");
  25. // 设置key和value的序列化器,使java对象转换成二进制数组
  26. properties.put("key.deserializer", StringDeserializer.class);
  27. properties.put("value.deserializer", StringDeserializer.class);
  28. properties.put(ConsumerConfig.GROUP_ID_CONFIG, "test");
  29. // new一个消费者consumer
  30. KafkaConsumer<String, String> consumer = new KafkaConsumer<>(properties);
  31. try {
  32. // 订阅哪些主题,可以多个,推荐订阅一个主题
  33. consumer.subscribe(Collections.singleton("topic_1"));
  34. // 死循环里面实现监听
  35. while (true) {
  36. // 每间隔1s,取一次消息,可能取到多条消息
  37. // 设置一秒的超时时间
  38. ConsumerRecords<String, String> records = consumer.poll(Duration.ofSeconds(1));
  39. for (ConsumerRecord<String, String> record : records) {
  40. System.out.println("key:" + record.key() + ",value:" + record.value());
  41. }
  42. }
  43. } finally {
  44. // 释放连接
  45. consumer.close();
  46. }
  47. }
  48. }

3、踩坑

如果连接的不是本机的kafka,需要在目标机器的kafka配置文件中配置真实的ip地址,如果使用默认的配置或者配置为localhost:9092,kafka.clients会将目标机器的ip解析为127.0.0.1,导致连接不上kafka。

二、生产者

1、序列化器

在上面的demo中,由于消息的key和value都是String类型的,就可以使用kafka.client提供的String序列化器,如果想要发送其他自定义类型的对象,可以手动编写一个序列化器和反序列化器,实现Serializer接口,将对象和byte数组互相转换即可。

需要注意的是,生产者使用的自定义序列化器必须和消费者使用的反序列化器对应,否则无法正确解析消息。

那么什么情况下需要使用自定义序列化器呢?

  1. -- 需要兼容一些其他协议。

2、分区器

发送的消息被分配到哪个分区中?分区是如何选择的?假设上面的demo中,主题topic_1有4个分区,分别发送4次消息,处理分区的逻辑是怎样的?

这里需要先配置kafka在创建新的主题时,默认的分区数量,我这里配置为了4。

1)指定分区器

可以选择在创建生产者时,给生产者配置相关的分区器,指定具体分区算法。kafka.client提供了一些分区器,或者自己实现一个分区器。

  1. // 设置分区规则
  2. Properties properties = new Properties();
  3. // 1、默认分区器
  4. properties.put(ProducerConfig.PARTITIONER_CLASS_CONFIG, DefaultPartitioner.class);
  5. // 2、统一粘性分区器
  6. properties.put(ProducerConfig.PARTITIONER_CLASS_CONFIG, UniformStickyPartitioner.class);
  7. // 3、自定义分区器
  8. properties.put(ProducerConfig.PARTITIONER_CLASS_CONFIG, MyPartitioner.class);

自定义分区器:

  1. package com.allwe.client.partitioner;
  2. import org.apache.kafka.clients.producer.Partitioner;
  3. import org.apache.kafka.common.Cluster;
  4. import org.apache.kafka.common.PartitionInfo;
  5. import org.apache.kafka.common.utils.Utils;
  6. import java.util.List;
  7. import java.util.Map;
  8. /**
  9. * 自定义分区器 - 以value值分区
  10. */
  11. public class MyPartitioner implements Partitioner {
  12. @Override
  13. public int partition(String topic, Object key, byte[] keyBytes, Object value, byte[] valueBytes, Cluster cluster) {
  14. List<PartitionInfo> partitionInfoList = cluster.partitionsForTopic(topic);
  15. // 以value值的byte数组处理后再和分区数取模,决定放在哪个分区上
  16. return Utils.toPositive(Utils.murmur2(valueBytes)) % partitionInfoList.size();
  17. }
  18. @Override
  19. public void close() {
  20. }
  21. @Override
  22. public void configure(Map<String, ?> map) {
  23. }
  24. }

2)指定分区

也可以选择在构建消息时指定分区,此时的分区优先级最高,不会被其他分区器影响。

  1. # 创建消息时指定分区为 0
  2. ProducerRecord<String, String> producerRecord = new ProducerRecord<>("topic_1", 0, "student", "allwe");

3、生产者发送消息的回调

  1. package com.allwe.client.partitioner;
  2. import lombok.extern.slf4j.Slf4j;
  3. import org.apache.kafka.clients.producer.KafkaProducer;
  4. import org.apache.kafka.clients.producer.ProducerConfig;
  5. import org.apache.kafka.clients.producer.ProducerRecord;
  6. import org.apache.kafka.clients.producer.RecordMetadata;
  7. import org.apache.kafka.common.serialization.StringSerializer;
  8. import java.util.Properties;
  9. import java.util.concurrent.Future;
  10. /**
  11. * kafka生产者配置 - 自定义分区器 & 发送消息回调
  12. *
  13. * @Author: AllWe
  14. * @Date: 2024/09/24/17:57
  15. */
  16. @Slf4j
  17. public class PartitionerProducer {
  18. public static void main(String[] args) {
  19. // 设置属性
  20. Properties properties = new Properties();
  21. // 指定连接的kafka服务器地址,多台就用“,”隔开,如果某一台宕机生产者依然可以连接
  22. properties.put(ProducerConfig.BOOTSTRAP_SERVERS_CONFIG, "127.0.0.1:9092");
  23. // 设置key和value的序列化器,使java对象转换成二进制数组
  24. properties.put("key.serializer", StringSerializer.class);
  25. properties.put("value.serializer", StringSerializer.class);
  26. // 设置自定义分区器
  27. properties.put(ProducerConfig.PARTITIONER_CLASS_CONFIG, MyPartitioner.class);
  28. // new一个生产者producer
  29. KafkaProducer<String, String> producer = new KafkaProducer<>(properties);
  30. try {
  31. ProducerRecord<String, String> producerRecord;
  32. try {
  33. // 构建指定分区的消息,此时指定的分区不会变
  34. // producerRecord = new ProducerRecord<>("topic_1", 0, "student", "allwe");
  35. for (int i = 0; i < 10; i++) {
  36. // 构建消息
  37. producerRecord = new ProducerRecord<>("topic_2", "student", "allwe" + i);
  38. // 发送消息
  39. Future<RecordMetadata> future = producer.send(producerRecord);
  40. // 解析回调元数据
  41. RecordMetadata recordMetadata = future.get();
  42. System.out.println(i + ",offset:" + recordMetadata.offset() + ",partition:" + recordMetadata.partition());
  43. }
  44. } catch (Exception e) {
  45. e.printStackTrace();
  46. }
  47. } finally {
  48. // 释放连接
  49. producer.close();
  50. }
  51. }
  52. }

打印结果:

4、异步解析生产者发送消息的回调

  1. package com.allwe.client.callBack;
  2. import com.allwe.client.partitioner.MyPartitioner;
  3. import lombok.extern.slf4j.Slf4j;
  4. import org.apache.kafka.clients.producer.KafkaProducer;
  5. import org.apache.kafka.clients.producer.ProducerConfig;
  6. import org.apache.kafka.clients.producer.ProducerRecord;
  7. import org.apache.kafka.common.serialization.StringSerializer;
  8. import java.util.Properties;
  9. /**
  10. * kafka生产者配置 - 异步解析发送消息回调
  11. *
  12. * @Author: AllWe
  13. * @Date: 2024/09/24/17:57
  14. */
  15. @Slf4j
  16. public class AsynPartitionerProducer {
  17. public static void main(String[] args) {
  18. // 设置属性
  19. Properties properties = new Properties();
  20. // 指定连接的kafka服务器地址,多台就用“,”隔开,如果某一台宕机生产者依然可以连接
  21. properties.put(ProducerConfig.BOOTSTRAP_SERVERS_CONFIG, "127.0.0.1:9092");
  22. // 设置key和value的序列化器,使java对象转换成二进制数组
  23. properties.put("key.serializer", StringSerializer.class);
  24. properties.put("value.serializer", StringSerializer.class);
  25. // 设置自定义分区器
  26. properties.put(ProducerConfig.PARTITIONER_CLASS_CONFIG, MyPartitioner.class);
  27. // new一个生产者producer
  28. KafkaProducer<String, String> producer = new KafkaProducer<>(properties);
  29. try {
  30. ProducerRecord<String, String> producerRecord;
  31. try {
  32. for (int i = 0; i < 10; i++) {
  33. // 构建消息
  34. producerRecord = new ProducerRecord<>("topic_3", "student", "allwe" + i);
  35. // 发送消息, 设置异步回调解析器
  36. producer.send(producerRecord, new CallBackImpl());
  37. }
  38. System.out.println("发送完成,topic_4");
  39. } catch (Exception e) {
  40. e.printStackTrace();
  41. }
  42. } finally {
  43. // 释放连接
  44. producer.close();
  45. }
  46. }
  47. }
  1. package com.allwe.client.callBack;
  2. import cn.hutool.core.util.ObjectUtil;
  3. import org.apache.kafka.clients.producer.Callback;
  4. import org.apache.kafka.clients.producer.RecordMetadata;
  5. /**
  6. * 异步发送消息回调解析器
  7. */
  8. public class CallBackImpl implements Callback {
  9. @Override
  10. public void onCompletion(RecordMetadata recordMetadata, Exception e) {
  11. if (ObjectUtil.isNull(e)) {
  12. // 解析回调元数据
  13. System.out.println("offset:" + recordMetadata.offset() + ",partition:" + recordMetadata.partition());
  14. } else {
  15. e.printStackTrace();
  16. }
  17. }
  18. }

5、生产者缓冲

1)为什么kafka在客户端发送消息的时候需要做一个缓冲?

① 减少IO的开销(单个 -> 批次),需要修改配置文件。

② 减少GC(核心)。

2)如何配置缓冲?

producer.properties配置文件中修改下面两个参数:

消息的大小:batch.size = 默认16384(16K)

暂存的时间:linger.ms = 默认0ms

上面两个条件只要达到一个,就会发送消息,所以在默认配置下,生产一条消息就立即发送。

3)减少GC的原理

producer.properties配置文件的参数:

缓冲池大小:buffer.memory = 默认32M

kafka客户端使用了缓冲池,默认大小32M,当有一条新的消息进入缓冲池,达到了任何一个条件后就发送。发送后不用立即回收内存,而是初始化一下缓冲池即可,减少了GC的次数。

简单说就是利用池化技术减少了对象的创建 -> 减少内存分配次数 -> 减少了垃圾回收次数。

4)使用缓冲池的风险

当缓存的消息超出缓冲池的大小,kafka就会抛出OOM异常。

如果写入消息太快,但是上一次send方法没有执行完,就会导致上一次缓存的消息不能删除,这一次进来的消息又太多,最终写满了缓冲池,触发OOM异常。

解决办法就是适当调整buffer.memory参数和batch.size参数,增加缓冲池大小,缩小每一批次的大小。

三、Kafka Broker

消息从生产者发送出去后,就进入了broker中。在kafka broker中,每一个分区就是一个文件。

四、消费者

1、消费者群组

在消费的过程中,一般情况下使用群组消费,设置group_id_config。

核心:kafka群组消费的负载均衡建立在分区级别。

1)单个群组场景

一个分区只能由一个消费者消费。

在kafka执行过程中,支持动态添加或者减少消费者。

2)多个群组场景

群组之间的消费是互不干扰的,比如群组A的消费者和群组B的消费者可以同时消费同一个分区的消息。

2、Demo记录

写一个生产者,我为了测试顺畅写了一个无限循环的。只启动一次,输入参数即可实现批量发送消息。

  1. package com.allwe.client.singleGroup;
  2. import com.allwe.client.partitioner.MyPartitioner;
  3. import lombok.extern.slf4j.Slf4j;
  4. import org.apache.kafka.clients.producer.KafkaProducer;
  5. import org.apache.kafka.clients.producer.ProducerConfig;
  6. import org.apache.kafka.clients.producer.ProducerRecord;
  7. import org.apache.kafka.common.serialization.StringSerializer;
  8. import java.util.Properties;
  9. import java.util.Scanner;
  10. /**
  11. * kafka生产者配置 - 无限生产消息
  12. *
  13. * @Author: AllWe
  14. * @Date: 2024/09/24/17:57
  15. */
  16. @Slf4j
  17. public class Producer {
  18. public static void main(String[] args) {
  19. // 设置属性
  20. Properties properties = new Properties();
  21. properties.put(ProducerConfig.BOOTSTRAP_SERVERS_CONFIG, "127.0.0.1:9092");
  22. properties.put("key.serializer", StringSerializer.class);
  23. properties.put("value.serializer", StringSerializer.class);
  24. properties.put(ProducerConfig.PARTITIONER_CLASS_CONFIG, MyPartitioner.class);
  25. // new一个生产者producer
  26. KafkaProducer<String, String> producer = new KafkaProducer<>(properties);
  27. Scanner scanner = new Scanner(System.in);;
  28. try {
  29. int count;
  30. while (true) {
  31. System.out.println("==================输入消息条数===================");
  32. String nextLine = scanner.nextLine();
  33. if ("exit".equals(nextLine)) {
  34. break;
  35. }
  36. count = Integer.parseInt(nextLine);
  37. ProducerRecord<String, String> producerRecord;
  38. try {
  39. for (int i = 0; i < count; i++) {
  40. // 构建消息
  41. producerRecord = new ProducerRecord<>("topic_5", "topic_5", "allwe" + i);
  42. producer.send(producerRecord);
  43. }
  44. } catch (Exception e) {
  45. e.printStackTrace();
  46. }
  47. System.out.println("发送完成,topic_5");
  48. }
  49. } catch (Exception e) {
  50. throw new RuntimeException(e);
  51. } finally {
  52. // 释放连接
  53. producer.close();
  54. scanner.close();
  55. }
  56. }
  57. }


生产者控制台展示​​

写一个消费者base类,由于测试消费者需要启动很多类,我这里为了方便写了一个baseConsumer类,调用时new这个类的对象即可调用消费方法。

  1. package com.allwe.client.singleGroup;
  2. import lombok.Data;
  3. import lombok.extern.slf4j.Slf4j;
  4. import org.apache.kafka.clients.consumer.ConsumerConfig;
  5. import org.apache.kafka.clients.consumer.ConsumerRecord;
  6. import org.apache.kafka.clients.consumer.ConsumerRecords;
  7. import org.apache.kafka.clients.consumer.KafkaConsumer;
  8. import org.apache.kafka.clients.producer.ProducerConfig;
  9. import org.apache.kafka.common.serialization.StringDeserializer;
  10. import java.time.Duration;
  11. import java.util.Collections;
  12. import java.util.Properties;
  13. /**
  14. * kafka 消费者配置
  15. *
  16. * @Author: AllWe
  17. * @Date: 2024/09/24/17:57
  18. */
  19. @Slf4j
  20. @Data
  21. public class SingleGroupBaseConsumer {
  22. private String groupIdConfig;
  23. private String topicName;
  24. private KafkaConsumer<String, String> consumer;
  25. public SingleGroupBaseConsumer(String groupIdConfig, String topicName) {
  26. this.groupIdConfig = groupIdConfig;
  27. this.topicName = topicName;
  28. createConsumer();
  29. }
  30. private void createConsumer() {
  31. // 设置属性
  32. Properties properties = new Properties();
  33. properties.put(ProducerConfig.BOOTSTRAP_SERVERS_CONFIG, "127.0.0.1:9092");
  34. properties.put("key.deserializer", StringDeserializer.class);
  35. properties.put("value.deserializer", StringDeserializer.class);
  36. properties.put(ConsumerConfig.GROUP_ID_CONFIG, groupIdConfig);
  37. consumer = new KafkaConsumer<>(properties);
  38. }
  39. public void poll() {
  40. try {
  41. consumer.subscribe(Collections.singleton(topicName));
  42. while (true) {
  43. ConsumerRecords<String, String> records = consumer.poll(Duration.ofSeconds(1));
  44. int count = 0;
  45. for (ConsumerRecord<String, String> record : records) {
  46. count = 1;
  47. System.out.println("partition:" + record.partition() + ",key:" + record.key() + ",value:" + record.value());
  48. }
  49. if (count == 1) {
  50. // 消费到消息了就打印分隔线
  51. System.out.println("===============================");
  52. }
  53. }
  54. } finally {
  55. consumer.close();
  56. }
  57. }
  58. }

1)单个群组场景

群组id:allwe01

  1. package com.allwe.client.singleGroup;
  2. import lombok.extern.slf4j.Slf4j;
  3. /**
  4. * kafka消费者启动器
  5. *
  6. * @Author: AllWe
  7. * @Date: 2024/09/24/17:57
  8. */
  9. @Slf4j
  10. public class SingleGroupConsumer_1 {
  11. public static void main(String[] args) {
  12. SingleGroupBaseConsumer singleGroupBaseConsumer = new SingleGroupBaseConsumer("allwe01", "topic_5");
  13. singleGroupBaseConsumer.poll();
  14. }
  15. }


消费者控制台展示

我这里只放了一个消费者的消费记录,根据消费者控制台打印的数据,可以看到两条信息:

① 该消费者只能消费分区=1的消息。

② 消费者消费消息时,每次拿到的消息数量不确定。

2)多个群组场景

群组id:allwe02

  1. package com.allwe.client.group;
  2. import com.allwe.client.singleGroup.SingleGroupBaseConsumer;
  3. import lombok.extern.slf4j.Slf4j;
  4. /**
  5. * kafka消费者启动器
  6. *
  7. * @Author: AllWe
  8. * @Date: 2024/09/24/17:57
  9. */
  10. @Slf4j
  11. public class GroupConsumer_1 {
  12. public static void main(String[] args) {
  13. SingleGroupBaseConsumer singleGroupBaseConsumer = new SingleGroupBaseConsumer("allwe02", "topic_5");
  14. singleGroupBaseConsumer.poll();
  15. }
  16. }


消费者控制台展示

可以看到,这里新加入了一个消费者群组,只有一个消费者,它就消费到了全部分区的消息。

3、ACK确认

消费者在成功消费消息后,会进行ACK确认。提交最后一次消费消息的偏移量,下一次消费就从上次提交的偏移量开始,如果一个新的消费者群组消费一个主题的消息,可以根据不同的配置来指定起始的偏移量。

  1. // 从最早的消息开始消费
  2. properties.put(ConsumerConfig.AUTO_OFFSET_RESET_CONFIG, "earliest");
  3. // 从已提交的偏移量开始消费 - 默认配置
  4. properties.put(ConsumerConfig.AUTO_OFFSET_RESET_CONFIG, "latest");

在kafka内部,有一个名字叫【__consumer_offsets】的主题,保存了消费者对各个主题的消费偏移量。消费者每一次发送的ACK确认,都会更新这个主题中的偏移量数据。

1)自动提交ACK的消费模式

默认的消费模式。

只要拿到了消息,就自动提交ACK确认。

但是有一个风险,就是虽然消费者成功取到了消息,但是在程序处理过程中出现了异常,同时提交了ACK确认,那么这条消息就永远不会被正确地处理。

所以有时候我们需要避免自动提交ACK确认,改成手动提交ACK确认。

2)手动提交ACK确认

取消自动提交

  1. // 取消自动提交
  2. properties.put(ConsumerConfig.ENABLE_AUTO_COMMIT_CONFIG, false);
① 同步提交
  1. // 同步提交ACK确认 - 提交不成功就一直重试,成功后才会继续往下执行
  2. consumer.commitSync();

立刻进行ACK确认。但是容易造成阻塞,只有等待ACK确认成功后,才会继续执行程序。如果ACK确认不成功,就会一直重试。

② 异步提交
  1. // 异步提交ACK确认
  2. consumer.commitAsync();

异步提交不会阻塞应用程序,提交失败不会重试提交。

③ 组合使用demo
  1. public void poll() {
  2. try {
  3. consumer.subscribe(Collections.singleton(topicName));
  4. while (true) {
  5. ConsumerRecords<String, String> records = consumer.poll(Duration.ofSeconds(1));
  6. int count = 0;
  7. for (ConsumerRecord<String, String> record : records) {
  8. count = 1;
  9. System.out.println("partition:" + record.partition() + ",offset:" + record.offset() +",key:" + record.key() + ",value:" + record.value());
  10. }
  11. if (count == 1) {
  12. // 消费到消息了就打印分隔线
  13. System.out.println("===============================");
  14. }
  15. // 异步提交ACK确认
  16. consumer.commitAsync();
  17. }
  18. } finally {
  19. try {
  20. // 同步提交ACK确认 - 提交不成功就一直重试,成功后才会继续往下执行
  21. consumer.commitSync();
  22. } finally {
  23. consumer.close();
  24. }
  25. }
  26. }

3)手动批量提交ACK确认

如果消费者在某一时刻取到的消息数量太多,那么给每一条消息单独提交ACK确认太浪费资源,可以选择批量提交ACK确认。核心思想就是在程序中暂存偏移量,达到设定的阈值后就触发批量提交。

kafka.Consumer提供的异步提交ACK方法支持批量提交。

五、多线程安全问题

1、多线程安全的定义

使用多线程访问一个资源,这个资源始终都能表现出正确的行为。

不被运行的环境影响、多线程可以交替访问、不需要任何额外的同步和协同。

2、Java实现多线程安全生产者

这里只是模拟多线程环境下使用生产者发送消息,其实没有做额外的线程安全操作,就是把生产者当成了一个公共资源,所有线程都可以访问这个生产者。

kafka默认客户端提供的生产者本身就是线程安全的,因为生产者发送消息只有一步操作,就是发送消息。只要消息进入消息缓冲区就可以发送给broker,不会出现消息重复发送。

  1. package com.allwe.client.concurrent;
  2. import com.allwe.client.partitioner.MyPartitioner;
  3. import lombok.Data;
  4. import lombok.extern.slf4j.Slf4j;
  5. import org.apache.kafka.clients.producer.KafkaProducer;
  6. import org.apache.kafka.clients.producer.ProducerConfig;
  7. import org.apache.kafka.clients.producer.ProducerRecord;
  8. import org.apache.kafka.common.serialization.StringSerializer;
  9. import java.util.Properties;
  10. import java.util.concurrent.CountDownLatch;
  11. import java.util.concurrent.ExecutorService;
  12. import java.util.concurrent.Executors;
  13. /**
  14. * 生产者多线程安全 - 测试demo
  15. *
  16. * @Author: AllWe
  17. * @Date: 2024/09/27/9:30
  18. */
  19. @Data
  20. @Slf4j
  21. public class ConcurrentProducerWorker {
  22. /**
  23. * 消息数量
  24. */
  25. private static final int RECORD_COUNT = 1000;
  26. /**
  27. * 固定线程池 - 线程数等于CPU核数
  28. */
  29. private static final ExecutorService executorService = Executors.newFixedThreadPool(Runtime.getRuntime().availableProcessors());
  30. /**
  31. * 发令枪
  32. */
  33. private static final CountDownLatch countDownLatch = new CountDownLatch(RECORD_COUNT);
  34. /**
  35. * 生产者 - 这里让所有的线程都共享同一个生产者
  36. */
  37. private static KafkaProducer<String, String> kafkaProducer;
  38. /**
  39. * 类初始化的时候 - 创建生产者实例
  40. */
  41. static {
  42. // 设置属性
  43. Properties properties = new Properties();
  44. properties.put(ProducerConfig.BOOTSTRAP_SERVERS_CONFIG, "127.0.0.1:9092");
  45. properties.put("key.serializer", StringSerializer.class);
  46. properties.put("value.serializer", StringSerializer.class);
  47. properties.put(ProducerConfig.PARTITIONER_CLASS_CONFIG, MyPartitioner.class);
  48. kafkaProducer = new KafkaProducer<>(properties);
  49. }
  50. /**
  51. * 启动器
  52. */
  53. public static void main(String[] args) {
  54. try {
  55. // 循环创建消息
  56. for (int count = 0; count < RECORD_COUNT; count++) {
  57. ProducerRecord<String, String> record = new ProducerRecord<>("topic_6", "allwe", "allwe_" + count);
  58. executorService.submit(new ConcurrentProducer(record, kafkaProducer, countDownLatch));
  59. }
  60. countDownLatch.await();
  61. } catch (Exception e) {
  62. e.printStackTrace();
  63. } finally {
  64. // 关闭生产者连接
  65. kafkaProducer.close();
  66. // 释放线程池资源
  67. executorService.shutdown();
  68. }
  69. }
  70. }
  1. package com.allwe.client.concurrent;
  2. import lombok.Data;
  3. import lombok.extern.slf4j.Slf4j;
  4. import org.apache.kafka.clients.producer.KafkaProducer;
  5. import org.apache.kafka.clients.producer.ProducerRecord;
  6. import java.util.concurrent.CountDownLatch;
  7. /**
  8. * 生产者多线程安全 - 测试demo
  9. *
  10. * @Author: AllWe
  11. * @Date: 2024/09/27/9:30
  12. */
  13. @Data
  14. @Slf4j
  15. public class ConcurrentProducer implements Runnable {
  16. /**
  17. * 消息体
  18. */
  19. private ProducerRecord<String, String> record;
  20. /**
  21. * 生产者
  22. */
  23. private KafkaProducer<String, String> producer;
  24. /**
  25. * 发令枪
  26. */
  27. private CountDownLatch countDownLatch;
  28. public ConcurrentProducer(ProducerRecord<String, String> record, KafkaProducer<String, String> producer, CountDownLatch countDownLatch) {
  29. this.record = record;
  30. this.producer = producer;
  31. this.countDownLatch = countDownLatch;
  32. }
  33. @Override
  34. public void run() {
  35. try {
  36. String name = Thread.currentThread().getName();
  37. producer.send(record, new ConcurrentCallBackImpl(name));
  38. countDownLatch.countDown();
  39. } catch (Exception e) {
  40. e.printStackTrace();
  41. }
  42. }
  43. }
  1. package com.allwe.client.concurrent;
  2. import cn.hutool.core.util.ObjectUtil;
  3. import org.apache.kafka.clients.producer.Callback;
  4. import org.apache.kafka.clients.producer.RecordMetadata;
  5. /**
  6. * 异步发送消息回调解析器
  7. *
  8. * @Author: AllWe
  9. * @Date: 2024/09/27/9:30
  10. */
  11. public class ConcurrentCallBackImpl implements Callback {
  12. private String threadName;
  13. public ConcurrentCallBackImpl(String threadName) {
  14. this.threadName = threadName;
  15. }
  16. @Override
  17. public void onCompletion(RecordMetadata recordMetadata, Exception e) {
  18. if (ObjectUtil.isNull(e)) {
  19. // 解析回调元数据
  20. System.out.println(threadName + "|-offset:" + recordMetadata.offset() + ",partition:" + recordMetadata.partition());
  21. } else {
  22. e.printStackTrace();
  23. }
  24. }
  25. }

3、Java实现多线程安全消费者

kafka客户端提供的消费者不是多线程安全的,是因为消费者在消费消息的时候,需要有2步操作:取消息和ACK确认,在多线程场景下可能会出现:

① 线程1取到了消息,但是没来得及进行ACK确认。

② 线程2进来了,又消费了一次相同的消息。

③ 线程2提交ACK确认。

④ 线程1提交ACK确认。

这样就会产生重复消费,这个时候就需要对消费者进行额外处理。

有两个处理方案:

① 给消费过程加锁,但是会降低程序执行效率。

② 每一个线程都创建自己的消费者,只消费自己分区内的数据。

我写的demo是使用第二种办法。

  1. package com.allwe.client.concurrent;
  2. import lombok.Data;
  3. import lombok.extern.slf4j.Slf4j;
  4. import org.apache.kafka.clients.consumer.ConsumerConfig;
  5. import org.apache.kafka.clients.consumer.ConsumerRecord;
  6. import org.apache.kafka.clients.consumer.ConsumerRecords;
  7. import org.apache.kafka.clients.consumer.KafkaConsumer;
  8. import java.time.Duration;
  9. import java.util.Collections;
  10. import java.util.Properties;
  11. /**
  12. * 线程安全消费者 - 测试demo
  13. *
  14. * @Author: AllWe
  15. * @Date: 2024/09/27/12:19
  16. */
  17. @Data
  18. @Slf4j
  19. public class ConcurrentConsumer implements Runnable {
  20. /**
  21. * 消费者配置参数
  22. */
  23. private Properties properties;
  24. /**
  25. * 群组id
  26. */
  27. private String groupId;
  28. /**
  29. * 消费主题
  30. */
  31. private String topicName;
  32. /**
  33. * 消费者实例
  34. */
  35. private KafkaConsumer<String, String> consumer;
  36. public ConcurrentConsumer(Properties properties, String groupId, String topicName) {
  37. this.properties = properties;
  38. this.groupId = groupId;
  39. this.topicName = topicName;
  40. // 补充配置参数
  41. properties.put(ConsumerConfig.GROUP_ID_CONFIG, groupId);
  42. // 创建消费者实例 - 每一个线程都创建自己的消费者,避免共享相同的消费者实例
  43. consumer = new KafkaConsumer<>(properties);
  44. // 配置消费主题
  45. consumer.subscribe(Collections.singleton(topicName));
  46. }
  47. @Override
  48. public void run() {
  49. try {
  50. String threadName = Thread.currentThread().getName();
  51. while (true) {
  52. ConsumerRecords<String, String> records = consumer.poll(Duration.ofSeconds(1));
  53. for (ConsumerRecord<String, String> record : records) {
  54. StringBuilder stringBuilder = new StringBuilder(threadName).append("|-");
  55. stringBuilder.append("partition:").append(record.partition());
  56. stringBuilder.append("offset:").append(record.offset());
  57. stringBuilder.append("key:").append(record.key());
  58. stringBuilder.append("value:").append(record.value());
  59. System.out.println(stringBuilder);
  60. }
  61. }
  62. } finally {
  63. consumer.close();
  64. }
  65. }
  66. }
  1. package com.allwe.client.concurrent;
  2. import lombok.Data;
  3. import lombok.extern.slf4j.Slf4j;
  4. import org.apache.kafka.clients.consumer.ConsumerConfig;
  5. import org.apache.kafka.common.serialization.StringDeserializer;
  6. import java.util.Properties;
  7. import java.util.concurrent.ExecutorService;
  8. import java.util.concurrent.Executors;
  9. /**
  10. * 多线程安全消费者 - 测试demo
  11. *
  12. * @Author: AllWe
  13. * @Date: 2024/09/27/12:34
  14. */
  15. @Data
  16. @Slf4j
  17. public class ConcurrentConsumerWorker {
  18. /**
  19. * 消费线程数
  20. */
  21. private static final Integer THREAD_COUNT = 2;
  22. /**
  23. * 线程池 - 2个线程,别超过目标主题的分区数
  24. */
  25. private static ExecutorService executorService = Executors.newFixedThreadPool(THREAD_COUNT);
  26. public static void main(String[] args) {
  27. // 消费者配置
  28. Properties properties = new Properties();
  29. properties.put(ConsumerConfig.BOOTSTRAP_SERVERS_CONFIG, "127.0.0.1:9092");
  30. properties.put("key.deserializer", StringDeserializer.class);
  31. properties.put("value.deserializer", StringDeserializer.class);
  32. properties.put(ConsumerConfig.AUTO_OFFSET_RESET_CONFIG, "earliest"); // 从头开始消费
  33. for (Integer i = 0; i < THREAD_COUNT; i++) {
  34. executorService.submit(new ConcurrentConsumer(properties, "allwe01", "topic_6"));
  35. }
  36. }
  37. }

六、群组协调

1、群主

在每一个群组内部,都有一个【群主】。往往是第一个注册进入群组的消费者承担,它的职责是读取当前群组消费的主题,以及目标主题的分区信息。

群主节点的数据权限高于普通消费者,它可以获取全部消费者节点对应的分区信息。但是普通消费者节点只能看见本节点的分区信息。

2、消费者协调器

属于客户端,每个消费者群组内部都有一个消费者协调器,用于获取群主节点保存的分区信息,再协调群组内的其他消费者处理哪些主题和分区。

分配好任务后将配置信息推送给【组协调器】,组协调器再将消息发送给不同的消费者。

当群组内出现某个节点掉线、上线时,消费者协调器也会参与协调。

1、向【组协调器】发送入组请求。

2、发起同步组的请求 -- 由群组计算分配策略,确定消费者的分区划分,发送给组协调器。

3、心跳机制(与组协调器维持)。

4、提交ACK确认(发起已经提交的消费偏移量的请求)。

5、主动发起离组请求。

3、组协调器

属于kafka broker,主要负责以下功能:

1、处理申请加入群组的消费者,并且选举群主。

2、收到同步组的请求后,触发分区再均衡,同步新的分配方案。

3、心跳机制(与客户端维持),如果得知哪些客户端掉线了,触发分区再均衡机制。

4、管理消费者已经消费的偏移量,保存在主题【__consumer_offsets】,默认有50个分区。

4、新的消费者加入群组的处理流程

1、消费者客户端启动、重连,都会给组协调器发送一个入组请求(joinGroup请求)。

2、消费者客户端完成joinGroup后,消费者协调器向组协调器发起同步组请求(SyncGroup请求),获取新的分配方案。

3、入组后保持心跳(客户端控制参数:max.poll.interval.ms)。

4、消费者客户端掉线,触发离组处理。

5、消费者群组的信息存储在哪里

存储在__consumer_offsets文件中,groupName.hashCode() % 50,获取配置文件的编号。

七、分区再均衡

1、功能

针对单个消费者群组,对群组内的消费者负责的分区进行重新分配。

1、假设【主题α】有三个分区,分别是①、②、③。

2、进来两个消费者A、B。A负责分区①,B负责分区②③。

3、又进来一个消费者C,再均衡监听器就把分区③分配给C。

4、消费者C掉线,再均衡监听器把分区③分配给A或者B。

2、Java代码验证分区再均衡

  1. package com.allwe.client.reBalance;
  2. import lombok.Data;
  3. import org.apache.kafka.clients.consumer.ConsumerRebalanceListener;
  4. import org.apache.kafka.clients.consumer.KafkaConsumer;
  5. import org.apache.kafka.clients.consumer.OffsetAndMetadata;
  6. import org.apache.kafka.common.TopicPartition;
  7. import java.util.Collection;
  8. import java.util.Map;
  9. import java.util.concurrent.ConcurrentHashMap;
  10. /**
  11. * 分区再均衡处理器
  12. *
  13. * @Author: AllWe
  14. * @Date: 2024/10/17/8:05
  15. */
  16. @Data
  17. public class ReBalanceHandler implements ConsumerRebalanceListener {
  18. // 记录每个分区的消费偏移量
  19. public final static ConcurrentHashMap<TopicPartition, Long> partitionOffsetMap = new ConcurrentHashMap<TopicPartition, Long>();
  20. private final Map<TopicPartition, OffsetAndMetadata> currOffsets;
  21. private final KafkaConsumer<String, String> consumer;
  22. public ReBalanceHandler(Map<TopicPartition, OffsetAndMetadata> currOffsets, KafkaConsumer<String, String> consumer) {
  23. this.currOffsets = currOffsets;
  24. this.consumer = consumer;
  25. }
  26. // 分区再均衡之前
  27. // 某一个消费者在让出分区之前,需要先将已消费的偏移量提交
  28. @Override
  29. public void onPartitionsRevoked(Collection<TopicPartition> collection) {
  30. // 线程id
  31. final String id = Thread.currentThread().getId() + "";
  32. System.out.println(id + "-onPartitionsRevoked参数值为:" + collection);
  33. System.out.println(id + "-服务器准备分区再均衡,提交偏移量。当前偏移量为:" + currOffsets);
  34. //我们可以不使用consumer.commitSync(currOffsets);
  35. //提交偏移量到kafka,由我们自己维护*/
  36. //开始事务
  37. //偏移量写入数据库
  38. System.out.println("分区偏移量表中:" + partitionOffsetMap);
  39. for (TopicPartition topicPartition : collection) {
  40. partitionOffsetMap.put(topicPartition, currOffsets.get(topicPartition).offset());
  41. }
  42. // 同步提交偏移量,等到成功后再往后执行
  43. consumer.commitSync(currOffsets);
  44. }
  45. // 分区再均衡之后
  46. // 新的消费者接管分区后,从上一次的偏移量开始消费
  47. @Override
  48. public void onPartitionsAssigned(Collection<TopicPartition> collection) {
  49. // 线程id
  50. final String threadId = Thread.currentThread().getId() + "";
  51. System.out.println(threadId + "|-再均衡完成,onPartitionsAssigned参数值为:" + collection);
  52. System.out.println("分区偏移量表中:" + partitionOffsetMap);
  53. for (TopicPartition topicPartition : collection) {
  54. System.out.println(threadId + "-topicPartition" + topicPartition);
  55. // 取得接管分区之前的偏移量
  56. Long offset = partitionOffsetMap.get(topicPartition);
  57. if (offset == null) continue;
  58. consumer.seek(topicPartition, partitionOffsetMap.get(topicPartition));
  59. }
  60. }
  61. @Override
  62. public void onPartitionsLost(Collection<TopicPartition> partitions) {
  63. ConsumerRebalanceListener.super.onPartitionsLost(partitions);
  64. }
  65. }
  1. package com.allwe.client.reBalance;
  2. import lombok.Data;
  3. import lombok.extern.slf4j.Slf4j;
  4. import org.apache.kafka.clients.consumer.*;
  5. import org.apache.kafka.common.TopicPartition;
  6. import java.time.Duration;
  7. import java.util.Collections;
  8. import java.util.HashMap;
  9. import java.util.Map;
  10. import java.util.Properties;
  11. /**
  12. * 线程安全消费者 - 测试demo
  13. *
  14. * @Author: AllWe
  15. * @Date: 2024/09/27/12:19
  16. */
  17. @Data
  18. @Slf4j
  19. public class ConcurrentConsumer implements Runnable {
  20. /**
  21. * 消费者配置参数
  22. */
  23. private Properties properties;
  24. /**
  25. * 群组id
  26. */
  27. private String groupId;
  28. /**
  29. * 消费主题
  30. */
  31. private String topicName;
  32. /**
  33. * 消费者实例
  34. */
  35. private KafkaConsumer<String, String> consumer;
  36. /**
  37. * 记录分区消费者偏移量
  38. */
  39. private final Map<TopicPartition, OffsetAndMetadata> currOffsets = new HashMap<>();
  40. public ConcurrentConsumer(Properties properties, String groupId, String topicName) {
  41. this.properties = properties;
  42. this.groupId = groupId;
  43. this.topicName = topicName;
  44. // 补充配置参数
  45. properties.put(ConsumerConfig.GROUP_ID_CONFIG, groupId);
  46. // 创建消费者实例 - 每一个线程都创建自己的消费者,避免共享相同的消费者实例
  47. consumer = new KafkaConsumer<>(properties);
  48. // 配置消费主题 - 配置再均衡监听器
  49. consumer.subscribe(Collections.singleton(topicName), new ReBalanceHandler(currOffsets,consumer));
  50. }
  51. @Override
  52. public void run() {
  53. try {
  54. String threadName = Thread.currentThread().getName();
  55. Integer offset = 0;
  56. while (true) {
  57. ConsumerRecords<String, String> records = consumer.poll(Duration.ofSeconds(1));
  58. for (ConsumerRecord<String, String> record : records) {
  59. StringBuilder stringBuilder = new StringBuilder(threadName).append("|-");
  60. stringBuilder.append("partition:").append(record.partition());
  61. stringBuilder.append(",offset:").append(record.offset());
  62. stringBuilder.append(",key:").append(record.key());
  63. stringBuilder.append(",value:").append(record.value());
  64. System.out.println(stringBuilder);
  65. offset++;
  66. currOffsets.put(new TopicPartition(record.topic(), record.partition()), new OffsetAndMetadata(offset, "no"));
  67. }
  68. }
  69. } finally {
  70. consumer.close();
  71. }
  72. }
  73. }

自定义一个再均衡监听器,消费者在订阅接口中指定这个监听器,即可自动执行监听器的任务。

  1. // 配置消费主题 - 配置再均衡监听器
  2. consumer.subscribe(Collections.singleton(topicName), new ReBalanceHandler(currOffsets,consumer));
标签: kafka

本文转载自: https://blog.csdn.net/weixin_47201257/article/details/142527806
版权归原作者 AllWe$ 所有, 如有侵权,请联系我们删除。

“二、kafka生产与消费全流程”的评论:

还没有评论