0


Python 操作 Kafka --- kafka-python

kafka-python:https://github.com/dpkp/kafka-python

kafka-python 文档:https://kafka-python.readthedocs.io/en/master/apidoc/modules.html

kafka 官方文档:http://kafka.apache.org/documentation.html

Python 操作 Kafka 的通俗总结(kafka-python):https://zhuanlan.zhihu.com/p/279784873

译:Kafka 和 Unix 管道的示例:http://zqhxuyuan.github.io/2016/01/05/2016-01-05-Kafka-Unix/

一、基本概念

  • Topic:一组消息数据的标记符;
  • Producer:生产者,用于生产数据,可将生产后的消息送入指定的 Topic;
  • Consumer:消费者,获取数据,可消费指定的 Topic 里面的数据
  • Group:消费者组,同一个 group 可以有多个消费者,一条消息在一个 group 中,只会被一个消费者 获取;
  • Partition:分区,为了保证 kafka 的吞吐量,一个 Topic 可以设置多个分区。同一分区只能被一个消费者订阅。

二、安装 kafka-python

pip 命令:pip install kafka-python

三、生产者(Producer)与 消费者(Consumer)

生产者 示例:

  1. # -*- coding: utf-8 -*-
  2. import json
  3. import json
  4. import msgpack
  5. from loguru import logger
  6. from kafka import KafkaProducer
  7. from kafka.errors import KafkaError
  8. def kfk_produce_1():
  9. """
  10. 发送 json 格式数据
  11. :return:
  12. """
  13. producer = KafkaProducer(
  14. bootstrap_servers='ip:9092',
  15. value_serializer=lambda v: json.dumps(v).encode('utf-8')
  16. )
  17. producer.send('test_topic', {'key1': 'value1'})
  18. def kfk_produce_2():
  19. """
  20. 发送 string 格式数据
  21. :return:
  22. """
  23. producer = KafkaProducer(bootstrap_servers='xxxx:x')
  24. data_dict = {
  25. "name": 'king',
  26. 'age': 100,
  27. "msg": "Hello World"
  28. }
  29. msg = json.dumps(data_dict)
  30. producer.send('test_topic', msg, partition=0)
  31. producer.close()
  32. def kfk_produce_3():
  33. producer = KafkaProducer(bootstrap_servers=['broker1:1234'])
  34. # Asynchronous by default ( 默认是异步发送 )
  35. future = producer.send('my-topic', b'raw_bytes')
  36. # Block for 'synchronous' sends
  37. try:
  38. record_metadata = future.get(timeout=10)
  39. except KafkaError:
  40. # Decide what to do if produce request failed...
  41. logger.error(KafkaError)
  42. pass
  43. # Successful result returns assigned partition and offset
  44. print(record_metadata.topic)
  45. print(record_metadata.partition)
  46. print(record_metadata.offset)
  47. # produce keyed messages to enable hashed partitioning
  48. producer.send('my-topic', key=b'foo', value=b'bar')
  49. # encode objects via msgpack
  50. producer = KafkaProducer(value_serializer=msgpack.dumps)
  51. producer.send('msgpack-topic', {'key': 'value'})
  52. # produce json messages
  53. producer = KafkaProducer(value_serializer=lambda m: json.dumps(m).encode('ascii'))
  54. producer.send('json-topic', {'key': 'value'})
  55. # produce asynchronously
  56. for _ in range(100):
  57. producer.send('my-topic', b'msg')
  58. def on_send_success(record_metadata=None):
  59. print(record_metadata.topic)
  60. print(record_metadata.partition)
  61. print(record_metadata.offset)
  62. def on_send_error(excp=None):
  63. logger.error('I am an errback', exc_info=excp)
  64. # handle exception
  65. # produce asynchronously with callbacks
  66. producer.send('my-topic', b'raw_bytes').add_callback(on_send_success).add_errback(on_send_error)
  67. # block until all async messages are sent
  68. producer.flush()
  69. # configure multiple retries
  70. producer = KafkaProducer(retries=5)
  71. if __name__ == '__main__':
  72. kfk_produce_1()
  73. kfk_produce_2()
  74. pass

消费者 示例:

  1. # -*- coding: utf-8 -*-
  2. import json
  3. import msgpack
  4. from kafka import KafkaConsumer
  5. # To consume latest messages and auto-commit offsets
  6. consumer = KafkaConsumer(
  7. 'my-topic', group_id='my-group',
  8. bootstrap_servers=['localhost:9092']
  9. )
  10. for message in consumer:
  11. # message value and key are raw bytes -- decode if necessary!
  12. # e.g., for unicode: `message.value.decode('utf-8')`
  13. info = f'{message.topic}:{message.partition}:{message.offset}: key={message.key}, value={message.value}'
  14. print(info)
  15. # consume earliest available messages, don't commit offsets
  16. KafkaConsumer(auto_offset_reset='earliest', enable_auto_commit=False)
  17. # consume json messages
  18. KafkaConsumer(value_deserializer=lambda m: json.loads(m.decode('ascii')))
  19. # consume msgpack
  20. KafkaConsumer(value_deserializer=msgpack.unpackb)
  21. # StopIteration if no message after 1sec ( 没有消息时,1s后停止消费 )
  22. KafkaConsumer(consumer_timeout_ms=1000)
  23. # Subscribe to a regex topic pattern
  24. consumer = KafkaConsumer()
  25. consumer.subscribe(pattern='^awesome.*')
  26. # Use multiple consumers in parallel w/ 0.9 kafka brokers
  27. # typically you would run each on a different server / process / CPU
  28. consumer1 = KafkaConsumer(
  29. 'my-topic', group_id='my-group',
  30. bootstrap_servers='my.server.com'
  31. )
  32. consumer2 = KafkaConsumer(
  33. 'my-topic', group_id='my-group',
  34. bootstrap_servers='my.server.com'
  35. )

简单封装:

  1. # -*- coding: utf-8 -*-
  2. import time
  3. import json
  4. import ujson
  5. import random
  6. from loguru import logger
  7. from kafka import KafkaProducer, KafkaConsumer
  8. class KafkaOperate(object):
  9. def __init__(self, bootstrap_servers=None):
  10. if not bootstrap_servers:
  11. raise Exception('bootstrap_servers is None')
  12. self.__bootstrap_servers = None
  13. if isinstance(bootstrap_servers, str):
  14. ip_port_string = bootstrap_servers.strip()
  15. if ',' in ip_port_string:
  16. self.__bootstrap_servers = ip_port_string.replace(' ', '').split(',')
  17. else:
  18. self.__bootstrap_servers = [ip_port_string]
  19. self.kafka_producer = None
  20. self.kafka_consumer = None
  21. pass
  22. def __del__(self):
  23. pass
  24. def kfk_consume(self, topic_name=None, group_id='my_group'):
  25. if not self.kafka_consumer:
  26. self.kafka_consumer = KafkaConsumer(
  27. topic_name, group_id=group_id,
  28. bootstrap_servers=self.__bootstrap_servers,
  29. auto_offset_reset='earliest',
  30. )
  31. count = 0
  32. for msg in self.kafka_consumer:
  33. count += 1
  34. # message value and key are raw bytes -- decode if necessary!
  35. # e.g., for unicode: `message.value.decode('utf-8')`
  36. info = f'[{count}] {msg.topic}:{msg.partition}:{msg.offset}: key={msg.key}, value={msg.value.decode("utf-8")}'
  37. logger.info(info)
  38. time.sleep(1)
  39. def __kfk_produce(self, topic_name=None, data_dict=None, partition=None):
  40. """
  41. 如果想要多线程进行消费,可以设置 发往不通的 partition
  42. 有多少个 partition 就可以启多少个线程同时进行消费,
  43. :param topic_name:
  44. :param data_dict:
  45. :param partition:
  46. :return:
  47. """
  48. if not self.kafka_producer:
  49. self.kafka_producer = KafkaProducer(
  50. bootstrap_servers=self.__bootstrap_servers,
  51. client_id='my_group',
  52. value_serializer=lambda v: json.dumps(v).encode('utf-8')
  53. )
  54. # data_dict = {
  55. # "name": 'king',
  56. # 'age': 100,
  57. # "msg": "Hello World"
  58. # }
  59. if partition:
  60. self.kafka_producer.send(
  61. topic=topic_name,
  62. value=data_dict,
  63. # key='count_num', # 同一个key值,会被送至同一个分区
  64. partition=partition
  65. )
  66. else:
  67. self.kafka_producer.send(topic_name, data_dict)
  68. pass
  69. def kfk_produce_one(self, topic_name=None, data_dict=None, partition=None, partition_count=1):
  70. partition = partition if partition else random.randint(0, partition_count-1)
  71. self.__kfk_produce(topic_name=topic_name, data_dict=data_dict, partition=partition)
  72. self.kafka_producer.flush()
  73. def kfk_produce_many(self, topic_name=None, data_dict_list=None, partition=None, partition_count=1, per_count=100):
  74. count = 0
  75. for data_dict in data_dict_list:
  76. partition = partition if partition else count % partition_count
  77. self.__kfk_produce(topic_name=topic_name, data_dict=data_dict, partition=partition)
  78. if 0 == count % per_count:
  79. self.kafka_producer.flush()
  80. count += 1
  81. self.kafka_producer.flush()
  82. pass
  83. @staticmethod
  84. def get_consumer(group_id: str, bootstrap_servers: list, topic: str, enable_auto_commit=True) -> KafkaConsumer:
  85. topics = tuple([x.strip() for x in topic.split(',') if x.strip()])
  86. if enable_auto_commit:
  87. return KafkaConsumer(
  88. *topics,
  89. group_id=group_id,
  90. bootstrap_servers=bootstrap_servers,
  91. auto_offset_reset='earliest',
  92. # fetch_max_bytes=FETCH_MAX_BYTES,
  93. # connections_max_idle_ms=CONNECTIONS_MAX_IDLE_MS,
  94. # max_poll_interval_ms=KAFKA_MAX_POLL_INTERVAL_MS,
  95. # session_timeout_ms=SESSION_TIMEOUT_MS,
  96. # max_poll_records=KAFKA_MAX_POLL_RECORDS,
  97. # request_timeout_ms=REQUEST_TIMEOUT_MS,
  98. # auto_commit_interval_ms=AUTO_COMMIT_INTERVAL_MS,
  99. value_deserializer=lambda m: ujson.loads(m.decode('utf-8'))
  100. )
  101. else:
  102. return KafkaConsumer(
  103. *topics,
  104. group_id=group_id,
  105. bootstrap_servers=bootstrap_servers,
  106. auto_offset_reset='earliest',
  107. # fetch_max_bytes=FETCH_MAX_BYTES,
  108. # connections_max_idle_ms=CONNECTIONS_MAX_IDLE_MS,
  109. # max_poll_interval_ms=KAFKA_MAX_POLL_INTERVAL_MS,
  110. # session_timeout_ms=SESSION_TIMEOUT_MS,
  111. # max_poll_records=KAFKA_MAX_POLL_RECORDS,
  112. # request_timeout_ms=REQUEST_TIMEOUT_MS,
  113. enable_auto_commit=enable_auto_commit,
  114. value_deserializer=lambda m: ujson.loads(m.decode('utf-8'))
  115. )
  116. @staticmethod
  117. def get_producer(bootstrap_servers: list):
  118. return KafkaProducer(bootstrap_servers=bootstrap_servers, retries=5)
  119. if __name__ == '__main__':
  120. bs = '10.10.10.10:9092'
  121. kafka_op = KafkaOperate(bootstrap_servers=bs)
  122. kafka_op.kfk_consume(topic_name='001_test')
  123. pass

示例:

  1. # -*- coding:utf-8 -*-
  2. import json
  3. from kafka import KafkaConsumer, KafkaProducer
  4. class KProducer:
  5. def __init__(self, bootstrap_servers, topic):
  6. """
  7. kafka 生产者
  8. :param bootstrap_servers: 地址
  9. :param topic: topic
  10. """
  11. self.producer = KafkaProducer(
  12. bootstrap_servers=bootstrap_servers,
  13. value_serializer=lambda m: json.dumps(m).encode('ascii'), ) # json 格式化发送的内容
  14. self.topic = topic
  15. def sync_producer(self, data_li: list):
  16. """
  17. 同步发送 数据
  18. :param data_li: 发送数据
  19. :return:
  20. """
  21. for data in data_li:
  22. future = self.producer.send(self.topic, data)
  23. record_metadata = future.get(timeout=10) # 同步确认消费
  24. partition = record_metadata.partition # 数据所在的分区
  25. offset = record_metadata.offset # 数据所在分区的位置
  26. print('save success, partition: {}, offset: {}'.format(partition, offset))
  27. def asyn_producer(self, data_li: list):
  28. """
  29. 异步发送数据
  30. :param data_li:发送数据
  31. :return:
  32. """
  33. for data in data_li:
  34. self.producer.send(self.topic, data)
  35. self.producer.flush() # 批量提交
  36. def asyn_producer_callback(self, data_li: list):
  37. """
  38. 异步发送数据 + 发送状态处理
  39. :param data_li:发送数据
  40. :return:
  41. """
  42. for data in data_li:
  43. self.producer.send(self.topic, data).add_callback(self.send_success).add_errback(self.send_error)
  44. self.producer.flush() # 批量提交
  45. def send_success(self, *args, **kwargs):
  46. """异步发送成功回调函数"""
  47. print('save success')
  48. return
  49. def send_error(self, *args, **kwargs):
  50. """异步发送错误回调函数"""
  51. print('save error')
  52. return
  53. def close_producer(self):
  54. try:
  55. self.producer.close()
  56. except:
  57. pass
  58. if __name__ == '__main__':
  59. send_data_li = [{"test": 1}, {"test": 2}]
  60. kp = KProducer(topic='topic', bootstrap_servers='127.0.0.1:9001,127.0.0.1:9002')
  61. # 同步发送
  62. kp.sync_producer(send_data_li)
  63. # 异步发送
  64. # kp.asyn_producer(send_data_li)
  65. # 异步+回调
  66. # kp.asyn_producer_callback(send_data_li)
  67. kp.close_producer()

KafkaConsumer 的 构造参数:

  • *topics ,要订阅的主题
  • *auto_offset_reset:总共3种值:earliest latest、none earliest 当各分区下有已提交的 offset 时,从提交的 offset 开始消费; 无提交的 offset时,从头开始消费latest 当各分区下有已提交的offset时,从提交的offset开始消费; 无提交的offset时,消费新产生的该分区下的数据***none topic 各分区都存在已提交的 offset 时,从 offset 后开始消费; 只要有一个分区不存在已提交的 offset,则抛出异常
  • bootstrap_servers :kafka节点或节点的列表,不一定需要罗列所有的kafka节点。格式为: ‘host[:port]’ 。默认值是:localhost:9092
  • client_id (str) : 客户端id,默认值: ‘kafka-python-{version}’
  • group_id (str or None):分组id
  • key_deserializer (callable) :key反序列化函数
  • value_deserializer (callable):value反序列化函数
  • fetch_min_bytes:服务器应每次返回的最小数据量
  • fetch_max_wait_ms (int): 服务器应每次返回的最大等待时间
  • fetch_max_bytes (int) :服务器应每次返回的最大数据量
  • max_partition_fetch_bytes (int) :
  • request_timeout_ms (int) retry_backoff_ms (int)
  • reconnect_backoff_ms (int)
  • reconnect_backoff_max_ms (int)
  • max_in_flight_requests_per_connection (int)
  • auto_offset_reset (str) enable_auto_commit (bool)
  • auto_commit_interval_ms (int)
  • default_offset_commit_callback (callable)
  • check_crcs (bool)
  • metadata_max_age_ms (int)
  • partition_assignment_strategy (list)
  • max_poll_records (int)
  • max_poll_interval_ms (int)
  • session_timeout_ms (int)
  • heartbeat_interval_ms (int)
  • receive_buffer_bytes (int)
  • send_buffer_bytes (int)
  • socket_options (list)
  • consumer_timeout_ms (int)
  • skip_double_compressed_messages (bool)
  • security_protocol (str)
  • ssl_context (ssl.SSLContext)
  • ssl_check_hostname (bool)
  • ssl_cafile (str) –
  • ssl_certfile (str)
  • ssl_keyfile (str)
  • ssl_password (str)
  • ssl_crlfile (str)
  • api_version (tuple)

KafkaConsumer 的 函数

  • assign(partitions):手动为该消费者分配一个topic分区列表。
  • assignment():获取当前分配给该消费者的topic分区。
  • beginning_offsets(partitions):获取给定分区的第一个偏移量。
  • close(autocommit=True):关闭消费者
  • commit(offsets=None):提交偏移量,直到成功或错误为止。
  • commit_async(offsets=None, callback=None):异步提交偏移量。
  • committed(partition):获取给定分区的最后一个提交的偏移量。
  • end_offsets(partitions):获取分区的最大偏移量
  • highwater(partition):分区最大的偏移量
  • metrics(raw=False):返回消费者性能指标
  • next():返回下一条数据
  • offsets_for_times(timestamps):根据时间戳获取分区偏移量
  • partitions_for_topic(topic):返回topic的partition列表,返回一个set集合
  • pause(*partitions):停止获取数据paused():返回停止获取的分区poll(timeout_ms=0, max_records=None):获取数据
  • position(partition):获取分区的偏移量
  • resume(*partitions):恢复抓取指定的分区
  • seek(partition, offset):seek偏移量
  • seek_to_beginning(*partitions):搜索最旧的偏移量
  • seek_to_end(*partitions):搜索最近可用的偏移量
  • subscribe(topics=(), pattern=None, listener=None):订阅topics
  • subscription():返回当前消费者消费的所有topic
  • topics():返回当前消费者消费的所有topic,返回的是unicode
  • unsubscribe():取消订阅所有的topic

简单的消费者代码:

  1. from kafka import KafkaConsumer
  2. consumer = KafkaConsumer('test_rhj', bootstrap_servers=['xxxx:x'])
  3. for msg in consumer:
  4. recv = "%s:%d:%d: key=%s value=%s" % (
  5. msg.topic, msg.partition, msg.offset, msg.key, msg.value
  6. )
  7. print(recv)

kafka 的 分区机制

如果想要完成负载均衡,就需要知道 kafka 的分区机制,

  • 同一个 主题** ( topic )** ,可以为其分区,
  • 生产者在不指定分区的情况,kafka 会将多个消息分发到不同的分区,

消费者订阅时候

  • 如果 不指定服务组,会收到所有分区的消息,
  • 如果 指定了服务组,则同一服务组的消费者会消费不同的分区,
  • 如果2个分区两个消费者的消费者组消费,则每个消费者消费一个分区,
  • 如果有三个消费者的服务组,则会出现一个消费者消费不到数据;如果想要消费同一分区,则需要用不同的服务组。

以此为原理,我们对消费者做如下修改:

  1. from kafka import KafkaConsumer
  2. consumer = KafkaConsumer(
  3. 'test_rhj',
  4. group_id='123456',
  5. bootstrap_servers=['10.43.35.25:4531']
  6. )
  7. for msg in consumer:
  8. recv = "%s:%d:%d: key=%s value=%s" % (
  9. msg.topic, msg.partition, msg.offset, msg.key, msg.value
  10. )
  11. print(recv)

开两个消费者进行消费,生产者分别往 0分区 和 1分区 发消息结果如下,可以看到,一个消费者只能消费0分区,另一个只能消费1分区:

偏移量

kafka 提供了 "偏移量" 的概念,允许消费者根据偏移量消费之前遗漏的内容,这基于 kafka 名义上的全量存储,可以保留大量的历史数据,历史保存时间是可配置的,一般是7天,如果偏移量定位到了已删除的位置那也会有问题,但是这种情况可能很小;每个保存的数据文件都是以偏移量命名的,当前要查的偏移量减去文件名就是数据在该文件的相对位置。要指定偏移量消费数据,需要指定该消费者要消费的分区,否则代码会找不到分区而无法消费,代码如下:

  1. from kafka import KafkaConsumer
  2. from kafka.structs import TopicPartition
  3. consumer = KafkaConsumer(
  4. group_id='123456', bootstrap_servers=['10.43.35.25:4531']
  5. )
  6. consumer.assign(
  7. [
  8. TopicPartition(topic='test_rhj', partition=0),
  9. TopicPartition(topic='test_rhj', partition=1)
  10. ]
  11. )
  12. print(consumer.partitions_for_topic("test_rhj")) # 获取test主题的分区信息
  13. print(consumer.assignment())
  14. print(consumer.beginning_offsets(consumer.assignment()))
  15. consumer.seek(TopicPartition(topic='test_rhj', partition=0), 0)
  16. for msg in consumer:
  17. recv = "%s:%d:%d: key=%s value=%s" % (
  18. msg.topic, msg.partition, msg.offset, msg.key, msg.value
  19. )
  20. print(recv)

因为指定的偏移量为 0,所以从一开始插入的数据都可以查到,而且因为指定了分区,指定的分区结果都可以消费,结果如下:

有时候,我们并不需要实时获取数据,因为这样可能会造成性能瓶颈,我们只需要定时去获取队列里的数据然后批量处理就可以,这种情况,我们可以选择主动拉取数据

  1. from kafka import KafkaConsumer
  2. import time
  3. consumer = KafkaConsumer(group_id='123456', bootstrap_servers=['10.43.35.25:4531'])
  4. consumer.subscribe(topics=('test_rhj',))
  5. index = 0
  6. while True:
  7. msg = consumer.poll(timeout_ms=5) # 从kafka获取消息
  8. print(msg)
  9. time.sleep(2)
  10. index += 1
  11. print('--------poll index is %s----------' % index)

结果如下,可以看到,每次拉取到的都是前面生产的数据,可能是多条的列表,也可能没有数据,如果没有数据,则拉取到的为空:

消费者 示例

  1. # coding:utf8
  2. from kafka import KafkaConsumer
  3. # 创建一个消费者,指定了topic,group_id,bootstrap_servers
  4. # group_id: 多个拥有相同group_id的消费者被判定为一组,
  5. # 一条数据记录只会被同一个组中的一个消费者消费
  6. # bootstrap_servers:kafka的节点,多个节点使用逗号分隔
  7. # 这种方式只会获取新产生的数据
  8. bootstrap_server_list = [
  9. '192.168.70.221:19092',
  10. '192.168.70.222:19092',
  11. '192.168.70.223:19092'
  12. ]
  13. consumer = KafkaConsumer(
  14. # kafka 集群地址
  15. bootstrap_servers=','.join(bootstrap_server_list),
  16. group_id="my.group", # 消费组id
  17. enable_auto_commit=True, # 每过一段时间自动提交所有已消费的消息(在迭代时提交)
  18. auto_commit_interval_ms=5000, # 自动提交的周期(毫秒)
  19. )
  20. consumer.subscribe(["my.topic"]) # 消息的主题,可以指定多个
  21. for msg in consumer: # 迭代器,等待下一条消息
  22. print(msg) # 打印消息

多线程 消费

  1. # coding:utf-8
  2. import os
  3. import sys
  4. import threading
  5. from kafka import KafkaConsumer, TopicPartition, OffsetAndMetadata
  6. from collections import OrderedDict
  7. threads = []
  8. class MyThread(threading.Thread):
  9. def __init__(self, thread_name, topic, partition):
  10. threading.Thread.__init__(self)
  11. self.thread_name = thread_name
  12. self.partition = partition
  13. self.topic = topic
  14. def run(self):
  15. print("Starting " + self.name)
  16. consumer(self.thread_name, self.topic, self.partition)
  17. def stop(self):
  18. sys.exit()
  19. def consumer(thread_name, topic, partition):
  20. broker_list = 'ip1:9092,ip2:9092'
  21. '''
  22. fetch_min_bytes(int) - 服务器为获取请求而返回的最小数据量,否则请等待
  23. fetch_max_wait_ms(int) - 如果没有足够的数据立即满足fetch_min_bytes给出的要求,服务器在回应提取请求之前将阻塞的最大时间量(以毫秒为单位)
  24. fetch_max_bytes(int) - 服务器应为获取请求返回的最大数据量。这不是绝对最大值,如果获取的第一个非空分区中的第一条消息大于此值,
  25. 则仍将返回消息以确保消费者可以取得进展。注意:使用者并行执行对多个代理的提取,因此内存使用将取决于包含该主题分区的代理的数量。
  26. 支持的Kafka版本> = 0.10.1.0。默认值:52428800(50 MB)。
  27. enable_auto_commit(bool) - 如果为True,则消费者的偏移量将在后台定期提交。默认值:True。
  28. max_poll_records(int) - 单次调用中返回的最大记录数poll()。默认值:500
  29. max_poll_interval_ms(int) - poll()使用使用者组管理时的调用之间的最大延迟 。这为消费者在获取更多记录之前可以闲置的时间量设置了上限。
  30. 如果 poll()在此超时到期之前未调用,则认为使用者失败,并且该组将重新平衡以便将分区重新分配给另一个成员。默认300000
  31. '''
  32. consumer_1 = KafkaConsumer(
  33. bootstrap_servers=broker_list,
  34. group_id="test000001",
  35. client_id=thread_name,
  36. enable_auto_commit=False,
  37. fetch_min_bytes=1024 * 1024, # 1M
  38. # fetch_max_bytes=1024 * 1024 * 1024 * 10,
  39. fetch_max_wait_ms=60000, # 30s
  40. request_timeout_ms=305000,
  41. # consumer_timeout_ms=1,
  42. # max_poll_records=5000,
  43. )
  44. # 设置topic partition
  45. tp = TopicPartition(topic, partition)
  46. # 分配该消费者的TopicPartition,也就是topic和partition,
  47. # 根据参数,每个线程消费者消费一个分区
  48. consumer_1.assign([tp])
  49. # 获取上次消费的最大偏移量
  50. offset = consumer_1.end_offsets([tp])[tp]
  51. print(thread_name, tp, offset)
  52. # 设置消费的偏移量
  53. consumer_1.seek(tp, offset)
  54. print(u"程序首次运行\t线程:", thread_name, u"分区:", partition, u"偏移量:", offset, u"\t开始消费...")
  55. num = 0 # 记录该消费者消费次数
  56. while True:
  57. msg = consumer_1.poll(timeout_ms=60000)
  58. end_offset = consumer_1.end_offsets([tp])[tp]
  59. '''可以自己记录控制消费'''
  60. print(u'已保存的偏移量', consumer_1.committed(tp), u'最新偏移量,', end_offset)
  61. if len(msg) > 0:
  62. print(u"线程:", thread_name, u"分区:", partition, u"最大偏移量:", end_offset, u"有无数据,", len(msg))
  63. lines = 0
  64. for data in msg.values():
  65. for line in data:
  66. print(line)
  67. lines += 1
  68. '''
  69. do something
  70. '''
  71. # 线程此批次消息条数
  72. print(thread_name, "lines", lines)
  73. if True:
  74. # 可以自己保存在各topic, partition的偏移量
  75. # 手动提交偏移量 offsets格式:{TopicPartition:OffsetAndMetadata(offset_num,None)}
  76. consumer_1.commit(offsets={tp: (OffsetAndMetadata(end_offset, None))})
  77. if not 0:
  78. # 系统退出?这个还没试
  79. os.exit()
  80. '''
  81. sys.exit() 只能退出该线程,也就是说其它两个线程正常运行,主程序不退出
  82. '''
  83. else:
  84. os.exit()
  85. else:
  86. print(thread_name, '没有数据')
  87. num += 1
  88. print(thread_name, "第", num, "次")
  89. if __name__ == '__main__':
  90. try:
  91. t1 = MyThread("Thread-0", "test", 0)
  92. threads.append(t1)
  93. t2 = MyThread("Thread-1", "test", 1)
  94. threads.append(t2)
  95. t3 = MyThread("Thread-2", "test", 2)
  96. threads.append(t3)
  97. for t in threads:
  98. t.start()
  99. for t in threads:
  100. t.join()
  101. print("exit program with 0")
  102. except:
  103. print("Error: failed to run consumer program")

高级用法(消费者)

从指定 offset 开始读取消息,被消费过的消息也可以被此方法读取

创建消费者

  • 使用 assign 方法重置指定分区(partition)的读取偏移(fetch offset)的值
  • 使用 seek 方法从指定的partition和offset开始读取数据
  1. #encoding:utf8
  2. from kafka import KafkaConsumer, TopicPartition
  3. my_topic = "my.topic" # 指定需要消费的主题
  4. consumer = KafkaConsumer(
  5. # kafka集群地址
  6. bootstrap_servers = "192.168.70.221:19092,192.168.70.222:19092",
  7. group_id = "my.group", # 消费组id
  8. enable_auto_commit = True, # 每过一段时间自动提交所有已消费的消息(在迭代时提交)
  9. auto_commit_interval_ms = 5000, # 自动提交的周期(毫秒)
  10. )
  11. consumer.assign([
  12. TopicPartition(topic=my_topic, partition=0),
  13. TopicPartition(topic=my_topic, partition=1),
  14. TopicPartition(topic=my_topic, partition=2)
  15. ])
  16. # 指定起始 offset 为 12
  17. consumer.seek(TopicPartition(topic=my_topic, partition=0), 12)
  18. # 可以注册多个分区,此分区从第一条消息开始接收
  19. consumer.seek(TopicPartition(topic=my_topic, partition=1), 0)
  20. # 没有注册的分区上的消息不会被消费
  21. # consumer.seek(TopicPartition(topic=my_topic, partition=2), 32)
  22. for msg in consumer: # 迭代器,等待下一条消息
  23. print msg # 打印消息

其他用法

  1. # 立刻发送所有数据并等待发送完毕
  2. producer.flush()
  3. # 读取下一条消息
  4. next(consumer)
  5. # 手动提交所有已消费的消息
  6. consumer.commit()
  7. # 手动提交指定的消息
  8. consumer.commit([TopicPartition(my_topic, msg.offset)])

生产者消费者 的 Demo

  1. import json
  2. import traceback
  3. from kafka import KafkaProducer, KafkaConsumer
  4. from kafka.errors import kafka_errors
  5. def producer_demo():
  6. # 假设生产的消息为键值对(不是一定要键值对),且序列化方式为json
  7. producer = KafkaProducer(
  8. bootstrap_servers=['localhost:9092'],
  9. key_serializer=lambda k: json.dumps(k).encode(),
  10. value_serializer=lambda v: json.dumps(v).encode())
  11. # 发送三条消息
  12. for i in range(0, 3):
  13. future = producer.send(
  14. 'kafka_demo',
  15. key='count_num', # 同一个key值,会被送至同一个分区
  16. value=str(i),
  17. partition=1 # 向分区1发送消息
  18. )
  19. print("send {}".format(str(i)))
  20. try:
  21. future.get(timeout=10) # 监控是否发送成功
  22. except kafka_errors: # 发送失败抛出kafka_errors
  23. traceback.format_exc()
  24. def consumer_demo():
  25. consumer = KafkaConsumer(
  26. 'kafka_demo',
  27. bootstrap_servers=':9092',
  28. group_id='test'
  29. )
  30. for message in consumer:
  31. print(
  32. f"receive, key: {json.loads(message.key.decode())}, "
  33. f"value: {json.loads(message.value.decode())}"
  34. )

四、消费者进阶操作

(1)初始化参数:

  1. 列举一些 KafkaConsumer 初始化时的重要参数:
  • group_id :高并发量,则需要有多个消费者协作,消费进度,则由group_id统一。例如消费者A与消费者B,在初始化时使用同一个group_id。在进行消费时,一条消息被消费者A消费后,在kafka中会被标记,这条消息不会再被B消费(前提是A消费后正确commit)。
  • key_deserializer, value_deserializer :与生产者中的参数一致,自动解析。
  • auto_offset_reset :消费者启动的时刻,消息队列中或许已经有堆积的未消费消息,有时候需求是从上一次未消费的位置开始读(则该参数设置为 earliest ),有时候的需求为从当前时刻开始读之后产生的,之前产生的数据不再消费(则该参数设置为 latest )。
  • enable_auto_commit, auto_commit_interval_ms :是否自动commit,当前消费者消费完该数据后,需要commit,才可以将消费完的信息传回消息队列的控制中心。enable_auto_commit 设置为 True 后,消费者将自动 commit,并且两次 commit 的时间间隔为 auto_commit_interval_ms 。

(2)手动 commit

  1. def consumer_demo():
  2. consumer = KafkaConsumer(
  3. 'kafka_demo',
  4. bootstrap_servers=':9092',
  5. group_id='test',
  6. enable_auto_commit=False
  7. )
  8. for message in consumer:
  9. print(
  10. f"receive, key: {json.loads(message.key.decode())}, "
  11. f"value: {json.loads(message.value.decode())}"
  12. )
  13. consumer.commit()

(3)查看 kafka 堆积剩余量

  1. 在线环境中,需要保证消费者的消费速度大于生产者的生产速度,所以需要检测 kafka 中的剩余堆积量是在增加还是减小。可以用如下代码,观测队列消息剩余量:
  1. consumer = KafkaConsumer(topic, **kwargs)
  2. partitions = [TopicPartition(topic, p) for p in consumer.partitions_for_topic(topic)]
  3. print("start to cal offset:")
  4. # total
  5. toff = consumer.end_offsets(partitions)
  6. toff = [(key.partition, toff[key]) for key in toff.keys()]
  7. toff.sort()
  8. print("total offset: {}".format(str(toff)))
  9. # current
  10. coff = [(x.partition, consumer.committed(x)) for x in partitions]
  11. coff.sort()
  12. print("current offset: {}".format(str(coff)))
  13. # cal sum and left
  14. toff_sum = sum([x[1] for x in toff])
  15. cur_sum = sum([x[1] for x in coff if x[1] is not None])
  16. left_sum = toff_sum - cur_sum
  17. print("kafka left: {}".format(left_sum))
标签: kafka python 分布式

本文转载自: https://blog.csdn.net/lyshark_lyshark/article/details/125847310
版权归原作者 「已注销」 所有, 如有侵权,请联系我们删除。

“Python 操作 Kafka --- kafka-python”的评论:

还没有评论