Spark与Kafka进行连接

在Java中使用Spark与Kafka进行连接，你可以使用Spark Streaming来处理实时流数据。以下是一个简单的示例，展示了如何使用Spark Streaming从Kafka读取数据并进行处理。

1. 引入依赖

首先，在你的

pom.xml

文件中添加必要的依赖项（假设你在使用Maven）：

<dependencies><!-- Spark Core --><dependency><groupId>org.apache.spark</groupId><artifactId>spark-core_2.12</artifactId><version>3.4.0</version></dependency><!-- Spark Streaming --><dependency><groupId>org.apache.spark</groupId><artifactId>spark-streaming_2.12</artifactId><version>3.4.0</version></dependency><!-- Spark Streaming Kafka Integration --><dependency><groupId>org.apache.spark</groupId><artifactId>spark-streaming-kafka-0-10_2.12</artifactId><version>3.4.0</version></dependency><!-- Kafka Client --><dependency><groupId>org.apache.kafka</groupId><artifactId>kafka-clients</artifactId><version>3.0.0</version></dependency></dependencies>

2. 创建Spark Streaming应用程序

下面是一个简单的Java应用程序示例，它从Kafka读取数据并进行简单处理：

importorg.apache.kafka.clients.consumer.ConsumerConfig;importorg.apache.kafka.common.serialization.StringDeserializer;importorg.apache.spark.SparkConf;importorg.apache.spark.streaming.Durations;importorg.apache.spark.streaming.api.java.JavaInputDStream;importorg.apache.spark.streaming.api.java.JavaStreamingContext;importorg.apache.spark.streaming.kafka010.ConsumerStrategies;importorg.apache.spark.streaming.kafka010.KafkaUtils;importorg.apache.spark.streaming.kafka010.LocationStrategies;importjava.util.*;publicclassSparkKafkaExample{publicstaticvoidmain(String[] args)throwsInterruptedException{// 创建Spark配置对象SparkConf conf =newSparkConf().setMaster("local[*]").setAppName("SparkKafkaExample");// 创建JavaStreamingContext对象，指定批次间隔为5秒JavaStreamingContext jssc =newJavaStreamingContext(conf,Durations.seconds(5));// Kafka参数配置Map<String,Object> kafkaParams =newHashMap<>();
        kafkaParams.put(ConsumerConfig.BOOTSTRAP_SERVERS_CONFIG,"localhost:9092");// Kafka Broker地址
        kafkaParams.put(ConsumerConfig.KEY_DESERIALIZER_CLASS_CONFIG,StringDeserializer.class);
        kafkaParams.put(ConsumerConfig.VALUE_DESERIALIZER_CLASS_CONFIG,StringDeserializer.class);
        kafkaParams.put(ConsumerConfig.GROUP_ID_CONFIG,"spark-group");
        kafkaParams.put(ConsumerConfig.AUTO_OFFSET_RESET_CONFIG,"latest");
        kafkaParams.put(ConsumerConfig.ENABLE_AUTO_COMMIT_CONFIG,false);// 定义要消费的Kafka主题Collection<String> topics =Arrays.asList("test-topic");// 创建Kafka DStreamJavaInputDStream<org.apache.kafka.clients.consumer.ConsumerRecord<String,String>> stream =KafkaUtils.createDirectStream(
                        jssc,LocationStrategies.PreferConsistent(),ConsumerStrategies.<String,String>Subscribe(topics, kafkaParams));// 处理从Kafka接收到的数据
        stream.foreachRDD(rdd ->{
            rdd.foreach(record ->{System.out.println("Key: "+ record.key()+", Value: "+ record.value());});});// 启动StreamingContext
        jssc.start();// 等待作业结束
        jssc.awaitTermination();}}

3. 运行程序

启动Kafka和Zookeeper。
确保Kafka中有一个名为test-topic的主题，或者你可以更改代码中的主题名称。
运行上述Java应用程序。

4. 解释

Kafka Parameters：配置Kafka连接的必要参数，包括Kafka broker地址、反序列化器、消费组ID等。
KafkaUtils.createDirectStream：创建一个直接从Kafka读取数据的DStream。
stream.foreachRDD：对每个批次的数据进行处理，打印从Kafka读取的记录。

注意

确保Kafka和Spark的版本兼容。
在生产环境中，通常需要更多的配置，例如处理失败、检查点等。

这个简单的例子展示了如何使用Spark与Kafka连接并处理实时数据流。你可以根据需要扩展这个例子，添加更多的处理逻辑。

标签： spark kafka

本文转载自: https://blog.csdn.net/Casual_Lei/article/details/141906244
版权归原作者 傲雪凌霜，松柏长青 所有，如有侵权，请联系我们删除。

Spark与Kafka进行连接

1. 引入依赖

2. 创建Spark Streaming应用程序

3. 运行程序

4. 解释

注意

发表评论

“Spark与Kafka进行连接”的评论:

关于作者

overfit同步小助手

相关阅读

文章导航