0


[Spark、hadoop]spark Streaming的核心DStream

目录

Spark Streaming的核心是DStream

一、DStream简介

1.Spark Streaming提供了一个高级抽象的流,即DStream(离散流)。

2.DStream的内部结构是由一系列连续的RDD组成,每个RDD都是一小段由时间分隔开来的数据集。

二.DStream编程模型

三.DStream转换操作

transform()

1.在3个节点启动zookeeper集群服务

$ zkServer.sh start

2.启动kafka(3个节点都要)

****$ ****/opt/module/kafka/bin/kafka-server-start.sh /opt/module/kafka/config/server.properties

3.克隆会话,jps查看是否有Kafka(3个节点)****

4.进入/etc/resolv.conf加入如下内****

vi resolv.conf

Nameserver 114.114.114.114

5.下载nc****

$**** yum install nc****

6.启动服务端且监听Socket服务,并输入I**** am learning spark streaming now

$**** nc -lk 9999****

I** am learning spark streaming **now(回车)

7.创建Maven项目, 打开右上角的Fileànewàproject****

8.选择mavenànext****

9.填写groupld、artifctldànext****

10.添加依赖****

<dependencies>

    <dependency>

        <groupId>org.scala-lang</groupId>

        <artifactId>scala-library</artifactId>

        <version>2.11.8</version>

    </dependency>

    <dependency>

        <groupId>org.apache.spark</groupId>

        <artifactId>spark-core_2.11</artifactId>

        <version>2.0.2</version>

    </dependency>

    <!--引入sparkStreaming依赖-->

    <dependency>

        <groupId>org.apache.spark</groupId>

        <artifactId>spark-streaming_2.11</artifactId>

        <version>2.0.2</version>

    </dependency>

    <dependency>

        <groupId>mysql</groupId>

        <artifactId>mysql-connector-java</artifactId>

        <version>5.1.38</version>

    </dependency>

    <!--引入sparkstreaming整合kafka的依赖-->

    <dependency>

        <groupId>org.apache.spark</groupId>

        <artifactId>spark-streaming-kafka-0-8_2.11</artifactId>

        <version>2.0.2</version>

    </dependency>

</dependencies>

<build>

    <sourceDirectory>src/main/scala</sourceDirectory>

    <testSourceDirectory>src/test/scala</testSourceDirectory>

</build>

*11 在main目录下创建scala文件,右击à*newàdirectory,命名为Scala

12 右击Scala文件,选择【Mark Directory**** as】à【sources root】表示将文件夹标记为资源文件夹类型(存放项目源码文件)

*13 同样在test目录下创建scala文件,右击à*newàdirectory******,命名为Scala ******

14 右击Scala文件,选择【Mark Directory**** as】à【test sources root】表示将文件夹标记为测试资源文件夹类型(存放开发中测试的源码文件)

******15 右击main下的Scala文件先创建一个package并命名为cn.**itcast ****

1**6 **编写TransformTest.Scala

注意红框内容!!!

1**7 **运行程序,可以看到控制台输出结果

UpdateStateKey()****

1 编写UpdateStateKeyTest.scala****

注意红框内容!!!

******2 ********运行程序并在master ********9999 **端口不断输入单词,观察到控制台输出内容

$ nc -lk 9999

Hadoop spark itcast(回车)

Spark itcast

标签: java kafka 开发语言

本文转载自: https://blog.csdn.net/m0_57781407/article/details/127151246
版权归原作者 发量不足 所有, 如有侵权,请联系我们删除。

“[Spark、hadoop]spark Streaming的核心DStream”的评论:

还没有评论