本篇文章将带大家运行 Flink 最简单的程序 WordCount。先实践后理论,对其基本输入输出、编程代码有初步了解,后续篇章再对 Flink 的各种概念和架构进行介绍。
下面将从创建项目开始,介绍如何创建出一个 Flink 项目;然后从 DataStream 流处理和 FlinkSQL 执行两种方式来带大家学习 WordCount 程序的开发。
Flink 各版本之间变化较多,之前版本的函数在后续版本可能不再支持。跟随学习时,请尽量选择和笔者同版本的 Flink。本文使用的 Flink 版本是 1.13.2。
一、创建项目
在很多其他教程中,会看到如下来创建 Flink 程序的方式。虽然简单方便,但对初学者来说,不知道初始化项目的时候做了什么,如果报错了也不知道该如何排查。
mvn archetype:generate
-DarchetypeGroupId=org.apache.flink
-DarchetypeArtifactId=flink-quickstart-java
-DarchetypeVersion=1.13.2
通过指定 Maven 工程的三要素,即 GroupId、ArtifactId、Version 来创建一个新的工程。同时 Flink 给我提供了更为方便的创建 Flink 工程的方法:
curl https://flink.apache.org/q/quickstart.sh | bash -s 1.13.2
因此,我们手动来创建一个 Maven 项目,看看到底如何创建出一个 Flink 项目。
1、通过 IDEA 创建一个 Maven 项目
2、
pom.xml
添加:
这里我们选择的是 Flink 1.13.2 版本(Flink 1.14 之后部分类和函数有变化,可自行探索)。
<properties><maven.compiler.source>8</maven.compiler.source><maven.compiler.target>8</maven.compiler.target><flink.version>1.13.2</flink.version><!-- 1.14 之后部分类和函数有变化,可自行探索 --><target.java.version>1.8</target.java.version><scala.binary.version>2.12</scala.binary.version><maven.compiler.source>${target.java.version}</maven.compiler.source><maven.compiler.target>${target.java.version}</maven.compiler.target></properties><dependencies><dependency><groupId>org.apache.flink</groupId><artifactId>flink-java</artifactId><version>${flink.version}</version><scope>provided</scope></dependency><dependency><groupId>org.apache.flink</groupId><artifactId>flink-streaming-java_${scala.binary.version}</artifactId><version>${flink.version}</version><scope>provided</scope></dependency><dependency><groupId>org.apache.flink</groupId><artifactId>flink-clients_${scala.binary.version}</artifactId><version>${flink.version}</version><scope>provided</scope></dependency></dependencies>
二、DataStream WordCount
一)编写程序
基础项目环境已经搞好了,接下来我们模仿一个流式环境,监听本地的 Socket 端口,使用 Flink 统计流入的不同单词个数。
importorg.apache.flink.api.common.functions.FlatMapFunction;importorg.apache.flink.api.java.tuple.Tuple2;importorg.apache.flink.streaming.api.datastream.DataStreamSource;importorg.apache.flink.streaming.api.datastream.SingleOutputStreamOperator;importorg.apache.flink.streaming.api.environment.StreamExecutionEnvironment;importorg.apache.flink.util.Collector;publicclassSocketTextStreamWordCount{publicstaticvoidmain(String[] args)throwsException{//参数检查if(args.length !=2){// System.err.println("USAGE:\nSocketTextStreamWordCount <hostname> <port>");// return;
args =newString[]{"127.0.0.1","9000"};}String hostname = args[0];Integer port =Integer.parseInt(args[1]);// 创建 streaming execution environmentfinalStreamExecutionEnvironment env =StreamExecutionEnvironment.getExecutionEnvironment();// 获取数据DataStreamSource<String> stream = env.socketTextStream(hostname, port);// 计数SingleOutputStreamOperator<Tuple2<String,Integer>> sum = stream.flatMap(newLineSplitter()).keyBy(0).sum(1);
sum.print();
env.execute("Java WordCount from SocketTextStream Example");}publicstaticfinalclassLineSplitterimplementsFlatMapFunction<String,Tuple2<String,Integer>>{@OverridepublicvoidflatMap(String s,Collector<Tuple2<String,Integer>> collector){String[] tokens = s.toLowerCase().split("\\W+");for(String token: tokens){if(token.length()>0){
collector.collect(newTuple2<String,Integer>(token,1));}}}}}
二)测试
接下来我们进行程序测试。
我们在本地使用 netcat 命令启动一个端口:
nc-l9000
然后启动程序,能看到控制台一些输出:
接下来,在 nc 中输入:
$ nc-l9000
hello world
flink flink flink
回到我们的程序,能看到统计的输出:
3>(hello,1)6>(world,1)8>(flink,1)8>(flink,2)8>(flink,3)
三)如果有报错
如果出现执行报错:
Exception in thread "main" java.lang.NoClassDefFoundError: org/apache/flink/api/java/io/TextInputFormat
at com.shuofxz.SocketTextStreamWordCount.main(SocketTextStreamWordCount.java:25)
Caused by: java.lang.ClassNotFoundException: org.apache.flink.api.java.io.TextInputFormat
at java.net.URLClassLoader.findClass(URLClassLoader.java:387)
at java.lang.ClassLoader.loadClass(ClassLoader.java:419)
at sun.misc.Launcher$AppClassLoader.loadClass(Launcher.java:352)
at java.lang.ClassLoader.loadClass(ClassLoader.java:352)
... 1 more
在 IDE 中把 「Add dependencies with “Provided” scope to classpath」勾选上:
三、Flink Table & SQL WordCount
一)介绍 FlinkSQL
Flink SQL 是 Flink 实时计算为简化计算模型,降低用户使用实时计算门槛而设计的一套符合标准 SQL 语义的开发语言。
上面单词统计的逻辑可以转化为下面的 SQL。
直接来看这个 SQL:
select word as word,sum(frequency)as frequency from WordCount groupby word
WordCount
是要进行单词统计的表,我们会先做一些处理,将输入的单词都存放到这个表中- 表我们定义为两列
(word, frequency)
,初始转化输入每个单词占一行,frequency 都是 1 - 然后,就可以按照 SQL 的逻辑来进行统计聚合了。
其中,
WordCount
表数据如下:
wordfrequencyhello1world1flink1flink1flink1
那么接下来我们看,如何写一个 FlinkSQL 的程序。
二)环境和程序
首先,添加 FlinkSQL 需要的依赖:
<dependency><groupId>org.apache.flink</groupId><artifactId>flink-table-api-java-bridge_${scala.binary.version}</artifactId><version>${flink.version}</version></dependency><dependency><groupId>org.apache.flink</groupId><artifactId>flink-table-planner-blink_${scala.binary.version}</artifactId><version>${flink.version}</version></dependency><dependency><groupId>org.apache.flink</groupId><artifactId>flink-table-planner_${scala.binary.version}</artifactId><version>${flink.version}</version></dependency><dependency><groupId>org.apache.flink</groupId><artifactId>flink-table-api-scala-bridge_2.11</artifactId><version>${flink.version}</version></dependency>
程序如下:
publicclassSQLWordCount{publicstaticvoidmain(String[] args)throwsException{// 创建上下文环境ExecutionEnvironment fbEnv =ExecutionEnvironment.getExecutionEnvironment();BatchTableEnvironment fbTableEnv =BatchTableEnvironment.create(fbEnv);// 读取一行模拟数据作为输入String words ="hello world flink flink flink";String[] split = words.split("\\W+");ArrayList<WC> list =newArrayList<>();for(String word : split){WC wc =newWC(word,1);
list.add(wc);}DataSource<WC> input = fbEnv.fromCollection(list);// DataSet 转 SQL,指定字段名Table table = fbTableEnv.fromDataSet(input,"word,frequency");
table.printSchema();// 注册为一个表
fbTableEnv.createTemporaryView("WordCount", table);Table table1 = fbTableEnv.sqlQuery("select word as word, sum(frequency) as frequency from WordCount group by word");DataSet<WC> ds1 = fbTableEnv.toDataSet(table1,WC.class);
ds1.printToErr();}publicstaticclassWC{publicString word;publiclong frequency;publicWC(){}publicWC(String word,long frequency){this.word = word;this.frequency = frequency;}@OverridepublicStringtoString(){return word +", "+ frequency;}}}
执行,结果输出:
(
`word` STRING,
`frequency` BIGINT
)
flink, 3
world, 1
hello, 1
四、小结
本篇手把手的带大家搭建起 Flink Maven 项目,然后使用 DataStream 和 FlinkSQL 两种方式来学习 WordCount 单词计数这一最简单最经典的 Flink 程序开发。跟着步骤一步步执行下来,大家应该对 Flink 程序基本执行流程有个初步的了解,为后续的学习打下了基础。
版权归原作者 大数据王小皮 所有, 如有侵权,请联系我们删除。