【头歌实训】PySpark Streaming 数据源
第1关:MySQL 数据源,第2关:Kafka 数据源,在PySpark中支持通过JDBC的方式连接到其他数据库获取数据生成DataFrame,同样可以使用Spark SQL去读写数据库。除了JDBC 外,还支持ParquetJSONHive等。Kafka 就是一个分布式的用于消息存储的发布订阅模式
【头歌实训】PySpark Streaming 入门
第1关:SparkStreaming 基础与套接字流第2关:文件流第3关:RDDSpark Streaming 为 Spark 提供了可拓展、高吞吐、容错的流计算能力。Spark Streaming 可整合多种输入数据源,如 Kafka、Flume、HDFS,甚至是普通的 TCP 套接字。经处理后的