- Try Flink:本地模式安装;基于 DataStream API 实现欺诈检测;基于 Table API 实现实时报表;Flink 操作场景
- 实践练习:概览;DataStream API 简介;数据管道 & ETL;流式分析;事件驱动应用;容错管理
- 概念透析:概览;有状态流处理;及时流处理;Flink 架构;词汇表
- 应用开发 - 项目配置:概览;使用 Maven;使用 Gradle;连接器和格式;测试的依赖项;高级配置- DataStream API - 概览- 执行模式(流 / 批)- 事件时间:生成 Watermark;内置 Watermark 生成器- 用户自定义 Functions- 状态与容错:Working with State;Broadcast State 模式;Checkpointing;[State Backends](Flink|《Flink 官方文档 - DataStream API - 状态与容错 - State Backends》学习笔记);数据类型以及序列化(概览,状态数据结构升级,Custom State Serialization,自定义序列化器)- 算子:概览;窗口;Joining;Process Function;异步 I/O- 数据源- 旁路输出- Handling Application Parameters- 测试- 实验功能- Scala API 扩展- Java Lambda Expressions- 管理执行:执行配置;程序打包;并行执行- How to Migrate from DataSet to DataStream- Table API & SQL - 概览- 概念与通用 API- DataStream API Integration- 流式概念:流式概念;动态表;流上的确定性;时间属性;时态表;Temporal Table Function- 流式聚合- 数据类型- 时区- Table API- SQL:概览;入门;Queries 查询;CREATE 语句;DROP 语句;ALTER 语句;INSERT 语句;ANALYZE 语句;DESCRIBE 语句;TRUNCATE 语句;EXPLAIN 语句;USE 语句;SHOW 语句;LOAD 语句;UNLOAD 语句;SET 语句;RESET 语句;JAR 语句;JOB 语句;UPDATE 语句;DELETE 语句;CALL 语句- 函数:函数;系统(内置)函数;自定义函数- 存储过程- 模块- Catalogs- SQL JDBC Driver- SQL 客户端- SQL Gateway:概览;REST Endpoint;HiveServer2 Endpoint- Hive 兼容性 - Hive 方言 - Queries(Overview,Sort / Cluster / Distributed By,Group By,Join,Set Operations,Lateral View Clause,Window Functions,Sub-Queries,CTE,Transform Clause,Table Sample);概览;CREATE Statements;DROP Statements;ALTER Statements;INSERT Statements;Load Data Statements;SHOW Statements;ADD Statements;SET Statements- HiveServer2 Endpoint- 配置- User-defined Sources & Sinks- Python API - 概览 + 环境安装 + 调试 + 环境变量 + 常见问题- Table API 教程- DataStream API 教程- Table API:Python Table API 简介;TableEnvironment;Operators(OverView,Row-based Operations);数据类型;系统内置函数;自定义函数(概览,普通自定义函数,向量化自定义函数);PyFlink Table 和 Pandas DataFrame 互转;SQL;Catalogs;指标;连接器- DataStream API:Python DataStream API 简介;Operators(Overview,Windows,Process Function);Data Types;State- 依赖管理- 执行模式- 配置
- Libraries:事件处理;State Processor API
- Connectors - DataStream Connectors:概览;Formats(Overview,Avro,Azure Table Storage,CSV,Hadoop,JSON,Parquet,Text files);容错保证;DataGen;Kafka;Cassandra;DynamoDB;Elasticsearch;Firehose;Kinesis;MongoDB;Opensearch;文件系统;RabbitMQ;Google Cloud PubSub;Hybrid Source;Pulsar;JDBC- Table API Connectors:概览;Formats(Formats,CSV,JSON,Avro,Confluent Avro,Protobuf,Debezium,Canal,Maxwell,Ogg,Parquet,Orc,Raw);Kafka;Upsert Kafka;DynamoDB;Firehose;Kinesis;MongoDB;JDBC;Elasticserach;Openserach;文件系统;HBase;DataGen;Print;BlackHole;Hive(Overview,Hive Catalog,Hive Read & Write,Hive Functions);下载页面
- Deployment - 概览- Javba Compatibility- Resource Providers:Standalone(概览,Working Directory,Docker,Kubernetes 设置);Native Kubernetes;YARN- 配置参数- 内存配置:配置 Flink 进程的内存;配置 TaskManager 内存;配置 JobManager 内存;调优指南 + 常见问题;升级指南;网络缓冲调优- 弹性扩缩容- 命令行界面- 细粒度资源管理- 预测执行- File Systems:通用配置;文件系统;Amazon S3;Google Cloud Storage;阿里云 OSS;Azure Blob 存储;Plugins- 高可用:概览;ZooKeeper 高可用服务;Kubernetes 高可用服务- Metric Reporters- Security:SSL 配置;Kerberos;Delegation tokens- REPLs:Python REPL- Advanced:扩展资源;History Server;日志;Failure Enrichers
- Operations - 状态与容错:Checkpoints + Checkpointing under backpressure;Savepoints + Checkpoints 与 Savepoints;State Backends;大状态与 Checkpoint 调优;Task 故障恢复- 指标- REST API- Batch:Batch Shuffle- Debugging:调试窗口与事件时间 + 调试类加载 + 火焰图 + 应用程序分析与调试- Monitoring:监控 Checkpoint + 监控反压- 升级应用程序和 Flink 版本- 生产就绪情况核对清单
- Flink 开发:导入 Flink 到 IDE 中;从源码构建 Flink
- 内幕:作业调度;Task 生命周期;文件系统
开发问题处理文档
- checkpoint 超时报错问题处理(FlinkRuntimeException)
- Flink|提交 PyFlink 作业的踩坑记录
标签:
flink
本文转载自: https://blog.csdn.net/Changxing_J/article/details/135891535
版权归原作者 长行 所有, 如有侵权,请联系我们删除。
版权归原作者 长行 所有, 如有侵权,请联系我们删除。