0


2024年Kafka和Flink数据流的五大趋势

数据流是构建可扩展实时应用程序和创新商业模式的最相关的技术术语之一。您是否对我预测的2024年前5大数据流趋势感到好奇,以便让数据动起来?了解阿帕奇卡夫卡和阿帕奇弗林克扮演什么角色。发现事件驱动架构的新技术趋势和最佳实践,包括数据共享、数据合约、无服务器流处理、多云架构和GenAI。

一些关注者可能会注意到,这已经成为一个关于2021年五大数据流趋势,的2022年前5名,以及2023年前5名。趋势会随着时间的推移而变化,但拥有可扩展的实时基础设施作为中央数据中心的巨大价值不会改变。Apache Kafka的数据流是一次旅程和进化启动数据。
在这里插入图片描述
Gartner 2024年顶级战略技术趋势
研究和咨询公司Gartner每年都会确定最重要的战略技术趋势。这一次,趋势是围绕建立新的(人工智能)平台和通过自动化提供价值,同时保护投资。从更高的层面来看,这一切都与自动化、扩展和开拓有关。这是什么Gartner预计2024年:
在这里插入图片描述
有趣的是(但并不令人惊讶):Gartner的预测与我关注的Apache Kafka展望2024年数据流的五大趋势相重叠和互补。我探索了数据流如何实现更快的上市时间、跨独立数据产品的良好数据质量以及与生成式人工智能等技术的创新。

2024年的五大数据流趋势
我发现在与全球客户、潜在客户和更广泛的数据流社区的对话中,以下主题出现的频率更高:

数据共享,通过独立数据产品加快创新
用于更好的数据治理和策略执行的数据契约
无服务器流处理,更轻松地构建可扩展的弹性流应用
实现经济高效的多云部署,为客户提供价值
可靠的生成式人工智能(GenAI)嵌入了准确的最新信息,可避免幻觉
以下部分更详细地描述了每个趋势。无论您使用开源的Apache Kafka或Apache Flink(一个商业平台)还是像Confluent Cloud这样的完全托管云服务,这些趋势都与许多场景相关。我以真实世界的案例研究开始每一节。文章末尾包含完整的幻灯片和视频记录。

跨业务部门和组织的数据共享
数据共享是指在不同的个人、组织或系统之间交换数据或提供数据访问的过程。这可能涉及在组织内部共享数据或与外部实体共享数据。数据共享的目标是使需要信息的人可以获得信息,无论是为了协作、分析、决策还是其他目的。显然,对于几乎所有数据共享用例来说,实时数据都优于慢速数据。

美国国家航空航天局:使用Apache Kafka进行实时数据共享
美国国家航空航天局实现了天基和地基观测站之间的实时数据传输。这通用坐标网(GCN)允许天文学社区中的实时警报。有了这个系统,美国国家航空航天局研究人员、私营航天公司、甚至后院天文爱好者都可以发布和接收有关当前天空活动的信息。
在这里插入图片描述
Apache Kafka在天文学数据共享研究中发挥着重要作用。特别是在涉及黑洞和中子星的地方,天文学家越来越多地寻找“时域”,并希望研究爆炸瞬态和可变性。作为回应,天文台越来越多地采用流媒体技术向天文学家发送警报,并将其数据实时发送给科学用户。

的谈话”通用坐标网络:利用卡夫卡在美国国家航空航天局进行实时开放天文学研究》探讨了在美国国家航空航天局大学为开放科学和开放数据共享改编卡夫卡时的建筑选择、挑战和经验教训。

美国国家航空航天局在Kafka中使用OpenID Connect / OAuth2的方法旨在安全地将Kafka从单个组织内部的访问扩展到普通公众的访问。

使用集群链接、流共享和AsyncAPI与Kafka进行流数据交换

Kafka生态系统提供各种功能来实时共享任何规模的数据。有些是特定于供应商的。我从融合的角度来看这个问题,这样你就会看到很多创新的选择(即使你想用开源的Kafka自己构建它):

Kafka Connect连接器生态系统可与其他数据源和接收器集成
Kafka的HTTP/REST代理和连接器使用简单易懂的请求-响应(不幸的是,HTTP也是流数据的反模式)
使用原生Kafka协议(而不是MirrorMaker之类的独立基础架构)在Kafka集群之间进行复制的集群链接
使用访问控制、加密、配额和计费API,通过简单的按钮点击公开Kafka主题的流共享
生成AsyncAPI规范,与非Kafka应用程序共享数据(如支持AsyncAPI的其他消息代理或API网关,async API是基于异步事件的消息传递的开放数据契约(类似于HTTP/REST API的Swagger)
以下是汽车行业Kafka集群之间双向复制的集群链接示例:
在这里插入图片描述
另一个便于访问金融服务领域Kafka主题的流共享示例:

在这里插入图片描述
用于数据治理和策略实施的数据契约
数据合同是一种协议或谅解,它定义了管理各方之间数据交换或共享的条款和条件。它是一种正式的安排,规定了实体之间如何处理、使用、保护和共享数据。当多方需要与共享数据进行交互和利用共享数据时,数据合约至关重要,它可以确保数据的清晰性并符合约定的规则。

Raiffeisen国际银行:跨国数据共享的数据合同
作为全行转型计划的一部分,raiffeisen Bank International(RBI)正在全集团推广事件驱动架构。这包括创建参考架构以及在12个国家/地区重复使用技术和概念。
在这里插入图片描述
带有模式注册表的Apache Kafka的策略实施和数据质量
在微服务或数据网格等解耦架构中,良好的数据质量是最关键的要求之一。Apache Kafka成为这些架构事实上的标准。但是Kafka是一个愚蠢的代理,只存储字节数组。Apache Kafka的模式注册表强制实施消息结构。

这篇博客文章研究了模式注册中心的增强功能,以利用策略和规则的数据契约在字段级和高级用例(如将恶意消息路由到死信队列)上强制执行良好的数据质量。
在这里插入图片描述
使用Apache Flink进行无服务器流处理,支持可扩展的弹性流应用
无服务器流处理指的是一种计算架构,开发人员可以在其中构建和部署应用程序,而无需管理底层基础架构。

在流处理的上下文中,它涉及数据流的实时处理,而不需要显式地供应或管理服务器。这种方法允许开发人员专注于编写代码和构建应用程序。云服务负责运营方面的工作,例如服务器的扩展、供应和维护。

Sencrop:使用Apache Kafka和Apache Flink的智能农业
Sencrop旨在满足职业农民的需求,提供一系列连接的
为您带来精确农业天气的气象站数据直接来自你的图表。

遍布欧洲的20,000多个联网的农业气象站。
直观、用户友好的应用程序:访问准确的超本地数据以优化您的日常行动。
防范风险并降低成本:简化投入,降低对环境的影响和相关成本。
在这里插入图片描述
Apache Flink成为流处理的事实标准
Apache Kafka和Apache Flink越来越多地联手构建创新的实时流处理应用程序。
在这里插入图片描述
图中的Y轴显示每月独立用户(基于Maven下载的统计数据)。

不幸的是,操作Flink集群非常困难。比卡夫卡还要难。因为Flink不仅仅是一个分布式系统,它还必须保持应用程序的状态数小时甚至更长时间。因此,无服务器流处理有助于接管操作负担。这也让开发人员的生活变得更加轻松。

敬请关注2024年提供无服务器Flink的激动人心的云产品。但是请注意,一些供应商使用与Kafka相同的技巧:提供Flink集群并将其交给您并不是无服务器或完全托管的产品!

实现经济高效且可靠的客户体验的多云环境
多重云是指使用多个云提供商的服务来满足特定业务或技术需求的云计算战略。在多云环境中,组织将其工作负载分布在两个或更多云平台上,包括公共云、私有云或两者的组合。

多云战略的目标是避免依赖单一云提供商,并利用不同提供商的优势满足各种需求。成本效率和地区法律(如在美国或中国运营)要求不同的部署策略。有些国家不提供公共云。私有云是唯一的选择。

新遗迹:实现实时可观测性的极端规模的多云Kafka部署
New Relic是一家软件分析公司,为应用程序和基础架构提供监控和性能管理解决方案。它旨在帮助组织深入了解其软件和系统的性能,从而高效地优化和解决问题。

可观测性有两个关键要求:第一,在任何规模上实时监控数据。其次,在运行应用程序的地方部署监控解决方案。对New Relic来说,显而易见的结果是在客户所在地使用Apache Kafka和多云处理数据。
在这里插入图片描述
混合和多云数据复制可实现成本效益、低延迟或灾难恢复
Apache Kafka的多云部署已成为常态而非例外。一些场景需要具有特定要求和权衡的多集群解决方案:

法律要求导致的区域隔离
单一云提供商的独立性
灾难恢复
用于分析的聚合
云迁移
在这里插入图片描述
可靠的生成人工智能(GenAI),具有精确的上下文以避免幻觉
生成式AI是一类人工智能系统,通常通过从现有数据中学习模式和结构来生成新内容,如图像、文本甚至整个数据集。这些系统使用神经网络等技术来创建内容,这些内容不是显式编程的,而是基于训练期间学习的模式和知识生成的。
基本认知:由Apache Kafka提供支持的GenAI平台
Elemental Cognition的人工智能平台开发了负责任和透明的人工智能,帮助解决问题并提供可以理解和信任的专业知识。

融合云为AI平台提供支持,以实现可扩展的实时数据和数据集成用例。我建议看看他们的网站从各种令人印象深刻的用例中学习。
在这里插入图片描述
使用Rag、矢量数据库和语义搜索将Apache Kafka作为Genai的数据结构
Apache Kafka作为机器学习基础设施的关键任务和可扩展实时数据结构,为数千家企业提供服务。生成式人工智能(GenAI)与ChatGPT等大型语言模型(LLM)的发展改变了人们对智能软件和自动化的看法。数据流和GenAI之间的关系有巨大的机会。

一个很好的例子,特别是对于生成式人工智能来说,是特定于上下文的客户服务。下图显示了一个企业架构,该架构利用事件驱动的数据流在整个GenAI管道中进行数据接收和处理:
在这里插入图片描述
Apache Flink和GenAI使用大型语言模型(LLM)进行有状态流处理
使用Kafka和Flink进行流处理可以实现实时数据和历史数据的数据关联。有状态流处理器从CRM、忠诚度平台和其他应用程序中获取现有的客户信息,将其与来自客户的查询关联到聊天机器人中,并对LLM进行RPC调用。
在这里插入图片描述
Kafka和Flink为2024年的数据流趋势提供幻灯片和视频录制
你想看看更多的细节吗?本部分提供了整个幻灯片和一段视频,引导您浏览内容。

滑梯甲板
这是滑梯甲板从我的演讲中。

显像记录
这是显像记录我的演讲。

2024年使数据流更加成熟,Apache Flink成为主流
对于2024年的数据流趋势,我有两个结论:

数据流在成熟度曲线中上升。越来越多的项目构建流应用程序,而不仅仅是利用Apache Kafka作为数据库、数据仓库和数据湖之间的哑数据管道。
Apache Flink成为主流。开源框架因可扩展引擎、多种API(如SQL、Java和Python)以及来自不同软件供应商的无服务器云产品而大放异彩。后者使构建应用程序更容易访问。
对于具有微服务或数据网格的成功企业架构来说,使用数据契约共享数据是必不可少的。数据流是生成式人工智能等技术趋势创新的基础。因此,我们正处于采用Apache Kafka和Apache Flink等数据流技术的临界点。

标签: kafka flink 分布式

本文转载自: https://blog.csdn.net/QWQ123Q/article/details/136731668
版权归原作者 小徐博客 所有, 如有侵权,请联系我们删除。

“2024年Kafka和Flink数据流的五大趋势”的评论:

还没有评论