0


如何在Amazon EMR上使用RAPIDS加速Apache Spark流水线

关键字: [Amazon Web Services re:Invent 2023, Rapids Spark, Accelerate Apache Spark Pipelines, Amazon Emr, Rapids, Nvidia, Gpu Acceleration]

本文字数: 1000, 阅读完需: 5 分钟

视频

如视频不能正常播放,请前往bilibili观看本视频。>> https://www.bilibili.com/video/BV1uw41187VA

导读

RAPIDS加速器可以为Amazon EMR上的Apache Spark数据处理流水线提供透明的加速。在这个闪电式演讲中,您将学习如何在Amazon EC2和Amazon EKS上使用NVIDIA GPU来在Amazon EMR上部署RAPIDS加速器。探索哪些查询特别适合GPU,并了解如何预测Spark工作负载在Amazon EMR上的成本节省。RAPIDS是NVIDIA AI企业套件的一部分,这是一个端到端的、安全的、云原生的AI软件套件,可以在Amazon Marketplace上获得,让组织能够解决新的挑战的同时提高运营效率。这个演示由NVIDIA提供,NVIDIA是亚马逊云科技的合作伙伴。

演讲精华

以下是小编为您整理的本次演讲的精华,共700字,阅读时间大约是4分钟。如果您想进一步了解演讲内容或者观看演讲全文,请观看演讲完整视频或者下面的演讲原文。

演讲者首先探讨了利用NVIDIA的RAPIDS加速器插件来加速Amazon EMR上的Apache Spark批量处理工作负载的话题。他强调,企业面临各种关键工作负载,如数据准备、报告、分析和操作,这些负载都需要以加速的方式处理大量数据集。

据演讲者介绍,IDC报告显示,到2026年,数据量预计将达到221泽字节,其中80%为非结构化数据。为了从这些海量数据中提取价值,必须对数据进行大规模的转换和准备。然而,扩展计算基础设施的成本很高,而降低数据采样率会导致保真度下降。

为了解决这个问题,演讲者提出了使用GPU加速Spark的方法。Spark 3支持资源感知调度、插件和适用于GPU的列式处理。RAPIDS插件能够自动在GPU上加速Spark DataFrame操作,而无需修改代码。这是通过使用JNI调用来访问RAPIDS库以实现GPU数据处理,从而用GPU执行计划替换CPU执行计划实现的。

基准测试表明,在高基数连接、聚合、窗口处理和复杂处理的数据集上,性能得到了显著提升。一个资格验证工具会分析Spark日志,以推荐建议在特定工作负载中加速GPU的速度提升。

实际应用案例包括零售商优化内容重写、电信公司加速ETL和ML过程以及广告技术公司加快固定空间内的ETL处理。采用这种方法的好处包括降低成本、缩短任务完成时间以及在不增加计算需求的情况下扩大数据处理能力。

NVIDIA AI Enterprise为RAPIDS Spark部署提供了支持、安全补丁、关键错误修复和SLA。资源包括文档、GitHub上的开源社区和资格验证工具。

总的来说,NVIDIA的RAPIDS Spark插件可以在不增加额外成本的前提下,无缝地在GPU上加速Spark工作负载,使企业能够更有效地从不断增长的数据库中提取价值。此外,资格验证工具可以帮助确定哪些任务可以从加速GPU中受益,而NVIDIA AI Enterprise则为企业在生产环境中使用该技术提供了支持。

演讲者强调,企业在处理大量数据方面面临关键挑战,包括数据准备、报告、分析和操作等关键任务,都需要尽快处理。据IDC报告预测,到2026年,数据量将指数增长至221泽字节,其中大部分为未结构化数据。为了从中提取价值,演讲者指出需要在规模上对数据进行转换和准备。尽管扩大计算基础设施成本高昂,但演讲者表示,降低数据采样率可能会导致数据真实性的损失。

作为提高处理速度的替代方案,演讲者建议利用GPU加速Apache Spark工作负载。Spark 3支持资源感知调度、插件和适用于GPU的批处理等技术。NVIDIA的RAPIDS插件可以在不修改代码的情况下自动加速Spark DataFrame操作。这通过调用优化GPU数据处理的JNI接口到RAPIDS库实现。

演讲者引用的一些基准测试显示,在处理高基数连接、聚合、窗口化和复杂处理时,利用GPU可以显著提高数据处理速度。一个资格鉴定工具可以分析Spark日志,以推荐可能受益于GPU加速的具体作业并估计加速效果。

演讲者提供了一些实际客户使用案例,包括一家大型零售商改进其电子商务网站内容重写,一家电信公司加速ETL和机器学习管道,以及一家广告技术公司在不扩大计算资源的情况下加速ETL工作流程。主要好处包括降低成本、缩短作业执行时间以及在无需扩展计算资源的情况下处理更多数据。

为了支持在生产中使用RAPIDS Spark,演讲者提到NVIDIA AI Enterprise提供支持、安全补丁、关键错误修复和服务协议等服务。可用资源包括文档、GitHub上的开源社区和资格鉴定工具。

总的来说,NVIDIA推出的RAPIDS Spark插件使得在GPU上对Spark工作负载进行透明加速成为可能,这使得企业在控制成本的前提下能够从海量数据中提取更多的价值。通过资格鉴定工具,我们可以了解哪些作业能够从中受益;同时,NVIDIA AI Enterprise提供了生产支持服务。

下面是一些演讲现场的精彩瞬间:

全球数据量的增长呈指数级趋势,预计到2026年将增至221泽字节,据国际数据公司(IDC)统计。

Apache Spark 3具有资源感知调度、自定义插件以及对GPU加速的列式数据处理的支持。

Spark能够将SQL查询优化为可利用GPU加速以提高处理速度的优化物理计划。

亚马逊云科技已与一家大型零售商合作部署了Rapids Spark,以便在不增加成本的前提下定期更新电子商务网站内容。

英伟达为客户提供专业服务并承诺服务等级协议(SLA),以支持各组织部署用于加速数据分析的Rapids Spark。

总结

NVIDIA在re:Invent(Amazon Summit)的亚马逊云科技(Amazon Web Services)展览中,着重展示了如何利用RAPIDS加速器提高Apache Spark在Amazon EMR上的处理速度。随着数据量的持续快速增长,企业迫切需要能够快速且经济高效地处理这些数据。Spark的GPU加速器插件是一款开源产品,使得Spark工作负载能够利用GPU进行加速处理,而无需修改代码。通过将Spark物理执行计划中的基于CPU的操作替换为来自RAPIDS库的基于GPU的等效操作来实现这一目标。基准测试结果显示,GPU在处理具有复杂聚合、连接和窗口操作的高基数数据方面表现优异。

鉴定工具可以帮助分析现有的Spark作业,推荐哪些作业适合进行GPU加速,并提供预计的速度提升和成本节省。零售商、电信公司和广告技术公司等客户已在EMR上使用Spark和RAPIDS来降低成本并加速现有集群范围内的作业,尽管数据量仍在持续增长。

英伟达的企业AI计划提供支持,包括调整、分析和优化用于部署Spark的RAPIDS的补丁。丰富的学习资源如文档和开源社区可供用户了解更多并开始学习使用。借助RAPIDS和GPU,Spark工作负载能够在不扩大计算资源的情况下应对数据增长的挑战。

演讲原文

https://blog.csdn.net/just2gooo/article/details/134861693

想了解更多精彩完整内容吗?立即访问re:Invent 官网中文网站!

2023亚马逊云科技re:Invent全球大会 - 官方网站

点击此处,一键获取亚马逊云科技全球最新产品/服务资讯!

点击此处,一键获取亚马逊云科技中国区最新产品/服务资讯!

即刻注册亚马逊云科技账户,开启云端之旅!

【免费】亚马逊云科技“100 余种核心云服务产品免费试用”

【免费】亚马逊云科技中国区“40 余种核心云服务产品免费试用”

亚马逊云科技是谁?

亚马逊云科技(Amazon Web Services)是全球云计算的开创者和引领者,自 2006 年以来一直以不断创新、技术领先、服务丰富、应用广泛而享誉业界。亚马逊云科技可以支持几乎云上任意工作负载。亚马逊云科技目前提供超过 200 项全功能的服务,涵盖计算、存储、网络、数据库、数据分析、机器人、机器学习与人工智能、物联网、移动、安全、混合云、虚拟现实与增强现实、媒体,以及应用开发、部署与管理等方面;基础设施遍及 31 个地理区域的 99 个可用区,并计划新建 4 个区域和 12 个可用区。全球数百万客户,从初创公司、中小企业,到大型企业和政府机构都信赖亚马逊云科技,通过亚马逊云科技的服务强化其基础设施,提高敏捷性,降低成本,加快创新,提升竞争力,实现业务成长和成功。


本文转载自: https://blog.csdn.net/weixin_40272094/article/details/134861706
版权归原作者 李白的朋友高适 所有, 如有侵权,请联系我们删除。

“如何在Amazon EMR上使用RAPIDS加速Apache Spark流水线”的评论:

还没有评论