AmazonRedshift助力电商构建大数据基座实践
关键字: [亚马逊云科技中国峰会2024, Amazon Redshift, 数据仓库构建, 工作负载管理, Ai驱动扩缩, 多维数据布局, 价格能效比]
本文字数: 1900, 阅读完需: 10 分钟
导读
在亚马逊云科技中国峰会2024上,林益龙解决方案架构师介绍了”AI驱动的Redshift扩缩和优化”。他讨论了Redshift无服务器如何自动配置节点和扩展计算资源,并通过AI预测模型实现智能扩缩容,提高价格性能比10倍。随后,店匠科技数据负责人统一五哥分享了基于Redshift构建数仓的实践,包括使用Redshift阈值集群和Serverless实例、数据同步方案、资源隔离等,并介绍了未来的优化计划。
演讲精华
以下是小编为您整理的本次演讲的精华,共1600字,阅读时间大约是8分钟。
在亚马逊云科技中国峰会2024上,解决方案架构师林益龙和店匠科技数据负责人统一五哥分享了关于Amazon Redshift的实践经验。
林益龙首先介绍了Amazon Redshift无服务器版本的特点,指出它是一种无需选择数据节点类型、预先规划容量或管理任何基础设施的数据仓库服务,具有自动配置节点并自动扩展计算资源的能力,是一项完全自动维护的服务,可实现7*24小时的可用性,无需维护窗口。在使用时,用户可以直接查询存储在Amazon S3上的数据,例如爬虫格式或JSON格式的数据,这保留了用户的使用习惯。
林益龙指出,在日常工作中,用户会遇到来自报表工具的稳定查询请求(需求较少内存)、不定期的ETL任务(需求较大内存)以及数据工程师和数据科学家临时的分析需求(需求更大内存)。如果处理不当,可能无法完成大型任务,并影响稳定的BI任务运行。为解决这一问题,亚马逊研发了AI驱动的扩缩容和优化特性,开发了扩缩容预测模型。该模型可以预测在不同容量下查询的表现行为,从而得到最佳容量预测,系统会弹出更大且更匹配当前查询的容量。林益龙发现,80%的查询已被观察过,系统已缓存了它们的资源需求、执行计划、数据量等信息。在第一阶段,系统通过向量查询从缓存中查出这些信息,对于短查询直接执行,对于长查询则进行弹性扩展。如果是新查询或数据量较上个月增长一个数量级,则进入第二阶段,快速判断当前查询是否需要扩容。如果是短查询,则正常计划执行;如果是长查询,则进入第三阶段,使用全局训练的预测模型预测所需资源大小,最终进行扩容。
林益龙举例说明,在数据处理过程中,合理的数据布局是必须完成的一项工作,目的是在查询时尽可能少地扫描无用数据。例如,订单数据按时间排序,竞价数据按价格排序,需要针对不同场景设置合理的排序方式。为此,亚马逊推出了多维数据布局功能,可检测工作负载和查询经常使用的维度,并自动将数据存储到不同维度的存储块中。这样一来,查询语句可根据条件找到最合适的数据块,大大减少从磁盘加载到内存的时间。测试结果显示,使用多维数据布局相比使用最优单列排序键,可将运行时间缩短40%。
接下来,林益龙进行了一个小测试,假设工作负载包括稳定查询和临时进入的大查询。在当前无服务器特性下,系统会启动一个基础容量(30个RPU)来执行报表查询等工作负载。当大查询进来时,由于执行时间较长,会导致队列和并发度升高,此时无服务器版本会自动扩容一个或多个新容量,最终达到96个RPU以上。执行一段时间后,并发度降低,系统又重新回到3个RPU。而在AI优化的扩缩容下,系统会直接预测并分配最合理的容量(如30个RPU)来执行大查询和普通查询,在非常短的时间内完成处理,过程中还移除了最初的一个RPU容量。处理完大容量后,系统又快速卸载所有容量,回到最初的3个RPU。通过这个报告可以看出,整体查询延迟从48秒降低到4秒,长查询平均时延从928秒降低到25秒,整体价格性能比达到10倍以上的提升。仅多付出了一点点的RPU用量,就获得了10倍的价格性能比提升。林益龙总结道,通过使用全新的AI驱动扩缩容和优化特性,可将价格性能比提高10倍,同时无需人工调整,每个扩缩容方案都根据工作负载需求定制,从而获得稳定的性能并避免性能悬崖和超时循环。
接下来,店匠科技数据负责人统一五哥介绍了该公司基于Redshift构建数据仓库的实践。店匠科技是一家专注于电商解决方案和AI评论的公司,核心产品是全球独立站SaaS平台,提供主题、订单商品管理等服务,旨在简化商家在平台上经营的过程,并利用技术帮助商家实现销售额增长。该公司的商家群体包括小商家、工厂和大型商家,覆盖36万家店铺,消费者覆盖150个国家,其中40%来自欧美市场。
在数据仓库业务场景中,店匠科技需要高效的数据同步配置方式、良好的批量写入数据效率(每秒数百万行)、友好的资源隔离策略、友好的资源分配策略,以及支撑稳定的报表服务。之前使用云数仓时,存在数据跨网络传输可能导致安全合规问题、数据同步配置复杂、数据实例故障率高、数据复用受平台限制、运维需关注网络和实例问题等挑战。
使用Redshift后,数据同步配置复杂度适中,亚马逊云科技提供及时的技术支持和解决方案,能够顺畅同步数据;数据共享更加方便,可轻松实现资源隔离和复用;无需跨网络传输数据,可规避合规风险并降低使用成本;数据实例使用过程中的问题相对较少,报表服务较为稳定。
店匠科技目前采用的数据仓库架构包括数据输入(业务系统产生的数据和服务埋点数据)、Redshift阈值集群存储、Redshift Serverless实例存储,以及用于商家服务的Starbox集群(响应时延0.3秒左右)和内部报表系统。业务系统数据主要通过DMS配置直接写入Redshift阈值集群,埋点数据则通过Kafka和数据处理服务群写入。阈值集群可与Serverless实例共享数据,实现资源隔离。店匠科技将算法资源与内部报表系统资源隔离在不同的Serverless集群中,以确保业务SLA。
在使用Redshift阈值集群的最佳实践方面,入仓场景选择阈值集群性价比较高;DMS无法处理表结构变更,需由SOP处理;Redshift对超长字符串支持一般,支持65535字节,使用Super可支持100万字节但需转换;非密集型写入业务可使用DMS直接写入,密集型写入业务则通过Kafka和Spark写入,避免Vacuum操作影响;过多业务读取流会导致业务库CPU升高,目前三条读取流基本无资源使用上升。
在使用Redshift Serverless实例的最佳实践方面,存储使用S3标准存储作为介质,成本约为每TB 24美元;实例间可共享数据;可设置资源上限控制费用上限,并关注队列控制总成本;无访问需求时RPU资源可降为0;可通过多个Serverless集群实现计算资源隔离,确保业务SLA。使用Serverless后,数据可视化体验更加流畅,服务连接性提升,一年半至一年期间故障率良好,一般几个小时级别。
店匠科技未来数据仓库架构的演进规划包括:基于EMR的Pending应用探索,实现数据同步和复用;基于Redshift的结构化数据同步改造,大部分功能已支持,将用ETL工具解决遇到的问题;优化EMR资源使用方式,尝试将阈值集群转为Serverless服务,降低硬件资源维护成本;优化Redshift Serverless实例成本,利用AI驱动的扩缩容等,预计将在2024年第二或第三季度推出RI实例,带来小幅成本降低。
总的来说,通过使用Redshift无服务器版本并结合AI优化特性,可显著提高性能和价格性能比,同时减少人工调整的需求,每个扩缩容方案均根据工作负载需求定制,获得稳定的性能并避免性能悬崖和超时循环。店匠科技分享了其在电商场景下使用Redshift构建数据仓库的实践经验,包括架构设计、最佳实践、挑战和未来规划等方面,为Redshift的应用场景和优化方向提供了宝贵的见解。两位分享者的内容为亚马逊云科技客户展示了Redshift无服务器版本和AI优化特性的实际应用,以及如何结合客户场景优化数据仓库架构和资源利用,提高性能并降低总体拥有成本。
下面是一些演讲现场的精彩瞬间:
在亚马逊云科技中国峰会2024上,演讲者就数据仓库和Redshift服务与在场观众互动,询问是否有相关负责人,并解释了Redshift为新用户提供的信用额度。
亚马逊云科技中国峰会2024上,演讲者介绍了一种新的扩缩预测模型,用于优化资源分配和查询执行效率。
亚马逊云科技推出了多维数据布局功能,可根据工作负载和查询经常使用的维度自动存储数据,大大提高了查询效率,相比单列排序键可将运行时间缩短40%。
通过AI优化的扩缩,亚马逊云科技在非常短的时间内处理大容量查询,将整体查询延迟从48秒降低到4秒,价格能效比提升10倍以上。
店匠科技数据库和数仓负责人介绍了基于Redshift构建数仓的实践经验
亚马逊云科技中国峰会2024上,演讲者分享了Redshift阈值集群的最佳实践,包括入仓场景的性价比优势以及搭建CDC数据同步流时的注意事项。
亚马逊云科技在2024年中国峰会上宣布了Relative Serverless实例成本优化调整和AI驱动的自动扩缩容功能,进一步提升了云服务的性价比和弹性。
总结
亚马逊云科技中国峰会2024上,亚马逊云科技解决方案架构师林益龙分享了Amazon Redshift的AI驱动扩缩和优化特性。他首先回顾了Redshift无服务器版本的关键特性,如自动配置节点、自动扩展计算资源、自动维护等。接着阐述了数据处理过程中遇到的资源管理痛点,如工作负载波动、内存需求不同等。
为解决这些挑战,亚马逊推出了AI驱动的扩缩和优化功能。它采用分阶段预测模型,根据查询特征智能分配最佳资源,大幅提升价格性能比。另外,多维数据布局功能可自动优化数据存储,减少数据加载时间。测试显示,新特性可将价格性能比提高10倍,同时避免性能下降和超时。
随后,店匠科技数据负责人统一五哥介绍了基于Redshift构建数仓的实践。他首先概述了店匠科技的业务场景和数仓架构,阐明了选择Redshift的原因和最佳实践。接着分享了基于Redshift Serverless的实践经验,包括资源隔离、成本控制等优势。最后,他展望了未来数仓架构的演进方向,如探索EMR、优化ETL流程、调整Serverless实例成本等。
版权归原作者 taibaili2023 所有, 如有侵权,请联系我们删除。