关键字: [Amazon Web Services re:Invent 2023, Amazon DataSync, Data Migration, Data Sync, Amazon Web Services Storage, Network Bandwidth, Data Movement]
本文字数: 1600, 阅读完需: 8 分钟
视频
如视频不能正常播放,请前往bilibili观看本视频。>> https://www.bilibili.com/video/BV16u4y1g73M
导读
使用 Amazon DataSync 快速、安全地将数据移动到亚马逊云科技,从而加快您的云计算之旅。在本论坛中,学习如何更快地迁移数据、降低成本并提高性能的最佳实践。本论坛的特色是亚马逊云科技客户将介绍他们使用 DataSync 大规模移动数据的经验。
演讲精华
以下是小编为您整理的本次演讲的精华,共1300字,阅读时间大约是6分钟。如果您想进一步了解演讲内容或者观看演讲全文,请观看演讲完整视频或者下面的演讲原文。
杰夫·巴特利,担任亚马逊云科技DataSync团队的产品经理,欢迎大家在亚马逊云峰会上参加这次活动。他将向与会者介绍来自Workday的共同演讲者拉加文德拉·温德,后者将分享Workday如何运用DataSync将拥有10PB历史数据的内部Hadoop集群迁移至亚马逊云科技。
杰夫首先概述了在转移大量数据(如TB、数百TB或甚至PB级别的数据、数百万或数十亿文件)过程中可能遇到的一些挑战。他强调,亚马逊云科技DataSync旨在帮助企业克服这些困难,实现高效的数据传输。
杰夫进一步介绍了DataSync如何通过基于TCP/IP的自定义协议实现高吞吐量,部分客户甚至能达到每任务10Gbps的速度。DataSync具备内置的飞行和静止状态加密功能,采用TLS 1.3加密技术确保数据安全。作为一个完全托管的服务,DataSync与亚马逊云科技的其他服务(如CloudWatch、CloudTrail和各种存储服务)紧密集成。这项服务旨在简单易用,从而加快大规模数据迁移的速度。
杰夫列出了四个主要应用场景,展示了DataSync在实际业务中的应用。首先是加速重复的业务工作流程,如在缺乏内部计算能力的情况下,生命科学客户在内部运行基因组序列器,每天产生大量数据。这些数据通过DataSync实时复制到云存储中进行处理。
其次是一次性迁移数据,例如将文件系统或对象存储迁移至亚马逊云科技。杰夫提到,Workday正在使用DataSync迁移一个包含10PB历史数据的Hadoop集群,这个话题稍后将会详细讨论。
第三是大规模数据保护的解决方案,通过DataSync的内置调度功能每小时、每天或其他设定的时间间隔将数据从内部复制到亚马逊云科技。
第四是归档冷数据的应用,例如需要保留的旧PowerPoint或Excel文件,但这些文件正在占用内部存储空间。DataSync可以将这些数据传输到低成本的S3存储类别,从而降低成本并释放内部资源。
杰夫向客户展示了如何使用DataSync在亚马逊云科技中进行三种不同的数据传输。首先,可以将数据从内部或边缘位置迁移到亚马逊云科技。DataSync支持通过NFS、SMB、S3 API或HDFS协议连接到存储系统,并在内部部署代理以促进传输。一个代理一次只能运行一个任务,但可以排队处理多个任务。
其次,可以在同一地区或不同地区的亚马逊云科技存储服务(如S3、EFS和FSx)之间进行传输。由于这仍在亚马逊云科技网络内,因此不需要代理。这使得亚马逊云科技到亚马逊云科技的传输设置变得非常简单。
最后,可以在其他主要云提供商(如Google Cloud Storage和Azure Files/Blob Storage)之间进行传输。DataSync增加了对这些云提供的支持,使得云间的双向数据移动成为可能。代理可以在亚马逊云科技或其他云中部署,以提高数据传输过程中的数据压缩效果。
杰夫详细解释了DataSync的工作原理。用户需要定义任务的来源和目标存储位置以及配置,如加密、元数据和验证设置。一个任务可以处理最多5亿文件,将一个源到一个人的数据复制。任务可以定期安排运行。
在执行任务时,会经历启动、准备、传输和验证四个阶段。准备阶段包括扫描源和目标以识别更改,然后只传输已更改的数据。错误将在CloudWatch中报告,DataSync提供详细的错误报告以解决问题。
在讨论性能优化时,杰夫提到了传输所涉及的三个网络路径:从内部存储到代理,从代理到DataSync服务,以及从服务到亚马逊云科技存储。他提供了每个阶段的最佳实践,例如最小化代理和内部存储之间的延迟,在代理和服务之间使用Direct Connect或VPC端点,并了解亚马逊云科技中的存储性能。
为了提高吞吐量,杰夫分享了一些技巧,如运行并行的DataSync任务以最大化可用带宽。一个客户可以通过运行30个同时执行任务的代理,每天传输1太字节的数据。针对单个任务运行多个代理也有助于改善具有许多小文件的数据集的IOPS。
为了降低优化成本,杰夫解释了DataSync如何在增量复制过程中只传输更改过的数据。通过使用过滤器,可以缩小要传输的数据集。此外,DataSync可以直接将数据传输到低成本的S3存储类,而无需使用S3生命周期策略。然而,值得注意的是,在处理大量对象的重复列表或操作时,需要注意潜在的S3请求费用。
接下来,杰夫将演讲交给了来自Workday的Raghavendra Vender,他将从客户的角度介绍如何使用DataSync进行大规模迁移。
Raghavendra首先介绍了Workday作为一家基于云的HCM和财务管理平台的基本情况。在过去8-9年的时间里,Workday的运营数据湖包含了10PB的历史数据。然而,随着时间的推移,他们遇到了诸如老旧硬件、网络限制、缺乏冗余和弹性以及成本挑战等问题。
为了解决这些问题,Workday决定将其包含10PB历史数据的运营数据湖迁移到云端,以实现更大的可扩展性、效率和访问性。在评估迁移解决方案时,他们考虑了Amazon云科技的Snowball Edge、S3 DistCp和DataSync。由于DataSync在迁移过程中提供的灵活性和敏捷性,Workday选择了DataSync。
Raghavendra详细介绍了DataSync如何处理百亿级数据迁移的过程。在生产Hadoop集群隔离的同时,DataSync代理被部署在临时集群中查询HDFS数据。代理通过Direct Connect和VPC端点连接到将所有原始数据复制到迁移帐户中的中间S3桶。
迁移过程分为两个阶段,首先将数据原样复制到原始桶中,然后在迁移帐户中处理并转换数据,最后将其加载到生产帐户供最终用户使用。这种方法允许对转换进行彻底的测试,以便在其流处理管线中重新使用。
然而,在迁移过程中,Workday也面临着一些挑战,如在不影响其他应用程序的网络容量的情况下优化数据传输速度,以及处理意外的错误和数据完整性问题。Raghavendra强调了DataSync的关键功能,即只能复制已更改的文件,这在识别和修复源端的错误复制数据时节省了大量的重新处理时间。
总的来说,Raghavendra强调了他通过使用Workday的DataSync所观察到的好处,包括网络规划的可预测数据速度、相较于本地硬件的改进数据可靠性和一个支持现代化改造且具有尖端分析能力的平台。
Jeff总结了会议的一些关键点。DataSync具备在各种源和目标间快速、安全地传输数据的能力。它能够利用并行任务最大化带宽并调整其使用。在进行DataSync迁移过程中,正确的规划至关重要。Jeff鼓励与会者访问DataSync网站和亚马逊云科技的存储培训,以便了解更多相关信息。
总的来说,演讲概述了DataSync的高性能数据传输服务如何帮助客户应对在本地、云端和边缘位置之间大规模数据迁移的挑战。这个客户案例强调了在使用DataSync迁移PB级数据集时的关键好处和注意事项。
下面是一些演讲现场的精彩瞬间:
领导者们探讨了Workday如何借助亚马逊云科技的DataSync技术,实现从Hadoop集群向亚马逊云科技的平滑迁移。
DataSync技术能够优化成本,因为它是通过仅逐步传输源和目标之间变化的数据来实现。
在使用亚马逊云科技的DataSync在S3中频繁复制大量数据时,需要注意S3请求的费用。
Workday是一家提供云端解决方案的公司,旨在帮助企业简化人力资源管理流程,提升劳动力管理水平,以及提高员工满意度。
由于内部计算能力有限,数据代理在转换数据之前,会通过直接连接网关端点将所有数据复制到一个中间原始数据存储桶。
关键是要管理和优化数据传输速度,以避免影响现有网络流量并导致网络拥塞。
演讲者们鼓励听众进一步探索亚马逊云科技的存储功能,并获取亚马逊云科技存储认证。
总结
亚马逊云科技的DataSync是一款安全、高效且可靠的服务,旨在在内部存储、边缘位置、其他云服务以及亚马逊云科技之间移动大型数据集。它利用自定义协议以实现高吞吐量数据传输,同时具备内置的加密和数据验证功能。
DataSync有助于客户加速数据迁移过程,实现重复性工作流的自动化,并通过复制保护数据,以及将冷数据归档到低成本存储中。它能够通过如NFS和SMB等标准协议连接到存储,并使用可配置的计划任务来管理数据传输。
为了获得最佳性能,请将DataSync代理部署到靠近源存储的位置,以减少延迟,并使用多个并行任务,同时调整带宽使用。通过采用增量数据传输、过滤以减少数据传输范围以及直接将数据传输到低成本的S3存储类别等方式,可实现成本优化。
Workday公司便使用了DataSync将其10PB的内部Hadoop数据湖迁移至亚马逊云科技。尽管面临着网络限制和数据损坏等挑战,但DataSync仍然实现了可预测的速度、可靠的数据完整性,并支持其数据分析现代化的目标。
演讲原文
https://blog.csdn.net/just2gooo/article/details/134805819
想了解更多精彩完整内容吗?立即访问re:Invent 官网中文网站!
2023亚马逊云科技re:Invent全球大会 - 官方网站
点击此处,一键获取亚马逊云科技全球最新产品/服务资讯!
点击此处,一键获取亚马逊云科技中国区最新产品/服务资讯!
即刻注册亚马逊云科技账户,开启云端之旅!
【免费】亚马逊云科技“100 余种核心云服务产品免费试用”
【免费】亚马逊云科技中国区“40 余种核心云服务产品免费试用”
亚马逊云科技是谁?
亚马逊云科技(Amazon Web Services)是全球云计算的开创者和引领者,自 2006 年以来一直以不断创新、技术领先、服务丰富、应用广泛而享誉业界。亚马逊云科技可以支持几乎云上任意工作负载。亚马逊云科技目前提供超过 200 项全功能的服务,涵盖计算、存储、网络、数据库、数据分析、机器人、机器学习与人工智能、物联网、移动、安全、混合云、虚拟现实与增强现实、媒体,以及应用开发、部署与管理等方面;基础设施遍及 31 个地理区域的 99 个可用区,并计划新建 4 个区域和 12 个可用区。全球数百万客户,从初创公司、中小企业,到大型企业和政府机构都信赖亚马逊云科技,通过亚马逊云科技的服务强化其基础设施,提高敏捷性,降低成本,加快创新,提升竞争力,实现业务成长和成功。
版权归原作者 李白的朋友高适 所有, 如有侵权,请联系我们删除。