随着人工智能(AI)技术的迅猛发展,尤其是生成式AI的兴起,我们见证了数据处理需求的爆炸式增长。大语言模型(LLM)作为生成式AI的一个重要基础和支持,其参数数量和处理能力不断提升。例如,GPT-3具有1750亿个参数,而GPT-4的参数量更是达到了惊人的1.8万亿。这种规模的增长不仅体现在参数数量上,还反映在模型的上下文理解能力和生成内容的质量上。
图:AI工厂(来源:NVIDIA)
大模型的兴起,让如何有效设计和训练这些大模型成为了一个挑战。在此过程中,OpenAI在2020年提出并实践的大模型Scaling Law(尺度定律)成为了一个重要的理论工具。该定律的内涵就是,大模型的最终性能主要与模型参数量、数据集规模、算力规模三者的大小相关,与模型的具体结构基本无关。说白话就是,参数量越大、数据集越大,以及用于训练的算力规模越大,就可以训练出性能更好的大模型。其中提升算力规模对提升模型性能的影响最为直接和显著,其次是模型参数,然后是数据集。OpenAI就是基于此理论,用“大力出奇迹”的方法,训练出了ChatGPT和Sora等爆款产品。
不过,随着每次模型参数、数据集和计算量的增加,所需要的资金投入、能源消耗等就会倍增。据《2024年人工智能指数报告》显示,OpenAI的GPT-4等模型系统的训练成本约7800万美元,谷歌Gemini Ultra的计算成本约1.91亿美元。
各个大厂为了训练出性能足够优秀的大模型,近年来投入了相当大的资源。据IDC的数据显示,2023年,国内加速服务器市场的规模为94亿美元,同比2022年增长了104%,其中GPU服务器占了92%的市场份额,芯片市场规模近140万张,其中GPU卡占85%。出货量方面,TrendForce统计,2023年AI服务器出货量约120万台,占服务器总出货量的近9%,预计到2026年,AI服务器出货量为237万台,占比达15%。
可以明显地看到,科技巨头们的主要投入在对大模型性能提升最为显著的算力规模方面,这促使数据中心发生了很大的变化。 目前来看,正在涌现两类不同的数据中心,即AI工厂和AI云。 AI工厂主要是面向超大规模的AI训练,通常需要非常高的算力,通过几千颗、几万颗,甚至几十万颗GPU,组成庞大的AI工厂,以实现超大规模的AI模型预训练。 而AI云则主要负责对训练好的大模型进行优化,微调。 AI云不仅需要提供高算力,也需要提供灵活的云服务,比如支持多租户,且保证每个租户的安全及保证每个租户在运行不同应用程序时候的性能。
AI需求带来的数据中心网络变革
提供AI服务的新型数据中心与传统数据中心有很大的不同,传统数据中心主要运行一些关联度不高的松耦合应用程序,这些应用程序本身相对独立,对通信网络的带宽、时延、抖动,以及一致性要求并不高。
而生成式AI场景下的AI工厂与AI云对通信网络的需求完全不一样,因为AI工作负载具有计算密集型特性,尤其是涉及ChatGPT和BERT等大型复杂模型的工作负载。 为了加速模型训练和处理大量数据集,AI从业者已经转向分布式计算。 这种方法就是将工作负载分配到多台服务器,并通过高速低延迟网络将这些服务器连成一台超级计算机。 也就是说,它们对通信网络的带宽与时延都特别敏感。 目前普遍采用的是NVLink来做服务器机内的GPU互连、InfiniBand网络或者专门面向AI的以太网进行机间的GPU互连。
由于AI训练是一种基于大或者超大Message的分布式计算,因此对计算过程中的各个计算进程的要求就很高,也就是各个分布式节点上的GPU计算的一致性要求很高,各个相关GPU之间的工作耦合性也很强,为了确保每个分布式应用的各个计算进程能协调工作,互相之间的影响降到最低,这就要求在AI业务场景中的各种通信的高效性、一致性和可预测性。 因此,AI训练业务对网络的抖动、网络拥塞以及网络流量的突发性变化都比较敏感。
也就是说,在为AI数据中心构建网络架构时,必须优先创建以分布式计算为核心的集成解决方案。 数据中心架构师必须认真考虑网络设计,并根据其将要部署的AI工作负载需求,量身定制解决方案。
AI时代以太网如何创新
凭借超低延迟,InfiniBand网络技术已经成为了加速当今主流高性能计算(HPC)和AI应用的关键。InfiniBand技术一直是复杂分布式科学计算大规模超级计算部署的驱动力。它已成为当前AI工厂的事实网络。
图: 针对GPU到GPU通信的RDMA实现框图(来源:NVIDIA)
其老对手以太网并没有打算放弃这部分市场,而是希望通过不断创新,保持技术的生命力。2010年4月,IBTA发布了RoCE(RDMA over Converged Ethernet)技术,也就是基于融合以太网的远程直接内存访问,将InfiniBand中的RDMA(远程直接内存访问)技术移植到了以太网中,2014年,他们又提出更加成熟的RoCE v2版本。
有了RoCE v2,以太网大幅缩小了和InfiniBand之间的技术性能差距,再结合本身固有的成本和兼容性优势,以太网开始在HPC市场重新站稳脚跟,逐步扩大战果,并在2019年的时候达到了顶峰。但随着GPU在AI和HPC业务上的普及,InfiniBand又出现了迅猛增长。如何能将以太网高效地应用在AI数据中心领域,在过去的五年内,成为了一个普遍关注的问题。
图:TOP500采用的互连技术趋势(来源:NVIDIA)
为了解决这个问题,在2023年5月底,NVIDIA率先推出了全球第一款专为AI训练而定制的以太网 – Spectrum-X,为以太网在AI场景下的高效应用指明了方向,并率先将端到端产品推向了市场。紧跟着在2023年7月,各AI和网络巨头们也联合成立了超以太网联盟(Ultra Ethernet Consortium,UEC),成员包括AMD、Arista、博通、思科等设备商和Meta、微软等云厂商。如今,UEC正在制定规范,目标是在2024年第三季度公开发布1.0版本。该联盟的八个技术工作组涵盖了一系列主题,包括物理层、链路层、传输层、软件层、存储、兼容性、管理以及性能和调试。最近,该组织在今年晚些时候发布Ultra Ethernet 1.0之前发布了有关该技术的一些初步细节。
Ultra Ethernet试图做的关键事情之一是通过升级以太网上的RDMA操作来提高AI和HPC工作负载的性能。 UEC传输(UET)旨在通过引入几项创新来实现这一目标,这些创新可以提高网络利用率并减少尾部延迟,这两项创新对于最大限度地减少AI和HPC作业完成时间都至关重要。 值得注意的功能包括多路径数据包散传、动态路由和复杂的拥塞控制机制,所有这些都有助于高效可靠的数据传输。
对于UEC的产品,我们拭目以待。 如前文所说,NVIDIA作为GPU的第一提供商,其实早就看到了在云上,以太网的灵活性以及与云的兼容性是一个非常大的优势,而且他们行动迅速,在去年五月推出Spectrum-X这个专为AI打造的以太网网络平台,将很多InfiniBand的技术移植到了Spectrum-X上。 这样在以太网平台上有了第一个专门适用于AI的网络平台。
图:NVIDIA Spectrum-X网络平台(来源:NVIDIA)
按照NVIDIA的规划,今年推出的Spectrum-X 800交换机将采用800G端口,25年将推出Spectrum-X 800 Ultra交换机,并换装与XDR InfiniBand同型号的Connect-X网卡,2026年将推出下一代Spectrum-X 1600交换机,以太网将进入新的时代。
可见,NVIDIA的以太网战略绝非传统的竞争路线,而是在AI的使用场景下,将以太网打造成适合超大规模节点超大规模网络负载均衡、高效的网络拥塞控制、面向大Message实现高性能传输的AI网络,通过对AI Infra中所面临的负载均衡、拥塞控制等核心痛点的经验积累和理解,将以太网带入全新的高度。
NVIDIA Spectrum-X的技术创新与优势
根据NVIDIA官网的信息,Spectrum-X是全球首款专为AI打造的以太网网络平台,可将生成式AI网络性能较传统以太网网络平台提升1.6倍。Spectrum-X基于Spectrum-4以太网交换机与NVIDIA BlueField®-3 SuperNIC构建,针对AI工作负载进行了端到端优化。
Spectrum-X平台采用了无损RoCE(RDMA over Converged Ethernet)技术,实现了端到端无丢包的通信,大大提升了网络的效率和可靠性。 此外,Spectrum-X平台还带来了动态路由和先进的拥塞控制等重要特性,为网络性能提供了强有力的支持。
NVIDIA Spectrum-X的创新点有很多,最值得关注的技术创新主要有三个:
- 动态路由
RDMA让GPU与GPU在通信的时候,不需要跟CPU有任何的沟通,可以让GPU之间的Memory直接进行通信,达成高带宽,低延迟和接近CPU零消耗的通信效果,同时,在大规模的集群内,为了能让所有的网络链路都充分得到利用,此时就需要使用动态路由技术。
图:NVIDIA Spectrum-X动态路由实现原理(来源:NVIDIA)
RDMA让GPU与GPU在通信的时候,不需要跟CPU有任何的沟通,可以让GPU之间的Memory直接进行通信,达成高带宽,低延迟和接近CPU零消耗的通信效果,同时,在大规模的集群内,为了能让所有的网络链路都充分得到利用,此时就需要使用动态路由技术。
为何需要将所有的链路都利用上呢?因为在AI训练的过程中,网络传输的Message很大,而且是突发式、大流量的形式,每个Message往往被切割成大量的Packet来传输,有时可达数百万个Packet,如果使用静态路由,所有的这些Packet将会被发送到有限的几条链路上去,无法在最快的时间内把数据传到接收端;采用动态路由就能够把网络中所有链路的带宽都充分利用起来,这样就能把突发流量给网络带来的压力大大减少,大幅提升数据传输效率。动态路由技术在InfiniBand上已经实现很多年了,如今,NVIDIA将该技术迁移到了Spectrum-X平台,这样用户在用以太网构建灵活可用的云的时候,就可以享受到动态路由技术带来的高带宽利用率。
- 性能隔离
AI云上往往有多个租户在运行应用程序,而且每个租户可能运行多个任务。 如何让多个任务相互隔离,且不仅任务之间相互隔离,运行任务的时候性能也相互隔离,每个任务都能实现和运行单一任务一样的性能? 这就需要用到性能隔离技术。 该技术基于先进的拥塞控制技术,解决了由于一个AI应用的突发式的Incast通信造成的网络拥塞影响其它应用性能的问题,避免了牺牲流在云上的出现。 这个技术也是在InfiniBand上多年以前就实现了,现在NVIDIA把性能隔离技术也移植到了Spectrum-X平台,实现了以太网云上的业务性能隔离。
- 数字孪生
由于现在的AI云规模通常都很大,投入也非常大。 如果直接构建一个物理的系统,然后在物理系统上来做Bring Up、Debug等,成本非常高。 为了降低成本,NVIDIA建议可以使用数字孪生技术,先构建一个AI数据中心的数字孪生虚拟数据中心。 在这个虚拟的数据中心内,可以把物理世界所需要做的,预先的配置、调试、优化,甚至是一些性能的测试,都先完成,确认没有问题以后,再按照最优的状况来构建物理的平台,物理平台构建完以后,可以把虚拟世界的所有配置拷贝过去,这样物理平台很快就能投入使用,而不需要花很多时间在物理平台做Debug。 采用NVIDIA的Spectrum-X构建数据中心时,就可以这样操作,这样能加速数据中心的建造过程,同时也能降低成本。
结语
AI时代已然来临,而网络是其成功的基石。 为了充分发挥AI的潜力,数据中心架构师必须仔细考虑网络设计,并根据AI工作负载的独特需求定制这些设计。 解决网络问题、提升通信性能是释放AI技术潜力和推动数据中心行业创新的关键。
以太网这种性价比高的网络协议也在不断创新,以适应AI应用需求。网上已经出现了越来越多的文章讨论如何构建万卡、十万卡级别的大规模AI集群,未来AI集群的供电、冷却、运维等众多的问题都已经摆在了全社会的面前。
未来的数据中心不应该是简单的GPU的堆叠,而是一个系统的工程。 如何在最小的空间占用、最低的功耗、最低的成本、最简单的管理、最容易的构建等前提下提供最大的算力,才是业界最应该解决的问题。 这就需要我们进行全新的系统架构设计,将系统架构和AI应用的实际通信模型一起进行Co-Design(联合设计),定义最合理的Scale Up域和Scale Out域,选择最合适的网络来实现Scale Up和Scale Out协同和高效扩展。
或许,NVIDIA的NVL72 GB200系统给我们提供了一个新的思路,它让性能、价格、功耗和管理有了可以共存的空间。 我们期待更多类似的新技术出现在市场中,助力我们实现对于算力的无限需求。
版权归原作者 芯查查APP 所有, 如有侵权,请联系我们删除。