国产AI服务器调研报告

数据、算法和计算力是深度学习的三大要素。其中，数据是基础，算法是工具，计算力是助推器。计算力的提高推动着深度学习的发展。计算力的重要支撑是通用的AI服务器或GPU服务器（以下简称AI服务器）。

需求分析

因业务需要，需部署国产化AI服务器，包括训练服务器和推理服务器。接下来，从国产化自研自控、生态兼容性、价格以及性能几个方面进行调研。

AI服务器简介

AI服务器是一种硬件平台，主要用于为人工智能提供计算力。
从数据存储角度看，AI服务器主要有两种架构，一种是混合架构，可以将数据存储在本地，另一种是基于云平台的架构，使用远程存储技术和混合云存储（一种联合本地存储和云存储的技术）进行数据存储。
从硬件架构来看，AI服务器是采用异构形式的服务器，在异构方式上可以根据应用的范围采用不同的组合方式，如CPU+GPU、CPU+TPU、CPU+其他的加速卡等。
现在市面上的 AI 服务器普遍采用 CPU+GPU 的形式，因为 GPU 与 CPU 不同，采用的是并行计算的模式，擅长梳理密集型的数据运算，如图形渲染、机器学习等。在 GPU 上，NVIDIA 具有明显优势，GPU 的单卡核心数能达到近千个，如配置 16 颗 NVIDIA Tesla V100 Tensor Core 32GB GPUs 的核心数可过 10240 个，计算性能高达每秒 2 千万亿次。且经过市场这些年的发展，也都已经证实 CPU+GPU 的异构服务器在当前环境下确实能有很大的发展空间。

AI服务器与普通服务器的区别

我们都知道普通的服务器是以 CPU 为算力的提供者，采用的是串行架构，在逻辑计算、浮点型计算等方面很擅长。因为在进行逻辑判断时需要大量的分支跳转处理，使得 CPU 的结构复杂，而算力的提升主要依靠堆砌更多的CPU核心数来实现。
但是在大数据、云计算、人工智能及物联网等网络技术的应用，充斥在互联网中的数据呈现几何倍数的增长，这对以 CPU 为主要算力来源的传统服务提出了严重的考验，并且在目前 CPU 的制程工艺、单个 CPU 的核心数已经接近极限，但数据的增加却还在持续，因此必须提升服务器的数据处理能力。因此在这种大环境下，AI服务器应运而生。
1、从服务器的硬件架构来看，AI 服务器是采用异构形式的服务器，在异构方式上可以根据应用的范围采用不同的组合方式，如 CPU+GPU、CPU+TPU、CPU+其他的加速卡等。与普通的服务器相比较，在内存、存储、网络方面没有什么差别，主要在是大数据及云计算、人工智能等方面需要更大的内外存，满足各种数据的收集与整理。
2、卡的数量不一致：普通的 GPU 服务器一般是单卡或者双卡，AI 服务器需要承担大量的计算，一般配置四块 GPU 卡以上，甚至要搭建 AI 服务器集群。
3、独特设计：AI 服务器由于有了多个 GPU 卡，需要针对性的对于系统结构、散热、拓扑等做专门的设计，才能满足 AI 服务器长期稳定运行的要求。

AI服务器的分类及其特点

AI服务器主要有两种架构：训练型和推理型。训练型服务器需要提供高密度算力支持，而推理型服务器对算力要求较低[1]。

训练型服务器主要用于训练深度学习模型，需要进行大规模的并行计算，以便在大量数据中训练出一个复杂的神经网络模型。训练过程需要较高的计算性能、需要海量的数据、训练出的网络具有一定通用性。训练型服务器通常采用GPU架构，相较CPU更适合进行大规模并行计算。

推理型服务器主要用于推理深度学习模型，需要进行大量的数据处理，以便使用训练好的模型进行推理预测。推理过程不需要像训练过程那样进行大规模的并行计算，因此对算力的要求较低。推理型服务器通常采用CPU架构，也可以采用FPGA、ASIC等其他架构，以便在不同的应用场景下提供更好的性能[2]。

国内AI服务器产商和产品介绍

浪潮信息、联想、华为、中科曙光、新华三等国产厂商在全球AI服务器市场占据领先地位。全球市场来看，AI服务器市场份额TOP10厂商中，国产厂商占据4席，累计市场份额超35%，其中浪潮信息以20.2%的份额排名第一。国内市场来看，AI服务器市场集中度较高，排名前三的供应商为浪潮信息、宁畅和华为，CR3（指业务规模前三名的公司或业务规模前三名的公司所占的市场份额，又称行业前3总量）达70.40%。
这些厂商的AI服务器产品都具有高性能、低能耗、高可靠性等特点，适用于各种应用场景。

浪潮信息

AI服务器产品矩阵丰富，产品力获国际认可。目前公司AI服务器主要产品型号包括NF5688M6、NF5488A5等，据公司官网，2021年上述两款AI服务器在国际权威AI基准测试MLPerf榜单中，获得医学影像分割、目标物体检测、自然语言理解、智能推荐等7项训练冠军，可满足包括自然语言理解等在内的多项AI训练需求。此外，公司在AI领域的积累还包括AI资源平台、AI算法平台等，具备大量算力解决方案实施经验。

NF5688M6：该服务器采用2颗第三代Intel Xeon可扩展处理器+8颗英伟达A800 GPU的组合，据英伟达官网，每颗A800售价104000元，故该服务器芯片成本约96万元。该服务器在国际权威AI基准测试MLPerf榜单中，获得医学影像分割、目标物体检测、自然语言理解、智能推荐等7项训练冠军[3]。

DCG-6000：该服务器采用英特尔至强处理器和英伟达GPU，支持多种深度学习框架，如TensorFlow、Caffe、MXNet等。该服务器可提供高达16个GPU插槽，支持多GPU卡并行计算，适用于深度学习训练[3]。

DCG-9000：该服务器采用英特尔至强处理器和英伟达GPU，支持多种深度学习框架，如TensorFlow、Caffe、MXNet等。该服务器可提供高达32个GPU插槽，支持多GPU卡并行计算，适用于深度学习训练[3]。

浪潮信息是一家中国国内自主研发的企业，其自主研发的AI服务器采用了英特尔至强处理器和英伟达GPU。虽然，浪潮信息并没有自主研发的CPU或GPU芯片制作的AI服务器。但是，浪潮信息的NF5688M6服务器采用了英伟达A800 GPU，该服务器在国际权威AI基准测试MLPerf榜单中获得了训练冠军。

华为

华为AI服务器产品主要包括昇腾AI云服务器和Atlas AI服务器两大系列，分别适用于云端和边缘场景，基于华为自研的昇腾AI处理器，提供高性能、高效率、高兼容性的AI计算能力。

昇腾AI云服务器是一种可随时自助获取、可弹性伸缩、应用于AI训练/AI推理加速的云服务器，可为多种AI应用场景提供高效算力。昇腾AI云服务器支持Python接口和MindStudio图形接口，支持Tensorflow，Caffe，Mindspore等主流框架，支持25Gbps的高性能智能网卡，支持8*100Gbps RDMA网络的大规模训练集群[4]。

Atlas AI服务器是一种面向边缘场景的AI计算平台，支持实时、低延迟、高并发的AI应用，可应用于智慧城市、智慧零售、智慧园区、泛金融认证等领域。Atlas AI服务器包括模块、板卡、小站、服务器、集群等多种产品形态，可满足不同场景的需求。

华为AI服务器产品的核心优势是基于华为自研的昇腾AI处理器，该处理器采用Da Vinci架构，具有高性能、低功耗、高集成度、高可靠性等特点，可实现端、边、云的全场景AI计算。华为目前已推出Ascend 310和Ascend 910两款昇腾AI处理器，分别针对边缘和云端场景，提供8TOPS和256TOPS的计算性能。

华为服务器产品介绍：
产品介绍Atlas 800训练服务器Atlas 800训练服务器是基于华为鲲鹏或Intel处理器+华为昇腾处理器的AI训练服务器，具有超强算力密度、高速网络带宽等特点。该服务器广泛应用于深度学习模型开发和训练，适用于智慧城市、智慧医疗、天文探索、石油勘探等需要大算力的行业领域[5][6]。Atlas 900训练集群Atlas 900训练集群是由128台Atlas 800训练服务器（型号：9000）构成的AI训练集群，拥有超强的算力和能效比，能够在59.8秒内完成ResNet-50模型的训练，刷新了世界纪录。该集群适用于大规模数据集和复杂模型的训练，支持天文探索、气候变化、生命科学等领域的科学研究[7][8]。Atlas 300推理板卡Atlas 300推理板卡是基于华为昇腾310或昇腾910处理器的AI推理板卡，具有高性能、低功耗、高可靠等特点。该板卡支持多种AI场景的推理和视频分析，如检索聚类、OCR识别、语音分析、视频分析等[7]。Atlas 500推理小站Atlas 500推理小站是基于华为昇腾310处理器的AI推理小站，具有小巧便携、高性价比等特点。该小站支持边缘场景的AI推理和视频分析，如智慧交通、智慧园区、智慧零售等[7][9]。
训练与推理服务器是一个生态系统，华为的整个生态系统介绍：https://zhuanlan.zhihu.com/p/637918406?utm_id=0

联想

联想ai服务器是一系列支持人工智能应用的基础设施产品，包括服务器、存储等。联想有两个ai服务器品牌，分别是联想问天和联想ThinkSystem。

联想问天是联想服务器的首个本地化品牌，专注于提供高性能、高效率、高可靠的ai算力解决方案。2 联想问天有多款ai服务器产品，例如：

联想问天WA7780 G3 AI大模型训练服务器： 可支持超大模型训练，如百亿级参数的GPT-3模型。采用Intel Xeon Scalable第三代处理器，可支持8块NVIDIA A800 GPU，每块GPU拥有40GB显存和1.6TB/s显存带宽，服务器总算力高达2PFLOPS。
联想问天WA5480 G3 AI训推一体服务器： 可满足中小模型训练和推理的需求，如图像识别、语音识别等。采用Intel Xeon Scalable第三代处理器，可支持4块NVIDIA A800 GPU或者8块NVIDIA A30 GPU，每块A800 GPU拥有40GB显存和1.6TB/s显存带宽，每块A30 GPU拥有24GB显存和1.2TB/s显存带宽，服务器总算力分别为1PFLOPS和0.5PFLOPS。
联想问天WR5220 G3 AI推理服务器： 可支持高并发、低延迟的ai推理应用，如智能视频分析、智能客服等。采用Intel Xeon Scalable第三代处理器，可支持8块NVIDIA A10 GPU或者16块NVIDIA T4 GPU，每块A10 GPU拥有24GB显存和600GB/s显存带宽，每块T4 GPU拥有16GB显存和320GB/s显存带宽，服务器总算力分别为0.32PFLOPS和0.13PFLOPS。

联想ThinkSystem 是联想的全球化品牌，提供广泛的ai场景解决方案，包括ai训练与推理、3D设计与可视化、视频处理以及工业数字化等。13 联想ThinkSystem也有多款ai服务器产品，例如：
联想ThinkSystemSR650 V3 AI训练与推理服务器：可支持多种类型的GPU和加速卡，适用于各种规模的ai应用。采用Intel Xeon Scalable第三代处理器，可支持多种类型的GPU和加速卡，如NVIDIA A100、A40、A30、A10、T4等以及寒武纪MLU270、MLU290等。

联想ThinkSystemSR670 V2 AI训练与推理服务器： 可支持高密度的GPU配置，适用于计算密集型的ai应用。采用Intel Xeon Scalable第二代处理器，可支持高密度的GPU配置，如8块NVIDIA A100或者16块NVIDIA T4等。
联想ThinkSystemSR675 V3 AI计算系统服务器： 可支持NVIDIA OVX计算系统，适用于元宇宙等复杂应用。采用AMD EPYC 7003系列处理器，可支持NVIDIA OVX计算系统，包括4块NVIDIA A100 GPU和1块NVIDIA BlueField-2 DPU。每个OVX计算系统拥有160GB显存和6.4TB/s显存带宽，服务器总算力高达2PFLOPS。

新华三

产品介绍智能算力旗舰H3C UniServer R5500 G6，专为大模型训练而生，支持8颗NVIDIA A800 GPU，单机算力高达5PFLOPS，可实现超大规模的AI模型训练，如GPT-4等。混合算力引擎H3C UniServer R5300 G6，适用于大规模推理/训练场景，支持多种类型的GPU和加速卡，如NVIDIA A100、A40、A30、A10、T4等，可满足不同的AI应用需求。通用服务器H3C UniServer R4900 G6、R4700 G6、R6900 G6等，支持两路或四路Intel Xeon Scalable第三代处理器，提供高性能、高可靠、高扩展的计算平台，可应用于云计算、大数据、数据库等场景。GPU优化服务器H3C UniServer R5500 G5、R5300 G5等，支持高密度的GPU配置，如8颗NVIDIA A100或16颗NVIDIA T4等，提供高性能、高能效的AI计算能力，可应用于元宇宙、图形视频处理等场景。存储优化服务器H3C UniServer R4300 G5、R4300 G3等，支持大容量的存储设备，如SATA/SAS/NVMe SSD等，提供高速、高可靠的数据存储能力，可应用于数据分析、数据备份等场景。

国产GPU选型

目前，国内的AI服务器市场还是英伟达的GPU占据主导地位，但也有一些国产的AI芯片正在崛起，比如华为的昇腾系列，寒武纪的MLU系列，以及炬力的JL系列。这些芯片都有各自的特点和优势，可以满足不同的AI场景和需求。您可以根据您的具体应用和预算来选择合适的国产AI服务器。

华为昇腾

华为昇腾芯片（HUAWEI Ascend）是华为公司发布的一系列人工智能处理器，采用自家的达芬奇架构，支持全场景AI应用。目前，华为昇腾芯片包括以下几款产品：
型号描述昇腾910云端智能处理器，采用7nm工艺，集成了32颗达芬奇AI核心，支持高达256Tops的AI性能[10]昇腾310边缘端智能处理器，采用12nm工艺，集成了2颗达芬奇AI核心，支持高达16Tops的AI性能[10]昇腾710云端智能处理器，采用16nm工艺，集成了8颗达芬奇AI核心，支持高达64Tops的AI性能[7]昇腾610边缘端智能处理器，采用16nm工艺，集成了1颗达芬奇AI核心，支持高达8Tops的AI性能[7]
华为基于这些芯片，推出了多款Atlas人工智能计算解决方案，包括Atlas系列模块、板卡、小站、服务器、集群等丰富的产品形态。这些解决方案可以与主机CPU通过PCIe接口进行通信，并支持华为CANN异构计算架构实现多芯多卡的互联和扩展[4]。为还提供了丰富的AI计算框架、应用使能、开发工具链、管理运维工具、行业应用及服务等全产业链[4]。

寒武纪

寒武纪的MLU系列是一系列面向云端和边缘端的AI芯片和加速卡，基于寒武纪自主研发的MLUarch架构，支持多种精度和算法，可用于AI训练和推理。目前，寒武纪的MLU系列包括以下几款产品：
型号描述MLU370云端智能芯片，采用先进的chiplet技术，集成了4颗思元370核心芯片和1颗MLU-Link互联芯片，支持高达1.5Tops/W的AI性能MLU290云端智能芯片，采用7nm工艺，集成了2颗思元290核心芯片和1颗MLU-Link互联芯片，支持高达1.3Tops/W的AI性能MLU220边缘端智能芯片，采用12nm工艺，集成了1颗思元220核心芯片，支持高达0.5Tops/W的AI性能
寒武纪基于这些芯片，推出了多款AI加速卡，如MLU370-X8、MLU370-S4、MLU290-M5、MLU220-M.2等。这些加速卡可以与主机CPU通过PCIe接口进行通信，并支持寒武纪MLU-Link技术实现多芯多卡的互联和扩展15。寒武纪还提供了Cambricon NeuWare平台，支持TensorFlow、PyTorch等主流框架，并提供了丰富的算子库、工具包和优化器。目前，寒武纪MLU系列已经与多家服务器厂商合作，提供了多款AI服务器产品，例如：
富士通PRIMERGY GX2570 M5：搭载4张寒武纪MLU290-M5加速卡，支持高达128Tops的AI性能。

炬力

炬力AI加速卡是一款基于炬力集成的无线物联网SoC芯片的AI加速卡，可以用于智能家居、智能穿戴、智能安防等领域的AI应用。炬力AI加速卡的性能数据暂时没有找到，但是根据其他国产AI加速卡的数据1，可以推测炬力AI加速卡的算力和显存应该不会太高，可能比不上英伟达的T42或者华为的Atlas 300T Pro。

国产CPU选型

纵观全球，Intel、AMD两大巨头领跑通用CPU（桌面与服务器CPU）市场；国内，国产CPU正处于奋力追赶的关键时期，以飞腾、鲲鹏、海光、龙芯、兆芯、申威等为代表的厂商正全力打造“中国芯”[11][12][13]。这些企业的产品涵盖了x86、Arm、MIPS、Alpha四大架构[13]。

海光信息：

成立于2014年，总部位于上海。海光信息的产品线涵盖了x86、Arm、MIPS架构，其产品包括海光1号、海光2号和海光3号等，分别应用于不同领域的高端计算和数据中心建设。海光CPU是基于AMD的x86指令集进行自主研发的，具有高性能、低功耗、安全可靠等优点[11]。在AI领域，海光信息推出了多款适用于AI应用的处理器产品，如海光7000系列和海光5000系列等。这些处理器具有高性能、低功耗、安全可靠等优点，可以满足AI应用对于计算性能、内存带宽、I/O接口等方面的要求。海光信息与国内一家知名互联网企业合作，推出了基于海光CPU的AI服务器。这款服务器采用了海光7000系列处理器，具有高性能、低功耗、安全可靠等优点，适用于各种AI应用场景。这款AI服务器在图像识别、语音识别、自然语言处理等应用场景中表现优异，得到了用户的高度认可。

兆芯：

成立于2014年，总部位于北京。兆芯的产品线涵盖了x86、Arm、MIPS架构，其产品性能优异，广泛应用于服务器、超级计算机、云计算、大数据等领域。兆芯与北京百度网讯科技有限公司达成了产品兼容互认证明。百度飞桨（PaddlePaddle）在兆芯系列国产处理器平台上功能、性能、兼容性、可靠性、稳定性等均可满足用户应用需求。这种互认证明的达成将为AI开发者提供基于国产化环境的深度学习平台。

龙芯中科：

成立于2002年，总部位于北京。龙芯中科的产品线涵盖了MIPS架构，其产品性能优异，广泛应用于服务器、超级计算机、云计算、大数据等领域。龙芯中科通过自主研发的LoongArch指令集，实现了完全自主的CPU设计，并且在通用计算、网络安全、数据中心等领域得到了广泛应用。在AI领域，龙芯中科推出了多款适用于AI应用的处理器产品，如龙芯3A1000、龙芯3B1500等，这些处理器在AI计算、图像识别、语音识别等方面具有高性能表现。

华为鲲鹏：

华为鲲鹏系列CPU采用自家的达芬奇架构，搭载华为自主研发的鲲鹏系列AI处理器，支持全场景人工智能应用，性能强劲[11]。鲲鹏系列CPU基于ARM V8架构，处理器核、微架构和芯片均由华为自主研发设计。其产品广泛应用于服务器、超级计算机、云计算、大数据等领域[11]。

飞腾信息：

飞腾CPU由国防科技大学研究团队创造，起步于1999年。飞腾信息的产品线涵盖了x86、Arm、SPARC架构，其产品性能优异，广泛应用于服务器、超级计算机、云计算、大数据等领域[11]。飞腾信息国产CPU在AI服务器上也有一些应用。飞腾信息专注于国产CPU的研发和生产，其产品广泛应用于政府、金融、能源等领域。在AI领域，飞腾信息推出了多款适用于AI应用的处理器产品，如飞腾1000、飞腾2000等。飞腾与百度合作推出了基于飞腾1000系列国产CPU的AI服务器，这款服务器可以应用于百度云、百度大脑等场景，为人工智能应用提供强大的计算支持。

申威科技：

成立于1990年，总部位于江苏无锡。申威科技的产品线涵盖了Alpha架构，其产品性能优异，广泛应用于服务器、超级计算机、云计算、大数据等领域[11]。在AI领域，申威科技推出了多款适用于AI应用的处理器产品，如申威1600、申威1700等。这些处理器具有高性能、低功耗、安全可靠等优点，可以满足AI应用对于计算性能、内存带宽、I/O接口等方面的要求。申威科技与国内一家知名互联网企业合作，推出了基于申威SW-6401和SW-6402处理器的AI服务器。这款服务器采用了100G PaddlePaddle飞桨深度学习框架，支持2个2.6GHz核心的处理器，适用于高吞吐量的计算密集型工作负载。这款AI服务器在图像识别、语音识别、自然语言处理等应用场景中表现优异，得到了用户的高度认可。

五、总结

目前，国内的AI服务器市场还是英伟达的GPU占据主导地位，综合考虑服务器厂商、国产化加速卡和国内自研CPU以及当前的需求，当前选择华为的Atlas中的鲲鹏+昇腾是当前最优选择，原因有如下几点：

华为AI服务器搭载了自研的昇腾系列AI处理器，具有高性能、高能效、高集成度等优势。
华为AI服务器支持端、边、云的全场景AI基础设施方案，覆盖深度学习领域推理和训练全流程。
华为AI服务器提供了丰富的产品形态，包括模块、板卡、小站、服务器、集群等，可以满足不同的业务需求和场景。
华为AI服务器可以对接华为云的AI开发平台ModelArts，提供端到端的模型生产线、监控工具、MLOps能力、AI加速套件等，实现AI高效开发、运行和迁移。

引用

[1]. AI服务器是什么意思？AI服务器和普通服务器的区别 - 知乎 (zhihu.com)
[2]. 国产AI服务器分类、技术及产品（2023） - 知乎 (zhihu.com)
[3]. 性能提升超越摩尔定律！浪潮AI服务器再创MLPerf V2.0训练评测最佳成绩 - 知乎 (zhihu.com)
[4]. 昇腾AI云服务器_ECS-华为云 (huaweicloud.com) [5]. Atlas
800-AI服务器-训练服务器（型号：9000）-华为企业业务 (huawei.com) [6]. Atlas
800-AI服务器-训练服务器（型号：9010）-华为企业业务 (huawei.com)
[7]. 昇腾计算-华为Ascend-AI计算-华为企业业务 (huawei.com) [8]. 昇腾软硬件全栈简介 - 知乎
(zhihu.com) [9]. 华为 Atlas 人工智能平台-昇腾社区 (hiascend.com) [10]. 昇腾（HUAWEI
Ascend) 芯片 | 海思官网 (hisilicon.com) [11]. 详解六大国产CPU处理器 - 知乎 (zhihu.com)
[12]. 16nm工艺、自研32核心！国产x86 CPU来了_腾讯新闻 (qq.com) [13]. 你知道的国产cpu有哪些？ - 知乎
(zhihu.com)

标签：人工智能服务器运维

本文转载自: https://blog.csdn.net/qq_18140905/article/details/135254366
版权归原作者 修明pt 所有，如有侵权，请联系我们删除。

国产AI服务器调研报告

国产AI服务器调研报告