最全面NVIDIA 全系GPU规格及特性对比（含应用场景）

一、NVIDIA GPU规格及特性对比表

H800 80GB

（SXM5）

**H800 80GB **

（PCIE）

**A800 80GB **

** (SXM4)**

A800 80GB

(PCIE)

A30

L40

A40

A10

A16

GPU CHIP

GH100

GA100

AD102

GA102

TU104

GA107

CUDA Cores

16896

14592

6912

3584

18176

10752

9216

2560

1280 x4

Tensor Cores

528

456

432 (3rd Gen)

224 (3rd Gen)

568(4th Gen)

336 (3rd Gen)

288 (3rd Gen)

320 (2nd Gen)

4x 40 (3rd Gen

RT Cores

142(3rd Gen)

84 (2nd Gen)

72 (2nd Gen)

40 (1st Gen)

4x 10 (2nd Gen)

FP64 (TFLOPs)

9.7

5.2

FP64 TENSOR CORE (TFLOPs)

19.5

10.3

FP32 (TFLOPs)

19.5

10.3

90.5

37.4

31.2

8.1

4x 4.5

TF32 (TFLOPs)

989*

756*

156 | 312*

82 | 165*

90.5|181

74.8|149.6*

62.5|125*

4x 9 | 4x 18

FP16 (TFLOPs)

1979*

1513*

312 | 624*

165| 330*

181.05|362.1

149.7|299.4*

125|250*

4x 17.9 | 4x 35.9

FP8 (TFLOPs)

3958*

3026*

362|724

INT8 (TOPs)

3958*

3026*

624 | 1248*

330| 661*

362|724

299.3|598.6*

250 |500 *

130

4x 35.9 | 4x 71.8

INT4(TOPs)

1248/2496*

661 | 1321

724|1448

598.7/1197.4

500 | 1000*

260

MIG Support

Yes

Memory Size

80GB HBM3

80GB HBM2e

80GM HBM2e

24 GB HBM2

48GB GDDR6

24GB GDDR6

16 GB GDDR6

64 GB GDDR6
(4x16 GB )

Memory BW (GB/s）

3000

2000

1555 | 2039

1555 | 1935

933

864GB/s

696

600

320

4x 200

Ray Tracing

Yes

Media Acceleration

8 NVDEC
8 JPEG Decoder

5 NVDEC

1 JPEG Decoder

5 NVDEC

1 JPEG Decoder

4 NVDEC

1 JPEG Decoder

3x NVENC

3x NVDEC

(+AV1 Encode & Decode)

1 NVENC
2 NVDEC
(+AV1 decode)

1 NVENC

2 NVDEC

4 NVENC
8 NVDEC

Form Factor

SXM5

×16 PCIe Gen5
2 Slot FHFL

SXM4 module
on baseboard

x16 PCIe Gen4
2 Slot FHFL

x16 PCIe Gen 4
2 Slot FHFL

4.4” (H) x 10.5” (L) - dual slot

x16 PCIe Gen4
2 Slot FHFL
1 NVLINK bridge

x16 PCIe Gen 4
1 Slot FHFL

PCIE LP

PCIe Gen 4
Dual Slot FHFL

Power

700 Watts

350 Watts

400W

250W | 300w

165W

300w

300W

150W

70 W

250W

型号

A100→A800

H800

A30

A40

L40

A10

A16

工作负载定位

计算

计算/图形

图形

CUDA core

6912

14592

3584

1280

2560

TBD

10752

TBD

9216

4*1280

FP32性能

19.5T

51T

10.3T

4.5T

8.1T

TBD

37.4T

87.5T

31.2T

4*4.5T

缓存性能

80GB HBM2e

1.94TB/s

80GB HBM2e

1.94TB/s

24GB HBM2

933GB/s

16GB GDDR6

200GB/s

16GB GDDR6

320GB/s

24GB GDDR6

300GB/s

48GB GDDR6

696GB/s

48GB GDDR6

864GB/s

24GB GDDR6

600GB/s

4*16GB GDDR6

4*200GB/s

MIG

支持

最大7个

支持

最大7个

支持

最大4个

不支持

编解码能力

5*NVDEC

7*NVDEC

7*NVJEPG

1*OFA

4*NVDEC

1*NVJPEG

1NVENC
2NVDEC

2NVENC
4NVDEC

4*NVJPEG

1NVENC
2NVDEC

3NVENC
3NVDEC

4*NVJPEG

1NVENC
2NVDEC

4NVENC
8NVDEC

具体应用

高性能计算、AI、HPC、数据处理

AI推理、主流计算平台

小型数据中心、边缘AI、入门级推理应用、小规模视频图像分析处理

高性能图像处理、虚拟计算、大规模渲染

主流视频图像AI分析处理、4K云游戏

高密云桌面，4K分辨率，最大编解码流

产品分析

及策略

旗舰产品，市场认可度高，一般作为各厂商对比的标杆，互联网等大客户最普遍使用。引导有条件的客户使用HGX版本，成本近似，集群拓展能力强，大模型训练场景首选。

A800升级Hopper架构的新款型，性能大幅提升，但FP64算力阉割且NVLink带宽同样受限为400GB/s，同时成本大幅上升，与A800长时间在市场并存，市场接受程度有待检验。

显存配比紧缺，云端业务使用中对模型大小有一定限制；MIG场景性能更均衡，胜在性价比高。适用于性能密度要求不高，中等或轻量型的云端业务。可在特定场景低成本替代A100或T4方案。

A2较T4性能规格有所降低，计算成本稍高部分应标参数不满足，市场机会较少，在客户未明确参数要求，且对成本要求高的条件下，可推A2。

作为万金油产品，市场对T4接受度高，且T4 EOL时间进一步延长。AI推理&视频编解码最常用的型号，一般作为各厂商对比的标杆产品。小型数据中心&边缘推理、轻度AI场景仍主推T4。

T4的Ada Lovelace架构升级替代款，可广泛用于AI推理及视频编解码分析场景，T4停采后作为主推款型。

在传媒、医疗等具备图形需求场景性价比更高；在非图形类的部分科研的中等规模AI计算需求中，在FP32算力中与A100相比更具优势，性价比更高。目前需求主要集中在特定AI计算场景。

A40的架构升级款，与A40定位重合且长期共存，但性能更高，且支持Ada架构新图形特性。需求场景与A40一致，同时成本上升，市场接受度有待检验。

互联网、运营商等客户的云端推理场景下，与原有T4方案相比，A10整机成本更低，性能更优，多采用A10替代。

和T4卡相比，对虚拟桌面场景进行专门优化，性价比突出，高密度云桌面及视频解析场景推荐。

二、NVIDIA GPU训练推理卡

物料描述

场景

NV TESLA T4 -E3x16 16GB 70W 单宽 GPU卡

推理

NV A10 -E4x16 24GB 150W 单宽 GPU卡

推理

NV A30 -E4x16 24GB 165W GPU卡

推理

NV A800 -E4x16 80GB 300W 双宽 GPU卡

训练

NV HGX A800 8-GPU 80GB（201）

训练

三、 NVIDIA 图形显卡

物料描述

场景

NV RTX A5000 24GB E4X16 230W 双宽显卡

显卡-图形

NV RTX A4000 16GB E4X16 140W 单宽显卡

显卡-图形

NV A40 -E4x16 48GB 300W 双宽 GPU卡

GPU-图形

标签：人工智能 NVIDIA GPU

本文转载自: https://blog.csdn.net/qq_27815483/article/details/140315034
版权归原作者 技术瘾君子1573 所有，如有侵权，请联系我们删除。

最全面NVIDIA 全系GPU规格及特性对比（含应用场景）

一、NVIDIA GPU规格及特性对比表

二、NVIDIA GPU训练推理卡

三、 NVIDIA 图形显卡

发表评论

“最全面NVIDIA 全系GPU规格及特性对比（含应用场景）”的评论:

关于作者

overfit同步小助手

相关阅读

文章导航