分布式训练 - overfit.cn

融合AMD与NVIDIA GPU集群的MLOps：异构计算环境中的分布式训练架构实践

本文将深入探讨如何混合AMD/NVIDIA GPU集群以支持PyTorch分布式训练。

Deephub 2025-03-19 10:54:36 0 收藏

一次讲清模型并行、数据并行、张量并行、流水线并行区别nn.DataParallel[分布式]

通过这种行切分的方式,张量并行能够有效地将大型矩阵分散到多个GPU上,既解决了单GPU内存不足的问题,又保持了计算的数学等价性。总的来说,张量并行的核心思想是利用分块矩阵的计算原理,将大矩阵切分到不同设备上,通过通信操作保证数学等价性。当然，张量并行中的行并行（Row Parallelism）是一种

overfit同步小助手 2024-08-25 00:02:27 0 收藏