Colossal-AI发布新的深度学习辅助框架，半小时即可完成ViT-Base/32预训练

点击上方“Deephub Imba”,关注公众号,好文章不错过 !

从头开始预训练计算机视觉领域最热门的 AI 模型 Vision Transformer (ViT) 需要多长时间？Colossal-AI系统最新给出的答案是半小时！

近年来，随着AI性能的不断提升，AI模型参数的数量也呈现爆发式增长，从AlexNet、ResNet到BERT、GPT、MoE……，AI模型的参数量级不断刷新，现已超过万亿，这使得训练成本急剧上升。仅仅训练2020年发布的千亿参数GPT-3，即便是用一块最先进的英伟达A100 GPU进行训练，也需要等待100多年。显然，如何加速AI训练过程已经成为AI行业最大的痛点之一。

加速AI模型训练的一种常见方法是借助数据并行性来实现大批量训练，即通过增加批量大小，从而减少迭代次数，最终实现训练时间的显着减少。但是由于泛化差距，大批量训练通常会导致测试集上的收敛困难和性能下降。

因此，越来越多的科技巨头选择使用高性能计算技术，借助谷歌的 TPU Pod 和英伟达的 SuperPOD 等超级计算机集群，使用数百甚至数千个最好的处理器来并行加速计算任务。

然而，即使是价值数亿美元的超级计算机，也面临着当硬件堆栈达到一定数量时，计算效率无法进一步提高，浪费大量计算资源的瓶颈。此外，分布式并行编程通常需要与计算机系统和架构相关的专业知识，这进一步增加了前沿人工智能模型的训练成本。

在 ImageNet-1K 数据集（128 万张图像）上，ViT 的预训练需要使用整个数据集 300 次，使用一个批处理大小为 128 的 NVIDIA A100 GPU 预训练 ViT-Base/32 大约需要三天时间 .

使用 Colossal-AI 提供的大批量优化器 LAMB，可以成功克服大批量优化的困难，通过 32K 批量大小的数据并行快速将训练过程扩展到 200 个 A100 GPU，只需 0.61 小时即可完成 ViT-Base/32 训练并保持准确性。对于更复杂的ViT-Base/16 和 ViT-Large/32，Colossal-AI 也分别只需 1.87 小时和 1.30 小时即可完成。

目前主流的张量并行方案，如微软的DeepSpeed和英伟达的Megatron，都是一维张量并行，这意味着每个处理器都需要与其他所有处理器进行通信。但是，处理器之间的通信，尤其是多机跨节点通信，不仅会严重降低运行速度，占用处理器大量额外内存，而且能耗成本非常高。针对这个痛点，Colossal-AI 提出使用多维张量并行：2/2.5/3 维的张量并行。Colossal-AI还完全兼容现有的数据并行、流水线并行、序列并行等并行模式，共同构成了Colossal-AI的“六维并行”，远超微软和英伟达的三维并行，相关技术可以轻松扩展到推理加速领域。

Colossal-AI作为深度学习框架的核心，将“系统优化”与“上层框架”和“下层硬件”解耦，为多维并行、大批量优化器、零等前沿技术的实现提供了便捷的实现。以即插即用的方式卸载冗余内存。易于扩展和使用，只需要少量的代码修改，防止用户学习复杂的分布式系统知识。对于GPU等处理器来说，使用密集集群的平均算力成本会比分散使用低很多，这样不仅可以节省训练时间，还可以大大降低算力成本。

Colossal-AI 仍处于 beta 测试阶段，在不久的将来会发布更多惊人的结果。

Paper Address: https://arxiv.org/abs/2110.14883

Project Address: https://github.com/hpcaitech/ColossalAI

Document Address: https://www.colossalai.org/

作者:HPC-AI Tech

喜欢就关注一下吧：

点个在看你最好看！********** **********

标签：

Colossal-AI发布新的深度学习辅助框架，半小时即可完成ViT-Base/32预训练

发表评论

“Colossal-AI发布新的深度学习辅助框架，半小时即可完成ViT-Base/32预训练”的评论:

关于作者

Deephub

相关阅读

文章导航