近年来,OpenAI带火了大模型,人工智能应用进入了黄金时代,几乎各行各业都在努力进行人工智能落地应用探索。
客观上说,大模型效果的确好,对算力资源的消耗却非常高。其中训练时间长不说,显存的硬性需求更是直接决定了能否完成训练。虽然通过程序优化能够降低一些显存使用,但又可能面临着精度损失,对于精益求精的科研工作者而言,的确是让人纠结。
我们DeepLn算力云以常见的开源模型LLaMA为例,不同参数量下的微调,无论是LoRA微调还是全量微调,所需相关显存和算力都不小。
模型
LoRa (4Bit量化)最低显存
全参微调(FP16)最低显存
LoRA微调建议GPU
全参微调建议GPU
LLaMA-7B
6GB
84GB
RTX 3060,
GTX 1660, 2060
AMD 5700 XT
RTX 3050
RTX4090 * 4,
Tesla V100 32G * 4
Tesla V100 16G * 6
Tesla A100 40G * 2
Tesla A100 80G * 2
LLaMA-13B
10GB
156GB
AMD 6900 XT
RTX 2060 12GB
RTX3060,3080
A2000
RTX 4090 * 8
Tesla V100 32G * 6
Tesla A100 40G * 4
Tesla A100 80G *2
LLaMA-30B
20GB
360GB
A5000, RTX 6000
RTX3090, 4090
Tesla V100
Tesla P40
Tesla V100 32G * 12
Tesla A100 40G * 10
Tesla A100 80G * 6
LLaMA-65B
40GB
780GB
A100 40GB, A40
2×3090, 2×4090
RTX A6000
RTX 8000
Tesla V100 32G * 26
Tesla A100 40G * 20
Tesla A100 80G * 10
ChatGLM2-6B
6GB
84GB
RTX 3060
GTX 1660, 2060
AMD 5700 XT
RTX 3050
RTX4090 * 4
Tesla V100 32G * 4
Tesla V100 16G * 6
Tesla A100 40G * 2
Tesla A100 80G * 2
从上面的例子来看,一般的高校实验室,的确是可能存在显存不足的情况,特别是全量训练或者微调时问题尤为突出。此时想让实验室新购置设备更是遥遥无期,估计开会还没讨论出结果,好多炼丹侠的deadline就到了。
更何况一套算力服务器动辄几十上百万,还要有配套的无尘机房和运维人员,这简直是三杀。
算力不够,租用云端GPU算力就成为不少科研用户的首选,然而打开某里云、某为云、某讯云一看,心里瞬间凉了半截儿,30GB以上显存的显卡,动不动就要几十元一小时,跑个程序下来,上千块就没了,这经费燃烧的速度一般人扛不住,真要是硬着头皮用下来,怕是一些实验室老大会扒了炼丹侠们的皮(手动狗头)。
更何况现在大显存算力供不应求,像A100之类的甚至被好多云计算平台下架自用了,根本轮不到外面用户去租。
这个时候,就要推荐我们的DeepLn算力云了,A100、RTX8000、V100这些大显存GPU管饱管够,关键是价格低到令人心动,低到只有你想不到,没有我们做不到。大显存算力真的被做到了白菜价。
图中40G显存的A100、48G的RTX8000都做到了2元档,32GB显存的V100更是做到了不到2元,真心说,这价格简直杀嘎嘎乱杀。
那么有较真的童鞋就要问了,DeepLn算力云凭啥能这么便宜,我只能说其中也有小编的功劳了,大概是小编负责嘎嘎,老板和技术负责剩下的乱杀吧,更何况现在微信绑定还送30元算力券,大家快来试试吧。
版权归原作者 DeepLn算力云 所有, 如有侵权,请联系我们删除。