文章目录
不同参数量下算力需求
模型参数量(亿)数据量并行卡数(如A100)时间(天)算力(P/天)110300 billion token1240312Tx12=3.7P;2100300 billion token12840312Tx128=40P;310001 trillion token204860312Tx2048=638P;4
典型大模型下算力需求
模型参数量(亿)数据量时间(天)算力(P/天)金额盘古2.6B600G3110盘古13B600G7110ChatGPT13300 billion token27.527.5一次模型训练成本超过1200万美元GPT-3 XL13300 billion token27.527.5GPT-31746300 billion token13640一次模型训练成本超过460万美元GPT-3.513640
注:ChatGPT训练所用的模型是基于13亿参数的GPT-3.5模型微调而来
来源:https://arxiv.org/abs/2005.14165
来源:https://arxiv.org/abs/2104.12369
常见小模型参数量
来源: https://github.com/Lyken17/pytorch-OpCounter
ModelParams(M)MACs(G)alexnet61.100.77vgg11132.867.74vgg11_bn132.877.77vgg13133.0511.44vgg13_bn133.0511.49vgg16138.3615.61vgg16_bn138.3715.66vgg19143.6719.77vgg19_bn143.6819.83resnet1811.691.82resnet3421.803.68resnet5025.564.14resnet10144.557.87resnet15260.1911.61wide_resnet101_2126.8922.84wide_resnet50_268.8811.46ModelParams(M)MACs(G)resnext50_32x4d25.034.29resnext101_32x8d88.7916.54densenet1217.982.90densenet16128.687.85densenet16914.153.44densenet20120.014.39squeezenet1_01.250.82squeezenet1_11.240.35mnasnet0_52.220.14mnasnet0_753.170.24mnasnet1_04.380.34mnasnet1_36.280.53mobilenet_v23.500.33shufflenet_v2_x0_51.370.05shufflenet_v2_x1_02.280.15shufflenet_v2_x1_53.500.31shufflenet_v2_x2_07.390.60inception_v327.165.75
推理训练算力需求分析
训练
主要以机器视觉应用使能人工智能算力分析为课题,其中的视觉能力训练平台、图像增强模型、目标检测、图像分割、人员跟踪需求。
对人工智能算力需求计算过程如下:
参考业界流行的视频训练算法(表一、第四章),训练一个模型需要2560TFLOPS FP16算力(8卡/周,单卡算力为320 TFLOPS FP16),运算时间为7天左右,且通常需要训练大于8~10次才能找到一个满意的模型。
考虑2天的调测,安装和模型更新时间,则一个模型的训练周一为10天。
综上,至少需占用要2560*8=20480 TFLOPS FP16算力,才能在10天内找到一个满意的训练模型;
按照目标检测,分割,跟踪等常规模型统计,预计一年有30+任务需要分别训练;总算力需求20PFLOPS FP16。
表一:业界流行的视频训练算法
序号算法分类算法需求模型参考数据量参考****所需算力 (TFLOPS FP16)训练时间/周训练次数****1视频异常检测CLAWS>200G视频数据204801102视频异常检测C3D204801103视频活动分析SlowFast204801104视频活动分析AlphAction204801105图像分类基础网络ResNet系列:resnet18, resnet34, resnet50, resnet101resnet50,ImageNet, ~150G图片2560186MobileNet系列:MobileNetV1, MobileNetV2, MobileNetV3mobilenetv2,2560187人脸识别算法图像分类Backbone,FaceNetFaceNet NN1,MS-Celeb-1M LFW, 1万+张图片 Adience, 2万+张图片 Color FERET, 1万+张图片2560188目标检测一阶段:SSD,yolo系列:yolov3, yolov4, yolov5YOLOv3-608,COCO 2017, >25F数据2560189二阶段:FasterRCNNfaster rcnn + resnet101,25601810分割算法yolact, yolact++(unet、unet++)maskrcnn+resnet50 fpn,25601811MaskRCNN25601812人员跟踪DensePeds100G图片25601813底层图像增强CycleGAN等>10G视频数据25601814维护预测算法>1G数据25601815洗煤优化算法>1G数据256018
推理
推理服务器算力资源:采用适合张量计算的创新人工智能芯片架构,提供高性能视频解析能力和人工智能算力,用于AI应用场景人工智能算法的推理,系统支持3000路视频流解析;
基于昇腾芯片的AI推理卡,主要用于视频对象和行为分析,需要从视频流中提取对象和行为数据,每块AI推理卡的算力为88T(INT8)。
不同的算法模型对计算能力的要求不同,对于视频分析场景,通过业界主流ISV在该AI推理卡的测试结果来看,在每路视频的分辨率为不低于1080P,帧率不低于25帧,同屏检测目标数不低于5个的情况下,每路视频需要5.5T(INT8)的算力进行解析。单张AI推理卡算力为88T(INT8),所以每张推理卡可支持16路视频的分析。
如当前业务需要接入3000路视频的需求来计算,共需要的AI推理卡的数量为:3000/16≈188块。考虑到数据加工集群建模的并行效率(一般集群的并行效率为90%左右),留出适当的资源后需要的NPU卡的数量为:188/0.9≈209块。
参考
1、https://arxiv.org/abs/2005.14165
2、CNN的参数量、计算量(FLOPs、MACs)与运行速度
版权归原作者 BRUCE_WUANG 所有, 如有侵权,请联系我们删除。