人工智能算力FP32、FP16、TF32、BF16、混合精度解读

彻底理解系列之：FP32、FP16、TF32、BF16、混合精度

****

随着大模型的涌现，训练和推理速度成为关键。为提升速度，需减小数据长度以降低存储和带宽消耗。为此，我专注学习并整理了各种精度细节，确保深入理解而非浅尝辄止。

**1 **从FP32说起

计算机处理数字类型包括整数类型和浮点类型，IEEE 754号标准定义了浮点类型数据的存储结构。一个浮点数由三部分组成：符号位、指数位和尾数位。其中，以最常见的FP32(Float Point 32)为例，其符号位占1位，指数位占8位，尾数位占23位。

图1. FP32位数分配，来源[2]

Sign：最高位用1位表示符号位，1表示负数，0表示正数，记为S
Exponent：中间8位表示指数位，记为E
Mantissa：低位23位表示小数部分，记为M

我们以十进制数9.625为例，看看十进制和FP32二进制之间如何转换：

十进制--》二进制

先分为整数部分9和小数部分0.625。

将9转换为二进制1001,然后通过乘以2并取整数部分的方式得到0.625。接着，将剩余的小数部分0.625再乘以2并取整数部分，如此循环，最终得到0.101。将这两个结果相加，即1001.101,转换为二进制指数形式为1.001101 * 2^3。

根据IEEE 754标准，FP32的指数部分需要加上127以进行偏移，调整为3+127=130。对应的二进制表示为10000010,小数部分补齐至23位后，符号位为0。将这三部分组合起来，便得到了FP32的表示。

0 10000010 00110100000000000000000。

图2. FP32转换工具，来源[3]

二进制--》十进制

将二进制分为S、E、M三部分，将FP32转换为十进制的方法如下：

$S=B_2+B_1+...+B_0$

$E=G_2+G_1+...+G_0$

$M=P_2+P_1+...+P_0$

文章内容经过优化后如下：
"其中，1.M表示小数部分的二进制表示。以S=0,E二进制10000010转为十进制为130为例，M为00110100000000000000000。去掉小数部分后面的无用零后，得到1.M实际上是二进制的1.001101,转换为十进制就是：×"

顺利还原回了十进制数。

FP32搞清楚了，FP16、FP64类似，只是指数位和小数位的长度不一样：

2 模型训练中不同精度的问

降低存储负担：提高训练显存利用率至FP32,实现一半存储占用，从而在有限的GPU资源下训练更大模型或提高batch_size。

FP16和FP32都是深度学习中常用的数值表示方式。FP16是16位浮点数表示法，即半精度浮点数，用一个16位的数值来表示实数，包括1位符号位、5位指数位和10位尾数位。FP16的精度比FP32低，但计算速度快，内存占用小，因此在深度学习中常用于加速训练和推理。FP32是32位浮点数表示法，即单精度浮点数，用一个32位的数值来表示实数，包括1位符号位、8位指数位和23位尾数位。FP32是深度学习中最常用的数值表示方式之一，因为它提供了足够的精度和计算速度，同时也相对容易实现。

但是，是否意味着我们都使用FP16就行了呢？当然不是。主要原因是位数少同时有两个劣势：(1)精度较低；(2)存储空间较大。