详解FPGA —— 下一代AI算力芯片（上）

本文将详细介绍FPGA芯片。

微信搜索关注《Java学研大本营》

CPU为一般计算提供了一套通用的计算指令，要修改或优化应用程序，我们更改代码，但硬件是固定的。然而，这种通用化是以硬件的复杂性为代价的。如果没有复杂的硬件优化，如投机执行，它就会损害性能。但是，这些优化会增加芯片面积和功耗。

通用性以复杂性为代价提供了灵活性，为了增加深度学习（DL）中的并发性，一些芯片设计者将芯片功能限制在一套垂直的指令中，并使用ASIC（特定应用集成电路）设计实现。这是Google TPU使用的方法。但是，如果设计要求不断变化，则开发ASIC是昂贵且不可能的。

FPGA在通用处理器（如CPU）和ASIC之间提供了一种中间方法，设计人员可以为自己的硬件设计编程FPGA芯片，可以通过FPGA重新编程轻松地进行更改或增强。对于那些不熟悉FPGA的人来说，让我们先来了解一下技术概况。

1 什么是FPGA？

对于半导体行业来说，几十年来有一个中间解决方案，允许可配置的硬件设计（通用组件与定制ASIC设计）。这就是FPGA（现场可编程门阵列）。它被称为 "现场可编程的"，因为我们可以轻松地为不同的硬件设计重新编程芯片。我们可以视为FPGA包含像乐高一样的积木。通过以不同的方式将乐高积木组合起来（编程），我们创造出不同的玩具（硬件设计）。让我们看一个DL的例子来解释人工智能中的高级应用。

许多DL模型，如上面的全连接深度神经网络（DNN），可以视为计算图。节点表示计算，边表示数据流。为了对这个图进行建模，我们的ASIC设计应该由模拟这些节点中的计算的计算节点（块）组成，然后我们将数据流从一个节点链接到另一个节点。

FPGA是基于可配置逻辑块（CLB）矩阵通过可编程互连连接的半导体器件。CLB是高度可配置的，可以创建不同的逻辑。通过可编程互连，我们可以为这些CLB创建复杂的数据路径。

2 CLB

下面的图是Intel Stratix 10中逻辑阵列块（LAB）中自适应逻辑模块（ALM）的高级块图（LAB - 即可配置逻辑块CLB）:

CLB使用可配置的查找表（LUT）（在上面的左边）来实现逻辑函数f（a, b, c, ...），我们可以配置LUT来模仿任何逻辑函数。

在CLB内部，LUT通常后面跟着带有输出寄存器的加法器（输出存储其先前值，直到应用新时钟）。

为了说明，这是来自Xilinx 7系列FPGA的另一个CLB示例。在右侧图中，输入端有两个模块，每个模块都有四个输入和一个逻辑值输出。然后，进一步的组合逻辑被应用于创建支持多于四个输入和多个输出的逻辑函数。

3 DL中的FPGA

为了进一步增强功能，可以将其他块（如存储器块、乘法器、嵌入式处理器和DSP块）添加到FPGA中。这些块可以通过下面的垂直和水平线进行分段和连接。

这里是英特尔Stratix 10可变精度DSP块。对于DNN，它将使用这些DSP块优化其许多算术函数。

DSP块也可以配置来支持多个功能。

4 FPGA的卖点

根据不同的供应商和产品线，FPGA还可以提供许多其他模块。

FPGA可能包含数百万个逻辑元素、数千个存储块和数千个DSP块。这些存储块可以提供大于50TB/s的片上SRAM带宽。

这些块可以分组、分段，并通过可编程的连接进行连接。这些块和互连是高度可配置的，以创建高度定制化设计的并行性和计算能力。高速存储块也可以分组成不同的大小，并为特定节点和特性集提供特定大小/缓存需求。

此外，FPGA被设计为能够快速接收和传输信号。高速收发器（带有许多I/O块）的重点是处理视觉和音频流数据的另一个卖点。使用新的FPGA位流文件，PGA可以在20毫秒范围内重新编程（取决于FPGA型号）。产品升级不再局限于软件升级。硬件设计升级可以通过新的位流文件完成。这种定制设计通常消耗更少的功率，在英特尔视觉加速器设计中，使用Arria 10 FPGA的功耗通常为38~42W，而Nvidia V100 GPU的功耗范围为250W（这仅用于说明，，因为两者的设备非常不同）。使用定制硬件还可以缩短系统延迟，这可能就是为什么英特尔将他们的FPGA用于AI推理的原因。