0


从底层结构开始学习FPGA(6)----分布式RAM(DRAM,Distributed RAM)

系列目录与传送门

  1. 《从底层结构开始学习FPGA》目录与传送门

一、什么是RAM?什么是ROM?

  1. RAMRandom Access Memory的首字母缩写。它是一种主存储器,用于存储当前正在使用的信息。信息可以是正在处理的数据或程序代码。它是一种读写存储器,这意味着它几乎可以同时存储(写入)和访问(读取)数据。但RAM是易失性或临时性存储器,即当电源被移除时其内容会被擦除。**RAM是一种快速存取存储器,因为无论其物理位置如何,它都可以随时随机存储和访问数据。**它存储启动设备所需的必要指令和处理器正在使用的数据。它通过在组件之间快速传输数据来提高系统的处理速度。
  2. ROMRead Only Memory,即只读存储器,也是一种主存储器,但它**永久存储数据**。它是一种非易失性存储器,即当电源被移除时,其数据内容不会被擦除。**顾名思义,它是只读存储器,这意味着数据不能更改,但可以访问任意次数。只能访问数据而不能写入数据。**

** **RAM和ROM都可以简单地视为一张表格,每个格子的内容就是其所存储的信息,而地址线则是寻找对应表格的“身份号码”。RAM可以对表格的内容进行读、写操作,而ROM只能对表格进行读操作,无法进行写操作。


二、块RAM和分布式RAM

  1. FGPA内部的分布式RAMDRAMDistributed RAM)的概念是相对于块RAMBRAMBlock RAM)来说的。物理上看,BRAMfpga中固定存在的硬件资源,而DRAM则是使用逻辑单元LUT拼出来的,实际上算是LUT的延伸使用。

2.1、BRAM

  1. BRAM由一定数量固定大小的存储块构成的,使用BRAM不占用额外的逻辑资源,且速度快。但是使用的时候消耗的BRAM资源是其块大小的整数倍。如Xilinx7系列FPGA结构中每个BRAM36Kbit的容量,既可以作为一个36Kbit的存储器使用,也可以拆分为两个独立的18Kbit存储器使用。反过来相邻两个BRAM可以结合起来实现72Kbit存储器。每个Block RAM都有两套访问存储器所需的地址总线、数据总线及控制信号等信号,因此其既可以作为单端口存储器,也可以作为双端口存储器。需要注意的时访问BRAM需要和时钟同步,异步访问是不支持的。

2.2、DRAM

  1. 只有SLICEM里的查找表才可以用做DRAM,利用查找表为电路实现存储器,既可以实现芯片内部存储,又能提高资源利用率。DRAM的特点是可以实现BRAM不能实现的异步访问。不过使用分布式RAM实现大规模的存储器会占用大量的LUT,可用来实现逻辑的查找表就会减少。因此建议仅在需要小规模存储器时,使用这种分布式RAM

2.3、使用建议

  1. DRAM使用的是没有综合的LUT单元,而BRAM是块RAM,它的大小和位置是固定的。即使你只使用了一点点BRAM,综合后同样会消耗一整块RAMBRAM是一列一列分布的,这样可能造成用户逻辑模块和BRAM直接的距离较长,延时较长,最终导致性能下降。如果使用到多个BRAM最好合理规划一下布局。
  2. 较大的存储应用,建议用BRAM;零星的小应用,可以用DRAM。但这只是个一般原则,具体的使用得看整个设计中资源的冗余度和性能要求。

三、详解分布式RAM

  1. CLB(可配置逻辑单元,Configurable Logic Block)是FPGA底层的基本逻辑单元,由两个SLICE组成。SLICE的种类有两种:SLICELSLICEM


  1. SLICELSLICEM的组成大致相同,只有LUT6有区别。我们把两种LUT6放到一起来看看:

  1. SLICEM中的LUTSLICEL中的LUT,除了具备读总线A1~A6,还具有WE(写使能)、DI1~DI2(数据写入端口)和WA1~WA8(数据写地址端口),所以SLICEM还具备数据写入功能,这使得其可以作为分布式RAM和移位寄存器使用。
  2. SLICEL中的LUT只有地址线与输出,所以我们只能将其作为一个ROM使用,从而实现查找表功能。

  1. 由于每个SLICEM中均有4LUT,所以其资源可以实现以下形式的DRAM

其配置如下:

  • 单口RAM
  • 双口RAM
  • 简单双端口
  • 四端口

(一)单口RAM:同步写、异步读,读写操作共用一组地址总线


(二)双口RAM:一个端口用于同步写和异步读;一个端口用于异步读取


(三)简单双端口:一个用于同步写的端口(从写端口没有数据输出/读端口);一个端口用于异步读取


(四)四端口:一个用于同步写和异步读的端口;三个端口用于异步读取


(五)更大深度的实现

  1. 此外,可以通过多个LUT6+MUX的方式实现更大深度的DRAM

  1. 128深度的DRAM,可以通过2LUT6+1MUX2实现,两个LUT6分别存储低64bit和高64bit的数据,通过MUX2来进行选取,从而拼接而成实现128深度的单口DRAM

  1. 同样的,也可以使用相同的结构实现256深度的DRAM

  1. 256深度的单口RAM则使用了4LUT6+2F7MUX+1F8MUX,刚好是一个SLICEM里面的最大资源数量,所以单个SLICEM能实现的最大深度DRAM就是256*1的单口DRAM

四、实现方式

  1. DRAM可以使用多种方式来实现,各种方法都有利弊,所以在实际使用过程中应根据需求及开发环境来灵活使用。

4.1、推断

  1. 推断是指设计者使用符合规范的RTL代码,由综合工具(此文均指xilinxvivado)自动推断出DRAM结构的方式。
  2. 由于推断结果一般较为理想,因此建议采用推断,除非给定用例不受支持,或者无法在性能、面积或功耗方面实现足够的结果。在此类情况下,请尝试其它方法。推断 RAM 时,赛灵思建议您使用 Vivado 工具中提供的 HDL 模板。如前文所述,使用异步复位会给 RAM 推断造成不利影响,应避免使用。

(优点)

  • 便于移植
  • 便于读取和理解
  • 自我文档化
  • 快速仿真

(不足)

  • 不能访问所有可用的 RAM 配置

  • 结果可能并非最佳

    1. 以下是64深度,6宽度的单端口DRAMRTL代码实现方式:
  1. module RTL_DRAM(
  2. input wclk, //input clk
  3. input [5:0] addr, //input address
  4. input [5:0] d, //input data
  5. input we, //input write enable
  6. output [5:0] o //output
  7. );
  8. reg [5:0] dram64x6 [63:0] ; //64*6
  9. always@(posedge wclk)
  10. if(we) dram64x6[addr] <= d;
  11. assign o = dram64x6[addr];
  12. endmodule
  1. 其写操作与时钟同步,而读操作则是异步。
  2. FPGA上综合的结果如下:

  1. 61宽度的64深度RAM级联组成,资源消耗则为6LUT6,与理论情况一致。


4.2、原语

  1. 原语是xilinx提供的底层设计元素,类似于嵌入式开发中提供的底层库函数。针对DRAM的实现,xilinx同样提供了数个原语,如:RAM64X1SRAM16X4SRAM128X1D等,具体可查阅《UG799Xilinx 7 Series FPGA and Zynq-7000 All Programmable SoC Libraries Guide for Schematic Designs》。需要注意的是,DRAM原语通常都是固定了位宽、深度和实现方式的,对于某些不符合深度、位宽的DRAM实现,则需要找更小的原语来实现。例如,原语无法直接实现64深度6位宽的单端口DRAM,只能通过664深度1位宽的单端口DRAM--RAM64X1S来实现。

(优点)

  • 对实现方案有最高控制权限
  • 能访问块的各项功能

(不足)

  • 代码可移植性差

  • 功能和用途冗长繁琐,难以理解

    1. 以下是64深度,6宽度的单端口DRAM的原语实现方式:
  1. module PRIMATE_DRAM(
  2. input wclk, //input clk
  3. input [5:0] addr, //input address
  4. input [5:0] d, //input data
  5. input we, //input write enable
  6. output [5:0] o //output
  7. );
  8. RAM64X1S #(
  9. .INIT(64'h0000000000000000) // Initial contents of RAM
  10. ) RAM64X1S_inst0 (
  11. .A0 (addr[0]), // Address[0] input bit
  12. .A1 (addr[1]), // Address[1] input bit
  13. .A2 (addr[2]), // Address[2] input bit
  14. .A3 (addr[3]), // Address[3] input bit
  15. .A4 (addr[4]), // Address[4] input bit
  16. .A5 (addr[5]), // Address[5] input bit
  17. .D (d[0]), // 1-bit data input
  18. .O (o[0]), // 1-bit data output
  19. .WCLK (wclk), // Write clock input
  20. .WE (we) // Write enable input
  21. );
  22. RAM64X1S #(
  23. .INIT(64'h0000000000000000) // Initial contents of RAM
  24. ) RAM64X1S_inst1 (
  25. .A0 (addr[0]), // Address[0] input bit
  26. .A1 (addr[1]), // Address[1] input bit
  27. .A2 (addr[2]), // Address[2] input bit
  28. .A3 (addr[3]), // Address[3] input bit
  29. .A4 (addr[4]), // Address[4] input bit
  30. .A5 (addr[5]), // Address[5] input bit
  31. .D (d[1]), // 1-bit data input
  32. .O (o[1]), // 1-bit data output
  33. .WCLK (wclk), // Write clock input
  34. .WE (we) // Write enable input
  35. );
  36. RAM64X1S #(
  37. .INIT(64'h0000000000000000) // Initial contents of RAM
  38. ) RAM64X1S_inst2 (
  39. .A0 (addr[0]), // Address[0] input bit
  40. .A1 (addr[1]), // Address[1] input bit
  41. .A2 (addr[2]), // Address[2] input bit
  42. .A3 (addr[3]), // Address[3] input bit
  43. .A4 (addr[4]), // Address[4] input bit
  44. .A5 (addr[5]), // Address[5] input bit
  45. .D (d[2]), // 1-bit data input
  46. .O (o[2]), // 1-bit data output
  47. .WCLK (wclk), // Write clock input
  48. .WE (we) // Write enable input
  49. );
  50. RAM64X1S #(
  51. .INIT(64'h0000000000000000) // Initial contents of RAM
  52. ) RAM64X1S_inst3 (
  53. .A0 (addr[0]), // Address[0] input bit
  54. .A1 (addr[1]), // Address[1] input bit
  55. .A2 (addr[2]), // Address[2] input bit
  56. .A3 (addr[3]), // Address[3] input bit
  57. .A4 (addr[4]), // Address[4] input bit
  58. .A5 (addr[5]), // Address[5] input bit
  59. .D (d[3]), // 1-bit data input
  60. .O (o[3]), // 1-bit data output
  61. .WCLK (wclk), // Write clock input
  62. .WE (we) // Write enable input
  63. );
  64. RAM64X1S #(
  65. .INIT(64'h0000000000000000) // Initial contents of RAM
  66. ) RAM64X1S_inst4 (
  67. .A0 (addr[0]), // Address[0] input bit
  68. .A1 (addr[1]), // Address[1] input bit
  69. .A2 (addr[2]), // Address[2] input bit
  70. .A3 (addr[3]), // Address[3] input bit
  71. .A4 (addr[4]), // Address[4] input bit
  72. .A5 (addr[5]), // Address[5] input bit
  73. .D (d[4]), // 1-bit data input
  74. .O (o[4]), // 1-bit data output
  75. .WCLK (wclk), // Write clock input
  76. .WE (we) // Write enable input
  77. );
  78. RAM64X1S #(
  79. .INIT(64'h0000000000000000) // Initial contents of RAM
  80. ) RAM64X1S_inst5 (
  81. .A0 (addr[0]), // Address[0] input bit
  82. .A1 (addr[1]), // Address[1] input bit
  83. .A2 (addr[2]), // Address[2] input bit
  84. .A3 (addr[3]), // Address[3] input bit
  85. .A4 (addr[4]), // Address[4] input bit
  86. .A5 (addr[5]), // Address[5] input bit
  87. .D (d[5]), // 1-bit data input
  88. .O (o[5]), // 1-bit data output
  89. .WCLK (wclk), // Write clock input
  90. .WE (we) // Write enable input
  91. );
  92. endmodule
  1. 综合结果与推断的结果基本一致。

  1. 资源使用情况也与推断的结果一致--由61宽度的64深度RAM级联组成,资源消耗则为6LUT6,与理论情况一致。

  1. 可以看到采用原语的DRAM开发方式,需要对基础原语进行多次例化,虽然可以借用generate语法,但是仍然很麻烦。

4.3、IP

  1. XILINX还提供了DRAMIP供开发者使用,采用IP的开发方式,GUI程度高,开发简单,但是由于定制程度高,所以可移植性也一般。

(优点)

  • 在使用多个组件时一般能提供更优化的结果
  • 易于指定和配置

(不足)

  • 代码可移植性差

  • 需要管理核

    1. DRAMIP核全称为**Distributed Memory Generator**,其使用较为简单,接下来我们采用IP核配置一个64深度的6位宽单端口DRAM,配置过程如下:

(第一页)

(第二页)

(第三页)

  1. 接下来综合,再根据veo文件提供的例化模板,编写RTLIP核进行例化:
  1. module IP_DRAM(
  2. input wclk, //input clk
  3. input [5:0] addr, //input address
  4. input [5:0] d, //input data
  5. input we, //input write enable
  6. output [5:0] o //output
  7. );
  8. //例化DRAM IP核
  9. dram_64x6 dram_64x6_inst (
  10. .a (addr), // input wire [5 : 0] a
  11. .d (d), // input wire [5 : 0] d
  12. .clk (wclk), // input wire clk
  13. .we (we), // input wire we
  14. .spo (o) // output wire [5 : 0] spo
  15. );
  16. endmodule
  1. 综合结果,资源消耗均与上述两种方法一致。


4.4、仿真

  1. 我们将三种实现DRAM的模块例化到同一个顶层文件,再编写testbench对其仿真,实现功能:先往地址0-63写入数据0-63,再从地址0-63读出数据,观察写、读数据是否一致。
  2. 顶层文件:
  1. module test(
  2. input wclk, //input clk
  3. input [5:0] addr, //input address
  4. input [5:0] d, //input data
  5. input we, //input write enable
  6. output [5:0] o_rtl,
  7. output [5:0] o_primate,
  8. output [5:0] o_ip
  9. );
  10. //例化RTL型
  11. RTL_DRAM RTL_DRAM_inst(
  12. .wclk (wclk ), //input clk
  13. .addr (addr ), //input address
  14. .d (d ), //input data
  15. .we (we ), //input write enable
  16. .o (o_rtl ) //output
  17. );
  18. //例化原语型
  19. PRIMATE_DRAM PRIMATE_DRAM_inst(
  20. .wclk (wclk ), //input clk
  21. .addr (addr ), //input address
  22. .d (d ), //input data
  23. .we (we ), //input write enable
  24. .o (o_primate) //output
  25. );
  26. //例化IP型
  27. IP_DRAM IP_DRAM_inst(
  28. .wclk (wclk ), //input clk
  29. .addr (addr ), //input address
  30. .d (d ), //input data
  31. .we (we ), //input write enable
  32. .o (o_ip ) //output
  33. );
  34. endmodule
  1. testbench
  1. `timescale 1ns / 1ns
  2. module tb_test();
  3. reg wclk; //input clk
  4. reg [5:0] addr; //input address
  5. reg [5:0] d; //input data
  6. reg we; //input write enable
  7. wire [5:0] o_rtl;
  8. wire [5:0] o_primate;
  9. wire [5:0] o_ip;
  10. //例化test模块
  11. test test_inst(
  12. .wclk (wclk ), //input clk
  13. .addr (addr ), //input address
  14. .d (d ), //input data
  15. .we (we ), //input write enable
  16. .o_rtl (o_rtl ), //output
  17. .o_primate (o_primate ), //output
  18. .o_ip (o_ip ) //output
  19. );
  20. initial begin
  21. wclk =0;
  22. we =1;
  23. d = 0;
  24. addr = 0;
  25. wait(d == 6'd63);#10 we =0;
  26. end
  27. always #5 wclk = ~wclk;
  28. always @(posedge wclk)begin
  29. d <= d+1;
  30. addr <= addr+1;
  31. end
  32. endmodule

仿真结果如下:与设想情况一致。


五、应用

  1. 分布式RAM提供了对非常小的数组使用存储元素和对较大数组使用BRAM之间的权衡。建议尽可能地使用RTL方式推断内存,以提供最大的灵活性。分布式RAM也可以通过原语实例化或使用IP来生成。
  2. 一般来说,分布式RAM应该用于所有深度为64位或更少的情况,除非设备缺少SLICEM或逻辑资源。因为分布式RAM在资源、性能和功能方面更高效。
  3. 对于大于64位但小于或等于128位的深度,使用最佳资源的决定取决于以下因素:
  • 额外块ram的可用性。如果不可用,就使用分布式RAM。
  • 延迟的要求。如果需要异步读功能,则必须使用分布式ram。
  • 数据宽度。宽度大于16位应该使用块RAM,如果可以的话。
  • 必要的性能要求。寄存的分布式ram通常比Bram有更短的Tco时间和更少的布局限制。
标签: fpga开发 ram DRAM

本文转载自: https://blog.csdn.net/wuzhikaidetb/article/details/125117803
版权归原作者 孤独的单刀 所有, 如有侵权,请联系我们删除。

“从底层结构开始学习FPGA(6)----分布式RAM(DRAM,Distributed RAM)”的评论:

还没有评论