浮点矩阵相乘IP核并行改进的设计与实现-AET-电子技术应用

浮点矩阵相乘IP核并行改进的设计与实现

来源：电子技术应用2012年第2期

张国礼，王建业，肖宇

空军工程大学导弹学院，陕西三原713800

摘要： 基于Altera浮点IP核实现浮点矩阵相乘运算时，由于矩阵阶数的增大，造成消耗的器件资源虽增加但系统性能反而下降的问题，针对现有IP核存在数据加载不连贯、存储带宽不均匀的不足，提出采用并行化数据存储、依据查找表加载数据和处理数据的方式对IP核进行改进。然后将改进的浮点矩阵运算在FPGA中实现，经过Quartus、Matlab软件联合仿真并进行结果比对，其误差不超过万分之一，且节省了器件资源、提升了系统性能。仿真结果表明该设计可行，有利于提高诸多高性能领域浮点矩阵的运算速度。

关键词： 嵌入式 IP核现场可编程门阵列浮点矩阵相乘

中图分类号： TN47
文献标识码： A
文章编号： 0258-7998(2012)02-0043-04

The design and implementation of IP-core parallel improvement in floating-point matrix multiplication

Zhang Guoli，Wang Jianye，Xiao Yu

Missile Institute,Air Force Engineering University,Sanyuan 713800，China

Abstract： This Paper is based on the problem of increasing appliance resource consumed and decreasing systematic performance with the increasing of matrix ranks when floating IP-Core of Altera is carrying out the floating-matrix multiplication. With the aim to making up with the shortcomings of incoherent of IP-Core’s data-loading and less-regularity of memory bandwidth, we take measures such as parallelizing data storage, loading and dealing with data in the LUT to improve the IP core. Then we realize the improved floating-matrix operation by FPGA, as well as emulate it by Quartus and Matlab software. Compared with the results we can find that the error is less than one ten thousandth, the appliance resource is saved off and the systematic performance is improved. The simulation investigates that the design is feasibility and it is profitable in many high-level fields.

Key words : floating-point matrix multiplication；embedded；IP-core；FPGA

嵌入式计算作为新一代计算系统的高效运行方式，应用于多个高性能领域，如阵列信号处理、核武器模拟、计算流体动力学等。在这些科学计算中，需要大量的浮点矩阵运算。而目前已实现的浮点矩阵运算是直接使用VHDL语言编写的浮点矩阵相乘处理单元[1]，其关键技术是乘累加单元的设计，这样设计的硬件，其性能依赖于设计者的编程水平。此外，FPGA厂商也推出了一定规模的浮点矩阵运算IP核[2]，虽然此IP核应用了本厂家的器件，并经过专业调试和硬件实测，性能稳定且优于手写代码，但仍可对其进行改进，以进一步提高运算速度。

1 Altera浮点矩阵相乘IP核原理
   Altera公司推出的浮点矩阵相乘IP核ALTFP_MATRIX_MULT，是在Quartus软件9.1版本以上的环境中使用，能够进行一定规模的浮点矩阵相乘运算，包含A、B矩阵数据输入，数据浮点乘加，数据缓存及相加输出四大部分。其中最能体现浮点计算性能的是浮点乘加部分，而周围的控制电路及输出则影响到系统的最高时钟频率，间接地影响系统整体性能。
   整个矩阵相乘电路原理是将输入的单路数据（A、B矩阵共用数据线），通过控制器产生A、B矩阵地址信号，控制着A矩阵数据输出和B矩阵数据输出，并将数据并行分段输出到浮点乘加模块进行乘加运算，之后串行输出到一个缓存器模块中，再以并行方式输出到浮点相加模块，最后获得计算结果。从其原理可以看出，在数据输入输出方面仍有许多可改进的地方。
2 IP核存在的缺陷及改进
2.1 存在缺陷
   (1)输入数据带宽的不均衡性。在矩阵A、B的数据输入时，Altera的IP核将A矩阵数据存于M144K的Block RAM中，而将B矩阵数据存于M9K的Block RAM中，导致IP核中A矩阵数据的带宽小于B矩阵数据的带宽，并需要一定数量的寄存器组使A矩阵数据带宽能够匹配于B矩阵数据带宽。由此可见，A、B矩阵数据的存储受到器件限制和存储约束，同时由于在浮点乘加模块的输入端（A、B矩阵数据）带宽不同，造成A矩阵数据的输入需要额外的处理时间。
   (2)加载数据的不连贯性。在矩阵数据加载时，IP核通过将数据分段成等分的几部分，用于向量相乘。由于矩阵A存储带宽窄需要4步寄存（由Blocks决定），在第3个周期时才加载数据B用于计算，送到一个FIFO中存储；在第6个时钟周期时加载矩阵A分段的第二部分进行各自的第二部分计算，最后当计算到第15个周期时，才可通过浮点相加，计算出矩阵C的第一个值，之后计算出矩阵C的其他值C11。从上述结构可见，在分段相乘之后，采用先对一个FIFO进行存储，存满后再对下一个数据FIFO进行存储，造成时间上浪费过多。
2.2 设计改进
   鉴于上述缺陷，在输入A、B矩阵的存储方式上，进行串行输入到并行输入的改进，使得两个矩阵能同步输入到浮点乘加模块。在数据加载方式上，将A矩阵用3个周期加载完毕，再处理相乘运算；将分段相乘结果进行直接存储相加，获得C矩阵的第一个值，缩减运算时间。设计的改进框图如图1所示。

   将A、B矩阵数据加载模块设计成同步加载的方式，即在loadaa为高电平时，对A的第一组数据进行初始化，加载到双口RAM模块存储；在loadbb为高电平时，加载B矩阵的数据，也进行双口RAM存储。然后依据ROM存储的地址信号表，在控制模块的控制下输出A、B矩阵地址相对应的数据，进行浮点乘加运算，之后串行缓存，并行输出到浮点相加模块，进行输出。计算时序如图2所示。
   在时序上要求初始化加载A矩阵的第一行数据A1、A2、A3之后，加载B矩阵的第一列数据，当分段E1加载后立即进行分段第一组数据相乘A1×E1。以此类推，当加载A的第二行数据时，即可立即与B矩阵的第一列数据相乘。总体而言，只需要在ROM模块中存储一定的地址信号，即可使浮点乘加模块的输入端具有并行连贯的数据输入，缩短了运算时间。
3 浮点矩阵相乘实现
3.1 模块总体实现
   按照上述改进方案，ROM地址表在控制模块的控制下产生一组地址信号控制双口RAM组进行并行输出，保证了浮点乘加模块计算的准确性。其中控制模块为设计的关键部分，用于产生所有模块的控制信号，实现同步计算。分为a_cntrl、b_cntrl、cache、outcntrl四部分控制信号以及一路计数信号用于ROM地址查询，内部由一个状态机和逻辑单元组成，状态机用于产生矩阵A、B的read开始、latch锁存、地址叠加信号的转换。控制模块的时序仿真如图3所示。

    图3在全局同步信号时钟sysclk、复位reset、使能enable的作用下，当calcmatrix信号为‘1’时，开始计算并生成输出控制信号。其中a_cntrl部分用于控制矩阵A数据加载模块，主要包含地址信号readaa和锁存信号latchaa，来一个锁存高电平则存储A矩阵数据readaa；b_cntrl部分则对应于矩阵B的控制，输入B矩阵数据readbb；cache部分用于控制数据缓存部分串行输入并行输出，包含着相应的读地址信号cacherdadd、写地址信号cachewradd、cache选择信号cachemesel，三者同步控制并行输出；outcntrl部分是整个系统的输出控制部分，在准备信号ready之后，出现outvalid高电平，表示输出数据有效，同时完成信号done为低电平。为使矩阵A、B数据能同时加载到浮点乘加模块上，需要使一个readaa值对应于readbb的columnsbb个数据。在本设计中使用的是A9×16数据与B16×8数据进行计算，生成的outvalid有9个脉冲，每个脉冲包含8个矩阵输出数据。
   对于A、B矩阵的数据加载，采用的是串行输入并行输出的控制器，由移位寄存器组成，当计数器计数到端口输出值时（如端口并行输出8个数则计数到8），并行输出数据。
   浮点乘加模块采用并行相乘、并行相加的方式。由于考虑到精度问题，采用浮点位数转换，将32 bit的输入数据进行浮点扩展为42 bit，再进行乘加运算，最后再将42 bit数据转换为32 bit数据。采用三级流水线的方式，进行并行乘加运算，提高设计系统性能。
   在双口RAM组的实现上，是将一组simple dualport ram[3]并列成一个RAM组。输入由矩阵A、B的数据信号和ROM输出的地址信号组成；输出就是一路矩阵A数据和一路矩阵B数据，数据深度与vectorsize等同。其中每一个RAM的深度为rowsaa×columnsbb/vectorsize，保证数据的可重用性，同时相对应的ROM中存储的地址信号分别为：
   A：1 2 1 2 3 3 1 2 3 4 4 4 1 2 3 4 5 5 5 5 1 2 3 4 5 6 6 6 6 6 ……
   B：1 1 2 2 1 2 3 3 3 1 2 3 4 4 4 4 1 2 3 4 5 5 5 5 5 1 2 3 4 5 ……
   以此类推即可得到相应的地址信号查找表。
   在数据缓存模块的设计上也采用串行输入并行输出的方式。使用移位寄存器的方式实现，在并行浮点相加部分类似于上述的并行乘加[4]计算，采用多级流水线并行相加的方式完成。
3.2 计算结果仿真
   对改进的设计进行仿真，采用A9×16数据与B16×8数据相乘，获得计算结果仿真如图4所示。

    从图4可见，loadaa、loadbb、calcimatrix三者的时序满足浮点矩阵运算的时序要求，在前两者数据加载后，加载calcimatrix上升沿，进行矩阵相乘。在outvalid为高电平时输出数据，同时完成信号done输出低电平。在输出结果上，共分为9个大组，各大组有8个数据，共组成72个数据结果，其中显示了第一部分输出结果，获得与Matlab仿真相近的计算结果，在精度上相差不到万分之一。

   从表1中可以看出，改进后的IP核在处理时间上缩短了807个周期，同时在最高运行时钟上提升了15%，系统整体的持续性能增加了7.2 Gflops。
   依据改进前后的IP核，使用Quartus9.1软件进行综合布局布线，映射到Stratix Ⅲ EP3SE110F780C2器件中，可获得相应的资源对比图如图5所示。由于采用的都是并行浮点乘加运算，所以在乘法器资源的消耗上不变；同时由于只是在存储器的存储方式上作出变动，所以二者的存储资源相等。从而只需要对图中显示的矩阵阶数、vectorsize大小进行比较即可，而浮点计算性能与最高时钟频率变化方向相同，所以只对ALM数量及最高时钟频率进行对比。
   从图5中资源消耗对比可见，当设定vectorsize为固定值8（图5左半部）时，随着矩阵阶数的增加，改进后的IP核在ALM资源消耗上较改进前数量上有一定的减少，在最高时钟频率上都有小幅度提升，这是因为矩阵输入时消耗时间过长；当设定矩阵阶数为192×192（图5右半部）时，随着vectorsize值的增加，改进后IP核在ALM数量上有所减小，在最高时钟频率上则有小幅度提升，且波动幅度在3.4%左右。可见，改进后IP核比原Altera的IP核综合性能有所提升。

参考文献
[1] 田翔，周凡，陈耀武，等.基于FPGA的实时双精度浮点矩阵乘法器设计[J].浙江大学学报(工学版)，2008(9).
[2] Altera Corp.Floating-point megafunctions user guide.2011.
[3] 胡小龙，朱艳亮.基于FPGA的图像输入缓存机制研究[J].微计算机信息，2010(2).
[4] 蔡敏，闵言灿.全流水线结构双精度浮点乘加单元的设计[J].微电子学与计算机，2010(1).
[5] STRICKLAND M.FPGA协处理的进展[J].今日电子，2010(4).

原创声明：此内容为AET网站原创，未经授权禁止转载。

相关内容