瑞萨电子展示三进制存储器的存算一体化AI加速器
2019-06-27
目前,有许多用于各种机器学习模型的硬件加速器,日前瑞萨电子已经提出了一种基于SRAM的三进制系统来加速卷积神经网络(CNN)计算,也就是通常所说的存算一体化。采用该加速器的瑞萨测试芯片实现了8.8 TOPS/W的功率效率,这是业界最高级别的功率效率。瑞萨加速器基于内存处理(PIM)架构,这是一种越来越流行的AI技术方法,其中当从该存储器读出数据时,在存储器电路中执行乘法和累加运算。
机器学习的挑战之一是围绕输入和输出的数据以及计算中涉及的权重进行优化。瑞萨此次采用的是三进制方式,通过使用两个单比特存储单元实现-1,0或1的数据结构。
瑞萨的硬件可以利用存储值为-1,0或1的三进制存储单元。
基本的三进制存储可以组合成多位解决方案,从而可以实现不同的精度,允许用户优化精度和功耗之间的平衡。
硬件可以将三进制计算结合到多位操作中
传统存储器使用模数转换器(ADC)读取内容。这是一种经典的方法,但它需要空间用于ADC和电源。瑞萨将1位读出放大器比较器与复制单元相结合,可以灵活地控制电流,从而开发出高精度的存储器数据读出电路。
当检测到MAC结果等于零的状态时,“零检测器”可以停止比较器的操作
该策略意思是:通过神经网络操作激活的节点(神经元)的数量非常小,约为1%,可以通过停止未激活神经元的电路,从而实现低功耗操作,同时显著降低功耗。
由于制造过程中的工艺变化,导致SRAM结构中位线电流值产生误差,从而造成存储器读取数据时出现错误。为解决这个问题,瑞萨在芯片内部覆盖了多个SRAM计算电路模块,由制造工艺变化最小的模块执行计算任务。由于激活节点只是所有节点中的一小部分,因此激活节点被有选择地分配给制造过程变化最小的SRAM计算电路模块执行计算。从而将计算误差降至几乎可忽略的水平。
通过多个SRAM计算块以解决由于工艺问题导致的计算误差。
在VLSI会议上,瑞萨展示了内存处理(PIM)架构的芯片,该芯片采用12nm技术,包含四个集群,每个集群均包含了PIM、逻辑以及传统的SRAM存储器。每个集群可以独立运行,因此,该系统一次可以管理多达四个CNN模型。该芯片最多可处理128个CNN层。PIM存储量为4.74 Mb,SRAM存储量为12.58 Mb。
瑞萨展示的具有四个cluster的三进制PIM
瑞萨推出了以下三种技术。一是可执行大规模CNN计算的三进制(-1,0,1)SRAM结构PIM技术。二是与比较器配合使用的SRAM电路,可在低功耗下读取存储器数据。三是能够防止在制造过程中因工艺变化而导致的计算错误。将以上技术结合,既能缩短深度学习处理中的存储器访问时间,又可降低乘法和累加运算所需的功率。因此,当通过手写字符识别测试(MNIST)进行评估时,新加速器在保持99%以上准确率的同时,达到了业界最高能效等级。
尽管该芯片目前只是原型阶段,但它的确证实了通过新架构,可在降低功耗的同时显著提高产品性能。