基于NOR Flash的卷积计算单元的设计
《信息技术与网络安全》2020年第5期
徐伟民1,黄鲁1,蒋明峰2
1.中国科学技术大学 微电子学院,安徽 合肥 230026; 2.中国科学技术大学 信息科学技术学院,安徽 合肥 230026
摘要: 提出一种基于NOR Flash的模拟卷积运算单元,与同类模拟卷积运算单元相比具有高精度、高能耗比、低噪声的特点。该单元采用存算一体架构,将卷积核的权重参数以阈值电压的方式存储在Flash中,输入图片经过模拟卷积运算得到输出图片。在SMIC 65 nm浮栅工艺下,使用SOBEL边缘检测算法评估该单元的性能。仿真结果表明,在3.3 V电源电压,100 MHz时钟下,实现一个3×3卷积核的Flash阵列的能耗比达到0.18 TOPS/W,卷积计算结果的峰值信噪比(PSNR)为39.05 dB。
中图分类号:TN432
文献标识码:A
DOI: 10.19358/j.issn.2096-5133.2020.05.013
引用格式:徐伟民,黄鲁,蒋明峰.基于NOR Flash的卷积计算单元的设计[J].信息技术与网络安全,2020,39(5):63-68.
文献标识码:A
DOI: 10.19358/j.issn.2096-5133.2020.05.013
引用格式:徐伟民,黄鲁,蒋明峰.基于NOR Flash的卷积计算单元的设计[J].信息技术与网络安全,2020,39(5):63-68.
Abstract:
Key words :
深度学习在人脸识别、音频识别、图像分类等领域中得到广泛应用。深度学习网络具有大量的权重数据和大量的乘累加操作,极大的算力需求和功耗限制使得深度学习应用难以部署在物联网终端设备。而在深度学习网络中,卷积计算占用前向计算89%的时间,随之产生巨大的功耗。所以高速、低功耗的卷积计算单元的设计成为迫切的需求。
主流的冯诺依曼架构中,计算单元和内存单元是两个完全分离的单元,计算单元根据指令从内存读取数据,在计算单元完成计算,再存回内存。数据需要在计算单元和存储单元之间进行频繁的移动,因此带来较大的功耗和较低的运算效率。存算一体架构将计算单元与内存单元合二为一,在存储数据的同时完成运算,从而极大地减少了计算过程中数据存取的时间和功耗。实现存算一体化的介质有相变存储PCM,静态随机存储SRAM、浮栅器件Flash等。Flash具有工艺成熟、成本低等特点,因此本设计采用Flash作为存算一体的介质。具体做法是将卷积核的权值映射到Flash阵列的阈值电压,然后Flash阵列进行高速、低功耗的模拟乘累加计算来加速卷积计算过程。
本文的主要内容在于:(1)利用Flash的线型区I/V特性,设计基于NOR Flash的模拟矩阵计算单元;(2)基于模拟矩阵计算单元,设计了基于NOR Flash的模拟卷积计算单元;(3)通过SOBEL边缘检测算子评估基于NOR Flash的卷积计算单元的性能。
本文详细内容请下载: http://www.chinaaet.com/resource/share/2000003121
作者信息:
徐伟民1,黄鲁1,蒋明峰2(1.中国科学技术大学 微电子学院,安徽 合肥 230026;
2.中国科学技术大学 信息科学技术学院,安徽 合肥 230026)
此内容为AET网站原创,未经授权禁止转载。