处理器存储器子系统中的SoC功耗优化设计
2012-02-01
在新的系统级芯片(SoC)设计中,尤其是对便携式设备而言,对整个系统功耗的优化正变得与性能和面积优化同样重要。有些EDA工具具有门控时钟、降压、降频和减少漏电电流等功能,有些芯片制造商能够提供低功耗库和工艺,所有这些工艺都非常费时;在最好情况下能够提供两倍的性能提升,因为这些提升是在设计周期的后端进行的。
功耗优化的最佳时间是在设计周期的一开始进行,即在确定体系结构的系统级进行优化。确定系统级体系结构对功耗影响非常大,如局部存储器和高速缓存的数量和容量。在设计周期的一开始进行优化可以减少功耗十倍以上。
Tensilica公司的Xenergy是业界第一个用于评估功耗对整个处理器子系统(处理器、高速缓存和局部存储器)影响的软件工具,该工具基于在子系统上实际执行应用程序代码。这种在设计周期的一开始就进行功耗估计的方法只需要几分钟时间,而那种基于RTL的功耗分析方法则需要几个小时甚至几天。SoC体系结构设计人员可以使用这些数据对软件程序和Tensilica的Xtensa处理器进行功耗优化。对Tensilica公司的钻石标准处理器用户而言,该工具有助于软件优化,但钻石标准处
理器不能改变。
处理器和存储器功耗优化
Xenergy工具包括一个二进制代码软件及相关信息,前者表示目标处理器,后者表示制造工艺及工作条件。Xenergy工具使用Tensilica的指令集仿真器ISS来执行二进制代码软件,其输出是一个处理器核及存储器功耗和能量报告,包括动态功耗、漏电功耗、全部功耗以及处理器核与紧密耦合的本地存储器功耗。设计人员可以修改程序软件或者Xtensa配置硬件来优化处理器功耗分布,并重新运行Xenergy工具。整个流程如图1所示。
设计人员可以使用Xenergy工具来执行两项基本任务。一是通过修改应用程序软件来减少存储器访问次数,进而减少处理器和存储器功耗;二是可以调整Xtensa可配置处理器及其相关存储器,这通过选择不同的配置选项,增加指令扩展、寄存器文件、新执行部件,并改变本地存储器和高速缓存的数量和容量。
考虑的焦点是整个系统的能量消耗,在有些情况下具有一定的欺骗性。整个系统的功耗是功耗系数(mW/MHz)和执行一定负载所需要的时钟周期数(毫秒)的乘积。如果一条新指令加到Xtensa可配置处理器后,虽然增加了功耗系数,但却减少了整个时钟周期数。例如,功耗系数增加20%,但导致程序执行速度提高3倍。在这种情况下,整个系统功耗实际上降低了60%。
图1:Xenergy能量估计软件能够对运行在Tensilica Xtensa可配置处理器或者钻石标准处理器上的应用程序进行功耗评估。
工作原理
针对各种处理器配置情况以及不同的制造工艺,Tensilica生成的访存(读和写)功耗统计模型和每条指令的功耗统计模型均经过详细的综合、RTL代码设计以及门级仿真。Xenergy工具使用这些模型,即使采用Tensilica指令扩展(TIE)语言编写的由设计人员定义的指令也不例外。
Xenergy工具使用访存功耗统计模型和指令功耗统计模型,包括了用Tensilica指令扩展语言编写的由设计人员定义的扩展指令。针对各种处理器配置情况以及不同的制造工艺,这些统计模型的开发包括了详细的综合、RTL代码设计以及门级仿真。
Xenergy工具采用Tensilica的指令集仿真器ISS对应用程序进行仿真,仿真精度达到时钟周期。仿真后可以给出每条指令执行以及每次访存的综合统计信息。针对采用的处理器和存储器,Xenergy工具可以估计出相应的动态功耗、漏电功耗和全部功耗。
存储器和应用程序代码效应
有些TIE指令可以改善应用程序的性能,但极大地增加了访存次数,进而增加了系统功耗。而且,对高速缓存的更新(容量和关联度)有助于功耗优化。Xenergy程序能够帮助设计人员理解整个处理器的变化所造成的影响,这些变化是在处理器配置过程中随着存储器的不同所引起的。
类似地,Xenergy工具能够帮助开发人员修改应用程序代码来减少处理器和存储器的能量消耗。例如,在应用程序中对数据结构进行重构能够降低访存次数。通过使用Tensilica的标准软件工具,开发人员可以发现应用程序的改善情况。通过使用Xenergy工具,开发人员能够发现通过修改程序代码来降低系统功耗。
一个例子
我们采用EEMBC(嵌入式微处理器典型程序联盟,参见网址www.eembc.org)中的RGB到YUV颜色转换典型程序来说明Xenergy工具是如果在实际应用程序中使用的。
我们也可以采用Tensilica的XPRES(Xtensa处理器扩展综合)编译器,该编译器利用C或者C++编写的应用程序软件作为输入数据,并产生用TIE语言表示的处理器扩展。通过XPRES编译器可以为Xtensa处理器产生三种扩展指令集。
1. 要求XPRES编译器产生TIE指令,完成指令操作融合,即将多个操作符融合成一个单一复杂操作。
2. 然后,我们可以要求XPRES也产生SIMD(单指令多数据)功能部件(及相应的指令),进行向量操作,即对多个数据元素施加相同的操作符。
3. 最后,我们要求XPRES编译器将Xtensa处理器扩展成一个VLIW(超长指令字)体系结构,并利用Tensilica的FLIX(定长指令扩展)技术。XPRES编译器利用VLIW指令构建多发射数据通路,VLIW指令可以包括多个操作。
图2:对不同Xtensa处理器扩展后的性能、功耗和面积对应关系。
三种Xtensa配置结果如图2所示。周期数与性能是等价的,这由在指令集仿真器ISS上执行的颜色转换应用程序来决
定。门数可以由Tensilica的TIE编译器来估计得到。所有其它数据均由Xenergy工具来生成。
图2表示由XPRES编译器生成的SIMD操作以及融合操作性能改善情况,大约是3.8倍,而门数为大约5倍。处理器和存储器功耗与性能的对应关系相当好。另外还表示了当XPRES编译器生成VLIW(FLIX)体系结构时,性能的改善情况是大约20%。然而,门数为两倍,且处理器功耗很差。
因此,由于SIMD操作引起的性能改善将使得功耗降低,且由于芯片面积(门数)的增加使得系统功耗/能量增加。这是最好的优化情况。
上述例子说明Xenergy评估工具是SoC设计人员在对性能、面积和功耗进行折衷时不可或缺的软件工具。
本文小结
Tensilica公司的Xenergy工具软件为SoC设计人员提前对运行在某些应用程序时的处理器和存储器子系统所消耗的总能量进行评估。设计人员能够马上看到Xtensa配置和TIE指令代码改变后的整个系统功耗情况。这对那些使用Xtensa处理器来代替RTL去设计SoC数据通路的设计人员尤为重要。通过使用定制TIE指令可以尽早评估系统的功耗情况,这有助于正确评估系统功耗、面积和性能。