《电子技术应用》
您所在的位置:首页 > 嵌入式技术 > 业界动态 > 两款主流定点DSP芯片的性能比较

两款主流定点DSP芯片的性能比较

2008-12-18
作者:刘长军 顾夏华 林嘉宇

  摘  要: TI(Texas Instruments)公司的TMS320C54X系列和ADI(Analog Devices Inc.)公司的ADSP-218X系列是目前应用广泛的两款主流16位定点DSP芯片。以Geffe发生器和MD5算法的实现为例,通过对这两款芯片性能的详细比较,分析研究了它们各自的优缺点。 

  关键词: DSP芯片  TMS320C54X  ADSP-218X  性能比较

 

  从1982年第一片数字信号处理器(Digital Signal Processor,DSP)TMS320C10产生以来,经过二十年的发展,DSP以其卓越的性能、独有的特点,已成为通信、计算机、消费类电子产品等领域的基础器件。业内人士预言,DSP将是未来集成电路中发展最快的电子产品,并成为电子产品更新换代的决定因素,它将彻底变革人们的工作、学习和生活方式。 

  DSP[6][8][9]具有两种算术结构:定点和浮点。从理论上讲,虽然浮点DSP的动态范围比定点DSP大,且更适合于DSP的应用场合,但定点运算的DSP器件的成本较低,对存储器的要求也较低,而且耗电较省。定点运算的可编程DSP器件仍是市场上的主流产品。据统计,目前销售的DSP器件中的80%以上属于16位定点可编程DSP器件。其中,TI公司的TMS320C54X系列和ADI公司的ADSP-218X系列是目前广泛使用的主流定点DSP芯片。下面就以它们为研究对象,结合Geffe发生器[7]和MD5算法的实现,对其性能进行分析比较。由于TI的TMS320VC5402和ADI的ADSP-2186N是使用较多的两款,硬件性能指标又相近,有很好的可比性,所以编程实现时就选择它们为具体芯片。虽然两款DSP芯片都提供C编译器,但是因为效率都不高,这里我们就不作讨论。下面的论述都是基于直接用汇编语言" title="汇编语言">汇编语言编程的。 

1 Geffe发生器与MD5算法 

  先简单介绍一下两个算法。Geffe发生器是一种密钥序列发生器,它利用线性反馈移位寄存器(Linear Feedback Shift Register,LFSR)产生序列密码。Geffe发生器使用了三个LFSR,它们以非线性方式组合,其中两个LFSR作为复合器的输入,第三个LFSR控制复合器的输出。因为运算量很大,所以LFSR用软件实现起来比较慢,但是用汇编语言实现比用C语言实现快。 

  MD5(MD,即Message Digest)是一个单向散列函数,它对输入消息产生128位散列值(或消息摘要)。该算法需要进行大量的移位和逻辑操作,用DSP实现比较方便。 

2 TMS320C54X系列与ADSP-218X系列性能比较" title="性能比较">性能比较 

2.1 硬件结构[1][4][5] 

  TMS320C54X系列采用改进的Harvard结构体系,有一组程序总线和三组数据总线、高度并行性的算术逻辑单元ALU、乘法/累加器MAC、桶形移位器、缓冲串口、专用硬件逻辑、片内存储器、片内外设和高度专业化的指令集等等。支持32位长操作数指令,支持并行存储和并行装入的算术指令。 

  ADSP-218X系列借鉴了TMS320X系列的优缺点,重新设计。它也是采用改进的Harvard结构体系。ALU、MAC、桶形移位器这三个独立的运算部件均可以单周期操作。还有丰富的双缓冲串口、中断(分外中断和内中断)等。在TMS320C54X系列中,程序存储区和数据存储区是混在一起的,而ADSP-218X系列从物理上就将两者分开,这就使多功能指令操作显得非常方便。因此,ADSP-218X系列程序实现更有高效性。 

  两款芯片主要技术指标的比较如表1所示。 

 

 

  可见,两款系列芯片性能指标的选择范围都很大,而TMS320C54X系列的选择空间更大一些。具体到本文选用的TMS320VC5402和ADSP-2186N,主要参数(MIPS/Cycle Time/RAM)为:TMS320VC5402是100/10ns/16kword,ADSP-2186N是80/12.5ns/16Kword。这两种芯片的硬件性能指标相仿,用它们实现相同的算法,具有很好的可比性。 

2.2 程序编程[2][3][4][6] 

  下面分别用TMS320VC5402和ADSP-2186N实现Geffe发生器和MD5算法,以此来比较两款芯片在编程过程中的优劣。其中,Geffe发生器产生96字的序列,MD5处理的消息长63个字。 

2.2.1 指令系统" title="指令系统">指令系统概述 

  ADSP-2186N指令系统使用代数符号来表示算术运算和数据传送,源代码具有较高的可读性,且不会损坏运行特性。它的指令系统很精简,程序员可以快速掌握。ADSP-2186N的编程方式" title="编程方式">编程方式和高级语言类似,如果用户有高级语言编程的经验,上手较快。 

  TMS320VC5402指令系统很丰富,灵活多变,虽然使用时很方便,但是完全掌握却有一定的困难,这对程序员来说是个不小的难题。它的指令系统有传统的助记符和代数符号两种方式,程序员可以根据所好任选一种。助记符方式对于习惯了汇编语言的开发者易于接受,代数符号方式则表达简洁、较为直观、易于理解。但是,合作完成项目时,往往会由于不同的程序员选择不同的格式而造成麻烦。解决的方法有两个,一是使用TI提供的转换工具,另一是只将两者的obj文件链接调试,但调试时有些不方便。 

  另外,两者的编译环境也有差别。相比较而言,ADSP-2186N的界面要友好一些,它和VC++非常相像,很方便。 

2.2.2 指令的“单周期性” 

  ADSP-2186N的每条程序语言都汇编成仅需一个执行周期的24位指令机器码。它完全在并行处理方式下工作,所有的指令都是真正的单周期指令。除了访问慢速的外部存储设备,或者外部存储器出现控制权竞争而需要附加周期的情况外,任何指令的运行一般仅需一个周期。由于它的指令系统没什么“禁忌”,所以程序员大可像编写高级语言程序一样,只需要考虑算法如何实现,至于编程过程就可以不太注意。 

  可是,TMS320VC5402的指令系统却不是这样。TMS320VC5402的各个单元是基于流水线方式的结构,指令按流水线方式工作。它的大多数指令在单独执行时并不能在一个周期内完成,只是在流水线方式下工作或重复操作时,才可以做到平均每一个周期执行一条指令。因此,在它的指令系统中,不仅有不少的指令需要多个执行周期,而且由于“时延”的原因,如果处理的不好,还会出现额外的附加周期。因此为了保证每条指令准确执行,有时就不得不把程序打乱,就是说,相关联的几条语句要分散插入别的地方。程序的模块化遭到损害,显得杂乱无章,大大影响了可读性。 

  如下面语句中的句1、句2、句3、句4(选自Geffe发生器)是我们实际应用的形式(指令用代数符号格式,下面如果不特别指出,均为这样)。 

    m_seq_l1:                   ;标号 

            ……   

            b=a & #1              ;句1 

            if(aeq)goto m_seq_l2   ;句2,if a=0, goto m_seq_l2 

            a=a>>1              ;句3 

            if(beq)goto m_seq_l1   ;句4,if b=0, goto m_seq_l1 

            …… 

    m_seq_l2: 

            …… 

    但是,它们正常语序则应该为 

    m_seq_l1:                       ;标号 

        ……   

        a=a>>1                  ;句3(若这样,a的初始值随之改变) 

        if(aeq)goto m_seq_l2    ;句2,if a=0,goto m_seq_l2 

        b=a & #1                ;句1 

        if(beq)goto m_seq_l1   ;句4,if b=0,goto m_seq_l1 

        …… 

    m_seq_l2: 

        …… 

  不过,若以正常语序执行if语句时,a、b的值会因为时延不够,来不及改变而导致程序出错。为避免这种情况,要么在句3和句2以及句1和句4之间分别加上若干个空操作(nop),这样就会影响速度;要么调整它们的顺序,如实际应用中的句1、句2、句3、句4。有时候,语句顺序实在无法调整,就不得不加上一些空操作。尤其是循环的主体部分,往往一条语句处理的不好,就会导致整个程序多运行成千上万条指令。因此,TMS320C54系列编程对程序员的要求较高,必须非常熟悉指令系统,才可以得到高效的程序。 

2.2.3 对数组的循环操作 

  关于对数组进行循环操作,两者平分秋色。它们都支持寄存器地址自动加减。只不过ADSP-2186N的调试界面看上去更直观些。 

2.2.4 对32位长操作数操作 

  ADSP-2186N不支持32位操作,如果需要的话,必须多条指令共同完成。而TMS320VC5402经过简单的设置,就可以直接进行一些32位操作。 

  例如,MD5算法中4轮主循环都需要大量的32位逻辑运算及加法操作。 

  表2示出“与”运算和加法的实例,显然,用TMS320VC-5402实现要方便简洁的多。用ADSP-2186N实现时,必须将32位分为高16位和低16位分别操作,最后再整合。这也是为什么在实现MD5算法时,用ADSP-2186N实现不如TMS320VC5402有效的主要原因。 

 

 

  另外,两者在编程时还有一些不同,例如,TMS320VC5402有标号必须顶格写等要求。总的来说,TMS320VC5402指令系统中有不少的“禁忌”,需要经验积累才可以发现,这就给编程者带来了不便。两款DSP芯片实现Geffe发生器和MD5算法的具体结果如表3所示。 

 

 

  可以看出,实现Geffe发生器时,ADSP-2186N较快,主要是因为其指令系统的单周期性;实现MD5算法时,TMS320VC5402稍快,主要原因是它支持32位操作。 

2.3 其它 

  总而言之,从技术上看,ADSP-218X系列稍占优势。但目前的实际情况是:1999年TI占有全球DSP市场48%的份额,市场排名第一。2000年其市场占有率也是第二名的两倍多。尤其在中国,市场占有率在80%左右。主要原因如下: 

  第一是价格。性能相近的芯片,TI比ADI要便宜很多。如TMS320VC5402的单片价格为$5.66,ADSP-2186N的单片价格则为$8.50。从性价比看,TI占优势。从产品效益看,如果大批量生产,显然TI的芯片实惠。 

  第二是服务。这里指的是指生产商提供的服务。TI公司有非常完善的服务体系,从产品宣传到课程培训,非常齐全。ADI公司这方面略有不足。 

  第三是第三方" title="第三方">第三方服务。市场上支持TI芯片的第三方服务要比支持ADI的多,这也是由于TI芯片的市场占有率高的缘故。反过来,大量支持TI芯片的第三方服务,又保证了TI芯片的市场占有率。两者是相辅相成的关系。 

  第四是继承性。DSP芯片有其特殊性,不同公司的芯片,其编程方式差异很大。因此,程序员一旦熟悉了一种芯片,就不愿意更换。在我国,TI公司的用户要远远多于ADI公司的用户。为便于交流和学习,新的用户也会倾向于选择TI公司的芯片。 

  第五是性能。虽然从技术性能看,TI的芯片稍稍逊色一些,但只要程序员付出一定精力,也可以得到高效的程序。 

  所以,TMS320C54X系列和ADSP-218X系列可以说是各有千秋,互有短长。ADSP-218X系列界面友好、指令简洁、方便新手学习,因此适于教学应用。而TMS320C54X系列性价比高、服务体系完善、产品效益好,故公司企业多选用它。 

参考文献 

1 TMS320C54x DSP CPU and Peripherals Reference Set,Volume 1. Texas Instruments,2001 

2 TMS320C54x DSP Set Volume 3:Algebraic Instruction.Texas Instruments,2001 

3 TMS320C54x Assembly Language Tools User’s Guide. Texas Instruments, 2001 

4 ADSP-218x DSP Hardware Reference. Analog Devices,2001 

5 DSP Selection Guide 2001 Edition. Analog Devices,2001 

6 苏 涛. 高性能数字信号处理器与高速实时信号处理.西安:西安电子科技大学出版社,2000 

7 (美)Bruce Schneier著,吴世忠,祝世雄,张文政等译.应用密码学——协议、算法与C源程序.北京:机械工业出版社,2001 

本站内容除特别声明的原创文章之外,转载内容只为传递更多信息,并不代表本网站赞同其观点。转载的所有的文章、图片、音/视频文件等资料的版权归版权所有权人所有。本站采用的非本站原创文章及图片等内容无法一一联系确认版权者。如涉及作品内容、版权和其它问题,请及时通过电子邮件或电话通知我们,以便迅速采取适当措施,避免给双方造成不必要的经济损失。联系电话:010-82306118;邮箱:aet@chinaaet.com。