采用TI多标准基站SoC实现性能全面提升-AET-电子技术应用

采用TI多标准基站SoC实现性能全面提升

Icbuy

摘要： 　　随着消费者对智能电话需求的日益增长以及无线平板电脑的广泛普及，当今的移动因特网需要连接越来越多的用户，从而要求移动网络实现显著的容量增长。长期演进(4GLTE)能够以更低的成本提供更高的频谱效率与更大的容量。不断演进的LTE-Advanced(LTE-A)能够......

关键词： 无线基站SoC WCDMA 无线网络 DSP技术

Abstract：

Key words :

　　随着消费者对智能电话需求的日益增长以及无线平板电脑的广泛普及，当今的移动因特网需要连接越来越多的用户，从而要求移动网络实现显著的容量增长。长期演进(4GLTE)能够以更低的成本提供更高的频谱效率与更大的容量。不断演进的LTE-Advanced(LTE-A)能够可实现具有更高带宽、更强吞吐能力与更高级天线技术的异构网络。同时，WCDMA标准也在不断演进发展，具有更高的带宽以及更强大的吞吐能力。毋庸置疑，市场需要推出多标准基站。其结果是，部署在基站中的片上系统(SoC)器件不仅需要支持LTE，还需要同时支持WCDMA及其它原有标准。作为当今无线基站部署所采用无线基站SoC的领先供应商，德州仪器(TI)在该市场领域拥有长期成功的历史。在本白皮书中，我们将与大家分享我们10余年积累的“学习周期”体验和我们最新开发的无线基站SoC——TMS320CTCI6616和TMS320CTCI6618。

　　自无线网络诞生以来，其数据吞吐能力已实现快速增长。对营运商来说，最终的衡量标准是频谱每赫兹承载的比特数，以及实现特定吞吐能力所需的相关成本及功耗。一直以来，在无线标准升级的每一个转折点，TI都无一不为基站设备带来价值与创新。如今，TI的基站SoC只需少量电路系统即可处理无线基带第1层(L1)、第2层(L2)与传输功能。TI10余年的丰富经验建立在成功的部署周期之上，主要体现在在以下方面积累的丰富知识：

　　1.TI在最新的半导体工艺技术节点上成功推出众多器件，不仅能够实现显著的性能提升，同时还能大幅降低成本及功耗；

　　2.TI在DSP技术领域拥有稳固的领先地位。毋庸置疑，无线基站需要为全球无线标准的传输与接收提供充分的数字信号处理能力。TI拥有强大的实力，能够利用其行业领先的半导体工艺技术持续推出数字处理性能不断飞速发展的未来产品。各种优势全面结合，即能为市场推出高性价比的解决方案；

　　3.TI始终致力于改进其高性能多内核SoC。虽然无线基站的大多数功能都能够由DSP执行，但DSP最为擅长的则是与目标加速器相结合来实现各种优化目标，其中包括实现极高的单位频率吞吐能力、单位功率吞吐能力以及低系统成本等。在将硬件加速与业界领先DSP相结合以减轻无线标准的处理方面，TI极为成功，能够以极低的成本与低功耗实现前所未有的吞吐能力。

　　TI基站创新的第三个主要部分是本文的重点所在，即TI为基站SoC创建可配置硬件加速器的成功战略。在决定将无线信号处理链上的哪些部分转移到可配置硬件加速模块中时，有若干关键问题需要考虑，其中包括：

　　1.无线信号链的哪些部分发生重大变化的可能性最小，而且哪些应基于成熟的标准之上？

　　2.在候选功能中，设备制造商能否添加其自己的知识产权(IP)，以提供高级功能与差异化？

　　3.无线信号链上的哪个部分具有最高的处理强度（如果在DSP的软件中实施时，需要最高的DSPMIPS）？

　　4.分配在硬件中的哪些功能可以简化并加快开发与测试？

　　5.为确保全面的多内核能力与峰值加速器性能，需要何种类型的SoC基础局端？

　　要解决上述的第一个问题，需要确保无线处理标准的这些部分（无论仍处于开发中还是处于实验阶段）都将由DSP负责处理，这样营运商或OEM厂商才能实现解决方案的差异化。在对各种信号链功能及使用模型的MIPS要求进行分析后，就可以确定哪些功能应被移入硬件加速器，从而在降低成本和加快投产进度方面获得显著优势。

　　除了各种基于硬件的加速器外，TI还创建了一种可确保实现高效率零复制数据流的创新型KeyStone架构，从而能够在内核、加速器以及外设之间实现非阻塞的系统互连。此外，该架构还能确保协处理器得到充分利用。它还可以减少中断及软件上下文环境的切换次数，以最大限度地实现所有内核的最佳利用，从而使所有系统组件都能得到全面利用。

　　确定系统优化的机会

　　确定新基站SoC设计方法的第一步，是考虑新一代基站的预期性能要求并理解其对SoC设计的影响。

　　TCI6618具备一系列针对新一代基站的用例目标参数。由于TITCI6488是目前应用于基站的领先SoC，因而其是一种非常适用于基线分析的器件。

　　下列各参数基于LTE系统中TCI6488器件的性能：

　　天线：2x2发送与接收

　　带宽：20MHz

　　数据率：150Mbps下行，75Mbps上行

　　LTE物理层概览

　　LTE物理层需要对每个物理层通道进行高强度的信号处理。主要的物理层通道如下：

　　下行通道：

　　PDSCH：物理下行共享通道

　　PDCCH：物理下行控制通道

　　采用TI多标准基站SoC实现性能、效率与差异化的全面提升2011年2月

　　上行通道：

　　PUSCH：物理上行共享通道

　　PUCCH：物理上行控制通道

　　PRACH：物理随机访问通道

　　对于每个数据和控制通道而言，可将物理层处理分为两个主要的功能模块：比特率与IQ采样处理。

　　图1显示的PDSCH信号链由如下方面构成：

　　IQ采样处理—处理LTE物理资源，将其映射到天线的不同层并转换为OFDM符号以用于空中传输。

　　比特率处理—处理来自L2的传输模块，通过计算循环冗余校验(CRC)并将其附加给传输模块来启动处理进程。如果传输模块大于6,144位的最大允许代码模块尺寸，则执行代码模块分段。在进行通道编码前，要进行新的CRC计算并将其附着于每个代码模块上。

图1介绍了LTE下行链路中的主要功能模块。

　　图1－FDSCH信号处理链

　　PUSCH是PDSCH的反向过程，同样含有下列IQ样本与比特率处理：

　　IQ样本处理——处理接收到的OFDM符号物理资源。这涉及通道估算与最大比率合并(MRC)/多输入、多输出(MIMO)均衡，以从各个天线分离用户数据。

　　比特率处理——为在L2内实现进一步处理而进行的通道解调、解多路复用、错误校正与解码。

　　图2所示为PUSCH的信号处理链：

图2－PUSCH信号处理链

　　分析TMS320TCI6488中的LTE物理层处理4

　　TCI6487/8是TI最新系列的多内核SoC，由三个C64x+TMCPU内核构成。采用这种SoC的运营商已有数百家，年出货量数百万片。通过分析TCI6488的LTE性能，可以深入了解如何构建新一代的高性能SoC。图3所示为在TCI6488上采用2x2MIMO、150Mbps下行吞吐速率及75Mbps上行吞吐速率时，20MHzLTE的周期占用数及分布。

图3－TCI6488上的LTE物理层处理

　　从图上可以明显看出，FFT/IFFT、PDSCH比特率处理、PUSCH比特率处理与PUCCH占用了总DSP周期中的大部分。

　　为进一步改进总体系统性能，满足新一代LTE系统的要求，必须设计出具备良好均衡性且可扩展的架构，以便最大限度地发挥SoC的多内核计算性能。这就要求最大限度地提高系统的互连吞吐量，并将存储器存取与数据传输时延降到最小。

　　通过对LTE要求的总处理周期进行分析，我们发现通过增强DSP内核的信号处理能力，不仅能够减少处理周期的总数量，而且还能增大系统容量、提升性能。最新推出的C66xDSP内核通过将C64x+的乘/累加(MAC)能力锐升四倍可实现这一目标。此外，新内核还同时集成了定点与浮点功能，并可为矢量处理与矩阵处理提供新的指令。

　　如快速傅里叶变换(FFT)与快速傅里叶逆变换(IFFT)等特定函数需要在LTE信号链上的许多地方执行，并且用于在时域与频域之间进行数据转换。FFT与离散傅立叶变换(DFT)已属成熟算法，因此它们有可能作为硬件加速的候选以用于释放CPU周期，这样DSP内核就可用于执行客户差异化功能。

　　LTE的上行与下行比特率处理及其他无线技术包含众多标准算法，适用于调制、解调、交错、解交错、速率匹配、解速率匹配、加扰与去扰等运算。TI新型比特率协处理器(BCP)是一种可为多种标准释放所有比特率处理功能的加速器，它可大幅度提升系统容量，从而简化软件编程、减少系统时延。

　　这些就是可以在TCI6616及TCI6618基站SoC中实现创新与性能飞跃提升的系统优化机会的示例。

　　TIKeyStone架构

　　KeyStone多内核SoC架构是业界同类架构中率先可提供基础局端以确保所有内核都能得到充分利用的架构。KeyStone可实现对所有处理内核、外设、协处理器及I/O的非阻塞访问。可实现这类多内核能力的部分KeyStone创新技术包括：多内核导航器、TeraNet、多内核共享存储控制器(MSMC)及超链接。

　　TI多内核导航器是一种基于分组的创新型管理器，能够在提取不同子系统间连接的同时，控制8,192个队列。它可为实现通信、数据传输及工作管理提供统一接口。通过采用“一次性完成，零复制”的设计理念，多内核导航器能够以更少的中断及更低的软件复杂度实现更高的系统性能。

　　举例来说，多内核导航器能够进行任务调度，且在无需外部管理的情况下即能指示下一个空闲DSP内核读取并处理任务。这样通过提供下列功能，即可简化SoC软件架构，进而提升基站的性能：

　　动态资源/负载共享

　　减轻与子系统间通信相关的CPU开销/延迟

　　基于硬件的任务优先级排序

　　动态负载平衡

　　针对所有IP模块（软件、I/O及加速器）的通用通信方法

　　多内核导航器能够在无CPU干预的情况下控制数据流，可从移动数据中释放CPU周期并将片上通信速率提升至每秒2,000万条消息。此外，其还能够使用更为简单的软件架构以缩短开发周期并提高资源利用率。

　　TeraNet能够提供层级交换结构，可在SoC内为数据传输提供超过2Tbit的总带宽。这样几乎可确保不会出现内核与协处理器没有数据可处理的情况，从而使他们在任何需要的位置和时间都可以发挥其最大的处理功效。由于交换结构采用了层级架构而非扁平纵横式结构，因此总体功耗能在空闲状态下实现大幅度下降且能以最低时延实现高性能，从而充分满足新一代基站的这种关键要求。

　　多内核共享存储控制器(MSMC)是一种可增强性能的独特架构。MSMC可以让内核在不占用任何TeraNet带宽的情况下直接访问共享存储器。MSMC可以协调内核及其他IP模块对共享存储器的访问，以避免发生存储器争用的情况发生。DDR3外部存储器接口(EMIF)可直接连接至MSMC，从而降低因发生外部存储器存取而导致的时延，并为基站应用提供所需的高速访问与支持。

　　超链接具有50Gbps的总吞吐能力，是一种互连机制，能够以极少的协议实现与其它KeyStone、FPGA及ASIC器件的高速通信与连接。其可为主器件上的配套器件提供透明的存储器映射访问，从而不仅可大幅简化软件编程，同时还能为OEM厂商提供实现可扩展解决方案的无缝路径。

　　全新DSP内核

　　TCI66xSoC解决方案包含性能显著增强的全新处理内核。其是业界首款同时集成了定点和浮点功能的基站DSP内核。增强的性能可帮助OEM厂商构建极富差异化功能的软件，从而满足高级操作人员的要求。

　　TMS320C66x内核

　　作为TI的新一代定点及浮点DSP，新型C66x内核具备集成了8个功能单元和64个通用32位寄存器的高级VLIW架构。全新系列器件基于TI前代C64x+内核架构之上，拥有屡获殊荣的指令集架构和众多功能强大的特性，如每个周期能够执行8个指令，从而可实现高度的并行性能。

　　全新的C66xDSP内核实现众多特性改进，其中包括：

　　原生浮点处理，可逐指令地与定点实现无缝协作。通过以业界领先的定点DSP速度提供原生浮点支持，实现了浮点处理领域的重大进步；

　　MAC实现了4倍的性能提升，每周期可提供32个16x16位MAC；

　　专为复杂算法、线性代数和矩阵运算而精心优化；

　　全流水线双精度浮点乘法器；

　　减少双精度乘法时延。

　　所有这些改进都能大幅提升L1和L2的总体处理性能。4G基站解决方案具备MIMO和波束成形等算法，可充分利用多天线信号处理实现性能提升。这些算法通常需要矩阵逆转技术，从本质上来说非常容易遭受与定点处理相关的量化及扩展问题的影响。这些多天线技术仍在不断演进发展，具备可帮助客户实现差异化功能的实施灵活性至关重要。将最新的C66x增强功能用于矩阵运算和浮点支持，能够同时显著提高系统的速度和准确度，从而为移动电话用户带来更精彩的体验。

　　采用C66x内核增强MIMO接收机

　　我们同时在LTE和LTE-A中采用了众多高级接收机算法。例如，在LTE-A新技术中可实现更先进的多用户MIMO(MU-MIMO)预编码方案。此外，单用户MIMO(SU-MIMO)还可支持更高的数据速率。增强型C66x内核不仅可帮助设计团队在上述领域实现差异化特性，而且最终还能帮助他们实现操作人员所需的高级特性。

　　MIMO解码在算法上非常复杂，往往需要使用客户IP来提升效率和性能。复杂度随天线数量的增加而相应增加。虽然大多数专家都一致认为第二种传输天线至少在最近几年都不会获得广泛使用，但当前的系统仍以2xN（2路传输，N路接收）配置为主。实施MIMO接收机算法的方式有很多种，其中包括较低复杂侧的线性MMSE和较高复杂端的球状解码。在OEM厂商测试不同算法的时候，进行高效率的软件实施使他们能够在部署LTE系统的同时适配并测试不同的构想方案。这种高灵活性在基础局端部署的最初几年非常关键，直到新的网络落实，工程师才能更好地理解问题所在。

　　C66x架构具备扩展指令集，可用于加速DSP内核的MIMO处理。浮点可以实现高效的矩阵反转算法，从而较定点实施相比能够实现更高的性能，而且与硬件加速相比能够实现更高的灵活性。通过充分发挥浮点功能和4倍的MAC性能改进，C66xDSP内核中的MIMO处理量与前代DSP相比降低了5倍。

　　全新的加速功能

　　通过分析LTE和WCDMA系统要求，我们已确定了一些需要改进的功能，并按重要性进行如下排序：

　　FFT/IFFT/DFT

　　下行链路比特率处理

　　上行链路比特率处理

　　上行链路控制通道接收机

　　MIMO接收机

　　WCDMA传输码片率IQ采样处理(TAC)

　　WCDMA接收码片率IQ采样处理(RAC)

　　此外，4G较高的数据速率和高速3G系统都需要大量的改进才能完成turbo解码功能。

　　TCI6616AccelerationPacs

　　为了更好地满足高速发展的3G和4G市场需求，TI为TCI6616开发了众多新的加速器。

　　传输码片率协处理器(TAC)

　　TAC能为多达256个下行链路WCDMA用户执行传输码片率扩展运算。该加速器可将符号率处理的数据作为输入，然后再将芯片扩展序列输出到基站的各个天线输出端。

　　TAC能够执行下列运算：

　　符号调制

　　开环分集处理，其中包括空间时间传输分集(STTD)和时间交换传输分集(TSTD)

　　闭环处理，其中包括闭环分集、用于HSDPA的MIMO、下行链路功率控制、上行链路功率控制、随机访问采集指示传输、E-DCH相对授权和混合ARQ指示传输

　　各个通道的增益应用

　　支持压缩模式

　　扩展和加扰

　　功耗测量

　　媒体流失调和延迟

　　波束成型

　　媒体流汇总

　　TCA支持所有WCDMA下行链路通道：

　　P-SCH：主同步通道

　　S-SCH：次同步通道

　　P-CPICH：主通用导频通道

　　S-CPICH：次通用导频通道

　　P-CCPCH：主通用控制物理通道

　　PICH：传呼指示器通道

　　AICH：采集指示器通道

　　HS-SCCh：高速共享控制通道

　　HS-PDSCH：高速物理下行链路共享通道

　　E-AGCH：E-DCH绝对授权通道

　　E-RGCH：E-DCH相对授权通道

　　E-HICH：E-DCH混合ARQ指示器通道

　　MICH：MBMS指示器通道

　　DPCH：专用物理通道

　　F-DPCH：部分专用物理通道

　　如RNC和Node-B之间的NBAP（Node-B应用部分）协议所示，TAC可实现灵活的通道配置和重配置。

　　接收加速器协处理器(RAC)RAC能为多达256个WCDMA用户执行上行链路码片率解扩运算。其包含基于矢量的高灵活性可配置关联引擎，能够支持大量的同步关联。

　　RAC支持下列模式的运算：

　　FD：用于生成原始符号的径解扩

　　FT：用于执行EOL（过早、按时、延迟）测量的径跟踪

　　FPE：用于执行径干扰关联的径功耗估算

　　PM：在天线上执行脉冲响应曲线以进行径探测的路径监控器

　　PD：在签名上执行脉冲响应曲线以进行前导码检测

　　SPE：执行宽带媒体流功耗测算的媒体流功耗估算功能

　　下面是RAC支持的上行链路物理通道：

　　DPCCH：专用物理控制通道

　　DPDCH：专用物理数据通道

　　HS-DPCCH：高速专用物理控制通道

　　E-DPCCH：增强型专用物理控制通道

　　E-DPDCH：增强型专用物理数据通道

　　PRACH：物理随机访问通道

　　Turbo解码器3(TCP3d)

　　Turbo解码器3协处理器(TCP3d)是前代Turbo解码器2的改进版本。TCP3d可支持WCDMA、TD-SCDMA、LTE和WiMAX，是一种在上行链路处理中对Turbo代码进行解码的可配置外设。TCP3d的输入是系统位和校验位的软决策，而输出既可为软决策，也可为硬决策。为了最大限度地减少与使用该协处理器相关的开销，TCP3d可生成Turbo交错表，并能在除执行解码之外还支持基于代码模块的CRC计算。其结果是TCP3d的开销比TCP2低7倍。TCP3d在TCI6616上的吞吐量在6次迭代后为389Mbps。

　　Turbo编码器(TCP3e)

　　Turbo编码器协处理器3(TCP3e)是用于Turbo代码编码的协处理器，可支持WCDMA、TD-SCDMA、LTE和WiMAX。输入TCP3e的是信息位，输出的则是编码后的系统位和校验位。它支持基于代码模块的CRC、turbo编码和turbo交错表生成，最大吞吐能力为643Mbps。

　　快速傅立叶转换协处理器(FFTC)

　　快速傅立叶转换协处理器(FFTC)可实施用于LTE和WiMAX的FFT/iFFT和DFT/iDFT。多内核导航器(MulticoreNavigator)使数据能够直接在协处理器端进行输入和输出路由，并传输到I/O。此外，其还能执行周期性的前缀移除和插入以及频率转换，从而进一步降低DSP上的处理负载。FFTC的吞吐能力为每秒12.72亿个副载波。

图4－TCI6616方框图

　　全面集成——TCI6616

　　图4显示了TCI6616的方框图。

　　TCI6616具有创新型KeyStone架构、增强型C66x内核并新增了LTE和WCDMA协处理器，能够为无线基站应用实现较其他SoC高5倍的性能提升。

　　TCI6618AccelerationPacs

　　TCI6618为TCI6616增添了加速特性，可将LTE性能翻番。由于TCI6618能够与TCI6616实现引脚兼容，因而OEM厂商可通过选择系统适用的器件轻松灵活地进行平台优化。

　　由于LTE系统能够处理比3G系统高得多的数据速率，因而加速测重于对比特率的处理。

　　比特率协处理器

　　比特率协处理器(BCP)是一种多标准的协处理器，其能够大幅减轻DSP的所有比特率处理任务，从而使信号链的位处理部分无需占用任何DSP周期。它能够显著简化了软件设计，并能实现极低的系统时延。BCP可执行以下功能：

　　调制/解调

　　交错/解交错

　　速率匹配/解速率匹配

　　•加扰/解扰

　　•LTE的PUCCH解码

　　•Turbo和卷积编码

　　•CRC连接和校验

　　BCP不仅能够针对MIMO均衡实现turbo干扰消除，而且还实现了高性能PUCCHformat2解码。当LTE达到最大下行链路2.2Gbps的吞吐量、上行链路1.1Gbps的吞吐量时，BCP可减轻大约15GHz的DSPMIPS。对于WCDMA而言，最大下行链路吞吐量可达800Mbps，最大上行链路吞吐量达400Mbps。

图5－BCP体系架构

　　在BCP内部，数据可通过一个内部交换结构从一个子模块流入另一个子模块。分组DMA流量管理器可通过128位的BCP导航器或直接I/O接口将流量从BCP进行输入与输出路由。BCP以分组为单位进行数据处理，并能同时处理不同的标准。当将任务请求发送至BCP时，该任务首先被置入BCP导航器队列中。BCP调度程序依据任务优先级选择需要处理的任务。接着，由子模块处理该任务。最后，可将BCP结果写入缓冲器，并将描述符置入完整的队列上有待进一步处理。因为极少需要软件的介入，因此对DSP的周期需求显著减少，同时LTE处理时延也会大幅降低。

　　我们在此将介绍另一种可简化DSP处理需求的方法，通过诸如连续或并行干扰消除（SIC或PIC）等高级接收机技术来提升接收机的MIMO性能。这些算法需要功能强大的比特率协处理器才能高效地实现。解码算法的迭代特征要求对数据进行多次解码、处理、重新编码和解码，这对一般普通的系统而言可谓巨大的计算负担，但对于TCI6618却能轻松处理。

　　采用TI多标准基站SoC实现性能、效率与差异化的全面提升2011年2月。

　　TurboPIC/SIC的性能改进意义重大。例如，在2x2MIMO方案中，一个调制为QPSK的典型的城域信道中，turboPIC/SIC能产生超过3dB的信噪比(SNR)性能增益，从而与一般的接收机方法相比可提升高达40%的频谱利用率。这不仅对运营商的意义重大，同时也是TCI6618与其他产品的重要差别点。

　　图6显示了Turbo干扰消除的数据流。BCP和FFTC可从反馈路径分担绝大多数的Turbo均衡周期。

图6－Turbo干扰消除数据流

　　控制信道解码器

　　作为LTE物理上行链路控制信道，PUCCH可承载上行链路的控制信息，例如调度请求、确认、重传请求、信道状态信息以及信道质量指示(CQI)等信息。信道信息解码会消耗很大的处理资源。（见图3）

　　PUCCHCQI通过ReedMuller(20,A)模块代码进行编码。各种不同类型的算法均可对此信息进行解码。一种非常实用的基于MRC的算法可在软件内实施，但其性能不高。BCP针对PUCCHformat2、2a、2b实现了高级的联合信道均衡和解码算法。这与其他更为基础性的算法相比，可实现更高的性能。图7显示了分别采用TCI6488和TCI6618的实施周期比较。在该例中，我们对带5个资源模块的系统进行了仿真，每个系统均有12个UE，并且使用ReedMuller(20,13)进行编码。在具备双天线的情况下，对于从DSP内核上的软件到硬件加速器的传输处理中，BCP承担了98%的总PUCCHformat2处理量。

　　与典型算法相比，使用联合检测算法能将信噪比(SNR)性能提高1到3分贝。这种增强的性能不仅将显著改进链路预算，而且还能减少UE的干扰，并提高下行频谱利用率，从而提高整个LTE系统的性能，以为移动用户带来更精彩的体验。

　　全面集成——TCI6618

　　除了BCP协处理器无与伦比的性能外，TCI6618还添加了额外的FFTC和TCP3d协处理器，能够实现SoC功能的完美平衡。因此，在6个迭代中，FFTC的总吞吐量为1,908Mbps，TCP3d的总吞吐量则为582Mbps。与TCI6616相比，TCI6618凭借均衡CPU内核和协处理器将LTE的能力提升了2倍以上。TCI6618通过2x2MIMO天线配置且利用高级接收机算法，可以支持两个20MHz的LTE区，下行吞吐量总计可达300Mbps，而上行吞吐量总计则可达150Mbps。

图7－TCI6618可实现高级PUCCH接收机

　　图8显示了TCI6618的方框图：

图8－TCI6618方框图

　　凭借KeyStone架构、高级C66x内核以及新型BCP等高吞吐量加速器，TCI6618与此前系列的SoC器件相比，可实现显著的性能提升。图9显示了以图3为基础而生成的柱状图，阐述了TCI6488与TCI6618两者之间在DSP周期方面的比较结果。运行条件仍然是20MHz的LTE、2X2MIMO、150Mbps的下行吞吐量以及75Mbps的上行吞吐量。

图9－TCI6618在LTE上的性能飞跃

　　我们从该图中看到，大约有90%的TCI6488DSP处理任务被移至协处理器，从而实现了数量级的改进！

　　图10显示了LTE下行处理(PDSCH)的详细结构图，其中使用协处理器承担了几乎95%的处理任务。

图10－TCI6618中的PDSCH处理

　　采用TI多标准基站SoC实现性能、效率与差异化的全面提升2011年2月

　　图11显示了LTE上行链路方框图及相关的协处理，其中大约90%的处理均由硬件加速器负责。

图11－TCI6618中的PUSCH处理

　　这些图清晰地表明，BCP可显著提高LTE的性能。由于所有比特率处理均被自动路由到BCP，因而可大大简化软件设计并降低时延。在这样的数据速率（150Mbps的下行/75Mbps的上行）下运行，处理时延还不足70微秒。

　　BCP不仅可以为LTE实现上述优势，而且也能为WCDMA分担比特率处理任务。与针对码片级扩频/解扩的RAC与TAC结合使用，可实现HSDPA信道几乎完全在硬件中处理。图12显示了TCI6618中的HS-PDSCH信号处理链。　　

图12－TCI6618中的HSDPAHS-PDSCH处理

　　TCI6618能够支持如下方案：具备6个使用2x2MIMO的HSDPA单元，且每个单元的下行吞吐量为42Mbps。在该例中，有超过相当于9GHz的DSP处理任务被分配到专为HS-PDSCH信道设计的硬件中处理。

　　同样，对于WCDMA上行信道处理，图13显示了HSUPAE-DPDCH处理的信号链与周期分布。

图13－TCI6618中的HSUPAE-DPDCH处理

　　结论业界最佳的TMS320TCI6618与TMS320TCI6616SoC经过精心设计，可支持无线数据的发展变革，以及从以语音为中心到以数据为中心的处理的演变过度。新的比特率协处理器(BCP)及KeyStone架构可为无线基站提供可实现最高性能的SoC。集成定点与浮点功能的C66x内核能够为市场上功能最强大的DSP提供系统所需的灵活性。TI借助多年来在无线基站基础局端领域积累的广博的专业知识和丰富的系统和现场经验成就了卓越的设计方法，能够实现业界最可靠、最高级的解决方案。在基于协处理器实现的加速功能和在DSP内核中实现的灵活处理功能之间，TMS320C6618/6架构实现了完美的平衡，不仅能够为多样化的基站市场实现所需的差异化功能，而且还能继续帮助备选解决方案实现巨大的性能改进。

原创声明：此内容为AET网站原创，未经授权禁止转载。

相关内容