《电子技术应用》
您所在的位置:首页 > 嵌入式技术 > 解决方案 > HyperLink编程和性能考量

HyperLink编程和性能考量

2014-01-14
作者:冯华亮/Brighton Feng
来源:TI Communication Infrastructure
关键词: 软件 HyperLink DSP KeyStone

摘要

   HyperLink 为两个KeyStone 架构DSP 之间提供了一种高速,低延迟,引脚数量少的通信接口。HyperLink 的用户手册已经详细的对其进行了描述。本文主要是为HyperLink 的编程提供了一些额外的补充信息。

   同时本文还讨论了HyperLink 的性能,提供了在各种操作条件下的性能测试数据。对影响HyperLink 性能的一些参数进行了讨论。

    文章的最后附上对应本文的应用代码。

1HyperLink 介绍

   HyperLink 为两片DSP 之间提供一种高速、低延迟,引脚数少的通信连接接口。

     HyperLink 的设计速度最高速率支持12.5Gbps,目前在大部分的KeyStone DSPs 上, 由于受限于SerDes 和板级布线,速度接近为10Gbps 。HyperLink 是TI 专有的外设接口。相对于用于高速Serdes 接口的传统的8b10b 编码方式,HyperLink 减少了编码冗余,编码方式等效于8b9b。单片DSP 为HyperLink 提供4 个SerDes 通道,所以10Gbps 的HyperLink 理论吞吐率为10*4*(8/9)= 35.5Gbps= 4.44GB/s.

HyperLink 使用了PCIE 类似的内存映射机制,但它为多核DSP 提供了一些更灵活的特性。本文将会使用几个范例来详细解释这一点。

本文还讨论了HyperLink 的性能,提供了在各种操作条件下的性能测试数据。对影响HyperLink 性能的一些因素进行了讨论。

2HyperLink 配置  

本节提供了一些配置HyperLink 模块的补充信息。

2.1 Serdes 配置

Serdes 必须配置成期望的链接速度。图1 表示了输入参考时钟和输出时钟之间的关系。

输入参考时钟建议限制在156.25MHz ~312.5MHz 范围内。Serdes PLL 的倍频系数必须合理配置生成的内部时钟(internal  clock)限制在1.5625GHz ~ 3.125GHz 范围内。

最后的链接速度由内部时钟(internal clock)驱动,通过link rate 配置来得到。

2.2 HyperLink 存储映射配置

HyperLink 的存储映射非常的灵活。HyperLink 的用户手册对此作了详细的描述。本节将用两个例子来详细的解释它。图2 是第一个例子。

图2  通过HyperLink 窗口映射到远端不同类型的存储空间

在这个例子里面,DSP1 的存储空间映射到了DSP0 的存储空间窗口0x40000000~0x50000000DSP0 可以访问DSP1 的所有内存空间,包括LL2,SL2,DDR,就像访问自己的本地的存储空间一样。在DSP0 上,所有的Master 都可以通过以0x40000000 起始的Outbound 窗口地址来访问DSP1 的存储空间,但是不同master 事实上可能访问到DSP1 上不同的存储空间。原因是HyperLink 发送侧传输数据时,会将PrivID 一起传输。接受侧通过PrivID 值,可以建立不同的地址映射表

对DSP0 与DSP1 的内存映射关系总结在下表(表1)。

 

通过上表的配置,可知

    当DSP0 的core 0/1 访问0x40800000,它事实上访问了DSP1 上的LL2 地址空间。

当DSP0 的core0 访问0x4D000000,它事实上访问了DSP1 上DDR 的地址空间0x8C000000

当DSP0 的core1 访问0x4D000000 ,它事实上访问了DSP1 上DDR 的地址空间0x8F000000 与本文档对应的范例工程将HyperLink 配置成上述的内存映射关系。下面是关键部分的配置代码。

 

对于一些简单的应用,可能只是想访问远程DSP 的DDR 空间,那么下面的例子用于这种情况。存储映射关系如下图所示。

图3  通过HyperLink 窗口只映射到远端的DDR 空间

这是最简单的例子,但是却可以访问远端DSP 的大块存储空间。DSP0 上的每个master(core 或者其他外设) 都可以可以访问DSP1 上256MB DDR 空间。下表描述了core0 和core1 的对remote DSP DDR 存储映射。

3HyperLink 性能考虑

本节将让设计者对HyperLink 访问远程存储空间的性能评估有基本的认识。同时提供了在不同的操作条件下获得的性能测试数据。大部分测试是在最理想的测试条件进行,以评估可以获得的最大吞吐量。

本文所描述的绝大部分性能数据是在C6670EVM 上获得。C6670 EVM 上DDR 配置成64bit 位宽1333M,HyperLink 速率配置成10Gbit。

一些影响HyperLink 访问性能的因素在本节中将会被讨论到。

3.1 通过HyperLink 实现存储拷贝的性能

下表(表3)描述了使用HyperLink 在LL2 与远程大块线性存储空间进行数据传送测试获得的传输带宽。传输块的大小为64KB。带宽的计算是通过计算传输总的字节数除以传输所用的时间获得。

上述数据展示了cache 能够极大的改善DSP 内核通过HyperLink 读取数据的性能。

但是L2 cache 却遏制了通过HyperLink 写数据的性能,这是因为L2 是write-allocate cache。对于使能L2cache 后的写操作,它总是会先从将要写入的存储区读取128 字节的数据到L2cache ,然后在L2 cache 中修改数据,最后在cache 冲突的时候回写回到原先的存储区,或者人为的回写回原存储区。

上述EDMA 吞吐率数据是通过TC0 (传输控制器0)和CC0(通道控制器0)上测试得到,其他TCs的数据会比TC0 稍低。整个传输的瓶颈是在HyperLink,不是在EDMA 传输控制器上。

上述测试结果表明通过HyperLink 进行写操作的性能会比通过HyperLink 进行读操作的性能要好。

远程DSP 存储空间类型不会对带宽造成明显的影响。访问远程DSP 的SL2 会比LL2 快一些。

目前,通过HyperLink 来访问远程DSP 存储空间(相对其他接口)是具有最高的带宽性能的,但是访问远程存储空间比访问本地存储空间还是要慢。下表对比了访问本地LL2 和DDR 与远程DDR 的吞吐性能。

大体来说,对本地存储空间的写入吞吐率是对远程空间进行写入操作的吞吐率的3 倍。对远程空间的读性能会更差些。我们应该尽量避免远程读取数据。

3.2 DSP core 通过HyperLink 进行远程访问的延迟

DSP 核通过HyperLink 访问远程空间的性能高度依赖于cache。当DSP 内核通过HyperLink 来访问远程存储空间的时候,一个TR(传输请求)可能会被生成并传送给XMC(这取决于数据是否可以进入cache 和被预取)。TR 将会是下面中的一种。

.      一个单一的元素- 如果存储空间不能被cache 和预存取。

.      一个L1 cache line – 如果存储空间可以进入cache ,但是L2 cache 没有被使能。

.      一个L2 cache line -如果存储空间可以进入cache,同时L2 cache 被使能.

.      如果存储空间可以被预存取, 预存取将会被使能为一个预存取的buffer slot.

如果L1/L2cache 或者预存取命中,Hyperlink 端口不会有数据传输

远程空间数据可以被本地L1 cache/L2 cache 缓存,或者都没有被cache。如果对应存储空间的MAR(Memory Attribute Register) 寄存器上的PC(Permit  copy)位没有被置位,那么对应存储区的数据将不会进入cache。

如果MAR 寄存器上PC 位被置位,同时L2 的cache 空间是0(L2 被全部配置成SRAM),那么外部存储空间的数据可以进入L1cache。

如果MAR 寄存器上PC 位被置位,L2 的Cache 空间大于0.那么外部存储空间的数据就可以进入L1cache 和L2cache。

读取远程存储空间数据也可以使用XMC 中的prefetch buffer。该特性可以在MAR 寄存器PFX(PreFetchable eXternally)被置位后使能。

地址步进长度也会影响Cache 和Prefetch buffer 的使用效果。连续空间的访问可以最充分的利用cache 和prefetch buffer,从而达到更好的性能。

以64bytes 距离或者更大间隔进行步进访问将会导致每次L1 cache 命中失败(miss),这是因为L1 cache line 的大小是64byte。

以128bytes 距离或者更大间隔进行步进访问将会导致每次L2 cache 命中失败(miss)。

如果cache miss 发生,那么DSP 核就会被stall(等待数据)。Stall 的时间长度等于传输延迟、传输间隔,数据返回时间,cache 请求延迟的总和。

下面的章节描述DSP 内核通过HyperLink 访问存储区的延迟。测试伪代码如下列所示。

下图(图4)为1GHz C6670EVM 上配置DDR 64bit 1333M 测试获得的结果。通过HyperLink 实现512 次LDDW(load double word) 或者STDW( store double word)操作的性能测试。图4 绘制了各种测试条件下的性能。LDB/STB 和LDW/STW 和LDDW/STDW 的指令周期数相同。虽然cache 和prefetch buffer 可以被独立配置,但是测试的时候使用的配置是:如果cache 被使能,那么prefetch 也被使能,如果cache 没有被使能,那么prefetch 也没有被使能。

Non-cachable 写是post 操作。所以它只会stall DSP core 很短的一段时间。

但是read 是non-post 的,所以DSP 内核会等待数据的到来,所以它会stall DSP 内核相对长一点时间。

当cache 被使能后,DSP core 访问remote 空间的吞吐性能高度依赖于cache。

地址的步进间隔也会影响到cache 的使用。连续的地址访问可以充分的利用cache。但是地址的步进间隔超过case line 的大小(L1 case line =64Byte,L2 Case line =128Byte)将会导致每次cache 都无法命中,从而制约了性能。所以,对连续地址空间的数据访问(像大块数据拷贝),cache 需要被使能,在其他情况下cache 应当不要使能。

通过上面的图可以发现通过HyperLink 访问DDR,SL2,LL2 在性能上并没有明显的差异。所以,正常情况下,通过HyperLink 来共享DDR 是一个很好的选择,因为DDR 容量大,而且成本低。

3.3 HyperLink 传输使用DMA 方式的开销(overhead

初始延迟被定义为EMDA 事件触发到真实数据之间的传输开始之间的延迟。因为初始延迟很难被测量。所以我们就测试传输的开销,它被定义为传输最小单元数据的延迟。延迟的大小取决于源和目标端的类型。下表描述了使用EDMA 在1GHz  TCI6618EVM 不同端口间传输一个字(word)时,从EDMA 触发(写ESR)到EDMA 传输结束(读IPR=1)的平均指令数目。

表6 中,读Hyperlink 的延迟是853 个指令周期,写Hyperlink 的延迟是322 指令周期,因为写是post 操作,而读是non-post 操作。所以从HyperLink 端口读取数据的延迟要高于写入数据到HyperLink。

对于小批量数据传送,传输开销(overhead)是很大的顾虑,尤其是系统中队列DMA 阻塞的时候。单一元素的传送性能较差,延迟会占用大部分时间。所以,对于小批量数据传送,必须对使用EMDA 方式还是DSP 核方式来访问数据进行权衡。使用内核来访问单个随机数据的延迟会比DMA 方式延迟小很多。本文3.2 节已经做了详细的描述。

3.4 HyperLink 中断延迟

一个DSP 可以通过HyperLink 来触发另外一个DSP 的中断。通过HyperLink 传递中断的延迟通过下列的伪代码获得测量。

测试是在Loopback 模式下测试。

1GHz C6670 的测试结果是大概710 个DSP core cycles。

4、范例工程

本文的范例代码在C6670EVM 上通过测试。EVM 板子上有两个C6670 DSP,他们通过HyperLink 互联。

在这个例子中,DSP1 存储空间通过HyperLink 被映射到了DSP0 上。DSP0 通过HyperLink 窗口访问DSP1 的存储空间就像访问自己的本地空间一样。这个工程范例也支持loopback 模式。在loopback 模式下,DSP0 事实上是通过自己的HyperLink 窗口访问了自己的本地地址空间。

本例也演示了通过HyperLink 来实现中断传递。

工程代码的目录结构如下图所示。

  图  7  工程代码目录树

该示例代码同样可以在其他KeyStone DSP EVM 板上运行。只是如果板子上只有一个DSP 芯片,那么只能运行loopback 模式。

下表列出了KeyStone 工程的关键代码列表。

运行这个范例工程的步骤:

1. 连通CCS 与DSP EVM.

2. 下载代码到core 0 of DSP0.

3. 下载代码到core 0 of DSP1.

4. 先运行DSP1 , 然后运行DSP0. (如果EVM 上只有一个DSP,且运行在loopback 模式下,那么直接下载到DSP0,再运行)

5. 检测每个DSP 的stdout 窗口,验证测试结果。

典型的输出信息如下:

用户可以在HyperLink_Test.c 中的HyperLink_config()函数中修改初始化值,然后重新编译来验证在不同配置下的HyperLink 性能。

这个例子是在CCS5.1 下编译,使用pdk_c6618_1_0_0_5。如果在你的电脑上进行重新编译新的配置,你可能需要修改csl 包含路径。

参考资料

1. KeyStone Architecture HyperLink User Guide (SPRUGW8)

2. TMS320C6670 datasheet (SPRS689)

 

 

 

本站内容除特别声明的原创文章之外,转载内容只为传递更多信息,并不代表本网站赞同其观点。转载的所有的文章、图片、音/视频文件等资料的版权归版权所有权人所有。本站采用的非本站原创文章及图片等内容无法一一联系确认版权者。如涉及作品内容、版权和其它问题,请及时通过电子邮件或电话通知我们,以便迅速采取适当措施,避免给双方造成不必要的经济损失。联系电话:010-82306118;邮箱:aet@chinaaet.com。