《电子技术应用》
您所在的位置:首页 > 嵌入式技术 > 业界动态 > 基于片内WISHBONE总线的高速缓存一致性实现

基于片内WISHBONE总线的高速缓存一致性实现

2008-08-29
作者:王科兵 郭松柳 汪东升1

    摘 要:基于IP可重用的设计方法,利用WISHBONE总线协议,把两个已成功开发出的具有自主知识产权的THUMP内核集成在一个芯片上,实现了片上多处理器" title="多处理器">多处理器FPGA。开发重点是实现基于片内WISHBONE总线的高速缓存一致性协议。
    关键词:WISHBONE总线  片上多处理器  高缓一致性  SOC  IP

 

    清华大学嵌入式微处理器芯片设计为国家重点863项目,单芯片" title="单芯片">单芯片多处理器设计为项目的一个延伸。单芯片多处理器是提高处理器性能的有效途径,具有低耦合度、粗粒度并行性的主要特点。清华大学已成功开发出具有自主知识产权的MIPS 4Kc架构的32位微处理器——THUMP107。该处理器具有内核性能高、面积小、功耗低的优点。使其经过裁减非常适合作为单芯片多处理器的内核。
    本次单芯片多处理器的设计将两个Thump107内核集成在一个芯片上,两个内核处于完全对等地位,实现进程级的粗粒度并行。由于已经具有可以利用的内核,开发的重点就集中在高速缓存(Cache)一致性的实现上。芯片采用了基于内部总线写更新监听的高速缓存一致性协议,具有控制逻辑简单、可扩展性好的特点。内部总线采用适合片上系统通信、高可配置性的WISHBONE总线。使用该片上总线有效地解决了IP核可移植性、设计复用的问题[2]
1 WISHBONE总线
    WISHBONE最先由Silicore公司提出,现在被移交给OpenCores组织维护。由于其开放性,现在已有不少用户群体。特别是一些免费的IP核,大多数都采用WISHBONE标准。该总线结构具有公用的接口规范方便结构化设计,有效地解决了IP核可移植性、设计复用的问题。
    WISHBONE总线为半导体内核提供了可配置的互连方式,能够使各种内核互连起来形成片上系统;WISHBONE总线具有很强的兼容性,提高了设计的可重用性;WISHBONE总线的接口独立于半导体技术,其互连方式既可以支持FPGA设备,也可以支持ASIC设备;WISHBONE总线协议简单、易懂。
    WISHBONE总线是一种主/从接口架构的总线技术,如果具有有效的仲裁机制,总线系统可以支持多个主/从接口;WISHBONE总线的可配置性主要体现在支持点到点、共享总线、数据流、交叉开关型的互连方式;WISHBONE总线协议既包含了一种容易使用、可靠性高、易测试、所有总线事务都可以在一个时钟周期" title="时钟周期">时钟周期内协同的同步传输协议" title="传输协议">传输协议,也包含了标准时钟周期的异步传输协议;WISHBONE总线的同步传输协议可以工作在一个大范围的时钟频率上。这样WISHBONE总线接口既可以与内核时钟周期同步,也可与不同的目标设备同步,时序都非常简单。此外,WISHBONE总线还具有如下特点:
    ·简单、紧凑的硬件逻辑接口,需要更少的逻辑门;
    ·支持流行的单字读/写、块读/写、读-修改-写的总线协议;
    ·可调整的总线和操作数位宽;
    ·支持大端(big endian)和小端(little endian)两种数据表示方法;
    ·握手协议能够控制数据传输速率;
    ·支持单周期数据传输;
    ·从接口的部分地址解码;
    ·根据系统需要,用户可自定义增加接口信号;
    ·系统包含多个MASTER接口时,用户可以自定义总线仲裁方式与算法。
2 实现方案
    单芯片多处理器的每个内核都有分离的16KB指令高速缓存(ICache)和16KB数据高速缓存(DCache);指令高速缓存和数据高速缓存都采用两路组相联的映射方式;每块都包含8个字;采用虚拟地址定位、物理地址比较的寻址方法;替换方式为LRU(最近最少使用替换)。
    指令高速缓存不涉及一致性问题,不多做说明。数据高速缓存采用基于监听总线的写更新一致性协议Dragon[3]
    协议状态说明见表1。

 


    确定一致性协议后,单芯片多处理器的数据高速缓存单元整体设计见图1。

 


    片内总线采用WISHBONE总线共享型连接,每个内核的数据高速缓存的控制单元都包含WISHBONE总线的一个主接口(MASTER)和一个从接口(SLAVE);数据总线为32位;地址总线为33位,其中最高位是两个从接口的选择位;片内总线采用预先同步传输协议;仲裁方式为轮换型;片外总线接口与广泛应用的工业标准SYSAD系统总线兼容。
    在UNCAHCE空间发生的读写操作,直接访问外部总线,与主存通信;在CACHE空间发生的读写操作,过程如下所述:
    读缺失:当一个内核的数据高速缓存发生读缺失,由本地主接口通过片内总线向远端数据高速缓存发出读请求,远端从接口通过片内总线应答请求。如果应答有该单元数据,就由远端数据高速缓存调来一个数据块" title="数据块">数据块(8个字);如果没有,本地主接口结束片内总线周期,转而访问外部总线,由主存调入数据。
    写缺失:内核发生写缺失时,前半部分的操作与读缺失完全一致;只是如果缺失单元是从远端数据高速缓存调来的,由于采用基于写更新的Dragon协议,所以在完成片内总线块传输事务后还要产生一个单字写总线事务,更新远端数据高速缓存单元。
    读命中:不会产生任何总线事务。
    写命中:如果该单元的原来状态是SC或SM,基于写更新协议,由本地主接口通过片内总线向远端数据高速缓存发出写请求,远端从接口通过片内总线应答请求。如果应答有该单元数据,则通过一个单字写总线事务更新远端数据高速缓存单元;如果没有,结束片内总线周期。
    替换:实现写回协议,只有被替换出的单元状态为SM或M状态,才通过外部总线更新主存,其他情况抛弃即可。
    注意:完成上述操作后要根据DRAGON协议,更新本地和远端DCahe单元的相关状态。
3 总线事务时序分析
    由前部分的说明发现在内部总线上可以产生三种类型的总线事务:读缺失时,块传输总线事务;SM或SC状态写命中时,发生单字写总线事务;写缺失时,先是一个块传输总线事务而后在本地写操作完成后,一个单字写总线事务更新远端的数据高速缓存单元。以下是块传输和单字写总线周期具体的时序分析,下文提到的具体信号其意义可以查阅参考文献[1]。
    块传输时序:主接口通过声明CYC_O申请总线的使用权,同时也给出STB_O、CTI_O(010)、WE_O?穴低电平?雪和ADR_O;经过若干时钟周期等待后,如果远端从接口给出ACK_I信号,同时给出的SHARE_I信号为低电平(说明远端数据高速缓存没有所需要的数据块,SHARE_I为自定义的信号),这时主接口忽略DAT_I信号,下一个时钟周期撤销CYC_O信号,结束片内总线周期;如果给出ACK_I信号的同时,SHARE_I信号为高电平(说明远端数据高速缓存有所需要的数据块),接收DAT_I上的数据;而后7个时钟周期内,每个时钟周期ADR_O数据加4,DAT_I上的数据根据地址相应地变化,在第7个数据传输的时钟周期CTI_O变为111,告诉远端从接口这是最后一个传输时钟周期,下一个时钟周期将完成这个总线事务;最后一个时钟周期主接口撤销CYC_O信号,结束片内总线周期。
    片内块传输时序见图2。

 


    单字写总线周期:主接口通过声明CYC_O申请总线的使用权,同时也给出STB_O、CTI_O(111)、WE_O(高电平)、ADR_O和DAT_O;经过若干时钟周期等待后,如果远端从接口给出ACK_I信号,同时给出的SHARE_I信号为低电平(说明远端数据高速缓存没有所需要的数据块),主接口下一个时钟周期撤销CYC_O信号,结束片内总线周期;如果给出ACK_I信号的同时,SHARE_I信号为高电平(说明远端数据高速缓存有所需要的数据块),说明从接口已经用DAT_O上的数据更新了相应的数据单元,下一个时钟周期撤销CYC_O信号,结束片内总线周期。
    单字写时序见图3。

 


    块传输总线事务时序图2,单字写总线事务时序图3中WAIT表示主接口等待总线仲裁和从接口的应答,需若干时钟周期,最快的情况下只要一个时钟周期。
    总线仲裁:如果两个数据高速缓存的主接口同时请求,由仲裁单元决定哪个主接口可以使用片内总线,仲裁的优先级算法是轮换法。数据高速缓存的主接口,在声明CYC_O申请总线后,如果ACK_I一直是低电平无效,但同时该数据高速缓存从接口的CYC_I信号有效,说明数据高速缓存主接口没有得到总线使用权,主接口撤销CYC_O信号,该数据高速缓存响应从接口的操作,操作完成后,主接口再次声明CYC_O信号请求总线;相反,如果数据高速缓存主接口的ACK_I信号高电平有效,说明得到了总线使用权,可以使用总线。
    综上所述,片内总线采用WISHBONE总线地址增量的传输方式,与内核时钟同步,最快可以在9个时钟周期从另一个数据高速缓存调来一个块(8个字)的内容,可在2个时钟周期更新远端数据高速缓存的一个相关单元;数据高速缓存实现写回、写更新机制,减少了向外部总线写操作的频度。该结构具有可扩展性,只要把片内WISHBONE总线的地址线的位数扩展(用于选择多个从接口)就可以把多个内核集成在该芯片上,协议无需变化。该种体系结构运行两个耦合度很低的程序,性能最好。
    该方案利用WISHBONE总线,基于监听总线的写更新一致性协议,把两个IP核集成在一块芯片上,实现了单芯片多处理器结构的FPGA。该体系结构采用开放的片上总线标准,具有公用的主从接口规范,实现了IP核可移植性,具有设计可复用的优点。
参考文献
1 李乙成,周祖成,陈尚松. SoC片上总线技术研究.半导体技术,20003;28(2)
2 David E. Culler,Jaswinder Pal Singh,Anoop Gupta.Parallel  Computer Architecture A Hardware/Software Approach.北京:机械工业出版社,1999

本站内容除特别声明的原创文章之外,转载内容只为传递更多信息,并不代表本网站赞同其观点。转载的所有的文章、图片、音/视频文件等资料的版权归版权所有权人所有。本站采用的非本站原创文章及图片等内容无法一一联系确认版权者。如涉及作品内容、版权和其它问题,请及时通过电子邮件或电话通知我们,以便迅速采取适当措施,避免给双方造成不必要的经济损失。联系电话:010-82306118;邮箱:aet@chinaaet.com。