用蛀洞路由器ST_C104构造全互连多机并行系统
2009-06-08
作者:吴少军 王仕成 王宏力 邓方林
摘 要: 采用蛀洞路由机制是新型多计算机并行系统的重要特征,介绍用蛀洞路由器ST_C104构造全互连多机并行系统的方法并给出构造实例,证明它具有并行效率高、通信速度快、拓扑结构可变、扩展性强等特点。
关键词: 多计算机 并行 蛀洞路由 ST_C104
近年来,在高性能并行计算机系统中,分布存储型的多计算机系统的研究与应用得到快速发展。MPP(Massively Parallel Processors)系统属于一种松散耦合的计算机系统,它一般由数十台至百台以上计算机结点和高速互连网络组成,由于没有共享内存,各结点之间通过互连网以消息传递的方式相互通信,各结点间既相互独立又可相互交流、共享信息,它非常适合目前各行各业方兴未艾的网络发展的需要。新型的由硬件支持的路由技术特别是蛀洞路由器的出现,使多计算机系统的网络互连变得更加灵活方便,更为重要的是大大减小了通信时延,使远程通信时延和本地通信时延一样,即通信时延与两个结点之间的距离无关,从而大大提高了多计算机并行系统的通信效率。
本文介绍采用蛀洞路由器ST_C104构造全互连多机并行系统的方法,我们将该技术应用于“长缨-III分布式并行仿真计算机系统” 的研制中,取得了良好的效果。
1 ST_C104的结构与特点
ST_C104是SGS-THOMSON公司于1996年推出的32×32高速异步网络开关,是专门为多CPU间互连而设计的系列产品之一,其结构如图1所示。
ST_C104具有如下主要特点:
·支持蛀洞路由方式,且可传递任意长度的信息包(Packet);
·时延小,不大于1μs;
·通信速率为32×100Mb/s,通信带宽达300MB/s;
·支持虚拟通道和自适应寻径;
·具有硬件出错处理机制(Fault Tolerant Network);
·提供2对控制链Clink,用于初始化及出错处理;
·提供32对数据链Dlink,用于数据传递及校验。一个C104最多可直接连接32个满足Link协议的CPU(如T9000等),也可通过与高速链路适配器ST_C101相配合,实现与任意型号CPU的连接;
·在线编程,可动态改变网络拓扑结构;
·可无限级连。
2 基于ST_C104的多计算机系统
对于一般的CPU,因为外部数据线多为并行总线,且时序、协议各不相同,因此与C104连接时需要利用C101进行链路适配,如图2中小框所示,而对于具有Link协议的CPU,可直接与C104相连,不需加C101。一个C104最多可连接32个CPU,如果不需要那么多的CPU,或希望提高链路通信带宽,则可减少CPU数量,而将C104的多个链路分配给同一个CPU,如图2中#30节点,它占用了3根Link,双向带宽达600Mb/s。
图2中各个CPU的地位是完全相同的,每个CPU既可做为主控结点,也可做为从结点。将一个或多个任务按一定策略划分后分配到各个结点,所有结点可同时进行工作,各结点之间通过C104为媒介进行实时通信,因此该多机系统是全互连的、并行的。
一般将由一个C104相互连接的结点合称为一个机群,如图2中的全部1~30个CPU结点机即构成了一个机群。
3 ST_C104的级连与扩展
C104采用蛀洞路由方式寻径,通信时延小,且与结点间距离无关,因此理论上C104可无限级连构成一个任意大的MPP系统。但实际上任何系统级连的数量与其性能都不可能永远线性地增加,而是有一个平台,在此之后,系统性能增长缓慢。事实上,在现实应用中对系统规模一般也是有限的,图3是用6个(可继续扩展)C104构成的平面拓扑结构的多机系统。
图中将C104相连的实线表示数据链,虚线表示控制链,控制链的连接顺序是任意的,不同的连接顺序即可得到不同的网络拓扑结构。可见C104间所需连接的线很少,它们的互连是非常简单的。图中每个C104用于与其它C104互连占用了4根数据链,因此还可以连接28个其它CPU结点,即构成了一个由6个机群组成,而每个机群可各带28个CPU结点的并行机系统。
可扩展性是多机并行系统的重要性能之一,C104的互连简单,其扩展功能非常强大,例如可轻易扩展成环形结构、二维网络结构、立方体结构、三维超立方体结构等多种拓扑结构,这里不再重述。
4 ST_C104应用实例
我们以C104为核心构造了“长缨-III分布式并行仿真计算机系统”,它主要是针对部队对仿真计算机小型化(机动性强)、高速高精度、伸缩性好、环境适应性强等要求而设计制造的。该系统由6个C104构成的6个机群及1个I/O子系统组成,每个机群包含9个结点,其中8个计算结点(即CPU结点),1个I/O通信结点,总共为48个计算结点,6个I/O通信结点。为了增加机群间的通信带宽,机群之间的互连用了5根数据链,通信带宽达1000MB/s,如图4所示,图中小方块表示1个计算结点,小圆圈表示I/O结点。
每个计算结点中,CPU采用Intel公司高性能RISC微处理器I860,其主频为40MHz,单精度峰值运算速度为80Mflops,双精度峰值运算速度为60M flops,DRAM采用单体结构,页方式(Page Mode)工作,字长64位,每页4K字节。其它辅助电路包括8MB~16MB的动态存储器DRAM、64KB的只读存储器EPROM(用于存放初始引导程序)、定时电路TIMETR、中断控制电路INTER、2个高速并行Link适配器C101(用2个C101并在一起,是为了得到64位的通讯带宽)组成,如图5所示。
I/O通信结点形式有多种,可根据用户任务的需要进行选择,目前应用的有2种:(1)多总线通信板。用于与普通PC机或工作站间的通信,适用于AT、ISA、PCI、VME协议的插槽,并行机在运行过程中可与任何具有上述协议的计算机进行实时通信;(2)A/D、D/A通信板。用于并行机与外界实物数据采集或输出系统间的通信,可并行或串行通信,分别适用于高速、近距离与中速、远距离通信的场合。长缨-III并行计算机具有非常强大的I/O接口能力,且扩展性强,目前已配备了16路16位A/D与16路16位D/A,在并行通信方式下,相距100m时一组A/D、D/A数据与并行机通信时间小于45μs,完全突破了目前业界通信时间在ms级的瓶颈。
总之,ST_C104是网络互连专用产品,我们在应用中发现它确实具有优秀的互连能力,用它设计的“长缨-III分布式并行仿真计算机系统”采用的CPU性能并不高,但构成MPP系统后表现出了很高的并行效率,系统性能稳定,使用简便,其主要性能指标如下:
·单精度浮点运算速度:38.4亿次/s;
·双精度浮点运算速度:21.6亿次/s;
·系统总存储容量:6×64Mbyte;
·机群间通信带宽:1000Mbits/s;
·结点间通信带宽:200Mbits/s;
·I/O接口配置:16路16位A/D,16路16位D/A;
·多总线通信板:可直接与外部计算机的AT、ISA、PCI、VME总线通信;
·软件配置:并行C,并行FORTRAN,并行程序开发环境。
“长缨-III分布式并行仿真计算机系统”在战略战术导弹的闭环动态测试、导弹射前仿真与修偏、大型武器系统性能评估与决策、气象数据处理等领域均获得良好运用。
参考文献
1 SGS-THOMSON Co.ST_C104 DATA BOOK.1997-06
2 SGS-THOMSON Co.Transputer Development System.1997-06
3 吴少军等.长缨-III分布式并行仿真计算机系统研究报告.1998