浪潮研成处理器协同芯片组 使西方禁运失去意义
2015-01-13
中国已经掌握了国际领先的32路高端容错计算机的核心技术,浪潮正在开发性能更高、可靠性更强的64路系统高端容错计算机系统,也将进一步拓展应用规模。天梭K1的目标市场份额是30%以上,同时把自主化进程向更深层次推进。
在国外严密的技术封锁和产业链高度垄断的情况下,浪潮依靠自主创新在高端容错计算机体系结构、操作系统、处理器协同芯片和硬件系统方面实现重大技术创新与突破,从无到有建立起高端容错计算机技术体系,并开创了高端容错计算机产业。
浪潮在高端容错计算机领域的主要技术突破可以概括为一个“211工程”:“2项核心技术”——体系结构和容错技术体系;“1个核心部件”——处理器协同芯片组;“1个操作系统”——K-UX。同时,在研制天梭K1的过程中,浪潮共申请发明专利1147项,目前获得授权100多项。
跨过“8”的门槛
高端容错计算机不仅可以通过处理器升 级来获得性能提升,还可以通过增加处理器数量来提高性能,但是当处理器数量超过8颗,就会碰到“内存墙”的问题。浪潮集团首席科学家王恩东表示,处理器要 协同工作,相互之间必然要通讯,而且处理器之间不仅要进行数据传递,更要保持数据一致,任何数据异步都可能会造成系统停机,这使得处理器通讯远比一般性的 通讯技术更为复杂。如果采用一般的处理器协同技术,当处理器数量超过8颗以后,大量的处理器资源都被通讯占用,继续增加处理器数量时,性能提高就会十分有 限。其直接的技术表现就是处理器读取内存数据延时过长,这个现象在专业领域被称为“内存墙”。
要破解天梭K1 面临的“内存墙”问题,只能创建一个全新的处理器互联结构和通讯机制。这是业界几十年来一直难以破解的难题,全球具有该项技术开发能力的公司不到5家。天 梭K1有32颗处理器、256个内存插槽,已经远远超过了初始的技术瓶颈。浪潮还创建了“三级目录两级缓存一致性域协议”,保证处理器数量增加时,系统通 讯规模和复杂度仅有较小增加。
浪潮基于上述自主的体系结构技术,研制成功处理器协同芯片组,让瓦森纳组织对中国的高端容错计算机技术禁运失去了意义。处理器协同芯片是计算机 中唯一复杂度可与处理器相比的芯片部件。浪潮研制的芯片组集成了4.5亿个晶体管,有2577根管脚,在中国集成电路产业没有设计生产如此规模芯片的先例 的情况下,该芯片达到了国际领先水平:支持64路处理器互连;报文处理能力40亿条/秒;聚合带宽达到1056Gbps;延迟小于200纳秒。
软硬一体的容错技术实现99.9994%高可用
高端容错计算机是专门承担关键应用系统的系统平台,一旦出现停机事故,将会严重伤害客户业务,甚至在社会经济层面造成影响。因此,能够提供99.999%的高可用性,可以7×24小时不间断运行是高端容错计算机最基本的应用需求。
天梭K1也必须对各类故障、隐患以及外部不利因素作充分的考虑。从可用性的角度看,研制高端容错计算机就像用积木来搭一个摩天大厦,必须开发出 一套完整的容错技术来消除每个可能出现的问题,保证系统运行的连续性。高端容错计算机大约有几十万个电子器件,目前品质最高的工业级电子器件平均无故障时 间在10000小时左右。另外,高端容错计算机的BIOS等底层代码有几千万行。最权威的Coverity Analysis集团数据显示,目前企业软件的缺陷密度为0.72,也就是说平均每1000行代码中会有0.72个缺陷,而任何一处不良代码都是潜在的隐 患。
浪潮最终创建了多层次冗余与故障管理容错系统模型,天梭K1在芯片、模块、固件、操作系统、业务应用层面全面采用冗余设计以杜绝单点故障,采用 故障诊断、隔离和恢复的全流程自动处理技术,系统可自我修复,整体可用度超过99.9994%。同时,天梭K1的容错技术经受住了实际应用的检验。 2010年8月,第一台天梭K1样机在建设银行新疆区分行启动上线测试,承担中间业务系统,成功替代国外产品。系统自上线以来,已经稳定运行1500余 天。
通过Unix 03认证的Unix操作系统
操作系统是硬件资源的管理者。高端容错计算机对性能、可靠性和安全性的要求都非常高,普通操作系统无法满足高端容错计算机的技术需求,需要专属的操作系统。
复杂度是高端容错计算机操作系统面临的第一个技术挑战。高端容错计算机处理器核、内存容量、I/O设备等资源的规模是通用服务器的十倍以上,操 作系统资源管理复杂性极大提升。容错是第二个重要的技术挑战。高端容错计算机系统不仅需要容忍几十万个器件的失效问题,也需要容忍难以控制的软件缺陷问 题。因此,需要开发复杂系统内核容错技术,快速准确地发现、隔离和恢复数百种软硬件故障,保障系统承载的关键应用稳定可靠运行。
浪潮最终研制成功中国第一款Unix 操作系统K-UX,在研制过程中共开发了3200 余项Unix特性,成功通过The Open Group Unix 03 国际标准认证的60000余项测试,并对该标准提出7项修改,且全部被纳入新的测试标准。通过UNIX 03认证,意味着K-UX进入了高端关键应用操作系统的俱乐部。
浪潮在K-UX中建立了多层次NUMA 域非对称资源调度技术体系,解决了大规模软硬件资源的高效率调用问题。其中,内核及共享库代码段多副本技术可以保证处理器尽可能地就近访问待执行指令,避 免跨节点远程取指,极大地降低了处理器间的通讯强度。通过实测,该技术可提升性能约160%。综合利用多层次NUMA 域非对称资源调度技术,实测该程序性能提升2.7倍。
浪潮还在K-UX中创建了复杂系统内核容错技术体系,解决了系统对软硬件故障的容忍和自动化处理问题。浪潮开发出应用透明的进程级冗余技术,系 统可识别关键任务并透明构造冗余进程,解决冗余进程间状态同步和I/O 一致性难题,构建内核级应用高可用机制,将业务失效切换时间由秒级大幅缩短至毫秒级。此外,还突破了设备驱动保护架构技术,为设备驱动提供隔离运行环境。 约80%的操作系统失效是由于设备驱动程序缺陷引起的,K-UX设计实现内核区域访问控制机制,阻断驱动程序缺陷污染内核的路径,从根本上解决了不良驱动 对系统的潜在威胁。