中美争夺超算领导地位 因由何在?
2018-07-24
作者:王伟
超级计算(Supercomputing)这一名词在1929年首次出现在《纽约世界报》关于“IBM为哥伦比亚大学建造大型报表机(tabulator)”的报道中。超级计算机的定义是由数百个以上处理器组成的,能够完成计算普通PC机和服务器不能完成的大型、复杂课题的计算机。以2017年生产的笔记本电脑或个人台式机主流配置作参照,我国运行速度最快的神威·太湖之光的运算能力相当于200多万台普通电脑。超级计算机的运算能力由此可以见一斑。所以说,超级计算机是妥妥的“大国重器”,谁掌握了超算能力,谁就在科技领域占据了一个制高点。
一个国家的超级计算机实力与其发展息息相关。经济发展产生了很多需求,如天气预报、风洞实验、航空航天等,需要具有更快处理数据能力的超级计算机。当某个国家拥有一台世界排名第一的超级计算机时,意味着这个国家一切繁复的运算、模拟将比其他国家更快、更准确,相应地最终设计制造周期将大幅度缩短,无论是在军用还是在民用上都将获得无可比拟的领先优势。这也就难怪各科技强国都不遗余力得在此领域加大投入,不断冲击世界超级计算机之巅。其中美国和中国无疑居于领先地位。
自1993年有了TOP500超算排名之后,美国多年来一直垄断着TOP500超算冠军,在数量上也占据绝对优势。不过最近十年来中国已经成功实现追赶并超越美国,入围TOP500的超算越来越多,尤其是最近5年10届TOP500冠军先后被我国的天河二号和神威·太湖之光所夺得。目前我国计算速度最快的神威·太湖之光具有93 PFLOP(1 PFLOP 等于每秒一千万亿次的浮点运算,也就是9.3亿亿次每秒)的极限性能,相当于美国能源部下属橡树岭国家实验室开发的Titan(18 PFLOP)超级计算机的5倍。直至今年的6月份,美国能源部下属橡树岭国家实验室的新一代超算Summit击败此前曾四连冠的神威·太湖之光,一举占据冠军位置。
未来超算的性能竞争将集中到每秒百亿亿次
Summit 的出现将超级计算机的峰值运算速度提高到每秒百亿亿次。全球超级计算机的竞赛提前几年进入E级竞赛阶段,美国和中国领先。美国正在研究开发几台这样的机器,每台机器的成本可能在4亿美元至6亿美元之间,并且得到了英伟达、IBM 以及英特尔等公司的合作帮助。美国的目标是在2021年和2023年之间完成使至少一台“百亿亿级”计算机。
按照中国的时间表,中国最早有望在2020年发布E级超算。目前中国同时启动了三大E级超算原型系统的研发,分别是国防科大和天津超算中心的“天河三号”、中科曙光的E级超算,以及江南所和济南超算中心的“神威”E级超算。
国家超算无锡中心主任杨广文也曾透露,“神威·太湖之光”新一代百亿亿次超算的研制已经列入国家“十三五”规划,并以“神威”“曙光”“天河”等系列超级计算机为龙头开展研制,有望在2020年左右推出首台国产百亿亿级次超级计算机。
“天河一号”研发部部长孟祥飞在十九大“党代表通道”上透露,他们正在进行百亿亿次超级计算机的研发,预计2020年研制成功。曙光的Torus技术可以说是为E级计算而生的。Torus网络架构本身的密度高扩展性好,横向扩展的成本增长呈直线型,更像是横向扩展的一个状态,更适合在大规模节点的范围中使用。
人工智能应用的超级计算机应该成为竞争焦点
橡树岭的研究小组说,Summit是第一台既支持传统计算也支持运行人工智能应用的超级计算机,比如机器学习和神经网络等运行都可以在其上实现。Summit基于 IBM在2017年12月于北京所发表的最新一代 Power PC 9216 架构,与多达 27648 个 NVIDIA GPU 组合而成,目的在于解决目前机器学习与神经网络等 AI 应用的性能瓶颈。
高性能计算机就是为人工智能而生的。当年的超级电脑“深蓝”在国际象棋上打败卡斯特洛夫。十年后,人工智能Alpha GO才在围棋上击败了李世石。超级计算机与AI结合的前景被业界普遍看好,确实非常值得期待。
中国在AI芯片、AI算法、大数据积累、算力等方面都具有发展潜力,完全可以在AI应用的超算竞争中,达成科技与商业的完美结合的大目标。