GPU、低功耗推动Exascale级超级运算发展
2011-11-07
超级电脑的竞赛速度一再加快,但在朝百万兆级(Exascale)发展的道路上,却遭遇到功效、成本及资料安全性等重大挑战。
本月初,包括超微(AMD),Appro,Cray,PenguinComputing和Supermicro等公司,针对高性能运算(HPC)进行了讨论,而GartnerResearch副总裁暨分析师CarlClaunch将超级运算领域称之为一个“不断移动的目标”。
政府、企业和学术单位的资料都显示系统对速度的需求不断提高,Claunch说,这些系统必须应对日益增加的多种问题,从气候变迁到防御核武,甚至还包含了朝生物医学方面的发展挑战。
Exascale级运算,即每秒可进行10的18次方(quintillion)运算,已不再是科幻小说了,业界希望能在2018年实现,Claunch说。
事实上,超级电脑和高性能运算受业界重视程度日增,且其应用跨越众多产业,从核子物理到气候建模,甚至金融业都包含在内,而目前大家对超级电脑的一致问题,都集中在效率、密度和成本上。
“大部份的超级电脑采购者都受限于预算,”Claunch指出,尽管已经在运算建模方面居得了很大进展,且HPC的设计弹性也不断增加,但业界对更小、售价更低的系统需求依然强劲。
摩尔定律大幅改善了电晶体密度,但还有很多工作要做,与会的专家们指出,特别是在每瓦功率方面,如何将更多的电源转换为FLOPS运算速度是关键。
超级电脑的电源预算不断上升,而为了求取更高的效率,最终超级电脑的开发成本也不断提高。
例如,美国政府已增加了太空计划的投资金额,据报导仅2012年便将挹注1.26亿美元在Exascale级运算的开发上,以提升其在超级电脑霸主地位方面的竞争力。特别是中国和日本最近在太空领域也展现出积极态度。
Cray的HPC系统资深副总裁MargaretWilliams指出,“超级电脑是维持美国领先地位的关键之一。”她表示,Cray经常与美国政府官员接触,并游说美国能源部门投注更多资源在超级运算领域。“该领域确实需要大量的投资,”她强调。
尽管有些人认为美国并不需要做这些庞大的投资,但也有一些人表示,在HPC领域的投资最终将有利于整个产业发展,Supermicro公司行销暨业务开发副总裁DonClegg认为,争论终将平息。“今天的尖端技术就是明天的主流系统,”他说。
电力、地板空间限制
然而,尽管许多资金挹注在HPC领域,但仍有许多具潜力的超级电脑客户,仍然受限于电力甚至是地面放置空间,Claunch说。他补充道,发展HPC将可提高效率,从而获得巨大利益。
Supermicro的Clegg说,“”我们非常重视电源效率挑战。他进一步指出,“大家都更加关注电源,”Supermicro的目标是获得约94%的效率。“电源和冷却是最大的问题,”Clegg再度指出,冷却成本几乎是和性能的提升呈指数级成长,因此要达到有利的成本效益比更加困难了。
“目前我们缺乏足够的廉价电力让我们发展Eexascale级运算,除非我们做出一些重大的架构变化,”他说。
Appro公司的AnthonyKenisky同意,“电力是Exascale级运算面临的主要挑战。”
AMD院士暨技术长ChuckMoore说,希望实现Exascale级运算的人,可能要考虑到每Megawatt高达百万美元的花费。他补充说:Bulldozer或Interlagos处理器性能仍然不足,无法让我们达到Exascale级的运算目标。
Moore预测,或许至少要到2019或2020年,AMD的晶片才能提供足以让客户达到Exascale级运算的可编程水准,他并指出,GPU将成为其中的一大关键因素。
事实上,业界人士大多同意在超级电脑内使用GPU会是推动该领域前进的关键之一。
“在抒解瓶颈方面,GPU是异质运算相当重要的一部分,”Clegg指出,绘图处理器正成为建构异质运算的一项要素。尽管GPU近期一直是热门讨论议题,但Clegg仍抱持谨慎态度。“未来该领域是否100%都会是异质运算且基于GPU的?我不这么想,因为有一些应用会适合,但也有一些不会,”他说。
“此刻,GPU在HPC领域是相当流行的词汇,”PenguinComputing公司CEOCharlesWuischpard说。该公司以‘依照需求的模型’来执行超级运算。“对我们的大型系统而言,我们所做的每件工作事实上都涉及到GPU,但大多数并不是对大量市场。”
GPU在超级电脑领域站稳脚步
“GPU逐渐在超级电脑领域站稳脚步,”Cray的Williams同意,并表示她的公司已经开发出一些全球最快的超级电脑系统,并看到了GPU在该领域的重要性日益提升。今年五月,Cray发表XK6混合超级电脑,整合了AMD的多核心纯量处理器,及Nvidia的多核心GPGPU处理器器,达到了50petaflops的峰值性能,Williams并表示,该公司目前正在改良其Jaguar系统,预计将添加GPU。
Williams说,问题在于这个产业是否能让应用程式更轻易地存取GPU,而且更具功效。
Appro的Kenisky同意,“应用程式将是驱动GPU在此领域应用普及的要素,”他并指出,虽然已经看到对GPU技术越来越广泛的关注和需求,但该公司仍未看到GPU具有足够的影响力。
“GPU运算仍处于起步阶段,”Moore说。他表示AMD目前投注在GPU的发展工作将使其绘图处理器更像是向量电脑,这将更容易进行编程。“最好的东西还没到呢,他表示,该公司正试图让CPU和GPU之间的无缝切换更加简便。
另外,这次会议也讨论到了ARM架构。
“ARM只是缺乏x86的生态系统,”Williams说,而Cray并不指望ARM架构能在超级电脑领域快速起飞。
Kenisky则乐观多了,他表示Appro公司认为ARM可作为“补充解决方案”,特别是在超级电脑领域中以外的嵌入式管理部份。
“ARM在高度竞争的产业维持了良好的竞争力,”Moore表示,AMD认为ARM推动了创新,但他怀疑ARM的平台是否能在HPC领域扮演重要角色。
“在微控制器使用ARM核心是理所当然的,”Moore说,他承认ARM的平台表现良,但很快便会面临安达尔定律(Amdahl'sLaw)的局限性。
安达尔的论点经常被用来形容当希望最大幅度地改善整个系统时,该系统却仅有部分获得改善。
“x86将维持其作为超级电脑核心的地位,”Moore肯定道。
Clegg表示,对云端或HPC来说,现在还没有一个放诸四海皆准的标准。
讨论到在HPC和云端运算之间工作量差异时,与会人员同意,二者之间虽然有一些共通性,但在不同应用间应该采用何种模式仍然未有定论。