德国埃尔朗根-纽伦堡大学采用浪潮GPU服务器构建Alex集群
2022-06-17
来源:21ic
北京2022年6月14日 /美通社/ -- 近日,浪潮信息携手欧洲HPC方案提供商MEGWARE,为德国埃尔朗根-纽伦堡大学(Friedrich-Alexander-Universität Erlangen-Nürnberg,简称FAU)高性能计算中心提供GPU服务器,助力FAU科研能力提升。目前,由浪潮GPU服务器提供强大算力的Alex集群已经全面投入运行,在机器学习、分子动力学等科学研究方面提供了超出预期的性能表现。该集群是目前世界上最强大、最节能的集群系统之一,入围TOP500和Green500榜单。
FAU是欧洲领先的研究型大学,位居路透社欧洲最具创新力大学榜单第二名,因其在材料科学、化学、生命科学、计算机科学和生物医学工程等领域的成就而闻名于世。该校建校以来产生过4位诺贝尔奖得主,培养了众多优秀的科学家、工程师和医学家等。近年来,FAU积极推动机器学习在各研究领域的广泛应用,特别是在计算机科学,同时还通过分子动力学支持复杂的物理模型数值模拟,而这些研究项目带来了算力需求的指数级增长。
为了满足科研所需的大规模并行计算需求,FAU积极推进高性能计算中心建设,规划了该校历史上最大规模的计算集群,并命名为"Alex",为科研项目提供更充沛的高性能算力。同时作为"德国HPC基础设施联盟(NHR Alliance)"的一部分,新集群也将向德国其他大学的研究人员开放。浪潮信息和MEGWARE的联合解决方案凭借强大的GPU服务器、系统集成、性能优化等方面的突出表现,在全欧洲范围的招标中脱颖而出,成功斩获该项目。
"Alex"集群是FAU高性能计算中心的核心基础设施,主要用于处理机器学习、分子动力学模拟等应用快速增长的算力需求。"Alex"是目前世界上最强大、最节能的集群之一,入选TOP500和Green500榜单,采用浪潮NF5488A5和NF5468A5 GPU服务器,共提供256颗NVIDIA A100 Tensor Core GPU和304颗NVIDIA A40 Tensor Core GPU,可实现极高的GPU计算性能。除了海量的GPU资源,"Alex"还搭载了140颗AMD EPYC 7713 CPU,总内存容量接近50TB。集群通过高速HDR InfiniBand网络互连,实现顶级通用计算性能和出色AI性能,可满足大量专业研究软件的需求,支持海量机器学习数据、分子动力学模拟,提升训练效率。
浪潮GPU服务器是Alex集群的基础组件,提供强大的计算性能。面对机器学习和化学应用的挑战,浪潮NF5488A5服务器在4U空间内配置了8颗NVIDIA A100 GPU和2颗64核AMD EPYC 7713 CPU,使用NVSwitch GPU互联。这种设计在提供强大计算性能的同时,降低了运维成本,并且便于安装。在应对分子动力学应用需求方面,浪潮NF5468A5服务器在4U空间内支持8颗NVIDIA A40 GPU和2颗AMD EPYC 7713处理器,CPU和GPU采用PCIe 4.0高速接口直连,无需使用PCIe switch,降低了CPU和GPU之间的通信延迟,提高了计算性能。
浪潮信息与MEGWARE联合打造的HPC方案大大提升了FAU的科研能力。浪潮信息为FAU提供了优化的硬件,如浪潮旗舰服务器NF5488A5和NF5468A5,让FAU的模型训练和推理性能相比最初预期性能提升了115%。使用浪潮GPU服务器的Alex集群现已成功运行Tensorflow、PyTorch等机器学习应用,Quantum Espresso、VASP等化学应用,以及NAMD、LAMMPS、AMBER、GROMACS等科研软件,让FAU和其他德国大学的研究人员能够在科学探索的最前沿开展研究。
浪潮信息是全球领先的AI服务器厂商,拥有丰富的AI计算产品阵列,并和AI客户紧密合作,帮助其在语音、语义、图像、视频、搜索等各方面取得数量级的AI应用性能提升。据IDC报告显示,浪潮信息在全球AI服务器市场份额位居第一。