Graphcore MLPerf V2.0提交结果：AI性能大幅提升，Bow IPU系统现已可用-AET-电子技术应用

Graphcore MLPerf V2.0提交结果：AI性能大幅提升，Bow IPU系统现已可用

日期： 2022-07-19

来源：电子技术应用

关键词： Graphcore MLPerf IPU 人工智能芯片

近日，英国人工智能芯片硬件设计初创公司Graphcore发布其参与MLPerf测试的最新结果。相较此前，新发布的Bow系统本次在图像分类模型ResNet-50和自然语言处理模型BERT上分别实现了高达31%和37%的性能提升。此外，还新增了语音转录模型RNN-T的提交。

Graphcore本次提交有三点值得关注：

1. 提交了不同规格和尺度的Bow IPU计算平台，包括Bow Pod16、Bow Pod64、Bow Pod128及Bow Pod256，取得令人欣慰的成绩；

2. 经过两年的迭代和打磨，公司的软件已可以较为快速地接入不同的软件框架。除NVIDIA之外，Graphcore是为数不多具备足够软件成熟度的芯片公司，这是一个重要的里程碑；

3. 在投入大量人力、物力资源对硬件、软件、模型进行优化的同时，公司持续推进客户业务工作，致力于将算力转化为客户的价值。

图片1.png

Graphcore中国工程副总裁、AI算法科学家金琛以上述三点为中心展开详尽介绍。

首先，作为MIMD架构的图处理器，Graphcore的芯片是多核的，共1472颗。每个核都有自己的SRAM，是一个多核分布式、片上内存分布式的多指令多数据处理器。除了支持NVIDIA、谷歌、英特尔等公司能够支持的模型之外，Graphcore还能够让这些模型在IPU上也同样高效运行。因此，虽然公司的技术路线有所不同，但依旧可以取得好成绩，并且拥有更多可能性。

（注：这里的图处理器不是矢量处理器，而是基于AI计算图的处理器，所以支持运行一些矢量处理器运行效果不佳的应用场景。）

图片1.png

另外，Graphcore在软件和产品方面进展丰富。据介绍，IPU-POD计算平台发布于2020年第四季度，当时软件栈为SDK 1.4。经过几代IPU-POD平台的演进，Graphcore在软件上进行了大量优化（从SDK 1.4到SDK 2.5）,提升了对不同的AI框架的支持，例如TensorFlow、PyTorch和百度飞桨。同时，也提供了对高层的开源框架的支持，使开发者可以通过这些高级API快速构造模型。

平台方面，公司在今年第一季度发布了最新的基于Bow芯片的Bow Pod平台，这也是本次MLPerf 2.0主要提交的计算平台。“我们在两个月的时间内把新发布的产品转化为实际的性能以及用户可以使用的价值，这对Graphcore来说是一个特别大的收获。”金琛表示，“我们在去年7月提交了MLPerf 1.0，当时使用的是SDK 2.1。在提交MLPerf 1.1时，我们横向扩展到了IPU-POD128和IPU-POD256。现在使用新一代的芯片迭代，基本上每半年就会有一个特别大的提升，对于一家拥有七百名员工的芯片公司来说，这个迭代速度也是相当惊人的。”从使用SDK 1.4的IPU-POD16在ResNet-50模型进行训练，到如今使用SDK 2.5的Bow Pod256在ResNet-50模型上进行训练，Graphcore的客户获得了整体高达64倍训练时间的提升。

图片1.png

Graphcore本次提交产品的规格(从左到右,训练时间尺度从小到大，算力从低到高)

在模型提交类别上，ResNet-50和BERT是标准提交的集合。此外，公司在语音方面开放分区提交了RNN-T（Recurrent Neural Network Transducer）。“这是始于我们客户的项目，提交开放分区一方面可以促进MLPerf模型的迭代，另一方面也可以让其他有类似业务需求的客户了解到我们的性能指标，这对我们来说是比较有意义的。”金琛表示。

图片1.png

MLPerf V2.0提交结果出炉，Graphcore AI性能再创佳绩

图片1.png

Bow Pod在ResNet-50上的提交结果。2021年底，Graphcore提交过一次ResNet-50。在NVIDIA的DGX-A100和IPU-POD16的对比上，后者超过NVIDIA，IPU-POD16耗时28.3分钟。本次提交结果为19.64分钟。而在Bow Pod256上，训练时间仅需2.67分钟。

“从几年前的1小时到现在的只需大概3分钟，这就是算力的进步给模型迭代带来的红利。”金琛讲道。

图片1.png

Bow Pod在ResNet-50上的提交结果。从Bow Pod16到Bow Pod256，也存在一个线性提升。

图片1.png

与2021年提交ResNet MLPerf结果的对比。从IPU-POD16到Bow Pod16的训练时间提升了31%；吞吐量的提升约为1.6倍，其中1.3倍来自硬件提升，1.26倍来自软件提升。Bow Pod256提升了接近30%。

“系统越大，越难提升。我们在大尺度的系统上做了很多通信库，做了很多集合通信（Collective Communication）上的优化，使得在大尺度系统上的表现也有类似的同比例提升。”金琛解释。

图片1.png

与2021年提交BERT MLPerf结果的对比。训练时间提升了接近37%，吞吐量提升了1.6倍。

本次MLPerf提交中，首次有第三方使用了Graphcore的系统。百度飞桨使用Graphcore系统进行了BERT的提交，并展现出和Graphcore的BERT提交几乎一致的性能，证明了Graphcore的IPU所提供的性能可以有效地跨框架复现，以及IPU生态进一步繁荣的潜力。

“我们与百度飞桨联合提交的结果也十分喜人。PopART是Graphcore自研的框架，是基于芯片所构造的高效的训练推理引擎。百度飞桨使用Bow Pod16和Bow Pod64进行了BERT在封闭分区的提交，结果与Graphcore使用PopART进行提交的结果几乎一致。此次联合提交一方面证明我们的软件栈非常成熟，能够快速对接一个新的AI框架；另一方面也证明百度飞桨的框架非常高效，没有任何性能侵入式的设计。”

图片1.png

此外，金琛还谈及Graphcore在价格方面占据的优势。

图片1.png

“以DGX-A100为参考，在ResNet-50模型上，Bow Pod比DGX-A100快了约30%。如果用大尺度计算平台，比如8台DGX-A100和Bow Pod256相比，性能对比约为6x：10x，而Bow Pod的价格又远远低于DGX-A100的8倍。”金琛指出。

Intel HLS-Gaudi2在本次提交的性能表现也非常不错，但因未公布价格，无法定位他们在价格图谱上的位置。

将算力转化为客户价值

图片1.png

黄标为Graphcore历届提交的MLPerf模型；红标为客户需求所带来的模型迁移。

图片1.png

部分客户成功案例展示。

Graphcore + Aleph Alpha，强强联合就模型创新开展合作

图片1.png

横轴为2016年至2024年；纵轴为模型计算量。

“从2018年BERT-Large的3.3亿到2020年GPT3 1750亿的模型规格，在短短两年的时间内这个模型就增长了500倍。再到2021年，悟道2.0的1.75万亿和Google Switch Transformer的1.6万亿，一年时间增长了10倍。我们预计未来两到四年也有百倍的增长，基本上达到相当于人脑的100万亿规模，在算力上远远达不到指数增长的趋势。有什么办法能够尽量接近模型增长的速度？这是我们接下来想考虑的问题。”依据上图，金琛讲道。

图片1.png

Aleph Alpha是一家成立于2019年，总部位于德国海德堡的人工智能初创公司。它的创立旨在改变欧洲的人工通用智能（AGI）研究与应用。据介绍，未来Graphcore和Aleph Alpha将依据各自优势强强结合，对大模型、大算力做出联合贡献。

与百度飞桨联手闪耀MLPerf，开启全球范围首次双方共同提交先例

图片1.png

百度飞桨对接硬件厂商的适配统一方案。

“Graphcore给我们提供了一个新的思路——以子图或者整图的方式，跟硬件厂商做高效率对接。最终的成果大家可以通过MLPerf看到，无论是基于PopART的成绩还是基于百度飞桨的成绩，基本上性能一致性是比较高的。”百度飞桨产品团队负责人赵乔表示。据介绍，Graphcore是首家在训练场景中和百度飞桨对接的硬件厂商，帮助后者在这一过程中使软件栈得到更好的升级。另外，双方本次合作也开启了全球范围内首次双方共同提交的先例。“这个过程有很多技术上的合作，也在MLPerf的规则内收获了一些来自MLPerf整个组织的官方认可，同时这个过程也存在很多不确定性以及挑战。”赵乔表示，“在与Graphcore合作的整个过程中，我们也感受到无论是Graphcore本地的工程、营销团队，还是国际团队，都非常崇尚技术，非常开放，并且抱有一个愿意紧密合作的态度，所以我们以很高的效率，大概一个季度多一点的时间，就完成了整体的联合提交。”未来，Graphcore将与百度飞桨在AI Ecosystem的共创方面，以技术为核心，在生态、产业、社区方面开展更多合作，推动AI产业变革。

图片1.png

1文章最后空三行图片 (1).jpg

原创声明：此内容为AET网站原创，未经授权禁止转载。

Graphcore MLPerf V2.0提交结果：AI性能大幅提升，Bow IPU系统现已可用

日期： 2022-07-19

来源：电子技术应用

相关内容