深度学习芯片大战升温 英伟达 英特尔各出奇招
2016-08-19
英特尔IDF近日召开,深度学习成为一大重点。不料,英伟达掐准时间,在IDF举行同时发表官方博文,指出英特尔在宣传其最新 Xeon Phi 处理器加速深度学习性能时使用过时的数据,有意误导消费者,没有给GPU性能一个公正的评价。两大芯片巨头针对深度学习,矛盾凸显。华为传感器应用实验室首席科学家丁险峰认为,加速深度学习的能力是当前考察服务器综合性能的关键指标和最大卖点,长远看英特尔更具优势。
近日,英特尔开发者大会 IDF 在旧金山召开。昨天的会议 Intel Analytics Summit 几乎成了机器学习的主场。开幕主旨演讲中,英特尔执行副总裁 Diane Bryant 表示,如今数据正在成为制胜关键,“机器到机器之间交换的数据不断增多,我们必须应对拥有更多数据的未来”。
英特尔集团副总裁、数据中心解决方案团队总经理 Jason Waxman 介绍了 Penn Medicine 使用英特尔的 TAP 开放分析平台,提升病患的就医体验。顶级公司如今都在使用机器学习算法从数据中挖掘洞见。大会邀请嘉宾、埃森哲技术实验室的首席数据科学家 Saghamitra Deb 在演讲中介绍了如何使用人工智能阅读并批注文件,特别是医疗文件。
在小型讨论会上,英特尔 Fellow、主持人 Pradeep Dubey 回答记者提问时表示,机器学习的未来就是要多多关注深度学习,因为深度学习已经展现出强大的实力。《主算法》作者、华盛顿大学教授 Pedro Domingos 也应邀发表讲话,介绍了深度学习的历史。
近来,英特尔一直在持续推进数据中心和云计算方面的业务,当然也有物联网相关的芯片业务。但是,表现却没有如预期般顺利。为了获得更多订单,英特尔向死敌低头,与竞争对手 ARM 达成代工协议,英特尔未来将生产 ARM 设计的芯片,也将向第三方开放自家的芯片工厂,包括其10纳米生产线,制造基于ARM的智能机芯片。
可以看出,英特尔在 IDF 上正在全面拥抱深度学习。就在上周,英特尔宣布收购深度学习初创公司 Nervana Systems,也开始在深度学习专用芯片上布局。
然而,就在这个时候,英伟达在官方博客发表了一篇分析文章,直言英特尔在深度学习基准上面弄不清事实。
英伟达博文指出,“英特尔也开始做深度学习是好事,深度学习是人工智能时代最重要的计算革命,任何人都无法忽视深度学习。但是,他们应该把事实先弄清。”
有外媒评论,“或许英伟达在英特尔 IDF 举办同时点下‘发布’按钮并非巧合”,这家媒体还表示自己会拿着爆米花坐等后续。
这场论战究竟是怎么回事呢?
英特尔的挑衅
先把英特尔和英伟达的争论放一边,要说训练深度学习神经网络,GPU 是时下主流的选择,相信这一点应该不会有多少异议。
GPU 支持并行运算,而且计算精度没有 CPU 那么低——至于 GPU 将来是否会被其他处理器取代,暂时跟本文讨论的议题没有关系。
过去 5 年来,英伟达一直在深度学习领域默默投入,用 CEO 黄仁勋的话说,“把一切都赌在了深度学习上面”。
英伟达不仅针对深度学习优化 GPU,还开发了软件,让用户更加方便快速地训练神经网络。而这一点,也是大多数人用机器学习便首先选择英伟达而不是 AMD 的原因。
英伟达方面曾表示,与 Kepler 时代相比,Pascal 的配套软件让机器学习的性能提升了整整一个数量级。
不过,GPU 并非竞技场中唯一的玩家。在针对深度学习进行优化的硬件方面,有专注用 FPGA 加速深度学习的,也有像谷歌、CEVA 和 Movidius 那样,自己开发专用深度学习芯片的——至于英特尔,就选择把 Xeon Phi 里的十几个小核心(Bay Trail-T),由 Pentium 架构升级为 Atom 架构,从而与 GPU 相竞争(同时保持 Xeon Phi 的品牌不变)。
英特尔最近发表了关于 Xeon Phi 基准的一些数据,号称其“Many Integrated Core”(MIC)Phi 架构加速深度学习性能比 GPU 高出很多。
下面是英特尔的报告:
来源:英特尔报告 Fuel Your Insight
在发表的报告中,英特尔称:
4 个 Knights Landing Xeon Phi 芯片比“4 个 GPU”快 2.3 倍;
Xeon Phi 芯片在多个结点上最高可扩展率为 38%,而且最多可达 128 个结点(英特尔还指出,这对于 GPU 来说是不可能的);
用 128 个 Xeon Phi 处理器构成的系统比单个的 Xeon Phi 速度快 50 倍(言下之意是说 Xeon Phi 处理器扩展性很好)。
此外,这份报告中还指出,使用英特尔优化过的版本运行 Caffe 深度学习框架时,Xeon Phi 芯片比标准 Caffe 硬件要快 30 倍。
英伟达的回击
英伟达的论点主要在基准上面。英伟达在官方博客发表的文章中表示,英特尔报告中使用的数据来自过去的基准,在与 GPU 进行比较时,容易产生误导,因为英伟达的 GPU 从 28 纳米平面工艺升级为 16 纳米 FinFET 之后,在性能上有很大提高。不仅如此,英伟达在过去几年也针对不同的软件框架做了 GPU 的优化。
英伟达表示,英特尔使用的是18个月以前的 Caffe AlexNet 数据,比较的是 4 个 Maxwell GPU 和 4 个 Xeon Phi 处理器。如果英特尔使用更新一些的数据,就会发现 4 个 Maxwell GPU 比 4 个 Xeon Phi 处理器的速度快 30%。
不仅如此,英伟达还进一步指出,根据新的数据,由 4 个 Pascal 架构组成的 TITAN X GPU,速度是 4 个 Xeon Phi 处理器的 5 倍多。
英伟达的回应:根据新的数据,由 4 个 Pascal 架构组成的 TITAN X GPU,速度是 4 个 Xeon Phi 处理器的 5 倍多。
针对扩展性,英伟达指出,英特尔在比较时,给自己用的是最新的数据、最新的技术,而拿来比较的却是 4 年前推出的 Titan X 系统。
英伟达援引百度的数据,称语音训练在 128 Maxwell GPU 上扩展性能更好,几乎呈直线提升。
此外,英伟达在博客文章中还指出,对于深度学习训练,使用强的结点,哪怕数量少一些,也比使用很多个弱的结点效果要好。英伟达补充,其最新的 DGX-1 超级计算机的速度比 21 个 Xeon Phi 处理器都要快,是 4 个 Xeon Phi 处理器的 5.3 倍。
考虑到 OpenAI 上周才成为首家使用 DGX-1 系统的用户,英特尔在发布报告时没有使用 DGX-1 的数据也情有可原。但话说回来,Maxwell 系统确实挺老的了,英特尔使用最新的 Xeon Phi 处理器与隔了几代的 Maxwell 相比,其用意何在,细思……不得其解。
深度学习芯片大战升温
英伟达博客文章下读者评论:“究竟信谁的好?”
目前根据各种数据看,英特尔的 Xeon Phi 处理器在性能和软件支持方面,应该比 GPU 稍微弱一点。
不过,若真像英伟达自己所说的那样,一台 DGX-1 只比 21 个英特尔 Xeon Phi 快一点点,至少从价格上看,英特尔的 Xeon Phi 处理器显然更具有优势。
DGX-1 目前售价 12.9 万美元一台,而 Xeon Phi 处理器费用大约在 2500 到 6300 美元之间。即使用上了 21 台英特尔 Xeon Phi,按 6000 美元/台计算,整体价格也比买一台 DGX-1 更有竞争力。
英特尔前协处理器首席架构师、现华为传感器应用实验室首席科学家丁险峰认为,由于效益可观,加速深度学习的能力是当前考察服务器综合性能的关键性指标和最大卖点。
“目前,在深度学习加速这个单项上英伟达有很大的领先,在生态系统的布局已经有很多年,很多学者、数据科学家也非常熟悉英伟达的产品。英特尔能不能抢的一席之地,主要看英特尔能否搭建相同的开发环境。”丁险峰在接受新智元采访时表示。
“英特尔和英伟达两家公司未来会在分布式计算架构,内存与Cache之间吞吐能力,加速器与主CPU之间的链接这几个方向不断挖掘前进,在数据面、控制面、可扩展能力、编译器,多种算法的API等多方面展开军备竞赛。”
不过,丁险峰指出,“从长远看,英特尔的芯片架构设计与制程肯定领先,另外数据连接也可以实现在芯片内部,不需要板级连接,大大加强CPU与MIC的数据链接能力。”