NVIDIA发布Volta架构的“核弹”旗舰计算卡Tesla V100
2017-05-11
在GTC 2017大上,NVIDIA正式发布了史上最强大的“核弹”--旗舰计算卡Tesla V100。Tesla V100是基于Volta架构的产品,内置了5120个CUDA单元,核心频率为1455MHz,搭载16GB HBM2显存,单精度浮点性能15 TFLOPS,双精度浮点7.5 TFLOPS,显存带宽900GB/s。此外,Tesla V100还增加与深度学习高度相关的Tensor单元,Tensor性能号称可以达到120 TFLOPS。
如此“堆料”让Tesla V100拥有超过210亿个晶体管,核心面积达到了创纪录的815平方毫米,采用的是12nmFFN工艺制造(其实是16nm深度改良)。NVIDIA表示,Tesla V100将首先用在用于深度学习超算DGX-1上,内部拥有8张Tesla V100计算卡,峰值计算性能高达960 TFLOPS,号称用8个小时就能完成TITAN X八天的工作量。
为什么深度学习和存在许久的 GPU 扯上了关系?就像黄仁勋说的, “人工智能带来了人类历史上最大的科技进步。”深度学习是一个人工智能开创性的方向,让计算机可以自己学习,这就极大地要求了处理性能的提升。事实上,由于GPU适用于并行计算(用上千个非常小的处理器组合在一起来共同解决问题),它可以用于非常密集的训练,非常符合深度学习网络的计算特征。所以,大部分的深度学习网络都是在 GPU 上运行。
不过尽管 GPU 被证明非常适合并行处理,但是也有不少研究表明,最终业界还是会需要专门为 AI 设计的架构。早就看到这一点的黄仁勋怎么可能让 Nvidia 光躺着数钱呢?尽管别家都还没能跟上,但他就已经带着英伟达率先往这个方向走了。在今天的演讲里,黄仁勋宣布推出了 Volta —— 一个可以说是现在地表最强的 GPU 架构,专门为人工智能和高性能计算打造,重新又掀起了一场(对手只有它自己)的性能大战。
尽管仍然被称为 GPU,但是 Volta 远不止于此。除了加强了 GPU 架构以外,英伟达还增加了640个新的张量内核,与标准GPU CUDA核心配合使用,为深度学习环境添加额外的处理能力。黄仁勋说,英伟达超过7000名工程师花费了超过3年的时间,才打造出了 Volta,来满足深度学习的需求,让工业界有机会去实现人工智能的颠覆性的潜力。
Volta 到底有多强?可以用数字来说话:作为英伟达第7代 GPU 架构,它是集成了210亿晶体管,具有 5120 个 CUDA 处理内核,可以和100台 GPU 在进行深度学习处理上的性能相抗衡;相比起前一代的Pascal ,它有了5倍的性能提升,而比起两年前才推出的Maxwell 架构,性能提升了15倍!
这个性能表现比起摩尔定律能预测的,直接翻了4倍。(事实上,在这个方面,英伟达永远都是在和自己较劲)。
开发者,数据分析师和研究员们都越来越依赖于神经网络来驱动他们所有的工作,比如自动驾驶,环境保护,农业生产甚至是癌症攻克都是如此。而由于网络变得越来越复杂,数据中心也需要提供更大的处理能力,他们需要高效地扩张,来支持基于人工智能服务的应用,比如自然语言处理的虚拟助手,个性化搜索和推荐系统等。
Volta 可以说意味着深度学习引擎的一个转折,从 原来的 GPU 或者说通用的处理器引擎,到一个接近专门的人工智能引擎。所以,而当黄仁勋掏出一个小小的处理器时,全场都激动起来:这样一个其实和 Apple Watch 大小差不多的芯片,就是第一个采用了Volta 架构的Tesla V100。黄仁勋甚至开玩笑说,他们在Volta 的研发上砸了30亿美元,这作为Volta架构的第一代产品,现在世界上还仅此一台的Tesla V100,价值就超过了30亿美元。
作为新一代的“核弹”,Tesla V100 性能爆表,可以说是开启了 AI处理器计算性能的新时代,说它是当今世界上表现最强的并行计算处理器一点都不夸张。GV100 拥有大量新的硬件创新,为深度学习算法和框架提供了巨大的加速,此外还为高性能计算系统和应用提供了更多的计算马力。