NVIDIA公开Volta核心架构秘密
2017-06-22
AMD将在8月初发布RX Vega游戏显卡,也将重返高性能显卡市场,但是Vega这次面对的对手不只是16nm Pascal显卡,还有NVIDIA新一代12nm FFN工艺的Volta显卡。今年5月份NVIDIA率先发布了Tesla V100加速卡,用的是GV100大核心,游戏市场的Volta显卡问世只是时间问题,它不会像Vega显卡那样难产。今天NVIDIA又公开了Volta核心的架构秘密,确认了Volta完整版核心是84组SM单元,总计5376个CUDA核心,而且SM单元能效比Pascal这一代提升50%,而现在的GV100大核心只启用了80组SM单元,5120个CUDA核心,NVIDIA还留有杀招。
NVIDIA上个月发布了Volta架构首个产品Tesla
V100
在5月份的GTC大会上,老黄在主题演讲中已经公布了不少Volta显卡的细节,发布会时间有限,不过可能全部讲解Volta,现在NVIDIA又发布了Volta显卡的架构白皮书,详细介绍了Volta架构的细节,技术饭可以下载收藏。
NVIDIA确认Volta完整版拥有84组SM单元
简单看了下这个白皮书,NVIDIA正式确认了完整版Volta显卡是84组SM单元,每个SM单元有64组FP32浮点单元、64组INT32整数单元、32组FP64双精度浮点单元、8个Tensor单元(用于深度学习、AI的张量处理器)、4个纹理单元,外加8组512bit显存控制器,每个HBM 2堆栈搭配2组显存控制器,总计有5376个CUDA核心(FP32、INT32)、2688个FP64单元、336个纹理单元、672个Tensor单元,还有4096bit等效位宽、16GB HBM 2显存,带宽900GB/s。
Tesla V100加速卡具体规格
NVIDIA的Volta显卡使用了TSMC与NVIDIA定制的12nm FFN工艺,而TSMC的12nm工艺实际上也是基于目前16nm工艺改良的,主要优化了能耗、核心面积,性能比16nm FFC工艺提升10%,但是核心面积可缩减20%。即便如此,GV100大核心的面积依然从目前的610mm2增加到了815mm2,主要原因就是SM单元数量大增,从60组SM单元增加到了84组。
根据NVIDIA的白皮书介绍,Volta架构的SM单元做了大幅改进,新的SM单元能效比Pascal这代提升50%,因此才能在同样的功耗封装下大幅提升FP32/FP64计算性能。
Volta架构的SM单元设计
当然,NVIDIA在Volta显卡上的重点除了提升传统的FP32/FP64计算性能之外,最重要的还是提升深度计算性能,为此增加了专用的计算单元,每组SM单元有8个Tensor单元,总计640个Tensor单元,Tensor性能可达120TFLOPS,是Pascal这代的12倍多。
不过现在的GV100大核心很有可能跟去年的GP100大核心一样专用于计算市场,真正对游戏玩家有影响的还是后面的GV102核心,NVIDIA势必要做些精简,比如砍掉对游戏没用的Tensor单元,减少L2缓存,HBM 2显存也没必要,SM单元很有可能也会重组,可以预见游戏用的GV102核心会进一步降低能耗,不过CUDA核心总数相比Pascal也会大幅提升,游戏性能再上一个台阶。
此前也有一些Volta显卡在路上的传闻,不过对NVIDIA来说出Volta显卡没什么阻碍,只是他们如何选择的问题,毕竟今年才发布了GTX 1080 Ti、Titan Xp以及GT 1030显卡,布局已经很完整了,Volta显卡并无紧迫性,除非AMD的RX Vega显卡表现惊人,NVIDIA需要新一代产品来压制,这时候Volta显卡发布上市进度才会加快,大家觉得今年有这个可能吗?