谷歌第二代TPU再“飞升” 动摇英伟达GPU市场主导地位
2017-06-16
相较于只能使用在深度学习推论(inferencing)的第一代Tensor Processing Unit (TPU)芯片,Google第二代人工智能(AI)芯片Cloud TPU不仅处理速度更快,还多了训练算法的能力,因此可望对NVIDIA绘图处理器(GPU)芯片在AI市场的主导地位造成更大的威胁。
富比士(Forbes)报导指出,深度学习是一种利用大量资料对算法进行训练的AI技术,并已普遍应用在影像与语音辨识功能上。在TPU问世以前,算法的训练多是交由NVIDIA的GPU负责处理。GPU原本是专为电动游戏等专业图形处理任务所设计,但其能将训练深度学习网络所需时间,从几个星期缩短至几天,因此深受AI开发人员青睐。
不过由4块芯片组成最新的Cloud TPU,每秒浮点运算量号称可达180tera FLOPS,比起NVIDIA最新一代GPU Tesla V100的120tera FLOPS高出不少。此外,Google也正尝试将多个TPU集成为单一的TPU Pod系统。TPU Pod与NVIDIA的NVLink技术概念相似,并可望达到每秒11.5petaFLOPS的运算能力。
对Google而言,GPU训练深度学习模型所需时间还是太长。像是Google翻译应用如果使用市面上最新的32片GPU芯片进行训练,仍需要一整天的时间才能完成训练,但如果换成TPU Pod,只需要8分之1的运算能力,就可在6个小时内完成训练。
Google资深科学家Jeff Dean表示,第二代TPU提供了更强大的运算能力,而Google将能藉此打造规模更大、更准确的机器学习模型。
第二代TPU芯片除了将运用在Google的内部服务外,也将透过Google Cloud开放给外部开发人员,而Cloud TPU的租用方式与费用将与目前GPU的租用规则相似。Google更计划推出TensorFlow Research Cloud,并免费发送1,000份TPU芯片供开放AI研究使用。
尽管Google的云端业务起步较亚马逊(Amazon)及微软(Microsoft)晚了一些,但第二代TPU的加入将可给予Google更多竞争优势。
不过也有不少人对Google的芯片事业发展持较保留的看法。分析师Patrick Moorhead便认为,有监于机器学习框架随时都在改变,且其深度与复杂程度都不是单靠TPU就能应付,Google未来仍将不能完全摆脱对GPU的依赖。
另一方面,由于TPU是专为Google的TensorFlow框架所设计,因此外部开发人员如果要将TPU所开发的AI应用移植至Google外的平台,可能会面临一定的风险,而这也表示Google将更有机会把这些应用锁定在自家的云端平台。