《电子技术应用》
您所在的位置:首页 > EDA与制造 > 业界动态 > AWS:我们将自研更多的芯片

AWS:我们将自研更多的芯片

2021-10-27
来源:半导体行业观察
关键词: AWS 芯片

  新上任的亚马逊网络服务负责人Adam Selipsky 周五表示,公司设计更多自己的芯片,强调客户的成本收益。

  “到目前为止,我们已经设计了几种不同的芯片,未来还会有更多,”AWS 首席执行官 Adam Selipsky 在接受外媒采访时表示。

  “其中一个最新的称为Graviton2,它实际上比基于 x86 的同类芯片对客户的性价比高 40%,”Selipsky 说,指的是对英特尔处理器至关重要的一组指令。

  Adam Selipsky 发表上述言论之际,全球经济正经历半导体短缺,这已使许多行业陷入困境,并强调了芯片在日益数字化的世界中的重要性。

  尽管亚马逊和其他大型科技公司多年来一直致力于内部芯片设计,但一些专家认为,与大流行相关的芯片紧缩只会加速这些正在进行的努力。

  Graviton2 是一种数据中心处理器芯片,英特尔在半导体行业的一个领域中占有强势地位。今年 3 月,以科技为重点的新闻网站 The Information 报道称,亚马逊还致力于为硬件交换机制造网络芯片,用于在网络中移动数据。

  今年早些时候,Selipsky 在他的前任 Andy Jassy 被提拔接替Jeff Bezos担任亚马逊 CEO之后接任了 AWS 的最高职位。Adam Selipsky 曾担任Salesforce旗下数据可视化软件公司 Tableau 的首席执行官。

  在此之前,Selipsky 是 AWS 的销售、营销和支持副总裁,AWS 是亚马逊不断发展的帝国中至关重要且利润丰厚的部分。自 2014 年以来,尽管产生的收入远低于核心电子商务部门,但它一直贡献了公司一半以上的营业收入。

  亚马逊的芯片自研之路

  在2015年,亚马逊方面表示,公司已经同以色列芯片公司Annapurna Labs达成了收购协议,这可以看作是亚马逊芯片业务的开端。

  据介绍,以色列芯片制造商Annapurna Labs,由Avigdor Willenz一手创立。他曾创建另一家芯片公司Galileo Technologies,不过该公司2000年被Marvell科技集团以27亿美元收购。

  资料显示,在被亚马逊收购的时候,Annapurna Labs公司主要研发微处理器,这种微处理器可以让低功率的的计算服务器和存储服务器快速地运行数据。Annapurna Labs是过去10年中以色列国内成长起来的优秀初创型芯片厂商之一。尽管仍是一家初创型企业,但是它在此前的私募融资中已经筹集到数千万美元的资金。

  到了2017年年底,亚马逊斥资9,000万美元低调收购安全监视器供应商Blink,这被认为是亚马逊在芯片行动上的提速。亚马逊看中了Blink的省电芯片,打算用于旗下各种物联网(IoT)装置,包括Cloud Cam、Echo智能音响等。

  进入2018年,亚马逊则终于开始发布自家的芯片。2018年11月,亚马逊在美国发布机器学习芯片AWS Inferentia,AWS Inferentia是一款机器学习推理芯片,支持TensorFlow、Apache MXNet和PyTorch深度学习框架,以及使用ONNX格式的模型。不过亚马逊并不打算直接向用户销售这款芯片。

  2018年12月, 亚马逊 推出首款自研Arm架构云服务器CPU Graviton,目标直指英特尔。Graviton的问世显示出亚马逊AWS想要摆脱英特尔的决心。

  2019年1月,据媒体媒体透露,亚马逊旗下的AWS与三星风险投资、Avery Dennison共同参与了无线技术公司Wiliot公司价值 3000万美元的B轮投资。2018年11初,亚马逊携手英特尔,微软和美国明石风投投资了AI芯片初创公司Syntiant。这一系列的投资和自研动作,都显示着亚马逊正在由“软”向“硬”演变。

  2019年年底,亚马逊的云服务业务AWS在其发布会AWS re:Invent上发布了两款新的云端服务器芯片,分别是高性能处理器芯片Graviton2和高性能机器学习加速芯片Inferentia

  亚马逊的Graviton2处理器是亚马逊研发的第二代高性能云端处理器芯片。Graviton2基于ARM的高端Neoverse核,使用7nm半导体工艺制造,晶体管数量高达300亿,相比上一代芯片核心数增加了4倍,且处理器性能也大大提升。Graviton2处理器为云计算相关应用做了不少优化,首先是浮点运算能力较上一代有不少提升,此外在指令集上计入了对于机器学习推理应用的支持,以及在芯片上集成了亚马逊自研的数据编解码加速器。相比于基于x86处理器的解决方案,Graviton2处理器可以大大提升性能并降低成本,性能/成本比提升可达40%。在软件上,Grativon2处理器能兼容主流的开源Unix操作系统和Docker容器,这也从很大程度上解决了ARM服务器端处理器生态的问题。

  除了高性能处理器之外,亚马逊发布的另一款芯片是Inferentia,用于加速机器学习推理计算。根据亚马逊公布的指标,Inferentia芯片能提供128TOPS的算力,并支持INT-8和FP-16/bfloat-16计算类型。亚马逊同时公布了几种搭载了Inferentia芯片的服务器配置,最高性能的版本搭载了16颗Inferentia芯片,从而能提供高达2000TOPS的峰值算力。

  2020年9月,亚马逊在发布新一代Echo的时候,带来了其新款的定制芯片——AZ1神经边缘处理器。“在处理中,时间很重要,” Amazon Echo副总裁Miriam Daniel在亚马逊的设备和服务团队主办的虚拟活动中说。她解释说:“想象一下,要求Alexa打开灯,如果有延迟,这会很抓狂。” “我们的团队非常努力地将Alexa的响应时间削减了数百毫秒的时间”。她接着说。

  这是通过他们的新的AZ1神经边缘处理器,一个专门用于在边缘运行机器学习算法的新芯片实现的。它与在AZ1上运行的新的神经语音识别模型配合使用。

  亚马逊高管表示, AZ1神经边缘处理器是与半导体制造商联发科技(MediaTek Inc.)合作开发的一部分。通过本地处理语音命令,它将使Echo能够更快地回答用户问题。早期的智能扬声器必须将语音命令发送到云进行处理,然后等待结果返回,但这会延迟Alexa的响应。

  该公司的工程师对芯片进行了重大设计改进,以促进性能提升。AZ1被描述为能够以二十分之一的功耗为语音处理任务提供亚马逊上一代芯片两倍的性能。而且,它的内存使用量降低了85%,这进一步有助于提高硬件效率。

  2021年,据The Information报道,亚马逊正在为其硬件网络交换机开发定制的硅芯片。据说这些芯片可以帮助亚马逊改善其内部基础设施以及AWS,这是亚马逊于2015年以3.5亿美元收购以色列芯片制造公司Annapurna Labs的目的之一。

  报道进一步指出,亚马逊为其交换机构建芯片可以帮助其解决自身基础架构中的瓶颈和问题,特别是如果他们还定制构建在其上运行的软件时。亚马逊已经建立了自己的交换机,但是它依靠Broadcom为其提供芯片支持。对于公司来说,完全控制这些机器是很有意义的,特别是考虑到其Web服务业务的重要性。The Information援引Amazon提供的机器学习软件(目前运行在Annapurna芯片上)的话,他们甚至有可能通过新的交换机提供一些以前无法提供的服务。

  亚马逊自研芯片对云服务的影响

  亚马逊今年发布最新的自研云端服务器芯片意味着云服务市场的格局在大数据-人工智能时代相比之前有了深远的改变,而这个改变最关键的部分就是算力成为了越来越重要的性能指标。

  上一代云计算主要承载的业务是让有IT需求的公司把IT系统在云端执行,这样就省去了本地的维护成本。举例来说,一家公司需要架设一个内部的ERP系统,在没有云服务的时候需要自己去购买服务器,还需要组建一支专业的IT团队来负责服务器硬件的维护,这样就让IT服务的成本变得比较高。而有了云服务之后,这类系统可以直接在云服务商的数据中心完成,公司无需再去购买服务器也不用担心服务器的稳定/维护/升级问题,这样就大大降低了成本。公司需要做的无非就是确保选择正确的云服务商,并保证有稳定的网络连接。由此可见,上一代云服务主打的卖点往往是服务器带宽,云服务稳定性,云服务系统部署简易性等等,总而言之更偏向于服务质量,但是与硬件关系不大。

  随着云计算进入大数据和人工智能时代,云计算的需求也与时俱进。目前,云计算的概念已经深入人心,因此大量公司的网络业务都已经上云,而随着人工智能和大数据业务逐渐变为主流,云计算对于大数据和人工智能的支持也需要跟上。而这一代基于深度学习的人工智能浪潮对于算力的需求尤其大,算力正在成为新的基础设施,因此,我们认为云服务的核心竞争力正在慢慢转向算力。

  由于算力正在成为云计算的核心竞争力,因此硬件对于云计算来说也变得越来越重要。在上一代云计算中,对于硬件的需求非常单纯,只需要普通的服务器级别x86处理器搭配足够大的内存和SSD即可,而随着对于算力的需求提升,对于硬件的需求也在快速提升,且呈现专门化。如果总结亚马逊云计算中算力相关硬件芯片的迭代,我们可以清楚地看到一条由通用走向专用且性能快速提升的道路。最早的云计算使用传统的CPU,随着人工智能变得火热,带有GPU的云服务器进入了主流视野。相比面向通用计算的CPU,GPU主要支持人工智能训练和推理计算,通用性下降了一些但是算力提升了数百倍。在之后,亚马逊发现GPU的性能还不够好,尤其是在大量的人工智能推理任务上,因此这次发布了Inferentia ASIC用于高性能低成本推理计算。

  放眼未来,我们认为云计算越来越强调算力的势头还将继续,我们渴望看到更多的云计算服务商加入提升算力的行列,同时也将看到硬件和芯片将在云计算领域的地位越来越重要,成为算力的核心支柱。

  亚马逊自研云端芯片对于半导体行业的影响

  亚马逊大力投资自研云端服务器芯片意味着云端服务器芯片的市场格局发生变化,通用的CPU和GPU无法覆盖整个市场需求。

  从技术层面上来说,随着深度学习神经网络模型对于算力的需求快速提升,这意味着将催生高性能计算芯片市场较快发展。业界和学界对于高性能计算芯片的探究在数十年内从未停下,但是在人工智能时代到来之前,由于高性能计算的市场始终有限,因此相关技术的资本投入较小,主要是实验性质的探索,新技术产品化落地的比例并不大。

  但是随着高性能计算在人工智能时代成为主旋律,对于新一代高性能计算技术的需求呼之欲出,因此我们预期会看到更多技术上的突破被真正产品化。我们认为,有以下的几个技术有很大的潜力:

  (1)chiplet技术。在高性能计算领域,芯片为了追求性能会集成越来越多的晶体管,同时会需要使用最先进的半导体工艺制造。然而,“集成越来越多的晶体管”和“使用最新半导体工艺”这两件事在摩尔定律遇到瓶颈的今天存在一定矛盾,因为在最新半导体工艺下的大芯片良率会下降,成本也会大大提升。因此,一个解决方案就是chiplet,把一块大芯片拆成多个小的chiplet并使用高级封装技术做集成互联,从而实现性能和成本间的折衷。

  (2)众核技术。在大数据人工智能时代,对于算力要求很高的计算往往是可以并行化的,因此可望通过众核技术来解决并行计算的问题。下一代众核技术需要能相比GPU的SIMT拥有更强的数据流支持,并提供更好的众核间数据通信方案,从而提供更好的性能。

  (3)可重构和异构计算技术。可重构和异构技术其实是一个硬币的两面,分别代表了通用性和专用性。使用可重构计算能实现较好的通用性,但是代价是性能上会有一定损失;异构计算则强调极端性能,但是一旦任务改变,则会让芯片闲置,从而带来dark silicon问题。如何在可重构和异构计算之间找到一个这种平衡点将是未来的一个重要技术课题。

  从市场层面上来说,由于通用的CPU和GPU已经难以满足用户对于算力的需求,因此我们可望看到更多云服务商会采用非常规的芯片。这另一方面也涉及到了竞争差异化的问题,随着算力成为最主要的竞争指标,如果使用所有竞争对手都能买到的CPU/GPU,那么就没法实现差异化竞争了。因此,从用户需求和竞争两个角度来看,都会有越来越多从事云服务的互联网巨头加入自研芯片的行列。

  自研芯片包括几种形式,包括与Intel这样的传统处理器芯片商合作以开发带有一定定制化功能的处理器芯片,或者去购买IP来搭建自己定义的SoC,以及全定制的功能模块。一般来说,处理器核心的门槛很高,通常采用IP授权的形式,但是专用应用加速器的设计则较简单,可以采用全定制的方案。因此,我们预计会看到越来越多的自研芯片案例,同时ARM的服务器端处理器IP授权业务将得到较大的发展,有望成为移动端处理器核心之外的另一个重要业务;但是人工智能加速器这类的IP我们认为更有可能是云服务商去做全定制。




电子技术图片.png

本站内容除特别声明的原创文章之外,转载内容只为传递更多信息,并不代表本网站赞同其观点。转载的所有的文章、图片、音/视频文件等资料的版权归版权所有权人所有。本站采用的非本站原创文章及图片等内容无法一一联系确认版权者。如涉及作品内容、版权和其它问题,请及时通过电子邮件或电话通知我们,以便迅速采取适当措施,避免给双方造成不必要的经济损失。联系电话:010-82306118;邮箱:aet@chinaaet.com。