推出拥有1093个RISC-V 内核的AI芯片,这家公司怎么想的?
2020-12-30
来源:半导体行业观察
在之前举办的RISC-V峰会上,Esperanto Technologies的首席执行官Art Swift宣布了一款基于RISC-V的新型芯片,旨在进行机器学习,包含基于开源RISC-V架构的近1100个低功耗内核。
这个产品在发布之后引来了广泛讨论。今日,EEjournal采访了该公司的创始人,谈及这款芯片的设计背后的一些想法。
据介绍,该芯片被定名为ET-SoC-1。从设计上看,它包括了处理器核心,内存块和网状网络。
报道指出,Esperanto公司在ET-SoC-1 的设计上已经花费了很多年的时间,且直到现在,该公司尚未收到第一批芯片,但是该项目已经公诸于世。该公司创始人Dave Ditzel和首席执行官Art Swift(首席执行官)就像快乐的父母一样为他们的“新宝宝”感到兴奋。
据报道,Ditzel在微处理器领域拥有辉煌的履历,他曾担任Intel副总裁,是x86克隆制造商Transmeta的创始人,Sun SPARC业务的首席技术官,以及拥有David Patterson博士的UC Berkeley研究生的硕士学位。Swift则毕业于宾夕法尼亚州立大学的EE专业。,曾领导过RISC-V基金会的市场部PPR Foundation,在加入Esperanto之前,他还担任过Wave Computing的首席执行官。这些家伙就是在培育新的处理器。
这家拥有100名员工的公司认为我们在AI问题上全都错了。
首先,他们指出,将一个供应商的AI芯片与另一个供应商的AI芯片进行比较是没有意义的。正确的方法是查看每瓦而不是每个芯片的AI功能。瓦特很重要。芯片只是封装选择。
其次,可编程性是关键。
“如果您向硬件人员提出AI问题,他们将需要定制设计一些东西以优化内部循环。但这将很难编程。” Ditzel说。“通用ISA [指令集体系结构]擅长外部循环,几乎没有额外的开销。”
Esperanto将特殊和通用的习惯与开源相结合。它的AI加速硬件是定制的,但已嫁接到通用RISC-V架构上。Ditzel说,RISC-V的“底盘系统”使ET-SoC-1芯片易于编程,而定制加速器使其值得这样做。
他们指出,整个芯片在设计时就考虑到了低功耗,因此与“现有解决方案”相比,其性能要高出30倍至50倍,同时还具有100倍的高能效。这个数据是根据Esperanto的模拟得出的,而我们离真正看到芯片还有几个月的时间。
在这些比较中,“现有解决方案”是Intel和AMD的x86芯片。Esperanto从未明确表示公司是否与其他供应商的AI芯片进行比较,例如Groq,Mythic或Swift的前任雇主——几乎已经破产的Wave Computing。
用Ditzel的话说,因为这么多机器学习任务“令人难以置信地是并行的”,所以针对ET-SoC-1的大规模并行设计似乎是正确的方法。当然是这样。该芯片上有1093个处理器,全部基于RISC-V。其中绝大多数(1088)是所谓的ET-Minion处理器,由四个ET-Maxion处理器和一个服务处理器(也基于RISC-V)提供服务。
Minion被分成八组,称为“邻居”。四个邻域构成一个“郡”,而6×6的郡阵列组成一个ET-SoC-1芯片。(一个郡装有四个ET-Maxion内核,一个郡装有PCIe逻辑,这就是为什么总数不是1152的原因。)整个晶体管的总重量为238亿个。
但它一直在继续。每个ST-SoC-1芯片都设计为与相似的芯片群集在一起,在标准插入卡上最多包含六个芯片,以及存储器和支持逻辑。这些卡可以组合成“底座”,底座分成“小方块”,八个小方块可放入标准的19英寸机架中,当然,成千上万个机架排列在典型数据中心的“大厅”中。您几乎可以期望世界语为扩展数据中心建筑物制定分区委员会计划。
对于这些人来说,可伸缩性很重要。
追溯到开始,每个ET-Minion内核都以一个相当简单的RISC-V pipeline实施以及一个大型AI加速器开始。它旨在以尽可能低的电压实现适中的时钟速度(在1 GHz附近)。Esperanto的初始硅片是采用台积电的7nm工艺制造的,其设计工作在电压范围的低端,几乎所有东西都在同一电压平面上,甚至包括高速缓存。
“在低电压下,晶体管的效率提高了5倍至10倍,但没有接近阈值电压。作为架构师,我们知道如何弥补降低的速度。” Ditzel辩护说,他的芯片的频率相对较高。七纳米与其他节点不同。导线是电阻性的,高频操作需要大量缓冲器。
每个ET-Minion的CPU都是单标量,双线程的有序实现。与之结合的是具有256位浮点一半和512位整数一半的自定义矢量/张量单元。FP半部每个周期可以执行单个256位操作,或者(更有可能)执行16个单精度(32位)操作或32个半精度(16位)操作。整数端可以类似地在每个周期执行一次512位操作或128字节宽的操作。
Ditzel和Swift没有详细说明这些操作的内容,只是暗示它们可能很长很复杂。“张量指令可以运行数百个周期”,并且RISC-V pipeline将休眠直到完成为止,从而节省了功耗。“程序员认为这是RISC-V,但是99.9%的时间花在了张量指令上。”
从理论上讲,每个ET-Minion都可以提供128 GOPS / GHz。换句话说,每个周期128次操作。那只是ET-Minion内核之一,每个芯片上有1088个。
堆砌很多专业核心是一回事。让他们以有意义的方式交流是另一回事。Diztel说道。他指出:“这里的大部分工作和智慧都在存储系统中。” “相加不是硬的部分。该芯片具有一个真正的内存系统,具有三级高速缓存等。软件人员看着它说:”我知道该怎么编程!“
缓存出现在每个ET-Minion核心,每个邻域和每个郡中。如果可以的话,每个高速缓存可以可选地配置为暂存RAM。整个事物由Esperanto自身的网状网络绑定在一起,并且硬件实现了几个同步原语,包括原子,屏障和IPI(智能外围互连)支持。与外界的接口是通过PCI4 Gen 4和LPDDR4x实现的。
相比之下,四个ET-Maxion处理器是高性能的乱序实现,意在充当独立系统中的”主机“处理器。数据中心客户可能更喜欢Intel或AMD的x86处理器,在这种情况下,Maxions可以搁置(或被忽略)。
Esperanto说,该芯片的”典型工作点“低于20瓦,对于如此大规模配置的设备而言,这似乎是非凡的。要么”典型“条件是非典型的,要么Ditzel的设计团队在提供最佳每瓦AI性能的目标方面取得了惊人的成功。
为了进行比较,像英特尔的酷睿i7-1068(第10代Sunny Cove / Ice Lake-U微体系结构)这样的新型笔记本电脑处理器的TDP为28W。这仅适用于四个x86内核和一个GPU。英特尔的一些低功耗处理器的TDP低于15W或20W,但与Esperanto竞争的该公司的台式机和服务器处理器却占据了100-200W的领域。
即使考虑到性能的(假定)提升,这对Esperanto的支持也是一个数量级的差异。
与对传统CPU进行基准测试(足够难)相比,对机器学习工作负荷进行基准测试是完全不同的游戏。很难知道任何AI处理器的速度和效率如何,更不用说它在推理/瓦特,GOPS / GHz或Furlongs / fortnight上的比较了。
不过,基于其经验丰富的的全明星阵容,我们对其还有很大的期望。
延伸阅读:Esperanto推出具有接近1100个RISC-V内核的AI芯片
在今年的RISC-V峰会上,Esperanto Technologies的首席执行官Art Swift宣布了一款基于RISC-V的新型芯片,旨在进行机器学习,包含基于开源RISC-V架构的近1100个低功耗内核。
总部位于加州山景城(Mountain View)的Eseranto Technologies是在2014年创建的,该公司的其他网站遍布美国和欧洲,”其目标是让RISC-V成为计算机密集型应用程序(如人工智能和机器学习)的首选架构。“Swift追溯到2017年新芯片的历史,当时Esperanto的创始人兼董事长Dave Ditzel在第七届RISC-V研讨会上提出了Esperanto的愿景。
在那个研讨会上,Ditzel设定了一个目标:”在单个设备上放置4,000个或更多的内核“。Ditzel要求通过RISC-V提供简单的指令集,并要求在定制微体系结构和专有的低功耗设计技术领域进行创新。”在随后的三年中,我们已经筹集了7700万美元的风险投资,现在已经完成了我们的第一个设计,这是基于RISC-V的一系列AI处理器中的第一个,“ Swift说。
名为et - soc1的新芯片包含两种通用64位RISC-V内核:首先是ET-Maxion,一个超标量无序内核(每个芯片4个);其次是ET-Minion,一种”更精简、节能“的有序多线程内核,它包含一个用于机器学习应用的大型协处理器(每个芯片1089个,包括一个服务处理器)。
Esperanto公司ET-SoC-1 die图。图片由Art Swift提供。
芯片拥有238亿个晶体管,采用了TSMC公司的7nm技术,直接针对超大规模的数据应用(”特别是推断,“Swift说)。Swift说,该芯片使用了通用架构,以保护客户免受ML模型随着时间的推移可能带来的不兼容。
正如Swift所解释的那样,在数据中心应用程序中,ET-Maxion内核可能会被随附的Intel或AMD主机CPU所取代-但是在边缘应用程序中,Maxions对于保持低成本至关重要。
这些芯片支持pcie4.0和DDR4x RAM(最高32GB),Swift表示,一张PCIe卡上最多可以容纳6个芯片。举个例子,Swift展示了一个开源的Glacier Point 卡,它可以容纳6个ET-SoC-1芯片。(”这是我们的全部策略,尽可能地利用开源社区。“)
Glacier Point v2卡,最多可容纳六个ET-SoC-1芯片。图片由Art Swift提供。
在软件方面,”我们支持所有常见的机器学习框架,“Swift说,并解释Esperanto利用Facebook的开源GLOW编译器作为中心。
虽然他们还没有使用物理硅,但Swift基于芯片仿真共享数据。”当我们将我们的性能与现有解决方案在数据中心的实际测量性能进行比较时,“他说,”我们发现,我们预计在关键工作负载(如推荐网络)上的性能将提高50倍,在图像分类方面,我们的性能将比现有解决方案高出30倍。“
”但可能更令人兴奋和更重要的是,“他继续说,”我们能够获得的能源效率。就每瓦特功率的推断而言,我们希望看到比现有的解决方案高出100倍的能源效率。“
Esperanto将ET-SoC-1的性能效率归因于几个因素,包括RISC-V的简单性、ET Minion核心上的机器学习协处理器、”唯一优化“的内存层次结构和定制的低压电路。
Swift反复强调,ET-SoC-1只是Esperanto新产品系列的第一位成员,并解释说,该芯片的基于图块的设计使其易于”扩展至数千个内核或缩减至数百个内核“,以满足需求。”从超大规模数据中心到边缘AI以及两者之间的一切。“
Esperanto的声明紧随英伟达收购Arm之后,这让很多人怀疑,收购后大家对RISC-V的兴趣和接受度是否会激增。Esperanto还进入了一个越来越拥挤的推理芯片市场,竞争对手包括Xilinx、Mythic、Groq和英特尔的Habana Labs