RISC-V架构的AI芯片将无处不在
2022-02-28
来源:半导体行业观察
Esperanto Technologies公司的芯片预示着开源架构的新时代,英特尔准备在此大赚一笔。
RISC-V 是一种于 2010 年首次推出的免费和开源计算机指令集架构,它的采用正像火箭一样起飞,其大部分燃料来自对人工智能和机器学习的需求。根据研究公司Semico的数据,到 2027 年,至少包含部分 RISC-V 技术的芯片数量将以每年 73.6% 的速度增长,届时将生产约 250 亿颗 AI 芯片,收入将达到2910 亿美元。
Dave Ditzel 表示,从几年前还是一个新兴想法到今天,这一增长令人印象深刻,但对于AI来说,这也代表了翻天覆地的变化,他的公司Esperanto Technologies创造了第一个高性能 RISC-V AI处理器,旨在与AI推荐系统中强大的GPU竞争的处理器。根据 Ditzel 的说法,在早期对机器学习和人工智能的狂热中,人们认为通用计算机架构——x86和Arm——永远跟不上GPU和更专用的加速器架构。
“我们开始证明那些人都错了,”他说。“RISC-V似乎是解决人们想为人工智能做的各种计算的理想基础。”
随着该公司的第一款硅芯片——1092核AI处理器的发展,以及与英特尔的一项重大开发协议,他可能很快就会被证明是正确的。
Ditzel 的整个职业生涯都是由RISC-V背后的理论定义的。RISC,代表精简指令集计算机。它的理念是,这个想法是,你可以通过精简它可以执行的核心指令集来制造一个更小、功耗更低但性能更好的处理器。IEEE研究员大卫·帕特森在1980年的一篇开创性论文中创造了这个词。他的学生Ditzel是合著者。Ditzel后来在贝尔实验室和太阳微系统公司从事RISC处理器的研究工作,之后又共同创立了Transmeta公司,该公司生产了一种低功耗处理器,旨在通过为RISC架构翻译x86代码来与英特尔竞争。
对于Esperanto,Ditzel将RISC-V视为一种以相对低功耗加速人工智能的方法。在基本层面上,更复杂的指令集架构意味着需要更多的晶体管来组成处理器,每一个晶体管在关闭时都会漏出一点电流,而在切换状态时则会消耗电能。“这就是RISC-V吸引人的地方,”他说。“它有一个简单的指令集。”
内核
RISC-V的核心是一组只有47条指令的集合。X86指令的实际数量很难枚举,但它可能接近 1000条。Arm 的指令集被认为要小得多,但仍比 RISC-V 大得多。但 Ditzel 表示,仅仅使用一组精简指令并不足以实现Esperanto所追求的计算能力。“大多数 RISC-V 内核都没有那么小或那么节能。因此,这不仅仅是我们采用 RISC-V 内核并将 1000 个内核放在芯片上的问题。我们必须完全重新设计 CPU,以使其适应那些非常严格的限制。”
在 Ditzel 和他的同事开始工作时,RISC-V 指令集中明显缺少有效进行机器学习数学运算所需的“向量”指令,例如矩阵乘法。所以Esperanto工程师想出了他们自己的方法。正如处理器内核 ET-Minion 的架构所体现的那样,这些单元包括执行 8 位整数向量以及 32 位和 16 位浮点向量的单元。还有一些单元执行更复杂的“张量”指令,以及与数据有效移动相关的系统以及与芯片上 ET-Minion 内核的排列相关的指令。
由此产生的系统芯片 ET-SoC-1 由 1088 个 ET-Minion 内核和四个称为 ET-Maxions 的内核组成,它们帮助管理 Minions 的工作。该芯片的 240 亿个晶体管占地 570 平方毫米。这使它的大小约为流行的 AI 加速器Nvidia A100的一半。这两个芯片遵循非常不同的理念。
ET-SoC-1 旨在加速功率受限的数据中心中的 AI,该数据中心位于板的核心,适合已安装的服务器的外围组件互连快速 (PCIe) 插槽。这意味着该板只有 120 瓦的可用功率,但它必须提供每秒至少 100 万亿次操作才有价值。Esperanto在该功率范围内管理了超过 800 万亿次的能量。
Esperanto.ai 首席架构师Jayesh Iyer 在 12 月的 RISC-V 峰会上对技术专家说,“大多数人工智能加速器都是围绕一个芯片构建的,该芯片占用了电路板的大部分电力预算,Esperanto的方法是使用多个低功耗芯片,这仍然符合功率预算。”
在执行一个推荐系统基准神经网络时,每个芯片功耗为20W——不到A100的十分之一——电路板上有六个芯片。这种功率和性能的结合是通过降低芯片的工作电压而实现的,而没有预期的性能牺牲。(一般来说,更高的工作电压意味着你可以更快地运行芯片的时钟,完成更多的计算。)在0.75V(ET-SoC-1 制造过程的标称电压)的额定电压下,一块芯片将远远超出电路板的功率预算。但当电压降至0.4 V左右时,你可以在120W的芯片上运行6个芯片,与单一的高压芯片相比,推荐系统性能提升了4倍。在这个电压下,ET-Minion的每个核心仅消耗大约10毫瓦。
Iyer表示:“低电压运行是Esperanto ET-minion(核心)设计的关键。它为架构和电路级别的决策提供了依据。例如,RISC-V 整数指令的内核流水线由每个时钟周期最少数量的逻辑门组成,从而在降低的电压下允许更高的时钟速率。当核心执行长张量计算时,该管道将关闭以节省能源。
其他AI处理器
其他最近开发的AI处理器也转向了RISC-V和他们自己定制的机器学习加速的组合。例如,Ceremorphic最近凭借其分层学习处理器脱颖而出,它使用 RISC-V 和 Arm 内核以及自己的定制机器学习和浮点运算单元。英特尔即将推出的MobileyeEyeQ Ultra将在芯片中配备 12 个 RISC-V 内核和神经网络加速器,旨在为 4 级自动驾驶提供智能。
对于嵌入式AI处理器公司Kneron来说,使用RISC-V处理器既是一项商业举措,也是一项技术举措。该公司一直在销售使用Arm CPU内核和定制加速器基础设施的芯片和知识产权。但去年11月,Kneron在KL530上发布了首款基于RISC-V的技术,旨在通过一种名为视觉变压器的相对新型神经网络来支持自动驾驶。根据Kneron首席执行官Albert Liu的说法,RISC-V架构使得预处理神经网络模型变得更容易,从而使其运行更高效。不过,他表示:”考虑到英伟达去年可能收购Arm,此举可以降低我们在任何可能影响我们的商业决策方面的风险。“这笔交易在今年2月破裂,但它将把Kneron先前CPU核心架构的供应商置于竞争对手手中。
未来的RISC-V处理器将能够使用社区同意的一套开源指令来处理与机器学习相关的操作。负责核心指令集架构和新扩展的机构RISC-V国际(RISC-V International)于2021年12月批准了一组100多条向量指令。
该组织的首席技术官马克•希梅尔斯坦(Mark Himelstein)表示,”有了新的矢量指令,人们在人工智能领域做自己的事情就不必从头开始了。他们可以使用其他公司正在使用的指令。他们可以使用其他公司正在使用的工具。然后他们可以在实施、能耗、性能或其他任何方面进行创新。“
Himelstein说,即使有了向量扩展,促进机器学习仍然是RISC-V社区的首要任务。大多数与机器学习相关的RISC-V扩展的开发都发生在该组织的图形特别兴趣小组,该小组与机器学习小组合并,”因为他们想要相同的东西,“他说。但是其他的小组,比如那些对高性能和数据中心计算感兴趣的小组,也在关注与机器学习相关的扩展。Himelstein的工作是确保各方的努力在力所能及的范围内趋同。
尽管 RISC-V 取得了成功,但Arm 在许多添加了许多新 AI 功能的市场中仍是市场领导者,而且从现在起五年后仍可能如此,RISC-V 占据CPU核心设计市场份额的 15%左右。Semico Research 首席分析师Rich Wawrzyniak表示,这不是 50%,但也不是 5%。如果你想想 RISC-V 已经存在了多久,那是相当快速的增长。