AMD向Intel服务器芯片发起又一次冲击
2021-03-16
来源:半导体行业观察
在过去的每一年中,随着AMD第一次谈论其重新进入服务器处理器领域,并给英特尔带来一些真正,急需的,非常直接的竞争计划,然后一次又一次地在其处理器路线图上进行交付以后,AMD逐渐证明,在Intel主导的X86计算领域中,他们是认真的。
随着第三代“ Milan” Epyc 7003处理器的推出,它将变得更加容易。但是,客户更希望AMD的这款处理器应该在多年前就交付。
但是不要感到困惑。事情变得容易并不意味着容易,因为英特尔数据中心事业部的最新季度财务业绩则要比以往更进一步,那就意味着Epyc的复出并不像十年半前的Opteron攻势那么容易。
对AMD X86服务器处理器的热情受到许多因素的影响,其中最重要的一点是,2021年的英特尔在计算,网络和存储方面的实力要比AMD在2000年推出Opterons的时候强的多。
英特尔过去几年虽然搞砸了他们的路线图和制造,但这远不及他们决定制造Itanium那么糟糕,Itanium芯片与Xeon并不真正兼容。
所以,当AMD能够相当快地在X86服务器空间的某些细分市场中占领20%或更多的市场份额时,就不足为奇了。
随着三代Epyc的推出,我们对2022年将发布的第四代“Genoa” Epyc 7004系列期望很高,然而,AMD市场份额的增长速度一直较慢。
与2000年代中期相比,新时代每个季度的服务器出货量增加了约50%-并且其中的一些产品(例如超大规模生产者和云构建者)绝对是巨大的。我们相信,这次Epyc服务器芯片业务正处于更好,更可持续的增长道路上,这将在今后几年给英特尔带来很多痛苦。这应该是因为每个IT客户都应从激烈和直接的竞争中获得收益,而英特尔在服务器处理器领域十多年来并没有真正拥有它,而且在霸权时期,它在数据中心集团的毛利证明了它所带来的收益远远超过了对他的怀疑。
IBM的Power处理器和Arm团队的转瞬即逝的成员之间的间接竞争还不足以削弱Intel的装甲。随着Epyc处理器的出现,AMD的重新出现,将使英特尔变得更加艰难。
在总裁兼首席执行官Lisa Su的指导下,该公司在快速攀升,随着英特尔因10纳米的制造失误而跳下城堡的台阶,该公司已经能够在英特尔的防具上留下一些痕迹。
尽管即将到来的“ Ice Lake” Xeon SP处理器能使Intel抵御来自米兰Epyc 7003攻击,这实际上是在AMD和Intel于第四季度开始将其芯片交付给超大规模生产商和云制造商时开始的,但事实仍然是Ice Lake应该与第二代“罗马” Epyc 7002s对抗,然而事实并非如此。借助Ice Lake和“Sapphire Rapids”技术的后续产品,英特尔将变得更好,该技术基于今年晚些时候或明年年初推出的改进的10纳米制造工艺。但是,英特尔的晶圆厂并没有按时完成10纳米制造,甚至还有些迟了,而不是像现在这样严重地推迟了。
随它吧。这是芯片业务,这是芯片有时跌落的方式。每个人-我们的意思是每个人-都将在芯片代工厂中遇到一些问题,这些问题将受到制造能力限制以及未来工艺飞跃的其他延迟所困扰。每个人都将在最长的期限内进入处罚箱,特别是随着摩尔定律从过去几年的放慢速度发展到插管。据我们所知,10纳米和7纳米对每个人来说都是艰难的,5纳米将更加艰难,对于3纳米周期中任何容易的事情,我们都不抱太大希望。到处都是小芯片!而且AMD已经比Intel知道如何做得更好。
在此背景下,我们将介绍一下AMD的新产品Milan系列,并将一如既往地深入研究Epyc 7003系列中的新处理器,包括新米兰芯片的概述以及它们与上一代Opteron和Epyc处理器的比较,以深入探讨架构中,这些CPU在服务器空间中的竞争地位,以及英特尔和其他提供服务器CPU的供应商以及消耗它们的OEM和ODM的竞争响应。
PC和服务器的设计之间存在反馈循环,RISC / Unix服务器供应商以前可以使用该反馈循环在更广泛的基础上摊销设计成本,从而从客户那里获得更多利润。但是目前,只有X86服务器制造商Intel和AMD以及GPU制造商Nvidia和AMD仍然能够为他们的计算引擎执行此操作。有朝一日,可能会出现一个既做客户端又做服务器的Arm供应商,它可能是Nvidia,也可能是Apple。英特尔也希望为客户端和服务器都提供GPU。AMD用于客户端的Ryzen芯片和用于服务器的Epyc芯片都具有相同的体系结构,其中Milan服务器芯片更是基于Zen3内核,一个已经在PC CPU中使用了很多个月技术。
就Milan芯片而言,架构核心的内存和I / O集线器芯片仍然基本相同,除了一些调整以支持主内存的nested paging 和运行Infinity Fabric互连以链接Zen3内核之外。以与主存储器时钟相同的1.6 GHz时钟速度(与主存储器时钟进行两次pumped以使主存储器在3.2 GHz上运行)链接到存储器和I / O集线器芯片(因此彼此之间)。过去,这两个时钟不同步,这种同步是提高罗马和米兰处理器之间性能的一个因素。在对内存带宽和延迟敏感的应用上,时钟同步比没有使两个时钟以相同速度运行的Rome处理器提高了3%到5%。
以下是三代Epyc处理器的一般供稿和速度:
如您所见,在罗马和米兰世代之间,内核数和线程数没有太大变化,并且两种芯片均使用台湾半导体制造公司的7纳米工艺。AMD仍位每个物理内核提供两个虚拟线程的同时多线程(SMT)支持,而不像IBM使用Power8和Power9芯片那样将其推到每个内核四个线程或八个线程。
内存和I / O系统基本相同,每个Epyc插槽有八个控制器,每个插槽有128通道的PCI-Express 4.0 I / O。处理器的散热设计点相同。
这是有充分的理由的:米兰芯片必须保持与罗马芯片的插槽兼容性,否则主板和系统制造商会给AMD带来极大的痛苦。这必须是在所有这些限制条件下做性能提升,而这恰恰是AMD与米兰一起交付的产品,与罗马相比,在一组代表性的工作负载中,平均每个时钟(IPC)指令平均多出19%。
每个插槽的体积提高19%远远好于英特尔展示的每个插槽每代IPC改善5%至10%,坦率地说,这可能比许多人对AMD的预期要好得多。
您无法一次完成所有工作,或者根本无法完成任何工作。实际上,米兰不得不等到Ryzen PC芯片市场需要一个更胖的核心复合体才能完成将NUMA域平坦化的某些事情,因为它们都与该内存和I / O集线器芯片一起插入以创建什么对于操作系统及其应用程序而言,它看起来像一个单片socket(或多或少)。
具体来说,Rome核心联合体有四个Zen2核心,每个核心都有自己的L2缓存,它们挂起了一个共享的16 MB L3缓存。将其中的两个模块蚀刻到一个小芯片上,该芯片本质上是Ryzen的baby PC芯片,然后将其中的八个芯片与插槽内的Infinity Fabric互连,以创建64核Rome芯片。顺便说一句,罗马和米兰都在使用Infinity Fabric Gen 2.0(上图中的x-GMI-2)将核心复合体链接到封装中心的内存和I / O芯片。
在米兰的设计中,核心体系是统一的,八个Zen3内核都具有专用的L2缓存,并且它们都共享一个32 MB的L3缓存,并且以小芯片的形式实现。这些小芯片中的八个提供了最多相同的64个内核,但是整个socket所代表的NUMA域数量减少了一半,因此操作系统和虚拟机会看到更多的原始处理和缓存。实际上,可以为单个内核分配32 MB的L3缓存,并且在Rome产品系列的某些SKU(尤其是针对非常高性能的SKU)中,正是这种情况。
因此,例如,在Epyc 75F3中,仅打开了八个核心中的四个,总共32个核心,每个核心中的每四个具有完整的32 MB共享L3高速缓存和所有八个DDR4使用256 GB记忆棒激活每个插槽最大4 TB容量的内存控制器。在八核Epyc 72F3芯片上(这是米兰产品线的极端情况),八个核中只有一个被激活,并且以3.7 GHz的速度运行,接近其4 GHz的涡轮速度。每个核心都有32 GB的L3高速缓存,这是一个很大的数目,并且与罗马前辈相比,基于核心数量,时钟速度和IPC提升的结合,可以为某些应用程序的性能做出超出预期的巨大贡献。
AMD共提供19种Milan Epyc 7003处理器,它们分为三大类,如下所示:
与过去一样,F模型已针对相对较少的内核进行了最快的内核时钟速度频率优化-只有在较少数量的内核上才有可能,这必然导致更高的L3缓存与内核比率。这些模型有四个,分别具有8、16、24和32个内核。另一套包含5个Milan芯片的内核密度非常高,因此线程数也很高,它们针对服务器虚拟化和数据库工作负载,这两者都像许多内核和线程一样,可以提高吞吐量。然后,还有十个米兰处理器进行了“平衡和优化”,以平衡相对较高的性能和较低的总拥有成本之间的差异。与那不勒斯和罗马处理器一样,有些Epyc芯片标有P。
与前两代Epyc芯片一样,第三代不支持具有两个以上插槽的NUMA机器。AMD即将退出市场,该市场上有配备有四个或八个插槽的Intel和IBM插槽的机器。
正如我们所说,我们将在随后的故事中深入探讨米兰加工上的细节。目前,我们只是想向您提供有关新芯片的数据,以及它们之间的相互比较以及与上一代Opteron和Epyc处理器之间的比较。因此,事不宜迟,以下是米兰的SKU:
高性能F模型以粗斜体显示,P单处理器芯片以灰色突出显示,这是我们对Epyc系列的定制。我们已经根据Milan线内的核心数量和时钟速度计算了原始性能指标,然后创建了一个相对性能指标,该指标考虑了这一点以及随着时间的推移IPC随时间推移的原始改进,从而为您提供了基于以下各项的相对性能指标:具有2.8 GHz频率的四核“上海” Opteron 2387的性能,其相对性能为1.0,性价比为873美元。定价是购买1,000颗采购量的处理器的客户的单价,这是Intel和AMD标价的标准。
以下是那不勒斯和罗马Epyc芯片以及上海皓龙2300的提要和速度:
米兰芯片的相对性能从八核Epyc 72F3的不到6到Epyc 7763的31.6到任何地方,从最低的94美元到最高的414美元,每单位的相对效果。16核Epyc 7313P和24核Epyc 7443P提供了最佳的性价比,有趣的是,低核,高时钟,高L3高速缓存八核Epyc 72F3仅略低于一半,价格为414美元性能指标,比2009年初的上海皓龙处理器性能和价值基准更高。这可能看起来很疯狂,但这只是向您显示Dennard缩放在很久以前就已真正停止。
很难对SKU在世代之间无法精确匹配的产品线进行归纳,但是看起来AMD总体上提供了更高的性能和更多的物有所值–但是,当然不是在所有情况下,AMD都可以提供更高的性能和更高的性价比。从罗马跳到米兰。以运行在2.3 GHz的48核Epyc 7643以及与运行在2.3 GHz的48核Epyc 7642相匹配。仅凭IPC的改进,性能就提高了19%,但AMD还将价格从罗马芯片的4,775美元提高到了米兰芯片的4,995美元,这使性价比明显提高了10%。
归结为案例,这就是我们建立以上表格的原因。您可以将自己的内心进行比较。