Intel换了CEO能做苹果M1那样的芯片吗？PC处理器大小核反击战-AET-电子技术应用

Intel换了CEO能做苹果M1那样的芯片吗？PC处理器大小核反击战

日期： 2021-01-14

来源：电子工程专辑

关键词： Intel M1 芯片 PC处理器

　　2020年对Intel而言实在不是友好的一年。虽然Intel的财报仍未表现出大问题，但Intel在很多领域的前景是不乐观的。在《2021年十大热点应用趋势展望》中，我们提到了在PC处理器领域，“AMD将吃下‘半壁江山’”，这源自AMD Zen架构处理器的强势；苹果M1的问世则为这个趋势火上浇了一勺油；与此同时，数据中心市场显现出的市场趋势是，CPU逐渐被边缘化，英伟达DPU在这方面显现出的野心是相当显著的。

　　PassMark的CPU市场份额数据虽然有幸存者偏差，但在截至今年1月12日的数据更新中，AMD的桌面CPU市场份额已经达成自2006年以来，首次对Intel的超越——当然两者的笔记本市场份额仍然相差较大，毕竟OEM客户是Intel的基本盘。在整个x86 CPU市场，AMD的份额总体刚刚突破了40%（PassMark）。

　　来源：PassMark，注意这组数据带有明显的幸存者偏差，仅供参考[1]

　　Intel十多年来，在PC处理器技术上的碾压级优势，似乎在这短短2年内便彻底丧失——不仅是Skylake这种年迈架构表现的弊端，而且在10nm工艺迟迟无法大规模量产的情况下，7nm又双叒叕延后了半年。

　　AMD Zen架构进步在我以往的不少文章里，都有比较详细的阐述，Zen 3已经事实上在单核和多核性能上实现了对Intel处理器的全面赶超——虽然Intel的marketing仍然相当顽强。而苹果Mac系列在抛弃Intel处理器之后，自研的M1芯片则可以说几乎让整个x86阵营汗颜，仅3.2GHz的主频、低很多的功耗，就能将Intel最高端的Core i9踩在脚下，并彻底无视Intel最新的Tiger Lake（十一代酷睿）。

　　所以美国西部时间1月13日，英特尔宣布新任CEO Pat Gelsinger的即将上任，换下Bob Swan。事实上在此之前，Intel首席工程官Dr. Venkata （Murthy）的离职就能够从公司管理层面，显现Intel对现状的反思。

　　本文篇幅较长，这里给出导读，读者可根据自己的兴趣，做选择性阅读。

　　● x86处理器做大小核设计的背景

　　● 大小核设计的意义

　　● Intel的初代大小核处理器Lakefield实际表现

　　● Lakefield的小核心Tremont（可选读）

　　● Lakefield的封装技术（可选读）

　　● Intel大小核处理器面临的问题和展望

　　x86阵营也开始做大小核

　　有关M1芯片为何能达到这个程度，我会另外撰文详述。M1的逆天表现虽然不是本文要谈的重点，不过M1的出现却已经向市场证明，Arm在PC高性能领域是大有可为的，与此同时还能兼顾低功耗。从极客湾测试的数据来看，日常工作中，M1版MacBook Pro的功耗之低，与整个x86阵营都是有量级差距的：B站看个视频，M1功耗在0.5-0.7W，而Intel Tiger Lake需要4-4.5W;待机功耗，M1达到了震惊PC处理器市场的0.02W，而Tiger Lake是1.1W。MacBook如今的续航因此可以达到20小时甚至更高。

　　这其实并不让人意外，毕竟Arm平台的大小核（big.LITTLE）设计早已是Arm芯片参与者做惯了的事。Arm过去始终在移动平台活跃，而手机之类移动设备对功耗是非常敏感的，所以处理器采用大小核心搭配是必须的。

　　而x86阵营的参与者，如Intel就是自PC处理器起家的，PC对功耗更不敏感（尤其是桌面PC）。所以PC处理器也更倾向于通过提升频率（而不是增加更多专用单元）来提升性能，自然也不存在“小核”设计。两者功耗上的差距显得相当顺理成章。

　　但在持续提频的道路上，移动办公逐渐风行的当下，Intel也一早就意识到了功耗需要有越来越高的优先级。这两天在美国进行的CES大会上，Intel再度提到了规划中的“混合x86产品”Alder Lake，也就是x86版的大小核设计。去年Intel的Architecture Day 2020上，Intel正式宣布Alder Lake路线图：未来的Alder Lake处理器，会将高性能计算核心（Golden Cove）与“高效率”核心（Gracemont）放到一起。

　　将其比作Intel版的M1芯片并不合理，毕竟Intel要做此类处理器的意愿也不是M1出现后才有的，不过两者大方向总算是趋同的。Alder Lake会面向桌面和移动两个平台推出（这里的移动主要只是笔记本或同类设备），这颗规划中的芯片也事实上成为x86阵营针对Arm大小核设计思路的反击（主要是骁龙8cx和苹果M1这类芯片）。不过在规划上，Alder Lake需要等到今年下半年。而且Intel在这种大小核设计方案上，也还处在试探期。

　　在Alder Lake之前，Intel在Architecture Day 2018上展示了其初代“混合x86处理器”产品：Lakefield，也是将Core（酷睿）和Atom（灵动）架构处理器核心放到一起，作为Intel版本的大小核。

　　如今Alder Lake相关消息仍然很少，本文尝试以Lakefield为依据，从技术角度谈谈x86阵营推行这种混合处理器，能否在Intel最艰难的历史时期，帮助Intel重回PC处理器市场巅峰——以及这种“混合”“大小核”设计究竟有多大价值。

　　另一方面，Lakefield处理器虽然目前的出货还非常少，而且由于规格定义并不面向高端PC（与笔记本）市场，但它几乎可以认为浓缩了Intel当下最先进的一批技术。所以对Lakefield剖析，也能更全面地了解Intel如今在PC处理器市场的处境和底牌。

　　而且Lakefield不仅标志着Intel PC处理器的未来规划，也预示了PC处理器整个市场的未来，即便它本身只是x86指令处理器的试水之作。（要知道AMD这边到现在其实都还没有自家的“小”核心设计，虽然早期架构的改款还是可以考虑）

　　大小核有意义吗？

　　从苹果开始为MacBook采用M1芯片，以及微软积极拥抱Arm推类似Surface Pro X这样的Arm笔记本设备（和Window on Arm）就不难发现，x86在笔记本这样注重移动性的设备上显得不够高效。抛开兼容性问题不谈，Surface Pro X在采用高通处理器以后，续航就远高于x86版本的Surface;新版MacBook就更不用说了。

　　如前文所述，Arm的低功耗与其很早就推big.LITTLE（以及DynamiQ灵活搭配）设计是有很大关系的（更多原因我将在M1架构分析中阐述）。这种大小核设计，在面对轻度工作负载时选择小核心，而在需求高性能时则用大核心去跑任务。这种方案基于一个事实：两种核心在不同的性能区间，其功耗表现是大不一样的。

　　Lakefield“大小核”的整体设计大致上可以反映这个思路。Lakefield搭配的大小核分别是Sunny Cove（十代酷睿上的核心）和Tremont（最新的Atom核心），具体是1颗Sunny Cove搭配4颗Tremont。Arm阵营如今颇为常见的搭配方法是4+4，或者1+3+4/2+2+4，越来越多的手机芯片倾向于大中小三簇核心的搭配方法。

　　用一张图大致能够说明，大小核设计带来效率提升的价值：

　　这张图是Intel官方提供解释Lakefield两种核心，在不同性能下的功耗情况的：横轴代表相对性能，纵轴代表相对功耗，随性能提升，功耗也在提升。

　　左边这张展示的是单线程下，两种核心的性能与功耗关系（橙色代表Sunny Cove-SNC，蓝色代表Tremont-TNT）；右边这张图标识的则是多线程性能与功耗关系。比较显然的一个结论是，仅看单线程情况，在较低性能状态下，小核心能够达成更低的功耗；但到了高性能区间，小核心的功耗反而会崩，此时大核心的效率会更好。

　　更具体地说，在相对性能低于58%时，Tremont核心效率高很多，而在性能高于58%时，Sunny Cove显然是更好的选择。当然多线程性能又是不同的，毕竟Sunny Cove核心在Lakefield中就只有一个。Intel提供的数字是，Tremont在能效上打败Sunny Cove时，最高可以达成Sunny Cove 70%的性能；性能水平介于Sandy Bridge（2-3代酷睿）和Haswell（4代酷睿，2013-2014年）之间——整数性能与Haswell相近，同时效率会高很多。

　　事实上，Lakefield并不通过任务负载性能需求高低来决定用哪种核心工作。在Intel的定义中，Sunny Cove针对需要快速响应，以及与用户体验切身相关的线程；而Tremont则针对要求多线程性能的相关任务，以及需要在较高效模式下跑的非用户相关后台任务。比如视频编码工作，通常考虑用四个Tremont核心来跑，Windows后台任务也交由Tremont完成；类似用户点击开始菜单、滚动网页这种操作，要求快速响应，则交给Sunny Cove。

　　x86初代大小核处理器的性能怎么样？

　　Lakefield（酷睿i5-L16G7）的其他参数还包括CPU基频1.4GHz，大核心的最高睿频3.0GHz（全核最高1.8GHz），不支持超线程，TDP 7W;核显为Gen11（GT2 64EU，500MHz，频率远低于Ice Lake）；堆叠了8GB LPDDR4-4267内存；计算die部分的工艺为10nm。

　　从这些配置来看，就知Lakefield在性能表现上可能并不怎么样，定位的就是低功耗便携式或者一些二合一设备。尤其多线程工作基本全部交给Tremont去完成——这让Lakefield在很多情况下变身Atom处理器——对不起酷睿的名头。

　　即便有一颗Sunny Cove大核，也不支持超线程。另外比较重要的一点是，原本Sunny Cove是支持AVX-512指令的，但因为Tremont小核不支持，所以为了达成“混合CPU”的这种大小核设计，唯有令两者对支持的指令完全达成一致，所以Sunny Cove也就阉割了对AVX-512指令的支持，另外阉割的还包括了AVX、AVX2，以及Tremont小核心的GFNI、ENCLV、CLDEMOTE等指令。

　　像这样异构核心方案，在指令方面需要满足木桶最低板的原则（或者跨所有核心的ISA兼容性），在Arm世界也同样适用。否则线程在大小核之间迁移时就会出问题。所以Cortex-A55作为Arm处理器的小核心被用了这么多年不动摇，也是这个道理。

　　来源：AnandTech[2]，四颗Tremont核心簇的面积和一颗Sunny Cove相差无几

　　无论AnandTech还是WikiChip，都认为从Lakefield的die shot来看，Sunny Cove核心部分的AVX-512相关的单元并未被实际移除，虽然Intel宣称是“移除”了的。

　　Intel宣传的数字是，相比Amber Lake i7-8500Y（Intel的超低压处理器，TDP 5W），Lakefield的多线程性能高24%，单线程则快12%，图形性能提升70%——这些变化实则都在预期内。以及有大核心的加持，web性能高出33%，效率提升17%——这一点对比的显然就是单纯的四核Atom了。可预期的是看B站会比以前省电……

　　另外比较重要的是每瓦性能提升24%（相比Amber Lake），待机功耗“大幅降低”，达到2.5mW左右——这就和前文列出M1的待机功耗数字差不多了。达成最高的效率原本就是这种设计的重要目的。苹果在发布会上最爱谈的就是每瓦性能以表现芯片的高效率。在Architecture Day 2020上，Intel就宣称Alder Lake将能够达成Intel有史以来最高每瓦性能——当然这是Lakefield后续产品了，也是Intel的预期。

　　当前针对Lakefield尚无十分系统的性能测试。已经上市的Lakefield产品主要包括了联想ThinkPad X1 Fold、三星Galaxy Book S以及微软Surface Book Neo。NotebookCheck的实测数据是，Lakefield（i5-L16G7）综合性能（也包括了核显性能）弱于超低压的酷睿i5-8210Y和四代酷睿42 85U。

　　来源：NotebookCheck[3]

　　这个数据可能并不是很合理，一方面在于NotebookCheck用于跑分测试的Cinebench版本（R15与R20）在多线程性能测试中甚至都无法用上Lakefield的Sunny Cove大核（但却的确能反映其实际使用情况，因为如前文所述，Lakefield中的Sunny Cove并不像很多人理解的那样，是简单用于“高负载”任务），另一方面和OEM厂商的具体实施方案有关。

　　Cinebench R23似乎是目前唯一能够实现5核全开的测试，但网上找不到R23的Lakefield跑分。总之Lakefield大致上也就用来做word或者ppt文档以及看看网页和爱奇艺了。

　　有关Tremont小核心（选读）

　　很多同学抱怨我文章写太长，所以更全面的微架构分析文章，后续我会发到我的面包板专栏，感兴趣的同学可以前往关注。本文我只简单聊聊Lakefield中的小核心Tremont，毕竟大核心的Sunny Cove其实算是非常知名了，Intel十代酷睿的Ice Lake用的就是这个核心。而且Lakefield也实在谈不上“高性能”，它本身更重在“低功耗”上。

　　Tremont相比前代（Goldmont Plus，2017年）主要是提升单线程性能，IPC有超过30%的提升。作为Atom处理器中的一款产品，它重在考量每核功耗与每核面积。所以前文给出的die shot就能看出，Lakefield中的Tremont四核心簇整体尺寸才相当于一个Sunny Cove。

　　来源：WikiChip[4]

　　从“小”核心的角度来说，Tremont与知名的Arm Cortex-A55小核心并不是一个量级。Tremont首先是个乱序核心，前端解码宽度6-wide（虽然是分两组），这就决定了它比A55这样的选手还是壮实多了。这一点和苹果的思路就很像（2019年苹果A12的Tempest小核心，在性能上几乎达到了Cortex-A72的程度）。

　　其余具体的微架构可参见上图，包括allocation 4-wide，re-order buffer增加至208条（+119%），后端有10个执行端口，双load/store管线；L2 cache最高可配置4.5MB，L1-D cache增加33%，L2 TLB（页表缓存）增加到1024-entry;另外还有新指令引入——不过对Lakefield而言，这一点就不存在了，前文已经提到。感觉整体看起来，这都不像是个“小”核心。

　　其最大的变化在前端，包括分支预测单元升级——接近于“大”核心级别的精度（两级结构）；以及最重要的解码宽度变化。不过这个所谓的“6-wide”宽度并不是类似酷睿5-wide那类方案（1个复杂decoder，4个简单decoder，再加μop cache），实际上是两组3-way对称解码。每一组都有自己的指令流。配合分支预测器，预测指令流可以进第二组（上图的Cluster 1），不打断第一组（Cluster 0）的工作，两组并行预测、读取、解码。

　　这种实际上的3-wide设计，相比真正的6-wide解码要节省面积和功耗，没有μop cache。Intel宣称这种设计能够平衡资源。Tremont也支持仅开其中一组的模式，预期实现更低的每核峰值功耗。更多包括re-order buffer加深、执行引擎和存储子系统拓宽等，本文皆不再赘述。还有一些额外的特性，比如RDT技术支持，可实现带宽分配、QoS、优先级之类的操作（服务器芯片中常见）；Speed Shift技术；信任安全启动；内存加密等。

　　当大小核遇上3D封装（选读）

　　抛开更微观的层面不谈，Lakefield整体看来还是比较草率的，包括1+4的这种组合方式，及其表现出的实际性能。Lakefield之所以没有加入更多的Sunny Cove大核心，很大程度应该也是受限于Sunny Cove核心的体积和功耗。以Lakefield如今计算die占据的82mm?来看，及其预定义的尺寸，它很难再塞入更多CPU核心，何况Sunny Cove的功耗也实在不算低。

　　所以我们才说，Lakefield很像Intel针对“混合”或者大小核设计的一个试水，和打怪升级的必经之路。而作为一款实验性质的作品，Lakefield不仅有Intel最新的大小核，而且在封装上也算是集Intel芯片制造厂的大成了。它用上了传说中的Foveros 3D芯片堆叠技术，也是Intel首款采用这种封装方案的芯片。

　　前面谈的这些CPU大小核、GPU等都是Lakefield的计算die（计算die上另外还包括了图像处理单元IPU、LPDDR4X内存控制器、Gen11 Display engines等），采用的是Intel的10nm工艺（与Ice Lake一致，理论上属于Intel的二代10nm工艺）；有关Intel 10nm工艺本文不再详述，详情参见我的面包板专栏文章。

　　而在计算die之下，还有个base die。下面的这片base die主要是处理器外设的active interposer（主动中介层）。Active interposer相比传统passive interposer，不只是用于连接的中介层，本身也发挥功能逻辑的作用，其上包含各种PCIe 3.0、各种I/O控制、音频codec、安全等。Base die所用的制造工艺是22FFL——22FFL并不是早期的22nm工艺，而是14nm的功耗优化版（更稀疏的版本），针对的就是更高效的IO。22FFL则必然又在成本上显著低于10nm了，这也属于典型的chiplet设计和制造思路。

　　计算die和base die之间采用50μm间距bump的die-to-die互联（Foveros Die to Die Interface），承载信号（数据）和供电的连接。这种互联应该是3D堆叠方案上的绝对难点。Intel宣称其最大传输速率是500MT/s（mega-transfers per second），而且每bit数据传输耗能0.2pJ（皮焦）。0.2pJ在die间数据传输的耗能量级上可以认为是非常小的，这应该也是实现低功耗的一部分。

　　值得一提的是，IO部分Lakefield仅给到了PCIe 3.0六条通道支持，这就决定了其IO连接会相当捉襟见肘。ThinkPad X1 Fold为Lakefield配套的SSD，仅拿到PCIe 3.0 x2的通道，带宽因此大受限制；配独立GPU什么的，那也是想都不用想的了。[5]从这样的小细节也能看出Lakefield试水的本质。

　　最后在Lakefield整个封装的最上层是内存（Package on Package），有4GB和8GB两种规格可选，应该是来自其他内存制造商的定制方案。值得一提的是，内存与中间的计算die之间并没有采用什么黑科技连接方式，与CPU的通讯是需要经由最底层的package转道再经过base die之后，再到compute die的。它也没有M1芯片那样的Unified Memory Architecture特性。

　　这样的堆叠方案下，散热会成为一个大问题，Intel为此似乎还是颇费了一番功夫的，不过现阶段主要在不同IP模块的设计上做到减少局部的高温聚集点、互联金属层厚度控制等，所以散热在设计上有更高的优先级；另外Intel还探讨过在两个die之间采用“流体通道（fluidic channes）”的可行性——这就属于未来的方向了。有关Lakefield封装细节，AnandTech的文章中有比较详细的阐述[2]，我也会在面包板专栏再行刊文。

　　经过这种Foveros 3D堆叠后，Lakefield芯片整体达成了12x12x1mm的三围尺寸。板级设计也就可以更为紧凑，相比之前的低功耗CPU实施方案，主板可以减少60%的尺寸。加上LTE modem的话，整体主板尺寸总算是可以和高通的设计比一比了。

　　Lakefield真的能成吗？

　　最后来稍稍总结一下Intel在Lakefield处理器上现存的问题。首先Lakefield基本上是很难获得市场大范围的肯定的，即便它塞入了Intel这么多最尖端的研究成果。不过Lakefield作为Intel首款涉足大小核设计的处理器产品，其积累经验的作用也明显大于市场本身。下一代的Alder Lake才是值得观察的关键。

　　所以这个问题应当换成Intel的大小核设计能成吗？

　　事实上Intel在这种非其传统强项的处理器产品中，遭遇的问题可能是形形色色的。从具体到抽象总结这种处理器“能成吗”的关键：

　　其一是scheduler（调度）。Intel此前并没有设计大小核处理器的经验，Windows也始终不曾有不同类型的核心间做线程（进程）迁移的scheduler（微软和高通勾搭上之后，必然有密切合作在不同CPU设计间管理负载的scheduler，但至少x86是没有的；不过从Wikichip的介绍来看，Intel似乎也提交过非一致指令集的异构核心一起工作，针对操作系统的算法和加强[6][7]）。要知道Android和Arm在这方面可是有着比较长期的演进的，包括线程迁移对实际体验造成的影响；苹果就更不用说了。

　　Cinebench更早版本在做Lakefield多核性能测试时，并不会启用Sunny Cove大核可能就能说明一些问题（但AnandTech猜测这可能是功耗或者热聚集考量所致）。

　　传言未来的Alder Lake预计会包含8+8的设计，这其中的线程调度就不只是Intel如今列出、如上图这样Lakefield简单的网页浏览场景了。那将更考验Intel的功力。

　　第二是处理器本身的性能。Lakefield宣传中似乎的确有着不错的功耗表现，但性能实在是不大够看。这应该并不是什么大问题，一方面在于Lakefield本身就不定位在高性能，另一方面则是这款产品试水和积累经验的成分居多。在Architecture Day 2020之上，Raja Koduri表示Intel从Lakefield身上学到了很多东西，Alder Lake未来会聚焦到性能上。

　　终极问题大概是，在性能和效率上Intel能否做到苹果M1那样的程度。M1芯片表现出的性能和效率，我个人看来是基于三个要素共同构成的：其一是超宽的处理器架构，其二是有针对性地添加一些专用单元，其三则是对自家封闭生态超乎寻常的掌控力（令其能够很随意地做出同一内存架构这样的东西）。

　　这将在未来M1的文章中做详述。这三要素可认为是仅有苹果这种掌控从芯片设计到开发生态，到消费终端产品销售全环节的企业才有的资源。比如前两者，超宽处理器架构和专用单元是需要以die面积（即成本）为代价的，苹果可以这么玩是基于其终端产品的高利润与高销量；对于Intel、高通这种单纯赚取处理器利润的厂商，这种玩法非常不经济（x86还存在变长指令不利于解码宽度拓宽这样的现实问题）。要达到M1的性能水平不难，但效率就没那么简单了。

　　还有其他的一些妥协，比如说前文提到的为实现指令的对称性，Lakefield不支持AVX指令——这原本可是Sunny Cove主打的升级特性；再比如3D堆叠的两层die分别用了两个PMIC（电源管理IC）。这些其实都表明Lakefield的不成熟，不过这些问题未来都有解决的办法。

　　最后更抽象的是，是Intel的速度问题。这里的速度是指Intel行事与决策的响应速度。不说Skylake缝缝补补新三年旧三年，最典型的是芯片制造工艺已经落后于台积电，且可预期的未来，行进速度还将非常缓慢。比如下半年大小核处理器Alder Lake要用上10nm Enhanced SuperFin（应该是第四代10nm工艺），这还是预期中的。届时的市场格局或许都不好说了，以及7nm工艺遥遥无期（最早一批7nm要等到2022年下半年或2023年上半年）。

　　若以多年前Intel在PC处理器市场的地位，这些问题或许都不足多虑。AMD推土机推了那么多年，苹果也还偏安在iPhone上，Intel有的是时间；但在如今这般光景下，情况就相当不乐观了。

　　好在2021年下半年也还不算遥远。Intel即将上任的CEO Pat Gelsinger也有多年技术背景，这预计也会加快Intel技术推进速度，这正是目前Intel最需要的。Intel在去年的ISA Extensions Reference手册上确认，Alder Lake还将加入新指令支持[8]，包括LBR、HLAT、SERIALIZE，其中LBR可用于分支提速，对性能还有价值。从多方面来看，传说中拥有最高每瓦性能表现的Alder Lake都成为Intel规划的产品线中让人最为期待的处理器，并且真正让我们看到Intel在大小核设计上的实力。

版权声明：本站内容除特别声明的原创文章之外，转载内容只为传递更多信息，并不代表本网站赞同其观点。转载的所有的文章、图片、音/视频文件等资料的版权归版权所有权人所有。本站采用的非本站原创文章及图片等内容无法一一联系确认版权者。如涉及作品内容、版权和其它问题，请及时通过电子邮件或电话通知我们，以便迅速采取适当措施，避免给双方造成不必要的经济损失。联系电话：010-82306118；邮箱：aet@chinaaet.com。

Intel换了CEO能做苹果M1那样的芯片吗？PC处理器大小核反击战

日期： 2021-01-14

来源： 电子工程专辑

相关内容

来源：电子工程专辑