Marvell ThunderX3处理器解析:96核心384线程、ARM芯片之王
2020-04-26
来源:快科技
长久以来,服务器、数据中心领域一直是x86 CPU架构的天下,但是随着市场需求、应用负载的多元化,随着云计算、边缘计算、高性能计算的不断演进,RISC-V、ARM等架构也都迎来了新的爆发机遇,尤其是ARM,众多巨头纷纷参与,生态建设也是如火如荼。
比如最近,亚马逊就发布了ARM架构的64核心Graviton2,安晟培(Ampere)则推出了80核心的Altra。现在,Mavell(美满电子)奉上了第三代ARM芯片“ThunderX3”。
Marvell的大名很多人可能不太熟悉,但这家历史悠久的半导体企业其实随时都在你身边,比如机械硬盘主控,绝大部分都出自Marvell的手笔,SSD主控也有丰富的产品。
Marvell成立于1995年,总部位于美国加州圣克拉拉,在美国、以色列、印度、德国、中国都设有研发中心,全球员工超过5000人,全球专利超过1万件,2020财年收入27亿美元,核心业务覆盖存储、网络、计算三大领域,特别是拥有超过15年的高性能多核心CPU研发经验。
Mavell旗下拥有完整的CPU处理器产品线,包括Armada、Octeon TX、Octeon Fusion、ThunderX四大系列,尤其是已经悄然成为全球最大的ARM服务器处理器供应商,应用范围、生态支持都独步全球,累计出货量已突破1亿颗。
2017年,Marvell还以约60亿美元的价格收购了美国无工厂半导体企业Cavium(凯为半导体),进一步增强了ARM平台的设计能力。
既然有了成熟的x86,为何要大力推广ARM?它有什么吸引整个行业的呢?
Marvell认为,在架构、工艺、性能、能效、生态等多个方面,ARM都展现出了更优秀的品质,虽然不会也不能全方位取代x86,但是在部分特定领域,尤其是云计算、高性能计算等,已经明显超越x86。
架构方面,x86一直是一个架构打天下,从服务器数据中心到桌面笔记本消费级,都基于同一个架构衍生不同的产品,缺乏灵活性,尤其是在并行处理方面,而且规模越做越大,也导致成本、功耗越来越无法满足需求。
工艺方面,Intel已经失去了领导地位,至强系列至今还是14nm,AMD虽然走到了7nm,但又在架构上“取巧”使用chiplet多芯片谁家,导致内存带宽、内存延迟明显不足,ARM方面则跟着台积电一路走到了7nm,并即将进入5nm。
性能和能效方面,Marvell认为ARM架构的单线程性能已经是一流水准,多线程和平台性能更是遥遥领先,内存带宽、延迟同样优秀,而且功耗低、能效高。
生态方面,x86虽然历史悠久,但负担也很重,比如考虑各种历史甚至是消费级兼容性,ARM则没有过多拖累,架构直接为服务器优化而生。
同时,软硬件行业对ARM的支持也越来越丰富,比如Marvell ThunderX2已经被20多家终端客户部署在大规模云计算、高性能计算市场,包括微软Azure、HPE、Cray、Atos、洛斯阿拉莫斯国家实验室、桑迪亚国家实验室、劳伦斯利弗莫尔国家实验室、橡树岭国家实验室、布里斯托大学、莱彻斯特大学等等。
甚至,Intel的一些软硬件技术同样支持ARM平台,NVIDIA、AMD GPU同样也支持。
接下来说说具体产品。Marvell ThunderX系列严格遵循每两年升级一代的路线图,ThunerX2系列诞生于2018年,而在今天的主角ThunerX3之后,2022年还将看到ThunerX4,工艺也是一路升级,28nm、16nm、7nm……
ThunerX3采用台积电7nm DUV工艺制造,基于Marvell自主研发架构,指令集兼容ARM v8.3+,最多96个核心,而且继续支持4线程,也就是最多384个线程,是上一代的整整三倍,而且支持双路并行,此时单系统可提供128个核心、768个线程。
同时,频率方面基准最高2.4GHz,最高加速3.1GHz,比上代还提高了100MHz。
新的内核集成四个128-bit Neon SIMD单元,就宽度而言等效于一个x86 AVX-512,从而大大提高了浮点性能。Intel至强最高端型号两个,AMD霄龙则是每核心两个256-bit SIMD单元,基本等效。
内存支持八通道DDR4,频率达3200MHz,并支持64条PCIe 4.0(16个控制器),比上代PCIe 3.0更进一步而且增加了8条通道,未来还会随着PCIe 5.0/6.0标准的演进而升级。
当然了,企业级的RAS、虚拟化这些都是必不可少的元素。
接下来说说性能,当然都是来自Marvell官方的数据,而且具体性能表现取决于特定的工作负载。
综合性能方面,ThunderX3对比上代IPC(每时钟周期指令数)性能提升超过25%,基本可视为架构本身的进步幅度,而结合更高的运行频率,单核心性能提升超过60%,再加上大大增加的核心数,整体性能提升可以超过3倍!
对比x86双雄,ThunderX3的优势不在于绝对性能,而是更好的能效,相比于AMD Rome二代霄龙可高出30%,对比Intel二代可扩展至强更是领先多达1.2倍。
ThunderX3并不贪大求全,主攻市场只有两个,一是云计算,包括大数据、数据库、流媒体、Web、搜索、存储、移动应用开发、手游等等,其高度并行、丰富I/O、超低延迟、ARM原都是独特优势。
性能方面,单核心四线程可以带来可观的性能提升,常见应用中最多可以提升达80%,特定负载下甚至能见到3-4倍的提升。
对比AMD二代霄龙、Intel二代可扩展至强,ThunderX3在云端也毫不示弱,所服务的领域内已经全面胜出,而且延迟更低,而且支持更多数量的虚拟机。
第二个主攻方向就是高性能计算,包括政府部门、天气预报、油气勘探、计算机辅助工程、生物基因、电子设计自动化等,高内存带宽、高能效、高并行性的特点可以说非常适合。
对比两家x86方案, ThunderX3在浮点、内存带宽指标以及量子化学、计算流体动力学、计算化学、矢量物理等应用方面,都有着不俗的表现。
对于ThunderX3的市场前景,Marvell也是非常积极乐观,透露现在部署ThunderX2的超过20家客户,都在准备升级ThunderX3,而后续的ThunderX4还会继续带来大幅度的提升。
中间的是上代ThunderX2