HBM随着AI需求的飙升愈发成为首选内存
2024-11-25
来源:芯智讯
随着最先进的 AI 加速器、图形处理单元和高性能计算应用程序需要快速处理的数据量不断激增,高带宽内存 (HBM) 的销量正在飙升。
目前HBM库存已售罄,这是由于对开发和改进 ChatGPT 等大型语言模型的大量努力和投资。HBM 是存储创建这些模型所需的大量数据的首选内存,通过添加更多层来提高密度而进行的更改,以及 SRAM 缩放的限制,正在火上浇油。
Rambus 高级副总裁兼硅 IP 总经理 Neeraj Paliwal 表示:“随着大型语言模型 (LLM) 现在超过一万亿个参数并继续增长,克服内存带宽和容量方面的瓶颈对于满足 AI 训练和推理的实时性能要求至关重要。
至少这种势头在一定程度上是先进封装的结果,在许多情况下,与平面 SoC 相比,先进封装可以提供更短、更快、更强大的数据路径。“领先的 [封装] 正在大放异彩,”ASE 投资者关系主管 Ken Hsiang 在最近的财报电话会议上表示。“无论是 AI、网络还是其他正在开发中的产品,对我们先进的互连技术及其各种形式的需求看起来都非常有希望。”
这就是 HBM 恰好适合的地方。“HBM 架构将掀起一股大浪潮 — 定制 HBM,”三星半导体副总裁兼 DRAM 产品规划主管 Indong Kim 在最近的一次演讲中说。“AI 基础设施的普及需要极高的效率和横向扩展能力,我们与主要客户达成一致,基于 HBM 的 AI 定制将是关键的一步。PPA — 功耗、性能和面积是 AI 解决方案的关键,定制将为 PPA 提供重要价值。
过去,经济学严重限制了 HBM 的广泛采用。硅中介层价格昂贵,在 FEOL 晶圆厂的存储单元中处理大量硅通孔 (TSV) 也是如此。“随着 HPC、AI 和机器学习的需求,中介层的尺寸显著增加,”ASE 工程和技术营销高级总监 Lihong Cao 说。“高成本是 2.5D 硅中介层 TSV 技术的主要缺点,”
虽然这限制了其对大众市场的吸引力,但对成本不太敏感的应用(例如数据中心)的需求仍然强劲。HBM 的带宽是任何其他内存技术都无法比拟的,使用带有微凸块和 TSV 的硅中介层的 2.5D 集成已成为事实上的标准。
但客户希望获得更好的性能,这就是为什么 HBM 制造商正在考虑修改凸块、凸块下和模塑材料,同时从 8 层到 12 层再到 16 层 DRAM 模块能够以闪电般的速度处理工艺数据。HBM3E(扩展)模块的处理速度为每秒 4.8 TB(HBM3),在 HBM4 上有望达到 1 TB/s。HBM4 实现这一目标的一种方法是将数据线数量从 HBM3 中的 1,024 条增加到 2,048 条。
如今,有三家公司生产 HBM 内存模块——美光、三星和 SK 海力士。尽管它们都使用硅通孔和微凸块来可靠地提供其 DRAM 堆栈和随附器件以集成到高级封装中,但每家公司都采取了略有不同的方法来实现这一目标。三星和美光在每个凸块级别都加入了非导电膜 (NCF) 并使用热压缩 (TCB) 粘合。与此同时,SK海力士正在继续采用模塑底部填充物(MR-MUF)的倒装芯片质量回流焊工艺,该工艺只需一个步骤即可将堆栈密封在高导电性模塑材料中。
HBM 中的垂直连接是使用铜 TSV 和堆叠 DRAM 芯片之间的缩放微凸块完成的。较低的缓冲器/逻辑芯片为每个 DRAM 提供数据路径。可靠性问题在很大程度上取决于回流焊、粘合和模具背面研磨过程中的热机械应力。识别潜在问题需要测试高温工作寿命 (HTOL)、温度和湿度偏差 (THB) 以及温度循环。结合预处理和无偏湿度和应力测试 (uHAST) 来确定级别之间的粘附水平。此外,还需要进行其他测试,以确保长期使用时没有微凸块,例如短路、金属桥接或芯片和微凸块之间的界面分层。混合键合是替代 HBM4 代产品微凸块的一种选择,但前提是无法满足良率目标。
△图 1: 实现最大数据吞吐量的 HBM 堆栈。资料来源:Rambus
正在开发的另一项进展涉及 3D DRAM 设备,它与 3D NAND 一样,可以将存储单元侧向转动。“3D DRAM 堆叠将大大降低功耗和面积,同时消除来自中介层的性能障碍,”三星的 Kim 说。“将内存控制器从 SoC 重新定位到基础芯片将启用更多指定用于 AI 功能的逻辑空间。我们坚信定制 HBM 将开启性能和效率的新水平。紧密集成的内存和代工厂功能将为大规模部署提供更快的上市时间和最高的质量。
△图 2:三星的 DRAM 路线图和创新。来源:Semiconductor Engineering/MemCon 2024
这里的总体趋势是将 logic 移近内存,以便在内存中或附近进行更多处理,而不是将数据移动到一个或多个处理元素。但从系统设计的角度来看,这比听起来要复杂得多。
“这是一个激动人心的时刻。AI 如此炙手可热,HBM 就是一切。各种存储器制造商都在与时间赛跑,成为率先生产下一代 HBM 的公司,“Lam Research 先进封装技术总监 CheePing Lee 说。
下一代是 HBM4,JEDEC 正忙于为这些模块制定标准。与此同时,JEDEC 将 HBM3E 标准的最大内存模块厚度从 720 毫米扩大到 775 毫米,该标准仍然允许 40μm 厚的小芯片。HBM 标准规定了每个引脚的传输速率、每个堆栈的最大芯片、最大封装容量(以 GB 为单位)和带宽。与这些标准相伴的设计和流程简化有助于以更快的速度将 HBM 产品推向市场 - 现在每 2 年一次。即将推出的 HBM4 标准将定义 24 Gb 和 32 Gb 层,以及 4 层、8 层、12 层和 16 层 TSV 堆栈。
HBM 的演变
高带宽内存的开发可以追溯到 2008 年的研发工作,以解决与计算内存相关的功耗和占用空间增加的问题。“当时,GDDR5 作为最高频段的 DRAM,被限制为 28 GB/s(7 Gbps/引脚 x 32 个 I/O),”三星的 Sungmock Ha 和同事说。[1] “另一方面,HBM Gen2 将 I/O 数量增加到 1,024 个,而不是将频率降低到 2.4Gbps 以实现 307.2 GB/s。从 HBM2E 开始,采用 17nm 高 k 金属栅极技术,达到每引脚 3.6Gbps 和 460.8 GB/s 带宽。现在,HBM3 新推出了每引脚 6.4Gbps 的传输速率,具有 8 到 12 个芯片堆栈,与上一代相比,带宽提高了约 2 倍。
这只是故事的一部分。HBM 一直在向加工靠拢以提高性能,这为多种加工选择打开了大门。
Mass Reflow 是最成熟和最便宜的焊接选择。“一般来说,只要有可能,就会使用大规模回流焊,因为安装的资本支出很大,而且成本相对较低,”Amkor 工程和技术营销副总裁 Curtis Zwenger 说。“Mass Reflow 继续为将裸片和高级模块连接到封装基板提供了一种经济高效的方法。然而,随着性能期望的提高,以及 HI 模块和先进基板的解决方案空间,净效应之一是 HI(异构集成)模块和基板的翘曲量增加。热压缩和 R-LAB(反向激光辅助键合)都是对传统 MR 的工艺改进,可以更好地处理 HI 模块级别和封装级别的更高翘曲。
微凸块金属化经过优化,以提高可靠性。如果微凸块和焊盘之间的互连在细间距应用中使用带有助焊剂和底部填充的常规回流焊工艺,则底部填充空隙滞留和剩余的助焊剂残留物会导致凸块之间滞留。为了解决这些问题,预涂非导电薄膜 (NCF) 可以在一步粘合工艺中取代助焊剂、底部填充和粘合工艺,而不会捕获底部填充空隙和剩余的助焊剂残留物。
三星在其 12 层 HBM3E 中使用了带有热压缩键合的薄 NCF,据称其具有与 8 层堆栈相同的高度规格,带宽高达 1,280 GB/s,容量为 36 GB。NCF 本质上是带有固化剂和其他添加剂的环氧树脂。该技术有望带来更多好处,尤其是在更高的堆栈中,因为该行业正在寻求减轻更薄芯片带来的芯片翘曲。三星每一代都会扩大其 NCF 材料的厚度。诀窍是完全填充凸块周围的底部填充区域(为凸块提供缓冲),使焊料流动,不留下空隙。
SK 海力士在其 HBM2E 一代产品中首次从 NCF-TCB 转换为大规模回流成型底部填充。导电模具材料是与其材料供应商合作开发的,可能采用专有的注射方法。该公司使用其质量回流焊工艺展示了更低的晶体管结温。
HBM 中的 DRAM 堆栈放置在缓冲芯片上,随着公司努力在该基础芯片上实现更多逻辑以降低功耗,同时还将每个 DRAM 内核连接到处理器,缓冲芯片的功能正在不断增长。每个晶片都被拾取并放置在载体晶圆上,焊料经过回流焊,最终堆栈成型,经过背面研磨、清洁,然后切割。台积电和 SK 海力士宣布,该代工厂未来将向这家存储器制造商供应基础芯片。
“人们对逻辑上的内存非常感兴趣,”Synopsys 的研发总监 Sutirtha Kabir 说。“记忆逻辑是过去研究的东西,这也不能排除。但这些都将在功率和散热方面面临挑战,而这些挑战是相辅相成的。直接影响将是热诱导应力,而不仅仅是装配体级应力。而且你很可能会使用混合键合,或者非常细间距的键合,那么热问题对那里的机械应力有什么影响呢?
来自该基本逻辑的热量也会在 logic 和 DRAM 芯片 1 之间的接口处产生热机械应力。由于 HBM 模块靠近处理器放置,因此来自逻辑的热量不可避免地会散发到存储器中。“我们的数据显示,当主机芯片温度升高 2°C 时,HBM 端的结果至少会增加 5°C 到 10°C,”SK 海力士高级技术经理 Younsoo Kim 说。
其他问题需要通过 NCF TCB 流程解决。在高温和高压下发生的热压粘合会引起 2.5D 装配问题,例如凸块和底层镍焊盘之间的金属桥接或界面分层。TCB 是一种低通量工艺。
对于任何多小芯片堆栈,翘曲问题都与饰面材料的膨胀系数 (TCE) 不匹配有关,这会在加工和使用过程中随着温度循环而产生应力。压力往往集中在痛点上 — 基础芯片和第一个内存芯片之间,以及微凸块水平。具有仿真功能的产品模型可以帮助解决此类问题,但有时这些问题的全部范围只能在实际产品上观察到。
结论
AI 应用依赖于多个 DRAM 芯片、TSV、一个可以包含内存驱动器的基本逻辑芯片以及多达 100 个去耦电容器的成功组装和封装。与图形处理器、CPU 或其他处理器的结合是一个精心编排的组装,其中所有移动部件必须齐心协力地组合在一起,以形成高产量和可靠的系统。
随着行业从 HBM3 过渡到 HBM4,制造高水平 DRAM 堆栈的工艺只会变得更加复杂。但供应商和芯片制造商也在密切关注低成本的替代方案,以进一步提高这些极快且必要的存储芯片堆栈的采用率。