谷歌发布新型AI内存压缩技术内存需求得解-AET-电子技术应用

谷歌发布新型AI内存压缩技术内存需求得解

日期： 2026-03-26

来源：快科技

关键词： 谷歌内存 TurboQuant 大语言模型

3月26日消息，谷歌研究院推出全新AI内存压缩技术TurboQuant，精准破解AI推理的内存瓶颈。

该技术可在不损失精度的前提下，将大语言模型缓存内存占用至少缩减6倍，推理速度最高提升8倍。

AI模型运行时有一种“工作内存”，即KV缓存（Key-Value Cache）。每当模型处理信息、生成回答时，KV缓存便会迅速膨胀，且上下文窗口越长，缓存占用的内存越大。

这已成为制约AI系统效率与成本的核心瓶颈，并非模型不够智能，而是运行时的内存难以支撑。

TurboQuant采用向量量化的方法对缓存进行压缩，使AI在占用更少内存的同时记住更多信息，且保持准确性。实现这一效果的关键在于两项技术：名为PolarQuant的量化方法，以及名为QJL的训练与优化手段。研究团队计划在下个月的ICLR 2026会议上正式发布相关成果。

研究团队在Gemma和Mistral等开源大模型上进行了严格的基准测试。实验数据显示，TurboQuant无需任何预训练或微调，即可将键值缓存高效压缩至3比特，在“大海捞针”等长上下文测试中实现零精度损失，内存占用降至原来的六分之一。

此外，在H100 GPU加速器上，4比特TurboQuant的运行速度较未量化的32比特基准提升了高达8倍。

内存需求会降低，还是会带来更大需求？

针对TurboQuant技术会引发了整个市场对于内存需求断崖式下跌的担忧，产业专家与研究机构也给出了截然不同的看法：

富国银行（Wells Fargo）分析师Andrew Rocha指出：“当context window（上下文窗口）越来越大，KV Cache的爆炸性成长原本是推升內存需求的保证。但TurboQuant正在直接攻击这条成本曲线，一旦被广泛采用，数据中心对內存容量的规格要求将被打上大问号。”

不过，知名投行摩根士丹利（Morgan Stanley）和研究机构Lynx Equity Strategies则给出了截然不同的观点，

摩根士丹利认为市场可能忽视了“效率提升带动总量增长”的经济规律。当AI计算所需的内存成本降低到原本的1/6，这将会使得原本因内存太贵而无法上线的AI应用（如长文本翻译、复杂代码生成）需求大规模爆发，反而会填补、甚至超越被压缩掉的内存缺口。

这就是杰文斯悖论（Jevon's paradox），即当技术进步提高了使用资源的效率（减少任何一种使用所需的数量），但成本降低导致需求增加，令资源消耗的速度不减反增。

摩根士丹利分析师约瑟夫·摩尔（Joseph Moore）及其团队在周四发布的投资者报告中指出： “有报道称谷歌的TurboQuant会导致内存使用量减少了到原来的1/6，但这忽略了他们仅仅指的是KV Cache，而不是整体内存使用量。

“值得注意的是，谷歌的 Gemini 3 和 2.5 Pro 模型都拥有 100 万个Token的上下文窗口，但谷歌曾透露，他们使用 Gemini 1.5 Pro 测试过高达 1000 万个Token的上下文窗口，并取得了非常好的结果，但由于推理成本较高，他们最终没有发布该模型，”摩尔说道。“因此，我们预计，随着此类创新以及其他技术的出现，成本将会降低，这项技术将被用于服务于更智能、计算密集型的产品。”

摩根士丹利进一步指出，TurboQuant主要优化的是“推理阶段”的缓存，并非“训练阶段”的模型权重。因此，对于支撑AI核心训练的HBM（高频宽內存）采购逻辑影响相对有限。

相比之下，TurboQuant对手机、笔记本电脑等终端设备的人工智能部署更具意义。由于移动设备的內存有限，这类高效压缩技术能让更强大的AI模型在手机端运行，这反而会刺激各类终端装置进行內存规格的全面换代。

Lynx Equity Strategies 的观点认为，虽然人工智能提供商需要创新来解决推理中随着Token上下文长度增加而出现的瓶颈问题，但由于供应限制，这在未来三到五年内并不会减少对内存和闪存的需求。

版权声明：本站内容除特别声明的原创文章之外，转载内容只为传递更多信息，并不代表本网站赞同其观点。转载的所有的文章、图片、音/视频文件等资料的版权归版权所有权人所有。本站采用的非本站原创文章及图片等内容无法一一联系确认版权者。如涉及作品内容、版权和其它问题，请及时通过电子邮件或电话通知我们，以便迅速采取适当措施，避免给双方造成不必要的经济损失。联系电话：010-82306118；邮箱：aet@chinaaet.com。

谷歌发布新型AI内存压缩技术 内存需求得解

日期： 2026-03-26

来源：快科技

相关内容

谷歌发布新型AI内存压缩技术内存需求得解