寒武纪首颗AI训练芯片亮相：7纳米制程，算力提升四倍，已规模化出货-AET-电子技术应用

寒武纪首颗AI训练芯片亮相：7纳米制程，算力提升四倍，已规模化出货

日期： 2021-01-21

来源：机器之心

关键词： 寒武纪 7纳米

　　1 月 21 日，寒武纪思元 290 智能芯片及加速卡、玄思 1000 智能加速器在官网低调亮相，寒武纪表示该系列产品已实现规模化出货。去年，寒武纪招股书曾简单披露了一款训练芯片的 “彩蛋”，此后，寒武纪思元 290 芯片就一直被业界广泛关注并引发行业诸多猜想。如今，随着新一代训练产品线集中亮相，寒武纪略显“神秘” 的训练芯片及相应的业务布局逐渐清晰。

　　思元 290 智能芯片是寒武纪的首颗训练芯片，采用台积电 7nm 先进制程工艺，集成 460 亿个晶体管，支持 MLUv02 扩展架构，全面支持 AI 训练、推理或混合型人工智能计算加速任务。

　　寒武纪首颗训练芯片思元 290

　　寒武纪 MLU290-M5 智能加速卡搭载思元 290 智能芯片，采用开放加速模块 OAM 设计，具备 64 个 MLU Core，1.23TB/s 内存带宽以及全新 MLU-Link?多芯互联技术，在 350W 的最大散热功耗下提供 AI 算力高达 1024 TOPS（INT4）。

　　寒武纪玄思 1000 智能加速器，在 2U 机箱内集成 4 颗思元 290 智能芯片，高速本地闪存、Mellanox InfiniBand 网络，对外提供高速 MLU-Link?接口，打破智能芯片、服务器、POD 与集群的传统数据中心横向扩展架构，实现 AI 算力在计算中心级纵向扩展，是 AI 算力的高集成度平台。

　　寒武纪训练产品线采用自适应精度训练方案，面向互联网、金融、交通、能源、电力和制造等领域的复杂 AI 应用场景提供充裕算力，推动人工智能赋能产业升级。

　　思元 290 采用 MLUv02 扩展架构

　　MLUv02 架构为寒武纪 MLU200 全产品线共享，满足云、边、端三个场景的算力需求。云端训练对 AI 算力的要求更为苛刻，因此寒武纪对思元 290 的 MLUv02 架构进行了多项扩展，包括业内领先的 MLU-Link?多芯互联技术、高带宽 HBM2 内存、高速片上总线 NOC 以及新一代 PCIe 4.0 接口。相比寒武纪思元 270 芯片，思元 290 芯片实现峰值算力提升 4 倍、内存带宽提高 12 倍、芯片间通讯带宽提高 19 倍。新架构结合 7nm 制程，思元 290 可提供更优性能功耗比，以及多 MLU 系统的扩展能力。

　　MLU290 的 MLUv02 架构进行了多项扩展。

　　寒武纪 MLU-Link? 多芯互联技术

　　近年来，AI 算法模型的复杂程度高速增长，对算力和训练速度提出了更高的要求。为了构建更强大的计算平台，多芯片间的互联技术已成为市场刚需。

　　寒武纪推出 MLU-Link?多芯互联技术，并首次搭载于寒武纪思元 290 芯片，每颗思元 290 的多芯互联总带宽高达 600GB/s。MLU-Link?具备丰富的互联特性，突破 PCIe 带宽和互联的瓶颈，相比思元 270 芯片通过 PCIe 并行的通讯方式，带宽提高 19 倍。MLU-Link?多芯互联技术支持多颗思元芯片无缝互联，支持跨系统互联，将纵向扩展能力整合到整个人工智能计算中心（AIDC），可以端到端加速大型 AI 模型训练。

　　思元 290 采用 MLU-Link?多芯互联技术进行互联，带宽、灵活性全面优于 PCIe 3.0。

　　思元 290 相较思元 270 并行通讯总带宽提升 19 倍。

　　寒武纪 vMLU 解决方案

　　不同场景下的 AI 训练对计算和存储的要求千差万别，如何提供更灵活也更稳定的服务，但同时让算力得到充分地利用，是 AIDC 面临的持续挑战。

　　寒武纪虚拟化技术 vMLU，支持在思元 290 上实现 4 个相互隔离的 AI 计算实例，每个实例独占计算、内存和编解码资源。实例之间的硬件资源互不干扰，即使在虚拟化环境下仍可保持 90% 以上的极高效率，帮助客户充分利用硬件资源。

微信图片_20210121132644.gif

　　思元 290 上实现 4 个相互隔离的 AI 计算实例。

　　vMLU 还可以帮助思元 290 芯片提供最佳的灵活性。通过热迁移技术，云管理员可将正在运行的 AI 负载及其应用程序移动到另外一台主机上，从而平衡整个 AIDC 的负载，并实现更好的容灾功能。

微信图片_20210121132709.gif

　　vMLU 热迁移

　　寒武纪首款训练智能加速卡 MLU290-M5

　　寒武纪 MLU290-M5 智能加速卡搭载了思元 290 智能芯片，采用开放加速模块 OAM 设计，具备 64 个 MLU Core，1.23TB/s 内存带宽以及全新 MLU-Link?多芯互联技术，在 350w 的最大散热功耗下提供 AI 算力高达 1024 TOPS（INT4）。

　　寒武纪智能加速卡 MLU290-M5

　　寒武纪智能加速卡 MLU290-M5 产品规格

　　寒武纪首款智能加速器玄思 1000

　　寒武纪首款智能加速器玄思 1000 包含 4 片思元 290 智能加速卡，最大 AI 算力超过 4100 万亿次每秒（4.1 PetaOPS INT4），一台玄思 1000 计算单元就足以替代一个小型传统超级计算中心。

　　玄思 1000 内置高带宽低延时的 MLU-Link?多芯互联技术，实现内部 4 颗思元 290 进行高速互联，同时打破服务器、紧耦合微集群（POD）与集群的传统数据中心横向扩展架构，将 AIDC 构建为节点、POD 乃至超大规模混合扩展架构（Hybrid Scale-out），实现 AI 算力计算中心级纵向扩展，满足高性能、高扩展性、灵活性、高鲁棒性的要求。

　　玄思 1000 是 AI 算力的高集成度平台，支持计算中心级纵向扩展。

　　重塑 AIDC 基础架构

　　算力、算法、数据是人工智能发展的三大要素，随着这几年 AI 的逐步发展，算力的核心地位更为凸显。人工智能技术落地于实际应用中需要芯片和硬件层面强大的算力支撑。算力已成为驱动 AI 产业化和产业 AI 化发展的关键要素。

　　下一代 AIDC 要求更多智能芯片无缝协同、并行运行的同时，还能保持高计算效率，从而提供超级巨大的算力，以应对超大规模训练的需要。寒武纪玄思 1000 智能加速器重新思考了未来 AIDC 的基础架构，在内部和外部采用统一的 MLU-Link?多芯互联技术进行通讯，使得思元 290 智能芯片的互联范围可以从单机扩展到 POD 乃至整个计算中心，重塑了基础架构。

　　玄思 1000 支持 8 个 400G MLU-Link?和 2 个 200G 网络接口，总带宽高达 3600Gbps，是传统异构服务器的 2 倍。

　　玄思 1000 配置 8 个对外互联的 MLU-Link?接口，支持跨系统互联构建 MLU POD。标准配置支持 MLU POD 16、24、32。在 POD 内部，所有 290 芯片均可通过 MLU-Link?多芯互联技术进行通讯，在带宽和延时方面实现了突破；POD 外部通过玄思 1000 内置的网卡与其他系统进行通讯，实现了 AI 训练集群性能、扩展性和鲁棒性的协同提升。

　　POD 内所有思元芯片通过 MLU-Link?全互联。

　　除了标准配置的 POD 之外，在计算中心条件允许的前提下，通过 MLU-Link?多芯互联技术，可实现 1024 颗或更多思元 290 互联，不需要额外的网卡即可实现无缝加速。

　　寒武纪 Neuware?训练软件栈

　　寒武纪 Neuware?软件栈为思元 290 芯片提供完善的软件及应用生态，支持业界主流的 TensorFlow 和 PyTorch 等深度学习框架，用户不需要改变使用习惯，即可在思元 290 芯片上实现图形图像、语音、NLP、搜索推荐等多种应用的训练和推理。其中，基于 Horovod 分布式训练框架与 MLU-Link?多芯互联技术相互配合，让思元 290 在单机多卡、多机多卡的场景下达到业界领先的训练加速比。寒武纪 Neuware?提供完善的开发工具包和社区支持，帮助用户在思元 290 芯片进行方便、灵活的定制开发及部署工作。配合强大的 BANG 智能编程语言及配套调试工具，用户可以为自定义的算法提供最佳性能调优。

　　寒武纪 Neuware?软件栈为思元 290 芯片提供完善的软件及应用生态。

　　2021 年 1 月，IDC 发布了《2020-2021 中国人工智能计算力发展评估报告》，该报告预计，中国人工智能市场规模在 2020 年达到 62.7 亿美元，2019-2024 年的复合增长率为 30.4%。IDC 的调研还发现，超过九成的企业正在使用或者计划在三年内使用人工智能，其中 74.5% 的企业期望在未来可以采取具备公用设施意义的人工智能基础设施。

　　随着 AI 算法突飞猛进的发展，越来越多的模型训练需要巨量的算力支撑才能快速有效地实施，算力是未来人工智能应用取得突破的决定性因素。

　　值得强调的是，在巨量的人工智能市场中，云服务市场表现更为突出。早前，2020 年 7 月，IDC 发布的另一份报告显示，2018 至 2024 年，中国 AI 云服务市场年复合增长率将达到 93.6%。而目前人工智能芯片仍处于成长期，未来三年，人工智能芯片市场将呈现多元化发展趋势。

　　寒武纪 290 产品线，有望在持续高速增长的人工智能市场尤其是云服务市场，抢占更多的市场份额，推动自身和 AI 行业的发展。据悉，寒武纪思元 290 芯片及加速卡已与部分硬件合作伙伴完成适配，并已实现规模化出货。

　　寒武纪最初布局终端 IP 场景，连续迭代推出让其声名鹊起的寒武纪 1A、寒武纪 1H、寒武纪 1M 系列处理器，而后迅速布局云端智能芯片及加速卡系列产品思元 100 和思元 270，又于 2019 年推出基于思元 220 芯片的边缘智能加速卡。由此建立起覆盖云边端、训练、推理的完整产品矩阵，同时利用平台级基础系统软件 Cambricon Neuware，连接全线产品，由点及面，实现了“训推一体、端云融合”。寒武纪也成为目前国际上少数几家全面系统掌握了通用型智能芯片及其基础系统软件研发和产品化核心技术的企业之一。

版权声明：本站内容除特别声明的原创文章之外，转载内容只为传递更多信息，并不代表本网站赞同其观点。转载的所有的文章、图片、音/视频文件等资料的版权归版权所有权人所有。本站采用的非本站原创文章及图片等内容无法一一联系确认版权者。如涉及作品内容、版权和其它问题，请及时通过电子邮件或电话通知我们，以便迅速采取适当措施，避免给双方造成不必要的经济损失。联系电话：010-82306118；邮箱：aet@chinaaet.com。

寒武纪首颗AI训练芯片亮相：7纳米制程，算力提升四倍，已规模化出货

日期： 2021-01-21

来源：机器之心

相关内容