3410亿参数自研大模型Grok宣布开源-AET-电子技术应用

3410亿参数自研大模型Grok宣布开源

日期： 2024-03-18

来源：智东西

关键词： xAI Grok 大语言模型 Apache2.0

3 月 18 日消息，就在刚刚，马斯克的 AI 创企 xAI 正式发布了此前备受期待大模型 Grok-1，其参数量达到了 3140 亿，远超 OpenAI GPT-3.5 的 1750 亿。

这是迄今参数量最大的开源大语言模型，遵照 Apache 2.0 协议开放模型权重和架构。

Grok-1 是一个混合专家（Mixture-of-Experts，MOE）大模型，这种 MOE 架构重点在于提高大模型的训练和推理效率，形象地理解，MOE 就像把各个领域的 " 专家 " 集合到了一起，遇到任务派发给不同领域的专家，最后汇总结论，提升效率。决定每个专家做什么的是被称为 " 门控网络 " 的机制。

xAI 已经将 Grok-1 的权重和架构在 GitHub 上开源。

GitHub 地址：

https://github.com/xai-org/grok-1?tab=readme-ov-file

目前 Grok-1 的源权重数据大小大约为 300GB。

截至北京时间 3 月 18 日上午 7 时许，Grok-1 项目收获了 3400 颗星。

Grok-1 是马斯克 xAI 自 2023 年 7 月 12 日成立以来发布的首个自研大模型。xAI 特别强调说这是他们自己从头训练的大模型。Grok-1 没有针对特定应用进行微调。

xAI 是马斯克去年刚刚成立的明星 AI 创企，其目的之一就是与 OpenAI、谷歌、微软等对手在大模型领域进行竞争，其团队来自 OpenAI、谷歌 DeepMind、谷歌研究院、微软研究院等诸多知名企业和研究机构。

此前马斯克刚刚 " 怒喷 "OpenAI 不够 "Open"，后脚这就开源了自家的顶级 3410 亿参数自研大模型 Grok-1。虽然马斯克在预热到发布的过程中也 " 放了几次鸽子 "，但最终他并没有食言。

今天，xAI 还公布了 Grok-1 的更多细节：

基础模型基于大量文本数据训练，未针对特定任务进行微调。

3140 亿参数的 Mixture-of-Experts 模型，其对于每个 token，活跃权重比例为 25%。

xAI 从 2023 年 10 月开始使用自定义训练堆栈在 JAX 和 Rust 之上从头开始训练。

但此次 xAI 并没有放出 Grok-1 的具体测试成绩，其与 OpenAI 即将发布的 GPT-5 的大模型王者之战，必将成为业内关注的焦点。

当然，马斯克发大模型，怎么会少的了大佬隔空对线 " 互怼 "？

xAI 官方消息刚刚发布，ChatGPT 的官方账号马上就跟马斯克在 X 平台上进行了互动，在 Grok 官方账号评论下回复道：" 偷了我的笑话。"

马斯克自然不会示弱，马上说请告诉我 OpenAI"Open" 之处在哪里。

马斯克高仿号也马上跑过来添油加醋，说我们都知道是 Sam 在运营 ChatGPT 的账号。

值得一提的是，此次 xAI 发布 Grok-1 消息的封面图片，是由 Midjourney 生成，Grok 给出了提示文本：一个神经网络的 3D 插图，具有透明节点和发光连接，展示不同粗细和颜色的连接线的不同权重（A 3D illustration of a neural network, with transparent nodes and glowing connections, showcasing the varying weights as different thicknesses and colors of the connecting lines）。

原图：

版权声明：本站内容除特别声明的原创文章之外，转载内容只为传递更多信息，并不代表本网站赞同其观点。转载的所有的文章、图片、音/视频文件等资料的版权归版权所有权人所有。本站采用的非本站原创文章及图片等内容无法一一联系确认版权者。如涉及作品内容、版权和其它问题，请及时通过电子邮件或电话通知我们，以便迅速采取适当措施，避免给双方造成不必要的经济损失。联系电话：010-82306118；邮箱：aet@chinaaet.com。

3410亿参数自研大模型Grok宣布开源

日期： 2024-03-18

来源：智东西

相关内容