Meta新建两座数据中心集群专门训练Llama3
内含超4.9万块英伟达H100 GPU
2024-03-14
来源:IT之家
Meta 公司当地时间 12 日通过官方新闻稿公布了两座新的数据中心集群,该公司正希望通过英伟达的 GPU,在以 AI 为重点的开发中脱颖而出。
据悉,这两座数据中心的唯一目的,是在消费者特定应用领域(注:包含声音或图像识别)中进行 AI 研究和大语言模型的开发,每个集群都包含了 24576 块英伟达 H100 AI GPU,将用于自家大语言模型 Llama 3 的训练。
两座新建的数据中心集群都具有 400Gbps 互联功能,其中一个集群采用了 Meta 基于 Arista 7800 自主开发的 Fabric 解决方案,而另一个集群则采用了英伟达的 Quantum2 InfiniBand Fabric,以确保无缝互连体验。
此外,集群基于 Meta 自家的开放式 GPU Grand Teton AI 平台,可通过提高主机到 GPU 的带宽和计算能力,充分利用现代加速器的功能。
Meta 官方表示,这些集群的高性能网络结构的效率及关键存储决策、配合每个集群中的 H100 GPU,能够为更大、更复杂的模型提供支持,为通用人工智能产品开发、AI 研究的进步铺路。
据IT之家1 月报道,Meta 首席执行官扎克伯格宣布公司正在建设庞大的基础设施。“预估到今年年底,我们将拥有大约 35 万片英伟达 H100 加速卡,如果算上其它 GPU 的话,其计算能力相当于 60 万片 H100。”
本站内容除特别声明的原创文章之外,转载内容只为传递更多信息,并不代表本网站赞同其观点。转载的所有的文章、图片、音/视频文件等资料的版权归版权所有权人所有。本站采用的非本站原创文章及图片等内容无法一一联系确认版权者。如涉及作品内容、版权和其它问题,请及时通过电子邮件或电话通知我们,以便迅速采取适当措施,避免给双方造成不必要的经济损失。联系电话:010-82306118;邮箱:aet@chinaaet.com。