Meta两个豪华AI集群曝光：每个配备2.4万块英伟达H100，价值几十亿

　　3 月 13 日消息，美国时间周二，Facebook 母公司 Meta 公布了两个数据中心规模新集群的技术细节，它们各自拥有超过 2.4 万个 GPU，并在硬件、网络、存储、设计、性能和软件等方面上，专为支持大型语言模型如 Llama 3 进行训练而深度优化。

　　这两个新集群基于 Meta 先前研究超级集群（RSC）的成功。RSC 自 2022 年启用以来，已展现出强大的计算力。

　　在硬件配置方面，每个集群都配备了 24576 个英伟达 Tensor Core H100 GPU（每个数万美元），与之前使用的 16000 个英伟达 A100 GPU 相比有了明显提升，这将极大地促进自然语言处理、语音识别和图像生成等人工智能研究和开发工作。

　　Meta 表示，这种升级不仅在数量上有所增加，其性能上的跃进也将支持更大、更复杂的模型，为生成式人工智能产品的开发铺平道路。

　　Meta 计划在 2024 年底之前，将其人工智能基础设施扩大到高达 35 万个 H100 GPU。目标是拥有相当于近 60 万个 H100 GPU 的算力。

　　图片来源：Meta 官方博客

　　虽然两个新集群的 GPU 数量相同，但它们在网络基础设施方面各有差异，均支持 400 Gbps 端点之间的互联。其中一个集群采用了基于 Arista 7800 交换机配合 Wedge400 和 Minipack2 OCP 机架交换机的远程直接内存访问（RDMA）和融合以太网（RoCE）网络解决方案，而另一个则应用了英伟达 Quantum2 InfiniBand 网络架构。

　　值得一提的是，两个集群均基于 Meta 自研的开放 GPU 硬件平台 Grand Teton 构建，这是公司为支撑大型 AI 工作负载而开发的 GPU 基础硬件平台。作为 Zion-EX 平台的后续产品，Grand Teton 在主机到 GPU 的带宽、计算及数据网络带宽、以及功率包络等方面都实现了显著的增强。

　　此外，这些集群充分利用了 Meta 专为 Grand Teton 等方案设计的 Open Rack 电源和机架架构，提高了数据中心的灵活性。

　　Meta 的 Open Rack v3 硬件设计引入了一个灵活的机架配置方案。与传统的固定母线设计相比，它允许在机架中的任意位置安装电源架，从而使机架配置更加灵活。

　　在建设这些新集群时，Meta 特别关注了每台服务器吞吐量、机架数量减少及能源效率之间的平衡。通过对机架内服务器数量的定制化设计，Meta 确保了这些集群在提供高性能的同时，也达到了能源的高效利用。

　　在存储技术上，这些集群运用了 Linux Filesystem 中的 Userspace API，并得到了 Meta 自家 Tectonic 分布式存储方案的加持。与此同时，Meta 还与 Hammerspace 合作，一道开发了并行网络文件系统（NFS）。

　　两个集群均基于配备了最新高容量 E1.S SSD 的 YV3 Sierra Point 服务器平台。为了优化网络利用率，Meta 进行了网络拓扑和路由的调整，并部署了英伟达的集体通信库（NCCL）。NCCL 是一套针对英伟达 GPU 和网络进行优化的标准通信例程库。

　　Meta 还在积极推进其 PyTorch 基础 AI 框架的发展，以应对数十万 GPU 的训练需求。Meta 的技术项目经理凯文·李（Kevin Lee）、生产网络工程师阿迪·甘吉迪（Adi Gangidi）以及生产工程总监马修·奥尔德姆（Mathew Oldham）在最新博客中共同表达了公司的技术愿景和战略。他们强调，Meta 将致力于人工智能软件和硬件的开放式创新，启动人工智能联盟，建立一个开放的生态系统，“为人工智能开发带来透明度、审查和信任，并带来每个人都能从中受益的创新，这些创新以安全和责任为首要考虑因素”。

　　这篇博文继续强调：“面对未来，我们意识到昨天和今天有效的方法可能无法满足明天的需求。因此，Meta 将不断评估和改进其基础设施的各个方面，从物理和虚拟层到软件层等。我们的目标是创建一个既灵活又可靠的系统，以支撑快速发展中的新模型和研究工作。”（小小）