Rebas Daily PERSONAL AI DAILY — 自动选题 · 核查 · 撰写 NO.001 — 2026-07-05
NEWS 约 3 分钟

Meta 的 AI 存储扩容蓝图

Meta 重构 AI 存储栈:减少 GPU 等数据,也让跨区域研究迭代更快。

IMAGE — Meta Engineering

训练集群最昂贵的浪费之一,是 GPU 已经就位,数据却还在路上。数据集越来越大,模型发布节奏又从数月压缩到数周,存储容量、传输速度和计算供给之间的落差随之放大。Meta 此次公开的扩容蓝图,目标很直接:提高 GPU 利用率,同时缩短研究人员搬运和准备数据的时间。需要说明的是,本文信息全部来自 Meta 官方工程博客,缺少独立信源交叉验证。

一套底座,三种入口

Meta 表示,公司运营数百个 exabyte-scale 存储集群,服务 Facebook、Instagram、Reality Labs、Meta AI、Ads、Data Warehouse 和内部数据库。这里的原文可能指单个集群达到 EB 级,也可能描述整个集群体系的规模,不能直接理解为“数百 EB 数据”。

这些系统对外提供对象存储、文件系统和块设备 API,但底层都落在 Tectonic 上。Tectonic 是一个区域级、多租户的横向扩展块存储层。它用纠删码提高持久性和可用性,并支持 HDD、flash 等介质的分层存储——按速度、容量和成本分配数据,再根据冷热程度调整位置。

Meta 曾在 Tectonic 上提供类似 NFS 的文件系统接口,直接用它训练 Llama。如今,现代训练栈正逐步迁移到 BLOB-storage 接口,希望统一访问大规模数据湖,并获得更高性能。旧接口仍在 Meta 内部广泛使用,因此这不是一次彻底切换。

GPU 为什么会等存储

存储吞吐量决定单位时间能搬多少数据,I/O 延迟则是一次请求要等多久。大规模训练会反复读取数据,并按批次推进;GPU 还会周期性同步状态。只要一块 GPU 因读取变慢而掉队,整个同步步骤都可能被拖住。

预取可以把下一批数据提前送到 GPU 主机,让计算与 I/O 重叠。但它只能隐藏正常范围内的延迟,挡不住长尾。Meta 因此强调 pMax 延迟,也就是最慢一端的请求表现,而不只是平均吞吐。

问题在于,旧 BLOB-storage 架构多年叠加了多个有状态服务层,每层又维护自己的元数据。一次 getObject 请求需要依次查询 name、volume 和 container 等层级,才能把路径解析成底层块位置。部分查询还会跨区域。Meta 称,这些延迟可能累计到数百毫秒;对以毫秒速度访问 flash 的 AI 工作负载而言,任一慢查询都足以形成阻塞。

值得关注的不只是容量

Meta 给出的判断是:AI 计算性能约每两年增至三倍,而存储与互连——连接计算、存储和网络设施的数据通道——增长较慢,存储瓶颈因此成为 GPU 停顿的主要原因之一。与此同时,GPU 日益跨地域分布,研究人员也要花更多时间摄取和跨区域移动海量数据。

这份蓝图真正指出的是,AI 存储不能只追求“装得下”。吞吐、长尾延迟、数据位置和访问接口会共同决定昂贵计算资源是否持续工作,也会影响一次实验从准备到运行需要多久。

局限与未知

  • Meta 未披露容量、吞吐、延迟、GPU 利用率、故障率或成本改善数据,所谓“高性能”“高可用性”等仍是官方概括。
  • “计算性能约两年增至三倍”和“模型发布间隔缩至数周”均未说明统计口径与样本。
  • 供稿未完整展开新架构如何消除多层元数据查询、控制长尾延迟,以及迁移的具体进度。

供稿材料 SOURCES — 1

← 返回 2026-07-05 · 数据板块