千卡利用率超98%，详解JuiceFS在权威AI测试中的实现策略

2024-02-28

莫飞虎

2023 年 9 月，AI 领域的权威基准评测 MLPerf 推出了 Storage Benchmark。该基准测试通过模拟机器学习 I/O 负载的方法，在不需要 GPU 的情况下就能进行大规模的性能压测，用以评估存储系统的在 AI 模型训练场景的适用性。

目前支持两种模型训练：BERT （自然语言模型）和 Unet3D（3D医学成像）。虽然目前不支持大语言模型如 GPT、LLaMA，但 BERT 与大语言模型同为多层 transformer 结构，大语言模型的用户仍可从 BERT 训练结果获得一定的参考。

高性能存储产品厂商 DDN、Nutanix、Weka 和 Argonne National Laboratory（简称 ANL）发布了 MLPerf 的测试结果作为行业参考，我们也使用 JuiceFS 企业版进行了测试，让用户了解它在模型训练中的表现。

测试中最直观的指标是 GPU 利用率，大于 90% 为测试通过，表示存储系统能够满足训练业务的性能需求。JuiceFS 在 Unet3D 的 500 卡规模测试中，GPU 利用率保持在 97% 以上；在 BERT 的1000 卡规模测试中，GPU 利用率保持在 98% 以上。

01 测试准备

JuiceFS 企业版是基于对象存储的并行文件系统，相比社区版它提供了更强的元数据引擎和缓存管理能力，它的架构图如下：

我们在华为云上搭建了一套企业版 JuiceFS 文件系统，使用华为云 OBS 作为数据持久层，部署了 3 节点的元数据集群和多节点的分布式缓存集群，硬件规格如下：

元数据节点：m7.2xlarge.8 | 8vCPUs | 64GiB
对象存储：OBS，带宽上限 300 Gb/s
客户端节点：ir7.16xlarge.4 | 64vCPUs | 256GiB | Local SSD 2*1,600GiB | 网卡带宽 25 Gbps (以太网)

准备好文件系统后，我们使用 mlperf 的脚本生成后续模拟训练所需要的数据集，所有的测试中 batch size 和 steps 均采用默认设置。目前仅支持模拟 NVIDIA v100 GPU，后文中提到的 GPU 均是模拟 v100。

02 BERT 模型

MLPerf 为 BERT 模型生成数据集时，会按照每个数据集文件包含 313,532 个样本的规则来生成，每个样本大小为 2.5 KB。训练过程中每个模拟 v100 GPU 每秒能处理 50 个样本，即每个 GPU 的 IO 吞吐需求为 125 KB/s，绝大部分存储系统都能轻松满足它的模型训练需要，JuiceFS 也是一样的，能够满足 1000 卡规模的模型训练需要。

我们汇集了 MLPerf 的主要公开结果，包括 ANL、DDN、Weka 的数据，并新增了本次测试中 JuiceFS 的结果。

JuiceFS 在 1000 GPU 规模下保持 98% 以上 GPU 利用率。
ANL 的结果依然非常优秀，考虑到 ANL 测试的网络条件是高带宽低延迟的 Slingshot 网络，能有这样的成绩也是意料之中的。

03 Unet3D 模型

Unet3D 模型的训练对带宽的需求高于 BERT 模型。我们首先在没有任何缓存（包括分布式缓存和单机缓存）的条件下测试了训练 Unet3D 模型的情况。在这种设置下，JuiceFS客户端将直接从对象存储中读取数据。

无缓存测试

如下图所示，随着节点数的增加，GPU 利用率（图中的绿色线条）会缓慢下降。当 GPU 增至 98 卡时，它出现了一个明显的拐点，随后 GPU 利用率随节点数的增加而急剧降低。

下图是根据 OBS 监控数据和 MLPerf 的结果绘制出来的曲线图，可以看到 OBS 带宽在 98 卡及更大规模的训练中已经不再增加，成为性能瓶颈。

因此，在没有缓存的情况下，OBS 提供的 300Gb/s 带宽在 98 卡同时训练时就已经满载。根据 MLPerf 90% 的测试通过标准来看，可以满足最多 110 卡同时训练 Unet3D 模型。

在对大型数据集进行多机多卡训练时，单机缓存由于其空间限制仅能缓存数据集的一小部分；同时，由于训练过程中数据访问的随机性，缓存命中率较低。因此，这种情况下，单机缓存对于提升整体 I/O 性能的贡献有限（如上图绿线，能看到单机的内核缓存对读带宽有提升作用，虽然内核缓存空间多达 200GB ，但效果有限），因此我们没有进行单机缓存的针对性测试。

开启分布式缓存

相比本地缓存，分布式缓存可以提供更大的缓存容量以支撑更大的训练集和更高的缓存命中率，从而提升整个 JuiceFS 集群的读带宽。

JuiceFS 的分布式缓存架构如下图所示，机器学习训练集群和 JuiceFS 的缓存集群可以是两批独立的机器组成的集群，它们通过高速网络连接。这两个集群都挂载了JuiceFS 客户端。训练任务通过 JuiceFS 在本地的挂载点访问数据。当本地挂载点需要数据时，它会首先从缓存集群请求数据；如果缓存集群中缺失所需数据，系统则会从对象存储中获取数据并更新到缓存中。如果训练集群中的 GPU 节点自身也配置了充足的 SSD 存储，那么它们可以直接用作 JuiceFS 的缓存盘并组成缓存集群，无需部署独立的缓存集群。这种配置实际上是将训练集群和缓存集群的功能合并在一起。在本次测试中，我们采用了这种混合部署方式。

分布式缓存及其容量对 GPU 利用率的影响

之前的测试表明，未开启缓存时，110 卡时的 GPU 利用率不足 90%。为了直观展示分布式缓存对性能的影响，我们对 JuiceFS 进行了进一步的测试。我们选择 180 卡 GPU 规模的集群作为测试对象进行新一轮的测试，以评估 JuiceFS 的缓存命中率时跟 GPU 利用率关系。

下图中，横坐标表示缓存空间与数据集大小的比例，纵坐标表示缓存命中率和 GPU 使用率。当完全没有缓存时，GPU 的使用率只有 49%。随着缓存空间比例的增加，缓存命中率（蓝色线条）逐渐提高，进而带动 GPU 利用率（绿色线条）上升，当缓存命中率到 85% 时， GPU 利用率到了 93.1%, 已经能够满足 180 卡的训练使用。当缓存命中率达到 100% 时，GPU 利用率达到最高的 98.8%，几乎满载运行。

为了验证 JuiceFS 的缓存系统的扩展能力，我们按照数据集的大小调整了缓存集群的容量，确保了缓存命中率达到 100%。这样，所有训练所需数据均可直接从缓存中读取，而不必从速度较慢的对象存储中读取。在这种配置下，我们测试了最多约 500 卡规模的训练任务，随着测试规模的增大，GPU 利用率的变化如下图所示。

从图中红色线条可以看到，开启分布式缓存的 JuiceFS 突破了带宽瓶颈的限制， GPU 利用率会随着集群规模变大仅缓慢线性下降。按照上图的变化趋势估计，在当期的网络配置 (25Gbps) 下，JuiceFS 可以支撑约 1500 卡训练 Unet3D 时保持 GPU 利用率在 90% 以上。

对比 Unet3D 的测试结果：JuiceFS/ANL/DDN/Weka

DDN、Weka 公布的数据中最大规模的模拟 GPU 总数低于 200。

ANL 在 512 卡的规模下依然没有明显衰减，GPU 利用率能够达到 99.5%。ANL 的读写带宽为 650 GBps，理论上最多能支撑 1500 卡训练 Unet3D，它的出色表现与充足的硬件配置密切相关，具体内容可以前往 ANL 的文章了解。

JuiceFS 的 GPU 利用率随着集群规模变大，缓慢线性下降，在 500 卡规模时保持 97% 以上。JuiceFS 遇到的性能瓶颈主要来自于缓存节点的网络带宽。由于缓存节点的机型数量和网络带宽有限，本次测试达到的最大规模为 483 卡。在这种规模下，JuiceFS 集群的聚合带宽为 1.7 Tb，而 ANL 集群的带宽是 5.2 Tb 。

04 小结

在 BERT 测试中，JuiceFS 在 1000 GPU 规模的训练中能保持 98% 以上 GPU 利用率；
在 Unet3D 测试中，随着集群规模变大，JuiceFS 在接近 500 GPU 训练中保持 97% 以上 GPU 利用率。若云服务商可以提供更高的网络带宽或更多的机器，这一规模还可进一步提高；
分布式缓存的优势在于极强的扩展性，可以利用更多节点上的 SSD 存储聚合更大的缓存空间，提高整个存储系统的读带宽；当然它也会带来一些 CPU 开销，但在 AI 训练场景中，使用闲置的 CPU 资源提升系统带宽是值得，甚至必要的。
在云上进行机器学习训练时，高性能 GPU 机型通常都具有高性能的 SSD 和高带宽的网卡，这些设备还可以作为分布式缓存节点。因此，相比于专有的高性能存储产品，使用 JuiceFS ，更具性价比，更易扩展。

大规模的 AI 训练场景中，通常都需要专有高性能存储，或是基于全闪架构和内核态的并行文件系统才能满足性能需求。但随着计算负载增加、集群增大，全闪的高昂成本和内核客户端的运维复杂度会成为用户面临的一大挑战。而 JuiceFS ，作为一款全用户态的的云原生分布式文件系统，借助分布式缓存来大幅提升系统的 IO 吞吐量，使用便宜的对象存储完成数据存储，更适合大规模 AI 业务的整体需要。

关于 MLPerf

MLPerf 是一套基准测试套件，它主要用于评估机器学习在本地和云平台上的训练及推理性能，为软件框架、硬件平台和机器学习的云平台提供了一个独立且客观的性能评估标准。该套件的测试包括测量机器学习模型训练到目标准确度所需的时间以及训练完成的神经网络在新数据上执行推理任务的速度。这个套件是由 30 多个与 AI 相关的组织共同创建的。点击此处了解详情。