AI训练成本不止看GPU小时费率：深度解析基础设施效率

当前，衡量大型基础模型训练成本时，人们常将其简化为单一数字：GPU小时的价格。这固然是一个便捷的指标，但却是一个错误的衡量方式。鉴于训练任务的成本可能高达数千万甚至数亿美元，以规模化运营AI需要对底层经济学有更深入的理解。

鉴于云服务提供商提供从裸机服务器到高度优化基础设施等多种选择，简单比较每小时定价往往不够直接，隐性成本可能迅速推高总支出。真正的问题不是一个GPU小时多少钱，而是完成一次训练任务需要多少个GPU小时。这才是决定总体拥有成本（TCO）的关键。

为什么预订的GPU小时不等于有效训练时间

大规模AI训练工作负载依赖于并行计算，其中多个节点在一个GPU集群中相互连接，将任务分配给数千个GPU。集群越大，其复杂性也越高，发生故障和运营效率低下的风险也随之增加。集群上的每一次中断都带来直接的经济损失。一个拥有3000个GPU、每个芯片每小时2美元的集群，每小时运行成本为6000美元。两次停机就意味着训练账单上额外增加12000美元。在为期数周的训练任务中，即使是微小的停机时间差异，也会对成本产生巨大影响。

这就是为什么仅凭GPU小时数可能产生误导：所有集群都会经历一些空闲时间，但程度不同。预订的GPU小时所能提供的有用计算时间，很大程度上取决于提供商的基础设施效率。

以下是预订的GPU小时与实际训练时间之间差距的来源：

GPU利用率并非100%：在运行实际工作负载时，GPU的性能往往低于其硬件规格中列出的基准。大型互联服务器集群可能因节点协调不力、运营摩擦和通信故障而影响性能。在大多数情况下，GPU利用率仅为预期性能的95-97%，甚至更低。然而，拥有先进AI基础设施的提供商会优化其网络和软件层，以实现更好的GPU性能潜力利用率，有时甚至能达到预期使用率的102%。这种差异可以显著加快训练速度。
检查点（Checkpointing）：大多数机器学习团队使用检查点来提高弹性。通过在设定的时间间隔保存训练作业的进度，团队可以在中断后恢复训练，而无需从头开始。然而，暂停以保存检查点会引入可衡量的开销。以一个典型团队每三小时保存一次检查点的频率为例，即使是短短五分钟的暂停，在24小时内也会累计损失大约40分钟的时间。提供高速存储的基础设施可以帮助节省部分时间。
作业中断：计划内和计划外的中断在大型AI集群中都非常常见。