新闻中心

30 行 Python 代码节省数十万美元：NVIDIA nvCOMP 实现 LLM 检查点无损压缩

阅览 : 6

更新时间 : 2026-06-04

训练大语言模型需要定期保存检查点，包含模型权重、优化器状态和梯度的完整快照。在大规模训练中，这些检查点体积惊人——70B 模型的单个检查点达 782 GB，且每 15-30 分钟保存一次，成为训练预算中最大的开支项之一。

NVIDIA 的研究表明，在 128 张 Blackwell GPU 上训练 405B 模型时，同步检查点的 GPU 空闲等待成本每月高达 20 万美元。而引入基于 NVIDIA nvCOMP 的无损压缩方案，仅需约 30 行 Python 代码，即可将存储成本降低 5.6 万美元/月。

NVIDIA nvCOMP 是一个 GPU 加速的无损压缩库，在检查点离开 GPU 内存之前就进行压缩，无需 CPU 往返和额外数据移动。该库支持 Zstandard 和 GPU 专用 gANS 格式两种算法。稠密模型压缩比约 1.25-1.27×，MoE 模型可达 1.39-1.40×。

集成只需约 30 行 Python 代码，作为 torch.save/torch.load 的即插即用替代。

2026-04-30

国内一家领先的油气勘探企业承接了大量的国内外石油天然气勘探项目，每年面临庞大的地···

2026-06-05

NVIDIA 发布 Vera CPU，搭载 88 颗 Olympus 核心与 1.2 TB/s 内存带宽，针对 Agentic ···

2026-06-05

NVIDIA 发布基于 BlueField DPU 与 DOCA 的芯片内安全方案，通过运行时威胁检测、数据···

2026-06-04

训练大语言模型需要定期保存检查点，包含模型权重、优化器状态和梯度的完整快照。在大···