极进Extreme合作伙伴——中科新远网络解决方案提供商

新闻中心

NVIDIA DSX OS 发布开源模块化软件栈,面向 AI 工厂规模化运营

阅览 : 6
更新时间 : 2026-06-04

随着生成式 AI 和智能体应用持续扩张,AI 基础设施正在从单纯的算力集群演进为能够持续输出"智能"的 AI 工厂。NVIDIA 近日发布 DSX OS 软件栈,为 DSX 平台补充一套面向 AI 工厂运营的开源、模块化基础软件能力,帮助企业在部署、扩展和管理大规模 AI 基础设施时提升效率与可靠性。

根据 NVIDIA 介绍,DSX OS 主要服务于多租户 AI 工厂场景,围绕计算、网络、供电、运维和平台服务进行统一协同。其核心目标包括缩短基础设施上线周期、提升单位能耗下的有效产出,并增强大规模集群在持续运行过程中的稳定性与韧性。对于正在建设 AI 平台或算力中心的企业而言,这类软件层能力正成为硬件之外的重要竞争点。

在能力构成上,DSX OS 采用开源与模块化设计,覆盖多个关键环节。例如,DSX Exchange 用于打通数据中心内计算、网络、供电和制冷等系统之间的通信;DSX MaxLPS 和 DSX Flex 进一步将电力视为可调度资源,以支持更灵活的能效优化和负载响应。NVIDIA 表示,这种协同方式有助于在固定电力预算下提升 GPU 资源利用效率。

在集群交付与生命周期管理方面,DSX OS 还集成了面向裸金属管理和租户隔离的相关组件,包括 NVIDIA Infra Controller、DOCA Platform Framework 以及 AI Cluster Runtime 等,用于降低大规模部署中的配置漂移和运维复杂度。同时,NVSentinel 和 Fleet Intelligence 等组件可提供 GPU 集群健康监控、自动化故障处置和全局可视化能力,帮助运维团队更快定位和处理异常。

面向 AI 服务落地,DSX OS 还结合了调度与推理相关的软件能力,包括 KAI Scheduler、NVIDIA Run:ai、NVIDIA Dynamo、NVIDIA Grove 以及 NVIDIA Cloud Functions 等组件。这意味着企业不仅可以管理底层基础设施,还能进一步承接推理、微调和批处理等上层工作负载,为 AI 工厂提供更完整的软件支撑。

NVIDIA 表示,DSX OS 组件已在 GitHub 提供,并支持按需逐步集成到现有软件栈中。整体来看,DSX OS 的发布反映出 AI 基础设施竞争正在从单点性能转向系统级协同,尤其是在智能体工作负载快速增长的背景下,面向规模化运营的软件平台能力正变得越来越关键。

相关文章
GPU 加速油气勘探,打造新一代地震数据分析平台
GPU 加速油气勘探,打造新一代地震数据分析平台
2026-04-30
国内一家领先的油气勘探企业承接了大量的国内外石油天然气勘探项目,每年面临庞大的地···
NVIDIA Vera CPU:为 AI 工厂智能体工作负载设计的新一代处理器
NVIDIA Vera CPU:为 AI 工厂智能体工作负载设计的新一代处理器
2026-06-05
NVIDIA 发布 Vera CPU,搭载 88 颗 Olympus 核心与 1.2 TB/s 内存带宽,针对 Agentic ···
NVIDIA DOCA 芯片内安全方案为 Agentic AI 基础设施提供运行时防护
NVIDIA DOCA 芯片内安全方案为 Agentic AI 基础设施提供运行时防护
2026-06-05
NVIDIA 发布基于 BlueField DPU 与 DOCA 的芯片内安全方案,通过运行时威胁检测、数据···
30 行 Python 代码节省数十万美元:NVIDIA nvCOMP 实现 LLM 检查点无损压缩
30 行 Python 代码节省数十万美元:NVIDIA nvCOMP 实现 LLM 检查点无损压缩
2026-06-04
训练大语言模型需要定期保存检查点,包含模型权重、优化器状态和梯度的完整快照。在大···