极进Extreme合作伙伴——中科新远网络解决方案提供商

新闻中心

KubeCon 2026 | NVIDIA向Kubernetes社区捐赠GPU驱动程序,开源成为AI基础设施新基石

阅览 : 10
更新时间 : 2026-04-14

在阿姆斯特丹举行的KubeCon Europe 2026大会上,NVIDIA宣布了一项关键举措:将NVIDIA动态资源分配(DRA) GPU驱动程序捐赠给云原生计算基金会(CNCF)。这意味着该驱动程序将从供应商管理转向Kubernetes项目上游治理,由开源社区共同拥有和迭代。

CNCF首席技术官Chris Aniszczyk评价道:

“这是开源Kubernetes和AI基础设施的一个重要里程碑。NVIDIA让高性能GPU编排工作更为无缝,且便于开发者使用。”


一、为什么这次捐赠很重要?

对于绝大多数企业而言,AI工作负载运行在Kubernetes上。但管理数据中心内为AI提供动力的强大GPU,过去需要付出巨大努力。

此次捐赠的核心价值在于让高性能计算更易用,开发者将获得:

能力说明
更高效率支持NVIDIA Multi-Process Service和MIG技术,实现更智能的GPU资源共享
大规模扩展原生支持多节点NVLink互联,对训练大型AI模型至关重要
动态灵活性可根据需要动态重新配置硬件,随时更改资源分配
精细控制支持指定算力、显存设置或互连配置,满足应用微调需求

一句话总结:企业可以像管理CPU一样灵活、高效地管理GPU资源池。


二、全行业协作,生态已就绪

NVIDIA正在与以下行业领导者合作,共同推动这些功能:

亚马逊云科技、博通、Canonical、Google Cloud、微软、Nutanix、红帽、SUSE

红帽首席技术官Chris Wright表示:

“开源将成为每个成功企业AI策略的核心。NVIDIA的捐赠有助于巩固开源在AI演进中的作用。”

CERN平台基础设施负责人Ricardo Rocha(欧洲核子研究组织)指出:

“开源软件是科学计算和研究基础设施的基石。NVIDIA的捐赠强化了研究人员所依赖的生态系统。”


三、不只是驱动:KubeCon上的其他开源发布

除了DRA驱动捐赠,NVIDIA还在KubeCon上宣布了多项开源进展:

1. 机密容器GPU支持
与CNCF机密容器社区合作,为Kata Containers引入GPU支持。这使得AI工作负载能够在更强的硬件隔离环境下运行,实现机密计算保护。

2. KAI Scheduler成为CNCF Sandbox项目
NVIDIA的高性能AI工作负载调度器现已作为CNCF Sandbox项目上线,促进更广泛协作。

3. 全新开源项目

  • NVSentinel:GPU故障修复系统

  • AI Cluster Runtime:智能体AI框架

  • NemoClaw:参考软件栈

  • OpenShell:用于安全运行自主智能体,支持细粒度可编程策略和隐私管理,与Linux、eBPF和Kubernetes原生集成

4. Grove扩展Dynamo生态
Grove是一个用于在GPU集群上编排AI工作负载的开源Kubernetes API,目前正在与llm-d推理堆栈集成。


四、对企业客户的启示:为什么值得关注?

如果您正在构建或运营AI算力集群(无论是训练还是推理),这些开源进展将直接影响您的基础设施效率和成本

  1. 更低的运维门槛:DRA驱动程序使GPU资源池化更智能,减少人工干预

  2. 更强的安全性:机密容器GPU支持,满足金融、医疗等严格合规场景

  3. 更开放的生态:避免供应商锁定,可灵活选择云或本地部署

  4. 更大的规模:原生支持多节点NVLink互联,为NVIDIA Grace Blackwell等下一代AI基础设施做好准备


五、NVIDIA的长期承诺

NVIDIA在新闻稿中强调:

“NVIDIA致力于积极维护和贡献Kubernetes及CNCF项目,助力满足企业AI客户的严格需求。”

从捐赠DRA驱动,到开源KAI Scheduler、OpenShell等项目,NVIDIA正在将自己从“硬件供应商”转变为AI基础设施开源生态的核心贡献者


相关文章
GPU 加速油气勘探,打造新一代地震数据分析平台
GPU 加速油气勘探,打造新一代地震数据分析平台
2026-04-30
国内一家领先的油气勘探企业承接了大量的国内外石油天然气勘探项目,每年面临庞大的地···
NVIDIA Vera CPU:为 AI 工厂智能体工作负载设计的新一代处理器
NVIDIA Vera CPU:为 AI 工厂智能体工作负载设计的新一代处理器
2026-06-05
NVIDIA 发布 Vera CPU,搭载 88 颗 Olympus 核心与 1.2 TB/s 内存带宽,针对 Agentic ···
NVIDIA DOCA 芯片内安全方案为 Agentic AI 基础设施提供运行时防护
NVIDIA DOCA 芯片内安全方案为 Agentic AI 基础设施提供运行时防护
2026-06-05
NVIDIA 发布基于 BlueField DPU 与 DOCA 的芯片内安全方案,通过运行时威胁检测、数据···
30 行 Python 代码节省数十万美元:NVIDIA nvCOMP 实现 LLM 检查点无损压缩
30 行 Python 代码节省数十万美元:NVIDIA nvCOMP 实现 LLM 检查点无损压缩
2026-06-04
训练大语言模型需要定期保存检查点,包含模型权重、优化器状态和梯度的完整快照。在大···