极进Extreme合作伙伴——中科新远网络解决方案提供商

新闻中心

NVIDIA Fleet Intelligence 正式可用,为大规模 GPU 集群提供实时可视化与健康监测

阅览 : 1
更新时间 : 2026-05-19

NVIDIA 推出已正式可用的 Fleet Intelligence 服务,面向数据中心 GPU 运营场景,提供实时遥测、告警、健康检查与完整性验证能力,帮助企业提升 GPU 集群运维效率、可用性与资源利用率。

随着大规模 GPU 集群持续扩张,企业在运维中面临的挑战也越来越复杂。异构硬件、快速迭代的软件栈、功耗约束以及多租户负载波动,都会影响集群整体效率。对于运营团队来说,仅仅知道节点是否在线已经不够,更需要了解每张 GPU 是否处于稳定、健康且高效的运行状态。

NVIDIA 此次推出的 Fleet Intelligence,正是面向这类场景的托管式监测服务。该服务采用主机侧轻量级代理,持续采集 GPU 遥测数据,并将相关信息回传到云端管理服务中,用于统一分析与展示。NVIDIA 表示,该服务现已正式可用,主要面向自建基础设施的数据中心 GPU 与 CPU 用户。

从功能上看,Fleet Intelligence 主要覆盖三个方向:资产清点与可视化、报告与告警、完整性与可信验证。运维人员可以按数据中心、云区域或计算分区查看 GPU 利用率、显存使用、设备状态等关键信息,并快速定位功耗异常、温度热点、性能波动以及潜在硬件故障。

在健康管理方面,Fleet Intelligence 可结合 GPUd、DCGM 等 NVIDIA 相关技术,对主机、GPU、NVLink 和网络状态进行近实时监控,同时执行周期性健康检查。系统支持通过邮件、Slack 等渠道发送告警,并可生成历史趋势报告,帮助团队分析温度、功耗、错误和停机情况,从而更早发现风险并优化资源调度。

此外,Fleet Intelligence 还引入了基于 NVIDIA 机密计算技术的完整性验证机制。系统可通过 Attestation SDK 获取 GPU 运行时测量信息,并借助远程验证服务判断设备配置是否可信、是否被篡改。这一能力有助于企业在扩大 GPU 部署规模的同时,进一步加强平台安全性与运维透明度。


相关文章
GPU 加速油气勘探,打造新一代地震数据分析平台
GPU 加速油气勘探,打造新一代地震数据分析平台
2026-04-30
国内一家领先的油气勘探企业承接了大量的国内外石油天然气勘探项目,每年面临庞大的地···
NVIDIA 与 SAP 扩大合作,为企业专业智能体强化安全与治理能力
NVIDIA 与 SAP 扩大合作,为企业专业智能体强化安全与治理能力
2026-05-22
在 SAP Sapphire 2026 大会上,NVIDIA 与 SAP 宣布进一步扩大合作,目标是帮助企业在关···
诺基亚联合英伟达:以仿真训练平台重构工业具身智能开发范式
诺基亚联合英伟达:以仿真训练平台重构工业具身智能开发范式
2026-05-22
在具身智能技术驱动的工业革命浪潮中,NVIDIA 正为全球企业架设连接人工智能与物理世界···
NVIDIA 发布 AI 模型服务优化指南,聚焦降低部署链路摩擦
NVIDIA 发布 AI 模型服务优化指南,聚焦降低部署链路摩擦
2026-05-21
AI 模型完成训练后,真正进入生产服务阶段时,往往还会面临一系列部署问题。NVIDIA 在···