新闻中心

NVIDIA Vera Rubin 平台瞄准 Agentic AI 扩展瓶颈，强化低时延推理能力

阅览 : 1

更新时间 : 2026-05-20

随着 Agentic AI 带来更多多轮决策、工具调用和长上下文需求，传统推理系统在时延与吞吐之间面临更大压力。NVIDIA 通过 Vera Rubin 平台、Groq 3 LPX 与 Dynamo 协同设计，试图提升大规模智能体推理场景下的性能与可预测性。

NVIDIA 在 2026 年 5 月 14 日发布的开发者博客中表示，Vera Rubin NVL72 被定位为该平台的核心计算引擎，用于承接高吞吐推理负载。文章认为，当前新一代智能体工作负载不仅要求更高模型能力，也要求在大规模部署下保持更稳定的低时延响应。

为应对这一问题，NVIDIA 在文中重点介绍了 Vera Rubin 平台与 Groq 3 LPX 的协同设计思路。其核心方向是把高吞吐计算能力与更确定性的低抖动执行方式结合起来，尽量减少多芯片、多节点通信中的不确定性，从而更适配多智能体推理这类对响应波动更敏感的场景。

在系统协同层面，NVIDIA Dynamo 被用于编排异构推理流程。按照文中描述，Rubin GPU 更适合处理预填充和长上下文相关任务，而 LPX 则更适合承担对低时延更敏感的前馈解码部分。通过这种分工，平台试图同时兼顾吞吐、延迟和长上下文支持能力。

2026-04-30

国内一家领先的油气勘探企业承接了大量的国内外石油天然气勘探项目，每年面临庞大的地···

2026-05-22

在 SAP Sapphire 2026 大会上，NVIDIA 与 SAP 宣布进一步扩大合作，目标是帮助企业在关···

2026-05-22

在具身智能技术驱动的工业革命浪潮中，NVIDIA 正为全球企业架设连接人工智能与物理世界···

2026-05-21

AI 模型完成训练后，真正进入生产服务阶段时，往往还会面临一系列部署问题。NVIDIA 在···