极进Extreme合作伙伴——中科新远网络解决方案提供商

新闻中心

NVIDIA NIM 1.4 现已部署可用,推理速度提升 2.4 倍

阅览 : 6
更新时间 : 2025-01-21

随着 生成式 AI 重塑各行各业,对可立即部署的高性能推理的需求也在不断增长。 NVIDIA NIM 为 AI 模型推理提供生产就绪型微服务容器,不断提高企业级生成式 AI 性能。即将推出的 NIM 版本 1.4 定于 12 月初发布,开箱即用的请求性能可提升高达 2.4 倍,并提供相同的单命令部署体验。

NIM 的核心是多个 LLM 推理引擎,包括 NVIDIA TensorRT-LLM ,可实现光速推理性能。在每个版本中,NIM 都整合了来自这些引擎的内核优化、内存管理和调度方面的最新进展,以提高性能。

Chart
图 1、与 NIM 1.2 相比,NVIDIA NIM 1.4 吞吐量。Llama 3.1 70B 2 个 H200-SXM 输入令牌 8K,输出令牌 256;Llama 3.1 8B 1 个 H100-SXM 输入令牌 30K,输出令牌 256。

在 NIM 1.4 中,内核效率、运行时启发式算法和内存分配有了显著改进,推理速度提高了 2.4 倍。这些进步对于依赖快速响应和高吞吐量的生成式 AI 应用的企业至关重要。

NIM 还受益于全栈加速计算的持续更新,可提升计算堆栈各个级别的性能和效率。这包括对最新的 NVIDIA TensorRT 和 NVIDIA CUDA 版本的支持,进一步提高了推理性能。NIM 用户无需手动更新软件,即可从这些持续改进中受益。

Chart
图 2、NVIDIA Llama 3.1 8B NIM 1.4 与 Llama 3.1 8B NIM 1.2 在 1x H100SXM 上运行,输入令牌 30K,输出令牌 256 。

NIM 整合了全套预配置软件,提供高性能 AI 推理,并且配置简单,使开发者能够快速开始使用高性能推理。

持续创新循环意味着 TensorRT-LLM、CUDA 和其他核心加速计算技术的每项改进都会立即使 NIM 用户受益。更新通过 NIM 微服务容器的更新无缝集成和交付,消除了手动配置的需求,并减少了通常与维护高性能推理解决方案相关的工程开销。


相关文章
GPU 加速油气勘探,打造新一代地震数据分析平台
GPU 加速油气勘探,打造新一代地震数据分析平台
2026-04-30
国内一家领先的油气勘探企业承接了大量的国内外石油天然气勘探项目,每年面临庞大的地···
NVIDIA 与 SAP 扩大合作,为企业专业智能体强化安全与治理能力
NVIDIA 与 SAP 扩大合作,为企业专业智能体强化安全与治理能力
2026-05-22
在 SAP Sapphire 2026 大会上,NVIDIA 与 SAP 宣布进一步扩大合作,目标是帮助企业在关···
诺基亚联合英伟达:以仿真训练平台重构工业具身智能开发范式
诺基亚联合英伟达:以仿真训练平台重构工业具身智能开发范式
2026-05-22
在具身智能技术驱动的工业革命浪潮中,NVIDIA 正为全球企业架设连接人工智能与物理世界···
NVIDIA 发布 AI 模型服务优化指南,聚焦降低部署链路摩擦
NVIDIA 发布 AI 模型服务优化指南,聚焦降低部署链路摩擦
2026-05-21
AI 模型完成训练后,真正进入生产服务阶段时,往往还会面临一系列部署问题。NVIDIA 在···