AI Inference / Inference Microservices

2025年 7月 18日
使用 JAX 和 XLA 优化推理工作负载的低延迟通信
在生产环境中使用大语言模型 (LLM) 进行推理需要满足严格的延迟限制。此过程的关键阶段是 LLM 解码,
2 MIN READ

2025年 7月 7日
LLM 推理基准测试:使用 TensorRT-LLM 进行性能调优
这是大语言模型延迟 – 吞吐量基准测试系列的第三篇博文,旨在指导开发者如何使用 TensorRT-LLM 对 LLM 推理进行基准测试。
3 MIN READ

2025年 6月 26日
在 NVIDIA Jetson 和 RTX 上运行 Google DeepMind 的 Gemma 3n
截至今日,NVIDIA 现已支持在 NVIDIA RTX 和 Jetson 上全面推出 Gemma 3n。上个月,
1 MIN READ

2025年 6月 24日
隆重推出 NVFP4,实现高效准确的低精度推理
为了充分利用 AI,优化至关重要。当开发者考虑优化用于推理的 AI 模型时,通常会想到量化、蒸馏和剪枝等模型压缩技术。毫无疑问,
4 MIN READ

2025年 6月 12日
使用 NVIDIA TensorRT for RTX 运行高性能 AI 应用
NVIDIA TensorRT for RTX 现可作为 SDK 下载,该 SDK 可集成到 Windows 和 Linux 的 C++ 和…
2 MIN READ

2025年 6月 9日
借助 EoRA 快速恢复 LLM 压缩错误的免微调方法
模型压缩技术已经过广泛探索,可减少为大语言模型 (LLM) 或其他大型神经网络提供服务所需的计算资源。 但是,与未压缩的模型相比,
5 MIN READ

2025年 6月 3日
NVIDIA Base Command Manager 为 AI 集群管理提供免费的启动程序
随着 AI 和高性能计算 (HPC) 工作负载变得越来越常见和复杂,系统管理员和集群管理员是确保一切平稳运行的核心。他们的工作 (构建、
1 MIN READ

2025年 5月 22日
Blackwell 借助 Meta 的 Llama 4 Maverick 突破 1000 TPS/ 用户门槛
NVIDIA 的大语言模型 (LLM) 推理速度创下了世界纪录。在包含 400 亿参数的 Llama 4 Maverick 模型 (…
3 MIN READ

2025年 5月 21日
NVIDIA Dynamo 加速 llm-d 社区计划,推动大规模分布式推理
在 Red Hat Summit 2025 上推出的 llm-d 社区标志着开源生态系统在加速生成式 AI 推理创新方面迈出了重要一步。
1 MIN READ

2025年 5月 19日
NVIDIA TensorRT for RTX 在 Windows 11 上推出优化的推理 AI 库
在 Windows 上,创意、游戏和生产力应用方面的 AI 体验正在迅速扩展。有各种框架可用于在台式机、
3 MIN READ

2025年 5月 18日
借助 NVIDIA NVLink Fusion 将半定制计算平台集成到机架级架构
为了高效应对 AI 工作负载,数据中心正在被重构。这是一项非常复杂的工作,因此,
2 MIN READ

2025年 5月 12日
在 Azure AI Foundry 上使用 NVIDIA NIM 加速 AI 推理
将 NVIDIA NIM 微服务 集成到 Azure AI Foundry ,标志着企业 AI 开发的重大飞跃。
4 MIN READ

2025年 5月 8日
云端 Apache Spark 加速深度学习和大语言模型推理
Apache Spark 是用于大数据处理和分析的行业领先平台。随着非结构化数据(documents、emails、
4 MIN READ

2025年 4月 23日
NVIDIA Secure AI 正式发布
随着许多企业开始对其数据进行 AI 训练或推理,需要保护数据和代码,尤其是大语言模型 (LLMs) 。由于数据敏感性,
1 MIN READ

2025年 4月 21日
使用 NVIDIA TensorRT 优化基于 Transformer 的扩散模型以生成视频
先进的图像扩散模型需要数十秒才能处理单张图像。这使得视频扩散更具挑战性,需要大量计算资源和高昂成本。
4 MIN READ

2025年 4月 5日
NVIDIA 加速推理 Meta Llama 4 Scout 与 Maverick 模型
最新一代热门 Llama AI 模型现已支持 Llama 4 Scout 和 Llama 4 Maverick。
2 MIN READ