AI Inference / Inference Microservices

2025年 4月 5日
NVIDIA 加速推理 Meta Llama 4 Scout 与 Maverick 模型
最新一代热门 Llama AI 模型现已支持 Llama 4 Scout 和 Llama 4 Maverick。
2 MIN READ

2025年 4月 2日
LLM 基准测试:基本概念
在过去几年中,作为广泛的 AI 革命的一部分, 生成式 AI 和 大语言模型 (LLMs) 越来越受欢迎。
4 MIN READ

2025年 4月 2日
NVIDIA Blackwell 在 MLPerf Inference v5.0 中实现巨大的性能飞跃
在不断增长的模型大小、实时延迟要求以及最近的 AI 推理的推动下, 大语言模型 (LLM) 推理的计算需求正在快速增长。与此同时,
3 MIN READ

2025年 3月 25日
借助 NVIDIA Mission Control 实现 AI 工厂自动化
DeepSeek-R1 等先进的 AI 模型证明,企业现在可以构建专用于自己的数据和专业知识的尖端 AI 模型。
2 MIN READ

2025年 3月 20日
借助 NVIDIA TensorRT-LLM 提升 Microsoft Azure AI Foundry 的 Llama 模型性能
微软与 NVIDIA 合作,宣布在其 Azure AI Foundry 平台上实现 Meta Llama 系列模型的变革性性能提升。
1 MIN READ

2025年 3月 19日
AI 推理时代的 NVIDIA Blackwell Ultra
多年来,AI 的进步一直通过预训练扩展遵循清晰的轨迹:更大的模型、更多的数据和更丰富的计算资源带来了突破性的功能。在过去 5 年中,
2 MIN READ

2025年 3月 18日
隆重推出 NVIDIA Dynamo:用于扩展推理AI模型的低延迟分布式推理框架
NVIDIA 今天在 GTC 2025 宣布发布 NVIDIA Dynamo 。NVIDIA Dynamo 是一个高吞吐量、
4 MIN READ

2025年 3月 18日
NVIDIA Blackwell 实现世界纪录的 DeepSeek-R1 推理性能
NVIDIA 在 NVIDIA GTC 2025 上宣布了创下世界纪录的 DeepSeek-R1 推理性能 。 搭载 8 个 NVIDIA…
5 MIN READ

2025年 3月 18日
借助 NVIDIA DGX 云无服务器推理在云环境中无缝扩展人工智能
NVIDIA DGX Cloud Serverless Inference 是一种自动扩展 AI 推理解决方案,可实现快速可靠的应用部署。
3 MIN READ

2025年 2月 28日
聚焦:NAVER Place 利用 NVIDIA TensorRT-LLM 优化 SLM 基础的垂直服务
NAVER 是一家韩国热门搜索引擎公司,提供 Naver Place ,这是一项基于地理的服务,可提供有关韩国数百万家企业和兴趣点的详细信息。
4 MIN READ

2025年 2月 14日
使用 NVIDIA TensorRT-LLM 前瞻性解码优化 Qwen2.5-Coder 吞吐量
专注于编码的 大语言模型(LLMs) 已稳步应用于开发者工作流程。从配对编程到自我改进的 AI 智能体 ,这些模型可帮助开发者完成各种任务,
3 MIN READ

2025年 2月 13日
使用 DeepSeek-R1 和推理时间缩放实现自动化 GPU 内核生成
随着 AI 模型扩展其功能以解决更复杂的挑战,一种称为“ 测试时扩展 ”或“ 推理时扩展 ”的新扩展法则正在出现。
2 MIN READ

2025年 2月 5日
NVIDIA Blackwell 上的 OpenAI Triton 提升 AI 性能和可编程性
矩阵乘法和注意力机制是现代 AI 工作负载的计算支柱。虽然库如 NVIDIA cuDNN 提供高度优化的实现,
2 MIN READ

2024年 12月 24日
借助 NVIDIA 全栈解决方案提升 AI 推理性能
AI 驱动的应用的爆炸式发展对开发者提出了前所未有的要求,他们必须在提供先进的性能与管理运营复杂性和成本以及 AI 基础设施之间取得平衡。
2 MIN READ

2024年 12月 19日
使用 NVIDIA NeMo Curator 新分类器模型增强您的训练数据
分类器模型专门用于将数据分类为预定义的组或类,在优化数据处理流程以微调和预训练生成式 AI 模型方面发挥着关键作用。
3 MIN READ

2024年 12月 18日
NVIDIA TensorRT-LLM 现支持 Recurrent Drafting,实现 LLM 推理优化
Recurrent Drafting (简称 ReDrafter) 是苹果公司为大语言模型 (LLM) 推理开发并开源的一种新型推测解码技术,
2 MIN READ