Triton 推理服务器
![](https://developer-blogs.nvidia.com/zh-cn-blog/wp-content/uploads/sites/2/2025/01/retrieval-augmented-generation-graphic-960x540.jpg)
2024年 12月 18日
AEC 检索增强生成技术指南
大语言模型 (LLMs) 正在迅速改变业务格局,为自然语言处理 (NLP)、内容生成和数据分析提供新功能。
3 MIN READ
![](https://developer-blogs.nvidia.com/zh-cn-blog/wp-content/uploads/sites/2/2025/01/inference-perplexity-ai-960x540.png)
2024年 12月 5日
聚焦:Perplexity AI 利用 NVIDIA 推理栈每月服务 4 亿个搜索请求
对 AI 赋能服务的需求持续快速增长,这给 IT 和基础设施团队带来了越来越大的压力。这些团队的任务是配置必要的硬件和软件来满足这一需求,
2 MIN READ
![](https://developer-blogs.nvidia.com/zh-cn-blog/wp-content/uploads/sites/2/2024/10/wolf-howling-e1730224047800-960x540.jpg)
2024年 10月 29日
AI 驱动的设备追踪嚎叫以拯救狼群
一种可部署在广大偏远地区的手机大小的新型设备正在使用人工智能识别和地理定位野生动物,以帮助保护主义者追踪濒危物种,包括黄石国家公园周围的狼群。
1 MIN READ
![](https://developer-blogs.nvidia.com/zh-cn-blog/wp-content/uploads/sites/2/2024/10/fraud-alert-mobile-960x540.jpg)
2024年 10月 28日
利用图形神经网络加速金融服务业欺诈检测效率
金融服务欺诈是一个巨大的问题。根据 NASDAQ 的数据,在 2023 年,银行在支付、支票和信用卡欺诈方面预计会面临 442 亿美元的损失。
3 MIN READ
![](https://developer-blogs.nvidia.com/zh-cn-blog/wp-content/uploads/sites/2/2024/10/llm-graphic-1-960x540.png)
2024年 10月 22日
利用 NVIDIA Triton 和 NVIDIA TensorRT-LLM 及 Kubernetes 实现 LLM 扩展
大语言模型 (LLMs) 已广泛应用于聊天机器人、内容生成、摘要、分类、翻译等领域。State-of-the-art LLMs 和基础模型如…
5 MIN READ
![](https://developer-blogs.nvidia.com/zh-cn-blog/wp-content/uploads/sites/2/2024/10/RAG-Gaming-960x540.png)
2024年 10月 1日
借助检索增强型生成技术推动 AI 赋能游戏开发的演进
游戏开发是一个复杂且资源密集型的过程,尤其是在使用 像 Unreal Engine 这样的高级工具 时。开发者会发现自己需要浏览大量信息,
1 MIN READ
![](https://developer-blogs.nvidia.com/zh-cn-blog/wp-content/uploads/sites/2/2024/08/nvidia-blackwell-960x540.jpg)
2024年 8月 28日
NVIDIA Blackwell 平台在 MLPerf Inference v4.1 中创下新的 LLM 推理记录
大型语言模型 (LLM) 推理是一项全栈挑战。实现高吞吐量、低延迟推理需要强大的 GPU、高带宽 GPU 之间的互连、
4 MIN READ
![](https://developer-blogs.nvidia.com/zh-cn-blog/wp-content/uploads/sites/2/2024/08/triton-inference-service-featured-960x540.jpg)
2024年 8月 28日
NVIDIA Triton 推理服务器在 MLPerf Inference 4.1 基准测试中实现出色性能
六年前,我们踏上了开发 AI 推理服务解决方案的旅程,该解决方案专为高吞吐量和时间敏感型生产用例而设计。当时,ML 开发者正在部署定制的、
2 MIN READ
![](https://developer-blogs.nvidia.com/zh-cn-blog/wp-content/uploads/sites/2/2024/08/llm-chatbot-purple-960x540.jpg)
2024年 8月 21日
LLM 推理规模和性能优化的实践策略
随着聊天机器人和内容创建等许多应用越来越多地使用大型语言模型(LLM),了解扩展和优化推理系统的过程非常重要,
1 MIN READ
![](https://developer-blogs.nvidia.com/zh-cn-blog/wp-content/uploads/sites/2/2024/08/inference-press-blog-titan-featured-960x540.jpg)
2024年 8月 1日
使用 NVIDIA GenAI-Perf 和 OpenAI 兼容 API 测量生成式 AI 模型性能
NVIDIA 提供 Perf Analyzer 和 Model Analyzer 等工具,帮助机器学习工程师测量和平衡延迟与吞吐量之间的权衡,
2 MIN READ
![](https://developer-blogs.nvidia.com/zh-cn-blog/wp-content/uploads/sites/2/2024/07/NIM-multilanguage-960x540.png)
2024年 7月 8日
使用 NVIDIA NIM 实现多语种大语言模型部署
对于在当今全球化商业环境中运营的企业而言,多语种大型语言模型(LLM)的重要性与日俱增。随着企业跨越国界和文化扩展业务,
4 MIN READ
![](https://developer-blogs.nvidia.com/zh-cn-blog/wp-content/uploads/sites/2/2024/07/image4-1-960x540.png)
2024年 7月 2日
借助 NVIDIA GPU 和无边缘系统提高大型语言模型的安全性
Edgeless Systems 推出了 Continuum AI,这是首款生成式 AI 框架,始终通过机密计算对提示进行加密,
2 MIN READ
![](https://developer-blogs.nvidia.com/zh-cn-blog/wp-content/uploads/sites/2/2024/06/group-working-with-laptop-960x540.jpg)
2024年 6月 14日
通过五门新的 NVIDIA 技术课程提升您的技能
随着人工智能以前所未有的速度引入技术创新,保持领先意味着保持你的技能与时俱进。NVIDIA 开发者计划为您提供所需的工具、培训和资源,
1 MIN READ
![](https://developer-blogs.nvidia.com/zh-cn-blog/wp-content/uploads/sites/2/2024/05/snapchat-screenshop-featured-960x540.jpg)
2024年 5月 17日
借助 AI、可感知表情的 OCR 和 Snapchat 的 Screenshop 增强服装购物体验
是否曾在照片中看到有人穿着一件炫酷的衬衫或独特的服装,并想知道他们是从哪里买来的?价格是多少?也许您甚至考虑过自己买一件。
2 MIN READ
![](https://developer-blogs.nvidia.com/zh-cn-blog/wp-content/uploads/sites/2/2024/04/dev-llama3-blog-1920x1080-1-960x540.png)
2024年 4月 22日
借助 NVIDIA TensorRT-LLM 和 NVIDIA Triton 推理服务器提升 Meta Llama 3 性能
我们很高兴地宣布支持 Meta Llama 3 系列模型,通过 NVIDIA TensorRT LLM 加速和优化 LLM 推理性能。
2 MIN READ
![](https://developer-blogs.nvidia.com/zh-cn-blog/wp-content/uploads/sites/2/2024/04/woman-laptop-speech-bubbles-graphic-960x540.png)
2024年 4月 2日
使用 NVIDIA TensorRT-LLM 调整和部署 LoRA LLM
大型语言模型 (LLM) 可以从大量文本中学习,并为各种任务和领域生成流畅、一致的文本,从而彻底改变自然语言处理 (NLP)。然而,
7 MIN READ