AI 推理
2024年 10月 1日
使用 NVIDIA AI 端点和 Ragas 对医疗 RAG 的评估分析
在快速发展的医学领域,尖端技术的集成对于增强患者护理和推进研究至关重要。其中一项创新是 检索增强生成(RAG),
3 MIN READ
2024年 9月 18日
使用 NVIDIA NIM 微服务实现语音和翻译功能,快速赋予应用语音能力
NVIDIA NIM 是 NVIDIA AI Enterprise 的一部分,为自行托管的 GPU 加速推理微服务提供容器,用于跨云、
3 MIN READ
2024年 9月 10日
使用 NVIDIA NeMo 和 NVIDIA TensorRT 模型优化器对 LLM 进行训练后量化
随着大语言模型(LLMs)的规模不断扩大,提供易于使用且高效的部署路径变得越来越重要,因为为此类 LLMs 提供服务的成本越来越高。
3 MIN READ
2024年 8月 28日
NVIDIA Triton 推理服务器在 MLPerf Inference 4.1 基准测试中实现出色性能
六年前,我们踏上了开发 AI 推理服务解决方案的旅程,该解决方案专为高吞吐量和时间敏感型生产用例而设计。当时,ML 开发者正在部署定制的、
2 MIN READ
2024年 8月 21日
Google Cloud Run 现已支持 NVIDIA L4 GPU、NVIDIA NIM 及大规模无服务器 AI 推理部署
部署 AI 赋能的应用和服务给企业带来了重大的挑战: 应对这些挑战需要一种全栈方法,该方法可以优化性能、有效管理可扩展性并驾部署的复杂性,
2 MIN READ
2024年 8月 21日
LLM 推理规模和性能优化的实践策略
随着聊天机器人和内容创建等许多应用越来越多地使用大型语言模型(LLM),了解扩展和优化推理系统的过程非常重要,
1 MIN READ
2024年 8月 20日
首个设备上小语言模型的部署提高游戏角色扮演体验
在 Gamescom 2024 游戏展上,NVIDIA 宣布推出首款用于提高游戏角色对话能力的设备上小语言模型 (SLM)。我们还宣布,
1 MIN READ
2024年 8月 15日
NVIDIA TensorRT 模型优化器 v0.15 提高推理性能扩展模型支持能力
NVIDIA 宣布推出新版 v0.15 NVIDIA TensorRT 模型优化器,这是一种先进的模型优化技术量化工具包,包含量化、
2 MIN READ
2024年 8月 14日
NVIDIA NIM 微服务助力大规模 LLM 推理效率优化
随着大型语言模型 (LLMs) 继续以前所未有的速度发展,企业希望构建生成式 AI 驱动的应用程序,以最大限度地提高吞吐量,降低运营成本,
2 MIN READ
2024年 8月 12日
NVIDIA NVLink 和 NVIDIA NVSwitch 加速大语言模型推理性能
大型语言模型(LLM)越来越大,增加了处理推理请求所需的计算量。为了满足服务当今LLM的实时延迟要求,并为尽可能多的用户提供服务,
3 MIN READ
2024年 8月 7日
使用 CUDA 图形优化 Llama.cpp AI 推理
开源 llama.cpp 代码库最初于 2023 年发布,是一种轻量级但高效的框架,用于在 Meta Llama 模型上执行推理。llama.
2 MIN READ
2024年 8月 6日
深入了解使用 NVIDIA NIM 优化的新 AI 模型
NVIDIA NIM 微服务作为优化容器提供,旨在加速各种规模的企业的 AI 应用开发,为 AI 技术的快速生产和部署铺平道路。
2 MIN READ
2024年 7月 30日
利用重新排名技术增强 RAG 管道性能
在快速发展的 AI 驱动应用程序格局中,重新排名已成为提高企业搜索结果的准确性和相关性的关键技术。通过使用先进的机器学习算法,
3 MIN READ
2024年 7月 15日
全新 NVIDIA NIM:可适用于 Mistral 和 Mixtral 模型并为您的 AI 项目赋能
大语言模型(LLM)在企业组织中的应用日益广泛,许多企业都将其整合到 AI 应用中。虽然从基础模型着手十分高效,
2 MIN READ
2024年 6月 12日
揭开万亿参数大型语言模型 AI 推理部署的神秘面纱
人工智能(AI)正在改变各行各业,解决精准药物发现、自动驾驶汽车开发等重大人类科学挑战,
4 MIN READ
2024年 6月 11日
借助 NVIDIA TensorRT 轻量级引擎,为 AI 应用提供卓越性能和最小占用空间
NVIDIA TensorRT一个成熟的数据中心推理库,已迅速成为 NVIDIA GeForce RTX 和 NVIDIA RTX GPU…
2 MIN READ