LLM
2024年 9月 2日
使用 NVIDIA NIM 在阿里云容器服务(ACK)中加速 LLM 推理
大语言模型(LLM)是近年来发展迅猛并且激动人心的热点话题,引入了许多新场景,满足了各行各业的需求。随着开源模型能力的不断增强,
4 MIN READ
2024年 8月 28日
NVIDIA Blackwell 平台在 MLPerf Inference v4.1 中创下新的 LLM 推理记录
大型语言模型 (LLM) 推理是一项全栈挑战。实现高吞吐量、低延迟推理需要强大的 GPU、高带宽 GPU 之间的互连、
4 MIN READ
2024年 8月 28日
NVIDIA Triton 推理服务器在 MLPerf Inference 4.1 基准测试中实现出色性能
六年前,我们踏上了开发 AI 推理服务解决方案的旅程,该解决方案专为高吞吐量和时间敏感型生产用例而设计。当时,ML 开发者正在部署定制的、
2 MIN READ
2024年 8月 27日
使用 NVIDIA NIM 增强 RAG 应用
大语言模型(LLMs)的出现使 AI 行业受益匪浅,它提供了能够生成类似人类的文本和处理各种任务的通用工具。然而,
3 MIN READ
2024年 8月 26日
LLM 研究重新定义 AI 在可持续系统保护中的作用
麻省理工学院(MIT)的新研究表明,大型语言模型(LLMs)正逐渐成为保护可再生能源、医疗健康或交通等关键基础设施系统的工具。
1 MIN READ
2024年 8月 22日
Jamba 1.5 LLM 混合架构实现出色的推理和长上下文处理能力
AI21 Labs 推出了最新、最先进的 Jamba 1.5 模型系列,这是一个先进的大型语言模型(LLM)集合,
1 MIN READ
2024年 8月 21日
Mistral-NeMo-Minitron 8B 基础模型实现准确性巅峰
上个月,NVIDIA 和 Mistral AI 推出了 Mistral NeMo 12B,这是一款领先的先进的大型语言模型(LLM)。
1 MIN READ
2024年 8月 21日
LLM 推理规模和性能优化的实践策略
随着聊天机器人和内容创建等许多应用越来越多地使用大型语言模型(LLM),了解扩展和优化推理系统的过程非常重要,
1 MIN READ
2024年 8月 15日
NVIDIA TensorRT 模型优化器 v0.15 提高推理性能扩展模型支持能力
NVIDIA 宣布推出新版 v0.15 NVIDIA TensorRT 模型优化器,这是一种先进的模型优化技术量化工具包,包含量化、
2 MIN READ
2024年 8月 15日
利用 NVIDIA NIM 生成金融市场场景数据
虽然生成式 AI 可用于创作巧妙的诗歌、酷炫的图像和柔和的声音,但仔细观察这些令人印象深刻的内容生成器背后的技术可以揭示概率学习者、
4 MIN READ
2024年 8月 14日
NVIDIA NIM 微服务助力大规模 LLM 推理效率优化
随着大型语言模型 (LLMs) 继续以前所未有的速度发展,企业希望构建生成式 AI 驱动的应用程序,以最大限度地提高吞吐量,降低运营成本,
2 MIN READ
2024年 8月 12日
NVIDIA NVLink 和 NVIDIA NVSwitch 加速大语言模型推理性能
大型语言模型(LLM)越来越大,增加了处理推理请求所需的计算量。为了满足服务当今LLM的实时延迟要求,并为尽可能多的用户提供服务,
3 MIN READ
2024年 8月 12日
AI 交互工具为盲人和弱视者带来沉浸式视频体验
新研究旨在借助 AI 驱动的系统,为失明或低视 (BLV) 观众带来视频访问变革,使用户能够以交互方式探索内容。
1 MIN READ
2024年 8月 7日
Writer 推出医疗健康和金融领域专用大语言模型
作者发布了两个新的特定领域 AI 模型,Palmyra-Med 70B 和 Palmyra-Fin 70B,
2 MIN READ
2024年 8月 7日
使用 CUDA 图形优化 Llama.cpp AI 推理
开源 llama.cpp 代码库最初于 2023 年发布,是一种轻量级但高效的框架,用于在 Meta Llama 模型上执行推理。llama.
2 MIN READ
2024年 8月 1日
使用 NVIDIA GenAI-Perf 和 OpenAI 兼容 API 测量生成式 AI 模型性能
NVIDIA 提供 Perf Analyzer 和 Model Analyzer 等工具,帮助机器学习工程师测量和平衡延迟与吞吐量之间的权衡,
2 MIN READ