AI Inference / Inference Microservices
2024年 12月 19日
使用 NVIDIA NeMo Curator 新分类器模型增强您的训练数据
分类器模型专门用于将数据分类为预定义的组或类,在优化数据处理流程以微调和预训练生成式 AI 模型方面发挥着关键作用。
3 MIN READ
2024年 12月 18日
NVIDIA TensorRT-LLM 现支持 Recurrent Drafting,实现 LLM 推理优化
Recurrent Drafting (简称 ReDrafter) 是苹果公司为大语言模型 (LLM) 推理开发并开源的一种新型推测解码技术,
2 MIN READ
2024年 12月 12日
NVIDIA BlueField DPU 与 WEKA Client 的集成提升 AI 工作负载效率
WEKA 是可扩展软件定义数据平台的先驱,NVIDIA 正在携手合作,
1 MIN READ
2024年 12月 11日
NVIDIA TensorRT-LLM 现支持动态批处理加速编码器 - 解码器模型
NVIDIA 最近宣布, NVIDIA TensorRT-LLM 现可加速编码器 – 解码器模型架构 。
1 MIN READ
2024年 11月 19日
Llama 3.2 全栈优化释放 NVIDIA GPU 的高性能
Meta 最近发布了 Llama 3.2 系列视觉语言模型(VLM),其中包含 11B 参数和 90B 参数变体。这些模型是多模态模型,
2 MIN READ
2024年 11月 15日
借助 NVIDIA TensorRT-LLM 分块预填充提高 AI 推理效率和简化部署
在本 博文 中,我们详细介绍了分块预填充,这是 NVIDIA TensorRT-LLM 的一项功能,
1 MIN READ
2024年 11月 15日
NVIDIA NIM 1.4 现已部署可用,推理速度提升 2.4 倍
随着 生成式 AI 重塑各行各业,对可立即部署的高性能推理的需求也在不断增长。 NVIDIA NIM 为 AI…
1 MIN READ
2024年 11月 8日
NVIDIA TensorRT-LLM KV 缓存早期重用实现首个令牌速度 5 倍提升
在上一篇 博客文章 中,我们展示了通过将键值 (KV) 缓存卸载到 CPU 内存来重复使用该缓存如何在基于 x86 的 NVIDIA…
2 MIN READ
2024年 11月 1日
NVSwitch 和 TensorRT-LLM MultiShot 共同加速 AllReduce 速度达 3 倍
在用户数量可能在数百到数十万之间波动,且输入序列长度随每个请求而变化的生产环境中,部署生成式 AI 工作负载会面临独特的挑战。
1 MIN READ
2024年 10月 16日
利用脑机交互式神经调节和 NVIDIA Jetson 改善脑部疾病治疗
Neuromodulation 是一种通过直接干预神经活动来增强或恢复大脑功能的技术。它常用于治疗帕金森症、癫痫和抑郁症等病症。
2 MIN READ
2024年 10月 16日
借助 Google Kubernetes Engine 和 NVIDIA NIM 实现高性能 AI 推理扩展
AI 模型的快速演进推动了对更高效、更可扩展的推理解决方案的需求。在企业组织努力利用 AI 的强大功能时,他们在部署、
3 MIN READ
2024年 10月 15日
DataStax 推出 NVIDIA AI 构建的新一代 AI 开发平台
随着企业越来越多地采用 AI 技术,他们面临着高效开发、保护和持续改进 AI 应用以利用其数据资产的复杂挑战。
2 MIN READ