Posts by Ashraf Eassa
数据中心/云端
2024年 8月 28日
NVIDIA Blackwell 平台在 MLPerf Inference v4.1 中创下新的 LLM 推理记录
大型语言模型 (LLM) 推理是一项全栈挑战。实现高吞吐量、低延迟推理需要强大的 GPU、高带宽 GPU 之间的互连、
4 MIN READ
生成式人工智能/大语言模型
2024年 8月 28日
NVIDIA Triton 推理服务器在 MLPerf Inference 4.1 基准测试中实现出色性能
六年前,我们踏上了开发 AI 推理服务解决方案的旅程,该解决方案专为高吞吐量和时间敏感型生产用例而设计。当时,ML 开发者正在部署定制的、
2 MIN READ
数据中心/云端
2024年 8月 12日
NVIDIA NVLink 和 NVIDIA NVSwitch 加速大语言模型推理性能
大型语言模型(LLM)越来越大,增加了处理推理请求所需的计算量。为了满足服务当今LLM的实时延迟要求,并为尽可能多的用户提供服务,
3 MIN READ
数据中心/云端
2024年 8月 2日
借助 NVIDIA Grace 系列革新数据中心效率
到 2025 年,数据处理需求的指数级增长预计将达到 175 ZB。这与 CPU 性能提升的缓慢步伐形成了鲜明的对比。十多年来,
5 MIN READ
对话式人工智能
2024年 7月 17日
NVIDIA NeMo 借助混合状态空间模型加速 LLM 创新发展
当今的大型语言模型(LLM)基于 2017 年推出的 Transformer 模型架构。自那时以来,
2 MIN READ
数据中心/云端
2024年 6月 12日
NVIDIA 在 MLPerf Training v4.0 中创造了新的生成式 AI 性能和规模记录
生成式 AI 模型具有多种用途,例如帮助编写计算机代码、创作故事、作曲、生成图像、制作视频等。而且,随着这些模型的大小不断增加,
3 MIN READ