Posts by Ashraf Eassa
生成式人工智能/大语言模型
2024年 12月 17日
借助 NVIDIA TensorRT-LLM 预测解码,将 Llama 3.3 的推理吞吐量提升 3 倍
随着近期新增的 Llama 3.3 70B (一种纯文本指令调整模型),Meta 的开放 大语言模型 (LLMs) 集合将继续增长。
4 MIN READ
数据中心/云端
2024年 11月 19日
Llama 3.2 全栈优化释放 NVIDIA GPU 的高性能
Meta 最近发布了 Llama 3.2 系列视觉语言模型(VLM),其中包含 11B 参数和 90B 参数变体。这些模型是多模态模型,
2 MIN READ
数据中心/云端
2024年 11月 13日
NVIDIA Blackwell 在 MLPerf 训练 v4.1 中将 LLM 训练性能提高一倍
随着模型规模的扩大以及使用更多数据进行训练,它们的能力也随之提升,实用性也随之提升。为了快速训练这些模型,需要在数据中心规模上提供更高的性能。
3 MIN READ
生成式人工智能/大语言模型
2024年 11月 1日
NVSwitch 和 TensorRT-LLM MultiShot 共同加速 AllReduce 速度达 3 倍
在用户数量可能在数百到数十万之间波动,且输入序列长度随每个请求而变化的生产环境中,部署生成式 AI 工作负载会面临独特的挑战。
1 MIN READ
数据中心/云端
2024年 10月 9日
NVIDIA Grace CPU 实现全球顶级数据中心性能和突破性能效优势
NVIDIA 将 NVIDIA Grace CPU 设计为一种新型高性能数据中心 CPU,旨在提供突破性的 能效 ,
2 MIN READ
数据中心/云端
2024年 8月 28日
NVIDIA Blackwell 平台在 MLPerf Inference v4.1 中创下新的 LLM 推理记录
大型语言模型 (LLM) 推理是一项全栈挑战。实现高吞吐量、低延迟推理需要强大的 GPU、高带宽 GPU 之间的互连、
4 MIN READ