Posts by Vinh Nguyen
数据中心/云端
2025年 6月 18日
基准测试大型语言模型推理成本以实现更智能的扩展和部署
这是大语言模型延迟-吞吐量基准测试系列的第三篇博文,旨在指导开发者如何通过估算总体拥有成本 (TCO) 来确定 LLM 推理的成本。
3 MIN READ
数据中心/云端
2025年 5月 14日
使用先进的开放式后训练数据集构建自定义推理模型
合成数据已成为大语言模型 (LLM) 后训练程序的标准组成部分。使用从单个或一组经商业许可的开源 LLM 中合成生成的大量示例,
2 MIN READ
数据中心/云端
2025年 5月 6日
LLM 推理基准测试指南:NVIDIA GenAI-Perf 和 NIM
这是 LLM 基准测试系列 的第二篇文章,介绍了在使用 NVIDIA NIM 部署 Meta Llama 3 模型 时,
4 MIN READ
数据中心/云端
2025年 2月 12日
使用 NVIDIA NeMo 框架进行 LLM 模型剪枝和知识蒸馏
模型剪枝和知识蒸馏是功能强大且经济高效的策略,用于从最初较大的同级获得较小的语言模型。 在一篇“ 如何剪枝和蒸馏 Llama-3.1 8B ”…
4 MIN READ
数据中心/云端
2024年 10月 8日
Mistral-NeMo-Minitron 8B 模型提供超高精度
本文最初发布于 2024 年 8 月 21 日,但已根据当前数据进行了修订。 最近,NVIDIA 和 Mistral AI 推出了…
3 MIN READ