Posts by Sharath Sreenivas
生成式人工智能/大语言模型
2024年 12月 17日
利用 NVIDIA NeMo-Aligner 进行监督式微调的数据高效知识蒸馏
知识蒸馏是一种将更大的教师模型的知识转移到更小的学生模型的方法,理想情况下可生成紧凑、易于部署的学生,且准确度与教师相当。
2 MIN READ
数据中心/云端
2024年 10月 8日
Mistral-NeMo-Minitron 8B 模型提供超高精度
本文最初发布于 2024 年 8 月 21 日,但已根据当前数据进行了修订。 最近,NVIDIA 和 Mistral AI 推出了…
3 MIN READ
数据中心/云端
2024年 8月 21日
Mistral-NeMo-Minitron 8B 基础模型实现准确性巅峰
上个月,NVIDIA 和 Mistral AI 推出了 Mistral NeMo 12B,这是一款领先的先进的大型语言模型(LLM)。
1 MIN READ
数据中心/云端
2024年 8月 14日
如何在 NVIDIA Llama-3.1-Minitron 4B 模型上修剪和提炼 Llama-3.1 8B
由于大型语言模型(LLM)的有效性和通用性,它们现在已经成为自然语言处理和理解领域的主导力量。LLM(例如 Llama 3.1…
4 MIN READ