Posts by Terry Kong
生成式人工智能/大语言模型
2025年 8月 20日
借助 NVIDIA NeMo-RL 进行强化学习:Megatron 核心支持优化训练吞吐量
NVIDIA NeMo-RL 的初始版本通过 PyTorch DTensor(也称为 FSDP2)提供训练支持。
3 MIN READ
开发与优化
2025年 7月 9日
使用 NVIDIA NeMo-RL 进行强化学习:通过 GRPO 复制 DeepScaleR 配方
强化学习 (RL) 是交互式 AI 的支柱。它对于教导智能体推理和从人类偏好中学习、实现多轮工具使用等至关重要。
2 MIN READ
生成式人工智能/大语言模型
2024年 12月 17日
利用 NVIDIA NeMo-Aligner 进行监督式微调的数据高效知识蒸馏
知识蒸馏是一种将更大的教师模型的知识转移到更小的学生模型的方法,理想情况下可生成紧凑、易于部署的学生,且准确度与教师相当。
2 MIN READ