Terry Kong

Terry Kong 是 NVIDIA 的高级深度学习工程师,从事模型对齐工作,并对基础架构和深度学习算法的交叉问题感兴趣。他获得了硕士学位。斯坦福大学电气工程专业。

Posts by Terry Kong

生成式人工智能/大语言模型

借助 NVIDIA NeMo-RL 进行强化学习:Megatron 核心支持优化训练吞吐量

NVIDIA NeMo-RL 的初始版本通过 PyTorch DTensor(也称为 FSDP2)提供训练支持。 3 MIN READ
开发与优化

使用 NVIDIA NeMo-RL 进行强化学习:通过 GRPO 复制 DeepScaleR 配方

强化学习 (RL) 是交互式 AI 的支柱。它对于教导智能体推理和从人类偏好中学习、实现多轮工具使用等至关重要。 2 MIN READ
生成式人工智能/大语言模型

利用 NVIDIA NeMo-Aligner 进行监督式微调的数据高效知识蒸馏

知识蒸馏是一种将更大的教师模型的知识转移到更小的学生模型的方法,理想情况下可生成紧凑、易于部署的学生,且准确度与教师相当。 2 MIN READ