Alexander Bukharin

Alexander Bukharin 是 NVIDIA 的应用研究科学家,专注于强化学习和模型鲁棒性,推动大语言模型的发展。他拥有佐治亚理工学院机器学习博士学位。

Posts by Alexander Bukharin

开发与优化

使用 NVIDIA NeMo-RL 进行强化学习:通过 GRPO 复制 DeepScaleR 配方

强化学习 (RL) 是交互式 AI 的支柱。它对于教导智能体推理和从人类偏好中学习、实现多轮工具使用等至关重要。 2 MIN READ