Roger Waleffe

Roger Waleffe 是 NVIDIA 的应用深度学习研究科学家。他的工作重点是研究和开发用于训练和推理的高效大语言模型架构，例如 Nemotron-H 中使用的混合 Mamba-Transformer 架构。他拥有威斯康星大学麦迪逊分校的计算机科学博士学位。

Posts by Roger Waleffe

代理式 AI/生成式 AI 2025年 6月 6日

随着大语言模型在数学和科学等领域越来越多地承担推理密集型任务，其输出长度也变得越来越长，有时会跨越数万个 token。 2 MIN READ