Roger Waleffe

Roger Waleffe 是 NVIDIA 的应用深度学习研究科学家。他的工作重点是研究和开发用于训练和推理的高效大语言模型架构,例如 Nemotron-H 中使用的混合 Mamba-Transformer 架构。他拥有威斯康星大学麦迪逊分校的计算机科学博士学位。

Posts by Roger Waleffe

生成式人工智能/大语言模型

隆重推出 Nemotron-H 推理模型家族:吞吐量提升无需妥协

随着大语言模型在数学和科学等领域越来越多地承担推理密集型任务,其输出长度也变得越来越长,有时会跨越数万个 token。 2 MIN READ