Shizhe Diao

Shizhe Diao 是 NVIDIA Research 的研究科学家,热衷于研究基础模型的高效训练和对齐。在张教授的指导下,Shizhe 获得了香港科技大学的博士学位。

Posts by Shizhe Diao

数据科学

使用 ProRL v2 通过长时间训练扩展 LLM 强化学习

目前,AI 领域最引人注目的问题之一是大型语言模型 (LLM) 是否可以通过持续强化学习 (RL) 继续改进,或者其能力是否最终会达到顶峰。 4 MIN READ
对话式人工智能

Hymba 混合头架构提高小型语言模型性能

Transformer 及其基于注意力的架构,凭借强大的性能、并行化功能以及通过键值 (KV) 缓存进行的长期召回,已成为语言模型 (LM)… 5 MIN READ