Author:

Sandeep Subramanian

Sandeep 是 NVIDIA 的研究经理。他的研究重点是大型语言模型的训练和对齐。他获得卡内基梅隆大学 NLP 硕士学位和蒙特利尔大学深度学习博士学位。

对话式人工智能/自然语言处理 2023年 8月 8日

这个大型语言模型 (LLM) 缩放规律的最新发展已经表明，当模型参数的数量进行缩放时，用于训练的令牌的数量也应该以相同的速率进行缩放。 2 MIN READ