Mostofa Patwary

Mostofa Patwary 是 NVIDIA 应用深度学习研究团队的高级深度学习研究科学家。 Mostofa 的研究兴趣遍及自然语言处理、可扩展深度学习、高性能计算和算法工程等领域。在加入 NVIDIA 之前, Mostofa 在百度硅谷人工智能实验室( Silicon Valley AI Lab )致力于扩展大型语言模型和扩展深度学习应用程序的可预测性。 Mostofa 还为能够在超级计算机上运行的机器学习中的几个核心内核开发大规模代码做出了重大贡献。

Posts by Mostofa Patwary

对话式人工智能/自然语言处理

策展万亿代币数据集: NVIDIA NeMo 数据策展人介绍

这个大型语言模型 (LLM) 缩放规律的最新发展已经表明,当模型参数的数量进行缩放时,用于训练的令牌的数量也应该以相同的速率进行缩放。 2 MIN READ
人工智能/深度学习

用 Megatron-CNTRL 为语言模型添加外部知识和可控性

大型语言模型,如 Megatron 和 GPT-3 正在改变人工智能。我们对能够利用这些模型来创建更好的对话式人工智能的应用程序感到兴奋。 2 MIN READ