GTC 大会火热进行中!别错过 NVIDIA CEO 黄仁勋的最新发布,以及 AI 和加速计算的必听会议。
数据中心/云端/边缘

OpenAI 展示 GPT-3,一个 1750 亿参数的语言模型

 

OpenAI 研究人员最近发布了 研究报告 描述 GPT-3 ,一个由 1750 亿个参数组成的最先进的语言模型。

相比之下,以前的版本 GPT-2 由 15 亿个参数组成。微软本月早些时候发布了最大的基于 Transformer 的语言模型,该模型由 170 亿个参数组成。

“ GPT-3 在许多自然语言处理数据集上取得了很好的性能,包括翻译、问答和完形填空任务,以及一些需要动态推理或领域调整的任务,如解译单词、在句子中使用新单词或执行 3 位数算术,”研究人员在其研究报告中表示 纸张 “我们发现, GPT-3 可以生成新闻文章样本,人类评估人员难以将其与人类撰写的文章区分开来。”

自然语言处理任务从生成新闻文章、语言翻译到回答标准化测试问题。

我们训练的模型的大小、架构和学习超参数(令牌中的批量大小和学习速率)。所有模型都接受了总计 3000 亿代币的培训。来源: OpenAI 。

该组织表示:“每个模型的精确架构参数是基于计算效率和 GPU 模型布局中的负载平衡来选择的。” 规定的 “所有模型都接受过训练 NVIDIA V100 GPU 作为 Microsoft 提供的高带宽集群的一部分。”

OpenAI 在 cuDNN 加速的 PyTorch 深度学习框架上训练他们所有的 AI 模型。

本月早些时候,微软和 OpenAI 宣布了一款专为该组织设计的新的 GPU 加速超级计算机。

“为 OpenAI 开发的超级计算机是一个单一系统,每个 GPU 服务器拥有超过 285000 个 GPU 核、 10000 个 GPU 和每秒 400 千兆位的网络连接,”这些公司在 博客 里的一份声明中表示 .

在性能方面,新的 GPT-3 模型在 SuperGLUE 基准上取得了接近最先进的结果,去年引入该基准测试推理和其他高级 NLP 任务。在包括 COPA 和 ReCoRD 在内的其他基准测试中,该模型与上下文分析( WIC )和一组中学和高中考试题 RACE 相比都有不足。

该组织说:“尽管存在许多局限性和弱点,但这些结果表明,非常大的语言模型可能是开发适应性强的通用语言系统的一个重要因素。”。

阅读更多>>

 

Tags