生成式人工智能/大语言模型

利用基于专家的混合 DBRX 在不同任务上实现卓越的 LLM 性能

本周,我们发布了模型功能 DBRX,这是由 Databricks 开发的最先进的大型语言模型(LLM)。DBRX 在编程和编码任务方面展示出了强大的实力,擅长使用 Python 等语言处理专门的主题和编写特定的算法。此外,它还可以应用于文本完成任务和少回合交互。DBRX 的长上下文能力可用于 RAG 系统,以提高准确性和保真度。

模型对细粒度的使用 混合专家(MoE) 体系结构是它区别于其他模型的一个关键特性。该 MoE 架构通过利用一组专门的“专家”网络,擅长处理复杂任务。在推理过程中,MoE 使用学习的门控机制,基于输入数据动态选择并组合这些专家网络的输出,以实现更好的性能。

这种门控机制将输入数据的不同部分路由到最相关的专家网络,使教育部能够有效地利用其集体专业知识并产生卓越的预测或输出。通过自适应地协调其组成网络的贡献,MoE 在有效利用计算资源的同时,在不同任务上实现了卓越的性能。

DBRX 细粒度 MoE 方法使用了更多更小的专家,从而提高了性能和效率。该体系结构共涉及 1320 亿个参数,在任何给定时间都有 360 亿个活动参数,通过使用 16 名专家进行管理,其中四名专家为每个处理的代币激活。

Screenshot of the DBRX large language model running in the API catalog user interface, where the model understands natural language and generates responses based on user input prompt.
图 1。DBRX 模型从用户提示生成响应的示例

DBRX 针对延迟和吞吐量进行了优化,使用 NVIDIA TensorRT LLM。现在,它已经加入了二十多个流行的人工智能模型,这些模型由 NVIDIA NIM 微服务提供,旨在简化性能优化的部署。NIM 支持 NVIDIA AI Foundation 模型 和自定义模型的部署,使得 10 到 100 倍的企业应用程序开发人员能够为人工智能转型做出贡献。

NVIDIA 正与领先的模型构建商合作,在完全加速的堆栈上支持他们的模型。其中包括流行的型号,如 Llama3-70BLlama3-8BGemma2BMixtral 8X22B 等。您可以访问 ai.nvidia.com,在企业应用程序中体验、定制和部署这些模型。

开始使用 DBRX

开始体验 DBRX,请访问 build.nvidia.com。使用免费的 NVIDIA 云积分,您可以开始大规模测试模型,并通过将应用程序连接到运行在完全加速堆栈上的 NVIDIA 托管 API 端点上来构建概念验证(POC)。

Tags