对话式人工智能/自然语言处理

借助 NVIDIA RTX 系统为 Windows PC 上的 LLM 应用程序提供强效助力

 

大型语言模型 (LLM) 正在从根本上改变我们与计算机的交互方式。从互联网搜索到办公效率工具,这些模型正被整合到各种应用中。它们正在推进实时内容生成、文本摘要、客户服务聊天机器人和问答用例的发展。

如今,由 LLM 提供支持的应用程序主要在云端运行。但是,许多用例都将受益于在 Windows PC 上本地运行 LLM,包括游戏、创意、生产力和开发者体验。

在 CES 2024 上, NVIDIA 发布了一些开发者工具,用于在适用于 Windows PC 的 NVIDIA RTX 系统上加速 LLM 推理和开发。您现在可以使用 NVIDIA 端到端开发者工具在 NVIDIA RTX AI 就绪型 PC 上创建和部署 LLM 应用。

支持社区模型和原生连接器

NVIDIA 刚刚宣布为热门社区模型提供优化支持,包括 Phi-2。除了在 NVIDIA RTX 系统上对 Lama2、Mistral-7B 和 Code Lama 的现有支持外,这些模型还为开发者提供了广泛的选择,并且借助 NVIDIA TensorRT-LLM 推理后端 在 NVIDIA RTX 系统上实现了一流的性能。

NVIDIA 与开源社区合作,开发了适用于热门应用框架的 TensorRT-LLM 原生连接器,例如 LlamaIndex。这些连接器能够在 Windows PC 上与常用的应用开发工具无缝集成。您可以查看 LlamaIndex 示例连接器的实现

我们还为 TensorRT-LLM 开发了 OpenAI 聊天 API 包装器,以便您只需更改一行代码,即可在云端或本地 Windows PC 上轻松切换运行 LLM 应用程序。现在,无论他们是在云端设计应用程序,还是在使用 NVIDIA RTX 的本地 PC 上设计应用程序,您都可以在相同的热门社区框架中使用类似的工作流。

现在,您可以通过两个最近推出的开源开发者参考应用访问这些最新进展:

  • A 检索增强生成 (RAG) 项目可以完全在配备 NVIDIA RTX GPU 的 Windows PC 上运行,并且利用了 TensorRT-LLM 和 LlamaIndex。
  • 这是一个参考项目,它运行着 continue.dev 插件,该插件完全在本地 Windows PC 上运行,并且与 OpenAI 聊天 API 兼容的 Web 服务器。

使用 TensorRT-LLM 和 Llamaindex 在 Windows 上运行 RAG

RAG 工作流由 Lama-2 13B 模型、TensorRT-LLM、Lamaindex 和 FAISS 向量搜索库组成。现在,您可以使用此参考应用轻松与数据通信。图 1 显示了包含 NVIDIA GeForce 新闻的数据集。

立即开始使用此应用程序

video showing the retrieval augmented generation project dashboard
视频 1.完全在 Windows PC 上运行的检索增强型一代参考应用,搭载 NVIDIA RTX 系统

Continue.dev 使用 CodeLlama-13B 在 PC 上运行 Visual Studio Code 扩展程序

continue.dev 插件最初旨在使用云端的聊天 GPT 提供 LLM 驱动的代码辅助。它与 Visual Studio Code 集成开发环境一起使用。使用适用于 TensorRT-LLM 的 OpenAI 聊天 API 包装器,只需更改一行代码,此插件现在使用在支持 NVIDIA RTX 的 PC 上本地运行的 Code Lama-13B 模型。这为快速进行本地 LLM 推理提供了一条简单路径。

立即在 GitHub 上尝试此参考项目

在本地运行 LLM 的优势

在 PC 上本地运行 LLM 具有以下优势:

  • 费用:使用 LLM 推理时,无需支付云托管 API 或基础设施的成本。您可以直接访问您的计算资源。
  • 始终开启:您可以随时随地使用 LLM 功能,无需依赖高带宽的网络连接。
  • 性能:延迟与网络质量无关,因为整个模型在本地运行,所以延迟更低。这对于游戏或视频会议等实时应用场景非常关键。 NVIDIA RTX 提供极速的 PC 加速器,具备高达 1300 TOPS 的计算能力。
  • 数据隐私:隐私和专有数据始终可以保留在设备上。

NVIDIA RTX 已交付超过 1 亿个系统,为新的 LLM 驱动的应用程序提供了大量用户的安装基础。

NVIDIA RTX 上 LLM 的开发者工作流

现在,您可以通过以下选项在 NVIDIA RTX AI 就绪型 PC 上无缝运行 LLM:

此工作流程由 NVIDIA AI 平台以及热门开发工具(例如 NVIDIA AI 工作台)支持,在云和 PC 之间实现无缝迁移。

AI Workbench 为您提供了灵活性,只需单击几下即可在 GPU 支持的环境之间协作处理和迁移生成式 AI 项目。项目可以在 PC 或工作站上本地启动,然后可以横向扩展到数据中心、公有云或 NVIDIA DGX 云等任何地方进行训练。然后,您可以将模型带回本地 NVIDIA RTX 系统,以便使用 TensorRT-LLM 进行推理和轻量级自定义。

AI Workbench 将于本月晚些时候发布测试版。

开始使用

借助最新更新,您现在可以在同一工作流程中使用热门社区模型和框架,构建使用 NVIDIA RTX 在云端或 Windows PC 本地运行的应用程序。轻松将 LLM 功能添加到由现有 1 亿安装基数 NVIDIA RTX PC 提供支持的应用程序中。

想要立即开始开发基于 LLM(大型语言模型)的应用程序和项目,请访问NVIDIA RTX 系统在 Windows PC 上进行生成式 AI 开发了解更多信息。

您是否有兴趣购买由生成式 AI 驱动的 Windows 应用程序或插件?那么不妨参加NVIDIA RTX 开发者大赛,您还有机会赢取 GeForce RTX 4090 GPU、完整的 GTC 现场会议通行证等奖品。

 

Tags