大型语言模型 (LLM) 正在从根本上改变我们与计算机的交互方式。从互联网搜索到办公效率工具,这些模型正被整合到各种应用中。它们正在推进实时内容生成、文本摘要、客户服务聊天机器人和问答用例的发展。
如今,由 LLM 提供支持的应用程序主要在云端运行。但是,许多用例都将受益于在 Windows PC 上本地运行 LLM,包括游戏、创意、生产力和开发者体验。
在 CES 2024 上, NVIDIA 发布了一些开发者工具,用于在适用于 Windows PC 的 NVIDIA RTX 系统上加速 LLM 推理和开发。您现在可以使用 NVIDIA 端到端开发者工具在 NVIDIA RTX AI 就绪型 PC 上创建和部署 LLM 应用。
支持社区模型和原生连接器
NVIDIA 刚刚宣布为热门社区模型提供优化支持,包括 Phi-2。除了在 NVIDIA RTX 系统上对 Lama2、Mistral-7B 和 Code Lama 的现有支持外,这些模型还为开发者提供了广泛的选择,并且借助 NVIDIA TensorRT-LLM 推理后端 在 NVIDIA RTX 系统上实现了一流的性能。
NVIDIA 与开源社区合作,开发了适用于热门应用框架的 TensorRT-LLM 原生连接器,例如 LlamaIndex。这些连接器能够在 Windows PC 上与常用的应用开发工具无缝集成。您可以查看 LlamaIndex 示例连接器的实现。
我们还为 TensorRT-LLM 开发了 OpenAI 聊天 API 包装器,以便您只需更改一行代码,即可在云端或本地 Windows PC 上轻松切换运行 LLM 应用程序。现在,无论他们是在云端设计应用程序,还是在使用 NVIDIA RTX 的本地 PC 上设计应用程序,您都可以在相同的热门社区框架中使用类似的工作流。
现在,您可以通过两个最近推出的开源开发者参考应用访问这些最新进展:
- A 检索增强生成 (RAG) 项目可以完全在配备 NVIDIA RTX GPU 的 Windows PC 上运行,并且利用了 TensorRT-LLM 和 LlamaIndex。
- 这是一个参考项目,它运行着 continue.dev 插件,该插件完全在本地 Windows PC 上运行,并且与 OpenAI 聊天 API 兼容的 Web 服务器。
使用 TensorRT-LLM 和 Llamaindex 在 Windows 上运行 RAG
RAG 工作流由 Lama-2 13B 模型、TensorRT-LLM、Lamaindex 和 FAISS 向量搜索库组成。现在,您可以使用此参考应用轻松与数据通信。图 1 显示了包含 NVIDIA GeForce 新闻的数据集。
Continue.dev 使用 CodeLlama-13B 在 PC 上运行 Visual Studio Code 扩展程序
continue.dev 插件最初旨在使用云端的聊天 GPT 提供 LLM 驱动的代码辅助。它与 Visual Studio Code 集成开发环境一起使用。使用适用于 TensorRT-LLM 的 OpenAI 聊天 API 包装器,只需更改一行代码,此插件现在使用在支持 NVIDIA RTX 的 PC 上本地运行的 Code Lama-13B 模型。这为快速进行本地 LLM 推理提供了一条简单路径。
在本地运行 LLM 的优势
在 PC 上本地运行 LLM 具有以下优势:
- 费用:使用 LLM 推理时,无需支付云托管 API 或基础设施的成本。您可以直接访问您的计算资源。
- 始终开启:您可以随时随地使用 LLM 功能,无需依赖高带宽的网络连接。
- 性能:延迟与网络质量无关,因为整个模型在本地运行,所以延迟更低。这对于游戏或视频会议等实时应用场景非常关键。 NVIDIA RTX 提供极速的 PC 加速器,具备高达 1300 TOPS 的计算能力。
- 数据隐私:隐私和专有数据始终可以保留在设备上。
NVIDIA RTX 已交付超过 1 亿个系统,为新的 LLM 驱动的应用程序提供了大量用户的安装基础。
NVIDIA RTX 上 LLM 的开发者工作流
现在,您可以通过以下选项在 NVIDIA RTX AI 就绪型 PC 上无缝运行 LLM:
- 访问 Hugging Face 上的预优化模型、NGC 以及 NVIDIA AI 基础模型。
- 使用 NVIDIA DGX 云和 NVIDIA NeMo 框架在 Omniverse 中训练或定制您的数据模型。
- 利用 TensorRT-LLM 在 NVIDIA RTX 上量化和优化模型,以获得出色性能。
此工作流程由 NVIDIA AI 平台以及热门开发工具(例如 NVIDIA AI 工作台)支持,在云和 PC 之间实现无缝迁移。
AI Workbench 为您提供了灵活性,只需单击几下即可在 GPU 支持的环境之间协作处理和迁移生成式 AI 项目。项目可以在 PC 或工作站上本地启动,然后可以横向扩展到数据中心、公有云或 NVIDIA DGX 云等任何地方进行训练。然后,您可以将模型带回本地 NVIDIA RTX 系统,以便使用 TensorRT-LLM 进行推理和轻量级自定义。
AI Workbench 将于本月晚些时候发布测试版。
开始使用
借助最新更新,您现在可以在同一工作流程中使用热门社区模型和框架,构建使用 NVIDIA RTX 在云端或 Windows PC 本地运行的应用程序。轻松将 LLM 功能添加到由现有 1 亿安装基数 NVIDIA RTX PC 提供支持的应用程序中。
想要立即开始开发基于 LLM(大型语言模型)的应用程序和项目,请访问NVIDIA RTX 系统在 Windows PC 上进行生成式 AI 开发了解更多信息。
您是否有兴趣购买由生成式 AI 驱动的 Windows 应用程序或插件?那么不妨参加NVIDIA RTX 开发者大赛,您还有机会赢取 GeForce RTX 4090 GPU、完整的 GTC 现场会议通行证等奖品。