借助 NVIDIA RTX 系统为 Windows PC 上的 LLM 应用程序提供强效助力

大型语言模型 (LLM) 正在从根本上改变我们与计算机的交互方式。从互联网搜索到办公效率工具，这些模型正被整合到各种应用中。它们正在推进实时内容生成、文本摘要、客户服务聊天机器人和问答用例的发展。

如今，由 LLM 提供支持的应用程序主要在云端运行。但是，许多用例都将受益于在 Windows PC 上本地运行 LLM，包括游戏、创意、生产力和开发者体验。

在 CES 2024 上， NVIDIA 发布了一些开发者工具，用于在适用于 Windows PC 的 NVIDIA RTX 系统上加速 LLM 推理和开发。您现在可以使用 NVIDIA 端到端开发者工具在 NVIDIA RTX AI 就绪型 PC 上创建和部署 LLM 应用。

支持社区模型和原生连接器

NVIDIA 刚刚宣布为热门社区模型提供优化支持，包括 Phi-2。除了在 NVIDIA RTX 系统上对 Lama2、Mistral-7B 和 Code Lama 的现有支持外，这些模型还为开发者提供了广泛的选择，并且借助 NVIDIA TensorRT-LLM 推理后端在 NVIDIA RTX 系统上实现了一流的性能。

NVIDIA 与开源社区合作，开发了适用于热门应用框架的 TensorRT-LLM 原生连接器，例如 LlamaIndex。这些连接器能够在 Windows PC 上与常用的应用开发工具无缝集成。您可以查看 LlamaIndex 示例连接器的实现。

我们还为 TensorRT-LLM 开发了 OpenAI 聊天 API 包装器，以便您只需更改一行代码，即可在云端或本地 Windows PC 上轻松切换运行 LLM 应用程序。现在，无论他们是在云端设计应用程序，还是在使用 NVIDIA RTX 的本地 PC 上设计应用程序，您都可以在相同的热门社区框架中使用类似的工作流。

现在，您可以通过两个最近推出的开源开发者参考应用访问这些最新进展：

A 检索增强生成 (RAG) 项目可以完全在配备 NVIDIA RTX GPU 的 Windows PC 上运行，并且利用了 TensorRT-LLM 和 LlamaIndex。
这是一个参考项目，它运行着 continue.dev 插件，该插件完全在本地 Windows PC 上运行，并且与 OpenAI 聊天 API 兼容的 Web 服务器。

使用 TensorRT-LLM 和 Llamaindex 在 Windows 上运行 RAG

RAG 工作流由 Lama-2 13B 模型、TensorRT-LLM、Lamaindex 和 FAISS 向量搜索库组成。现在，您可以使用此参考应用轻松与数据通信。图 1 显示了包含 NVIDIA GeForce 新闻的数据集。

立即开始使用此应用程序。

video showing the retrieval augmented generation project dashboard — *视频 1.完全在 Windows PC 上运行的检索增强型一代参考应用，搭载 NVIDIA RTX 系统*

Continue.dev 使用 CodeLlama-13B 在 PC 上运行 Visual Studio Code 扩展程序

continue.dev 插件最初旨在使用云端的聊天 GPT 提供 LLM 驱动的代码辅助。它与 Visual Studio Code 集成开发环境一起使用。使用适用于 TensorRT-LLM 的 OpenAI 聊天 API 包装器，只需更改一行代码，此插件现在使用在支持 NVIDIA RTX 的 PC 上本地运行的 Code Lama-13B 模型。这为快速进行本地 LLM 推理提供了一条简单路径。

立即在 GitHub 上尝试此参考项目。

在本地运行 LLM 的优势

在 PC 上本地运行 LLM 具有以下优势：

费用：使用 LLM 推理时，无需支付云托管 API 或基础设施的成本。您可以直接访问您的计算资源。
始终开启：您可以随时随地使用 LLM 功能，无需依赖高带宽的网络连接。
性能：延迟与网络质量无关，因为整个模型在本地运行，所以延迟更低。这对于游戏或视频会议等实时应用场景非常关键。 NVIDIA RTX 提供极速的 PC 加速器，具备高达 1300 TOPS 的计算能力。
数据隐私：隐私和专有数据始终可以保留在设备上。

NVIDIA RTX 已交付超过 1 亿个系统，为新的 LLM 驱动的应用程序提供了大量用户的安装基础。

NVIDIA RTX 上 LLM 的开发者工作流

现在，您可以通过以下选项在 NVIDIA RTX AI 就绪型 PC 上无缝运行 LLM：

访问 Hugging Face 上的预优化模型、NGC 以及 NVIDIA AI 基础模型。
使用 NVIDIA DGX 云和 NVIDIA NeMo 框架在 Omniverse 中训练或定制您的数据模型。
利用 TensorRT-LLM 在 NVIDIA RTX 上量化和优化模型，以获得出色性能。

此工作流程由 NVIDIA AI 平台以及热门开发工具（例如 NVIDIA AI 工作台）支持，在云和 PC 之间实现无缝迁移。

AI Workbench 为您提供了灵活性，只需单击几下即可在 GPU 支持的环境之间协作处理和迁移生成式 AI 项目。项目可以在 PC 或工作站上本地启动，然后可以横向扩展到数据中心、公有云或 NVIDIA DGX 云等任何地方进行训练。然后，您可以将模型带回本地 NVIDIA RTX 系统，以便使用 TensorRT-LLM 进行推理和轻量级自定义。

AI Workbench 将于本月晚些时候发布测试版。

开始使用

借助最新更新，您现在可以在同一工作流程中使用热门社区模型和框架，构建使用 NVIDIA RTX 在云端或 Windows PC 本地运行的应用程序。轻松将 LLM 功能添加到由现有 1 亿安装基数 NVIDIA RTX PC 提供支持的应用程序中。

想要立即开始开发基于 LLM（大型语言模型）的应用程序和项目，请访问NVIDIA RTX 系统在 Windows PC 上进行生成式 AI 开发了解更多信息。

您是否有兴趣购买由生成式 AI 驱动的 Windows 应用程序或插件？那么不妨参加NVIDIA RTX 开发者大赛，您还有机会赢取 GeForce RTX 4090 GPU、完整的 GTC 现场会议通行证等奖品。

借助 NVIDIA RTX 系统为 Windows PC 上的 LLM 应用程序提供强效助力

支持社区模型和原生连接器

使用 TensorRT-LLM 和 Llamaindex 在 Windows 上运行 RAG

Continue.dev 使用 CodeLlama-13B 在 PC 上运行 Visual Studio Code 扩展程序

在本地运行 LLM 的优势

NVIDIA RTX 上 LLM 的开发者工作流

开始使用

Tags

关于作者

借助 NVIDIA RTX 系统为 Windows PC 上的 LLM 应用程序提供强效助力

支持社区模型和原生连接器

使用 TensorRT-LLM 和 Llamaindex 在 Windows 上运行 RAG

Continue.dev 使用 CodeLlama-13B 在 PC 上运行 Visual Studio Code 扩展程序

在本地运行 LLM 的优势

NVIDIA RTX 上 LLM 的开发者工作流

开始使用

Tags

关于作者

Related posts

使用新的 NVIDIA AI 基础模型生成代码、回答查询并翻译文本

借助加速网络实现数据中心现代化

使用现已推出 Beta 版的 NVIDIA AI Workbench 来创建、共享和扩展企业 AI 工作流程

使用 NVIDIA TensorRT 加速的全新 Stable Diffusion 模型

2023 年最热门的 NVIDIA 技术博客文章：生成式 AI、LLM、机器人开发和虚拟世界的突破