内容创建/渲染

在 NVIDIA RTX 系统上使用 Llama.cpp 加速 LLM

适用于 Windows PC 平台的 NVIDIA RTX AI 提供了一个由数千个开源模型组成的蓬勃发展的生态系统,供应用程序开发者利用并集成到 Windows 应用程序中。值得注意的是,llama.cpp 是一款热门工具,在撰写本文时拥有超过 65K 颗 GitHub 星。此开源库最初发布于 2023 年,是一个轻量级、高效的 大语言模型 (LLM) 推理框架,可在包括 RTX PC 在内的一系列硬件平台上运行。

本文介绍了 RTX PC 上的 Llama.cpp 如何为构建需要 LLM 功能的跨平台或 Windows 原生应用提供出色的解决方案。

Llama.cpp 概述 

虽然 LLMs 在解锁令人兴奋的新用例方面大有可为,但其大容量内存和计算密集型特性通常使开发者难以将它们部署到生产应用中。为解决这一问题,Llama.cpp 提供了大量功能,以优化模型性能,并在各种硬件上高效部署。

Llama.cpp 的核心是利用 ggml 张量库进行机器学习。这一轻量级软件堆栈支持跨平台使用 llama.cpp,而无需依赖外部资源。它具有极高的内存效率,是本地设备推理的理想选择。模型数据以名为 GGUF 的自定义文件格式打包和部署,由 llama.cpp 贡献者专门设计和实施。

在 llama.cpp 上构建项目的开发者可以从数千个预包装模型中进行选择,这些模型涵盖各种高质量量化。一个不断发展的开源社区正在积极开发 llama.cpp 和 ggml 项目。

Llama.cpp 在 NVIDIA RTX 上的加速性能

NVIDIA 将继续合作,改进和优化在 RTX GPU 上运行时的 llama.cpp 性能,以及开发者体验。一些关键贡献包括:

有关最近的贡献,请参阅使用 CUDA 图形优化 Llama.cpp AI 推理。

图 1 显示了 NVIDIA 内部测量结果,其中展示了在 llama.cpp 上使用 Llama 3 8B 模型在 NVIDIA GeForce RTX GPU 上的吞吐量性能。在 NVIDIA RTX 4090 GPU 上,用户预计每秒约 150 个令牌,输入序列长度为 100 个令牌,输出序列长度为 100 个令牌。

要使用 NVIDIA GPU 优化和 CUDA 后端构建 llama.cpp 库,请访问 GitHub 上的 llama.cpp/docs

Bar graph showing inference performance of Llama 3 8B int4 with llama.cpp on four different NVIDIA GeForce RTX GPUs.
图 1. NVIDIA GeForce RTX GPU 上的 NVIDIA 内部吞吐量性能测量结果,采用 Llama 3 8B 模型,输入序列长度为 100 个令牌,生成 100 个令牌。

使用 Llama.cpp 构建的开发者生态系统 

基于 llama.cpp 构建了一个庞大的开发者框架和抽象生态系统,供开发者进一步加速其应用开发之旅。 Ollama Homebrew LMStudio 等热门开发者工具均扩展并利用了 llama.cpp 的底层功能,以提供抽象的开发者体验。其中一些工具的主要功能包括配置和依赖项管理、模型权重捆绑、抽象 UI 以及 LLM 的本地运行 API 端点。

此外,还有一个广泛的模型生态系统,这些模型已经预先优化,开发者可以使用 llama.cpp 在 RTX 系统上使用。著名的模型包括 Hugging Face 上提供的最新 GGUF 量化版本的 Llama 3.2

此外,llama.cpp 作为 NVIDIA RTX AI 工具包 的一部分提供推理部署机制。

在 RTX 平台上使用 Llama.cpp 加速应用程序

现已有 50 多种工具和应用通过 llama.cpp 进行加速,包括:

  • Backyard.ai: 借助 Backyard.ai,用户可以在私人环境中与最喜欢的角色进行虚拟互动,并完全拥有所有权和控制权,从而利用 AI 发挥创造力。该平台利用 llama.cpp 在 RTX 系统上加速 LLM 模型。
  • Brave :Brave 已将智能 AI 助手 Leo 直接集成到 Brave 浏览器中。借助保护隐私的 Leo,用户现在可以提出问题、总结网页和 PDF、编写代码以及创建新文本。借助 Leo,用户可以利用 Ollama (利用 llama.cpp 在 RTX 系统上实现加速) 与设备上的本地 LLM 进行交互。
  • Opera :作为 Opera One 开发版本的一部分,Opera 现在集成了本地 AI 模型来增强用户的浏览需求。Opera 使用 Ollama 集成了这些功能,利用了完全在 NVIDIA RTX 系统上本地运行的 llama.cpp 后端。在 Opera 的浏览器 AI Aria 中,用户还可以向引擎询问网页的摘要和翻译,通过额外的搜索获取更多信息,生成文本和图像,并在支持 50 多种语言的情况下大声阅读回复。
  • Sourcegraph :Sourcegraph Cody 是一款 AI 编码助手,支持最新的 LLM,并使用最佳的开发者上下文提供准确的代码建议。Cody 还可以处理在本地机器和气隙环境中运行的模型。它利用 Ollama,在 NVIDIA RTX GPU 上加速本地推理支持,使用 llama.cpp。

开始使用 

在 RTX AI PC 上使用 llama.cpp 可为开发者提供令人信服的解决方案,以加速 GPU 上的 AI 工作负载。借助 llama.cpp,开发者可以通过轻量级安装包利用 C++ 实现进行 LLM 推理。了解详情并开始使用 RTX AI 工具包上的 llama.cpp

NVIDIA 致力于在 RTX AI 平台 上贡献和加速开源软件。

 

Tags