NVIDIA 今日发布了 NVIDIA RTX AI 工具包,这是一个工具和 SDK 集合,供 Windows 应用程序开发者为 Windows 应用程序自定义、优化和部署人工智能模型。它可以免费使用,不需要具备人工智能框架和开发工具方面的经验,并为本地和云部署提供出色的人工智能性能。
生成式预训练 Transformer (GPT) 模型的广泛应用为 Windows 开发者将 AI 功能集成到应用程序中创造了巨大的机会。然而,提供这些功能仍然面临重大挑战。首先,您需要自定义模型以满足应用程序的特定需求。其次,您需要优化模型,以适应各种硬件,同时仍能提供最佳性能。第三,您需要一个适用于云和本地 AI 的简单部署路径。
NVIDIA RTX AI 工具包为 Windows 应用开发者提供了端到端工作流程。您可以利用 Hugging Face 中的预训练模型,使用热门微调技术对其进行自定义,以满足特定于应用的要求,并对其进行量化,以适应消费级 PC。然后,您可以优化这些模型,以在各种 NVIDIA GeForce RTX 图形处理单元 以及云端的 NVIDIA 图形处理单元上运行。
在部署时,RTX AI 工具包提供了多种满足应用需求的路径,无论您是选择将优化模型与应用捆绑、在应用安装/更新时下载模型,还是启动云微服务,都是如此。该工具包还包括 NVIDIA AI 推理管理器(AIM)SDK,使应用能够根据用户的系统配置和当前的工作负载,在本地或云端运行人工智能。
适用于各种应用的强大定制 AI
当今的生成式模型基于大型数据集进行训练。使用数百个世界上功能非常强大的 GPU,这可能需要数周时间。虽然大多数开发者都无法利用这些计算资源,但开源预训练模型可让您获得强大的 AI 功能。
以开源形式提供的预训练基础模型通常在通用数据集上进行训练。这使它们能够在各种任务中提供良好的结果。但是,应用程序通常需要专门的行为。例如,游戏角色需要以特定的方式说话,或者科学写作助手需要理解行业特定的术语。
微调是一种技术,用于根据满足应用程序需求的其他数据进一步训练预训练模型。例如,游戏角色的对话示例。
RTX AI 工具包包含支持微调的工具,例如 NVIDIA AI 工作台。AI 工作台 于今年早些时候发布,是一款用于在本地 RTX GPU 和云端组织和运行模型训练、调整和优化项目的工具。RTX AI 工具包还包括使用当前最流行和最有效的技术之一 QLoRA 进行微调的 AI 工作台 项目。
为实现参数高效的微调,该工具包使用 Hugging Face Transformer 库利用 QLoRA,在占用更少内存的情况下实现自定义,并且可以在搭载 RTX GPU 的客户端设备上高效运行。
完成微调后,下一步是优化。
已针对 PC 和云进行优化
优化 AI 模型涉及两个主要挑战。首先,PC 运行 AI 模型的内存和计算资源有限。其次,PC 和云之间存在各种具有不同功能的目标硬件。
RTX AI 工具包包含以下工具,用于优化 AI 模型并为其部署做好准备。
NVIDIA TensorRT 模型优化器:即使是更小的语言模型(LLM)也可能需要 14 GB 或更多 RAM。NVIDIA TensorRT 模型优化器 从今天开始正式推出 Windows 平台版本,可提供量化模型的工具,使其在不显著降低准确性的情况下减少多达 3 倍。它包括 INT4 AWQ 训练后量化等方法,以促进在 RTX 图形处理单元(GPU)上运行先进的语言模型。这样一来,较小的模型不仅可以更轻松地适应典型系统上可用的 GPU 显存,还可以通过减少显存带宽瓶颈来提高性能。
NVIDIA TensorRT Cloud:为了在每个系统上获得出色的性能,可以针对每个 GPU 专门优化模型。 NVIDIA TensorRT Cloud 是一项云服务,当前提供开发者预览版,用于为 PC 中的 RTX GPU 以及云中的 GPU 构建优化的模型引擎。它还为热门的生成式 AI 模型提供预构建、权重受限的引擎,这些模型可以与微调的权重合并,以生成优化的引擎。使用 TensorRT Cloud 构建并与 TensorRT 运行时一起运行的引擎,与预训练模型相比,可实现高达 4 倍的性能提升。
经过微调的模型经过优化后,下一步是部署。
一次开发,随处部署
通过让您的应用能够在本地或云端执行推理,您可以为大多数用户提供最佳体验。部署在设备上的模型可以实现更低的延迟,并且在运行时不需要调用云端,但有一定的硬件要求。部署到云端的模型可以支持在任何硬件上运行的应用,但服务提供商会承担持续的运营成本。模型开发完成后,您可以使用 RTX AI 工具包将其部署到任何地方,并且它是用于设备上和云路径的工具,具有:
NVIDIA AI 推理管理器 (AIM): AIM 可作为抢先体验版提供,可以简化 PC 开发者人工智能集成的复杂性,并在 PC 和云端无缝编排人工智能推理。 NVIDIA AIM 预配置 PC 环境与必要的人工智能模型、引擎和依赖项,并支持跨不同加速器(包括图形处理单元、神经处理单元和中央处理单元)的所有主要推理后端(TensorRT、ONNX Runtime、GGUF、Pytorch)。它还执行运行时兼容性检查,以确定 PC 是否可以在本地运行模型,或根据开发者策略切换到云。
借助 NVIDIA AIM,开发者可以利用 NVIDIA NIM 在云端进行部署,并利用 TensorRT 等工具在本地设备上进行部署。
NVIDIA NIM:NVIDIA NIM 是一套易于使用的微服务,旨在加速在云、数据中心和工作站中部署生成式人工智能模型。NIM 可作为 NVIDIA AI Enterprise 软件套件的一部分。RTX AI 工具包提供了用于打包、优化模型及其依赖项的工具,将其上传到暂存服务器,然后启动 NIM。这将拉取优化模型并创建端点供应用程序调用。
模型也可以使用 NVIDIA AI 推理管理器 (AIM) 插件,从而有助于管理本地和云推理的细节,并减轻开发者的集成负担。
NVIDIA TensorRT: NVIDIA TensorRT 10.0 及其 TensorRT-LLM 推理后端为采用 Tensor Core 的 NVIDIA GPU 提供出色的性能。新发布的 TensorRT 10.0 简化了人工智能模型在 Windows 应用程序中的部署。重量受限的引擎可以压缩超过 99% 的已编译引擎大小,因此可以直接在最终用户设备上使用模型权重对其进行改装。此外,TensorRT 为人工智能模型提供软件和硬件向前兼容性,使其能够与较新的运行时或硬件一起使用。TensorRT – LLM 包括专门优化,用于在 RTX GPU 上加速生成式人工智能语言模型(LLM)和统计语言模型(SLM),从而进一步加速 LLM 推理。
这些工具使开发者能够准备在应用程序运行时就绪的 个模型。
RTX AI 加速生态系统
包括 Adobe、Blackmagic Design 和 Topaz Labs 在内的优秀创意 ISV 正在将 NVIDIA RTX AI 工具包集成到其应用程序中,以提供在 RTX PC 上运行的 AI 加速应用程序,从而增强数百万创作者的用户体验。
要在 RTX PC 上构建基于 RAG 和基于代理的加速工作流,您现在可以通过 LangChain 和 LlamaIndex 等开发者框架访问 RTX AI 工具包 (例如 TensorRT-LLM) 的功能和组件。此外,热门的生态系统工具 (例如 Automatic1111、Comfy.UI、Jan.AI、OobaBooga 和 Sanctum.AI) 现在已通过 RTX AI 工具包进行加速。通过这些集成,您可以轻松构建经过优化的 AI 加速应用程序,将其部署到设备上和云 GPU,并在应用程序中启用混合功能,以便在本地和云环境中运行推理。
将强大的 AI 引入 Windows 应用程序
NVIDIA RTX AI 工具包为 Windows 应用开发者提供端到端工作流,让他们可以利用预训练模型、自定义和优化模型,并将其部署到本地或云端运行。快速、强大的混合 AI 使 AI 驱动的应用能够快速扩展,同时在每个系统上提供最佳性能。RTX AI 工具包使您能够为更多用户带来更多 AI 驱动的功能,以便他们可以在游戏、生产力和内容创作等所有活动中享受 AI 的优势。
NVIDIA RTX 人工智能工具包 即将发布,供开发者访问。