由大语言模型驱动的 AI 智能体正在改变企业工作流,但高昂的推理成本和延迟可能会限制其可扩展性和用户体验。为解决这一问题,NVIDIA 最近发布了用于构建数据飞轮的 NVIDIA AI Blueprint。这是一个企业就绪型工作流,通过自动实验来帮助优化 AI 智能体,以找到高效的模型,在降低推理成本的同时,提高延迟和有效性。
该蓝图的核心是一个自我改进循环,该循环使用 NVIDIA NeMo 和 NIM 微服务来蒸馏,使用真实生产数据微调和评估较小的模型。
Data Flywheel Blueprint 旨在与您现有的 AI 基础设施和平台无缝集成,并支持多云、本地和边缘环境。
数据飞轮 Blueprint 的实施步骤
此实战演示展示了如何使用 Data Flywheel Blueprint 来优化模型,以便为虚拟客户服务智能体执行功能和工具调用。它解释了数据飞轮如何帮助用更小的 Llama-3.2-1b 模型取代大型 Llama – 3.3-70b 模型,同时不影响准确性,同时将推理成本降低 98% 以上。
1. 初始设置
- 使用 NVIDIA Launchable 快速启动所需的 GPU 计算
- 为模型自定义和评估循环部署 NeMo 微服务
- 使用 NIM 微服务通过 API 为模型提供服务
- 克隆数据飞轮 Blueprint GitHub 存储库
2. 提取和整理日志
- 以 OpenAI 兼容的格式收集生产智能体交互
- Elasticsearch 中的存储日志
- 设置内置的飞轮编排器,对特定任务的数据集进行标记、重复数据删除和筛选,并运行连续实验
3. 试用现有及更新的模型
- 通过零样本、上下文学习和微调设置运行 EVAL
- 使用生产输出和 LoRA 微调较小的模型,无需手动标记
- 通过与 MLflow 等工具集成来衡量准确性和性能
- 选择符合或优于原始基准的模型
4. 持续部署和改进
- 查看生成的评估报告
- 在生产环境中部署已出现的高效模型
- 提取新的生产数据、重新训练和重复飞轮周期,以便通过自动化实验不断改进
观看此新操作视频或从 NVIDIA API Catalog 下载,即可开始使用 NVIDIA AI Blueprint 构建数据飞轮。