VILA 是 NVIDIA Research 和麻省理工学院共同开发的一系列高性能视觉语言模型。这些模型的参数规模从 ~3B 到 ~40B 不等。值得注意的是,VILA 是完全开源的,包括模型检查点、训练代码和训练数据。
在这篇文章中,我们描述了 VILA 在交付边缘 AI 2.0 时如何与其他模型进行比较。
边缘人工智能的初始版本涉及将压缩的人工智能模型部署到边缘设备上。这个阶段被称为 Edge AI 1.0,专注于特定任务的模型。这种方法的挑战在于需要用不同的数据集训练不同的模型,在这些数据集中,负样本很难收集,异常情况也很难处理。这一过程非常耗时,凸显了对适应性更强、通用性更强的人工智能解决方案的需求。
边缘人工智能 2.0:生成人工智能的崛起
Edge AI 2.0 标志着由基础视觉语言模型(VLM)推动的向增强泛化的转变。
像 VILA 这样的 VLM 表现出令人难以置信的多功能性,能够理解复杂的指令并快速适应新的场景。这种灵活性使它们成为广泛应用程序中的重要工具。它们可以优化自动驾驶汽车的决策,在物联网和 AIoT 环境中创建个性化交互,事件检测,并增强智能家居体验。
VLM 的核心优势在于它们在语言预训练中获得的世界知识,以及用户用自然语言查询它们的能力。这为人工智能智能相机带来了动态处理能力,而无需对定制的视觉管道进行硬编码。
边缘的 VLM:VILA 和 NVIDIA Jetson Orin
要实现边缘 AI 2.0,VLM 必须具有高性能且易于部署。VILA 通过以下方式实现这两个目标:
- 精心设计的训练管道,具有高质量的数据混合
- AWQ 4 位量化,精度损失可忽略不计
VILA 是一种将视觉信息引入 LLM 的视觉语言模型。VILA 模型由视觉编码器、LLM 和投影仪组成,它们桥接了来自两种模态的嵌入。为了利用强大的 LLM,VILA 使用视觉编码器将图像或视频编码为视觉标记,然后将这些视觉标记输入 LLM,就好像它们是外语一样。这种设计可以处理任意数量的交错图像文本输入。
VILA 的成功源于其强化的预训练配方。在对视觉语言模型预训练选择进行深入研究后,我们观察到了三个主要发现:
- 在预训练期间冻结 LLM 可以获得不错的零样本表现,但缺乏上下文学习能力,这需要解冻 LLM。
- 交错的预训练数据是有益的,而单独的图像-文本对不是最佳的。
- 在指令微调过程中,将纯文本指令数据与图像文本数据重新混合不仅解决了纯文本任务的退化问题,而且提高了 VLM 任务的准确性。
我们观察到,预训练过程为模型解锁了几个有趣的功能:
- 多图像推理,尽管模型在 SFT(监督微调)期间只看到单个图像-文本对
- 更强的情境学习能力
- 增强了世界知识
有关更多信息,请参阅 基于 VILA 的 NVIDIA 硬件可视化语言模型 这个 VILA:关于视觉语言模型的预训练 论文,以及 Efficient-Large-Model/VILA GitHub 仓库。
NVIDIA Jetson Orin 提供无与伦比的人工智能计算能力、大型统一内存和全面的人工智能软件堆栈,使其成为在能效边缘设备上部署 VILA 的完美平台。借助 transformer 架构提供支持,Jetson Orin 能够快速推理任何生成人工智能模型,在 MLPerf 基准测试中展现出色的性能。
AWQ 量化
为了在 Jetson Orin 上部署 VILA,我们集成了 激活感知权重量化(AWQ),以实现 4 比特量化。通过 AWQ,我们能够以可忽略的精度损失将 VILA 量化到 4 位精度,从而为 VLM 在维护性能标准的同时转换边缘计算铺平了道路。
尽管像 AWQ 这样的进步,在边缘设备上部署大型语言和视觉模型仍然是一项复杂的任务。四位权重缺乏字节对齐,并且需要专门的计算以获得最佳效率。
TinyChat 是一款专门为边缘设备上的大语言模型(LLM)和视觉语言模型(VLM)设计的高效推理框架。其出色的适应性使其能够在各种硬件平台上运行,从 NVIDIA RTX 4070 笔记本电脑的 GPU 到 NVIDIA Jetson Orin,吸引了开源社区的极大兴趣。
现在,TinyChat 扩大了支持范围,实现了对视觉数据的重要理解和推理,通过支持 VILA。TinyChat 在结合文本和视觉处理方面提供了卓越的效率和灵活性,使边缘设备能够执行尖端的多模式任务。
基准
下表显示了 VILA 1.5-3B 的基准结果。鉴于其规模,它在图像质量保证和视频质量保证基准测试中表现出色。另外,您还可以看到,AWQ 4 位量化不会失去准确性,并且通过与 按比例缩放(S2),它能够感知更高分辨率的图像,从而进一步提高性能。
模型 | 精确 | VQA-V2 | VizWiz | GQA | VQA–T | 科学 QA–I | MME | 种子-I | MMMU 值 | MMMU 测试 |
VILA-1.5-3B-S2 | fp16 | 79.8 | 61.3 | 61.4 | 63.4 | 69.6 | 1432 | 66.5 | 33.1 | 31.3 |
VILA 1.5-3B | fp16 | 80.4 | 53.5 | 61.5 | 60.4 | 69 | 1442 | 67.9 | 33.3 | 30.8 |
VILA 1.5-3B | int4 | 80 | 53.8 | 61.1 | 60.4 | 67.8 | 1437 | 66.6 | 32.7 | 31.1 |
模型 | ActivityNet | MSVD | MSR-VTT | TGIF | 感知测试 |
维拉 1.5-3B | 50.2 | 76.6 | 57.5 | 51.7 | 39.3 |
在 Jetson Orin 和 NVIDIA RTX 上部署
随着相机和视觉系统在现实世界环境中的使用越来越普遍,推断边缘设备上的 VILA 是一项重要任务。根据型号大小,您可以从七个 Jetson Orin 模块中进行选择,从入门级 AI 到高性能。这为您提供了为智能家居设备、医疗器械、自主机器人和视频分析构建生成人工智能应用程序的终极灵活性,用户可以动态重新配置和查询这些应用程序。
图 3 显示了在 Jetson AGX Orin 和 Jetson Orin Nano 上运行 VILA 的端到端多模式管道性能,两者都实现了视频流的交互速率。
这些基准包括查询帧的总时间,包括视觉编码(使用 CLIP 或 SigLIP)、多模式投影、聊天嵌入的组装以及使用 4 位量化生成语言模型输出。VILA-1.5 模型包括一种新颖的自适应,将用于表示每个图像嵌入的令牌数量从 729 个减少到 196 个,这提高了性能,同时在视觉编码器中提高了空间分辨率的情况下保持了准确性。
我们提供了一种高度优化的、开源的 VLM 管道,它集成了多种高级功能,包括多模式 RAG 和一次拍摄图像标记,以及图像嵌入在整个系统中用于其他视觉相关任务的有效重用。
消费级 GPU 体验
VILA 还可以部署在笔记本电脑和 PC 工作站上的 NVIDIA RTX 等消费级 GPU 中,以提高用户生产力和交互体验。
多图像推理
TinyChat 的最新版本使用了 VILA 令人印象深刻的多图像推理功能,使您能够同时上传多个图像以增强交互。这开启了令人兴奋的可能性。
图 6 显示 VILA 可以理解图像序列的内容和顺序,为创造性应用开辟了新的途径。
情境学习
VILA 还表现出非凡的情境学习能力。在不需要明确的系统提示的情况下,VILA 可以从以前的图像-文本对无缝地推断模式,以生成新图像输入的相关文本。
在图 7 中,VILA 成功识别了 NVIDIA 徽标,并与前面示例的样式相呼应,输出 NVIDIA 最著名的产品。
开始使用 VILA
我们计划继续在 VILA 上进行创新,包括延长上下文长度、提高分辨率,以及为视觉和语言对齐策划更好的数据集。
有关此模型族的详细信息,请参见以下资源。
- 要开始使用 VILA,请参阅 GitHub 回购 /Efficient-Large-Model/VILA 。
- 要了解多模式 web UI 的更多信息,您可以使用 Jetson Orin 上运行的 ASR/TTS 与 VILA 对话,请参阅 LlamaSpeak 的指导。
- 有关相机或视频源上的流式 VILA,请参阅 Live Llava 代理商 tutorial。
欲了解更多关于边缘生成人工智能的想法,请参阅 Jetson 人工智能实验室,尤其是以下视频。