生成式人工智能/大语言模型

借助 NVIDIA NeMo 开发前沿的多模态生成式 AI 模型

生成式 AI 已从基于文本的模型迅速发展为多模态功能。这些模型执行图像字幕和视觉问答等任务,反映了向更接近人类的 AI 的转变。该社区目前正在从文本和图像扩展到视频,为各行各业带来了新的可能性。

视频 AI 模型将彻底改变 机器人 、汽车和零售等行业。在机器人领域,它们可增强在复杂、不断变化的环境中的自主导航,这对于制造和仓储管理等行业至关重要。在汽车行业,视频 AI 正在推动自动驾驶,提升车辆感知、安全性和预测性维护,从而提高效率。 

要构建图像和视频基础模型,开发者必须整理和预处理大量训练数据,以高保真度标记生成的高质量数据,高效、大规模地训练或定制预训练模型,然后在推理过程中生成高质量的图像和视频。 

宣布推出适用于多模态生成式 AI 的 NVIDIA NeMo

NVIDIA NeMo 是一个端到端平台,用于开发、定制和部署生成式 AI 模型。 

NVIDIA 刚刚宣布扩展 NeMo,以支持开发多模态模型的端到端流程。借助 NeMo,您可以轻松整理高质量的视觉数据,使用高效的分词器和并行技术加速 训练 自定义 ,并在推理期间重建高质量的视觉效果。 

加速视频和图像数据管护 

高质量的训练数据可确保 AI 模型获得高精度结果。然而,开发者在构建数据处理管道时面临着从扩展到数据编排等各种挑战。 

NeMo Curator 可简化数据管护流程,让您更轻松、更快速地构建多模态生成式 AI 模型。开箱即用的体验可更大限度地降低总拥有成本 (TCO),并加快上市时间。 

在处理视觉效果时,组织可以轻松实现 PB 级数据处理。NeMo Curator 提供编排工作流,可以在数据管护的每个阶段在多个 GPU 上实现负载平衡。因此,与基于 GPU 的朴素实现相比,您可以将视频处理时间缩短 7 倍。可扩展的流程可以高效处理超过 100 PB 的数据,确保无缝处理大型数据集。 

The bar chart compares an unoptimized data curation pipeline to an NVIDIA NeMo Curator pipeline. NVIDIA NeMo Curator delivers up to 7x faster processing of video to generate high-quality training data. For this data, 1M hours of video were processed.
图 1、NVIDIA NeMo Curator 视频处理速度

NeMo Curator 提供针对高吞吐量过滤、字幕和嵌入阶段优化的参考视频管护模型,可提升数据集质量,助力您创建更准确的 AI 模型。 

例如,NeMo Curator 使用优化的字幕模型,与未优化的推理模型实现相比,吞吐量提高了一个数量级。

NVIDIA Cosmos 标记器 

标记器可将冗余和隐式视觉数据映射为紧凑和语义标记,从而实现大规模生成模型的高效训练,并在有限的计算资源上实现推理的大众化。

当今的开放式视频和图像标记器通常会生成糟糕的数据表示,导致有损重构、图像失真和视频暂时不稳定,并限制基于标记器构建的生成模型的能力。低效的标记化流程还会导致编码和解码速度缓慢以及更长的训练和推理时间,从而对开发者的工作效率和用户体验产生负面影响。

NVIDIA Cosmos 分词器是一种开放模型,可为各种图像和视频类别提供出色的视觉分词,同时具有极高的压缩率和出色的重建质量。 

视频 1、用于图像和视频的高效生成式 AI 标记器

这些分词器通过一套标准化模型提供易用性,这些模型支持具有离散隐代码的视觉语言模型(VLMs),具有连续隐嵌入的扩散模型,以及各种长宽比和分辨率,从而实现大分辨率图像和视频的高效管理。这为您提供了对各种视觉输入数据进行标记化的工具,以构建图像和视频 AI 模型。

Cosmos 分词器架构 

Cosmos 分词器使用复杂的编码器 – 解码器结构,旨在实现高效学习。其核心采用 3D 因果关系卷积块 (联合处理时空信息的专用层),并使用可捕获数据中远程依赖项的时间因果关系。 

因果关系结构可确保模型在执行标记化时仅使用过去和现在的帧,从而避免未来的帧。这对于调整物理 AI 或多模态 LLM 等许多真实系统的因果关系至关重要。

The diagram shows various components, from processing the data with a 3D wavelet and encoding with casual convolution to generating tokens in latent space. Then it shows the reverse process to reconstruct visuals from the generated tokens.
图 2、NVIDIA Cosmos 分词器架构

使用 3D 小波对输入进行下采样,这是一种更高效地表示像素信息的信号处理技术。数据处理完成后,逆小波变换将重建原始输入。 

这种方法提高了学习效率,使分词器编码器 – 解码器可学习模块能够专注于有意义的特征,而不是冗余的像素细节。这些技术及其独特的训练方法相结合,使 Cosmos 分词器成为高效、强大的分词的前沿架构。

在推理过程中,Cosmos 分词器的重建速度比领先的开放权重分词器快 12 倍,从而显著降低模型的运行成本 (图 3)。  

The bar graph compares the relative speedup of Cosmos tokenizer reconstruction time over open tokenizer models CogX and Omni. The graph shows 12x faster processing for 4x8x8, 8x8x8, and 8x16x16 compression rates compared to 4x8x8 for CogX and Omni.
图 3、视频标记器的重建质量 (左) 和运行时性能 (右) 的量化比较

Cosmos 分词器还能生成高保真图像和视频,同时比其他分词器压缩更多,这展现出前所未有的质量压缩权衡。 

The dot plot shows reconstruction image quality generated by various continuous image and video tokenizers based on the different compression rates. Cosmos delivers the highest quality across different compression rates.
图 5、与重建质量相比,持续标记器压缩速率
The dot plot shows reconstruction image quality generated by various discrete image and video tokenizers based on the different compression rates. Cosmos delivers the highest quality across different compression rates.
图 5. 离散标记器压缩率与重建质量的比较

虽然 Cosmos 分词器是从高度压缩的分词生成的,但得益于创新的神经网络训练技术和架构,它能够创建高质量的图像和视频。

Three images of reconstructed images generated by different tokenizers, including Omni, CogX, and Cosmos. The Cosmos tokenizer provides the highest fidelity when compared to the ground truth.
图 6 为连续视频标记器重建视频帧

使用 NeMo 构建您自己的多模态模型 

NVIDIA NeMo 平台的扩展包括使用 NeMo Curator 进行大规模数据处理,以及使用 Cosmos 标记器进行高质量标记化和视觉重建,使您能够构建先进的多模态生成式 AI 模型。

加入等待名单,并在 NeMo Curator 上线时收到通知。 分词器现已在/ NVIDIA/cosmos-tokenizer GitHub 仓库和 Hugging Face 上提供。

 

标签