生成人工智能研究为创作者提供引导式图像结构控制

新的研究正在提升人工智能的创造力，通过文本引导的图像编辑工具。这项研究提出了一种使用即插即用扩散特征（PnP-DF）的框架，可以指导真实和精确的图像生成。视觉内容创作者可以通过一个提示图像和几个描述性单词，将图像转换为视觉效果。

可靠而轻松地编辑和生成内容的能力有可能扩大艺术家、设计师和创作者的创作可能性。它还可以加强依赖动画、视觉设计和图像编辑的行业。

“最近的文本到图像生成模型标志着数字内容创作进入了一个新时代。然而，将它们应用于现实世界应用程序的主要挑战是缺乏用户可控性，这在很大程度上被限制为仅通过输入文本来指导生成。我们的工作是为用户提供对图像布局控制的首批方法之一，” Narek Tumanyan 说，魏茨曼科学研究所的主要作者和博士候选人。

最近在生成人工智能方面的突破为开发强大的文本到图像模型开辟了新的途径。然而，复杂性、模糊性和对自定义内容的需求限制了当前的渲染技术。

该研究介绍了一种使用 PnP DFs 的新方法，该方法改进了图像编辑和生成过程，使创作者能够更好地控制其最终产品。

研究人员从一个简单的问题开始：扩散模型是如何表示和捕捉图像的形状或轮廓的？该研究探索了图像在生成过程中的内部表征，并考察了这些表征如何编码形状和语义信息。

新方法控制生成的布局，而无需训练新的扩散模型或对其进行调整，而是通过理解空间信息是如何在预训练的文本到图像模型中编码的。在生成过程中，模型从引入的引导图像中提取扩散特征，并将其注入生成过程的每个步骤，从而对新图像的结构进行细粒度控制。

通过结合这些空间特征，扩散模型对新图像进行细化，以匹配制导结构。它迭代地执行这一操作，更新图像特征，直到它降落在最终图像上，该图像保留了指南图像布局，同时也匹配了文本提示。

作者写道：“这产生了一种简单有效的方法，将从制导图像中提取的特征直接注入到翻译图像的生成过程中，不需要训练或微调。”。

这种方法为更先进的受控生成和操作方法铺平了道路。

视频 1 。“文本驱动的图像到图像翻译的即插即用扩散特征”研究综述2023 Conference on Computer Vision and Pattern Recognition（ CVPR ）

研究人员利用 cuDNN 加速 PyTorch 框架，在 NVIDIA A100 GPU 平台上开发和测试了 PNP 模型。据该团队称，GPU 的大容量使他们能够专注于方法开发。研究人员获得 A100 的支持，是因为他们参与了 NVIDIA Applied Research Accelerator Program。

该框架部署在 A100 上，在大约 50 秒内从引导图像和文本转换出新图像。

这个过程不仅有效而且可靠，可以准确地生成令人惊叹的图像。它还可以超越图像，翻译草图、绘图和动画，并可以修改照明、颜色和背景。

Four images showing the transformation of an origami hummingbird into a sculpture, then a realistic image, then into sketch of a parrot. — *图 1 。该方法的样本结果保留了引导折纸图像的结构，同时匹配了目标提示的描述（来源： Tumanyan ， Narek 等人/CVPR 2023 年*)

他们的方法也优于现有的文本到图像模型，在保留制导布局和偏离其外观之间实现了卓越的平衡。

A grid of images showing the source image and seven comparison outputs across different models. The PnP DFs outperform the others. — *图 2 :将该模型与 P2P 、 DiffuseIT 、具有三种不同噪声水平的 SDedit 以及 VQ + CLIP 模型进行比较的示例结果* *（资料来源： Tumanyan 、 Narek 等人/CVPR 2023 年*)

然而，该模型确实存在局限性。当编辑具有任意颜色的图像部分时，它不能很好地执行，因为模型不能从输入图像中提取语义信息。

研究人员目前正致力于将这种方法扩展到文本引导的视频编辑中。这项工作也被证明对其他利用扩散模型中图像内部表示分析能力的研究有价值。

例如，一项研究利用团队的研究见解来改进计算机视觉任务，如语义点对应。另一个重点是扩大文本到图像生成控制，包括对象的形状、位置和外观。

来自魏茨曼科学研究所的研究小组将在CVPR 2023上发表这项作品，该作品也在GitHub上开源。

想要了解更多关于团队的信息，请访问项目页面。
阅读研究报告 Plug-and-Play Diffusion Features for Text-Driven Image-to-Image Translation。
观看 NVIDIA 研究在 CVPR 2023 上实现的人工智能突破。

生成人工智能研究为创作者提供引导式图像结构控制

Tags

关于作者

生成人工智能研究为创作者提供引导式图像结构控制

Tags

关于作者

Related posts

使用 GPU 加速的 nvImageCodec 推进医学影像解码

借助生成式 AI 和细胞成像的新模型打破医疗健康领域的障碍

使用 NVIDIA GPU 和 VMAF-CUDA 计算视频质量

cuTENSOR 2.0：用于加速张量计算的全面指南

cuTENSOR 2.0：应用程序和性能