立即下载 DOCA,开启高性能AI 网络之旅,实现“一站式” 编程
计算机视觉/视频分析

通过文本实现实时图像编辑的快速反演

文本到图像的扩散模型可以根据用户提供的文本提示生成多样化、高保真的图像。这些模型的操作方法是:通过一系列降噪步骤,在用户提供的文本提示符的条件下,从高维空间映射随机样本 z_{T} 。这将导致相应图像 z_{0} 的表示。

这些模型还可用于更复杂的任务,例如图像编辑、学习描绘个性化概念语义数据增强。在这种情况下,图像编辑是指根据文本提示对给定图像进行局部更改的任务,而图像的其他部分保持不变。

所有这些附加任务都涉及一个名为”inversion“的过程:给定图像表征 z_{0} 及其相应的文本提示 p,您会寻找噪声种子 z_{T} ,当输入降噪过程时,该种子会生成重建的图像 z_{0}

最近提出了 Regularized Newton-Raphson Inversion (RNRI),这是一种新的反演技术。RNRI 在快速收敛与出色的准确性、执行时间和内存效率之间取得平衡,首次实现了实时图像编辑,优于现有的反演方法。

求解隐式方程的反演

反转扩散模型需要在可能的种子空间中搜索,以重建给定图像的种子。此搜索可能需要大量计算。

要了解如何高效实现此目标,请首先考虑前向(noising)过程。

从扩散模型中采样可视为求解普通微分方程。降噪扩散隐式模型(Denoising Diffusion Implicit Models)中提供的热门DDIM确定性调度程序通过以下方式对隐噪向量进行降噪:

方程 1

z_{t-1}=\sqrt{\frac{\alpha_{t-1}}{\alpha_{t}}}z_{t} - \sqrt{\alpha_{t-1}} \cdot \Delta \psi(\alpha_{t})\cdot \epsilon_{\theta}(z_{t},t,p) \quad\quad

在此方程式(Equation 1)中,\alpha_t = 1-\beta_t\psi(\alpha) = \sqrt{\frac{1}{\alpha}-1} 和 \Delta \psi(\alpha_t) = \psi(\alpha_t) - \psi(\alpha_{t-1})

DDIM 反演

为导出反转,首先重写第一个等式如下:

方程 2

z_t = \sqrt{\frac{\alpha_t}{\alpha_{t-1}}}z_{t-1} + \sqrt{\alpha_{t}} \cdot \Delta \psi(\alpha_t) \cdot \epsilon_{\theta}(z_{t},t,p)

这给出了 z_{t} 中无法以封闭形式求解的隐式方程。DDIM 反演通过将 z_{t} 替换为 z_{t-1} 来近似该方程。

方程 3

\approx \sqrt{\frac{\alpha_t}{\alpha_{t-1}}}z_{t-1} + \sqrt{\alpha_{t}} \cdot \Delta \psi(\alpha_t) \cdot\epsilon_{\theta}(\boxed{z_{t-1}},t,p)

DDIM 反演是一种快速的方法,但通常是不准确的反演。

定点和梯度下降反演方法

几篇论文使用迭代方法改进了先前的近似值,以近似求解第二个方程。例如,使用固定点迭代直接求解方程是一种广泛应用于数值分析求解隐式函数的方法。有关详细信息,请参阅Effective Real Image Editing with Accelerated Iterative Diffusion Inversion

与之相关的是,可以通过使用梯度下降的高阶项求解更精确的反演方程。有关更多信息,请参阅 On Exact Inversion of DPM-Solvers。

定点迭代和梯度下降方法提供比DDIM更高的准确性,但具有线性收敛率,并且可能需要数秒才能计算。

正则化 Newton-Raphson 反演方法

更快速、更准确的替代方案基于著名的 Newton-Raphson迭代法(NR)。

NR 是一种迭代查找方程系统根的方法。将 NR 朴素地应用于完整隐空间需要求解 z_t = f(z_t)。这一表述不切实际,因为它需要反转高维的 Jacobian 矩阵。

而是定义多变量标量函数 \hat{r}: R^d \rightarrow R

方程 4

\hat{r}(z_t) := ||z_t - f(z_t)||

寻找其根 \hat{r(z_t)}=0。由于 \hat{r(z_t)} 是标量函数,因此 Jacobian 矩阵是一个向量,可以快速计算。

我们可以快速完成方程 4 的求解,但由于方程未得到充分确定,因此无法保证其解能够很好地重建图像。此外,某些根  \hat{r(z_t)} 可能超出扩散模型的分布范围。

为解决此问题,请在 NR 目标中添加正则化项:

方程 5

q(z_{t}|z_{t-1}) := \mathcal{N}(z_{t};\mu_t=\sqrt{1-\beta_{t}}z_{t-1},\Sigma_t=\beta_{t}I)

由于扩散过程中的每个噪声步骤都遵循高斯分布,因此会将其合并为 z_t 值的先验值。将负对数似然添加为正则化惩罚项,从而形成目标:

方程 6

\L(z_t) := ||z_t - f(z_t)|| - \lambda \log q(z_t | z_{t-1})

可以使用自动微分引擎高效计算此函数的 Newton-Raphson 迭代,使用先前扩散时间步长的 z_{t-1} 初始化过程。Regularized Newton Raphson Inversion(RNRI)将在 1–2 次迭代中收敛(对于隐一致性模型,约为 0.5 秒)。

图 2 将 COCO 验证集的重建图像(使用 PSNR 测量)的质量与计算反演所需的时间进行了比较。它显示 RNRI 在 PSNR 或运行时间方面比最近的方法有所改进。为了公平地进行时间比较,所有方法都在单个 NVIDIA A100 GPU 上测量运行时间。黑色虚线表示由 Stable Diffusion VAE 引起的固有失真引起的上限。

Two graphs comparing the performance of different image inversion methods in terms of reconstruction quality (PSNR) and runtime. The left graph shows results for a latent diffusion model, where RNRI achieves high PSNR with significantly faster inversion-reconstruction time compared to other methods. The right graph shows results for a latent consistency model, where RNRI achieves the highest PSNR in less than 0.5 seconds, much faster than the other methods.
图 2. PSNR 与运行时间的反演结果对比。

图 3 提供了 RNRI 与之前最先进的反演方法之间的定性比较。它显示了 RNRI 准确编辑与输入图像具有高保真度的图像,并且很好地遵循目标提示的情况。替代方法可能难以编辑这些图像和提示。基准运行直到它们收敛,而 RNRI 在每个扩散步骤中只运行两次迭代。

例如,在第一行中,RNRI 成功地将披萨转换为一片面包。其他方法要么无法做到这一点,要么错误地修改其他元素。在第三行中,所有方法都难以准确地将香蕉替换为橙子或更改背景。相比之下,RNRI 在保留原始背景的同时准确地编辑对象。

Three comparisons of various text generation models applied to a sequence of images. Each row demonstrates a transformation of an initial image with different inversion approaches.
图 3.RNRI 在保留原始图像结构的同时更自然地编辑图像。

评估 RNRI 结果

在之前的工作完成后,我们使用以下指标来衡量编辑性能:

  • LPIPS 分数量化了结构的保留程度(越低越好)。
  • 基于 CLIP 的分数可量化生成的图像与文本提示符匹配的程度(越高越好)。

值是 100 张 MS-COCO 图像的平均值。图 4 显示,使用 RNRI 编辑可获得更出色的 CLIP 和 LPIPS 分数,从而实现对真实图像的 state-of-the-art 编辑。

Two graphs evaluating different models on text prompt compliance and image structure preservation. The left graph shows that RNRI outperforms other baselines on the Latent Diffusion Model, in terms of CLIP and LPIPS scores. The right graph indicates that RNRI achieves better performance also using the Latent Consistency Model.
图 4.RNRI 达到了更高的 CLIP 和 LPIPS 分数,表明更好地遵循文本提示和更高的结构保留。

最后,图 5 显示了其他实时编辑结果。

结束语

扩散模型中的图像反演对于图像编辑、语义增强和生成罕见概念图像等应用至关重要。当前的方法通常为了提高计算效率而牺牲反演质量,因此需要 significnatly 更多的资源来获得高质量结果。

正则化 Newton-Raphson 反演 (RNRI) 在快速收敛与超高准确性、执行时间和内存效率之间取得了平衡。RNRI 方法在潜在扩散和潜在一致性模型方面优于现有方法,可实现实时图像编辑。

有关更多信息,请参阅完整论文《Regularized Newton Raphson Inversion for Text-to-Image Diffusion Models》(文本到图像扩散模型的正则化 Newton Raphson 反演),您还可以亲自试用 RNRI

 

标签