最近爆火的DragGan背后的技术解释

重点关注10个月前更新 haoqiaiadmin
320 0 0
DragGAN:一种处理生成图像的新方法!

最新的 AI 研究使你能够在几秒钟内点击并拖动图像以进行操作。这就像 Photoshop 的变形工具,但更为强大。你不只是在随意移动像素,而是使用 AI 重新生成底层对象。你甚至可以旋转图像,就像它们是 3D 一样。

🔗

  • 论文:Drag Your GAN: Interactive Point-based Manipulation on the Generative Image Manifold[1]
  • GitHub:XingangPan/DragGAN[2] – 代码将于 6 月发布
  • Blog:New AI research lets you click and drag images to manipulate them in seconds[3]

论文概述

合成符合用户需求的视觉内容通常需要对生成对象的姿势、形状、表情和布局进行灵活而精确的可控性。现有的方法通过手动注释的训练数据或先前的 3D 模型获得生成对抗网络(GANs)的可控性,但这些方法往往缺乏灵活性、精确性和普适性。在这项工作中,我们研究了一种强大但较少被探索的 GAN 控制方式,即以用户交互的方式“拖动”图像中的任意点,精确地到达目标点。为了实现这一目标,我们提出了 DragGAN,它由两个主要组件组成:

  1. 基于特征的运动监督,驱动手柄点向目标位置移动;
  2. 一种新的点跟踪方法,利用判别式生成器特征来持续定位手柄点的位置。

通过 DragGAN,任何人都可以对图像进行变形,精确控制像素的移动位置,从而操纵各种类别的姿势、形状、表情和布局,例如动物、汽车、人物、风景等。由于这些操作是在 GAN 学习的生成图像流形上进行的,它们往往可以产生逼真的输出,即使是在挑战性的场景中,如产生遮挡内容的幻象和形状变形,也能始终保持对象的刚性。定性和定量比较都证明了 DragGAN 在图像处理和点跟踪任务中相对于先前方法的优势。我们还展示了通过 GAN 反演来操作真实图像的示例。

📌 GAN
GAN 是生成对抗网络(Generative Adversarial Networks)的缩写,是深度学习中一种重要的方法。GAN 由两个神经网络组成,分别是生成器(Generator)和判别器(Discriminator)。这两个网络相互对抗,同时也在相互学习,因此得名”对抗”。
在一个典型的 GAN 训练过程中,生成器的目标是生成尽可能真实的假样本,以欺骗判别器,而判别器的目标是识别出这些由生成器生成的假样本。这个过程类似于警察与伪钞制作者的博弈:伪钞制作者尽可能地制造真实的伪钞,而警察则尽可能地去识别这些伪钞。
这个对抗过程会导致生成器生成的样本越来越逼真,判别器对真假样本的判别能力也越来越强。这种模型已经在很多领域取得了成功,包括图像生成、超分辨率、图像修复等。

AI 工具操纵图像的能力还在不断增长。虽然最新例子还只是一篇研究论文,但令人印象深刻,它让用户只需简单地拖动图片的元素就可以改变它们的外观。你不仅可以通过简单的点击和拖动来改变汽车的尺寸,或者把微笑变为皱眉,你还可以像旋转一个 3D 模型那样旋转图片的主题——例如,改变某人面对的方向。甚至通过几次点击来调整湖面的反射和山脉的高度。,时长07:54它真正有趣的地方并不在于图像处理本身,而是用户界面。我们已经能够使用像生成对抗网络(GANs)这样的 AI 工具生成逼真的图像一段时间了,但大多数方法缺乏灵活性和精确性。你可以要求一个 AI 图像生成器“制作一张狮子在大草原上潜行的图片”,你会得到一张照片,但是得到的图片可能不是你想要或需要的确切姿势。

DragGAN 模型提供了一个明确的解决方案。界面与传统图像变形的方法完全相同,但与简单地模糊和涂抹现有像素不同,该模型会重新生成对象。正如研究人员所写:“我们的方法可以产生遮挡内容的幻象,比如狮子嘴里的牙齿,也可以根据对象的刚性变形,比如马腿的弯曲。”

它只是一个演示,目前无法完全评估该技术的实际效果,但它为更容易处理图像增加了一个可能性。

References

  • Drag Your GAN: Interactive Point-based Manipulation on the Generative Image Manifold: https://arxiv.org/abs/2305.10973[2]
  • XingangPan/DragGAN: https://github.com/XingangPan/DragGAN[3]
  • New AI research lets you click and drag images to manipulate them in seconds: https://www.theverge.com/2023/5/19/23729633/ai-research-draggan-manipulate-images-click-and-drag
© 版权声明

相关文章

暂无评论

暂无评论...