最近爆火的DragGan背后的技术解释

320 0 0

DragGAN：一种处理生成图像的新方法！

最新的 AI 研究使你能够在几秒钟内点击并拖动图像以进行操作。这就像 Photoshop 的变形工具，但更为强大。你不只是在随意移动像素，而是使用 AI 重新生成底层对象。你甚至可以旋转图像，就像它们是 3D 一样。

DragGAN：一种处理生成图像的新方法

🔗

论文：Drag Your GAN: Interactive Point-based Manipulation on the Generative Image Manifold^[1]

GitHub：XingangPan/DragGAN^[2] – 代码将于 6 月发布

Blog：New AI research lets you click and drag images to manipulate them in seconds^[3]

论文概述

合成符合用户需求的视觉内容通常需要对生成对象的姿势、形状、表情和布局进行灵活而精确的可控性。现有的方法通过手动注释的训练数据或先前的 3D 模型获得生成对抗网络（GANs）的可控性，但这些方法往往缺乏灵活性、精确性和普适性。在这项工作中，我们研究了一种强大但较少被探索的 GAN 控制方式，即以用户交互的方式“拖动”图像中的任意点，精确地到达目标点。为了实现这一目标，我们提出了 DragGAN，它由两个主要组件组成：

基于特征的运动监督，驱动手柄点向目标位置移动；

一种新的点跟踪方法，利用判别式生成器特征来持续定位手柄点的位置。

通过 DragGAN，任何人都可以对图像进行变形，精确控制像素的移动位置，从而操纵各种类别的姿势、形状、表情和布局，例如动物、汽车、人物、风景等。由于这些操作是在 GAN 学习的生成图像流形上进行的，它们往往可以产生逼真的输出，即使是在挑战性的场景中，如产生遮挡内容的幻象和形状变形，也能始终保持对象的刚性。定性和定量比较都证明了 DragGAN 在图像处理和点跟踪任务中相对于先前方法的优势。我们还展示了通过 GAN 反演来操作真实图像的示例。

📌 GAN
GAN 是生成对抗网络（Generative Adversarial Networks）的缩写，是深度学习中一种重要的方法。GAN 由两个神经网络组成，分别是生成器（Generator）和判别器（Discriminator）。这两个网络相互对抗，同时也在相互学习，因此得名”对抗”。
在一个典型的 GAN 训练过程中，生成器的目标是生成尽可能真实的假样本，以欺骗判别器，而判别器的目标是识别出这些由生成器生成的假样本。这个过程类似于警察与伪钞制作者的博弈：伪钞制作者尽可能地制造真实的伪钞，而警察则尽可能地去识别这些伪钞。
这个对抗过程会导致生成器生成的样本越来越逼真，判别器对真假样本的判别能力也越来越强。这种模型已经在很多领域取得了成功，包括图像生成、超分辨率、图像修复等。

AI 工具操纵图像的能力还在不断增长。虽然最新例子还只是一篇研究论文，但令人印象深刻，它让用户只需简单地拖动图片的元素就可以改变它们的外观。你不仅可以通过简单的点击和拖动来改变汽车的尺寸，或者把微笑变为皱眉，你还可以像旋转一个 3D 模型那样旋转图片的主题——例如，改变某人面对的方向。甚至通过几次点击来调整湖面的反射和山脉的高度。，时长07:54它真正有趣的地方并不在于图像处理本身，而是用户界面。我们已经能够使用像生成对抗网络（GANs）这样的 AI 工具生成逼真的图像一段时间了，但大多数方法缺乏灵活性和精确性。你可以要求一个 AI 图像生成器“制作一张狮子在大草原上潜行的图片”，你会得到一张照片，但是得到的图片可能不是你想要或需要的确切姿势。

DragGAN 模型提供了一个明确的解决方案。界面与传统图像变形的方法完全相同，但与简单地模糊和涂抹现有像素不同，该模型会重新生成对象。正如研究人员所写：“我们的方法可以产生遮挡内容的幻象，比如狮子嘴里的牙齿，也可以根据对象的刚性变形，比如马腿的弯曲。”

它只是一个演示，目前无法完全评估该技术的实际效果，但它为更容易处理图像增加了一个可能性。

References

Drag Your GAN: Interactive Point-based Manipulation on the Generative Image Manifold: https://arxiv.org/abs/2305.10973[2]
XingangPan/DragGAN: https://github.com/XingangPan/DragGAN[3]
New AI research lets you click and drag images to manipulate them in seconds: https://www.theverge.com/2023/5/19/23729633/ai-research-draggan-manipulate-images-click-and-drag