最新的 AI 研究使你能够在几秒钟内点击并拖动图像以进行操作。这就像 Photoshop 的变形工具,但更为强大。你不只是在随意移动像素,而是使用 AI 重新生成底层对象。你甚至可以旋转图像,就像它们是 3D 一样。
DragGAN:一种处理生成图像的新方法
🔗
论文:Drag Your GAN: Interactive Point-based Manipulation on the Generative Image Manifold[1]
GitHub:XingangPan/DragGAN[2] – 代码将于 6 月发布
Blog:New AI research lets you click and drag images to manipulate them in seconds[3]
论文概述
合成符合用户需求的视觉内容通常需要对生成对象的姿势、形状、表情和布局进行灵活而精确的可控性。现有的方法通过手动注释的训练数据或先前的 3D 模型获得生成对抗网络(GANs)的可控性,但这些方法往往缺乏灵活性、精确性和普适性。在这项工作中,我们研究了一种强大但较少被探索的 GAN 控制方式,即以用户交互的方式“拖动”图像中的任意点,精确地到达目标点。为了实现这一目标,我们提出了 DragGAN,它由两个主要组件组成:
基于特征的运动监督,驱动手柄点向目标位置移动;
一种新的点跟踪方法,利用判别式生成器特征来持续定位手柄点的位置。
通过 DragGAN,任何人都可以对图像进行变形,精确控制像素的移动位置,从而操纵各种类别的姿势、形状、表情和布局,例如动物、汽车、人物、风景等。由于这些操作是在 GAN 学习的生成图像流形上进行的,它们往往可以产生逼真的输出,即使是在挑战性的场景中,如产生遮挡内容的幻象和形状变形,也能始终保持对象的刚性。定性和定量比较都证明了 DragGAN 在图像处理和点跟踪任务中相对于先前方法的优势。我们还展示了通过 GAN 反演来操作真实图像的示例。
📌 GAN
GAN 是生成对抗网络(Generative Adversarial Networks)的缩写,是深度学习中一种重要的方法。GAN 由两个神经网络组成,分别是生成器(Generator)和判别器(Discriminator)。这两个网络相互对抗,同时也在相互学习,因此得名”对抗”。
在一个典型的 GAN 训练过程中,生成器的目标是生成尽可能真实的假样本,以欺骗判别器,而判别器的目标是识别出这些由生成器生成的假样本。这个过程类似于警察与伪钞制作者的博弈:伪钞制作者尽可能地制造真实的伪钞,而警察则尽可能地去识别这些伪钞。
这个对抗过程会导致生成器生成的样本越来越逼真,判别器对真假样本的判别能力也越来越强。这种模型已经在很多领域取得了成功,包括图像生成、超分辨率、图像修复等。
AI 工具操纵图像的能力还在不断增长。虽然最新例子还只是一篇研究论文,但令人印象深刻,它让用户只需简单地拖动图片的元素就可以改变它们的外观。你不仅可以通过简单的点击和拖动来改变汽车的尺寸,或者把微笑变为皱眉,你还可以像旋转一个 3D 模型那样旋转图片的主题——例如,改变某人面对的方向。甚至通过几次点击来调整湖面的反射和山脉的高度。,时长07:54它真正有趣的地方并不在于图像处理本身,而是用户界面。我们已经能够使用像生成对抗网络(GANs)这样的 AI 工具生成逼真的图像一段时间了,但大多数方法缺乏灵活性和精确性。你可以要求一个 AI 图像生成器“制作一张狮子在大草原上潜行的图片”,你会得到一张照片,但是得到的图片可能不是你想要或需要的确切姿势。
New AI research lets you click and drag images to manipulate them in seconds: https://www.theverge.com/2023/5/19/23729633/ai-research-draggan-manipulate-images-click-and-drag