找回密码
 立即注册
查看: 1086|回复: 15

GAN逆袭归来!清华校友论文引爆AI绘图圈,一秒把大象P转身,Diffusion黯然掉色

[复制链接]

1

主题

1

回帖

17

积分

新手上路

积分
17
发表于 2023-7-12 13:13:09 | 显示全部楼层 |阅读模式
编纂:好困 Aeneas
【新智元导读】GAN要卷土重来了?AI绘图圈被Diffusion模型独领风流的日子,可能要被DragGAN打破了。


5月18日,一颗炸弹在AI绘图圈炸响。
从此,AI可以精准修图了,哪里不准修哪里,AIGC,已然达到了全新的里程碑!


这篇引爆绘图圈的核弹级论文,名为「Drag Your GAN」,由MPII、MIT、宾大、谷歌等机构的学者联合发布。目前已被SIGGRAPH 2023录用。
而且因为太过火爆,这个项目一经发布,网页就经常处于崩溃状态。


项目地址:https://vcai.mpi-inf.mpg.de/projects/DragGAN/
顾名思义,通过DragGAN,就可以任意拖动图像了,无论是对象的形状、布局、姿态、表情、位置、大小,都可以做到精准控制。
只要拖拽动作,确定生成图像的起点和终点,再按照对象的物理布局,用GAN生成在精细尺度上符合逻辑的图像,一张挑不出破绽的图就生成了。


拍的照片表情不好?修!脸型不够瘦?修!脸冲镜头的角度不合错误?修!
(的确就是一个超强版的Photoshop)
轻轻一拖动,就能想把耷拉着的狗耳朵提起来,让狗狗从站着变成趴下,以及让狗狗瞬间张嘴微笑。


此刻,甲方提出「让大象转个身」的要求,终于可以实现了。


所以,泛博修图师的饭碗是要被端了?


从此,我们正式进入「有图无底细」时代。


筹备好,一大波演示来了

这种DragGAN可控图像合成方式,具有广泛的应用场景,只有你想不到,没有它做不到。
Midjourney、Stable Diffusion、Dalle-E等AI绘图东西生成的图像,都可以用DragGAN来微调细节,生成任何想要的效果。
模特的姿势可以随意改变,短裤可以变成九分裤,短袖可以变长袖。
湖边的树可以瞬间长高,湖里的倒影也跟着一起改变。
原图中的太阳没露脸?无所谓,DragGAN会给你造个日出。


猫猫的正脸一下子变侧脸,角度精细可调。


甚至连汽车也能一键「敞篷」。


不得不说,AI绘图圈,真的太卷了。上一个东西还没完全学会呢,下一个革命性产物就又来了。
有了DragGAN的加持,各种AI画图东西的「阿喀琉斯之踵」再也不是弱点。
而且,DragGAN在单颗3090显卡上生成图像,仅仅需要几秒钟。
可以想象,绘图、动画、电影、电视剧等范围,都将迎来大地震。


DragGAN看起来像Photoshop的Warp东西,但它的功能实现了核弹级的增强——它让你不只是在像素周围简单地移动,而是使用AI来从头生成底层对象,甚至还能像3D一样旋转图像。
研究者团队指出,这项工作真正有趣的处所不必然是图像措置本身,而是用户界面。
我们早就能用GAN之类的AI东西来生成传神的图像,但缺乏足够的灵活性和精度,无法得到我们想要的确切姿势。
但DragGAN提供的,绝不是简单地涂抹和糊化现有像素,而是从头生成主体。


正如研究者所写:「你的方式可以发生幻觉,就像狮子嘴里的牙齿一样,而且可以随着物体的刚性而变形,就像马腿的弯曲一样。」
DragGAN的横空出生避世表白,GAN模型开始模型了,或许它会比Diffusion模型(DALLE.2、Stable Diffusion和Midjourney)更具影响力。
此前,Diffusion模型一直在AI绘图范围大受欢迎,但生成式对抗网络GAN也引起了人们广泛的兴趣,Ian Goodfellow2017年提出GAN理论后,三年后它再次复兴。
DragGAN:图像措置新时代
在这项工作中,团队研究了一种强大但还未被充实探索的控制GAN的方式——以交互的方式将图像中任意一点精确「拖动」至方针点。


DragGAN主要包罗以下两个主要组成部门:
1. 基于特征的运动监控,驱动操作点向方针位置移动
2. 一个新的点跟踪方式,操作区分性的GAN特征持续定位操作点的位置
通过DragGAN,任何人都可以对像素进行精确的控制,进而编纂如动物、汽车、人类、风光等多种类此外姿态、形状、表情和布局。
由于这些操作在GAN的学习生成图像流形长进行,因此它们倾向于生成传神的输出,即使在富有挑战性的场景下也是如此,例如被遮挡的内容和变形的图像。
定性和定量的对比表白,DragGAN在图像操作和点跟踪任务中,都明显优于先前的方式。
拖拽编纂

在DragGAN的加持下,用户只需要设置几个操作点(红点),方针点(蓝点),以及可选的暗示可移动区域的mask(亮区)。然后,模型就会自动完成后续的图像生成,
此中,动态监控法式会让操作点(红点)向方针点(蓝点)移动,点追踪法式则通过更新操作点来追踪图像中的对象。此过程会一直持续,直到操作点达到其相应的方针点。


流程
具体来说,团队通过在生成器的特征图上的位移修补损掉来实现动态监控,并在不异的特征空间中通过比来邻搜索进行点追踪。


方式
值得注意的是,用户可以通过添加mask的方式,来控制需要编纂的区域。
可以看到,当狗的头部被mask时,在编纂后的图像中,只有头部发生了移动,而其他区域则并未发生变化。但如果没有mask的话,整个狗的身体也会跟着移动。
这也显示出,基于点的操作凡是有多种可能的解决方案,而GAN会倾向于在其从训练数据中学习的图像流形中找到比来的解决方案。
因此,mask功能可以辅佐减少歧义并保持某些区域固定。


mask的效果
在真实图像的编纂中,团队应用GAN反转将其映射到StyleGAN的潜在空间,然后分袂编纂姿势、头发、形状和表情。




真实图像的措置
到目前为止,团队展示的都是基于「分布内」的编纂,也就是使用训练数据集内的图像来实现编纂。
但DragGAN实际上具有强大的泛化能力,可以创建出超出训练图像分布的图像。比如,一个张得巨大的嘴,以及一个被极限放大的车轮。
在某些情况下,用户可能但愿始终保持图像在训练分布中,并防止这种超出分布的情况发生。实现这一方针的方式可以是对潜在代码 添加额外的正则化,但这并不是本文讨论的重点。


泛化能力
斗劲分析

首先,与UserControllableLT对比,DragGAN能够编纂从输入图像中检测到的特征点,并使其与从方针图像中检测到的特征点相匹配,而且误差很小。
从下图中可以看出,DragGAN正确地张开了照片中人物的嘴,并调整了下巴的形状来匹配方针的脸型,而UserControllableLT未能做到这一点。




脸部特征点编纂
在DragGAN与RAFT、PIPs和无追踪的定性斗劲中,可以看得,DragGAN可以比基线更准确地跟踪操作点,进而能够发生更精确的编纂。


定性斗劲
而在移动操作点(红点)到方针点(蓝点)的任务上,定性斗劲的成果显示,DragGAN在各种数据集上都取得了比UserControllableLT更加自然和优秀的效果。


定性斗劲
如表1所示,在分歧的点数下,DragGAN都明显优于UserControllableLT。而且按照FID的得分,DragGAN还保留了更好的图像质量。
由于具有更强的跟踪能力,DragGAN还实现了比RAFT和PIPs更精确的独霸。正如FID分数所显示的,如果跟踪不准确的话,很可能会造成编纂过度,从而降低图像质量。
虽然UserControllableLT的速度更快,但DragGAN在很大程度上提升了这项任务的上限,在保持相对较快的运行时间的同时,实现了更靠谱的编纂。


定量分析


定量分析
成果讨论

DragGAN是一种基于点的交互式图像编纂方式,该方式操作预训练的GAN来合成图像。此中,这些合成图像不仅精确地遵循了用户的输入,而且还能保持在真实图像的流形上。
此外,与之前的方式对比,团队提出的DragGAN还是一个通用框架,并不依赖于特定范围的建模或辅助网络。
这是通过两个新颖的组件来实现的,它们都是操作GAN的中间特征图的分辩质量,来生成像素精确的图像形变和交互性能:
1. 一个优化潜在代码的方式,逐步将多个操作点移向方针位置
2. 一个点追踪法式,真实地追踪操作点的轨迹
总结来说,全新的DragGAN在基于GAN的编纂方面要优于现有的技术,并为使用生成式先验的强大图像编纂斥地了新的标的目的。
至于未来的工作,团队打算将基于点的编纂扩展到3D生成模型。
模型局限

尽管具有必然的泛化能力,但DragGAN的编纂质量仍受训练数据多样性的影响。
如下图(a)所示,创建一个训练分布外的人体姿势,可能会生成错误的图像
此外,如图(b)(c)所示,在无纹理区域的操作点在追踪时有时会有更多的漂移。


因此,团队建议尽量去选择纹理丰硕的操作点。
作者介绍



Xingang Pan



论文一作Xingang Pan,即将上任南洋理工大学计算机科学与工程学院MMLab@NTU的助理传授(2023年6月)。
目前,他是马克斯·普朗克计算机科学研究所的博士后研究员,由Christian Theobalt传授指导。
在此之前,他于2016年在清华大学获得学士学位,并2021年在香港中文大学多媒体尝试室获得博士学位,导师是汤晓鸥传授。
Lingjie Liu



Lingjie Liu是宾夕法尼亚大学计算机和信息科学系的Aravind K. Joshi助理传授,负责宾大计算机图形尝试室,同时也是通用机器人、自动化、传感和感知(GRASP)尝试室的成员。
在此之前,她是马克斯·普朗克计算机科学研究所的Lise Meitner博士后研究人员。并于2019年在香港大学获得博士学位。
参考资料:
https://vcai.mpi-inf.mpg.de/projects/DragGAN/

本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有账号?立即注册

×
回复

使用道具 举报

0

主题

6

回帖

13

积分

新手上路

积分
13
发表于 2023-7-12 13:13:18 | 显示全部楼层
ai3d时代来临,ps撩了个寂寞,目前1060-1650显卡在绿光最多,蒸馏压缩到1060这里才是最关键,相当变相提升脑容量,省下的可以干其他事情,这才是真ai,一旦到sd1.5硬件水平估计就全面创造新生态了。[赞同]
回复

使用道具 举报

0

主题

2

回帖

0

积分

新手上路

积分
0
发表于 2023-7-12 13:13:41 | 显示全部楼层
以后精通PS将不能作为求职的技能了[捂脸]
回复

使用道具 举报

0

主题

4

回帖

0

积分

新手上路

积分
0
发表于 2023-7-12 13:14:26 | 显示全部楼层
又是*华*人成果,太强啦!
回复

使用道具 举报

0

主题

3

回帖

1

积分

新手上路

积分
1
发表于 2023-7-12 13:14:39 | 显示全部楼层
莫有开源?
回复

使用道具 举报

0

主题

3

回帖

19

积分

新手上路

积分
19
发表于 2023-7-12 13:14:55 | 显示全部楼层
听大佬说,今年6月。
回复

使用道具 举报

0

主题

2

回帖

3

积分

新手上路

积分
3
发表于 2023-7-12 13:15:40 | 显示全部楼层
想现在体验的话可以试试我复现的版本[doge] https://github.com/Zeqiang-Lai/DragGAN
回复

使用道具 举报

0

主题

6

回帖

2

积分

新手上路

积分
2
发表于 2023-7-12 13:16:39 | 显示全部楼层
想现在体验的话可以试试我复现的版本[doge] https://github.com/Zeqiang-Lai/DragGAN
回复

使用道具 举报

0

主题

2

回帖

0

积分

新手上路

积分
0
发表于 2023-7-12 13:17:28 | 显示全部楼层
太感谢了,立即关注。[赞同]
回复

使用道具 举报

0

主题

4

回帖

11

积分

新手上路

积分
11
发表于 2023-7-12 13:18:02 | 显示全部楼层
[酷]
回复

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

Archiver|手机版|小黑屋|T9AI - 深度人工智能平台 ( 沪ICP备2023010006号 )

GMT+8, 2024-11-22 04:52 , Processed in 0.063501 second(s), 19 queries .

Powered by Discuz! X3.5

© 2001-2024 Discuz! Team.

快速回复 返回顶部 返回列表