无需任何 3D 数据,直接文本生成高质量 3D 内容,清华朱军团队带来重大进展,将带来哪些影响?
清华大学 TSAIL 团队最新提出的文生 3D 新算法 ProlificDreamer,在无需任何 3D 数据的前提下能够生成超高质量的 3D 内容。ProlificDreamer 算法为文生 3D 范围带来重大进展。操作 ProlificDreamer,输入文本 “一个菠萝”,就能生成非常传神且高清的 3D 菠萝:
给出稍微难一些的文本,比如 “一只米开朗琪罗风格狗的雕塑,正在用手机读新闻”,ProlificDreamer 的生成也不在话下:
将 Imagen 生成的照片(下图静态图)和 ProlificDreamer(基于 Stable-Diffusion)生成的 3D(下图动态图)进行对比。有网友感慨:短短一年时间,高质量的生成已经能够从 2D 图像范围扩展到 3D 范围了!
A blue jay standing on a large basket of rainbow macarons
这一切都来源于清华大学计算机系朱军传授带领的 TSAIL 团队近期公开的一篇论文《ProlificDreamer: High-Fidelity and Diverse Text-to-3D Generation with Variational Score Distillation》:
论文链接:https://arxiv.org/abs/2305.16213
项目主页:https://ml.cs.tsinghua.edu.cn/prolificdreamer/
在数字创作和虚拟现实等范围,从文本到三维模型(Text-to-3D)的技术具有重要的价值和广泛的应用潜力。这种技术可以从简单的文本描述中生成具体的 3D 模型,为设计师、游戏开发者和数字艺术家提供强大的东西。
然而,为了按照文本生成准确的 3D 模型,传统方式需要大量的标识表记标帜 3D 模型数据集。这些数据集需要包含多种分歧类型和风格的 3D 模型,而且每个模型都需要与相应的文本描述相关联。创建这样的数据集需要大量的时间和人力资源,目前还没有现成的大规模数据集可供使用。
由谷歌提出的 DreamFusion 操作预训练的 2D 文本到图像扩散模型,初度在无需 3D 数据的情况下完成开放域的文本到 3D 的合成。但是 DreamFusion 提出的 Score Distillation Sampling (SDS) 算法生成成果面临严重的过饱和、过平滑、缺少细节等问题。高质量 3D 内容生成目前仍然长短常困难的前沿问题之一。
ProlificDreamer 论文提出了 Variational Score Distillation(VSD)算法,从贝叶斯建模和变分揣度(variational inference)的角度从头形式化了 text-to-3D 问题。具体而言,VSD 把 3D 参数建模为一个概率分布,并优化其衬着的二维图片的分布和预训练 2D 扩散模型的分布间的距离。可以证明,VSD 算法中的 3D 参数近似了从 3D 分布中采样的过程,解决了 DreamFusion 所提 SDS 算法的过饱和、过平滑、缺少多样性等问题。此外,SDS 往往需要很大的监督权重(CFG=100),而 VSD 是首个可以用正常 CFG(=7.5)的算法。 谢谢大家对我们工作的关注!
自我介绍一下:我是清华计算机系TSAIL组直博4年级的路橙,最近几年一直在研究diffusion model相关的理论与算法,也是ProlificDreamer的共同一作(主要是共同一作王征翊 @王征翊 带我飞。王征翊是我们组博士二年级的学生,能力非常强,我狠狠抱大腿)。在做3D之前,我研究了很多diffusion model本身的训练理论、采样算法及在强化学习的应用等,其中最自豪的是DPM-Solver(Neurips 2022 Oral),可以在无需额外训练的前提下10到25步获得高质量的采样,目前也是stable-diffusion在huggingface下官方demo的默认采样算法(基于我为Diffusers库实现的DPMSolverMultistepScheduler);在stable-diffusion-webui中,所有“DPM”开头的算法都是基于我提的DPM-Solver和DPM-Solver++,其中大家用的最多的应该是"DPM++2M Karras",即2阶、multistep版本、基于Karras提出的timestep spacing的DPM-Solver++。欢迎大家在使用stable-diffusion的时候尝试DPM-Solver!
在这个回答中,我将从以下几点介绍和澄清一些关于我们工作的理解:我们研究什么问题、我们做了什么以及为什么能达到这个效果、我们有哪些限制、未来有哪些可能的研究方向、离商业落地有多大距离。
1. ProlificDreamer针对的问题
2022年,基于diffusion model和多模态数据,text-to-image(即所谓的“AI作画”)突然变成了现实。其中,开源的stable-diffusion为整个领域都带来了巨大的影响,其后续的改进(包括LoRA、controlnet等)都极大地推动了AI作画的发展。除了AI技术本身的进步以外,这背后的成功同样离不开海量的互联网文本-图像数据。然而,与图像不同,3D数据的收集是一件非常昂贵的事情,这直接导致了目前3D生成很难将已有的2D方法直接迁移过来。因此,这个领域的一大研究热点就是:如何在不需要3D数据的前提下生成逼真的3D物体(如NeRF或Mesh)?
去年,由Google提出的Dreamfusion (Score Distillation Sampling, SDS)和TTI-Chicago的研究者们提出的Score Jacobian Chaining (SJC)发现,可以仅仅基于2D的预训练diffusion model(例如,stable-diffusion)的先验知识来优化出一个3D物体!从直观上理解,其实是因为2D的diffusion model其实见过了海量的图片,已经有了潜在的能力来生成不同视角下的2D图片,我们要做的就是挖掘它的能力:不断去优化一个3D物体,使得这个物体在不同视角的投影都和这个2D diffusion model能匹配。当然,这个匹配是通过数学算法来保证的,这里就不赘述了。这样的好处是,我们可以不需要任何3D数据,仅仅利用一个预训练好的2D diffusion model就可以生成3D数据了。
然而,这一领域目前最大的问题是优化出的3D物体的视觉效果远远低于原始2D diffusion model采样得到的图片,这也是之前这一领域不温不火的主要原因。
2. ProlificDreamer的原理
之前很多研究都在研究3D物体的表示(representation),即如何设计好的3D的算法。然而,大家针对diffusion model的优化算法仍然停留在上面提到的SDS/SJC,这方面优化算法其实还是有很大的改进空间。我们组之前一直有做贝叶斯推断相关的采样算法,我们其实是把传统贝叶斯推断里的方法搬到了diffusion model领域,即论文里提出的称为Variational Score Distillation(VSD)的算法。这其中实现细节我也不赘述了,感兴趣的同学可以参考我做的一个PPT,放在了项目主页:ProlificDreamer: High-Fidelity and Diverse Text-to-3D Generation with Variational Score Distillation 。
直观来理解,以前SDS/SJC其实是“mode-seeking”,即针对单个物体进行优化;而我们的算法VSD其实是“sampling”,即近似地获得3D分布的一个采样。正因为我们更像采样,所以我们获得的物体的质量也很像2D stable-diffusion本身的采样质量,我们也可以用2D上常用的CFG(7.5)。
此外,我们也提出了很多其它的3D实现上的改进,进一步提高了最终的优化结果的质量。我们在论文中也对这些技术做了ablation study,发现它们确实可以一步一步地改进最终结果的质量。
3. ProlificDreamer的局限
相信大家对我们工作的关注主要是因为我们展示的结果。说实话,在我第一次看到这些结果时我自己内心也被深深地震撼到了(也被合作者们的强大深深震撼到了),因为之前从没有这样的采样质量。尽管如此,我仍然想强调,我们的工作只是这一研究领域发展路上的一小步,仍然有非常多的局限:
[*]我们优化的时间仍然远远慢于传统2D图片生成的速度。
一般而言,使用stable-diffusion生成一张图片在PC上只需要几秒钟,哪怕微调LoRA也很快;然而,我们生成一个3D物体需要数个小时,尤其是分辨率越高越慢。这主要是因为我们本质上还是借助于随机梯度下降来优化3D表示(NeRF或Mesh)的参数,这样的优化过程需要很多步的迭代,并且对GPU的显存也有一定要求。我们最终展示的效果是512分辨率的结果,这些结果的优化确实非常耗时,所以目前个人使用者还是很难在PC上直接使用我们的算法。
2. 我们优化的成功率极大地受限于2D预训练diffusion model的能力。
这一点其实非常好理解,因为我们所有的信息都来自于预训练的diffusion model。如果这个diffusion model本身在text-to-image时就很难理解输入的text prompt,那它生成3D的成功率也就非常低。我们目前用的是开源的stable-diffusion v2.1,这个模型对text的理解能力确实有很大的局限性,这也导致我们优化的成功率与所有基于stable-diffusion复现的3D生成的baseline都差不太多(不过我们的优势是,一旦能理解这个prompt,成功优化后得到的细节效果非常逼真)。此外,我们也会遇到和baseline一样的“multi-face”的问题,这也是2D生成3D的一大本质问题。我们的算法确实是一种更好的训练算法,但仍然有非常多的open problem没有被解决。
因此,我们优化的上限一定会受限于这个2D diffusion model的上限。我最近经常幻想,如果手头有一个开源的MidJourney那样的diffusion model,我们的算法的表现该会如何,又能为科技发展带来怎样的变化。
3. 我们对3D representation的研究非常初步。
我们目前主要的提升还是来自于优化算法(VSD),没有太多地研究3D representation本身,这方面的技术大多还是来自于baseline。事实上,我们3D部分非常多地借助了前人的优秀工作,包括Dreamfusion, Magic3D, Fantasia3d。我相信借助3D领域的很多最新技术,马上就会有更多效果比我们更惊艳的算法和结果出来。我也非常期待和领域内的其他研究者一起共同努力,一起推动人类科技的进步。
4. 未来可能的研究方向
对于一个3D行业的研究者而言,其实能研究的太多了(比如把之前所有基于SDS/SJC的论文全都换成VSD)。此外,VSD的质量提升其实也给很多之前无法想象的下游任务有了可能性,可以探索的方向非常多,与产业的落地结合也有了很多的可能性。我认为这一定是未来一两年内diffusion model领域的研究热点,欢迎大家和我们一起探索!
5. ProlificDreamer离商业落地的距离
我个人目前主要的兴趣还是在于科研与技术探索,其实个人并不太关注商业落地。不过,和几位朋友聊下来,我们目前的共识是,这一系列的技术为商业落地打开了一扇可能性的门,但离商业落地仍然还有不少的距离。这主要体现在:
1. 生成速度慢、生成成功率受限。(见上文)
2. 生成的3D物体很难直接被3D建模师直接使用,修改难度大。
这主要是因为生成的mesh和布线都是神经网络优化出来的,完全不符合3D建模师的建模逻辑和操作方式,修改难度极大。因此,这一领域并不像AI作画那样可以直接拿去PS精修,离提高3D建模师的生产力都有一定的距离,更别说取代3D建模师了。因此,我觉得大家目前不要过分担心“又要被AI取代了”。
3. 生成的3D物体也很难直接用在游戏或虚拟现实中。
哪怕未来有一天生成的质量非常高了,它仍然难以用在实际落地中。这是因为生成的mesh的三角面片数量可能会非常多,放在游戏引擎里可能直接导致风扇转满甚至GPU带不动。
6. 后续
我们目前正在努力整理代码,后面会放出我们的代码。
此外,我目前主要重心还是在研究上,暂时不会见投资人。推动技术的进步比快速赚一些钱更重要 : )
参考文献
Lu, C., Zhou, Y., Bao, F., Chen, J., Li, C., & Zhu, J. (2022). Dpm-solver: A fast ode solver for diffusion probabilistic model sampling in around 10 steps.arXiv preprint arXiv:2206.00927.
Lu, C., Zhou, Y., Bao, F., Chen, J., Li, C., & Zhu, J. (2022). Dpm-solver++: Fast solver for guided sampling of diffusion probabilistic models.arXiv preprint arXiv:2211.01095.
Poole, B., Jain, A., Barron, J. T., & Mildenhall, B. (2022). Dreamfusion: Text-to-3d using 2d diffusion.arXiv preprint arXiv:2209.14988.
Wang, H., Du, X., Li, J., Yeh, R. A., & Shakhnarovich, G. (2023). Score jacobian chaining: Lifting pretrained 2d diffusion models for 3d generation. InProceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition(pp. 12619-12629).
Lin, C. H., Gao, J., Tang, L., Takikawa, T., Zeng, X., Huang, X., ... & Lin, T. Y. (2023). Magic3d: High-resolution text-to-3d content creation. InProceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition(pp. 300-309).
Chen, R., Chen, Y., Jiao, N., & Jia, K. (2023). Fantasia3d: Disentangling geometry and appearance for high-quality text-to-3d content creation.arXiv preprint arXiv:2303.13873. 现在其实已经有不少文字生成3d内容的生成器了,比如Spline AI,比如Masterpiece Studio(使用先进的自然语言处理 (NLP) 技术将用户的说明文本转换为真实的3D模型),再比如Meshcapade。一般原理都是从用户那里获取基于文本的提示或者利用自然语言处理技术将用户的输入文本解释为3D物体和动画。
但这些基本都是国外的产品,国内基本是一片空白,而如今,清华大学 TSAIL 团队最新提出的文生 3D 新算法 ProlificDreamer算是打破了这片空白。
我看了一下,从用户输入提示的角度来看,ProlificDreamer已经支持给生成内容进行定语和状语上的描述了,比如“一只米开朗琪罗风格狗的雕塑,正在用手机读新闻”:
这已经属于一个“能用”的范畴了。
有一说一,这个是真能直接影响到好几个行业的变革,比对话即文字生成文字的影响要更直接。
创建专业的 3D 内容需要很高的艺术与审美素养和大量 3D 建模专业知识,人工完成这项工作需要花费大量时间和精力来培养这些技能。但其实,除了极少数建模工作,有大量的建模工作属于重复性工作,对于从业者来说,技术要求不高,但麻烦就就麻烦在重复上。
而现在AI是在替代这部分重复工作上,已经到了“能用”的水平,或许以后会满满发展成“好用”,但对于一些要求不那么高的工作或许后续会投入人力去优化的工作上,现在这部分AI已经可以用了。
另外有意思的是,现在各大企业都猛冲AI的时代,国内3d生成内容领域的一大步是由高校团队研究出来的,这点还让我觉得挺开心的,至少能说明在我国高校里,还是有老师有团队在关注着前沿科技的发展并投身进去。
对了,论文有两位共同一作,一位是清华大学在读的二年级博士生王征翊,另一位共同一作是清华大学在读的四年级博士生路橙。只能说论文一作都是挂导师的我狠狠羡慕了。 看了一下 Github,代码还没传上去:
https://github.com/thu-ml/prolificdreamer
不过在另一个项目下找到了实现,其中包含了 ProlificDreamer,但只是复现论文,不算是官方的代码:
https://github.com/threestudio-project/threestudio
技术上的解读等放出代码或者大佬们复现讲解吧。
AI 生成的内容已经从文字、图片,扩展到了视频甚至 3D 模型,应该说,最近两年的进展是非常令人吃惊的。3D 模型的应用范围其实非常广泛,但是相较于文、图,其建模、运算需要的资源性能显然更多。但我们人类接触到、体验到的世界是真实的 3D 世界,相比于 2D 平面,3D 能带来更多的体验感和信息量。很简单的例子,高中上学的时候,比较头疼的就是地理的地球和化学、生物的分子模型结构,这些都是 2D 纸面上不能提供足够信息量的类型。
如果能够通过 AI 降低生成 3D 模型的成本,或者优化生成、修改 3D 模型的生成效率,会对工业设计、游戏开发、艺术创作、建筑建模带来很大的帮助。在过去需要专业人员、专业设备完成的工作,在 AI 的帮助下有可能自行完成。3D 模型的确是能让我们更容易地理解、获取一些信息的。
至于这篇论文的工作本身,已经比 DreamFusion 呈现出的效果好很多了。虽然距离真正能应用也还有距离,但有 Stable Diffusion 等模型的成功案例在前,借助开源社区和用户的力量,想来也能加速相关研究的进展。 传统 AI 文本生成3D模型的技术,需要依赖海量经过NLP标记、对应后的3D模型数据集,反复穷举。
想要创建这样的3D模型数据集,难比登天。不仅要耗费大量时间,还要耗费巨额的人力成本。
正是因为这样的制约,导致 AI 圈迄今还没有成规模的3D大数据集。但是,ProlificDreamer算法的出现,将彻底改变这一局面。
ProlificDreamer算法,利用了贝叶斯建模和变分推断的原理,重新形式化了文本到3D的问题。
具体而言,ProlificDreamer算法会将3D参数建模为一个概率分布,通过优化、渲染二维图片分布和预训练2D扩散模型分布之间的距离,来生成高质量的3D内容。
与之前的算法相比,ProlificDreamer算法,解决了3D建模,过饱和、过平滑、缺少细节和多样性等问题,
这一重大进展,极大地简化了3D内容生成,将为 AI 的3D生成,带来深远影响。
比如:
在游戏开发领域,文本到3D的技术,就会为游戏设计师带来巨大便利。
通过ProlificDreamer算法,游戏设计师只需要提供简单的文本描述,就能够生成高质量、逼真的3D模型。必将极大减少开发周期和开发成本。
在数字创作领域,文本到3D的技术,也会为设计师、艺术家、创作者提供更加便捷和直观的创作方式。以往繁琐的手工建模和纹理处理流程,都可以通过简单的文本描述来实现。指数级提高了创作效率、创意表达。
设计师、艺术家和创作者,均可以通过输入文本描述,来快速生成、修改、优化3D模型,加快创作速度、优化创作流程。
综上,ProlificDreamer算法,将逐步实现根据文本描述,创建3D模型的 AI 生成。 文本生成 3D 图像的应用场景包括建筑、室内设计,雕塑,以及游戏等领域。这之前,制作 3D 模型需要相当多的行业特定软件和专业工具,例如 3ds Max、Autodesk Maya 和 Blender。
今年文本生成 3D 数据的工作还挺多,这一轮热潮应该始于Google 2022年的工作——DreamFusion(DreamFusion: Text-to-3D using 2D Diffusion (dreamfusion3d.github.io)。
然后 OpenAI 此前也推出了Shap-E模型,用于允许用户输入文本提示创建 3D 模型。
An airplane that looks like a banana. OpenAI
最近英伟达团队在 CVPR 2023的一篇文章中提出了 Magic3D(Magic3D: High-Resolution Text-to-3D Content Creation ) 用于高分辨率的3d图像生成。
这次清华团队的工作ProlificDreamer提出了一种新的文本到3D图像的生成方法。大概看了一眼文章,ProlificDreamer 的关键部分是 Variational Score Distillation(VSD)算法,这是一种变分的score蒸馏方法,VSD将3D参数视为随机变量,而不是像传统的score蒸馏采样(Score Distillation Sampling,SDS)算法所采用的视为常数的方案。解决了文本到3D生成中的过度饱和、过度平滑和低多样性问题。此外,ProlificDreamer还对文本到3D图像的设计空间进行了改进。
以下是对VSD算法的理解,不知道是不是完全准确。VSD算法将给定的文本prompt 所对应的3D场景视为随机变量,而不是像SDS那样视为单一点。VSD优化3D场景的分布,使得从所有视图渲染的图像的分布尽可能接近预训练的2D扩散模型定义的分布。然后,通过Wasserstein方法推导出 particles 的梯度更新规则,并证明了优化收敛时,particles 将是符合所期望的分布的样本。可以把 SDS 看作是 VSD 的一个特例,通过使用单点Dirac分布作为变分分布,这种思路也解释了为什么对于SDS生成的3D场景,其多样性和保真度会受到很大程度的限制。
页:
[1]