找回密码
 立即注册
查看: 621|回复: 0

【AIGC-3D模型生成系列-文章2】基于单张图片生成高质量3D模型:Make-it-3D

[复制链接]

1

主题

0

回帖

13

积分

新手上路

积分
13
发表于 2023-7-19 13:26:17 | 显示全部楼层 |阅读模式
一句话总结:提供了一种两阶段优化方案:一阶段基于输入图片,通过神经辐射场及扩散模型,生成全新其他视角的图像。二阶段将粗模转化成含有精细纹理点云模型,同时解决噪声点云的引入问题。



上一次更新3D模型生成的文章还在上一次:shape-E。转眼间沧海桑田:
曾天真:【AIGC-3D模型生成系列-文章1】Shap-E
整体道理:




【Stage 1】 :Coarse Stage: Singleview 3D Reconstruction

首先我们通过神经辐射场NERF,基于一张图片及构建一个粗模。二优化方案需要同时满足以下几个条件:
1.构建的3D表达需要与输入的图像严格相似。
2.生成的其他视角的图像需要有相似度和必然的一致性。
3.生成的3D模型需要符合基本的几何学道理。
基于满足以上条件的基础上,文章基于输入参考图,随机采样相机位置,而且强化了参考图和新生成衬着图片的约束。
【1.1】像素级别一致性函数:

为了保证与输入图像的一致性,构建了基于衬着图片与输入图片像素维度一致性的损掉函数:
L_{ref}=||x\odot m- G_\theta (B_{ref})||_1  
【1.2】扩散模型法式:

基于以上损掉函数优化仍然会有一个问题,像素级此外优化存在着极大的不不变性,且容易呈现不符合逻辑的最终成果。这时候就需要扩散模型来出手解决。之前解决文本创作3D模型的损掉函数 L_{SDS} :


然而如前所述,SDS损掉函数衡量的是输入图像和文本之间的差异。尽管 L_{SDS} 的文本理解能力很超卓,但是在图像表征层面就不尽如人意。因此通过引入基于CLIP的损掉函数来解决这一问题:
L_{CLIP-D}(X,G_\theta(\beta)) = - \epsilon_{CLIP}(X) \cdot \epsilon_{CLIP}( {\bar X_0(\beta,t))}
此中CLIP是CLIP图像编码。分歧于直接衡量CLIP 损掉,本文使用了将衬着图片加噪声后恢复的扩散模型流程。而之后通过衡量从头生成后的图片与参考图片的差异损掉,类似于从高质量扩散模型中生成一个采样图片。
从细节上来看,不会同时优化 L_{CLIP-D} 和 L_{SDS} 。凡是来说,在小的timestep中使用 L_{CLIP-D} ,而在大的timestep中使用 L_{SDS} 。


【1.3】深度优先 (Depth prior) :

上述方案更多解决了2D层面的问题,但是在3D模型上仍然会呈现诸如模糊,概况凹陷,过于平整等几何层面的问题。通过引入深度图信息来缓解以上问题:




整体训练法式:

整合上述四种损掉函数: L_{ref} L_{sds} L_{CLIP-D} L_{depth} 进行训练,基本完成了粗模部门的训练构建。
【stage 2】Refine Stage: Neural Texture Enhancement



细粒度模型优化部门:一方面进行的是细粒度的纹理增强,另一方面针对一阶段粗模的点云提供更干净、更直接的投影。
【2.1】带细节纹理的点云构建(深度&mask引入):

传统的基于NERF的构建点云方案:首先通过衬着多视角的RGBD图片之后,然后将这些带纹理点映射到3D空间中。然而这种方案的明显缺陷是会将噪声点云引入,尤其会在分歧视角的异常点处呈现:一个3D点云在NERF衬着时分歧视角可能是分歧的RGB值。因此引入深度Depth和alpha mask:


【2.2】延迟点云衬着:

到目前为止,我们已经获取了一系列的点云数据,尽管他们已经有了参考书图片的高保真的纹理图像。但是其他被阻隔在参考图像之外的点云仍然是基于NERF的粗模出的平滑纹理。为了解决这方面的纹理细节,文章优化了其他点的纹理,并用扩散先验约束新的视图衬着。解决噪声点引入的问题,使用了多尺度延迟点云衬着方案:
当我们给定一个全新的视角B:首先我们将点云V 光栅化K次,从而获得K个分歧尺寸的特征图: [W/2^{i},H/2^{i}] ,而这些特征图可以被组合起来,基于Unet布局衬着成一张图:


此中S是可微点光栅化模块。同时插手了正则化项目,该项用于优化纹理和初始纹理之间的差异。
【3】尝试部门:



预告:

下一篇3D:ProlificDreamer。

【4】写在最后,欢迎插手讨论组交流:

对AIGC相关应用,算法前沿以及创业/工作感兴趣的同学,可以加微信:Zeng_AIGC,备注:研究标的目的+学校/公司 + 知乎即可 拉入交流群。欢迎大师与创业团队,大厂leader以及顶尖名校的算法研究同学共同交流。

对工作的疑惑,标的目的探讨,最新论文复现及交流,创业等都可以在群里提出。

对于AIGC,扩散模型相关应用,算法,实践感兴趣的欢迎存眷我~

本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有账号?立即注册

×
回复

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

Archiver|手机版|小黑屋|T9AI - 深度人工智能平台 ( 沪ICP备2023010006号 )

GMT+8, 2025-1-5 06:43 , Processed in 0.061740 second(s), 23 queries .

Powered by Discuz! X3.5

© 2001-2024 Discuz! Team.

快速回复 返回顶部 返回列表