【AIGC-3D模型生成系列-文章2】基于单张图片生成高质量3D模型：Make-it-3D

wuhanyibiao · 发表于 2023-7-19 13:26:17

一句话总结：提供了一种两阶段优化方案：一阶段基于输入图片，通过神经辐射场及扩散模型，生成全新其他视角的图像。二阶段将粗模转化成含有精细纹理点云模型，同时解决噪声点云的引入问题。

上一次更新3D模型生成的文章还在上一次：shape-E。转眼间沧海桑田：
曾天真：【AIGC-3D模型生成系列-文章1】Shap-E
整体道理：

【Stage 1】 :Coarse Stage: Singleview 3D Reconstruction

首先我们通过神经辐射场NERF，基于一张图片及构建一个粗模。二优化方案需要同时满足以下几个条件：
1.构建的3D表达需要与输入的图像严格相似。
2.生成的其他视角的图像需要有相似度和必然的一致性。
3.生成的3D模型需要符合基本的几何学道理。
基于满足以上条件的基础上，文章基于输入参考图，随机采样相机位置，而且强化了参考图和新生成衬着图片的约束。
【1.1】像素级别一致性函数：

为了保证与输入图像的一致性，构建了基于衬着图片与输入图片像素维度一致性的损掉函数：
L_{ref}=||x\odot m- G_\theta (B_{ref})||_1
【1.2】扩散模型法式：

基于以上损掉函数优化仍然会有一个问题，像素级此外优化存在着极大的不不变性，且容易呈现不符合逻辑的最终成果。这时候就需要扩散模型来出手解决。之前解决文本创作3D模型的损掉函数 L_{SDS} ：

然而如前所述，SDS损掉函数衡量的是输入图像和文本之间的差异。尽管 L_{SDS} 的文本理解能力很超卓，但是在图像表征层面就不尽如人意。因此通过引入基于CLIP的损掉函数来解决这一问题：
L_{CLIP-D}(X,G_\theta(\beta)) = - \epsilon_{CLIP}(X) \cdot \epsilon_{CLIP}( {\bar X_0(\beta,t))}
此中CLIP是CLIP图像编码。分歧于直接衡量CLIP 损掉，本文使用了将衬着图片加噪声后恢复的扩散模型流程。而之后通过衡量从头生成后的图片与参考图片的差异损掉，类似于从高质量扩散模型中生成一个采样图片。
从细节上来看，不会同时优化 L_{CLIP-D} 和 L_{SDS} 。凡是来说，在小的timestep中使用 L_{CLIP-D} ，而在大的timestep中使用 L_{SDS} 。

【1.3】深度优先 (Depth prior) ：

上述方案更多解决了2D层面的问题，但是在3D模型上仍然会呈现诸如模糊，概况凹陷，过于平整等几何层面的问题。通过引入深度图信息来缓解以上问题：

整体训练法式：

整合上述四种损掉函数： L_{ref} L_{sds} L_{CLIP-D} L_{depth} 进行训练，基本完成了粗模部门的训练构建。
【stage 2】Refine Stage: Neural Texture Enhancement

细粒度模型优化部门：一方面进行的是细粒度的纹理增强，另一方面针对一阶段粗模的点云提供更干净、更直接的投影。
【2.1】带细节纹理的点云构建（深度&mask引入）：

传统的基于NERF的构建点云方案：首先通过衬着多视角的RGBD图片之后，然后将这些带纹理点映射到3D空间中。然而这种方案的明显缺陷是会将噪声点云引入，尤其会在分歧视角的异常点处呈现：一个3D点云在NERF衬着时分歧视角可能是分歧的RGB值。因此引入深度Depth和alpha mask：

【2.2】延迟点云衬着：

到目前为止，我们已经获取了一系列的点云数据，尽管他们已经有了参考书图片的高保真的纹理图像。但是其他被阻隔在参考图像之外的点云仍然是基于NERF的粗模出的平滑纹理。为了解决这方面的纹理细节，文章优化了其他点的纹理，并用扩散先验约束新的视图衬着。解决噪声点引入的问题，使用了多尺度延迟点云衬着方案：
当我们给定一个全新的视角B：首先我们将点云V 光栅化K次，从而获得K个分歧尺寸的特征图： [W/2^{i},H/2^{i}] ，而这些特征图可以被组合起来，基于Unet布局衬着成一张图：

此中S是可微点光栅化模块。同时插手了正则化项目，该项用于优化纹理和初始纹理之间的差异。
【3】尝试部门：

预告：

下一篇3D：ProlificDreamer。

【4】写在最后，欢迎插手讨论组交流：

对AIGC相关应用，算法前沿以及创业/工作感兴趣的同学，可以加微信：Zeng_AIGC，备注：研究标的目的+学校/公司 + 知乎即可拉入交流群。欢迎大师与创业团队，大厂leader以及顶尖名校的算法研究同学共同交流。

对工作的疑惑，标的目的探讨，最新论文复现及交流，创业等都可以在群里提出。

对于AIGC，扩散模型相关应用，算法，实践感兴趣的欢迎存眷我～

		自动登录	找回密码
密码			立即注册

【AIGC-3D模型生成系列-文章2】基于单张图片生成高质量3D模型：Make-it-3D

本帖子中包含更多资源