此次,与点云显式生成模型 Point・E 对比,OpenAI 新推出的条件生成式 3D 模型 Shap-E 建模了高维、多暗示的输出空间,收敛更快,而且达到了相当或更好的样本质量。
生成式 AI 大模型是 OpenAI 发力的重点,目前已经推出过文本生成图像模型 DALL-E 和 DALL-E 2,以及本年初基于文本生成 3D 模型的 POINT-E。
近日,OpenAI 研究团队升级了 3D 生成模型,全新推出了 Shap・E,它是一个用于合成 3D 资产的条件生成式模型。目前相关模型权重、推理代码和样本已开源。
我们先来看一下生成效果。与按照文字生成图像类似,Shap・E 生成的 3D 物体模型主打一个「天马行空」。例如,一个看起来像香蕉的飞机:
看起来像一棵树的椅子:
还有经典例子,像牛油果的椅子:
当然也可以生成一些常见物体的三维模型,例如一碗蔬菜:
甜甜圈:
本文提出的 Shap・E 是一种在 3D 隐式函数空间上的潜扩散模型,可以衬着成 NeRF 和纹理网格。在给定不异的数据集、模型架构和训练计算的情况下,Shap・E 更优于同类显式生成模型。研究者发现纯文本条件模型可以生成多样化、有趣的物体,更彰显了生成隐式表征的潜力。
分歧于 3D 生成模型上发生单一输出暗示的工作,Shap-E 能够直接生成隐式函数的参数。训练 Shap-E 分为两个阶段:首先训练编码器,该编码器将 3D 资产确定性地映射到隐式函数的参数中;其次在编码器的输出上训练条件扩散模型。当在配对 3D 和文本数据的大型数据集长进行训练时, 该模型能够在几秒钟内生成复杂而多样的 3D 资产。与点云显式生成模型 Point・E 对比,Shap-E 建模了高维、多暗示的输出空间,收敛更快,而且达到了相当或更好的样本质量。 研究布景
本文聚焦两种用于 3D 暗示的隐式神经暗示(INR):
NeRF 一个 INR,它将 3D 场景暗示为将坐标和视向映射到密度和 RGB 颜色的函数;
DMTet 及其扩展 GET3D 暗示一个纹理 3D 网格,它作为函数将坐标映射到颜色、符号距离和顶点偏移的。这种 INR 能够以可微的方式构建 3D 三角网格,然后衬着为可微的栅格化库。
虽然 INR 灵活而富有表示力,但为数据集中每个样本获取 INR 的成本昂扬。此外每个 INR 可能有许大都值参数,在训练下游生成模型时可能会带来难题。通过使用带有隐式解码器的自动编码器来解决这些问题,可以获得较小的潜在暗示,它们直接用现有生成技术进行建模。此外还有一种替代方式,就是使用元学习创建一个共享大部门参数的 INR 数据集,然后在这些 INR 的自由参数上训练扩散模型或归一化流。也有人提出,基于梯度的元学习可能并不必要,相反映该直接训练 Transformer 编码器,发生以 3D 对象多个视图为条件的 NeRF 参数。
研究者将上述几种方式结合并拓展,最终得到了 Shap・E,并成为用于各种复杂 3D 隐式暗示的条件生成模型。首先通过训练基于 Transformer 的编码器来为 3D 资发生成 INR 参数,然后在编码器的输出上训练扩散模型。与先前的方式分歧,生成同时暗示 NeRF 和网格的 INR,允许它们以多种方式衬着或导入下游 3D 应用。
当在数百万个 3D 资产的数据集上训练时,本文模型能够在文本 prompt 的条件下发生多种可识此外样本。与比来提出的显式 3D 生成模型 Point・E 对比,Shap-E 收敛得更快。在不异的模型架构、数据集和条件感化机制的情况下,它能获得相当或更好的成果。 方式概览
研究者首先训练编码器发生隐式暗示,然后在编码器发生的潜在暗示上训练扩散模型,主要分为以下两步完成:
1. 训练一个编码器,在给定已知 3D 资产的密集显式暗示的情况下,发生隐式函数的参数。编码器发生 3D 资产的潜在暗示后线性投影,以获得多层感知器(MLP)的权重;2. 将编码器应用于数据集,然后在潜在数据集上训练扩散先验。该模型以图像或文本描述为条件。
研究者在一个大型的 3D 资产数据集上使用相应的衬着、点云和文本标题训练所有模型。 3D 编码器
编码器架构如下图 2 所示。