AIGC 能产出 3D 内容吗？难点在哪里？

独孤九 · 发表于 2023-5-8 10:54:18

喜悦之风 · 发表于 2023-5-8 10:55:12

数据集是3D内容生成很重要的一个方面。
在照相机发明前，人类形象已被记录和呈现在各类艺术创作载体上。从古代的壁画到纸上的水墨画、油画，以及姿态丰富的人体雕塑，再到如今 AIGC 创作出各种各样的虚拟人物，大量的艺术作品同样提供了与人体相关的、丰富多样的视觉数据。
当前计算机视觉任务仅关注现实场景及人物，已有数据集大多缺少虚拟场景（如绘画、雕塑等）下与人相关的图片和标注。然而，现有的计算机视觉任务、训练的数据集等大多只关注到了真实世界的照片，这导致相关模型在更丰富的场景下，常常出现性能下降甚至完全失效的问题。即使是 SOTA 性能的人体检测模型，面对虚拟场景的人体数据时也往往令人大失所望，检测准确率不足 20%。
因此，Human-Art 数据集从艺术出发，提出了首个全场景人体数据集，共包含了 12 个 2D 虚拟场景、3 个 3D 虚拟场景和 5 个现实场景的 5 万张高质量图片，其中共含有超过 12.3 万个人物，每张图片标注了人体框、21 个人体关键点、自接触点以及文本描述信息。
Human-Art 可支持多项人体相关的计算机视觉任务，如全场景人体检测、全场景人体 2D/3D 姿态估计、全场景人体图片生成，我们为各项下游任务提供了基准结果。相信未来将有助于提升各类模型在虚拟场景下训练的性能，也可以为更多研究方向如 out-of-distribution（OOD）问题等提供帮助，为学术界带来更多思考。

你爹在秀逗 · 发表于 2023-5-8 10:55:49

AI 3D Generator 有助于根据文本描述、图像或视频输入创建3D模型。这可用于多种用途，例如创建3D打印模型，或创建现实世界中不存在的物体的三维模型。市场上有许多优秀的3D内容AI生成器，接下来我们将逐一介绍。
文本转3D

Spline AI

人工智能的力量正在走向三维。Spline AI 是一种革命性的AI驱动的文本到3D生成器。用户仅使用基于文本的提示就能创建逼真的3D模型和动画。这项技术彻底改变了3D作品的创建方式，其效率和质量超越了传统的3D建模。Spline AI 的工作原理是从用户那里获取基于文本的提示并将其解释为3D物体和动画。有了这项技术，任何人都可以只用几句话快速生成逼真的3D模型。它所需要的只是描述用户想要创建的内容的提示，其余的由Spline AI完成。例如，当用户输入诸如“带红色前门和三扇窗户的房子”之类的提示时，AI 将创建一个具有这些精确规格的逼真的3D房屋模型。如果用户想要创建一个3D动物，他们可以输入一个提示，例如“带有橙色皮毛和白色条纹的老虎”，AI 将生成完美的图像，而无需进一步的帮助。
优点：

除了创建3D模型，Spline AI 还可以通过基于文本的提示为3D物体生成无缝纹理。无论你是在创造角色、生物还是风景，AI都可以根据你的提示创建无缝纹理。
Spline AI 还具有强大的协作功能，可以更轻松地与队友进行合作。用户可以从任何设备访问AI，允许用户轻松地实时共享和编辑他们的创作。这意味着团队合作更便捷，想法和项目比以往任何时候都能更快地变为现实。

Masterpiece Studio

Masterpiece Studio是世界上第一个文本到3D的AI生成器，它的开发秉承了重新构想3D创作的创意精神。该创新工具允许用户仅用几句话就可以创建3D模型和动画，从而节省了时间和精力。用户无需手动创建整个模型和动画，只需单击一个按钮，即可将他们的文字以3D模型的形式呈现出来。此外，凭借其易于使用的用户界面，Masterpiece Studio AI是当今市场上最易于使用的3D创作工具。
Masterpiece Studio AI使用先进的自然语言处理 (NLP) 技术将用户的说明文本转换为真实的3D模型。例如，输入“吉他”，AI 生成器将根据您的规格创建吉他模型。使用Masterpiece Studio AI，用户无需花费数小时研究所有细节来创建模型，由AI为您完成所有繁重的工作。这意味着用户只需点击几下鼠标，即可在几分钟内完成从概念到生产的过程。
优点：

Masterpiece Studio AI还可以为您的作品生成自定义动画序列。为游戏、3D打印、动画和混合现实等广泛应用批量生产可用于游戏的3D模型。
在创建 3D 模型和动画时，Masterpiece Studio AI是具有创意的完美工具。它简化了以前耗时且复杂的创作过程，让用户可以在几分钟内将他们的想法变为现实。

Meshcapade

Meshcapade是一家创新技术公司，提供先进的平台，用于从文本输入生成高质量的 3D 模型。创建该平台的目的是简化创建3D人物的生成过程，使公司能够专注于他们的核心服务，而不必担心获得合适的3D模型的繁琐和困难。Meshcapade支持在三个平台上创建各种奇幻化身的需求，并与所有游戏引擎和图形软件完全兼容。开发者努力打造一个平台，提供低摩擦、高精度、完全便携的高保真3D模型，让所有用户都可以快速、轻松地创建令人惊叹的3D形象。Meshcapade的三个最大功能：

能够从任何来源的数据中，以适用于所有行业的统一3D身体格式来创建准确的数字替身；
允许您从单个图像生成数字替身，无论姿势或大小如何。这对于需要在电商场景中使用精准3D形象的商家非常有用，让购物体验更加个性化；
获得专利的SMPL人体模型技术。AI只需几次测量即可生成极其精确的人体3D模型。

优点：

Meshcapade可以轻松地将动作和情绪与3D化身相关联。这非常适合需要向客户展示其服装或产品的企业，因为它们的有效性很容易被证明。此外，在Meshcapade平台上创建的所有头像彼此完全兼容，确保公司在使用该平台时拥有一致的体验。
Meshcapade为希望创建3D形象的企业和个人提供无与伦比的准确性和便利性。这使客户能够从高度准确的电子商务模型中受益，并能够创建适合其个人品味的独特身份。

Mochi

过去，为游戏和其他数字项目创建3D物体既缓慢又乏味。现在，得益于文本转3D的AI生成器，游戏开发人员可以节省时间并创建美观的资产。Mochi 是市场上最好的3D生成器之一，它简化了游戏开发的创意工作流程。Mochi 是一款游戏开发助手插件，可自动创建资产并具有强大的文本到图像映射功能，允许用户使用自然语言命令生成 3D模型。它易于使用并扩展了用户的创作自由度。用户无需手动操作3D对象，而是可以使用自然语言指令快速生成3D对象，例如“创建12面挡土的墙模型”。Mochi 快速生成3D模型和图形的能力使得开发过程远比传统方法高效。Mochi能够用几句话创建复杂的对象，并以最小的努力创建时尚实用的3D模型。
优点：

Mochi 不仅仅是创建 3D 模型。它还包括有用的设计工具，例如提高游戏中对象的可见性，使它们更易于导航和探索。 Mochi 还提供了各种自定义快捷方式，可用于进一步简化流程。例如，用户可以输入“+s awesomeness”来快速检索用于即时部署的脚本。所有这些功能都有助于改进开发过程并节省时间。
对于需要快速工作但没有时间手动创建 3D 对象的游戏开发人员来说，Mochi 是一个很棒的工具。当一个对象被选中时，Mochi 能理解相关的许多命令，比如“添加网格碰撞器”或“将材质设置为红色”。这使开发人员可以轻松快速地创建 3D 物体，从而节省开发人员的时间和精力。

Luma AI

Luma AI 是图像转3D生成领域的最新突破，可让用户根据文本输入来创建逼真的 3D 模型。新的 Imagine 功能是革命性的，允许用户在没有 3D 建模或图形编程经验的情况下生成任何可以想象的 3D 模型。虽然实际功能尚未透露，但早期报告表明它是可用的三个最强大的3D模型创建工具之一。Luma AI 不仅仅允许用户从文本创建 3D 模型，还可以从实时视频源创建逼真的 3D 场景。该功能利用 AI 的海量数据处理能力，判断场景中各物体所呈现的3D 效果，并准确呈现最终效果供用户欣赏。这项令人印象深刻的技术允许用户从真实世界的镜头中创建一个完整的数字世界。

优点：

Luma AI 的用户界面非常易于使用。无论是根据文本描述还是视频片段创建 3D 模型，直观的界面都帮助了用户轻松浏览许多可用选项。
Luma AI 是一项真正具有革命性的技术，证明了人工智能在图像转3D生成领域的潜力。凭借其强大的功能集和直观的用户界面，它可能是当今可用的最好的 AI 文本到 3D 生成器。

图像转3D

NeROIC

NeROIC是一种基于 AI 技术的图像转 3D 模型服务。 NeROIC 由一家领先的技术公司创建，有可能彻底改变您思考和使用 3D 模型的方式。通过使用照片来描述用户的想法，NeROIC 可以将照片转换为 3D 模型。不幸的是，目前还没有公开的演示版本，但开发人员和技术爱好者都希望亲身体验该产品。除了将图像转换为 3D 的能力外，NeROIC 还具有从视频创建 3D 场景的强大能力。这意味着只需视频片段，用户就可以创建出一个可以调整、修改和操纵的 3D 场景。这使得创建 3D 场景的过程比以往任何时候都更容易、更高效。

优点：

允许深度定制的图像转 3D 功能和让您即时创建复杂 3D 场景的视频转 3D 功能。
不仅如此，NeROIC 还易于使用，即使对于 3D 模型或虚拟现实经验很少或没有经验的初学者也是如此。

DPT深度估计

基于深度学习的技术引入了训练模型的新方法，这些模型可以生成更准确的3D画面，例如点云和 3D 网格。此外，最受期待的方法之一被称为 DPT 深度估计，这是一种深度卷积网络，旨在捕获图像的深度并使用它来生成 3D物体。DPT 深度估计的工作原理是，获取单个图像并将其输入到使用各种场景和对象的数据训练的深度卷积网络。然后网络使用获得的信息来估计场景的深度并创建用于生成 3D 网格的点云。 DPT 的精度明显高于其他流行的方法，如立体匹配和光度立体，其性能在某些情况下超过人类水平。 DPT 还具有出色的推理时间，使其成为实时 3D 场景重建的理想选择。
DPT 深度估计最令人印象深刻的方面是 DPT 从单个图像生成 3D 网格的能力。首先确定场景的深度，然后参数化对象，创建比任何其他方法都更加详细和准确的网格。此外，DPT 可以推断场景的纹理和颜色，让您创建逼真的 3D 场景。
优点：

DPT 的优势还延伸到其可扩展性。与其他方法相比，DPT 可以很容易地在大型数据集上进行训练，因此即使在更复杂的场景中也能发挥作用。此外，它的准确性使其能够在困难的照明条件和各种形状和大小的物体中有效地工作。
此外，DPT 拥有更高的准确性和可扩展性，以及相对较低的成本。与传统的 3D 重建技术相比，在 DPT 上训练模型相关的成本要低得多。这使它可以用于生产，并且是大量应用程序的理想选择。

Rodin

Rodin通过显着加快以前繁琐而复杂的过程，彻底改变了创建 3D 数字化身的过程。通过肖像来创建高度详细的 3D 头像的过程从未如此简单。RODIN 基于 AI 的系统可以根据客户肖像照片等个人数据创建高保真圆形头像。这些生成的头像还可以在 360 度视图中轻松查看，为客户提供身临其境的观看体验。
除了 3D 建模之外，RODIN 还为用户提供了使用文本提示来定制和完善他们的数字化身的机会。使用自然语言使艺术家能够直观地编辑重建化身的各种属性。这包括性别、年龄、面部表情和各种配饰等细节。允许用户进行任何必要的更改以完成 3D 模型。

优点：

RODIN 的革命性 AI 使人们能够看到自定义 3D 头像在未来可以提供什么。广泛的编辑选项提高了用户探索模型时所必要的自由度。更重要的是，模型可以构建种类繁多的 3D 化身类型，脸型、种族和发型都在您的指尖。

视频转3D

Move.AI

众所周知，人工智能 (AI) 已成为现代生活的重要组成部分。从机器人技术和数字助理到生产自动化和面部识别，人工智能已经能够完成大量任务。现在，随着 Move.AI 的推出，我们正在使用 AI 技术彻底改变动作捕捉过程。Move.AI 是一款基于AI技术的动作捕捉软件。该程序旨在让想要将动画带入数字世界的创作者不需要使用动作捕捉技术轻松就能访问。 Move.AI 允许您使用高清摄像机和超高清设备等现代设备拍摄视频，并使用先进的 AI 算法将它们转换为 3D 模型。该程序通过利用 AI 的生成能力来检测和分析视频中的人体动作，以令人难以置信的准确性和保真度提取动作。通过避免使用笨重的动作捕捉设备和大量数据处理，Move.AI 简化了动作捕捉过程，使每个人都可以轻松访问。
优点：

Move.AI 的使命是为大众带来动画。通过消除昂贵的动作捕捉装备和繁琐的数据处理，Move.AI 为所有背景的内容创作者提供了进入动画和游戏行业所需的工具。该系统已经被大大小小的公司使用，以发现生成人工智能的潜力。Move.AI 可以创建从人、动物、机器人和车辆等一切事物的生动、逼真的数字表示。

Rokoko

对于那些对动作捕捉技术感兴趣的人来说，Rokoko 是目前最好的 AI 视频转 3D 生成器。凭借免费的 AI 运动视频捕捉、视频到 3D 运动转换以及从多个不同来源访问运动捕捉等功能，Rokoko 是任何希望简化动画制作过程的人的首选。Rokoko Video 是一项有助于直接从浏览器简化动作捕捉过程的功能。这使得新手创作者相对容易地预先可视化他们的想法。此外，用户可以使用电脑的网络摄像头记录动作，并使用公司的免费软件 Rokoko Studio 进一步完善捕捉到的动作捕捉数据。它还提供诸如脚锁和漂移编辑器之类的过滤器，以帮助您保持准确的动作捕捉。
优点：

上传素材后，用户可以选择不同的骨架（HIK、Mixamo 等）并将文件传输到 3D 工具（Blender、C4D、Unity、Unreal 等）。
使用网络摄像头、从手机上传素材或上传现有素材的能力使 Rokoko 成为动画方面的宝贵工具。这款功能强大的视频转3D生成器非常适合想要简单地创建令人惊叹的动画的任何人。因此，对于那些在运动捕捉技术的前沿寻求令人难忘的动画体验的人来说，Rokoko 是明智的选择。

Deep Motion

对于那些在动画领域工作的人来说，从视频到 3D 的过程中获得尽可能好的结果可能既耗时又有点令人生畏。然而，借助领先的视频转 3D 生成器 Deep Motion AI，该过程更易于管理，而且结果往往超出预期。
DeepMotion 是世界领先的运动捕捉解决方案，它使用 AI 驱动的无标记运动捕捉和实时 3D 身体跟踪将运动从视频转换为 3D。这项技术由一群充满激情的行业资深人士带来，他们在暴雪、皮克斯、迪士尼、ROBLOX、微软、水晶动力和育碧等公司拥有数十年的经验。
优点：

DeepMotion 还提供极其准确的手部和面部动画，让用户的角色动作更加逼真。添加一个功能强大且易于使用的动画、姿势和表情编辑器，用户就可以创建 3D 动画。此外，DeepMotion 还提供强大而独特的动作捕捉服务，可实现实时动作捕捉，为动画世界带来前所未有的真实感和控制力。

t婷婷t · 发表于 2023-5-8 10:56:21

2D AIGC 基本上只有一种选择：生成图片。但是 3D 资产比 2D 内容复杂，因为 3D 资产有很多种：模型、贴图、骨骼、（关键帧）动画等等。这里我们只考虑最主流的资产，也就是 3D 模型。而 3D 模型的表示又分为网格（Mesh）、体素（Voxel）、点云、SDF、NeRF 等等。一旦考虑到实际落地到渲染管线中，基本上只有一种主流表示可以选择：Mesh。

三角网格。这个模型没有带贴图，所以看着是灰色，也就是下文提到的 “白模”。

从 CG 工作流程来看，从文字生成 3D 模型分两步：

AI 建模：给定文字输入，产出 3D 白模（即无贴图的模型）；
AI 画贴图：给定文字和白模，画上 diffuse 贴图或者 PBR 贴图组合（base color, metallic, roughness 等）。

从工业生产可控性的角度来说，用户会希望两步能够分离。而在学术界，大家更喜欢一步到位，对于可控性和 PBR 追求不高。
学术界通常不太考虑 AI 建模和 AI 贴图的分离，往往会一步到位，输入文字，得到带贴图的 3D 模型。这部分工作有两个 “流派”，下面简单梳理一下。
“原生 3D 派”

这一流派的特点是直接在 ShapeNet 等 3D 数据集上进行训练，从训练到推理都基于 3D 数据。一些有趣的工作如下：
3D-GAN 是 NIPS 2016 比较经典的早期工作了。比较直观，就是 GAN 的 3D 版本，以 voxel 为单位，生成 3D 模型。用 ShapeNet dataset，输入是一个 Gaussian noise，2016 年的时候还没实现 text conditioning。

3D GAN 的原理和生成效果

GET3D：通过 differentiable rasterizer (NVDiffRast) 加上类似 GAN 的架构，分别生成 mesh 和 texture，质量看起来也挺不错的，后面也会提到 differentiable rasterizer 会是 3D AIGC 很重要的基础算法。

GET3D 训练架构。

这一类基于 3D 数据的工作还包括 TextCraft （实现了 text conditioning）、AutoSDF、MeshDiffusion 等等。这类方法生成速度往往较快，但是也有比较直接的问题：由于 3D 数据集往往相对 LAION 等巨型数据集都小至少 3 个数量级（后续有讨论），这一类方法比较难实现数据多样性。比如说，生成数据集中存在的汽车、家具、动物等完全没问题，但是生成需要“想象力”的模型，比如 “一只骑在马背上的兔子”、“带着皇冠的鹦鹉”、“手持大锤、生气的牛头怪” 等，就比较有挑战了。由于 Stable Diffusion 等 2D AIGC 模型的想象力完全可以描述后者，用户自然也会期待在 3D 空间的 AIGC 也能做到类似的效果：给出各种奇奇怪怪的文字，AI 能够得到高质量的 3D 模型。这种“想象力”（本质上是在多样的训练数据集中插值）是 AIGC 的核心价值所在，但是目前 3D 数据集却较难提供。
“2D 升维派”

既然 3D 数据集无法满足数据多样性的要求，不妨曲线救国，借助 2D 生成式 AI 的想象力，来驱动 3D 内容的生成。这个流派的工作在最近乘着 Imagen、Stable Diffusion 等 2D AIGC 基础模型的突破取得了很多进展，因此本文着重讨论。
OpenAI Point·E: (论文链接) 只需要 1-2 分钟就可以在单块 GPU 上生成点云。第一步是以文字为输入，用 2D diffusion 模型（选择了 GLIDE）生成一张图片，然后用 3D 点云的 diffusion 模型基于输入图片生成点云。

Point-e 的算法和生成的效果

DreamFusion：很有意思的工作，大体思路是通过 2D 生成模型（如 Imagen）生成多个视角的 3D 视图，然后用NeRF 重建。这里面有个“鸡生蛋蛋生鸡”的问题：如果没有一个训练得比较好的 NeRF，Imagen 吐出的图会视角之间没有 consistency；而没有 consistent 的多视角图，又得不到一个好的 NeRF。于是作者想了个类似 GAN 的方法，NeRF 和 Imagen 来回迭代。好处是多样性比较强，问题也比较明显，因为需要两边来回迭代 15,000 次，生成一个模型就需要在 4 块 TPUv4 上训练 1.5 小时。

DreamFusion: 3D NeRF 和 2D 生成模型来回迭代优化

Magic3D: DreamFields 的升级版本，巧妙之处在于将重建过程分为了两步。第一步仅采用 NeRF（具体来说，是上一篇提到的 InstantNGP）进行比较粗糙的模型重建，第二步则采用一个可微的光栅化渲染器。NeRF 比较适合从 0 到 1、粗糙重建，更多的表面细节还需要更加特定的算法，比如说 differentiable rasterizer。

Magic3D 从 text 生成的 3D 模型

目前 DreamFusion / Magic3D 这一类算法的性能瓶颈有两点：一是 NeRF，二是依赖的 Imagen / e-diffI / SD 等 2D 生成模型。如果沿着这个算法思路进行优化，可能有下面两点机会：

NeRF 是否是最佳的 differentiable renderer? 从直觉上来说，并不是。NN 在 NeRF 中一开始只是作为一个 universal function approximator，如 Plenoxel 等工作其实说明了 NN 在 NeRF 中甚至不是必要的。还有个思路是直接不用 NeRF，直接用 differentiable rasterizer，比如说 nvdiffrast，一方面能够提速，另一方面由于直接在三角网格上优化，能够避免 NeRF 的结果转化到生产过程中需要用的三角网格的损失。
2D 生成式模型，如 Stable Diffusion 生成速度如果能够更快，那么对提速会相当有价值。GigaGAN 让我们看到了希望，生成 512x512 的图只需要 0.13s，比 SD 快了数十倍。

当然，SDF 也是可微性（differentiability）比较好的一种表示。Wenzel Jakob 组在这方面有一篇很棒的工作，重建质量非常棒，不过还没有和 AIGC 结合：

另外，除了生成通用资产，数字人的生成也是一个独立的有科研、商业价值的方向。影眸科技做的 ChatAvatar、MSRA 的 Rodin，都是最近有代表性的工作。
开源的 3D AIGC，以及 Taichi NeRF 的一些微小贡献

目前 DreamFusion 和 Magic3D 尚未开源，不过 GitHub 网友ashawkey 用 Stable Diffusion 和 PyTorch 实现了一个开源的 AIGC 工具：stable-dreamfusion，我们也把 Taichi NeRF 也作为一个 NeRF 后端集成了进去，这样没有 CUDA 的同学也可以生成基于 NeRF 的 3D 模型了。在没有 Taichi 的时候，在不同机器上编译、运行 CUDA 代码并整合进管线是个需要一定技巧的活，有了 Taichi 就不用担心了，而且自动求导的问题也被解决了。
实际测试，生成一个 3D 模型大约需要 30 分钟，下面是 “a hamburger” 的生成过程：

饿了，用 3D AIGC 生成个汉堡

DreamFusion 会从利用多个视角的 SD 结果进行重建，上图里面是各个视角下 NeRF 渲染的结果，可以观察到收敛过程。
数据、算法、算力，谁更重要？

在 AI 领域一直有“数据、算法、算力三要素”的说法，这里我们讨论一下对于 3D AIGC 这三要素的重要性排序。

数据：目前 3D AIGC 比较大的一个问题是 3D 的数据集（ShapeNet 有 51 K 模型、Objaverse 有 800+K、商业模型网站 SketchFab 有 5M）和 2D 的 LAION 的 5B 数量级的数据差了至少三个数量级，并且这个状况很可能短时间不太容易改变，因为 3D 数据天然的稀缺性、收集的难度等客观原因。况且，就算收集到了大量数据，如何无损地把他们喂给深度学习系统，也是一个悬而未决的问题。
算法：这里面比较核心的算法是 differentiable renderer，目前看更像是 differentiable rasterizer。另外，效果比较好的工作基本上都有 multiscale 的特性，比如从 NeRF 到 coarse mesh 再到 fine mesh 逐级优化，一方面跳过 local minima，另一方面加快优化速度，具体如何设计这些 stages，为算法研发者留下了空间。换个角度，生成 2D 512x512 的图片开销尚能接受，如果不去想好的算法，直接暴力扩展到 3D，变成 512x512x512，这个计算量是非常可怕的。
算力：3D AIGC 会在训练、推理两部分都需要算力。基于前面的假设，3D AIGC 目前看来还是会基于 2D 的基础模型，如 Stable Diffusion，加上并没有真正大规模的 3D 数据集，3D AIGC 的训练部分其实并不需要除了 fine-tune 2D 模型以外的大量算力。在“推理”部分，目前主流的做法都依赖于 differentiable renderer，如果要提高这部分的性能，常见的写法是手写 CUDA，并且手动写出对应的 gradient kernels。而一个可微分的 SIMT 编程系统会显著加速相关的研发、提高正确性。（打个广告，这一点上看，Taichi 确实有一定的优势 :-）

综上，我们认为对于 3D AIGC，算法 > 算力 > 数据。这意味着 3D AIGC 需要对计算机图形学、人工智能、可微编程框架等问题比较有洞见的团队来攻关。
虽然学术界不断有激动人心的进展，AI 建模、画贴图要落地依然是很有挑战的。一是目前的技术依然不够成熟，无法达到工业生产的标准，甚至有很远的距离；二是市场方面的风险依然存在。
<hr/>本条回答内容，节选自太极图形 CEO 胡渊鸣的专栏文章《Taichi NeRF (下): 关于 3D AIGC 的务实探讨》，这篇万字长文，用了很大篇幅探讨 3D AIGC 产品化和商业化的挑战和机遇，如果你对 3D AIGC 和 NeRF 感兴趣，欢迎阅读和评论。

wuzaihua · 发表于 2023-5-8 10:57:18

AIGC只是一族技术的泛称，并没有形成一个统一的框架和标准。
生成3D内容可以从好几个角度来看，从建模角度来看，它包括：

生成静态3D模型
生成骨骼动画和绑定骨骼动画（不限于骨骼动画）
生成纹理和纹理映射

生成静态3D模型从实现技术上来看，主要分两大类：

文字直接生成
从2D图片生成

从生成内容上看，目前主要分：

人物生成
物件生成

这个领域的开源工程有：

PIFu/PIFuHD（利用2d照片生成3D人物模型，不含纹理)
GET3D （输入文字生成对应物件，含纹理）
meshroom （利用2d照片生成3D物件或者场景）
TEXT2HUMAN（输入文字生成人物模型，含纹理）

一般能生成物件的工程也能生成人物，但没有专门的人物生成工程做得更好。
这类工具除了GET3D和TEXT2HUMAN，都有一系列通病：

没有纹理，也没有纹理映射（原始的单张照片只是一个角度，没法用来生成这个角度后面的纹理）
生成的模型mesh网面粗糙
没有骨骼

所以后续还要3D美工做修整。
对于人物建模，在实际生产需求中还需要骨骼绑定，以上这些工具都不生成骨骼，意味着动画/游戏制作中还需要美工手工创建和绑定骨骼。
从游戏和动画的角度来看，骨骼动画包括：

OpenPose（从视频中提取人物骨骼动画）
MediaPipe（从照片/视频中提取人物骨骼/面部骨骼/手部骨骼动画）
VIBE（是视频中提取人物骨骼动画）
RigNet （骨骼自动生成/自动绑定）
AvatarCLIP （输入文字生成骨骼动画）

对于实际生产需求，以上工具除了OpenPose和MediaPipe还勉强能用外，其它的目前都只能看看。
这些工具目前主要的通病是：骨骼动画噪声太大，需要美工手动休整。
除此之外，在实际生产中还需要一类工具，提取场景深度：

MiDas
BoostingMonocularDepth

这些都是从单张2D照片中提取场景深度的工程。
目前的通病是：难度太大，从单张照片中推测场景深度只能是猜个大概，场景复杂度高了以后，特别是场景中包括色彩各异的小物件时，其提取的深度信息准确性大大下降。
以上工程/工具，都是重度依赖DNN的项目，而不是在传统的基于几何算法基础上构建的。
基于几何算法的，我用过的，就是Nerf了，这东西用到了多层全连接网络，但它的核心是基于Voxel的体素建模，这个仍旧是属于传统的3D渲染技术范畴。

关于AIGC生成3D内容的现有工具和方法，我基本都罗列在上面了。如果要从更高的层面来说这些工具的问题就是：基本上都不是根据市场需求来设计的，除了其中的mediapipe，基本上没有什么真正从事这行的人在用。其中有少量的可能被融合到某些公司的商业工具内，但也是经过大幅度改造的。
这个领域（我指的是AIGC）的很多公司都是哪种先造工具，再找真实需求的套路。真正关注生产者的少之又少。相反，很多用传统技术（非DNN）的公司，都是脚踏实地的在努力解决3D内容生产的问题。

w744102 · 发表于 2023-5-8 10:57:52

AIGC（Artificial intelligence-generated content ，AI生产内容）指通过AI技术来自动或辅助生成内容的生产方式。在AI工具帮助下，所有人都可以成为创作者，通过输入指令使AI自动生成内容，让AI去完成冗杂的代码、绘图、建模等任务。
随着AI技术的发展，AI将数字世界的内容生成技术由2D引领至3D时代，下一代网络的核心基本原则也将是3D，现在已经有一些开发者利用AI实现3D内容的生成，不过还是在初期阶段。
比如NVIDIA Ganverse3D、Omniverse Audio2Face、以及NeRF等功能或工具，可实现AIGC的自动化内容生成。
GANverse3D应用将平面图像放大成逼真的3D模型，可以在虚拟环境中可视化和控制。为了生成训练数据集，研究人员利用生成性对抗网络 ——GAN合成图像，从多个角度描绘同一物体 — 就像摄影师绕着一辆停着的汽车走动，从不同的角度拍摄。这些多视图图像被插入到逆图形的渲染框架中，逆图形是从2D图像推断3D网格模型的过程。
一旦完成了多视图图像训练，GANverse3D只需要一个2D图像即可预测3D网格模型。该模型可以与3D神经渲染器一起使用，使开发人员能够自定义对象和交换背景。

https://www.zhihu.com/video/1589208731832799232
Omniverse Audio2Face借助 NVIDIA 深度学习AI技术，只需要一个音频来源即可快速轻松生成表情丰富的面部动画。

https://www.zhihu.com/video/1589210310862446592
NeRF是使用神经网络来表示和渲染基于2D图像集的逼真3D场景。NVIDIA现在推出“即时 NeRF”（Instant NeRF）技术，它在某些情况中能够将速度提升超过1000倍。该模型只需要几秒钟就能训练出几十张静态照片及其拍摄角度数据，并在瞬间渲染产生的3D场景。

		自动登录	找回密码
密码			立即注册

AIGC 能产出 3D 内容吗？难点在哪里？

本帖子中包含更多资源

本帖子中包含更多资源

本帖子中包含更多资源