找回密码
 立即注册
查看: 624|回复: 0

全新 Meta-AI 可将 2D 图像转换为 3D 模型

[复制链接]

1

主题

0

回帖

19

积分

新手上路

积分
19
发表于 2023-5-11 15:55:17 | 显示全部楼层 |阅读模式
​​  Meta 研究人员提出了 MCC,这是一种可以从单个图像重建 3D 模型的方式。该公司从中看到了 VR/AR 和机器人技术的应用前景。
  基于 Transformer 等架构和大量训练数据的 AI 模型已经发生了令人印象深刻的语言模型,例如 OpenAI 的 GPT-3 或比来的 ChatGPT。


  自然语言措置的打破带来了一个核心见解:扩展使基本模型能够丢弃以前的方式。先决条件是独立于范围的架构,例如转换器,它可以措置分歧模式,以及来自非布局化和部门未标识表记标帜数据的自我监控训练。
  结合大规模的、独立于类此外学习,这种架构近年来越来越多地用于语言措置以外的范围,如图像合成或图像分析。
Meta MCC 为 3D 重建带来规模化措置
  Meta FAIR Lab 展示了多视图压缩编码(MCC),这是一种基于变压器的编码器-解码器模型,可以从单个 RGB-D 图像重建 3D 对象。
  研究人员认为 MCC 是迈向用于 3D 重建的通用 AI 模型的重要一步,可用于机器人或 AR/VR 应用,为更好地了解 3D 空间和对象或视觉重建斥地了许多可能性。
  虽然其他方式,如 NERF 需要多幅图像,或者它们的模型需要与 3D CAD 模型或其他难以获取并因此无法扩展的数据进行训练,但 Meta 数据依赖于从 RGB D 图像中重建 3D 点。
  这些具有深度信息的图像此刻已经很容易获得了,这是由于带有深度传感器的 iPhone 和简单 AI 网络的普及,后者从 RGB 图像中获取深度信息。按照 Meta 的说法,这种方式具有很好的可伸缩性,而且将来很容易发生大数据集。


  为了证明这种方式的长处,研究人员使用大量图像和视频来训练 MCC,这些图像和录像包含来自分歧数据集的深度信息,从多个角度显示物体或整个场景。
  在 AI 培训期间,模型将被剥夺每个场景或对象的一些可用视图,它们作为 AI 重建的学习信号。该方式类似于语言或图像模型的培训,此中部门数据也经常被屏蔽。
Metas 3D 重建显示了强大的通用性
  Metas AI 模型在测试中显示了有效且优于其他方案的优势。该团队还暗示,MCC 还可以措置以前没见过的对象类别或整个场景。
  此外,MCC 显示了预期的扩展特性:随着更多的训练数据和更多样化的对象类别,性能显著提升。ImageNet 和 DALL-E 2 图像也可以在 3D 点云中重建,并提供相应的深度信息。​​​​

本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有账号?立即注册

×
回复

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

Archiver|手机版|小黑屋|T9AI - 深度人工智能平台 ( 沪ICP备2023010006号 )

GMT+8, 2024-11-23 19:24 , Processed in 0.054611 second(s), 24 queries .

Powered by Discuz! X3.5

© 2001-2024 Discuz! Team.

快速回复 返回顶部 返回列表