找回密码
 立即注册
查看: 96|回复: 0

AI 3D生成天花板再拉升!清华团队炼成3D Scaling Law

[复制链接]

1

主题

0

回帖

8

积分

新手上路

积分
8
发表于 前天 12:58 | 显示全部楼层 |阅读模式
房屋 西风 发自 凹非寺
量子位 | 公众号 QbitAI
《黑神话·悟空》的火爆,带火的不仅是3D游戏本身,还有背后暗流汹涌的AI 3D生成技术。
一直以来,外界对3D大模型赛道的存眷度都稍逊于语言模型和视频模型。然而,全球3D大模型选手们则都在暗中较量、默默发力,从a16z押注的Yellow,到李飞飞的World Labs,3D大模型的迭代速度是没落下一点。
就在方才,国内3D大模型头部玩家VAST更新了旗下的大模型Tripo,是基于千万级高质量原生自有数据库训出来的那种超强版本。
而3D生成新东西的玩法也更进一步,文字、单图、多图都能作为输入
至于几何精细度和图片还原度等方面的效果嘛,先小放一段用新东西生成3D模型的视频,大师直不雅观感到感染一下:


在官宣新品之余,VAST又带来另一则重磅动静,即公司持续完成了数亿元融资,这也是3D大模型赛道的最大融资金额。
当然,融资方面的引领,也只是技术实力的展现。因为VAST的技术和应用场景,确实够顶。
快速生成无瑕疵,效果惊艳

再次拉升AI 3D天花板的模型叫做Tripo 2.0
Tripo 2.0先在几秒内生成形状几何预览,再接着几秒内为其“贴上皮肤”,⽣成纹理及PBR
目前Tripo 2.0已正式上线,多量网友已经开启了实测。
量子位也在第一时间凑上了热闹。
Tripo 2.0撑持文生3D、单图生3D;Tripo 1.4版本也撑持多图生3D。
输入一个prompt,一次能生成4个3D模型。
按照输入的分歧,量子位的上手实测成果不才面分为两个部门,即:

  • 文生3D模型
  • 图生3D模型
Tripo 2.0文生3D模型实测

话不多说,直接先来看一波文生3D效果。
第一步,生成几何形状「动漫少女的半身形象」。
就复杂布局生成效果来看,细节还是很足的:


接下来给它贴好皮肤。
在不超过20秒的生成时间里获得精细的纹理和层次;普通程度的人工建模要达到这种细节,耗时可能要上千倍。


换一道题!用Tripo 2.0生成卡通形象的全身形象尝尝看。
先生成个卡通小矮人尝尝~
出来的效果,那是相当可爱(发出宋丹丹的声音),belike:


我们又生成了一个小怪物,而且把单个生成的模型放大来看。
360度旋转,肉眼没有发现bug和瑕疵。要知道,怪物后背密密麻麻的尖刺细节,是人工建模师的恶梦,一般城市规避这种繁复的设计,但是对tripo来说毫无压力。


加大难度,再复杂一些3D模型生成任务也同样能把握。
透视布局理解过去一直是生成式AI的卡点,以生图模型的手指问题为代表。3D模型空间布局极为重要,我们可以看到Tripo强大的透视布局理解能力,完美生成了复杂布局的模型任务。


最后再放个厉害的,下面这个购物车什么难度都不用多说了:


Tripo 2.0图生3D模型实测

再来看一波图生3D的效果。
单图生3D模型的算法最考察对图片的空间信息理解和还原度,此次我们横向对比一些市场的其他玩家效果。
友情提示,下面每张展示图中的最后一个3D模型,都由Tripo 2.0生成
来,上一支玫瑰花的图生模型对比展示!
对比可以清晰看到,只有它生成的几何形状360度无死角,花朵和枝叶完整度最高:


贴图之后,在还原原图的颜色、质感这一块,也是效果最好的:


测完植物生成效果,我们又测试了无生命物体的图生模型。
丢给模型一个俄罗斯复活节彩蛋图片作为输入,Tripo 2.0的输出效果最有“浮雕感”,对比来看,纹理细节都是最精致的:


进行多次测试后,不难发现Tripo 2.0在全方位的生成表示上都有显著差异。
比如生成的PBR材质具有⾼保真度,保留了原图表⾯属性和视觉效果:


再比如,不管侧面、背面,每个面都能捕捉复杂的原图特征:


Tripo 2.0不仅生成质量让人眼前一亮,更高的可控性也是一大特点。
输入不仅撑持多模态,被选择文生3D模型模式时,还撑持输入负向prompt(就是不让生成模型中带有什么元素)。


对输出模型姿态的控制性也很绝。
既能自定义所生成3D模型头、腿、手臂等比例。
还能“A-pose”“T-pose”两个姿势随便选,秒秒钟设定大长腿:


生成好的3D模型还可以一键绑定骨骼、风格化。
3D模型人拥有本身的乐高!


更多玩法大师可以慢慢探索,欢迎大师评论区共创~
Tripo 2.0效果如此哇塞,所以——
Tripo 2.0如何炼成?

从技术上层层解剖,Tripo 2.0在实现过程中打满了一个词:3D Scaling Law
首先,Tripo 2.0基于海量千万级3D⾼质量数据库,采⽤概率性的⽣成式建模⽅法,通过学习捕捉⼤规模数据中的⼏何和材质分布。
由此,Tripo 2.0更好地保证了输出的质量、增强了模型的鲁棒性和泛化能⼒。
其次,它采用了DiT和U-Net模型的复杂混合架构
DiT擅⻓捕捉3D布局中的全局上下⽂和⻓距离依赖关系,而U-Net精于保留精细的细节和局部特征,Tripo 2.0正是融合了这两种架构的优势。
再者,采⽤最先进的训练算法,Tripo 2.0⼏何和材质⽣成模型均基于最先进的⼤规模流模型,拥有数⼗亿参数
同时采⽤了guidance distillation和step distillation,通过蒸馏提⾼效率,在不牺牲质量的前提下⼤幅优化了性能。
种种技术加持下,在3D生成形状、纹理质量、细节表示、输⼊条件的遵循性以及输出多样性⽅⾯,Tripo 2.0拿下新SOTA,成为新晋“五边形”兵士:


之前,Tripo 2.0背后团队还与其他团队合作,推出了一箩筐学术成果,被Siggraph、CVPR、ICLR、ECCV等顶会接收。
比如Wonder3D,通过一个跨域扩散模型生成一致性的多视图法线贴图和相应的彩色图像,然后操作一种新颖的法线融合算法快速、高质量地重建3D几何体。
与现有的基于分数蒸馏采样(SDS)的方式对比,Wonder3D在效率、一致性和细节上都有显著提升,能够在2-3分钟内完成重建。
再比如TGS:Triplane Meets Gaussian Splatting,同样被CVPR 2024收录。
这项技术操作Transformer网络和一种新颖的Triplane-Gaussian混合暗示,使得从单张图片中重建3D模型变得更加高效和精确。
更多细节,感兴趣的童鞋可以自行查阅。
总之,Tripo 2.0并非一蹴而就,背后有众多技术堆集。
3D世界的Scaling Law

最后,我们来正式认识一下Tripo 2.0背后的公司。
VAST,去年3月成立,是一家专注于在3D大模型研发的AI公司。
公司方针是“通过打造⼤众级此外3D内容创作⼯具,建⽴3D的UGC内容平台,让基于3D的空间成为用户体验、内容表达、提升新质⽣产⼒的关键要素。”
公开资料显示,该公司的CEO、CTO都是商汤出身:
创始人兼CEO宋亚宸,曾在商汤落地过多个从零到一的AI项目,曾参与大模型六小强之一MiniMax的创立;CTO梁鼎,清华本硕博,师从戴琼海院士,曾任商汤通用模型负责人。


成立一年半以来,这家公司动作频频。
首先在本年年初,表态了自家首个3D大模型Tripo 1.0
Tripo 1.0参数量数十亿,用上它,从单图/文字生成3D网格模型仅需要8秒。


△3D建模经典之「牛油果扶手椅」,Tripo 1.0生成
上线半年内,Tripo 1.0全球用户生成的3D模型超过了500万个。
500万个是什么概念呢?约为全球前三大3D模型数据库总和。


到了本年3月初,VAST又联合Stable Diffusion背后的Stability AI,共同推出了开源的3D基础模型TripoSR
因其能够达成“0.5秒完成单图生成3D模型”的成就,在3D生成范围的开源届广受欢迎,至今GitHub上揽星4.3k。


此刻,Tripo 2.0又问世了,已经在线可玩。
得益于3D Scaling Law带来的效果提升,Tripo的这三次更新时间跨度仅仅有9个月。
而且有速度也有质量,效果在业表里颇受承认。
拿一则新动静来佐证一下:不久前,世界最大在线游戏开发平台Roblox官宣入局AI 3D生成,但截至目前,Tripo都是Roblox玩家最风靡的3D建模的趁手东西。


接下来的VAST会带着Tripo去向什么标的目的?
量子位寻回的答案是,至少在技术方面,VAST会持续追寻3D生成式AI的Scaling Law研究模型规模、数据量和生成质量之间关系的基本道理,同时寻找数据、表征和模型架构的可扩展范式。
既致力于敦促3D生成式AI的边界,也会不竭探索更整体的(Holistic)3D生成。
就还挺令人等候的。
在语言模型和视频模型带给这个世界一点小小震撼过后,人们也但愿3D生成赛道能滋养出属于本身的ChatGPT时刻。
毕竟3D的AI生成与其它AI生成赛道对比,情况斗劲特殊,不仅AI生成后人工二改技术难度大,如果模型效果表示不好,想要仅凭增加抽卡次数来达到对劲度,不如赶早本身画(不是)。
好在3D生成行业深孚众望,一路前行着——
回顾过去的两年时间,尤其在2023年末到2024年间,3D生成技术得到了快速成长。
不仅在效果、速度方面均有提升,还实现了“效率高、成本低、创新性强和可定制性强”的特点。
技术飞快进步的同时,整个行业的人才密度都在不竭增大。
国内,以VAST为代表,草创公司多来自全球知名高校和科研机构;放眼国外,AI教母李飞飞初度创业成立的空间智能公司World Labs,也着眼于3D生成世界,颁布发表持久方针是构建大世界模型(LWM)来感知、生成3D世界并与之交互。
众人拾柴火焰高嘛。
可以说,因为人才与技术、效果与场景的清晰和进步,此刻AI 3D生成这个赛道,垂垂走进了更多人的视野之中。
而3D Scaling Law或将带来的打破性进展,似乎已经预示了人工智能范围下一个焦点的标的目的。
—完—
@量子位 · 追踪AI技术和产物新动态
深有感到的伴侣,欢迎附和、存眷、分享三连վ'ᴗ' ի ❤

本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有账号?立即注册

×
回复

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

Archiver|手机版|小黑屋|T9AI - 深度人工智能平台 ( 沪ICP备2023010006号 )

GMT+8, 2025-7-2 06:18 , Processed in 0.063576 second(s), 23 queries .

Powered by Discuz! X3.5

© 2001-2025 Discuz! Team.

快速回复 返回顶部 返回列表