英伟达馋哭建模师！投喂随意视频，直出3D模型，华人一作登CVPR 2023

春雨朦濛 发表于 2023-6-12 12:05:35

鱼羊萧箫发自凹非寺
量子位 | 公众号 QbitAI英伟达一出手，3D建模师都馋哭了。
此刻，制作一个纹理超细致的大卫3D模型，需要几步？

方才靠着AI，市值一度飚破万亿美元的英伟达给出最新答案：
给AI投喂一段普通视频，它就能自动搞定。

http://pic4.zhimg.com/v2-ef4b81beef6ba4a04c4461d94b7ea563_r.jpg

不仅雕塑的每一个褶皱都能拿捏住，更为复杂的建筑场景3D重建，同样靠一个视频就能解决：

连深度都能直接估算出来。
这个新AI名叫Neuralangelo，来自英伟达研究院和约翰霍普金斯大学。
论文刚一发表就吸引了全场网友的目光，让人直呼：这是直接缔造新世界的节奏。

http://pic4.zhimg.com/v2-041fdca95aced80ccfbcf885cba21fe3_r.jpg

http://pic4.zhimg.com/v2-09ef3b19903404ad94a6529d22a10427_r.jpg

甚至再一次拉动了显卡销量（doge）：

目前，相关论文已经入选CVPR 2023。更多技术细节，我们一起接着往下看~
无需深度数据，直出3D布局

这篇论文采用的架构名叫Neuralangelo，一个听起来有点像著名雕塑家米开朗基罗（Michelangelo）的名字。

具体来说，Neuralangelo核心采用了两个技术。
一个是基于SDF的神经衬着重建。
此中，SDF即符号距离函数（Signed Distance Function），它的本质就是将3D模型划出一个概况，然后用数值暗示每个点距离模型的实际距离，负数指点在概况内侧，正数指点在概况外侧：

http://pic2.zhimg.com/v2-20d68edc150ad44ce9fce77d6ba32059_r.jpg
△图源chriscummingshrg
基于SDF的神经衬着技术，则是采用神经网络（如MLP）对SDF进行编码，来对物体概况进行一个近似还原。
另一个则是多分辩率哈希编码，用于降低计算量。
多分辩率哈希编码是一种特殊的编码方式，能用很小的网络降低计算量，同时确保生成的质量不降低。
此中，多分辩率哈希表的value，对应由随机梯度下降优化得到特征向量。
操作流程上，则分为两步。
首先，基于神经衬着重建方式，计算出视频中3D布局的“粗拙概况”。
值得注意的是，这里采用了数值梯度而不是解析梯度，这样基于SDF生成算法做出来的3D模型概况更加平滑，不会呈现凹凸不服的状态：

论文还额外对比了一下解析梯度和数值梯度的状态，从图中来看，数值梯度整体上能取得更平滑的建筑效果：

http://pic4.zhimg.com/v2-792b35871be9a86868ec9f1b6595634f_r.jpg

随后，就是逐渐减小数值梯度的步长（step size）、采用分辩率更高的哈希表，一步一步提升模型的精细度，还原建筑的细节：

最后再对生成的效果进行优化，就得到了还原出来的图像。
包含MLP和哈希编码在内，整个网络采用端到端的方式进行训练。
测试效果如何？

研究人员采用了DTU和Tanks and Temples两个数据集对Neuralangelo进行测试。
DTU数据集包含128个场景，这篇论文具体采用了此中的15个场景，每个场景包含49~64张由机器人拍摄的RGB图像。

http://pic4.zhimg.com/v2-d4db8bdcce24139a6970d6398f16946b_r.jpg

随后，还采用了Tanks and Temples中6个场景的263~1107张RGB相机拍摄图像，真实数据则由LiDAR传感器获得。
Tanks and Temples包含中级和高级两类数据集。
此中，中级数据集包含雕塑、大型车辆和住宅规模的建筑；高级数据集则包含从内部成像的大型室内场景、以及具有复杂几何布局和相机轨迹的大型室外场景：

具体到生成细节上，Neuralangelo对比NeuS和NeuralWarp等“前SOTA”模型，在DTU数据集上展现出了非常准确的3D细节生成：

而在Tanks and Temples数据集上，Neuralangelo也同样展现出了不错的还原效果：

在F1-Score评估和图像质量PSNR评估中，Neuralangelo基本上全部取得了最好的效果：

http://pic2.zhimg.com/v2-c08b9ef6db241ce6af9633d2a5f5ea4d_r.jpg

华人一作

这篇研究的作者来自英伟达和约翰霍普金斯大学（Johns Hopkins University）。

论文一作李赵硕（Zhaoshuo Li），本科毕业于不列颠哥伦比亚大学，目前是约翰霍普金斯大学的博士生，师从Mathias Unberath和Russell Taylor。
Russell Taylor是医疗机器人范围泰斗，曾主持研发全球首台骨科手术机器人ROBDOC。
而李赵硕本人，本科专业也是机器人工程，如今算是小小跨界，研究重点在图像重建3D布局上。
Neuralangelo是李赵硕在英伟达实习期间的工作。此前，他还曾在Meta的Reality Labs实习（就是小扎All in 元宇宙的核心部门）。
论文地址：
https://research.nvidia.com/publication/2023-06_neuralangelo-high-fidelity-neural-surface-reconstruction
参考链接：
https://twitter.com/bilawalsidhu/status/1664268049589911552
https://shaderfun.com/2018/03/25/signed-distance-fields-part-2-solid-geometry/
—完—
@量子位 · 追踪AI技术和产物新动态
深有感到的伴侣，欢迎附和、存眷、分享三连վ'ᴗ' ի ❤

十六夜小米 发表于 2023-6-12 12:06:15

鸡肋

duaoxiang 发表于 2023-6-12 12:07:11

问下量子位，这个会和清华的那个一样有人开源复现吗？谢谢。[赞同]

黄宇燕123 发表于 2023-6-12 12:08:06

又一个职业被干碎了[捂脸]

深爱她了吗 发表于 2023-6-12 12:08:53

鸡肋都不是

pingping521 发表于 2023-6-12 12:09:46

这种好像原本不靠ai也能，可能细节会做得更好些?从原画出建模，比较有吸引力。

清诉衷情 发表于 2023-6-12 12:09:56

就是直接检测出法线嘛，不算新技术吧。

美妮发表于 2023-6-12 12:10:39

不就是学会建模工作了嘛。然后，分UV，上材质，打光，K动画，配音，配乐，做游戏做电影，上市，赚钱，倒闭，破产，下岗，拆零件上咸鱼……[酷][酷][酷]AI早晚会知道，这就是人生。

水月无痕76 发表于 2023-6-12 12:10:51

ue上的模型资产恐暴跌

心沙雁过 发表于 2023-6-12 12:11:27

这个不就是优化的nerf嘛

页: [1] 2 3

T9AI - 深度人工智能平台's Archiver

英伟达馋哭建模师！投喂随意视频，直出3D模型，华人一作登CVPR 2023