图形/仿真

GANcraft :将玩家变成 3D 艺术家

NVIDIA 和康奈尔大学的科学家们引入了一种混合的无监督神经渲染管道,以有效地表示体素世界中的大型复杂场景。从本质上讲, 3D 艺术家只需要构建最小值,剩下的部分将由算法来构建照片级真实感世界。研究人员将这种混合神经渲染管道应用于 Minecraft 区块世界,以生成更逼真的 Minecraft 场景。

NVIDIA 和更广泛的研究团体( pix2pixpix2pixHDMUNITSPADE )以前的工作已经解决了图像到图像转换( im2im )的问题——将图像从一个域转换到另一个域。乍一看,这些方法似乎为将一个世界转换为另一个世界的任务提供了一个简单的解决方案—一次翻译一幅图像。但是, im2im 方法不保持视点一致性,因为它们不了解 3D 几何体,并且每个 2D 帧都是独立生成的。从下面的图像中可以看出,这些方法的结果会产生抖动和突然的颜色和纹理变化。

MUNIT SPADE wc-vid2vid NSVF-W GANCraft

 A side by side comparison of past voxel neural rendering pipelines: MUNIT, SPADE, wc-vid2vid, NSVF-W, and GANcraft. You can see the renderings don't hold up as consistently as the GANcraft methodology; blending and distortion occur. A side by side comparison of past voxel neural rendering pipelines: MUNIT, SPADE, wc-vid2vid, NSVF-W, and GANcraft. You can see the renderings don't hold up as consistently as the GANcraft methodology; blending and distortion occur.
 A side by side comparison of past voxel neural rendering pipelines: MUNIT, SPADE, wc-vid2vid, NSVF-W, and GANcraft. You can see the renderings don't hold up as consistently as the GANcraft methodology; blending and distortion occur. A side by side comparison of past voxel neural rendering pipelines: MUNIT, SPADE, wc-vid2vid, NSVF-W, and GANcraft. You can see the renderings don't hold up as consistently as the GANcraft methodology; blending and distortion occur.
 A side by side comparison of past voxel neural rendering pipelines: MUNIT, SPADE, wc-vid2vid, NSVF-W, and GANcraft. You can see the renderings don't hold up as consistently as the GANcraft methodology; blending and distortion occur. A side by side comparison of past voxel neural rendering pipelines: MUNIT, SPADE, wc-vid2vid, NSVF-W, and GANcraft. You can see the renderings don't hold up as consistently as the GANcraft methodology; blending and distortion occur.
 A side by side comparison of past voxel neural rendering pipelines: MUNIT, SPADE, wc-vid2vid, NSVF-W, and GANcraft. You can see the renderings don't hold up as consistently as the GANcraft methodology; blending and distortion occur. A side by side comparison of past voxel neural rendering pipelines: MUNIT, SPADE, wc-vid2vid, NSVF-W, and GANcraft. You can see the renderings don't hold up as consistently as the GANcraft methodology; blending and distortion occur.
图 1 。对先前工作和设计的比较。

输入 GANcraft ,这是一种直接在 3D 输入世界上操作的新方法。

研究人员在 study 中解释说:“由于用户创建的块世界根本不存在地面真实照片级真实感渲染,我们必须通过间接监督来训练模型。”。

该方法的工作原理是在输入块世界中随机采样摄影机视图,然后想象该视图的真实照片版本是什么样子。这是在 SPADE 的帮助下完成的,这是 NVIDIA 先前在图像到图像转换方面的工作,也是流行的 GauGAN 演示中的关键组件。 GANcraft 通过使用样式调节网络克服了这些生成的“伪真实”的视图不一致性,该网络可以消除世界结构与渲染样式之间的歧义。这使 GANcraft 能够生成与视图一致的输出视频,并且具有不同的风格,如图所示!

图 2 。 GANcraft 的方法可以实现各种不同样式的视图一致性 .

虽然研究结果在 Minecraft 中得到了验证,但该方法适用于其他 3D 块体世界,如体素。缩短构建高清世界所需的时间和专业知识的潜力增加了这项研究的价值。它可以帮助游戏开发者、 CGI 艺术家和动画产业缩短构建这些巨大而令人印象深刻的世界所需的时间。

如果你想进一步细分这项技术的潜力, Károly Zsolnai-Fehér 在他的 YouTube 系列文章 两分钟的论文 中强调了这项研究:

图 3 。 YouTube 系列,两分钟的论文,涵盖了人工智能的重大发展。

GANcraft 是在 Imaginaire 库中实现的。该库针对生成模型和生成对抗网络的训练进行了优化,支持多 GPU 、多节点和自动混合精度训练。 NVIDIA 制作的 10 多种不同研究成果以及预训练模型已经发布。随着时间的推移,此库将继续使用更新的作品进行更新。

如果您想深入研究,请从 Imaginaire 存储库获取 GitHub 上的代码,查看 framework 的概述或阅读 详细研究论文

请访问 NVIDIA Research 随时了解 NVIDIA 更激动人心的研究。

研究作者包括 Zekun HaoArun MallyaSerge BelongieMing-Yu Liu

 

Tags