华盛顿大学和脸谱网的研究人员使用深度学习将静止图像转换成逼真的动画循环视频。
他们的方法 将在即将召开的计算机视觉和模式识别会议( CVPR )上发布的这项技术模拟了连续的流体运动,如流动的水、烟和云,将静止图像转换成无缝循环的短视频。
“我们的方法的特别之处在于它不需要任何用户输入或额外的信息,” Aleksander Hołyński ,华盛顿大学计算机科学与工程博士生,项目负责人说。你只需要一张照片。它可以输出一个高分辨率的无缝循环视频,通常看起来像一个真实的视频。”
团队创建了一种称为“对称飞溅”的方法从静止图像预测过去和未来的运动,结合这些数据创建无缝动画。
“当我们看到瀑布时,我们知道水应该如何运动。火或烟也是如此。这些类型的运动遵循同一套物理规律,图像中通常有线索告诉我们物体应该如何运动ł y ń斯奇说我们很乐意将我们的工作扩展到更广泛的对象上,比如为一个人在风中吹拂的头发设置动画。我希望最终我们与朋友和家人分享的照片不会是静态的。相反,它们都是动态动画,就像我们的方法生成的动画一样。”
为了教他们的神经网络估计运动,研究小组在 1000 多个流体运动的视频(如瀑布、河流和海洋)上训练了这个模型。如果只给出视频的第一帧,系统将预测未来帧中应该发生的事情,并将其预测结果与原始视频进行比较。这种比较有助于模型改进对图像中每个像素是否应该移动以及如何移动的预测。
研究人员使用了 NVIDIA Pix2PixHD 用于运动估计网络训练的 GAN 模型,以及 FlowNet2 和 PWC-Net 。模型进行训练和推理都采用 NVIDIA GPU。培训数据包括 1196 个独特的视频, 1096 个用于培训, 50 个用于验证, 50 个用于测试。
阅读 华盛顿大学新闻稿 更多信息>>
研究人员的论文可以 此处得到