GTC 大会火热进行中!别错过 NVIDIA CEO 黄仁勋的最新发布,以及 AI 和加速计算的必听会议。
人工智能/深度学习

Sim2SG :生成用于迁移学习的 Sim-to-Real 场景图

场景图( scenegraphs , SGs )在计算机视觉和计算机图形学中都是一种可解释的、结构化的场景表示。场景图总结了场景中的实体以及它们之间的合理关系。 SGs 在计算机视觉、机器人、自主车辆等领域有着广泛的应用。

当前的 SG 生成技术依赖于昂贵的标记数据集的有限可用性。合成数据是解决这个问题的一个可行的选择,因为注释基本上是免费的。尽管合成数据已被用于图像分类、目标检测和语义分割等多种任务,但合成数据用于 SG 生成和视觉关系仍有待探索。由于合成数据和真实数据在外观和内容上的差异,在有标记的合成数据上训练神经网络模型,在无标记的真实数据上进行评价,这就导致了领域差距问题。

Photo with bounding boxes and corresponding diagram show a subset of the relationships of entities like vegetation and house with vehicle_0.
Diagram shows the physical correlations between objects in the previous photo.
图 1 。场景图显示场景中的各种对象,如车辆、植被、房屋以及它们之间的关系。

Sim2SG 框架

为了克服这些挑战,我们提出了 Sim2SG ,一种可扩展的 sim-To-real 场景图生成技术。本研究的主要目的是通过在含有标记 SG 信息的模拟数据集上训练神经网络,然后将学习到的模型转换到真实数据集上,从真实世界的图像中生成场景图。

在训练过程中, Sim2SG 处理域间隙并学习生成场景图。域间隙可细分为以下间隙:

  • 外观间隙 是两个域的外观差异,例如场景中对象的纹理、颜色、光照或反射率的差异。
  • 内容差距 是指两个域之间的差异,包括对象数量分布的差异及其类别、位置、姿势和比例。

我们进一步分析了内容差距,并解决了其子组成部分 – 标签和预测差异。图 1 显示了 Sim2SG 为真实世界的驾驶数据集生成精确的场景图,图 2 显示了整个管道。

Diagram shows the entire pipeline for creating scene graph generation.
图 2 。 Sim2SG 管道工作流。

在图 2 中, Sim2SG 管道将来自源域的带标记的合成数据和来自目标域的未标记的真实数据作为输入。使用编码器将标记的合成数据和未标记的真实数据映射到共享表示 Z 。然后,我们使用合成数据在 Z 上训练场景图预测网络 h 。我们使用基于伪统计的自学习方法来处理标签差异,生成标签对齐的合成数据以供训练。我们进一步利用梯度反转层( GRL )和域鉴别器的对抗性技术来调整两个域之间的预测差异和外观差异。

定量评价

我们使用了四种类型:汽车、行人、植被和房屋,以及四种类型的关系:前、左、右和后。所有的关系都以汽车为主题。

Table of results.
表 1 。在人工驾驶环境下训练时对 KITTI hard 的评估。类特定的 AP 和 mAP 报告为 0 . 5iou 。

表 1 显示了与基线相比,标签对齐和外观对齐在所提出的方法中如何显著地减少域间隙。我们将 Sim2SG 与基于随机化的方法( Prakash et al ., 2019 )、解决内容差距的方法( Kar et al ., 2019 )、基于伪标签的自学习方法( Zou et al ., 2018 )和用于目标检测的域自适应方法( Chen et al ., 2018 ; Xu et al ., 2020 ; Li et al ., 2020 )进行了比较。通过结合标签、外观和预测对齐(最后一行),域间隙进一步减小。

定性评价

Three columns to show that Sim2G generates more accurate scene graphs.
图 3 。 Sim2SG 在目标域上的定性结果。

图 3 显示了 Sim2SG 在目标域上的定性结果。第一列显示仅源基线无法检测到对象或具有大量误报(错误标记),从而导致场景图不佳。我们的方法能够更好地检测对象,具有更少的误报,并最终生成更精确的场景图,分别如第二列和第三列所示。这是因为外观对齐项减少了假阳性检测。此外,标签对齐项还提高了检测性能,因为它有助于生成用于训练的合成数据,这些数据与目标域的标签对齐程度更高。图 4 显示了一些与目标域样本相对应的标签对齐的合成重建。

Two columns of results with KITTI samples on the right and corresponding synthetic samples on the left.
图 4 。基于标签对齐的驾驶环境中目标 KITTI 样本的综合重建。基蒂样品(右)和相应的合成样品(左)。

概括

在这项工作中,我们提出了 Sim2SG ,一个模型,实现了 sim-to-real 转移学习场景图生成上未标记的真实世界数据集。我们将域间隙分解为合成域和真实域之间的标记、预测和外观差异。我们提出了解决这些差异的方法,并在所有三种环境( Clevr 、 dinning-Sim 和 Drive-Sim )中实现了基线的显著改进。

有关更多信息,请参阅以下参考资料:

Tags