弥平仿真与现实的鸿沟：李飞飞、吴佳俊团队发布用于 Sim2Real 迁移的多感官物体数据集

互推小编 2024-01-17

李飞飞、吴佳俊等人发布多感官物体数据集 OBJECTFOLDER 2.0。是否准备好从 ImageNet 时代走向 OBJECTFOLDER 时代？

编译｜OGAI

编辑｜陈彩娴

近年来，以物体为中心的多传感器学习显示出了巨大的潜力。然而，以往的物体建模工作与现实的差距还很大。为此，李飞飞团队曾发布 OBJECTFOLDER 1.0 据集，包含 100 个具有视觉、听觉和触觉数据的虚拟物体。然而，该数据集的规模较小，多传感器数据的质量较低，让利用该数据集训练的模型不能很好地泛化到现实场景中。

在本文中，李飞飞、吴佳俊团队重磅发布了大规模的多感官家居物品数据集 OBJECTFOLDER 2.0，这些数据以一种隐式神经表征的形式存在。相较于 OBJECTFOLDER 1.0，该数据集有三大提升：（1）数据集的规模为前者的 10 倍，渲染时间也快了几个数量级（2）显著提升了所有三种模态的多感官渲染质量（3）作者说明了，利用该数据集中的虚拟物体学习的模型可以成功地在三个具有挑战性的任务（物体尺寸估计、触点定位、形状重建）。OBJECTFOLDER 2.0 为计算机视觉和机器人技术领域的多感官学习提供了新的研究途径和测试平台。

论文地址：https://arxiv.org/pdf/2204.02389.pdf

代码地址：https://github.com/rhgao/ObjectFolder

数据集概述

在日常生活中，我们会感知和操作各种各样的物体。这些物品的三维形状、外观、材料类型等物理属性各异，具有独特的感觉模式，都有非常不同的物理属性——3d形状、外观和材料类型，这导致它们具有独特的感觉模式：闹钟看起来是圆的、光滑的，用叉子敲击盘子时会发出「叮当声」，触摸刀片时会感到刀的锋利。

然而，以往建模真实世界物体的工作较为局限，与真实世界的差距较大。在计算机视觉领域中，我们往往在二维空间中建模物体，重点关注在静态图像中识别、定位它们。早先的形状建模工作则构建物体的 3D CAD 模型，但是往往只关注其几何特性，物体的视觉纹理质量也较低。此外，大多数工作都没有关注完整的物理物体属性，只关注单一模态（通常是视觉）。

图 1：OBJECTFOLDER 2.0 数据集。

我们旨在构建一个大型的逼真、多感官器的 3D 物体模型数据集，使利用该数据集中的虚拟物体学习的模型可以被泛化到真实世界的对应物体上。如图 1 所示，我们利用真实世界物体的现有的高质量扫描，提取其物理特征（例如，视觉纹理、材料类型，3D 形状）。接着，我们根据物体的固有物理属性，对其视觉、听觉、触觉数据进行仿真，并使用了一个隐式神经表征网络「Object File」对仿真的多感官数据进行编码。如果感知到的数据足够逼真，利用这些虚拟物体学习到的模型就可以被迁移到包含这些物体的真实世界任务中。

图 2：OBJECTFOLDER 2.0 数据集中的物体示例。

为此，OBJECTFOLDER 2.0 数据集应运而生。该数据集包含从网络资源中收集到的 1,000 个高质量的 3D 物体。其中，100 个物体来自 OBJECTFOLDER 1.0 数据集，855 个物体来自 ABO 数据集，45 个物体来自 Google Scanned Objects 数据集。相较之下，OBJECTFOLDER 2.0 相较于 1.0 版的渲染速度更快、多感官仿真质量更高。我们改进了听觉和触觉仿真架构，从而渲染出更逼真的多感官数据。此外，我们提出了一种新的隐式神经表征网络，可以实时地基于任意的外部参数渲染视觉、听觉、触觉感官数据，这些数据具有目前最佳的质量。我们成功地将利用我们的虚拟物体学习到的模型迁移到了三项具有挑战性的现实世界任务（物体尺寸估计、触点定位、形状重建）上。

具体而言，我们为每个物体构建的「元数据」包含从真实产品的公开网页上获取的物体的类型、材料、颜色、尺寸等信息。我们根据物体的材料类型清洗了数据集，只保留下材料类型为「陶瓷、玻璃、木材、塑料、铁、聚碳酸酯、钢」的物体，并对数据的正确性进行了人工验证。

本文的主要贡献如下：

（1）发布了一个新的大型 3D 物体多感官数据集，物体以隐式神经保证的形式存在，该数据集的规模是现有的 OBJECTFOLDER 1.0 的十倍。我们显著提升了视觉、听觉、触觉的多感官渲染质量，渲染速度快了数个数量级。

（2）我们说明了，使用本数据集学习的模型可以被成功迁移到一系列真实世界任务上，为计算机视觉和机器人学的多感官学习提供了新的研究路径和测试平台。

多感官仿真及隐式表征

如图 1 所示，相较于离散的传统信号表征，隐式表征具有许多优势。我们可以将每个感官模态参数化表示为一个连续函数，该函数将外部参数（例如，视觉上的相机视角、光照条件，听觉上的冲击强度，触觉上的凝胶变形）映射为特定位置或条件下相应的感官信号。隐式神经表征是我们通过神经网络得到的对该连续函数的近似，这使得存储原始感观数据的内存与外部参数相互独立，用户可以轻松地获取隐式表征。此外，由于隐式神经表征是连续的，我们可以以任意分辨率对感观数据进行采样。

图 3：用于生成隐式表征的「Object File」网络包含三个子网络：VisionNet、AudioNet、TouchNet。

与 OBJECTFOLDER 1.0 相比，我们通过用数千个独立的多层感知机（MLP）表征每个物体加速了 VisionNet 的推理；就 AudioNet 而言，我们只预测信号中与位置相关的部分，而不是直接预测声波频谱图，大大提高了渲染质量，同时加快了推理速度；新的 TouchNet 可以渲染具有各种旋转角度和凝胶变形的触觉读数，而 OBJECTFOLDER 1.0 的每个顶点只能渲染单个触觉图像。

图 4：OBJECTFOLDER 2.0 中的视觉、听觉、触觉数据渲染结果相较于 OBJECTFOLDER 1.0 有显著提升（以 YCB 数据集中的杯子为例）。

视觉——VisionNet

我们在 KiloNeRF 的基础上构建了 KiloOSF 作为 VisionNet。KiloNeRF 使用了多个独立的小 MLP 表征静态场景，而不是使用单个 MLP 表征整个场景。每个独立的 MLP 处理场景的一小部分，足以进行逼真的图像渲染。

类似地，我们将每个物体细分为均匀分辨率的网格，每个网格单元的 3D 索引为。从位置 x 到索引 i 的映射 m 可以表示为：

其中，和分别为轴对齐边界框（AABB）的最小和最大界。对于每个网格单元，我们利用带有参数的 MLP 网络表征相应的物体部分。接着，我们首先确定包含点 x 的网格单元的索引，然后查询相应的小 MLP，就可以得该点的 r 方向上的颜色和密度值：

参考 KiloNeRF，我们使用了「基于蒸馏的学习」策略避免在渲染时产生伪影。我们首先针对每个物体训练了一个普通的「以物体为中心的神经散射函数」（OSF），然后将每个教师模型的知识蒸馏到 KiloOSF 模型中。我们还使用了空的空间跳转和早期光线终止提升渲染的效率。

听觉——AudioNet

我们使用为自然环境下的物体网格设计的序贯法将每个对象的表面网格转换为一个体积二阶四面体网格。接着，我们使用有限元方法（FEM）对生成的四面体网格和有限元分析软件「Abaqus」中的二阶元素执行上述模态分析过程。我们对在各轴向上以单位力触碰四面体网格各顶点的振动模式进行了仿真。接着，我们训练了一个以四面体网格顶点坐标作为输入的多层感知机，并预测该顶点在各轴向上被单位力触碰时每个模式下的增益向量。

在推理时，我们可以首先利用网络预测每个模态下的的增益，然后对利用网络预测出的增益和通过模态分析得到的频率、阻尼参数化的指数衰减正弦曲线求和，从而预测出物体的脉冲响应。我们进一步将每个顶点上的外部力 f 分解为沿着三个正交轴方向上的单位力的线性组合。最终的声波可以被表示为：

在 OBJECTFOLDER 1.0 中，我们使用了体积六面体网格记性模态分析，而 2.0 中使用的更高阶的四面体网格，从而在表征大小相同的情况下，捕获到更精细的特征和表面曲率，也得到了更精确的弹性形变。因此，AudioNet 2.0 可以对物体的声学属性进行更加精确的建模。此外，AudioNet 1.0 直接预测复杂的声波频谱，其维度过高，局限于固定的分辨率和时长。AudioNet 2.0 则只预测与位置相关的部分信号，然后通过解析获得其它的模式信号。

触觉——TouchNet

我们使用「GelSight」触觉传感器的几何测量值作为触觉读数。为此，我们需要同时对接触的形变和对于形变的光学相应进行仿真。我们的触觉仿真需要实现以下三个目标：（1）针对接触的位置、方向、按压深度灵活地渲染触觉读数（2）为训练 TouchNet 高效地渲染数据（3）使仿真尽可能与现实情况相近，从而泛化到真实世界的触觉传感器中。

为此，我们采用了下面的双阶段方法来渲染逼真的触觉信号：首先，我们模拟接触区域内的物体形状和非接触区域内的凝胶垫的形状的接触形变图，从而表示接触点的局部形状。我们使用 Pyrender 对传感器和物体的交互进行仿真，使用 GPU 加速的 OpenGL 渲染形变图，实现了 700 帧/秒的数据生成。

我们使用 TouchNet 对接触物体各顶点的形变图编码，将每个物体的触觉读数表征为一个 8 维函数。该函数的输入为物体坐标系中的 3D 位置，3D 单元接触方向通过参数化，物体陷入凝胶的深度为 p，形变图中的空间位置为。该网络的输出为接触的形变图的像素值。在渲染形变图之后，我们利用目前最先进的 GelSight 仿真框架 Taxim 根据形变图渲染触觉 RGB 图像。

相较之下，OBJECTFOLDER 1.0 中的 TouchNet 智能沿着每个顶点的法线方向渲染单张触觉图像，新设计的 TouchNet 可以生成旋转角度在 15° 以内、按压深度在 0.5-2mm 之间的触觉输出。此外，在 Taxim 的帮助下，形变图到触觉光学输出的映射可以很容易地校准到不同的基于视觉的触觉传感器，产生逼真的触觉光学输出，从而实现 Sim2Real 的迁移。

Sim2Real 物体迁移

我们希望利用 OBJECTFOLDER 2.0 中的虚拟物体学习的模型可以泛化到真实世界的物体上。为此，我们测评了模型在物体尺寸估计、触点定位、形状重建这三个任务上的迁移性能，说明了数据集的有效性。

物体尺寸估计

物体的所有感官模态都与尺寸紧密相关。我们利用 OBJECTFOLDER 2.0 数据集中渲染的多感官数据训练模型，用 8 个具有视觉、听觉、触觉真实感官数据的物体进行测试。针对视觉和听觉，我们训练了一个 ResNet-18 预测物体尺寸，其输入为物体的 RGB 图像或撞击声的幅度频谱。针对触觉，我们使用循环神经网络融合 10 次连续触摸的读数，实现了基于触觉的尺寸预测。

表 1：物体尺寸预测结果。

「Random」表示在与我们的模型相同的范围内随机预测尺寸的对比基线。使用 OBJECTFOLDER 2.0 中的多感官数据训练的模型可以更好地泛化到真实世界物体上，证明了仿真的真实性和隐式表征网络编码的准确性。

「触觉-听觉」触点定位

在与形状已知的物体交互时，准确识别交互的位置是十分重要的。碰撞提供了关于接触位置的局部信息，而在不同表面位置的碰撞会产生不同的模态增益。我们研究了使用碰撞声和/或与接触相关的触觉读数进行触点定位的可能性。

我们通过粒子滤波（particle filtering）定位接触位置的序列，收集这些位置的触觉读数或碰撞声音。对于触觉，我们使用一个预训练的 FCRN 网络中提取特征，用于根据触觉图像进行深度预测。对于听觉，我们从每 3 秒的碰撞声中提取 MFCC 特征。我们将这些特征与代表候选接触位置的物体表面采样的粒子进行比较。与实际的触觉传感器读数或碰撞声音特征相似度得分高的粒子被认为更有可能是真正的接触位置。

表 2：「听觉-触觉」触点定位。

我们使用与真实标注触点位置的平均欧氏距离作为评估度量。实验结果表明，基于触觉的触点定位相较于基于听觉的定位更加准确。

图 5：基于触觉和听觉的触点定位的可视化结果。

「视觉-触觉」形状重建

单图像形状重建在视觉领域被广泛研究。然而，在有遮挡的情况下，触觉信号对于感知物体形状则极具价值。视觉可以提供粗略的全局上下文，而触觉提供精确的局部几何特性。在这里，我们训练模型根据包含物体和/或物体表面的一系列触觉读数的单张 RGB 图像重建三维对象的形状。

我们使用 PCN 网络作为该任务的测试平台。对于触觉，我们使用 32 个触觉读数，并根据相应的触摸姿势将相关的变形映射到稀疏的点云上。将稀疏的点云作为 PCN 网络的输入，生成密集完整的点云。在视觉方面，我们没有使用一系列局部触点图作为物体的部分观测数据，而是使用 ResNet-18 网络根据包含物体的单张图像中提取的全局特征来监督形状补全过程。对于基于视觉和触觉的形状重建，我们使用双流网络，使用全连接层将根据两种模态预测的点云合并，以预测最终的密集点云。