MIT发明10美元AI触觉手套：识别物体，又能称重，论文已上Nature

互推小编 2023-11-08

手边没有秤时我们往往喜欢把东西拿起来掂一下，经验丰富的人可能真的能估计出物体的质量，但并非人人都有这种「超能力」。最近，MIT 的研究人员就发明了一种新的手套，戴上它不仅能掂出手边的小东西有多重，还能仅通过触觉识别出是什么物体。重点是，这么神奇的手套成本只有 10 美元。

MIT 研究人员开发了一种低成本的针织手套（仅需 10 美元）——「可伸缩触觉手套」（STAG，scalable tactile glove）。该手套配有 548 个微小的传感器，几乎遍布整个手掌。当人以各种方式和物体进行交互时，每个传感器都会捕捉压力信号。神经网络会处理这些信号，以「学习」与该物体相关的压力-信号模式，并形成数据集。然后，该系统利用收集到的数据集对物体进行分类，并仅通过触觉来预测它们的重量，整个过程无需视觉输入。

该技术可以用来帮助机器人识别和操纵物体，也可以用于假肢设计。

STAG 从人类的抓握中学习。a）STAG 手套学习人类抓握的全过程。b）STAG 手套的架构设计。

「人类能够很好地识别和处理物品是因为我们有触觉反馈。当我们触摸物品时，我们能感觉出来它到底是什么。但机器人没有这么丰富的反馈。我们总是希望机器人能够做到人类做的事，比如洗碗或其它杂务。如果你想让机器人做这些事，那它首先能够很好地操纵物体。」手套发明者之一 Subramanian Sundaram 说道，他博士毕业于 MIT CSAIL。

该项研究发表在了《Nature》上，论文为《Learning the signatures of the human grasp using a scalable tactile glove》。

研究人员在论文中介绍了其利用 STAG 与 26 个常见物体进行交互并收集到的数据集，这些物体包括汽水罐、剪刀、网球、勺子、钢笔等。基于该数据集，该系统预测物体类别的准确率可达 76%。该系统还能够准确预测大部分 60g 以内物体的重量。

市面上流通的类似传感器手套动辄上千美元，通常还只包含 50 个传感器，捕捉到的信息非常有限。但 MIT 研究人员设计的这款 STAG 手套，能够生成高分辨率的数据，且成本仅为 10 美元！是的，你没看错，10 美元。

提高机器人的理解能力

这个触觉传感系统可以与传统的计算机视觉和基于图像的数据集结合使用，从而使机器人对与物体的交互有更人性化的理解。

研究人员还使用数据集来衡量物体交互过程中手部不同区域之间的合作。例如，当人们使用食指的中间关节时，他们很少会使用拇指。但是食指和中指的指尖总是与大拇指一起使用。

Sundaram 说：「我们首次量化地证明，当我使用手的某一部分，使用另一部分的可能性有多大。」

物体操纵和抓取过程中手部各区域的合作。

假肢制造商可以利用这些数据来选择放置压力传感器的最佳位置，并帮助定制假肢，以适应人们经常接触的任务和物体。

利用触觉地图识别抓取物体

STAG 覆盖有一张可根据外在压力改变电阻的导电聚合物。研究人员让导电线穿过导电聚合物薄膜中的洞，从指尖一直到掌根。这些线形成一个个压力传感器。戴着 STAG 的人抓握、举起、放下或感受一样物体时，这些传感器可以记录每个点的压力。

这些线连接手套和外部电路，从而将压力数据转换为「触觉地图」，即手上各个点变大变小的视频。这些点表示压力点的位置，点的大小表示力的大小：点越大，压力越大。研究人员使用 STAG 手套与 26 个不同物体进行交互，并基于触觉地图收集了一个数据集，包含 135000 个视频帧。神经网络可使用这些视频帧预测物体的类别和重量，并感知人类的抓握。

为了识别物体的类别，研究人员设计了一个卷积神经网络（CNN），从而将特定的压力模式与特定物体联系起来。但是这个技巧需要从不同类型的抓握中选择视频帧，以获取物体的全貌。

其思路是：模仿人类抓握物体的多种不同方式，以便可以在不使用视力的情况下识别出物体类别。同样地，该 CNN 半随机地从视频中选取表示不同类型抓握行为的八个视频帧。

但是 CNN 无法从每个视频的数千个帧中随机选取帧。因此，它将类似的帧聚合在一起，形成对应不同抓握的各个簇。然后，它从每个簇中选取一帧，确保每个帧都具备代表性。接下来，CNN 使用它在训练过程中学到的接触模式，预测物体分类。

「我们想最大化选取的不同帧之间的差异，为网络提供最好的输入。」Kellnhofer 表示，「单个簇中的所有帧具备类似的信号，可以表示抓取物体的相似方式。从多个簇中采样可以模拟人类在探索物体类别时不断尝试不同抓握的方式。」

对于重量估计，研究人员构建了另一个数据集，包含手指和拇指抓、握、放下物体时的触觉地图的 11600 个视频帧。需要注意，CNN 训练数据集与测试数据集完全不同，这意味着它无法学习简单地将重量和物体联系起来。在测试中，研究人员将单个帧输入到 CNN 中。

本质上，CNN 只会挑出物体重量带来的手部压力，忽略其他因素（如为防止物体滑落所使用的手掌位置）导致的压力。之后，CNN 基于恰当的压力计算重量。

该系统可与机器人关节上的传感器结合起来使用，来衡量力矩和力，从而帮助机器人更好地预测物体重量。「关节对于预测重量来说是很重要的，但是从手指和手掌中我们也捕捉到了重要的重量组件。」Sundaram 表示。

根据触觉信息识别物体类别并估计重量。

a) 利用触觉信息来识别物体的 CNN 架构；b) 与使用随机输入相比，使用来自 N 个不同簇的不同触觉地图作为输入时，物体识别准确率有所提升；c) 单手操纵物体时的一组代表性示例；d) 模型扩展版学到的卷积滤波器；e) 对来自单个物体交互的触觉地图进行聚类，以确定该物体的不同类型触觉地图；f) 与线性模型相比，基于「Leave-one-out」的 CNN 的重量预测结果（置信区间为 ± 95%）。

参考内容：

https://www.therobotreport.com/mit-glove-tactile-sensors-manipulation/

https://www.nature.com/articles/s41586-019-1234-z%20

[注：本文部分图片来自互联网！未经授权，不得转载！每天跟着我们读更多的书]