首页 >> 李元智

麻省理工学院的机器人结合了视觉和触觉来学习积木游戏赵美彤

2023-06-08 17:11:22 赵美彤

麻省理工学院的机器人结合了视觉和触觉来学习积木游戏

在麻省理工学院3号楼的地下室，一个机器人正在仔细考虑其下一步行动。它在孤单，缓慢移动但出人意料的敏捷性的Jenga游戏中，轻柔地刺向一个高耸的方块，寻找最佳的方块来提取而不倒塌。

该机器人由麻省理工学院的工程师开发，配备有软钳，抓力腕带和外部摄像头，所有这些都可以用来观察和感觉塔楼及其各个街区

当机器人小心地推向障碍物时，计算机会从其摄像头和袖带中获取视觉和触觉反馈，并将这些测量结果与机器人先前进行的动作进行比较。

它还考虑了这些动作的结果-具体来说，是否成功地提取了以某种配置并用一定量的力推动的块。然后，机器人可以实时“学习”是继续推动还是移动到新的街区，以防止塔楼掉落。

玩积木的机器人的详细信息发表在《科学机器人》杂志上。麻省理工学院机械工程系的Walter Henry Gale职业发展助理教授Alberto Rodriguez说，该机器人演示了以前的系统难以实现的一些事情：快速学习执行任务的最佳方法的能力，而不仅仅是从视觉提示，也从触觉，身体互动中获得。

“与像纯粹的认知任务或象棋或围棋这样的游戏不同，玩积木游戏还需要精通探测，推动，拉动，放置和对齐棋子等物理技能。需要互动的感知和操纵，去触摸塔楼，以了解如何以及何时移动积木。”

罗德里格斯说。“这很难模拟，因此机器人必须通过与真实的积木塔互动来在现实世界中学习。关键的挑战是通过利用有关物体和物理学的常识从相对较少的实验中学习。”

他说，研究人员开发的触觉学习系统可以用在Jenga以外的应用程序中，尤其是在需要仔细物理交互的任务中，包括将可回收物体与垃圾填埋场分离，以及组装消费品。

一段带有机器人评论的视频，该机器人学习了玩真人叠叠乐的方式。，0:00 – 2:08探索阶段，2:09 – 11:21训练后的表演。

罗德里格斯说：“在手机装配线中，几乎每一个步骤中，扣合或螺纹螺钉的感觉都是来自力和触觉，而不是视觉。” “为这些动作学习模型是这类技术的主要领域。”

该论文的主要作者是麻省理工学院的研究生Nima Fazeli。该团队还包括麻省理工学院的脑与认知科学教授Miquel Oller，吴家俊，郑铮和Joshua Tenenbaum。

推和拉

在Jenga游戏中，将54个矩形块堆叠为18层，每层三块，每个层中的块垂直于下面的块。游戏的目的是仔细提取一个块并将其放置在塔的顶部，从而在不破坏整个结构的情况下构建新的关卡。

为了编程机器人来玩积木，传统的机器学习方案可能需要捕获可能在块，机器人和塔之间发生的所有事情—这是一项昂贵的计算任务，需要数千甚至数以万计的块提取尝试中的数据。

取而代之的是，罗德里格斯和他的同事们在人类认知以及我们自己可能会采用的游戏方式的启发下，寻求一种更具数据效率的方式来使机器人学习玩积木。

一段带机器人解说的视频，学习如何玩另一只积木，并带有重置塔。0:00 – 1:17探索阶段，1：18 – 2:49探索中的失败和鼓舞，2:50 – 11:47训练后的表现。

团队定制了符合行业标准的ABB IRB 120机械臂，然后在机器人可以触及的范围内搭建了一个叠叠塔，并开始了训练阶段，在此期间，机器人首先选择了一个随机的块并在该块上推了一个位置。然后，它施加了少量力，试图将砌块推出塔楼。

对于每次阻止尝试，计算机都会记录相关的视觉和力的测量值，并标记每次尝试是否成功。

机器人没有进行成千上万次这样的尝试，而是仅训练了约300次，将相似的测量结果和结果分组显示在代表某些街区行为的聚类中。

例如，一个集群可能表示尝试对难以移动的块进行尝试，而对较难移动的块进行尝试，或者在移动时将其推翻。

对于每个数据集群，机器人会根据当前的视觉和触觉测量结果开发一个简单的模型来预测块的行为。

Fazeli说，这种聚类技术大大提高了机器人学习游戏的效率，并且受到了人类对相似行为进行聚类的自然方式的启发：“机器人建立了聚类，然后为每个聚类学习模型。学习一个可以完全捕捉所有可能发生的事情的模型。”

叠起来

研究人员在使用模拟器MuJoCo进行的游戏计算机模拟中，针对其他最新的机器学习算法测试了他们的方法。在模拟器中学习的经验教训使研究人员了解了机器人在现实世界中的学习方式。

Oller说：“我们向这些算法提供了我们系统获得的相同信息，以了解他们如何学习在类似水平上玩Jenga。” “与我们的方法相比，这些算法需要探索更多数量级的塔来学习游戏。”

对于他们的机器学习方法如何与实际的人类玩家相结合感到好奇，该团队与几名志愿者进行了一些非正式的试验。

奥尔勒说：“在塔楼倒塌之前，我们看到了一个人能够提取多少个障碍物，而且差别并不大。”

但是，如果研究人员想竞争性地将他们的机器人与人类玩家相提并论，还有一段路要走。

除了身体上的互动之外，积木还需要采取一些策略，例如仅提取正确的方块，这会使对手很难在不倒塌塔的情况下拉出下一个方块。

目前，该团队对开发机器人积木冠军的兴趣不大，而更专注于将机器人的新技能应用于其他应用领域。

罗德里格斯说：“在用手和触觉提示的语言中，感觉到做“正确方法”的感觉很多。” “对于这样的任务，我们可以采用类似的方法解决。”

美国国家科学基金会通过“国家机器人计划”部分支持了这项研究。