参与:一鸣、杜伟
近日,来自 OpenAI 的研究者演习了一对神经网络,利用一只类人机器手来玩魔方。他们完备在仿照中演习神经网络,并在演习过程中利用了与演习 OpenAI Five 相同的强化学习代码和一种名为自动域随机化(Automatic Domain Randomization,ADR)的新技能。该系统可以处理演习中未遇见过的情形,例如不受各种外界滋扰的影响。这表明强化学习工具不仅仅可以处理虚拟任务,而且还能够办理须要高度灵巧性的真实天下问题。借助于手臂,人类可以完备各种各样的任务。而在机器人过去 60 年的发展进程中,人类通过双手可以完成各项繁芜的任务,但却须要针对每项任务设计特定的机器人。
那么,机器人是否可以像人一样玩魔方呢?自 2017 年 5 月以来,OpenAI 的研究者一贯在考试测验演习类人机器手来办理玩魔方问题。2017 年 7 月,他们在仿照环境下实现了机器手玩魔方。但截至 2018 年 7 月,研究者只能实现玩大略魔方。现在,他们终于实现了机器手玩魔方的目标。
单手玩魔方对付人类来说都很困难。以是,OpenAI 的技能还不是足够完善,目前,OpenAI 的技能可以让机器人办理 60% 的魔方情形,在最困难的魔方上只能办理 20%。
在机器手玩魔方的过程中,研究者还对其施加了各式各样的滋扰,如戴橡胶手套、绑住食指和中指、蒙上一块布、「假长颈鹿」滋扰和用笔戳等。值得欣慰的是,OpenAI 的机器手在各种滋扰下依然不为所动,淡定地玩「自己的」魔方。
OpenAI 的机器手戴着橡胶手套也可以玩魔方。
机器手被绑住了食指和中指。
给机器手蒙上一块布。
OpenAI 的机器手在玩魔方时受到「假长颈鹿」的滋扰,但依然紧握不松手。
用笔戳机器手。
论文地址:https://d4mucfpksywv.cloudfront.net/papers/solving-rubiks-cube.pdf
两项任务
在论文中,OpenAI 的研究者考虑了两项都利用影子机动手指(Shadow Dexterous Hand)的不同任务:魔方块的重定向和完成魔方。
魔方块重定向
魔方块重定向任务是为了旋转方块到期望的目标方向上。如果一个方块的旋转弧度与目标方向保持在 0.4 之内,则认为该方块旋转到了精确的方向,然后也就天生一个新的随机目标(即另一个方块也开始旋转)。
完成魔方
研究者提出利用相同的影子机动手指来办理魔方任务。简言之,魔方是一种内部具有 6 种自由度的益智游戏,包含 26 个通过接头和弹簧系统相连的方块。每个方块有 6 个面,可以自由旋转,从而带动全体魔方迁徙改变。如果魔方的 6 个面都成为一种颜色,则认为魔方任务完成。
图 3:方块重定向任务(左)和完成魔方任务(右)视图。
方法
研究者演习神经网络,并利用强化学习来完成魔方任务。他们在演习过程中碰着了一个最大寻衅,即在仿照中须要创建足够多样化的环境,从而尽可能多地捕捉到真实天下的物理状态。摩擦力、弹性和力度这些成分对付繁芜的魔方或机器手而言是难以丈量和建模的,并且创造仅仅依赖域随机化是不足的。
基于此,研究者提出利用自动域随机化的方法在仿照中不断地天生越来越困难的环境。
自动域随机化(ADR)
ADR 从单一的、非随机环境开始,这里神经网络考试测验学习办理魔方问题。当神经网络在任务表现上变得更好并达到了性能门槛后,随机化域的数量自动增加,使得任务变得更难办理。神经网络连续学习,直到性能达到最好,然后再增加随机化的环境,如此反复。
ADR 图示。ADR 掌握环境的分布。研究者从分布中采样不同的环境数据,用于天生演习集,然后将演习集作为输入,演习策略或视觉状态评估器。
(a)研究者利用 ADR 天生仿照分布,个中利用了随机的参数,这些数据可以用于掌握策略和基于视觉的状态评估器上;(b)掌握策略网络收到不雅观察到的机器人状态信息和从随机仿照中得到的褒奖,利用一个循环神经网络和强化学习办理这些问题;(c)基于视觉的状态仿照器利用从随机仿照中产生的各种图像,并利用 CNN 学习预测魔方的姿态和朝向。学习过程和掌握策略分离。
通过 ADR,研究者可以演习一个神经网络,用于办理真实机器人手中的魔方问题。这是由于 ADR 输入的各种环境信息可以让网络打仗到各种各样的随机仿照。
(d)将模型迁移到真实天下。研究者利用三个摄像机得到魔方的姿态信息,并利用 CNN 进行处理,同时利用 3D 姿态捕捉系统得到机器人手指的位置信息。而魔方的朝向则利用同一个视觉状态评估器或 Giiker 方块——一个有着内部嵌入传感器的方法输入到策略网络中。
行为、褒奖和目标
研究者在策略网络上利用了循环神经网络的架构。他们利用有着 ReLU 激活函数的全连接层作为输入层,并利用一个单层 LSTM 层进行处理。
代价网络和策略网络是分开的,但是两者有着一样的架构。研究者将 LSTM 输出映射为一个标量值。
图 12:(a)代价网络和(b)策略网络的模型架构。
视觉模型
图 13:在每一壁中间有一个缺口的魔方。(a)是仿照状态;(b)是现实中的魔方。
为了仿照魔方的视觉信息,研究者利用左、上、右三个摄像机捕捉图像,然后利用 ResNet50 提取每个图像的特色。这些特色向量被展开、级联、然后输入进一个堆栈式全连接层,用于预测魔方的整体状态,包括位置、朝向和角度等。
图 14:视觉模型的架构,基于 ResNet50。
整体的架构如图所示:
图 11:通过 ADR 向(a)策略和(b)视觉网络输入环境变量,并在演习进行中不断增加 ADR 输出环境的难度。
实验结果
图 1:一个五指人手机器利用强化学习和 ADR 办理魔方问题。
表 8:块重定向策略隐蔽状态在不同的 ADR 熵情形的准确率。
图 19:(a)块重定向和(b)魔方问题办理议方案略的测试准确率。每条折线代表不同的环境变量。
参考链接:
https://openai.com/blog/solving-rubiks-cube/