但你不才面的动图中也能看到,这套名为 Dactyl 的机器手系统能够按照指令哀求,轻松完成迁徙改变立方体的动作,而且这种包含各种技巧的指尖操作,显然要比过去我们所看到的机器人行走跳跃繁芜得多。

Dactyl 自以是能够实现这么高效的运作,和 Open AI 利用的强化学习算法有关系。
就像是刚出生的小孩一样,AI 或是机器人刚造出来后同样什么都不懂,如果你希望它能够完备理解某项繁芜任务的流程,肯定须要进行反复的演习

尤其是对付真实存在的物理机器人来说,研究职员每每要耗费大量的现实韶光对其进行辅导练习。

但 OpenAI 现在的做法,则是完备在虚拟环境中对 AI 机器人进行演习,然后再把 AI 运用在实体机器人身上。
他们还会在演习的过程中增加大量的动态随机事宜,让 AI 在这个过程中自己领悟出完成任务的诀窍。

OpenAI 造出一款机械手臂50 小时就能模拟人手一百年的演习量

以这次的机器手掌为例,首先,他们会教导机器手臂按照指令,将六面立方体中的精确颜色翻转出来;然后便开始改变周围环境的灯光和噪声,以及立方体的颜色、重量、纹理和摩擦力等;乃至还会改变演习过程中的重力环境成分。

之以是会加入这些随机化的变量,也是为了让 AI 能更好的应对各种意外情形的发生:“比如说不同的重力环境下,Dactyl 自己就会去领悟这会对立方体操控造成哪些影响。
不然在现实天下中,一旦我们改变手臂的高度,重力环境发生改变,立方体可能就会从手中滑落。

其余,由于不用模拟人类的行为,以是 OpenAI 的演习办法也可以许可 AI 充分去思考人类没有思考过的办法,说不定还能获得意想不到的成果。

这种虚拟环境的演习模式还有一个好处,那便是不会耗费现实天下的韶光。
目前 Dactyl 已经积累了大约 100 年的演习履历,考试测验用无数种方法来掌握立方体的迁徙改变,但实际上这个过程只相称于我们现实天下中的 50 个小时而已。

在虚拟天下里完成演习后,AI 就可以运用这些履历去剖析现实天下里的动态成分,并调度自己的行为来完成任务了。
如今 Dactyl 已经可以连续完成 50 次的立方体旋转操作,且不会出错。

值得一提的是,这种超高效的演习模式不仅能利用在物理机器人上,也同样可以用于其它的虚拟 AI 模型。
在去年 7 月份,OpenAI 开拓的 Open AI Five 也同样在虚拟天下里经历了上万个小时的学习,实际上只是花费了几天的韶光,然后它便在 Dota2 游戏中击败了职业选手 Dendi。

虽然只是一次 solo 对决而非 5v5,但依旧让我们看到了人工智能在电竞这种繁芜领域的有效性,包括我们所熟知的 “围棋杀手” AlphaGo,也是 DeepMind 公司利用深度强化学习演习出来的 AI 模型。

听说强化学习的灵感最夙兴源于人类对自然界动物学习过程的长期不雅观察,之以是近几年内才开始考试测验,也是受益于神经网络技能的进步,以及 OpenAI 本身的规模上风。
一旦强化学习的基准更为多样和繁芜,自然也得付出不小的运算本钱。

按照 OpenAI 给出的数据,Dactyl 的演习设备动用了约 6144 颗 CPU,以及 8 颗来自 Nvidia 的 V100 GPU,这种规模的根本硬件只有很少数的研究机构才能够利用。

总得来说,OpenAI 提出的 “将仿照环境的成果运用到现实天下” 会是开拓通用机器人的有效办理方案之一,但也有机器人专家认为,这种程度的实验结果只会局限在某一个特界说务上,能否真正办理现实天下的难题,则仍旧是一个未知数。

题图来源:OpenAI