AlphaGo 酷不酷?Google 收购的人工智能公司 DeepMind 利用业界领先的深度学习技能在围棋这种智商哀求略高的游戏上碾压了人类,那下一步呢?

下面这个视频你看了可能会以为可笑,一个连蠢萌都算不上的屈曲动画形象在 3D 模型上进行着各种各样的——额,如果你非要把它称为「跑酷」也不是不可以。
是的你可能想不到这与动漫《攻击的巨人》中的「奇行种」巨人有几分相似的仿照机体,也是出自 DeepMind 之手。

在他们最新发布的一篇题为《丰富环境下运动行为的涌现》的论文中,DeepMind 表示,对 AI 来说玩 Atari 的游戏或者下围棋,程序须要被设置的目标很大略,只要赢就行。
但如果是让 AI 完成一次后空翻呢?你要若何向机器描述后空翻的标准?于是他们开始研究演习 AI 穿越各种各样的地形,完成跳跃、转向、屈膝等相对繁芜的动作。

DeepMind 的研究职员已经演习了很多仿照机体,包括一个无头行者,一个四足蚂蚁和一个 3D 的仿照人体,通过完身分歧的动作任务来学习人类更加繁芜的行为。

AI 自学跑酷不下围棋之后 DeepMind 做出了一堆奇行种

(无头行者)

加强学习技能(reinforcement learning)是对 AI 深度学习实施干预的一个别系,通过利用这种技能,人类可以根据自己的意愿勾引 AI 完成深度学习,在 AI 达到自己想要的效果时给以算法意义上的褒奖,这样深度学习末了达成的结果就更靠近人类最初所设想的。

来自 Google 的 DeepMind 就利用了这种技能,并教会了 AI 仿照机体完成了一条跑酷路线。

DeepMind 想知道这种大略的褒奖机制能否在繁芜的环境中利用,他们设计了一系列的跑酷路线,有落崖,有障碍,还有墙壁,每一次完成关卡都会赢得系统褒奖。

基本规则如下:最快打破障碍物的 AI 仿照机体将得到最大的褒奖,更加繁芜的项目将会得到额外的褒奖和惩罚。

「结果显示我们的行动主体在没有收到特定指示的条件放学会了这些繁芜的技能,证明了这种演习多种不同仿照机体的方法是可行的。

(DeepMind 官网上的一句 Slogan)

事实上,目前市情上的机器人能做的事情还非常少,就连波士顿动力那种非常前沿的机器人公司也只能推出一些实验室产品,单单是倒下后重新站起来就已经难倒了许许多多的机器人研发机构,以是虽然看起来很蠢,但 DeepMind 的这项研究成果还是非常黑科技的。

(波士顿动力的机器人在倒下后可以自己站起来,图源:Discover Magazine Blogs)

据 The Verge 的说法,强化学习技能常日天生的行为是非常薄弱的,在不同的环境下无法担保行为的完成质量,就像一个孩子在家里能学会若何爬楼梯,但出了门就弄不懂扶梯要怎么坐了。

DeepMind 通过实例证明了强化学习技能可以用来教机器学习繁芜的行动,究竟有多繁芜,我们来看看这些 DeepMind 在他们的博客中发出来的动图吧。

文章参考:DeepMind

头图来源:Upup