论文链接:https://arxiv.org/abs/1804.00168

小时候,你是如何熟习周围环境路线的?例如怎么去朋友家、去学校或者去杂货铺?可能没有舆图,只是大略地记住街道的外不雅观、沿路的变向。
随着在附近街区的探索逐渐增多,你变得更加自傲,开始学习新的、更繁芜的路。
有时你可能会迷路,但是在路标或者太阳(指南针)的帮助下你可以重新找到精确的路。

导航是一项主要的认知任务,帮助人类和动物在没有舆图的情形下穿过繁芜天下中长长的路途。
此类长间隔导航可同时支持自我定位(「我在这里」)和目标表征(「我要去那儿」)。

在论文《Learning to Navigate in Cities Without a Map》中,DeepMind 展示了一种交互式导航环境,该环境利用来自谷歌街景的第一人称视角图像,并游戏化该环境来演习 AI。
只管谷歌街景图像已经很标准了,但是人脸和汽车牌照比较模糊、无法辨认。
DeepMind 构建了一个基于神经网络的人工智能体,可利用视觉信息(来自谷歌街景图像的像素)学会在多个城市之间导航。
把稳该研究是关于常日意义上的导航,并非驾驶。
DeepMind 未利用交通信息,也没有考试测验建模车辆掌握。

没有地图也能导航DeepMind展示全新AI导航技能

在没有环境舆图的情形下,DeepMind 智能体在视觉多样化环境中导航。

当智能体到达目标地点时会得到褒奖(目标地点是指定的,如经纬度坐标),就像一个没有舆图、带着大量货色的快递员。
随着韶光的推移,该人工智能体学会用这种办法穿越全体城市。
DeepMind 还展示了其智能体可在多个城市中学习实行该任务,然后稳定地泛化至新的城市。

智能体在巴黎演习时的定格动画。
图像右上方是城市舆图,显示目的地(赤色)和智能体位置和视野(绿色)。
把稳该智能体无法看到舆图,只能看到目的地的经纬度坐标。

不通过舆图构建来学习导航

DeepMind 背离了传统的依赖于舆图绘制和探索的方法(例如制图员给自己定位同时绘制舆图)。
相反,他们的方法是让系统像人类一样导航,不须要舆图、GPS 定位或其它帮助,只须要利用视觉不雅观测。
他们构建了神经网络智能体,它以对环境的视觉不雅观测图像为输入,并预测自己的下一个动作。
他们利用了深度强化学习来端对端地演习智能体,这和最近的两项研究《LEARNING TO NAVIGATE IN COMPLEX ENVIRONMENTS》以及《REINFORCEMENT LEARNING WITH UNSUPERVISED AUXILIARY TASKS》相似。
但和这些研究所不同的是,他们没有利用小规模的虚拟环境,而利用了城市规模的真实天下数据,包括伦敦、巴黎和纽约中繁芜的交汇道路、人行道、隧道以及各种拓扑构造。
此外,他们的方法支持特定城市的学习和优化,以及通用的可迁移的导航行为。

模块化的神经网络架构,可迁移至新城市的导航

智能体的神经网络由三部分构成:(1)可处理图像和提取视觉特色的卷积神经网络;(2)地区特定的循环神经网络,可影象环境,以及学习当前位置和目标位置的表征;(3)区域不变(locale-invariant)的循环网络,可以天生对智能体动作的导航策略。
地区特定的模块被设计成可更换的,并且对付其导航的城市是唯一的,而视觉模块和策略模块则是区域不变的。

(a)CityNav 架构的比拟;(b)MultiCityNav 架构,为每个城市供应地区特定的路径;(c)演习过程和将智能体适应到新城市的迁移过程。

正如谷歌街景中的界面一样,智能体可以在其位置旋转或走向下一个全景图。
但和谷歌舆图以及街景环境不同的是,智能体没有小箭头提示、局域或全局舆图,也没有著名的 Pegman(学习区分公路和人行道)。
智能体的目的地可能位于现实天下的数公里之外,它须要逐步利用数百个全景图才能到达目的地。

DeepMind 表示其方法供应了一种将知识迁移至新城市的机制。
当智能体访问新城市时,人类当然希望它学习一系列新地标,但是没必要重新学习视觉表征或行为(如沿街道推进或在路口转弯)。
因此,DeepMind 利用 MultiCity 架构,首先在多个城市中进行演习,然后冻结策略网络、视觉卷积网络和多个新城市特定路径。
该方法使智能体在不遗忘之前所学知识的条件下获取新知识,与《Progressive Neural Networks》中的架构类似。

该研究中利用的曼哈顿五个区域舆图

导航是人工智能研究和发展中的根本研究,考试测验在人工智能体中复现人类导航也可以帮助科学家理解其生物性根本。

原文地址:https://deepmind.com/blog/learning-to-navigate-cities-without-a-map/