机器之心编辑部
《西部天下》的游戏逐渐走进现实。
我们能否创造一个天下?在那个天下里,机器人能够像人类一样生活、事情、社交,去复刻人类社会的方方面面。
这种想象,曾在影视作品《西部天下》的设定中被完美地还原出来:浩瀚预装了故事情节的机器人被投放到一个主题公园内,它们可以像人类一样行事,记得自己看到的东西、碰着的人、说过的话。每天,机器人都会被重置,回到它们的核心故事情节中。
《西部天下》剧照,左边人物为预装了故事情节的机器人。
再把想象力扩展一下:放在本日,如果我们想把 ChatGPT 这样的大措辞模型变成西部天下的主人,又会怎么做?
在最近爆火的一篇论文中,研究者们成功地构建了一个「虚拟小镇」,25 个 AI 智能体在小镇上生存,它们不仅能够从事繁芜的行为(比如举办情人节派对),而且这些行为比人类角色的扮演更加真实。
论文链接:https://arxiv.org/pdf/2304.03442v1.pdf
Demo 地址:https://reverie.herokuapp.com/arXiv_Demo/
从《仿照人生》这样的沙盒游戏到认知模型、虚拟环境等运用,四十多年来,研究者们一贯设想去创建能够实现可信人类行为的智能体。在这些设想中,由打算驱动的智能体的行为会与其过往履历同等,并对环境做出可信的反应。这种人类行为的仿照可以用现实社会征象添补虚拟空间和社区,演习「人们」去处理罕见但困难的人际关系、测试社会科学理论、制作理论和可用性测试的人类处理器模型、供应泛在打算运用和社交机器人动力,还能为在开放天下(Open World)中驾驭繁芜人类关系的 NPC 角色奠定根本。
但人类行为的空间是巨大而繁芜的。只管在大型措辞模型可以仿照单个韶光点上的可信人类行为,但要想确保长期同等性,通用智能体须要一个架构来管理不断增长的影象,由于新的互动、冲突和事宜随着韶光推移而涌现和消退,同时还要处理多个智能体之间展开的级联社会动态。
如果一种方法能够在很长一段韶光内检索干系的事宜和互动,对这些影象进行反思,并归纳和得出更高层次的推论,并运用这种推理来创建对当下和长期智能体行为故意义的操持和反应,那么间隔梦想实现就不远了。
这篇新论文先容了「Generative Agents」(天生式智能体),一种利用天生模型来仿照可信人类行为的智能体,并证明它们能产生可信的个人和突发群体行为的仿照:
能够对自己、其他智能体和环境进行广泛的推断;能够创建反响自身特点和履历的日常操持,实行这些操持,做出反应,并在适当的时候重新操持;能够在终端用户改变环境或用自然措辞命令它们时做出反应。「Generative Agents」背后是一个新的智能体架构,能够存储、合成和运用干系的影象,利用大型措辞模型天生可信的行为。
举个例子,「Generative Agents」如果看到它们的早餐正在燃烧,会关掉炉子;如果浴室有人,会在表面等待;如果碰着想交谈的另一个智能体,会停下来谈天。一个充满「Generative Agents」的社会因此新兴的社会动态为标志的,在这个社会中,新的关系被形成,信息被扩散,并在智能体之间产生折衷。
详细而言,研究者在这篇论文中公布了几点主要细节:
Generative Agents,是对人类行为的可信仿照,它以智能体不断变革的履历和环境为条件进行动态调度;一个新颖的架构,使 Generative Agents 有可能记住、检索、反思、与其他智能体互动,并通过动态演化的环境进行方案。该架构利用了大型措辞模型的强大 prompt 能力,并对这些能力进行了补充,以支持智能体的长期同等性、管理动态演化的影象能力,以及递归地产生更多的世代;两项评估(对照评估和端到端评估),确定架构各组成部分的主要性的因果关系,以及确定因影象检索不当等缘故原由而产生的故障;谈论了交互系统中 Generative Agents 的机会和伦理及社会风险。研究者认为该当对这些智能体进行调度,减轻用户形成寄生社会关系的风险,对其进行记录以减轻由 deepfake 和定制说服所带来的风险,并在设计过程中以补充而非取代人类利益干系者的办法进行运用。文章一经发布,就引起了全网的热议。本就看好「AutoGPT」方向的 Karpathy 连连惊叹,认为「Generative Agents」比之前玩观点的「Open World」高了不是一点半点:
更有研究者断言,这项研究的发布,意味着「大型措辞模型实现了新的里程碑式进展」:
「Generative Agents」行为及其交互
为了使「Generative Agents」更加详细化,该研究将它们实例化为沙盒天下中的角色。
25 个智能体居住在名为 Smallville 的小镇,每个智能体由一个大略的化身表示。所有的角色都可以:
与别人和环境互换;记住并回顾它们所做的和不雅观察到的事情;反思这些不雅观察结果;制订每天的操持。研究者用自然措辞描述了每个智能体的身份,包括它们的职业以及与其他智能体的关系,并将这些信息作为种子影象。举例来说,智能体 John Lin 有如下描述(本文截取了一段):
「John Lin 是一名药店店主,他乐于助人。他一贯在探求使客户更随意马虎得到药物的方法。John Lin 的妻子是大学教授 Mei Lin ,它们和学习音乐理论的儿子 Eddy Lin 住在一起;John Lin 非常爱它的家人;John Lin 认识隔壁的老夫妇 Sam Moore 和 Jennifer Moore 好几年了……」
身份设定好之后,接着便是智能体如何与天下交互了。
在沙盒的每个 step 内,智能体都输出一个自然措辞语句,以描述它们当前的动作,例如语句「Isabella Rodriguez 正在写日记」、「Isabella Rodriguez 正在查看邮件」等。然后这些自然措辞被转化为影响沙盒天下的详细动作。动作以一组表情符号的形式显示在沙盒界面上,这些表情符号供应了动作的抽象表征。
为了实现这一点,该研究采取了一种措辞模型,可以将动作转换为一组表情符号,这些表情符号涌如今每个智能体化身上方的对话框中。例如,「Isabella Rodriguez 正在写日记」显示为
,「Isabella Rodriguez 正在查看邮件」显示为
。 除此以外,通过单击智能体头像可以访问完全的自然措辞描述。
智能体之间用自然措辞进行互换,如果智能体意识到在其周围有其他智能体,它们会思考要不要走过去进行谈天。例如 Isabella Rodriguez 和 Tom Moreno 就即将到来的选举进行了对话:
除此以外,用户还可以指定智能体扮演什么角色,例如,指定个中一个智能体为,你就可以向该智能体咨询新闻方面的内容。
智能体与环境的交互
Smallville 小镇有许多公共场景,包括咖啡馆、酒吧、公园、学校、宿舍、房屋和商店。此外,每个公共场景还包括自身具有的功能以及工具,例如屋子中有厨房、厨房中有炉子 (图 2)。在智能体的生活空间中还有床、桌子、衣柜、架子,以及浴室和厨房。
智能体可以在 Smallville 内随处走动,进入或离开一座建筑,导航前行,乃至去靠近另一个智能体。智能体的移动由 Generative Agents 的架构和沙盒游戏引擎掌握:当模型指示智能体移动到某个位置时,该研究司帐算其在 Smallville 环境中到达目的地的步辇儿路径,然后智能体开始移动。
此外,用户和智能体还可以影响该环境下其他物体的状态,例如,当智能体睡觉时床是被占用的,当智能体用完早餐冰箱可能是空的。终极用户还可以通过自然措辞重写智能体环境。例如用户在 Isabella 进入浴室时将淋浴器状态设置为漏水,之后 Isabella 会从客厅找到工具并考试测验修复漏水问题。
智能体一天的生活
从一段描述开始,智能体开始操持一天的生活。随着韶光在沙盒天下中的流逝,智能体的行为随着彼此之间的交互以及与天下的互动、自身建立的影象等逐渐改变。下图为药店店主 John Lin 一天的行为。
在这个家庭中,John Lin 早上七点第一个起床,然后刷牙、沐浴、穿衣服、吃早餐,接着在客厅的餐桌旁浏览新闻。早上 8 点,John Lin 的儿子 Eddy 也随着起床准备上课。他临出门时和 John 进行对话,内容为:
Eddy 出发后不久,他的妈妈 Mei 也醒了过来,Mei 问起儿子,John 回顾起它们刚刚的对话,然后有了下面对话
社交能力
除此以外,「Generative Agents」还表现出社会行为的呈现。通过相互交互,「Generative Agents」在 Smallville 环境下交流信息,形成新的关系。这些社会行为是自然产生的,而不是预先设定好的。例如当智能体把稳到对方的存在时,可能会进行一场对话,对话信息可以在智能体之间传播。
让我们看几个例子:
信息传播。当智能体把稳到对方,它们可能会进行对话。当这样做时,信息可以从智能体传播到另一智能体。例如,在 Sam 和 Tom 在杂货店的对话中,Sam 见告了 Tom 他在当地选举中的候选资格:
当天晚些时候,在 Sam 离开后,从另一个渠道听到的 Tom 和 John 谈论了 Sam 赢得选举的机会:
逐渐地,Sam 的候选资格成为了镇上的话题,有人支持他,也有人犹豫未定。
关系影象。随着韶光的推移,小镇上的智能体形成了新的关系,并记住了它们与其他智能体的互动。例如,Sam 一开始并不认识拉 Latoya Williams。在约翰逊公园闲步时,Sam 碰到了 Latoya,相互做了自我介绍,Latoya 提到自己正在进行一个拍照项目:「我在这里为正在进行的一个项目拍摄照片。」在后来的互动中,Sam 与 Latoya 的互动表明了对这件事的影象,Sam 问道:「Latoya,你的项目进展如何?」Latoya 回答:「进展得很好!
」折衷能力。Isabella Rodriguez 经营一家 Hobbs 咖啡馆,打算在 2 月 14 日下午 5 点到 7 点举办一场情人节派对。从这个种子开始,当 Isabella Rodriguez 在 Hobbs 咖啡馆或其他地方碰着朋友和顾客时,就会发出约请。13 日下午,Isabella 开始装饰咖啡馆。Isabella 的常客和密友 Maria 来到咖啡馆。Isabella 要求 Maria 帮忙支配派对,Maria 赞许了。Maria 的角色描述是它喜好 Klaus。那天晚上,Maria 约请它的暗恋工具 Klaus 一起参加派对,Klaus 欣然接管。
情人节那天,包括 Klaus 和 Maria 在内的五名智能体不才午 5 点涌如今 Hobbs 咖啡馆,它们享受着庆祝活动(图 4)。在这个场景中,终端用户只设置了 Isabella 举办派对的初始意图和 Maria 对 Klaus 的迷恋:传播信息、装饰、约对方、到达派对以及在派对上互动的社交行为 ,由智能体架构发起。
架构
Generative Agents 须要一个框架来辅导其在开放天下中的行为,旨在让 Generative Agents 能够与其他智能体进行交互并对环境变革做出反应。
Generative Agents 将其当前环境和过去的履历作为输入,天生行为作为输出。Generative Agents 的架构将大型措辞模型和合成与检索干系信息的机制结合到一起,以调节措辞模型的输出。
如果没有合成与检索机制,大型措辞模型可以输出行为,但 Generative Agents 可能不会根据智能体过去的履历做出反应,以至于无法做出主要的推理,也可能无法保持长期的连贯性。纵然利用当前性能最好的模型(例如 GPT-4),长期方案和连贯性方面的寻衅仍旧存在 。
由于 Generative Agents 会产生大量必须保留的事宜和影象流(memory stream),因此其架构的核心寻衅是确保在须要时检索和合成智能体影象中最干系的部分。
Generative Agents 的架构中央是影象流 —— 一个全面记录智能体履历的数据库。智能体会从影象流中检索干系记录,以方案智能体的动作行为并对环境做出适当反应,并且每次行为都会被记录以递归合成更高等别的行为辅导。Generative Agents 架构中所有的内容都被记录下来并以自然措辞描述的形式来进行推理,从而使智能体能够利用大型措辞模型的推理功能。
当前,该研究实现了利用 ChatGPT 的 gpt3.5-turbo 版本。研究团队估量 Generative Agents 的架构根本 —— 影象、方案和反思 —— 可能会保持不变。较新的措辞模型(例如 GPT-4)拥有更好的表达能力和性能,这会进一步扩展 Generative Agents。
影象与检索
Generative Agents 的架构实现了一个检索功能,该功能将智能体确当前情形作为输入并返回影象流的一个子集以通报给措辞模型。检索功能有多种可能的实现办法,详细取决于智能体在决定如何行动时考虑的主要成分。
反思
该研究还引入了第二种类型的影象,称为「反思」。反思是由智能体天生的更高层次、更抽象的思想。反思是周期性产生的,在该研究中,只有当智能体对照来事宜的主要性分数总和超过某个阈值,智能体才会开始反思。
实际上,该研究提出的 Generative Agents 每天大约反思两到三次。反思的第一步是让智能体确定要反思的内容,方法是根据智能体最近的经历确定可以提出的问题。
方案与反应
方案被用于描述智能体未来行动的顺序,并帮助智能体随着韶光的推移保持行为同等。方案该当包含位置、开始韶光和持续韶光。
为了创建合理的方案,Generative Agents 会自上而下递归地天生更多细节。第一步是制订一个操持,粗略地概述当天的「日程」。为了创建初始方案,该研究向措辞模型 prompt 智能体的总体描述(例如,姓名、特色和它们最近经历的择要等等)。
在实行方案的过程中,Generative Agents 会感知周围环境,感知到的不雅观察结果会存储在它们的影象流中。该研究用这些不雅观察 prompt 措辞模型来决定智能体是该当连续它们的现有方案,还是做出其他反应。
实验及评估
该研究对 Generative Agents 进行了两项评估:一项是掌握评估,以测试智能体是否能独立地产生可信的个体行为;另一项是端到端评估,个中多个 Generative Agents 在两天的游戏韶光内开放式交互,这是为了理解智能体的稳定性和呈现(emergent)社会行为。
比如,伊莎贝拉操持举办一场情人节派对。她传播了这个信息,在仿照结束时,12 个角色已经知道了这件事。个中 7 个人「犹豫未定」——3 个人已有其他操持,4 个人没有表露想法,这和人类的相处一样。
在技能评估层面,该研究通过用自然措辞「采访」智能体,来评估智能体保持「性情」、影象、方案、反应和准确反思的能力,并进行了溶解实验。实验结果表明,这些组成部分中的每一个对付智能体在任务中的出色表现都至关主要。
在实验评估中,智能体涌现的最常见缺点包括:
其未能检索干系影象;对智能体影象进行捏造润色;从措辞模型中「继续」过于正式的言语或行为。感兴趣的读者可以阅读论文原文,理解更多研究细节。