编辑:陈萍、杜伟

在社走运动中,大措辞模型既可以是你的互助伙伴(partner),也可以成为你的导师(mentor)。

在人类的社走运动中,为了更有效地在事情和生活中与他人沟通,须要一定的社交技能,比如办理冲突。

然而,社交技能的练习环境对付大多数人来说常日是遥不可及的。
特殊是由专家演习这些技能时,每每耗时、投入高且可用性有限。
现有的练习和反馈机制很大程度上依赖专家监督,使演习难以扩展。
此外,经由专业培训的教练也缺少,而大多数可以供应定制化反馈的教练无法帮助大量有须要的人。

杨笛一新作社恐有救了AI大年夜模型一对一陪聊帮i人变成e人

近日,在由斯坦福助理教授杨笛一为共同一作的论文《Social Skill Training with Large Language Models》中,研究者认为,借助大措辞模型可以使得社交技能演习变得更随意马虎、更安全、更有吸引力,并在现实、虚拟练习空间中供应量身定制的反馈。

论文地址:https://arxiv.org/pdf/2404.04204.pdf

详细来讲,研究者提出了以下两种社交技能演习框架。

第一个演习框架是 AI Partner,它可以通过仿照练习为体验式演习供应可扩展的办理方案。
此前已经有研究表明,人类角色扮演可以有效地教授沟通、互助和领导技能。
与 on-the-job 演习比较,仿照可以让学习者承担更少的风险和机会本钱。
而通过仿照,AI Partner 将减少进入专业领域的社会经济障碍。

第二个补充演习框架是 AI Mentor, 它将根据领域专业知识和事实知识供应个性化反馈。

这两个演习框架(合称为 APAM)都可以将体验式学习与现实练习、定制反馈相结合。
研究者呼吁通过跨学科创新来办理 APAM 的广泛影响。

论文作者杨笛一表示:「学习社交技能对大多数人来说是遥不可及的,我们如何才能使社交技能演习变得更随意马虎实现?基于此,我们推出 APAM,其利用 LLM 通过现实实践和量身定制的反馈进行社交技能演习!

她接着表示:「在 APAM 中,当用户想要学习一项新的社交技能时,AI Partner 可以帮助他们通过仿照对话来练习干系场景。
AI Mentor 可以在仿照的关键时候供应基于知识的反馈。

APAM 架构概览

该研究提出了一个通用框架专门用于社交技能演习,该框架包括 AI Partner 和 AI Mentor(两者简称 APAM),并且这两者至关主要。
当用户想要学习一项新的社交技能时,AI Partner 可以通过仿照对话帮助他们练习干系场景。
AI Mentor 可以在仿照的关键时候供应基于知识的反馈。

然而,构建和支配 AI Partner 并非易事,比如很难保持仿照人物的风格、行为和情绪特色的同等性。
而开拓 AI Mentor 在很大程度上依赖于领域专业知识、情境感知和反馈效率等成分。

为理解决上述问题,研究者提出通过 LLM 进行社交技能演习的通用方法,分四个步骤完成:

理解如何办理问题的技能(例如,办理冲突);设计一个 AI partner 来仿照对话,让学习者(即用户)打仗目标过程,进行练习;创建一个 AI mentor 来供应反馈;将这两个智能体集成到仿照环境中,以便用户学习。

研究者表示,APAM 框架的空想受众是初学者,但是有履历的人也可以利用 APAM 系统来刷新他们的知识。

APAM 可以在许多领域提高学习者的技能,表 1 列举了一些运用处景,例如如何谛听、生理康健咨询等。
不过 APAM 框架不仅限于这些范例的例子,论文第 6 节有更多的先容。

虽然 LLM 作为社交技能演习工具潜力巨大,由于它们可以天生连贯且自然的文本。
然而,这种灵巧性每每伴随着有限的可控性。

出于安全考虑, APAM 框架为如何运用 AI 供应了一系列方法,他们将利用过程分解为一个连续体:AI Partner 连续体以及 AI Mentor 连续体,每个连续体都由三个模型完成(如图 1 所示)。

评估结果

AI partner 和 AI mentor 的评估是一个重大寻衅,基于 APAM 的工具涉及繁芜的打算系统以及与不同需求和背景的用户的交互。

为了将这些演习工具开拓为一个领域,评估方法须要超越自然措辞处理中传统的指标,转而采取来自多个干系领域亲睦处干系者的方案。
纳入多学科视角将有助于评估此类系统的实证性能、基于用户角度的可用性以及对用户和社区的长期影响。

目前,文本天生的研究紧张集中在内在评估上,即通过预定义的规则或交互来评估输出的质量。

不才表 2 中,研究者紧张划分为全自动评估和用户驱动评估。
基于参考的指标(如困惑度或 Kullback-Leibler 散度)常日用于系统质量自动评估,它们既大略又许可通过演示对所需行为进行丰富的定义。

表 2 详细列出了以往事情中适用于 APAM 系统的内在和外在评估程序。
目前,自然措辞处理从业者紧张关注对系统的内在评估。
本文中,研究者强调利用既定的教诲成果衡量标准来评估 APAM 系统的主要性。

更多细节请参阅原论文。