在论文中,该公司的研究职员提出了一种窥伺为 ChatGPT 供应动力的人工智能模型内部的方法。他们设计了一种方法来识别模型如何存储某些观点--包括那些可能导致人工智能系统行为失落常的观点。
虽然这项研究使 OpenAI 在掌握人工智能方面的事情更加引人瞩目,但也凸显了该公司最近的动荡。新研究由 OpenAI最近终结的\"大众超对齐\公众团队完成,该团队致力于研究技能的长期风险。
前小组的共同卖力人伊利亚-苏茨克沃(Ilya Sutskever)和扬-莱克(Jan Leike)均已离开OpenAI,并被列为共同作者。苏茨克沃是OpenAI的创始人之一,曾任首席科学家,去年11月,董事会成员投票开除了首席实行官山姆-奥特曼(Sam Altman),引发了几天的混乱,终极奥特曼重返领导岗位。
ChatGPT 由一个名为 GPT 的大型措辞模型系列供应支持,该模型基于一种被称为人工神经网络的机器学习方法。这些数学网络通过剖析示例数据显示出了学习有用任务的强大能力,但它们的事情事理无法像传统打算机程序那样被轻易检讨。人工神经网络中各层\公众神经元\公众之间繁芜的相互浸染,使得逆向剖析 ChatGPT 这样的系统为何会得出特定的反应极具寻衅性。
这项事情背后的研究职员在一篇随附的博文中写道:\"大众与大多数人类创造物不同,我们并不真正理解神经网络的内部运作。一些著名的人工智能研究职员认为,包括 ChatGPT 在内的最强大的人工智能模型或容许以用来设计生化武器和折衷网络攻击。一个更长期的担忧是,人工智能模型可能会选择隐蔽信息或以有害的办法行事,以实现它们的目标。\公众
OpenAI 的这篇新论文概述了一种技能,该技能借助额外的机器学习模型,识别代表机器学习系统内部特定观点的模式,从而稍稍降落了神秘感。创新的关键在于通过识别观点来完善用于窥伺系统内部的网络,从而提高效率。
OpenAI 通过在其最大的人工智能模型之一 GPT-4 中识别代表观点的模式证明了这种方法。该公司发布了与可阐明性事情干系的代码,以及一个可视化工具,用于查看不同句子中的单词如何激活 GPT-4 和另一个模型中的观点,包括轻渎和色情内容。理解一个模型是如何表现某些观点的,这将有助于减少与不受欢迎的行为干系的观点,使人工智能系统保持正常运行。它还可以调度人工智能系统,使其倾向于某些主题或想法。
只管 LLM 无法被轻易解读,但越来越多的研究表明,它们可以被穿透,从而揭示出有用的信息。由亚马逊和Google支持的 OpenAI 竞争对手 Anthropic 上个月也揭橥了类似的人工智能可阐明性研究成果。为了演示如何调度人工智能系统的行为,该公司的研究职员创造了一个痴迷于旧金山金门大桥的谈天机器人。有时,只需让人工只能机器人阐明其推理过程,就能得到深刻的见地。
东北大学从事人工智能可阐明性研究的教授大卫-鲍(David Bau)在谈到 OpenAI 的新研究时说:\"大众这是令人愉快的进展。\"大众作为一个领域,我们须要学习如何更好地理解和核阅这些大型模型。\公众
鲍说,OpenAI 团队的紧张创新在于展示了一种配置小型神经网络的更有效方法,该网络可用于理解大型神经网络的组成部分。但他也指出,这项技能还须要改进,以使其更加可靠。要利用这些方法创造出完备可以理解的阐明,还有很多事情要做。\"大众
鲍是美国政府帮助的一项名为\公众国家深度推理构造\"大众(National Deep Inference Fabric)的事情的一部分,这项事情将向学术研究职员供应云打算资源,以便他们也能探索特殊强大的人工智能模型。他说:\"大众我们须要想办法让科学家纵然不在这些大公司事情,也能从事这项事情。\"大众
OpenAI 的研究职员在论文中承认,要改进他们的方法还须要进一步的事情,但他们也表示,希望这种方法能带来掌握人工智能模型的实用方法。他们写道:\"大众我们希望有一天,可阐明性能为我们供应推理模型安全性和鲁棒性的新方法,并通过为强大的人工智能模型的行为供应强有力的担保,大大增加我们对它们的信赖。\公众
阅读论文全文:
https://cdn.openai.com/papers/sparse-autoencoders.pdf