图片来源: NickyPe / Pixabay
大型措辞模型的进步在研究职员中引发了一股激情亲切。事实证明,OpenAI 的 ChatGPT 和 Anthropic 的 Claude 等 AI 模型能够独立天生和确认新的科学假设。人们认为,创造新知识和取得科学创造是人类的专属特权,这与从演习数据中机器地组合 AI 知识形成光鲜比拟。然而,人工智能已经在艺术表达、音乐和编程领域取代了人类,现在已经在科学领域大放异彩,显示动身平生均比科学家提出的更新的研究想法的能力。
为了验证这一假设,在自然措辞处理 (NLP) 领域进行了一项研究。NLP 是 AI 的一个领域,它以双方都能理解的措辞处理人类和 AI 之间的通信。它不仅涵盖基本句法,还涵盖措辞的细微差别、对高下文的理解,乃至最近还涵盖了语音的语气和情绪语气。该研究涉及 100 名 NLP 专家(来自 36 个不同研究所的博士和博士),他们与基于 LLM 的“思想代理”进行了某种科学竞赛。目标是找出谁的研究想法更新颖、更有趣和更可行。
为了实验的纯粹性,49 位专家就 NLP 领域的 7 个特定主题提出了想法,而由研究职员专门演习的 AI 则产生了相同主题的想法。为了勉励头脑风暴参与者提出高质量的想法,专家提出的每个观点都支付了 300 美元,五个最好的人类想法中的每一个都额外得到了 1,000 美元。项目完成后,LLM 被用来标准化每部作品的写作风格,同时保留原始内容,以创造公正的竞争环境并使研究尽可能公道。
人类和 AI 在三个条件下提出的科学思想的新颖性比较:人的想法、AI 的想法和 AI 与人类精细的想法。图片来源: @ChengleiSi / X
然后,所有提交的论文由 79 位专家审查,他们盲目评估了所有研究思路。一个专家小组提交了 298 条评论,为每个想法供应了两到四条独立评论。结果令人震荡。与人类想法比较,AI 天生的想法在新奇和迷人标准上的得分在统计上显著更高。同时,AI 想法的可行性略低,效率略高于人类想法,只管这些差异在统计上并不显著。
该研究还揭示了 AI 事情事理的一些毛病,例如缺少思想多样性。纵然有明确的指示不要重复自己,AI 也很快就忘却了它。此外,AI 无法始终如一地测试和评估想法,并且在赞许人类判断方面得分较低。主要的是,该研究还揭示了该方法的某些局限性。特殊是,纵然是一组专家对想法的“原创性”的评估仍旧是主不雅观的,因此操持进行更全面的研究,个中人工智能和人类产生的想法将被完备纳入项目,从而更深入地研究它们在现实天下场景中的影响。只管如此,该研究的初步结果无疑令人印象深刻。
比较人类和 AI 在五个关键标准上提出的科学思想的评估:新颖性、吸引力、可行性、有效性和总体评价。图片来源: @ChengleiSi / X
本日,虽然 AI 模型正在成为非常强大的工具,但它们仍旧不可靠并且随意马虎涌现“幻觉”,这在须要绝对信息准确性和可靠性的科学方法中至关主要。据估计,目前至少有 10% 的科学论文是与 AI 合著的。另一方面,不要低估 AI 在加速人类努力的某些领域取得进展的潜力。一个范例的例子是 DeepMind 的 GNoME 系统,该系统在几个月内取得了相称于大约 800 年的材料科学研究的打破,并产生了大约 380,000 个新无机晶体的构造,这些晶体可能会彻底改变各个领域。
AI 现在是人类所见过发展最快的技能,因此可以合理地预期它的许多缺陷将在未来几年内得到修复。许多 AI 研究职员认为,人类即将出身环球超级智能,届时通用 AI 将在险些所有领域超越人类的专业知识。人工智能能够产生比科学家更多原创和令人愉快的想法,这可能会导致人们重新思考科学创造的过程以及人类在个中的浸染。