以教诲界为例,学生热衷于在 ChatGPT 的帮助下完胜利课,西席们却头疼于无法杜绝学生用 ChatGPT 作弊的行为。
在这一趋势下,今年 1 月美国纽约市教诲部曾正式宣告:纽约市的学生和西席,无法再在教诲部设备或互联网上访问 ChatGPT。

或许是为了应对这日益扩大的舆论抵牾,OpenAI 在今年 1 月尾重磅推出了一款新 AI 工具 AI-Text-Classifier(AI 文本分类器),旨在用来识别 AI 天生的文本内容。

未曾想,这个新 AI 工具出身还不满半年,就已被 OpenAI “偷偷”关停了——而 OpenAI 官方后续给出的情由是:AI Classifier 的“准确率太低”。

刚推出时,OpenAI 就提醒:不可靠

突发OpenAI 骤然关停 AI 打假对象官方承认准确率过低

实际上,在 OpenAI 刚推出这款 AI 文本分类器时,就承认过它“并不可靠”:“我们演习了一个分类器来区分人类撰写的文本和 AI 撰写的文本,但这个分类器并不完备可靠。

据理解,AI Classifier 是一个措辞模型,基于同一主题下人工编写文本和 AI 编写文本对数据集上进行的微调。
OpenAI 将由人类编写的各种来源集成到这个数据集,例如预演习数据和提交给 InstructGPT 的人类演示等。
然后 OpenAI 再将把每个文本分为提示和相应,研究职员根据这些提示,让各种不同的措辞模型产生相应,以此来不断演习这款 AI 文本分类器。
OpenAI 特殊强调:只有在 AI Classifier 非常有把握的情形下,才会将文本标记为“可能是 AI 编写的”。

针对这款 AI 文本分类器,OpenAI 在官宣博客中并没有先容其详细事理,但给出了实验测试结果:在对英语文本内容进行测试时,AI Classifier 能精确识别 26% 的 AI 内容,显示“可能由 AI 编写”的建议参考,但同时也会把 9% 的人类编写内容“误判”为 AI 天生的内容。

对付 OpenAI 供应的这个数据,当时洛桑联邦理工学院教授 Marcel Salathé 还专门进行了打算:假设一所大学有 1000 逻辑学生被哀求写一篇文章,个中 3% 的人试图用 ChatGPT 来天生文本,即个中会有 30 个 AI 天生的文本和 970 个人类天生的文本。

但根据 AI Classifier 的测试数据结果,将涌现以下情形:首先,在 970 个人类天生的文本中,会有 9%(即 87 个)被缺点地标记为 AI 天生的;其次,在 30 个 AI 天生的文本中,会有 26%(即 8 个)被精确标记为 AI 天生的。

也便是说,如果老师用 AI Classifier 来识别学生的文章,共会有 95(87+8)个文本被标记为 AI 天生——但实际情形是,个中只有 8 个是 AI 天生的,而 87 个自己写文章的学生会被 AI Classifier “误伤”。

存在不少局限性

平心而论,AI Classifier 的这个精确率确实不太可不雅观,因此当时 OpenAI 也主动提醒道:“我们的分类器有一些主要的局限性,它不应作为紧张的决策工具,而应作为确定文本来源的方法补充。

详细来说,AI Classifier 有以下 6 种局限性:

(1)在处理短文(1000 字以下)时非常不可靠,但纵然是较长的文本,有时也会被分类器缺点标注。

(2)有时,人类撰写的文本会被分类器“缺点而自傲地”标注为 AI 撰写的文本。

(3)建议仅在英文文本中利用该分类器,由于它在其他措辞中的表现要差得多,在代码中也不太可靠。

(4)无法可靠地识别可预测性很强的文本。
例如,分类器无法预测前 1000 个质数的列表是由 AI 还是人类写的,由于精确答案总是一样的。

(5)AI 写的文本可以被二次编辑,从而躲过分类器的检测。

(6)基于神经网络的分类器在演习数据之外的校准效果总是很差。
对付与演习集中的文本有很大差异的输入,分类器有时会很自傲地做出错误标注。

只管精确率不高,局限性也较多,但 OpenAI 在推出 AI Classifier 时,还是表示:“我们相信,好的分类器可以为减少 AI 天生文本是由人类撰写的虚假说法”,“与我们之前发布的分类器比较,AI Classifier 在处理来自最新 AI 系统的文本时可靠性明显有所提高。

网友支持关停的决定

然而,与半年前刚发布 AI Classifier 时的高调自傲不同,OpenAI 关闭 AI Classifier 的决定很“低调”,乃至丝毫没有提前关照就溘然关停了。

当用户们面对打不开的页面一头雾水、官方也没干系回合时,终于有人在半年前 OpenAI 发布 AI Classifier 的博客中,找到了藏在个中的添加注释:

由于准确率较低,截至 2023 年 7 月 20 日,AI Classifier 已不再可用。
我们正在努力采纳反馈见地,目前正在研究更有效的文本出处技能,并承诺开拓和支配干系机制,利用户能够理解音频或视频内容是否由 AI 天生。

虽然有些溘然,但结合近半年来各种 AI 文本检测器的表现来看,OpenAI 做出这个决定或许并不虞外。

不论是 OpenAI 的 AI Classifier,还是斯坦福大学的 DetectGPT,亦或是大学生研发 GPTZero 等 AI 检测工具,其定位都是用来区分文本究竟是由人类撰写的还是由 AI 天生的,而它们的失落误率也都高得惊人。

此外,在仔细研究了检测大型措辞模型天生的文本后,美国马里兰大学的打算机科学家 Vinu Sankar Sadasivan 也坦言:纵然是用最好的检测器来检测 AI 天生的文本,概率并不比扔硬币进行判断好到哪里去。

因此对付 OpenAI 溘然关停 AI Classifier 的这个决定,不少网友都表示支持:

▶ “虽说少了一个公告,但我很高兴 OpenAI 这么做了。
现在很多人都以为只要仅凭几句话就能检测出是否是 AI 写的,但实际上根本就没人能担保这一点。

▶ “很好,如果它确实不可靠,那它存在的意义就弊大于利了。

▶ “关的好!
你们都不知道,由于这个工具,学术界涌现了大量的虚假指控。

参考链接:

https://openai.com/blog/new-ai-classifier-for-indicating-ai-written-text

https://decrypt.co/149826/openai-quietly-shutters-its-ai-detection-tool