ChatGPT识别器准确率仅26检测AI生成内容为何这么难

美国学校已就ChatGPT沦为作弊工具一事进行了长达数周的谈论。
视觉中国资料图

犹记得多年古人工智能（AI）领域热议的话题还是“人工智能何时能通过图灵测试”，即如果电脑能在5分钟内回答由人类测试者提出的一系列问题，且其超过30%的回答让测试者误认为是人类所答，则电脑通过测试。

而现在，我们已经要用AI帮助检测内容是人类写的还是AI写的。

2月1日，著名人工智能实验室OpenAI（ChatGPT开拓团队）宣告推出AI天生内容识别器，旨在识别文本是由电脑自动天生还是人类撰写，然而彷佛准确度堪忧。
OpenAI在博客中指出，此识别器置信度精确率约为26%。

ChatGPT识别器准确率仅26检测AI生成内容为何这么难

“OpenAI自己的检测器对AI撰写内容检出成功率为26%，比扔硬币的概率都低，并对短文本和非英语措辞支持不佳。
”上海人工智能研究院研究员王锦对澎湃科技（www.thepaper.cn）评价道。

1月28日，斯坦福大学也推出DetectGPT以帮助教诲事情者识别出ChatGPT天生的论文。
此前，美国的中小学与高校已就ChatGPT沦为作弊工具一事进行了长达数周的谈论，他们担心ChatGPT能够根据命令编写任何内容，进而可能助长学术不端并阻碍学习。

AI天生内容识别器的技能难点是什么，为何效果如此一样平常？ChatGPT滥用有何风险？

AI天生内容识别器事理

“AI天生内容识别器的核心思想是首先构建一个演习数据集，包含真实的内容和AI天生的内容，然后演习一个分类器来差异这两类内容。
”MILA研究院有名华人学者唐建对澎湃科技阐明道。

马里兰大学的研究职员即通过分类出谈天机器人天生词汇来作识别。
详细而言，人工智能措辞模型通过一次预测和天生一个单词来事情。
天生一个词后，水印算法将措辞模型的词汇随机分为“绿名单”和“红名单”，然后提示模型选择绿名单上的词。

一篇文章中列入绿名单的词越多，该文本就越有可能是由机器天生的，人类写的文本每每包含更随机的单词组合。
例如，对付“俏丽”一词的干系预测，水印算法可以将单词“flower”（花）分类为绿色，将“orchid”（兰花）分类为赤色。
参与这项研究的马里兰大学助理教授汤姆·戈尔茨坦（Tom Goldstein）阐明说，带有水印算法的人工智能模型更有可能利用“花”而不是“兰花”这个词。
然而，这种新方法也有局限性，水印只有在创建者从一开始就嵌入到大型措辞模型中时才有效。

对付OpenAI提出的基于GPT措辞模型的文本分类器的事理，王锦详细阐明道，其事理也是利用海量数据做一个二分类的演习，演习数据集中包含了人工撰写的内容（如来自reddit，wikipedia的内容）和AI天生内容（来自五个不同机构的大措辞模型天生的内容）。

当下各机构纷纭推出文本分类器，这与之前深度假造技能呈现时涌现的各种对抗技能（Anti-Deepfake）是否异曲同工？

从技能事理角度，智源研究院根本模型研究中央研究员张博文解答道，“OpenAI以及之前涌现的GPTZero紧张是对文本分类，个中OpenAI的分类器利用的数据紧张是真实文本，来自维基百科、网页文本、人类创作的文本；天生文本来自包含ChatGPT在内的34个AI模型。
而之前涌现的Anti-Deepfake紧张包含被动检测和主动防御，这两种识别器和被动检测技能类似。
”他补充说，斯坦福大学等机构提出的DetectGPT，以及OpenAI在研究通过给天生文本加水印的办法完成对天生文本的检测，是类似于主动防御的办法，不过两项技能目前都没有公布。

GPTZero是普林斯顿大学学生Edward Tian推出了一个专杀ChatGPT的运用。
GPTZero的事理是借助一些文本属性进行剖析。
首先是困惑度（perplexity），即文本对模型的随机性，或措辞模型对文本的“喜好”程度；然后是突发度（burstiness），即机器写作的文本在一段韶光内表现出的困惑度更均匀和恒定，而人类书写的文本则不会这样。
检测文本的“困惑性”和“突发性”这两项指标，并分别对其打分，根据统计学特色来确定文本是由AI写的还是人类写的。
总体来说，如果这两项参数得分都很低，那么该文本很有可能出自AI之手。

为何目前AI天生内容检测器效果不佳？

王锦认为，缘故原由在于文本本身的信息量不如图像丰富、不同措辞模型NLG（自然措辞天生）的性能和风格可能有差别、演习集本身可能含有部分AI天生内容等等。

更详细而言，张博文说，“实际上，OpenAI的文本分类器在演习数据分布类似的验证集上效果很好，在‘寻衅集’（区分人类补全的文本/人类补全文本上演习的强措辞模型天生文本）上，会把9%的人类创作文本误识别为AI创作；会把26%的AI创作文本识别为可能是AI创作。
”

张博文也谈到这背后的技能难点。
第一点在于措辞模型经由人类创作文本演习，参数量越大，越靠近人类创作，越难以区分；第二受限于文本长度，文本长度足够长，检测的准确率才有保障。
OpenAI也在公告中明确表示自己只能检测1000字符以上的文章。

除此之外，OpenAI还先容了检测器的其他几个限定：分类器并不总是准确的，它可能会缺点标记AI天生的和人类写的文本，并且语气很自傲；建议仅对英文文本利用分类器，它在其他措辞上的表现要差得多，并且在代码上不可靠；它无法可靠地识别非常可预测的文本。
例如，无法预测前1000个素数的列表是由AI还是人类写的，由于精确答案总是相同的；AI天生的文本，经由编辑之后很可能会规避掉分类器的检测；如果输入与演习集中的文本有很大的差异，分类器会做出错误判断。

ChatGPT被滥用的危害

据《纽约时报》1月16日宣布，美国北密歇根大学教授Antony Aumann在为天下宗教课程评分时，创造一篇论文相称出彩。
该文章以罩袍禁令的道德影响为题，段落简洁，例子恰当，论据严谨。
但在Aumann讯问之后，学生向他坦陈，这篇文章实在是用ChatGPT天生的。

《科学美国人》宣布称，资深的科学家也无法准确分辨ChatGPT撰写的科学论文。
在一项测试中，专家缺点地将32%的天生择要识别为真实择要，将14%的真实择要识别为天生的。

目前，因担心影响学生的学习和ChatGPT天生内容的准确性，美国一些最大的学区已禁止在其网络和设备上利用ChatGPT。
包括Stack Overflow在内的网站也已禁止用户共享ChatGPT天生的内容，其称AI会让用户在正常的谈论中被无用内容淹没。

“浩瀚大型措辞模型天生的海量内容已经造成了信息爆炸，优质原创高质量内容可能更难被挖掘。
同时，海量内容也是内容推送/筛选机制的寻衅。
”王锦说。

除了抄袭、侵权、利用模型给出的缺点结果以及利用AI工具作弊之外，张博文认为，滥用ChatGPT的风险还包含分布天生的逼真的虚假信息、新闻，以及AI天生内容本身的合法性风险，“AI内容识别器会在一些领域变成刚需。
”

1月，事实核查技能公司NewsGuard的研究职员向ChatGPT发布了100个提示，涉及美国政治和医疗保健的常见虚假叙事。
在80%的回答中，谈天机器人产生了虚假和误导性的声明。

科技媒体《连线》2月1日撰文称，利用大型措辞模型的谈天机器人的涌现，让事实核查事情变得更加困难。
英国事实核查慈善机构的受托人Tim Gordon说：“天生人工智能可以产生什么规模（的虚假信息），以及它能做到这一点的速率，意味着这场竞赛只会变得更难。
”面对这种不对称，事实核查组织必须构建自己的AI驱动工具，以帮助自动化和加速事情。
这远非一个完全的办理方案，但事实核查职员希望这些新工具至少能防止他们与对手之间的差距过快扩大。

与此同时，王锦提出，检测器本身亦会带来一些问题，缘故原由在于当前很多内容是人机稠浊撰写的，在剖断时很难做二分界定。
检测有误会带来很严重的后果，比如将学生原创内容剖断为ChatGPT撰写造成不公道打分。

目前，OpenAI的检测器在评估一段给定的文本是否由AI天生时，不会正面回答是或否。
根据其置信度，它会将文本标记为“非常不可能”由AI天生（小于10%的可能性）、“不太可能”由AI天生（在10%到45%之间的可能性）、“不清楚它是否是”AI天生（45%到90%的机会）、“可能”由AI天生（90%到98%的机会）或“很有可能”由AI天生（超过98%的机会）。

每期AI知识网

ChatGPT识别器准确率仅26检测AI生成内容为何这么难

介绍LD平台入驻,条件与费用分析

仅需30天轻松获取1000名精准客户客易云ai获客系统震撼出圈