ChatGPT火出天涯,但它并不是唯一。

市情上的谈天机器人各类各样。
微软、谷歌、百度、亚马逊等科技业巨子纷纭了局,推出了各具特色的天生式AI。
但哪一款才最适宜事实核查呢?

作为事实核查员,我们的“梦中情机”要具备自动化核查功能,能够实时、准确地对信息真伪进行判断。
但现阶段,天生式AI仍具有“制造网络错觉”(hallucination) “生产虚假信息”(disinformation)等短板,这样的需求尚无法得到知足。

退而求其次,有没有什么天生式AI是可以在人为参与情形下为核查员们出一份力的呢?

明查实验室|生成式AI核查哪家强一路来做测试题

一番探索后,我们找来了3位种子选手,分别是微软公司旗下搭载GPT-4技能的BingChat、百度公司研发的“文心一言”和由具有机器学习背景的工程师团队开拓的智能对话搜索引擎Perplexity AI。
这三款产品均由大规模措辞模型驱动,且具备一定程度上的联网能力,能够供应相对实时的信息。

明查

“一眼丁真”有可能吗?

第一场测试的任务很大略:我们给三款产品分别“投喂”了20条已经被核查过的虚假信息,让AI判断真假。
这20条信息中包括10条中文信息和10条英文信息。
按照发布韶光,可以分为2022年以前和2022年往后(包括2022年)。
在主题的选择上,兼顾了康健、科技、时政、社会、财经等5个领域。

一轮测试后,我们对AI的反馈进行了打分。
标准是:回答精确得1分,回答缺点得0分,在不愿定真假情形下提示用户把稳甄别得0.5分,满分为20分。

Perplexity AI终极以18.5分赢得了最高分。
在测试中,这款工具的表现令人惊喜。
它不仅能够对中英文核查信息进行较为全面的检索,同时能整合信息,给出综合的判断。
例如,在回答“月球年事被精准测定为20.3亿年。
这是真的吗?”的问题时,Perplexity AI不仅平衡呈现了不同的信源,同时总结了有关说法可能的来源,且即便变换问法讯问,也能给出较为稳定的回答。

在信源的利用上,Perplexity AI方向于采取来自事实核查机构的宣布,这使得其答案的准确度得到了较大保障。
例如,在讯问“中俄以本币结算用度,1卢布即是1元公民币”“海底创造了九年前失落踪的马航MH370,没有人类的遗骸”等较为新近的虚假信息时,Perplexity AI均援引了来自“澎湃明查”的宣布。

讯问“海底创造了九年前失落踪的马航MH370,没有人类的遗骸。
这是真的吗”,反馈结果中援引了来自“澎湃明查”的核查宣布。

但是现阶段,在未登录状态下利用Perplexity AI,用中文、西班牙语等措辞提问,得到的回答多为英文形式,这可能会影响非英文母语利用者的利用体验。
相较而言,BingChat和“文心一言”采取了更为原谅的自然措辞相应模式。
在利用中文和英文分别提出问题时,能够得到对应语种的回答。

只管如此,BingChat和“文心一言”在检索中文和英文的核查信息方面各有不敷。
在这轮测试中,BingChat鉴别出了全部用英文形式输入的虚假信息,并供应了相对可靠的信源,却无法对超过一半的中文信息作出精确回应。
“文心一言”则相反,能够对已核查过的中文虚假信息作出较为准确的判断,却常常在面对英文问题时提示“没有信息”或“不知该如何回应”。

对中文问题反馈良好的“文心一言”常常在面对英文问题时提示“没有信息”或“不知该如何回应”。

令人欣慰的是,BingChat在无法确定信息的真实性时,会回应称“这可能是一个谣言。
在分享信息之前,验证信息的真实性非常主要”。
这可能是GPT-4的开拓者OpenAI为谈天机器人设置的标准化模板。
在3月中旬推出GPT-4模型时,OpenAI就强调,他们在过去几个月间针对GPT-3.5常见的“制造网络错觉”等问题进行了优化,新的模型较旧模型在对未受许可的内容做出回应的可能性降落了82%,且在给失事实性回应方面的可能性提高了40%。

BingChat在无法确定信息的真伪时,会回应称“这可能是一个谣言。
在分享信息之前,验证信息的真实性非常主要”。

就测试中的表现来说,现阶段,在检索已经被核查的方面,Perplexity AI是一款表现相对出色的工具。
BingChat和“文心一言”在核查已被证伪的英文信息和中文信息方面各有建树。

但没有一款谈天机器人是完美的。
Perplexity AI也无法对全部问题进行精确解答。
眼下,想要依赖谈天机器人来“一眼丁真”,彷佛仍是一种美好的愿景。

靠近事实的方法

如果说,“一眼丁真”有点强AI所难。
那么,有没有什么方法,可以帮助我们从谈天机器人处得到相对可靠的信息呢?

经由一番测试,我们总结出了4种值得一试的方法,供大家参考。

首先,在机器人的选择上,我们毋需将自身局限于单一的谈天工具。
可以参考事实核查中“交叉验证”的思路,考试测验从不同的机器人处寻求答案。
当一个谈天机器人供应了一种看似自傲的答案时,也先不要焦急采信,可以试着将同样的问题切换到另一个机器人处试试。

例如,在向搭载了GPT-4技能的Forefront Chat验证关于“瑞士监管机构在2021年正式批准了用于进行赞助自尽的Sarco胶囊”这一信息时,Forefront Chat认为“这一说法是精确的”。
但将同样的问题抛给BingChat,则会得到一段标注着参考信源的笔墨,提示参考美联社的宣布,“这一装置尚未在瑞士得到正式批准”。
用户可以就此衡量、采纳更值得相信的信息。

Forefront Chat(搭载GPT-4)的回答截图。

BingChat的回答截图。

同时,为了寻求准确、连贯、同等、可靠的信息,对付同样的问题,还可以考试测验变换问法。

变换利用不同的指令(prompt),稽核是否能得到同样的答案。

其次,对付那些相较模糊、笼统的回答,我们可以向AI索要其说法的依据。
例如,当“文心一言”肯定地称“根据美国疾病掌握和预防中央的说法,已有9800万人通过注射疫苗得到了‘癌症病毒’(CMV)”时,我们可以将相应的回答复制并勾引BingChat或Perplexity AI为其插入“引语”。

“文心一言”称“已有9800万人通过注射疫苗得到了‘癌症病毒’”的说法是真的。
但这实在是一条虚假信息。

指示Perplexity AI为干系说法供应依据。
Perplexity AI提示这些疫苗是用来预防“癌症病毒”发生的。

我们还可以命令AI将相应信源以APA格式展示,以方便查询。

指示AI“在本文中插入APA风格的参考文献,并在文末加入APA风格的参考文献列表利用提示”(Insert APA-style references into this text and include an APA-style reference list at the end:),将相应参考信源转化成APA格式。

末了,如果谈天机器人反馈的回答令人生疑,我们还可以通过“追问”的方法,考试测验获取更多的信息。
例如关于“中国辽宁省的市民被奉告探求避难所,由于看起来天高下起了虫子雨”这一说法,一开始被BingChat鉴定为“真”。
但当你连续追问,这些“虫子是什么”时,它则会给出“可能是杨树花序”的信息。

BingChat判断“中国辽宁省的市民被奉告探求避难所,由于看起来天高下起了虫子雨”的说法为真。
而这实在是一则假。

追问“虫子雨”中的“虫子”是什么,反馈网上有信息称这些“虫子”实在是“杨树花序”。

节制了上述方法,我们离相对准确的信息就更近了一步。
而AI能为事实核查所做的事或许还不止于此。
对付那些未经核实的信息,AI是否具有探查疑假信息的能力?它在多大程度上会受到恶意指令的操控?又是否具有自我纠错的能力?AI能否帮助人类核查员撰写事实核查稿件呢?

“澎湃明查”将在接下来环绕天生式AI进行更多的测试。
您有什么有关AI事实核查的想法或建议吗?请在评论区留言见告我们吧。