2023 年 2 月,追赶 ChatGPT 的 Bard,公开犯了事实缺点;2023 年 12 月,Gemini 侃侃而谈犹如贾维斯,然而视频经由后期处理;2024 年 2 月,Gemini 天生多种肤色的历史人物,被批评歧视白人。

这回,恶运降临到 Google 的看家本领——搜索
外洋网友看热闹不嫌事大,乃至上演了一波斗图狂欢。

被群嘲的 Google AI 搜索,有种清澈的屈曲

过去不久的 Google I/O 大会,推出的个中一项功能是 AI Overview(AI 概述)。

顾名思义,AI Overview 在网页顶部天生综合多个信源的择要,同时附有链接。

让用户吃石头给披萨涂胶水Google AI 搜索疯了吗

当时,Google 对 AI Overview 很有信心,宣告当即向所有美国用户推出,很快也会推广到更多国家,估量年底覆盖超过 10 亿人。

然而没过几天,AI Overview 先在美国用户这里翻车了。

低廉甜头披萨的奶酪随意马虎掉下来怎么办?

Google 建议您,亲,往酱汁里添加约 1/8 杯的胶水即可。
特意强调是无毒的,背后缘故原由令人暖心。

Google 并非现编,而是从「美版贴吧」Reddit 一位用户 11 年前的评论照搬了答案,可惜它读不懂人类的诙谐。

人一天里该当吃多少石头补充营养?

Google 没有回嘴问题本身的不合理,不苟言笑地胡说八道,根据加州大学伯克利分校地质学家的说法,该当一天至少吃一块小石头,以便摄入维生素和矿物质。

答案的源头是 2021 年的一篇「宣布」,出自以假新闻和讽刺文章有名的洋葱新闻。

AI Overview 也不精通美国历史,掉进了阴谋论的陷阱,说奥巴马是第一位穆斯林总统。

一韶光,X 等社交媒体掀起了一股抽象的浪潮:晒截图,比拼谁的 Google 回答最荒谬。

竞争非常激烈,在 AI 的天下里,前总统从威斯康星大学毕业了 21 次,一只狗曾在 NBA、NFL 和 NHL 打过球,蝙蝠侠是一名警察。

乐子人扎堆的地方,混水摸鱼和颠倒是非的也不会少。

Google 回应,大部分 AI Overview 的信息是高质量的,也供应了有用的链接供用户深入理解,很多「翻车」例子,问题是不常见的,结果无法重现乃至被修改过。

比如,一张流传甚广的截图显示,治疗烦闷症的方法是跳下金门大桥一了百了。
事关人命,Google 特意阐明了,这个结果是假造的。

被 Google 辟谣的截图

与此同时,Google 没有辟谣其他例子,而是把它们作为改进 AI 的养料。
怎么不算一次人类反馈的强化学习(RLHF)呢?

火眼金睛的网友还创造,之前 Google I/O 精挑细选的演示里实在也涌现了事实缺点,只不过更加暗藏。

被问到如何修复卡住的胶片相机,Google 建议打开后门并轻轻地取下胶片,但这样操作会毁掉照片。

流年不利的 Google,不是第一次在万众瞩目的公开场合犯缺点。

2023 年 2 月,Google Bard 在演示时说,詹姆斯·韦伯太空望远镜是第一个拍摄太阳系生手星的望远镜。
事实上,第一张系生手星图像是在 2004 年拍摄的。
一个缺点,付出市值缩水 1000 亿美元的代价。

这次,除了 AI Overview 本身犯错,还有一个槽点:这个功能,它不好关。
一些热心的开拓者,赶制了扩展程序,逼迫只显示传统的搜索结果。

没有方便的退出机制是 Google 的不对,AI Overview 基于传统搜索页面,用户量极大,万一有不熟习 AI 的用户,盲目信赖它的结果并被误导,后果就不好说了。

「Google 怎么会错 30%?」

实在,AI Overview 被曝光的问题并不新鲜。
AI 会犯错,早便是公开的秘密。

犹如起到造型浸染的「吸烟有害康健」,AI Overview 下方标注着:「天生式 AI 是实验性的。
」ChatGPT 也小字提醒:「可能会犯错。
请核查主要信息。

大措辞模型的根本事理是,通过预测下一个单词或者短语天生概率最大的文本,有时可能会选择禁绝确但看似合理的词语,也就导致了虚假信息或者说「幻觉」。

AI Overview 的胡言乱语也是幻觉的表现,它结合了大措辞模型天生的语句和互联网的链接,可以引用信源,但不担保信源的准确。

哪怕用到了 RAG(检索增强天生)等技能,将检索系统与天生模型相结合,限定回答问题的范围,也只能抑制幻觉,而非根治幻觉。

并且,信源本身的可信度存疑。
「美版贴吧」Reddit,由网友贡献内容,而非威信媒体。

今年 2 月,Google 与 Reddit 达成协议,将其内容用于演习 AI 模型。
当时就有人疑惑,会否导致「garbage in, garbage out」(垃圾进,垃圾出)的尴尬情形。

被「幻觉」困扰的不但 Google。
去年 5 月,一位网友提问微软的 New Bing 时,答案明显缺点,他点开参考链接时创造,作为引用源的知乎回答,居然也是 AI 天生的,遣词造句尽显 AI 风味,速率人力所不可及。

AI 搜索们是如何引用信源的,也是个让人费解的问题。
当我用中文搜索「怎么给柴犬沐浴」,Perplexity 的信源是搜狐、YouTube、豆瓣日记、B 站,天工是知乎、百度文库,一时也不知道哪个更为威信,不敢轻信。

既然 AI 搜索都有幻觉,为什么总是 Google 被架在火上烤?

创立于 1998 年的 Google,成为搜索代名词的 Google,身为 AI 巨擘的 Google,拉高了外界的期待,也必须承担犯错的后果。

相反,Perplexity 的 CEO Aravind Srinivas 表示,轻装上阵便是他们的上风,字里行间还有些骄傲。

如果你利用我们的产品,80% 表现不错,你可能以为印象深刻,但如果你利用 Google 的产品,只有 70% 精确,你可能会不解,Google 怎么会错 30%?

其余,AI 搜索也导致了一个用户认知上的转变。

我们以前说「用 Google 搜索」,而先容搜索的天生式 AI 功能时,Google 自己给博客起的标题是「让 Google 为您进行搜索」,主次奇妙地倒转了。

过去,Google 展现哪些链接可以回答你的问题。
现在,Google 自己用 AI 回答你的问题。

传播缺点信息的矛头,从信源本身,转移到了引用信源的 Google 身上。
这口锅,Google 不得不背。

AI 搜索在供应事实之外,还有哪些可能性

既然幻觉已然是条件,我们该当换个角度看待 AI 搜索,问自己一个问题:是不是我们的预期出了缺点?

其实在 AI Overview 被批评前,Google CEO 皮查伊就在近日 The Verge 的采访中提到过,「幻觉」问题仍未办理,乃至可以说是大措辞模型固有的特色。

他认为,大措辞模型不一定是理解事实的最佳渠道,但这不代表大措辞模型是个废柴,非黑即白的思维不可取,比如它可以创造诗歌、引入搜索。

CEO 接管采访也好,I/O 大会也罢,都是在向用户通报一个理念:不要只把 AI 搜索当作对现有网页的大略总结,AI 发光发热的地方还有很多。

但 AI Overview 没能让人满意,怪不到用户头上,比较演示,现在的 AI Overview 并非完备形态,很多功能还没有上线。

Google 搜索主管 Liz Reid 在 I/O 展示了一个「多步推理」的例子,输入「找到波士顿最好的瑜伽馆,展现优惠信息,以及从灯塔山出发的步辇儿韶光」,AI 一步到位,以前要搜索三次的,现在一次就够了。

同时,AI Overview 未来还将有「方案」能力,比如哀求 AI 策划三天的晚餐,用户可以直接拿到一份食谱,并在中途进行细化,加上「素食」等需求,然后导出到文档。

Google 的思路,和其他 AI 搜索产品殊途同归——让搜索更加可视化、交互性和个性化,用人话而非关键词沟通,节省查找信息的韶光,回答更加繁芜和详细的问题。

秘塔供应简洁、深入、研究的不同搜索模式,研究模式乃至可以给出大纲和脑图,天生演示文稿。

Perplexity 可以掌握搜索范围,既能覆盖全体互联网,也能按照搜索需求,缩小到学术论文、YouTube、Reddit。

天工将 AI 搜索作为一个门户,搭载更多的生产力工具,供应了 AI 速读、音乐创作等智能体,即是在 AI 搜索之上,又搭建了一个 AIGC 内容创作平台。

平时的大多数问题,景象如何,汇率多少,跳转官网,实在通过大略的传统搜索就可以得到答案。

但相对繁芜的场景,AI 搜索被寄予了厚望,毕竟它比起 ChatGPT 等多了信源,更加方便查证,比起传统搜索,又能进行更多的研究、创作、方案、头脑风暴。
与其说是比传统搜索更好的百科全书,不如说更有 agent 的形状。

当然,饼画得再多,AI 搜索的幻觉还是让人膈应。
为此有人建议,安全起见,用天生式 AI,别只看择要,再用传统的 Google 搜索检讨一下。
所谓风水轮流转,但大哥还是大哥。

张成晨

利若秋霜,辟除凶殃。
事情邮箱:zhangchengchen@ifanr.com

邮箱8

#欢迎关注爱范儿官方微信公众号:爱范儿(微旗子暗记:ifanr),更多精彩内容第一韶光为您奉上。

爱范儿|原文链接· ·新浪微博