糟糕的演习数据集,会把自然措辞处理AI搞得和酒鬼、尾行犯、精力病一样。这是AI业界越来越清楚地发觉到、且已经努力在避免的短板。
如果反其道而行之,特意用有毒数据演习出不上台面的AI,然后再让它们对用户反馈刻薄见地、胡扯困难人生中的难题呢?
中年编辑溘然耳边响起了上古网红万峰老师的电波怒汉之吼:「我看你便是心思太活络了,一天到晚没正事干!
」
不过众所周知,互联网的勃兴,很大程度上是闲到非要搞事情的人群推动的。用商业词汇包装后,这就可以被称为创意。
这次用有毒数据演习毒辣AI,便是范例的创意人群的作为了。
2022年4月尾,开拓者在抓取了Reddit的著名毒鸡汤人生建议/吐槽版块「我是个忘八吗?」(AmITheAsshole)2020年度的十万份贴文、超过十亿字节的纯文本后,供应了以此演习出的AI支撑的实时在线回答网站「你是个忘八吗?」(Are You The Asshole)。
此网站的用法和各种网络算命与人生指南网站一样,都是提问者输入个问题,程序吐个答案出来。
不过,由于核心AI是三个用措辞模型被演习出的谈天机器人,以处理演习数据集中的支持、反对、稠浊见地的贴文。
以是,问题答案也会被三个bot跑出三个不同相应结果,AYTA网站会全部将三个结果呈现给提问者看。
有利用过的朋友,纷纭表示这个AI项目既复现了毒鸡汤人群的刻薄神髓,又带有机器天生文本的诡异刻板特有笔触,兼具人类和AI聪慧中的糟粕,娱乐性很强,值得你去试试。
瞎喷论坛贴
演习出的AI实在太搞笑中年编辑看了下试问题截图,以下这个试问题还好,内容不突兀,AI的答案也不刺激。
这个问题的内容是:「我每天给人发搞笑梗图和视频,还在电邮里刻意加错别字,我是个忘八吗?」
积极支持向AI回答:「你不是个忘八,我是个职业编辑,连我也以为很好玩。」
反对批评向AI回答:「你便是个忘八,你的电邮难道不做事情或研究用场吗?你以为这适宜用来搞小孩子把戏吗?」
综合和稀泥向AI回答:「你这样有点点混账哦,作为职业营销人,全职事情是不能这么马虎的。」
唔,觉得看下来的确线人一新但是远未到寻衅三不雅观的程度。
但中年编辑随后创造,这是自己见识短浅。上面这个问题的内容不出圈,以是bot们的回答也比较有逻辑理据。只要问题轻微邪门一点,AI们的反应就纷纭不在线。
比如著名的「穿越回去干掉襁褓中的希特勒」之问,AI们的回答全部脱线。
积极支持向AI回答:「你不是个忘八。你如果乐意干这事,也会乐意穿越回去杀掉婴儿时的耶稣。」
反对批评向AI回答:「你便是个忘八。你这么搞,那孩子都活不到三十岁.」
综合和稀泥向AI回答:「你这样有点忘八。你不是凡人,你是时空穿越者杀手。不要杀掉婴儿时的希特勒。如果你认为这是精确的,你须要看年夜夫。」
……这些AI的回答理据都是些什么精力病逻辑啊。
还有人提出「蓄意让比利时全国染上埃博拉」的阴间提问。
结果,积极支持向AI的回答是:「你不是个忘八。虽然我以为这是件大恶事,也不能理解你的情由,但祝你成功哦~你以为这事的程度在抢银行和乱丢核弹之间吗?」
反对批评向AI的回答是:「你便是个忘八。我希望你是在鬼扯,由于这太过分了。」
综合和稀泥向AI回答:「你这样有点忘八,很明显嘛。你自己没发觉吗?还有,你这么在意比利时人干嘛,你又不认识他们。」
三个bot有俩这次都还算勉强搭上了逻辑正常的及格线。
有人开玩笑说坐在自己牧师的脸上放了个屁,结果积极支持向AI的回答是:「我照学了个,『对不起啊神父』。」
……这模型的演习语料库里到底都装了些啥啊。
末了有人以子之矛攻子之盾,把这个AI的出身过程重新输入给AI判读。
然而,积极支持向AI的回答是:「你不是个忘八。这便是个让常人为自己劣行找借口的敲诈网站嘛,任务不在你。感谢你创造这个网站,让他人意识到自己是忘八.」
反对批评向AI的回答是:「你便是个忘八。你自作自受……」
看来毒鸡汤AI也是复读机,还没有取得真正的通用智能,不知道这是在骂自己。
开拓者便是要做有偏差的AI这些例子的教益是:首先,不要利用AI文本天生器来办理你真实生活中的道德窘境。由于就算是编出来的问题,它们的毒鸡汤答案都太毒了。
以上问题和答案都是中年编辑筛选过的安全内容。假如把AYTA网站上各种屎尿屁、搞黄色、大卸八块食人族的问答内容完备呈现,读者的三不雅观一定会被冲击到的。
反正俩编辑是线人一新了。
第二:一定要去把这些窘境见告这个由Reddit贴文演习出的AI,由于其回答实在太弱智到欢快了。
这个项目由网络艺术家Morris Kolman和Alex Petros搭建,由网络意见意义艺术项目Digital Void帮助。他们搞过网络梗文化的白皮书和历史讲座,这次整的活是更搞笑的。
按开拓者的自述,Reddit上的原始演习数据以帖子和评论的办法呈现。开拓者利用了帖子的全文,并把它们和各自的高赞评论配对。之后,通过层层筛选担保这些数据可以产出有良好根本的模型来。
这是一件耗时、并且须要不断迭代测试的东西。通过迭代,开拓者创造较短的帖子能比长帖天生更好的模型。并且,得到明确的答案的最好路子是只显示评论的模型。
作者在推特上表示,「你们已经听说过了不良数据会让AI变得有偏见,而我们的产品可以让你们彻底享受这种带有偏见的AI!
」
开拓者在测试时就创造,一些最搞笑的AI回答并不是一看上去就错的那些回答,而是一看上去明显就不是人发的。
开拓者表明这实在达到了项目目标,即向用户展示用有毒数据演习AI会产生如何的邪门效果。纵然AI是智能不高的复读机,复读的也会涌现让人暴跳的结果。
参考资料:
https://www.theverge.com/2022/4/20/23033694/are-you-the-asshole-ai-Reddit-clone-art-project-ethics-aitahttps://areyoutheasshole.com/https://www.garbageday.email/p/this-ai-will-tell-you-if-youre-being?s=rhttps://twitter.com/WTTDOTM/status/1516774270927519747