比如跟AI做生活搭子,让它帮自己挑水果,X平台网友“Cydiar”前不久发文,说自己用GPT-4o选出了水果店里薄皮沙瓤的一个甜西瓜。
对此,有超70万网友在线围不雅观,还有不少人在评论区用AI选起了各种水果。
除了让AI挑西瓜,挑榴莲也是网友们热衷于让AI完成的任务。
毕竟,“开榴莲”是比来较为盛行的“赌石买卖”,此前还有网友拿着榴莲照CT,带榴莲过地铁安检等等,便是为了验证他们的果房多不多。
比如即刻网友“AIchain花生”带着GPT-4o买榴莲,流传宣传成功避坑了一个烂榴莲。
他还上手演习了一个GPT“这瓜保熟吗”,帮助大家挑选水果。
这个GPTs在选瓜的时候会详细描述特色,阐明为什么该水果是最好的选择,并且以1-10颗星的办法呈现出购买推举程度。
更关键的是,网友们用AI选出的水果品质都还不错。
让AI搭子挑水果还只是小意思,如今广大网友生活中的方方面面,都开始有了AI的身影。
此前有网友让GPT-4o做微表情不雅观察专家,让通义千问评价事情餐属于什么水准,乃至生活中拍完的骨科电影也让AI给出见地。
这些场景下,AI又成了“互联网冲浪吃瓜搭子”、“工浸染餐时的用饭搭子”,以及“看病搭子”。
微表情识别专家
私人牙医
家庭年夜夫
事情餐搭子
当然,这么多AI搭子里,最出圈的还是“恋爱搭子”——直接跟AI搞工具。
还有一些细思极恐的案例。
此前,YouTube博主和AI工具“GeoSpy”进行了一次照片拍摄定位比赛,参赛的AI不仅能快速定位到照片拍摄背景,还精准到详细经纬度。
这AI,让人一韶光分不清是地理老师还是犯罪分子。
以前总以为大模型技能离普通人很远,但如今,AI已经在为生活的方方面面供应技能支持,在不同的场景中供应见地与陪伴。
6月16日,加州大学最新研究显示,GPT-4已经通过了图灵测试,它在一半以上(约54%)的韶光里被误认为是人类,GPT-3.5则是在50%的韶光里被误认为是人类。
https://arxiv.org/abs/2405.08007
这意味着,在措辞互换能力上,我们和AI之间的区分越来越模糊,人类朋友能够完成的事,找AI搭子也可以做到。
上个月,谷歌推出了最新的AI模型Gemini 1.5,腾讯发布最新AI运用“元宝”,阿里云正式发布通义千问2.5。
这些模型不仅更新了处理文本的能力,还在多模态能力上进一步提升,能够更好识别并理解图片内容。上面的大部分案例,都是网友们借助AI的多模态能力,整出了各种花活。
那么,在视觉识别、任务理解等能力上,AI究竟能够达到什么样的水平?我们间隔和AI一起“看”天下,还有多远?
环绕这个问题,“头号AI玩家”试了试当在生活中碰着各种问题时,能否都让AI们替我们决定,并给出相应的建议。
同时,本文也对实力王者GPT-4o、老牌选手Gemini、热门玩家腾讯元宝、开源霸主通义千问的视觉能力进行了一番测评,看看哪位“AI搭子”表现更好。
找AI做“挑水果搭子”,各家眼力出奇同等首先,我火速前往一家水果摊,决定从最近盛行的“AI挑报恩水果”开始考试测验,看看究竟是噱头还是真像那么一回事儿。
假如真能选出最甜水果,往后岂不是在老妈面前横着走?(bushi)
各位玩家可以选一选你认为品质较好的榴莲
1、GPT-4o
我先将榴莲摊上的6个备选榴莲标上了序号,并发给了GPT-4o,让它从中挑选出果肉较多的一个榴莲。
GPT-4o认为,在这6个参赛榴莲中,品质最好的是1号榴莲,由于它的形状较大且圆润,颜色也较黄,看起来成熟度更高。
对付其他榴莲选手,GPT-4o也给出了相应的外不雅观描述,编号5和6也是不错的选择,编号5体积较小,但刺不密集,可能会有惊喜。但综合来说,他更推举1号。
在GPT-4o的推举下,我选择了1号榴莲:
一打开这个榴莲,店员表示这是一个干巴款的榴莲,但果肉较为饱满,如果喜好紧实口感的,1号榴莲便是个不错的选择。
总之,对付挑选小白来说,GPT-4o给出的榴莲见地,确实能供应参考方向。至少选的榴莲果肉丰满,气味浓郁,并没有踩雷。
2、Gemini
比较GPT-4o给出的见地,Gemini更希望我自行判断,他表示我供应的照片光芒较暗,只有一个拍摄角度,无法判断出榴莲的完全性和成熟度。
他认为,1、2、3都是成熟款的榴莲,而6号榴莲可能还没熟透。其余,他表示如果我纠结的话,可以把6个都打开看看……
Gemini在挑选榴莲这件事上,更像是一个赞助的工具,须要人工见告他更详细的细节,比如榴莲的尖刺形状什么样、颜色是什么,他才能给出更专业的判断。
虽然我考试测验调度了几次提示词,比如“请从外不雅观角度判断”“忽略榴莲完全性”等等,Gemini 1.5 pro都谢绝回答。
这一轮Gemini选榴莲,发布失落败。
3、通义千问
我同样测试了开源领域的最强霸主——通义千问2.5。
当我直接上传图片,让他从1-6号中选出一个果肉较多的榴莲,通义千问会回答自己无法直接判断榴莲的果肉量和口感,并给出一些挑选榴莲的建议。
但当我提出“请从外不雅观上看,帮我选出一个品质较好的榴莲”时,通义综合了颜色、刺的硬度、外壳是否裂开,同样选择了1号榴莲。
不得不说,AI大模型的“眼力”还是相称同等。
4、腾讯元宝
最近热度较高的元宝,给出的建议就很直接,一下子推举了1、3、6号3个榴莲。
情由是这些榴莲看起来比较饱满,还调皮地表示“这只是根据视觉判断的结果”,言外之意便是“看着都不错,好不好吃请别问我”。
我进一步提问为什么看起来1、3、6更饱满成熟,元宝认为,它们外壳颜色较深,并且没有明显的裂纹。
比较其他大模型武断选择1号,元宝还预判了顾客的喜好进行推举。他认为如果看中果肉饱满,更推举1、3、6号,如果看中出肉率,就要选择表皮较薄的榴莲,但须要顾客自行挑选,并未做进一步的推举。
通过上述的榴莲挑选体验,我创造大多数AI大模型常日都是靠尖刺、外壳颜色和形状进行初步判断,而这些成分实在很依赖当时拍摄图片的场景和灯光。
以是,能不能挑到满意的榴莲,还是须要在现场根据气味、尖刺进一步判断。
AI给出的见地很大程度是踩中了“现阶段榴莲都不难吃”这一点。但如果真是个挑水果小白,AI剖析水果外不雅观这方面,还是供应了一些参考建议。
找AI做“科普搭子”,通义千问学会摆烂了
除了挑选水果之外,当触及知识盲区时,AI能够帮我们识别干系的内容吗?
比如,在地铁上碰着一些正反颠倒的外语笔墨:
1、GPT-4o
这张印有日文的图像,GPT-4o压根没有识别出笔墨颠倒了,开始编纂上面的日语是“厉害的、惊人的”的意思。
当我把图片翻转180度变正之后,它才回答出日语是“猫咪”的意思。
2、Gemini
Gemini虽然对笔墨的识别还不足准确,但也能够通过图片预测出这是一个玄色毛绒玩具的一部分。
遗憾的是,通义千问和元宝都没有办法识别出这些笔墨的意思,通义千问乃至开始说自己还没有识别笔墨的能力,直接摆烂。
可见,现阶段的AI识别任意字符,依旧须要我们供应精确的笔墨样式,经由颠倒、翻转或镜像的图片,AI都没法辨认。
找AI做“看展搭子”,GPT-4o和元宝略胜一筹
如果和AI进行一场“看展式社交”,一起逛博物馆,是不是能学到新知识?
我们让AI“品鉴”了一下中国古代艺术《千里江山图》局部图,并问他们“这幅画是什么意思”。
GPT-4o和元宝在两次提问后,能够知道这是《千里江山图》的局部图,并详细阐述了这幅山水画的意境。而Gemini和通义千问都无法认出详细是哪一副传统山水画,GPT-4o和腾讯元宝略胜一筹。
这么看来,约请GPT-4o和元宝做博物馆搭子,会是不错的选择。
左边为GPT-4o回答;右边为Gemini 1.5 pro
找AI做“吃瓜搭子”,玩梗能力堪忧挑水果、逛博物馆、识别陌生笔墨,只是AI图像识别中的部分用例。接下来,我们来看看AI能不能和我一起冲浪第一线吃瓜。
比如,最近火爆AI视频天生领域的梗图,让Runway转头就更新了Gen 3模型,我们来看看AI会如何解读:
1、GPT-4o
GPT-4o真的就把图片底本来本翻译了一遍,并没有完备指出“由于Luma AI视频天生工具的火爆,人们早把Runway丢在一边了”等类似的内涵。
2、Gemini
除了末了总结上提到“人们对Sora的期待”有缺点之外,Gemini至少可以识别出90%的梗图内在含义,还能看懂Sora代表的小孩脸上有不知所措的表情。
3、通义千问
可能是由于这张图有骷髅,以是通义千问让我换张图试一试,和AI一同吃瓜也要把稳内容红线,通义的安全意识远高于其他模型。
4、腾讯元宝:
元宝至少看懂了这张图的内容,但并没有指出个中的玩味含义,回答还有些不苟言笑。
总的来说,Gemini看梗图的能力略强于其他几家,最少理解这是一张meme图,也能明白个中的诙谐意味,但没有一家AI能和我一起调侃“6月更新的AI视频工具也太多了”,你们好歹都是大措辞模型啊。
找AI做“娱乐搭子”,眼神大都比我好
面对互联网上层出不穷的娱乐向测试,我们接下去看看AI会如何应对,比如一些经典的视觉错觉图。
请各位玩家先判断一下,A和B色块颜色相同吗?
1、GPT-4o
GPT-4o不仅说出了精确答案,还见告我这是一个有名的视觉错觉实验,并附上了详细的识别方法。
当我们进一步让它证明并画出A和B是相同色块,它还给出了取色图像和一段Python代码,帮助证明A和B是相同的颜色。
2、Gemini
Gemini也没有让人失落望,除了准确说出A和B颜色相同之外,并阐明了为什么大多数人会产生这种视觉错觉。
不过,当我们哀求它能否画出来证明A和B颜色同等时,它表示须要用到图像编辑工具,没有办法直接输出一张新图片。
换言之,作为一个多模态模型,Gemini 1.5 pro目前还不能直接供应详细的图片示例,不具备多模态输出能力。
3、通义千问
通义千问同样识别出两个色块同等,还附上了更多识别方法和参考链接以证明色块的同等性。
值得一提的是,我们也哀求通义千问能够画出来证明A和B是一样的色块,通义真的这么做了,但有些勉强:
我们压根无法分辨它不苟言笑强调“这两个色块同等”,究竟是自己涌现的“大模型幻觉”还是真的受屏幕影响导致画面颜色不同。
可见,通义千问在理解多模态输入和输出方面都做了一定的努力,但图像输出的准确性须要进一步进行信息校准核验。
4、腾讯元宝
腾讯元宝的回答,让我看到了做视觉测验的我本人。
间隔和AI一起“看”天下,还有多远?
除了对话沟通能力,这些能够读图的AI,彷佛还有了“睁眼看天下”的能力。
无论是生活场景下挑水果,还是吃瓜读梗,GPT-4o、Gemini、通义和元宝都展现出了一定的图像剖析能力,乃至在某些场景下,不仅能处理繁芜的多模态输入输出,理解能力又更上一层。
OpenAI Sora及DALL·E团队卖力人Aditya Ramesh最近提到,现阶段AI视觉的根本是对压缩图像的学习。模型会从原始图像中提取关键信息,并以一种压缩的形式来表示这些信息。
这个过程可以帮助模型识别图像中最主要的特色,忽略那些不那么主要的细节,从而提高识别图像中物体和场景的能力。他认为,能够仿照任何想要的内容将是未来的一个主要里程碑。
虽然AI在视觉理解方面已经取得了很大进展,但现有的多模态模型在识别图像上还不能做到百分百的精确。
正如我们让AI不断寻衅图灵测试,或许在视觉识别领域也能看到它实现新的打破。至少目前,很多人类看不懂的知识,正在被AI以前所未有的办法重新解读。