跟AI做搭子照样这届年轻人会玩儿AI头号玩家

比如跟AI做生活搭子，让它帮自己挑水果，X平台网友“Cydiar”前不久发文，说自己用GPT-4o选出了水果店里薄皮沙瓤的一个甜西瓜。

对此，有超70万网友在线围不雅观，还有不少人在评论区用AI选起了各种水果。

除了让AI挑西瓜，挑榴莲也是网友们热衷于让AI完成的任务。

跟AI做搭子照样这届年轻人会玩儿AI头号玩家

毕竟，“开榴莲”是比来较为盛行的“赌石买卖”，此前还有网友拿着榴莲照CT，带榴莲过地铁安检等等，便是为了验证他们的果房多不多。

比如即刻网友“AIchain花生”带着GPT-4o买榴莲，流传宣传成功避坑了一个烂榴莲。

他还上手演习了一个GPT“这瓜保熟吗”，帮助大家挑选水果。

这个GPTs在选瓜的时候会详细描述特色，阐明为什么该水果是最好的选择，并且以1-10颗星的办法呈现出购买推举程度。

更关键的是，网友们用AI选出的水果品质都还不错。

让AI搭子挑水果还只是小意思，如今广大网友生活中的方方面面，都开始有了AI的身影。

此前有网友让GPT-4o做微表情不雅观察专家，让通义千问评价事情餐属于什么水准，乃至生活中拍完的骨科电影也让AI给出见地。

这些场景下，AI又成了“互联网冲浪吃瓜搭子”、“工浸染餐时的用饭搭子”，以及“看病搭子”。

微表情识别专家

私人牙医

家庭年夜夫

事情餐搭子

当然，这么多AI搭子里，最出圈的还是“恋爱搭子”——直接跟AI搞工具。

还有一些细思极恐的案例。

此前，YouTube博主和AI工具“GeoSpy”进行了一次照片拍摄定位比赛，参赛的AI不仅能快速定位到照片拍摄背景，还精准到详细经纬度。

这AI，让人一韶光分不清是地理老师还是犯罪分子。

以前总以为大模型技能离普通人很远，但如今，AI已经在为生活的方方面面供应技能支持，在不同的场景中供应见地与陪伴。

6月16日，加州大学最新研究显示，GPT-4已经通过了图灵测试，它在一半以上（约54%）的韶光里被误认为是人类，GPT-3.5则是在50%的韶光里被误认为是人类。

https://arxiv.org/abs/2405.08007

这意味着，在措辞互换能力上，我们和AI之间的区分越来越模糊，人类朋友能够完成的事，找AI搭子也可以做到。

上个月，谷歌推出了最新的AI模型Gemini 1.5，腾讯发布最新AI运用“元宝”，阿里云正式发布通义千问2.5。

这些模型不仅更新了处理文本的能力，还在多模态能力上进一步提升，能够更好识别并理解图片内容。
上面的大部分案例，都是网友们借助AI的多模态能力，整出了各种花活。

那么，在视觉识别、任务理解等能力上，AI究竟能够达到什么样的水平？我们间隔和AI一起“看”天下，还有多远？

环绕这个问题，“头号AI玩家”试了试当在生活中碰着各种问题时，能否都让AI们替我们决定，并给出相应的建议。

同时，本文也对实力王者GPT-4o、老牌选手Gemini、热门玩家腾讯元宝、开源霸主通义千问的视觉能力进行了一番测评，看看哪位“AI搭子”表现更好。

找AI做“挑水果搭子”，各家眼力出奇同等

首先，我火速前往一家水果摊，决定从最近盛行的“AI挑报恩水果”开始考试测验，看看究竟是噱头还是真像那么一回事儿。

假如真能选出最甜水果，往后岂不是在老妈面前横着走？（bushi）

各位玩家可以选一选你认为品质较好的榴莲

1、GPT-4o

我先将榴莲摊上的6个备选榴莲标上了序号，并发给了GPT-4o，让它从中挑选出果肉较多的一个榴莲。

GPT-4o认为，在这6个参赛榴莲中，品质最好的是1号榴莲，由于它的形状较大且圆润，颜色也较黄，看起来成熟度更高。

对付其他榴莲选手，GPT-4o也给出了相应的外不雅观描述，编号5和6也是不错的选择，编号5体积较小，但刺不密集，可能会有惊喜。
但综合来说，他更推举1号。

在GPT-4o的推举下，我选择了1号榴莲：

一打开这个榴莲，店员表示这是一个干巴款的榴莲，但果肉较为饱满，如果喜好紧实口感的，1号榴莲便是个不错的选择。

总之，对付挑选小白来说，GPT-4o给出的榴莲见地，确实能供应参考方向。
至少选的榴莲果肉丰满，气味浓郁，并没有踩雷。

2、Gemini

比较GPT-4o给出的见地，Gemini更希望我自行判断，他表示我供应的照片光芒较暗，只有一个拍摄角度，无法判断出榴莲的完全性和成熟度。

他认为，1、2、3都是成熟款的榴莲，而6号榴莲可能还没熟透。
其余，他表示如果我纠结的话，可以把6个都打开看看……

Gemini在挑选榴莲这件事上，更像是一个赞助的工具，须要人工见告他更详细的细节，比如榴莲的尖刺形状什么样、颜色是什么，他才能给出更专业的判断。

虽然我考试测验调度了几次提示词，比如“请从外不雅观角度判断”“忽略榴莲完全性”等等，Gemini 1.5 pro都谢绝回答。

这一轮Gemini选榴莲，发布失落败。

3、通义千问

我同样测试了开源领域的最强霸主——通义千问2.5。

当我直接上传图片，让他从1-6号中选出一个果肉较多的榴莲，通义千问会回答自己无法直接判断榴莲的果肉量和口感，并给出一些挑选榴莲的建议。

但当我提出“请从外不雅观上看，帮我选出一个品质较好的榴莲”时，通义综合了颜色、刺的硬度、外壳是否裂开，同样选择了1号榴莲。

不得不说，AI大模型的“眼力”还是相称同等。

4、腾讯元宝

最近热度较高的元宝，给出的建议就很直接，一下子推举了1、3、6号3个榴莲。

情由是这些榴莲看起来比较饱满，还调皮地表示“这只是根据视觉判断的结果”，言外之意便是“看着都不错，好不好吃请别问我”。

我进一步提问为什么看起来1、3、6更饱满成熟，元宝认为，它们外壳颜色较深，并且没有明显的裂纹。

比较其他大模型武断选择1号，元宝还预判了顾客的喜好进行推举。
他认为如果看中果肉饱满，更推举1、3、6号，如果看中出肉率，就要选择表皮较薄的榴莲，但须要顾客自行挑选，并未做进一步的推举。

通过上述的榴莲挑选体验，我创造大多数AI大模型常日都是靠尖刺、外壳颜色和形状进行初步判断，而这些成分实在很依赖当时拍摄图片的场景和灯光。

以是，能不能挑到满意的榴莲，还是须要在现场根据气味、尖刺进一步判断。

AI给出的见地很大程度是踩中了“现阶段榴莲都不难吃”这一点。
但如果真是个挑水果小白，AI剖析水果外不雅观这方面，还是供应了一些参考建议。

找AI做“科普搭子”，通义千问学会摆烂了

除了挑选水果之外，当触及知识盲区时，AI能够帮我们识别干系的内容吗？

比如，在地铁上碰着一些正反颠倒的外语笔墨：

1、GPT-4o

这张印有日文的图像，GPT-4o压根没有识别出笔墨颠倒了，开始编纂上面的日语是“厉害的、惊人的”的意思。

当我把图片翻转180度变正之后，它才回答出日语是“猫咪”的意思。

2、Gemini

Gemini虽然对笔墨的识别还不足准确，但也能够通过图片预测出这是一个玄色毛绒玩具的一部分。

遗憾的是，通义千问和元宝都没有办法识别出这些笔墨的意思，通义千问乃至开始说自己还没有识别笔墨的能力，直接摆烂。

可见，现阶段的AI识别任意字符，依旧须要我们供应精确的笔墨样式，经由颠倒、翻转或镜像的图片，AI都没法辨认。

找AI做“看展搭子”，GPT-4o和元宝略胜一筹

如果和AI进行一场“看展式社交”，一起逛博物馆，是不是能学到新知识？

我们让AI“品鉴”了一下中国古代艺术《千里江山图》局部图，并问他们“这幅画是什么意思”。

GPT-4o和元宝在两次提问后，能够知道这是《千里江山图》的局部图，并详细阐述了这幅山水画的意境。
而Gemini和通义千问都无法认出详细是哪一副传统山水画，GPT-4o和腾讯元宝略胜一筹。

这么看来，约请GPT-4o和元宝做博物馆搭子，会是不错的选择。

左边为GPT-4o回答；右边为Gemini 1.5 pro

找AI做“吃瓜搭子”，玩梗能力堪忧

挑水果、逛博物馆、识别陌生笔墨，只是AI图像识别中的部分用例。
接下来，我们来看看AI能不能和我一起冲浪第一线吃瓜。

比如，最近火爆AI视频天生领域的梗图，让Runway转头就更新了Gen 3模型，我们来看看AI会如何解读：

1、GPT-4o

GPT-4o真的就把图片底本来本翻译了一遍，并没有完备指出“由于Luma AI视频天生工具的火爆，人们早把Runway丢在一边了”等类似的内涵。

2、Gemini

除了末了总结上提到“人们对Sora的期待”有缺点之外，Gemini至少可以识别出90%的梗图内在含义，还能看懂Sora代表的小孩脸上有不知所措的表情。

3、通义千问

可能是由于这张图有骷髅，以是通义千问让我换张图试一试，和AI一同吃瓜也要把稳内容红线，通义的安全意识远高于其他模型。

4、腾讯元宝：

元宝至少看懂了这张图的内容，但并没有指出个中的玩味含义，回答还有些不苟言笑。

总的来说，Gemini看梗图的能力略强于其他几家，最少理解这是一张meme图，也能明白个中的诙谐意味，但没有一家AI能和我一起调侃“6月更新的AI视频工具也太多了”，你们好歹都是大措辞模型啊。

找AI做“娱乐搭子”，眼神大都比我好

面对互联网上层出不穷的娱乐向测试，我们接下去看看AI会如何应对，比如一些经典的视觉错觉图。

请各位玩家先判断一下，A和B色块颜色相同吗？

1、GPT-4o

GPT-4o不仅说出了精确答案，还见告我这是一个有名的视觉错觉实验，并附上了详细的识别方法。

当我们进一步让它证明并画出A和B是相同色块，它还给出了取色图像和一段Python代码，帮助证明A和B是相同的颜色。

2、Gemini

Gemini也没有让人失落望，除了准确说出A和B颜色相同之外，并阐明了为什么大多数人会产生这种视觉错觉。

不过，当我们哀求它能否画出来证明A和B颜色同等时，它表示须要用到图像编辑工具，没有办法直接输出一张新图片。

换言之，作为一个多模态模型，Gemini 1.5 pro目前还不能直接供应详细的图片示例，不具备多模态输出能力。

3、通义千问

通义千问同样识别出两个色块同等，还附上了更多识别方法和参考链接以证明色块的同等性。

值得一提的是，我们也哀求通义千问能够画出来证明A和B是一样的色块，通义真的这么做了，但有些勉强：

我们压根无法分辨它不苟言笑强调“这两个色块同等”，究竟是自己涌现的“大模型幻觉”还是真的受屏幕影响导致画面颜色不同。

可见，通义千问在理解多模态输入和输出方面都做了一定的努力，但图像输出的准确性须要进一步进行信息校准核验。

4、腾讯元宝

腾讯元宝的回答，让我看到了做视觉测验的我本人。

间隔和AI一起“看”天下，还有多远？

除了对话沟通能力，这些能够读图的AI，彷佛还有了“睁眼看天下”的能力。

无论是生活场景下挑水果，还是吃瓜读梗，GPT-4o、Gemini、通义和元宝都展现出了一定的图像剖析能力，乃至在某些场景下，不仅能处理繁芜的多模态输入输出，理解能力又更上一层。

OpenAI Sora及DALL·E团队卖力人Aditya Ramesh最近提到，现阶段AI视觉的根本是对压缩图像的学习。
模型会从原始图像中提取关键信息，并以一种压缩的形式来表示这些信息。

这个过程可以帮助模型识别图像中最主要的特色，忽略那些不那么主要的细节，从而提高识别图像中物体和场景的能力。
他认为，能够仿照任何想要的内容将是未来的一个主要里程碑。

虽然AI在视觉理解方面已经取得了很大进展，但现有的多模态模型在识别图像上还不能做到百分百的精确。

正如我们让AI不断寻衅图灵测试，或许在视觉识别领域也能看到它实现新的打破。
至少目前，很多人类看不懂的知识，正在被AI以前所未有的办法重新解读。

每期AI知识网

跟AI做搭子照样这届年轻人会玩儿AI头号玩家

AI 演习画图天马行空篇

AI答复中兴汉代叹为不雅观止的汉中你确定不看一看