别再怕图片搜索结果牛头不对马嘴了,你可以试试这个精准图片搜索,来自OpenAI最新的技能CLIP。
只需一句“大口语”描述,便能给出想要的图片。
例如输入:
The word love written on the wall
就会得到这样的结果:
可以说是相称的精准了!
这便是本日在Reddit上爆火的一个项目。
这个项目利用到的,便是OpenAI前不久频频刷屏的DALL·E中的核心模块——CLIP,一个卖力重排序(rerank)的模型。
这个项目利用谷歌Colab Notebook,而且在线、免费,包含200万图片数据集,最主要的是效果还非常的精准。
不禁引得网友直呼“Amazing”。
大略几步,“大口语”在线精准搜图这个项目之以是如此火爆,操作大略是很主要的一个缘故原由之一。
首先要做的,便是点开该项目在Colab Notebook中的地址(见文末链接),上岸自己的账号。
至于环境配置、包或库的调用,这个项目非常知心的已经做好了,只须要依次点击cell左侧的小三角,等待运行完成即可。
末了,来到包含如下代码的cell:
search_query = “Two dogs playing in the snow”
点击运行这个cell,便可得到搜索图片的结果,例如:
当然,这个程序彷佛很懂人,若是输入“当你的代码跑通时的感情”:
The feeling when your program finally works
得到的结果,和正凡人想象中的该当是同等的:
为什么CLIP搜图能如此精准?
OpenAI前不久推出的DALL·E,紧张能实现的功能便是 可以按照笔墨描述、天生对应图片。
而其呈现给我们的终极作品,实在是它天生大量图片中的一部分。
在中间过程中,实在也有排名、打分的帅选过程。
这部分的任务,便是由CLIP来完成:
越是它看得懂、匹配度最高的作品,分数就会越高,排名也会越靠前。
这种构造,有点像是利用天生对抗文本,以合成图像的GAN。
不过,比较于利用GAN扩大图像分辨率、匹配图像-文本特色等方法,CLIP则选择了直接对输出进行排名。
据研究职员表示,CLIP网络的最大意义在于,它缓解了深度学习在视觉任务中,最大的两个问题。
首先,它降落了深度学习须要的数据标注量。
比较于手动在ImageNet上,用笔墨描述1400万张图像,CLIP直接从网上已有的“笔墨描述图像”数据中进行学习。
此外,CLIP还能“身兼多职”,在各种数据集上的表现都很好(包括没见过的数据集)。
但此前的大部分视觉神经网络,只能在演习的数据集上有不错的表现。
例如,CLIP与ResNet101比较,在各项数据集上都有不错的检测精度,然而ResNet101在除了ImageNet以外的检测精度上,表现都不太好。
详细来说,CLIP用到了零样本学习(zero-shot learning)、自然措辞理解和多模态学习等技能,来完成图像的理解。
例如,描述一只斑马,可以用“马的轮廓+虎的皮毛+熊猫的黑白”。这样,网络就能从没见过的数据中,找出“斑马”的图像。
末了,CLIP将文本和图像理解结合起来,预测哪些图像,与数据集中的哪些文本能完成最好的配对。
网友:机器人(bot)可能不太高兴
在惊叹CLIP用“大口语”搜索图片效果之余,一位Reddit网友还创造了一个比较故意思的搜索结果。
他在文本描述的代码部分输入:
What image best represents how you feel right now?
这句话在我们人类眼中,应该是讯问AI的语气了,然后出来的图片结果是这样的:
还有这样的:
嗯,看来是被“玩多了”,AI宝宝有点小脾气了。
参考链接:https://www.reddit.com/r/MachineLearning/comments/l52qe6/p_use_natural_language_queries_to_search_2/
项目地址:https://colab.research.google.com/github/haltakov/natural-language-image-search/blob/main/colab/unsplash-image-search.ipynb#scrollTo=OswqrzaeMy1J
— 完 —
量子位 QbitAI · 头条号签约
关注我们,第一韶光获知前沿科技动态