当前位置: 首页 > 科技观察

用“大白话”精准搜图,OpenAI的CLIP惊艳了所有人

时间:2023-03-19 18:18:49 科技观察

OpenAI的CLIP用“白话”精准搜索图片,让大家惊叹不已。不要再害怕图片搜索结果错误,你可以试试这个精??确的图片搜索,它来自OpenAI的最新技术CLIP。只需要一句“白话”描述,就能给出想要的画面。比如你输入:写在墙上的爱字,你会得到这样的结果:可以说是相当准确了!这是今天在Reddit上走红的一个项目。本项目使用的是OpenAI近期频频刷屏的DALL·E核心模块——CLIP,负责reranking的模型。该项目使用在线免费的GoogleColabNotebook,包含200万张图像的数据集。最重要的是效果非常准确。网友们不禁直呼“Amazing”。只需几个简单的步骤,“大白话”在线精准图片搜索项目火爆的重要原因之一就是操作简单。首先要做的是在ColabNotebook中点击项目地址(见文末链接)并登录你的账户。至于环境配置、打包或者库调用,这个项目已经做得很贴心了,只需一一点击单元格左侧的小三角,等待操作完成即可。最后,来到包含以下代码的单元格:search_query="Twodogsplayinginthesnow"点击运行这个单元格,可以得到搜索图片的结果,例如:当然,这个程序好像很懂人好吧,如果你输入“WhenyourcoderunsTheemotionsatthesametime”:你的程序最终运行时的感受得到的结果应该和正常人的想象一致:为什么CLIP图片搜索这么准?OpenAI不久前推出的DALLE主要可以实现根据文字描述生成对应图片的功能。而它最终呈现给我们的作品,其实是它生成的大量图片的一部分。中间过程其实还有一个排名打分的评选过程。这部分任务由CLIP完成:对作品的理解和匹配度最高的作品,得分越高,排名靠前。这种结构有点像GAN,使用生成的对抗性文本来合成图像。但是,相比于使用GAN来扩展图像分辨率和匹配图文特征,CLIP选择直接对输出进行排序。据研究人员介绍,CLIP网络最大的意义在于它缓解了深度学习在视觉任务中最大的两个问题。首先,它减少了深度学习所需的数据标注量。与在ImageNet上用文字手动描述1400万张图片相比,CLIP直接从网上现有的“文字描述图片”数据中学习。此外,CLIP还可以“身兼多职”,在各种数据集(包括没见过的数据集)上表现出色。但以往的视觉神经网络大多只能在训练数据集上表现良好。例如,与ResNet101相比,CLIP在各种数据集上都有很好的检测精度,但是ResNet101在ImageNet以外的检测精度上表现不是很好。具体来说,CLIP利用零样本学习、自然语言理解、多模态学习等技术完成图像理解。比如描述斑马,可以用“马的轮廓+老虎的皮毛+熊猫的黑白”。这样,网络就可以从它以前从未见过的数据中找到“斑马”的图像。最后,CLIP结合了文本和图像理解来预测哪些图像最适合与数据集中的哪些文本配对。网友:机器人(bot)可能不太高兴。在惊叹CLIP使用“白话”搜索图片效果的同时,一位Reddit网友还发现了一个更有趣的搜索结果。他在文字描述的代码部分输入:什么图像最能代表你现在的感受?在我们人类看来,这句话应该是问AI的语气,结果出来的图片是这样的:还有这个:嗯,好像是被“玩多了”,和AI宝宝有点脾气。参考链接:https://www.reddit.com/r/MachineLearning/comments/l52qe6/p_use_natural_language_queries_to_search_2/项目地址:https://colab.research.google.com/github/haltakov/natural-language-image-search/blob/main/colab/unsplash-image-search.ipynb#scrollTo=OswqrzaeMy1J