当前位置: 首页 > 科技观察

教ChatGPT学习看图的方法在这里

时间:2023-03-18 13:58:49 科技观察

2022年“文森特图”模型会流行,那么2023年会流行什么?机器学习工程师DanielBourke给出了答案:反过来!这不,一款新出炉的“图文”模型在网络上火了一把,出色的效果让很多网友转发点赞。不仅是基本的“看图说话”功能,写情诗、解说剧情、为画面中的物体设计对话等等,这个AI都能游刃有余!例如,当你在网上发现诱人的食物,只需将图片发送给它,它就会立即识别出所需的食材和烹饪步骤:甚至连图片中列文虎克的一些细节都能“看”清楚。当被问及如何从图中的颠倒屋子里走出来时,AI的回答是:旁边不是有滑梯吗!这个新的AI叫做BLIP-2(BootstrappingLanguage-ImagePre-training2),目前代码已经开源。最重要的是,与以往的研究不同,BLIP-2使用了通用的预训练框架,因此可以任意对接自己的语言模型。一些网友已经在想象将界面替换为ChatGPT后的强大组合。其中一位作者StevenHoi甚至表示:BLIP-2未来将是“ChatGPT的多模式版本”。那么,BLIP-2还有什么神奇之处呢?一起往下看吧。一流的领悟能力BLIP-2可以说是五花八门。你只需要提供一张图片,就可以和它对话,让它看图讲故事,推理,生成个性化文字等需求即可。例如,BLIP-2不仅可以轻松识别图片中的景点是长城,还可以介绍长城的历史:中国的长城是公元前221年秦始皇为了保护帝都而修建的来自北方的入侵。给它一个静止的电影,BLIP-2不仅知道它来自哪里,而且知道故事的结局是:泰坦尼克号沉没,英雄淹死。BLIP-2对人的神态把握也非常准确。当被问及照片中的人长什么样以及为什么要这样做时,BLIP-2回答说:他害怕鸡,因为它正朝他飞来。更神奇的是,BLIP-2在很多开放性问题上也表现非常出色。请它根据下图写一句浪漫的句子:它的答案是:爱情就像夕阳西下,来的时候很难看,但是来的时候,却是那么的美。这不仅是领悟能力的满分,更是极强的文学修养!让它在画面中产生两只动物的对话,BLIP-2可以轻松搞定傲娇猫x笨狗的设定:猫:喂,狗,我可以骑在你背上吗?狗:当然可以,为什么不呢?猫:我厌倦了在雪地里行走。那么,如此强大的领悟能力背后,BLIP-2是怎么做到的呢?AchievingnewSOTAonmultiplevisuallanguagetasks考虑到大规模模型端到端训练的成本越来越高,BLIP-2使用了通用且高效的预训练策略:从现成的frozenpre-trainedimageencoders冻结的大规模语言模型中的引导式视觉语言预训练。这也意味着每个人都可以选择他们想要使用的模型。为了弥合模态之间的差距,研究人员提出了一种轻量级的查询Transformer。Transformer分两个阶段进行预训练:第一阶段指导从冻结图像编码器学习视觉语言表示,第二阶段指导从冻结语言模型学习视觉语言生成。为了测试BLIP-2的性能,研究人员在零样本图像文本生成、视觉问答、图像文本检索和图像字幕任务上对其进行了评估。最终结果表明,BLIP-2在多个视觉语言任务上实现了SOTA。其中BLIP-2在零样本VQAv2上比Flamingo80B提升了8.7%,训练参数也减少了54倍。很明显,更强的图像编码器或更强的语言模型都会带来更好的性能。值得一提的是,研究人员还在论文末尾提到,BLIP-2还有一个缺点,即缺乏上下文学习能力:每个样本只包含一个图文对,目前还无法将在一个序列中学习多个上下文。图像-文本对之间的相关性。研究团队BLIP-2背后的研究团队来自SalesforceResearch。第一作者是李俊南,也是BLIP一年前推出的作品。现为Salesforce亚洲研究院高级研究员。毕业于香港大学,获学士学位,获博士学位。新加坡国立大学学位。研究领域广泛,包括自监督学习、半监督学习、弱监督学习、视觉-语言。以下是论文链接和BLIP-2的GitHub链接。有兴趣的小伙伴可以扒一扒~论文链接:https://arxiv.org/pdf/2301.12597.pdfGitHub链接:https://github.com/salesforce/LAVIS/tree/main/projects/blip2参考链接:[1]https://twitter.com/mrdbourke/status/1620353263651688448[2]https://twitter.com/LiJunnan0409/status/1620259379223343107