当前位置: 首页 > 科技观察

NLP菜鸟提示跨界,清华大学刘志远最新论文应用于VLM图像端

时间:2023-03-12 07:41:32 科技观察

本文经AI新媒体量子位授权转载(公众号ID:QbitAI),转载请联系出处.NLP的菜鸟提示最近真的很火。也跨界流行到VLM(Visual-Languagemodel,视觉语言模型)。OpenAI的CLIP和南洋理工大学的CoOp都采用了这个思路。现在,在清华刘志远副教授团队最新发布的视觉语言模型论文中,也提出了一种新的基于提示的方法。根据该论文,这是首次将提示用于跨模型和零样本/少样本学习视觉定位。从目前的NLP和VLM模型来看,很多prompt-based模型效果不错,搞CV的同学也有点小激动——能不能给我们做一个?那么,prompt到底有什么好用的,应用到图片端后是否能取得很好的效果呢?让我们来看看。与微调有什么区别?最初,在NLP模型还不是太大的时候,大家会采用“预训练+微调”的方式,针对特定的任务设计模型。在这种模式下,研究人员会预训练一个效果更好的模型,然后在保留大部分模型参数的同时,根据具体任务(下游任务)调整一些参数,使其在这个任务上达到最佳性能。影响。△例如使用BERT作为预训练模型。但是,随着预训练模型越来越大,微调的成本(训练时间、需要的数据量等)也越来越大。研究人员有点不知所措,开始寻找更好的方法。这个时候出现了提示,不过这次是针对下游任务调整的。它有点像一个输入模板,用来“提示”预训练模型。预训练模型一“看到”它,它就知道它要完成什么任务。比如在情感分类任务中,希望预训练模型能够理解输入句子的情感,给出形容词进行分类:输入“我喜欢这部电影”后,提前给出提示“Thismovieis[mask]”,让预训练模型一看到就想输出“great/nice”等赞美形容词。这样训练后,预训练模型看到相应的提示就可以选择正确的词汇类型,而不是“跑路”去做其他事情。由于prompt在NLP领域的应用效果非常好,很多研究者也开始在NLP相关的VLM模型中尝试这种方法。清华用在形象方面。当然,最初应用提示的VLM模型仍然主要应用在文本端。据知乎@飞飞轮介绍,OpenAI的CLIP和NTU的CoOp这两个VLM模型,提示应用有点类似于NLP中的PET模型。从他们的模型设计来看,从文字方面可以明显看出提示的影子,比如CLIP中的“Aphotoofa[mask]”,以及CoOp在CLIP上的进一步改进,可以自-在训练期间优化提示:这些提示的应用从整体上提高了VLM模型的整体输出。不过,这基本上就是VLM在文本端的应用。prompt适合用在图片端吗?在清华大学刘志远团队的最新论文中,尝试在VLM的图像端以着色的形式创建视觉子提示。当然,文本端也使用了提示,但是在刘志远老师看来,提示在文本端的应用还不足以充分发挥提示调优的作用,所以本文尝试跨模态的提示调优方法。从论文的测试结果来看,这种方法在few-shotlearning的情况下基本可以取得比fine-tuning更好的效果。然而,这是对VLM提示的另一种尝试。适合处理CV领域的图像问题吗?CV领域可以借鉴吗?在知乎上,很多博主都发表了自己的看法。知乎@风飞轮从方法上给出了两条路径:如果是纯CV方向的提示,也就是类似ViT把图片分割成patch,每个patch其实都可以看成是一个字符,那么你也可以设计一个patch提示训练模型,也可以分为generative(类似ViT)和discriminative(类似self-supervised)两种方法。知乎@yearn认为,目前来看,continuousprompt是最有可能转移到CV领域的系列工作。最近,Transformer正准备统一CV和NLP,将图像输入转化为patch形式,这也使得研究人员更容易通过学习NLP方法来学习提示。当然,@yearn也表示,要想真正将prompt应用到CV领域,还有两个问题需要解决:1.CV目前还没有BERT、GPT等占优的预训练模型,所以在不久的将来可能很难移动提示进行小样本学习。2、CV的下游任务比较复杂。调整提示以用于感官检测和分割任务是一项非常繁重的工作量。但也有匿名用户直接认为有些任务只能在图像上以非常尴尬的方式完成。当然,视频可能会更好。那么,您认为prompt可以应用于CV领域吗?刘知远团队最新论文:https://arxiv.org/abs/2109.11797知乎回答(已授权):@飞飞轮轮:https://www.zhihu.com/question/487096135/answer/2127127513@yearn:https://www.zhihu.com/question/487096135/answer/2124603834