当前位置: 首页 > 科技赋能

电影联播来了!贾佳亚团队用2个代币让大模看得津津有味地看GTA6预告片

时间:2024-05-19 16:13:23 科技赋能

谁知道,连大模都学会了看好莱坞大片,大模还能看播放量过亿的GTA6预告片,它是如此滚动!让LLM提升到新水平的方法就像 2 个令牌一样简单 - 只需将每个帧编码为 2 个单词即可。

ETC!这种简单的方法有一种莫名其妙的熟悉感。

是的,来自香港中文大学贾佳亚团队。

这是继8月贾佳亚团队提出专注于推理分割的LISA多模态大模型、10月发布70B参数长文本开源大语言模型LongAlpaca和LongLoRA发布的超长文本扩展技术后的又一重大技术更新。

LongLoRA只需要两行代码就可以将7B模型的文本长度扩展到k个token,而他将70B模型的文本长度扩展到32k个token的成就也受到了无数赞誉。

此次,贾佳亚团队全新的多模态大模型LLaMA-VID可以支持单幅图像、短视频甚至长达3小时的电影的输入处理。

需要说明的是,目前包括GPT-4V在内的多模态模型[1,2,3]基本上只能支持图像输入。

面对实际场景中多图长视频的处理需求,支持非常有限。

面对几十分钟甚至几个小时的视频就更没有效果了。

可以说,LLaMA-VID的出现填补了长视频领域大语言模型的空白。

电影合作伙伴LLaMA-VID的第一手体验是尝试最近流行的GTA6预告片。

LLaMA-VID可以准确理解预告片中出现的场景,并可以分析预告片中游戏的吸引力在于广泛的活动场景和令人惊叹的视觉效果。

根据游戏中的场景和特征,LLaMA-VID还可以推断出该预告片是Rockstar游戏GTA6的宣传片,而游戏的背景城市是迈阿密。

对于网络上流行的短视频和图片,LLaMA-VID没有问题。

LLaMA-VID能够分析短视频中知名表情符号的幽默,因为视频中人物夸张的表情以及对周围人的情感影响不断加深和强化。

你还可以扮演“福尔摩斯”,像侦探一样根据室内环境分析人物性格。

接下来,LLaMA-VID将通过经典电影大展身手。

首先是励志又温馨《阿甘正传》:可见LLaMA-VID对人物的理解和分析非常准确。

比如,珍妮对于阿甘的意义(儿时的朋友,后来成为阿甘的妻子,是阿甘生命和灵魂的安慰);分析阿甘在战争期间和退伍后的事件(丹中尉指责阿甘救了他,无法死在战场上),并且对见过阿甘的美国总统(肯尼迪、约翰逊和尼克松分别是与福雷斯特会面的全美橄榄球运动员、越战荣誉勋章和全美乒乓球运动员。

这次我们直接挑战超长视频,让LLaMA-VID观看一部近3小时的精彩科幻大片《星际穿越》并与之对话。

可见,LLaMA-VID不仅可以轻松地根据电影的情节和人物对电影进行评论,还可以准确回答剧中涉及的细节。

比如虫洞的作用和创造者(未来智慧生物会被安置在土星附近,帮助人类进行长途星际旅行),以及男主角库珀如何将黑洞中的信息传递给女儿墨菲(via手表以摩尔斯电码的形式传输数据),以及米勒星球相对于地球的时间速度和原因(因为米勒星球靠近黑洞,一小时相当于地球上的7年) 。

不得不说,这个电影搭档太厉害了,太狠了,太会说话了!直接Promax的16项图片视频量化指标 见识过电影搭配的超强威力后,不妨看看贾佳亚团队是如何开发LLaMA-VID的。

要知道,目前的多模态模型无法处理长视频的主要原因是传统的多模态大模型对单张图片编码了太多的token,导致视频播放时所需的token数量急剧增加。

时间拉长,使得模型不堪重负。

以目前多模态大车型的技术标杆GPT-4V为例。

由于每个图像需要太多的标记来编码,GPT-4V 很难将所有视频帧发送到一个大模型中。

例如,对于GTA6预告片(1分30秒)的输入,GPT-4V采用了提取5帧进行逐帧分析的策略:这不仅妨碍了用户对视频内容的直观理解,但也使得处理较长的视频输入变得困难。

如果让GPT-4V统一分析视频,就会出现错误,无法处理:为了解决这个问题,贾佳亚团队重新设计了图像编码方式,采用了上下文编码(Context Token)和图像内容编码(Content Token) 。

对视频中的单个帧进行编码,使得视频中的每一帧都由 2 个 Token 表示。

其中,上下文编码是根据用户输入的问题生成的,从而保证在最大化视频消费的同时能够尽可能保留与用户问题相关的视觉特征。

图像内容编码更关注图像本身的内容信息,以补充上下文编码不关注的环境。

简单来说,对于上下文编码(Context Token),LLaMA-VID使用文本解码器(Text Decoder)根据用户的输入和图像编码器提取的特征生成与输入指令相关的跨模态索引(Text) (Visual Encoder Query),并利用生成的索引,利用注意力机制(Context Attention)对图像编码器生成的特征进行特征采样和组合,从而生成高质量的指令相关特征。

对于图像内容编码(Content Token),LLaMA-VID直接根据用户需求对图像特征进行池化采样。

对于单张图片或短视频,这可以保留大部分图像特征以提高细节理解。

当面对几个小时的长视频时,每一帧的图像特征可以被压缩为2个Token。

这样,LLaMA-VID可以将一个3小时的电影或视频减少为几个Token并直接使用大语言模型进行理解和交互。

这种token生成方法非常简单,只需要几行代码就可以实现高效生成。

此外,LLaMA-VID还采集电??影并生成9K长视频问答语料,包括电影评论、人物成长、剧情推理等,结合长文本数据集LongAlpaca-12k(9k长文本问答语料对) ,3k短文本问答语料对)此前由贾佳亚团队发布,现有的多模态模型可以轻松扩展以支持长视频输入。

在16个视频、图像理解和推理数据集上实现了promax效果。

与现有方法相比,LLaMA-VID提出的创新之处在于,它仅使用2个Token来处理视频中的图像,大大超越了现有方法。

之前的模型已经在 MSVD-QA、MSRVTT-QA、ActivityNet-QA 等多个视频问答推理列表上实现了 SOTA,随着语言模型的增加,效果还可以进一步增强。

面对LLaVA-1.5等现有多模态模型,LLaMA-VID只需要添加一项提出的上下文编码(Context Token)扩展,就可以在GQA、MMBench、MME等8个图像问答指标上进行表现,和种子。

获得显着提升:值得一提的是,LLaMA-VID的视频理解和推理能力已经作为demo发布,可以用来在线看电影对话。

操作也极其简单。

只需要选择电影海报和对应的电影片段,就可以直接与电影通信(单块部署,有需要的朋友可以参考代码,部署更大显存,直接与整个区块通信)电影)。

还支持用户上传短视频进行互动。

如果您对描述说明有任何疑问,演示中还给出了一些示例。

有兴趣的朋友不妨来领取一下这部影片的搭配吧。

Github 地址:Hang Chang、Xin Li 和 Lidong Bing。

Video-llama:一种用于视频理解的指令调整视听语言模型。

arXiv:.8, .[2] KunChang Li、Yinan He、Yi Wang、Yizhuo Li、Wenhai Wang、Ping Luo、Yali Wang、Limin Wang 和 Yu Qiao。

视频聊天:以聊天为中心的视频理解。

arXiv:.5, .[3] Muhammad Maaz、Hanoona Rasheed、Salman Khan 和 Fahad Shahbaz Khan。

Video-chatgpt:通过大视觉和语言模型实现详细的视频理解。