通义千问第二波开源! 8月25日消息,阿里云推出大规模视觉语言模型Qwen-VL,一步可用,直接开源。
Qwen-VL是以通义千70亿参数模型Qwen-7B为基础语言模型开发的,支持图像和文本输入,具有多模态信息理解能力。
在主流的多模态任务评估和多模态聊天能力评估中,Qwen-VL取得了远超同规模通用模型的性能。
Qwen-VL是一种视觉语言(VL)模型,支持中文、英文等多种语言。
与之前的VL模型相比,Qwen-VL具备基本的图像和文本识别、描述、问答和对话能力。
还添加了图像中的视觉定位和文本理解等新功能。
多模态是通用人工智能的重要技术演进方向之一。
业界普遍认为,从仅支持文本输入的单感官语言模型,到支持文本、图像、音频等信息输入的“全功能”多模态模型,大数据的智能化有了巨大的飞跃。
楷模。
可能的。
多模态可以提高大模型对世界的理解,充分拓展大模型的使用场景。
视觉是人类第一个感知能力,也是研究人员想要赋予大型模型的第一个多模态能力。
继此前推出M6和OFA系列多模态模型后,阿里云团队又开源了基于Qwen-7B的大规模视觉语言模型(Large Vision Language Model,LVLM)Qwen-VL。
Qwen-VL 及其视觉 AI 助手 Qwen-VL-Chat 已在 ModelScope 社区上线。
它们是开源、免费且可商用的。
用户可以直接从Moda社区下载模型,也可以通过阿里云灵机平台访问调用Qwen-VL和Qwen-VL-Chat。
阿里云为用户提供包括模型训练、推理、部署、微调等全方位的定向服务。
Qwen-VL可用于知识问答、图片标题生成、图片问答、文档问答、细粒度视觉定位等场景。
例如,一位不懂中文的外国游客去医院看病,不知道如何去相应的科室。
他拍了一张楼层地图,然后问 Qwen-VL“骨科是哪一层?” “我该去几楼耳鼻喉科?” Qwen-VL 会根据图片信息进行文字回复,这是一种图像问答能力;再比如,如果你输入一张上海外滩的照片,让Qwen-VL找到东方明珠塔,Qwen-VL可以用检测框准确地圈出对应的建筑物。
这就是视觉定位功能。
Qwen-VL是业界首款支持中文开放域定位的通用型号。
开域视觉定位能力决定了大模型“视觉”的准确性,即能否准确地找到屏幕中你要寻找的东西。
这对于VL模型在机器人控制等实际应用场景中的实现至关重要。
Qwen-VL以Qwen-7B为基础语言模型,在模型架构中引入视觉编码器,使模型支持视觉信号输入,并通过设计训练过程,使模型对视觉信号具有细粒度的感知和理解。
Qwen-VL支持的图像输入分辨率为 ,而之前的开源LVLM模型通常只支持分辨率。
在Qwen-VL的基础上,通义千团队利用对齐机制创建了基于LLM的视觉AI助手Qwen-VL-Chat,它可以让开发者快速构建具有多模态能力的会话式应用程序。
在四大类多模态任务(Zero-shot Caption/VQA/DocVQA/Grounding)的标准英文评测中,Qwen-VL取得了同规模开源LVLM中最好的成绩。
为了测试模型的多模态对话能力,通义千 Ask团队基于GPT-4评分机制构建了测试集“试金石”,对Qwen-VL-Chat与其他模型进行对比测试。
Qwen-VL-Chat 在英语对齐评估中取得了开源 LVLM 的最佳成绩。
8月初,阿里云开源了70亿参数的通用模型Qwen-7B和会话模型Qwen-7B-Chat,成为国内第一家加入开源大模型行列的大型科技公司。
“通义千问”开源模式一经推出就引起了广泛关注。
当周冲上 HuggingFace 趋势榜,不到一个月的时间就在 GitHub 上获得多颗星,模型累计下载量已超过 40 万。