1月26日,阿里云公布了多模态大模型的研究进展。
通义千 Ask视觉理解模型Qwen-VL再次升级。
继Plus版本之后,Max版本再次推出。
升级后的模型拥有更强的视觉推理能力和中文理解能力。
它可以根据图片识别人、回答问题、创建、编写代码,并且在多项权威评测中取得了优异的成绩,可与OpenAI的GPT-4V和谷歌的Gemini Ultra相媲美。
LLM(大语言模型)之后,大模型领域的下一个热点是什么?多模态是目前最共识的方向。
过去六个月,OpenAI、谷歌等纷纷推出多模态模型。
今年8月,阿里云还发布并开源了具有图像和文本理解能力的Qwen-VL模型。
Qwen-VL取得了远超同期同规模通用模型的成绩。
表现。
视觉是多模态能力中最重要的模态。
作为人类感知和认识世界的第一感官,视觉传递的信息占“五感”信息的80%。
通义千问LLM视觉语言模型是在通义千问LLM的基础上开发的。
通过将视觉表征学习模型与LLM对接,赋予AI理解视觉信息的能力,在大语言模型的“头脑”中打开一扇视觉“窗口”。
与Qwen-VL相比,Qwen-VL-Plus和Qwen-VL-Max具有更强的视觉推理和中文理解能力,综合性能与GPT-4V和Gemini Ultra相当。
在MMMU、MathVista等评测中远远超越业界所有开源模型,在文档分析(DocVQA)、中文图像相关(MM-Bench-CN)等任务上超越GPT-4V,达到全球最佳水平。
基础能力方面,升级后的模型能够准确描述和识别图片信息,并基于图片进行信息推理和拓展创作;它具有视觉定位功能,还可以对图片的指定区域进行问答。
在视觉推理方面,Qwen-VL-Plus和Qwen-VL-Max可以理解流程图等复杂形式的图片,并可以分析复杂的图标。
看图答题、看图作文、看图写代码都没问题。
Qwen-VL-Max 在看图、做题的图像文字处理方面,升级版Qwen-VL显着提升了中英文文字识别能力。
它支持百万像素以上的高清分辨率图片和极端宽高比的图像,并且可以完整地再现表示密集的文本并从表格和文档中提取信息。
与LLM相比,Qwen-VL-Max再现密集文本,多模态大模型具有更大的应用想象空间。
例如,一些研究人员正在探索大型多模态模型与自动驾驶场景的结合,寻找“完全自动驾驶”的新技术路径;将多模态模型部署到手机、机器人、智能音箱等端侧设备上,让智能设备自动理解来自物理世界的信息;或者基于多模态模型开发应用程序来帮助视障人士日常生活等。
目前,Qwen-VL-Plus和Qwen-VL-Max是限时免费的。
用户可以在通义千文官网和通义千文APP直接体验Max版模型的能力,也可以通过阿里云灵机平台(DashScope)调用模型API。