腾讯频道 - AGI 营地 - Qwen-VL ｜阿里云研发的大规模视觉语言模型

Founder Park

频道主

Qwen-VL ｜阿里云研发的大规模视觉语言模型

Qwen-VL 是阿里云研发的大规模视觉语言模型（Large Vision Language Model, LVLM）。Qwen-VL 可以以图像、文本、检测框作为输入，并以文本和检测框作为输出。Qwen-VL 系列模型性能强大，具备多语言对话、多图交错对话等能力，并支持中文开放域定位和细粒度图像识别与理解。

✨ 模型亮点

1. 强大的性能：在四大类多模态任务的标准英文测评中（Zero-shot Caption/VQA/DocVQA/Grounding）上，均取得同等通用模型大小下最好效果；

2. 多语言对话模型：天然支持多语言对话，端到端支持图片里中英双语的长文本识别；

3. 多图交错对话：支持多图输入和比较，指定图片问答，多图文学创作等；

4. 首个支持中文开放域定位的通用模型：通过中文开放域语言表达进行检测框标注；

5. 细粒度识别和理解：相比于目前其它开源LVLM使用的224分辨率，Qwen-VL是首个开源的448分辨率的LVLM模型。更高分辨率可以提升细粒度的文字识别、文档问答和检测框标注。

目前， Qwen-VL 系列的两个模型：

1. Qwen-VL: Qwen-VL 以 Qwen-7B 的预训练模型作为语言模型的初始化，并以 Openclip ViT-bigG 作为视觉编码器的初始化，中间加入单层随机初始化的 cross-attention，经过约 1.5B 的图文数据训练得到。最终图像输入分辨率为448。

2. Qwen-VL-Chat: 在 Qwen-VL 的基础上，使用对齐机制打造了基于大语言模型的视觉AI助手Qwen-VL-Chat，其训练数据涵盖了 QWen-7B 的纯文本 SFT 数据、开源 LVLM 的 SFT 数据、数据合成和人工标注的图文对齐数据。

🙋 模型体验

2023-12-22

国产大模型

登录后评论