腾讯频道 - AGI 营地 - Vary｜扩大大型视觉语言模型的视觉词汇量

Founder Park

频道主

Vary｜扩大大型视觉语言模型的视觉词汇量

Vary 由来自华中科技大学、旷视科技和中国科学院大学的研究人员推出，是一种用于扩展大型视觉-语言模型（LVLMs）的视觉词汇量的新方法，特别针对需要密集感知的专业任务。

模型信息

1. 类型：视觉语言模型

2. 是否开源：开源

3. 是否可免费商用：不可商用

✨ 模型亮点

1. 提升细粒度感知： Vary 通过引入新的视觉词汇，提高了模型在处理细粒度感知任务时的效率和性能，例如非英语的光学字符识别（OCR）和图表理解。

2. 双配置设计：研究引入了两种配置的 Vary：Vary-tiny和 Vary-base。Vary-tiny专注于细粒度感知，而 Vary-base 则结合了原始和新生成的视觉词汇。

3. 实验结果： Vary 在多个任务中表现出色，特别是在文档级 OCR 和图表理解任务中。

🙋 模型体验

1. Demo :

2023-12-27

国产大模型

登录后评论