Vary|扩大大型视觉语言模型的视觉词汇量
Vary 由来自华中科技大学、旷视科技和中国科学院大学的研究人员推出,是一种用于扩展大型视觉-语言模型(LVLMs)的视觉词汇量的新方法,特别针对需要密集感知的专业任务。
 
模型信息
1. 类型:视觉语言模型       
2. 是否开源:开源       
3. 是否可免费商用:不可商用
 
✨ 模型亮点
1. 提升细粒度感知: Vary 通过引入新的视觉词汇,提高了模型在处理细粒度感知任务时的效率和性能,例如非英语的光学字符识别(OCR)和图表理解。
2. 双配置设计: 研究引入了两种配置的 Vary:Vary-tiny和 Vary-base。Vary-tiny专注于细粒度感知,而 Vary-base 则结合了原始和新生成的视觉词汇。
3. 实验结果: Vary 在多个任务中表现出色,特别是在文档级 OCR 和图表理解任务中。
 
🙋 模型体验
 
2023-12-27
浏览160
国产大模型
登录后评论
评论
分享