腾讯频道 - AGI 营地 - 一款强大的多模态文档大模型，突破分辨率极限！

小花- AI 工具玩家

管理员

一款强大的多模态文档大模型，突破分辨率极限！

DocPedia 是一款由字节跳动和中国科学技术大学联合研发的多模态文档大模型，它能准确识别图像中的信息，并结合用户需求调用自己的知识库来回答问题。相较于现有的多模态大模型，如 LLaVA、MiniGPT-4 等，DocPedia 的分辨率可达 2560×2560，能够解析高分辨率的文档图像。

主要功能：

1. 高分辨率图文理解：DocPedia 能从高分辨率的文档图像和自然场景图像中提取相关的图文信息，如车牌号、电脑配置等。

2. 结合图像中的文本信息进行推理：DocPedia 可以利用大模型推理能力，根据上下文分析问题。

3. 回答图像中未展示的扩展内容：根据其储备的丰富的世界知识，DocPedia 能回答图像中没有展示出来的扩展内容。

推荐使用人群：

1. 对图像识别和处理有需求的用户

2. 需要从高分辨率文档图像中提取信息的专业人士

3. 对 AI 和多模态技术感兴趣的人群

论文地址：

2023-12-08

AI 工具 Playground

登录后评论