腾讯频道 - AGI 营地 - Emu 模型｜首个打通从多模态输入到多模态输出的「全能高手」

AGI 营地

小花- AI 工具玩家

管理员

Emu 模型｜首个打通从多模态输入到多模态输出的「全能高手」

Emu 模型是由智源研究院的「悟道·视界」研究团队提出的首个打通从多模态输入到多模态输出的「全能高手」，统一多模态预训练模型。

模型信息：

1. 类型：通用多模态大模型

2. 是否开源：开源

3. 是否可免费商用：可免费商用

✨ 模型亮点：

1. 业界首个多模态-to-多模态的多模态大模型，可以接受和处理不同模态的数据，并输出想要的多模态类别。

2. 基于多模态上下文学习技术路径，从图文、交错图文、交错视频文本等海量多模态序列中学习。训练完成后，Emu 能在多模态序列的上下文中补全一切，对图像、文本和视频等多种模态的数据进行感知、推理和生成，实现多轮图文对话、视频理解、精准图像认知、文图生成、多模态上下文学习、视频问答和图图生成等多模态能力。

3. 在零样本COCO图像描述性能方面，Emu 超越Flagmingo-80B，取得109分。相比其他多模态模型，可以准确识别出莫奈的日出印象；可以完成少样本图文理解，以两个图文对为例，可自动完成对应任务；还可根据图片或视频进行问答和多轮对话。

4. 在生成能力方面，可以根据任意长度文本生成图像；在图图生成方面，可以自动推理生成新的图片；在多模态上下文生成方面，可以根据文本-图片作为prompt，生成融合了上下文的新图片。

👋 模型体验：

2023-12-21

国产大模型

登录后评论