小花- AI 工具玩家
管理员
Emu 模型|首个打通从多模态输入到多模态输出的「全能高手」
模型信息:
Emu 模型是由智源研究院的「悟道·视界」研究团队提出的首个打通从多模态输入到多模态输出的「全能高手」,统一多模态预训练模型。

1. 类型:通用多模态大模型
2. 是否开源:开源
3. 是否可免费商用:可免费商用
✨ 模型亮点:
1. 业界首个多模态-to-多模态的多模态大模型,可以接受和处理不同模态的数据,并输出想要的多模态类别。
2. 基于多模态上下文学习技术路径,从图文、交错图文、交错视频文本等海量多模态序列中学习。训练完成后,Emu 能在多模态序列的上下文中补全一切,对图像、文本和视频等多种模态的数据进行感知、推理和生成,实现多轮图文对话、视频理解、精准图像认知、文图生成、多模态上下文学习、视频问答和图图生成等多模态能力。
3. 在零样本COCO图像描述性能方面,Emu 超越Flagmingo-80B,取得109分。相比其他多模态模型,可以准确识别出莫奈的日出印象;可以完成少样本图文理解,以两个图文对为例,可自动完成对应任务;还可根据图片或视频进行问答和多轮对话。
4. 在生成能力方面,可以根据任意长度文本生成图像;在图图生成方面,可以自动推理生成新的图片;在多模态上下文生成方面,可以根据文本-图片作为prompt,生成融合了上下文的新图片。
👋 模型体验:
- 下载图片
- 复制图片
2023-12-21
浏览156
国产大模型
登录后评论
点赞
评论
1