1/4
腾讯频道 - DeepSeek AI - 字节跳动推出多模态基础模型:Seed1.5-VL!...
腾讯频道 - DeepSeek AI - 字节跳动推出多模态基础模型:Seed1.5-VL!...
腾讯频道 - DeepSeek AI - 字节跳动推出多模态基础模型:Seed1.5-VL!...
腾讯频道 - DeepSeek AI - 字节跳动推出多模态基础模型:Seed1.5-VL!...
字节跳动推出多模态基础模型:Seed1.5-VL!字节跳动的 Seed 团队重磅发布了视觉 - 语言多模态大模型: Seed1.5-VL!

在60个主流测试中狂揽38项第一!这个模型的视觉编码器仅有532M参数,却能在零样本分类任务中硬刚17.5B参数的EVA-CLIP。

Seed1.5-VL由三个主要部分组成:视觉编码器(Seed-ViT)、MLP适配器和LLM(200亿激活参数)。
视觉编码器(Seed-ViT):基于Vision Transformer(ViT),包含5.32亿参数,支持动态图像分辨率,并使用2D RoPE进行位置编码。
视频编码:采用动态帧-分辨率采样策略,根据内容复杂性和任务需求调整采样频率和分辨率。

并且使用了3万亿个高质量的多模态标注,涵盖图像、视频、文本和人机交互数据。
2025-05-14
浏览108
每日精选
登录后评论
评论
分享