腾讯频道 - DeepSeek AI - 字节跳动推出多模态基础模型：Seed1.5-VL！...

DeepSeek AI

1/4

云云

管理员

字节跳动推出多模态基础模型：Seed1.5-VL！字节跳动的 Seed 团队重磅发布了视觉 - 语言多模态大模型： Seed1.5-VL！

在60个主流测试中狂揽38项第一！这个模型的视觉编码器仅有532M参数，却能在零样本分类任务中硬刚17.5B参数的EVA-CLIP。

Seed1.5-VL由三个主要部分组成：视觉编码器（Seed-ViT）、MLP适配器和LLM（200亿激活参数）。
视觉编码器（Seed-ViT）：基于Vision Transformer（ViT），包含5.32亿参数，支持动态图像分辨率，并使用2D RoPE进行位置编码。
视频编码：采用动态帧-分辨率采样策略，根据内容复杂性和任务需求调整采样频率和分辨率。

并且使用了3万亿个高质量的多模态标注，涵盖图像、视频、文本和人机交互数据。

2025-05-14

每日精选

登录后评论