腾讯频道 - DeepSeek AI - 字节悄悄发布Seed1.5-VL多模态大模型📌 ...

DeepSeek AI

1/4

云云

管理员

字节悄悄发布Seed1.5-VL多模态大模型📌 模型定位
Seed 1.5-VL 是字节 Seed 团队推出的通用视觉-语言基础模型：仅 532 M Seed-ViT 视觉编码器 + 20 B MoE LLM，却在 60 个公开基准中拿下 38 项 SOTA，并在 GUI 控制、小游戏等 Agent 任务上超越 Gemini 2.5、Claude 3.7 等大型系统

📌 核心架构
• Seed-ViT：原生任意分辨率；2 × 2 平均池化减 token，零样本分类追平 6 B InternVL-C
• 动态视频采样：帧率 + 分辨率双自适应，并在每帧前插入 timestamp token 增强时间感知投射视觉特征 → 多模态 token，整体仍走「视觉编码器 + 解码式 LLM」路线

📌 三阶段预训练
0️⃣ 仅训 Adapter 对齐视-文 1️⃣ 全参 3 T token 聚焦 OCR/定位 2️⃣ 全参 240 B token + 序列 131 K，引入视频、3D、代码等新域3 T 多模态 token 覆盖 OCR、视觉定位计数、3D、视频、STEM、GUI 七大子集；罕见概念用重抽样 + 合成数据平衡长尾

📌 后训练策略
• 5 万高质 SFT 样本 + Long CoT
• RLHF + Verifiable Reward：只监督最终答案，不干预中间 CoT，长推理自动进化- 公共基准：MMMU 77.9、MathVista 85.6、InfographicVQA 91.2 等大量第一名id Agent：WebVoyager 87.2 %、AndroidWorld 62.1 %
• 14 款 Poki 游戏综合领先，2048 得分 870 vs OpenAI 611合并行 + 视觉 token 重分配 + 并行感知 dataloader 平衡视觉/语言负载，提高吞吐aw 发现各子任务 loss 随 token 呈幂律下降；log(loss) 与下游分数近似线性，3 T token 后曲线仍未饱和D 空间推理、组合迷宫搜索、时间因果推理仍弱；偶发视觉-知识冲突导致幻觉，计划引入图像生成 & 工具调用改进。

2025-05-14

登录后评论