1/4
腾讯频道 - DeepSeek AI - 字节悄悄发布Seed1.5-VL多模态大模型📌 ...
腾讯频道 - DeepSeek AI - 字节悄悄发布Seed1.5-VL多模态大模型📌 ...
腾讯频道 - DeepSeek AI - 字节悄悄发布Seed1.5-VL多模态大模型📌 ...
腾讯频道 - DeepSeek AI - 字节悄悄发布Seed1.5-VL多模态大模型📌 ...
字节悄悄发布Seed1.5-VL多模态大模型📌 模型定位
Seed 1.5-VL 是字节 Seed 团队推出的通用视觉-语言基础模型:仅 532 M Seed-ViT 视觉编码器 + 20 B MoE LLM,却在 60 个公开基准中拿下 38 项 SOTA,并在 GUI 控制、小游戏等 Agent 任务上超越 Gemini 2.5、Claude 3.7 等大型系统

📌 核心架构
• Seed-ViT:原生任意分辨率;2 × 2 平均池化减 token,零样本分类追平 6 B InternVL-C
• 动态视频采样:帧率 + 分辨率双自适应,并在每帧前插入 timestamp token 增强时间感知投射视觉特征 → 多模态 token,整体仍走「视觉编码器 + 解码式 LLM」路线

📌 三阶段预训练
0️⃣ 仅训 Adapter 对齐视-文 1️⃣ 全参 3 T token 聚焦 OCR/定位 2️⃣ 全参 240 B token + 序列 131 K,引入视频、3D、代码等新域3 T 多模态 token 覆盖 OCR、视觉定位计数、3D、视频、STEM、GUI 七大子集;罕见概念用重抽样 + 合成数据平衡长尾

📌 后训练策略
• 5 万高质 SFT 样本 + Long CoT
• RLHF + Verifiable Reward:只监督最终答案,不干预中间 CoT,长推理自动进化- 公共基准:MMMU 77.9、MathVista 85.6、InfographicVQA 91.2 等大量第一名id Agent:WebVoyager 87.2 %、AndroidWorld 62.1 %
• 14 款 Poki 游戏综合领先,2048 得分 870 vs OpenAI 611合并行 + 视觉 token 重分配 + 并行感知 dataloader 平衡视觉/语言负载,提高吞吐aw 发现各子任务 loss 随 token 呈幂律下降;log(loss) 与下游分数近似线性,3 T token 后曲线仍未饱和D 空间推理、组合迷宫搜索、时间因果推理仍弱;偶发视觉-知识冲突导致幻觉,计划引入图像生成 & 工具调用改进。
2025-05-14
浏览124
登录后评论
评论
分享