1/9
- 下载图片
- 复制图片
小九(加入频道了解更多)
管理员
字节多模态模型Seed1.5-VL悄悄发布!📌 Seed 1.5-VL 结构仿照 Qwen2-VL 经典三件套:
1️⃣ Seed-ViT(532 M)
• NaViT 架构 + 2D RoPE,原生任意分辨率
• 训练加入视频帧
2️⃣ Adapter
• 2-层 MLP,前置 2×2 平均池化
3️⃣ Seed 1.5-LLM(20 B 激活参数 MoE)
📌 ViT 三阶段预训练
0️⃣ MIM 蒸馏
1️⃣ 原生分辨率对比学习
2️⃣ Omni-modal:MiCo 框架,视频-音频-文字对齐
📌 VLM 预训练(3 T token)
阶段 0:只训 Adapter 对齐
阶段 1:解冻全参,重点 OCR / Grounding / 通用图文
阶段 2:加入多样数据
📌 VLM后训练
1️⃣ SFT 50 K:通用指令 + Long-CoT,冻结视觉编码器
2️⃣ Hybrid RL(PPO):RM + Verifiable Reward,公用Critic Model
3️⃣ 拒绝采样迭代:用最新 RL 模型自举生成难例 → 反哺 SFT
1️⃣ Seed-ViT(532 M)
• NaViT 架构 + 2D RoPE,原生任意分辨率
• 训练加入视频帧
2️⃣ Adapter
• 2-层 MLP,前置 2×2 平均池化
3️⃣ Seed 1.5-LLM(20 B 激活参数 MoE)
📌 ViT 三阶段预训练
0️⃣ MIM 蒸馏
1️⃣ 原生分辨率对比学习
2️⃣ Omni-modal:MiCo 框架,视频-音频-文字对齐
📌 VLM 预训练(3 T token)
阶段 0:只训 Adapter 对齐
阶段 1:解冻全参,重点 OCR / Grounding / 通用图文
阶段 2:加入多样数据
📌 VLM后训练
1️⃣ SFT 50 K:通用指令 + Long-CoT,冻结视觉编码器
2️⃣ Hybrid RL(PPO):RM + Verifiable Reward,公用Critic Model
3️⃣ 拒绝采样迭代:用最新 RL 模型自举生成难例 → 反哺 SFT
2025-05-13
浏览54
登录后评论
点赞
评论
分享