K 2 的技术报告也发布了
专家数量:384个专家,每次前向激活8个,提升了稀疏性和性能。
注意力机制:采用多头潜在注意力(MLA),隐藏维度7168,注意力头数64(相比同类模型减少一半,提升长文本推理效率)。
优化器:创新性地提出了MuonClip优化器,将高效的Muon算法与QK-Clip权重裁剪机制结合,解决了大规模训练中的不稳定问题,防止注意力logit爆炸。
数据处理:预训练数据覆盖Web文本、代码、数学和知识四大领域,采用合成重写(rephrasing)技术提升token利用率,尤其在知识和数学领域通过多样化重写增强泛化能力。