库克
频道主
deepseek火爆欧美•一夜之间替代chatgpt
deepseekV3 (深度智能V3)的东西,用了 Mixture of Experts (混合专家模型,简称MoE) 这种技术。这个 MoE 技术是早在1991年由诺贝尔奖得主 Jeffrey Hinton 和 Michael Jordan 一起发明的。
从2017年开始,谷歌就用 MoE 做产品,现在的 Gemini (智谋)也是用这个技术。跟 MoE 相对的是 Dense Model (密集模型),比如 Llama (骆马)和 Claude (克劳德)都是密集模型。
现在有名的 MoE 模型包括法国的 Mistral (幻星),是微软投资的。还有马斯克的 Grok (格罗克) 1和2也是 MoE。GPT-4 大家猜测是 MoE,但没人确定。最近微软泄露说 GPT-4-Turbo 只有 8B (80亿)参数,可能是 MoE 结构。
国内的 MoE 模型有很多。Minimax (迷你马)说自己是中国第一个 MoE。Deep Seek (深度智能)从V1到V3都是 MoE。通义千问1.5以后用了部分 MoE。李开复的零一万物后来的 Yi-VL (义灵)用了 Deep Seek 的架构。腾讯的混元和字节跳动的豆包新版本也是 MoE。百度说文心一言用了类似技术。
Deep Seek 发展很快。2023年做了编程模型,V1验证了 MoE 架构。2024年5月 V2 出来,性能不错。12月 V2.5 优化提速,很多人开始用。26号 V3 就来了,在国际上引起轰动。
V3 创新在哪?它把 MoE 做得很细,分成61层。前3层是 Dense Multi-layer Perceptron (密集多层感知器),像医院分诊台。后58层每层有1个共享专家和256个路由专家,每次用9个专家工作,最多激活522个专家。
还有个重要创新叫 Multi-head Latent Attention (多头潜在注意力机制,简称MLA)。以前的模型用 Multi-head Attention (多头注意力机制,简称MHA),需要在很大的向量空间里匹配信息。比如一句话"明天我们一起去吃饭",会被分成多个部分,每部分在1024维空间找相关知识。MLA把这个空间压缩了,就像用邮政编码代替详细地址,让计算更快更省空间。
但 MoE 也有缺点。它需要很大存储空间,就像医院里很多医生都要有诊室。微调很难,因为要教很多专家新技能。负载不均衡,有的专家很忙,有的很闲。通信开销大,部署麻烦。还容易"过拟合",就像考驾照,题库里的题都会做,超出题库就不行了。
这些缺点让一些大公司不用 MoE。他们用 Dense Model (密集模型),比如 Meta (元宇宙)的 Llama (骆马)。密集模型适合单一任务,稳定性高,训练容易。但需要很多计算资源。
Deep Seek V3 的表现很有意思。普通对话能达到 GPT-4 水平,但遇到生僻问题可能不会胜任。上下文长度是 128K tokens (令牌),比不上其他大模型的100-200万。还不支持多模态,就是看不懂图片视频。
这个技术来自一家叫换方量化的公司,他们是做股票交易的。老板梁文峰不像其他AI公司老板有名校大厂经历,就是浙大毕业后做量化交易。他说"务必要疯狂地拥抱雄心,且还要疯狂地真诚"。公司有一万张 A100 显卡,价值一亿美元。
他们招人很特别,不看履历,主要看两点:喜欢这事,基本功扎实。创新方式也特别,是自下而上的。每个人都能提建议,比如 MLA (多头潜在注意力机制)就是个年轻研究员提出来的。验证可行后,公司就投资源支持。
Deep Sick V3 发布后,他们定价很便宜,100万 tokens (令牌)只要一块钱。这个价格引发行业震动,质朴、豆包、文心一言、通义千问都跟着降价。他们说这个价格是有利润的,但其他大厂可能在赔本赚吆喝。
中国有很多聪明人能做这种创新。这跟教育有关系,从小就有很大压力,"万般皆下品,唯有读书高"的观念让家长拼命送孩子读书。虽然这样可能会埋没一些特殊人才,但确实培养出很多能吃苦的人。
现在的环境比以前好多了。有些人挣够钱就能追求梦想,像 Deep Seek 这样。社区里也有很多为爱好奋斗的人,比如独立游戏开发者和开源软件维护者。
但 Deep Seek 的未来不一定那么好。资本已经盯上他们,大厂会快速抄袭他们的技术。小米已经用高薪挖走了他们的重要员工。这很像以前的创新工场,李开复培养了很多人才,后来都被各大公司挖走了。
不过,AIGC (人工智能生成内容)时代,个人和小团队也有机会。现在用个人电脑加上一些免费或便宜的AI服务,也能做出厉害的东西。Deep Seek 这种创新模式虽然不能复制,但会有更多类似的团队在默默创新。
说到 AI (人工智能)发展,有个重要概念叫 Transfer Learning (迁移学习)。这跟 Deep Seek 的技术很像,就是把一个地方学到的知识用在另一个地方。比如他们的 MoE (混合专家模型),每个专家都有自己的专长,需要时就调用相应的专家。
在 Natural Language Processing (自然语言处理,简称NLP)领域,Deep Seek 还用了 Transformer (变形金刚)架构。这是2017年谷歌发明的,现在几乎所有大语言模型都在用。它用 Self-attention (自注意力机制)让模型理解语言中的关系。
他们还改进了 Tokenization (分词)方法。传统方法把句子分成词或字,但中文分词很难。比如"我们一起学习",是分成"我们/一起/学习"还是"我/们/一/起/学/习"?Deep Seek 用了新的分词方法,能更好地处理中文。
在 Training (训练)方面,他们用了 Distributed Training (分布式训练)。一万张 A100 显卡同时工作,需要很复杂的调度系统。他们还要处理 Data Parallelism (数据并行)和 Model Parallelism (模型并行)的问题。
为了提高效率,他们还用了 Quantization (量化)技术。把模型的参数从 Float32 (32位浮点数)变成 Int8 (8位整数),可以节省内存和计算资源。但要保证精度不能降太多,这个平衡很难找。
Deep Seek 还在研究 Continual Learning (持续学习)。就是模型能不断学习新知识,不会忘记旧知识。这个问题叫 Catastrophic Forgetting (灾难性遗忘),就像人学了新东西会忘记旧的。
在 Optimization (优化)方面,Deep Seek 用了很多新技术。比如 Gradient Clipping (梯度裁剪),防止训练时梯度爆炸。还有 Layer Normalization (层归一化),让每一层的数据分布都稳定。
他们还研究 Few-shot Learning (少样本学习)。大部分AI模型需要很多训练数据,但人类看几个例子就能学会。Deep Sick 想让模型也有这种能力。这用到了 Meta-learning (元学习),就是学习如何学习。
在 Inference (推理)时,他们用了 Dynamic Batching (动态批处理)。根据服务器负载自动调整批次大小,让服务更稳定。还有 Kernel Fusion (核融合),把多个计算合并在一起,提高速度。
安全性也很重要。他们研究 Adversarial Training (对抗训练),让模型能抵抗恶意攻击。还要处理 Privacy (隐私)问题,确保用户数据安全。用了 Differential Privacy (差分隐私)技术,在保护隐私和保持性能之间找平衡。
Deep Seek 还在探索 Multi-modal Learning (多模态学习)。就是让模型能理解文字、图片、声音等不同类型的数据。这需要 Cross-attention (交叉注意力)机制,让不同类型的数据能互相理解。
他们对 Interpretability (可解释性)也很重视。AI不能是个黑盒子,要能解释为什么做出某个决定。这用到了 Attribution Methods (归因方法)和 Attention Visualization (注意力可视化)技术。
在 Model Compression (模型压缩)领域,Deep Seek 做了很多工作。除了 Quantization (量化),还用了 Knowledge Distillation (知识蒸馏)。就是用大模型教小模型,让小模型也能有不错的表现。
他们还研究 Neural Architecture Search (神经架构搜索,简称NAS)。用AI自动设计AI模型的结构,不用人工试错。这用到了 Reinforcement Learning (强化学习)技术,让AI通过尝试学习更好的结构。
在 Deployment (部署)方面,他们用了 Docker (容器)和 Kubernetes (库伯内特斯)。这些工具让模型更容易部署和管理。还用了 Service Mesh (服务网格)技术,让不同服务之间更容易通信。
Deep Seek 的工作还涉及 Graph Neural Networks (图神经网络,简称GNN)。这种网络特别适合处理有关系的数据,比如社交网络或分子结构。他们把这个技术用在了模型的路由系统中。
最后说说他们的 Testing (测试)系统。用了 Unit Testing (单元测试)、Integration Testing (集成测试)和 Stress Testing (压力测试)等方法,确保模型稳定可靠。还建立了 Monitoring (监控)系统,实时检查模型状态。
这些技术都很复杂,但 Deep Seek 的工程师们做得很好。他们证明了中国团队完全有能力在AI领域做出原创性的贡献。
- 下载图片
- 复制图片
2025-01-28
浏览142
登录后评论
2
1
1