揭秘DeepSeek内幕,为什么强化学习是下一个 Scaling Law?近期,中国企业DeepSeek(以下简称DS)全面开源了其创新成果,引发了市场对生成式AI技术发展与算力硬件需求的热烈讨论。DS的V3版本模型以仅1/10训练成本消耗便获得了与海外领先模型GPT-4o/Llama3.3对标的能力,并通过对V3同一基础模型的后训练,获得了能力对齐GPT-o1的R1模型。这种创新在中美贸易摩擦背景下AI硬件采购受限的情况下显得尤为重要,它并未提出任何反“Scaling Law”的趋势,而是通过提高全行业算力资源使用效率来创造更大的需求。
DS V3通过多种方式优化算力使用:在MLP层引入稀疏化的MoE架构,只需根据输入数据特点调动部分专家模型进行处理,无需复用所有参数;引入FP8精度训练,采用MTP(多token生成)优化训练效率;在后训练阶段简化模型数量,优化奖励机制,独创GRPO算法为强化学习提供方向。
PTX代码的加持进一步释放了硬件使用效率。确定创新的模型网络结构后,有针对性地设计和优化AI基础设施变得迫切。DS团队具有软硬件一体化系统性的思考能力,这为其成功提供了重要支持。随着“大模型平权”带来的进一步硬件需求释放,未来AI基础设施的重要性有望日益凸显。
MoE结构可能带来对处理器架构的定制化需求,如更大的计算单元、高效的通信内核和近存计算单元等。虽然大量使用专家并行减少了张量并行,但并不能证明高速互联需求在更强基础模型训练中呈下降趋势。国产算力若要运行训练场景,需对FP8数据类型及高算力做好进一步支持。