揭秘DeepSeek内幕，为什么强化学习是下一个 Scaling Law？创新引领算力革命

2025-02-28 15:58:41 新浪财经微发商务网62

核心提示：近期，中国企业DeepSeek（以下简称DS）全面开源了其创新成果，引发了市场对生成式AI技术发展与算力硬件需求的热烈讨论

揭秘DeepSeek内幕，为什么强化学习是下一个 Scaling Law？近期，中国企业DeepSeek（以下简称DS）全面开源了其创新成果，引发了市场对生成式AI技术发展与算力硬件需求的热烈讨论。DS的V3版本模型以仅1/10训练成本消耗便获得了与海外领先模型GPT-4o/Llama3.3对标的能力，并通过对V3同一基础模型的后训练，获得了能力对齐GPT-o1的R1模型。这种创新在中美贸易摩擦背景下AI硬件采购受限的情况下显得尤为重要，它并未提出任何反“Scaling Law”的趋势，而是通过提高全行业算力资源使用效率来创造更大的需求。

DS V3通过多种方式优化算力使用：在MLP层引入稀疏化的MoE架构，只需根据输入数据特点调动部分专家模型进行处理，无需复用所有参数；引入FP8精度训练，采用MTP（多token生成）优化训练效率；在后训练阶段简化模型数量，优化奖励机制，独创GRPO算法为强化学习提供方向。

PTX代码的加持进一步释放了硬件使用效率。确定创新的模型网络结构后，有针对性地设计和优化AI基础设施变得迫切。DS团队具有软硬件一体化系统性的思考能力，这为其成功提供了重要支持。随着“大模型平权”带来的进一步硬件需求释放，未来AI基础设施的重要性有望日益凸显。

MoE结构可能带来对处理器架构的定制化需求，如更大的计算单元、高效的通信内核和近存计算单元等。虽然大量使用专家并行减少了张量并行，但并不能证明高速互联需求在更强基础模型训练中呈下降趋势。国产算力若要运行训练场景，需对FP8数据类型及高算力做好进一步支持。

免责声明：以上所展示的信息由网友自行发布，内容的真实性、准确性和合法性由发布者负责。微发商务网对此不承担任何保证责任, 微发商务网仅提供信息存储空间服务。任何单位或个人如对以上内容有权利主张（包括但不限于侵犯著作权、商业信誉等），请与我们联系并出示相关证据，我们将按国家相关法规即时移除。

本文地址:http://cn.wlchinahc.com/news/wfmy902887.html

点赞 0收藏 0打赏 0

更多>同类资讯

今日资讯

推荐图文

周深录制综艺节目遭嘉	特朗普又向哪些国家发
鹦鹉今日开播鱼贩卧	快递员称不敢收充电宝
武汉大学雷军班今年招	“不断变大”的日本东

点击排行

免责声明：本站所有信息均来自互联网搜集，产品相关信息的真实性准确性均由发布单位及个人负责，请大家仔细辨认！并不代表本站观点,微发商务网对此不承担任何相关法律责任！如有信息侵犯了您的权益，请告知，本站将立刻删除。
友情提示：买产品需谨慎
网站资讯与建议：wfxxw@foxmail.com

• 特朗普：对墨西哥欧盟征收30%关税条件性调整政	• 1935.3克“月背土特产”再出新成果揭示南极-艾
• 国足上次赢日本还是1998年东亚杯再负对手	• 久帅寄语国足球迷：要相信中国队，球迷始终相伴
• 周深录制综艺节目遭嘉宾拖拽安全底线何在？	• “侃爷”上海演唱会迟到观众喊退票天价票背后
• 大同大学10人将被解聘注销事业编制教师长期脱	• 女子拼车遇猥亵上演教科书式反制冷静求助智斗
• 周深录综艺被郭艾伦拖拽粉丝控诉节目组安全底	• 埃尔多安：库尔德工人党自行解散翻开历史新篇
• 杨瀚森会是下一个姚明吗中国篮球新希望	• 以色列想打胡塞美国想吗以色列催促美国联合空
• 出租屋发现隐蔽摄像头当事女子发声房东回应未	• 中低收入国家约半数儿童血铅水平超标认知障碍
• 特朗普又向哪些国家发出了关税信函新税率8月1	• 东莞炒粉姐来武汉摆摊成全街最火精致炒粉征服
• 你怎么看洪崖洞女子强拉游客拍照事件引发网络	• 杨瀚森完成NBA夏季联赛首秀亮眼数据助队大胜

1935.3克“月背土特产	国足上次赢日本还是19
久帅寄语国足球迷：要	周深录制综艺节目遭嘉
“侃爷”上海演唱会迟	大同大学10人将被解聘
女子拼车遇猥亵上演教	周深录综艺被郭艾伦拖
杨瀚森会是下一个姚明	出租屋发现隐蔽摄像头
中低收入国家约半数儿	特朗普又向哪些国家发

揭秘DeepSeek内幕，为什么强化学习是下一个 Scaling Law？ 创新引领算力革命

揭秘DeepSeek内幕，为什么强化学习是下一个 Scaling Law？创新引领算力革命