DeepSeek发布V3模型更新 性能再升级_网络热点_资讯_微发商务网

DeepSeek发布V3模型更新 性能再升级

   2025-03-25 09:17:03 每日经济新闻微发商务网17
核心提示:3月24日晚,DeepSeek发布了模型更新——DeepSeek-V3-0324。这次更新是DeepSeek V3模型的小版本升级,并非市场期待的DeepSeek-V4或R2

3月24日晚,DeepSeek发布了模型更新——DeepSeek-V3-0324。这次更新是DeepSeek V3模型的小版本升级,并非市场期待的DeepSeek-V4或R2。其开源版本已上线Hugging Face,模型体积为6850亿参数。

同日,DeepSeek在其官方交流群宣布,DeepSeek V3模型已完成小版本升级,欢迎用户前往官方网页、App和小程序试用体验。API接口和使用方式保持不变。

此前于2024年12月发布的DeepSeek-V3模型以“557.6万美金比肩Claude 3.5效果”的高性价比著称,多项评测成绩超越了Qwen2.5-72B和Llama-3.1-405B等其他开源模型,并在性能上与世界顶尖的闭源模型GPT-4o以及Claude-3.5-Sonnet不分伯仲。但截至目前,还没有关于新版DeepSeek-V3的能力基准测试榜单出现。

2025年1月,DeepSeek发布了性能比肩OpenAI o1正式版的DeepSeek-R1模型。该模型在后训练阶段大规模使用了强化学习技术,在仅有极少标注数据的情况下,极大提升了模型推理能力。

V3是一个拥有6710亿参数的专家混合模型(Moe),其中370亿参数处于激活状态。传统的大模型通常采用密集的神经网络结构,每个输入token都会被激活并参与计算,耗费大量算力。此外,传统的混合专家模型中,不平衡的专家负载是一个很大难题,会导致路由崩溃现象,影响计算效率。

为解决这个问题,DeepSeek对V3进行了大胆创新,提出了辅助损失免费的负载均衡策略,引入“偏差项”。在模型训练过程中,每个专家都被赋予了一个偏差项,它会被添加到相应的亲和力分数上,以此来决定top-K路由。此外,V3还采用了节点受限的路由机制,限制通信成本。通过确保每个输入最多只能被发送到预设数量的节点上,V3能够显著减少跨节点通信的流量,提高训练效率。

根据国外开源评测平台kcores-llm-arena对V3-0324的最新测试数据显示,其代码能力达到了328.3分,超过了普通版的Claude 3.7 Sonnet(322.3),可以比肩334.8分的思维链版本。

 
免责声明:以上所展示的信息由网友自行发布,内容的真实性、准确性和合法性由发布者负责。 微发商务网对此不承担任何保证责任, 微发商务网仅提供信息存储空间服务。任何单位或个人如对以上内容有权利主张(包括但不限于侵犯著作权、商业信誉等),请与我们联系并出示相关证据,我们将按国家相关法规即时移除。

本文地址:http://cn.wlchinahc.com/news/wfmy903799.html

收藏 0打赏 0
 
更多>同类资讯
今日资讯
推荐图文
点击排行

网站首页  |  付款方式  |  关于我们  |  联系方式  |  使用协议  |  隐私政策  |  版权隐私  |  网站地图  |  排名推广  |  广告服务  |  RSS订阅
免责声明:本站所有信息均来自互联网搜集,产品相关信息的真实性准确性均由发布单位及个人负责,请大家仔细辨认!并不代表本站观点,微发商务网对此不承担任何相关法律责任!如有信息侵犯了您的权益,请告知,本站将立刻删除。
友情提示:买产品需谨慎
网站资讯与建议:3123798995@qq.com 客服QQ:3123798995点击这里给我发消息3123798995点击这里给我发消息