DeepSeek-R1模型的开源发布再次引发了全球对大语言模型(LLM)人工智能的关注。DeepSeek以远低于OpenAI的成本训练出了效果接近甚至部分优于OpenAI-o1的模型,并通过“蒸馏”技术提供了一系列参数规模相对较小、效果劣化不严重且有一定实用价值的衍生模型,例如国家超算互联网平台SCNet部署并免费向公众开放的Qwen-7B和Qwen-32B等。
根据实验和估算,部署运行DeepSeek-R1 671B模型用于内部研究实验,每小时成本在300元以上或每月十几万元;如果采用有监督微调方法进行训练,成本还会增加几倍。尽管这个成本仍然超出大部分个人和小微企业的承受能力,但对于大型企业和国家来说已经完全可以接受。
这意味着大语言模型被DeepSeek高度“民主化”了:任何国家都能训练并部署一个很大程度上自主可控、体现本国价值观且能结合本国实际情况的大模型AI。几个月前,这几乎只有美国和中国能做到。
一些国家政府已经意识到这一转变的重要性。印度政府计划投入计算基础设施、数据和资本支持,在农业和气候变化等领域构建与人工智能相关的应用,据说其大模型将在DeepSeek-R1的基础上构建。韩国宣布加快国家级人工智能计算基础设施建设,目标是成为“全球第三大AI强国”,显然认识到各国都有可能在短期内建成自己的“主权AI”,而DeepSeek的开源大大加速了这一进程。