春节假期期间,DeepSeek成为AI圈焦点,其发布的DeepSeek-V3和DeepSeek-R1模型以较低成本实现与OpenAI同类模型相当的性能,引发市场对AI硬件需求的担忧,投资者担心英伟达高端芯片需求可能减少。
DeepSeek的技术创新在硬件受限条件下走出不同于OpenAI等靠堆算力的道路,通过一系列技术创新减少模型对算力需求并提升性能,得到了包括Sam Altman在内的AI领军人物肯定。
OpenAI首席研究官Mark Chen发帖表示,DeepSeek确实独立发现了一些OpenAI o1也在用的核心理念,但外界反应过度夸大,尤其在成本方面。他认为拥有预训练和推理两个范式意味着可在两个维度优化能力,也有两个可扩展维度,OpenAI计划在两个维度上都积极投入算力。随着蒸馏研究成熟,降低成本和提升能力愈发解耦,以更低成本提供服务并不意味着能产生更好能力。OpenAI将继续提升以更低成本提供模型服务的能力,对研究路线图保持乐观,今年会带来更好模型。
OpenAI研究科学家Noam Brown也努力弱化外界对OpenAI和DeepSeek的对比,但大家似乎并不买单。Mark Chen提到的“外界反应过度夸大”这一点也引发讨论,尤其是“DeepSeek-v3训练成本仅为558万美元”这一说法。实际上,DeepSeek-v3技术报告原文指出,上述成本仅包括正式训练,不包括前期研究、消融实验等成本。
图灵奖得主、Meta AI首席科学家Yann LeCun认为市场对DeepSeek成本反应不合理,他从推理角度指出,人们常以为巨额投资主要用于训练更强大模型,但其实大部分钱花在让AI服务稳定服务数十亿用户上,且随着AI能力增强,维持服务运行成本会更高,关键看用户是否愿为增强功能付费。很多网友赞同LeCun看法,认为训练、推理成本更低的AI意味着技术能更快普及,从而创造更大市场。从这个角度看,DeepSeek在降低推理成本方面的努力比降低训练成本的贡献更值得关注。
针对可能到来的推理需求激增,OpenAI、Meta等都在做准备,如OpenAI的“星际之门”项目计划投资5000亿美元(资金到位存疑)、Meta新一年600亿美元的AI投资等。2025年,AI市场竞争依然激烈,DeepSeek在新一年能走多远还有待观察。