全球数字财富领导者

DeepSeek刷屏,训练成本大降,“AI界的拼多多”呼声四起,DeepSeek干崩A股算力股

2025-01-27 09:49:45
金融界
金融界
关注
0
0
获赞
粉丝
喜欢 0 0收藏举报
— 分享 —
摘要:金融界1月27日消息 DeepSeek干崩A股算力股。27日开盘,DeepSeek概念股每日互动、航锦科技、南威软件、美格智能竞价涨停,飞利信、卓创资讯、思特奇高开超10%。而算力硬件方向大幅走低,寒武纪、新易盛、中际旭创、天孚通信、沃尔核材、鼎通科技、神宇股份等均跌超5%。1月

金融界1月27日消息  DeepSeek干崩A股算力股。

27日开盘,DeepSeek概念股每日互动、航锦科技、南威软件、美格智能竞价涨停,飞利信、卓创资讯、思特奇高开超10%。而算力硬件方向大幅走低,寒武纪、新易盛、中际旭创、天孚通信、沃尔核材、鼎通科技、神宇股份等均跌超5%。

1月20日,该公司正式发布推理大模型DeepSeek-R1。一经推出,DeepSeek-R1便凭借其“物美价廉”的特性在海外开发者社区中引发了轰动。作为一款开源模型,R1在数学、代码、自然语言推理等任务上的性能能够比肩OpenAI o1模型正式版,并采用MIT许可协议,支持免费商用、任意修改和衍生开发等。

目前,在国外大模型排名榜Chatbot Arena上,DeepSeek-R1的基准测试排名已经升至全类别大模型第三,与OpenAI的ChatGPT-4o最新版并列,并在风格控制类模型(StyleCtrl)分类中与OpenAI的o1模型并列第一。

训练成本大降,利空英伟达?

值得注意的是DeepSeek-R1 API服务定价为每百万输入tokens 1元(缓存命中)/4元(缓存未命中),每百万输出tokens16元,输出API价格只有OpenAI o1的3%。低价背后,显然仍是秀肌肉,价格实力展现了技术实力——从AIInfra 层面降本的技术能力。

而训练成本一直是DeepSeek的一大优势。

在其12月底发布的DeepSeek-V3中,参数量为671B,激活参数为37B,使用的预训练token量为14.8万亿。其多项评测成绩超越了阿里的Qwen2.5-72B和MetadeLlama-3.1-405B等其他开源模型,并在性能上和世界顶尖的闭源模型GPT-4o以及Claude-3.5-Sonnet不分伯仲。

前OpenAI联创、知名AI科学家AndrejKarpathy在其个人社交平台上表示,DeepSeek-V3整个训练过程仅用了不到280万GPU小时,相比之下,Meta旗下顶尖的开源模型Llama-3405B的训练时长是3080万GPU小时。如果DeepSeekV3的优良表现能够得到广泛验证,那么这将是资源有限情况下对研究和工程的一次出色展示。若从成本上进行更直观的对比,假设H800的租金为每GPU小时2美元,DeepSeek-V3的总训练成本仅为600万美元不到,是Llama-3405B超6000万美元训练成本的十分之一不到。

对于深度求索强大的降本能力,“AI界的拼多多”呼声四起。

中信证券研报指出,DeepSeek模型相比GPT4模型更小的参数量也意味着更低的推理成本,推理成本的降低,将是AI应用普及的前奏。

敬告读者:本文为转载发布,不代表本网站赞同其观点和对其真实性负责。FX168财经仅提供信息发布平台,文章或有细微删改。
go