炒股就看金麒麟分析师研报,权威,专业,及时,全面,助您挖掘潜力主题机会!
(来源:华泰证券研究所)
2月24日起DeepSeek连续6天开源,在之前放出的模型参数、技术报告基础上,再次发布了Infra层的核心代码,涉及MLA、通信-计算、矩阵乘法运算、专家负载、文件存取等模块优化,旨在提高模型本身和硬件的效率,且国产GPU适配进展顺利。据DeepSeek数据,若将Web、APP和API的所有用户请求均以R1定价计费,则每日总收入将为562,027美元,成本利润率为545%。若考虑V3定价、夜间打折等因素,付费token占比50%情况下我们测算成本利润率有望达到108%,优化效果明显。我们认为,模型层的持续优化,有望持续降低应用层成本、提高应用表现。建议关注2B和2C应用中拥有用户、数据和场景优势的公司。
DeepSeek在原先开源的基础上,再次开源Infra核心代码
此前DeepSeek在核心的V3/R1模型上,已经开源了模型权重,使得全球用户均可自行下载、部署和推理,并且配备了较为详细的技术报告,帮助有技术积累的团队实现技术复现。DeepSeek本次开源直接公布了V3/R1模型Infra层面的核心优化代码,涉及MLA、通信-计算、矩阵乘法运算、专家负载、文件存取等优化,相当于为技术报告中的算法分析直接提供了代码实现,进一步降低了技术复现的难度,并且许多优化方法可以被借鉴到其他模型的训练中。我们认为,全球模型的训练和推理效率有望迎来整体提升。
DeepSeek代码首先基于CUDA是效率考虑,而国产适配已见成效
由于DeepSeek在早期模型训练中使用Nvidia系列显卡,因此上周开源的核心代码也几乎是在CUDA环境中进行优化的。例如,DeepSeek针对FlsahMLA、DeepEP、DeepGEMM等算法给出的推荐配置,为Nvidia Hopper GPU和CUDA 12.3及以上版本。我们认为,DeepSeek的优势在于对软硬件全局的理解,能够结合自身模型训练的需求,更好的调配CUDA算子。这种理解能力是可以迁移到国产芯片上的,例如FlashMLA已经推出了适配摩尔线程、海光、天数GPU的版本,且各国产GPU厂商也在自行做相应的代码适配。随着国产GPU生态的逐步完善,类似算法或均能够实现很好的迁移,甚至直接原生在国产GPU环境下。
路径选择:海外大算力追寻边界突破,国内强优化追寻效率提升
我们认为,目前国内外模型大厂,已经开始走分化的道路。1)海外仍然以大算力探求边界提升:近期以xAI和OpenAI为典型代表,xAI将GPU集群从10万卡扩展到20万卡,训练出Grok-3,性能超过了o3-mini,部分指标相比R1有约20%性能提升。OpenAI则发布了旗下参数最大的预训练模型GPT-4.5,与DeepSeek-V3在公开的测评结果上性能接近。2)国内在软硬件效率优化上更加领先:以DeepSeek开源周为例,释放了核心的软硬件优化代码,使得理论上的成本利润率达到545%,并且优化方法能够复用。我们认为,后续DeepSeek的迭代重点或将仍在软硬件和算法优化上。
产业链相关标的梳理
DeepSeek持续带来新版模型和开源代码,使得模型成本和效率的规模性优化显著。我们认为,未来模型能力可能会成为“水电”等基础资源一类的存在,对于利用“水电”的应用公司优势显著。推荐有用户、数据、场景优势的公司。其他产业链相关标的包括:1)2C应用;2)2B应用;3)数据中台相关公司。具体公司名单,请见研报原文。
风险提示:宏观经济波动,技术进步不及预期。
宏观经济波动。若宏观经济波动,产业变革及新技术的落地节奏或将受到影响,宏观经济波动还可能对AI投入产生负面影响,从而导致整体行业增长不及预期。
技术进步不及预期。若AI技术和大模型技术进步不及预期,或将对相关的行业落地情况产生不利影响。