中经记者 李玉洋 上海报道
GPU这颗AI时代主要的“算力心脏”,正在科创板上跳出中国节奏。
12月5日,摩尔线程(688795.SH)在科创板上市。首日开盘,便较114.28元/股的发行价上涨468.78%。在此前的12月3日,沐曦股份(688802.SH)发布公告称,其在科创板IPO上市的询价结果出炉,并确定发行价格为104.66元/股。
《中国经营报》记者了解到,除摩尔线程、沐曦股份外,“国产GPU四小龙”中的另两家公司燧原科技、壁仞科技,也处在上市辅导阶段,均拟在科创板上市。对于上市最新进展情况,壁仞科技方面对记者表示:“我们的上市进展现在没有对外可以披露的。”另有专业人士透露,如果没有终止A股上市的官方消息,那壁仞科技的上市辅导就还在进行中。截至发稿,关于记者对于上市动态及其他情况的询问,燧原科技方面并未回复。
“这几个公司没有太多不同点,都搞AI大芯片,也都要上云。唯一的不同,大概是做不做图形渲染。”长期关注半导体/芯片行业技术发展的资深观察人士黄烨锋表示,“国产GPU四小龙”也都在做万卡集群。前述专业人士也表示,今年国产GPU芯片的一个共性,就是大家都在做超节点。
“摩尔线程和沐曦股份都兼容CUDA,前者是全才型选手,覆盖桌面和AI计算,产品广;后者是AI专才,专注大模型训练,性能更强、性价比更高。”电子创新网创始人张国斌表示,“摩尔线程、沐曦股份两大国产GPU龙头在2025年12月先后登陆科创板,标志着行业正式进入‘资本+技术’双轮驱动的规模化阶段,对产业链有积极的正面影响。”
国产GPU初见曙光
自2012年被发现适配深度学习算法后,GPU便构成AI芯片的核心主力。
记者注意到,英伟达创始人兼CEO黄仁勋在多个场合提到,2012年深度学习领域发生了一项关键突破,即AlexNet模型的出现,显著提升了图像识别的准确性,并推动了深度学习的广泛应用。而在这一进程中,英伟达的GPU发挥了核心作用,因为GPU擅长并行处理复杂的数学计算,非常适合深度学习任务。
长期以来,全球GPU市场被英伟达、AMD垄断,中国市场更是高度依赖进口。当然,国内也涌现出了寒武纪(688256.SH)、海光信息(688041.SH)、景嘉微(300474.SZ)等上市企业,以及摩尔线程、沐曦股份、壁仞科技、燧原科技这“国产GPU四小龙”。
据了解,“国产GPU四小龙”多成立于2020 年前后,彼时处在华为及其他中国科技公司被美国列入实体名单的节点,国产需求窗口打开,一批海外GPU巨头企业人才回国创业,红杉中国、高瓴资本等知名资方纷纷入局。
然而,国产GPU发展之路充满波折,2022年更是至暗时刻,内部企业持续烧钱,投资情绪低落,相关企业股价大跌、亏损严重,投资机构减持,未上市企业融资困难,部分企业遭遇资本退出。
雪上加霜的是,2023年10月美国加强出口管制,壁仞科技、摩尔线程被列入实体清单,供应链受限进一步加剧。
2024年,技术突破与AI算力需求爆发形成共振,转机到来。寒武纪发布7nm工艺的思元590芯片,推理能效比肩国际旗舰,且兼容国内主流大模型,全年营收同比大增 65%,2025年第三季度首次扭亏为盈,前三季度营收暴涨2386%。
摩尔线程2024年营收4.38亿元,同比增长253.65%,其中AI智算产品收入达到3.36亿元,占公司总营收的77.63%。而沐曦股份当年营收为7.43亿元,同比增长率约为1300%,彰显规模化商用成效。
从2020年前后的创业潮涌起,到2022年的至暗时刻,再到2024年的小爆发,国产GPU用五年时间走完了一条布满荆棘却初见曙光之路,成为AI算力自主化的关键支柱。
“短期看,国产GPU将把2026年国内AI芯片自给率从30%拉到50%以上,直接带来200亿元级晶圆、封装、设备订单。”张国斌表示,从中长期看,若资本—研发正循环持续,2028年前后国产GPU有望在推理端实现真正崛起,并向上游反哺出本土的“EDA—IP—晶圆—封装—设备—材料”全流程生态,完成从“单点突破”到“系统级自主”的跃迁。
需要指出的是,国产GPU与英伟达仍有差距,在制造工艺、软体生态、客户依赖、产业标准等面临挑战。
AI算力集群取得突破
作为AI芯片中占比最高的类别,GPU芯片赛道在今年迎来企业的密集上市。
以摩尔线程为例,该公司在IPO之路上创造了三个“最”:一是科创板开板6年来过会最快的公司,从今年6月30日IPO受理到9月26日过会,仅用88天;二是IPO拟募资80 亿元,创今年科创板在审项目募资规模新高;三是上市发行价是今年发行价最高的新股、唯一百元股。11月1日,证监会官网显示,燧原科技再次向上海证监局办理辅导备案登记。此外,拥有兆芯生态背景的GPU初创企业格兰菲,以及专注于视频处理与AI计算融合的瀚博半导体,也均处于上市辅导期。
同时,近段时间AI泡沫论声量渐显,即使是刚交了一份超预期的财报的英伟达,也遭到投资人的非议,另外在谷歌TPU强势替代的风波下,英伟达股价也应声下跌。不过,摩根士丹利基于亚洲实地调研的报告,以客户对“无法获得足够的英伟达产品”的焦虑,有力印证了对英伟达新一代架构GPU(Blackwell和Rubin)2026财年累计收入预期达5000亿美元的可实现性。
而我国正加速实现从底层芯片,到AI服务器,再到AI算力集群的全面突破,从产业发展的迫切需求,逐渐变成具备全产业链能力支撑的大势所趋。
在芯片环节,沐曦股份首款通用GPU产品C600以全流程国产化为突出亮点,具备替代英伟达H20的能力。根据沐曦股份发送给交易所的回复函,其第三代高性能通用GPU芯片(曦云C700系列)研发项目于今年4月立项,对标英伟达H100。
在2025世界人工智能大会上,燧原发布最新一代训推一体产品“燧原L600”,可用于大模型训练和推理,原生支持FP8(8位浮点数)低精度,可有效提升训练速度和降低计算成本。据悉,2024年下半年量产的“燧原S60”目前已出货及订单超过10万片。
在AI服务器环节,联想集团、浪潮信息不仅在国内市场占据领先份额,在国际市场亦呈现份额、排名强劲上升趋势。据IDC数据,2025年第一季度联想集团服务器收入全球排名第三,增速高达74.8%,在中国AI云服务器市场份额更是突破35%,稳居第一梯队。
而AI算力集群环节,国内众多厂商则通过超节点技术突破,实现对海外算力集群的弯道超车。对于超节点,张国斌将其简单概括为:用集群弥补单卡算力不足,用“系统工程”换“工艺代差”,用“规模”换“性能”。
在今年世界人工智能大会上,上海仪电、曦智科技、壁仞科技和中兴通讯,联合发布了国内首个光互连光交换GPU超节点——光跃LightSphere X。据介绍,相比铜缆,光缆的远距离传输优势可实现交付与机柜解耦。该方案采用光互连技术,通过增加机柜数量构建超节点,能按模型算力需求动态调整超节点规模,将实现2000卡部署。
近期,中科曙光也发布了全球首个单机柜级640卡超节点scaleX640,该方案采用“一拖二”高密架构设计,实现了单机柜640卡超高速总线互连,综合算力性能实现倍增,同时单机柜算力密度提升20倍。中科曙光还表示,通过30天+长稳运行可靠性测试验证,scaleX640可保障10万卡级集群扩展部署。9月,昆仑芯也首次展示了自己的超节点方案,单个机柜可支持32至64张加速卡的灵活部署,在DeepSeek V3/R1 PD分离推理架构的优化下实现了单卡性能提升95%,单实例推理性能大幅提升高达8倍,已在百度内部大规模部署。
随着算力集群迈入“万卡协同”时代,华为在今年全连接大会上,宣布了未来的超节点演进计划,计划2026年第四季度上市Atlas 950超节点。“Atlas 950超节点,至少在未来多年都将是全球最强算力的超节点,并且在各项主要能力上都远超业界主要产品。其中,相比英伟达同样将在明年下半年上市的NVL144,Atlas 950超节点的规模是其56.8倍,总算力是其6.7倍,内存容量是其15倍,达到1152TB;互联带宽是其62倍,达到16.3PB/s。即使是与英伟达计划2027年上市的NVL576相比,Atlas 950超节点在各方面依然是领先的。”华为轮值董事长徐直军称。
上一篇:高铁疾驰,一路欢歌一路香