炒股就看金麒麟分析师研报,权威,专业,及时,全面,助您挖掘潜力主题机会!
黄仁勋越来越焦虑
关注AI产业发展的都能感受到,掌舵英伟达“算力帝国”的黄仁勋,最近越来越焦虑了,开始频繁地提起“中国”和“华为”。
“中国做得太棒了,全球50%的人工智能研究人员都是中国人,你无法阻止他们,也无法阻止他们推进人工智能的发展。如果有人以为,一招就能切断中国发展人工智能的能力,那他绝对是无知的。”黄仁勋近期在台北电脑展上表示。
5月19日,英伟达CEO黄仁勋在台北电脑展上发表演讲 图自台媒今年4月,美国政府再度对英伟达中国“特供版”芯片H20发出禁令。公告一出,黄仁勋立刻把皮衣换成西装,飞往中国,这是他3个月里第二次来华。在与政府官员的会面中,黄仁勋多次强调中国市场的重要性,表示希望继续与中国合作。
最新禁令,导致英伟达计提了55亿美元的库存损失,令黄仁勋“深感痛苦”。
事实上,如果仅仅是数十亿美元的损失,对英伟达并不算“伤筋动骨”。这家市值超过3万亿美元的巨头,在AI风口下赚得盆满钵满,2025财年收入达到了1305亿美元,同比增长114%;净利润达到729亿美元,同比增长145%;毛利率达到惊人的75%。
真正让黄仁勋感到焦虑的,是中国自主技术正在美国禁令逼迫下快速突围。在英伟达的关键护城河中,不仅有GPU这种硬件,还有并行计算平台和编程模型CUDA,以及高速互联技术NVLink。在单点竞争上,中国企业可能很难撼动英伟达地位,但系统竞争并不一定。
近期,华为对外详细介绍了昇腾CLoudMatrix 384超节点技术,该技术使用国产昇腾芯片,在算力规模、训推效率和可靠性等关键维度上,全面超越了英伟达最强的NVL72系统。其中的核心在于,华为跳出了单卡算力的竞争,通过计算、存储、网络和架构的协同创新,弥补了硬件和芯片工艺的局限性,最大化发挥了芯片和系统能力。
中国建立了替代英伟达的方案,才是黄仁勋最担心的。这不仅可能导致该公司在中国遭受永久性损失,更可能动摇其“算力帝国”的统治根基。他喊话美国政府:赢得开发者的平台才能最终获胜,出口管制应该强化美国平台,而不是迫使全球一半的AI人才流向竞争对手。
看到中国再度突破,美国政客其实也很着急,但他们显然忽视了黄仁勋放宽管制的呼声。在严格限制英伟达对华出口的同时,美商务部最近还试图在全球封杀华为昇腾芯片,同时逼迫EDA巨头对华断供。但就像黄仁勋说的,这样只会激活中国企业绝处逢生的能力。
就在今年4月,美国对华断供H20之际,华为云率先在芜湖商用了CLoudMatrix 384超节点,随后又在贵安和乌兰察布等地商用,内部人士将其称为“核弹级创新”,今年上半年还将有数万卡规模上线,目标是“彻底终结行业算力焦虑”。而近日华为再度重磅宣布,已经成功在昇腾平台上实现了准万亿MoE模型的全流程训练,集群训练系统的性能上实现了业界领先,进一步验证了国产AI基础设施的自主创新能力。
图源:观察者网“四年前,英伟达在中国的市场份额高达95%,如今只有50%。如果我们不在中国竞争,而是让中国开发出新的平台,建立一个丰富的生态系统,并且它们不是美国的,在世界推广人工智能技术的时候,他们的技术和领导力将会传播到世界各地。”不难看出,黄仁勋的焦虑感正越来越重,但美国政客仍在一意孤行,行业对老黄说辞也逐步失去了新鲜感。
现在更令人感兴趣的是,华为是如何在没有先进工艺的情况下,用超节点反超英伟达的?
华为造出“算力核弹”
电影《横空出世》中有这样一个片段,西北核基地总指挥冯石与海外归国的专家陆光达,在戈壁滩上聊天,冯石讲述了多年以前的经历:“在朝鲜战场上,我们抓了一个美军俘虏,一个小小的下士,竟敢在我面前,大声喊叫着,扔个原子弹让我们尝尝,给我们做外科手术。”
“武器落后,受气啊。可尽管这样,咱们屈服了吗?”冯石激动地说道。
在那个年代,苏联在没有任何征兆的情况下突然中断协议,撤走所有提供技术援助的专家,美国则对华实行技术封锁。电影画面显示,在缺乏计算机支持的情况下,我方专家决定采取人海战术,通过昼夜不停地打算盘,最终在一年多的时间里算出答案,助力原子弹研发。
《横空出世》剧照60年过去,美国依然试图通过技术封锁的手段,阻碍中国AI产业发展,这确实给中国带来了算力焦虑,毕竟大模型的Scaling Law(尺度定律)依然有效,越多的参数和数据,就能带来越强的性能和智能,这势必会导致对算力、显存和带宽的需求指数级增长。
但即便芯片制造工艺短期无法赶上,中国也并非束手无策。随着模型规模越来越庞大,单卡算力优势相对弱化,集群化、系统化的算力方案是大势所趋,这对中国是挑战更是机遇。
制裁重压下,华为技术团队提出了“用数学补物理”、“非摩尔定律补摩尔定律”、“用系统补单点”等核心思想:基于实际可获得的芯片制造工艺,计算、存储和网络技术协同创新,开创计算架构,打造“超节点+集群”系统算力解决方案,长期持续满足算力需求。
2022年下半年,“身处暴风雨中”的华为启动超节点研发,项目涉及海思、计算和云等多个业务团队。一位项目组专家回忆道,当时64卡的方案也够用,但华为目标是布局未来,并且准备以昇腾AI云服务的方式向行业提供算力,可以把超节点算力分开或合并,做大了没问题,做小了可能就会很被动。经过内部研讨,华为决定坚定投入384超节点研发。
严格意义上说,超节点(SuperPod)并非一个新概念,谷歌、英伟达等巨头很早就在探索。这项技术兴起的背景是,当Transformer这样的大型神经网络模型横空出世,对算力和显存的需求呈爆炸式增长,单个GPU甚至单个服务器已经难以招架,这时就需要构建大量高速计算芯片的高效统一结构,也就是超节点。相比传统的计算集群,超节点不仅要把大量GPU的算力堆起来,更需要在GPU之间、服务器之间构建超高速互联,来降低并行计算的开销,通过将大量GPU融为一体,提供庞大的有效AI算力,共同承担训练和推理任务。
去年3月,英伟达推出了GB200 NVL72超节点。通过“内部高速专线”NVLink,英伟达将36个Grace CPU和72个Blackwell GPU紧密集成,形成一个逻辑上的“巨型GPU”,总算力规模达到了180Pflops,网络互联总带宽达到130TB/s,内存总带宽达到576TB/s。按照英伟达的说法,GB200 NVL72超节点,可以将万亿参数大模型推理速度提高30倍。
在国内也有不少企业在探索超节点技术,像百度昆仑芯构建的超节点,通过自研互联通信协议XPU Link,单柜可容纳32/64张昆仑芯AI加速卡,单柜内卡间实现全互联通信,带宽提升高达8倍,一个机柜的算力最高可达到传统形态下8台8卡服务器。此外,阿里、腾讯、中国移动等巨头,也联合了多家软硬件企业,发起了不同的超节点互联开放标准。
但目前来看,使用全国产芯片构建超节点,还能全面超越英伟达NVL72的,只有华为。昇腾CLoudMatrix 384超节点在高速互联总线联接下,共由12个计算柜和4个总线柜构成,是目前业界最大规模的超节点,算力总规模达300Pflops,是英伟达NVL72的1.7倍;网络互联总带宽达269TB/s,比英伟达NVL72提升107%;内存总带宽达1229TB/s,比英伟达NVL72提升113%。 更重要的是,通过最佳负载均衡组网等方案,昇腾超节点还能进一步扩展为包含数万卡的Atlas 900 SuperCluster超节点集群,未来可以支撑更大规模的模型演进。
昇腾CLoudMatrix 384超节点结构
昇腾CLoudMatrix 384超节点,是华为在制裁重压下造出的一颗“算力核弹”。但对比英伟达和昇腾的方案也难免产生一些疑问。华为只是靠堆更多卡超越英伟达的吗?为什么英伟达和其他企业没有堆更多卡?相比英伟达把卡都放在一个柜子里(更传统意义的超节点,Scale up),昇腾为什么能分成多个计算柜(Scale out)?构建这样的巨型算力系统,能解决哪些问题?
从堆芯片到拼架构
超节点是华为突围的利器,也是行业发展的必然趋势。
面对大模型Scaling Law带来的巨量算力需求,传统解决方案是尽可能堆卡,构建更大的算力集群,但问题是,无限制的堆卡并不能带来算力的线性提升,反而会带来“内存墙”、“规模墙”和“通信墙”的问题。在计算集群内部,如果GPU之间和服务器之间不能“有效沟通”,GPU就会因为没有足够数据用于计算而闲着,进而会导致1+1<2的结果。
过去8年间,单卡硬件算力增长了40倍,但节点内总线带宽只增长了9倍,跨节点的网络带宽只增长了4倍,这使得集群网络通信成为当前大模型训练和推理的最大挑战。因此如果不能提升通信效率,单纯把384张昇腾卡堆起来,计算效果并不一定比72张英伟达卡更好,因为卡间和服务器间的通信开销会抵消算力增加的收益,导致有效算力不升反降。
尤其是,随着以DeepSeek为代表的MoE(混合专家模型)成为主流模型结构,其复杂的混合并行策略带来巨大挑战,通信需求骤增,TP(张量并行)、SP(序列并行)、EP(专家并行)单次通信量高达GB级且难以掩盖。实践数据表明,当TP、SP或EP等分布式策略的混合并行域超过8卡时,跨机通信带宽便成为性能瓶颈,导致系统性能大幅下降。
在这种行业趋势下,英伟达的NVLink体现出更大价值,它的意义在于在GPU之间搭建了一个“超宽车道”,可以让GPU绕开CPU直接通信。基于此,英伟达把将多颗GPU、CPU、高速内存、NVLink/NVSwitch等高度集成,构建起NVL72超节点。但问题是,英伟达的NVLink只是自家GPU之间的通信协议,而节点内还包括NPU、FPGA等非GPU异构硬件,它们不能通过NVLink这种专线进行通信,还是需要通过效率较低的PCIe协议走GPU中转,而节点之间的以太网/InfiniBand跨机互联,在海量计算中也存在带宽堵点。
相比于英伟达这种修补式的改进,昇腾CLoudMatrix 384超节点选择对传统计算架构进行重构。它的核心在于彻底打破了传统以CPU为中心的冯诺依曼架构,也就是“主从架构”,创新提出了“全对等架构”,凭借高速互联总线的关键突破,把总线从服务器内部扩展到整机柜、甚至跨机柜,最终将CPU、NPU、DPU、存储和内存等资源全部互联和池化,这样做就能去除掉繁多的中转环节,从而实现真正的点对点互联,进而实现更大的算力密度和互联带宽。
图源:观察者网“过去数据中心都是通过CPU调度,昇腾CLoudMatrix 384超节点最核心的理念就是对等架构、点对点通信,不用绕过第三方通信。”华为的专家告诉观察者网,在超节点范围内,用高速总线互联替代传统以太,通信带宽提升了15倍;单跳通信时延也从2微秒做到200纳秒,降低了10倍,利用“AI专属高架桥”,集群可以像一台计算机一样工作,突破性能限制。
昇腾CLoudMatrix 384超节点之所以能大幅提升通信效率,还有一个关键原因,就是应用了光通信技术,在昇腾CLoudMatrix 384超节点中,共使用了3168根光纤和6912个400G光模块。相比之下,英伟达NVL72超节点采用的是全铜线架构,成本、功耗低,一经部署便保持固定状态、相对稳定,但缺点是只能部署2米以内,否则通信速率会大幅衰减,因此可联接芯片数量有限。而光模块则有高带宽和高速率的优势,损耗低,适合长距离传输,因而可连接更多芯片,部署灵活。
但光通信也不是全是优势,光模块成本比铜线成倍提升,功耗也大幅增加,并且光纤比较脆弱,故障率较高,插口没插紧、光纤弯了、插头有灰,随便一个小问题都可能断联。因此英伟达虽然在2022年考虑过使用光模块连接256块H100,但最后评估了成本和稳定性,决定不投入生产,说白了还是光通信技术太难驾驭。
但对华为这种通信巨头来说,“光模块都玩烂了”,长期积累的光通信技术已经实现国际领先,反而在超节点通信中构成独特优势。并且针对超节点集群容易发生故障的特征,华为云还给超节点配备了一个全科专业医生——昇腾云脑,主要包含“1-3-10”标准:第一步,1分钟内能感知故障,立刻发现问题不对劲;第二步,3分钟内精准定位问题,找到病根;第三步,10分钟内恢复,快速修复或者让系统继续运行。
国产算力也能炼出顶级大模型
昇腾CLoudMatrix 384超节点的横空出世,在国内还未出圈,就已在国外引发大量关注。
海外知名分析机构SemiAnalysis在一篇报告中指出,华为芯片落后一代,但其扩展解决方案比英伟达和AMD目前在售产品领先一代。基于昇腾芯片打造的华为云CloudMatrix 384超节点,可与英伟达的GB200 NVL72直接竞争,并且在某些指标上比英伟达的机架级解决方案更为先进,其工程优势体现在系统层面,涵盖了网络、光通信和软件。
就连黄仁勋也公开承认被华为超越:“从技术参数看,华为的CloudMatrix 384超节点,性能上甚至超越了英伟达,比英伟达的尖端技术更具优势,因此我们必须高度重视这家实力雄厚的公司,全力以赴应对挑战。华为已明确表态要融合5G与AI技术,这种布局极具前瞻性,是完全正确的战略方向。我们也在推进同样的计划,但必须加快步伐。”
TechInsights关于CloudMatrix 384超节点的报告
被最强对手认可背后,或许只有华为才了解突围的艰辛。有华为云内部人士透露,早期光模块根本不可用,想用“非摩尔去解决摩尔定律”,结果非摩尔的问题反而更大,“我们只能将每个光模块的端面全部拍照,再逐个分析,解决了数不清的问题,才实现较好的稳定性。”
功夫不负有心人,昇腾CLoudMatrix 384超节点的横空出世,给国内产业界带来了第二选择。
想必大家都还记得年初DeepSeek的爆火。当时华为云和硅基流动联手,在CloudMatrix 384超节点上部署了DeepSeekR1/V3,获得了媲美英伟达H100的效果,甚至能提供生产级的推理服务。这其中的原因就在于,首先DeepSeek是一个MoE模型,相比传统的稠密模型,它只会调用最适合当前任务的少部分专家节点参与工作,节省算力的同时,提高推理速度。与此同时,昇腾CLoudMatrix 384超节点这种“去主从、全对等”的算力架构,又天然亲和MoE模型,相比传统一卡多专家的“小作坊模式”,超节点更像“大工厂模式”,通过高速互联总线,能够实现一卡一专家的分布式推理,单卡的MoE计算和通信效率都大幅提升。
“两三年前我们在设计超节点的时候,大家都觉得太大了,因为负载是技术、模型迭代和硬件创新不断交替。在当时,昇腾CLoudMatrix 384超节点的规模还是比较大的,即便是现在,DeepSeek的256个专家,也可以在上面实现一卡一专家,同时还能部署更多冗余专家,即便是最火爆的模型,我们支持都是绰绰有余。”华为专家对观察者网说道。
构建巨型的算力系统,华为的目标远不止推理。之前中国世界领先的大模型,如DeepSeek、Qwen,多由英伟达平台训练出来,而近日华为重磅发布的参数规模高达7180亿的全新模型——盘古Ultra MoE,是一个全流程在昇腾AI计算平台上训练的准万亿MoE模型。在训练方法上,华为首次披露了在昇腾CloudMatrix 384超节点上,高效打通大稀疏比MoE强化学习(RL)后训练框架的关键技术,使RL后训练进入超节点集群时代。
从“以小打大”的盘古72B(Pangu Pro),到业界一流的准万亿模型718B(Pangu Ultra MoE),再到频繁刷新推理速度记录,华为成功完成了国产算力+国产模型的全流程自主可控的训练实践,有力回应了外界对国产算力“只能推理、难以训练顶尖大模型”的疑虑。
功耗是问题但不是制约
当然,超节点本质还是在堆卡,这种“大力出奇迹”的模式不可避免带来功耗、冷却等难题,传统服务器机柜功耗通常在几千瓦,AI超节点机柜功耗可达100千瓦甚至更高。昇腾CLoudMatrix 384超节点在超越英伟达NVL72的同时,功耗也达到后者的4.1倍,每FLOP功耗高出2.5倍。
但需要指出的是,功耗在中国虽是不可忽视的问题,但并不构成制约因素。SemiAnalysis在报告中指出,西方普遍认为人工智能受限于电力,但在中国情况恰恰相反。除了火电,中国还拥有全球最大的太阳能、水电和风电装机容量,目前在核电部署方面也处于领先地位。如果由于相对充足的电力而不存在功耗限制,那么放弃功耗指标并增加扩展性是合理的。
华为也并非完全不考虑功耗。华为技术专家告诉观察者网,华为在液冷方面有很多独特技术,包括三明治架构等工程创新,风冷也有很多工程和技术创新,来保障功耗的控制和降低。同时不管是超节点还是算力集群,并非时刻满负载在跑,华为也在做一些动态调频和降温。
在云计算中心,华为云还打造了恒温“训练基地”,采用液冷冷板散热技术,让冷媒直接接触发热部件,散热效率比传统风冷提升了50%。再加上iCooling智能温控系统,每五分钟动态调整策略,无论外部温度怎么变化,都能让数据中心保持最佳状态。最终,数据中心的能效比PUE做到1.12,比行业平均节能70%。
事实上,在技术封锁下,能用可接受的代价,最大程度解决现实问题,无疑就是胜利,这也是华为以空间换算力、以带宽换算力、以能源换算力的思路所在。当单点技术被封锁时,全栈协同与规模优势将成为破局关键。在日益复杂的国际环境下,华为昇腾CLoudMatrix 384超节点的诞生,不仅为国内提供了除英伟达之外的第二选择,也为中国AI产业发展吃下一颗“定心丸”。
本文系观察者网独家稿件,文章内容纯属作者个人观点,不代表平台观点,未经授权,不得转载,否则将追究法律责任。关注观察者网微信guanchacn,每日阅读趣味文章。