敢说永不掉线、秒级恢复,华为的底气是什么?
创始人
2025-06-10 19:11:43
0

  炒股就看金麒麟分析师研报,权威,专业,及时,全面,助您挖掘潜力主题机会!

在通往通用人工智能(AGI)的路上,如何像其他领域一样实现弯道超车,是业界绕不开的话题。

在过去的十余年时间里,各项单点技术飞速演进,但随着单点技术演进的边际效应递减和系统复杂度的提升,系统性能的天花板逐步从单点技术的上限演变成系统工程上限:单点优势越来越像是精致的零件,提升空间有限;但采用系统工程创新,各个部分完美配合、高效协同,实现整个系统的效能最优,才有更积极的现实意义。

如何在发挥单点技术优势的同时,以整体视角重新构建路径,通过对复杂系统的极致把控与再组织、找到新的突破可能?解决这个看似不可能的问题,就有望为我们独立引领最前沿技术发展创造条件。

近期,虎嗅将推出《华为技术披露集》系列内容,通过一系列技术报告,首次全面详述相关技术细节,为业界提供参考价值。

我们期待通过本系列内容,携手更多伙伴共同构建开放协作的生态系统,助力昇腾生态在中国的蓬勃发展。

想象一下,你正在用手机导航规划长途路线,背后可能有几十个 AI 模型同时在分析路况、预测拥堵;医院用 AI 辅助诊断癌症时,系统需要瞬间处理成百上千张 CT 影像。这些看似简单的智能应用,背后都依赖着像 "超级大脑" 一样的 AI 算力集群在 24 小时不停运转。

如果把 AI 算力集群比作一个大型工厂的生产线,高可用性就相当于让这条生产线具备 "永不罢工" 的能力,给 AI 算力集群上了一份 "保险",让这个支撑智能时代的 "数字发动机" 既能承受日常的 "小磕小碰",又能在遇到突发故障时保持稳定运行。只有确保算力资源随时可用、持续输出,才能让 AI 真正成为驱动业务创新的可靠引擎,而不是随时可能熄火的 "半成品"。

高可用核心基础:面向超节点的故障感知、管理及容错

AI大集群问题定位复杂,系统规模大、软硬技术栈复杂、调用链长,先要跨域故障定界,然后各域内部故障定界定位,故障诊断面临巨大挑战;当前定位时间从数小时到数天,技能要求高 ,难以找到故障设备和根因。华为团队为了让集群运维工具能够快速找到问题原因,有效提升现网问题的闭环效率,提出了全栈可观测能力,构建了大规模集群的故障感知能力,主要由集群运行视图、告警视图、网络链路监控、告警接入和配置、网络流可观测能力组成;同时还提出了包括全栈故障模式库、跨域故障诊断、计算节点故障诊断、网络故障诊断等四大能力的故障诊断技术。

当前行业水平下,万卡级别的AI集群平均每天会出现一次甚至多次故障,这不仅严重影响了训练效率,还导致了算力资源的大量浪费。为解决这一问题,华为团队通过建立AI集群全系统可靠性分析模型,实现对可靠性指标的预计评估和分配分解。从可分析、可增强、可验证、可诊断等方面,持续构建可靠性系统工程能力,突破关键可靠性技术,实现CloudMatrix超节点万卡集群MTBF大于24小时的硬件高可靠能力。

超节点需要做大超节点规模,才能充分发挥超平面网络的优势,目前业界没有使用光链路来构建超节点的成功案例,因此华为团队提出了相应的超节点光链路软件容错方案。通过多层防护体系,借助超时代答,绿色通道等关键技术实现无超节点级故障,通过链路级重传,光模块动态升降Lane,HCCL算子重执行,借轨通信,双层路由收敛,Step级重调度等特性,实现光模块闪断的故障率容忍度>99%。在新增10倍+光模块后,通过软件可靠性措施,以及光链路压测技术等,实现光模块闪断率低至电链路水平,保障了超平面的可靠性。通过构建Step级重调度能力,高频的HBM多比特ECC故障恢复时间缩短至1min,对于因为故障造成的用户的算力损失下降5%。

高可用助力业务:万卡集群上千亿模型的线性度和训推快恢

线性度指标用于衡量训练任务速度或吞吐的提高比例(即完成时间缩短比例)随算力卡数增长比例的比值。华为团队提出拓扑感知的协同编排技术TACO、网络级网存算融合技术NSF、拓扑感知的层次化集合通信技术NB、无侵入通信跨层测量与诊断技术AICT等四项关键技术,实现Pangu训练线性度提升。总体方案如下图所示:

实验及理论分析结果显示,训练Pangu Ultra 135B稠密模型时,4K卡Atlas 800T A2集群相比256卡基线,线性度为96%。训练Pangu Ultra MoE 718B稀疏模型时,8K卡Atlas 800T A2集群相比512卡基线,线性度95.05%;4K卡CloudMatrix 集群相比256卡基线,线性度96.48%。

大规模AI集群运行过程中频繁因为各类硬件、软件故障导致训练任务中断,业界通常使用训练过程中周期保存的CKPT恢复训练任务。华为基于软硬件全栈的技术方案创新打造了如下分层分级的训练任务故障快恢系统,不同层级的故障恢复能力如下图所示。

通过数据集索引构建加速、模型编译缓存加速、集合通信建链加速、存储CKPT加速等关键技术优化,万卡集群的训练恢复时间可以做到10min以内,进程级重调度恢复能够有效缩短训练恢复时间到3min以内,进程级在线恢复进一步缩短训练恢复时间到30s以内,同时可以降低训练回滚时间到一个训练迭代的时间,且与集群规模、模型规模基本无关,极大提升了AI集群可用度和大模型训练效率。

随着千亿MOE模型架构演进,实例部署的组网架构从传统的一机八卡演进为大EP组网架构,目前在大EP组网架构下主要面临部署规模扩大导致的故障概率数量增大、故障爆炸半径变大的可靠性问题,任意硬件故障都会导致整个Decode实例不可用,进而导致推理业务受损,甚至中断。

针对大EP推理架构的可靠性难题,华为团队提出三级容错方案,实例间切换、实例内重启恢复、实例内无损恢复,从芯片驱动层、框架层、平台层相互协作,构筑端到端可靠性体系。在不同的故障场景下,采用不同的容错恢复手段,可以最小化用户损失。

其中实例内重启恢复技术,可构筑带内快速故障感知和重调度、参数权重和镜像预热技术等技术,将实例内重启恢复时间压缩到5min内。TOKEN级重试技术,基于DeepSeekV3 1P2D多机CloudMatrix 384场景下,针对HBM KV Cache故障,故障恢复时长(从故障发生到Token重新输出时间),小于10s。相较于业界的10min恢复实例,TLR可将故障影响减少60倍。

针对AI算力集群的高可用性,华为团队提出了六大创新方案,即故障感知诊断、故障管理、集群光链路容错等高可用所需要三大基础能力,以及集群线性度、训练快恢、推理快恢等高可用为业务带来的三大支撑能力。这六大创新均带来了非常可观的收益,比如万卡集群可用度达到98%、集群训推最快达到秒级快恢、集群线性度达到95%+、千种故障模式库与分钟级故障诊断等。

面向未来,华为团队会持续在场景多元化与复合化为代表的新应用驱动、异构融合与对资源池化为代表的新架构突破、极致可观可测与智能自治免维代表的新工程范式等三个方向进行探索,带来更多的创新成果。

本内容为作者独立观点,不代表虎嗅立场。未经允许不得转载,授权事宜请联系 hezuo@huxiu.com

本文来自虎嗅,原文链接:https://www.huxiu.com/article/4447833.html?f=wyxwapp

相关内容

热门资讯

山东淄博国有资产拍卖资料4份文... 本文来自微信公众号“大象新闻”“一场结果早就内定的拍卖,一份伪造的地质勘探报告,一份弄虚作假的样品检...
北京雷电蓝色预警!局地暴雨!外... 市气象台2025年6月14日07时35分发布雷电蓝色预警信号:预计,14日08时至23时我市大部分地...
职工子女辛某,驾车强行逼停骑行... 武汉大学保卫部6月13日发布《关于职工子女辛某危险驾驶情况的通报》。通报称,2025年5月18日20...
北京启动防洪排涝Ⅳ级应急响应,... 近一小时降雨相对平稳,最大小时雨量出现在房山新村,17.2毫米。14日05时至10时,全市平均降水量...
环着沙漠看新疆丨沙雅县多措并举...   塔里木河上游湿地自然保护区湿地面积逐步扩大(6月12日无人机摄)。  石榴云/新疆日报讯(记者 ...
LABUBU 热潮引爆 “情绪... 转自:上观新闻从明星街拍中的时尚点缀,到社交平台上的疯狂种草,LABUBU 以其独特造型在全球范围内...
近百件川渝地区“非遗”亮相重庆... 6月14日,重庆荣昌举行“巴蜀非遗精品展”,荣昌陶、荣昌折扇、铜梁龙灯彩扎、龙凤花烛、自贡扎染技艺、...
绿色矿山智能升级——伊新煤业生... 转自:经济日报驱车从新疆伊犁哈萨克自治州首府伊宁市区出发,向西北方向行驶约30公里,便进入霍城县境内...
【贵州文创新生代】龙沁洁:我把...   【编者按】  在数字浪潮与乡土大地的交界处,有一群年轻人将千年文化符号解构为现代美学提案。他们以...
健身房拖欠水电房租突然闭店 转自:北京时间 【#健身房拖欠水电房租突然闭店#】#物业...
美国大阅兵,一道撕裂的“风景线... 中新网6月14日电 当地时间6月14日,美国政府将于首都华盛顿举行阅兵式,以纪念美国陆军成立250周...
青苔古木萧萧,苍云秋水迢迢.该... 青苔古木萧萧,苍云秋水迢迢.该元曲前三句描绘了什么样的景色青苔之上,古木参天;苍云飘逸,秋水无边。红...
欲望不可驯服是什么意思? 欲望不可驯服是什么意思?你的欲望不能消除
《大风歌》的具体内容 《大风歌》的具体内容大风歌 刘邦 大风起兮云飞扬, 威加海内兮归故乡, 安得猛士兮守四方?大风起兮云...
在《笑傲江湖》之中,为什么盈盈... 在《笑傲江湖》之中,为什么盈盈要那么卑微呢?其实我觉得不是卑微,《笑傲江湖》中的任盈盈对令狐冲的态度...
爆发式增长!这一领域缺人 转自:蚌埠新闻网近日,国家发展改革委将工业软件更新升级纳入“两新”政策支持范围,表示国家将通过政策引...
美国青少年在热贡艺术之乡体验唐... 6月13日,美国犹他州青少年青海研学交流团一行23人来到热贡艺术发祥地、国家级历史文化名城黄南藏族自...
今日部分厂家继续上调小麦报价 原标题:今日部分厂家继续上调小麦报价 来源:南方小麦网江苏泰州兴化地区普麦净粮进厂价1.225...
胡锡进发文呼吁关注纸品安全 【#胡锡进发文呼吁关注纸品安全#】近日,知名媒体人@胡锡进 发文,呼吁大众关注纸品安全,引发热议。生...
一万元加盟什么店最好(一万元钱... 餐饮开店需要多维思维,从多个维度去考虑一家餐饮店!大家好,我是下午发言。以前你开餐厅,只要有其中一个...