跨南北、贯东西,支持千公里级跨域混训!上海发布超大规模跨域混训技术方案
创始人
2025-07-19 19:51:03

  炒股就看金麒麟分析师研报,权威,专业,及时,全面,助您挖掘潜力主题机会!

(来源:上观新闻)

今天(19日),上海人工智能实验室发布DeepLink超大规模跨域混训技术方案,并已完成多个项目落地,支持千公里多智算中心跨域长稳混训千亿参数大模型。

今年2月,上海AI实验室联合十余家合作伙伴,在上海建成了超大规模跨域混训集群原型,并实现千亿参数大模型20天不间断训练。在此基础上,上海AI实验室融合中国联通AINET技术,跨越1500公里连接了上海和济南之间的智算中心,完成千亿参数大模型混训,等效算力达单芯片单集群算力的95%以上;与中国电信息壤算网合作,实现了北京、上海与贵州等多地智算中心的互联和大模型混训。

为高灵活、低成本获取大算力提供新途径

随着国内AI研究及产业应用日益深化,算力需求持续增长,全国智算中心大规模兴建,但存在建设分散、采购芯片代次差异大、算力资源碎片化等问题,难以灵活、低成本地获取大算力。

上海AI实验室攻克了大规模跨域异构集群调度、高性能通信协议整合、高可靠容错机制设计等技术难题,有效应对硬件算力参差不齐、通信同步不稳定、故障容错难等挑战,推出DeepLink超大规模跨域混训技术方案,以保障跨域智算集群的大模型长稳训练。

DeepLink超大规模跨域混训技术方案

破解效率低、不稳定、难协同三大难题

智算芯片行业百花齐放,但不同芯片的软件栈及性能存在差异,异构互联通信效率低下,导致适配纳管难度大、混训效率不高。且大规模远距离跨域混训需要解决网络带宽、通信延迟、训练稳定性等问题。

针对远距离跨域混训存在的数据同步和稳定性问题,这一技术方案创新性地采用“3D并行+PS”架构,将超大规模任务分发到各个智算中心,通过算法换通信的方式减少全局同步复杂度和通信开销,有效减轻了网络负担,为数据传输提供了更宽松的时间窗口,普通专线即可满足通信带宽的要求;还确保在异地训练中即使某个智算中心的节点发生故障也不影响整体训练,整体提升训练稳定性。

“3D并行+PS”架构

针对芯片种类繁多,不同硬件显存容量和通信带宽参差不齐导致的异构混训效率低下难题,本方案同时提出改进的异构流水线并行策略,并采用自研分布式并行框架动态调节不同硬件的任务量,以更细粒度的拆分方式解决了异构芯片差异性带来的负载均衡和计算阻塞问题。联合团队基于现有通信协议构建适配层,成功突破了异构芯片互联效率低下的瓶颈。

携手上下游,助力AI生态繁荣

AI生态蓬勃发展,离不开算力资源高效盘活。作为国际级人工智能新型科研机构,上海AI实验室采取有组织的科研范式,发挥原创算法及AI软硬件深度互联技术优势,在全国算力互联互通探索中抢先布局、不断突破。

DeepLink方案不仅验证了跨域混训的实用价值,也为行业提供了全新启示。在计算资源有限的场景下,行业依旧可以实现不同性能芯片的灵活组合,无需依赖高算力芯片“扎堆”式部署,有效降低对特定硬件的路径依赖;不同算力集群可通过互联组合形成“合力”,突破单集群性能上限;跨厂商资源更好地兼容与协作,为算力生态的多元繁荣奠定基础。

DeepLink超大规模跨域混训技术快速集成方案

新民晚报记者了解到,目前,上海AI实验室DeepLink开放计算体系已深度集成至联通、电信、商汤、仪电等智算平台,实现“1个平台+N种芯片+X个地域”稳定运行。

原标题:《跨南北、贯东西,支持千公里级跨域混训!上海发布超大规模跨域混训技术方案》

栏目编辑:王蔚 题图来源:上观题图 图片来源:采访对象供图

来源:作者:新民晚报 郜阳

相关内容

热门资讯

春节不放假,中国男篮组织集训备... (来源:上观新闻)2月3日,中国篮球协会公布新一期男篮世界杯预选赛集训名单。按照计划,球队将于2月5...
水利部发布节水产业优惠政策指引 新华社北京2月3日电(记者 高敬 魏弘毅) 记者2月3日从水利部获悉,为健全节水产业高质量发展...
锚定全新目标 勇担兵团使命 ●兵团日报评论员 谋定而后动,笃行方致远。在“十四五”圆满收官、“十五五”扬帆起航的历史节点,...
内蒙古自治区第十四届人民代表大... (来源:内蒙古日报)转自:内蒙古日报一、主席团61人(以姓名笔画为序)  丁绣峰        于立...
“医育结合”新模式提高托育服务... 贵州省开阳县紫兴街道东湖幼儿园将包饺子活动融入托育课程,孩子们在动手实践中感受传统文化魅力(摄于20...