出手就是王炸,华为发布盘古新架构,关键指标第一
创始人
2025-05-29 12:27:28

转自:财联社

5月28日,业界权威大模型榜单SuperCLUE最新公布,华为基于昇腾集群训练出的盘古Pro MoE大模型交出了超能打的成绩,实现了综合能力的领先。

当前,全球大模型竞争已进入白热化阶段。此前国际顶尖大模型的训练几乎均由英伟达GPU主导。此次华为盘古Pro MoE大模型的发布,证明了昇腾AI计算平台完全具备训练顶尖大模型的能力。这意味着国产AI基础设施的自主创新能力得到了进一步验证,为中国人工智能产业的发展提供了一颗“定心丸”。

模型能力:SuperCLUE榜单上表现卓越

作为华为盘古大模型家族的最新成员,盘古Pro MoE大模型采用混合专家架构(MoE),在参数量仅为720亿,激活160亿参数量的情况下,通过动态激活专家网络的创新设计,实现了以小打大的优异性能,甚至可以媲美千亿级模型的性能表现。

SuperCLUE是中文通用大模型综合性评测权威基准榜单,在最新一期SuperCLUE总排行榜上,盘古Pro MoE达到了59分,千亿参数量以内大模型排行并列国内第一。数据显示,模型在逻辑推理、多轮对话、代码生成等核心能力维度均达到行业先进水平。

创新技术:突破性提出MoGE架构

混合专家模型(Mixture of Experts, MoE)为大型语言模型的高效执行和大规模参数化提供了新的可能性。然而,传统MoE架构在专家负载均衡方面存在显著问题,导致系统效率瓶颈。华为盘古团队推出了基于分组混合专家模型(Mixture of Grouped Experts, MoGE)架构的盘古Pro MoE大模型,通过在专家选择阶段引入分组机制,确保了跨设备的计算负载均衡,不仅解决了传统MoE架构中专家负载不均衡的问题,还显著提升了模型的训练效率和推理性能。在4K昇腾大规模集群上,盘古Pro MoE实现了高效训练的卓越性能。

· 中文技术报告:https://gitcode.com/ascend-tribe/pangu-pro-moe/tree/main

· 英文技术报告:https://arxiv.org/pdf/2505.21411

行业价值:以高效能加速AI应用落地

在企业级应用中,盘古Pro MoE动态负载均衡技术有效降低云端推理成本,支撑高并发实时作业场景;同时通过轻量化推理引擎适配昇腾系列芯片,赋能广大客户运行百亿级模型,为AI产业应用领域开辟新蓝海。

据悉,盘古Pro MoE将向开发者社区开放模型权重,赋能行业开发者基于该模型进行垂直领域创新。与此同时,该模型将深度整合至华为云盘古大模型体系,为金融、制造、医疗等行业的智能化升级提供底层能力支撑。

相关内容

热门资讯

中外对话丨中外专家警告:日本主...   中新网北京12月15日电 题:中外专家警告:日本主动调整军事战略,或走向穷兵黩武  作者 管娜 ...
夏某某(男,大专学历)隐瞒精神... 转自:扬子晚报2024年参军入伍后在安徽出现精神类障碍被退回,2025年隐瞒病史后入伍再被退兵……1...
告别纸上谈兵!AI 培训找哪个...   炒股就看金麒麟分析师研报,权威,专业,及时,全面,助您挖掘潜力主题机会! (来源:雷达财经)“...
一图读懂vivo S50:田曦...   炒股就看金麒麟分析师研报,权威,专业,及时,全面,助您挖掘潜力主题机会! (来源:快科技)快科...
监管部门出手整治不正当价格行为... 近日,国家市场监督管理总局研究起草了《汽车行业价格行为合规指南(征求意见稿)》(下称《指南》),并向...