蚂蚁开源全模态大模型 Ming-flash-omni 2.0,对标 Gemini 2.5 Pro
创始人
2026-02-11 11:59:52

  炒股就看金麒麟分析师研报,权威,专业,及时,全面,助您挖掘潜力主题机会!

(来源:网易智能)

2月11日,蚂蚁集团开源发布全模态大模型 Ming-flash-omni 2.0。据悉,该模型在视觉语言理解、语音可控生成、图像生成与编辑等多项公开基准测试中表现突出,部分指标超过 Gemini 2.5 Pro,成为当前开源全模态大模型的新一代性能标杆。

图注:Ming-flash-omni 2.0在视觉语言理解、语音可控生成、图像生成与编辑等核心领域实测表现

据介绍,Ming-flash-omni 2.0基于 Ling-2.0架构(MoE,100B-A6B)训练,围绕“看得更准、听得更细、生成更稳”三大方向进行系统优化。视觉方面,模型通过亿级细粒度数据与难例训练策略,提升对复杂物体与细节场景的识别能力;图像方面,增强复杂编辑稳定性,支持光影调整、场景替换、人物姿态优化等多种生成与编辑能力;音频方面,实现语音、音效与音乐同轨生成,并支持自然语言对音色、语速、情绪、方言等参数进行精细控制。

值得关注的是,该模型被称为业界首个“全场景音频统一生成模型”,可在同一音轨中同时生成语音、环境音与音乐,并支持零样本音色克隆与定制。在推理阶段,模型实现3.1Hz 的低推理帧率,可完成分钟级长音频实时高保真生成,在推理效率与成本控制上保持领先。

业内普遍认为,多模态大模型正从“多模型拼接”走向统一架构。Ming-flash-omni 2.0的开源将以“可复用底座”形式向开发者开放视觉、语音与生成能力,降低多模型串联复杂度与成本,为端到端多模态应用开发提供统一入口。

百灵模型负责人周俊表示,全模态技术的关键在于通过统一架构实现多模态能力的深度融合与高效调用。开源后,开发者可基于同一套框架复用视觉、语音与生成能力,显著降低多模型串联的复杂度与成本。未来,团队将持续优化视频时序理解、复杂图像编辑与长音频生成实时性,完善工具链与评测体系,推动全模态技术在实际业务中规模化落地。

目前,Ming-flash-omni 2.0的模型权重与推理代码已在 Hugging Face 等开源社区发布,开发者亦可通过蚂蚁百灵 Ling Studio 平台在线体验与调用。(袁宁)

相关内容

热门资讯

春节给家里选电视还是换投影一文... 【ZOL原创技术】春节的脚步越来越近,家家户户都在忙着焕新家居、筹备团圆,而客厅作为全家欢聚的核心场...
台股开红盘在即,ETF规模翻倍... 经济观察网 截至2026年2月19日,台湾基金与股票市场近期值得关注的事件集中于台股长假后开红盘、E...
联合国强烈谴责以色列在约旦河西... 来源:央视新闻客户端当地时间2月18日,联合国巴勒斯坦人民行使不可剥夺权利委员会主席团发表声明,强烈...
2026年第一季度四大通信手机... 【ZOL中关村在线原创导购】进入2026年第一季度,手机行业的通信技术迎来了新一轮的升级突破,卫星通...
AMD Zen 6架构APU将... 【ZOL中关村在线原创新闻】近日,AMD 在提交给 LLVM 编译器的驱动代码中,披露了即将应用于Z...