春节档AI诸神之战开启
创始人
2026-02-14 15:19:03

马年新春将至,国产AI大模型之战愈发火爆——短短一天时间,多家厂商密集更新模型,其中包括MiniMax上线新一代文本模型MiniMax M2.5。

当各家大模型厂商围绕“春节档”展开密集发布与营销攻势,这款定位为“原生Agent生产级模型”的产品,正式加入这场被业界称为“AI诸神之战”的竞争。

尽管有着编程、工具调用、办公等生产力场景全球SOTA成绩,这家在资本市场备受瞩目的上海大模型公司却想抛开参数规模与模型榜单的简单比拼,打开另一种叙事:中国大模型重新定义Agent2.0时代!

能自动处理复杂任务

在编程能力方面,M2.5在权威榜单SWEBench Verified得分80.2%、Multi-SWE-Bench得分51.3%,较上一代显著提升;在Multi-SWEBench等多语言复杂环境中超越Opus 4.6,达到了行业高水平。更重要的是,模型展现出“原生Spec能力”——在编码前主动拆解架构与功能规划,更接近真实架构师的工作模式。

工具调用和搜索能力方面,模型能够自动处理复杂任务,在BrowseComp、Wide Search等多项Agent任务中以更低的轮次消耗取得了更优的效果,相较于上一代模型表现提升20%,达到了行业顶尖水平。

办公场景中,在Word、PPT、Excel金融建模等工作区间高阶场景中取得了显著的能力提升,在测评框架GDPval-MM与主流模型的对比中取得了59.0%的平均胜率。

记者获悉,MiniMax内部已率先受益于M2.5的模型能力——在内部真实业务场景中,整体任务的30%由M2.5自主完成,覆盖研发、产品、销售、HR、财务等职能,且渗透率仍在持续上升。其中,在编程场景表现尤为突出,M2.5生成的代码已占新提交代码的80%。

性能之外,M2.5的另一核心亮点在于极致的推理速度与成本控制。M2.5-lightning版本支持100 TPS以上输出速度,是主流模型的2倍左右;输入价格约0.3美元/百万Token,输出约2.4美元/百万Token。按每秒输出100 Token计算,连续运行一小时成本约1美元;若按50 Token计算,成本约0.3美元。这意味着1万美元理论上可支持4个Agent连续工作一年。MiniMax方面认为,当性能与成本不再构成约束,Agent规模化部署的经济模型将发生根本变化。

独创Agent RL支撑高速进化

过去108天,MiniMax从M2、M2.1迭代至M2.5,SWE-Bench Verified成绩从69.4提升至80.2,进步曲线在同业中尤为陡峭。团队将这一跃迁归因于大规模Agent强化学习(RL Scaling)。

其自研Forge框架通过解耦训练引擎与Agent,实现对任意Agent脚手架和工具的泛化优化,并通过异步调度与树状合并策略实现约40倍训练加速。同时,在算法层面采用CISPO优化与过程奖励机制,缓解长上下文场景中的信用分配问题,并将“任务真实耗时”纳入奖励函数,在效果与响应速度之间取得平衡。

据透露,M2.5已于2月12日在MiniMax Agent上线,并于13日全球开源支持本地化部署。不到一天,来自全世界的用户已经在MiniMax Agent上构建了1万多个专家,且仍在快速增长;而MiniMax也针对办公、金融、编程等高频场景,在MiniMax Agent上构建了多组深度优化、开箱即用的专家套组。

记者还了解到,MiniMax将在3月2日公布2025年全年业绩。 本报记者 郜阳

相关内容

热门资讯

希拉里称一直呼吁公开爱泼斯坦文... 转自:京报网_北京日报官方网站 #希拉里回应爱泼斯坦案没...
奥巴马:“外星人确实存在,但…... 当地时间14日,在最新发布的访谈视频中,美国前总统奥巴马称“外星人确实存在”,但情况和外界的猜测有所...
视频丨两张列车时刻表跨越十年 ... (来源:千龙网) 今年春运,全国铁路平均每天上千万人次的...
我总领馆提醒:中国公民近期避免... 2月15日,大阪市中央区道顿堀发生一起持刀伤人事件,造成1人死亡、2人受伤,其中1人失去意识。15日...
火车票候补订单先到先得!没买到... (来源:半月谈)转自:半月谈 【#火车票候补订单先到先得...