MiniMax宣布开源面向Coding Agent的新评测集
创始人
2026-01-14 12:39:30

观点网讯:1月14日,MiniMax宣布开源面向Coding Agent的评测集OctoCodingBench,并同步披露基于该集对国内外十余款开源及闭源大模型的测评结果。根据公开资料整理,实验覆盖代码生成、多轮对话、指令遵循等维度,样本规模超1万条。

测评发现,所有受测模型在细粒度Check-level指标上准确率均突破80%,但端到端Instance-level成功率仅10%-30%,暴露出长链路任务稳定性不足;随着对话轮次增加,模型指令遵循率呈阶梯式下降,第五轮后平均衰减约25%。MiniMax指出,目前尚无模型达到生产级可靠性,过程合规与安全性仍属盲区,呼吁行业共建更严苛的代码智能评测标准。

免责声明:本文内容与数据由观点根据公开信息整理,不构成投资建议,使用前请核实。

相关内容

热门资讯

中汽协2025城市NOA报告发... 来源:环球网 2026年1月14日下午,《2025城市NOA汽车辅助驾驶研究报告》(以下简称“报告”...
中关村(000931.SZ):... 格隆汇1月16日丨中关村(000931.SZ)公布,下属公司北京华素制药股份有限公司(简称:北京华素...
敏芯股份涨3.95%,成交额2... 1月16日,敏芯股份涨3.95%,成交额2.92亿元,换手率6.16%,总市值48.08亿元。异动分...
气派科技涨4.24%,成交额1... 1月16日,气派科技涨4.24%,成交额1.60亿元,换手率5.89%,总市值27.56亿元。异动分...
比依股份跌1.30%,成交额1... 1月16日,比依股份跌1.30%,成交额1.78亿元,换手率4.33%,总市值41.46亿元。异动分...