全面评测图像编辑模型推理能力:所有模型在程序性推理方面表现差
创始人
2025-06-13 15:51:44

  炒股就看金麒麟分析师研报,权威,专业,及时,全面,助您挖掘潜力主题机会!

人类在学习新知识时,总是遵循从“记忆事实”到“理解概念”再到“掌握技能”的认知路径。

AI是否也建立了“先记住单词,再理解原理,最后练习应用”的这种知识结构呢?

测评一下就知道了!

东南大学联合马克斯·普朗克信息研究所、上海交通大学、阶跃星辰、加州大学伯克利分校与加州大学默塞德分校的研究团队,共同提出了KRIS-Bench(Knowledge-based Reasoning in Image-editing Systems Benchmark)。

首创地从知识类型的视角,对图像编辑模型的推理能力进行系统化、精细化的评测。

借鉴布鲁姆认知分类与教育心理学中的分层教学理念,KRIS-Bench让AI在事实性知识(Factual Knowledge)、概念性知识(Conceptual Knowledge)与程序性知识(Procedural Knowledge)三大层面上,逐步接受更深入、更复杂的编辑挑战。

基于认知分层的三大知识范畴

KRIS-Bench在每个类别下又细化出7大推理维度、22种典型编辑任务,从“物体计数变化”到“化学反应预测”“多元素合成”等,覆盖了从初级到高级的全谱系难度。

四维度自动化评估指标

借助多模态大模型与人工校准,KRIS-Bench首创从四个维度对编辑输出打分:

深度知识任务还附带手工知识提示,以帮助评判模型是否真正“理解”了背后的原理。

10款模型全面测试

KRIS-Bench评估了3款闭源(GPT-Image-1、Gemini 2.0 Flash、Doubao)和7款开源(OmniGen、Emu2、BAGEL、Step1X-Edit、AnyEdit、MagicBrush、InstructPix2Pix)模型。

借助KRIS-Bench,团队正推动图像编辑模型脱离单纯的“像素搬运”,向具备人类般认知能力的“视觉智者”迈进。

未来,团队期待编辑不再是“换换颜色”“挪挪位置”这么简单,而是在内部植入物理、化学、社会常识与因果推理,真正让 AI 明白“为什么会这样”和“接下来会怎样”。

感兴趣的朋友可以戳下方链接获取更多细节

项目地址:https://yongliang-wu.github.io/kris_bench_project_page/

论文地址:https://arxiv.org/abs/2505.16707

代码地址:https://github.com/mercurystraw/Kris_Bench

— 完 —

相关内容

热门资讯

天津港发展(03382.HK)... 格隆汇12月19日丨天津港发展(03382.HK)公布,于2025年12月19日,焦炭码头公司(公司...
兰格钢铁华北地区无缝管市场周报... 兰格钢铁华北地区无缝管市场周报(十二月第三周)   本周...
北京初步建成“15分钟医保服务... 转自:北京日报客户端12月19日,北京市医保局介绍,北京初步建成“15分钟医保服务圈”,形成了线上线...
【好评中国】吉祥与时代并辔,“... 本文转自【大河网】;天边传来马蹄声。不是幻觉,是新时代的韵律。就在今天——12月18日,中央广播电视...
张江水环一期智慧河示范段即将启... (来源:上观新闻)随着张江水环一期智慧河示范段即将启幕,“2026 跨界共创 光合计划”正式启动,一...