中国青年报客户端北京1月26日电(中青报·中青网记者 李瑞璇)不仅能“解奥数题”,还能“出奥数题”。今天,国际学术期刊《自然·机器智能》发表了一项来自中国的研究成果,其中提到北京通用人工智能研究院联合北京大学心理与认知科学学院、智能学院、人工智能研究院及武汉人工智能研究院组成的科研团队,研发的“通矩模型”成为全球首个被验证能够同时完成“自主出题”与“自动解题”双重能力的通用人工智能系统。
国际数学奥林匹克竞赛(IMO)的几何题,因其对抽象推理和创造性构造的高要求,一直是检验AI智能水平的“试金石”之一。这类题目不仅要求严谨的形式逻辑推演,还要求一种类似人类灵感的创造性构造能力,例如添加巧妙的辅助线。其难度在于“组合爆炸”:每一步潜在的构造选择都会导致搜索空间呈指数级增长,传统计算方法难以应对。
2024年年初,谷歌旗下深层思维(DeepMind)研发的阿尔法几何(AlphaGeometry)系统在这一领域取得显著进展,展示了AI解决复杂几何问题的潜力,引发关注。
“它本质仍是一个依赖海量合成数据和庞大算力支撑的‘超级解题器’。”此次论文第一作者、北京通用人工智能研究院研究员张驰说,“通矩模型”系统取得的突破在于超越了以往人工智能中展现的“单一解题能力”,意味着AI不仅是一个能解题的“优等生”,还是一位能从无到有、创造出具备数学审美价值题目的“金牌教练”。
他告诉记者,选择IMO几何题作为突破口,正是因为它是衡量机器抽象推理能力的标志性挑战。它要求系统在理解抽象关系的基础上,进行复杂的逻辑链条构建,而最难的环节莫过于创造性地添加辅助元素,这正是传统AI的短板。因此,征服IMO几何题,被视为AI在逻辑推理领域取得实质性突破的关键象征。
“以往的系统,大多只学会了‘计算’,但并未理解‘美’。”张驰说,“我们的研究发现,一道优秀的奥赛几何题,往往具有一个鲜明特征,其证明过程的复杂性与难度,会显著高于题目初始图形的构建复杂度。”
他解释道,这就像给出一个看似极其简单的图形,如一个三角形和几个点,但其背后隐藏的证明路径却蜿蜒曲折、需要深刻的洞察。这种“极简界面”与“极深内涵”之间的巨大张力,正是数学审美价值的来源。“通矩模型”的重要进展,就在于它首次将这种对“数学之美”的定性感知,转化为了可量化、可建模的计算过程。
与DeepMind AlphaGeometry主要依赖“大数据+大算力”的范式不同,“通矩模型”践行了一条“小数据、大任务”的创新路径。论文共同通讯作者、北京大学心理与认知科学学院助理教授朱毅鑫说:“‘小数据’并非不用数据,而是追求极致的数据利用效率。这更像人类的学习方式,孩子认识苹果,无需看遍世界上所有苹果的图片,通过少数几个样本和跨场景的推理就能掌握概念。”
在他看来,当前主流大模型训练严重依赖海量数据,如同“需要用堆积如山的煤才能把水烧开”。“通矩模型”则旨在构建一个“高效炉灶”,用少得多的“燃料”完成更复杂的“任务”。
为了实现这一点,团队引入了创新的“规范化表示”技术,解决了长期困扰几何推理的“组合爆炸”难题。“这不仅仅是在解决一道题,更是在探索一种更接近人类本质的智能范式。”朱毅鑫说,“它证明,AI可以不再单纯依靠数据的堆砌和算力的蛮力解决问题,而是通过理解问题的内在结构与规律,进行举一反三的推理和创造。”
能力的飞跃最终需要接受实践的检验。“通矩模型”不仅通过了解题能力的测试,更在“出题”这一创造性任务上获得了权威认可。该系统已正式入选2024年全国中学生数学联赛(北京赛区)。这是全球范围内,人工智能生成的题目首次进入高规格的人类数学竞赛,标志着AI角色从一个被动应答的“学习者”,进化成为一个能够贡献新知识的“创作者”。
“这项研究的终极目标,始终是回归‘以人为本’。”朱毅鑫说,“发展人工智能,不是为了取代人类的思考,而是为了增强它。希望这项技术能帮助更多学生领略几何推理的乐趣与数学内在的和谐之美,培养下一代的逻辑思维与创新能力。”
来源:中国青年报客户端