大模型角力视觉推理,推理AI新时代来临?
创始人
2025-07-03 13:46:15
0

21世纪经济报道记者孙燕 上海报道

输入一个PPT,自动生成汇报内容、演讲稿;输入一段“苏超”视频,得到一段足球解说……如今的大语言模型不只会看文字,还会看图片、视频。

7月2日,智谱发布并开源视觉语言大模型GLM-4.1V-Thinking。这款通用推理型大模型支持图像、视频、文档等多模态输入,可用于复杂认知任务。

“就像人一样。眼睛看到了复杂的视觉信号,不光是简单的信号接收,还可以根据视觉信号进一步推理,理解复杂的物理世界。”在现场演示时,智谱CEO张鹏介绍道,智谱基于预训练构造了视觉理解模型,监督微调使其初步具备推理能力,再基于深度学习大幅提高推理能力,在业内首次把推理能力和视觉理解能力有机结合在一起。

今年以来,视觉推理成为大模型竞争焦点:OpenAI推出o3和o4-mini,首次实现将图像融入推理过程;字节跳动旗下火山引擎发布豆包1.5深度思考模型,具备视觉推理能力;阿里通义发布QVQ-Max,支持图像解析、视频分析等能力。

“AGI(通用人工智能)可以分为5个层次:L1是预训练大模型,L2是对齐、推理,L3是自我学习,L4是自我认知,L5是意识智能。”张鹏指出,视觉推理能力是L3中很重要的能力。

人类的语言能力、视觉能力、语音能力、行动能力、思考能力、推理能力由大脑统一完成,而AI,正在逐一破解这些能力的密码。

从语言推理到视觉推理

AI拥有了视觉推理能力,能够做什么?

中信建投证券研究指出,多模态模型可以直接“看到”PDF 中的图片、图表、表格布局等视觉元素并从中提取信息,同时也能理解PDF的页面布局,例如识别标题、段落、列表、表格的位置和关系,这对于结构化信息提取至关重要。

以GLM-4.1V-Thinking为例,首先可以用于图片理解,如看图买菜;也可以用于数学与科学推理,尤其是几何题这样需要图像理解、文字理解、推理等综合能力的题目,视觉推理能够支持复杂题解、多步演绎与公式理解。此外,大模型具备时序分析与事件逻辑建模能力,能够用于视频理解。

人类不仅希望AI能思考,还希望AI能执行——通过自主智能体的方式,现有的大模型能力能转化成真正的生产力。

此前,大模型可以用于代码生成;而视觉推理能力使得AI能够“看懂”和“理解”视觉信息,比如用户界面(UI)的设计图、原型图甚至屏幕截图,可以辅助产品经理生成代码重构用户界面。

“视觉推理能力还可以用于智能体,让它理解GUI(图形用户界面),比如理解手机、PC上复杂的用户操作界面,形成精准的操作逻辑。”据张鹏介绍,GLM-4.1V-Thinking能够用于GUI与网页智能体任务,实现交互操作;还可以用于视觉锚定与实体定位(Grounding),通过语言与图像区域精准对齐,提升人机交互可控性。

国盛证券研究指出,视觉推理能力还能和Python数据分析、网络搜索、图像生成等其他工具协同工作,创造性地、有效地解决更复杂的问题,为用户提供多模态Agent体验。

可以看到,视觉推理能够用于长视频理解、图像问答、学科解题、文字识别、文档解读、视觉锚定与实体定位(Grounding)、GUI Agent和代码生成。中信建投证券也指出,其缺点在于处理信息过多时容易出现幻觉,对模型能力要求较高。

商业化落地

视觉推理带动大模型向通用多模态推理迈进一步,大模型企业也在谋求将这一能力转化为数字化生产力,寻求商业化落地。

面对B端客户,大模型企业一方面提供Agent,打通“最后一公里”。如智谱面向企业客户和开发者,推出了Agent应用空间,企业无需自建大模型团队,即可低门槛接入成熟、安全、可控的Agent能力。 

如果说大模型是发动机,Agent则是由发动机提供动力的汽车、飞机、军舰,包括任务型Agent、交互型Agent、自主型Agent、协作型Agent等。

“智能体到底是偏向白领的创意型工作,还是蓝领的体力工作,抑或是偏向顶尖研究人员的创意和研究探索型任务更合适?对于这些问题,业界仍然在不断探索。”张鹏认为,但只有让AI工人实现了代替人的一部分基础性、重复性工作,才能够实现真正的降本增效,这是智能体能力的关键点。

长江证券研究指出,视觉推理+工具调用的深度融合下,教育、医疗、企服等垂直场景的 Agent落地周期有望提前,看好Agent商业化元年及投资机遇。

毕马威中国技术和新经济管理咨询服务主管合伙人高人伯告诉记者,随着生成式AI向“自主智能体”演进,AI将不再仅仅是执行指令的工具,而是能够主动规划、协同并完成复杂任务的智能伙伴,这可能会催生全新的商业模式。

另一方面,大模型企业也在探索将AI能力落地于智能硬件。

这也经历了技术演进:早期模型很大,只能在云上推理,手机、PC作为客户端调用云端的智能能力。而随着端侧的算力、能源问题逐步解决,端侧也可以部署一定的智能能力,如在汽车、AI眼镜、AI玩具上可以实现端云结合。

“未来不管是机器人,还是汽车、眼镜、胸针,都会接入AI的能力。”张鹏认为。

相关内容

热门资讯

灿辉·晶萃173美学样板间品鉴... (转自:上海楼市情报)7月2日,徐泾一场美学样板间的媒体品鉴会,揭开了大虹桥高端人居新纪元。在无数期...
2025年第二批IPO现场检查...   来源:投行最前线  7月3日,中国证券业协会公布了2025年第二批IPO现场检查名单,本次共抽查...
时政微观察丨青年大有可为   7月2日,中华全国青年联合会第十四届委员会全体会议、中华全国学生联合会第二十八次代表大会隆重开幕...
人乐退:公司股票将在7月4日被... 上证报中国证券网讯(记者骆民)人乐退公告,公司股票已被深圳证券交易所决定终止上市。公司股票于2025...
天航一客机滑行时发出巨响,乘客... 7月2日,有网友发视频称,从呼和浩特飞往乌海的天津航空 GS7833次航班飞机在滑行时发出一声巨大声...
持牌消金转型深水区:上半年19... 中经记者 郑瑜 北京报道在宏观经济持续推动消费复苏的背景下,消费金融被认为是金融服务与实体消费的关键...
黄河再添新大桥!宁夏中卫黑山峡... 原标题:黄河再添新大桥!宁夏中卫黑山峡黄河大桥主桥顺利合龙来源:人民日报客户端7月3日,随着最后一块...
化解跨国企业数据本地化痛点 辉... 中经记者 谭伦 上海报道随着AI与云技术的演进融合,在全球企业加速数字化转型的浪潮中,数据基础设施建...
润欣科技:截至6月30日公司的... 证券日报网讯润欣科技7月3日在互动平台回答投资者提问时表示,截至6月30日,公司的股东人数是83,4...
美元人民币盘中上涨102点 07月03日消息,美元人民币盘中上涨102点,涨幅0.14%,截止20:48,报7.1724。