ChatGPTAgent部分能力超越人类,但ChatGPTAgent做电子表格不及人类
创始人
2025-07-18 13:53:15

来源:@第一财经日报微博

【#ChatGPTAgent部分能力超越人类#,但#ChatGPTAgent做电子表格不及人类#】北京时间7月18日凌晨,OpenAI直播发布了ChatGPT Agent,这一智能体融合了Operator智能体网页交互能力以及Deep Research功能,使ChatGPT内置计算机能帮助用户完成复杂的多步骤任务。#ChatGPT有Agent了#

据介绍,ChatGPT的工作过程包括浏览网站、过滤结果、提醒用户登录相关账号、运行账号、分析、创建电子表格和幻灯片。

从基准测试表现看,在跨学科专家级测试Humanity’s Last Exam中,ChatGPT Agent回答准确率为41.6%,超过Deep Research的26.6%、o3模型的24.9%;在数学基准测试FrontierMath中,ChatGPT Agent准确率为27.4%,高于o4 mini的19.3%和o3的10.3%;在针对真实知识工作任务的内部评测中,ChatGPT Agent在约半数案例中的表现与人类持平或超过人类;在现实数据科学任务DSBench测试中,ChatGPT的分析与建模准确率分别为89.9%和85.5%,超过人类水平;在衡量模型承担一到三年投资银行分析师建模任务能力的内部基准上,准确率高于o3和Deep Research。

不过,虽然ChatGPT Agent在SpreadsheetBench测试(评估模型编辑真实场景电子表格的能力)中,表现超过OpenAI的其他模型,但其最高得分45.5%还是远低于人类得分71.3%。

相关内容

热门资讯

出口退税申报办理更加高效 (来源:法治日报)转自:法治日报本报讯 记者刘欣 国家税务总局近日发布《出口业务增值税和消费税退(免...
俄美乌还有哪些问题没谈拢 (来源:法治日报)转自:法治日报□ 本报驻俄罗斯记者 史天昊  当地时间1月23日至24日,由俄罗斯...
星德胜科技(苏州)股份有限公司... 证券代码:603344 证券简称:星德胜 公告编号:2026-002星德胜科技(苏州)股份有限公司关...
农银汇理基金管理有限公司旗下部... 为更好地满足投资者的理财需求,进一步提升客户体验,根据农银汇理基金管理有限公司(以下简称“本公司”或...
个人增值税按次纳税起征点提至千...     北京青年报记者昨天从国家税务总局获悉,近日,税务总局配套制发了《关于起征点标准等增值税征管事...