5分钟顶人类8小时!OpenAI Deep Research订阅全推送,端到端强化微调是关键
创始人
2025-03-01 14:43:11
0

新智元报道

编辑:KingHZ 英智

【新智元导读】最近,OpenAI的研究团队在采访中表示,全新的Deep Research功能,可以为你节省几个小时甚至几天的时间!

Deep Research(深度研究)是继「Operator」之后,OpenAI推出的第二个智能体,利用模型的推理能力,综合分析浩瀚的互联网信息,从而完成复杂的研究任务。

月初,OpenAI首先向ChatGPT Pro用户开放了Deep Research功能。最近,进一步开放给了更多等级的订阅用户。

其中,Plus、Team、教育和企业用户每月10次查询机会,Pro用户每月120次机会。

OpenAI对新功能寄予厚望:

奥特曼表示:这是他最喜欢的已发布的功能之一。

此次更新,固然给用户带来了新体验,「钱没白花」。

但考虑到每月最多使用10次,新功能显得「鸡肋」:

考虑到同一梯队的竞争对手,不仅类似功能推出的更早,而且免费,OpenAI这次发布,的确算不上出彩。

那这次OpenAI都推出哪些新特性?为什么这次落后竞争对手了呢?

技术报告发布

在X上,OpenAI连发多条消息,介绍深度研究相关更新情况。

除更多用户可用之外,本次更新的主要改进为:

然后,其他改进呢?无。

至于,没什么落后竞争对手,OpenAI给出的解释是为了控制风险,保证安全:

在官网发布的系统卡(System card),OpenAI从提示注入、禁止内容、隐私、运行代码能力、偏见和幻觉等方面,全面测试、评估并缓解了系统安全问题。

OpenAI展示了一系列测试结果,最后认为

值得关注的是,在模型自主性方面,在处理更长时间跨度和智能体任务时,深度研究性能有所改进,尤其是在模型自主性风险相关的任务中。

比如,在SWE-Bench Verified评测中,深度研究展现了执行明确定义的编程任务的能力,被评定为中等风险水平。

已有网友给出了全面的总结:

更多安全测试结果与分析,参阅OpenAI官方系统卡:

文档链接:https://cdn.openai.com/deep-research-system-card.pdf

尴尬之处在于,已免费推出相关功能的Grok-3,以安全性著称。

红杉采访亮点

红杉资本合伙人Sonya和Lauren,与OpenAI Deep Research的产品负责人Isa和Josh展开了深度对话。

当问及2025年的风口时,Isa和Josh不约而同地回答:「智能体」。

Deep Research是OpenAI在「Operator」之后推出的第二个智能体。通过端到端的强化学习训练,Deep Research能像经验丰富的研究员一样,查资料、思考并完成全面的报告。

这不仅是节省5%时间,而是将原本需要8小时的任务缩减到5分钟!

Deep Research无法为你完成一切,但它能为你节省几个小时,甚至是几天。

Isa表示:「我确信它会成为人们生活中不可或缺的一部分。」

从行业分析到医学研究,再到计划生日派对,Deep Research几乎无所不能。

Deep Research不是普通的搜索工具,它能广泛收集有关来源的信息,擅长在互联网上找到小众的事实,并整合到一个漂亮、整洁的报告中,嵌入图表,并附上指向原始信息的引用。

当你想寻找特定的信息,并需要搜寻大量资料时,它才能发挥出最佳水平。它很擅长寻找和综合信息,但Isa不认为Deep Research当前能做出新的科学发现。

应用场景

Deep Research常被应用于科学研究、医学研究等领域。人们用它来了解市场、公司和房地产等。

Isa的朋友正考虑创办一家消费品公司,会用它来做竞品调研,查看特定域名是否被占用,以及估算市场规模。

出人意料的是,用户会用Deep Research搜索代码,查找关于某个软件包的最新文档,并帮他们编写脚本。

Deep Research不仅能用于工作,在购物和旅行建议上也很有用。比如想买一辆新车时,可以请它整理一份报告。在日本发布Deep Research功能时,它可以用来帮忙寻找餐厅。

个性化教育也是非常有趣的场景,如果想复习生物学知识,它会是个好帮手。

输入想了解的信息,它会为你整理出一份很棒的报告。

技术架构

驱动Deep Research的是o3模型的微调版本 ,o3是OpenAI最先进的推理模型。

模型针对困难的搜索和推理任务进行了训练,可以调用浏览工具和Python工具。通过在这些任务上进行端到端训练,模型学会了在线搜索和分析。

Deep Research最大的创新在于「端到端训练」。研究的过程中,很多事是无法预测的。Isa认为没有脚本能像训练出的模型那样灵活,能对实时的信息做出反应。

Deep Research在做有创造性的搜索,查看思维链总结会发现,它在想出下一个要查找的内容方面非常聪明。

Josh表示「我们经常误以为自己写代码会比模型更聪明,但实际上,模型通常会提出更好的解决方案。」

强化学习微调很可能是构建强大智能体的关键!

Yann LeCun有个「蛋糕比喻」,无监督学习是蛋糕,监督学习是糖霜,强化学习是顶部的樱桃。

成功的秘诀是构建高质量的数据集,数据质量是决定模型质量的最大因素。

Josh认为「AGI」目前只是运营问题。

参考资料:

https://www.youtube.com/watch?v=bNEvJYzoa8A

https://cdn.openai.com/deep-research-system-card.pdf

相关内容

热门资讯

全省重大项目调度机制专题会议举... 四川在线记者 文露敏2月28日,全省重大项目调度机制第一次专题会议在成都举行,研究部署新形势下的重大...
以绵密亲缘力量焕新年代题材价值... 中新网北京3月1日电 (记者 高凯)由中国电视艺术委员会、北京市广播电视局主办的电视剧《六姊妹》研讨...
下一站幸福 女主角的衣服哪里有... 下一站幸福 女主角的衣服哪里有卖?你去‘淘宝’的‘打听’里询问一下吧广州。越秀区。大南路。我看见过,...
成人在哪学英语比较好? 成人在哪学英语比较好?7天会拼所有单词7天学会日常语法7天学会洋腔洋调成人学英语,利用零散时间来学习...
周易中的上乾下离卦怎么解? 周易中的上乾下离卦怎么解?天火同人卦,上乾下离,乾为天,即为君,离为火,指百姓,火势向上,上下和同,...
关停中国投资公司!官方回应来了... 本报记者 吴清 北京报道2月28日,有消息称,IBM(国际商业机器公司)内部发布公告,商业机器(中国...
元宝针怎么打 元宝针怎么打单元宝怎么打
花千骨39集几号开始更新 花千骨39集几号开始更新9号晚上10点,湖南卫视8月9日晚上10点左右,湖南卫视首播,网站10日开始...
续写过马路的小蜗牛? 续写过马路的小蜗牛?没有版本怎么续写的,小蜗牛与黄鹂鸟可能是首不错的音乐,还是儿童歌曲,如果可以的话...
描写真心话的四字成语 描写真心话的四字成语  1、 肝胆相向:肝胆:比喻真诚的心。比喻对人忠诚,以真心相待。  2、 肝胆...
帮我找一下名人名言 帮我找一下名人名言是关于学习的名人名言,还有一些品德的名人名言。越多越好!谢了!1.路漫漫其修远兮,...
哪三类专项施工方案要经过专家论... 哪三类专项施工方案要经过专家论证?深基坑支护,脚手架搭设超过50m,拆除爆破工程超过一定规模的危险性...
“游客称遭强迫购物,大巴雪天停... 转自:中国宁波网情况通报  2月16日,成都市文化广电旅游局对媒体报道“游客称遭强迫购物,大巴雪天停...
淡泊是什么意思? 淡泊是什么意思?淡泊的意思是不是很看重名利,有时也指家道清贫或是清淡寡味。这几种含义分别出自曹植的《...
“银联会议”变身“中银会议”“... 转自:北京反诈  前几天  小编给大家科普了“银联会议”类诈骗软件  在公安机关、中国银联以及各大媒...
海尔空调AI科技加持 让好空气... 转自:央视频你心目中的好空气是什么样的?是像北欧阿尔卑斯山的空气,温度总是恰到好处、温柔地包裹着你?...
最近的畅销书.小说类的 最近的畅销书.小说类的最近有什么畅销的小说类的书,快 网上可以下在的去小说吧好啦,一堆
《中国区域发展联播》融媒体节目... 中新网北京3月1日电 (汪俐辰)3月1日,《中国区域发展联播》大型融媒体节目启动仪式在北京市中国农业...
中西方商务礼仪的差异有哪些? 中西方商务礼仪的差异有哪些?乔丹 在声明中写到,“他不仅是我的教练,更是我人生路上的楷模,我的导师,...
市场监管总局近期对网售产品进行... 转自:央视记者今天了解到,市场监管总局组织空气净化器等26种网售产品和织物蒸汽机等13种网售产品进行...