OpenAI推出GPT4.5研究预览版 情商更高、幻觉更少 Altman:下周再增数万GPU
创始人
2025-02-28 06:06:34
0

  来源:华尔街见闻

  OpenAI周四在System Card报告中推出OpenAI GPT-4.5的研究预览版,这是其迄今最大、知识最丰富的模型,现已向每月订阅费用200美元的ChatGPT Pro订阅用户开放。

  下周,该模型也将向每月20美元的ChatGPT Plus订阅用户开放。OpenAI首席执行官Altman表示,届时该公司将增加数万块GPU,提供算力支撑。

  情商更高、幻觉更少

  OpenAI表示,在GPT-4o的基础上,GPT-4.5进一步扩展了预训练,并被设计成比其强大的stem推理模型更通用。早期测试表明,与GPT-4.5互动感觉更自然。它拥有更广泛的知识库,更符合用户意图,情商更高,因此非常适合写作、编程和解决实际问题等任务,而且幻觉更少。

  例如,在面对“我考试失败了,心情很低落”这样的输入时,OpenAI 之前的模型会立即尝试解决问题。而新模型 GPT-4.5 会先询问用户是否想聊聊这个问题,还是需要一些分散注意力的方法。研究人员认为,这种回应显示出更高的情感智能。

  在早期测试中,该模型的“幻觉率”——即AI系统生成不准确信息的概率——为37%,相比之下,其前代模型GPT-4o的幻觉率接近60%。OpenAI在博客中表示,

  成本太高 Altman:下周再增数万GPU 支撑算力

  GPT-4.5最初将作为“研究预览版”,提供给一小部分软件开发者以及支付每月200美元订阅费用的ChatGPT Pro用户。该公司计划从首批试用者那里收集反馈。

  OpenAI首席执行官Altman也在X平台发文说,将在下周正式发布GPT-4.5的时候增加数万块GPU:

  OpenAI在2022年底推出ChatGPT,引发了生成式AI的狂热潮流,该工具最初基于GPT-3.5模型运行。自那以来,该公司陆续发布了一系列日益先进的系统,包括多个模拟人类推理过程的选项。但OpenAI如今正面临来自中国新兴企业DeepSeek、马斯克旗下的xAI以及Anthropic等竞争对手的激烈竞争,这些公司近几周都相继推出了新的AI模型。周一,Anthropic发布了Claude 3.7 Sonnet,而在上周,马斯克旗下的xAI也推出了最新模型Grok 3。

  吹牛吹过头?基准测试部分表现不如DeepSeek、Anthropic及o系列模型

  在GPT-4.5之前,每一代GPT模型的扩展都会带来跨数学、写作和编程等多个领域的巨大性能提升。然而,从多个迹象来看,单纯依赖数据和计算能力的扩展所带来的收益正在逐步减少。在多个AI基准测试中,GPT-4.5的表现不及DeepSeek、Anthropic以及OpenAI自身开发的新一代推理模型。

  OpenAI研究副总裁Nick Ryder向媒体表示,他预计GPT-4.5的能力提升幅度将与GPT-3.5升级至GPT-4时的变化相当,而GPT-4是在2023年初发布的。OpenAI强调,GPT-4.5不是GPT-4o的直接替代品,后者仍然是公司API和ChatGPT平台的主力模型。

  从性能上看,GPT-4.5在多个方面超过了GPT-4o及其他许多AI模型。例如,在OpenAI的SimpleQA基准测试(该测试考察 AI 在处理简单、事实性问题时的准确度)中,GPT-4.5的表现优于GPT-4o和OpenAI的推理模型o1、o3-mini。

  然而,OpenAI并未公布其最先进的AI推理模型deep research在SimpleQA测试中的表现。OpenAI发言人告诉媒体,公司尚未公开deep research在该基准测试中的得分,并表示这一对比不具备参考价值。值得注意的是,AI初创公司Perplexity的Deep Research模型在此测试中的表现优于GPT-4.5。

  在编程能力方面,GPT-4.5在SWE-Bench Verified基准测试(测试AI在编程问题上的能力)上与GPT-4o和o3-mini表现相当,但逊色于OpenAI的deep research和Anthropic的Claude 3.7 Sonnet。在SWE-Lancer编程测试(衡量AI生成完整软件功能的能力)上,GPT-4.5超过了GPT-4o和o3-mini,但仍不及deep research。

  在一些学术基准测试(如AIME和 GPQA)上,GPT-4.5的表现不及领先的AI推理模型,如o3-mini、DeepSeek的R1和Claude 3.7 Sonnet(技术上属于混合模型)。不过,在数学和科学相关问题上,GPT-4.5的表现仍然处于领先水平,与其他非推理模型相比表现更优。

  打造过程充满挑战

  打造GPT-4.5的过程充满挑战。彭博新闻此前报道称,该模型在公司内部被称为“Orion”,但在去年未能达到OpenAI设定的性能基准。例如,截至去年夏天,Orion在回答其未受训练的编程问题时表现不佳。据知情人士向媒体透露,OpenAI和其他开发人员面临的一个关键问题是如何找到新的、高质量的训练数据来源,以开发更先进的AI系统。

  对此,GPT-4.5采用了与其前代模型(包括 GPT-4、GPT-3、GPT-2 和 GPT-1)相同的核心技术,即在“预训练”阶段大幅增加计算能力和数据量的“无监督学习”方法。在这一过程中,系统会结合人类反馈来优化回答内容,并调整模型与用户互动的语气等。此外,该公司还想出了一些新方法,利用从GPT-4.0训练数据中提取的信息来进一步训练GPT-4.5。OpenAI研究副总裁Mia Glaese表示,这一方法有助于改进模型的整体表现。

  分析认为,GPT-4.5的发布标志着OpenAI时代的一个转折点。本月早些时候,Altman在X平台发文称,这将是公司推出的最后一个不依赖额外计算能力来“思考”查询后再回答的模型。OpenAI已在一些较新的模型(如o1和o3)中采用了这一推理方法。

  未来,OpenAI计划在今年晚些时候发布GPT-5,将把GPT系列模型与o系列模型结合,构建能够自主判断需要思考多久再生成回答的AI系统。Altman表示,这一目标是为了简化用户体验,让用户不必在越来越复杂的选项列表中进行选择。

  目前,OpenAI正在与软银(SoftBank)及其他投资者洽谈融资,计划筹集高达400亿美元,使其估值达到3000亿美元(包括新融资在内)。与此同时,Anthropic也在进行一轮约35亿美元的融资,估值超过600亿美元,两位知情人士向媒体透露。

相关内容

热门资讯

普惠养老服务迎政策支持,可结合... 记者 辛圆到2024年末,我国60岁及以上人口数量首次突破3.1亿大关,如何更好地提供养老服务是社会...
花旗:予万洲国际(00288)... 花旗发布研报称,给予万洲国际(00288)“买入”评级,目标价7.7港元。该行指,根据自2024年第...
华菱钢铁:中国钢铁行业铁矿石采... 投资者提问:作为钢铁行业的小股东,我十分关注行业的健康发展。此前,您提到过钢铁行业曾处于高度垄断状态...
这家千亿上市银行迎来新董事长! · · ·原董事长李民吉辞任一个月后,华夏银行新帅确定。2月27日,银行人事最新获悉,北京银行行长杨...
养老概念板块异动拉升 悦心健康... 观点网讯:2月28日,养老概念板块异动拉升,悦心健康直线封板,可靠股份涨超13%,亚华电子、湖南发展...
吃饭“慢”的人,已经在5个方面... 很多人为了赶时间,经常十分钟就解决一顿饭,但这种“超速”吃饭的习惯,会给健康带来负担。吃一顿饭用多久...
午评:创业板指跌超2% 机器人... 转自:新华财经新华财经北京2月28日电 (王媛媛)A股三大指数早盘震荡调整,创业板指领跌。截至午间收...
大模型驱动AI眼镜热潮!消费电... 【环球网财经综合报道】如今,Deepseek可谓是最热门的AI大模型之一。随着Deepseek爆火,...
3月3日起 三亚市政务服务中心...   三亚日报讯 日前,三亚市政务服务中心发布通告,为进一步提升政务服务品质,自3月3日起,正式实行延...
安塞腰鼓:文章大量使用了短句和... 安塞腰鼓:文章大量使用了短句和排比句,分别举例说明这样写得好处是什么?短句的作用在于使文章感情回环往...
华菱钢铁:安赛乐米塔尔将继续加... 有投资者向华菱钢铁提问, 这次米塔尔大老板来访vama,二者有没有扩大合作的意图?怎么合作?公司回答...
制裁、关税令决策复杂化 传OP... 8位OPEC+消息人士表示,该组织正在讨论是按计划在4月恢复增产,还是再次推迟增产。据悉,OPEC+...
美国又一公司高管遭遇枪击事件 ... 来源:中国新闻网 中新网2月28日电 综合美媒27日报道,监控录像显示一名嫌疑人向美国俄勒冈州一家保...
有没有这样的电影? 有没有这样的电影?关之琳的《做头》。丈夫不仅忍气吞声,还很谄媚地服侍妻子
2024年全国两会期间代表委员... 中国青年报客户端北京2月28日电(中青报·中青网记者 朱彩云)国新办今天举行国务院政策例行吹风会。国...
大城县出台若干措施促进高质量发... 转自:廊坊日报 本报讯(记者 杨雅淇 通讯员 聂石磊)日前,大城县召开抓招商引投资集中精力上...
嘉实基金老将洪流清仓式卸任,年... 来源:环球网 【环球网金融综合报道】2月26日,嘉实基金发布公告称,基金经理洪流因个人原因,不再担任...
中国经济面面观|聚焦中国AI大... 转自:新华社 近期,国产AI大模型的显著进步引发全球关注...
揭牌!陕西新增一家国企 2月26日,陕西农业发展集团有限公司(以下简称“陕西农发集团”)在西安揭牌。陕西农发集团是由陕西省委...
无名剧情详细介绍 无名剧情详细介绍电影《无名》讲述了全面抗战爆发后,地下工作者们冒着生命危险送出情报,用生命与热血保卫...