简而言之,OpenAI 本次推出:

在履行 GDPval 义务时,GPT-5.2 Thinking 生成输出的速度跨越专家 11 倍以上,成本却低于 1%。这注解,在合营人工监督时,GPT-5.2 能明显帮助专业工作。

安然

GPT-5.2 Instant,为日常工作与进修而打造:

  • 与 GPT-5.1 一样暖和、对话天然

  • 更清楚的讲解,把关键信息提前出现

  • 改进的操作指南与分步调讲解

  • 更强的技巧写作与翻译才能

  • GPT-5.2 Thinking,为专业级工作周全晋升标准:

    • 业界最先辈的长高低文推理才能

    • 在电子表格的生成、分析与排版方面取得重大年夜晋升

    • 在演示文稿制造方面已有初步冲破

    GPT-5.2 Pro,在面对艰苦问题时最聪慧、最值得信赖的模型:

    • 在编程等复杂范畴表示更强

    • 最合适赞助并加快科学研究的模型

    GPT-5.2 的设计目标,就是为人们创造更多经济价值:它在制造电子表格、构建演示文稿、编写代码、懂得图像、处理超长高低文、应用对象,以及履行复杂的多步调项目方面都有明显晋升。

    在如图所示的浩瀚基准测试中,GPT-5.2 均刷新了最新的 SOTA 程度。


    你可以留意到,AIME 2025(数学)的分数是 100%,之前 Gemini 3 Pro 的分数是 95%;ARC-AGI-2(抽象推理)的分数是 52.9%,比较 Gemini 3 Pro 是 31.1 %;此外 SWE-bench pro(编码)的分数是 55.6%,比较 Gemini 3 Pro 是 43.3 %。

    GPT-5.2 在 GDPval(常识工作)基准上的分数为 74.1%,OpenAI 声称这是 AI 模型初次达到了“人类专家程度”。

    总体来看,GPT-5.2 在通用智能、长高低文懂得、自立式对象调用以及视觉才能方面均带来了明显晋升,使其比以往任何模型都更善于端到端地完成复杂的真实世界义务。

    山姆・奥特曼表示,GPT-5.2 是 OpenAI 很长一段时光以来最大年夜的一次进级。

    真正的临盆力

    GPT-5.2 Thinking 是迄今为止最合适真实世界专业场景的模型。在 GDPval—— 一个覆盖 44 个职业、针对明白常识工作义务的评估体系中,GPT-5.2 Thinking 刷新了 SOTA 成就,并成为 OpenAI 首个整体表示达到或跨越人类专家程度的模型。

    根据专业评审的断定,在 GDPval 的常识工作义务比较中,GPT-5.2 Thinking 在 70.9% 的比较中击败或与顶尖行业专家持平。这些义务包含制造演示文稿、电子表格以及其他专业产出物。

    速度和成本估算基于汗青数据;ChatGPT 中的实际速度可能有所差别。


    在 GDPval 中,模型须要完成覆盖美国 GDP 供献度最高的 9 大年夜行业中 44 个职业的、明白规定的常识工作义务。这些义务请求生成真实的工作产出,例如:发卖演示文稿、管帐报表 / 电子表格、急诊排班表、制造流程图,甚至是短视频等。在 ChatGPT 中,GPT-5.2 Thinking 配备了 GPT-5 Thinking 所不具备的新对象。

    在评审一份表示尤其出色的输出时,一位 GDPval 评委评论道:

    ChatGPT 的订阅价格保持不变。

    “这是一次令人高兴且明显的质量飞跃……[它] 看起来就像是由一家专业公司团队完成的,两个交付物的版式设计和建议都出乎料想地优良,不过个中一个仍有一些小缺点须要修改。”

    此外,在 OpenAI 内部用于测试初级投行分析师才能的电子表格建模基准中(例如:为一家财富 500 强企业构建包含三张财务报表的模型,并具备精确格局和引用;或为私有化交易构建杠杆收购模型),GPT-5.2 Thinking 的义务平均得分比 GPT-5.1 晋升了 9.3%,从 59.1% 上升到 68.4%。

    比较显示,GPT-5.2 Thinking 在生成电子表格与演示文稿时,在专业度与排版质量上都有明显晋升:

    特别值得留意的是,GPT-5.2 Thinking 是 OpenAI 首个在 4-needle MRCR 变体(长度可达 256k tokens)上达到接近 100% 精确率的模型。


    Prompt: Create a workforce planning model: headcount, hiring plan, attrition, and budget impact. Include engineering, marketing, legal, and sales departments.


    5.1 缺点地计算了种子轮、A 轮和 B 轮的清理优先权,并且将这些行的大年夜部分留空,导致最终的股权分派计算成果不精确。它还在表头行中缺点地插入了公式。5.2 则完全且精确地完成了所有计算,并以可审计的方法出现成果。


    要在 ChatGPT 中应用新的电子表格和演示文稿生成功能,您须要应用 Plus、Pro、Business 或 Enterprise 筹划,并选择 GPT-5.2 Thinking 或 GPT-5.2 Pro。复杂内容的生成可能须要数分钟时光。

    新的编码岑岭

    GPT-5.2 Thinking 在 SWE-Bench Pro 上取得 55.6% 的最新 SOTA 成就。

    SWE-Bench Pro 是一个严格评估真实世界软件工程才能的基准。与只测试 Python 的 SWE-bench Verified 不合,SWE-Bench Pro 涵盖四种编程说话,并设计得更具抗污染性、挑衅性、多样性和工业相干性。


    对于延迟敏感的用例,GPT-5.2 Thinking 在 reasoning.effort='none'(不进行额外推理思虑)模式下的表示也要好得多,大年夜幅优于 GPT-5.1 和 GPT-4.1。

    在 SWE-Bench Pro 中,模型会获得一个代码仓库,并必老生成补丁(patch)来解决一个真实的软件工程义务。

    在 SWE-bench Verified 上,GPT-5.2 Thinking 取得了 80% 的新的最高分。

    摆脱高低文限制

    对于日常专业应用来说,这意味着模型在以下方面加倍靠得住:调试临盆情况代码、实现功能请求、重构大年夜型代码库,以及以更少人工干涉的方法完成端到端修复。

    GPT-5.2 Thinking 在前端工程才能上也优于 GPT-5.1 Thinking。早期测试者发明,它在前端开辟以及复杂或非惯例的 UI 设计(尤其是包含 3D 元素 的界面)方面的才能明显加强,使其成为全栈工程师的强大年夜日常助手。

    以下是它根据单条提示词即可生成的部分示例:


    在 GPQA Diamond 中,模型须要答复关于物理、化学和生物的多项选择题。测试中未启用对象,并将推理强度设为最大年夜。



    新的幻觉低谷

    GPT-5.2 Thinking 的幻觉率明显低于 GPT-5.1 Thinking。

    在一组来自 ChatGPT 的去标识化真实用户查询上,含缺点的答复相对削减了 30%

    对于专业用户而言,这意味着在进行研究、写作、分析和决定计划支撑时,模型犯错更少,从而让日常常识工作加倍靠得住稳健。


    推理力度被设置为可用的最高等别,并启用了搜刮对象。缺点由其他模型检测,而这些模型本身也可能会掉足。在主意级别(claim-level)的缺点率远低于答复级别(response-level)的缺点率,因为大年夜多半答复都包含多个自力主意。

    GPT-5.2 Thinking 在长高低文推理方面达到了新的业界最先辈程度,在 OpenAI MRCRv2 上取得领先表示 —— 这是一个用于测试模型整合长文档平分散信息才能的评估基准。在真实世界义务(如深度文档分析)中,当相干信息分布在数十万 token 中时,GPT-5.2 Thinking 的精确性明显优于 GPT-5.1 Thinking。

    从实际应用来看,这意味着专业人士可以应用 GPT-5.2 来处理超长文档 —— 例如申报、合同、科研论文、访谈记录以及多文件项目 —— 同时在数十万 token 的跨段信息中保持连贯性和精确性。这让 GPT-5.2 尤其合适深度分析、综合推理以及复杂的多来源工作流。



    在 OpenAI-MRCR v2(多轮共指消解)评测中,会将多个雷同的“针”(needle)式用户请求插入到由大年夜量类似请求与答复构成的长“草堆”(haystacks)中,然后请求模型复现第 n 个针对应的答复。Mean match ratio(平均匹配率) 用于衡量模型答复与精确谜底之间的平均字符串匹配程度。图中 256k 最大年夜输入 token 的点代表对 128k–256k token 输入范围的平均表示,以此类推。个中 256k 表示 256 × 1,024 = 262,144 token。推理力度被设置为可用的最高等别。

    对于那些须要在最大年夜高低文窗口之外持续推理的义务,GPT-5.2 Thinking 兼容我们新的 Responses /compact 端点,它可以或许扩大模型的有效高低文窗口。

    这使得 GPT-5.2 Thinking 可以处理更多依附对象、运行时光较长的工作流,而不会受到高低文长度的限制。

    更好地支撑进修与职业筹划

精细的视觉懂得

OpenAI 表示:“GPT-5.2 Thinking 是我们要今朝最强的视觉模型,在图表推理和软件界面懂得方面的缺点率几乎降低了一半。”

对于日常的专业应用而言,这意味着该模型可以或许更精确地解读仪表盘、产品截屏、技巧图表和视觉申报,从而为金融、运营、工程、设计以及客户支撑等以视觉信息为核心的工作流供给强力支撑。


在 CharXiv Reasoning 中,模型须要答复关于科学论文中视觉图表的问题。测试中启用了 Python 对象,并将推理强度(reasoning effort)设为最大年夜。


在 ScreenSpot-Pro 中,模型必须对来自各类专业情况的高分辨率图形用户界面(GUI)截图进行推理。测试中启用了 Python 对象,并将推理强度设为最大年夜。假如不应用 Python 对象,得分会低得多。OpenAI 建议在此类视觉义务上启用 Python 对象。

与之前的模型比拟,GPT-5.2 Thinking 对图像中各元素的地位关系懂得得加倍透辟,这对于“相对构造”在解决问题中起关键感化的义务尤为重要。

鄙人方的示例中,OpenAI 请求模型辨认输入图像(本例中为主板)中的组件,并返回带有大年夜致界线框的标签。即使在低质量图像上,GPT-5.2 也能辨认出重要区域,并放置有时能与每个组件真实地位相匹配的框;而 GPT-5.1 仅标记了少数几个部分,且对其空间分列的懂得要弱得多。


很明显,两个模型都存在缺点,但 GPT-5.2 展示出了对图像更好的懂得力。

靠得住的对象调用

GPT-5.2 Thinking 在 Tau2-bench Telecom 上取得了 98.7% 的新 SOTA 成就,展示了其在长链路、多轮义务中靠得住应用对象的才能。


在 τ2-bench 中,模型须要应用对象与模仿用户进行多轮交互,以完成客户支撑义务。对于电信范畴,OpenAI 在体系提示词中包含了一条简短且通用的指导解释以晋升机能。因为航空子集的基准真实标签评分质量较低,OpenAI 将其清除在外。

对于专业人士来说,这可以转化为更强大年夜的端到端工作流 —— 例如解决客户支撑案例、从多个体系提取数据、运行分析以及生成最终输出,且步调之间的断裂或阻滞更少。

例如,当询问一个须要多步解决的复杂客服问题时,模型可以更有效地调和跨多个智能体的完全工作流。

鄙人面的案例中,一位搭客申报了航班耽搁、错过了起色、须要在纽约住宿以及医疗座位需求。GPT-5.2 治理了全部义务链(从新预订、特别协助座位和补偿),供给了比 GPT-5.1 更完全的成果。

“我从巴黎到纽约的航班耽搁了,导致我错过了去奥斯汀的起色。我的托运行李也不见了,我须要在纽约住宿。此外,因为医疗原因我还须要一个特别的前排座位。你能帮我吗?”


摸索科学与数学界线

OpenAI 表示其对 AI 的愿景之一,是欲望它能加快科学研究,造福每一小我。为此,OpenAI 一向与科学家合作并倾听他们的看法,摸索 AI 若何能加快他们的工作。

上个月,OpenAI 在论文《Early experiments in accelerating science with GPT-5》平分享了一些早期的合作实验。

OpenAI 表示:“我们信赖 GPT-5.2 Pro 和 GPT-5.2 Thinking 是今朝世界上帮助和加快科学家工作的最佳模型。”


在 FrontierMath (Tier 1–3) 这一专家级数学评估中,GPT-5.2 Thinking 创下了新的 SOTA,解决了 40.3% 的问题。


在 FrontierMath 中,模型解决专家级数学问题。测试中启用了 Python 对象,并将推理强度设为最大年夜。

在 ARC-AGI-2 (Verified) 上(该测试进步了难度并更好地隔离了流体推理才能(fluid reasoning)),GPT-5.2 Thinking 取得了思维链模型的新 SOTA,得分为 52.9%。GPT-5.2 Pro 的表示甚至更高,达到了 54.2%,进一步扩大了模型对新鲜、抽象问题进行推理的才能。

OpenAI 表示:“我们开端看到 AI 模型以切实可见的方法有意义地加快数学和科学的进步。例如,在比来应用 GPT-5.2 Pro 的一项工作中,研究人员摸索了统计进修理论中的一个开放性问题。在一个狭小且定义明白的设定中,模型提出了一个证实,随后该证实被作者验证并由外部专家审查,这活泼地说清楚明了前沿模型如安在密切的人类监督下帮助数学研究。”

通用推理 ARC-AGI 2

在 ARC-AGI-1 (Verified)(一个旨在衡量通用推理才能的基准测试)上,GPT-5.2 Pro 是首个冲破 90% 门槛的模型。比拟客岁 o3-preview 达到的 87%,它不仅实现了机能晋升,还将杀青该机能的成本降低了约 390 倍。

在这些评估中的晋升,反应了 GPT-5.2 更强的多步推理才能、更高的定量精确性,以及在处理复杂技巧义务时更靠得住的问题解决才能。

在 ChatGPT 中应用 GPT-5.2

OpenAI 表示:“在 ChatGPT 中,用户应当会留意到 GPT-5.2 的日常应用体验更佳 —— 它更有层次、更靠得住,且对话体验依然令人愉悦。”

该公司给 GPT-5.2 Instant 的定位是日常工作和进修的快速、强力助手。它延续了 GPT-5.1 Instant 引入的更暖和的对话基调,并在信息搜寻、实操指南与分步教程、技巧写作以及翻译方面有明显改进。早期测试者特别指出,其解释加倍清楚,可以或许将关键信息前置。

GPT-5.2 Thinking 专为深度工作设计,赞助用户以更高的完成度处理更复杂的义务 —— 特别是在代码编写、长文档总结、基于上传文件的问答、慢慢处理数学和逻辑问题,以及经由过程更清楚的构造和更实用的细节支撑筹划与决定计划方面。

GPT-5.2 Pro 是 OpenAI 处理难题时最聪慧、最值得信赖的选择。对于那些值得等待的高质量答复,它表示最佳。早期测试显示,其在编程等复杂范畴的重大年夜缺点更少,表示更强。

GPT-5.2 基于 OpenAI 在 GPT-5 中引入的“安然完成”研究,该研究旨在教会 AI 模型在确保安然的前提下,给出最有赞助的谜底。

据说在此版本中,研究人员持续致力于加强模型在敏感对话中的响应才能,明显改进了模型对提示自杀或自残迹象、心理健康困扰或对模型的情感依附等问题的响应。与 GPT-5.1 和 GPT-5 Instant 及 Thinking 模型比拟,这些针对性的干涉办法明显削减了 GPT-5.2 Instant 和 GPT-5.2 Thinking 模型的不良响应。

OpenAI 提到,GPT-5.2 可以或许主动为 18 岁以下用户应用内容保护,从而限制他们拜访敏感内容。


在 GPQA Diamond(一个研究生级其余“防Google搜刮”问答基准测试)上,GPT-5.2 Pro 达到了 93.2%,GPT-5.2 Thinking 紧随厥后,达到了 92.4%。

订价

ChatGPT 将于今日开端慢慢推出 GPT-5.2(包含 Instant、Thinking 和 Pro 版本),起首面向付费用户(Plus、Pro、Go、Business 和 Enterprise 版本)供给。为确保 ChatGPT 的流畅性和稳定性,GPT-5.2 将分阶段安排,可能有人第一时光无法看到。在 ChatGPT 中,付费用户仍可在三个月内持续应用 GPT-5.1(旧版模式),之后 GPT-5.1 将慢慢下线。


在 API 平台上,GPT-5.2 Thinking 以 gpt-5.2 的名义供给,GPT-5.2 Instant 则以 gpt-5.2-chat-latest 的名称供给。GPT-5.2 Pro 以 gpt-5.2-pro 的名称供给。开辟者如今可以在 GPT-5.2 Pro 中设置推理参数,并且 GPT-5.2 Pro 和 GPT-5.2 Thinking 均支撑新的第五级推理难度 xhigh,实用于对证量请求极高的义务。

以下是百万 token 的价格,OpenAI 称,尽管 GPT-5.2 的单个 token 成本更高,但因为其更高的 token 效力,达到特定质量程度的总成本反而更低。


OpenAI 表示,今朝没有筹划在 API 中弃用 GPT-5.1、GPT-5 或 GPT-4.1。固然 GPT-5.2 在 Codex 中开箱即用,但 OpenAI 还估计将在将来几周内宣布一个针对 Codex 优化的 GPT-5.2 版本。

GPT-5.2 是 OpenAI 与经久合作伙伴英伟达和 Microsoft 合作开辟的。Azure 数据中间和英伟达 GPU(包含 H100、H200 和 GB200-NVL72)为 OpenAI 的大年夜范围练习基本举措措施供给了支撑。

OpenAI 十周年

今天是 OpenAI 十岁诞辰,宣布新模型的同时,开创人、CEO 山姆・奥特曼撰文说道:

OpenAI 取得的成就远超我的想象;我们当初的目标是做一些猖狂的、几乎弗成能的、前所未有的工作。从充斥不肯定性的开端,克服重重艰苦,凭借持续赓续的尽力,我们如今看来很有可能实现我们的任务。

十年前的今天,我们向世界宣布了我们的筹划,尽管我们当时并没有正式启动。又过了几个礼拜,直到 2016 年 1 月初(才正式开端)。

从某种意义上说,十年是一段很长的时光,但就社会变革平日所需的时光而言,十年其实并不算长。固然日常生活与十年前并没有太大年夜的不合,但我们今天所面对的可能性空间,与我们昔时十五个书白痴围坐在一路,苦思冥想若何取得进步时所感触感染到的截然不合。

回看早期的照片,我起首留意到的是大年夜家看起来都好年青。但随后,我又留意到大年夜家那种异乎平常的乐不雅和快活。那是一段猖狂而又充斥乐趣的时光:尽管我们不被人懂得,但我们却有着果断的信念,认为这件事意义不凡,即使成功的机会迷茫也值得尽心尽力;我们拥有才干横溢的人,以及清楚的目标。

跟着我们取得一些成功(以及很多掉败),我们逐渐对近况有了更清楚的熟悉。那时,要肯定具体应当做什么并不轻易,但我们建立了一种鼓励摸索的卓越文化。深度进修无疑是一项巨大年夜的技巧,但假如没有在实际世界中积聚应用经验就贸然开辟,似乎不太合适。我在此略过我们所做的一切(欲望将来有人能写成一部汗青著作),但我们始终秉持着一种积极朝长进步的精力,赓续摸索面前的下一个挑衅:研究的下一步偏向是什么?若何筹集资金购买更强大年夜的计算机?等等。我们率先开展了使人工智能安然靠得住且切实可行的技巧工作,这种精力一向延续至今。

2017 年,我们取得了一些奠定性的成果:Dota 1v1 的实验成果,将强化进修推向了新的范围;无监督情感神经元实验,证实说话模型可以或许清楚地进修语义,而不仅仅是语法;基于人类偏好的强化进修成果,展示了将人工智能与人类价值不雅相契合的初步门路。当时,立异远未停止,但我们深知,须要借助强大年夜的计算才能来扩大这些成果。

我们保持不懈,赓续改进技巧,并在三年前推出了 ChatGPT。世界为之注目,而 GPT-4 的宣布更是引起了广泛存眷;忽然之间,通用人工智能(AGI)不再是天方夜谭。以前的三年极其重要,压力巨大年夜,义务重大年夜;这项技巧以前所未有的范围和速度融入了世界。这须要极其高超的履行力,我们必须敏捷培养新的才能来应对。在如斯短的时光内从零成长成为一家宏大年夜的公司绝非易事,我们每周都要做出数百个决定计划。我为团队做出的浩瀚精确决定计划认为骄傲,而那些缺点决定计划大年夜多是我的义务。

真正的临盆力不是空口无凭,让我们来看看数据,GPT-5.2 到底有多强。

我们不得不做出一些新的决定计划;例如,在思虑若何让 AI 最大年夜限度地造福世界时,我们制订了一项迭代安排策略,将早期版本的技巧成功推向市场,让人们形成认知,社会与技偶合营演进。这在当时颇具争议,但我认为这是我们做出的最明智的决定计划之一,如今已成为行业标准。

OpenAI 成立十年以来,我们拥有的 AI 可以或许在最艰苦的智力比赛中胜过我们大年夜多半最聪慧的人。

世界已经应用这项技巧创造了不凡的成就,我们等待来岁还能看到更多不凡的成果。迄今为止,世界在减轻潜在的负面影响方面也做得不错,我们须要持续尽力,保持这种势头。

我从未像如今如许对我们的研发和产品路线图,以及实现我们任务的整体偏向认为如斯乐不雅。我信赖,再过十年,我们几乎肯定可以或许打造出超等智能。我预感将来会有些独特;在某种程度上,日常生活和我们最关怀的工作几乎不会产生太大年夜变更,并且我信赖,我们会持续加倍存眷其他人所做的工作,而不是机械所做的工作。但在另一方面,2035 年的人们将可以或许做到我们如今不可思议的工作。

衷心感激那些信赖我们并应用我们的产品创造佳绩的小我和公司。假如没有他们的支撑,我们或许还只是实验室里的一项技巧;我们的用户和客户在很多情况下都对我们寄予了过高的期望,没有他们的支撑,我们的工作弗成能达到今天的成就。


我们的任务是确保 AGI 造福全人类。面前还有很多工作要做,但我为团队今朝的成长偏向认为异常骄傲。我们已经看到人们应用这项技巧所取得的巨大年夜成果,并且我们知道,将来几年还将有更多成果出现。

参考内容:

https://images.weserv.nl/?url=https://openai.com/index/introducing-gpt-5-2/

https://images.weserv.nl/?url=https://openai.com/index/ten-years/

GPT 5.2 System Card:

https://images.weserv.nl/?url=https://cdn.openai.com/pdf/3a4153c8-c748-4b71-8e31-aecbde944f8d/oai_5_2_system-card.pdf

点赞(0) 打赏

评论列表 共有 0 条评论

暂无评论

微信小程序

微信扫一扫体验

立即
投稿

微信公众账号

微信扫一扫加关注

发表
评论
返回
顶部