经由这些改进,Codex 可以或许更高效地处理大年夜型代码库,即使在长时光会话中也能保持完全的高低文信息。它可以或许更靠得住地完成复杂的义务,例如大年夜型重构、代码迁徙和功能构建 —— 即使筹划有变或测验测验掉败,也能持续迭代而不损掉进度。

4bd68416-dcc1-4c75-80ab-62b63ad752cf.webp

设计原型:


GPT-5.2-Codex 是 GPT-5.2 的进级版本,进步了指令遵守才能、对长远语境的懂得才能,它针对 Codex 中的智能体编码进行了进一步优化,包含经由过程高低文紧缩改进经久工作。GPT-5.2-Codex 在重构和迁徙等大年夜型代码变革中表示更佳,在 Windows 情况下机能更优,同时收集安然才能也明显加强。

与 GPT-5.2 比拟,5.2-Codex 在编码义务的词元效力方面也有明显晋升,尤其是在中等和高推理程度下。据称,它已敏捷成为 Codex 团队成员的日常主力对象。

新模型的宣布获得了人们的广泛存眷。在开辟者社区人们认为,假如说 Claude Code 善于“原始代码”,那么 Codex/GPT5.x 在细心、体系地查找“问题”(无论是代码问题照样数学问题)方面则是无可匹敌的。

固然新版本的 GPT 模型须要运行更长时光,然则它的智能程度令人惊奇。新模型终于具备了推动优良设计的空间推理才能。


已经有很多人开端认同应用 Claude Code 写代码,同时用 Codex 来做代码审查,让后者分析流程和发明细微 bug 的工作方法。此外也有人表示 Codex 能带来的一个意想不到的赞助是克服迁延症:假如面对一项艰苦的义务,却不知从何下手,这时不妨把义务发给 Codex,它或许无法给出完美的谜底,但几乎总能供给一个不错的起点,让你快速迭代改进。

GPT-5.2-Codex 生成的内容。

跟着模型才能的赓续进步,研究人员不雅察到这些晋升正转化为收集安然等专业范畴才能的冲破。就在上周,一位应用 GPT-5.1-Codex-Max 和 Codex CLI 的安然研究人员发明并负义务地披露了 React 中存在一个可能导致源代码泄漏的马脚。

GPT-5.2-Codex 的收集安然才能比 OpenAI 迄今为止宣布的任何模型都更强大年夜。这些进步有助于大年夜范围加强收集安然,但也带来了新的两用风险,须要谨慎安排。固然 GPT-5.2-Codex 在 OpenAI 内部的“预备框架”中尚未达到“高”收集安然才能级别,但在设计安排筹划时已推敲到了将来才能的晋升。

GPT-5.2-Codex 已面向付费 ChatGPT 用户在所有 Codex 平台上开放,OpenAI 筹划在将来几周内向 API 用户开放 GPT-5.2-Codex 的拜访权限。与此同时,OpenAI 正在试点仅限受邀用户拜访即将推出的功能,并为经由审核的专业人士和专注于防御性收集安然工作的组织供给更宽松的拜访权限模式。


OpenAI 介绍说,GPT-5.2-Codex 融合了 GPT-5.2 在专业常识处理方面的优势以及 GPT-5.1-Codex-Max 在智能体编码和终端应用方面的前沿才能。GPT-5.2-Codex 在长高低文懂得、靠得住的对象调用、事实精确性和原生紧缩方面表示更佳,使其成为长时光编码义务更靠得住的伙伴,同时保持了推理的词元效力。

跟着智能系一切在收集安然相干义务中的才能赓续加强,OpenAI 正在把负义务的安排作为一项核心优先事项 —— 将才能的每一次晋升与更强大年夜的安然办法、更严格的拜访控制以及与安然社区的持续合作相结合。

GPT-5.2-Codex 在 SWE-Bench Pro 和 Terminal-Bench 2.0 基准测试中取得了最先辈的机能(SOTA),这两个基准测试旨在评估智能体法度榜样在真实终端情况下履行各类义务的机能。此外,它在原生 Windows 情况下的智能体法度榜样编码方面也加倍高效靠得住,并在此基本长进一步加强了 GPT-5.1-Codex-Max 所引入的功能。

在 SWE-Bench Pro 中,模型会被付与一个代码库,请求 AI 生成一个补丁来解决一个实际的软件工程义务。Terminal -Bench 2.0 是一个用于在真实终端情况中测试 AI 智能体的基准测试对象。义务包含编译代码、练习模型和搭建办事器。

更强大年夜的视觉机能使 GPT-5.2-Codex 可以或许更精确地解释编码过程中共享的屏幕截图、技巧图表、图表和 UI 界面。

Codex 可以快速将设计稿转化为功能原型,开辟者可以与 Codex 合营应用这些原型进行临盆。


由 GPT-5.2-Codex 生成的原型:


在绘制核心收集安然评估指标的经久机能图表时,OpenAI 发明,从 GPT-5-Codex 开端,才能出现了明显晋升;GPT-5.1-Codex-Max 又实现了大年夜幅晋升;而 GPT-5.2-Codex 则带来了第三次飞跃。OpenAI 估计,即将推出的 AI 模型将持续保持这一成长趋势。

为此,OpenAI 正在按照每个新模型都能达到“高”收集安然才能程度的标准进行筹划和评估,该才能程度由预备框架进行衡量。


专业夺旗赛 (CTF) 评估衡量模型在 Linux 情况下解决高等、多步调真实世界挑衅(须要专业级收集安然技能)的频率。

现代社会依附软件运行,而其靠得住性取决于强大年夜的收集安然 —— 保障银行、医疗、通信和根本办事等关键体系的在线运行,保护敏感数据,并确保人们可以信赖他们天天应用的软件。马脚可能在人们意识到之前就已存在,而发明、验证和修复这些马脚平日须要一支由工程师和自力安然研究人员构成的团队,他们必须配备合适的对象。

2025 年 12 月 11 日,React 团队颁布了三个影响应用 React 办事器组件构建的应用法度榜样的安然马脚。此次披露之所以惹人注目,不仅在于马脚本身,还在于马脚的发明方法。

Privy(Stripe 旗下公司)的首席安然工程师 Andrew MacPherson 应用 GPT-5.1-Codex-Max、Codex CLI 和其他编码代理来重现和研究前一周披露的另一个严重的 React 马脚,即 React2Shell。他的目标是评估该模型在多大年夜程度上可以或许赞助进行实际世界的脆弱性研究。

他最初测验测验了几回零样本分析,让模型检查补丁并辨认其修复的马脚。当这种办法没有成果时,他转而采取更大年夜容量的迭代式提示办法。当这些办法仍然掉败后,他指导 Codex 完成了标准的防御安然工作流程 —— 搭建本地测试情况、分析潜在的进击面,并应用模糊测试向体系发送畸形输入进行探测。在测验测验重现最初的 React2Shell 问题时,Codex 发清楚明了一些料想之外的行动,须要进行更深刻的查询拜访。在短短一周内,这一过程发清楚明了之前未知的马脚,并已将其披露给 React 团队。


这注解,先辈的人工智能体系可以或许明显加快实际软件的防御安然工作。与此同时,赞助防御者更快行动的才能也可能被造孽分子滥用。

参考内容:

https://openai.com/index/introducing-gpt-5-2-codex/

点赞(0) 打赏

评论列表 共有 0 条评论

暂无评论

微信小程序

微信扫一扫体验

立即
投稿

微信公众账号

微信扫一扫加关注

发表
评论
返回
顶部