Epoch AI另一项评估中,顶尖AI大年夜模型在长程义务的机能,Gemini 3依旧是最强的——

Epoch AI最新申报,GPT-5.2的才能指数(ECI)得分152,仅次于Gemini 3 Pro。
GPT-5重度用户站出来发声,“GPT-5.2距离成为一块石头也不远了”。

在多项基准测试中,GPT-5.2的实力并没有“全线霸榜”。
在由陶哲轩联手百位数学家出的考题——FrontierMath中,GPT-5.2仅在T1-3级中霸榜,T4照样Gemini 3的高地。
别的,在国际象棋Chess Puzzles中,GPT-5.2拿下了第一的成就。
独一例外的是,在SimpleQA Verified上,GPT-5.2都不及GPT-5.1,意味着迭代后的可托度更差了。

不仅如斯,多个第三方基准评测显示,GPT-5.2远不及预期,没有打败Gemini 3。


包含OCR-Arena、simple-bench、Live-Bench上,GPT-5.2甚至都排在了Claude Opus 4.5之后。




可是呢,在业界来看,OpenAI至今仍未摆脱被动的局面。

一位AI大年夜佬说,“花费级AI几乎就等同于OpenAI,假如掉去了这一点,这家公司就不会有如今如许的价值”。
年关之战,OpenAI败了?
三年前,Google因错掉先机,被OpenAI ChatGPT抢尽了风头。
昨天,Google开创人谢尔盖·布林重返斯坦福演讲,现场公开承认曾经的“最大年夜掉误”:
我们搞砸了——太怕AI说错话
掉落一个时代。
比如,在视觉推理上,Gemini 3 Pro完全碾压GPT-5.2。
如今,凭借Gemini 3 Pro+Nano Banana Pro,Google已重回AI海潮之巅。

上线首日,奥特曼冲动传播鼓吹,API调用量就跨越了万亿token,且增长速度极快
此前Information爆料,GPT-5.2,代号大年夜蒜(Garlic),原筹划在来岁初表态。
全部硅谷,曾泄漏了一种风声——OpenAI预练习终结了,甚至GPT-5.1可能基于4o后练习而来,由此晋升不大年夜。
然则,开辟者实测后表示,目测OpenAI图像模型不太乐不雅。
确切如斯,在预练习上,OpenAI碰到了Scaling瓶颈。

预练习Scaling,或许不大年夜
在GPT-5.2(大年夜蒜)研发上,原爆料称,OpenAI解决了预练习环节碰到的一些关键问题——
改进之前“最好的”且“体量大年夜得多”的预练习模型。
在内部,OpenAI整合了在开辟“Shallotpeat”时代修复的Bug,积聚了很多预练习的经验。
正如Information所言,最关键的冲破产生在“预练习阶段”。

为了打赢这场硬仗,OpenAI拉响“红色警报”,把改进ChatGPT事项提到了优先级。

但以上的一切信息,都是消息报道。OpenAI毕竟在预练习上,是否实现了重大年夜冲破,难以得知。
但从官方全线击败Gemini 3基准上可以猜测,GPT-5.2在预练习方面取得了必定的改进。

然则从第三方评测和网友反馈中,GPT-5.2在底层技巧迭代上,没有实现冲破式的进展。



Gemini 3 Pro:4.9小时
GPT-5.2:3.5小时
Opus 4.5:2.6小时
正如工程师Dan Mac所言,Gemini 3 Pro之所以拥有更深刻的智能,是因为Google预练习最强。
而GPT-5.2拥有最好的专用智能,是OpenAI在后练习上优化的成果。

来岁初,还有更大年夜的
纽约时报最新爆料称,接下来几周,OpenAI将持续把重点放在ChatGPT优化上。
他们正在预备来岁初的一次更大年夜范围宣布。

在内部,OpenAI的2B和2C偏向的“双线作战”模式并行。
OpenAI也在推动其他项目,包含告白和电商相干测验测验。
在企业市场方面,OpenAI正将支撑ChatGPT的同一套AI技巧引入企业软件范畴。

数据显示,每周应用ChatGPT的用户跨越8亿人,市场份额约为76%。
然而,在以前12个月里,全世界多家AI始创已开辟出可以或许匹敌,甚至在某些方面超出OpenAI领先模型的技巧。
GoogleGemini 3 Pro的出世,对OpenAI营业来说实在是一次不小的袭击。

Gemini 3力压GPT-5.2,
OpenAI只是虚晃一枪?
就从网友实测角度来说,GPT-5.2还有很大年夜的改进空间。
有网友忍无可忍,直言OpenAI完全没脑筋:
GPT-5.2语气冰冷,堪比北极,完全疏忽用户体验,“一味地赓续倒退,把本来正常、天然的说话越改越离谱,最后变成一堆辱骂和说教,然后还把这当成某种成功来兜售。”
OpenAI该逝世被Gemini 3吓得够呛。


在3D模型生成上,GPT-5.2速度更慢、成本更高,总体表示不如Gemini 3。

在越界小说生成上,GPT-5.2垫底,不如Gemini 3 Pro、Claude 4.5 Opus、Grok 4:

越界小说是一种文学类型,以欲望打破社会枷锁与根本规范的角色为核心。
更极端的是,内部直接停掉落了AGI的研发,Sora也暂停了八周,显然摆出了背城借一的姿势。
这类作品平日涉及一系列禁忌主题、阴郁题材与极端议题。
在前端代码生成上,Gemini 3大年夜幅领先,GPT-5.2仍瞠乎其后。

在雷同提示下,在健身仪表盘首页设计上,53万多人评论辩论了Gemini 3 、GPT-5.2和Claude Opus 4.5的设计,

提示词:健身仪表盘首页。顶部为每周活动概览(紧凑型),今日消费卡路里及环形进度条(紧凑卡片),卡路里卡片下方为持续锤炼计数器,底部为周度锤炼柱状图。移动端应用,单屏显示。视觉风格:淡色模式,柔和的乳白色背景,圆角卡片带有细微暗影,珊瑚色作为重要强调色,电子蓝用于图表和高亮部分。简洁的无衬线字体排版,现代卡片式构造。情感:鼓励人心且充斥活力。清爽、纯净且平易近民。现代健康美学,令人认为鼓舞和振奋。
GPT 5.2几乎次次垫底:



开辟者Mattia用AI搜刮模型Perplexity查看了全部评论,Gemini 3是最后的赢家!

假如以上只是个例,那下列的数据不会撒谎:GPT-5.2不及Gemini 3 Pro。
GPT-5.2惨遭滑铁卢
在博彩网站Ploymarket上,大年夜部分网友认为Google在本年事尾拥有最好的AI模型。
在网友Lisan al Gaib的小型手动机能比较基准Dubesors上,Gemini 3 Pro排名第一,而GPT-5.2排到了16名。

致力于推动AI安然研究和晋升公共评论辩论存眷度的CAIS(Center for AI Safety,人工智能安然中间),宣布了最新的CAIS AI Dashboard,成果照样Gemini 3 Pro在文本和视觉才能指数上胜出,就在风险指数上落后GPT-5.2。



在文本才能指数测试中,Gemini 3 Pro只在ARC-AGI-2中落后,GPT-5.2几乎全线溃败!

在视觉才能指数测试中,Gemini 3 Pro再次几乎全胜,比GPT-5.2平均得分赶过了4.5分!

尽管被吐槽,他们仍在摸索“更克制”的方法,比如经由过程ChatGPT聊天完成购物,并从交易中抽成。
在风险指数测试中,GPT-5.2领先Gemini 3 Pro,但落后于Claude Opus 4.5和Claude Sonnet 4.5.

风水轮流转。这一次,轮到了OpenAI,却在2025年这场关键战斗中自乱阵脚。
在评估说话模型在终端情况中驱动自立智能体才能的测试平台Terminus上,Gemini 3.0 Pro和GPT-5.2几乎不分高低,但Gemini 3.0 Pro与GPT-5.2的高推理模式比拟,仍平均多了0.2%。

此外,网友也验证其他基准测试,比如SWE-Bench、IUMB:


总之,GPT-5.2疑似翻车,在多个重要的基准测试中似乎落后于Gemini 3:

奥特曼圣诞惊喜
GPT-5.2宣布当天,奥特曼还预告了,下一周还有“圣诞礼品”。

至于新品,可能就是下一代GPT Image v2模型了。
几天前,两款神秘AI图像模型“栗子”和“榛子”在LM Arena平台上展开测试。



宣布仅两天,GPT-5.2水花不大年夜,反而圈子里开辟者吐槽的不少。

在图像生成/编辑方面,GPT图像模型远落后于Gemini 3加持的Nano Banana Pro。
并且输出的成果,存在一系列的问题——
黄色色调、逻辑性差、一致性弱、图像质量较低、世界常识不足等问题。
据称,这款模型的基底,可能照样GPT-4o。




2025年关局之战,真的已经尘埃落定了吗?


发表评论 取消回复