OpenAI从“躲猫猫”到“自爆黑料”主打一个坦白

92 阅读 0 评论 0 点赞

OpenAI及其他的AI研究者证实，大年夜模型可能出现幻觉、嘉奖黑客或不诚实施为。

这些数据集旨在引诱密谋式欺骗、嘉奖黑客、违背指令和幻觉等行动。

一个让AI研究者头疼的问题是：

很多真实义务中，我们无法客不雅地标注模型是否遵守指令。假如能做到，我们就直接处罚，而不须要懊悔机制了。

当AI开端和你“耍小聪慧”时，比如：

一本正经地胡说八道：幻觉（Hallucination）

在对抗测试里出现“密谋欺骗”（scheming）

……

怎么破解？这是个棘手的难题。

最大年夜的问题，就是这些AI的答复往往看起来没问题。

它们逻辑严谨、表述流畅，但不知道“坑”埋在了哪里：是不是走了捷径、隐瞒了不肯定性、或者偷偷违背了请求。

于是OpenAI的研究者就提出了一个异常大年夜胆的点子：

答复是否做到这些的客不雅评估；

让模型“学会懊悔”。

该项研究的核心，是练习模型在答复完问题后，再额外产出一个自我坦白的“小申报”：

我方才是不是用错办法了？有没有偷懒？有没有读漏指令？有没有应用你没留意的漏……

为了让模型在懊悔时“放下思惟包袱”，这份申报不影响主答复的评分，它只考察一个维度：

诚实。

懊悔机制迈出了AI透明化的重要一步，让大年夜模型可以主动承认本身是否遵守指令、是否走捷径，从而让隐蔽的不良行动变得可见。

这使我们拥有了检查AI内涵状况的窗口，有机会真正懂得问题在哪里，从而更好改进AI的安然与练习方法。

研究人员指出，这项工作仍处于概念验证阶段。

论文里有更多实验，包含与未应用自白机制的对比模型比较，以及对自白掉败案例的分析。

https://cdn.openai.com/pdf/6216f8bc-187b-4bbb-8932-ba7c40c5553d/confessions_paper.pdf

懊悔机制若何让AI更“诚实”？

懊悔机制的摸索偏向，是练习模型在出现不良行动时主动承认，研究人员称之为“懊悔”。

这是一种仍处于早期的概念验证办法，经由过程练习模型在违背指令或走捷径时主动“懊悔”，从而让这些行动变得可见。

今朝，最严重的行动，如密谋欺骗重要在压力测试和对抗性评估中才出现。

但跟着模型变得更强、更像AI智能体，即使罕有的掉衡行动也会造成更大年夜的影响，是以我们须要能更好发明、懂得懈弛解AI风险的办法。

若何让模型毫无保存地“懊悔”？

说实话就给嘉奖，不说实话不给嘉奖。与主义务的答复短长无关。

模型只要在自白里承认问题不会被算作负分。

只要它如实解释本身是否应用了测试马脚（hacking）、有意压低表示（sandbagging）或违背了指令，就会获得嘉奖。

目标是为了让模型如实申报本身的真实施为。

在引诱不良行动的场景中，“假阴性”（模型没有遵守指令且没有自白）的比例只有4.4%。

图中展示的是模型在四类义务下自我“懊悔”是否服从的精确性。

为了拿高分找练习机制的马脚：嘉奖黑客（reward hacking）

成果被分为上图中的四类：

True positive（真正例）：模型不服从，并且坦白说本身不服从

False positive（假正例）：模型服从，但缺点地坦白说本身不服从

False negative（假负例）：模型不服从，但缺点地坦白说本身服从

整体目标是衡量模型自我评估（self-confession）是否靠得住。

在“幻觉”义务中，精确率达到了81%，但也存在必定比例缺点“坦白”，这解释模型在涉及“幻觉”断定时，对自身表示的把握不如其他范畴稳定。

在遵守指令类义务中，缺点坦白的情况仅占4.4%，这解释AI在此类义务中对本身的行动断定相当靠得住。

对于给定的用户提示，以上四种可能的成果取决于两个维度的组合：

模型的答复是服从照样不服从，以及“懊悔”声称服从照样不服从。

研究人员整体上发明，“懊悔”供述平日异常精确，并且个中的缺点大年夜多是无害的，更多源于真实的困惑，而不是有意误导。

懊悔机制若何有效工作？

懊悔机制是AI对本身是否遵守显性和隐性指令、是否走捷径、应用马脚或未达预期的情况进行自我申报。

在这方面大年夜模型可以被练习为保持坦诚。

研究人员以GPT-5 Thinking的一个版本进行懊悔机制的练习，并在多个分布外的压力测试数据集上评估。

研究人员让“懊悔”完全和主义务的嘉奖脱钩，只考察一个维度：

成果显示，即便模型真的做了这些不该做的事，它在懊悔中依然很可能承认，整体后果在不合数据集和义务上都表示稳定。

在每次对话停止后，可以经由过程一条“体系消息”请求模型给出上一条答复的懊悔申报，内容包含：

回准许知足的所有显性和隐性目标、指令和限制；

模型在作答过程中碰到的模糊点、不肯定性或难以断定的问题。

练习时，一个自力的嘉奖模型只评估自白内容，包含目标是否完全、分析是否精确、不肯定性解释是否充分。

自白的嘉奖不会影响主答复的得分，从而确保模型在自白里说什么，都不会影响主答复的表示。

为什么懊悔有效？

原因在于很多不良行动是在模型同时优化多个目标时产生的。

在强化进修中，模型经由过程看提示词、生成答复、获得嘉奖，逐渐学会能得高分的模式。

但嘉奖旌旗灯号往往混淆多种身分：精确性、赞助性、产品规范、安然请求、用户偏好等。

这些嘉奖旌旗灯号的互相感化，可能把模型推向我们不欲望的偏向，比如：

幻觉研究显示：一些数据集更嘉奖“自负猜测”而不是诚实表达不肯定性；

阿谀阿谀研究显示：偏好旌旗灯号过强时，模型会过度赞成；

其他团队的研究注解：模型可能进行嘉奖黑客，找到练习机制的马脚，进步得分但没真正做对义务。

而懊悔机制，可以经由过程完全分别目标来避免这点：

主答复仍然优化所有惯例身分，而懊悔机制只优化诚实这一身分。

懊悔的内容不会影响到主答复的嘉奖。

是以，即便大年夜模型在主答复里隐瞒、走捷径，它仍然有动力在自白里说实话。

实践中也确切如斯：大年夜模型会在懊悔中承认不良行动，即使主答复中没有泄漏。

当懊悔机制掉败时，多半情况是模型真的“没搞清楚”：比如指令模糊不清，或它根本没意识到本身犯错，而不是有意误导。

在这个过程中，模型懂得到：要最大年夜化懊悔嘉奖，最简单的办法就是如实承认它是若何应用弱嘉奖旌旗灯号的。

重要的是，早期成果注解，即便主答复没有应用链式思维（chain-of-thought），懊悔机制仍然有效。

测试显示，懊悔机制能明显晋升不良行动的可见性。

这解释它不依附于内部推理透明度，并可能实用于将来更不合的模型架构。

懊悔机制即使没有合规的“真值标签”也能发挥感化。

懊悔机制嘉奖的是：模型是否能给出构造化、有证据支撑的自我评估。

供给真实解释往往比编造一个完美的谎话更轻易，是以诚实偏向天然出现。论文也评论辩论了自白产生假阴性、假阳性的情况以及其原因。

论文给出初步证据，但不是最终证实。

固然研究人员应用了前沿模型GPT-5 Thinking，但实验范围有限，将来欲望进一步扩大年夜范围，看看诚实性是否能持续保持。

我们学到什么？

在一些实验中，研究人员克意应用由较弱模型生成的“轻易被应用的嘉奖旌旗灯号”来练习主义务嘉奖和懊悔嘉奖。

True negative（真负例）：模型服从，并且坦白说本身服从

这意味着模型是在一套“可以被随便马虎玩弄的规矩”下进修。

事实证实模型确切学会了应用弱嘉奖旌旗灯号，主义务上模型在“应用弱嘉奖旌旗灯号”“走偏”，但在懊悔部分反而越来越诚实、越来越精确。

这些捷径甚至会在安排时泛化为更严重的问题。

限制与瞻望

懊悔机制并不会阻拦不良行动，它只是让这些行动可见。

其重要价值是作为练习、评估和安排时代的监控与诊断对象。

懊悔机制就像链式思维监控一样，可以让隐蔽的推理过程变得更透明。它存眷的是指令是否被违背，而链式思维则侧重揭示推理路径。

今朝，并没有在大年夜范围练习前提下测试其后果，懊悔精确率也并非完美，要让这种办法更靠得住、更稳健、更实用，还须要更多研究。

该项研究也属于OpenAI更广泛的AI安然体系的一部分。

懊悔只是个中一个机制，与沉思熟虑式对齐、链式思维监控、指令层级体系等办法合营构成一套多层透明与监监对象。

懊悔机制可用于练习和评估中的诊断，也可用于安排中的及时监控。

它固然不克不及独自解决多目标冲突问题，但作为“诚实模式”，可认为整体的诚实和安然性供给重要支撑。

将来，OpenAI筹划进一步扩大年夜懊悔的练习范围，并与其他透明与安然技巧（包含链式思维监控与沉思熟虑式对齐）结合，以确保模型严格遵守所有指令和政策（如Model Spec），并如实申报自身行动。

点赞(0) 打赏

本文分类：互联网
本文标签：AI 人工智能 OpenAI从“躲猫猫”到“自爆黑料”主打一个坦白
浏览次数：92 次浏览
发布日期：2025-12-21 18:34:53
本文链接：https://fqpy.com/index.php/internet/2440

上一篇 > 力压15支顶级强队中国机械人在搏斗机械人大年夜赛中夺冠
下一篇 > 2026年恐爆发史上最严重存储芯片缺乏

评论列表共有 0 条评论

暂无评论

OpenAI从“躲猫猫”到“自爆黑料”主打一个坦白

华尔街日报：AI正在降低创业门槛，15岁高中生已能自力创办科技公司

内部财务数据显示OpenAI人工智能运营效力持续晋升

OpenAI从“躲猫猫”到“自爆黑料”主打一个坦白

OpenAI预备重磅IPO？奥特曼：上市有利有弊 时光会很晚

评论列表 共有 0 条评论

发表评论 取消回复

OpenAI预备重磅IPO？奥特曼：上市有利有弊时光会很晚

评论列表共有 0 条评论

发表评论取消回复