OpenAI 近日承认,带有代理(Agent)才能的 AI 浏览器在构造上难以彻底清除“提示注入”(prompt injection)进击风险,即便持续加强防护,仍只能将其视为经久安然挑衅而非可被完全“解决”的技巧问题。 为此,公司正经由过程更快的安然修补节拍以及大年夜范围主动化攻防练习训练,试图在真实进击出现之前主动发明 Atlas 浏览器中的潜在马脚。

OpenAI 谈话人拒绝泄漏这些更新是否已经在统计上明显降低成功进击率,但表示公司自 Atlas 上线前就已与第三方安然机构合作,持续对该浏览器进行攻防练习训练,以强化其在提示注入方面的防护才能。
OpenAI 于 10 月正式推出内置在 ChatGPT 中的 Atlas AI 浏览器后,安然研究人员随即演示,只需在 Google Docs 等页面中写入寥寥数语,即可悄然改变浏览器底层行动,这凸显了“代理模式”在拜访用户邮箱、网站等开放情况时,安然进击面被明显放大年夜。 同日,Brave 在博客中也指出,间接提示注入是所有 AI 浏览器面对的体系性难题,Perplexity 的 Comet 等产品同样不例外。
这并非 OpenAI 一家的断定。英国国度收集安然中间(NCSC)本月早些时刻警告称,针对生成式 AI 应用的提示注入进击“可能永远无法被完全缓解”,网站可能是以遭受大年夜范围数据泄漏。 NCSC 建议安然团队转而存眷“降低风险和影响”,而不是寄望于彻底阻拦此类进击。 OpenAI 在最新博文中直言,将提示注入视为经久 AI 安然课题,必须持续加固防御。
在防御策略上,OpenAI 与 Anthropic、Google 等竞争敌手的共鸣是:须要叠加多层防护并持续压力测试体系。 Google 近期的安然研究则侧重于在体系架构和策略层面对“代理型体系”施加束缚,例如经由过程拜访控制和行动策略削减风险。
在最新的演示中,OpenAI 展示了主动化进击者若何向用户邮箱中悄然植入一封恶意邮件。 当 AI 代理稍后扫描收件箱、预备撰写外出主动答复时,它被邮件中隐蔽的指令引诱,转而替用户发送了一封告退邮件。 OpenAI 称,在比来一轮安然更新后,Atlas 的“代理模式”已经可以或许辨认此类提示注入妄图并向用户发出警报。 公司还强调,固然提示注入难以实现“万无一掉”的防御,但将经由过程更大年夜范围的主动化测试和更快的补丁节拍,尽量在问题被进击者应用前完成修复。
不过,OpenAI 试图走出一条差别化路径——打造一个“基于大年夜模型的主动化进击者”。 这一体系本质上是一个扮演黑客角色的机械人,经由强化进修练习,专门寻找向 AI 代理“暗递”恶意指令的各类办法。 在内部测试中,进击机械人可以先在模仿情况中动员进击,体系会展示目标 AI 在看到这类进击时的“思虑过程”以及可能采取的动作,进击机械人再据此调剂策略并反复测验测验。 OpenAI 认为,这种对目标模型内部推理过程的洞察,是实际世界进击者所不具备的优势,是以有望更快发明隐蔽马脚。
OpenAI 表示,其强化进修进击者可以或许引导代理履行复杂的、由数十步甚至数百步构成的有害操作流程,并在这一过程中摸索出此前在人类红队练习训练或外部申报中从未出现过的新型进击路径。 这与当前 AI 安然测试范畴常见做法一致——先构建能“踩边”的代理,在高频模仿中赓续摸索界线并反向加固防地。
外部安然专家对这一路线持谨慎肯定。收集安然公司 Wiz 的首席安然研究员 Rami McCarthy 指出,强化进修确切是一种持续适应进击者行动的方法,但只能构成解决筹划的一部分。 他提出,一个实用的风控框架是将 AI 体系的风险视为“自治程度 × 拜访权限”的乘积。 在这一坐标系中,具备必定自立决定计划才能、但同时拥有极高数据拜访权限的“代理浏览器”,天然处在风险较高的区域。
是以,业界很多建议都环绕“降低拜访裸露”和“限制自立操作”展开。 例如,削减代理在登录状况下拜访敏感账户的机会,以削减潜在进击面;同时对发送消息、提议付出等关键动作设置强迫用户确认,从而把代理的自立性控制在可接收范围内。 OpenAI 方面表示,Atlas 已经由练习,在发送消息或履行付出前会主动收罗用户确认。 公司还建议用户尽量以明白义务指令来驱动代理,而不是笼统地付与其广泛权限,例如不要简单地授权它“打理全部邮箱并采取一切须要行动”。 正如 OpenAI 所言,付与代理过大年夜的行动空间,会明显放大年夜隐蔽或恶意内容影响其决定计划的机会,即便体系内置了多重安然保障。
尽管 OpenAI 强调保护 Atlas 用户免受提示注入进击是公司“优等优先级”,McCarthy 仍提示外界,对这类高风险浏览器的投入产出比应持必定困惑立场。 在他看来,就今朝多半日常场景而言,“代理浏览器”为用户带来的增量价值,还不足以完全抵消其当前风险画像。 这类对象对邮箱、付出信息等敏感数据拥有高度拜访权限,这既是其强大年夜之处,也是其风险地点,而这种衡量短期内仍将十分尖利。

发表评论 取消回复