收集安然研究人员质疑Anthropic Fable安然护栏过于严格

98 阅读 0 评论 0 点赞

根据研究人员的反馈，Fable 会拒绝“任何哪怕略微沾边收集安然”的请求，甚至包含看似无害的义务，例如协助浏览一篇博客文章。研究人员 Valentina “Chompie” Palmiotti（现就职于 IBM X-Force）表示，Fable 会直接中断对话，并提示其安然机制已将该消息标记为涉及收集安然或生物学主题。这些护栏的设计初志，是防止模型被用于开辟恶意软件、进击或破坏软件体系，同时也限制其在生物学范畴被滥用来帮助研产生物兵器。

Anthropic 在本年 4 月推出 Mythos 时，选择经由过程名为“Project Glasswing”的筹划，仅向少量企业和机构开放，意在借助该模型赞助保护关键软件和基本举措措施。上周，Anthropic 又宣布将 Mythos 的应用范围扩大到 15 个国度的数百家机构，进一步推动这类高才能安然模型在关键行业落地。不过，在 Fable 面向"大众,"开放后，其“降配版”安然策略在专业用户中遭到强烈质疑，不少人认为实际体验与官方宣传存在明显落差。

经久从事收集安然工作的 Matt Suiche 表示，Fable 在断定请求是否与收集安然相干时表示得异常生硬。他举例称，假如用户提出“编写安然代码”的需求，Fable 会偏向于将其视为收集安然工作，而非软件工程最佳实践指导，从而直接触发降级机制。一旦触发护栏，Fable 会主动回退至才能更弱的 Claude Opus 4.8 来持续对话。 Suiche 认为，Fable 的断定逻辑看起来高度依附关键词，“只要落在‘收集安然’语义场里的词，很轻易就被安然体系拦截”。

尽管如斯，Suiche 也对当前阶段的严苛设置表示必定程度懂得，认为在这一早期阶段，厂商对模型施加更保守的安然阈值，在风险控制上更有保障。他估计，跟着 Anthropic 与新一代收集安然公司加深合作，这些护栏将会被赓续优化和微调。在他看来，比拟一开端放得太松，导致潜在滥用风险掉控，先“多拦一些”再慢慢放宽限制，是更可接收的路径。

对 Fable 表达不满的不止一人。另一位研究人员在社交平台上吐槽称，“就连请求它做代码审查，也会触发安然护栏”。有效户在 Reddit 的 Claude 相干社区分享经验，称 Fable 在面对安然审计、马脚分析等请求时几乎“清一色拒绝”，严重影响其在专业情况中的实用性。截至发稿时，Anthropic 尚未就这些反馈作出公开答复。

除了模型内部的主动护栏机制，Anthropic 还针对收集安然从业者设立了额外的准入法度榜样——“收集安然验证筹划”（Cyber Verification Program）。只有经由过程该筹划审核的用户，才能在更少限制的前提下，应用 Claude 进行收集安然工作。类似地，OpenAI 也推出了名为“Trusted Access for Cyber”的项目，为合规的收集安然实践开放更多模型才能。这些做法反应出前沿模型公司在推动 AI 赋能收集安然的同时，仍试图经由过程审核轨制与技巧护栏双重手段，均衡才能释放与滥用风险。

点赞(0) 打赏

本文分类：互联网
本文标签：AI 人工智能网络安全研究人员质疑Anthropic Fable安全护栏过于严格
浏览次数：98 次浏览
发布日期：2026-06-12 08:05:58
本文链接：https://fqpy.com/internet/15605

收集安然研究人员质疑Anthropic Fable安然护栏过于严格

评论列表共有 0 条评论

发表评论取消回复

收集安然研究人员质疑Anthropic Fable安然护栏过于严格

万亿AI巨擘的罕有运营模式：Anthropic CEO仅“管一人” 妹妹成大年夜管家

OpenAI首席履行官将拜访韩国 与三星等多家公司评论辩论AI合作

官司两边端赖AI代写 庭审现场AI互掐 美公法庭奇葩一幕惹怒法官

Anthropic呼吁美国在未制订联邦标准的情况下不要阻拦各州出台人工智能相干司法

评论列表 共有 0 条评论

发表评论 取消回复

OpenAI首席履行官将拜访韩国与三星等多家公司评论辩论AI合作

官司两边端赖AI代写庭审现场AI互掐美公法庭奇葩一幕惹怒法官

评论列表共有 0 条评论

发表评论取消回复