Anthropic 表示,早期测试成果显示,Opus 4.8 更偏向于主动标注自身不肯定之处,更少做出缺乏根据的断言。 内部评估数据显示,比拟前一版本,Opus 4.8 在本身生成的代码中放过缺点不说起的概率约降低了四倍,这意味着模型在代码审查与质量控制环节的“自我纠错”才能明显加强。

在对齐性(alignment)测试中,Opus 4.8 在支撑用户自立决定计划、保护用户最大年夜好处等“亲社会特质”方面创下新高。 与之相对,诸如隐性欺骗、误导性行动等“掉配行动”的产生率低于 Opus 4.7,并与此前仅向少量机构测试开放的 Claude Mythos 预览模型处于同一程度。

在多项公开基准测试上,Anthropic 也给出了具体成就:Opus 4.8 在软件工程基准 SWE‑Bench Pro 上取得了 69.2% 的得分,跨越了 GPT‑5.5 和 Gemini 3.1 Pro 等竞品模型,在多个测试项目中占据优势,不过在终端编码类基准上仍由 GPT‑5.5 领先。 在机能方面,Opus 4.8 的快速模式推理速度晋升至此前的 2.5 倍,价格则降至旧型号的约三分之一,使得高机能应用的整体门槛进一步降低。

合营新模型上线,Anthropic 还宣布为产品体系参加多项新功能,个中包含面向企业开辟者的“动态工作流”(研究预览)。 这项功能许可 Claude 在 Claude Code 情况中拆解大年夜型义务、筹划工作步调,并在单个会话内并行调剂数百个子代理,从而完成跨数十万行代码的代码库级迁徙操作,今朝面向 Claude Code 企业版、团队版和 Max 订阅筹划开放。

在高阶模型路线图方面,Anthropic 正与少数合作机构测试代号为 Claude Mythos 的前沿模型,并环绕该模型持续开辟更严格的安然护栏与应用规范。 公司称,估计将在“将来数周内”向全部客户供给 Mythos 级模型,进一步拓展其在企业级安然审计、代码分析以及复杂决定计划支撑等场景中的竞争力。

在交互控制方面,Anthropic 新增了“尽力程度控制”功能,供 Claude.ai 与 Cowork 用户选择模型在单次答复中投入的计算资本与推理深度。 用户若选择较低尽力等级,可以获得更快的响应速度并削减速度配额消费,而 Opus 4.8 默认采取“高尽力”模式,官方认为这是答复质量与应用体验之间的最佳均衡点。

针对开辟者,Anthropic 更新了 Messages API,使其可以或许在消息数组中接收体系级指令条目。 这意味着开辟者可在义务履行过程中动态调剂 Claude 的行动准则与角色设定,而无需从新开启新会话,有助于构建更灵活的多步调主动化工作流和企业级应用。

Anthropic 表示,Claude Opus 4.8 刻期起在全球范围内周全开放应用,其惯例用量的订价与 Opus 4.7 保持不变。 公司同时泄漏,正研发在雷同功能程度下成本更低的新模型,以及一类才能跨越 Opus 4.8 的“下一代”模型产品。

点赞(0) 打赏

评论列表 共有 0 条评论

暂无评论

微信小程序

微信扫一扫体验

立即
投稿

微信公众账号

微信扫一扫加关注

发表
评论
返回
顶部