Anthropic推出Claude Opus 4.8 编码才能与“诚实度”双双进级

268 阅读 0 评论 0 点赞

Anthropic 表示，早期测试成果显示，Opus 4.8 更偏向于主动标注自身不肯定之处，更少做出缺乏根据的断言。内部评估数据显示，比拟前一版本，Opus 4.8 在本身生成的代码中放过缺点不说起的概率约降低了四倍，这意味着模型在代码审查与质量控制环节的“自我纠错”才能明显加强。

在对齐性（alignment）测试中，Opus 4.8 在支撑用户自立决定计划、保护用户最大年夜好处等“亲社会特质”方面创下新高。与之相对，诸如隐性欺骗、误导性行动等“掉配行动”的产生率低于 Opus 4.7，并与此前仅向少量机构测试开放的 Claude Mythos 预览模型处于同一程度。

在多项公开基准测试上，Anthropic 也给出了具体成就：Opus 4.8 在软件工程基准 SWE‑Bench Pro 上取得了 69.2% 的得分，跨越了 GPT‑5.5 和 Gemini 3.1 Pro 等竞品模型，在多个测试项目中占据优势，不过在终端编码类基准上仍由 GPT‑5.5 领先。在机能方面，Opus 4.8 的快速模式推理速度晋升至此前的 2.5 倍，价格则降至旧型号的约三分之一，使得高机能应用的整体门槛进一步降低。

合营新模型上线，Anthropic 还宣布为产品体系参加多项新功能，个中包含面向企业开辟者的“动态工作流”（研究预览）。这项功能许可 Claude 在 Claude Code 情况中拆解大年夜型义务、筹划工作步调，并在单个会话内并行调剂数百个子代理，从而完成跨数十万行代码的代码库级迁徙操作，今朝面向 Claude Code 企业版、团队版和 Max 订阅筹划开放。

在高阶模型路线图方面，Anthropic 正与少数合作机构测试代号为 Claude Mythos 的前沿模型，并环绕该模型持续开辟更严格的安然护栏与应用规范。公司称，估计将在“将来数周内”向全部客户供给 Mythos 级模型，进一步拓展其在企业级安然审计、代码分析以及复杂决定计划支撑等场景中的竞争力。

在交互控制方面，Anthropic 新增了“尽力程度控制”功能，供 Claude.ai 与 Cowork 用户选择模型在单次答复中投入的计算资本与推理深度。用户若选择较低尽力等级，可以获得更快的响应速度并削减速度配额消费，而 Opus 4.8 默认采取“高尽力”模式，官方认为这是答复质量与应用体验之间的最佳均衡点。

针对开辟者，Anthropic 更新了 Messages API，使其可以或许在消息数组中接收体系级指令条目。这意味着开辟者可在义务履行过程中动态调剂 Claude 的行动准则与角色设定，而无需从新开启新会话，有助于构建更灵活的多步调主动化工作流和企业级应用。

Anthropic 表示，Claude Opus 4.8 刻期起在全球范围内周全开放应用，其惯例用量的订价与 Opus 4.7 保持不变。公司同时泄漏，正研发在雷同功能程度下成本更低的新模型，以及一类才能跨越 Opus 4.8 的“下一代”模型产品。

点赞(0) 打赏

本文分类：互联网
本文标签：AI 人工智能 Anthropic推出Claude Opus 4.8 编码能力与“诚实度”双双升级
浏览次数：268 次浏览
发布日期：2026-05-29 09:35:34
本文链接：https://fqpy.com/internet/14664

上一篇 > 微软即将本质性禁用自力版Office 2019的重要功能
下一篇 > 信鸽依附肝脏免疫细胞感知地磁场从而拥有导航才能

Anthropic推出Claude Opus 4.8 编码才能与“诚实度”双双进级

评论列表共有 0 条评论

发表评论取消回复

Anthropic推出Claude Opus 4.8 编码才能与“诚实度”双双进级

Anthropic推出Claude Opus 4.8 编码才能与“诚实度”双双进级

Anthropic新一轮融资后估值达9650亿美元 超出OpenAI

Anthropic筹划几周内广泛宣布可与Mythos媲美的人工智能模型

申报称部分人工智能心理健康应用对青少年存在伤害

评论列表 共有 0 条评论

发表评论 取消回复

Anthropic新一轮融资后估值达9650亿美元超出OpenAI

评论列表共有 0 条评论

发表评论取消回复