Anthropic发布Claude Opus 4.8：更谨慎，减少自信犯错

Author auto.pub | Published on: 01.06.2026

Anthropic发布了新的旗舰模型Claude Opus 4.8。它的主要卖点不只是更强的代码生成能力或更长记忆，而是行为方式。该模型旨在更频繁地承认不确定性，并更少让自身错误在未被察觉的情况下通过。Anthropic称，与前代相比，Opus 4.8在自己编写的代码中漏检错误的概率约低四倍。

“诚实AI”意味着少一些虚张声势，而不是拥有道德良知。

Anthropic用一个很重的词形容Claude Opus 4.8：诚实。从技术层面看，这并不意味着它是一个会作道德判断的决策者，而是一个应当更少作出缺乏依据的断言、更常发现自身工作缺陷，并更清楚标出不确定性的模型。

这是一个有意义的变化。大型语言模型最危险的时候，往往正是它们听起来最自信的时候。它们不会说“我不知道”，而是在薄弱证据基础上构造一个看似可信的答案。Anthropic现在表示，Opus 4.8比Opus 4.7更直接地处理了这个问题。

最具体的指标来自代码。Anthropic称，在其自身评估中，Opus 4.8让自己代码中的错误未被发现而通过的情况，相比前代约少四倍。这一结论不应自动外推到所有领域，例如法律、医疗或金融分析，但对开发者来说，这是一个强信号。

Opus 4.8面向长时间工作，而不只是快速回答。

Anthropic将Claude Opus 4.8描述为其目前普遍可用的Claude中，在复杂推理、长时间智能体任务和更自主工作流方面能力最强的模型。其模型ID为claude-opus-4-8，通过Claude API、Amazon Bedrock和Vertex AI使用时，上下文窗口达到100万token，最大输出为12.8万token。在Microsoft Foundry中，上下文窗口上限为20万token。

定价方面，Anthropic并没有走低价路线。Opus 4.8的价格为每百万输入token 5美元、每百万输出token 25美元，仍高于Sonnet 4.6的3美元和15美元。但Opus面向更困难的任务，在这些任务中，一次错误决策造成的代价可能高于模型使用成本本身。

Opus 4.8的实际价值就在这里。一个更懂得何时暂停、调用工具、核查疑点或反驳用户输入的模型，在开发环境中会成为更可靠的伙伴。它未必更聪明，但危险的过度自信会更少。

Dynamic Workflows让Claude变成一支智能体团队。

在推出Opus 4.8的同时，Anthropic还为Claude Code引入了Dynamic Workflows。这项功能可让Claude把一个大型任务拆分为数十个或数百个并行的子智能体任务，验证其结果，再向用户返回整合后的答案。该功能以研究预览形式提供，可通过Claude Code CLI、桌面应用、VS Code扩展，以及API、Amazon Bedrock、Vertex AI和Microsoft Foundry使用。

这不是一个小型便利功能。在软件开发中，它把Claude从单一聊天窗口推进为智能体工作流引擎。Anthropic提到的应用包括跨代码库漏洞排查、安全审计、大规模迁移，以及由独立智能体尝试反证结果的关键任务。

这也解释了为什么模型的“诚实”被放在重要位置。当一个聊天机器人犯错时，用户往往很快能发现。但当数百个子智能体在大型代码库中工作时，错误的自信可能叠加成代价高昂的失误。因此，Opus 4.8不仅必须会解决问题，也必须知道何时停下来。

努力程度控制让用户在成本与质量之间有了调节杆。

Opus 4.8默认采用高努力程度，Anthropic称这是质量与可用性之间的最佳平衡。新的努力程度控制允许用户选择模型在回答前“思考”多少。更高设置可在更困难任务上带来更好结果，较低设置则节省时间和token额度。

还有两个细节对开发者很重要。第一，Opus 4.8支持对话中途注入系统提示词，允许在长时间智能体运行期间更新指令，而无需重新发送完整系统提示词。第二，目前处于研究预览阶段的快速模式可将输出token生成速度最高提升至2.5倍，但价格更高。

对欧洲企业而言，这一点尤其重要，因为成本模型会产生影响。随着AI从文本生成器转向工作流管理者，每一个token都带有经济权重。Opus 4.8试图提供旗舰级推理能力，同时让用户决定何时为更深入分析付费，何时选择更快的答案。

Mythos在背景中成为一个更大的信号。

据路透社报道，在Opus 4.8到来之际，Anthropic正准备更广泛发布能力更强的Claude Mythos。Mythos与高级网络安全能力相关，并可通过Project Glasswing向部分合作伙伴开放，包括Amazon、Microsoft和Apple。

这让Opus 4.8处在一个有意思的位置。它不是Anthropic最强大的模型，但它是该公司目前普遍可用的Claude中能力最强的。API文档确认，Claude Mythos Preview仍是一个面向防御性网络安全工作流的独立研究预览版本，不提供自助访问。

因此，Anthropic销售Opus 4.8的核心并不是不受约束的能力，而是可控的可靠性。对企业用户来说，这可能比单项基准测试胜利更重要。因为在法律、金融分析、软件开发和安全审计中，最终重要的是模型有多频繁能意识到，自己尚无足够依据得出确定结论。