1. Claude Opus 4.8 登顶 Agent Arena 评测榜
Claude Opus 4.8 在 Agent Arena 基准测试中与 GPT-5.5(High 模式)并列第一,Thinking 模式下表现尤为突出,跻身榜首。非 Thinking 模式下排名第 8,相比前代 Opus 4.7 有小幅但明显的提升,主要体现在多步骤复杂任务的完成率上。Agent Arena 是一个基于真实用户完成真实任务的大规模评测平台,评测方式远比传统 benchmark 更贴近实际使用场景。此次评测结果显示,Claude 系列在推理增强模式下的 Agent 能力已达到业界最顶尖水平。社区对这一结果讨论热烈,不少开发者表示 Thinking 模式带来的提升在长链推理任务上尤为明显。
🔗 https://twitter.com/i/web/status/2064496909793018197