1. Claude Opus 4.8 正式发布,多项基准超越 GPT-5.5 和 Gemini 3.1 Pro
Anthropic 昨日悄然发布 Claude Opus 4.8,社区迅速炸锅。新模型在 SWE-Bench Pro 上达到 69.2%,大幅超越 Opus 4.7 的 64.3%;Terminal-Bench 得分 74.6%,专为 Agent 任务设计的 GDPvAA 知识工作基准达到 1890 分。多位开发者实测表明,Opus 4.8 在多模态游戏生成、代码编写等任务上全面领先 GPT-5.5 和 Gemini 3.1 Pro。值得注意的是,Google 的 Gemini Enterprise Agent Platform 已同步接入 Opus 4.8,开发者可直接通过该平台调用。这次升级被不少人视为 2026 年 Agent 能力的新基准线,行业竞争进一步白热化。
🔗 https://twitter.com/search?q=Claude+Opus+4.8