1. OpenAI 发布 GPT-5.5:代理运行时时代正式开启
OpenAI 于4月24日凌晨发布旗舰新模型 GPT-5.5,官方定位不再是"更聪明的模型",而是一个能完整执行电脑工作的代理运行时(Agent Runtime)。核心指标亮眼:ARC-AGI-2 达 85%,Terminal Bench 2.0 达 82.7,SWE-bench Pro 58.6,20小时 SWE 任务完成率 73%,同时相比 GPT-5.4 完成同等工作所用 Token 数量更少。模型具备自验证输出能力和持续调用工具直到任务完成的特性,在 Agentic Browsing 和 Agentic Terminal Use 上超越了 Claude Opus 4.7。社区普遍认为"模型 + Harness = 产品"这一范式正式确立,但有声音指出 OpenAI 隐藏了真实软件开发能力评测 SWE-Bench Pro 的详细分数,仍落后于 Anthropic。值得关注的是,GPT-5.5 定价已超过 Anthropic 旗舰模型,这是历史上首次。
🔗 https://twitter.com/search?q=GPT-5.5