1. Agent Arena 发布:真实场景下的 Agent 大规模评测
LMSYS 团队宣布推出 Agent Arena,这是一套基于真实用户会话的 Agent 评测系统,彻底颠覆了过去靠合成 benchmark 打分的方式。模型在 Arena 里会获得网页搜索、文件系统、终端等真实工具,完成用户的实际任务,评分来自数百万真实会话的反馈。这一举措直接回应了"评测不代表实战"的长期痛点,也意味着 Agent 能力的排名将更贴近真实部署效果。社区对此反应热烈,认为这将成为 Agent 时代的新标准。
🔗 https://twitter.com/i/web/status/2062566749418233981