1. Chatbot Arena 正式推出 Agent Mode 评测体系
LMSYS Chatbot Arena 宣布推出 Agent Mode,将 AI 评测从单轮对话扩展到真实任务完成能力。新模式允许模型调用网页搜索、沙箱 Bash 终端等工具,完成建站、调试代码、深度研究等复杂任务。评测数据来自数百万真实用户会话,确保评测场景贴近实际。这标志着 AI 能力评估进入"工具调用时代",纯语言能力的排名可能让位于任务完成能力。社区反应热烈,认为这一转变早该到来。Agent Mode 的引入也将推动各大厂商在工具调用稳定性和多步规划上加大投入。
🔗 https://twitter.com/i/web/status/2062566749418233981