跳转至

Claw-Anything:首个面向个人助理 Agent 的三维上下文扩展评测基准

Ch04.259 Claw-Anything:首个面向个人助理 Agent 的三维上下文扩展评测基准

📊 Level ⭐⭐ | 9.4KB | entities/claw-anything-personal-assistant-agent-benchmark.md

Claw-Anything:See Anything, then Do Anything

首个面向日常个人助理 Agent、沿长程历史 × 多服务 × 多设备三维度扩展的评测基准。200 个真实任务,GPT-5.5 pass@1 仅 34.5%。开源管线 + 2000 训练环境,微调 Qwen3.5-27B 提升 23.7%。

原文存档

核心命题

常驻型 AI 助理的下一次飞跃,不在于把某一个模型单点调得更聪明,而在于扩展智能体的上下文(Scaling Agent Context)——不断拓宽助理能够持续"感知—推理—执行"的范围。

今天的"助理"大多只能看到你数字生活的一小片。一个真正的个人助理,应当像一位贴身管家——看得见你散落在数月历史、十几个应用、手机与电脑之间的全部状态,听得懂没说出口的需求,并在恰当的时刻替你把事情做对。

先"看见一切",才谈得上"做到一切"。

三维上下文扩展

维度 内容 规模
长程事件流 模拟长达数月的连贯生活轨迹 上下文 191.7k 字
互联后端服务 邮箱、日历、待办、联系人、Notion、Facebook、财务…… 单任务平均 10.1 个应用(最多 18 个)
多设备异构界面 手机 GUI + 命令行 CLI 同时覆盖

覆盖 30+ 种人物画像。环境里满是噪声——绝大多数信息与当前任务无关,有些甚至互相矛盾。

两类评测能力

被动响应:"你能听懂并做对吗"——跨邮件、日历、财务、人脉把碎片拼成清醒判断,还要守住权限边界。

主动服务:"你能未卜先知吗"——每天早上 Agent 自动触发轮询,主动把当天最要紧、最易翻车的事拎出来。这种主动性,是"贴身助理"和"问答机器人"的分水岭。

业界第一个同时覆盖 CLI 与 GUI、且把主动服务纳入评分的基准。

数据生产管线

把"构造数字世界"建模成可自动滚动的过程:给定人物极简设定,LLM 模拟器从种子事件池反复采样、逐轮注入,把数字生活"养"出来——邮件越攒越多、人物画像越来越立体、世界状态越来越复杂。

产出:200 个人工验证的评测任务 + 2000 个训练环境。整个过程无需人工参与,只消耗算力。

实战结果

模型 pass@1 备注
GPT-5.5 34.5% 顶尖闭源模型
Claude Opus 4.7 (CLI) ~40% CLI 王者
Claude Opus 4.7 (GUI+CLI) 7.3% GUI 断崖式崩塌
Qwen3.5-27B 微调后 +23.7% 开源 SOTA

三分之二的任务都栽了——漏看关键邮件、算不清隐性代价、越权替用户发邮件。

消融实验:四个反直觉发现

1. 给模型看得越多,它反而做得越差

历史越长、App 越多、噪声越重、矛盾越多——每加一分"真实",成功率就单调往下掉。今天的模型并不是"上下文越大就越聪明"。

2. 能看到一切,但不一定能"看"到一切

CLI 任务上 GPT-5.5 和 Claude Opus 4.7 是王者(40 分档)。但 GUI+CLI 任务上 Claude 系列断崖式崩塌。手机 GUI 交互是当前 Agent 的巨大短板。

3. "看见一切"是生死线

不让读历史事件流 → 大量任务做不出来。屏蔽跨 App 协作 → 成功率归零。只给电脑不给手机 → 需要手机操作的任务全军覆没。

4. "主动"比"被动"难得多

主动类任务成绩明显低于被动响应类——从"有问必答"走向"未问先知"是下一代助理最该补的一课。

核心洞察

  1. Scaling Agent Context 是个人助理的关键瓶颈——不是模型不够聪明,是看得不够全
  2. GUI 交互是当前 Agent 的巨大短板——CLI 和 GUI 之间存在巨大能力鸿沟
  3. 主动服务是"贴身助理"和"问答机器人"的分水岭
  4. 权限边界和分寸感是真实助理的必备素质——既要算明白账,又要知道什么事不能替用户做主
  5. 自动生成训练数据 + 微调可以有效提升开源模型——23.7% 的提升证明了数据管线的价值

深度分析

上下文扩展 ≠ 上下文理解:噪声与矛盾的双刃剑

Claw-Anything 最反直觉的发现是"给模型看得越多,它反而做得越差"。这揭示了一个根本性问题:当前 LLM 的长上下文能力是"能装下"而非"能理解"。191.7k 字的生活轨迹中,绝大多数信息与当前任务无关,有些甚至互相矛盾。模型需要的不是更大的上下文窗口,而是更强的信息过滤和矛盾检测能力。

CLI vs GUI 的能力鸿沟暴露了 Agent 架构的分层缺陷

Claude Opus 4.7 在 CLI 任务上达到 40% pass@1,但 GUI+CLI 任务暴跌至 7.3%。这不是模型能力的差异,而是 Agent 架构的分层缺陷——CLI 交互本质上是结构化数据处理(文本输入/输出),而 GUI 交互需要视觉理解、空间推理、元素定位等额外能力层。当前 Agent 框架普遍缺乏 GUI 感知层,导致"能读邮件但看不懂手机屏幕"的割裂现象。

主动服务需要"世界模型"而非"工具调用"

主动类任务("未卜先知")成绩显著低于被动响应类,因为主动服务需要 Agent 拥有一个关于用户生活的"世界模型"——知道哪些事件可能产生冲突、哪些截止日期值得关注、哪些财务决策需要提前考虑。这超越了工具调用的范畴,需要 Agent 对用户生活模式的长期建模能力。

权限边界的量化评测填补了行业空白

Rachel 婚礼策划的例子完美展示了权限边界问题:助理需要算清 180 美元的投入产出比,但绝对不能擅自发出邮件。Claw-Anything 是第一个将"知道什么不能做"纳入评分的基准。在 Agent 从工具走向自主体的过程中,权限边界的量化评估将比任务完成率更重要。

自动生成训练数据的飞轮效应

2000 个训练环境 + 微调 Qwen3.5-27B 提升 23.7%,证明了"发现问题→自动生成训练数据→微调→解决问题"的闭环可行。这意味着 Agent 评测基准不再是"只考不教"——评测本身可以成为训练数据的来源,形成自我改进的飞轮。

实践启示

  1. Agent 上下文设计应优先解决噪声过滤:与其扩展上下文窗口,不如投资信息检索和矛盾检测能力。191.7k 字的真实世界数据中,真正有用的信息可能不到 5%
  2. GUI Agent 需要独立的感知层:CLI 和 GUI 应该是 Agent 架构中两个独立的能力层,而非统一处理。GUI 层需要视觉理解、元素定位、操作序列规划等专门能力
  3. 主动服务是差异化竞争的关键:从"有问必答"到"未问先知"的能力跃迁,是区分"贴身助理"和"问答机器人"的核心指标
  4. 权限边界应成为 Agent 评测的一等公民:在设计 Agent 系统时,"知道什么不能做"的能力应该与"能把事做对"同等重要
  5. 评测基准可以驱动模型改进:自动生成训练数据的管线让评测从"考核工具"升级为"改进引擎"

相关链接