Claw-Anything:首个面向个人助理 Agent 的三维上下文扩展评测基准¶
Ch04.259 Claw-Anything:首个面向个人助理 Agent 的三维上下文扩展评测基准¶
📊 Level ⭐⭐ | 9.4KB |
entities/claw-anything-personal-assistant-agent-benchmark.md
Claw-Anything:See Anything, then Do Anything¶
首个面向日常个人助理 Agent、沿长程历史 × 多服务 × 多设备三维度扩展的评测基准。200 个真实任务,GPT-5.5 pass@1 仅 34.5%。开源管线 + 2000 训练环境,微调 Qwen3.5-27B 提升 23.7%。
→ 原文存档
核心命题¶
常驻型 AI 助理的下一次飞跃,不在于把某一个模型单点调得更聪明,而在于扩展智能体的上下文(Scaling Agent Context)——不断拓宽助理能够持续"感知—推理—执行"的范围。
今天的"助理"大多只能看到你数字生活的一小片。一个真正的个人助理,应当像一位贴身管家——看得见你散落在数月历史、十几个应用、手机与电脑之间的全部状态,听得懂没说出口的需求,并在恰当的时刻替你把事情做对。
先"看见一切",才谈得上"做到一切"。
三维上下文扩展¶
| 维度 | 内容 | 规模 |
|---|---|---|
| 长程事件流 | 模拟长达数月的连贯生活轨迹 | 上下文 191.7k 字 |
| 互联后端服务 | 邮箱、日历、待办、联系人、Notion、Facebook、财务…… | 单任务平均 10.1 个应用(最多 18 个) |
| 多设备异构界面 | 手机 GUI + 命令行 CLI | 同时覆盖 |
覆盖 30+ 种人物画像。环境里满是噪声——绝大多数信息与当前任务无关,有些甚至互相矛盾。
两类评测能力¶
被动响应:"你能听懂并做对吗"——跨邮件、日历、财务、人脉把碎片拼成清醒判断,还要守住权限边界。
主动服务:"你能未卜先知吗"——每天早上 Agent 自动触发轮询,主动把当天最要紧、最易翻车的事拎出来。这种主动性,是"贴身助理"和"问答机器人"的分水岭。
业界第一个同时覆盖 CLI 与 GUI、且把主动服务纳入评分的基准。
数据生产管线¶
把"构造数字世界"建模成可自动滚动的过程:给定人物极简设定,LLM 模拟器从种子事件池反复采样、逐轮注入,把数字生活"养"出来——邮件越攒越多、人物画像越来越立体、世界状态越来越复杂。
产出:200 个人工验证的评测任务 + 2000 个训练环境。整个过程无需人工参与,只消耗算力。
实战结果¶
| 模型 | pass@1 | 备注 |
|---|---|---|
| GPT-5.5 | 34.5% | 顶尖闭源模型 |
| Claude Opus 4.7 (CLI) | ~40% | CLI 王者 |
| Claude Opus 4.7 (GUI+CLI) | 7.3% | GUI 断崖式崩塌 |
| Qwen3.5-27B 微调后 | +23.7% | 开源 SOTA |
三分之二的任务都栽了——漏看关键邮件、算不清隐性代价、越权替用户发邮件。
消融实验:四个反直觉发现¶
1. 给模型看得越多,它反而做得越差¶
历史越长、App 越多、噪声越重、矛盾越多——每加一分"真实",成功率就单调往下掉。今天的模型并不是"上下文越大就越聪明"。
2. 能看到一切,但不一定能"看"到一切¶
CLI 任务上 GPT-5.5 和 Claude Opus 4.7 是王者(40 分档)。但 GUI+CLI 任务上 Claude 系列断崖式崩塌。手机 GUI 交互是当前 Agent 的巨大短板。
3. "看见一切"是生死线¶
不让读历史事件流 → 大量任务做不出来。屏蔽跨 App 协作 → 成功率归零。只给电脑不给手机 → 需要手机操作的任务全军覆没。
4. "主动"比"被动"难得多¶
主动类任务成绩明显低于被动响应类——从"有问必答"走向"未问先知"是下一代助理最该补的一课。
核心洞察¶
- Scaling Agent Context 是个人助理的关键瓶颈——不是模型不够聪明,是看得不够全
- GUI 交互是当前 Agent 的巨大短板——CLI 和 GUI 之间存在巨大能力鸿沟
- 主动服务是"贴身助理"和"问答机器人"的分水岭
- 权限边界和分寸感是真实助理的必备素质——既要算明白账,又要知道什么事不能替用户做主
- 自动生成训练数据 + 微调可以有效提升开源模型——23.7% 的提升证明了数据管线的价值
深度分析¶
上下文扩展 ≠ 上下文理解:噪声与矛盾的双刃剑¶
Claw-Anything 最反直觉的发现是"给模型看得越多,它反而做得越差"。这揭示了一个根本性问题:当前 LLM 的长上下文能力是"能装下"而非"能理解"。191.7k 字的生活轨迹中,绝大多数信息与当前任务无关,有些甚至互相矛盾。模型需要的不是更大的上下文窗口,而是更强的信息过滤和矛盾检测能力。
CLI vs GUI 的能力鸿沟暴露了 Agent 架构的分层缺陷¶
Claude Opus 4.7 在 CLI 任务上达到 40% pass@1,但 GUI+CLI 任务暴跌至 7.3%。这不是模型能力的差异,而是 Agent 架构的分层缺陷——CLI 交互本质上是结构化数据处理(文本输入/输出),而 GUI 交互需要视觉理解、空间推理、元素定位等额外能力层。当前 Agent 框架普遍缺乏 GUI 感知层,导致"能读邮件但看不懂手机屏幕"的割裂现象。
主动服务需要"世界模型"而非"工具调用"¶
主动类任务("未卜先知")成绩显著低于被动响应类,因为主动服务需要 Agent 拥有一个关于用户生活的"世界模型"——知道哪些事件可能产生冲突、哪些截止日期值得关注、哪些财务决策需要提前考虑。这超越了工具调用的范畴,需要 Agent 对用户生活模式的长期建模能力。
权限边界的量化评测填补了行业空白¶
Rachel 婚礼策划的例子完美展示了权限边界问题:助理需要算清 180 美元的投入产出比,但绝对不能擅自发出邮件。Claw-Anything 是第一个将"知道什么不能做"纳入评分的基准。在 Agent 从工具走向自主体的过程中,权限边界的量化评估将比任务完成率更重要。
自动生成训练数据的飞轮效应¶
2000 个训练环境 + 微调 Qwen3.5-27B 提升 23.7%,证明了"发现问题→自动生成训练数据→微调→解决问题"的闭环可行。这意味着 Agent 评测基准不再是"只考不教"——评测本身可以成为训练数据的来源,形成自我改进的飞轮。
实践启示¶
- Agent 上下文设计应优先解决噪声过滤:与其扩展上下文窗口,不如投资信息检索和矛盾检测能力。191.7k 字的真实世界数据中,真正有用的信息可能不到 5%
- GUI Agent 需要独立的感知层:CLI 和 GUI 应该是 Agent 架构中两个独立的能力层,而非统一处理。GUI 层需要视觉理解、元素定位、操作序列规划等专门能力
- 主动服务是差异化竞争的关键:从"有问必答"到"未问先知"的能力跃迁,是区分"贴身助理"和"问答机器人"的核心指标
- 权限边界应成为 Agent 评测的一等公民:在设计 Agent 系统时,"知道什么不能做"的能力应该与"能把事做对"同等重要
- 评测基准可以驱动模型改进:自动生成训练数据的管线让评测从"考核工具"升级为"改进引擎"
相关链接¶
- 论文:https://arxiv.org/pdf/2605.26086
- 代码:https://github.com/LiberCoders/Claw-Anything
- 数据:https://huggingface.co/datasets/LiberCoders/Claw-Anything
- → ProgramBench Agent Benchmark — 程序合成能力评测
- → Agent 记忆评测全景 — 记忆系统评测
- → 原文存档