Claw-Anything：首个面向个人助理 Agent 的三维上下文扩展评测基准¶

Ch04.259 Claw-Anything：首个面向个人助理 Agent 的三维上下文扩展评测基准¶

📊 Level ⭐⭐ | 9.4KB | entities/claw-anything-personal-assistant-agent-benchmark.md

Claw-Anything：See Anything, then Do Anything¶

首个面向日常个人助理 Agent、沿长程历史 × 多服务 × 多设备三维度扩展的评测基准。200 个真实任务，GPT-5.5 pass@1 仅 34.5%。开源管线 + 2000 训练环境，微调 Qwen3.5-27B 提升 23.7%。

→ 原文存档

核心命题¶

常驻型 AI 助理的下一次飞跃，不在于把某一个模型单点调得更聪明，而在于扩展智能体的上下文（Scaling Agent Context）——不断拓宽助理能够持续"感知—推理—执行"的范围。

今天的"助理"大多只能看到你数字生活的一小片。一个真正的个人助理，应当像一位贴身管家——看得见你散落在数月历史、十几个应用、手机与电脑之间的全部状态，听得懂没说出口的需求，并在恰当的时刻替你把事情做对。

先"看见一切"，才谈得上"做到一切"。

三维上下文扩展¶

维度	内容	规模
长程事件流	模拟长达数月的连贯生活轨迹	上下文 191.7k 字
互联后端服务	邮箱、日历、待办、联系人、Notion、Facebook、财务……	单任务平均 10.1 个应用（最多 18 个）
多设备异构界面	手机 GUI + 命令行 CLI	同时覆盖

覆盖 30+ 种人物画像。环境里满是噪声——绝大多数信息与当前任务无关，有些甚至互相矛盾。

两类评测能力¶

被动响应："你能听懂并做对吗"——跨邮件、日历、财务、人脉把碎片拼成清醒判断，还要守住权限边界。

主动服务："你能未卜先知吗"——每天早上 Agent 自动触发轮询，主动把当天最要紧、最易翻车的事拎出来。这种主动性，是"贴身助理"和"问答机器人"的分水岭。

业界第一个同时覆盖 CLI 与 GUI、且把主动服务纳入评分的基准。

数据生产管线¶

把"构造数字世界"建模成可自动滚动的过程：给定人物极简设定，LLM 模拟器从种子事件池反复采样、逐轮注入，把数字生活"养"出来——邮件越攒越多、人物画像越来越立体、世界状态越来越复杂。

产出：200 个人工验证的评测任务 + 2000 个训练环境。整个过程无需人工参与，只消耗算力。

实战结果¶

模型	pass@1	备注
GPT-5.5	34.5%	顶尖闭源模型
Claude Opus 4.7 (CLI)	~40%	CLI 王者
Claude Opus 4.7 (GUI+CLI)	7.3%	GUI 断崖式崩塌
Qwen3.5-27B 微调后	+23.7%	开源 SOTA

三分之二的任务都栽了——漏看关键邮件、算不清隐性代价、越权替用户发邮件。

消融实验：四个反直觉发现¶

1. 给模型看得越多，它反而做得越差¶

历史越长、App 越多、噪声越重、矛盾越多——每加一分"真实"，成功率就单调往下掉。今天的模型并不是"上下文越大就越聪明"。

2. 能看到一切，但不一定能"看"到一切¶

CLI 任务上 GPT-5.5 和 Claude Opus 4.7 是王者（40 分档）。但 GUI+CLI 任务上 Claude 系列断崖式崩塌。手机 GUI 交互是当前 Agent 的巨大短板。

3. "看见一切"是生死线¶

不让读历史事件流 → 大量任务做不出来。屏蔽跨 App 协作 → 成功率归零。只给电脑不给手机 → 需要手机操作的任务全军覆没。

4. "主动"比"被动"难得多¶

主动类任务成绩明显低于被动响应类——从"有问必答"走向"未问先知"是下一代助理最该补的一课。

核心洞察¶

Scaling Agent Context 是个人助理的关键瓶颈——不是模型不够聪明，是看得不够全
GUI 交互是当前 Agent 的巨大短板——CLI 和 GUI 之间存在巨大能力鸿沟
主动服务是"贴身助理"和"问答机器人"的分水岭
权限边界和分寸感是真实助理的必备素质——既要算明白账，又要知道什么事不能替用户做主
自动生成训练数据 + 微调可以有效提升开源模型——23.7% 的提升证明了数据管线的价值

深度分析¶

上下文扩展 ≠ 上下文理解：噪声与矛盾的双刃剑¶

Claw-Anything 最反直觉的发现是"给模型看得越多，它反而做得越差"。这揭示了一个根本性问题：当前 LLM 的长上下文能力是"能装下"而非"能理解"。191.7k 字的生活轨迹中，绝大多数信息与当前任务无关，有些甚至互相矛盾。模型需要的不是更大的上下文窗口，而是更强的信息过滤和矛盾检测能力。

CLI vs GUI 的能力鸿沟暴露了 Agent 架构的分层缺陷¶

Claude Opus 4.7 在 CLI 任务上达到 40% pass@1，但 GUI+CLI 任务暴跌至 7.3%。这不是模型能力的差异，而是 Agent 架构的分层缺陷——CLI 交互本质上是结构化数据处理（文本输入/输出），而 GUI 交互需要视觉理解、空间推理、元素定位等额外能力层。当前 Agent 框架普遍缺乏 GUI 感知层，导致"能读邮件但看不懂手机屏幕"的割裂现象。

主动服务需要"世界模型"而非"工具调用"¶

主动类任务（"未卜先知"）成绩显著低于被动响应类，因为主动服务需要 Agent 拥有一个关于用户生活的"世界模型"——知道哪些事件可能产生冲突、哪些截止日期值得关注、哪些财务决策需要提前考虑。这超越了工具调用的范畴，需要 Agent 对用户生活模式的长期建模能力。

权限边界的量化评测填补了行业空白¶

Rachel 婚礼策划的例子完美展示了权限边界问题：助理需要算清 180 美元的投入产出比，但绝对不能擅自发出邮件。Claw-Anything 是第一个将"知道什么不能做"纳入评分的基准。在 Agent 从工具走向自主体的过程中，权限边界的量化评估将比任务完成率更重要。

自动生成训练数据的飞轮效应¶

2000 个训练环境 + 微调 Qwen3.5-27B 提升 23.7%，证明了"发现问题→自动生成训练数据→微调→解决问题"的闭环可行。这意味着 Agent 评测基准不再是"只考不教"——评测本身可以成为训练数据的来源，形成自我改进的飞轮。

实践启示¶

Agent 上下文设计应优先解决噪声过滤：与其扩展上下文窗口，不如投资信息检索和矛盾检测能力。191.7k 字的真实世界数据中，真正有用的信息可能不到 5%
GUI Agent 需要独立的感知层：CLI 和 GUI 应该是 Agent 架构中两个独立的能力层，而非统一处理。GUI 层需要视觉理解、元素定位、操作序列规划等专门能力
主动服务是差异化竞争的关键：从"有问必答"到"未问先知"的能力跃迁，是区分"贴身助理"和"问答机器人"的核心指标
权限边界应成为 Agent 评测的一等公民：在设计 Agent 系统时，"知道什么不能做"的能力应该与"能把事做对"同等重要
评测基准可以驱动模型改进：自动生成训练数据的管线让评测从"考核工具"升级为"改进引擎"