Interaction Models: A Scalable Approach to Human-AI Collaboration¶

Ch03.094 Interaction Models: A Scalable Approach to Human-AI Collaboration¶

📊 Level ⭐⭐ | 7.1KB | entities/interaction-models.md

Interaction Models: 从回合制到实时协作的人机交互范式转变¶

-> 原文存档

摘要¶

Thinking Machines Lab 发布了交互模型（Interaction Models）的研究预览——一种将交互能力内置于模型本身而非外部脚手架的新型 AI 架构。核心创新是"时间对齐的微回合"（time-aligned micro-turns）设计：模型以 200ms 为单位持续交错处理输入和生成输出，实现音频、视频、文本的全双工实时交互。其 TML-Interaction-Small 模型（276B MoE，12B active）在 FD-bench 交互质量基准上大幅领先 GPT Realtime 和 Gemini Live。

核心要点¶

交互不应是事后考虑：AI 实验室过度追求自主能力，忽略了人类在循环中（human-in-the-loop）的协作价值
时间对齐微回合：200ms 块交错处理输入/输出，消除人工回合边界，实现真正的全双工交互
无编码器早期融合：音频直接以 dMel 输入，图像以 40×40 patch 编码，与 Transformer 联合训练，避免独立编码器的延迟开销
交互模型 + 后台模型的双层架构：交互模型负责实时响应，后台模型异步处理深度推理和工具调用，两者共享上下文
视觉主动性：模型可根据视觉变化主动发言（如数数、计时），这是现有商业 API 不具备的能力
FD-bench V1.5 平均分 77.8（GPT Realtime-2.0 为 46.8），轮次延迟 0.40s（GPT Realtime-2.0 为 1.18s）

深度分析¶

当前 AI 交互的瓶颈：回合制限制¶

现有商业 AI 模型（GPT Realtime、Gemini Live 等）采用回合制交互：用户说完之前模型等待，模型生成期间感知冻结。这创造了一个"窄通道"——人类的知识、意图和判断无法充分传递给模型，模型的工作也无法被人类实时理解。正如 Thinking Machines 引用的比喻："想象试图通过电子邮件解决一场关键分歧，而不是面对面交流。"

Anthropic 的模型卡也承认了这一点："当以交互式、同步的'键盘上手'模式使用时，模型的优势不太明显。自主运行的 agent harness 更能发挥模型的编码能力。"但 Thinking Machines 指出，大多数真实工作中，用户无法预先完全指定需求然后走开——好的结果需要协作过程。

微回合架构的技术创新¶

交互模型的核心技术设计包括：

时间对齐微回合：输入和输出被分割为 200ms 的块，持续交错处理。与传统回合制模型看到的"交替 token 序列"不同，交互模型看到的是"连续微回合流"——沉默、重叠和中断都是模型上下文的一部分。这消除了对语音活动检测（VAD）等外部组件的需求。

无编码器早期融合：许多全模态模型需要独立的编码器（如 Whisper 式 ASR）或解码器（如 TTS 模型）。TML-Interaction-Small 直接接收音频信号作为 dMel，通过轻量级嵌入层变换；图像被分割为 40×40 patch 并通过 hMLP 编码；音频解码使用 flow head。所有组件与 Transformer 从头联合训练。

流式会话推理优化：200ms 块需要频繁的小 prefill 和 decode，每次都要满足严格延迟约束。团队实现了"流式会话"——客户端将每个 200ms 块作为独立请求发送，推理服务器将这些块追加到 GPU 内存中的持久序列中，避免频繁的内存重分配和元数据计算。该优化已上游贡献到 SGLang。

训练器-采样器比特对齐：团队实现了批不变内核（batch-invariant kernels），确保训练和推理的比特级一致性。All-reduce 和 reduce-scatter 使用 NVLS 实现低延迟通信内核，注意力机制通过一致的累积顺序实现 decode 和 prefill 之间的对齐。

双层架构：实时响应 + 深度推理¶

系统架构分为两层： 1. 交互模型：持续与用户交换——感知、响应、处理中断、管理对话状态 2. 后台模型：异步执行深度推理、工具调用、长时间任务

当任务需要超出即时处理能力的深度推理时，交互模型将富上下文包（完整对话历史，而非独立查询）委托给后台模型。结果流式返回后，交互模型在合适的时机将更新交织到对话中，而非突然切换上下文。这种设计让用户同时获得响应速度（非思考模型的延迟）和智能深度（推理模型的规划和工具使用能力）。

新交互维度的基准测试¶

Thinking Machines 提出了现有基准无法覆盖的新能力维度：

能力	基准	TML-Interaction-Small	GPT Realtime-2.0 (minimal)
时间感知	TimeSpeak	有显著能力	无能力
语音同步	CueSpeak	有显著能力	无能力
视觉计数	RepCount-A	有显著能力	无能力
视觉主动	ProactiveVideoQA	有显著能力	无能力
视觉定位	Charades mIoU	有显著能力	无能力

没有任何现有商业模型能有意义地执行这些任务。 它们保持沉默或给出错误答案。

与回合制范式的根本差异¶

维度	回合制模型	交互模型
时间感知	无	直接感知经过时间
中断处理	需外部 VAD 组件	模型原生支持
并发语音	不支持	支持（如同声传译）
视觉主动	不支持	可根据视觉变化主动发言
工具调用	与交互串行	与交互并行

实践启示¶

AI 产品设计：交互模型范式表明，"人机协作"不应是外部脚手架的功能，而应是模型的核心能力；产品设计应围绕实时协作而非回合制对话
语音 AI 开发者：关注 Thinking Machines 的 SGLang 流式会话优化贡献，这对低延迟语音 AI 推理有直接价值
安全团队：实时交互对安全提出了新挑战——模态适当的拒绝和长对话鲁棒性需要专门的训练策略（文本转语音生成拒绝数据、自动红队测试多轮拒绝）
研究者：交互质量评估是一个被严重忽视的领域——FD-bench 是少数现有基准之一，Thinking Machines 正在发起研究资助鼓励更多相关研究
企业 AI 架构师：双层架构（实时交互 + 异步后台）的模式可应用于企业级 AI 助手——前台实时响应用户，后台处理复杂分析和工具调用