Stripe Financial Compliance AI Agent: Production Lessons¶

Ch04.443 Stripe Financial Compliance AI Agent: Production Lessons¶

📊 Level ⭐⭐ | 4.9KB | entities/stripe-financial-compliance-ai-agent-production-lessons.md

Stripe Financial Compliance AI Agent: Production Lessons¶

Stripe 在 AWS Bedrock 上构建生产级合规审查 Agent 系统，处理年 $1.4 万亿支付量的合规审查需求。核心成果：审查处理时间减少 26%，帮助率超 96%，人类审查者保持最终决策权。

核心架构：ReAct + DAG 任务分解¶

Stripe 的 Agent 架构有三个关键组件：

1. 任务分解为 DAG（有向无环图）¶

单一 Agent 无法处理复杂合规审查。Stripe 将审查拆分为可组合的子任务，形成 DAG。每个子任务可能依赖其他子任务的输出，通过"rails"（轨道约束）确保 Agent 只在经过质量测试的问题范围内运行。

关键设计：Agent 响应不直接用于决策，而是作为补充信息提供给人类审查者。审查者通过审查工具交互，工具充当编排器，将人类审查的答案作为更深层问题的上下文传递。

2. ReAct Agent 框架¶

Stripe 使用 ReAct（推理+行动）框架解决"近无限信号"问题：

Thought → Tool → Observation → Thought → ... → Final Answer

闭环控制机制：每当 Thought 块请求工具时，框架停止 LLM 执行，程序化运行该工具，强制将输出作为 Observation 注入后再继续。这实现了： - 基于实际数据的推理 — 防止幻觉/虚构工具结果 - 上下文连贯性 — 强制 Agent 显式处理每条信息 - 防止推理漂移 — Observation 作为检查点 - 可审计性 — 工具调用→观察→推理的显式追踪链

挑战：多轮对话导致 prompt 膨胀。通过子任务分解限制每个问题范围 + prompt caching（Amazon Bedrock 支持）解决，后者仅支付新追加的 tokens。

3. 专用 Agent 服务¶

Stripe 刻意将 Agent 与传统 ML 推理引擎分离，原因：

维度	传统 ML	Agent
计算特征	计算密集（GPU/CPU）	网络密集（等待 LLM/工具）
延迟	毫秒级	分钟级（多轮工具调用）
API	简单类型输出	灵活 schema + 状态对话

该服务从启动时的几个 Agent 增长到一年内超过 100 个。

LLM Proxy 架构¶

Stripe 不直接调用 Amazon Bedrock，而是通过 LLM Proxy 微服务：

噪声隔离 — 防止多团队争抢 LLM 带宽
统一 API — 一个端点支持多模型，切换模型只需改参数
模型降级 — 资源受限时自动切换默认模型
监控追踪 — 跟踪模型使用量，预测资源需求

成本优化：Prompt Caching¶

Amazon Bedrock 的 prompt caching 通过复用跨 Agent 轮次的公共 prompt 前缀，将 token 成本降低 60%。仅支付每轮新追加的观察和思考。

生产结果¶

审查处理时间减少 26%（中位数）
帮助率评分超过 96%
人类审查者保持决策权
完整审计追踪满足监管检查标准

关键经验（可复用模式）¶

小任务 — 保持 Agent 任务在工作记忆范围内，增量测试质量而非直接全自动化
DAG 编排 — 异步工作流 + DAG 支持是复杂 Agent 交互的基础，同时维护可审计性和人类监督
专用基础设施 — Agent 与传统 ML 的资源模型完全不同，需要独立微服务架构
Token 缓存 — prompt caching 降本 60%，是生产 Agent 的关键成本杠杆
人类在控制中 — Agent 辅助但不替代，用"rails"约束 Agent 到可控范围

与现有 Agent 实体的差异化¶

本文聚焦金融合规这一高风险场景的 Agent 生产实践，与通用 Agent 架构文章形成互补： - Agent Harness Architecture Deep Dive Aksahy — Agent Harness 通用架构深度分析 - 17 Agent Architectures Evolution — 17 种 Agent 架构演化全景

本文独特贡献： 1. ReAct 闭环控制的生产实现细节（Thought→Tool→Observation 注入模式） 2. Agent vs 传统 ML 基础设施分离的决策论证（网络密集 vs 计算密集） 3. LLM Proxy 模式的噪声隔离 + 模型降级设计

数据来源¶

→ 原文存档 (AWS China ML Blog, 2026-06-26)