Stripe Financial Compliance AI Agent: Production Lessons¶
Ch04.443 Stripe Financial Compliance AI Agent: Production Lessons¶
📊 Level ⭐⭐ | 4.9KB |
entities/stripe-financial-compliance-ai-agent-production-lessons.md
Stripe Financial Compliance AI Agent: Production Lessons¶
Stripe 在 AWS Bedrock 上构建生产级合规审查 Agent 系统,处理年 $1.4 万亿支付量的合规审查需求。核心成果:审查处理时间减少 26%,帮助率超 96%,人类审查者保持最终决策权。
核心架构:ReAct + DAG 任务分解¶
Stripe 的 Agent 架构有三个关键组件:
1. 任务分解为 DAG(有向无环图)¶
单一 Agent 无法处理复杂合规审查。Stripe 将审查拆分为可组合的子任务,形成 DAG。每个子任务可能依赖其他子任务的输出,通过"rails"(轨道约束)确保 Agent 只在经过质量测试的问题范围内运行。
关键设计:Agent 响应不直接用于决策,而是作为补充信息提供给人类审查者。审查者通过审查工具交互,工具充当编排器,将人类审查的答案作为更深层问题的上下文传递。
2. ReAct Agent 框架¶
Stripe 使用 ReAct(推理+行动)框架解决"近无限信号"问题:
闭环控制机制:每当 Thought 块请求工具时,框架停止 LLM 执行,程序化运行该工具,强制将输出作为 Observation 注入后再继续。这实现了: - 基于实际数据的推理 — 防止幻觉/虚构工具结果 - 上下文连贯性 — 强制 Agent 显式处理每条信息 - 防止推理漂移 — Observation 作为检查点 - 可审计性 — 工具调用→观察→推理的显式追踪链
挑战:多轮对话导致 prompt 膨胀。通过子任务分解限制每个问题范围 + prompt caching(Amazon Bedrock 支持)解决,后者仅支付新追加的 tokens。
3. 专用 Agent 服务¶
Stripe 刻意将 Agent 与传统 ML 推理引擎分离,原因:
| 维度 | 传统 ML | Agent |
|---|---|---|
| 计算特征 | 计算密集(GPU/CPU) | 网络密集(等待 LLM/工具) |
| 延迟 | 毫秒级 | 分钟级(多轮工具调用) |
| API | 简单类型输出 | 灵活 schema + 状态对话 |
该服务从启动时的几个 Agent 增长到一年内超过 100 个。
LLM Proxy 架构¶
Stripe 不直接调用 Amazon Bedrock,而是通过 LLM Proxy 微服务:
- 噪声隔离 — 防止多团队争抢 LLM 带宽
- 统一 API — 一个端点支持多模型,切换模型只需改参数
- 模型降级 — 资源受限时自动切换默认模型
- 监控追踪 — 跟踪模型使用量,预测资源需求
成本优化:Prompt Caching¶
Amazon Bedrock 的 prompt caching 通过复用跨 Agent 轮次的公共 prompt 前缀,将 token 成本降低 60%。仅支付每轮新追加的观察和思考。
生产结果¶
- 审查处理时间减少 26%(中位数)
- 帮助率评分超过 96%
- 人类审查者保持决策权
- 完整审计追踪满足监管检查标准
关键经验(可复用模式)¶
- 小任务 — 保持 Agent 任务在工作记忆范围内,增量测试质量而非直接全自动化
- DAG 编排 — 异步工作流 + DAG 支持是复杂 Agent 交互的基础,同时维护可审计性和人类监督
- 专用基础设施 — Agent 与传统 ML 的资源模型完全不同,需要独立微服务架构
- Token 缓存 — prompt caching 降本 60%,是生产 Agent 的关键成本杠杆
- 人类在控制中 — Agent 辅助但不替代,用"rails"约束 Agent 到可控范围
与现有 Agent 实体的差异化¶
本文聚焦金融合规这一高风险场景的 Agent 生产实践,与通用 Agent 架构文章形成互补: - Agent Harness Architecture Deep Dive Aksahy — Agent Harness 通用架构深度分析 - 17 Agent Architectures Evolution — 17 种 Agent 架构演化全景
本文独特贡献: 1. ReAct 闭环控制的生产实现细节(Thought→Tool→Observation 注入模式) 2. Agent vs 传统 ML 基础设施分离的决策论证(网络密集 vs 计算密集) 3. LLM Proxy 模式的噪声隔离 + 模型降级设计
数据来源¶
→ 原文存档 (AWS China ML Blog, 2026-06-26)