Skip to content

English mirror

This English page is generated from the current Chinese documentation so every route, anchor, code sample, and language switch stays available on agently.tech. Human-edited English copy can replace this generated body page by page.

Read the Chinese source page

生产治理 Playbook

AI Agent 原型的演示通常看最终回答。企业上线看的是另一组问题:一次改动有没有让系统变好,失败能不能定位到具体层,成本是否可控,高风险动作有没有审批,线上服务能不能被产品和运维团队接住。

生产治理不是把功能做完后的装饰层。每新增一层智能能力,就要新增一层可验证证据。

先用四类证据说话

证据解决什么问题Agently 入口
输出契约业务系统能不能稳定消费结果输出控制模型响应
运行轨迹一次请求、Action、流程和环境到底发生了什么Event CenterDevTools
状态证据产物、决策、检查点和上下文能不能找回Workspace长程任务状态与恢复 Playbook
场景回归改 prompt、模型、工具或 flow 后是否真的变好DevTools EvaluationBridge、应用测试、模型 judge

这些证据放在一起,才能从“这次输出看起来不错”升级到“这条能力可以被持续迭代”。

Eval:先固定代表性场景

最小 eval 不需要覆盖所有线上输入。先选能代表业务风险的样例:

样例类型检查点
正常输入字段完整、流程正确、输出可消费
边界输入缺字段、模糊意图、长文本、重复提交
高风险输入需要拒绝、审批、人工接管或最小权限
回归输入历史线上问题、客户反馈、版本变更点

判断方式按风险分层:

  • 字段、枚举、必填项:用结构化 output 和确定性断言。
  • 业务规则:用明确规则检查,比如金额阈值、可逆性、审批要求。
  • 语义质量:用第二个 Agently model judge 输出结构化判定,不靠关键词猜测。
  • 人工验收:保留样例、输入、输出、judge 结果和人工结论。

DevTools 的 EvaluationBridge 适合开发期和发布前跑固定场景;线上请求不要全部实时塞进 eval。

Trace:让问题能定位到层

一个生产问题至少要能定位到下面哪一层:

text
Gateway
  task_id / session_id / trace_id / tenant

Request
  model request / output validation / retry

Action
  selected action / args / result / error / approval

ExecutionEnvironment
  environment declared / approval / ready / failed / released

TriggerFlow
  execution_id / chunk / pause / resume / close snapshot

Workspace
  artifact refs / decisions / checkpoints / ContextPack

Event Center 负责接收框架级 RuntimeEvent。生产日志、指标和审计 hook 应该从 run 字段关联链路,不要从 message 文本里解析 id。

Runtime stream 和观测事件不要混

需求
前端展示“正在审查第 3 条风险”TriggerFlow runtime stream
诊断模型请求和 action 是否发生Event Center / RuntimeEvent
本地看完整运行过程DevTools ObservationBridge
发布前跑代表性样例DevTools EvaluationBridge 或应用测试

给 UI 的 stream item 应该是稳定业务事件,例如 report_section_readyapproval_requiredrisk_item_ready。不要让前端绑定 raw parser path 或低层 token。

成本与可靠性先放在 owner 里

问题Owner设计动作
高频请求成本失控Gateway / runtime settings设置模型档位、预算、限流和降级路径
模型首 token 或流式响应卡住model requester / result facade配置 timeout、stream idle、materialization timeout
Action 慢或失败Action Runtime / adapter设置 timeout、错误结构、重试和 fallback
非幂等动作重复执行业务 adapter幂等键、外部写入记录、重复请求保护
长流程中断TriggerFlow / Workspaceexecution save、checkpoint、resume 和 artifact refs
prompt 或 flow 改动后质量不明Eval / DevTools固定样例集、基线、发布前回归

成本和可靠性不是一个全局开关。它们分散在 gateway、model requester、Action adapter、TriggerFlow 和业务系统里,需要按 owner 配置。

安全基线从能力可见范围开始

安全不是只靠 prompt 让模型谨慎。至少要处理四层:

要控制什么
可见能力本轮任务让模型看到哪些 Action、MCP tool、Skill 和资源
执行权限哪些动作只读、哪些要审批、哪些 fail closed
数据边界输入、工具返回、日志、trace 和报告是否需要脱敏
审计恢复高风险动作、审批、resume、外部写入是否可追踪

MCP 解决能力标准化暴露,不自动解决企业治理。Host / Action Runtime / ExecutionEnvironment / 业务 adapter 才是权限、裁剪、脱敏和审计的 owner。

上线拓扑的最小分层

text
api-gateway
  auth / tenant / route / rate limit / SSE or WebSocket

agent-service
  Agent definition / request contracts / result projection

workflow-worker
  TriggerFlow / Dynamic Task / pause-resume / stream bridge

capability-adapters
  Actions / MCP clients / internal APIs / sandbox environments

state-store
  Session store / Workspace / checkpoint / business DB refs

observer-eval
  RuntimeEvent hooks / DevTools / eval cases / release evidence

早期可以在一个进程里实现这些模块,但代码职责最好按这个分层放。等到负载、安全或组织协作需要拆服务时,不需要重新解释边界。

上线前检查

检查通过标准
输出所有业务写入来自结构化 data 或 snapshot 投影
流式UI stream 是稳定业务事件,最终状态另行持久化
工具Action/MCP 能力有 schema、权限、timeout 和错误语义
环境沙箱、浏览器、数据库、MCP server 生命周期有 owner
状态大产物进 Workspace,execution state 只留紧凑数据和 ref
恢复pause/resume、checkpoint、live resource reinjection 路径清楚
观测关键层都有 RuntimeEvent、trace id 或业务日志
评估代表性样例可重复运行,并记录通过标准
安全高风险动作有审批、审计和 fail-closed 路径
更新release notes、示例、官网文档和 Agently-Skills 指引能同步

继续阅读