Skip to content

规范

Agent Evidence 最新草案是面向 Agent 工作证据记录的可移植标准。核心契约是 Agent outcome 与信任、回放、评审、脱敏、审计这些 outcome 所需证据之间的边界。

Agent Evidence 拥有 evidence relationships 与 read models。它不拥有 runtime execution、telemetry storage、source documents、artifact bytes、policy verdicts、legal conclusions 或 UI rendering。

范围

Agent Evidence 标准化以下实现问题:

  1. Evidence pack 的 identity、scope、lifecycle 与 completeness status。
  2. 将 assertions 连接到 sources、artifacts、tool results、telemetry refs 与 verification facts 的 claim maps。
  3. 带 selectors、snippets、retrieval metadata、omissions、freshness、trust 与 contradiction records 的 source maps。
  4. 连接 entities、activities、agents、models、tools、humans、artifacts、peer tasks 与 runs 的 provenance chains。
  5. Verification results、review verdicts、rubrics、sign-off facts 与 open issues。
  6. 描述哪些内容可重建、哪些 facts 缺失的 replay cases。
  7. Redaction、retention、privacy、access 与 export-safety metadata。
  8. 与 runtime ids、trace ids、span ids、events、logs、metrics 的 telemetry correlation。
  9. 面向 audit、support、compliance、incident response 与 cross-system handoff 的 export manifests。

Agent Evidence 标准化 UI component model、model provider protocol、observability backend、artifact byte format、legal policy、vector store、tool registry 或 workflow language。

真实证据系统的压力

Agent Evidence 不是更好看的 citation format。真实 Agent 系统反复出现这些要求:

  1. Final answers 混合 facts、recommendations 与 generated fields;每一类都需要独立 support state。
  2. Source 可能支撑一个 claim、反驳另一个 claim,并作为第三个 claim 的 background context。
  3. Retrieval systems 会 omit、deduplicate、filter 或 reject sources;reviewer 需要知道原因。
  4. Tool results 与 artifacts 会长期影响 claims,即使 raw output 已被截断或 redacted。
  5. Runtime traces 对 debugging 必要,但不足以 review,因为它们不分类 claim support。
  6. Review 与 verification 必须独立记录;passing check 不等于 approval。
  7. Replay 往往只能 approximate,因为 model output、APIs、indexes、policies 与 permissions 会变化。
  8. Privacy redaction 必须保留 audit shape,而不是静默删除不方便的事实。
  9. Evidence 必须跨 UI 改版、backend migration、support export 与 peer-agent handoff 存活。

参考架构

兼容实现可以把这些步骤放在一个进程中,也可以拆到多个服务里。契约是可移植 evidence model,不是部署拓扑。

核心对象

Object目的
evidence_pack一个 session、task、run、artifact、answer 或 review scope 的 evidence graph 可移植容器。
claim可能需要支撑的 assertion、decision、recommendation、generated field 或 artifact section。
source_ref指向 document、knowledge item、retrieval result、tool output、artifact、trace、human input、policy、peer record 或 external record 的引用。
support_edgeclaim 与 supporting、contradicting、qualifying 或 background evidence 之间的关系。
provenance_nodeoutcome 生产过程中的 entity、activity 或 agent-like participant。
verification_result带 status、coverage、severity 与 evidence links 的检查结果。
review_verdicthuman、automated 或 policy review decision。
replay_case重建 run 或 outcome 的 instructions 与 boundaries。
redaction_record哪些内容被隐藏、转换、tokenized 或 withheld,以及原因。
export_manifest描述 files、schemas、hashes、access 与 completeness 的可移植 manifest。

身份模型

Identity含义
evidence_pack_idevidence pack 的 stable id。
scope_idsession、thread、turn、task、run、artifact、answer、dataset row、review、incident 或 external case id。
claim_idclaim 或 generated assertion 的 stable id。
source_idsource reference 的 stable id。
edge_idsupport、contradiction、provenance 或 review edge 的 stable id。
verification_idverification result 的 stable id。
review_idreview verdict 的 stable id。
replay_idreplay case 的 stable id。
redaction_idredaction record 的 stable id。
export_idexport manifest 的 stable id。
trace_id / span_id可用时的 telemetry correlation ids。

兼容实现 MUST NOT 依赖单一 message id 表示所有 evidence。Claims、sources、artifacts、tool calls、reviews、replay cases 与 exports 都需要各自稳定的 ids。

Evidence pack envelope

每个 evidence pack SHOULD 包含:

Field要求
evidence_pack_idRequired stable pack id。
schema_versionRequired Agent Evidence schema version。
scopeRequired scope object,至少包含一个 owner 或 external id。
statusRequired lifecycle status。
created_at, updated_atRequired timestamps。
producerRequired runtime、service、worker 或 host,表示组装 pack 的主体。
claims, sources, support_edgesInline compact facts 或 claim/source maps 的 refs。
provenanceProduction graph 或 ref。
verification_results, reviewsCheck 与 verdict facts。
replay_cases可用时的 reconstruction instructions。
redactionsRedaction summary 与 records。
telemetryRuntime 与 observability correlation refs。
completeness按 category 记录的 completeness state。
refsExternal payload refs、schemas、artifacts、traces 或 export locations。

大型 payload SHOULD 以引用方式保存,不要复制。适合离线 inspection 的小型事实可以 inline。

生命周期

Evidence packs SHOULD 支持这些 states:

Status含义
draftEvidence graph 正在组装。
collectingRuntime、telemetry、source、artifact 或 review facts 仍在到达。
readyPack 已足够用于常规 inspection。
partialPack 可用,但已知 facts 缺失。
verifiedRequired checks 通过,或明确标记为 not applicable。
reviewedHuman、automated 或 policy review 产生 verdict。
exported已生成 export manifest。
redactedSensitive content 已转换或 withheld。
expiredRetention policy 移除了 required refs 或 payloads。
invalidPack malformed,或与 authoritative facts 冲突。

Event envelope

Evidence events MAY 通过 CloudEvents-like envelopes、runtime event streams、logs、queues 或 domain APIs 传输。每个 exported event SHOULD 包含:

Field要求
typeRequired event class。
event_idRequired unique event id。
timestampRequired producer timestamp。
schema_versionAgent Evidence event schema version。
evidence_pack_idevent 属于某个 pack 时提供。
claim_id, source_id, verification_id, review_id, replay_id, export_id适用时提供。
trace_id, span_idtelemetry 可用时提供。
subject可选 scoped subject,例如 answer、task、artifact 或 review。
payloadTyped event payload 或 ref。

Event classes

兼容实现 SHOULD emit 或 export 这些 event classes:

  • evidence.pack.created
  • evidence.pack.updated
  • evidence.claim.added
  • evidence.source.linked
  • evidence.support.updated
  • evidence.provenance.linked
  • evidence.verification.completed
  • evidence.review.completed
  • evidence.replay.created
  • evidence.redaction.applied
  • evidence.export.created
  • evidence.warning
  • evidence.error

Completeness model

Pack SHOULD 按 category 声明 completeness,而不是只给一个 boolean:

Category示例
runtimesession、thread、turn、task、run、tool ids。
telemetrytrace ids、spans、logs、metrics。
sourcesselected、omitted、missing、stale、contradicted sources。
claimssupported、unsupported、contradicted、unreviewed claims。
artifactsartifact refs、versions、diffs、exports。
verificationchecks passed、failed、skipped、not applicable。
privacyredactions、retention、access、export controls。
replaydeterministic inputs、unavailable systems、non-replayable steps。

Missing facts MUST 表示为 unknownunavailableredactedexpirednot_applicablenot_collected,不能被推断为 success。

Validation

Validator SHOULD 检查行为与关系:

  • every claim has a status and support classification。
  • source refs identify owner, location, selectors, and retrieval or selection context where applicable。
  • support edges use explicit relationships such as supports, contradicts, qualifies, or background
  • provenance links identify produced-by, used, derived-from, associated-with, or attributed-to relations。
  • verification and review facts do not overwrite each other。
  • telemetry ids are references, not a replacement for evidence semantics。
  • redacted packs remain structurally valid and disclose redaction categories。
  • replay cases declare what cannot be replayed。
  • export manifests include schema version, file list, hashes, and completeness status。

Compatibility levels

Level要求
reference-only实现可以链接外部 evidence pack,但不验证。
read实现可以读取 pack identity、claims、sources、support edges 与 completeness。
write实现可以生成 valid packs 与 update events。
review实现可以附加 verification results 与 review verdicts,且不破坏 existing facts。
export实现可以生成带 hashes、schemas、redactions 与 completeness 的 manifests。
replay实现可以生成 replay cases 与 missing-fact records。

Draft standard for portable agent evidence, provenance, review, and replay.