Skip to content

证据契约

Verdict 的强度只取决于它引用的证据。本契约定义 Agent QC 报告中 evidence-backed verdict 的最小可移植字段。

Evidence reference

FieldRequiredDescription
idYes报告内稳定 evidence id。
kindYes例如 command-logtest-reportprotocol-transcriptsurface-artifactrelease-artifacteval-artifactreview-noteqcloop-run
sourceYes本地路径、artifact URL、CI URL、qcloop id 或 evidence service id。
scopeYes覆盖的 case id、gate id、command、surface、profile 或 release target。
created_atRecommendedtimestamp 或 run id。
environmentRecommendedOS、runtime、browser、terminal size、provider mode、CI job 或 Docker image。
redactionConditional涉及凭证、用户数据、provider requests 或 channel transcripts 时必填。
summaryRecommended简短可读结果。
raw_refOptional安全 raw payload ref。不要内联含密 payload。

Verdict object

FieldRequiredDescription
statusYespassedfailedblockedexhaustedwaivedneeds-reviewskipped
case_idYes被判断的 case。
gate_familyYes被判断的 gate family。
evidence_refsskipped 外必填支撑声明的 evidence ids。
expectations_metRecommended被证据证明的 expectation ids 或文本。
failurefailed 必填最小可行动失败,而不是泛泛抱怨。
blockerblocked 必填缺失环境事实和 owner。
attemptsexhausted 必填attempt refs、budget 和 remaining uncertainty。
waiverwaived 必填approver、reason、scope、expiry。
reviewneeds-review 必填reviewer、queue 或仍需语义 review 的原因。

各 gate 的最低证据

Gate最低证据
staticcommand/CI log、tool version、failing ids 或 success summary
unittest report 或 command log,带 suite 和 failure ids
property-fuzzseed/corpus、invariant,如失败则带 minimized case
contract-protocolschema diff、generated artifact check、fake server 或 protocol transcript
fake-integrationfake server log 和 request/response refs
runtime-e2eruntime transcript、state snapshot、process cleanup 或 retry proof
ui-interactionsurface artifact 加 runtime/protocol link
live-provideropt-in flag、脱敏 request/response、credential scope、cost/budget note
stress-concurrencyworker timeline、seed/config、duration、race/retry result
distribution-releasepackage manifest、clean install、Docker/OS matrix、version output
semantic-evaldataset/rubric、model/judge info、baseline delta、threshold
reviewreviewer identity、scope、evidence refs、decision

Surface evidence 附加项

Surface附加证据
cli-streamstdout/stderr transcript、exit code、structured event sample
tuiterminal size、key sequence、terminal snapshot、linked runtime transcript
webuiPlaywright 或 browser trace/screenshot、console output、route/state assertion
desktop-guishell start log、bridge health、workspace readiness、screenshot、OS note
browser-automationDOM/a11y snapshot、console/network、screenshot、cleanup/orphan-process proof
channel-uiwebhook replay、channel transcript、media fixture、identity/auth proof
eval-uireport screenshot/export、rubric、judge output、reviewer note

Waiver contract

Waiver 不是 pass,而是有时限的风险决策。

FieldRequiredDescription
approverYes接受风险的人、团队或 policy owner。
reasonYes为什么这个 gate 对当前 scope 不要求。
scopeYescase、gate、platform、provider 或 release range。
expiresYeswaiver 失效的日期、版本或条件。
replacement_evidenceRecommended仍然存在的低强度替代证据。
follow_upRecommendedissue、task 或下一条 QC case。

反模式

反模式正确状态
没有 artifact 的“looks good”needs-reviewblocked
只有截图,没有 command/runtime evidence只能算部分 ui-interaction,不是 full pass
live provider output 没有 redaction/budget noteneeds-review
只用 unit tests 证明 desktop bridge 行为GUI/surface 声明应为 blocked
qcloop exhausted 却不保留 attempts 直接 failedexhausted
waiver 没有 owner 或 expiryinvalid waiver

Report closeout checklist

报告可发布的条件:

  • 每个 required gate 都有 verdict;
  • 每个 passedfailed verdict 都有 evidence refs;
  • 每个 blockedexhaustedwaivedneeds-review 说明为何不是 pass;
  • live-provider evidence 已脱敏且记录预算;
  • surface evidence 连接 visible behavior 与 runtime 或 protocol facts;
  • remaining risk 和 next action 明确。

Draft standard for evidence-driven quality control of Agent projects.