Skip to content

Readiness 与评估

Readiness 和 Eval 回答的是两个不同问题。

  • Readiness 问:这个 App 现在能不能安全运行?
  • Eval 问:这次输出是否足够可信,可以发布、导出或交付?

一个 App 可以结构有效但 needs-setup;一个 App 也可以 ready,但输出没有通过 eval。

Readiness 输入

Readiness 应检查 manifest、package、host profile、workspace setup、tenant policy 和用户选择。

区域示例检查
Host runtime是否满足 appRuntime 和 SDK 版本范围。
Capabilitieslime.uilime.storagelime.agent 等是否可用。
Runtime packageUI、worker、schema、workflow 路径是否存在。
Permissions必要权限是否声明并可解析。
Knowledge必需 Knowledge template 是否绑定。
Skills必需 Skill 是否安装或随包提供。
Tools必需 Tool 是否可用并授权。
Artifacts宿主是否支持声明的 Artifact 类型。
Evals必需 Eval 是否存在或可由宿主实现。
Secrets必需 secret slot 是否绑定。

Readiness 状态

状态含义
ready可运行选定 entry。
needs-setup需要用户或管理员补 Knowledge、Tool、权限或 secret。
degraded可降级运行。
blockedPolicy、兼容性或必需能力阻塞。
failedpackage 或 manifest 无效。

可行动 finding

json
{
  "severity": "warning",
  "kind": "knowledge",
  "key": "project_knowledge",
  "required": true,
  "message": "运行 content_factory 前请绑定 project_knowledge。",
  "remediation": "选择或创建 brand-product Knowledge Pack。"
}

模糊错误会让用户放弃;可行动 finding 会让用户完成设置。

Eval 类型

Eval用途
Fact grounding验证主张是否有 Knowledge 或来源支撑。
Policy compliance检查客服、法务、安全或品牌规则。
Tone fit检查输出是否符合语气。
Completeness检查必填章节或字段是否完整。
Artifact validity校验表格、JSON、PPT、报告或代码。
Human review导出或发布前必须人工确认。

声明 Eval

yaml
evals:
  - key: fact_grounding
    kind: quality
    evidenceRequired: true
    required: true
  - key: publish_readiness
    kind: human-review
    required: false

如果 Eval 影响信任,就应该链接 Evidence,让用户能看到为什么通过或失败。

连接 Artifact

Eval 不应该只是全局 prompt。尽量绑定到 entry 或 artifact type。

yaml
artifactTypes:
  - key: content_table
    standard: agentartifact
    required: true
evals:
  - key: fact_grounding
    appliesTo: [content_table]
    evidenceRequired: true

这样宿主可以在 Artifact 上直接展示质量状态。

作者检查表

  • 必需设置进入 readiness,而不只写在正文里。
  • 可选依赖有降级行为。
  • Eval 连接到 entry 或 Artifact。
  • 信任敏感 Eval 记录 Evidence。
  • Human review gate 明确。
  • Readiness 不执行 Agent task。
  • Eval 失败不会删除 Artifact,而是标记未通过。

Draft host-platform standard for installable agent applications.