Contractual Skills：企业 Agent 的技能文件该像合同

返回文章列表

论文精选 AI Agent 研究文章

Feature Essay

Contractual Skills：企业 Agent 的技能文件该像合同

Agent 技能文件越来越像软件包：里面有说明、脚本、参考材料和工作流。但在企业环境里，只告诉 Agent 怎么做不够，技能还要说明不能做什么、何时停下、怎么验收、谁来批准。

2026-05-25 00:47 北京时间 9 分钟难度：入门

45 阅读 0 点赞

快速答案

Contractual Skills 把 SKILL.md 从提示材料升级为可检查的任务合同：目标、输入边界、权限、证据、验收标准、审批点和交接规则都要写清楚。

论文提出 GovernSpec-inspired 框架，把技能组织成目标、权限、证据、输出合同和验证步骤。
实验显示 contractual skills 相比 no-skill 和 minimal-skill 基线表现更好，但相对信息丰富的普通技能收益较小。
它最重要的价值是可治理和可维护，而不是把技能文件神化成独立安全机制。

技能文件正在变成治理入口

Agent 的 skill 文件一开始像说明书：告诉模型怎么完成某类任务，附上脚本、模板和参考材料。企业场景里，这还不够。

企业关心的不只是任务完成，还包括输入边界、权限范围、证据要求、输出格式、质量标准、审批节点和交接规则。没有这些，技能文件容易变成「鼓励 Agent 多做事」的提示包。

Contractual Skills 的核心观点是：技能应该像轻量任务合同。它不只指导生成，还要让系统和人能检查任务边界。

框架具体写什么

论文提出 GovernSpec-inspired 设计框架，把 SKILL.md 组织成可读的任务合同。字段包括目标、输入边界、permissions、evidence requirements、output contracts、quality criteria、verification steps、human approval points 和 handoff rules。

这套框架还明确区分 contractual skills、GovernSpec YAML contracts、MCP surfaces、tool adapters、runtime guardrails、tracing 和 evaluation systems。技能文件重点是治理信息的一部分。

这个区分很关键。很多团队容易把所有规则都塞进 prompt，以为模型读了就会遵守。论文更谨慎：技能让意图和边界可见，但真正执行还需要运行时守卫。

实验结果怎么理解

论文做了两个离线实验。文本生成实验覆盖三个企业技能、十五个 synthetic tasks、四种 instruction conditions 和八个生成模型，共 960 个输出、1680 条 cross-judge score records。Contractual skills 在所有测试模型上优于 no-skill 和 minimal-skill。

但相对信息丰富的 plain expanded skills，收益较小且混合。论文自己的解释很克制：contractual fields 主要改善 checkability 和 maintainability，而不是显著提高原始生成质量。

工具调用挑战覆盖八个模型和 192 条 simulated tool-call records。技能通常减少高风险工具尝试，但模型差异仍存在，runtime tool guardrails 仍然必需。

对企业落地的意义

这篇论文最适合给企业 Agent 平台做模板。每个技能上架前，都应该回答几个问题：它能处理哪些输入，不能处理哪些输入，能调用哪些工具，需要什么证据，输出如何验收，什么时候必须交给人。

这样做的收益让维护、审计和复盘更容易。出现事故时，团队可以判断是技能合同写得不清楚，还是运行时没有 enforce，还是模型违反了已知边界。

对开发团队来说，Contractual Skills 也提醒一个现实：技能文件不能无限膨胀成百科全书。它应该承担可发现、可执行、可检查的任务说明，复杂策略则交给更正式的治理和运行时系统。

参考来源

Contractual Skills: A GovernSpec Design Framework for Enterprise AI Agents

还没有评论，你可以写下第一条。

继续阅读

同主题延伸

如果你想顺着当前问题继续往下挖，这里优先给相近主题的文章。

2026-05-25 00:31 北京时间 9 分钟同主题：论文精选等 3 个标签

MOSS：Agent 自我进化不能只改提示词

MOSS 把自我进化从 prompt、技能文件和工作流配置推进到源码层。它值得讨论的重点是失败证据、回放验证、用户同意和回滚机制能否形成生产完整流程。

2026-05-25 00:43 北京时间 8 分钟同主题：论文精选等 3 个标签

Boiling the Frog：Agent 安全要看多轮动作

Boiling the Frog 把安全评测从单轮有害回答，转向企业办公环境里的多轮渐进攻击。它提醒我们，Agent 风险往往是在状态被慢慢改坏后出现。

2026-05-25 00:35 北京时间 9 分钟同主题：论文精选等 3 个标签

DeltaBox：长程 Agent 需要毫秒级回滚

DeltaBox 把 Agent 沙箱从「隔离环境」推进到「可快速试错的执行底座」。它讨论的 checkpoint 和 rollback，决定长程 Agent 能不能安全探索多条路径。

编辑精选

如果你想从这篇扩出去，这里放最近值得继续看的站内长文。

2026-05-29 21:35 北京时间 12 分钟编辑精选

下一篇 Spreadsheet-RL：办公 Agent 可能需要专门训练

阅读难度

入门

概念为主，适合快速进入。

要点

论文提出 GovernSpec-inspired 框架，把技能组织成目标、权限、证据、输出合同和验证步骤。
实验显示 contractual skills 相比 no-skill 和 minimal-skill 基线表现更好，但相对信息丰富的普通技能收益较小。
它最重要的价值是可治理和可维护，而不是把技能文件神化成独立安全机制。

RSS

Subscribe to long-form updates through RSS. Feed timestamps use Beijing time.

Open RSS feed

LLMs

This site also exposes llms.txt and sitemap.xml for model-friendly discovery.

Open llms.txt

Contractual Skills：企业 Agent 的技能文件该像合同

快速答案

技能文件正在变成治理入口

框架具体写什么

实验结果怎么理解

对企业落地的意义

参考来源

评论（0）

继续阅读

同主题延伸

MOSS：Agent 自我进化不能只改提示词

Boiling the Frog：Agent 安全要看多轮动作

DeltaBox：长程 Agent 需要毫秒级回滚

编辑精选

Git 入门：先看懂版本、分支和协作

TerminalWorld：终端 Agent 评测不能只靠人造题

Agentic CLEAR：只做可观测还不够，Agent 需要解释型评测