TerminalWorld：终端 Agent 评测不能只靠人造题

返回文章列表

论文精选 AI Agent 研究文章

Feature Essay

TerminalWorld：终端 Agent 评测不能只靠人造题

很多 coding agent benchmark 像考试题，干净、短、边界清楚。真实终端工作不是这样：命令多、状态乱、步骤长、反馈碎，还会包含大量日常操作。TerminalWorld 试图把这种真实性引入评测。

2026-05-25 00:50 北京时间 9 分钟难度：进阶

47 阅读 0 点赞

快速答案

TerminalWorld 从真实终端录屏反向构造任务，得到 1530 个验证任务和 200 个人工复核子集。它说明终端 Agent 的真实难度，比专家手写 benchmark 更杂、更长、更贴近日常开发。

论文处理 80870 条真实终端录屏，生成 1530 个验证任务，覆盖 18 类真实任务和 1280 个唯一命令。
TerminalWorld-Verified 包含 200 个代表性人工复核任务，八个前沿模型和六个 Agent 的最高通过率只有 62.5%。
它与 Terminal-Bench 等专家构造评测相关性弱，说明真实终端能力不能被单一榜单覆盖。

终端任务比代码补丁更琐碎

很多人谈 coding agent，会自然想到修 bug、写 feature、提 PR。可开发者每天在终端里做的事更杂：查文件、装依赖、看日志、跑脚本、处理权限、压缩解压、调环境变量、清缓存。

这些任务不一定高级，却很考验 Agent。因为它们依赖环境状态，反馈不稳定，步骤可能超过几十步，错误常常需要靠经验判断。

TerminalWorld 的价值，是把评测从人造题拉向真实终端工作流。

数据怎么来

论文提出一个数据引擎，从 in-the-wild terminal recordings 中反向构造高保真评测任务。它处理 80870 条终端录屏，得到 1530 个验证任务，覆盖 18 个真实类别，既有日常短操作，也有超过 50 步的工作流，并包含 1280 个唯一命令。

在此基础上，作者还整理了 TerminalWorld-Verified：200 个代表性、人工复核任务。这个子集更适合做稳健比较。

这种方法的优势是可扩展，而且会随着开发者实践变化而更新。人手写 benchmark 往往滞后于真实工作习惯。

结果揭示了什么

论文在 TerminalWorld-Verified 上测试八个前沿模型和六个 Agent，当前系统最高通过率只有 62.5%。真实终端任务仍然很难，尤其是长步骤、多反馈、状态依赖任务。

更有意思的是，TerminalWorld 和现有专家构造 benchmark 的相关性弱，论文提到与 Terminal-Bench 的 Pearson r 只有 0.20。一个 Agent 在标准题上表现好，不一定能处理真实终端录屏还原出来的任务。

这对产品宣传很有约束力。不能只拿一个 benchmark 分数证明「会用终端」。真实用户遇到的任务分布更宽。

对开发者工具的启发

终端 Agent 如果要变得可用，不能只优化代码生成。它需要更好的环境感知、命令选择、错误恢复、状态摘要和安全边界。

产品上，也应该把终端操作变得可审计：用户能看到它执行了哪些命令、为什么执行、失败后怎么恢复、高风险命令是否等待确认。

TerminalWorld 的长期意义，是给 Agent 工具链提供更接近真实世界的温度计。它不会替代所有评测，但能提醒团队别只在干净题目上自我感觉良好。

参考来源

TerminalWorld: Benchmarking Agents on Real-World Terminal Tasks

还没有评论，你可以写下第一条。

继续阅读

同主题延伸

如果你想顺着当前问题继续往下挖，这里优先给相近主题的文章。

2026-05-25 00:45 北京时间 8 分钟同主题：论文精选等 3 个标签

编辑精选

如果你想从这篇扩出去，这里放最近值得继续看的站内长文。

2026-05-29 21:35 北京时间 12 分钟编辑精选

下一篇 Agentic CLEAR：只做可观测还不够，Agent 需要解释型评测

阅读难度

进阶

信息密度适中，适合连续阅读。

要点

论文处理 80870 条真实终端录屏，生成 1530 个验证任务，覆盖 18 类真实任务和 1280 个唯一命令。
TerminalWorld-Verified 包含 200 个代表性人工复核任务，八个前沿模型和六个 Agent 的最高通过率只有 62.5%。
它与 Terminal-Bench 等专家构造评测相关性弱，说明真实终端能力不能被单一榜单覆盖。

RSS

Subscribe to long-form updates through RSS. Feed timestamps use Beijing time.

Open RSS feed

LLMs

This site also exposes llms.txt and sitemap.xml for model-friendly discovery.

Open llms.txt

TerminalWorld：终端 Agent 评测不能只靠人造题

快速答案

终端任务比代码补丁更琐碎

数据怎么来

结果揭示了什么

对开发者工具的启发

参考来源

评论（0）

继续阅读

同主题延伸

Spreadsheet-RL：办公 Agent 可能需要专门训练

WorkstreamBench：金融表格 Agent 评测开始贴近真实流程

Agentic CLEAR：只做可观测还不够，Agent 需要解释型评测

编辑精选

Git 入门：先看懂版本、分支和协作

Contractual Skills：企业 Agent 的技能文件该像合同

Boiling the Frog：Agent 安全要看多轮动作