终端任务比代码补丁更琐碎
很多人谈 coding agent,会自然想到修 bug、写 feature、提 PR。可开发者每天在终端里做的事更杂:查文件、装依赖、看日志、跑脚本、处理权限、压缩解压、调环境变量、清缓存。
这些任务不一定高级,却很考验 Agent。因为它们依赖环境状态,反馈不稳定,步骤可能超过几十步,错误常常需要靠经验判断。
TerminalWorld 的价值,是把评测从人造题拉向真实终端工作流。
数据怎么来
论文提出一个数据引擎,从 in-the-wild terminal recordings 中反向构造高保真评测任务。它处理 80870 条终端录屏,得到 1530 个验证任务,覆盖 18 个真实类别,既有日常短操作,也有超过 50 步的工作流,并包含 1280 个唯一命令。
在此基础上,作者还整理了 TerminalWorld-Verified:200 个代表性、人工复核任务。这个子集更适合做稳健比较。
这种方法的优势是可扩展,而且会随着开发者实践变化而更新。人手写 benchmark 往往滞后于真实工作习惯。
结果揭示了什么
论文在 TerminalWorld-Verified 上测试八个前沿模型和六个 Agent,当前系统最高通过率只有 62.5%。真实终端任务仍然很难,尤其是长步骤、多反馈、状态依赖任务。
更有意思的是,TerminalWorld 和现有专家构造 benchmark 的相关性弱,论文提到与 Terminal-Bench 的 Pearson r 只有 0.20。一个 Agent 在标准题上表现好,不一定能处理真实终端录屏还原出来的任务。
这对产品宣传很有约束力。不能只拿一个 benchmark 分数证明「会用终端」。真实用户遇到的任务分布更宽。
对开发者工具的启发
终端 Agent 如果要变得可用,不能只优化代码生成。它需要更好的环境感知、命令选择、错误恢复、状态摘要和安全边界。
产品上,也应该把终端操作变得可审计:用户能看到它执行了哪些命令、为什么执行、失败后怎么恢复、高风险命令是否等待确认。
TerminalWorld 的长期意义,是给 Agent 工具链提供更接近真实世界的温度计。它不会替代所有评测,但能提醒团队别只在干净题目上自我感觉良好。
还没有评论,你可以写下第一条。