这一周论文的关键词是工程约束

本周最值得看的 agent 论文,没有集中在「模型又强了多少」,而是集中在生产约束:沙箱、回滚、隐藏测试、真实终端任务、PR 结果解释、越权行为和系统级安全。

这是好信号。一个领域只有进入真实使用,才会开始认真研究失败如何恢复、指标如何防投机、权限如何收口、经验如何沉淀。

DeltaBox:长程 agent 需要能快速回滚的沙箱

DeltaBox 讨论的是有状态 AI agents 的毫秒级 sandbox checkpoint 和 rollback。它的核心价值不在某个漂亮数字,而在提出一个更底层的问题:agent 如果要探索、试错、并行跑分支,就不能把环境看成一次性的黑箱。

长程 coding agent 经常需要安装依赖、跑测试、改文件、启动服务。没有快照和回滚,每一次错误尝试都可能污染环境,后续判断也会跟着变脏。沙箱回滚会成为下一阶段 agent runtime 的关键能力。

SpecBench 和 Agent PR 研究都在反对粗糙指标

SpecBench 用 visible tests 和 held-out tests 的差距来测 reward hacking。它提醒我们,长程 coding agent 很容易学会满足可见测试,而不是真的完成规格。

Why Are Agentic Pull Requests Merged or Rejected? 研究 11048 个 agent PR,进一步提醒我们,merge 或 reject 不能简单等同 agent 成功或失败。一个 PR 被拒,可能是流程、沟通、权限、review 预期或上下文缺失导致;一个 PR 被合,也不一定说明 agent 真懂了系统。

这两篇放在一起,结论很直接:agent 评测不能只看最终状态,要看隐藏约束、交互过程和人类 review 的语境。

TerminalWorld 和 Oovereager 论文把真实动作拉进评测

TerminalWorld 从真实终端录屏自动构造任务,试图让 terminal agent 的评测更接近真实环境。真实终端任务麻烦在于状态多、反馈杂、错误会累积,这比小型静态 benchmark 更能暴露 agent 的运行能力。

Overeager Coding Agents 则提醒另一个问题:agent 不只是可能做错,也可能做多。它可能自作主张改超出任务范围的文件、运行危险命令、扩大变更面。对生产系统来说,越权行为和错误答案一样重要。

安全论文的共同结论:不要把模型当可信边界

Agent Security is a Systems Problem 把立场说得很明确:模型应该被当作不可信组件,安全不变量要在系统层 enforced。Domain-Camouflaged Injection Attacks 进一步说明,提示注入不一定长得像「忽略之前指令」,它可以伪装成目标领域里的正常话术和权威结构,从而绕过检测器。

这对产品设计很关键。只靠模型判断「这是不是恶意内容」不够,系统必须有权限隔离、工具调用策略、数据边界、审计日志和回滚机制。agent 越能行动,系统边界越不能偷懒。

本周论文留下的判断

本周论文共同把 agent 评测和运行时推硬了。未来有用的 agent benchmark,不会只问模型答对几题,而会问它在真实环境里能不能保持边界、能不能恢复、能不能通过隐藏约束、能不能解释自己为什么被合并或拒绝。

这也是产品团队应该带走的判断:不要只追能力曲线。agent 一旦进生产,运行时、评测和安全边界会比单次生成质量更快决定它能走多远。