长文库

技术、行业、人物与 Agent 系统观察。

AI 论文精选

只看最近 7 天真正会改变工程或产品判断顺序的 AI 论文,不做摘要搬运。

导读 + 3 篇正片 建议顺序:先读 00 看筛选口径,之后只沿最近 7 天窗口滚动更新。 最近更新:03|论文精选:Agent 评测和运行时正在变硬
先看导读

Latest Archive

论文精选

论文精选 时间线。

2026-05-25 00:50 北京时间 9 分钟 阅读难度:进阶

TerminalWorld:终端 Agent 评测不能只靠人造题

TerminalWorld 从真实终端录屏反向构造任务,得到 1530 个验证任务和 200 个人工复核子集。它说明终端 Agent 的真实难度,比专家手写 benchmark 更杂、更长、更贴近日常开发。

  • 论文处理 80870 条真实终端录屏,生成 1530 个验证任务,覆盖 18 类真实任务和 1280 个唯一命令。
阅读全文
2026-05-25 00:49 北京时间 8 分钟 阅读难度:进阶

Agentic CLEAR:只做可观测还不够,Agent 需要解释型评测

Agentic CLEAR 位于 observability layer 之上,试图从系统、trace 和 node 三个层级自动生成行为判断。它解决的「日志能不能变成可行动的评测」。

  • 论文提出系统、trace、node 三层粒度的自动评测反馈,目标是让错误分析适配不同领域。
阅读全文
2026-05-25 00:47 北京时间 9 分钟 阅读难度:入门

Contractual Skills:企业 Agent 的技能文件该像合同

Contractual Skills 把 SKILL.md 从提示材料升级为可检查的任务合同:目标、输入边界、权限、证据、验收标准、审批点和交接规则都要写清楚。

  • 论文提出 GovernSpec-inspired 框架,把技能组织成目标、权限、证据、输出合同和验证步骤。
阅读全文
2026-05-25 00:45 北京时间 8 分钟 阅读难度:入门

Spreadsheet-RL:办公 Agent 可能需要专门训练

Spreadsheet-RL 用强化学习训练专门的表格 Agent,并在 SpreadsheetBench 和领域表格任务上提升 Pass@1。它说明办公自动化不一定靠通用模型提示就能解决。

  • 论文构建 Spreadsheet Gym,在 Microsoft Excel 环境中通过 Python sandbox 暴露大量表格功能。
阅读全文
2026-05-25 00:43 北京时间 8 分钟 阅读难度:进阶

Boiling the Frog:Agent 安全要看多轮动作

Boiling the Frog 把安全评测从单轮有害回答,转向企业办公环境里的多轮渐进攻击。它提醒我们,Agent 风险往往是在状态被慢慢改坏后出现。

  • 论文用 stateful multi-turn evaluation 检查工具型模型是否会在渐进请求中产生不安全 artifact。
阅读全文
2026-05-25 00:41 北京时间 9 分钟 阅读难度:进阶

Claw AI Lab:自动科研需要实验室而不是流水线

Claw AI Lab 把自动科研从隐藏的 prompt-to-paper 流水线,改造成可交互、可监控、可回滚的多 Agent 实验室。它的让研究过程更可控。

  • 论文允许用户从一个 prompt 实例化研究团队,并支持角色定制、实时监控和 artifact inspection。
阅读全文
2026-05-25 00:39 北京时间 8 分钟 阅读难度:进阶

WorkstreamBench:金融表格 Agent 评测开始贴近真实流程

WorkstreamBench 把 Agent 评测放进端到端金融表格任务,而不是只看孤立公式或单步操作。它提醒我们,企业 Agent 的难点往往在流程、文件状态和业务语境。

  • WorkstreamBench 关注金融场景里的端到端 spreadsheet tasks,问题比单点 Excel 操作更接近企业工作。
阅读全文
2026-05-25 00:37 北京时间 8 分钟 阅读难度:入门

HarnessAPI:MCP 工具不该和 HTTP 接口各写一遍

HarnessAPI 把 typed skill folder 作为单一真源,同时生成流式 HTTP endpoint、OpenAPI 页面和 MCP tool。它真正指出的问题是:Agent 工具层如果继续手工复制,很快会漂移。

  • HarnessAPI 从一个 handler.py 和 Pydantic schema 派生 HTTP、Swagger UI 和 MCP tool。
阅读全文
2026-05-25 00:35 北京时间 9 分钟 阅读难度:进阶

DeltaBox:长程 Agent 需要毫秒级回滚

DeltaBox 把 Agent 沙箱从「隔离环境」推进到「可快速试错的执行底座」。它讨论的 checkpoint 和 rollback,决定长程 Agent 能不能安全探索多条路径。

  • DeltaBox 针对有状态 Agent 提供 sandbox checkpoint 和 rollback,目标是支持低成本试错。
阅读全文
2026-05-25 00:33 北京时间 8 分钟 阅读难度:进阶

LCGuard:多 Agent 共享 KV 缓存的隐私边界

LCGuard 关注一个容易被忽略的通道:多 Agent 系统不只会通过自然语言泄密,也可能通过共享 KV cache 泄漏上下文、推理状态和角色私有信息。

  • 论文把共享 KV cache 视作 latent working memory,并用可重构敏感输入来定义泄漏风险。
阅读全文
2026-05-25 00:31 北京时间 9 分钟 阅读难度:进阶

MOSS:Agent 自我进化不能只改提示词

MOSS 把自我进化从 prompt、技能文件和工作流配置推进到源码层。它值得讨论的重点是失败证据、回放验证、用户同意和回滚机制能否形成生产完整流程。

  • MOSS 认为源码级改写是 prompt、技能文件和工作流图的严格超集,可以覆盖结构性失败。
阅读全文
2026-05-24 12:33 北京时间 10 分钟 阅读难度:入门

Agent 记忆重点是生命周期管理

最近几篇 Agent memory 论文给出的共同判断很清楚:长期记忆不能只是把历史塞进向量库,而要管理写入、检索、更新、遗忘、调度和成本。

  • Goal-Mem 把检索从相似度搜索推进到目标分解,说明记忆 retrieval 必须服务于推理目标。
阅读全文
2026-05-24 01:58 北京时间 9 分钟 阅读难度:进阶

03|论文精选:Agent 评测和运行时正在变硬

这一周最值得看的论文,都在把 agent 从演示推回工程约束:沙箱回滚、隐藏测试、PR 结果解释、终端真实任务、越权行为和系统级安全。

  • DeltaBox 把有状态 agent 的 checkpoint 和 rollback 做到毫秒级,说明沙箱已经是长程 agent 基础设施。
阅读全文
2026-05-18 12:00 北京时间 8 min 阅读难度:入门

02|AI 论文精选:工具落地评测正在变硬

本周值得读的论文,集中在工具调用的落地评测:不只是看模型能不能调出工具,更要看工具反馈被吸收的方式。

  • 工具调用评测从单步成功率,转向多轮稳定性和错误回收能力。
阅读全文
2026-04-10 10:25 北京时间 9 分钟 阅读难度:进阶

01|论文精选:这一周最值得看的三条判断

这一周最有价值的论文,同时改了三条判断:个人代理依然很脆弱,自动化 QA 还远不到可托付,竞赛编程 agent 的上限又被往上推了一截。

  • OpenClaw 与 CIK-Bench 给出一个刺眼结果:面对真实网页里的对抗内容,个人 AI 代理的提示注入攻击成功率达到 73.7%。
阅读全文
2026-04-09 08:30 北京时间 6 分钟 阅读难度:进阶

00|论文精选:最近 7 天的新论文该怎么挑

这条线只看最近 7 天值得工程和产品层继续跟进的 AI 论文,重点判断问题定义、证据强度和落地价值,不做摘要搬运,也不追每天的热点论文名单。

  • 默认只看最近 7 天公开的新论文或重要新版本,不靠旧论文翻红撑版面。
阅读全文