Boiling the Frog：Agent 安全要看多轮动作

返回文章列表

论文精选 AI Agent 研究文章

Feature Essay

Boiling the Frog：Agent 安全要看多轮动作

传统安全评测多看模型说了什么。Agent 上线后，危险的是它做了什么：改文件、调用工具、写入工作区、生成最终 artifact。多轮场景下，风险请求可以被拆散、延迟和伪装。

2026-05-25 00:43 北京时间 8 分钟难度：进阶

36 阅读 0 点赞

快速答案

Boiling the Frog 把安全评测从单轮有害回答，转向企业办公环境里的多轮渐进攻击。它提醒我们，Agent 风险往往是在状态被慢慢改坏后出现。

论文用 stateful multi-turn evaluation 检查工具型模型是否会在渐进请求中产生不安全 artifact。
九个模型面板上的 aggregate strict ASR 为 44.4%，不同模型差异很大。
这类评测说明安全边界要落在工作区状态、工具权限和最终产物，而不只是单轮回答。

单轮安全题不够用了

如果模型只负责回答问题，安全评测可以重点看输出文本：有没有有害内容，有没有歧视，有没有直接执行危险指令。Agent 时代，这个对象变了。

一个办公 Agent 可能连续修改文档、表格、邮件草稿和内部系统记录。攻击者不一定在第一轮提出危险请求，而是先让系统做一串看似正常的编辑，最后再把风险载荷塞进去。

Boiling the Frog 这个名字很直白：风险在多轮状态变化中慢慢升温。

这篇论文怎么测

论文构造的是 stateful multi-turn evaluation。每个场景从良性的 workspace edits 开始，之后在受控位置插入 risk-bearing request，最后评分看 artifact state 是否变得不安全。

它还把场景组织到三层 operational risk taxonomy，参考 Boiling the Frog risks、AI Act Annex I/III 高风险语境和 EU AI Act 关于 GPAI 的 Code of Practice。看工具型模型在工作区里留下了什么。

论文报告，在九个模型面板上，aggregate strict attack success rate 为 44.4%。模型间差异很大：Claude Haiku 4.5 为 20.5%，Gemini 3.1 Flash Lite 为 92.9%，Seed 2.0 Lite 也超过 80%。

为什么这对企业 Agent 很现实

企业里的风险请求很少长得像安全测试题。它可能藏在文档修改、表格汇总、邮件润色、权限说明或政策整理里。单轮检测器看到的是正常语气，问题在任务链最终状态。

所以 Agent 安全不能只在输入和输出两端做文本过滤。系统需要跟踪工作区状态，限制工具权限，检查最终 artifact，并在高风险动作前引入人工审批。

更重要的是，评测本身要多轮化。只测「模型是否拒绝危险问题」，无法说明它在十轮办公任务之后是否仍能守住边界。

怎么用这篇论文

产品团队可以把它当作内部红队模板：把真实办公工作流拆成多轮链条，在不同位置插入风险请求，然后检查最终文件、数据库记录和外发消息。

但不要把 ASR 数字简单当作模型排名。具体风险受提示、工具、权限、系统消息、工作区设计和评分标准影响很大。论文数字说明问题存在，不等于直接替代自己的上线评估。

最稳的结论是：Agent 安全的对象已经从一句回答变成一段行动。多轮状态、工具副作用和最终产物，必须进入默认门禁。

参考来源

Boiling the Frog: A Multi-Turn Benchmark for Agentic Safety

还没有评论，你可以写下第一条。

继续阅读

同主题延伸

如果你想顺着当前问题继续往下挖，这里优先给相近主题的文章。

2026-05-25 00:39 北京时间 8 分钟同主题：论文精选等 3 个标签

WorkstreamBench：金融表格 Agent 评测开始贴近真实流程

WorkstreamBench 把 Agent 评测放进端到端金融表格任务，而不是只看孤立公式或单步操作。它提醒我们，企业 Agent 的难点往往在流程、文件状态和业务语境。

2026-05-25 00:35 北京时间 9 分钟同主题：论文精选等 3 个标签

DeltaBox：长程 Agent 需要毫秒级回滚

DeltaBox 把 Agent 沙箱从「隔离环境」推进到「可快速试错的执行底座」。它讨论的 checkpoint 和 rollback，决定长程 Agent 能不能安全探索多条路径。

2026-05-25 00:33 北京时间 8 分钟同主题：论文精选等 3 个标签

LCGuard：多 Agent 共享 KV 缓存的隐私边界

LCGuard 关注一个容易被忽略的通道：多 Agent 系统不只会通过自然语言泄密，也可能通过共享 KV cache 泄漏上下文、推理状态和角色私有信息。

编辑精选

如果你想从这篇扩出去，这里放最近值得继续看的站内长文。

2026-05-29 21:35 北京时间 12 分钟编辑精选

下一篇 Claw AI Lab：自动科研需要实验室而不是流水线

阅读难度

进阶

信息密度适中，适合连续阅读。

要点

论文用 stateful multi-turn evaluation 检查工具型模型是否会在渐进请求中产生不安全 artifact。
九个模型面板上的 aggregate strict ASR 为 44.4%，不同模型差异很大。
这类评测说明安全边界要落在工作区状态、工具权限和最终产物，而不只是单轮回答。

RSS

Subscribe to long-form updates through RSS. Feed timestamps use Beijing time.

Open RSS feed

LLMs

This site also exposes llms.txt and sitemap.xml for model-friendly discovery.

Open llms.txt

Boiling the Frog：Agent 安全要看多轮动作

快速答案

单轮安全题不够用了

这篇论文怎么测

为什么这对企业 Agent 很现实

怎么用这篇论文

参考来源

评论（0）

继续阅读

同主题延伸

WorkstreamBench：金融表格 Agent 评测开始贴近真实流程

DeltaBox：长程 Agent 需要毫秒级回滚

LCGuard：多 Agent 共享 KV 缓存的隐私边界

编辑精选

Git 入门：先看懂版本、分支和协作

TerminalWorld：终端 Agent 评测不能只靠人造题

Agentic CLEAR：只做可观测还不够，Agent 需要解释型评测