单轮安全题不够用了
如果模型只负责回答问题,安全评测可以重点看输出文本:有没有有害内容,有没有歧视,有没有直接执行危险指令。Agent 时代,这个对象变了。
一个办公 Agent 可能连续修改文档、表格、邮件草稿和内部系统记录。攻击者不一定在第一轮提出危险请求,而是先让系统做一串看似正常的编辑,最后再把风险载荷塞进去。
Boiling the Frog 这个名字很直白:风险在多轮状态变化中慢慢升温。
这篇论文怎么测
论文构造的是 stateful multi-turn evaluation。每个场景从良性的 workspace edits 开始,之后在受控位置插入 risk-bearing request,最后评分看 artifact state 是否变得不安全。
它还把场景组织到三层 operational risk taxonomy,参考 Boiling the Frog risks、AI Act Annex I/III 高风险语境和 EU AI Act 关于 GPAI 的 Code of Practice。看工具型模型在工作区里留下了什么。
论文报告,在九个模型面板上,aggregate strict attack success rate 为 44.4%。模型间差异很大:Claude Haiku 4.5 为 20.5%,Gemini 3.1 Flash Lite 为 92.9%,Seed 2.0 Lite 也超过 80%。
为什么这对企业 Agent 很现实
企业里的风险请求很少长得像安全测试题。它可能藏在文档修改、表格汇总、邮件润色、权限说明或政策整理里。单轮检测器看到的是正常语气,问题在任务链最终状态。
所以 Agent 安全不能只在输入和输出两端做文本过滤。系统需要跟踪工作区状态,限制工具权限,检查最终 artifact,并在高风险动作前引入人工审批。
更重要的是,评测本身要多轮化。只测「模型是否拒绝危险问题」,无法说明它在十轮办公任务之后是否仍能守住边界。
怎么用这篇论文
产品团队可以把它当作内部红队模板:把真实办公工作流拆成多轮链条,在不同位置插入风险请求,然后检查最终文件、数据库记录和外发消息。
但不要把 ASR 数字简单当作模型排名。具体风险受提示、工具、权限、系统消息、工作区设计和评分标准影响很大。论文数字说明问题存在,不等于直接替代自己的上线评估。
最稳的结论是:Agent 安全的对象已经从一句回答变成一段行动。多轮状态、工具副作用和最终产物,必须进入默认门禁。
还没有评论,你可以写下第一条。