Daily Intelligence

AI Agent 长文观察站

长文、玩家、趋势。只追有证据的 AI 变化。

8 最新更新 3 玩家动态 4 趋势雷达

最新更新

按发布时间倒序。

进入长文库
Editorial Desk

追踪面板

HN、GitHub、论文。

长文

最新正文。

查看全部
2026-05-29 21:35 北京时间 12 分钟

Git 入门:先看懂版本、分支和协作

Git 的核心价值,是让一个项目的每次可靠变化都留下可回退、可比较、可协作的记录。初学者先理解版本快照、暂存区、分支和远程仓库,再学命令会轻松很多。

阅读难度:进阶
  • Git 记录的是项目在不同时间点的快照,提交历史就是一条可回看的变化链。
阅读全文
2026-05-25 00:50 北京时间 9 分钟

TerminalWorld:终端 Agent 评测不能只靠人造题

TerminalWorld 从真实终端录屏反向构造任务,得到 1530 个验证任务和 200 个人工复核子集。它说明终端 Agent 的真实难度,比专家手写 benchmark 更杂、更长、更贴近日常开发。

阅读难度:进阶
  • 论文处理 80870 条真实终端录屏,生成 1530 个验证任务,覆盖 18 类真实任务和 1280 个唯一命令。
阅读全文
2026-05-25 00:49 北京时间 8 分钟

Agentic CLEAR:只做可观测还不够,Agent 需要解释型评测

Agentic CLEAR 位于 observability layer 之上,试图从系统、trace 和 node 三个层级自动生成行为判断。它解决的「日志能不能变成可行动的评测」。

阅读难度:进阶
  • 论文提出系统、trace、node 三层粒度的自动评测反馈,目标是让错误分析适配不同领域。
阅读全文
2026-05-25 00:47 北京时间 9 分钟

Contractual Skills:企业 Agent 的技能文件该像合同

Contractual Skills 把 SKILL.md 从提示材料升级为可检查的任务合同:目标、输入边界、权限、证据、验收标准、审批点和交接规则都要写清楚。

阅读难度:入门
  • 论文提出 GovernSpec-inspired 框架,把技能组织成目标、权限、证据、输出合同和验证步骤。
阅读全文
2026-05-25 00:45 北京时间 8 分钟

Spreadsheet-RL:办公 Agent 可能需要专门训练

Spreadsheet-RL 用强化学习训练专门的表格 Agent,并在 SpreadsheetBench 和领域表格任务上提升 Pass@1。它说明办公自动化不一定靠通用模型提示就能解决。

阅读难度:入门
  • 论文构建 Spreadsheet Gym,在 Microsoft Excel 环境中通过 Python sandbox 暴露大量表格功能。
阅读全文
2026-05-25 00:43 北京时间 8 分钟

Boiling the Frog:Agent 安全要看多轮动作

Boiling the Frog 把安全评测从单轮有害回答,转向企业办公环境里的多轮渐进攻击。它提醒我们,Agent 风险往往是在状态被慢慢改坏后出现。

阅读难度:进阶
  • 论文用 stateful multi-turn evaluation 检查工具型模型是否会在渐进请求中产生不安全 artifact。
阅读全文

玩家

查看全部
5月23日 OpenAI

OpenAI 借 Gartner 评价把 Codex 推到企业 agentic coding 采购语境里

新闻原文

OpenAI 在 5 月 23 日发布 Gartner 2026 agentic coding 相关页面,把 Codex 放进企业 AI Coding Agents 的 Leader 叙事里。页面重点不再只是“帮工程师写代码”,而是把 Codex 描述成可以在组织内安全部署、规模化运行 agentic systems 的一部分。

锐评

这条动作的重要性不在 Gartner 标签本身,而在 OpenAI 正在把 Codex 从开发者工具继续推向企业采购、治理和平台对比语境。Coding agent 的竞争一旦进入 Magic Quadrant 这类企业评价体系,销售重点就会从模型能力转向安全、管理、部署和规模化案例。

5月21日 Dropbox

Dropbox 公开 Nova,把内部 coding agent 做成工程平台

新闻原文

Dropbox 在 5 月 21 日发布技术文章介绍 Nova,这是它面向内部 coding agents 的平台。Nova 的重点是让 agent 在云端运行,并接入 Dropbox 的 monorepo、Bazel、验证路径和自动化 workflow,而不是只做一个单点 IDE 插件。

锐评

Nova 是一个很硬的企业落地信号。大组织真正需要的不是又一个会补代码的助手,而是能读懂内部工程系统、跑对验证、遵守权限、把结果送进现有流程的平台层。Dropbox 选择自建 Nova,说明 coding agent 的核心工程量正在往运行层和内部平台迁移。

5月21日 Mozilla.ai

Mozilla.ai 发布 cq exchange,给 agents 做经验交换层

新闻原文

Mozilla.ai 在 5 月 21 日围绕 cq exchange 继续推进 agent 经验复用。cq exchange 提供私有 namespace 和 public commons,让 agents 可以保存、检索和复用经验型知识,减少反复踩同类错误。

锐评

这条信号补的是 agent 长期使用里的“经验层”。当 agent 不再只是一次性回答工具,它就需要知道哪些路径试过、哪些坑踩过、哪些知识可以共享。Mozilla.ai 把这件事产品化,说明记忆和经验复用正在从提示词技巧变成独立基础设施。

Infrastructure 2026-05-21

Coding Agent 的竞争焦点正在转向企业运行层

过去一周,OpenAI 把 Codex 放进企业 agentic coding 评价体系,Dropbox 公开 Nova 内部平台,GitHub 连续补 Copilot cloud agent 的 Actions 修复、review 反馈、REST API 和模型路由,Google 在 I/O 继续把 Gemini 放进开发者与搜索入口。这些动作共同说明,行业竞争正在从“谁更会写代码”转向“谁能把 agent 接进权限、沙箱、验证、审计和成本管理”。

  • 企业真正放权给 coding agent 前,先要解决运行位置、权限边界、验证路径、失败回滚、成本归因和审计链路。
Dropbox
Introducing Nova: Our internal platform for coding agents
进入趋势页
Memory 2026-05-21

Agent 记忆正在从聊天上下文变成 repo、工具和公共经验层

Mozilla.ai 的 cq exchange、Mainline 的 git-native memory、The Vault 的本地 MCP 记忆系统,以及 MOSS 这类自演化 agent 论文,都在处理同一个问题:agent 的失败经验、项目意图和上下文不能只留在一次会话里。记忆层正在从模型窗口里的临时材料,迁移到仓库、工具、本地服务和共享 commons。

  • 长期使用里的关键不是“记住更多聊天记录”,而是把意图、决策理由、失败经验和项目约束放到后续 agent 与 reviewer 都能复用的位置。
Mozilla.ai
cq exchange
进入趋势页
Evaluation 2026-05-20

Agent 评测正在从榜单分数转向真实流程和反投机

SpecBench、Agentic PR 实证研究、TerminalWorld、Overeager Coding Agents 和 DeltaBox 把同一个问题推到台前:测试通过、PR 合并或小型 benchmark 高分,都不足以说明 agent 能在生产里可靠运行。新的评测关注隐藏测试、越权行为、终端真实任务、人类 review 语境、沙箱回滚和系统级安全。

  • 长程 coding agent 很容易满足可见测试而没有真正完成规格,因此隐藏测试、任务轨迹和环境状态都要进入评估。
arXiv
SpecBench: Measuring Reward Hacking in Long-Horizon Coding Agents
进入趋势页
Operations 2026-05-19

Agent 评估栈正在被单独立项,从工具变成预算线

过去一周,几家工程组织把 agent eval 从开发工具升级成独立预算项目:从 trace 留存、回归套件,到事故数据二次利用,团队开始为 eval 配专门人手与算力额度。这一动作和上线规模直接相关:当 agent 流量进入正式业务,回归没保障会比模型不够强更要命。

  • 团队第一次把 eval 工程师当独立角色招聘,而不是让算法或后端兼着做。
Hacker News
Discussion: How are you doing context engineering and evals in production
进入趋势页

小游戏

轻量小游戏。

青蛙跳跳乐

蓄力起跳,挑战更高分。

进入游戏

星尘漫游

自由探索式的宇宙小场景。

进入游戏

短剧猜猜猜

识图与判断结合的三连关。

进入游戏

整站累计阅读 22,223 · 阅读计数汇总