Freelemon

Daily Intelligence

AI Agent 长文观察站

长文、玩家、趋势。只追有证据的 AI 变化。

8 最新更新 3 玩家动态 4 趋势雷达

01长文库 02玩家动态 03趋势雷达

追踪面板

HN、GitHub、论文。

Git 入门：先看懂版本、分支和协作

Git 的核心价值，是让一个项目的每次可靠变化都留下可回退、可比较、可协作的记录。初学者先理解版本快照、暂存区、分支和远程仓库，再学命令会轻松很多。

阅读全文

正在追踪

HackerNews精选 · 2026-05-24 01:58 北京时间 HackerNews精选 这一周 HN 上最有价值的讨论，集中在企业 agent 的成本、spec-driven workflow、本地 RAG 记忆和 Claude Code 安全边界。 GitHub趋势 · 2026-05-24 01:58 北京时间 GitHub趋势 这一周 GitHub 上值得看的是多 agent 工作台、repo-native memory、本地 MCP 记忆和小模型 coding agent 同时升温。论文精选 · 2026-05-24 01:58 北京时间 论文精选 这一周最值得看的论文，都在把 agent 从演示推回工程约束：沙箱回滚、隐藏测试、PR 结果解释、终端真实任务、越权行为和系统级安全。

长文

Git 入门：先看懂版本、分支和协作

阅读难度：进阶

Git 记录的是项目在不同时间点的快照，提交历史就是一条可回看的变化链。

阅读全文

论文精选 AI Agent 研究文章

2026-05-25 00:50 北京时间 9 分钟

TerminalWorld：终端 Agent 评测不能只靠人造题

TerminalWorld 从真实终端录屏反向构造任务，得到 1530 个验证任务和 200 个人工复核子集。它说明终端 Agent 的真实难度，比专家手写 benchmark 更杂、更长、更贴近日常开发。

阅读难度：进阶

论文处理 80870 条真实终端录屏，生成 1530 个验证任务，覆盖 18 类真实任务和 1280 个唯一命令。

阅读全文

论文精选 AI Agent 研究文章

2026-05-25 00:49 北京时间 8 分钟

Agentic CLEAR：只做可观测还不够，Agent 需要解释型评测

Agentic CLEAR 位于 observability layer 之上，试图从系统、trace 和 node 三个层级自动生成行为判断。它解决的「日志能不能变成可行动的评测」。

阅读难度：进阶

论文提出系统、trace、node 三层粒度的自动评测反馈，目标是让错误分析适配不同领域。

阅读全文

论文精选 AI Agent 研究文章

2026-05-25 00:47 北京时间 9 分钟

Contractual Skills：企业 Agent 的技能文件该像合同

Contractual Skills 把 SKILL.md 从提示材料升级为可检查的任务合同：目标、输入边界、权限、证据、验收标准、审批点和交接规则都要写清楚。

阅读难度：入门

论文提出 GovernSpec-inspired 框架，把技能组织成目标、权限、证据、输出合同和验证步骤。

阅读全文

论文精选 AI Agent 研究文章

2026-05-25 00:45 北京时间 8 分钟

Spreadsheet-RL：办公 Agent 可能需要专门训练

Spreadsheet-RL 用强化学习训练专门的表格 Agent，并在 SpreadsheetBench 和领域表格任务上提升 Pass@1。它说明办公自动化不一定靠通用模型提示就能解决。

阅读难度：入门

论文构建 Spreadsheet Gym，在 Microsoft Excel 环境中通过 Python sandbox 暴露大量表格功能。

阅读全文

论文精选 AI Agent 研究文章

2026-05-25 00:43 北京时间 8 分钟

Boiling the Frog：Agent 安全要看多轮动作

Boiling the Frog 把安全评测从单轮有害回答，转向企业办公环境里的多轮渐进攻击。它提醒我们，Agent 风险往往是在状态被慢慢改坏后出现。

阅读难度：进阶

论文用 stateful multi-turn evaluation 检查工具型模型是否会在渐进请求中产生不安全 artifact。

阅读全文

玩家

查看全部

5月23日 OpenAI

OpenAI 借 Gartner 评价把 Codex 推到企业 agentic coding 采购语境里

新闻原文

OpenAI 在 5 月 23 日发布 Gartner 2026 agentic coding 相关页面，把 Codex 放进企业 AI Coding Agents 的 Leader 叙事里。页面重点不再只是“帮工程师写代码”，而是把 Codex 描述成可以在组织内安全部署、规模化运行 agentic systems 的一部分。

锐评

这条动作的重要性不在 Gartner 标签本身，而在 OpenAI 正在把 Codex 从开发者工具继续推向企业采购、治理和平台对比语境。Coding agent 的竞争一旦进入 Magic Quadrant 这类企业评价体系，销售重点就会从模型能力转向安全、管理、部署和规模化案例。

5月21日 Dropbox

Dropbox 公开 Nova，把内部 coding agent 做成工程平台

新闻原文

Dropbox 在 5 月 21 日发布技术文章介绍 Nova，这是它面向内部 coding agents 的平台。Nova 的重点是让 agent 在云端运行，并接入 Dropbox 的 monorepo、Bazel、验证路径和自动化 workflow，而不是只做一个单点 IDE 插件。

锐评

Nova 是一个很硬的企业落地信号。大组织真正需要的不是又一个会补代码的助手，而是能读懂内部工程系统、跑对验证、遵守权限、把结果送进现有流程的平台层。Dropbox 选择自建 Nova，说明 coding agent 的核心工程量正在往运行层和内部平台迁移。

5月21日 Mozilla.ai

Mozilla.ai 发布 cq exchange，给 agents 做经验交换层

新闻原文

Mozilla.ai 在 5 月 21 日围绕 cq exchange 继续推进 agent 经验复用。cq exchange 提供私有 namespace 和 public commons，让 agents 可以保存、检索和复用经验型知识，减少反复踩同类错误。

锐评

这条信号补的是 agent 长期使用里的“经验层”。当 agent 不再只是一次性回答工具，它就需要知道哪些路径试过、哪些坑踩过、哪些知识可以共享。Mozilla.ai 把这件事产品化，说明记忆和经验复用正在从提示词技巧变成独立基础设施。

Infrastructure 2026-05-21

Coding Agent 的竞争焦点正在转向企业运行层

过去一周，OpenAI 把 Codex 放进企业 agentic coding 评价体系，Dropbox 公开 Nova 内部平台，GitHub 连续补 Copilot cloud agent 的 Actions 修复、review 反馈、REST API 和模型路由，Google 在 I/O 继续把 Gemini 放进开发者与搜索入口。这些动作共同说明，行业竞争正在从“谁更会写代码”转向“谁能把 agent 接进权限、沙箱、验证、审计和成本管理”。

企业真正放权给 coding agent 前，先要解决运行位置、权限边界、验证路径、失败回滚、成本归因和审计链路。

Dropbox
Introducing Nova: Our internal platform for coding agents

进入趋势页

Memory 2026-05-21

Agent 记忆正在从聊天上下文变成 repo、工具和公共经验层

Mozilla.ai 的 cq exchange、Mainline 的 git-native memory、The Vault 的本地 MCP 记忆系统，以及 MOSS 这类自演化 agent 论文，都在处理同一个问题：agent 的失败经验、项目意图和上下文不能只留在一次会话里。记忆层正在从模型窗口里的临时材料，迁移到仓库、工具、本地服务和共享 commons。

长期使用里的关键不是“记住更多聊天记录”，而是把意图、决策理由、失败经验和项目约束放到后续 agent 与 reviewer 都能复用的位置。

Mozilla.ai
cq exchange

进入趋势页

Evaluation 2026-05-20

Agent 评测正在从榜单分数转向真实流程和反投机

SpecBench、Agentic PR 实证研究、TerminalWorld、Overeager Coding Agents 和 DeltaBox 把同一个问题推到台前：测试通过、PR 合并或小型 benchmark 高分，都不足以说明 agent 能在生产里可靠运行。新的评测关注隐藏测试、越权行为、终端真实任务、人类 review 语境、沙箱回滚和系统级安全。

长程 coding agent 很容易满足可见测试而没有真正完成规格，因此隐藏测试、任务轨迹和环境状态都要进入评估。

arXiv
SpecBench: Measuring Reward Hacking in Long-Horizon Coding Agents

进入趋势页

Operations 2026-05-19

Agent 评估栈正在被单独立项，从工具变成预算线

过去一周，几家工程组织把 agent eval 从开发工具升级成独立预算项目：从 trace 留存、回归套件，到事故数据二次利用，团队开始为 eval 配专门人手与算力额度。这一动作和上线规模直接相关：当 agent 流量进入正式业务，回归没保障会比模型不够强更要命。

团队第一次把 eval 工程师当独立角色招聘，而不是让算法或后端兼着做。

Hacker News
Discussion: How are you doing context engineering and evals in production

进入趋势页

小游戏

轻量小游戏。

青蛙跳跳乐

蓄力起跳，挑战更高分。

进入游戏

霓虹回响

轻解谜路线。

进入游戏

星尘漫游

自由探索式的宇宙小场景。

进入游戏

元宵灯谜

五关渐进，边玩边猜。

进入游戏

短剧猜猜猜

识图与判断结合的三连关。

进入游戏

整站累计阅读 22,223 · 阅读计数汇总