先说结论:3 月 22 日之后,最值得补的是 harness 这一层

这次回头补 2026-03-22 之后的英文材料,我原本以为会继续看到一轮「新模型、新产品、新大词」。实际扫下来,最值得拉回站内的内容,更多来自工程一线的写作。

这些材料把注意力重新拉回系统层。

  • 有些任务之所以能被 AI 改写,是因为团队手里本来就有现成测试套件和清楚规格。
  • 有些长任务开始变稳,是因为模型终于能在浏览器里看到真实页面,拿到 ground truth。
  • 有些工具越来越像生产工具,是因为 allowlist、日志、调用记录和用途隔离被做成了默认项。

如果只把这波更新理解成「AI coding 继续升温」,判断会太浅。更贴近现实的说法是:AI 编程正在回到 harness,验证、观察、回滚和边界开始重新决定系统能不能用。

第一条线:Reco 这篇最该看的,是重写成功背后的条件

Reco 这篇最容易被拿去传播的,是「一天」「省了多少钱」这种表层数字。值得留下来的,是它把一次 AI 改写成功的条件讲得很具体。

文章里最关键的点,是这次迁移本来就带着三层护栏。

  • 原项目本来就有成熟的测试套件。
  • 目标边界很清楚,团队重写的是一个已有规格的表达式语言实现。
  • 团队没有把产出直接当真,后面继续用测试和行为统一来收口。

这件事很重要,因为它直接解释了为什么有些 AI 重写案例看起来像魔法,有些最后却只留下烂尾。差别通常出在地面够不够硬,团队有没有把规格、测试和验收先准备好。

这也是我会把这篇当成这周外刊更新核心材料的原因。它给出的判断很耐读:只要任务规格明确、回归测试完整、结果又容易比对,AI 往往会显得格外能打。换到上下文模糊、验收松散、边界漂浮的任务里,返工成本就会迅速冒出来。

第二条线:Simon 写 Pretext,重点落在浏览器把地面补回来了

Simon Willison 这篇关于 Pretext 的记录,很适合跟上面那篇并排看。因为它说的是另一种常见幻觉。

很多人会把长任务失败,归因成模型不够聪明;但 Simon 在这篇里强调的,是两件更朴素的事。

  • 这类连续几周的任务,如果只能看文本上下文,系统很容易漂。
  • 一旦模型能够直接在浏览器里看到页面状态、交互结果和真实 UI,完成质量会明显改善。

这背后是同一个逻辑。浏览器重要,在于它把原来漂浮在描述里的任务重新钉回了真实环境。系统不用再只靠人类转述「现在看起来对不对」,可以直接接触结果本身。

这对我们理解 Agent 为什么最近又开始变得更可信,很关键。过去很多 demo 的问题,不在生成下一步本身,而在于生成完以后拿不到稳定反馈。能看见真实页面、真实状态、真实错误,等于是在长任务里补回了一层持续校验。

所以这篇更值得留下来的,是一个更硬的判断:长任务开始变稳,往往是因为系统终于拿到了更靠近 ground truth 的观察能力。

第三条线:Simon 这周几条工具更新放在一起看,真正往前推的是可追踪性

如果只看工具发布消息,很容易把它们当成零散小更新。但把 2026-04-01 这组记录放在一起看,方向很集中。

我更在意的,是它们不断把下面这些东西往默认配置里推。

  • 针对不同任务,明确限制可调用的模型和 key,别再把所有能力混成一个总入口。
  • 把 usage、调用记录、交互过程做成可回看对象,别只盯最后成功没成功。
  • 让工具链更容易比较、复盘和复现,不再只留下一个漂亮结果截图。

一件事:开发者写作里最有价值的更新,已经开始从「哪个模型最强」转向「哪个系统更容易被管理」。这一步比模型升级更重要,因为它关系到团队敢不敢把东西接进真实流程。

模型当然还在进步,但如果没有用途隔离、调用日志、行为记录和清晰边界,团队最后拿到的还是一个难以追责、难以复盘、难以回滚的黑箱。能进生产的系统,往往先把这些治理件补齐,再去放大模型能力。

为什么这周外刊更新值得单独补成一篇

这也是这次补更最想说明的一点。

2026-03-22 之后,我们之前盯的英文源里,并不是每一条都继续有大稿放出来。Karpathy、Latent Space、Answer.AI、fast.ai 这一轮公开可见的新主帖并不密集,真正连续冒出可用增量的,更多是 Simon 这一条开发者观察线,加上一两篇像 Reco 这样把工程细节写得很具体的案例。

但这不代表「外刊没更新」。真正更新的是材料形态。

前一轮更像经典长杂志的几篇大稿,先把 AI 压成基础设施、代码仓库、课堂和董事会四层现实。到了这周,新的增量更多来自开发者一线写作。它们不负责重新搭总框架,重点放在那层更容易决定成败的工程地基。

如果还按旧眼光找「有没有再来一篇宏大综述」,就很容易误判成这周没东西。材料在,只是回答的问题换了。

这一轮留下来的真正判断

如果把这周英文更新只压成一句话,我会写成这样:

AI 编程最近最真实的进步,是越来越多团队开始知道,必须先把任务钉在测试、真实页面、日志和权限边界上,系统才有资格谈自动化。

这也是后面外刊周更更该继续追的方向。

  • 不只是追谁又发了新模型。
  • 更要追哪一层 ground truth 变得更近了。
  • 哪一层 harness 被产品化了。
  • 哪一层验证、回滚和观察终于被补成默认件了。

因为这些东西,才决定 AI 编程能不能从演示变成制度。

更新附注

  • 版本:v1.1

更新日期:2026-04-03 更新原因:按发布后的风格回扫,集中压掉「不是……而是……」和同型转折句,重写首屏字段与多处段落句法,让正文判断保留不变、阅读口气更自然。