先说结论:3 月 22 日之后,最值得补的是 harness 这一层
这次回头补 2026-03-22 之后的英文材料,我原本以为会继续看到一轮“新模型、新产品、新大词”。实际扫下来,最值得拉回站内的内容,更多来自工程一线的写作。
这些材料把注意力重新拉回系统层。
- 有些任务之所以能被 AI 改写,是因为团队手里本来就有现成测试套件和清楚规格。
- 有些长任务开始变稳,是因为模型终于能在浏览器里看到真实页面,拿到 ground truth。
- 有些工具越来越像生产工具,是因为 allowlist、日志、调用记录和用途隔离被做成了默认项。
如果只把这波更新理解成“AI coding 继续升温”,判断会太浅。更贴近现实的说法是:AI 编程正在回到 harness,验证、观察、回滚和边界开始重新决定系统能不能用。
第一条线:Reco 这篇最该看的,是重写成功背后的条件
Reco 这篇最容易被拿去传播的,是“一天”“省了多少钱”这种表层数字。真正值得留下来的,是它把一次 AI 改写成功的条件讲得很具体。
文章里最关键的点,是这次迁移本来就带着三层护栏。
- 原项目本来就有成熟的测试套件。
- 目标边界很清楚,团队重写的是一个已有规格的表达式语言实现。
- 团队没有把产出直接当真,后面继续用测试和行为对齐来收口。
这件事非常重要,因为它直接解释了为什么有些 AI 重写案例看起来像魔法,有些最后却只留下烂尾。差别通常出在地面够不够硬,团队有没有把规格、测试和验收先准备好。
这也是我会把这篇当成这周外刊更新核心材料的原因。它给出的判断很耐读:只要任务规格明确、回归测试完整、结果又容易比对,AI 往往会显得格外能打。换到上下文模糊、验收松散、边界漂浮的任务里,返工成本就会迅速冒出来。
第二条线:Simon 写 Pretext,重点落在浏览器把地面补回来了
Simon Willison 这篇关于 Pretext 的记录,很适合跟上面那篇并排看。因为它说的是另一种常见幻觉。
很多人会把长任务失败,归因成模型不够聪明;但 Simon 在这篇里强调的,是两件更朴素的事。
- 这类连续几周的任务,如果只能看文本上下文,系统很容易漂。
- 一旦模型能够直接在浏览器里看到页面状态、交互结果和真实 UI,完成质量会明显改善。
这背后是同一个逻辑。浏览器重要,在于它把原来漂浮在描述里的任务重新钉回了真实环境。系统不用再只靠人类转述“现在看起来对不对”,可以直接接触结果本身。
这对我们理解 Agent 为什么最近又开始变得更可信,非常关键。过去很多 demo 的问题,不在生成下一步本身,而在于生成完以后拿不到稳定反馈。能看见真实页面、真实状态、真实错误,等于是在长任务里补回了一层持续校验。
所以这篇更值得留下来的,是一个更硬的判断:长任务开始变稳,往往是因为系统终于拿到了更靠近 ground truth 的观察能力。
第三条线:Simon 这周几条工具更新放在一起看,真正往前推的是可追踪性
如果只看工具发布消息,很容易把它们当成零散小更新。但把 2026-04-01 这组记录放在一起看,方向很集中。
我更在意的,是它们不断把下面这些东西往默认配置里推。
- 针对不同任务,明确限制可调用的模型和 key,别再把所有能力混成一个总入口。
- 把 usage、调用记录、交互过程做成可回看对象,别只盯最后成功没成功。
- 让工具链更容易比较、复盘和复现,不再只留下一个漂亮结果截图。
这说明一件事:这一轮最有价值的变化,不是某个模型再强一点,而是系统终于更容易被管理、复盘和追责。这一步其实比模型升级更重要,因为它关系到团队敢不敢把东西接进真实流程。
模型当然还在进步,但如果没有用途隔离、调用日志、行为记录和清晰边界,团队最后拿到的还是一个难以追责、难以复盘、难以回滚的黑箱。能进生产的系统,往往先把这些治理件补齐,再去放大模型能力。
这轮材料真正更新了什么
2026-03-22 之后,我们之前盯的英文源里,并不是每一条都继续有大稿放出来。Karpathy、Latent Space、Answer.AI、fast.ai 这一轮公开可见的新主帖并不密集,真正连续冒出可用增量的,更多是 Simon 这一条开发者观察线,加上一两篇像 Reco 这样把工程细节写得很具体的案例。
真正值得留下来的共同点很明确。
- Reco 把“什么样的任务适合 AI 重写”讲清楚了。
- Simon 把“长任务为什么会漂、怎样把反馈补回来”讲清楚了。
- 一组工具更新把“调用边界、日志和复盘能力为什么重要”讲清楚了。
放在一起看,这轮材料不是在扩写口号,而是在补工程条件。它们一起回答的,是 AI 编程到底缺哪几层地基,补齐之后哪些任务才真的能稳。
这一轮留下来的真正判断
如果把这周英文更新只压成一句话,我会写成这样:
AI 编程最近最真实的进步,是越来越多团队开始知道,必须先把任务钉在测试、真实页面、日志和权限边界上,系统才有资格谈自动化。
这也是后面外刊周更更该继续追的方向。
- 不只是追谁又发了新模型。
- 更要追哪一层 ground truth 变得更近了。
- 哪一层 harness 被产品化了。
- 哪一层验证、回滚和观察终于被补成默认件了。
因为这些东西,才真正决定 AI 编程能不能从演示变成制度。
更新附注
- 版本:v1.3
更新日期:2026-04-03 更新原因:继续删掉对读者没有帮助的元话语和材料类型判断,把首屏字段与中段表述改成直接交代这轮材料补了什么工程条件;正文核心判断不变。
还没有评论,你可以写下第一条。