先说结论:3 月 22 日之后,最值得补的是 harness 这一层
这次回头补 2026-03-22 之后的英文材料,我原本以为会继续看到一轮「新模型、新产品、新大词」。实际扫下来,最值得拉回站内的内容,更多来自工程一线的写作。
这些材料把注意力重新拉回系统层。
- 有些任务之所以能被 AI 改写,是因为团队手里本来就有现成测试套件和清楚规格。
- 有些长任务开始变稳,是因为模型终于能在浏览器里看到真实页面,拿到 ground truth。
- 有些工具越来越像生产工具,是因为 allowlist、日志、调用记录和用途隔离被做成了默认项。
如果只把这波更新理解成「AI coding 继续升温」,判断会太浅。更贴近现实的说法是:AI 编程正在回到 harness,验证、观察、回滚和边界开始重新决定系统能不能用。
第一条线:Reco 这篇最该看的,是重写成功背后的条件
Reco 这篇最容易被拿去传播的,是「一天」「省了多少钱」这种表层数字。值得留下来的,是它把一次 AI 改写成功的条件讲得很具体。
文章里最关键的点,是这次迁移本来就带着三层护栏。
- 原项目本来就有成熟的测试套件。
- 目标边界很清楚,团队重写的是一个已有规格的表达式语言实现。
- 团队没有把产出直接当真,后面继续用测试和行为统一来收口。
这件事很重要,因为它直接解释了为什么有些 AI 重写案例看起来像魔法,有些最后却只留下烂尾。差别通常出在地面够不够硬,团队有没有把规格、测试和验收先准备好。
这也是我会把这篇当成这周外刊更新核心材料的原因。它给出的判断很耐读:只要任务规格明确、回归测试完整、结果又容易比对,AI 往往会显得格外能打。换到上下文模糊、验收松散、边界漂浮的任务里,返工成本就会迅速冒出来。
第二条线:Simon 写 Pretext,重点落在浏览器把地面补回来了
Simon Willison 这篇关于 Pretext 的记录,很适合跟上面那篇并排看。因为它说的是另一种常见幻觉。
很多人会把长任务失败,归因成模型不够聪明;但 Simon 在这篇里强调的,是两件更朴素的事。
- 这类连续几周的任务,如果只能看文本上下文,系统很容易漂。
- 一旦模型能够直接在浏览器里看到页面状态、交互结果和真实 UI,完成质量会明显改善。
这背后是同一个逻辑。浏览器重要,在于它把原来漂浮在描述里的任务重新钉回了真实环境。系统不用再只靠人类转述「现在看起来对不对」,可以直接接触结果本身。
这对我们理解 Agent 为什么最近又开始变得更可信,很关键。过去很多 demo 的问题,不在生成下一步本身,而在于生成完以后拿不到稳定反馈。能看见真实页面、真实状态、真实错误,等于是在长任务里补回了一层持续校验。
所以这篇更值得留下来的,是一个更硬的判断:长任务开始变稳,往往是因为系统终于拿到了更靠近 ground truth 的观察能力。
第三条线:Simon 这周几条工具更新放在一起看,真正往前推的是可追踪性
如果只看工具发布消息,很容易把它们当成零散小更新。但把 2026-04-01 这组记录放在一起看,方向很集中。
我更在意的,是它们不断把下面这些东西往默认配置里推。
- 针对不同任务,明确限制可调用的模型和 key,别再把所有能力混成一个总入口。
- 把 usage、调用记录、交互过程做成可回看对象,别只盯最后成功没成功。
- 让工具链更容易比较、复盘和复现,不再只留下一个漂亮结果截图。
一件事:开发者写作里最有价值的更新,已经开始从「哪个模型最强」转向「哪个系统更容易被管理」。这一步比模型升级更重要,因为它关系到团队敢不敢把东西接进真实流程。
模型当然还在进步,但如果没有用途隔离、调用日志、行为记录和清晰边界,团队最后拿到的还是一个难以追责、难以复盘、难以回滚的黑箱。能进生产的系统,往往先把这些治理件补齐,再去放大模型能力。
为什么这周外刊更新值得单独补成一篇
这也是这次补更最想说明的一点。
2026-03-22 之后,我们之前盯的英文源里,并不是每一条都继续有大稿放出来。Karpathy、Latent Space、Answer.AI、fast.ai 这一轮公开可见的新主帖并不密集,真正连续冒出可用增量的,更多是 Simon 这一条开发者观察线,加上一两篇像 Reco 这样把工程细节写得很具体的案例。
但这不代表「外刊没更新」。真正更新的是材料形态。
前一轮更像经典长杂志的几篇大稿,先把 AI 压成基础设施、代码仓库、课堂和董事会四层现实。到了这周,新的增量更多来自开发者一线写作。它们不负责重新搭总框架,重点放在那层更容易决定成败的工程地基。
如果还按旧眼光找「有没有再来一篇宏大综述」,就很容易误判成这周没东西。材料在,只是回答的问题换了。
这一轮留下来的真正判断
如果把这周英文更新只压成一句话,我会写成这样:
AI 编程最近最真实的进步,是越来越多团队开始知道,必须先把任务钉在测试、真实页面、日志和权限边界上,系统才有资格谈自动化。
这也是后面外刊周更更该继续追的方向。
- 不只是追谁又发了新模型。
- 更要追哪一层 ground truth 变得更近了。
- 哪一层 harness 被产品化了。
- 哪一层验证、回滚和观察终于被补成默认件了。
因为这些东西,才决定 AI 编程能不能从演示变成制度。
更新附注
- 版本:v1.1
更新日期:2026-04-03 更新原因:按发布后的风格回扫,集中压掉「不是……而是……」和同型转折句,重写首屏字段与多处段落句法,让正文判断保留不变、阅读口气更自然。
还没有评论,你可以写下第一条。