快速答案
如果你想理解为什么 AI 在代码、数学、规则题上进步得这么快,这篇几乎是一把钥匙。Karpathy 把问题压缩成一个词:可验证性。越容易自动判断对错的任务,越容易被优化,进展也越快。
- 软件 1.0 自动化的是你能明确规定的任务,软件 2.0 更擅长自动化你能自动验收的任务。
- 代码、数学和可判分任务的爆发,不是偶然,它更像训练机制与任务结构天然契合后的结果。
- 对普通开发者和 Agent Engineer 来说,能不能验证会越来越成为工作流设计的第一问题。
代码为什么站在第一排
如果你最近常有一种感觉:AI 在代码上进步得特别快,快到有点不讲道理,那 Karpathy 这篇几乎就是解释这件事的钥匙。
很多人直觉上会说,因为程序员多、市场大、大家愿意付费。这些当然都对,但还不够深。更底层的原因是,代码太适合被验证了。测试过没过、程序能不能跑、结果和预期是否一致,这些都给了模型一种其他领域很少有的训练环境。
说得更白一点,越容易自动判断对错的任务,越容易被机器反复练习。
一个很日常的例子
让 AI 帮你写一个接口测试,它很可能表现不错。因为结果很快就能知道对不对。测试过了还是没过、响应结构对不对、字段有没有少,这些都能立刻回馈。
但如果你让它“写一个更有洞察力的行业分析”,事情就完全不同了。什么叫更有洞察力,通常没有一个直接、低成本、自动化的打分器。
这就是 Karpathy 那个词真正厉害的地方。它一下子把“为什么代码先爆发”从市场判断,推回了任务结构判断。
这对开发者不是理论题
对开发者来说,这篇最实用的价值是它能帮你重新排序工作。
以后你想把任务交给 AI 时,可以先不问“它会不会做”,先问“我能不能很快知道它做得对不对”。
如果答案是能,那通常就值得更早交给 agent。比如补测试、清理结构化数据、跑回归、修小范围 bug、做明确规则下的改写。这些都是更容易长出稳定工作流的地方。
如果答案是不能,那就要小心。这类任务当然也能用 AI,但你不该一上来就期待它稳定替你负责。
这也是为什么“让 AI 先帮我补测试”和“让 AI 先替我想战略判断”听起来都像在用模型,实际却完全不是一类风险。
产品和测试会从这里得到什么
这篇还有一个容易被忽略的价值:它其实也在给产品和测试上课。
产品写需求时,如果能把结果写成可验证条件,AI 的可用性就会上升。测试越能把“感觉不对”翻成通过条件、失败条件和复现路径,越容易真正把 AI 纳入流程,而不只是让它当一个会说话的助手。
也就是说,可验证性不只是模型的红利,也是团队写作和协作方式的红利。
举个很现实的产品例子。如果你把需求写成“让报销体验更顺”,AI 基本无从落手;但如果你写成“上传发票后 3 秒内完成字段提取,金额错误时要高亮并允许人工修改,缺失税号时不能提交”,它突然就有了可以对齐和自测的标准。测试拿到这种需求,也更容易把 case、mock 数据和验收脚本一口气连起来。
对 Agent Engineer 最重要的一句翻译
如果把这篇对 Agent Engineer 的启发压成一句话,那就是:别只设计 prompt,要先设计反馈。
真正有成长性的 agent 系统,背后都站着一套能持续给它反馈的机制。只要反馈够清楚,系统就更容易优化、更容易评估,也更容易扩展到更大的工作流里。代码 agent 会不会自己跑测试、数据 agent 会不会自动比对样本、客服 agent 会不会回看历史工单,本质上都在做同一件事。
很多时候,难点不在模型,而在你有没有把任务改写成一个机器也能看懂成败的过程。
今天就能做的判断
拿你最近最想交给 AI 的一个任务,先别着急写 prompt。先写一张小纸条:什么叫完成,什么叫失败,什么情况必须人工复查。只要这三句开始清楚,你就已经比很多“只会问模型”的工作流更往前走了一步。
更新附注
- 版本:v1.1
- 更新日期:2026-03-20
- 更新原因:为系列文章补充统一阅读序号,方便读者顺着概念与方法继续往下读。
继续阅读
别把这篇当成终点。这里优先给你系列内延续、同主题扩展和站内值得继续看的文章。
继续读这个系列
这篇属于「Agent 陪读系列」,优先按系列顺序继续往下读。
2026-03-19 21:40 北京时间
11 分钟
同属「Agent 陪读系列」
模型公司当然重要,但下一波真正贴着用户、贴着任务、贴着业务结果长大的 AI 公司,未必还是卖模型的人,更可能是把模型、工具、工作流和场景绑在一起卖结果的人。这正是 swyx 这篇最值得抓住的判断。
2026-03-19 21:50 北京时间
10 分钟
同属「Agent 陪读系列」
Coding agent 当然有用,但它最依赖的,恰恰是前面那个会提清楚任务、会判断结果、会继续追问的人。真正被放大的,从来不是模型幻觉,而是操作者本身的清晰度和收口能力。
2026-03-19 22:00 北京时间
12 分钟
同属「Agent 陪读系列」
过去一年如果你总觉得模型、Agent、写代码方式都像在突然提速,这篇可以帮你把变化串起来。Karpathy 的价值,在于他把 2025 年几个真正改变格局的转折点挑了出来。
同主题延伸
如果你想顺着当前问题继续往下挖,这里优先给相近主题的文章。
2026-04-11 12:10 北京时间
11 分钟
同主题:AI Agent 等 3 个标签
Hermes 不难装。macOS 直接跑官方安装器,Windows 先装 WSL2 再按 Linux 路线装。装完别先闲聊,先用并行读仓库和定时任务两个例子,看看它适不适合你。
2026-04-09 00:20 北京时间
20 分钟
同主题:技术沉淀 等 3 个标签
真正需要重构的不是提示词,而是项目控制层。多窗口同时写文章没有错,问题在于写作、主干集成、部署和恢复过去没有被放进同一套状态机里管理;而且这套控制面现在已经开始落成具体脚本和状态文件。
2026-04-07 21:22 北京时间
17 分钟
同主题:技术沉淀 等 3 个标签
GSD2 在管项目,OMX 在管 Codex。两边都能做长任务,但不在同一层:一个更像执行内核,一个更像编排外挂。把它们看成同一层工具,后面基本都会用错。
编辑精选
如果你想从这篇扩出去,这里放最近值得继续看的站内长文。
2026-04-12 10:20 北京时间
12 分钟
编辑精选
一次原生 Windows 命令行整治记录:把 PowerShell、PATH 和 UTF-8 的反复故障,收敛成 Git Bash、rg、sd、jq、yq 与 ast-grep 这一套稳定工具链。
2026-04-10 10:25 北京时间
9 分钟
编辑精选
这一周最有价值的论文,同时改了三条判断:个人代理依然很脆弱,自动化 QA 还远不到可托付,竞赛编程 agent 的上限又被往上推了一截。
2026-04-10 10:20 北京时间
8 分钟
编辑精选
这一周 GitHub 上真正有分量的上涨,集中在三类更靠近产品底层的仓库:agent 运行层、端侧推理运行时和全双工语音代理。
还没有评论,你可以写下第一条。