快速答案
Karpathy 这篇最关键的判断是:在 Software 2.0 时代,决定任务是否会被 AI 快速吃掉的,不再是能不能写清算法,而是能不能自动验证结果。
- 代码、数学和可判分任务的爆发,不是偶然,而是训练机制和任务结构天然契合。
- 能否自动验证,会越来越成为工作流设计的第一问题。
- 对 Agent 来说,反馈系统往往比 prompt 更重要。
这篇原文在讲什么
Karpathy 这篇短文把一个很多人只能模糊感觉到的趋势,压成了一个极好用的词:verifiability,可验证性。为什么 AI 在代码、数学、规则题上进步特别快?因为这些任务天然更容易自动判断对错,模型可以在更清晰的反馈里反复优化。
这篇最厉害的地方,是它把“为什么代码先爆发”从市场需求问题,往下推到了任务结构问题。
重点摘译
- Software 1.0 自动化的是你能明确规定规则的任务,Software 2.0 更擅长吃掉那些你能自动判定成败的任务。
- 代码之所以站在第一排,不只是因为开发者多,而是因为测试、编译和运行结果能提供持续反馈。
- 可验证任务更容易成为强化和迭代的训练土壤,因此模型会在这些领域形成更快的正循环。
- 如果一个任务暂时没有低成本的自动验收机制,AI 当然也能参与,但稳定性和提速幅度通常都不会一样。
- 对应用团队来说,比“模型会不会做”更重要的问题是“我能不能很快知道它做没做对”。
这篇材料对今天还有什么用
这篇几乎可以直接拿来指导任务选择。你想把什么先交给 AI,不必先问它看起来聪不聪明,而要先问这个任务能不能被快速验证。补测试、改结构化数据、修确定性 bug、对齐明确规则的改写,通常都更容易先做出稳定工作流。
对 Agent Engineer 来说,这篇的翻译就是一句话:别只设计 prompt,先设计反馈。只要反馈够清楚,系统才更容易评估、优化和扩展。
说明
这页是基于原文的中文摘译与导读,不是官方全文翻译。关键表述和细节请以原文为准。
继续阅读
别把这篇当成终点。这里优先给你系列内延续、同主题扩展和站内值得继续看的文章。
同主题延伸
如果你想顺着当前问题继续往下挖,这里优先给相近主题的文章。
2026-04-11 12:10 北京时间
11 分钟
同主题:AI Agent 等 3 个标签
Hermes 不难装。macOS 直接跑官方安装器,Windows 先装 WSL2 再按 Linux 路线装。装完别先闲聊,先用并行读仓库和定时任务两个例子,看看它适不适合你。
2026-04-09 00:20 北京时间
20 分钟
同主题:技术沉淀 等 3 个标签
真正需要重构的不是提示词,而是项目控制层。多窗口同时写文章没有错,问题在于写作、主干集成、部署和恢复过去没有被放进同一套状态机里管理;而且这套控制面现在已经开始落成具体脚本和状态文件。
2026-04-07 21:22 北京时间
17 分钟
同主题:技术沉淀 等 3 个标签
GSD2 在管项目,OMX 在管 Codex。两边都能做长任务,但不在同一层:一个更像执行内核,一个更像编排外挂。把它们看成同一层工具,后面基本都会用错。
编辑精选
如果你想从这篇扩出去,这里放最近值得继续看的站内长文。
2026-04-12 10:20 北京时间
12 分钟
编辑精选
一次原生 Windows 命令行整治记录:把 PowerShell、PATH 和 UTF-8 的反复故障,收敛成 Git Bash、rg、sd、jq、yq 与 ast-grep 这一套稳定工具链。
2026-04-10 10:25 北京时间
9 分钟
编辑精选
这一周最有价值的论文,同时改了三条判断:个人代理依然很脆弱,自动化 QA 还远不到可托付,竞赛编程 agent 的上限又被往上推了一截。
2026-04-10 10:20 北京时间
8 分钟
编辑精选
这一周 GitHub 上真正有分量的上涨,集中在三类更靠近产品底层的仓库:agent 运行层、端侧推理运行时和全双工语音代理。
还没有评论,你可以写下第一条。