代码为什么总是最先被 AI 吃掉｜Karpathy 谈 Verifiability

返回文章列表

技术沉淀 AI 编程 AI Agent

Feature Essay

代码为什么总是最先被 AI 吃掉｜Karpathy 谈 Verifiability

很多人会把模型进展理解成「AI 突然变聪明了」，但 Karpathy 指向的是更底层的任务结构。代码、数学和规则题之所以跑在前面，重点是它们更容易形成清晰反馈。

2026-03-20 18:45 北京时间 6 分钟难度：进阶

60 阅读 0 点赞

快速答案

Karpathy 这篇最关键的判断是：在 Software 2.0 时代，决定任务是否会被 AI 快速吃掉的，重点是结果能不能被低成本、自动化地验证。

代码、数学和可判分任务的爆发，重点是训练机制和任务结构天然契合。
能否自动验证，会越来越成为任务选择和工作流设计的第一问题。
对 Agent 来说，反馈系统往往比 prompt 更重要。

Karpathy 真正想解释的，是代码为什么总排在第一批

Karpathy 这篇短文把一个很多人只能模糊感觉到的趋势，压成了一个极好用的词：verifiability，可验证性。为什么 AI 在代码、数学、规则题上进步特别快？因为这些任务天然更容易自动判断对错，模型可以在更清晰的反馈里反复优化。

这篇最厉害的地方，是它把「为什么代码先爆发」从市场需求问题，继续往下推到了任务结构问题。决定扩散速度的，不只是用户想不想用，而是系统能不能用低成本反馈把自己训练得越来越稳。

这篇留下了哪几个更有用的判断

Software 1.0 自动化的是你能明确规定规则的任务，Software 2.0 更擅长吃掉那些你能自动判定成败的任务。
代码之所以站在第一排，不只是因为开发者多，而是因为测试、编译和运行结果能提供持续反馈。
可验证任务更容易成为强化和迭代的训练土壤，因此模型会在这些领域形成更快的正循环。
如果一个任务暂时没有低成本的自动验收机制，AI 当然也能参与，但稳定性和提速幅度通常都不会一样。
对应用团队来说，比「模型会不会做」更重要的问题是「我能不能很快知道它做没做对」。

这篇对今天的任务选择和 Agent 设计有什么用

这篇几乎可以直接拿来指导任务选择。你想把什么先交给 AI，不必先问它看起来聪不聪明，而要先问这个任务能不能被快速验证。补测试、改结构化数据、修确定性 bug、统一明确规则的改写，通常都更容易先做出稳定工作流。

对 Agent Engineer 来说，这篇的翻译就是一句话：别只设计 prompt，先设计反馈。只要反馈够清楚，系统才更容易评估、优化和扩展。很多所谓「模型能力差距」，放到工作流里看，最后都是反馈设计差距。

说明

这页是基于原文的中文摘译与导读，不是官方全文翻译。关键表述和细节请以原文为准。

更新附注

版本：v1.1

更新日期：2026-04-02 更新原因：纳入全站文本风格整改的 digest 收尾批次，重写标题、首屏字段与段落骨架，减少「概念摘译」模板口吻，把文章焦点收回 verifiability 对任务选择的解释力。

参考来源

Andrej Karpathy: Verifiability

还没有评论，你可以写下第一条。

继续阅读

同主题延伸

如果你想顺着当前问题继续往下挖，这里优先给相近主题的文章。

2026-04-11 12:10 北京时间 11 分钟同主题：AI Agent 等 3 个标签

Hermes 安装指南：macOS 和 Windows 怎么装

Hermes 不难装。macOS 直接跑官方安装器，Windows 先装 WSL2 再按 Linux 路线装。装完别先闲聊，先用并行读仓库和定时任务两个例子，看看它适不适合你。

2026-04-09 00:20 北京时间 20 分钟同主题：技术沉淀等 3 个标签

把多窗口 AI 工作流重构成单一控制面

需要重构的重点是项目控制层。多窗口同时写文章没有错，问题在于写作、主干集成、部署和恢复过去没有被放进同一套状态机里管理；而且这套控制面现在已经开始落成具体脚本和状态文件。

2026-04-07 21:22 北京时间 17 分钟同主题：技术沉淀等 3 个标签

GSD2 和 OMX 怎么选：两套 AI 编程工作流的分水岭

GSD2 在管项目，OMX 在管 Codex。两边都能做长任务，但不在同一层：一个更像执行内核，一个更像编排外挂。把它们看成同一层工具，后面基本都会用错。

编辑精选

如果你想从这篇扩出去，这里放最近值得继续看的站内长文。

2026-05-29 21:35 北京时间 12 分钟编辑精选

下一篇 最后一篇

阅读难度

进阶

信息密度适中，适合连续阅读。

要点

代码、数学和可判分任务的爆发，重点是训练机制和任务结构天然契合。
能否自动验证，会越来越成为任务选择和工作流设计的第一问题。
对 Agent 来说，反馈系统往往比 prompt 更重要。

RSS

Subscribe to long-form updates through RSS. Feed timestamps use Beijing time.

Open RSS feed

LLMs

This site also exposes llms.txt and sitemap.xml for model-friendly discovery.

Open llms.txt

代码为什么总是最先被 AI 吃掉｜Karpathy 谈 Verifiability

快速答案

Karpathy 真正想解释的，是代码为什么总排在第一批

这篇留下了哪几个更有用的判断

这篇对今天的任务选择和 Agent 设计有什么用

说明

更新附注

参考来源

评论（0）

继续阅读

同主题延伸

Hermes 安装指南：macOS 和 Windows 怎么装

把多窗口 AI 工作流重构成单一控制面

GSD2 和 OMX 怎么选：两套 AI 编程工作流的分水岭

编辑精选

Git 入门：先看懂版本、分支和协作

TerminalWorld：终端 Agent 评测不能只靠人造题

Agentic CLEAR：只做可观测还不够，Agent 需要解释型评测