03｜为什么代码会最先成为 AI 的关键突破口

返回文章列表

技术沉淀 AI 编程 AI Agent

Feature Essay

03｜为什么代码会最先成为 AI 的关键突破口

很多人会把最近的模型进展理解成「AI 突然变聪明了」，但 Karpathy 指向的是另一件更底层的事：不同任务适不适合被训练，差别非常大。代码之所以站在第一排，不只因为需求大，也因为它天然更容易被机器反复练习、自动打分、快速改进。

2026-03-19 21:30 北京时间 10 分钟难度：进阶 Agent 陪读系列

112 阅读 0 点赞

快速答案

如果你想理解为什么 AI 在代码、数学、规则题上进步得这么快，这篇几乎是一把钥匙。Karpathy 把问题压缩成一个词：可验证性。越容易自动判断对错的任务，越容易被优化，进展也越快。

软件 1.0 自动化的是你能明确规定的任务，软件 2.0 更擅长自动化你能自动验收的任务。
代码、数学和可判分任务的爆发，不是偶然，它更像训练机制与任务结构天然契合后的结果。
对普通开发者和 Agent Engineer 来说，能不能验证会越来越成为工作流设计的第一问题。

代码为什么站在第一排

如果你最近常有一种感觉：AI 在代码上进步得特别快，快到有点不讲道理，那 Karpathy 这篇几乎就是解释这件事的钥匙。

很多人直觉上会说，因为程序员多、市场大、大家愿意付费。这些当然都对，但还不够深。更底层的原因是，代码太适合被验证了。测试过没过、程序能不能跑、结果和预期是否一致，这些都给了模型一种其他领域很少有的训练环境。

说得更白一点，越容易自动判断对错的任务，越容易被机器反复练习。

一个很日常的例子

让 AI 帮你写一个接口测试，它很可能表现不错。因为结果很快就能知道对不对。测试过了还是没过、响应结构对不对、字段有没有少，这些都能立刻回馈。

但如果你让它「写一个更有判断力的行业分析」，事情就完全不同了。什么叫更有判断力，通常没有一个直接、低成本、自动化的打分器。

这就是 Karpathy 那个词真正厉害的地方。它一下子把「为什么代码先爆发」从市场判断，推回了任务结构判断。

这对开发者不是理论题

对开发者来说，这篇最实用的价值是它能帮你重新排序工作。

以后你想把任务交给 AI 时，可以先不问「它会不会做」，先问「我能不能很快知道它做得对不对」。

如果答案是能，那通常就值得更早交给 agent。比如补测试、清理结构化数据、跑回归、修小范围 bug、做明确规则下的改写。这些都是更容易长出稳定工作流的地方。

如果答案是不能，那就要小心。这类任务当然也能用 AI，但你不该一上来就期待它稳定替你负责。

这也是为什么「让 AI 先帮我补测试」和「让 AI 先替我想战略判断」听起来都像在用模型，实际却完全不是一类风险。

产品和测试会从这里得到什么

这篇还有一个容易被忽略的价值：它也在给产品和测试上课。

产品写需求时，如果能把结果写成可验证条件，AI 的可用性就会上升。测试越能把「感觉不对」翻成通过条件、失败条件和复现路径，越容易真正把 AI 纳入流程，而不只是让它当一个会说话的助手。

可验证性不只是模型的红利，也是团队写作和协作方式的红利。

举个很现实的产品例子。如果你把需求写成「让报销体验更顺」，AI 基本无从落手；但如果你写成「上传发票后 3 秒内完成字段提取，金额错误时要高亮并允许人工修改，缺失税号时不能提交」，它突然就有了可以统一和自测的标准。测试拿到这种需求，也更容易把 case、mock 数据和验收脚本一口气连起来。

对 Agent Engineer 最重要的一句翻译

如果把这篇对 Agent Engineer 的启发压成一句话，那就是：别只设计 prompt，要先设计反馈。

真正有成长性的 agent 系统，背后都站着一套能持续给它反馈的机制。只要反馈够清楚，系统就更容易优化、更容易评估，也更容易扩展到更大的工作流里。代码 agent 会不会自己跑测试、数据 agent 会不会自动比对样本、客服 agent 会不会回看历史工单，本质上都在做同一件事。

很多时候，难点不在模型，而在你有没有把任务改写成一个机器也能看懂成败的过程。

今天就能做的判断

拿你最近最想交给 AI 的一个任务，先别着急写 prompt。先写一张小纸条：什么叫完成，什么叫失败，什么情况必须人工复查。只要这三句开始清楚，你就已经比很多「只会问模型」的工作流更往前走了一步。

更新附注

版本：v1.1
更新日期：2026-03-20
更新原因：为系列文章补充统一阅读序号，方便读者顺着概念与方法继续往下读。

参考来源

还没有评论，你可以写下第一条。

继续阅读

继续读这个系列

这篇属于「Agent 陪读系列」，优先按系列顺序继续往下读。

2026-03-19 21:40 北京时间 11 分钟同属「Agent 陪读系列」

04｜下一波 AI 大公司，为什么可能出在 Agent 层

模型公司当然重要，但下一波真正贴着用户、贴着任务、贴着业务结果长大的 AI 公司，未必还是卖模型的人，更可能是把模型、工具、工作流和场景绑在一起卖结果的人。这正是 swyx 这篇最值得抓住的判断。

2026-03-19 21:50 北京时间 10 分钟同属「Agent 陪读系列」

05｜Coding Agent 需要熟练操作者，它不会替你负责

Coding agent 当然有用，但它最依赖的，恰恰是前面那个会提清楚任务、会判断结果、会继续追问的人。真正被放大的，从来重点是操作者本身的清晰度和收口能力。

2026-03-19 22:00 北京时间 12 分钟同属「Agent 陪读系列」

06｜2025 年，Agent 编程为什么突然变了

过去一年如果你总觉得模型、Agent、写代码方式都像在突然提速，这篇可以帮你把变化串起来。Karpathy 的价值，在于他把 2025 年几个改变格局的转折点挑了出来。

同主题延伸

如果你想顺着当前问题继续往下挖，这里优先给相近主题的文章。

2026-03-19 21:00 北京时间 12 分钟同主题：技术沉淀等 3 个标签

00｜如果你刚开始用 Agent 干活，先读这 4 个人

如果你最近开始用 Claude、ChatGPT、Cursor 或 Copilot 干活，这个系列不是拿来补 AI 史。它更像一条近作导读路线，帮你看懂 Agent 到底是什么、怎么用、哪里会翻车、团队会怎么变。

2026-03-19 21:10 北京时间 10 分钟同主题：技术沉淀等 3 个标签

01｜Agent 到底是什么：先把这个词说清楚

如果「Agent」这个词你已经听烦了，这篇最有价值的地方就是把它重新说清楚了。对今天的工程语境来说，Agent 更接近「用工具、跑循环、为了目标持续行动的 LLM 系统」，别再把它混成玄学人格或自动员工。

2026-04-11 12:10 北京时间 11 分钟同主题：AI Agent 等 3 个标签

Hermes 安装指南：macOS 和 Windows 怎么装

Hermes 不难装。macOS 直接跑官方安装器，Windows 先装 WSL2 再按 Linux 路线装。装完别先闲聊，先用并行读仓库和定时任务两个例子，看看它适不适合你。

编辑精选

如果你想从这篇扩出去，这里放最近值得继续看的站内长文。

2026-05-29 21:35 北京时间 12 分钟编辑精选

下一篇 04｜下一波 AI 大公司，为什么可能出在 Agent 层

阅读难度

进阶

信息密度适中，适合连续阅读。

专题

Agent 陪读系列

要点

软件 1.0 自动化的是你能明确规定的任务，软件 2.0 更擅长自动化你能自动验收的任务。
代码、数学和可判分任务的爆发，不是偶然，它更像训练机制与任务结构天然契合后的结果。
对普通开发者和 Agent Engineer 来说，能不能验证会越来越成为工作流设计的第一问题。

RSS

Subscribe to long-form updates through RSS. Feed timestamps use Beijing time.

Open RSS feed

LLMs

This site also exposes llms.txt and sitemap.xml for model-friendly discovery.

Open llms.txt

03｜为什么代码会最先成为 AI 的关键突破口

快速答案

代码为什么站在第一排

一个很日常的例子

这对开发者不是理论题

产品和测试会从这里得到什么

对 Agent Engineer 最重要的一句翻译

今天就能做的判断

更新附注

参考来源

评论（0）

继续阅读

继续读这个系列

04｜下一波 AI 大公司，为什么可能出在 Agent 层

05｜Coding Agent 需要熟练操作者，它不会替你负责

06｜2025 年，Agent 编程为什么突然变了

同主题延伸

00｜如果你刚开始用 Agent 干活，先读这 4 个人

01｜Agent 到底是什么：先把这个词说清楚

Hermes 安装指南：macOS 和 Windows 怎么装

编辑精选

Git 入门：先看懂版本、分支和协作

TerminalWorld：终端 Agent 评测不能只靠人造题

Agentic CLEAR：只做可观测还不够，Agent 需要解释型评测