Karpathy 真正想解释的,是代码为什么总排在第一批
Karpathy 这篇短文把一个很多人只能模糊感觉到的趋势,压成了一个极好用的词:verifiability,可验证性。为什么 AI 在代码、数学、规则题上进步特别快?因为这些任务天然更容易自动判断对错,模型可以在更清晰的反馈里反复优化。
这篇最厉害的地方,是它把「为什么代码先爆发」从市场需求问题,继续往下推到了任务结构问题。决定扩散速度的,不只是用户想不想用,而是系统能不能用低成本反馈把自己训练得越来越稳。
这篇留下了哪几个更有用的判断
- Software 1.0 自动化的是你能明确规定规则的任务,Software 2.0 更擅长吃掉那些你能自动判定成败的任务。
- 代码之所以站在第一排,不只是因为开发者多,而是因为测试、编译和运行结果能提供持续反馈。
- 可验证任务更容易成为强化和迭代的训练土壤,因此模型会在这些领域形成更快的正循环。
- 如果一个任务暂时没有低成本的自动验收机制,AI 当然也能参与,但稳定性和提速幅度通常都不会一样。
- 对应用团队来说,比「模型会不会做」更重要的问题是「我能不能很快知道它做没做对」。
这篇对今天的任务选择和 Agent 设计有什么用
这篇几乎可以直接拿来指导任务选择。你想把什么先交给 AI,不必先问它看起来聪不聪明,而要先问这个任务能不能被快速验证。补测试、改结构化数据、修确定性 bug、统一明确规则的改写,通常都更容易先做出稳定工作流。
对 Agent Engineer 来说,这篇的翻译就是一句话:别只设计 prompt,先设计反馈。只要反馈够清楚,系统才更容易评估、优化和扩展。很多所谓「模型能力差距」,放到工作流里看,最后都是反馈设计差距。
说明
这页是基于原文的中文摘译与导读,不是官方全文翻译。关键表述和细节请以原文为准。
更新附注
- 版本:v1.1
更新日期:2026-04-02 更新原因:纳入全站文本风格整改的 digest 收尾批次,重写标题、首屏字段与段落骨架,减少「概念摘译」模板口吻,把文章焦点收回 verifiability 对任务选择的解释力。
还没有评论,你可以写下第一条。