Karpathy 在复盘哪几条真正变硬的主线

Karpathy 这篇年终回顾最有价值的地方在于把 2025 年改变格局的几条线索压成了少数几个关键词。你会看到他反复回到 RLVR、test-time compute、代码与数学场景、agent 产品形态,以及 vibe coding 对生产方式的冲击。

它等于在回答一个经常被说得很模糊的问题:为什么很多人都觉得 2025 年下半年开始,AI 编程和 Agent 编程突然像换了范式?Karpathy 给出的解释,重点是几条条件开始同时咬合。

我会留下的五个判断

  • 变化重点是训练方式、推理方式和应用形态开始一起变,形成了更强的复合效应。
  • RLVR 和各类可验证奖励,让代码和数学这类任务继续成为模型能力兑现最明显的场景。
  • 更长的推理链和 test-time compute,让模型在复杂任务上的行为不再只是「更会答题」,而更像「能推进一段过程」。
  • Cursor、Claude Code 这一层产品形态说明,模型价值正在更多地通过工作流和系统包装进入普通开发者日常。
  • vibe coding 的流行在提示软件生产方式已经发生位移,尽管位移的质量仍然取决于反馈和验证。

这篇复盘今天为什么仍有用

这篇很适合拿来更新系统假设。你不需要每周追所有新模型,但需要知道哪些变化已经足够稳定地进入工作流。比如上下文更长、推理更强、工具调用更顺,这些条件组合起来后,应用层就不再只是「问一句答一句」。

对团队来说,这也意味着评估工具时不能只看 benchmark,要看它是否真的能读上下文、推进任务、留下可检查的过程,并把失败风险控制在可接受范围里。Karpathy 这篇的价值,在于帮你把下注前该看的变量重新排好顺序。

说明

这页是基于原文的中文摘译与导读,不是官方全文翻译。关键表述和细节请以原文为准。

更新附注

  • 版本:v1.1

更新日期:2026-04-02 更新原因:纳入全站文本风格整改的 digest 首批,重写标题、首屏字段与中段结构,减少「年终综述模板」口吻,把文章收束为几条改变工作流的主线。