这篇原文在讲什么

Karpathy 这篇年终回顾最有价值的地方,不是罗列大事件,而是把 2025 年真正改变格局的几条线索放在了一起。你会看到他反复回到几个关键词:RLVR、test-time compute、代码场景、agent 形态,以及 vibe coding 对生产方式的冲击。

这篇等于在回答一个问题:为什么很多人都觉得 2025 年下半年开始,AI 编程和 Agent 编程突然不一样了?

重点摘译

  • 变化不是单点突破,而是训练方式、推理方式和应用形态开始一起变,形成了更强的复合效应。
  • RLVR 和各类可验证奖励,让代码和数学这类任务继续成为模型提速最明显的场景。
  • 更长的推理链和 test-time compute,让模型在复杂任务上的行为不再只是“更会答题”,而更像“能推进一段过程”。
  • Cursor、Claude Code 这一层产品形态说明,模型价值正在更多地通过工作流和系统包装进入普通开发者日常。
  • vibe coding 的流行不是一个网络玩笑,而是在提示软件生产方式已经发生位移,尽管位移的质量仍然取决于反馈和验证。

这篇材料对今天还有什么用

这篇很适合拿来更新系统假设。你不需要每周追所有新模型,但需要知道哪些变化已经足够稳定地进入工作流。比如上下文更长、推理更强、工具调用更顺,这些变化组合起来后,应用层就不再只是“问一句答一句”。

对团队来说,这也意味着评估工具时不能只看 benchmark,要看它是否真的能读上下文、推进任务、留下可检查的过程,并把失败风险控制在可接受范围里。

说明

这页是基于原文的中文摘译与导读,不是官方全文翻译。关键表述和细节请以原文为准。