快速答案
Karpathy 把 2025 年的模型变化压成几个范式转折,其中最重要的是 RLVR、可验证任务的加速、Cursor/Claude Code 这层应用形态,以及 vibe coding 带来的软件生产方式变化。
- 2025 年的重要性不只在模型更强,而在训练、推理和应用层开始一起咬合。
- RLVR 和可验证任务,让代码与数学场景继续跑在前面。
- 从聊天框到 agent 工作流,体感差异来自底层条件真的变了。
这篇原文在讲什么
Karpathy 这篇年终回顾最有价值的地方,不是罗列大事件,而是把 2025 年真正改变格局的几条线索放在了一起。你会看到他反复回到几个关键词:RLVR、test-time compute、代码场景、agent 形态,以及 vibe coding 对生产方式的冲击。
这篇等于在回答一个问题:为什么很多人都觉得 2025 年下半年开始,AI 编程和 Agent 编程突然不一样了?
重点摘译
- 变化不是单点突破,而是训练方式、推理方式和应用形态开始一起变,形成了更强的复合效应。
- RLVR 和各类可验证奖励,让代码和数学这类任务继续成为模型提速最明显的场景。
- 更长的推理链和 test-time compute,让模型在复杂任务上的行为不再只是“更会答题”,而更像“能推进一段过程”。
- Cursor、Claude Code 这一层产品形态说明,模型价值正在更多地通过工作流和系统包装进入普通开发者日常。
- vibe coding 的流行不是一个网络玩笑,而是在提示软件生产方式已经发生位移,尽管位移的质量仍然取决于反馈和验证。
这篇材料对今天还有什么用
这篇很适合拿来更新系统假设。你不需要每周追所有新模型,但需要知道哪些变化已经足够稳定地进入工作流。比如上下文更长、推理更强、工具调用更顺,这些变化组合起来后,应用层就不再只是“问一句答一句”。
对团队来说,这也意味着评估工具时不能只看 benchmark,要看它是否真的能读上下文、推进任务、留下可检查的过程,并把失败风险控制在可接受范围里。
说明
这页是基于原文的中文摘译与导读,不是官方全文翻译。关键表述和细节请以原文为准。
继续阅读
别把这篇当成终点。这里优先给你系列内延续、同主题扩展和站内值得继续看的文章。
同主题延伸
如果你想顺着当前问题继续往下挖,这里优先给相近主题的文章。
2026-04-11 12:10 北京时间
11 分钟
同主题:AI Agent 等 3 个标签
Hermes 不难装。macOS 直接跑官方安装器,Windows 先装 WSL2 再按 Linux 路线装。装完别先闲聊,先用并行读仓库和定时任务两个例子,看看它适不适合你。
2026-04-09 00:20 北京时间
20 分钟
同主题:技术沉淀 等 3 个标签
真正需要重构的不是提示词,而是项目控制层。多窗口同时写文章没有错,问题在于写作、主干集成、部署和恢复过去没有被放进同一套状态机里管理;而且这套控制面现在已经开始落成具体脚本和状态文件。
2026-04-07 21:22 北京时间
17 分钟
同主题:技术沉淀 等 3 个标签
GSD2 在管项目,OMX 在管 Codex。两边都能做长任务,但不在同一层:一个更像执行内核,一个更像编排外挂。把它们看成同一层工具,后面基本都会用错。
编辑精选
如果你想从这篇扩出去,这里放最近值得继续看的站内长文。
2026-04-12 10:20 北京时间
12 分钟
编辑精选
一次原生 Windows 命令行整治记录:把 PowerShell、PATH 和 UTF-8 的反复故障,收敛成 Git Bash、rg、sd、jq、yq 与 ast-grep 这一套稳定工具链。
2026-04-10 10:25 北京时间
9 分钟
编辑精选
这一周最有价值的论文,同时改了三条判断:个人代理依然很脆弱,自动化 QA 还远不到可托付,竞赛编程 agent 的上限又被往上推了一截。
2026-04-10 10:20 北京时间
8 分钟
编辑精选
这一周 GitHub 上真正有分量的上涨,集中在三类更靠近产品底层的仓库:agent 运行层、端侧推理运行时和全双工语音代理。
还没有评论,你可以写下第一条。