快速答案
过去一年如果你总觉得模型、Agent、写代码方式都像在突然提速,这篇可以帮你把变化串起来。Karpathy 的价值,在于他把 2025 年几个真正改变格局的转折点挑了出来。
- 2025 年最关键的变化,不只是模型更强,训练与推理范式也都在变。
- 可验证奖励、测试时计算和代码场景,正在共同推动 Agent 编程提速。
- 对普通团队来说,重要的是理解这些变化会怎么进入自己的工作流。
你感觉到的那种提速,不是错觉
如果你最近几个月一直在用 AI 写代码,应该会有一种很难忽略的感觉:同样是“让模型帮忙干活”,现在的体验和半年前已经很不一样了。
以前更像补全,后来更像问答,再后来开始更像协同完成任务。很多人能明显感觉到变快了,但又说不清到底是哪一层变了。Karpathy 的年度回顾有价值的地方,就在于它能帮你把这种变化拆成结构。
真正一起变掉的,是底层条件
2025 年的重要性,不在于模型分数又涨了多少,而在于几件本来分散的事开始互相咬合。
训练方式在变,推理方式在变,可验证奖励在变,代码任务的可操作性也在变。等这些东西叠在一起,应用层突然就不再只是“问一句,答一句”,而开始像真正的工作流。
这也是为什么很多普通开发者会有一种突然被追上的感觉。很多时候,底层条件终于开始支持更像样的协作了。
你可以把它想成,原来很多 AI 工具像是会说话的搜索框,现在它们更像开始摸到“替你推进一小段工作”的门槛了。
去年你把一个需求丢给模型,它大概率还停在“给你一个思路”这层;现在同样一条需求,它可能已经会先读仓库、列计划、改两三个文件、跑一次测试,再把剩下的风险点告诉你。体感上的差异,就是这样一点点累出来的。
对开发者来说,这篇像一张时间地图
这篇对开发者的价值,是它能帮你把自己的体感放回一条更清楚的时间线。
你会意识到,自己过去几个月并不是随机试了几款新工具,你是在经历一种工作方式的切换。你从补全代码,走到了和系统协同推进任务。这个变化会继续往前走,不太可能再退回去。
一旦看清这一点,你就更容易判断:哪些新工具只是换壳,哪些是真的在代表下一代工作方式。
这对普通开发者很有用,因为它会让你少掉一种焦虑。你不必每周都追一遍新品发布,只要盯住几个更实在的信号就行:它能不能处理更长上下文,它能不能自己验证,它是只会答题还是已经能推进任务。抓住这三个维度,很多看起来花哨的变化就会突然变得可判断。
产品和测试会比想象中更早受影响
产品会看到 AI 功能正在从“能演示”走向“能接任务”。以前一个 AI 功能只要看起来聪明就能让人兴奋,现在大家会更自然地问:那它到底能不能真的持续帮我把事情做完。
测试则会更早面对另一种变化。测试对象不再只是答案像不像、页面漂不漂亮,重心会慢慢转到整条任务链会不会中途崩掉、漂移或失控。也就是说,Agent 时代的测试天然更像系统测试。
一个特别直观的例子,是“让 AI 帮你处理客户工单”这类场景。去年很多产品还停在给客服建议回复;现在大家已经会追问,它能不能去查订单、能不能补资料、能不能自动升级工单、能不能在失败后把现场留下来。这里每多一步,背后都意味着工作流范式在往前走。
对 Agent Engineer 最有用的一点
这类年度回顾对 Agent Engineer 的真正用途,是逼你更新自己的系统假设,而不是帮你背更多新词。
比如:哪些能力已经足够稳定可以进生产,哪些还只是看起来很猛;哪些变化会真正改写工作流,哪些只是演示层更好看。能把这些假设更新对,后面的技术判断通常也会更稳。
一个很简单的回看动作
回头看你 6 个月前最常用的一种 AI 协作方式,写下它今天已经被什么替代了。比如“只拿来补全函数”是不是已经变成了“让它先读 ticket 再开工”,“只让它解释报错”是不是已经变成了“让它自己重现并给出修法”。只要你认真写这一步,就会发现自己其实早就已经站在这波变化里面。
更新附注
- 版本:v1.1
- 更新日期:2026-03-20
- 更新原因:为系列文章补充统一阅读序号,方便读者按推荐路线进入趋势回看部分。
继续阅读
别把这篇当成终点。这里优先给你系列内延续、同主题扩展和站内值得继续看的文章。
继续读这个系列
这篇属于「Agent 陪读系列」,优先按系列顺序继续往下读。
2026-03-19 22:10 北京时间
10 分钟
同属「Agent 陪读系列」
很多人以为用 AI 编程就是把任务扔过去、等它回一坨结果。Jeremy Howard 这篇真正有用的,是它提醒大家:更可持续的方式,是把问题拆成小步,让人和 AI 在同一个反馈回路里一起往前走。
2026-03-19 22:20 北京时间
10 分钟
同属「Agent 陪读系列」
Agent 不是只改变个人怎么写代码,它也在改团队怎么协作。swyx 这篇最值得翻出来的地方,是它把“少人团队为什么会越来越能打”讲成了一套组织问题,而不只是技术问题。
2026-03-19 21:00 北京时间
12 分钟
同属「Agent 陪读系列」
如果你最近开始用 Claude、ChatGPT、Cursor 或 Copilot 干活,这个系列不是拿来补 AI 史。它更像一条近作导读路线,帮你看懂 Agent 到底是什么、怎么用、哪里会翻车、团队会怎么变。
同主题延伸
如果你想顺着当前问题继续往下挖,这里优先给相近主题的文章。
2026-04-11 12:10 北京时间
11 分钟
同主题:AI Agent 等 3 个标签
Hermes 不难装。macOS 直接跑官方安装器,Windows 先装 WSL2 再按 Linux 路线装。装完别先闲聊,先用并行读仓库和定时任务两个例子,看看它适不适合你。
2026-04-09 00:20 北京时间
20 分钟
同主题:技术沉淀 等 3 个标签
真正需要重构的不是提示词,而是项目控制层。多窗口同时写文章没有错,问题在于写作、主干集成、部署和恢复过去没有被放进同一套状态机里管理;而且这套控制面现在已经开始落成具体脚本和状态文件。
2026-04-07 21:22 北京时间
17 分钟
同主题:技术沉淀 等 3 个标签
GSD2 在管项目,OMX 在管 Codex。两边都能做长任务,但不在同一层:一个更像执行内核,一个更像编排外挂。把它们看成同一层工具,后面基本都会用错。
编辑精选
如果你想从这篇扩出去,这里放最近值得继续看的站内长文。
2026-04-12 10:20 北京时间
12 分钟
编辑精选
一次原生 Windows 命令行整治记录:把 PowerShell、PATH 和 UTF-8 的反复故障,收敛成 Git Bash、rg、sd、jq、yq 与 ast-grep 这一套稳定工具链。
2026-04-10 10:25 北京时间
9 分钟
编辑精选
这一周最有价值的论文,同时改了三条判断:个人代理依然很脆弱,自动化 QA 还远不到可托付,竞赛编程 agent 的上限又被往上推了一截。
2026-04-10 10:20 北京时间
8 分钟
编辑精选
这一周 GitHub 上真正有分量的上涨,集中在三类更靠近产品底层的仓库:agent 运行层、端侧推理运行时和全双工语音代理。
还没有评论,你可以写下第一条。