06｜2025 年，Agent 编程为什么突然变了

返回文章列表

Feature Essay

06｜2025 年，Agent 编程为什么突然变了

很多人能感受到变化，但说不清到底变了什么。Karpathy 这篇更像一次范式回看，帮助读者理解为什么从 RLVR 到更长的推理，再到代码代理和应用层变化，会一起改变普通开发者的工作方式。

2026-03-19 22:00 北京时间 12 分钟难度：进阶 Agent 陪读系列

124 阅读 0 点赞

快速答案

过去一年如果你总觉得模型、Agent、写代码方式都像在突然提速，这篇可以帮你把变化串起来。Karpathy 的价值，在于他把 2025 年几个改变格局的转折点挑了出来。

2025 年最关键的变化，不只是模型更强，训练与推理范式也都在变。
可验证奖励、测试时计算和代码场景，正在共同推动 Agent 编程提速。
对普通团队来说，重要的是理解这些变化会怎么进入自己的工作流。

你感觉到的那种提速，不是错觉

如果你最近几个月一直在用 AI 写代码，应该会有一种很难忽略的感觉：同样是「让模型帮忙干活」，现在的体验和半年前已经很不一样了。

以前更像补全，后来更像问答，再后来开始更像协同完成任务。很多人能明显感觉到变快了，但又说不清到底是哪一层变了。Karpathy 的年度回顾有价值的地方，就在于它能帮你把这种变化拆成结构。

真正一起变掉的，是底层条件

2025 年的重要性，在于几件本来分散的事开始互相咬合。

训练方式在变，推理方式在变，可验证奖励在变，代码任务的可操作性也在变。等这些东西叠在一起，应用层突然就不再只是「问一句，答一句」，而开始像工作流。

这也是为什么很多普通开发者会有一种突然被追上的感觉。很多时候，底层条件终于开始支持更像样的协作了。

你可以把它想成，原来很多 AI 工具像是会说话的搜索框，现在它们更像开始摸到「替你推进一小段工作」的门槛了。

去年你把一个需求丢给模型，它大概率还停在「给你一个思路」这层；现在同样一条需求，它可能已经会先读仓库、列计划、改两三个文件、跑一次测试，再把剩下的风险点告诉你。体感上的差异，就是这样一点点累出来的。

对开发者来说，这篇像一张时间地图

这篇对开发者的价值，是它能帮你把自己的体感放回一条更清楚的时间线。

你会意识到，自己过去几个月并不是随机试了几款新工具，你是在经历一种工作方式的切换。你从补全代码，走到了和系统协同推进任务。这个变化会继续往前走，不太可能再退回去。

一旦看清这一点，你就更容易判断：哪些新工具只是换壳，哪些是真的在代表下一代工作方式。

这对普通开发者很有用，因为它会让你少掉一种焦虑。你不必每周都追一遍新品发布，只要盯住几个更实在的信号就行：它能不能处理更长上下文，它能不能自己验证，它是只会答题还是已经能推进任务。抓住这三个维度，很多看起来花哨的变化就会突然变得可判断。

产品和测试会比想象中更早受影响

产品会看到 AI 功能正在从「能演示」走向「能接任务」。以前一个 AI 功能只要看起来聪明就能让人兴奋，现在大家会更自然地问：那它到底能不能真的持续帮我把事情做完。

测试则会更早面对另一种变化。测试对象不再只是答案像不像、页面漂不漂亮，重心会慢慢转到整条任务链会不会中途崩掉、漂移或失控。Agent 时代的测试天然更像系统测试。

一个特别直观的例子，是「让 AI 帮你处理客户工单」这类场景。去年很多产品还停在给客服建议回复；现在大家已经会追问，它能不能去查订单、能不能补资料、能不能自动升级工单、能不能在失败后把现场留下来。这里每多一步，背后都意味着工作流范式在往前走。

对 Agent Engineer 最有用的一点

这类年度回顾对 Agent Engineer 的真正用途，是逼你更新自己的系统假设，而不是帮你背更多新词。

比如：哪些能力已经足够稳定可以进生产，哪些还只是看起来很猛；哪些变化会真正改写工作流，哪些只是演示层更好看。能把这些假设更新对，后面的技术判断通常也会更稳。

一个很简单的回看动作

回头看你 6 个月前最常用的一种 AI 协作方式，写下它今天已经被什么替代了。比如「只拿来补全函数」是不是已经变成了「让它先读 ticket 再开工」，「只让它解释报错」是不是已经变成了「让它自己重现并给出修法」。只要你认真写这一步，就会发现自己早就已经站在这波变化里面。

更新附注

版本：v1.1
更新日期：2026-03-20
更新原因：为系列文章补充统一阅读序号，方便读者按推荐路线进入趋势回看部分。

参考来源

还没有评论，你可以写下第一条。

继续阅读

继续读这个系列

这篇属于「Agent 陪读系列」，优先按系列顺序继续往下读。

2026-03-19 22:10 北京时间 10 分钟同属「Agent 陪读系列」

07｜别一把梭哈给 AI：和它一步一步把问题做完

很多人以为用 AI 编程就是把任务扔过去、等它回一坨结果。Jeremy Howard 这篇有用的，是它提醒大家：更可持续的方式，是把问题拆成小步，让人和 AI 在同一个反馈回路里一起往前走。

2026-03-19 22:20 北京时间 10 分钟同属「Agent 陪读系列」

08｜小团队 + Agent，会不会变成新默认配置

Agent 不是只改变个人怎么写代码，它也在改团队怎么协作。swyx 这篇最值得翻出来的地方，是它把「少人团队为什么会越来越能打」讲成了一套组织问题，而不只是技术问题。

2026-03-19 21:00 北京时间 12 分钟同属「Agent 陪读系列」

00｜如果你刚开始用 Agent 干活，先读这 4 个人

如果你最近开始用 Claude、ChatGPT、Cursor 或 Copilot 干活，这个系列不是拿来补 AI 史。它更像一条近作导读路线，帮你看懂 Agent 到底是什么、怎么用、哪里会翻车、团队会怎么变。

同主题延伸

如果你想顺着当前问题继续往下挖，这里优先给相近主题的文章。

2026-03-19 21:30 北京时间 10 分钟同主题：技术沉淀等 3 个标签

03｜为什么代码会最先成为 AI 的关键突破口

如果你想理解为什么 AI 在代码、数学、规则题上进步得这么快，这篇几乎是一把钥匙。Karpathy 把问题压缩成一个词：可验证性。越容易自动判断对错的任务，越容易被优化，进展也越快。

2026-03-19 21:10 北京时间 10 分钟同主题：技术沉淀等 3 个标签

01｜Agent 到底是什么：先把这个词说清楚

如果「Agent」这个词你已经听烦了，这篇最有价值的地方就是把它重新说清楚了。对今天的工程语境来说，Agent 更接近「用工具、跑循环、为了目标持续行动的 LLM 系统」，别再把它混成玄学人格或自动员工。

2026-03-19 21:50 北京时间 10 分钟同主题：技术沉淀等 3 个标签

05｜Coding Agent 需要熟练操作者，它不会替你负责

Coding agent 当然有用，但它最依赖的，恰恰是前面那个会提清楚任务、会判断结果、会继续追问的人。真正被放大的，从来重点是操作者本身的清晰度和收口能力。

编辑精选

如果你想从这篇扩出去，这里放最近值得继续看的站内长文。

2026-05-29 21:35 北京时间 12 分钟编辑精选

下一篇 07｜别一把梭哈给 AI：和它一步一步把问题做完

阅读难度

进阶

信息密度适中，适合连续阅读。

专题

Agent 陪读系列

要点

2025 年最关键的变化，不只是模型更强，训练与推理范式也都在变。
可验证奖励、测试时计算和代码场景，正在共同推动 Agent 编程提速。
对普通团队来说，重要的是理解这些变化会怎么进入自己的工作流。

RSS

Subscribe to long-form updates through RSS. Feed timestamps use Beijing time.

Open RSS feed

LLMs

This site also exposes llms.txt and sitemap.xml for model-friendly discovery.

Open llms.txt

06｜2025 年，Agent 编程为什么突然变了

快速答案

你感觉到的那种提速，不是错觉

真正一起变掉的，是底层条件

对开发者来说，这篇像一张时间地图

产品和测试会比想象中更早受影响

对 Agent Engineer 最有用的一点

一个很简单的回看动作

更新附注

参考来源

评论（0）

继续阅读

继续读这个系列

07｜别一把梭哈给 AI：和它一步一步把问题做完

08｜小团队 + Agent，会不会变成新默认配置

00｜如果你刚开始用 Agent 干活，先读这 4 个人

同主题延伸

03｜为什么代码会最先成为 AI 的关键突破口

01｜Agent 到底是什么：先把这个词说清楚

05｜Coding Agent 需要熟练操作者，它不会替你负责

编辑精选

Git 入门：先看懂版本、分支和协作

TerminalWorld：终端 Agent 评测不能只靠人造题

Agentic CLEAR：只做可观测还不够，Agent 需要解释型评测