季报比单条新闻更适合看 Agent
Agent 新闻很容易让人误判。一个产品突然爆火,像是新入口来了;一个模型能力提升,像是路线已经定了;一个创业公司融资,像是行业共识已经形成。单条新闻的情绪强,结构弱。
晚点聊 26Q1 AI 季报更适合用来观察 Agent,因为它把一个季度里的几条线放在一起:OpenClaw 的社区热度、Claude Code 的产品增长、OpenAI 与 Anthropic 的路线差异、自进化的技术叙事,以及工具链市场的升温。
这些线并在一起,会看到一个更稳的变化:Agent 的竞争正在从模型竞争,转向系统竞争。
模型仍然重要。没有足够强的推理、代码和工具使用能力,Agent 不可能可靠完成任务。但当多个头部模型都能支持复杂推理和工具调用后,差距不再只由模型参数或跑分决定。决定体验的,是系统怎么把模型放进工作流。
为什么模型分数不再足够
模型榜单回答的是能力上限。Agent 产品面对的是交付下限。
用户不会只问「这个模型在 benchmark 上得分多少」。用户会问:任务能不能完成,过程能不能看懂,失败能不能修,权限能不能控,成本能不能接受,结果能不能验收。
一个强模型如果没有可靠的工具链、上下文管理、执行环境和回滚机制,很难独立成为好 Agent。相反,一个不是最强的模型,如果被放进边界清楚的系统里,也可能在窄任务中给出更稳定的结果。
这就是系统竞争。它是在承认模型只是产品的一部分。Agent 要落地,需要把模型能力组织成可重复的任务完成能力。
在这个框架下,模型公司的竞争也会改变。过去比的是谁更会回答;下一阶段比的是谁更能把回答变成行动,谁能让行动进入开发者、企业和个人用户的真实环境。
Claude Code 是官方产品化路径
Claude Code 代表一条清晰的官方产品化路线。
它是在把模型放进开发者工作环境。命令行、代码仓库、文件系统、测试、错误日志、版本控制,这些都构成了 Agent 的行动场。用户关心的不只是「它会不会写代码」,而是它能不能读懂项目、提出修改、执行命令、修复错误、解释变化。
这条路线的优势是稳定。官方产品可以围绕模型能力、上下文窗口、企业采购、安全策略和开发者体验持续打磨。它不一定最野,但更容易进入真实工作。
它也有约束。官方产品要照顾更多用户,要控制风险,要保证品牌承诺。它不能像社区实验那样随意暴露能力,也不能让用户在没有边界的情况下把高风险任务交出去。
OpenClaw 是社区实验路径
OpenClaw 代表另一种路径:社区先把能力拼出来,让用户看到可能性。
这种路径未必有完整商业包装,也不一定一开始就稳定。但它的优势是扩散快、试错快、边界推得快。社区会把工具装到各种环境里,尝试各种任务,也会很快暴露失败模式。
OpenClaw 的热度说明,很多用户已经不满足于只和模型聊天。他们想看看 AI 能不能接管一段电脑工作。即使体验粗糙,这种「可见执行」仍然有强传播力。
官方产品化和社区实验不是互斥关系。Agent 行业需要两者同时存在。官方产品负责把能力变得可靠,社区实验负责发现新任务、新交互和新边界。很多真正有生命力的产品形态,往往先在社区里被玩出来,再被平台吸收和标准化。
OpenAI 与 Anthropic 的差异会外溢到生态
季报把 OpenAI 和 Anthropic 放在同一张图里看,是有意义的。模型公司之间的差异,不只体现在模型本身,也会体现在开发者生态、产品接口、企业策略和工具路线中。
OpenAI 更强调平台化和多模态应用入口,Anthropic 在开发者和编程场景里持续强化。两家公司都不会只做裸模型,因为 Agent 需要入口、工具、协议、运行时和分发。
这种差异会外溢到生态。开发者选择一个模型平台,不只是选择一次 API 调用,也是在选择工具协议、上下文能力、成本结构、安全策略和未来迁移成本。企业选择 Agent 方案,也会考虑它背后的模型公司能否长期支持工作流。
所以,下一阶段竞争不会只发生在模型发布会上,也会发生在 IDE、浏览器、云平台、企业系统和开发者社区里。
自进化要从评估开始谈
节目里提到自进化,这是 Agent 叙事里最容易被说虚的部分。
真正有意义的自进化,在明确环境、明确任务、明确反馈和明确评估下,不断优化策略。编程是一个相对适合的场景,因为测试、错误日志和版本差异都能提供反馈。客服质检、数据清洗、合同审阅这类场景也可能出现局部自优化,因为结果可以被抽样检查。
如果没有评估,所谓自进化就容易变成不可控的自动改写。Agent 最怕的重点是错误地进步。一个系统如果不知道什么叫做做对,就没有资格谈自我改进。
因此,自进化叙事真正落地之前,市场会先需要评估工具、回放系统、沙箱、日志和人工审阅机制。这些基础设施不显眼,却是系统竞争的一部分。
下一阶段看五个问题
季度视角的好处,是可以把热闹压缩成几个可观察问题。
第一,看运行时。Agent 在哪里执行,是本地电脑、浏览器、云沙箱、IDE,还是企业系统。运行时决定权限、延迟、成本和风险。
第二,看上下文。它如何组织任务历史、用户偏好、文件状态、工具返回和长期记忆。上下文越乱,任务越长越容易崩。
第三,看权限。它能读什么、写什么、删除什么、发送什么,哪些步骤必须用户确认。权限不清,Agent 就很难进入生产。
第四,看评估。它如何判断任务完成,如何记录失败,如何复盘错误。没有评估,就没有稳定迭代。
第五,看成本。长程任务会消耗多次模型调用、工具调用和重试。成本如果不可预估,用户很难形成使用习惯。
结论
晚点聊这期 AI 季报最值得留下的判断,是 Agent 竞争已经进入系统层。
模型能力仍然是底座,但不再是唯一答案。Claude Code 证明官方产品化可以把模型能力推进开发者工作流;OpenClaw 证明社区实验可以快速把「AI 行动」变成可见体验;OpenAI、Anthropic 的路线差异说明模型公司正在争夺更靠近用户任务的位置。
看下一阶段 Agent,不要只问模型强不强。要问它有没有运行时,有没有任务队列,有没有权限系统,有没有日志,有没有上下文管理,有没有成本控制,有没有失败修复机制。谁能把这些问题处理好,谁才真正进入 Agent 产品化。
还没有评论,你可以写下第一条。