从模型竞争到系统竞争，Agent 季报该看什么

返回文章列表

AI Agent 播客观察行业观察

Feature Essay

从模型竞争到系统竞争，Agent 季报该看什么

单看模型发布，很容易错过 Agent 这条主线。一个季度里同时出现社区实验、官方编程工具、模型公司产品化和自进化叙事，说明竞争重心正在外移：从谁的模型更会回答，转向谁能把模型、工具、运行时、权限和反馈系统组织成可靠产品。

2026-05-25 00:15 北京时间 14 分钟难度：入门

27 阅读 0 点赞

快速答案

晚点聊 26Q1 AI 季报把 OpenClaw、Claude Code、OpenAI 和 Anthropic 放在同一张季度图里看。它提醒我们：Agent 的竞争已经不只是模型强弱，而是系统完成任务的能力。

Agent 产品的核心变量，正在从模型分数转向系统完成任务的能力。
Claude Code 和 OpenClaw 代表两条路径：官方产品化与社区实验扩散。
下一阶段竞争会围绕运行时、权限、上下文、评估和任务完整流程展开。

季报比单条新闻更适合看 Agent

Agent 新闻很容易让人误判。一个产品突然爆火，像是新入口来了；一个模型能力提升，像是路线已经定了；一个创业公司融资，像是行业共识已经形成。单条新闻的情绪强，结构弱。

晚点聊 26Q1 AI 季报更适合用来观察 Agent，因为它把一个季度里的几条线放在一起：OpenClaw 的社区热度、Claude Code 的产品增长、OpenAI 与 Anthropic 的路线差异、自进化的技术叙事，以及工具链市场的升温。

这些线并在一起，会看到一个更稳的变化：Agent 的竞争正在从模型竞争，转向系统竞争。

模型仍然重要。没有足够强的推理、代码和工具使用能力，Agent 不可能可靠完成任务。但当多个头部模型都能支持复杂推理和工具调用后，差距不再只由模型参数或跑分决定。决定体验的，是系统怎么把模型放进工作流。

为什么模型分数不再足够

模型榜单回答的是能力上限。Agent 产品面对的是交付下限。

用户不会只问「这个模型在 benchmark 上得分多少」。用户会问：任务能不能完成，过程能不能看懂，失败能不能修，权限能不能控，成本能不能接受，结果能不能验收。

一个强模型如果没有可靠的工具链、上下文管理、执行环境和回滚机制，很难独立成为好 Agent。相反，一个不是最强的模型，如果被放进边界清楚的系统里，也可能在窄任务中给出更稳定的结果。

这就是系统竞争。它是在承认模型只是产品的一部分。Agent 要落地，需要把模型能力组织成可重复的任务完成能力。

在这个框架下，模型公司的竞争也会改变。过去比的是谁更会回答；下一阶段比的是谁更能把回答变成行动，谁能让行动进入开发者、企业和个人用户的真实环境。

Claude Code 是官方产品化路径

Claude Code 代表一条清晰的官方产品化路线。

它是在把模型放进开发者工作环境。命令行、代码仓库、文件系统、测试、错误日志、版本控制，这些都构成了 Agent 的行动场。用户关心的不只是「它会不会写代码」，而是它能不能读懂项目、提出修改、执行命令、修复错误、解释变化。

这条路线的优势是稳定。官方产品可以围绕模型能力、上下文窗口、企业采购、安全策略和开发者体验持续打磨。它不一定最野，但更容易进入真实工作。

它也有约束。官方产品要照顾更多用户，要控制风险，要保证品牌承诺。它不能像社区实验那样随意暴露能力，也不能让用户在没有边界的情况下把高风险任务交出去。

OpenClaw 是社区实验路径

OpenClaw 代表另一种路径：社区先把能力拼出来，让用户看到可能性。

这种路径未必有完整商业包装，也不一定一开始就稳定。但它的优势是扩散快、试错快、边界推得快。社区会把工具装到各种环境里，尝试各种任务，也会很快暴露失败模式。

OpenClaw 的热度说明，很多用户已经不满足于只和模型聊天。他们想看看 AI 能不能接管一段电脑工作。即使体验粗糙，这种「可见执行」仍然有强传播力。

官方产品化和社区实验不是互斥关系。Agent 行业需要两者同时存在。官方产品负责把能力变得可靠，社区实验负责发现新任务、新交互和新边界。很多真正有生命力的产品形态，往往先在社区里被玩出来，再被平台吸收和标准化。

OpenAI 与 Anthropic 的差异会外溢到生态

季报把 OpenAI 和 Anthropic 放在同一张图里看，是有意义的。模型公司之间的差异，不只体现在模型本身，也会体现在开发者生态、产品接口、企业策略和工具路线中。

OpenAI 更强调平台化和多模态应用入口，Anthropic 在开发者和编程场景里持续强化。两家公司都不会只做裸模型，因为 Agent 需要入口、工具、协议、运行时和分发。

这种差异会外溢到生态。开发者选择一个模型平台，不只是选择一次 API 调用，也是在选择工具协议、上下文能力、成本结构、安全策略和未来迁移成本。企业选择 Agent 方案，也会考虑它背后的模型公司能否长期支持工作流。

所以，下一阶段竞争不会只发生在模型发布会上，也会发生在 IDE、浏览器、云平台、企业系统和开发者社区里。

自进化要从评估开始谈

节目里提到自进化，这是 Agent 叙事里最容易被说虚的部分。

真正有意义的自进化，在明确环境、明确任务、明确反馈和明确评估下，不断优化策略。编程是一个相对适合的场景，因为测试、错误日志和版本差异都能提供反馈。客服质检、数据清洗、合同审阅这类场景也可能出现局部自优化，因为结果可以被抽样检查。

如果没有评估，所谓自进化就容易变成不可控的自动改写。Agent 最怕的重点是错误地进步。一个系统如果不知道什么叫做做对，就没有资格谈自我改进。

因此，自进化叙事真正落地之前，市场会先需要评估工具、回放系统、沙箱、日志和人工审阅机制。这些基础设施不显眼，却是系统竞争的一部分。

下一阶段看五个问题

季度视角的好处，是可以把热闹压缩成几个可观察问题。

第一，看运行时。Agent 在哪里执行，是本地电脑、浏览器、云沙箱、IDE，还是企业系统。运行时决定权限、延迟、成本和风险。

第二，看上下文。它如何组织任务历史、用户偏好、文件状态、工具返回和长期记忆。上下文越乱，任务越长越容易崩。

第三，看权限。它能读什么、写什么、删除什么、发送什么，哪些步骤必须用户确认。权限不清，Agent 就很难进入生产。

第四，看评估。它如何判断任务完成，如何记录失败，如何复盘错误。没有评估，就没有稳定迭代。

第五，看成本。长程任务会消耗多次模型调用、工具调用和重试。成本如果不可预估，用户很难形成使用习惯。

结论

晚点聊这期 AI 季报最值得留下的判断，是 Agent 竞争已经进入系统层。

模型能力仍然是底座，但不再是唯一答案。Claude Code 证明官方产品化可以把模型能力推进开发者工作流；OpenClaw 证明社区实验可以快速把「AI 行动」变成可见体验；OpenAI、Anthropic 的路线差异说明模型公司正在争夺更靠近用户任务的位置。

看下一阶段 Agent，不要只问模型强不强。要问它有没有运行时，有没有任务队列，有没有权限系统，有没有日志，有没有上下文管理，有没有成本控制，有没有失败修复机制。谁能把这些问题处理好，谁才真正进入 Agent 产品化。

参考来源

还没有评论，你可以写下第一条。

继续阅读

同主题延伸

如果你想顺着当前问题继续往下挖，这里优先给相近主题的文章。

2026-05-25 00:15 北京时间 14 分钟同主题：AI Agent 等 3 个标签

垂类 Agent 的现实主义，Lovart 复盘说明了什么

晚点聊与 Lovart 创始人陈冕的复盘，适合用来理解垂类 Agent。垂类重点是围绕一个专业场景持续接模型、改交互、建上下文和抢用户心智。

2026-05-25 00:15 北京时间 14 分钟同主题：AI Agent 等 3 个标签

年末 AI 回顾里，Agent 最该留下哪几条判断

晚点聊年末 AI 回顾不只是盘点热闹，它把模型、应用、巨头、创业公司和硬件放到同一张图里。对 Agent 来说，最该留下的是：Coding 是样板，垂类是落点，工具链是杠杆。

2026-05-25 00:15 北京时间 15 分钟同主题：AI Agent 等 3 个标签

投资人看 Agent，李世石时刻会发生在哪些行业

晚点聊与戴雨森关于 Agent 的长谈，适合从投资视角理解行业拐点。所谓李世石时刻，重点是某个垂直任务突然被机器用新方法打穿。

编辑精选

如果你想从这篇扩出去，这里放最近值得继续看的站内长文。

2026-05-29 21:35 北京时间 12 分钟编辑精选

下一篇 OpenClaw 热度背后，委托式 AI 终于有了样子

阅读难度

入门

概念为主，适合快速进入。

要点

Agent 产品的核心变量，正在从模型分数转向系统完成任务的能力。
Claude Code 和 OpenClaw 代表两条路径：官方产品化与社区实验扩散。
下一阶段竞争会围绕运行时、权限、上下文、评估和任务完整流程展开。

RSS

Subscribe to long-form updates through RSS. Feed timestamps use Beijing time.

Open RSS feed

LLMs

This site also exposes llms.txt and sitemap.xml for model-friendly discovery.

Open llms.txt

从模型竞争到系统竞争，Agent 季报该看什么

快速答案

季报比单条新闻更适合看 Agent

为什么模型分数不再足够

Claude Code 是官方产品化路径

OpenClaw 是社区实验路径

OpenAI 与 Anthropic 的差异会外溢到生态

自进化要从评估开始谈

下一阶段看五个问题

结论

参考来源

评论（0）

继续阅读

同主题延伸

垂类 Agent 的现实主义，Lovart 复盘说明了什么

年末 AI 回顾里，Agent 最该留下哪几条判断

投资人看 Agent，李世石时刻会发生在哪些行业

编辑精选

Git 入门：先看懂版本、分支和协作

TerminalWorld：终端 Agent 评测不能只靠人造题

Agentic CLEAR：只做可观测还不够，Agent 需要解释型评测