TerminalWorld:终端 Agent 评测不能只靠人造题
TerminalWorld 从真实终端录屏反向构造任务,得到 1530 个验证任务和 200 个人工复核子集。它说明终端 Agent 的真实难度,比专家手写 benchmark 更杂、更长、更贴近日常开发。
- 论文处理 80870 条真实终端录屏,生成 1530 个验证任务,覆盖 18 类真实任务和 1280 个唯一命令。
技术、行业、人物与 Agent 系统观察。
给刚开始用 Claude、ChatGPT、Cursor、Copilot 和各类 coding agent 干活的人,一条从概念、工程、方法到团队变化的顺读路线。
Reading Path
先读 00,再按 01 到 08 的顺序往下读。Latest Archive
AI Agent 时间线。
TerminalWorld 从真实终端录屏反向构造任务,得到 1530 个验证任务和 200 个人工复核子集。它说明终端 Agent 的真实难度,比专家手写 benchmark 更杂、更长、更贴近日常开发。
Agentic CLEAR 位于 observability layer 之上,试图从系统、trace 和 node 三个层级自动生成行为判断。它解决的「日志能不能变成可行动的评测」。
Contractual Skills 把 SKILL.md 从提示材料升级为可检查的任务合同:目标、输入边界、权限、证据、验收标准、审批点和交接规则都要写清楚。
Spreadsheet-RL 用强化学习训练专门的表格 Agent,并在 SpreadsheetBench 和领域表格任务上提升 Pass@1。它说明办公自动化不一定靠通用模型提示就能解决。
Boiling the Frog 把安全评测从单轮有害回答,转向企业办公环境里的多轮渐进攻击。它提醒我们,Agent 风险往往是在状态被慢慢改坏后出现。
Claw AI Lab 把自动科研从隐藏的 prompt-to-paper 流水线,改造成可交互、可监控、可回滚的多 Agent 实验室。它的让研究过程更可控。
WorkstreamBench 把 Agent 评测放进端到端金融表格任务,而不是只看孤立公式或单步操作。它提醒我们,企业 Agent 的难点往往在流程、文件状态和业务语境。
HarnessAPI 把 typed skill folder 作为单一真源,同时生成流式 HTTP endpoint、OpenAPI 页面和 MCP tool。它真正指出的问题是:Agent 工具层如果继续手工复制,很快会漂移。
DeltaBox 把 Agent 沙箱从「隔离环境」推进到「可快速试错的执行底座」。它讨论的 checkpoint 和 rollback,决定长程 Agent 能不能安全探索多条路径。
Agent 时代不会让编程语言变得不重要。变化恰好相反:语言会从人的偏好问题,变成 Agent 能否理解、修改、验证、部署和长期维护系统的协作界面。
LCGuard 关注一个容易被忽略的通道:多 Agent 系统不只会通过自然语言泄密,也可能通过共享 KV cache 泄漏上下文、推理状态和角色私有信息。
MOSS 把自我进化从 prompt、技能文件和工作流配置推进到源码层。它值得讨论的重点是失败证据、回放验证、用户同意和回滚机制能否形成生产完整流程。
Composio 的价值在它选择承接的 Agent 工程层:把 SaaS 工具、认证和 action 管理做成 Agent 工具层。判断它是否适合团队,要同时看抽象、生态、治理边界和真实维护成本。
MCP Servers 的价值在它选择承接的 Agent 工程层:Model Context Protocol 官方工具 server 集合入口。判断它是否适合团队,要同时看抽象、生态、治理边界和真实维护成本。
browser-use 的价值在它选择承接的 Agent 工程层:让 Agent 操作浏览器完成网页任务。判断它是否适合团队,要同时看抽象、生态、治理边界和真实维护成本。
Continue 的价值在它选择承接的 Agent 工程层:把模型、规则和上下文接入 IDE 的开源编码助手。判断它是否适合团队,要同时看抽象、生态、治理边界和真实维护成本。
Aider 的价值在它选择承接的 Agent 工程层:围绕 Git 工作流的终端 AI 编程助手。判断它是否适合团队,要同时看抽象、生态、治理边界和真实维护成本。
晚点聊与 Lovart 创始人陈冕的复盘,适合用来理解垂类 Agent。垂类重点是围绕一个专业场景持续接模型、改交互、建上下文和抢用户心智。
十字路口这期 OpenClaw 20 问的价值,不只是解释一个热门工具,而是示范了怎么拆 Agent 新物种:先分清对象、环境、用户、成本、风险和创业机会,再判断它到底值不值得追。
晚点聊从 OpenAI 开发者日聊到 Agentic Tooling,提醒我们不要只盯 Agent 应用。每一波应用爆发前,都需要构建、调试、评估、部署、监控和权限管理工具先成熟。
晚点聊年末 AI 回顾不只是盘点热闹,它把模型、应用、巨头、创业公司和硬件放到同一张图里。对 Agent 来说,最该留下的是:Coding 是样板,垂类是落点,工具链是杠杆。
晚点聊 26Q1 AI 季报把 OpenClaw、Claude Code、OpenAI 和 Anthropic 放在同一张季度图里看。它提醒我们:Agent 的竞争已经不只是模型强弱,而是系统完成任务的能力。
OpenClaw 相关节目在近期小宇宙 Agent 讨论里形成第一梯队,因为它让用户第一次直观看到 AI 可以被委托去完成一段电脑工作。
硅谷 101 E191 最值得拿出来写的判断是:Agent 的进化让模型进入可操作、可反馈、可评估的环境。环境定义得越清楚,Agent 越可能稳定落地。
晚点聊与戴雨森关于 Agent 的长谈,适合从投资视角理解行业拐点。所谓李世石时刻,重点是某个垂直任务突然被机器用新方法打穿。
晚点聊对谈 MuleRun 陈宇森,把 Claude Code 和 AgentBuilder 放到软件创作方式变化里看。最值得追的是:未来很多小软件可能不再长期维护,而是围绕一次任务快速生成、使用、废弃。
42 章经把 Agent 拆成 LLM、Context 和 Tool Use 三件事。这个框架朴素但有用:Agent 能不能干活,往往不由模型一句话决定,而由上下文组织、工具暴露、环境反馈和失败恢复共同决定。
Cline 的价值在它选择承接的 Agent 工程层:VS Code 里的自主编码 Agent 和工具调用工作台。判断它是否适合团队,要同时看抽象、生态、治理边界和真实维护成本。
OpenHands 的价值在它选择承接的 Agent 工程层:把代码、终端、浏览器和运行环境放进一个自治工作台。判断它是否适合团队,要同时看抽象、生态、治理边界和真实维护成本。
n8n 的价值在它选择承接的 Agent 工程层:从通用自动化平台扩展到 AI 工作流。判断它是否适合团队,要同时看抽象、生态、治理边界和真实维护成本。
Flowise 的价值在它选择承接的 Agent 工程层:用节点和流程图搭建 LLM 应用与 Agent flow。判断它是否适合团队,要同时看抽象、生态、治理边界和真实维护成本。
Dify 的价值在它选择承接的 Agent 工程层:开源 LLM 应用平台和企业低代码入口。判断它是否适合团队,要同时看抽象、生态、治理边界和真实维护成本。
Haystack 的价值在它选择承接的 Agent 工程层:搜索和 RAG 工程积累深的 LLM pipeline 框架。判断它是否适合团队,要同时看抽象、生态、治理边界和真实维护成本。
LlamaIndex 的价值在它选择承接的 Agent 工程层:从文档、数据和索引出发构建 Agent 上下文。判断它是否适合团队,要同时看抽象、生态、治理边界和真实维护成本。
Mastra 的价值在它选择承接的 Agent 工程层:面向 Node/TypeScript 生态的 Agent 与 workflow 框架。判断它是否适合团队,要同时看抽象、生态、治理边界和真实维护成本。
Agno 的价值在它选择承接的 Agent 工程层:把 Agent、知识、记忆和工具放到一个平台式框架里。判断它是否适合团队,要同时看抽象、生态、治理边界和真实维护成本。
Pydantic AI 的价值在它选择承接的 Agent 工程层:把类型、依赖注入和结构化输出放到 Agent 开发中心。判断它是否适合团队,要同时看抽象、生态、治理边界和真实维护成本。
Semantic Kernel 的价值在它选择承接的 Agent 工程层:微软生态里的 LLM/Agent 编排层。判断它是否适合团队,要同时看抽象、生态、治理边界和真实维护成本。
Microsoft AutoGen 的价值在它选择承接的 Agent 工程层:微软推动的多 Agent 编程框架。判断它是否适合团队,要同时看抽象、生态、治理边界和真实维护成本。
CrewAI 的价值在它选择承接的 Agent 工程层:用角色、任务和流程组织多 Agent 协作。判断它是否适合团队,要同时看抽象、生态、治理边界和真实维护成本。
LangGraph 的价值在它选择承接的 Agent 工程层:把 Agent 从聊天循环推进到可恢复状态图。判断它是否适合团队,要同时看抽象、生态、治理边界和真实维护成本。
LangChain 的价值在它选择承接的 Agent 工程层:最宽的 LLM 应用开发生态。判断它是否适合团队,要同时看抽象、生态、治理边界和真实维护成本。
我看好运营商卖 Token 的企业侧影响,不看好它短期变成大众像买流量一样主动购买的消费品。真正机会不在低价词元包,而在把 AI 调用做进企业账单、办公应用、政企服务和成本管理。
小模型有前途,关键价值是把高频、低延迟、隐私敏感和成本敏感的任务从大模型调用里拆出来。单片机 TinyML 当然是真小模型,但不能拿它证明小语言模型也能在所有设备上通用。
cch 真正坑人的地方不在随机字符本身,而在它把客户端归因、缓存命中、网关兼容和第三方 API 成本绑在了一起。对直连用户这可能只是实现细节,对代理、Bedrock、兼容层和企业网关来说,它会变成稳定性问题。
多 Agent 系统的关键在于什么时候转交、转给谁、带着什么上下文转交,以及转交后谁对结果负责。
Agent 沙箱不能只按安全容器理解。影响产品体验的,是它如何准备依赖、挂载仓库、限制网络、保留状态、运行测试,并把结果交还给人。
长程 Agent 不能被当成一条更长的模型调用。生产系统需要 job、step、worker、queue、checkpoint、局部 retry、人工等待和恢复机制。
企业 Agent 不能长期借人的账号和 token 做事。它需要自己的身份、owner、权限边界、委托记录、生命周期和撤销路径,否则自动化越强,责任越模糊。
Agent 产品化的瓶颈不只是模型会不会调用工具,而是一次用户任务会被放大成多轮推理、工具等待、上下文增长、KV cache 迁移、网络传输和电力负载。
MCP 让 Agent 接工具变得更容易,也把工具描述、schema、输出和 scope 变成新的供应链入口。企业不能只问能接多少工具,要问谁能把工具放进模型上下文。
Agent 进生产后,企业要的一条能复盘、能追责、能脱敏、能解释审批边界的执行证据链。
NVIDIA 和 Dell 最近的动作说明,企业 agent 基础设施不只会往云上集中,也会向工作组、本地机房和 deskside 设备下沉。约束开始变成内存、数据位置、网络和交付形态。
最近几篇 Agent memory 论文给出的共同判断很清楚:长期记忆不能只是把历史塞进向量库,而要管理写入、检索、更新、遗忘、调度和成本。
当 Agent 能读凭证、调工具、跨系统执行任务,安全问题就不只在提示词和权限策略。机密计算、远程证明和硬件隔离会重新进入企业 Agent 架构。
金融 Agent 的重要性不在「AI 会不会炒股」,而在它把 pitchbook、KYC、估值复核、月结和审计这类高价值流程做成可安装工作包。垂直 Agent 的落地路径,可能会比通用 Agent 框架更快。
金融 Agent 先落地,因为它有高价值、强流程、强审计和明确交付物。
GUI Agent 的把浏览器、桌面、手机和办公软件变成可观察、可执行、可回放的工作环境。谁能控制屏幕,谁才真正接近用户每天做事的地方。
GUI Agent 的关键变化,重点是浏览器、搜索、桌面和手机正在被重新做成 Agent 的执行环境。
最近的论文和开源项目说明,agent 的瓶颈不只在模型。沙箱回滚、工具 API、源码级自修复、repo memory 和经验共享,正在一起构成新的运行层。
最近几篇论文把 coding agent 的评估问题说得更清楚了:测试通过、PR 合并、终端任务跑完,都只能说明一部分事实。要看的是 agent 有没有投机、有没有越界,以及人类审查到底补了多少洞。
Coding agent 的成本不只在账单里,也在流程里。它能节省写代码的时间,也可能把成本转移到规格、审查、CI、回滚、权限和人类收口上。
企业对 agentic AI 的疑问正在从「能不能替人做事」转向「跑完整个流程后到底省不省钱」。变贵的往往是多轮调用、上下文、返工、审查和预算归因加在一起的真实工时。
AI 编程工具正在从座席订阅走向资源计量。Codex 限流、Copilot AI Credits、代码审查消耗 Actions minutes,说明团队必须开始按任务管理 token、并发、上下文和验证成本。
能调用工具的 Agent 不能再按聊天机器人管理。它会读文件、跑命令、连服务、写数据,安全边界必须放在运行时:权限、隔离、拦截、审计和回滚。
Agent 真正进入生产之后,问题不再只是能不能回答,而是每一步为什么这样做、花了多少成本、调用了什么工具、失败在哪里。可观测性会从辅助日志变成 Agent 平台的核心层。
Skills 把流程、工具、脚本、文件和调用约定打包成可安装资产。Agent 生态的下一层竞争,会落到谁能分发、治理和复用这些能力包。
Agent 安全不能继续只押在提示词上。模型会被外部内容误导,安全设计要限制的是它随后能访问什么、执行什么、改写什么,以及谁能复盘这些动作。
企业开始发现,agent 的成本一项任务从启动、运行、审查、返工到归责的完整工时账。
这一周的信号说明,Coding Agent 的竞争不再只看模型会不会写代码,而是看谁能把沙箱、权限、验证、成本和工作流一起接进企业工程系统。
这一周 GitHub 上值得看的是多 agent 工作台、repo-native memory、本地 MCP 记忆和小模型 coding agent 同时升温。
这一周最值得看的论文,都在把 agent 从演示推回工程约束:沙箱回滚、隐藏测试、PR 结果解释、终端真实任务、越权行为和系统级安全。
这一周 HN 上最有价值的讨论,集中在企业 agent 的成本、spec-driven workflow、本地 RAG 记忆和 Claude Code 安全边界。
这周 GitHub 上速度最快的 AI 仓库不再是新框架,而是评估工具。原因不复杂:上线越多,evals 越值钱。
本周值得读的论文,集中在工具调用的落地评测:不只是看模型能不能调出工具,更要看工具反馈被吸收的方式。
上下文越长不等于效果越好。最近 HN 上几条讨论又把这件事翻了一遍,焦点不是窗口尺寸,而是上下文的质量、组织和重读成本。
Hermes 不难装。macOS 直接跑官方安装器,Windows 先装 WSL2 再按 Linux 路线装。装完别先闲聊,先用并行读仓库和定时任务两个例子,看看它适不适合你。
这一周最有价值的论文,同时改了三条判断:个人代理依然很脆弱,自动化 QA 还远不到可托付,竞赛编程 agent 的上限又被往上推了一截。
这一周 GitHub 上真正有分量的上涨,集中在三类更靠近产品底层的仓库:agent 运行层、端侧推理运行时和全双工语音代理。
Claude Managed Agents 重点是 Anthropic 把 Agent 从模型接口推进到官方运行时平台的一步。重要的变化,重点是 Anthropic 开始接管 session、memory、vault、observability 和 prompt versioning 这一层基础设施。
Anthropic 这次公开的一套正式的运行时抽象。Agent、Environment、Session、Events 这四层一起定义了 Claude Managed Agents 的架构边界,也决定了它更适合长任务、异步执行和托管式运行,而不是完全自定义的 prompt loop。
这条线只跟最近 7 天蹿升很快的 AI 仓库,重点判断它们背后到底是新工作流、新工具链还是短期热度,并用文档、活跃度和可复现入口先筛掉噪音。
这条线只看最近 7 天值得工程和产品层继续跟进的 AI 论文,重点判断问题定义、证据强度和落地价值,不做摘要搬运,也不追每天的热点论文名单。
罗福莉批评 OpenClaw,核心是第三方 Agent 框架终于要自己承担长期运行的成本。把官方计费规则、API 价格和 OpenClaw 近期调整放在一起看,她对单位经济的批评基本成立。
需要重构的重点是项目控制层。多窗口同时写文章没有错,问题在于写作、主干集成、部署和恢复过去没有被放进同一套状态机里管理;而且这套控制面现在已经开始落成具体脚本和状态文件。
Hermes 最近热起来,不代表它会直接替代 OpenClaw。两者都挂着 agent 这面旗,但一个更像执行内核,一个更像个人助手入口和控制平面,个人用户与企业用户后面的答案会完全不同。
Coasts 把依赖、端口、网络和共享服务这些平时埋在脚手架里的问题直接摆到了产品正面。
这页只做导读:告诉你本周 3 篇分别在讲什么,适合谁先读。
GSD2 在管项目,OMX 在管 Codex。两边都能做长任务,但不在同一层:一个更像执行内核,一个更像编排外挂。把它们看成同一层工具,后面基本都会用错。
Karpathy 的 LLM Wiki 之所以引发共鸣,在于它把大模型往「持续整理、持续改写、持续积累」的方向推了一步,也提醒普通人别把知识管理做成新的体力活。
Cursor 3.0 已经不只是更强一点的 AI IDE。值得比较的,是它如何和 Windsurf、Copilot、Cline 分别走向不同的 agent 路线:控制台、协作编辑器、GitHub 代理系统和开放执行层。
到 2026 年 4 月,主流产品已经把推理、工具调用、短期记忆和基础 Agent 形态做成标配,但决定下一代能力上限的几块底盘仍未完成:算力分配、验证器、持续记忆、长时程执行、长上下文工作记忆与可验证推理。
一篇「用 AI 一周办成 700 人大会」的文章之所以好看,是因为它说对了一半。AI 的确能显著压缩策划、写作、整理和沟通型工作,但一个成功案例还远远不够证明「经验已经失效」或「AI 是主要因」。
传统 SaaS 公司转向 AI,真正难的从来都不在接入一个模型接口,而在定价、交付、组织分工、数据资产和产品边界要一起重写。能不能转型,先是公司战略问题,然后才落到功能层。
与 Agent 协作时,最关键的先判断任务是否落在它的能力边界内,再决定该放手、补足,还是拆解。拉开效果差距的,是边界判断、任务粒度、验证机制和干预时机。
LeCun 团队的 LeWorldModel 价值在于它用更简单的 JEPA 训练方式,把轻量、快速、可规划的物理建模重新带回了台面,也让 LLM 与世界模型的分工更清楚。
如果意识不是工程目标,那么更强 AI 的演化方向就没必要沿着「更像人」展开。值得追踪的,是架构、记忆、工具使用、世界模型和多代理协作这些更具体的系统变量。
QVeris 更像能力发现与统一执行层,LangChain、LangGraph 和 Deep Agents 则分别落在 framework、runtime 和 harness。把它们写成同类替代品,会直接讲乱技术栈边界。
CellType、Polymath 和 Ndea 代表的重点是三种更长周期的技术押注。评估它们,不能只问今天有没有收入,更要问科学路径、资本结构和下一轮验证点。
机器人叙事最容易被 demo 放大,决定成败的却是部署、单位经济、数据完整流程和现场复杂度。这一批公司值得看,但必须按比 SaaS 更重的现实标准来判断。
Agent 基础设施会热,但热不等于都能长成平台。需要追问的,是身份、运行时验证、编排、监控和支付之中,哪几层站在动作执行与价值流转的关键入口上。
医疗 AI 最容易被乱。行政自动化、患者前端、临床辅助与长期管理看上去都在用模型,商业节奏、监管压力和兑现方式却完全不同。
这一组公司最值得看的是它们已经切进愿意持续付费的工作流。判断它们的关键是交付质量、替代强度和留存路径。
这组稿件不把 YC W26 的 Agent 项目混成一个总口号,而是按结果型产品、医疗、基础设施、机器人和长周期研究五个框架重排。重要的是谁占住了预算、控制点与时间窗口。
自进化 agent 听上去像终局叙事,但当前研究真正提供的,更多是一张问题地图:评估如何设计、反馈如何形成、记忆怎样约束、改进怎样不失控。地图重要,胜利尚早。
Swarms 的吸引力在于它不满足于单个 agent,而是试图把多 agent 策略批量化、模块化、产品化。但一旦走向工厂化,复杂度、调试成本和可靠性问题也会同时放大。
OxyGent 想解决的是多 agent 协作一旦进入长链路任务,状态、扩展性和系统稳定性如何一起成立。可伸缩性不是锦上添花,而是多 Agent 底盘前提。
让 coding agent 自我改进听上去像自然下一步,但如果评估体系不够硬,所谓进化很容易只是噪声累积。SICA 的意义,在于先把怎么验证变好摆到系统中心。
crewAI 值得看的地方,把角色分工、任务编排和流程可见性收回到工程可执行的范围。它代表的是多 agent 从演示叙事向工作流产品的回落。
并行 agent 的难点,不在再多开几个模型窗口,而在任务拆分、依赖协调、结果合并与失败回收。Agent Orchestrator 的价值,是把这些后勤工作从演示效果推进成可持续工程。
做知识库最容易犯的错误,是把所有信息都当知识留下来。值得长期保留的,应该是 30 天后、90 天后还能支持判断、设计和行动的内容,而不是今天最热的链接。
如果主要上网「客户端」逐步从人变成 AI 代理,互联网真正要重写的就不只是搜索入口,还包括接口层、支付层、身份层和预算层。Agentic Web 的核心,正在变成一张机器之间可调用、可结算、可审计的执行网络。
对认真独立建站的博主来说,缺的往往是一套能同时承接采集、生成、审计、发布、主题切换和运维的内容操作系统。WordPress 和 Hexo 很成熟,但它们主要解决的仍是上一代建站问题。
截至 2026 年 3 月,OpenClaw 在全球范围内更像一个先在 C 端和 prosumer 层爆发、再被 B 端试点和平台层承接的产品。C 端赢在入口和上手速度,B 端更可能在治理、托管、安全和组织化包装上沉淀收入。
先挑出那些三个月后仍会重写你判断的原文。这 10 篇博客覆盖 Agent 定义、评测偏差、软件工程、推理路线、系统安全和 Agent 公司结构这几条关键线。
如果你只想补最近一轮 AI 讨论里最有信息密度的 10 场播客与 YouTube 访谈,这份清单足够覆盖模型、Agent、评测、编码、世界模型、机器人和 AI for Science 这几条主线。
这次被热传成「AI Studio 四个月重构」的事件,实质是谷歌把 Firebase Studio 的全栈原型能力收进 Google AI Studio,并把重度代码工作收敛到 Antigravity,开始把模型、后端和部署串成一条开发链。
如果前两篇写的是模型公司和 Agent 公司怎样在屏幕里争入口,这一篇写的就是另一件更硬的事:当 AI 要接管汽车、机器人和物理动作时,软件、世界模型、终端与时间尺度会一起改变。
把肖弘、明超平、李想这些访谈接起来看,2025 年之后变化重点是产品定义从「一个会回答的模型」变成「一个能嵌进环境、持续代办并承接信任关系的活系统」。
这组文章追踪的重点是软件组织里的责任链会如何被重排:哪些执行环节变轻,哪些判断权上移,哪些角色会因为 Agent 变强而重新变贵,以及团队该怎样重新分工。
产品经理这类岗位短期更像是在换重心,而不是被整体替代。需求文档、调研摘要和会议纪要会更容易自动化,但成功定义、边界处理和取舍判断会变得更重要。
测试工程师不会因为 AI 更会生成用例就自然淡出团队,先变化的更像是测试岗位里的重复执行层。越往前走,测试越会靠近评测工程、verifier 设计、安全边界和放行规则。
架构师的工作不会因为 AI 更会写代码就自然缩小,真正被重新筛选的,是只停留在图纸层、不碰运行细节的那种工作方式。Agent 时代更稀缺的,是能设计状态、协议、权限和运行边界的人。
项目管理不会整体淡出团队,但信息同步、状态跟进和会议纪要整理这类环节会更早自动化。更有价值的部分,会逐渐转向流程编排、升级路径、依赖管理、人工接管点和例外治理。
文档不会因为生成式 AI 普及就失去价值,但那些「为了交付而交付」的说明书会更快商品化。更重要的文档,正在变成 Agent 和人共同消费的运行时上下文与约束层。
IT 部门不会因为团队自助用 AI 工具就自然边缘化,先被压缩的更像是装机、开账号和工单分发这类旧式支持工作。接下来更重要的 IT,会更像内部 AI 平台、权限控制和治理团队。
PicoClaw、NullClaw、ZeroClaw 的名字虽然都带 claw,但它们不是 OpenClaw 官方产品矩阵,更不是简单的大中小版本。三者分别在轻量部署、Zig 极简路线和本地隐私上做了不同取舍。
OpenClaw 更适合被理解成一层把聊天入口、长连接网关和底层 coding agent 接起来的协调层。它主要解决的是长期在线、跨设备接力和多执行器编排,而不是单次仓库编码的速度比较。
Harness Engineering 要做的,是把代码仓库、执行环境、验证门禁和反馈回路改造成 Agent 可读、可控、可评估的工程系统,让 AI 能在真实项目里稳定交付。
Pi 的核心并不神秘:它用 `createAgentSession()` 把模型、资源加载、工具集合、会话树和运行模式装配起来,再由 `AgentSession` 接管工具执行、上下文管理、自动压缩与 RPC 集成。
OpenClaw 在 `2026.3.13` 更新线里把 live Chrome session attach 做成官方能力,真实浏览器会话第一次进入 Agent 的正式工作流,浏览器插件也从必选项退回到可选路径。
Pi 是一套刻意保持极简的 coding agent harness,不走大而全的平台路线。它把上下文、工具、会话状态和多种接入方式压成一层轻量执行骨架。
在 AI Agent 时代,Martin Fowler 之所以仍然很重要,因为当生成变快、代理变多、系统边界更容易被穿透时,重构、边界划分、渐进式演化和技术判断反而比以前更像硬约束。
对文科生来说,AI Agent 最有价值的用法,先接手找资料、拆提纲、改写、多版本分发这些重复环节,让人把精力留在判断、事实核验和语气控制上。
编程 Agent 是一套能围绕目标读取上下文、调用工具、执行步骤并根据结果继续推进的系统。把这条线看懂,模型、工具、状态和评测这些基础概念就会立刻落地。
Java 后端转向 AI Agent,是把过去积累的系统边界感、异常经验和工具工程能力,重新组织成运行时、评测完整流程和治理能力,并把业务流程改造成可审计的执行系统。
如果你还把 AI Agent 工程师理解成「更会写 Prompt 的人」,那大概率会转错方向。真正有价值的 Agent 工程,是把模型、工具、状态、评测和治理串成可交付系统能力。
Agent 的长期价值,主要来自持续沉淀任务拆解、工具调用、异常处理和验证标准这些可迁移的 knowhow,而不只是在数据和微调上继续加码。
Clawith 最有意思的地方在于认真回答团队协作里身份、权限、触发器、审批和审计怎样一起落地,并让多 Agent 真正进入组织工作流,这一点很关键。
这篇访谈围绕 Harrison Chase 的核心判断展开:Agent 时代真正要重建的,不只是模型接口,而是一整套执行、上下文和人类协同基础设施。
现在做 Agent 产品,更值得补的是那层把 runtime、审批、回滚和团队规则接进真实工作流的控制层。系统层和平台层都已有强手,组织如何接住 Agent 反而还是空白。
平台层决定的是 Agent 能不能长期、稳定、可治理地跑起来。眼下最值得看的四条路线,分别是 LangGraph、微软、OpenAI 和 AWS 所代表的平台化方向。
如果你想做的是能承接长任务、异步执行和团队协作的 Agent 产品,动手前先看清系统、平台、工具三层版图。它们解决的问题不同,拿到的入口不同,真正留下的缺口也不同。
长时间 Agent 的真正难点,不在单步够不够聪明,而在跨很多轮、很多上下文和很多工具调用之后,能不能继续保持状态连续、结果可验证和错误可恢复。
如果一个 Agent 要连续运行二十分钟、两小时甚至更久,系统默认该长什么样?这篇文章把分层架构、状态模型、检查点、验证和上线顺序全部拆开讲清楚。
OpenClaw 是一根很清楚的产业探针。它暴露了一件事:当 AI 编码从聊天升级为工作流,产业链每一层都会重新找位置,重新争入口、运行时和服务边界。