造 Agent 的工具,也会成为 Agent 时代的生意
晚点聊从 OpenAI 开发者日聊到 Agentic Tooling,提醒我们不要只盯 Agent 应用。每一波应用爆发前,都需要构建、调试、评估、部署、监控和权限管理工具先成熟。
- Agentic Tooling 面向开发者、创业团队和企业平台团队,而不只是终端用户。
技术、行业、人物与 Agent 系统观察。
Latest Archive
技术沉淀 时间线。
晚点聊从 OpenAI 开发者日聊到 Agentic Tooling,提醒我们不要只盯 Agent 应用。每一波应用爆发前,都需要构建、调试、评估、部署、监控和权限管理工具先成熟。
硅谷 101 E191 最值得拿出来写的判断是:Agent 的进化让模型进入可操作、可反馈、可评估的环境。环境定义得越清楚,Agent 越可能稳定落地。
42 章经把 Agent 拆成 LLM、Context 和 Tool Use 三件事。这个框架朴素但有用:Agent 能不能干活,往往不由模型一句话决定,而由上下文组织、工具暴露、环境反馈和失败恢复共同决定。
cch 真正坑人的地方不在随机字符本身,而在它把客户端归因、缓存命中、网关兼容和第三方 API 成本绑在了一起。对直连用户这可能只是实现细节,对代理、Bedrock、兼容层和企业网关来说,它会变成稳定性问题。
一次原生 Windows 命令行整治记录:把 PowerShell、PATH 和 UTF-8 的反复故障,收敛成 Git Bash、rg、sd、jq、yq 与 ast-grep 这一套稳定工具链。
Hermes 不难装。macOS 直接跑官方安装器,Windows 先装 WSL2 再按 Linux 路线装。装完别先闲聊,先用并行读仓库和定时任务两个例子,看看它适不适合你。
Claude Managed Agents 重点是 Anthropic 把 Agent 从模型接口推进到官方运行时平台的一步。重要的变化,重点是 Anthropic 开始接管 session、memory、vault、observability 和 prompt versioning 这一层基础设施。
需要重构的重点是项目控制层。多窗口同时写文章没有错,问题在于写作、主干集成、部署和恢复过去没有被放进同一套状态机里管理;而且这套控制面现在已经开始落成具体脚本和状态文件。
Hermes 最近热起来,不代表它会直接替代 OpenClaw。两者都挂着 agent 这面旗,但一个更像执行内核,一个更像个人助手入口和控制平面,个人用户与企业用户后面的答案会完全不同。
GSD2 在管项目,OMX 在管 Codex。两边都能做长任务,但不在同一层:一个更像执行内核,一个更像编排外挂。把它们看成同一层工具,后面基本都会用错。
团队需要的是一套能按风险、可验证性和学习价值来分工的方法。研发协作的关键,不在全信或全禁,而在于给不同任务安排不同的人机关系,让交付、审查和学习都能继续成立。
AI 已经改写了编码、测试和局部修复这些实现层工作,很多团队也真实感受到了提速,但软件复杂性没有一起消失。系统边界、组织协作和长期演化,仍然决定大多数难题。
模型当然仍是 AI 竞争的底座,但越往后走,真正锁定客户、提高迁移成本、决定长期利润结构的,越来越是连接器、运行时、评测、权限、协议和部署能力这些基础设施层。
AI 模型会做一件事,不等于它已经适合进入真实工作。很多讨论把「能力展示」和「长期可用」混在一起,结果高估了模型的落地速度,也低估了系统建设的难度。
对很多真实场景来说,模型能力当然重要,但最先把项目拖慢、拖贵、拖得难以上线的,往往是模型外面那一整套系统:工具接入、上下文管理、评测、权限、回滚和组织协作。
这一轮 AI 的核心变化,是行业开始把注意力从「谁更强」转向「谁更能进入真实世界并长期工作」。模型还是底座,但系统能力正在决定价值能不能落地。
先用图讲清线性、指数和增长率继续上升三种曲线,再回答一个更具体的问题:截至 2026 年 3 月,AI 前沿能力已出现加速迹象,但整体经济层面还没有同步进入加速指数增长。
如果意识不是工程目标,那么更强 AI 的演化方向就没必要沿着「更像人」展开。值得追踪的,是架构、记忆、工具使用、世界模型和多代理协作这些更具体的系统变量。
Karpathy、Yegge 与 Peter Steinberger 指向的,是软件工程分工的上移:代码生成更便宜后,规格、验证、门禁、回滚和长期维护变成更稀缺的环节。变化的核心是责任位置重排。
做知识库最容易犯的错误,是把所有信息都当知识留下来。值得长期保留的,应该是 30 天后、90 天后还能支持判断、设计和行动的内容,而不是今天最热的链接。
先挑出那些三个月后仍会重写你判断的原文。这 10 篇博客覆盖 Agent 定义、评测偏差、软件工程、推理路线、系统安全和 Agent 公司结构这几条关键线。
Agent 不是只改变个人怎么写代码,它也在改团队怎么协作。swyx 这篇最值得翻出来的地方,是它把「少人团队为什么会越来越能打」讲成了一套组织问题,而不只是技术问题。
很多人以为用 AI 编程就是把任务扔过去、等它回一坨结果。Jeremy Howard 这篇有用的,是它提醒大家:更可持续的方式,是把问题拆成小步,让人和 AI 在同一个反馈回路里一起往前走。
过去一年如果你总觉得模型、Agent、写代码方式都像在突然提速,这篇可以帮你把变化串起来。Karpathy 的价值,在于他把 2025 年几个改变格局的转折点挑了出来。
Coding agent 当然有用,但它最依赖的,恰恰是前面那个会提清楚任务、会判断结果、会继续追问的人。真正被放大的,从来重点是操作者本身的清晰度和收口能力。
模型公司当然重要,但下一波真正贴着用户、贴着任务、贴着业务结果长大的 AI 公司,未必还是卖模型的人,更可能是把模型、工具、工作流和场景绑在一起卖结果的人。这正是 swyx 这篇最值得抓住的判断。
如果你想理解为什么 AI 在代码、数学、规则题上进步得这么快,这篇几乎是一把钥匙。Karpathy 把问题压缩成一个词:可验证性。越容易自动判断对错的任务,越容易被优化,进展也越快。
AI 可以让写代码更快,但如果你把「更快」理解成「我可以不理解」,最后只会把自己带进更脆弱的软件和更浅的能力。Jeremy Howard 这篇最值得翻成中文的地方,是把「用 AI 还要不要讲基本功」说得很具体。
如果「Agent」这个词你已经听烦了,这篇最有价值的地方就是把它重新说清楚了。对今天的工程语境来说,Agent 更接近「用工具、跑循环、为了目标持续行动的 LLM 系统」,别再把它混成玄学人格或自动员工。
如果你最近开始用 Claude、ChatGPT、Cursor 或 Copilot 干活,这个系列不是拿来补 AI 史。它更像一条近作导读路线,帮你看懂 Agent 到底是什么、怎么用、哪里会翻车、团队会怎么变。