长文库

技术、行业、人物与 Agent 系统观察。

Agent 陪读系列

给刚开始用 Claude、ChatGPT、Cursor、Copilot 和各类 coding agent 干活的人,一条从概念、工程、方法到团队变化的顺读路线。

导读 + 8 篇正片 建议顺序:先读 00,再按 01 到 08 的顺序往下读。 最近更新:08|小团队 + Agent,会不会变成新默认配置
先看导读

Latest Archive

AI 编程

AI 编程 时间线。

2026-05-25 00:33 北京时间 16 分钟 阅读难度:进阶

Agent 时代,编程语言不会消失,只会重新分工

Agent 时代不会让编程语言变得不重要。变化恰好相反:语言会从人的偏好问题,变成 Agent 能否理解、修改、验证、部署和长期维护系统的协作界面。

  • 自然语言会成为任务入口,但不会替代编程语言承担系统边界。
阅读全文
2026-05-25 00:15 北京时间 15 分钟 阅读难度:进阶

日抛式软件来了,Agent 创作平台会改变什么

晚点聊对谈 MuleRun 陈宇森,把 Claude Code 和 AgentBuilder 放到软件创作方式变化里看。最值得追的是:未来很多小软件可能不再长期维护,而是围绕一次任务快速生成、使用、废弃。

  • 日抛式软件重点是为短周期任务生成临时工具。
阅读全文
2026-05-24 11:19 北京时间 8 分钟 阅读难度:进阶

Agent 走向生产后,真正缺的是运行层

最近的论文和开源项目说明,agent 的瓶颈不只在模型。沙箱回滚、工具 API、源码级自修复、repo memory 和经验共享,正在一起构成新的运行层。

  • DeltaBox 说明,长程 agent 需要便宜的状态回滚。
阅读全文
2026-05-24 11:19 北京时间 8 分钟 阅读难度:进阶

评估 coding agent,不能只看测试绿了没有

最近几篇论文把 coding agent 的评估问题说得更清楚了:测试通过、PR 合并、终端任务跑完,都只能说明一部分事实。要看的是 agent 有没有投机、有没有越界,以及人类审查到底补了多少洞。

  • SpecBench 说明,测试绿了也可能只是学会投机动作和绕过验收。
阅读全文
2026-05-24 11:19 北京时间 9 分钟 阅读难度:进阶

Agent 不是免费同事:企业开始重算 AI 的真实工时

企业对 agentic AI 的疑问正在从「能不能替人做事」转向「跑完整个流程后到底省不省钱」。变贵的往往是多轮调用、上下文、返工、审查和预算归因加在一起的真实工时。

  • 企业开始把 agentic AI 当成可归因的工作流成本,而不是一次性的模型试用费。
阅读全文
2026-05-24 11:15 北京时间 11 分钟 阅读难度:进阶

AI 编程的包月幻觉正在结束

AI 编程工具正在从座席订阅走向资源计量。Codex 限流、Copilot AI Credits、代码审查消耗 Actions minutes,说明团队必须开始按任务管理 token、并发、上下文和验证成本。

  • GitHub 从 premium request 转向 AI Credits,并按 token 消耗计算,打破了短问答和多小时 autonomous coding session 成本相同的订阅错觉。
阅读全文
2026-05-24 03:57 北京时间 11 分钟 阅读难度:进阶

Agent 可观测性会成为新的基础设施

Agent 真正进入生产之后,问题不再只是能不能回答,而是每一步为什么这样做、花了多少成本、调用了什么工具、失败在哪里。可观测性会从辅助日志变成 Agent 平台的核心层。

  • Agent 的结果对错只是最后一帧,需要管理的是中间轨迹、工具选择、上下文消耗和失败原因。
阅读全文
2026-05-24 03:28 北京时间 10 分钟 阅读难度:进阶

Agent Skills 正在变成新的软件包

Skills 把流程、工具、脚本、文件和调用约定打包成可安装资产。Agent 生态的下一层竞争,会落到谁能分发、治理和复用这些能力包。

  • Skills 的价值不在把提示词写长,而在把稳定流程、工具调用、脚本和检查方式封装成可复用单元。
阅读全文
2026-05-24 02:10 北京时间 11 分钟 阅读难度:进阶

Agent 不是免费同事:企业开始重新计算 AI 的真实工时

企业开始发现,agent 的成本一项任务从启动、运行、审查、返工到归责的完整工时账。

  • Agent 成本不能只按模型调用价格看,还要算任务描述、上下文管理、review、返工和事故复盘。
阅读全文
2026-05-24 01:58 北京时间 10 分钟 阅读难度:进阶

Coding Agent 正在竞争企业运行层

这一周的信号说明,Coding Agent 的竞争不再只看模型会不会写代码,而是看谁能把沙箱、权限、验证、成本和工作流一起接进企业工程系统。

  • Dropbox Nova 把 coding agent 接进 monorepo、Bazel 和内部验证路径,说明落地重点已经转向工程系统集成。
阅读全文
2026-05-24 01:58 北京时间 8 分钟 阅读难度:入门

03|GitHub 趋势:多 Agent 工作台和记忆层升温

这一周 GitHub 上值得看的是多 agent 工作台、repo-native memory、本地 MCP 记忆和小模型 coding agent 同时升温。

  • Superset 代表多 agent 编程工作台方向,重点是并行会话、远程 workspace 和 issue 到 PR 流程。
阅读全文
2026-05-24 01:58 北京时间 9 分钟 阅读难度:进阶

03|论文精选:Agent 评测和运行时正在变硬

这一周最值得看的论文,都在把 agent 从演示推回工程约束:沙箱回滚、隐藏测试、PR 结果解释、终端真实任务、越权行为和系统级安全。

  • DeltaBox 把有状态 agent 的 checkpoint 和 rollback 做到毫秒级,说明沙箱已经是长程 agent 基础设施。
阅读全文
2026-05-24 01:58 北京时间 8 分钟 阅读难度:入门

05|HN 本周在讨论 Agent 成本和运行边界

这一周 HN 上最有价值的讨论,集中在企业 agent 的成本、spec-driven workflow、本地 RAG 记忆和 Claude Code 安全边界。

  • 企业内部 agent 成本讨论开始从模型价格转向 token 消耗和组织 KPI。
阅读全文
2026-04-12 10:20 北京时间 12 分钟 阅读难度:进阶

在原生 Windows 上,重搭 AI 编程命令行栈

一次原生 Windows 命令行整治记录:把 PowerShell、PATH 和 UTF-8 的反复故障,收敛成 Git Bash、rg、sd、jq、yq 与 ast-grep 这一套稳定工具链。

  • 原生 Windows 下,PowerShell 适合系统管理,不适合承担高频中文文本处理主流程。
阅读全文
2026-04-11 12:10 北京时间 11 分钟 阅读难度:进阶

Hermes 安装指南:macOS 和 Windows 怎么装

Hermes 不难装。macOS 直接跑官方安装器,Windows 先装 WSL2 再按 Linux 路线装。装完别先闲聊,先用并行读仓库和定时任务两个例子,看看它适不适合你。

  • macOS 原生可装,Windows 走 WSL2,别在原生 PowerShell 路线上耗时间。
阅读全文
2026-04-10 10:25 北京时间 9 分钟 阅读难度:进阶

01|论文精选:这一周最值得看的三条判断

这一周最有价值的论文,同时改了三条判断:个人代理依然很脆弱,自动化 QA 还远不到可托付,竞赛编程 agent 的上限又被往上推了一截。

  • OpenClaw 与 CIK-Bench 给出一个刺眼结果:面对真实网页里的对抗内容,个人 AI 代理的提示注入攻击成功率达到 73.7%。
阅读全文
2026-04-10 10:20 北京时间 8 分钟 阅读难度:进阶

01|GitHub AI 趋势:这一周最值得看的三条线索

这一周 GitHub 上真正有分量的上涨,集中在三类更靠近产品底层的仓库:agent 运行层、端侧推理运行时和全双工语音代理。

  • Hermes Agent 一周新增 14811 星,核心信号不在新 CLI,而在于它把安装、记忆、MCP 和 40 多个工具打成一层可运行的 agent 环境。
阅读全文
2026-04-09 08:30 北京时间 6 分钟 阅读难度:进阶

00|GitHub AI 趋势:最近 7 天快涨仓库怎么看

这条线只跟最近 7 天蹿升很快的 AI 仓库,重点判断它们背后到底是新工作流、新工具链还是短期热度,并用文档、活跃度和可复现入口先筛掉噪音。

  • 候选池可以来自 GitHub Trending,但正文判断不能停在榜单截图。
阅读全文
2026-04-09 08:30 北京时间 6 分钟 阅读难度:进阶

00|论文精选:最近 7 天的新论文该怎么挑

这条线只看最近 7 天值得工程和产品层继续跟进的 AI 论文,重点判断问题定义、证据强度和落地价值,不做摘要搬运,也不追每天的热点论文名单。

  • 默认只看最近 7 天公开的新论文或重要新版本,不靠旧论文翻红撑版面。
阅读全文
2026-04-09 00:20 北京时间 20 分钟 阅读难度:硬核

把多窗口 AI 工作流重构成单一控制面

需要重构的重点是项目控制层。多窗口同时写文章没有错,问题在于写作、主干集成、部署和恢复过去没有被放进同一套状态机里管理;而且这套控制面现在已经开始落成具体脚本和状态文件。

  • 多 Console 并发写作不是问题,问题是过去没有把主干合并和部署收口成单写者流程。
阅读全文
2026-04-07 22:25 北京时间 更新:2026-04-08 20:42 北京时间 7 min 阅读难度:入门

03|Memoir 在补长期上下文管理这层

Memoir 把长期上下文单独拎出来做,关心的是项目常识怎么跨会话、跨工具继续带着走。

  • 最容易反复丢的,是团队约定、项目偏好和历史决策理由这些跨会话信息。
阅读全文
2026-04-07 21:22 北京时间 17 分钟 阅读难度:进阶

GSD2 和 OMX 怎么选:两套 AI 编程工作流的分水岭

GSD2 在管项目,OMX 在管 Codex。两边都能做长任务,但不在同一层:一个更像执行内核,一个更像编排外挂。把它们看成同一层工具,后面基本都会用错。

  • GSD2 把项目压成 milestone、slice、task 和落盘状态,更像执行内核。
阅读全文
2026-04-04 20:16 北京时间 22 分钟 阅读难度:硬核

Cursor 3.0 和 AI Agent IDE 怎么选

Cursor 3.0 已经不只是更强一点的 AI IDE。值得比较的,是它如何和 Windsurf、Copilot、Cline 分别走向不同的 agent 路线:控制台、协作编辑器、GitHub 代理系统和开放执行层。

  • Cursor 3.0 最关键的升级把本地与云端 agent 收口成统一调度面。
阅读全文
2026-04-04 20:13 北京时间 14 分钟 阅读难度:进阶

Gemma 4 本地部署与型号选择指南

如果你关心的是 Gemma 4 能不能在自己机器上稳定跑起来,而不是排行榜又赢了谁,结论很简单:31B 代表上限,26B A4B 是最值得部署的均衡版本,E4B 和 E2B 则把轻量本地模型推进到了真正可用的一档。

  • Gemma 4 26B A4B 是这代最值得评估的型号,质量、延迟和本地硬件门槛最平衡。
阅读全文
2026-04-02 20:45 北京时间 更新:2026-04-03 00:40 北京时间 10 分钟 阅读难度:入门

外刊精读|3 月底英文新稿,把 AI 编程拉回 harness

3 月底这批英文新稿真正补上的,是 AI 编程背后的 harness。测试集、浏览器里的 ground truth、用途隔离、日志和回滚边界,正在重新决定哪些任务能稳稳交给 AI。

  • 这周最值得补的英文材料,都在回答什么样的 harness 才能把 AI 编程推向生产。
阅读全文
2026-03-30 22:20 北京时间 13 分钟 阅读难度:进阶

别把 AI 当外包商:软件研发里更稳的协作四分法

团队需要的是一套能按风险、可验证性和学习价值来分工的方法。研发协作的关键,不在全信或全禁,而在于给不同任务安排不同的人机关系,让交付、审查和学习都能继续成立。

  • 同一个 AI 工具,不应该用同一种协作方式处理所有研发任务,关键在于先给任务分级,而不是先给工具站队。
阅读全文
2026-03-30 22:19 北京时间 19 分钟 阅读难度:进阶

AI 改写了编码,为什么软件复杂性还在

AI 已经改写了编码、测试和局部修复这些实现层工作,很多团队也真实感受到了提速,但软件复杂性没有一起消失。系统边界、组织协作和长期演化,仍然决定大多数难题。

  • 编码这一层已经被明显改写,AI 正在接管一段连续的软件工程工作流。
阅读全文
2026-03-26 00:05 北京时间 更新:2026-03-31 00:19 北京时间 18 分钟 阅读难度:硬核

当顶级程序员开始少写代码,软件工程的重心移到了哪里

Karpathy、Yegge 与 Peter Steinberger 指向的,是软件工程分工的上移:代码生成更便宜后,规格、验证、门禁、回滚和长期维护变成更稀缺的环节。变化的核心是责任位置重排。

  • 顶级程序员减少手写代码,背后是工程重心从编码转向约束、验证和审计。
阅读全文
2026-03-24 12:18 北京时间 更新:2026-04-01 22:58 北京时间 15 分钟 阅读难度:进阶

SICA:在自我进化之前,先把评估做硬

让 coding agent 自我改进听上去像自然下一步,但如果评估体系不够硬,所谓进化很容易只是噪声累积。SICA 的意义,在于先把怎么验证变好摆到系统中心。

  • 这个项目最核心的把自改进收敛成「评估-归档-修改-再评估」的实验完整流程。
阅读全文
2026-03-22 01:31 北京时间 11 分钟 阅读难度:进阶

AI 程序员面试答案:10 题评分点与识别信号

AI 时代的程序员面试,答案不该停留在「我会写提示词」。更有区分度的,是看候选人能不能把 AI 放进明确的任务边界、验证完整流程和责任链里。下面这篇把前一篇 10 道题,进一步拆成优秀回答、中等回答和危险信号。

  • 每道题都给出优秀回答、中等回答和危险信号,方便快速区分候选人的真实水平。
阅读全文
2026-03-22 01:30 北京时间 10 分钟 阅读难度:进阶

AI 写代码之后,程序员面试该问什么

如果代码越来越多由 AI 生成,面试就不该再把重点放在徒手写实现,而该转向任务定义、上下文组织、验证完整流程和责任承担。下面这 10 道题,适合直接拿来面试允许使用 AI 的程序员候选人。

  • 这 10 道题不考候选人会不会背提示词,而是考他能不能把问题说清、把边界压清、把结果验清。
阅读全文
2026-03-21 11:58 北京时间 更新:2026-04-03 01:04 北京时间 12 分钟 阅读难度:入门

外刊精读|WIRED 如何写透 AI 编程重组

很多人看 AI 编程,只盯模型和演示。WIRED 最值得学的地方,是它反复盯着另外几件事:代码到底在哪个环节被自动化,错误和责任会怎么转移,团队流程会怎么被重写。

  • WIRED 写 AI 编程时,最关心的是代码如何进入真实工作流。
阅读全文
2026-03-19 22:46 北京时间 21 分钟 阅读难度:硬核

AI 开发者时代的四种关键原型与方法

如果你最近也在一边用 AI 写代码,一边又担心自己只是更快地试错,这篇文章想看的正是 4 种更稳的方向:Karpathy 讲学习,Simon 讲工程,Jeremy 讲主动权,swyx 讲生态与组织。

  • 这四个人放在一起看,更像教学、观察、方法与组织四种 AI 影响力。
阅读全文
2026-03-16 02:50 北京时间 16 分钟 阅读难度:硬核

从 70 万行代码反推 Yaq 的研发活动图谱

顺着 ETH2030 的仓库、文档和 git 节奏往回拆,Yaq 更像规格编译者、边界裁剪者、多代理调度者和验证架构师的组合体,而不只是一个会用 AI 疯狂写代码的人。

  • 从代码看,Yaq 的核心角色「规格编译者 + 多代理调度者 + 验证架构师」。
阅读全文
2026-03-16 00:11 北京时间 15 分钟 阅读难度:硬核

Yaq 与 ETH2030:不是神话,也不是胡扯

ETH2030 不是假项目,它确实把以太坊 Strawmap 做成了实验性参考实现;但「6 天写完未来以太坊」是夸写,重要的是它把路线图中的依赖、性能和验证问题提前暴露了出来。

  • 项目和仓库属实,但公开写法是约 8 天和约 7100 美元。
阅读全文
2026-03-16 00:10 北京时间 14 分钟 阅读难度:进阶

Yaq 是谁:ETH2030 背后的工程方法论

截至 2026 年 3 月 16 日,Yaq 公开可核验的传统履历信息并不多,但 GitHub、个人站和公开仓库已经足够勾出一条很清晰的技术轨迹:偏底层、偏协议、偏密码学、偏验证,以及越来越强的 AI 驱动研发能力。

  • 公开资料里的 Yaq,更像底层系统和协议方向的工程研究者。
阅读全文
2026-03-15 19:02 北京时间 更新:2026-03-31 19:10 北京时间 15 分钟 阅读难度:硬核

AI 时代的代码评审,还算 Review 吗

AI 已经能写代码、审代码,甚至自己在 PR 里给出修改建议;但如果 review 只剩「高吞吐检查」和形式签字,它就不再是软件工程里的真正 review。更值得追问的,是谁还真的看懂、敢签字、能补救。

  • AI code review 已经规模化进入工程流程,但「能给评论」不等于「能承担 review 的责任」。
阅读全文
2026-03-15 18:47 北京时间 14 分钟 阅读难度:硬核

从假引语到假代码:AI 正在逼近人类核验的极限

Ars Technica 的假引语风波真正警示的,不只是新闻业会被 AI 绊倒,而是当代码生成速度远超人类核验速度时,软件工程的责任链、风险边界和上线契约都需要重写。

  • 研究和行业调查已经显示,AI 代码产出增长得远快于人类核验能力,「验证债」正在形成。
阅读全文
2026-03-15 10:05 北京时间 14 分钟 阅读难度:进阶

机器上桌之后之五:Guido van Rossum

AI Agent 时代如果有一种基础设施级的默认语言,几乎就是 Python;Guido van Rossum 依然重要,不只因为他创造了 Python,更因为他把可读性、演化节奏与工程现实捏成了稳定底座。

  • Guido van Rossum 在 Agent 时代的重要性,首先来自 Python 作为默认工程语言的持续统治力。
阅读全文
2026-03-15 10:04 北京时间 14 分钟 阅读难度:进阶

机器上桌之后之四:Kent Beck

如果说 AI 编程正在把代码生成这件事推到前所未有的速度上,那么 Kent Beck 之所以依然重要,是因为反馈回路、整洁设计和小步试错这些老办法,恰好是驾驭这种速度最可靠的刹车与方向盘。

  • Kent Beck 的方法在 AI 时代重新变重要,因为高速生成更需要快速反馈和小步验证。
阅读全文
2026-03-15 10:03 北京时间 15 分钟 阅读难度:进阶

机器上桌之后之三:Robert C. Martin

在 AI 越来越快地产生代码之后,Robert C. Martin 之所以仍值得重读,因为测试、边界、命名和职业责任这些老问题,正在被生成式工具重新放大。

  • Robert C. Martin 并非 AI 圈明星,却是 AI 写代码时代最容易被重新想起的老派工程人物之一。
阅读全文
2026-03-15 10:02 北京时间 15 分钟 阅读难度:进阶

机器上桌之后之二:Steve Yegge

如果说 AI 编程工具正在从补全器变成能拆任务、会写代码、会组织工作流的代理,那么 Steve Yegge 是最早一批把这条路讲清楚、写透并持续鼓动行业往前走的人。

  • Steve Yegge 的价值,在于他很早就把 AI 编程的方向感写成了行业语言。
阅读全文
2026-03-15 09:17 北京时间 16 分钟 阅读难度:进阶

机器上桌之后之一:龙虾之父 Peter Steinberger

OpenClaw 背后最值得认识的人,是被官网 credits 明确标注为 Creator 的 Peter Steinberger。他并非传统 AI 学者,更像把开发者工具、产品直觉与工程执行力压到同一条线上的产品型工程师。

  • 官网 credits 将 Peter Steinberger 列为 Creator,这是「龙虾之父」最直接的公开依据。
阅读全文
2026-03-15 01:16 北京时间 22 分钟 阅读难度:进阶

Opus 4.6 vs GPT-5.4:主力模型怎么选

如果今天只能为团队选一个主力模型,我的结论是:追求完整产品化能力,优先看 GPT-5.4;追求长时编码和持续执行,Opus 4.6 依然最锋利;追求激进多模态和 benchmark,Gemini 3.1 Pro 是最大变量。

  • GPT-5.4 的看点不只是模型升级,而是 OpenAI 把 agent 平台能力正式收口成产品。
阅读全文