AI 编程 - Freelemon

长文库

技术、行业、人物与 Agent 系统观察。

Agent 陪读系列

给刚开始用 Claude、ChatGPT、Cursor、Copilot 和各类 coding agent 干活的人，一条从概念、工程、方法到团队变化的顺读路线。

导读 + 8 篇正片建议顺序：先读 00，再按 01 到 08 的顺序往下读。最近更新：08｜小团队 + Agent，会不会变成新默认配置

先看导读

Reading Path

先读 00，再按 01 到 08 的顺序往下读。

00 从导读进入：00｜如果你刚开始用 Agent 干活，先读这 4 个人 12 分钟 01 01｜Agent 到底是什么：先把这个词说清楚 10 分钟 02 02｜别把 AI 写代码，最后写成一地鸡毛 11 分钟 03 03｜为什么代码会最先成为 AI 的关键突破口 10 分钟 04 04｜下一波 AI 大公司，为什么可能出在 Agent 层 11 分钟 05 05｜Coding Agent 需要熟练操作者，它不会替你负责 10 分钟 06 06｜2025 年，Agent 编程为什么突然变了 12 分钟 07 07｜别一把梭哈给 AI：和它一步一步把问题做完 10 分钟 08 08｜小团队 + Agent，会不会变成新默认配置 10 分钟

Latest Archive

AI 编程

AI 编程时间线。

软件工程 AI 编程 AI Agent

2026-05-25 00:33 北京时间 16 分钟阅读难度：进阶

Agent 时代，编程语言不会消失，只会重新分工

Agent 时代不会让编程语言变得不重要。变化恰好相反：语言会从人的偏好问题，变成 Agent 能否理解、修改、验证、部署和长期维护系统的协作界面。

自然语言会成为任务入口，但不会替代编程语言承担系统边界。

AI Agent 播客观察 AI 编程

2026-05-25 00:15 北京时间 15 分钟阅读难度：进阶

日抛式软件来了，Agent 创作平台会改变什么

晚点聊对谈 MuleRun 陈宇森，把 Claude Code 和 AgentBuilder 放到软件创作方式变化里看。最值得追的是：未来很多小软件可能不再长期维护，而是围绕一次任务快速生成、使用、废弃。

日抛式软件重点是为短周期任务生成临时工具。

研究文章 AI Agent AI 编程

2026-05-24 11:19 北京时间 8 分钟阅读难度：进阶

Agent 走向生产后，真正缺的是运行层

最近的论文和开源项目说明，agent 的瓶颈不只在模型。沙箱回滚、工具 API、源码级自修复、repo memory 和经验共享，正在一起构成新的运行层。

DeltaBox 说明，长程 agent 需要便宜的状态回滚。

研究文章 AI 编程 AI Agent

2026-05-24 11:19 北京时间 8 分钟阅读难度：进阶

评估 coding agent，不能只看测试绿了没有

最近几篇论文把 coding agent 的评估问题说得更清楚了：测试通过、PR 合并、终端任务跑完，都只能说明一部分事实。要看的是 agent 有没有投机、有没有越界，以及人类审查到底补了多少洞。

SpecBench 说明，测试绿了也可能只是学会投机动作和绕过验收。

AI Agent 企业 AI AI 编程

2026-05-24 11:19 北京时间 9 分钟阅读难度：进阶

Agent 不是免费同事：企业开始重算 AI 的真实工时

企业对 agentic AI 的疑问正在从「能不能替人做事」转向「跑完整个流程后到底省不省钱」。变贵的往往是多轮调用、上下文、返工、审查和预算归因加在一起的真实工时。

企业开始把 agentic AI 当成可归因的工作流成本，而不是一次性的模型试用费。

AI Agent AI 编程软件工程

2026-05-24 11:15 北京时间 11 分钟阅读难度：进阶

AI 编程的包月幻觉正在结束

AI 编程工具正在从座席订阅走向资源计量。Codex 限流、Copilot AI Credits、代码审查消耗 Actions minutes，说明团队必须开始按任务管理 token、并发、上下文和验证成本。

GitHub 从 premium request 转向 AI Credits，并按 token 消耗计算，打破了短问答和多小时 autonomous coding session 成本相同的订阅错觉。

AI Agent 软件工程 AI 编程

2026-05-24 03:57 北京时间 11 分钟阅读难度：进阶

Agent 可观测性会成为新的基础设施

Agent 真正进入生产之后，问题不再只是能不能回答，而是每一步为什么这样做、花了多少成本、调用了什么工具、失败在哪里。可观测性会从辅助日志变成 Agent 平台的核心层。

Agent 的结果对错只是最后一帧，需要管理的是中间轨迹、工具选择、上下文消耗和失败原因。

AI Agent 软件工程 AI 编程

2026-05-24 03:28 北京时间 10 分钟阅读难度：进阶

Agent Skills 正在变成新的软件包

Skills 把流程、工具、脚本、文件和调用约定打包成可安装资产。Agent 生态的下一层竞争，会落到谁能分发、治理和复用这些能力包。

Skills 的价值不在把提示词写长，而在把稳定流程、工具调用、脚本和检查方式封装成可复用单元。

AI Agent AI 编程软件工程

2026-05-24 02:10 北京时间 11 分钟阅读难度：进阶

Agent 不是免费同事：企业开始重新计算 AI 的真实工时

企业开始发现，agent 的成本一项任务从启动、运行、审查、返工到归责的完整工时账。

Agent 成本不能只按模型调用价格看，还要算任务描述、上下文管理、review、返工和事故复盘。

AI Agent AI 编程软件工程

2026-05-24 01:58 北京时间 10 分钟阅读难度：进阶

Coding Agent 正在竞争企业运行层

这一周的信号说明，Coding Agent 的竞争不再只看模型会不会写代码，而是看谁能把沙箱、权限、验证、成本和工作流一起接进企业工程系统。

Dropbox Nova 把 coding agent 接进 monorepo、Bazel 和内部验证路径，说明落地重点已经转向工程系统集成。

GitHub趋势 AI 编程 AI Agent

2026-05-24 01:58 北京时间 8 分钟阅读难度：入门

03｜GitHub 趋势：多 Agent 工作台和记忆层升温

这一周 GitHub 上值得看的是多 agent 工作台、repo-native memory、本地 MCP 记忆和小模型 coding agent 同时升温。

Superset 代表多 agent 编程工作台方向，重点是并行会话、远程 workspace 和 issue 到 PR 流程。

论文精选 AI Agent AI 编程

2026-05-24 01:58 北京时间 9 分钟阅读难度：进阶

03｜论文精选：Agent 评测和运行时正在变硬

这一周最值得看的论文，都在把 agent 从演示推回工程约束：沙箱回滚、隐藏测试、PR 结果解释、终端真实任务、越权行为和系统级安全。

DeltaBox 把有状态 agent 的 checkpoint 和 rollback 做到毫秒级，说明沙箱已经是长程 agent 基础设施。

Hacker News精选 AI Agent AI 编程

2026-05-24 01:58 北京时间 8 分钟阅读难度：入门

05｜HN 本周在讨论 Agent 成本和运行边界

这一周 HN 上最有价值的讨论，集中在企业 agent 的成本、spec-driven workflow、本地 RAG 记忆和 Claude Code 安全边界。

企业内部 agent 成本讨论开始从模型价格转向 token 消耗和组织 KPI。

技术沉淀 AI 编程软件工程

2026-04-12 10:20 北京时间 12 分钟阅读难度：进阶

在原生 Windows 上，重搭 AI 编程命令行栈

一次原生 Windows 命令行整治记录：把 PowerShell、PATH 和 UTF-8 的反复故障，收敛成 Git Bash、rg、sd、jq、yq 与 ast-grep 这一套稳定工具链。

原生 Windows 下，PowerShell 适合系统管理，不适合承担高频中文文本处理主流程。

AI Agent AI 编程技术沉淀

2026-04-11 12:10 北京时间 11 分钟阅读难度：进阶

Hermes 安装指南：macOS 和 Windows 怎么装

Hermes 不难装。macOS 直接跑官方安装器，Windows 先装 WSL2 再按 Linux 路线装。装完别先闲聊，先用并行读仓库和定时任务两个例子，看看它适不适合你。

macOS 原生可装，Windows 走 WSL2，别在原生 PowerShell 路线上耗时间。

论文精选 AI 编程 AI Agent

2026-04-10 10:25 北京时间 9 分钟阅读难度：进阶

01｜论文精选：这一周最值得看的三条判断

这一周最有价值的论文，同时改了三条判断：个人代理依然很脆弱，自动化 QA 还远不到可托付，竞赛编程 agent 的上限又被往上推了一截。

OpenClaw 与 CIK-Bench 给出一个刺眼结果：面对真实网页里的对抗内容，个人 AI 代理的提示注入攻击成功率达到 73.7%。

GitHub趋势 AI 编程 AI Agent

2026-04-10 10:20 北京时间 8 分钟阅读难度：进阶

01｜GitHub AI 趋势：这一周最值得看的三条线索

这一周 GitHub 上真正有分量的上涨，集中在三类更靠近产品底层的仓库：agent 运行层、端侧推理运行时和全双工语音代理。

Hermes Agent 一周新增 14811 星，核心信号不在新 CLI，而在于它把安装、记忆、MCP 和 40 多个工具打成一层可运行的 agent 环境。

GitHub趋势 AI 编程 AI Agent

2026-04-09 08:30 北京时间 6 分钟阅读难度：进阶

00｜GitHub AI 趋势：最近 7 天快涨仓库怎么看

这条线只跟最近 7 天蹿升很快的 AI 仓库，重点判断它们背后到底是新工作流、新工具链还是短期热度，并用文档、活跃度和可复现入口先筛掉噪音。

候选池可以来自 GitHub Trending，但正文判断不能停在榜单截图。

论文精选 AI 编程 AI Agent

2026-04-09 08:30 北京时间 6 分钟阅读难度：进阶

00｜论文精选：最近 7 天的新论文该怎么挑

这条线只看最近 7 天值得工程和产品层继续跟进的 AI 论文，重点判断问题定义、证据强度和落地价值，不做摘要搬运，也不追每天的热点论文名单。

默认只看最近 7 天公开的新论文或重要新版本，不靠旧论文翻红撑版面。

技术沉淀 AI 编程 AI Agent

2026-04-09 00:20 北京时间 20 分钟阅读难度：硬核

把多窗口 AI 工作流重构成单一控制面

需要重构的重点是项目控制层。多窗口同时写文章没有错，问题在于写作、主干集成、部署和恢复过去没有被放进同一套状态机里管理；而且这套控制面现在已经开始落成具体脚本和状态文件。

多 Console 并发写作不是问题，问题是过去没有把主干合并和部署收口成单写者流程。

AI 编程 Hacker News精选软件工程

2026-04-07 22:25 北京时间更新：2026-04-08 20:42 北京时间 7 min 阅读难度：入门

03｜Memoir 在补长期上下文管理这层

Memoir 把长期上下文单独拎出来做，关心的是项目常识怎么跨会话、跨工具继续带着走。

最容易反复丢的，是团队约定、项目偏好和历史决策理由这些跨会话信息。

技术沉淀 AI 编程 AI Agent

2026-04-07 21:22 北京时间 17 分钟阅读难度：进阶

GSD2 和 OMX 怎么选：两套 AI 编程工作流的分水岭

GSD2 在管项目，OMX 在管 Codex。两边都能做长任务，但不在同一层：一个更像执行内核，一个更像编排外挂。把它们看成同一层工具，后面基本都会用错。

GSD2 把项目压成 milestone、slice、task 和落盘状态，更像执行内核。

AI 编程行业观察 AI Agent

2026-04-04 20:16 北京时间 22 分钟阅读难度：硬核

Cursor 3.0 和 AI Agent IDE 怎么选

Cursor 3.0 已经不只是更强一点的 AI IDE。值得比较的，是它如何和 Windsurf、Copilot、Cline 分别走向不同的 agent 路线：控制台、协作编辑器、GitHub 代理系统和开放执行层。

Cursor 3.0 最关键的升级把本地与云端 agent 收口成统一调度面。

模型评测大模型 AI 编程

2026-04-04 20:13 北京时间 14 分钟阅读难度：进阶

Gemma 4 本地部署与型号选择指南

如果你关心的是 Gemma 4 能不能在自己机器上稳定跑起来，而不是排行榜又赢了谁，结论很简单：31B 代表上限，26B A4B 是最值得部署的均衡版本，E4B 和 E2B 则把轻量本地模型推进到了真正可用的一档。

Gemma 4 26B A4B 是这代最值得评估的型号，质量、延迟和本地硬件门槛最平衡。

外刊精读 AI 编程软件工程

2026-04-02 20:45 北京时间更新：2026-04-03 00:40 北京时间 10 分钟阅读难度：入门

外刊精读｜3 月底英文新稿，把 AI 编程拉回 harness

3 月底这批英文新稿真正补上的，是 AI 编程背后的 harness。测试集、浏览器里的 ground truth、用途隔离、日志和回滚边界，正在重新决定哪些任务能稳稳交给 AI。

这周最值得补的英文材料，都在回答什么样的 harness 才能把 AI 编程推向生产。

技术沉淀 AI 编程软件工程

2026-03-30 22:20 北京时间 13 分钟阅读难度：进阶

别把 AI 当外包商：软件研发里更稳的协作四分法

团队需要的是一套能按风险、可验证性和学习价值来分工的方法。研发协作的关键，不在全信或全禁，而在于给不同任务安排不同的人机关系，让交付、审查和学习都能继续成立。

同一个 AI 工具，不应该用同一种协作方式处理所有研发任务，关键在于先给任务分级，而不是先给工具站队。

技术沉淀 AI 编程软件工程

2026-03-30 22:19 北京时间 19 分钟阅读难度：进阶

AI 改写了编码，为什么软件复杂性还在

AI 已经改写了编码、测试和局部修复这些实现层工作，很多团队也真实感受到了提速，但软件复杂性没有一起消失。系统边界、组织协作和长期演化，仍然决定大多数难题。

编码这一层已经被明显改写，AI 正在接管一段连续的软件工程工作流。

技术沉淀 AI 编程软件工程

2026-03-26 00:05 北京时间更新：2026-03-31 00:19 北京时间 18 分钟阅读难度：硬核

当顶级程序员开始少写代码，软件工程的重心移到了哪里

Karpathy、Yegge 与 Peter Steinberger 指向的，是软件工程分工的上移：代码生成更便宜后，规格、验证、门禁、回滚和长期维护变成更稀缺的环节。变化的核心是责任位置重排。

顶级程序员减少手写代码，背后是工程重心从编码转向约束、验证和审计。

AI Agent AI 编程

2026-03-24 12:18 北京时间更新：2026-04-01 22:58 北京时间 15 分钟阅读难度：进阶

SICA：在自我进化之前，先把评估做硬

让 coding agent 自我改进听上去像自然下一步，但如果评估体系不够硬，所谓进化很容易只是噪声累积。SICA 的意义，在于先把怎么验证变好摆到系统中心。

这个项目最核心的把自改进收敛成「评估-归档-修改-再评估」的实验完整流程。

职业发展 AI 编程软件工程

2026-03-22 01:31 北京时间 11 分钟阅读难度：进阶

AI 程序员面试答案：10 题评分点与识别信号

AI 时代的程序员面试，答案不该停留在「我会写提示词」。更有区分度的，是看候选人能不能把 AI 放进明确的任务边界、验证完整流程和责任链里。下面这篇把前一篇 10 道题，进一步拆成优秀回答、中等回答和危险信号。

每道题都给出优秀回答、中等回答和危险信号，方便快速区分候选人的真实水平。

职业发展 AI 编程软件工程

2026-03-22 01:30 北京时间 10 分钟阅读难度：进阶

AI 写代码之后，程序员面试该问什么

如果代码越来越多由 AI 生成，面试就不该再把重点放在徒手写实现，而该转向任务定义、上下文组织、验证完整流程和责任承担。下面这 10 道题，适合直接拿来面试允许使用 AI 的程序员候选人。

这 10 道题不考候选人会不会背提示词，而是考他能不能把问题说清、把边界压清、把结果验清。

外刊精读行业观察 AI 编程

2026-03-21 11:58 北京时间更新：2026-04-03 01:04 北京时间 12 分钟阅读难度：入门

外刊精读｜WIRED 如何写透 AI 编程重组

很多人看 AI 编程，只盯模型和演示。WIRED 最值得学的地方，是它反复盯着另外几件事：代码到底在哪个环节被自动化，错误和责任会怎么转移，团队流程会怎么被重写。

WIRED 写 AI 编程时，最关心的是代码如何进入真实工作流。

技术沉思 AI 编程软件工程

2026-03-19 22:46 北京时间 21 分钟阅读难度：硬核

AI 开发者时代的四种关键原型与方法

如果你最近也在一边用 AI 写代码，一边又担心自己只是更快地试错，这篇文章想看的正是 4 种更稳的方向：Karpathy 讲学习，Simon 讲工程，Jeremy 讲主动权，swyx 讲生态与组织。

这四个人放在一起看，更像教学、观察、方法与组织四种 AI 影响力。

技术沉思 AI 编程

2026-03-16 02:50 北京时间 16 分钟阅读难度：硬核

从 70 万行代码反推 Yaq 的研发活动图谱

顺着 ETH2030 的仓库、文档和 git 节奏往回拆，Yaq 更像规格编译者、边界裁剪者、多代理调度者和验证架构师的组合体，而不只是一个会用 AI 疯狂写代码的人。

从代码看，Yaq 的核心角色「规格编译者 + 多代理调度者 + 验证架构师」。

技术沉思 AI 编程

2026-03-16 00:11 北京时间 15 分钟阅读难度：硬核

Yaq 与 ETH2030：不是神话，也不是胡扯

ETH2030 不是假项目，它确实把以太坊 Strawmap 做成了实验性参考实现；但「6 天写完未来以太坊」是夸写，重要的是它把路线图中的依赖、性能和验证问题提前暴露了出来。

项目和仓库属实，但公开写法是约 8 天和约 7100 美元。

人物小传 AI 编程

2026-03-16 00:10 北京时间 14 分钟阅读难度：进阶

Yaq 是谁：ETH2030 背后的工程方法论

截至 2026 年 3 月 16 日，Yaq 公开可核验的传统履历信息并不多，但 GitHub、个人站和公开仓库已经足够勾出一条很清晰的技术轨迹：偏底层、偏协议、偏密码学、偏验证，以及越来越强的 AI 驱动研发能力。

公开资料里的 Yaq，更像底层系统和协议方向的工程研究者。

技术沉思 AI 编程软件工程

2026-03-15 19:02 北京时间更新：2026-03-31 19:10 北京时间 15 分钟阅读难度：硬核

AI 时代的代码评审，还算 Review 吗

AI 已经能写代码、审代码，甚至自己在 PR 里给出修改建议；但如果 review 只剩「高吞吐检查」和形式签字，它就不再是软件工程里的真正 review。更值得追问的，是谁还真的看懂、敢签字、能补救。

AI code review 已经规模化进入工程流程，但「能给评论」不等于「能承担 review 的责任」。

技术沉思 AI 编程软件工程

2026-03-15 18:47 北京时间 14 分钟阅读难度：硬核

从假引语到假代码：AI 正在逼近人类核验的极限

Ars Technica 的假引语风波真正警示的，不只是新闻业会被 AI 绊倒，而是当代码生成速度远超人类核验速度时，软件工程的责任链、风险边界和上线契约都需要重写。

研究和行业调查已经显示，AI 代码产出增长得远快于人类核验能力，「验证债」正在形成。

人物小传软件工程 AI 编程

2026-03-15 10:05 北京时间 14 分钟阅读难度：进阶

机器上桌之后之五：Guido van Rossum

AI Agent 时代如果有一种基础设施级的默认语言，几乎就是 Python；Guido van Rossum 依然重要，不只因为他创造了 Python，更因为他把可读性、演化节奏与工程现实捏成了稳定底座。

Guido van Rossum 在 Agent 时代的重要性，首先来自 Python 作为默认工程语言的持续统治力。

人物小传软件工程 AI 编程

2026-03-15 10:04 北京时间 14 分钟阅读难度：进阶

机器上桌之后之四：Kent Beck

如果说 AI 编程正在把代码生成这件事推到前所未有的速度上，那么 Kent Beck 之所以依然重要，是因为反馈回路、整洁设计和小步试错这些老办法，恰好是驾驭这种速度最可靠的刹车与方向盘。

Kent Beck 的方法在 AI 时代重新变重要，因为高速生成更需要快速反馈和小步验证。

人物小传软件工程 AI 编程

2026-03-15 10:03 北京时间 15 分钟阅读难度：进阶

机器上桌之后之三：Robert C. Martin

在 AI 越来越快地产生代码之后，Robert C. Martin 之所以仍值得重读，因为测试、边界、命名和职业责任这些老问题，正在被生成式工具重新放大。

Robert C. Martin 并非 AI 圈明星，却是 AI 写代码时代最容易被重新想起的老派工程人物之一。

人物小传 AI 编程软件工程

2026-03-15 10:02 北京时间 15 分钟阅读难度：进阶

机器上桌之后之二：Steve Yegge

如果说 AI 编程工具正在从补全器变成能拆任务、会写代码、会组织工作流的代理，那么 Steve Yegge 是最早一批把这条路讲清楚、写透并持续鼓动行业往前走的人。

Steve Yegge 的价值，在于他很早就把 AI 编程的方向感写成了行业语言。

人物小传 OpenClaw AI 编程

2026-03-15 09:17 北京时间 16 分钟阅读难度：进阶

机器上桌之后之一：龙虾之父 Peter Steinberger

OpenClaw 背后最值得认识的人，是被官网 credits 明确标注为 Creator 的 Peter Steinberger。他并非传统 AI 学者，更像把开发者工具、产品直觉与工程执行力压到同一条线上的产品型工程师。

官网 credits 将 Peter Steinberger 列为 Creator，这是「龙虾之父」最直接的公开依据。

模型评测大模型 AI 编程

2026-03-15 01:16 北京时间 22 分钟阅读难度：进阶

Opus 4.6 vs GPT-5.4：主力模型怎么选

如果今天只能为团队选一个主力模型，我的结论是：追求完整产品化能力，优先看 GPT-5.4；追求长时编码和持续执行，Opus 4.6 依然最锋利；追求激进多模态和 benchmark，Gemini 3.1 Pro 是最大变量。

GPT-5.4 的看点不只是模型升级，而是 OpenAI 把 agent 平台能力正式收口成产品。