长文库

技术、行业、人物与 Agent 系统观察。

Latest Archive

文章归档

最近更新。

2026-05-29 21:35 北京时间 12 分钟 阅读难度:进阶

Git 入门:先看懂版本、分支和协作

Git 的核心价值,是让一个项目的每次可靠变化都留下可回退、可比较、可协作的记录。初学者先理解版本快照、暂存区、分支和远程仓库,再学命令会轻松很多。

  • Git 记录的是项目在不同时间点的快照,提交历史就是一条可回看的变化链。
阅读全文
2026-05-25 00:50 北京时间 9 分钟 阅读难度:进阶

TerminalWorld:终端 Agent 评测不能只靠人造题

TerminalWorld 从真实终端录屏反向构造任务,得到 1530 个验证任务和 200 个人工复核子集。它说明终端 Agent 的真实难度,比专家手写 benchmark 更杂、更长、更贴近日常开发。

  • 论文处理 80870 条真实终端录屏,生成 1530 个验证任务,覆盖 18 类真实任务和 1280 个唯一命令。
阅读全文
2026-05-25 00:49 北京时间 8 分钟 阅读难度:进阶

Agentic CLEAR:只做可观测还不够,Agent 需要解释型评测

Agentic CLEAR 位于 observability layer 之上,试图从系统、trace 和 node 三个层级自动生成行为判断。它解决的「日志能不能变成可行动的评测」。

  • 论文提出系统、trace、node 三层粒度的自动评测反馈,目标是让错误分析适配不同领域。
阅读全文
2026-05-25 00:47 北京时间 9 分钟 阅读难度:入门

Contractual Skills:企业 Agent 的技能文件该像合同

Contractual Skills 把 SKILL.md 从提示材料升级为可检查的任务合同:目标、输入边界、权限、证据、验收标准、审批点和交接规则都要写清楚。

  • 论文提出 GovernSpec-inspired 框架,把技能组织成目标、权限、证据、输出合同和验证步骤。
阅读全文
2026-05-25 00:45 北京时间 8 分钟 阅读难度:入门

Spreadsheet-RL:办公 Agent 可能需要专门训练

Spreadsheet-RL 用强化学习训练专门的表格 Agent,并在 SpreadsheetBench 和领域表格任务上提升 Pass@1。它说明办公自动化不一定靠通用模型提示就能解决。

  • 论文构建 Spreadsheet Gym,在 Microsoft Excel 环境中通过 Python sandbox 暴露大量表格功能。
阅读全文
2026-05-25 00:43 北京时间 8 分钟 阅读难度:进阶

Boiling the Frog:Agent 安全要看多轮动作

Boiling the Frog 把安全评测从单轮有害回答,转向企业办公环境里的多轮渐进攻击。它提醒我们,Agent 风险往往是在状态被慢慢改坏后出现。

  • 论文用 stateful multi-turn evaluation 检查工具型模型是否会在渐进请求中产生不安全 artifact。
阅读全文
2026-05-25 00:41 北京时间 9 分钟 阅读难度:进阶

Claw AI Lab:自动科研需要实验室而不是流水线

Claw AI Lab 把自动科研从隐藏的 prompt-to-paper 流水线,改造成可交互、可监控、可回滚的多 Agent 实验室。它的让研究过程更可控。

  • 论文允许用户从一个 prompt 实例化研究团队,并支持角色定制、实时监控和 artifact inspection。
阅读全文
2026-05-25 00:39 北京时间 8 分钟 阅读难度:进阶

WorkstreamBench:金融表格 Agent 评测开始贴近真实流程

WorkstreamBench 把 Agent 评测放进端到端金融表格任务,而不是只看孤立公式或单步操作。它提醒我们,企业 Agent 的难点往往在流程、文件状态和业务语境。

  • WorkstreamBench 关注金融场景里的端到端 spreadsheet tasks,问题比单点 Excel 操作更接近企业工作。
阅读全文
2026-05-25 00:38 北京时间 15 分钟 阅读难度:进阶

AMD 现在的关键问题:还能不能从二供变成 AI 平台

AMD 现在不是简单的「英伟达二供」故事。Q1 2026 财报、OpenAI 和 Meta 的 6GW 合作、Helios 机架平台和 MI450 路线,说明它正在争取从芯片供应商变成 AI 基础设施平台。

  • Q1 2026 数据中心收入 57% 增长,AMD 的主叙事已经从 PC 转向 AI 基础设施。
阅读全文
2026-05-25 00:37 北京时间 8 分钟 阅读难度:入门

HarnessAPI:MCP 工具不该和 HTTP 接口各写一遍

HarnessAPI 把 typed skill folder 作为单一真源,同时生成流式 HTTP endpoint、OpenAPI 页面和 MCP tool。它真正指出的问题是:Agent 工具层如果继续手工复制,很快会漂移。

  • HarnessAPI 从一个 handler.py 和 Pydantic schema 派生 HTTP、Swagger UI 和 MCP tool。
阅读全文
2026-05-25 00:35 北京时间 9 分钟 阅读难度:进阶

DeltaBox:长程 Agent 需要毫秒级回滚

DeltaBox 把 Agent 沙箱从「隔离环境」推进到「可快速试错的执行底座」。它讨论的 checkpoint 和 rollback,决定长程 Agent 能不能安全探索多条路径。

  • DeltaBox 针对有状态 Agent 提供 sandbox checkpoint 和 rollback,目标是支持低成本试错。
阅读全文
2026-05-25 00:33 北京时间 16 分钟 阅读难度:进阶

Agent 时代,编程语言不会消失,只会重新分工

Agent 时代不会让编程语言变得不重要。变化恰好相反:语言会从人的偏好问题,变成 Agent 能否理解、修改、验证、部署和长期维护系统的协作界面。

  • 自然语言会成为任务入口,但不会替代编程语言承担系统边界。
阅读全文
2026-05-25 00:33 北京时间 8 分钟 阅读难度:进阶

LCGuard:多 Agent 共享 KV 缓存的隐私边界

LCGuard 关注一个容易被忽略的通道:多 Agent 系统不只会通过自然语言泄密,也可能通过共享 KV cache 泄漏上下文、推理状态和角色私有信息。

  • 论文把共享 KV cache 视作 latent working memory,并用可重构敏感输入来定义泄漏风险。
阅读全文
2026-05-25 00:31 北京时间 9 分钟 阅读难度:进阶

MOSS:Agent 自我进化不能只改提示词

MOSS 把自我进化从 prompt、技能文件和工作流配置推进到源码层。它值得讨论的重点是失败证据、回放验证、用户同意和回滚机制能否形成生产完整流程。

  • MOSS 认为源码级改写是 prompt、技能文件和工作流图的严格超集,可以覆盖结构性失败。
阅读全文
2026-05-25 00:20 北京时间 9 分钟 阅读难度:进阶

Composio:Agent 工具集成和授权层的产品化路线

Composio 的价值在它选择承接的 Agent 工程层:把 SaaS 工具、认证和 action 管理做成 Agent 工具层。判断它是否适合团队,要同时看抽象、生态、治理边界和真实维护成本。

  • Composio 的核心定位是把 SaaS 工具、认证和 action 管理做成 Agent 工具层,查询时 GitHub 生态热度为约 2.8 万 stars。
阅读全文
2026-05-25 00:19 北京时间 9 分钟 阅读难度:进阶

MCP Servers:Agent 工具生态的协议入口

MCP Servers 的价值在它选择承接的 Agent 工程层:Model Context Protocol 官方工具 server 集合入口。判断它是否适合团队,要同时看抽象、生态、治理边界和真实维护成本。

  • MCP Servers 的核心定位是 Model Context Protocol 官方工具 server 集合入口,查询时 GitHub 生态热度为约 8.6 万 stars。
阅读全文
2026-05-25 00:18 北京时间 9 分钟 阅读难度:入门

browser-use:浏览器 Agent 的开源爆款如何使用

browser-use 的价值在它选择承接的 Agent 工程层:让 Agent 操作浏览器完成网页任务。判断它是否适合团队,要同时看抽象、生态、治理边界和真实维护成本。

  • browser-use 的核心定位是让 Agent 操作浏览器完成网页任务,查询时 GitHub 生态热度为约 9.5 万 stars。
阅读全文
2026-05-25 00:17 北京时间 9 分钟 阅读难度:进阶

Continue:开源 AI 编程助手的团队治理价值

Continue 的价值在它选择承接的 Agent 工程层:把模型、规则和上下文接入 IDE 的开源编码助手。判断它是否适合团队,要同时看抽象、生态、治理边界和真实维护成本。

  • Continue 的核心定位是把模型、规则和上下文接入 IDE 的开源编码助手,查询时 GitHub 生态热度为约 3.3 万 stars。
阅读全文
2026-05-25 00:16 北京时间 9 分钟 阅读难度:进阶

Aider:终端 AI Pair Programming 的长期主义

Aider 的价值在它选择承接的 Agent 工程层:围绕 Git 工作流的终端 AI 编程助手。判断它是否适合团队,要同时看抽象、生态、治理边界和真实维护成本。

  • Aider 的核心定位是围绕 Git 工作流的终端 AI 编程助手,查询时 GitHub 生态热度为约 4.5 万 stars。
阅读全文
2026-05-25 00:15 北京时间 14 分钟 阅读难度:入门

垂类 Agent 的现实主义,Lovart 复盘说明了什么

晚点聊与 Lovart 创始人陈冕的复盘,适合用来理解垂类 Agent。垂类重点是围绕一个专业场景持续接模型、改交互、建上下文和抢用户心智。

  • 垂类 Agent 的核心是专业工作流和交付标准。
阅读全文
2026-05-25 00:15 北京时间 14 分钟 阅读难度:进阶

20 问 OpenClaw,真正有价值的是问题框架

十字路口这期 OpenClaw 20 问的价值,不只是解释一个热门工具,而是示范了怎么拆 Agent 新物种:先分清对象、环境、用户、成本、风险和创业机会,再判断它到底值不值得追。

  • 面对 Agent 新物种,先问问题比急着判断革命或泡沫更重要。
阅读全文
2026-05-25 00:15 北京时间 15 分钟 阅读难度:入门

造 Agent 的工具,也会成为 Agent 时代的生意

晚点聊从 OpenAI 开发者日聊到 Agentic Tooling,提醒我们不要只盯 Agent 应用。每一波应用爆发前,都需要构建、调试、评估、部署、监控和权限管理工具先成熟。

  • Agentic Tooling 面向开发者、创业团队和企业平台团队,而不只是终端用户。
阅读全文
2026-05-25 00:15 北京时间 14 分钟 阅读难度:进阶

年末 AI 回顾里,Agent 最该留下哪几条判断

晚点聊年末 AI 回顾不只是盘点热闹,它把模型、应用、巨头、创业公司和硬件放到同一张图里。对 Agent 来说,最该留下的是:Coding 是样板,垂类是落点,工具链是杠杆。

  • Agent 重点是模型到真实任务之间的一种组织方式。
阅读全文
2026-05-25 00:15 北京时间 14 分钟 阅读难度:入门

从模型竞争到系统竞争,Agent 季报该看什么

晚点聊 26Q1 AI 季报把 OpenClaw、Claude Code、OpenAI 和 Anthropic 放在同一张季度图里看。它提醒我们:Agent 的竞争已经不只是模型强弱,而是系统完成任务的能力。

  • Agent 产品的核心变量,正在从模型分数转向系统完成任务的能力。
阅读全文
2026-05-25 00:15 北京时间 15 分钟 阅读难度:进阶

OpenClaw 热度背后,委托式 AI 终于有了样子

OpenClaw 相关节目在近期小宇宙 Agent 讨论里形成第一梯队,因为它让用户第一次直观看到 AI 可以被委托去完成一段电脑工作。

  • OpenClaw 的热度来自可见执行过程,而不是单纯的模型能力宣传。
阅读全文
2026-05-25 00:15 北京时间 15 分钟 阅读难度:进阶

Agent 新范式在环境里学习

硅谷 101 E191 最值得拿出来写的判断是:Agent 的进化让模型进入可操作、可反馈、可评估的环境。环境定义得越清楚,Agent 越可能稳定落地。

  • Agent 的关键是能否从环境反馈里修正行动。
阅读全文
2026-05-25 00:15 北京时间 15 分钟 阅读难度:入门

投资人看 Agent,李世石时刻会发生在哪些行业

晚点聊与戴雨森关于 Agent 的长谈,适合从投资视角理解行业拐点。所谓李世石时刻,重点是某个垂直任务突然被机器用新方法打穿。

  • 李世石时刻指的是局部任务被新方法打穿,不是行业瞬间消失。
阅读全文
2026-05-25 00:15 北京时间 15 分钟 阅读难度:进阶

日抛式软件来了,Agent 创作平台会改变什么

晚点聊对谈 MuleRun 陈宇森,把 Claude Code 和 AgentBuilder 放到软件创作方式变化里看。最值得追的是:未来很多小软件可能不再长期维护,而是围绕一次任务快速生成、使用、废弃。

  • 日抛式软件重点是为短周期任务生成临时工具。
阅读全文
2026-05-25 00:15 北京时间 15 分钟 阅读难度:入门

Agent 开发上半场,硬仗在 Context 和工具

42 章经把 Agent 拆成 LLM、Context 和 Tool Use 三件事。这个框架朴素但有用:Agent 能不能干活,往往不由模型一句话决定,而由上下文组织、工具暴露、环境反馈和失败恢复共同决定。

  • Agent 三要素可以先看 LLM、Context、Tool Use,别只盯模型。
阅读全文
2026-05-25 00:15 北京时间 9 分钟 阅读难度:进阶

Cline:IDE 内自主 Coding Agent 为什么受欢迎

Cline 的价值在它选择承接的 Agent 工程层:VS Code 里的自主编码 Agent 和工具调用工作台。判断它是否适合团队,要同时看抽象、生态、治理边界和真实维护成本。

  • Cline 的核心定位是 VS Code 里的自主编码 Agent 和工具调用工作台,查询时 GitHub 生态热度为约 6.2 万 stars。
阅读全文
2026-05-25 00:14 北京时间 9 分钟 阅读难度:进阶

OpenHands:开源 Coding Agent 平台的野心

OpenHands 的价值在它选择承接的 Agent 工程层:把代码、终端、浏览器和运行环境放进一个自治工作台。判断它是否适合团队,要同时看抽象、生态、治理边界和真实维护成本。

  • OpenHands 的核心定位是把代码、终端、浏览器和运行环境放进一个自治工作台,查询时 GitHub 生态热度为约 7.5 万 stars。
阅读全文
2026-05-25 00:13 北京时间 9 分钟 阅读难度:入门

n8n:自动化工作流平台如何接住 Agent

n8n 的价值在它选择承接的 Agent 工程层:从通用自动化平台扩展到 AI 工作流。判断它是否适合团队,要同时看抽象、生态、治理边界和真实维护成本。

  • n8n 的核心定位是从通用自动化平台扩展到 AI 工作流,查询时 GitHub 生态热度为约 18.9 万 stars。
阅读全文
2026-05-25 00:12 北京时间 9 分钟 阅读难度:进阶

Flowise:可视化 Agent Builder 的价值和天花板

Flowise 的价值在它选择承接的 Agent 工程层:用节点和流程图搭建 LLM 应用与 Agent flow。判断它是否适合团队,要同时看抽象、生态、治理边界和真实维护成本。

  • Flowise 的核心定位是用节点和流程图搭建 LLM 应用与 Agent flow,查询时 GitHub 生态热度为约 5.3 万 stars。
阅读全文
2026-05-25 00:11 北京时间 9 分钟 阅读难度:进阶

Dify:开源 Agent 应用平台的强项和边界

Dify 的价值在它选择承接的 Agent 工程层:开源 LLM 应用平台和企业低代码入口。判断它是否适合团队,要同时看抽象、生态、治理边界和真实维护成本。

  • Dify 的核心定位是开源 LLM 应用平台和企业低代码入口,查询时 GitHub 生态热度为约 14.2 万 stars。
阅读全文
2026-05-25 00:10 北京时间 9 分钟 阅读难度:进阶

Haystack:生产级 RAG Pipeline 的稳路线

Haystack 的价值在它选择承接的 Agent 工程层:搜索和 RAG 工程积累深的 LLM pipeline 框架。判断它是否适合团队,要同时看抽象、生态、治理边界和真实维护成本。

  • Haystack 的核心定位是搜索和 RAG 工程积累深的 LLM pipeline 框架,查询时 GitHub 生态热度为约 2.5 万 stars。
阅读全文
2026-05-25 00:09 北京时间 9 分钟 阅读难度:进阶

LlamaIndex:知识型 Agent 的上下文入口

LlamaIndex 的价值在它选择承接的 Agent 工程层:从文档、数据和索引出发构建 Agent 上下文。判断它是否适合团队,要同时看抽象、生态、治理边界和真实维护成本。

  • LlamaIndex 的核心定位是从文档、数据和索引出发构建 Agent 上下文,查询时 GitHub 生态热度为约 5.0 万 stars。
阅读全文
2026-05-25 00:08 北京时间 9 分钟 阅读难度:进阶

Mastra:TypeScript 团队的 Agent 应用框架

Mastra 的价值在它选择承接的 Agent 工程层:面向 Node/TypeScript 生态的 Agent 与 workflow 框架。判断它是否适合团队,要同时看抽象、生态、治理边界和真实维护成本。

  • Mastra 的核心定位是面向 Node/TypeScript 生态的 Agent 与 workflow 框架,查询时 GitHub 生态热度为约 2.4 万 stars。
阅读全文
2026-05-25 00:07 北京时间 9 分钟 阅读难度:进阶

Agno:一体化 Agent Platform 的取舍

Agno 的价值在它选择承接的 Agent 工程层:把 Agent、知识、记忆和工具放到一个平台式框架里。判断它是否适合团队,要同时看抽象、生态、治理边界和真实维护成本。

  • Agno 的核心定位是把 Agent、知识、记忆和工具放到一个平台式框架里,查询时 GitHub 生态热度为约 4.0 万 stars。
阅读全文
2026-05-25 00:06 北京时间 9 分钟 阅读难度:进阶

Pydantic AI:类型安全 Agent 框架的后端路线

Pydantic AI 的价值在它选择承接的 Agent 工程层:把类型、依赖注入和结构化输出放到 Agent 开发中心。判断它是否适合团队,要同时看抽象、生态、治理边界和真实维护成本。

  • Pydantic AI 的核心定位是把类型、依赖注入和结构化输出放到 Agent 开发中心,查询时 GitHub 生态热度为约 1.7 万 stars。
阅读全文
2026-05-25 00:05 北京时间 9 分钟 阅读难度:进阶

Semantic Kernel:微软企业栈里的 Agent 编排层

Semantic Kernel 的价值在它选择承接的 Agent 工程层:微软生态里的 LLM/Agent 编排层。判断它是否适合团队,要同时看抽象、生态、治理边界和真实维护成本。

  • Semantic Kernel 的核心定位是微软生态里的 LLM/Agent 编排层,查询时 GitHub 生态热度为约 2.8 万 stars。
阅读全文
2026-05-25 00:04 北京时间 9 分钟 阅读难度:进阶

AutoGen:多 Agent 协作框架的研究底色

Microsoft AutoGen 的价值在它选择承接的 Agent 工程层:微软推动的多 Agent 编程框架。判断它是否适合团队,要同时看抽象、生态、治理边界和真实维护成本。

  • Microsoft AutoGen 的核心定位是微软推动的多 Agent 编程框架,查询时 GitHub 生态热度为约 5.8 万 stars。
阅读全文
2026-05-25 00:03 北京时间 9 分钟 阅读难度:进阶

CrewAI:角色型多 Agent 框架适合什么团队

CrewAI 的价值在它选择承接的 Agent 工程层:用角色、任务和流程组织多 Agent 协作。判断它是否适合团队,要同时看抽象、生态、治理边界和真实维护成本。

  • CrewAI 的核心定位是用角色、任务和流程组织多 Agent 协作,查询时 GitHub 生态热度为约 5.2 万 stars。
阅读全文
2026-05-25 00:02 北京时间 9 分钟 阅读难度:进阶

LangGraph:长程 Agent 的状态机底座

LangGraph 的价值在它选择承接的 Agent 工程层:把 Agent 从聊天循环推进到可恢复状态图。判断它是否适合团队,要同时看抽象、生态、治理边界和真实维护成本。

  • LangGraph 的核心定位是把 Agent 从聊天循环推进到可恢复状态图,查询时 GitHub 生态热度为约 3.3 万 stars。
阅读全文
2026-05-25 00:01 北京时间 9 分钟 阅读难度:进阶

LangChain:Agent 应用框架的生态优势和负担

LangChain 的价值在它选择承接的 Agent 工程层:最宽的 LLM 应用开发生态。判断它是否适合团队,要同时看抽象、生态、治理边界和真实维护成本。

  • LangChain 的核心定位是最宽的 LLM 应用开发生态,查询时 GitHub 生态热度为约 13.7 万 stars。
阅读全文
2026-05-24 23:44 北京时间 15 分钟 阅读难度:硬核

运营商卖 Token,国内 AI 计费会怎么变

我看好运营商卖 Token 的企业侧影响,不看好它短期变成大众像买流量一样主动购买的消费品。真正机会不在低价词元包,而在把 AI 调用做进企业账单、办公应用、政企服务和成本管理。

  • 普通用户买的是 AI 搜索、写作、总结、办公助手等具体权益。
阅读全文
2026-05-24 23:35 北京时间 15 分钟 阅读难度:进阶

小模型有前途,但别把单片机和语言模型混为一谈

小模型有前途,关键价值是把高频、低延迟、隐私敏感和成本敏感的任务从大模型调用里拆出来。单片机 TinyML 当然是真小模型,但不能拿它证明小语言模型也能在所有设备上通用。

  • 单片机上的 TinyML 是真小模型,但主要做传感器、语音唤醒和简单视觉,不等于通用语言模型。
阅读全文
2026-05-24 23:01 北京时间 11 分钟 阅读难度:进阶

cch 随机请求头为什么会坑到第三方 API 用户

cch 真正坑人的地方不在随机字符本身,而在它把客户端归因、缓存命中、网关兼容和第三方 API 成本绑在了一起。对直连用户这可能只是实现细节,对代理、Bedrock、兼容层和企业网关来说,它会变成稳定性问题。

  • cch 不是普通随机数,它出现在归因字符串里,并且会让请求形状随调用变化。
阅读全文
2026-05-24 13:47 北京时间 10 分钟 阅读难度:进阶

多 Agent 系统最难的重点是控制权转交

多 Agent 系统的关键在于什么时候转交、转给谁、带着什么上下文转交,以及转交后谁对结果负责。

  • handoff 不是普通工具调用,它会改变谁拥有下一步对话或任务控制权。
阅读全文
2026-05-24 13:38 北京时间 10 分钟 阅读难度:进阶

沙箱不只是安全层,而是 Agent 产品的运行界面

Agent 沙箱不能只按安全容器理解。影响产品体验的,是它如何准备依赖、挂载仓库、限制网络、保留状态、运行测试,并把结果交还给人。

  • 沙箱的核心价值不只是隔离风险,还在于把仓库、依赖、工具链、网络和测试变成可复用的执行现场。
阅读全文
2026-05-24 13:30 北京时间 10 分钟 阅读难度:进阶

长程 Agent 缺的重点是生产任务队列

长程 Agent 不能被当成一条更长的模型调用。生产系统需要 job、step、worker、queue、checkpoint、局部 retry、人工等待和恢复机制。

  • 长程 Agent 的生产边界应该从 job 和 step 开始,而不是从更长上下文开始。
阅读全文
2026-05-24 13:24 北京时间 10 分钟 阅读难度:进阶

Agent 进企业以后,第一件事是给它一个身份

企业 Agent 不能长期借人的账号和 token 做事。它需要自己的身份、owner、权限边界、委托记录、生命周期和撤销路径,否则自动化越强,责任越模糊。

  • Agent 身份重点是能被目录、权限、审计、生命周期和风险策略管理的非人主体。
阅读全文
2026-05-24 13:02 北京时间 10 分钟 阅读难度:进阶

一次任务变成一串推理,Agent 产品化会卡在容量上

Agent 产品化的瓶颈不只是模型会不会调用工具,而是一次用户任务会被放大成多轮推理、工具等待、上下文增长、KV cache 迁移、网络传输和电力负载。

  • OpenAI 的 function calling 和 Codex agent loop 说明,工具型 Agent 天然会把一次任务拆成多轮模型请求和外部执行。
阅读全文
2026-05-24 12:56 北京时间 10 分钟 阅读难度:进阶

MCP 工具供应链最危险的依赖,可能是工具描述

MCP 让 Agent 接工具变得更容易,也把工具描述、schema、输出和 scope 变成新的供应链入口。企业不能只问能接多少工具,要问谁能把工具放进模型上下文。

  • MCP server 不是普通插件,它会把工具描述、参数和返回值放进模型上下文,描述本身就可能成为指令入口。
阅读全文
2026-05-24 12:55 北京时间 10 分钟 阅读难度:进阶

Agent 每一步都要可追责,trace 会变成审计证据链

Agent 进生产后,企业要的一条能复盘、能追责、能脱敏、能解释审批边界的执行证据链。

  • Agent trace 要覆盖模型调用、工具参数、检索材料、handoff、审批、guardrail 和异常,而不是只记录最终回答。
阅读全文
2026-05-24 12:33 北京时间 8 分钟 阅读难度:进阶

企业 AI 工作站正在变成 Agent 的新底座

NVIDIA 和 Dell 最近的动作说明,企业 agent 基础设施不只会往云上集中,也会向工作组、本地机房和 deskside 设备下沉。约束开始变成内存、数据位置、网络和交付形态。

  • DGX Station 把 GB300 Grace Blackwell 做成桌边 AI 超算形态。
阅读全文
2026-05-24 12:33 北京时间 10 分钟 阅读难度:入门

Agent 记忆重点是生命周期管理

最近几篇 Agent memory 论文给出的共同判断很清楚:长期记忆不能只是把历史塞进向量库,而要管理写入、检索、更新、遗忘、调度和成本。

  • Goal-Mem 把检索从相似度搜索推进到目标分解,说明记忆 retrieval 必须服务于推理目标。
阅读全文
2026-05-24 12:33 北京时间 9 分钟 阅读难度:进阶

Agent 开始处理密钥后,机密计算会重新上桌

当 Agent 能读凭证、调工具、跨系统执行任务,安全问题就不只在提示词和权限策略。机密计算、远程证明和硬件隔离会重新进入企业 Agent 架构。

  • Agent 的威胁面覆盖感知、规划、记忆、行动和协作层,已经超过单次模型推理。
阅读全文
2026-05-24 11:20 北京时间 11 分钟 阅读难度:进阶

垂直 Agent 会先从金融工作包里跑出来

金融 Agent 的重要性不在「AI 会不会炒股」,而在它把 pitchbook、KYC、估值复核、月结和审计这类高价值流程做成可安装工作包。垂直 Agent 的落地路径,可能会比通用 Agent 框架更快。

  • 金融 Agent 可写的是有输入、模板、数据源、复核点和交付物的专业流程。
阅读全文
2026-05-24 11:19 北京时间 9 分钟 阅读难度:进阶

垂直 Agent 为什么先在金融落地

金融 Agent 先落地,因为它有高价值、强流程、强审计和明确交付物。

  • Anthropic 的金融 Agent 模板把 skills、connectors 和 subagents 组合成参考架构,面向 pitchbook、KYC、月结和估值复核等具体工作。
阅读全文
2026-05-24 11:19 北京时间 10 分钟 阅读难度:进阶

Agent 的下一块战场,是屏幕上的真实工作流

GUI Agent 的把浏览器、桌面、手机和办公软件变成可观察、可执行、可回放的工作环境。谁能控制屏幕,谁才真正接近用户每天做事的地方。

  • GUI Agent 的关键是能不能稳定理解界面状态、执行动作并在失败时恢复。
阅读全文
2026-05-24 11:19 北京时间 9 分钟 阅读难度:进阶

Agent 的下一块战场是屏幕和浏览器

GUI Agent 的关键变化,重点是浏览器、搜索、桌面和手机正在被重新做成 Agent 的执行环境。

  • Google 在 I/O 2026 把 Search agents、Universal Cart 和 Gemini Spark 连在一起,说明入口竞争已经从回答问题延伸到持续执行任务。
阅读全文
2026-05-24 11:19 北京时间 8 分钟 阅读难度:进阶

Agent 走向生产后,真正缺的是运行层

最近的论文和开源项目说明,agent 的瓶颈不只在模型。沙箱回滚、工具 API、源码级自修复、repo memory 和经验共享,正在一起构成新的运行层。

  • DeltaBox 说明,长程 agent 需要便宜的状态回滚。
阅读全文
2026-05-24 11:19 北京时间 8 分钟 阅读难度:进阶

评估 coding agent,不能只看测试绿了没有

最近几篇论文把 coding agent 的评估问题说得更清楚了:测试通过、PR 合并、终端任务跑完,都只能说明一部分事实。要看的是 agent 有没有投机、有没有越界,以及人类审查到底补了多少洞。

  • SpecBench 说明,测试绿了也可能只是学会投机动作和绕过验收。
阅读全文
2026-05-24 11:19 北京时间 10 分钟 阅读难度:进阶

Agent 的流程税:省下的代码时间,可能还给了审查和返工

Coding agent 的成本不只在账单里,也在流程里。它能节省写代码的时间,也可能把成本转移到规格、审查、CI、回滚、权限和人类收口上。

  • Agent 的流程税来自规格、验证、审查、回滚、权限和预算归因,不会自动出现在 token 单价里。
阅读全文
2026-05-24 11:19 北京时间 9 分钟 阅读难度:进阶

Agent 不是免费同事:企业开始重算 AI 的真实工时

企业对 agentic AI 的疑问正在从「能不能替人做事」转向「跑完整个流程后到底省不省钱」。变贵的往往是多轮调用、上下文、返工、审查和预算归因加在一起的真实工时。

  • 企业开始把 agentic AI 当成可归因的工作流成本,而不是一次性的模型试用费。
阅读全文
2026-05-24 11:15 北京时间 11 分钟 阅读难度:进阶

AI 编程的包月幻觉正在结束

AI 编程工具正在从座席订阅走向资源计量。Codex 限流、Copilot AI Credits、代码审查消耗 Actions minutes,说明团队必须开始按任务管理 token、并发、上下文和验证成本。

  • GitHub 从 premium request 转向 AI Credits,并按 token 消耗计算,打破了短问答和多小时 autonomous coding session 成本相同的订阅错觉。
阅读全文
2026-05-24 11:10 北京时间 12 分钟 阅读难度:入门

Agent 安全重点是运行时问题

能调用工具的 Agent 不能再按聊天机器人管理。它会读文件、跑命令、连服务、写数据,安全边界必须放在运行时:权限、隔离、拦截、审计和回滚。

  • Agent 的风险来自工具调用和真实副作用,提示词约束挡不住文件操作、shell 命令、HTTP 请求和多步攻击链。
阅读全文
2026-05-24 03:57 北京时间 11 分钟 阅读难度:进阶

Agent 可观测性会成为新的基础设施

Agent 真正进入生产之后,问题不再只是能不能回答,而是每一步为什么这样做、花了多少成本、调用了什么工具、失败在哪里。可观测性会从辅助日志变成 Agent 平台的核心层。

  • Agent 的结果对错只是最后一帧,需要管理的是中间轨迹、工具选择、上下文消耗和失败原因。
阅读全文
2026-05-24 03:28 北京时间 10 分钟 阅读难度:进阶

Agent Skills 正在变成新的软件包

Skills 把流程、工具、脚本、文件和调用约定打包成可安装资产。Agent 生态的下一层竞争,会落到谁能分发、治理和复用这些能力包。

  • Skills 的价值不在把提示词写长,而在把稳定流程、工具调用、脚本和检查方式封装成可复用单元。
阅读全文
2026-05-24 03:10 北京时间 10 分钟 阅读难度:进阶

Agent 安全的边界正在从提示词移到运行时

Agent 安全不能继续只押在提示词上。模型会被外部内容误导,安全设计要限制的是它随后能访问什么、执行什么、改写什么,以及谁能复盘这些动作。

  • Prompt injection 的麻烦在于指令和数据混在同一个输入通道里,不能只靠写更强提示词来消除风险。
阅读全文
2026-05-24 02:10 北京时间 11 分钟 阅读难度:进阶

Agent 不是免费同事:企业开始重新计算 AI 的真实工时

企业开始发现,agent 的成本一项任务从启动、运行、审查、返工到归责的完整工时账。

  • Agent 成本不能只按模型调用价格看,还要算任务描述、上下文管理、review、返工和事故复盘。
阅读全文
2026-05-24 01:58 北京时间 10 分钟 阅读难度:进阶

Coding Agent 正在竞争企业运行层

这一周的信号说明,Coding Agent 的竞争不再只看模型会不会写代码,而是看谁能把沙箱、权限、验证、成本和工作流一起接进企业工程系统。

  • Dropbox Nova 把 coding agent 接进 monorepo、Bazel 和内部验证路径,说明落地重点已经转向工程系统集成。
阅读全文
2026-05-24 01:58 北京时间 8 分钟 阅读难度:入门

03|GitHub 趋势:多 Agent 工作台和记忆层升温

这一周 GitHub 上值得看的是多 agent 工作台、repo-native memory、本地 MCP 记忆和小模型 coding agent 同时升温。

  • Superset 代表多 agent 编程工作台方向,重点是并行会话、远程 workspace 和 issue 到 PR 流程。
阅读全文
2026-05-24 01:58 北京时间 9 分钟 阅读难度:进阶

03|论文精选:Agent 评测和运行时正在变硬

这一周最值得看的论文,都在把 agent 从演示推回工程约束:沙箱回滚、隐藏测试、PR 结果解释、终端真实任务、越权行为和系统级安全。

  • DeltaBox 把有状态 agent 的 checkpoint 和 rollback 做到毫秒级,说明沙箱已经是长程 agent 基础设施。
阅读全文
2026-05-24 01:58 北京时间 8 分钟 阅读难度:入门

05|HN 本周在讨论 Agent 成本和运行边界

这一周 HN 上最有价值的讨论,集中在企业 agent 的成本、spec-driven workflow、本地 RAG 记忆和 Claude Code 安全边界。

  • 企业内部 agent 成本讨论开始从模型价格转向 token 消耗和组织 KPI。
阅读全文
2026-05-18 12:00 北京时间 7 min 阅读难度:进阶

02|本周 GitHub AI 趋势,评估栈第一次跑过框架

这周 GitHub 上速度最快的 AI 仓库不再是新框架,而是评估工具。原因不复杂:上线越多,evals 越值钱。

  • Agent 评估工具的关注度第一次稳定地超过新框架。
阅读全文
2026-05-18 12:00 北京时间 8 min 阅读难度:入门

02|AI 论文精选:工具落地评测正在变硬

本周值得读的论文,集中在工具调用的落地评测:不只是看模型能不能调出工具,更要看工具反馈被吸收的方式。

  • 工具调用评测从单步成功率,转向多轮稳定性和错误回收能力。
阅读全文
2026-05-18 12:00 北京时间 8 min 阅读难度:入门

04|上下文工程的成本,正在被 HN 重新算一遍

上下文越长不等于效果越好。最近 HN 上几条讨论又把这件事翻了一遍,焦点不是窗口尺寸,而是上下文的质量、组织和重读成本。

  • 上下文窗口的尺寸已经不是核心约束,组织方式才是。
阅读全文
2026-04-12 10:20 北京时间 12 分钟 阅读难度:进阶

在原生 Windows 上,重搭 AI 编程命令行栈

一次原生 Windows 命令行整治记录:把 PowerShell、PATH 和 UTF-8 的反复故障,收敛成 Git Bash、rg、sd、jq、yq 与 ast-grep 这一套稳定工具链。

  • 原生 Windows 下,PowerShell 适合系统管理,不适合承担高频中文文本处理主流程。
阅读全文
2026-04-11 12:10 北京时间 11 分钟 阅读难度:进阶

Hermes 安装指南:macOS 和 Windows 怎么装

Hermes 不难装。macOS 直接跑官方安装器,Windows 先装 WSL2 再按 Linux 路线装。装完别先闲聊,先用并行读仓库和定时任务两个例子,看看它适不适合你。

  • macOS 原生可装,Windows 走 WSL2,别在原生 PowerShell 路线上耗时间。
阅读全文
2026-04-10 10:25 北京时间 9 分钟 阅读难度:进阶

01|论文精选:这一周最值得看的三条判断

这一周最有价值的论文,同时改了三条判断:个人代理依然很脆弱,自动化 QA 还远不到可托付,竞赛编程 agent 的上限又被往上推了一截。

  • OpenClaw 与 CIK-Bench 给出一个刺眼结果:面对真实网页里的对抗内容,个人 AI 代理的提示注入攻击成功率达到 73.7%。
阅读全文
2026-04-10 10:20 北京时间 8 分钟 阅读难度:进阶

01|GitHub AI 趋势:这一周最值得看的三条线索

这一周 GitHub 上真正有分量的上涨,集中在三类更靠近产品底层的仓库:agent 运行层、端侧推理运行时和全双工语音代理。

  • Hermes Agent 一周新增 14811 星,核心信号不在新 CLI,而在于它把安装、记忆、MCP 和 40 多个工具打成一层可运行的 agent 环境。
阅读全文
2026-04-09 19:35 北京时间 14 分钟 阅读难度:进阶

Anthropic 为什么要把 Managed Agents 做成平台层

Claude Managed Agents 重点是 Anthropic 把 Agent 从模型接口推进到官方运行时平台的一步。重要的变化,重点是 Anthropic 开始接管 session、memory、vault、observability 和 prompt versioning 这一层基础设施。

  • Anthropic 现在提供的不只是模型,而是一套托管式 agent harness,把 agent、environment、session 和 events 打包成官方平台能力。
阅读全文
2026-04-09 19:20 北京时间 15 分钟 阅读难度:进阶

Claude Managed Agents 的运行时架构是什么

Anthropic 这次公开的一套正式的运行时抽象。Agent、Environment、Session、Events 这四层一起定义了 Claude Managed Agents 的架构边界,也决定了它更适合长任务、异步执行和托管式运行,而不是完全自定义的 prompt loop。

  • Claude Managed Agents 的核心是 `Agent -> Environment -> Session -> Events` 这一套托管运行时抽象。
阅读全文
2026-04-09 08:30 北京时间 6 分钟 阅读难度:进阶

00|GitHub AI 趋势:最近 7 天快涨仓库怎么看

这条线只跟最近 7 天蹿升很快的 AI 仓库,重点判断它们背后到底是新工作流、新工具链还是短期热度,并用文档、活跃度和可复现入口先筛掉噪音。

  • 候选池可以来自 GitHub Trending,但正文判断不能停在榜单截图。
阅读全文
2026-04-09 08:30 北京时间 6 分钟 阅读难度:进阶

00|论文精选:最近 7 天的新论文该怎么挑

这条线只看最近 7 天值得工程和产品层继续跟进的 AI 论文,重点判断问题定义、证据强度和落地价值,不做摘要搬运,也不追每天的热点论文名单。

  • 默认只看最近 7 天公开的新论文或重要新版本,不靠旧论文翻红撑版面。
阅读全文
2026-04-09 00:27 北京时间 13 分钟 阅读难度:进阶

罗福莉谈 OpenClaw:成本批评成立到哪一步

罗福莉批评 OpenClaw,核心是第三方 Agent 框架终于要自己承担长期运行的成本。把官方计费规则、API 价格和 OpenClaw 近期调整放在一起看,她对单位经济的批评基本成立。

  • 罗福莉批评得最准确的部分,是第三方 Agent 框架不能继续把第一方订阅当成长期补贴。
阅读全文
2026-04-09 00:20 北京时间 20 分钟 阅读难度:硬核

把多窗口 AI 工作流重构成单一控制面

需要重构的重点是项目控制层。多窗口同时写文章没有错,问题在于写作、主干集成、部署和恢复过去没有被放进同一套状态机里管理;而且这套控制面现在已经开始落成具体脚本和状态文件。

  • 多 Console 并发写作不是问题,问题是过去没有把主干合并和部署收口成单写者流程。
阅读全文
2026-04-09 00:01 北京时间 18 分钟 阅读难度:硬核

Hermes 和 OpenClaw 怎么选:先看层级

Hermes 最近热起来,不代表它会直接替代 OpenClaw。两者都挂着 agent 这面旗,但一个更像执行内核,一个更像个人助手入口和控制平面,个人用户与企业用户后面的答案会完全不同。

  • Hermes 更像 agent runtime,OpenClaw 更像个人助手入口和 control plane。
阅读全文
2026-04-07 22:25 北京时间 更新:2026-04-08 20:42 北京时间 7 min 阅读难度:入门

03|Memoir 在补长期上下文管理这层

Memoir 把长期上下文单独拎出来做,关心的是项目常识怎么跨会话、跨工具继续带着走。

  • 最容易反复丢的,是团队约定、项目偏好和历史决策理由这些跨会话信息。
阅读全文
2026-04-07 22:15 北京时间 更新:2026-04-08 20:42 北京时间 7 min 阅读难度:进阶

02|Coasts 把 agent 运行时问题直接摆出来了

Coasts 把依赖、端口、网络和共享服务这些平时埋在脚手架里的问题直接摆到了产品正面。

  • Coasts 关心的是进程、端口、网络和共享服务怎么一起管。
阅读全文
2026-04-07 22:05 北京时间 更新:2026-04-08 20:42 北京时间 6 min 阅读难度:入门

01|OpenClaw 之后,Claude Code 订阅到底包到哪一步

OpenClaw 这轮讨论把 Claude Code 的订阅边界说清了:人工直接使用和第三方 harness 的持续后台运行,要分开看。

  • OpenClaw 争议的核心是 Claude Code 订阅到底包到哪一步。
阅读全文
2026-04-07 21:55 北京时间 更新:2026-04-08 20:42 北京时间 6 min 阅读难度:入门

00|本周 3 篇 Hacker News AI 文章先看哪一篇

这页只做导读:告诉你本周 3 篇分别在讲什么,适合谁先读。

  • 这里只留最近 7 天里能回到原始来源核对的讨论。
阅读全文
2026-04-07 21:22 北京时间 17 分钟 阅读难度:进阶

GSD2 和 OMX 怎么选:两套 AI 编程工作流的分水岭

GSD2 在管项目,OMX 在管 Codex。两边都能做长任务,但不在同一层:一个更像执行内核,一个更像编排外挂。把它们看成同一层工具,后面基本都会用错。

  • GSD2 把项目压成 milestone、slice、task 和落盘状态,更像执行内核。
阅读全文
2026-04-07 10:30 北京时间 15 分钟 阅读难度:进阶

Karpathy 的 LLM Wiki 火了,普通人该怎么用

Karpathy 的 LLM Wiki 之所以引发共鸣,在于它把大模型往「持续整理、持续改写、持续积累」的方向推了一步,也提醒普通人别把知识管理做成新的体力活。

  • 这套方法最有意思的地方,是把问一次答一次的临时问答,变成会留下痕迹的整理流程。
阅读全文
2026-04-05 00:30 北京时间 17 分钟 阅读难度:进阶

从 IBM、Intel、Sun 到英伟达,硬件霸主的利润周期有多长

彼得·蒂尔把 AI 利润高度集中于英伟达的现象说破了,但历史上决定硬件霸主寿命的,从来不只是制程和性能,而是它能把标准、生态、兼容性和资本开支周期捏在手里多久。

  • IBM、Intel、Sun 和 Qualcomm 的分化说明,硬件利润高峰可以持续很久,但守住高峰比冲上高峰难得多。
阅读全文
2026-04-04 20:16 北京时间 22 分钟 阅读难度:硬核

Cursor 3.0 和 AI Agent IDE 怎么选

Cursor 3.0 已经不只是更强一点的 AI IDE。值得比较的,是它如何和 Windsurf、Copilot、Cline 分别走向不同的 agent 路线:控制台、协作编辑器、GitHub 代理系统和开放执行层。

  • Cursor 3.0 最关键的升级把本地与云端 agent 收口成统一调度面。
阅读全文
2026-04-04 20:13 北京时间 14 分钟 阅读难度:进阶

Gemma 4 本地部署与型号选择指南

如果你关心的是 Gemma 4 能不能在自己机器上稳定跑起来,而不是排行榜又赢了谁,结论很简单:31B 代表上限,26B A4B 是最值得部署的均衡版本,E4B 和 E2B 则把轻量本地模型推进到了真正可用的一档。

  • Gemma 4 26B A4B 是这代最值得评估的型号,质量、延迟和本地硬件门槛最平衡。
阅读全文
2026-04-04 09:30 北京时间 18 分钟 阅读难度:硬核

为什么 Zig 最近总让人想重写底层工具

Zig 最近总被拿来讨论「重写旧工具」,因为它把语言、编译器、交叉编译、C 互操作和构建系统捆成了一套更完整的底层工具链,让很多旧原生工具第一次值得重做。

  • Zig 最有杀伤力的地方,是把语言、编译器、构建和跨平台分发合成了一套统一工具链。
阅读全文
2026-04-03 18:39 北京时间 12 分钟 阅读难度:硬核

光纤代替内存?这不是今天的新闻,也还不是 AI 硬件革命

「32TB/s、光纤代替 DRAM、AI 硬件要变天」这串说法的底层算术并不荒唐,但它更像一个顺序流式缓存脑洞,而不是通用内存替代方案。值得追踪的变化,是光互连、CXL 内存池化和 photonic fabric 正在重写内存层级。

  • 所谓「32TB/s」主要来自 256Tb/s 光链路的线速换算,算术成立,但不等于获得了可随机访问的通用内存。
阅读全文
2026-04-03 17:28 北京时间 16 分钟 阅读难度:硬核

2026 年看 Agent 与大模型,还没做完的六件事

到 2026 年 4 月,主流产品已经把推理、工具调用、短期记忆和基础 Agent 形态做成标配,但决定下一代能力上限的几块底盘仍未完成:算力分配、验证器、持续记忆、长时程执行、长上下文工作记忆与可验证推理。

  • 更长的思考时间已经商品化,但「把额外算力稳定转成成功率」仍然没有被产品层彻底解决。
阅读全文
2026-04-02 22:16 北京时间 更新:2026-04-03 14:13 北京时间 14 分钟 阅读难度:进阶

AI 一周办成 700 人大会?一个案例能证明什么,不能证明什么

一篇「用 AI 一周办成 700 人大会」的文章之所以好看,是因为它说对了一半。AI 的确能显著压缩策划、写作、整理和沟通型工作,但一个成功案例还远远不够证明「经验已经失效」或「AI 是主要因」。

  • 现有研究较强支持 AI 抬高新手下限、压缩写作策划类工作的时间成本,但不支持把单个成功故事直接上升为普遍规律。
阅读全文
2026-04-02 20:45 北京时间 更新:2026-04-03 00:40 北京时间 10 分钟 阅读难度:入门

外刊精读|3 月底英文新稿,把 AI 编程拉回 harness

3 月底这批英文新稿真正补上的,是 AI 编程背后的 harness。测试集、浏览器里的 ground truth、用途隔离、日志和回滚边界,正在重新决定哪些任务能稳稳交给 AI。

  • 这周最值得补的英文材料,都在回答什么样的 harness 才能把 AI 编程推向生产。
阅读全文
2026-04-02 09:30 北京时间 16 分钟 阅读难度:进阶

Oracle:裁员风声背后,数据库帝国押注 AI 基建

Oracle 这轮裁员如果只被理解成一家老牌软件公司的缩编,就会错过重点。更准确的看法是:它正在把成熟软件业务挤出的现金、人力和组织空间,强行转投到一场更重资产、更高风险、也更可能改写公司估值逻辑的 AI 云基础设施战役里。

  • 这轮裁员更像资源再分配,成熟业务的人力与预算正被挪向 AI 数据中心和大客户交付。
阅读全文
2026-04-01 08:11 北京时间 18 分钟 阅读难度:进阶

「2028 末世论」是怎么回事:AI 成功后的压力测试

「2028 末世论」并非宗教预言,它来自 Citrini Research 在 2026 年 2 月提出的一套 AI 宏观压力测试:如果白领自动化跑得太快,产出增长反而可能先撞上就业、消费和资产价格的连锁下行。

  • 「2028 末世论」的源头是一篇情景推演,不是对 2028 年必然发生结果的正式预测。
阅读全文
2026-03-30 22:20 北京时间 13 分钟 阅读难度:进阶

别把 AI 当外包商:软件研发里更稳的协作四分法

团队需要的是一套能按风险、可验证性和学习价值来分工的方法。研发协作的关键,不在全信或全禁,而在于给不同任务安排不同的人机关系,让交付、审查和学习都能继续成立。

  • 同一个 AI 工具,不应该用同一种协作方式处理所有研发任务,关键在于先给任务分级,而不是先给工具站队。
阅读全文
2026-03-30 22:19 北京时间 19 分钟 阅读难度:进阶

AI 改写了编码,为什么软件复杂性还在

AI 已经改写了编码、测试和局部修复这些实现层工作,很多团队也真实感受到了提速,但软件复杂性没有一起消失。系统边界、组织协作和长期演化,仍然决定大多数难题。

  • 编码这一层已经被明显改写,AI 正在接管一段连续的软件工程工作流。
阅读全文
2026-03-30 22:18 北京时间 14 分钟 阅读难度:进阶

AI Agent 对软件工程的替代,究竟推进到了哪一步

关于 AI 是否替代软件工程师,真正麻烦的不在答案太极端,关键在于证据来自不同层面。能力、采用、岗位和组织四条线并不总是同向移动,眼下更像一场分层推进,而不是一次整齐替代。

  • 从任务能力看,AI 已经能吃下相当一部分编码、调试和界面实现工作,但这不等于整份工作已经被整体替代。
阅读全文
2026-03-30 21:23 北京时间 更新:2026-03-31 00:11 北京时间 17 分钟 阅读难度:进阶

把这期 GTC 播客里的事实、判断和押注分开看

这期播客信息很满,但不同句子的分量并不一样。把官方口径、财报事实、一线体感和前瞻押注分开看,节目里哪些地方站得稳,哪些地方仍要等,就会清楚很多。

  • 两位嘉宾共同说中的,是英伟达正在从卖单点芯片走向卖整套系统,这一点已有公开信号支撑。
阅读全文
2026-03-30 21:22 北京时间 更新:2026-03-30 23:48 北京时间 16 分钟 阅读难度:进阶

把这期 GTC 播客里最难懂的几个词讲明白

这期播客难听懂,主要是术语扎堆。AI 工厂、prefill、decode、KV cache、MoE 这些词一旦理顺,姚欣和季宇的分歧就会清楚很多。

  • 这些术语连在一起,讲的是同一件事:推理系统正在同时和延迟、吞吐、内存与成本打交道。
阅读全文
2026-03-30 21:14 北京时间 更新:2026-03-30 23:48 北京时间 17 分钟 阅读难度:进阶

季宇为什么把英伟达看成 AI 时代的大型机公司

看完 GTC,季宇先想到的重点是整台机器越做越大了。CPU、GPU、网络、LPU 被一起打包进系统之后,英伟达更像一家卖大型机的公司,这也是他整段访谈的出发点。

  • 季宇看到的变化,是英伟达正把 CPU、GPU、互联和新架构芯片一起装进一台更完整的机器里。
阅读全文
2026-03-30 20:30 北京时间 更新:2026-03-31 00:01 北京时间 15 分钟 阅读难度:进阶

GTC 开场前,姚欣真正押注的不是一场发布会

姚欣的判断值得看,因为它把英伟达放回了更长的产业周期:算力、系统集成、企业落地和资本开支怎样一起构成 AI 的下一阶段,而不是只看一场发布会。

  • 姚欣谈得最多的是需求侧,重点落在推理、agent 和基础设施扩张正在同一时间升温。
阅读全文
2026-03-30 14:50 北京时间 13 分钟 阅读难度:进阶

为什么越往后走,AI 竞争越不像模型竞赛,越像一场基础设施竞赛

模型当然仍是 AI 竞争的底座,但越往后走,真正锁定客户、提高迁移成本、决定长期利润结构的,越来越是连接器、运行时、评测、权限、协议和部署能力这些基础设施层。

  • 模型决定能力上限,基础设施决定能力怎样进入组织、留在组织,并最终形成迁移成本。
阅读全文
2026-03-30 14:35 北京时间 12 分钟 阅读难度:进阶

我们今天聊 AI,常常把能力和可用性混成一件事

AI 模型会做一件事,不等于它已经适合进入真实工作。很多讨论把「能力展示」和「长期可用」混在一起,结果高估了模型的落地速度,也低估了系统建设的难度。

  • 能力回答的是「它能不能做出来」,可用性回答的是「它能不能在真实环境里长期做、稳定做、低摩擦地做」。
阅读全文
2026-03-30 14:03 北京时间 13 分钟 阅读难度:进阶

很多人以为 AI 的难点在模型,真正麻烦的是系统

对很多真实场景来说,模型能力当然重要,但最先把项目拖慢、拖贵、拖得难以上线的,往往是模型外面那一整套系统:工具接入、上下文管理、评测、权限、回滚和组织协作。

  • 模型像发动机,决定上限;系统像整辆车,决定它能不能上路、能开多远、坏了以后怎么修。
阅读全文
2026-03-30 08:50 北京时间 12 分钟 阅读难度:进阶

AI 行业开始换问题了:模型还重要,系统正在变成主战场

这一轮 AI 的核心变化,是行业开始把注意力从「谁更强」转向「谁更能进入真实世界并长期工作」。模型还是底座,但系统能力正在决定价值能不能落地。

  • AI 行业没有停止比模型,但系统比较已经抬头:工具接入、成本控制、稳定性和工作流整合都在抬高权重。
阅读全文
2026-03-30 00:20 北京时间 更新:2026-03-31 07:20 北京时间 15 分钟 阅读难度:进阶

传统 SaaS 转向 AI:要重写的不只是产品,还有公司结构

传统 SaaS 公司转向 AI,真正难的从来都不在接入一个模型接口,而在定价、交付、组织分工、数据资产和产品边界要一起重写。能不能转型,先是公司战略问题,然后才落到功能层。

  • 这轮转型最后会体现在收入质量和估值逻辑上,核心变量是上下文、动作权限和结果交付,不是页面多几个 AI 按钮。
阅读全文
2026-03-30 00:20 北京时间 12 分钟 阅读难度:进阶

AI 到底是指数增长,还是已经进入加速段

先用图讲清线性、指数和增长率继续上升三种曲线,再回答一个更具体的问题:截至 2026 年 3 月,AI 前沿能力已出现加速迹象,但整体经济层面还没有同步进入加速指数增长。

  • 先分清固定增量、固定比例和增长率上升,才不会把三种曲线混成一句口号。
阅读全文
2026-03-29 23:30 北京时间 更新:2026-03-31 00:19 北京时间 11 分钟 阅读难度:进阶

英伟达收编 Groq 之后:更强的系统,不会更轻

如果英伟达真的把 Groq 纳入版图,它得到的会是一层更重的系统能力与分发控制。交易的意义更接近补齐结构,重点落在异构 AI 工厂的整编,重资产方向本身并不会改写。

  • 2025-12-24 公布的是非独家技术授权,英伟达刻意规避了最重的组织整合风险。
阅读全文
2026-03-29 00:35 北京时间 10 分钟 阅读难度:进阶

群友的 AI Agent 协作方法论参考

与 Agent 协作时,最关键的先判断任务是否落在它的能力边界内,再决定该放手、补足,还是拆解。拉开效果差距的,是边界判断、任务粒度、验证机制和干预时机。

  • 控制强度应与能力缺口成正比,覆盖度高就放手,覆盖度一般就补信息,覆盖不了就拆任务。
阅读全文
2026-03-26 21:50 北京时间 4 分钟 阅读难度:进阶

LeWorldModel 的真正价值:给大模型补上一层物理直觉

LeCun 团队的 LeWorldModel 价值在于它用更简单的 JEPA 训练方式,把轻量、快速、可规划的物理建模重新带回了台面,也让 LLM 与世界模型的分工更清楚。

  • LeWorldModel 证明,小参数世界模型也能在特定控制任务里做到稳定训练、快速规划和有意义的物理表征。
阅读全文
2026-03-26 20:58 北京时间 更新:2026-03-31 07:20 北京时间 22 分钟 阅读难度:硬核

更强 AI 的下一步,也许不在「更像人」这条线上

如果意识不是工程目标,那么更强 AI 的演化方向就没必要沿着「更像人」展开。值得追踪的,是架构、记忆、工具使用、世界模型和多代理协作这些更具体的系统变量。

  • 未来更强 AI 的主战场,更像系统架构,而不只是参数规模。
阅读全文
2026-03-26 00:05 北京时间 更新:2026-03-31 00:19 北京时间 18 分钟 阅读难度:硬核

当顶级程序员开始少写代码,软件工程的重心移到了哪里

Karpathy、Yegge 与 Peter Steinberger 指向的,是软件工程分工的上移:代码生成更便宜后,规格、验证、门禁、回滚和长期维护变成更稀缺的环节。变化的核心是责任位置重排。

  • 顶级程序员减少手写代码,背后是工程重心从编码转向约束、验证和审计。
阅读全文
2026-03-25 19:20 北京时间 更新:2026-03-31 00:19 北京时间 18 分钟 阅读难度:硬核

Arm 做 AI 芯片了吗:边界比口号更重要

Arm 的动作很容易被读成全面下场做 AI 芯片,但更准确的判断是:它在试图沿着设计、平台与定制化能力继续上探,却还没有变成另一家以整卡和整机为核心的基础设施公司。

  • Arm 的转型沿着 IP、CSS、Total Design 到自有硅产品逐层上移,不是临时起意的跨界动作。
阅读全文
2026-03-25 19:07 北京时间 更新:2026-04-01 22:58 北京时间 18 分钟 阅读难度:进阶

黄仁勋在 Lex 播客里真正讲清了什么是 AI 工厂

这场对话最值得看的是黄仁勋如何把 AI 从模型讨论重新放回工厂、资本开支、基础设施与国家级算力组织。AI 工厂重点是他组织整个产业判断的核心框架。

  • 黄仁勋把 AI 竞争讲成了整套系统工程竞争,计算单位已经从 GPU 走向 pod、机房和 AI factory。
阅读全文
2026-03-25 00:42 北京时间 更新:2026-03-31 00:19 北京时间 17 分钟 阅读难度:硬核

QVeris、LangChain 与 Agent 分层

QVeris 更像能力发现与统一执行层,LangChain、LangGraph 和 Deep Agents 则分别落在 framework、runtime 和 harness。把它们写成同类替代品,会直接讲乱技术栈边界。

  • QVeris 当前公开交付的是 tool search + tool execution,更像能力路由层。
阅读全文
2026-03-25 00:04 北京时间 更新:2026-03-31 00:01 北京时间 12 分钟 阅读难度:进阶

05|YC W26 长周期赌注:研究型公司的时间尺度

CellType、Polymath 和 Ndea 代表的重点是三种更长周期的技术押注。评估它们,不能只问今天有没有收入,更要问科学路径、资本结构和下一轮验证点。

  • CellType、Polymath 与 Ndea 的共同点重点是都更依赖长期研究正确性而不是短期销售效率。
阅读全文
2026-03-25 00:03 北京时间 更新:2026-03-31 00:01 北京时间 15 分钟 阅读难度:进阶

04|YC W26 Physical AI:机器人项目如何穿过部署现实

机器人叙事最容易被 demo 放大,决定成败的却是部署、单位经济、数据完整流程和现场复杂度。这一批公司值得看,但必须按比 SaaS 更重的现实标准来判断。

  • 机器人应用层最先成立的地方,往往是单场景、高 ROI、流程极痛的工业与农业动作。
阅读全文
2026-03-25 00:02 北京时间 更新:2026-04-04 10:51 北京时间 16 分钟 阅读难度:硬核

03|YC W26 Agent 基础设施:谁在争下一层控制点

Agent 基础设施会热,但热不等于都能长成平台。需要追问的,是身份、运行时验证、编排、监控和支付之中,哪几层站在动作执行与价值流转的关键入口上。

  • 最值得重视的控制点,是 orchestration、runtime action validation、identity governance 和 payment rails。
阅读全文
2026-03-25 00:01 北京时间 更新:2026-03-31 00:01 北京时间 13 分钟 阅读难度:进阶

02|YC W26 医疗 AI:同一标签下的四条兑现路径

医疗 AI 最容易被乱。行政自动化、患者前端、临床辅助与长期管理看上去都在用模型,商业节奏、监管压力和兑现方式却完全不同。

  • 最接近真钱的医疗 AI,往往先发生在前台、计费、排班与保险环节,而不是最宏大的临床叙事。
阅读全文
2026-03-25 00:00 北京时间 更新:2026-03-31 00:19 北京时间 14 分钟 阅读难度:进阶

01|YC W26 收入型 Agent:谁最先逼近真钱

这一组公司最值得看的是它们已经切进愿意持续付费的工作流。判断它们的关键是交付质量、替代强度和留存路径。

  • 结果型 Agent 的关键在于客户愿不愿意按结果持续付费。
阅读全文
2026-03-24 23:18 北京时间 更新:2026-03-31 00:01 北京时间 10 分钟 阅读难度:进阶

00|YC W26 Agent 创业地图:27 家公司该怎么分层

这组稿件不把 YC W26 的 Agent 项目混成一个总口号,而是按结果型产品、医疗、基础设施、机器人和长周期研究五个框架重排。重要的是谁占住了预算、控制点与时间窗口。

  • 最应该优先看的,是已经切进结果付费工作流的公司,而不是口号最响的通用 Agent。
阅读全文
2026-03-24 21:30 北京时间 更新:2026-03-31 00:01 北京时间 11 分钟 阅读难度:进阶

费曼之后:技术为什么不断制造新的图腾

费曼今天最值得重读的,重点是他反复提醒:一旦人们只保留科学和工程的外形,不再追问证据、边界与失败条件,技术就会从工具变成图腾,讨论也会越来越像信仰。

  • 费曼反对的重点是只保留科学外形、不保留自我怀疑的工程文化。
阅读全文
2026-03-24 16:40 北京时间 更新:2026-03-31 00:19 北京时间 8 分钟 阅读难度:进阶

心源性猝死:危险条件常常不止一个坏习惯

熬夜、久坐、剧烈运动和睡眠不足都可能推高风险,但需要警惕的,是这些因素怎样在心血管基础状态不佳时叠加成事故条件。把单一习惯妖魔化,反而会遮住防线。

  • 熬夜、久坐和缺乏训练会一起抬高心血管负担,不宜拆开理解。
阅读全文
2026-03-24 12:30 北京时间 更新:2026-04-01 22:58 北京时间 14 分钟 阅读难度:入门

Self-Evolving Agents:自进化研究地图

自进化 agent 听上去像终局叙事,但当前研究真正提供的,更多是一张问题地图:评估如何设计、反馈如何形成、记忆怎样约束、改进怎样不失控。地图重要,胜利尚早。

  • 它的核心贡献,是把自进化 Agent 研究整理成四条主轴和问题边界。
阅读全文
2026-03-24 12:26 北京时间 更新:2026-03-31 00:19 北京时间 16 分钟 阅读难度:入门

Swarms:多 Agent 工厂化的野心与代价

Swarms 的吸引力在于它不满足于单个 agent,而是试图把多 agent 策略批量化、模块化、产品化。但一旦走向工厂化,复杂度、调试成本和可靠性问题也会同时放大。

  • Swarms 的核心是用一组预制架构把多 Agent 协作做成可选择、可切换的策略集合。
阅读全文
2026-03-24 12:22 北京时间 更新:2026-04-01 22:58 北京时间 16 分钟 阅读难度:入门

OxyGent:多 Agent 底盘为什么先要可伸缩

OxyGent 想解决的是多 agent 协作一旦进入长链路任务,状态、扩展性和系统稳定性如何一起成立。可伸缩性不是锦上添花,而是多 Agent 底盘前提。

  • OxyGent 的核心表达把工具、模型和 Agent 抽象成可拼装的 Oxy 组件。
阅读全文
2026-03-24 12:18 北京时间 更新:2026-04-01 22:58 北京时间 15 分钟 阅读难度:进阶

SICA:在自我进化之前,先把评估做硬

让 coding agent 自我改进听上去像自然下一步,但如果评估体系不够硬,所谓进化很容易只是噪声累积。SICA 的意义,在于先把怎么验证变好摆到系统中心。

  • 这个项目最核心的把自改进收敛成「评估-归档-修改-再评估」的实验完整流程。
阅读全文
2026-03-24 12:14 北京时间 更新:2026-03-31 00:19 北京时间 16 分钟 阅读难度:入门

crewAI:把多 Agent 从概念秀拉回工作流

crewAI 值得看的地方,把角色分工、任务编排和流程可见性收回到工程可执行的范围。它代表的是多 agent 从演示叙事向工作流产品的回落。

  • crewAI 最早吸引人的是角色协作,后来真正补强的是 Flows、Memory 和可观测性。
阅读全文
2026-03-24 12:10 北京时间 更新:2026-04-01 22:58 北京时间 15 分钟 阅读难度:入门

Agent Orchestrator:并行 Agent 的后勤层

并行 agent 的难点,不在再多开几个模型窗口,而在任务拆分、依赖协调、结果合并与失败回收。Agent Orchestrator 的价值,是把这些后勤工作从演示效果推进成可持续工程。

  • 它的核心,在于给每个 Agent 独立 worktree、分支和 PR 槽位。
阅读全文
2026-03-24 07:38 北京时间 更新:2026-03-31 00:19 北京时间 26 分钟 阅读难度:进阶

AI 芯片与云厂商:控制点正在重新分配

AI 产业的竞争重心,正从单点模型能力转向芯片、云、数据平台与交付渠道的重新结盟。能持续拿到利润的,往往是站在企业系统关键控制点上的玩家,而不是只会发布模型的一方。

  • 海外 AI 产业已经从模型竞赛进入联盟竞赛,控制点正在向芯片、云和数据平台重新集中。
阅读全文
2026-03-23 11:30 北京时间 更新:2026-04-01 22:58 北京时间 17 分钟 阅读难度:进阶

从信息流到知识层:怎样筛出值得长期沉淀的可靠知识

做知识库最容易犯的错误,是把所有信息都当知识留下来。值得长期保留的,应该是 30 天后、90 天后还能支持判断、设计和行动的内容,而不是今天最热的链接。

  • 信息排序解决的是「今天先看什么」,知识沉淀解决的是「未来还该保留什么」,这两个问题不能共用一个分数。
阅读全文
2026-03-23 00:52 北京时间 18 分钟 阅读难度:硬核

Agentic Web:当 AI 代理开始替人上网

如果主要上网「客户端」逐步从人变成 AI 代理,互联网真正要重写的就不只是搜索入口,还包括接口层、支付层、身份层和预算层。Agentic Web 的核心,正在变成一张机器之间可调用、可结算、可审计的执行网络。

  • 浏览器型代理证明了 AI 已能替人操作网页,但它更像过渡性的义肢,而不是最终形态。
阅读全文
2026-03-22 18:20 北京时间 13 分钟 阅读难度:进阶

WordPress 和 Hexo 之外,独立博主还需要什么

对认真独立建站的博主来说,缺的往往是一套能同时承接采集、生成、审计、发布、主题切换和运维的内容操作系统。WordPress 和 Hexo 很成熟,但它们主要解决的仍是上一代建站问题。

  • WordPress 解决的是后台运营,Hexo 解决的是静态生成,但两者都还不是一条 Agent 原生的内容生产线。
阅读全文
2026-03-22 13:50 北京时间 更新:2026-04-03 14:18 北京时间 12 分钟 阅读难度:进阶

外刊精读|AI 热潮怎样从机房一路传到董事会

这四周更值得留下的,一条更稳的传导链:AI 先受制于电力和资本开支,再进入代码评审与后台代理流程,随后撞上课堂、办公室和训练路径,最后反噬推动热潮的公司治理。

  • 这四周真正拼出的,是一条从机房到后台代理、再到制度和董事会的传导链。
阅读全文
2026-03-22 11:20 北京时间 更新:2026-04-03 01:04 北京时间 12 分钟 阅读难度:入门

外刊精读|把这个月 AI 外刊压成 4 层现实

这轮外刊精读该留下的,重点是同一轮 AI 热潮背后的 4 层现实:基础设施、软件工作流、制度承接能力与组织权力结构变化。把这几层叠起来看,判断会稳很多。

  • 这个月最值得精读的主线,是 AI 同时重写基础设施、工作流、制度和组织。
阅读全文
2026-03-22 08:10 北京时间 更新:2026-04-03 14:18 北京时间 10 分钟 阅读难度:入门

外刊精读|同一项 AI 技术,为什么会被写成三种国家故事

把英文外刊当成统一的「国际视角」,最容易把世界读平。美国更常优化领先与平台,中国更常优化落地与效率,欧洲更常优化责任与边界;先拆开这三套问题设置,外刊才能拿来用。

  • 比较国家叙事时,最重要的是看各自默认在优化什么样的结果。
阅读全文
2026-03-22 01:31 北京时间 11 分钟 阅读难度:进阶

AI 程序员面试答案:10 题评分点与识别信号

AI 时代的程序员面试,答案不该停留在「我会写提示词」。更有区分度的,是看候选人能不能把 AI 放进明确的任务边界、验证完整流程和责任链里。下面这篇把前一篇 10 道题,进一步拆成优秀回答、中等回答和危险信号。

  • 每道题都给出优秀回答、中等回答和危险信号,方便快速区分候选人的真实水平。
阅读全文
2026-03-22 01:30 北京时间 10 分钟 阅读难度:进阶

AI 写代码之后,程序员面试该问什么

如果代码越来越多由 AI 生成,面试就不该再把重点放在徒手写实现,而该转向任务定义、上下文组织、验证完整流程和责任承担。下面这 10 道题,适合直接拿来面试允许使用 AI 的程序员候选人。

  • 这 10 道题不考候选人会不会背提示词,而是考他能不能把问题说清、把边界压清、把结果验清。
阅读全文
2026-03-21 16:50 北京时间 更新:2026-04-03 14:18 北京时间 12 分钟 阅读难度:入门

外刊精读|《纽约客》如何写透 OpenAI 组织张力

《纽约客》写 AI 公司最有价值的地方,在于它能把 OpenAI 的理想主义、商业化、安全叙事与权力斗争写成立体现实。读完之后,你会更清楚这类公司为什么总在扩张中积累张力。

  • 《The New Yorker》写 OpenAI 时,最重要的是组织内部长期无法消失的张力。
阅读全文
2026-03-21 16:35 北京时间 更新:2026-04-03 14:18 北京时间 12 分钟 阅读难度:入门

外刊精读|《大西洋》如何写透 AI 秩序冲击

《The Atlantic》最值得精读的地方,在于它总能比行业媒体更早抓住那些会改变现实的问题:课堂里的信任崩塌、教师工作被挤压、白领岗位的缓慢重写、制度应对的迟缓。它真正盯的是秩序怎样被改写。

  • 《The Atlantic》讨论 AI 时,真正盯住的是信任、制度和职业秩序。
阅读全文
2026-03-21 11:58 北京时间 更新:2026-04-03 01:04 北京时间 12 分钟 阅读难度:入门

外刊精读|WIRED 如何写透 AI 编程重组

很多人看 AI 编程,只盯模型和演示。WIRED 最值得学的地方,是它反复盯着另外几件事:代码到底在哪个环节被自动化,错误和责任会怎么转移,团队流程会怎么被重写。

  • WIRED 写 AI 编程时,最关心的是代码如何进入真实工作流。
阅读全文
2026-03-21 11:55 北京时间 更新:2026-04-03 01:04 北京时间 12 分钟 阅读难度:入门

外刊精读|《经济学人》如何重写 AI 竞争坐标

很多人看 AI 外刊时,眼睛先盯着模型、产品和公司。《经济学人》更稳定的价值,是把你从这些表层热点里拽出来,逼你去看算力、能源、资本开支和国家竞争这些更慢、更硬的变量。

  • 《经济学人》讨论 AI 时,最核心的视角是算力、能源和基础设施约束。
阅读全文
2026-03-21 10:40 北京时间 19 分钟 阅读难度:进阶

OpenClaw 全球 B 端与 C 端使用现状对比

截至 2026 年 3 月,OpenClaw 在全球范围内更像一个先在 C 端和 prosumer 层爆发、再被 B 端试点和平台层承接的产品。C 端赢在入口和上手速度,B 端更可能在治理、托管、安全和组织化包装上沉淀收入。

  • OpenClaw 的核心母体仍然是个人 AI 助手,而不是企业软件套件。
阅读全文
2026-03-21 10:35 北京时间 20 分钟 阅读难度:进阶

想建立 2026 年 AI 判断,先别只追新闻

先挑出那些三个月后仍会重写你判断的原文。这 10 篇博客覆盖 Agent 定义、评测偏差、软件工程、推理路线、系统安全和 Agent 公司结构这几条关键线。

  • 这十篇里最重要的是它们分别重写了 Agent 定义、评测方法和工程边界。
阅读全文
2026-03-21 10:30 北京时间 18 分钟 阅读难度:入门

近期最值得看的 10 场 AI 播客与 YouTube 访谈

如果你只想补最近一轮 AI 讨论里最有信息密度的 10 场播客与 YouTube 访谈,这份清单足够覆盖模型、Agent、评测、编码、世界模型、机器人和 AI for Science 这几条主线。

  • 最值得补的重点是能解释 2026 年技术与产业分岔点的长访谈。
阅读全文
2026-03-21 09:20 北京时间 18 分钟 阅读难度:硬核

谷歌整合 AI Studio 之后,AI 开发市场会怎么变

这次被热传成「AI Studio 四个月重构」的事件,实质是谷歌把 Firebase Studio 的全栈原型能力收进 Google AI Studio,并把重度代码工作收敛到 Antigravity,开始把模型、后端和部署串成一条开发链。

  • 谷歌这次收拢的「模型、原型、后端、部署、本地 IDE」整条开发链。
阅读全文
2026-03-20 00:40 北京时间 更新:2026-04-01 22:58 北京时间 4 分钟 阅读难度:进阶

如果乔布斯在世,会不会做苹果 AI

乔布斯当然会做 AI,但他多半不会接受把 AI 先做成一堆零散功能、再慢慢补体验的苹果路线。对他来说,AI 重点是下一代操作系统的起点。

  • 乔布斯不会拒绝 AI,他拒绝的是「先有名词、后有产品」的风口式发布。
阅读全文
2026-03-20 00:31 北京时间 4 分钟 阅读难度:进阶

扎克伯格急的是 AI 基础设施窗口期

Meta 现在的节奏确实像急了,但扎克伯格急的是 AI 窗口期正在明显缩短,他必须把算力、能源、芯片和组织能力整体同时前置起来,尽快抢出时间。

  • Meta 2026 年资本开支大幅抬升,说明它在用基础设施节奏抢时间。
阅读全文
2026-03-20 00:30 北京时间 10 分钟 阅读难度:进阶

xAI 到底是不是一家独立的 AI 公司

把独立 AI 公司理解为产品入口、数据来源、资本边界和组织边界都相对清楚的主体,xAI 就从来不是那种公司。它确实有模型、API 和超算,但更像马斯克商业体系里的 AI 中枢,而不是边界稳定的独立公司。

  • xAI 不是空壳:它有 Grok、公开 API、独立应用和 Colossus 超算,这些能力都是真实存在的。
阅读全文
2026-03-19 22:46 北京时间 21 分钟 阅读难度:硬核

AI 开发者时代的四种关键原型与方法

如果你最近也在一边用 AI 写代码,一边又担心自己只是更快地试错,这篇文章想看的正是 4 种更稳的方向:Karpathy 讲学习,Simon 讲工程,Jeremy 讲主动权,swyx 讲生态与组织。

  • 这四个人放在一起看,更像教学、观察、方法与组织四种 AI 影响力。
阅读全文
2026-03-19 22:20 北京时间 10 分钟 阅读难度:入门

08|小团队 + Agent,会不会变成新默认配置

Agent 不是只改变个人怎么写代码,它也在改团队怎么协作。swyx 这篇最值得翻出来的地方,是它把「少人团队为什么会越来越能打」讲成了一套组织问题,而不只是技术问题。

  • Tiny Teams 不只是少招人这么简单,它更像是把 AI 放进组织设计之后形成的新运作模式。
阅读全文
2026-03-19 22:14 北京时间 16 分钟 阅读难度:入门

张小珺技术解读地图:DeepSeek、Agent 与 VLA

如果前几篇张小珺系列文章是在看谁坐在哪张桌上,这一篇要解决的是另一件事:当你想补上她节目里最有价值的技术背景板,应该先听哪几期、按什么顺序、每一摞节目到底解决什么问题。

  • 这条线和人物深访不是同一类内容:前者给你人物处境,后者补技术地板,两者合起来才是完整的时代切面。
阅读全文
2026-03-19 22:10 北京时间 10 分钟 阅读难度:入门

07|别一把梭哈给 AI:和它一步一步把问题做完

很多人以为用 AI 编程就是把任务扔过去、等它回一坨结果。Jeremy Howard 这篇有用的,是它提醒大家:更可持续的方式,是把问题拆成小步,让人和 AI 在同一个反馈回路里一起往前走。

  • 真正稳定的人机协作,不靠一次生成很多代码,而靠连续的小步对话和验证。
阅读全文
2026-03-19 22:00 北京时间 12 分钟 阅读难度:进阶

06|2025 年,Agent 编程为什么突然变了

过去一年如果你总觉得模型、Agent、写代码方式都像在突然提速,这篇可以帮你把变化串起来。Karpathy 的价值,在于他把 2025 年几个改变格局的转折点挑了出来。

  • 2025 年最关键的变化,不只是模型更强,训练与推理范式也都在变。
阅读全文
2026-03-19 21:58 北京时间 20 分钟 阅读难度:硬核

国内大厂的利润表,正在被三股力量同时挤压

国内大厂这一轮真正承压的,已经是利润结构。AI 重投入、即时零售高竞争和旧业务利润弹性减弱三条线同时压上来,经营利润、自由现金流和估值框架都在重排。

  • 这一轮大厂经营压力来自三股叠加力量:AI 重投入、即时零售与本地生活竞争升温、传统现金牛业务利润弹性减弱。
阅读全文
2026-03-19 21:50 北京时间 10 分钟 阅读难度:进阶

05|Coding Agent 需要熟练操作者,它不会替你负责

Coding agent 当然有用,但它最依赖的,恰恰是前面那个会提清楚任务、会判断结果、会继续追问的人。真正被放大的,从来重点是操作者本身的清晰度和收口能力。

  • Coding agents 依赖熟练操作者,不会天然替代熟练操作者。
阅读全文
2026-03-19 21:40 北京时间 11 分钟 阅读难度:进阶

04|下一波 AI 大公司,为什么可能出在 Agent 层

模型公司当然重要,但下一波真正贴着用户、贴着任务、贴着业务结果长大的 AI 公司,未必还是卖模型的人,更可能是把模型、工具、工作流和场景绑在一起卖结果的人。这正是 swyx 这篇最值得抓住的判断。

  • Model Labs 和 Agent Labs 的重心不同,一个更偏模型能力,一个更偏任务结果与系统编排。
阅读全文
2026-03-19 21:30 北京时间 10 分钟 阅读难度:进阶

03|为什么代码会最先成为 AI 的关键突破口

如果你想理解为什么 AI 在代码、数学、规则题上进步得这么快,这篇几乎是一把钥匙。Karpathy 把问题压缩成一个词:可验证性。越容易自动判断对错的任务,越容易被优化,进展也越快。

  • 软件 1.0 自动化的是你能明确规定的任务,软件 2.0 更擅长自动化你能自动验收的任务。
阅读全文
2026-03-19 21:20 北京时间 11 分钟 阅读难度:进阶

02|别把 AI 写代码,最后写成一地鸡毛

AI 可以让写代码更快,但如果你把「更快」理解成「我可以不理解」,最后只会把自己带进更脆弱的软件和更浅的能力。Jeremy Howard 这篇最值得翻成中文的地方,是把「用 AI 还要不要讲基本功」说得很具体。

  • AI 写代码不会取消软件工程,只会放大你对工程的理解深浅。
阅读全文
2026-03-19 21:10 北京时间 10 分钟 阅读难度:进阶

01|Agent 到底是什么:先把这个词说清楚

如果「Agent」这个词你已经听烦了,这篇最有价值的地方就是把它重新说清楚了。对今天的工程语境来说,Agent 更接近「用工具、跑循环、为了目标持续行动的 LLM 系统」,别再把它混成玄学人格或自动员工。

  • 「Agent」一词终于开始有了在工程沟通里可用的共同定义。
阅读全文
2026-03-19 21:00 北京时间 12 分钟 阅读难度:进阶

00|如果你刚开始用 Agent 干活,先读这 4 个人

如果你最近开始用 Claude、ChatGPT、Cursor 或 Copilot 干活,这个系列不是拿来补 AI 史。它更像一条近作导读路线,帮你看懂 Agent 到底是什么、怎么用、哪里会翻车、团队会怎么变。

  • 这不是经典文章库。更准确地说,它是一条更贴近 2025 到 2026 现实变化的 Agent 陪读路线。
阅读全文
2026-03-19 19:52 北京时间 更新:2026-03-19 22:14 北京时间 10 分钟 阅读难度:入门

张小珺 AI 访谈地图:这组文章最适合怎么读

这是一张读法地图:张小珺的 AI 访谈已经足够多,重要的是先分清哪几张桌在说话,再决定自己该从哪里进入。这样读模型、Agent、物理世界和技术解读时,才不会把所有问题混在一起。

  • 这组索引的目标是先给出一张能导航的地图,让不同背景的读者有不同进入路径。
阅读全文
2026-03-19 19:49 北京时间 24 分钟 阅读难度:入门

张小珺 AI 访谈的另一半:研究者、创业者与投资人的那张桌

如果前几篇写的是做模型的人和做 Agent 的人,这一篇写的是张小珺 AI 访谈里另一半更杂、更关键的角色:前沿研究者、垂类应用创业者、账上有钱却还在找方向的人,以及不断给行业泼冷水的投资人。

  • 姚顺雨把讨论从模型参数拉回人与系统的边界,他关心的重点是 AI 下半场如何重做世界。
阅读全文
2026-03-19 19:48 北京时间 23 分钟 阅读难度:入门

当 AI 离开聊天框:张小珺访谈里的机器人、汽车与物理世界

如果前两篇写的是模型公司和 Agent 公司怎样在屏幕里争入口,这一篇写的就是另一件更硬的事:当 AI 要接管汽车、机器人和物理动作时,软件、世界模型、终端与时间尺度会一起改变。

  • 张亚勤把 AGI 画成一张分阶段地图:先信息智能,再物理智能,最后才是生物智能,时间尺度和载体完全不同。
阅读全文
2026-03-19 17:14 北京时间 26 分钟 阅读难度:硬核

国内智能电车企业的 AI,已经开始分成四种做法

到 2026 年 3 月 19 日,国内智能电车企业的公开 AI 动作早已超出「把大模型塞进语音助手」这一步,开始重写智驾、座舱、车控与制造;拉开距离的,在于谁先把数据、算力、OS 和整车执行流程跑通。

  • 小鹏和蔚来都在把 AI 做成底层系统,但前者更像物理世界模型公司,后者更像芯片加操作系统公司。
阅读全文
2026-03-19 17:11 北京时间 24 分钟 阅读难度:入门

从张小珺的 AI 深访里,看见 Agent 时代产品线索

把肖弘、明超平、李想这些访谈接起来看,2025 年之后变化重点是产品定义从「一个会回答的模型」变成「一个能嵌进环境、持续代办并承接信任关系的活系统」。

  • 肖弘最值得记住的重点是他对应用公司的方法论:预判模型下一个能力点,先在场景里等它到来。
阅读全文
2026-03-19 17:10 北京时间 22 分钟 阅读难度:入门

从张小珺的 AI 深访里,看清中国大模型创业到底在争什么

把杨植麟、王小川、李开复几场最关键的对谈放在一起看,会发现中国大模型创业争的重点是 AGI 北极星、技术与场景的咬合、推理成本和产品入口怎样同时成立。

  • 杨植麟把问题拉回长期主义:用户规模和模型规模要一起扩张,应用重点是验证 AGI 路线的必要环节。
阅读全文
2026-03-19 16:35 北京时间 24 分钟 阅读难度:硬核

中国大厂 AI 最近 70 天:入口、执行权与控制面的重新分配

今年一季度国内大厂的 AI 动作已经从「发模型」转向「抢位置」:阿里推进执行系统,腾讯卡住微信分发链,百度稳技术与云,字节加速 Agent 产品化,华为下探网络与运维控制面。

  • 阿里正把千问从聊天入口往任务执行器推进,目标直指更长的服务调度链。
阅读全文
2026-03-19 09:00 北京时间 9 分钟 阅读难度:进阶

00|AI 进入组织之后,8 个岗位会先重排责任链

这组文章追踪的重点是软件组织里的责任链会如何被重排:哪些执行环节变轻,哪些判断权上移,哪些角色会因为 Agent 变强而重新变贵,以及团队该怎样重新分工。

  • 这组系列真正关心的,重点是责任、边界和交付链会怎样迁移。
阅读全文
2026-03-19 09:00 北京时间 9 分钟 阅读难度:进阶

03. 产品经理在 Agent 时代,会转向成功定义与边界设计

产品经理这类岗位短期更像是在换重心,而不是被整体替代。需求文档、调研摘要和会议纪要会更容易自动化,但成功定义、边界处理和取舍判断会变得更重要。

  • 需求文档和纪要整理会更容易自动化,但目标定义和取舍判断并没有变轻。
阅读全文
2026-03-19 09:00 北京时间 9 分钟 阅读难度:入门

04. 测试工程师会更靠近评测与放行规则

测试工程师不会因为 AI 更会生成用例就自然淡出团队,先变化的更像是测试岗位里的重复执行层。越往前走,测试越会靠近评测工程、verifier 设计、安全边界和放行规则。

  • 最先变化的,是机械执行测试这一层,而不是负责质量边界和放行条件的人。
阅读全文
2026-03-19 09:00 北京时间 10 分钟 阅读难度:入门

05. 架构师在 Agent 时代,会更像运行时设计者

架构师的工作不会因为 AI 更会写代码就自然缩小,真正被重新筛选的,是只停留在图纸层、不碰运行细节的那种工作方式。Agent 时代更稀缺的,是能设计状态、协议、权限和运行边界的人。

  • 先被削弱的,重点是那种长期脱离执行、只在上层画图的工作方式。
阅读全文
2026-03-19 09:00 北京时间 8 分钟 阅读难度:进阶

06. 项目管理进入 Agent 时代之后,会更像流程编排层

项目管理不会整体淡出团队,但信息同步、状态跟进和会议纪要整理这类环节会更早自动化。更有价值的部分,会逐渐转向流程编排、升级路径、依赖管理、人工接管点和例外治理。

  • 状态同步和信息搬运会更早自动化,但例外治理和依赖编排并没有变轻。
阅读全文
2026-03-19 09:00 北京时间 8 分钟 阅读难度:进阶

07. 当 Agent 开始读文档,文档会变成运行时上下文

文档不会因为生成式 AI 普及就失去价值,但那些「为了交付而交付」的说明书会更快商品化。更重要的文档,正在变成 Agent 和人共同消费的运行时上下文与约束层。

  • 低价值文档最容易被生成式 AI 商品化,高价值文档反而会因为 Agent 普及而更重要。
阅读全文
2026-03-19 09:00 北京时间 9 分钟 阅读难度:入门

08. AI 工具扩散之后,IT 部门会更像内部 AI 平台

IT 部门不会因为团队自助用 AI 工具就自然边缘化,先被压缩的更像是装机、开账号和工单分发这类旧式支持工作。接下来更重要的 IT,会更像内部 AI 平台、权限控制和治理团队。

  • 先被压缩的,是 helpdesk 型、工单搬运型 IT,而不是负责身份、权限和审计边界的人。
阅读全文
2026-03-17 22:00 北京时间 18 分钟 阅读难度:硬核

黄仁勋 GTC 2026 演讲之后:谁会先被改变

黄仁勋这场 GTC 演讲把注意力从 GPU 型号表挪到了 AI 时代的新分工:模型公司会更深地卷基础设施,架构师和工程师要开始用 AI factory 的视角设计系统,普通人会先在本地助手、低成本推理和行业服务里感到变化。

  • 对 LLM 玩家来说,竞争重心会继续从「模型能力」外溢到 tokens 成本、推理系统、长任务运行时和基础设施控制力。
阅读全文
2026-03-16 23:30 北京时间 18 分钟 阅读难度:入门

罗永浩对谈闫俊杰:MiniMax、模型竞争与中国 AI 的第三条路

这期对谈里,闫俊杰反复强调的重点是中国 AI 公司必须在资源差距、产品定义和组织方法上同时找到自己的路:把模型当产品本体,坚持多模态和 AGI 方向,用第一性原理做技术判断,再把能力交还给更广泛的普通用户。

  • 闫俊杰把「模型即产品」讲得很彻底,应用在他这里更像能力分发和反馈回流的渠道。
阅读全文
2026-03-16 23:30 北京时间 17 分钟 阅读难度:进阶

AI 创业企业商业模式与成长性:一份投资视角备忘录

这是一份只保留可核验样本的投资视角备忘录。我更看重收入可见性、毛利修复路径、资本强度、分发控制力和估值张力,而不是谁在社交媒体上更热。

  • 我当前最看好的重点是能直接嵌进企业工作流、拿高 ARPU 的公司。
阅读全文
2026-03-16 23:10 北京时间 18 分钟 阅读难度:硬核

AI 创业公司,真正跑得出来的商业模式

从公开财报、招股书和研究报告看,AI 创业公司最稳的生意,往往来自把模型能力、分发入口和高价值工作流绑成一体,最后变成可复制收入结构与持续付费完整流程。

  • 企业工作流型 AI 最像长期软件生意,收入质量和留存通常强于纯模型 API。
阅读全文
2026-03-16 13:26 北京时间 18 分钟 阅读难度:硬核

OpenJarvis 与端侧 AI 的未来五年

端侧大模型下一阶段的核心变化,重点是智能效率、统一内存、带宽、功耗和软件栈一起成熟;未来 1 年先吃下单轮助手与轻代理,3 年进入持续多模态,5 年才接近个人本地 AI 系统。

  • 端侧大模型的约束已经是智能效率、内存容量、带宽、功耗和软件协同的组合瓶颈。
阅读全文
2026-03-16 13:07 北京时间 更新:2026-03-16 14:10 北京时间 17 分钟 阅读难度:进阶

Pico、Null、Zero 三种 claw 路线怎么分

PicoClaw、NullClaw、ZeroClaw 的名字虽然都带 claw,但它们不是 OpenClaw 官方产品矩阵,更不是简单的大中小版本。三者分别在轻量部署、Zig 极简路线和本地隐私上做了不同取舍。

  • 三只 claw 都有官网和仓库,但不是 OpenClaw 官方产品线。
阅读全文
2026-03-16 07:59 北京时间 更新:2026-03-16 14:10 北京时间 15 分钟 阅读难度:入门

OpenClaw 更像长期在线的 Agent 协调层

OpenClaw 更适合被理解成一层把聊天入口、长连接网关和底层 coding agent 接起来的协调层。它主要解决的是长期在线、跨设备接力和多执行器编排,而不是单次仓库编码的速度比较。

  • OpenClaw 的核心价值不在单次仓库编码速度,而在聊天入口、Gateway 和执行器之间的长期协调。
阅读全文
2026-03-16 04:20 北京时间 8 分钟 阅读难度:入门

公司小传:六家关键 AI 公司的六条路线

这组公司小传重点是借六种不同公司形态拆开今天产业竞争结构:谁做模型,谁做科学发现,谁把安全当主轴,谁握住工作入口,谁押注开放生态,谁提供算力底盘。

  • 这组文章的重点落在六家公司各自代表的产业路线和组织选择上,不在公司八卦。
阅读全文
2026-03-16 03:47 北京时间 12 分钟 阅读难度:进阶

公司小传之六:NVIDIA 的 AI 底盘

NVIDIA 这些年最重要的变化,是一步步把自己从芯片供应商改造成整套 AI 生产系统的提供者:从 CUDA 到 DGX,再到 NIM 和 AI Factory,真正扩张的是它对整栈的控制力。

  • NVIDIA 的 AI 史应从 2006 年 CUDA 写起,那才是它从硬件走向平台的起点。
阅读全文
2026-03-16 03:46 北京时间 11 分钟 阅读难度:进阶

公司小传之五:Meta 的开放权重赌注

Meta 的 AI 主线,把开放研究和开放权重一路升级成产业策略:从 FAIR 到 PyTorch,再到 Llama,它一直试图用开放生态换取平台影响力。

  • Meta 的 AI 史应该从 2013 年 FAIR 写起,因为这家公司很早就把开放研究当成长期组织能力。
阅读全文
2026-03-16 03:45 北京时间 12 分钟 阅读难度:进阶

公司小传之四:Microsoft 的入口战争

Microsoft 在这轮 AI 竞赛里最厉害的地方,是几乎把「模型进入真实工作」所需的每一层入口都握在自己手里:云、Office、Windows、GitHub 和企业采购关系。最强模型未必总由它率先做出,但分发链路常常掌握在它手中。

  • Microsoft 的 AI 主线更像平台和分发史,从 AI-first 到 CoreAI 都是同一路线。
阅读全文
2026-03-16 03:44 北京时间 11 分钟 阅读难度:入门

公司小传之三:Anthropic 的安全主轴

Anthropic 值得单写,因为它从创立开始就在验证另一件事:前沿模型公司能不能把安全、组织治理和商业化做成同一条主线,并长期承受这种选择的成本。

  • Anthropic 从 2021 年创立起,就把「更可控、更可解释、更可靠」当成公司层面的起始条件,而不是事后补丁。
阅读全文
2026-03-16 03:43 北京时间 13 分钟 阅读难度:进阶

公司小传之二:Google DeepMind 的双源流

Google DeepMind 的独特之处,不只是做出了 AlphaGo、AlphaFold 和 Gemini,而是把「通向 AGI」长期写成一条科学发现、基础研究和产品系统并行推进的公司路线。

  • Google DeepMind 的公司史最好分两条线看:科学突破线与平台产品线。
阅读全文
2026-03-16 03:42 北京时间 12 分钟 阅读难度:入门

公司小传之一:OpenAI 的三次变身

OpenAI 过去十年的关键是三次改写公司边界:从研究实验室,到用户入口,再到主动组织 AI 基础设施,并把自己推向产业总枢纽,成为模型、开发者和算力之间的连接点。

  • OpenAI 的关键转折,落在 2019、2020、2022 和 2025 这几次组织与商业形态切换上。
阅读全文
2026-03-16 03:35 北京时间 24 分钟 阅读难度:硬核

从实践到原则:Harness Engineering 的落地方法

Harness Engineering 要做的,是把代码仓库、执行环境、验证门禁和反馈回路改造成 Agent 可读、可控、可评估的工程系统,让 AI 能在真实项目里稳定交付。

  • Harness Engineering 的对象重点是 Agent 所处的整个工程执行环境与治理回路。
阅读全文
2026-03-16 03:15 北京时间 15 分钟 阅读难度:入门

Mustafa Suleyman 与 AI 入口之争

Mustafa Suleyman 最值得写的,不在他待过哪些公司,而在他始终在争同一件事:AI 该以什么姿态进入人的日常和工作。到了微软,这条路线已经从 AI companion 一路推进到企业工作流与 Agent 治理层。

  • Mustafa 的独特性在于,他是在长期围绕「AI 入口关系」做产品与组织选择。
阅读全文
2026-03-16 03:14 北京时间 15 分钟 阅读难度:进阶

塑造 AI 时代之五:Mira Murati 与协作式前沿 AI

Mira Murati 最值得写的是她长期站在研究、产品与发布节奏的交汇处;创办 Thinking Machines Lab 后,她押注的是更可理解、更可定制、更能协作的前沿 AI。

  • Mira 的关键价值,在于长期处在「研究能力如何长成产品体验」的接口位置,这比单纯的技术或运营角色更稀缺。
阅读全文
2026-03-16 03:13 北京时间 14 分钟 阅读难度:入门

塑造 AI 时代之四:Ilya Sutskever 与单目标组织

Ilya Sutskever 今天最值得写的,不在传奇履历,而在他对组织形式的极端选择:SSI 几乎把公司、产品和商业压力都压缩成一个目标。这并非摆姿态,而是他对超级智能问题的回答。

  • Ilya 的独特性不只是重视安全,而是把公司目标、产品定义与激励结构都收缩到单一终局上。
阅读全文
2026-03-16 03:12 北京时间 15 分钟 阅读难度:进阶

塑造 AI 时代之三:Dario Amodei 与部署安全

Dario Amodei 最容易被误读成「安全派」,但更准确的说法是,他是把强大 AI 视为近程现实的部署现实主义者:既相信能力会快速逼近,也坚持把可解释性、组织纪律和社会治理提前写进公司运行方式,而不是等出事后再补一份道歉声明。

  • Dario 的独特性不在保守,而在于他对强大 AI 到来的预设本身就很激进,因此才要求安全和部署纪律前置。
阅读全文
2026-03-16 03:11 北京时间 更新:2026-04-04 10:51 北京时间 16 分钟 阅读难度:进阶

Sam Altman 在把 AGI 做成基础设施工程

Sam Altman 最值得写的,是他把 AGI 从宏大叙事压成了算力、能源、资本、开发者生态与全球伙伴关系同时开工的超大基础设施工程系统。

  • Sam 的核心能力,在于把算力、资本、伙伴、政策和开发者生态捆成一场基础设施战争。
阅读全文
2026-03-16 03:10 北京时间 15 分钟 阅读难度:入门

塑造 AI 时代之一:Demis Hassabis 与科学机器

Demis Hassabis 今天最值得写的,早已不止 AlphaGo 或诺奖;关键的是,他一直在把 AI 从「会赢的系统」推进成「会做科学的机器」。如果这条路走通,AI 时代最深的入口可能是实验室。

  • Demis 的主线始终围着同一件事:把智能系统持续推进成科学研究的生产力工具。
阅读全文
2026-03-16 02:50 北京时间 16 分钟 阅读难度:硬核

从 70 万行代码反推 Yaq 的研发活动图谱

顺着 ETH2030 的仓库、文档和 git 节奏往回拆,Yaq 更像规格编译者、边界裁剪者、多代理调度者和验证架构师的组合体,而不只是一个会用 AI 疯狂写代码的人。

  • 从代码看,Yaq 的核心角色「规格编译者 + 多代理调度者 + 验证架构师」。
阅读全文
2026-03-16 00:20 北京时间 更新:2026-03-16 02:27 北京时间 10 分钟 阅读难度:进阶

2026 年 Q1 科技裁员事实与 AI 软件就业报告

本文把范围收敛到 2026 年 Q1,只整理 2026-01-01 至 2026-03-16 之间科技、IT、互联网公司的已确认裁员事实,以及同一时间窗口内的 AI、软件、IT 就业市场报告。

  • 裁员部分只保留 2026 年 Q1 已确认的科技、IT、互联网公司减员事项,不再展开更早时间线。
阅读全文
2026-03-16 00:11 北京时间 15 分钟 阅读难度:硬核

Yaq 与 ETH2030:不是神话,也不是胡扯

ETH2030 不是假项目,它确实把以太坊 Strawmap 做成了实验性参考实现;但「6 天写完未来以太坊」是夸写,重要的是它把路线图中的依赖、性能和验证问题提前暴露了出来。

  • 项目和仓库属实,但公开写法是约 8 天和约 7100 美元。
阅读全文
2026-03-16 00:10 北京时间 14 分钟 阅读难度:进阶

Yaq 是谁:ETH2030 背后的工程方法论

截至 2026 年 3 月 16 日,Yaq 公开可核验的传统履历信息并不多,但 GitHub、个人站和公开仓库已经足够勾出一条很清晰的技术轨迹:偏底层、偏协议、偏密码学、偏验证,以及越来越强的 AI 驱动研发能力。

  • 公开资料里的 Yaq,更像底层系统和协议方向的工程研究者。
阅读全文
2026-03-16 00:10 北京时间 11 分钟 阅读难度:进阶

315 之后,重新理解 GEO、AI 投毒与答案污染

GEO 灰产是通过批量制造伪共识、伪第三方和结构化营销内容,去污染 AI 可感知的信息环境。它的风险真实存在,但「国内一定比国外更糟」与「所有 GEO 都是投毒」这两种说法都过头了。

  • 截至 2026-03-16,GEO 污染 AI 答案的风险已被消费者组织、学术研究与厂商文档共同印证。
阅读全文
2026-03-15 20:38 北京时间 26 分钟 阅读难度:硬核

Pi 内部原理:从会话树到 RPC 接入

Pi 的核心并不神秘:它用 `createAgentSession()` 把模型、资源加载、工具集合、会话树和运行模式装配起来,再由 `AgentSession` 接管工具执行、上下文管理、自动压缩与 RPC 集成。

  • Pi 的核心抽象重点是 `AgentSession` 这层把状态、工具、扩展和模式统一起来的运行时。
阅读全文
2026-03-15 19:52 北京时间 8 分钟 阅读难度:进阶

OpenClaw 把真实 Chrome 会话接进 Agent

OpenClaw 在 `2026.3.13` 更新线里把 live Chrome session attach 做成官方能力,真实浏览器会话第一次进入 Agent 的正式工作流,浏览器插件也从必选项退回到可选路径。

  • 新增 `existing-session` 后,已登录的本机 Chrome 会话第一次成为官方 attach 对象。
阅读全文
2026-03-15 19:02 北京时间 更新:2026-03-31 19:10 北京时间 15 分钟 阅读难度:硬核

AI 时代的代码评审,还算 Review 吗

AI 已经能写代码、审代码,甚至自己在 PR 里给出修改建议;但如果 review 只剩「高吞吐检查」和形式签字,它就不再是软件工程里的真正 review。更值得追问的,是谁还真的看懂、敢签字、能补救。

  • AI code review 已经规模化进入工程流程,但「能给评论」不等于「能承担 review 的责任」。
阅读全文
2026-03-15 18:47 北京时间 14 分钟 阅读难度:硬核

从假引语到假代码:AI 正在逼近人类核验的极限

Ars Technica 的假引语风波真正警示的,不只是新闻业会被 AI 绊倒,而是当代码生成速度远超人类核验速度时,软件工程的责任链、风险边界和上线契约都需要重写。

  • 研究和行业调查已经显示,AI 代码产出增长得远快于人类核验能力,「验证债」正在形成。
阅读全文
2026-03-15 17:57 北京时间 19 分钟 阅读难度:硬核

Pi:OpenClaw 背后的极简 Agent,是怎么工作的

Pi 是一套刻意保持极简的 coding agent harness,不走大而全的平台路线。它把上下文、工具、会话状态和多种接入方式压成一层轻量执行骨架。

  • Pi 更像一套 coding agent 运行时和 harness,而不是一个把所有功能都打包好的大平台。
阅读全文
2026-03-15 17:24 北京时间 更新:2026-03-31 18:30 北京时间 16 分钟 阅读难度:硬核

谁在塑造 AI 时代:6 位关键掌门人与三条分叉路线

今天前沿 AI 的主导权,已经从单看模型分数,变成同时看科学突破、算力基建、产品入口与安全治理;Demis、Sam、Dario、Ilya、Mira、Mustafa,正分别卡在这几条最关键的链路上。

  • 这六个人分别卡住了科学突破、平台分发、安全路径与产品入口,所以比一般 CEO 更值得写。
阅读全文
2026-03-15 10:06 北京时间 15 分钟 阅读难度:进阶

机器上桌之后之六:Martin Fowler

在 AI Agent 时代,Martin Fowler 之所以仍然很重要,因为当生成变快、代理变多、系统边界更容易被穿透时,重构、边界划分、渐进式演化和技术判断反而比以前更像硬约束。

  • Martin Fowler 的重要性,在于他持续把复杂技术变化翻译成团队能执行的工程判断,而不只是抽象观点。
阅读全文
2026-03-15 10:05 北京时间 14 分钟 阅读难度:进阶

机器上桌之后之五:Guido van Rossum

AI Agent 时代如果有一种基础设施级的默认语言,几乎就是 Python;Guido van Rossum 依然重要,不只因为他创造了 Python,更因为他把可读性、演化节奏与工程现实捏成了稳定底座。

  • Guido van Rossum 在 Agent 时代的重要性,首先来自 Python 作为默认工程语言的持续统治力。
阅读全文
2026-03-15 10:04 北京时间 14 分钟 阅读难度:进阶

机器上桌之后之四:Kent Beck

如果说 AI 编程正在把代码生成这件事推到前所未有的速度上,那么 Kent Beck 之所以依然重要,是因为反馈回路、整洁设计和小步试错这些老办法,恰好是驾驭这种速度最可靠的刹车与方向盘。

  • Kent Beck 的方法在 AI 时代重新变重要,因为高速生成更需要快速反馈和小步验证。
阅读全文
2026-03-15 10:03 北京时间 15 分钟 阅读难度:进阶

机器上桌之后之三:Robert C. Martin

在 AI 越来越快地产生代码之后,Robert C. Martin 之所以仍值得重读,因为测试、边界、命名和职业责任这些老问题,正在被生成式工具重新放大。

  • Robert C. Martin 并非 AI 圈明星,却是 AI 写代码时代最容易被重新想起的老派工程人物之一。
阅读全文
2026-03-15 10:02 北京时间 15 分钟 阅读难度:进阶

机器上桌之后之二:Steve Yegge

如果说 AI 编程工具正在从补全器变成能拆任务、会写代码、会组织工作流的代理,那么 Steve Yegge 是最早一批把这条路讲清楚、写透并持续鼓动行业往前走的人。

  • Steve Yegge 的价值,在于他很早就把 AI 编程的方向感写成了行业语言。
阅读全文
2026-03-15 09:17 北京时间 16 分钟 阅读难度:进阶

机器上桌之后之一:龙虾之父 Peter Steinberger

OpenClaw 背后最值得认识的人,是被官网 credits 明确标注为 Creator 的 Peter Steinberger。他并非传统 AI 学者,更像把开发者工具、产品直觉与工程执行力压到同一条线上的产品型工程师。

  • 官网 credits 将 Peter Steinberger 列为 Creator,这是「龙虾之父」最直接的公开依据。
阅读全文
2026-03-15 03:00 北京时间 更新:2026-03-31 19:10 北京时间 15 分钟 阅读难度:进阶

我如何在 48 小时里,从零打造自己的个人博客站

这 48 小时里,我搭起来的一套能长期写下去的个人母站:草稿在本地,发布可校验,内容能归档,也能继续分发到各个平台,后续写作不用再从零搭架子。

  • 这 48 小时搭起来的一套从草稿到上线都能完整流程运转的表达系统。
阅读全文
2026-03-15 02:56 北京时间 更新:2026-03-15 11:20 北京时间 16 分钟 阅读难度:入门

文科生如何有效使用 AI Agent 做内容创作

对文科生来说,AI Agent 最有价值的用法,先接手找资料、拆提纲、改写、多版本分发这些重复环节,让人把精力留在判断、事实核验和语气控制上。

  • 文科生不是 AI Agent 的边缘用户,内容工作反而很适合先从人机协作开始落地。
阅读全文
2026-03-15 02:54 北京时间 更新:2026-03-15 11:25 北京时间 18 分钟 阅读难度:进阶

编程 Agent 的基础结构:模型、工具、状态与验证完整流程

编程 Agent 是一套能围绕目标读取上下文、调用工具、执行步骤并根据结果继续推进的系统。把这条线看懂,模型、工具、状态和评测这些基础概念就会立刻落地。

  • 理解 Agent 的第一步,是先看清它和聊天、补全、工作流之间的边界。
阅读全文
2026-03-15 01:17 北京时间 26 分钟 阅读难度:进阶

Java 后端如何转向 AI Agent 工程

Java 后端转向 AI Agent,是把过去积累的系统边界感、异常经验和工具工程能力,重新组织成运行时、评测完整流程和治理能力,并把业务流程改造成可审计的执行系统。

  • Java 旧栈不会失效,它会重新定价成工具层、状态层、观测层和治理层能力。
阅读全文
2026-03-15 01:16 北京时间 22 分钟 阅读难度:进阶

Opus 4.6 vs GPT-5.4:主力模型怎么选

如果今天只能为团队选一个主力模型,我的结论是:追求完整产品化能力,优先看 GPT-5.4;追求长时编码和持续执行,Opus 4.6 依然最锋利;追求激进多模态和 benchmark,Gemini 3.1 Pro 是最大变量。

  • GPT-5.4 的看点不只是模型升级,而是 OpenAI 把 agent 平台能力正式收口成产品。
阅读全文
2026-03-14 23:40 北京时间 更新:2026-03-31 18:30 北京时间 18 分钟 阅读难度:进阶

如何转成 AI Agent 工程师:一份基于最新研究的转型路线图

如果你还把 AI Agent 工程师理解成「更会写 Prompt 的人」,那大概率会转错方向。真正有价值的 Agent 工程,是把模型、工具、状态、评测和治理串成可交付系统能力。

  • 从官方实践到最新论文都在指向同一个结论:Agent 工程的核心是系统能力。
阅读全文
2026-03-14 21:30 北京时间 更新:2026-03-31 19:10 北京时间 16 分钟 阅读难度:进阶

SSE 不是 WebSocket 的退役通知,而是更好的默认值

「SSE 可以让 WebSocket 退役」这种说法,方向对了一半,但结论下得太满。更准确的判断是:在浏览器里的单向实时推送和文本流场景里,SSE 常常是更稳妥的默认值。

  • 对单向实时更新,SSE 通常比 WebSocket 更轻、更省心,尤其适合浏览器里的文本流。
阅读全文
2026-03-14 10:30 北京时间 更新:2026-03-31 19:10 北京时间 14 分钟 阅读难度:进阶

Agent 积累的是 Knowhow,不只是数据

Agent 的长期价值,主要来自持续沉淀任务拆解、工具调用、异常处理和验证标准这些可迁移的 knowhow,而不只是在数据和微调上继续加码。

  • Agent 的长期进步,更常来自工作流和验证完整流程不断变强,不只靠参数自己长出新能力。
阅读全文
2026-03-14 09:00 北京时间 11 分钟 阅读难度:进阶

Clawith:一支 AI 团队的开源样机

Clawith 最有意思的地方在于认真回答团队协作里身份、权限、触发器、审批和审计怎样一起落地,并让多 Agent 真正进入组织工作流,这一点很关键。

  • Clawith 的新意不在模型层,而在把 Agent 当成带身份和关系的组织成员来设计。
阅读全文
2026-03-13 22:00 北京时间 更新:2026-04-02 00:14 北京时间 10 分钟 阅读难度:入门

访谈:Harrison Chase 谈 Harness

这篇访谈围绕 Harrison Chase 的核心判断展开:Agent 时代真正要重建的,不只是模型接口,而是一整套执行、上下文和人类协同基础设施。

  • 这期访谈的重点是 Agent 的底层运行方式正在整体重建。
阅读全文
2026-03-13 20:30 北京时间 更新:2026-03-31 07:05 北京时间 16 分钟 阅读难度:进阶

现在做 Agent 产品,最该补哪一层缺口

现在做 Agent 产品,更值得补的是那层把 runtime、审批、回滚和团队规则接进真实工作流的控制层。系统层和平台层都已有强手,组织如何接住 Agent 反而还是空白。

  • 系统层最像产品,平台层最像底座,但两边都已经出现清晰强手。
阅读全文
2026-03-13 20:00 北京时间 更新:2026-03-31 07:28 北京时间 24 分钟 阅读难度:进阶

平台层争夺战:谁会成为 Agent 基础设施

平台层决定的是 Agent 能不能长期、稳定、可治理地跑起来。眼下最值得看的四条路线,分别是 LangGraph、微软、OpenAI 和 AWS 所代表的平台化方向。

  • LangGraph 目前最像开放生态里的头号平台层选手,优势在 durable execution 和状态工作流。
阅读全文
2026-03-13 19:30 北京时间 更新:2026-03-31 18:30 北京时间 22 分钟 阅读难度:硬核

做 Agent 系统前,先看懂系统、平台与工具版图

如果你想做的是能承接长任务、异步执行和团队协作的 Agent 产品,动手前先看清系统、平台、工具三层版图。它们解决的问题不同,拿到的入口不同,真正留下的缺口也不同。

  • 市场已经分成系统、平台、工具三层,三类玩家的强项和边界并不相同。
阅读全文
2026-03-13 19:00 北京时间 更新:2026-03-31 18:30 北京时间 18 分钟 阅读难度:硬核

长时间 AI Agent:从研究叙事到生产系统

长时间 Agent 的真正难点,不在单步够不够聪明,而在跨很多轮、很多上下文和很多工具调用之后,能不能继续保持状态连续、结果可验证和错误可恢复。

  • METR 证明的是任务跨度能力在增长,不等于企业级稳定性已经成熟。
阅读全文
2026-03-13 18:30 北京时间 更新:2026-03-31 19:10 北京时间 22 分钟 阅读难度:硬核

长时间 AI Agent 生产架构蓝图

如果一个 Agent 要连续运行二十分钟、两小时甚至更久,系统默认该长什么样?这篇文章把分层架构、状态模型、检查点、验证和上线顺序全部拆开讲清楚。

  • 默认架构让 Orchestrator 调度很多短而可验证的小步骤。
阅读全文
2026-03-13 18:00 北京时间 19 分钟 阅读难度:进阶

OpenClaw 爆火之后,谁在卖工具,谁在卖云,谁在卖入口

OpenClaw 是一根很清楚的产业探针。它暴露了一件事:当 AI 编码从聊天升级为工作流,产业链每一层都会重新找位置,重新争入口、运行时和服务边界。

  • OpenClaw 的意义在 AI 编码工作流第一次低门槛跨过开发者圈层。
阅读全文