技术沉思

AI Agent 论文精选技术沉思

2026-05-18 12:00 北京时间 8 min 阅读难度：入门

02｜AI 论文精选：工具落地评测正在变硬

本周值得读的论文，集中在工具调用的落地评测：不只是看模型能不能调出工具，更要看工具反馈被吸收的方式。

工具调用评测从单步成功率，转向多轮稳定性和错误回收能力。

阅读全文

研究文章技术沉思 AI Agent

2026-04-07 10:30 北京时间 15 分钟阅读难度：进阶

Karpathy 的 LLM Wiki 火了，普通人该怎么用

Karpathy 的 LLM Wiki 之所以引发共鸣，在于它把大模型往「持续整理、持续改写、持续积累」的方向推了一步，也提醒普通人别把知识管理做成新的体力活。

这套方法最有意思的地方，是把问一次答一次的临时问答，变成会留下痕迹的整理流程。

阅读全文

技术沉思软件工程

2026-04-04 09:30 北京时间 18 分钟阅读难度：硬核

为什么 Zig 最近总让人想重写底层工具

Zig 最近总被拿来讨论「重写旧工具」，因为它把语言、编译器、交叉编译、C 互操作和构建系统捆成了一套更完整的底层工具链，让很多旧原生工具第一次值得重做。

Zig 最有杀伤力的地方，是把语言、编译器、构建和跨平台分发合成了一套统一工具链。

阅读全文

研究文章 AI Agent 技术沉思

2026-04-02 22:16 北京时间更新：2026-04-03 14:13 北京时间 14 分钟阅读难度：进阶

AI 一周办成 700 人大会？一个案例能证明什么，不能证明什么

一篇「用 AI 一周办成 700 人大会」的文章之所以好看，是因为它说对了一半。AI 的确能显著压缩策划、写作、整理和沟通型工作，但一个成功案例还远远不够证明「经验已经失效」或「AI 是主要因」。

现有研究较强支持 AI 抬高新手下限、压缩写作策划类工作的时间成本，但不支持把单个成功故事直接上升为普遍规律。

阅读全文

AI Agent 软件工程技术沉思

2026-03-25 00:42 北京时间更新：2026-03-31 00:19 北京时间 17 分钟阅读难度：硬核

QVeris、LangChain 与 Agent 分层

QVeris 更像能力发现与统一执行层，LangChain、LangGraph 和 Deep Agents 则分别落在 framework、runtime 和 harness。把它们写成同类替代品，会直接讲乱技术栈边界。

QVeris 当前公开交付的是 tool search + tool execution，更像能力路由层。

阅读全文

技术沉思科技文化 AI 时代

2026-03-24 21:30 北京时间更新：2026-03-31 00:01 北京时间 11 分钟阅读难度：进阶

费曼之后：技术为什么不断制造新的图腾

费曼今天最值得重读的，重点是他反复提醒：一旦人们只保留科学和工程的外形，不再追问证据、边界与失败条件，技术就会从工具变成图腾，讨论也会越来越像信仰。

费曼反对的重点是只保留科学外形、不保留自我怀疑的工程文化。

阅读全文

技术沉思 AI Agent 互联网

2026-03-23 00:52 北京时间 18 分钟阅读难度：硬核

Agentic Web：当 AI 代理开始替人上网

如果主要上网「客户端」逐步从人变成 AI 代理，互联网真正要重写的就不只是搜索入口，还包括接口层、支付层、身份层和预算层。Agentic Web 的核心，正在变成一张机器之间可调用、可结算、可审计的执行网络。

浏览器型代理证明了 AI 已能替人操作网页，但它更像过渡性的义肢，而不是最终形态。

阅读全文

技术沉思 AI Agent 软件工程

2026-03-22 18:20 北京时间 13 分钟阅读难度：进阶

WordPress 和 Hexo 之外，独立博主还需要什么

对认真独立建站的博主来说，缺的往往是一套能同时承接采集、生成、审计、发布、主题切换和运维的内容操作系统。WordPress 和 Hexo 很成熟，但它们主要解决的仍是上一代建站问题。

WordPress 解决的是后台运营，Hexo 解决的是静态生成，但两者都还不是一条 Agent 原生的内容生产线。

阅读全文

外刊精读他山之石技术沉思

2026-03-22 13:50 北京时间更新：2026-04-03 14:18 北京时间 12 分钟阅读难度：进阶

外刊精读｜AI 热潮怎样从机房一路传到董事会

这四周更值得留下的，一条更稳的传导链：AI 先受制于电力和资本开支，再进入代码评审与后台代理流程，随后撞上课堂、办公室和训练路径，最后反噬推动热潮的公司治理。

这四周真正拼出的，是一条从机房到后台代理、再到制度和董事会的传导链。

阅读全文

外刊精读技术沉思行业观察

2026-03-21 16:35 北京时间更新：2026-04-03 14:18 北京时间 12 分钟阅读难度：入门

外刊精读｜《大西洋》如何写透 AI 秩序冲击

《The Atlantic》最值得精读的地方，在于它总能比行业媒体更早抓住那些会改变现实的问题：课堂里的信任崩塌、教师工作被挤压、白领岗位的缓慢重写、制度应对的迟缓。它真正盯的是秩序怎样被改写。

《The Atlantic》讨论 AI 时，真正盯住的是信任、制度和职业秩序。

阅读全文

技术沉思 AI战略

2026-03-20 00:40 北京时间更新：2026-04-01 22:58 北京时间 4 分钟阅读难度：进阶

如果乔布斯在世，会不会做苹果 AI

乔布斯当然会做 AI，但他多半不会接受把 AI 先做成一堆零散功能、再慢慢补体验的苹果路线。对他来说，AI 重点是下一代操作系统的起点。

乔布斯不会拒绝 AI，他拒绝的是「先有名词、后有产品」的风口式发布。

阅读全文

技术沉思 AI 编程软件工程

2026-03-19 22:46 北京时间 21 分钟阅读难度：硬核

AI 开发者时代的四种关键原型与方法

如果你最近也在一边用 AI 写代码，一边又担心自己只是更快地试错，这篇文章想看的正是 4 种更稳的方向：Karpathy 讲学习，Simon 讲工程，Jeremy 讲主动权，swyx 讲生态与组织。

这四个人放在一起看，更像教学、观察、方法与组织四种 AI 影响力。

阅读全文

技术沉淀 AI 编程技术沉思

2026-03-19 22:10 北京时间 10 分钟阅读难度：入门

07｜别一把梭哈给 AI：和它一步一步把问题做完

很多人以为用 AI 编程就是把任务扔过去、等它回一坨结果。Jeremy Howard 这篇有用的，是它提醒大家：更可持续的方式，是把问题拆成小步，让人和 AI 在同一个反馈回路里一起往前走。

真正稳定的人机协作，不靠一次生成很多代码，而靠连续的小步对话和验证。

阅读全文

技术沉思行业观察

2026-03-17 22:00 北京时间 18 分钟阅读难度：硬核

黄仁勋 GTC 2026 演讲之后：谁会先被改变

黄仁勋这场 GTC 演讲把注意力从 GPU 型号表挪到了 AI 时代的新分工：模型公司会更深地卷基础设施，架构师和工程师要开始用 AI factory 的视角设计系统，普通人会先在本地助手、低成本推理和行业服务里感到变化。

对 LLM 玩家来说，竞争重心会继续从「模型能力」外溢到 tokens 成本、推理系统、长任务运行时和基础设施控制力。

阅读全文

行业观察技术沉思

2026-03-16 03:44 北京时间 11 分钟阅读难度：入门

公司小传之三：Anthropic 的安全主轴

Anthropic 值得单写，因为它从创立开始就在验证另一件事：前沿模型公司能不能把安全、组织治理和商业化做成同一条主线，并长期承受这种选择的成本。

Anthropic 从 2021 年创立起，就把「更可控、更可解释、更可靠」当成公司层面的起始条件，而不是事后补丁。

阅读全文

技术沉思 AI 编程

2026-03-16 02:50 北京时间 16 分钟阅读难度：硬核

从 70 万行代码反推 Yaq 的研发活动图谱

顺着 ETH2030 的仓库、文档和 git 节奏往回拆，Yaq 更像规格编译者、边界裁剪者、多代理调度者和验证架构师的组合体，而不只是一个会用 AI 疯狂写代码的人。

从代码看，Yaq 的核心角色「规格编译者 + 多代理调度者 + 验证架构师」。

阅读全文

技术沉思 AI 编程

2026-03-16 00:11 北京时间 15 分钟阅读难度：硬核

Yaq 与 ETH2030：不是神话，也不是胡扯

ETH2030 不是假项目，它确实把以太坊 Strawmap 做成了实验性参考实现；但「6 天写完未来以太坊」是夸写，重要的是它把路线图中的依赖、性能和验证问题提前暴露了出来。

项目和仓库属实，但公开写法是约 8 天和约 7100 美元。

阅读全文

行业观察技术沉思

2026-03-16 00:10 北京时间 11 分钟阅读难度：进阶

315 之后，重新理解 GEO、AI 投毒与答案污染

GEO 灰产是通过批量制造伪共识、伪第三方和结构化营销内容，去污染 AI 可感知的信息环境。它的风险真实存在，但「国内一定比国外更糟」与「所有 GEO 都是投毒」这两种说法都过头了。

截至 2026-03-16，GEO 污染 AI 答案的风险已被消费者组织、学术研究与厂商文档共同印证。

阅读全文

技术沉思 AI 编程软件工程

2026-03-15 19:02 北京时间更新：2026-03-31 19:10 北京时间 15 分钟阅读难度：硬核

AI 时代的代码评审，还算 Review 吗

AI 已经能写代码、审代码，甚至自己在 PR 里给出修改建议；但如果 review 只剩「高吞吐检查」和形式签字，它就不再是软件工程里的真正 review。更值得追问的，是谁还真的看懂、敢签字、能补救。

AI code review 已经规模化进入工程流程，但「能给评论」不等于「能承担 review 的责任」。

阅读全文

技术沉思 AI 编程软件工程

2026-03-15 18:47 北京时间 14 分钟阅读难度：硬核

从假引语到假代码：AI 正在逼近人类核验的极限

Ars Technica 的假引语风波真正警示的，不只是新闻业会被 AI 绊倒，而是当代码生成速度远超人类核验速度时，软件工程的责任链、风险边界和上线契约都需要重写。

研究和行业调查已经显示，AI 代码产出增长得远快于人类核验能力，「验证债」正在形成。

阅读全文

技术沉思行业观察大模型

2026-03-15 17:24 北京时间更新：2026-03-31 18:30 北京时间 16 分钟阅读难度：硬核

谁在塑造 AI 时代：6 位关键掌门人与三条分叉路线

今天前沿 AI 的主导权，已经从单看模型分数，变成同时看科学突破、算力基建、产品入口与安全治理；Demis、Sam、Dario、Ilya、Mira、Mustafa，正分别卡在这几条最关键的链路上。

这六个人分别卡住了科学突破、平台分发、安全路径与产品入口，所以比一般 CEO 更值得写。

阅读全文

技术沉思软件工程

2026-03-15 03:00 北京时间更新：2026-03-31 19:10 北京时间 15 分钟阅读难度：进阶

我如何在 48 小时里，从零打造自己的个人博客站

这 48 小时里，我搭起来的一套能长期写下去的个人母站：草稿在本地，发布可校验，内容能归档，也能继续分发到各个平台，后续写作不用再从零搭架子。

这 48 小时搭起来的一套从草稿到上线都能完整流程运转的表达系统。

阅读全文

技术沉思软件工程

2026-03-14 21:30 北京时间更新：2026-03-31 19:10 北京时间 16 分钟阅读难度：进阶

SSE 不是 WebSocket 的退役通知，而是更好的默认值

「SSE 可以让 WebSocket 退役」这种说法，方向对了一半，但结论下得太满。更准确的判断是：在浏览器里的单向实时推送和文本流场景里，SSE 常常是更稳妥的默认值。

对单向实时更新，SSE 通常比 WebSocket 更轻、更省心，尤其适合浏览器里的文本流。

阅读全文

技术沉思 AI Agent

2026-03-13 20:30 北京时间更新：2026-03-31 07:05 北京时间 16 分钟阅读难度：进阶

现在做 Agent 产品，最该补哪一层缺口

现在做 Agent 产品，更值得补的是那层把 runtime、审批、回滚和团队规则接进真实工作流的控制层。系统层和平台层都已有强手，组织如何接住 Agent 反而还是空白。

系统层最像产品，平台层最像底座，但两边都已经出现清晰强手。

阅读全文

技术沉思 AI Agent

2026-03-13 20:00 北京时间更新：2026-03-31 07:28 北京时间 24 分钟阅读难度：进阶

平台层争夺战：谁会成为 Agent 基础设施

平台层决定的是 Agent 能不能长期、稳定、可治理地跑起来。眼下最值得看的四条路线，分别是 LangGraph、微软、OpenAI 和 AWS 所代表的平台化方向。

LangGraph 目前最像开放生态里的头号平台层选手，优势在 durable execution 和状态工作流。

阅读全文

技术沉思 AI Agent

2026-03-13 19:30 北京时间更新：2026-03-31 18:30 北京时间 22 分钟阅读难度：硬核

做 Agent 系统前，先看懂系统、平台与工具版图

如果你想做的是能承接长任务、异步执行和团队协作的 Agent 产品，动手前先看清系统、平台、工具三层版图。它们解决的问题不同，拿到的入口不同，真正留下的缺口也不同。

市场已经分成系统、平台、工具三层，三类玩家的强项和边界并不相同。

阅读全文

技术沉思 AI Agent 软件工程

2026-03-13 19:00 北京时间更新：2026-03-31 18:30 北京时间 18 分钟阅读难度：硬核

长时间 AI Agent：从研究叙事到生产系统

长时间 Agent 的真正难点，不在单步够不够聪明，而在跨很多轮、很多上下文和很多工具调用之后，能不能继续保持状态连续、结果可验证和错误可恢复。

METR 证明的是任务跨度能力在增长，不等于企业级稳定性已经成熟。

阅读全文

技术沉思 AI Agent 软件工程

2026-03-13 18:30 北京时间更新：2026-03-31 19:10 北京时间 22 分钟阅读难度：硬核

长时间 AI Agent 生产架构蓝图

如果一个 Agent 要连续运行二十分钟、两小时甚至更久，系统默认该长什么样？这篇文章把分层架构、状态模型、检查点、验证和上线顺序全部拆开讲清楚。

默认架构让 Orchestrator 调度很多短而可验证的小步骤。

阅读全文

长文库

02｜AI 论文精选：工具落地评测正在变硬

Karpathy 的 LLM Wiki 火了，普通人该怎么用

为什么 Zig 最近总让人想重写底层工具

AI 一周办成 700 人大会？一个案例能证明什么，不能证明什么

QVeris、LangChain 与 Agent 分层

费曼之后：技术为什么不断制造新的图腾

Agentic Web：当 AI 代理开始替人上网

WordPress 和 Hexo 之外，独立博主还需要什么

外刊精读｜AI 热潮怎样从机房一路传到董事会

外刊精读｜《大西洋》如何写透 AI 秩序冲击

如果乔布斯在世，会不会做苹果 AI

AI 开发者时代的四种关键原型与方法

07｜别一把梭哈给 AI：和它一步一步把问题做完

黄仁勋 GTC 2026 演讲之后：谁会先被改变

公司小传之三：Anthropic 的安全主轴

从 70 万行代码反推 Yaq 的研发活动图谱

Yaq 与 ETH2030：不是神话，也不是胡扯

315 之后，重新理解 GEO、AI 投毒与答案污染

AI 时代的代码评审，还算 Review 吗

从假引语到假代码：AI 正在逼近人类核验的极限

谁在塑造 AI 时代：6 位关键掌门人与三条分叉路线

我如何在 48 小时里，从零打造自己的个人博客站

SSE 不是 WebSocket 的退役通知，而是更好的默认值

现在做 Agent 产品，最该补哪一层缺口

平台层争夺战：谁会成为 Agent 基础设施

做 Agent 系统前，先看懂系统、平台与工具版图

长时间 AI Agent：从研究叙事到生产系统

长时间 AI Agent 生产架构蓝图