02|AI 论文精选:工具落地评测正在变硬
本周值得读的论文,集中在工具调用的落地评测:不只是看模型能不能调出工具,更要看工具反馈被吸收的方式。
- 工具调用评测从单步成功率,转向多轮稳定性和错误回收能力。
技术、行业、人物与 Agent 系统观察。
Latest Archive
技术沉思 时间线。
本周值得读的论文,集中在工具调用的落地评测:不只是看模型能不能调出工具,更要看工具反馈被吸收的方式。
Karpathy 的 LLM Wiki 之所以引发共鸣,在于它把大模型往「持续整理、持续改写、持续积累」的方向推了一步,也提醒普通人别把知识管理做成新的体力活。
Zig 最近总被拿来讨论「重写旧工具」,因为它把语言、编译器、交叉编译、C 互操作和构建系统捆成了一套更完整的底层工具链,让很多旧原生工具第一次值得重做。
一篇「用 AI 一周办成 700 人大会」的文章之所以好看,是因为它说对了一半。AI 的确能显著压缩策划、写作、整理和沟通型工作,但一个成功案例还远远不够证明「经验已经失效」或「AI 是主要因」。
QVeris 更像能力发现与统一执行层,LangChain、LangGraph 和 Deep Agents 则分别落在 framework、runtime 和 harness。把它们写成同类替代品,会直接讲乱技术栈边界。
费曼今天最值得重读的,重点是他反复提醒:一旦人们只保留科学和工程的外形,不再追问证据、边界与失败条件,技术就会从工具变成图腾,讨论也会越来越像信仰。
如果主要上网「客户端」逐步从人变成 AI 代理,互联网真正要重写的就不只是搜索入口,还包括接口层、支付层、身份层和预算层。Agentic Web 的核心,正在变成一张机器之间可调用、可结算、可审计的执行网络。
对认真独立建站的博主来说,缺的往往是一套能同时承接采集、生成、审计、发布、主题切换和运维的内容操作系统。WordPress 和 Hexo 很成熟,但它们主要解决的仍是上一代建站问题。
这四周更值得留下的,一条更稳的传导链:AI 先受制于电力和资本开支,再进入代码评审与后台代理流程,随后撞上课堂、办公室和训练路径,最后反噬推动热潮的公司治理。
《The Atlantic》最值得精读的地方,在于它总能比行业媒体更早抓住那些会改变现实的问题:课堂里的信任崩塌、教师工作被挤压、白领岗位的缓慢重写、制度应对的迟缓。它真正盯的是秩序怎样被改写。
乔布斯当然会做 AI,但他多半不会接受把 AI 先做成一堆零散功能、再慢慢补体验的苹果路线。对他来说,AI 重点是下一代操作系统的起点。
如果你最近也在一边用 AI 写代码,一边又担心自己只是更快地试错,这篇文章想看的正是 4 种更稳的方向:Karpathy 讲学习,Simon 讲工程,Jeremy 讲主动权,swyx 讲生态与组织。
很多人以为用 AI 编程就是把任务扔过去、等它回一坨结果。Jeremy Howard 这篇有用的,是它提醒大家:更可持续的方式,是把问题拆成小步,让人和 AI 在同一个反馈回路里一起往前走。
黄仁勋这场 GTC 演讲把注意力从 GPU 型号表挪到了 AI 时代的新分工:模型公司会更深地卷基础设施,架构师和工程师要开始用 AI factory 的视角设计系统,普通人会先在本地助手、低成本推理和行业服务里感到变化。
Anthropic 值得单写,因为它从创立开始就在验证另一件事:前沿模型公司能不能把安全、组织治理和商业化做成同一条主线,并长期承受这种选择的成本。
顺着 ETH2030 的仓库、文档和 git 节奏往回拆,Yaq 更像规格编译者、边界裁剪者、多代理调度者和验证架构师的组合体,而不只是一个会用 AI 疯狂写代码的人。
ETH2030 不是假项目,它确实把以太坊 Strawmap 做成了实验性参考实现;但「6 天写完未来以太坊」是夸写,重要的是它把路线图中的依赖、性能和验证问题提前暴露了出来。
GEO 灰产是通过批量制造伪共识、伪第三方和结构化营销内容,去污染 AI 可感知的信息环境。它的风险真实存在,但「国内一定比国外更糟」与「所有 GEO 都是投毒」这两种说法都过头了。
AI 已经能写代码、审代码,甚至自己在 PR 里给出修改建议;但如果 review 只剩「高吞吐检查」和形式签字,它就不再是软件工程里的真正 review。更值得追问的,是谁还真的看懂、敢签字、能补救。
Ars Technica 的假引语风波真正警示的,不只是新闻业会被 AI 绊倒,而是当代码生成速度远超人类核验速度时,软件工程的责任链、风险边界和上线契约都需要重写。
今天前沿 AI 的主导权,已经从单看模型分数,变成同时看科学突破、算力基建、产品入口与安全治理;Demis、Sam、Dario、Ilya、Mira、Mustafa,正分别卡在这几条最关键的链路上。
这 48 小时里,我搭起来的一套能长期写下去的个人母站:草稿在本地,发布可校验,内容能归档,也能继续分发到各个平台,后续写作不用再从零搭架子。
「SSE 可以让 WebSocket 退役」这种说法,方向对了一半,但结论下得太满。更准确的判断是:在浏览器里的单向实时推送和文本流场景里,SSE 常常是更稳妥的默认值。
现在做 Agent 产品,更值得补的是那层把 runtime、审批、回滚和团队规则接进真实工作流的控制层。系统层和平台层都已有强手,组织如何接住 Agent 反而还是空白。
平台层决定的是 Agent 能不能长期、稳定、可治理地跑起来。眼下最值得看的四条路线,分别是 LangGraph、微软、OpenAI 和 AWS 所代表的平台化方向。
如果你想做的是能承接长任务、异步执行和团队协作的 Agent 产品,动手前先看清系统、平台、工具三层版图。它们解决的问题不同,拿到的入口不同,真正留下的缺口也不同。
长时间 Agent 的真正难点,不在单步够不够聪明,而在跨很多轮、很多上下文和很多工具调用之后,能不能继续保持状态连续、结果可验证和错误可恢复。
如果一个 Agent 要连续运行二十分钟、两小时甚至更久,系统默认该长什么样?这篇文章把分层架构、状态模型、检查点、验证和上线顺序全部拆开讲清楚。