会场很热闹,季宇先看到的是机器越做越大
季宇在节目里先用了一个词:「琳琅满目」。
这当然可以理解成产品很多,但他后面的语气更接近另一层意思:今年 GTC① 上台的,已经是一整套越来越密、越来越重、越来越完整的系统。CPU②、GPU③、网络、存储、互联都被塞进同一套叙事里,摆在客户面前的也不再只是芯片,而是一台可以成批吐出 token 的机器。
顺着这层意思往下讲,他才会把今天的英伟达类比成上世纪的大型机公司。这个类比带着历史感,也带着一点警惕。
为什么他会把英伟达类比成 IBM
季宇在节目里反复提到 IBM④ 和 Intel⑤。
他的意思不难懂。IBM 代表的是一种「把性能、集成度和系统完整性推到极致」的路线。它可以做出非常强、非常完整、也非常昂贵的机器。Intel 代表的则是另一条路:把门槛降下来,让更多公司、更多开发者、更多普通人用得起、接得住。
季宇认为,今天的英伟达更接近前者。
这个类比之所以成立,因为 GTC① 2026 展示出来的重点,确实越来越偏向「大型机器」的逻辑。官方在 2026 年 3 月 16 日 发布 Vera Rubin⑥ 平台时,已经不再只是讲一代 GPU③,而是一次性讲了 Vera CPU⑦、Rubin GPU⑧、NVLink⑨、BlueField-4⑩、Spectrum-6⑪,再加上并入平台的 Groq 3 LPU⑫。这套说法本身就在告诉市场:英伟达要卖的是一整座可配置的 AI 基础设施,而不是若干张卡。
季宇真正担心的,是这种路线会天然带来两个后果。
第一个后果是门槛越来越高。系统越完整、堆叠越深、非标件越多,能接住这套方案的客户就越集中到超大厂、超大模型公司和超大型云平台。
第二个后果是普及会变慢。因为「最强」这件事,和「最容易大规模铺开」这件事,往往不是同一个目标。
说得更直白一点,季宇在说它走的是「把最贵、最强、最整合的东西继续往上推」的路。这条路当然能赢高端市场,但它未必是让 AI 最快变成普遍基础设施的那条路。
五层蛋糕和 AI 工厂,本质上是在卖一套更大的系统
这期播客里,季宇和主持人讨论「五层蛋糕」时,语气很一致。
他们都意识到,英伟达已经不满足于「我有最好的 GPU③」。它必须向资本市场解释,GPU③ 之外还有什么增长。于是你会看到,英伟达这两年反复讲 AI factory⑬,再把 AI 解释成从能源、芯片、基础设施一路到模型、应用的「五层蛋糕」。
从商业角度看,这套叙事很顺。
如果客户相信自己买的是一座会持续吐出 token 的工厂,那么英伟达就不再只是在和别人比「单卡价格」或「单卡性能」,而是在争整套系统的预算份额。季宇在节目里说得很直接:英伟达要回答的,始终是「下一步增长在哪里」。如果只卖 GPU,这个故事已经太窄了;如果能把基础设施、互联、存储、CPU 乃至部分系统设计都包进来,蛋糕就会更大。
这个判断和英伟达官方口径是合拍的。黄仁勋在官方博客里把 AI 写成「五层蛋糕」,意思就是 AI 不再只是模型,而是从供电到应用的整套工业系统。Vera Rubin⑥ 的新闻稿则进一步把这套系统写成「为预训练、后训练、测试时扩展和 agentic inference 的每个阶段配置不同基础设施」。
但季宇的提醒也很重要:这套话不仅在解释产业趋势,也在抬高英伟达对整条链条的控制力。
AI 工厂当然是在回答真实需求,因为今天训练、推理、长上下文、低延迟、agent 工作流确实已经把系统变得更复杂了。可它同时也是一个定价叙事。它让客户更容易接受「你买的是整台机器」,而整台机器天然更容易带出更多非标件、更多绑定、更多上游利润。
季宇为什么会说,LPU 是他唯一看不懂的选择
这大概是整段访谈里最有技术含量,也最容易把人听晕的一段。
季宇不是简单说 LPU 不行。他的质疑很具体:如果英伟达把推理拆成不同步骤,再把不同步骤交给 GPU 和 LPU 去跑,那么这个拆法到底合不合理。
要把这件事听明白,只需要先记住两个词。
第一个词叫 attention⑭。可以把它理解成模型在「回头翻上下文」。你和模型聊得越长、给它塞的文档越多,它越要不断读取前面那些内容之间的关系。
第二个词叫 FFN⑮ / MoE⑯。可以把它理解成模型在「真正算下一步该说什么」。尤其是 MoE⑯,也就是混合专家,它是在每次只激活一部分「专家」。
按英伟达官方技术博客的说法,Vera Rubin⑥ 搭配 LPX⑱ 的方案会把推理解码阶段拆成两部分:GPU③ 负责对 KV cache⑰ 做 attention⑭,LPU⑫ 负责 FFN⑮ / MoE⑯ 这类更偏延迟敏感的计算。官方逻辑是,GPU③ 有大内存和高吞吐,LPU⑫ 有超高片上带宽和确定性低延迟,两者拆开能把交互速度和系统效率一起拉上去。
季宇觉得问题没这么简单。
他的怀疑点主要有三个。
第一,LPU⑫ 最突出的优势是带宽高,但 MoE⑯ 在高并发场景下未必最吃带宽,反而可能更吃算力利用率。用他自己的说法,这就像你明明有一条特别宽的原料传送带,却把它拿去做一个更靠工人忙不忙得起来的工序,多少有点错配。
第二,真正持续吃带宽的 attention⑭ 部分,往往又和上下文长度、KV cache⑰ 容量强相关。这部分对内存容量和数据读取方式很敏感,而 LPU⑫ 的片上存储虽然快,却小得多。季宇的意思是,英伟达也许正因为 LPU⑫ 存储太有限,才不敢把 attention⑭ 放上去,只能把它放在更「装得下」的那一段。
第三,就算芯片内部分工说得通,芯片之间怎么传数据也还是个问题。季宇在节目里特别提到,机柜内部互联很强,不等于跨机柜、跨系统的交互成本也同样低。如果模型每生成一个 token,都要在 GPU 和 LPU 之间反复来回交换中间激活值,最终瓶颈未必在单颗芯片,而可能在系统级数据搬运。
这三个质疑都是工程判断。
当然,这里也要收一下。季宇说「看不懂」,不等于英伟达一定做错了。更准确地说,英伟达目前给出的公开论证,更多还是架构图和收益叙事,还不是足够完整的系统实测。官方已经明确把这种设计叫作 attention–FFN disaggregation⑲,也就是把解码里的注意力和前馈部分拆开,交给不同处理器去跑。这个设计方向本身当然可能成立,但外界暂时还拿不到足够多的公开数据去判断,这个拆法在真实高并发、长上下文和多租户场景下究竟稳不稳、值不值。
所以季宇这句「唯一看不懂」,其分量恰恰在于他没有泛泛地反对异构,而是在追问异构之后最麻烦的那件事:你是不是把最合适的计算,放到了最合适的芯片上。
TPU、LPU、GPU 的差别,播客里讲得很实在
这期节目还有一个优点,就是季宇没有把所有非 GPU 芯片混成一团。
他说,TPU⑳ 和 GPU③ 的关系,没有 LPU⑫ 和 GPU③ 的关系那么激进。因为 TPU⑳ 再怎么专用,它仍然比较像一种「没那么通用、但依旧延续了主流内存和系统设计」的加速芯片。它是中间路线,不是另起炉灶。
LPU⑫ 则更激进。它押的是超高片上带宽、确定性执行和极低延迟,希望在某些推理环节里把速度做到非常夸张。问题是,极端优化的东西很容易遇到一个老问题:今天适合,明天未必适合。
季宇在节目里举的例子很朴素。大模型前两年还是比较「稠密」的结构,现在则更多转向 MoE;过去大家主要在做聊天,今天则越来越多是 agent 工作流。请求形态一变,输入和输出 token 的比例会变,长上下文会变,工具调用会变,推理系统最吃什么也会变。
所以他对推理芯片的态度,如果一种芯片是为某个特定负载特别深地定制出来的,那它也更容易在负载结构变化时变得没那么合适。
这也是为什么他最后并没有说 GPU 一定最好,而是说今天的推理系统还是需要保留一些「四平八稳」的成分。翻译成普通话就是:别把自己押得太死,因为应用还在变。
「消失的 CPX㉑」和非标件推广,说的是英伟达的小心思
播客后面还有一段很值得听。
季宇提到,有些英伟达之前讲过的产品组合,在这次 GTC① 上反而没那么显眼了。他把这件事和存储涨价、性价比变化联系在一起,意思是说,英伟达在台上讲的未来路线,并不总是已经板上钉钉,它也会根据供应链价格、客户反馈和市场热度反复调整。
这个观察很重要,因为它把 GTC① 从「产品发布会」重新拉回到了「战略展示会」。
GTC① 上讲的很多东西,既是在发布,也是在试探。英伟达会不断把自己的非标组合推到台前,看市场愿不愿意接,看性价比账能不能算得过来,看哪些绑定能够成立。
季宇对 Vera CPU⑦ 的判断也建立在这里。他并不否认 CPU② 在 AI 系统里有价值,但他特别提醒:英伟达推 CPU②,不只是为了 CPU② 自己的性能,更可能是为了把内存、互联、系统形态一起重新定义掉。节目里他说得很直白,如果你用了它的 CPU②、用了它的整机方案,往往也就更容易连同它的非标内存和整套堆叠一起买下去。
这话不必理解成阴谋论。大型系统公司天然会做捆绑、做整合、做非标化,因为只有这样,它才能把原本在标准件市场里分散出去的利润重新收回来。季宇要提醒的,「英伟达越来越像一家整机厂商了」,所以它的每一个技术动作,都不能只从技术最优去理解,还得从利润结构去理解。
大型机和普惠机之间,的分歧是门槛
季宇整段访谈最值得保留的,重点是他对「普惠化」的执念。
他说,如果 AI 最后只能靠少数超大型 AI 工厂来吐出海量 token,那么这当然是一条路,但很可能不是最有普及力的那条路。能让一项技术大规模渗透社会的,往往是把门槛逐步做低。
这句话听上去像价值判断,背后是很现实的算账逻辑。
如果一套系统越来越贵、越来越复杂、越来越依赖特定机柜和特定互联,那么它当然会更适合头部云厂商和超级大客户。可大量中小公司、高校、普通开发者,以及未来更广泛的终端设备,就会越来越难接近它。这种距离一旦被拉开,AI 产业就更容易出现「两层世界」:上面是越来越强的 AI 工厂,下面是很难真正触碰核心能力的大多数用户。
季宇用 IBM④ 和 Intel⑤ 的历史来提醒这一点,意义就在这里。
这个类比不能硬套,因为今天的软件生态、开源模型、云服务和终端设备条件,和上世纪完全不是一回事。但它确实提出了一个很好的问题:如果英伟达把「最强的大机器」这条路走得越来越深,那么谁来回答「更低门槛的普及」这件事。
这段访谈把一条分界线说得很清楚
季宇并没有否认英伟达的工程能力,也没有否认 AI 工厂的现实需求。他更关心的是另一条分界线:一条路通向更强、更密、更贵、更完整的系统;另一条路通向更低门槛、更大范围的普及。
今天的 GTC① 明显站在前一条路上。英伟达把更多零部件、更多非标件、更多控制点一起装进系统,性能会继续上去,客户门槛也会跟着抬高。季宇的提醒,是让人别把「更强」自动听成「更普及」。
所以再回头看那句「琳琅满目」,它里面有惊叹,也有保留。这家公司正在把能打包的东西尽量打包,而行业最后会不会长期接受这种越来越重的整机路线,还得看后面的账怎么算。
更新附注
v1.22026-03-30:为正文首处出现的术语补充尾注,并把英文保留理由统一收到文末。v1.12026-03-30:重写摘要、开头和收束段落,压低评论腔和二分句式,改成更平实的叙述方式。
术语注释
① GTC:GPU Technology Conference,英伟达年度开发者大会。这里保留缩写,是因为行业里几乎都直接说GTC。② CPU:Central Processing Unit,中央处理器,负责系统级调度和通用计算。保留缩写,是因为中文行业写作也几乎都直接写CPU。③ GPU:Graphics Processing Unit,图形处理器,如今已成为 AI 训练和推理的主力芯片。保留缩写,是因为这是最通用的行业叫法。④ IBM:老牌大型机公司,文中把它当作「高性能、高集成、高门槛」路线的历史参照。保留缩写,是因为公司正式品牌如此。⑤ Intel:英特尔,文中把它当作更强调普及与标准化的一条历史路线。这里保留正式英文名。⑥ Vera Rubin:英伟达在2026年推出的平台名,名称来自天文学家 Vera Rubin。作为正式产品名,不宜自行翻译。⑦ Vera CPU:Vera Rubin 平台里的 CPU 名称。保留英文,是因为这是官方产品名。⑧ Rubin GPU:Vera Rubin 平台里的 GPU 名称。保留英文,是因为这是官方产品名。⑨ NVLink:英伟达自家的高速互联技术,用来连接 GPU 与系统节点。保留英文,是因为它是正式产品商标。⑩ BlueField-4:英伟达数据中心网络与基础设施控制器产品线中的一代产品。保留英文,是因为这是正式型号名。⑪ Spectrum-6:英伟达交换网络产品线中的一代产品。保留英文,是因为这是正式型号名。⑫ Groq 3 LPU / LPU:LPU一般指Language Processing Unit,这里是英伟达并入平台的低延迟推理芯片路线。保留缩写和英文产品名,是因为官方材料如此命名,中文还没有统一译法。⑬ AI factory:AI 工厂,指围绕模型训练和推理搭起来的一整套基础设施与生产体系。保留英文,是因为这是英伟达官方反复使用的原词。⑭ attention:注意力机制,简单说就是模型在生成时不断回看上下文关系的过程。保留英文,是因为行业里直接用attention比「注意力层」更常见,也更贴近原技术讨论。⑮ FFN:Feed-Forward Network,前馈网络,是模型里负责进一步加工表示的一层计算。保留缩写,是因为业内通常直接这么写。⑯ MoE:Mixture of Experts,混合专家结构,指每次只激活部分「专家」参与计算。这里保留缩写,是因为比中文全称更常见。⑰ KV cache:推理过程中缓存下来的键值状态,长上下文时会越积越大。保留英文,是因为中文圈普遍直接写KV cache。⑱ LPX:这里指英伟达宣传材料中的Groq 3 LPX产品名称。保留英文,是因为它是正式型号名。⑲ attention–FFN disaggregation:把解码阶段的注意力计算和前馈计算拆到不同处理器上执行。保留英文,是因为这是英伟达官方提出的架构表述,中文译法并不统一。⑳ TPU:Tensor Processing Unit,谷歌自研的 AI 加速芯片。保留缩写,是因为这是最常见写法。㉑ CPX:播客里提到、但这次 GTC 上不再显眼的产品组合代称。这里保留缩写,是因为节目本身就是这样说的,公开中文译名并不固定。
还没有评论,你可以写下第一条。