模型即芯片，芯片即电脑 | Zhaori Bi (毕朝日)

一

Jensen Huang有一件皮夹克穿了十年。

黑色，机车款，拉链永远拉到胸口。从2014年GTC大会到2024年CES主题演讲，十年间英伟达的市值从一百亿美元涨到了两万亿，那件皮夹克始终没换。台下的分析师和记者们渐渐明白，皮夹克不是个人癖好，是一种宣言——GPU能做一切。图形渲染、科学计算、比特币挖矿、蛋白质折叠、大模型训练——什么都行，一颗芯片包打天下。

通用性是GPU帝国的基石。CUDA是它的通用语，全世界的AI研究者用同一套编程框架、同一种硬件写论文、发模型、刷榜单。从AlexNet到GPT-4，每一块里程碑上都刻着英伟达的名字。

这个故事人尽皆知。我想讲一个不太一样的。

Ljubisa Bajic在AMD干了十几年芯片架构，后来创办了AI芯片公司Tenstorrent。2022年秋天，芯片业传奇人物Jim Keller空降Tenstorrent担任CEO，Bajic选择离开。他在多伦多的家里坐了六个月，妻子Lejla——也是芯片工程师出身，在AMD做到了系统工程高级经理——有一天问他：打算歇到什么时候？

2023年，Bajic拉上Lejla和老同事Drago Ignjatovic，三个人在多伦多租了间办公室，干了一件芯片行业的老人们觉得荒唐的事：他们把Meta开源的Llama 3.1模型权重——80亿个浮点数——交给了一台编译器。不是生成代码，是生成芯片版图。

两个月后，台积电6nm线下来一张PCIe卡。卡上没有GPU，没有HBM内存颗粒，没有风扇。只有一颗安静的芯片。

17000 token每秒。

同样的模型跑在英伟达最新的H200上，单用户大约230 token。当然这个对比有取巧的成分——GPU的优势在于同时服务成百上千个用户，而Taalas的数字是单用户峰值。但即便打了折扣，差距仍然惊人。

这家公司叫Taalas。芯片代号HC1。口号五个英文单词：The Model is The Computer。

皮夹克还能穿多久？

二

GPU的问题不在于它不够快。问题在于它太能干了。

一颗H100有800亿个晶体管、132个流式多处理器、80GB的HBM3显存、带宽3.35TB每秒。它能训练大模型，也能做推理；能跑Transformer，也能跑卷积网络；能处理今天的架构，也为明年可能冒出来的新架构预留了余量。

这种通用性在训练阶段是必需的——研究者需要自由度来试探未知。但推理不是训练。推理是一个已知模型的重复执行。Llama 3.1 8B被下载了4000万次，每一个权重、每一层结构都是确定的。用一颗什么都能算的芯片去跑一个结构完全已知的模型，像什么？

像用瑞士军刀拧螺丝。能拧。但刀片、锯子、开瓶器、放大镜全挂在手柄上晃荡，你九成的力气花在稳住那些用不上的工具。

翻译成工程师的语言：一颗GPU做推理时，大部分能耗花在搬运数据——把权重从HBM里搬到计算核心，算完再搬回去。尤其在单用户场景下，搬运的能耗可以占到六成到八成。冯·诺依曼1945年画的那条线——存储和计算分家——八十年后依然是紧箍咒。芯片越做越快，内存墙越垒越高。

二十年前互联网上演过一模一样的剧情。2005年前后，门户网站把新闻、邮箱、搜索、游戏、购物全塞在一个首页里。大而全，无所不包。然后Google拿走了搜索，Facebook拿走了社交，TikTok拿走了短视频。用户不需要一个什么都能做的入口，他们需要一个把一件事做到极致的工具。

到2025年，全球AI推理负载已经占计算总量的一半，而且比例在加速上升——Deloitte预测2026年将达到三分之二。训练是一次性的，推理是永久性的——一个模型训练一次，被调用数十亿次。当推理成为主战场，一个朴素的问题就挡不住了：

既然我们已经知道模型长什么样，为什么还要造一颗什么都能算的芯片？

三

三家公司，三条路径，不约而同地走到了同一个路口。

Taalas的赌注最反直觉。 他们盯上了芯片最顶层的两层金属互连——铜线的宽度、间距、走向。传统芯片制造中这些铜线只是把晶体管连起来的导线。Taalas把它们变成了权重的载体。

每颗芯片的底层——晶体管、乘法器、控制逻辑——是标准化的，台积电6nm工艺，提前批量生产好。模型的80亿个权重被编译器翻译成顶部两层铜线的几何图案。换一个模型？重新生成两层掩膜版就行，底下的东西一字不动。

这像印书。印刷机不变，铅字排版变。Taalas声称能做到两个月从权重文件到实物芯片——传统ASIC要一年半到两年。需要说明的是，这“两个月”更多指的是从掩膜版到硅片的制造周期；底层标准化平台本身仍然需要完整的RTL设计、验证和物理签核，只是这笔投入做一次、复用无数次。

HC1上没有HBM，因为权重已经“长”在了铜线里。权重的搬运被彻底消灭了——激活值仍然需要在层间流动，但最大的瓶颈已经不存在了。

有人会问：模型更新了怎么办？芯片上留了一小块SRAM，跑LoRA微调。基座知识刻在金属里，不可更改；个性化的微调层存在SRAM里，随时可换。骨架是死的，肌肉是活的。但这个答案有边界——LoRA只能调行为，不能改架构。如果下一代模型换了注意力机制或者层数，这颗芯片就是废铁。这是专用化必须付出的代价。

Mythic走了另一条路，更激进。 他们连数字计算都不要了。

Mythic用的是NOR Flash——和U盘同款的存储技术。每个存储单元被编程到特定的电导值，代表一个权重，精度256级。当输入信号以电压形式进入芯片，欧姆定律自动完成乘法——电流等于电压乘以电导——基尔霍夫电流定律沿列线把乘积加起来。一整个矩阵乘法，一步完成。物理学本身就是计算引擎。

当然，模拟计算有代价。噪声、温度漂移、老化会侵蚀精度，256级电导在实际工作中有效精度只有四到六个比特。但推理本身就是一门近似的艺术，神经网络对噪声有天然的容忍度。Mythic目前出货的M1076处理器能效约8 TOPS/W，功耗三四瓦；下一代产品瞄准的目标是120 TOPS/W。他们的Starlight传感平台——把计算芯片和视觉传感器混合键合在一起——功耗已经压到了一瓦以下。

Honda签了联合开发协议，和Mythic共同研发车规级AI SoC，目标是二十年代末装进下一代智能汽车。在对功耗和延迟都极度敏感的车规场景里，模拟计算找到了自己的战场。

Etched走了第三条路，最直接。 两个从哈佛辍学的年轻人造了一颗叫Sohu的芯片。逻辑很朴素：既然九成以上的推理负载都跑在Transformer上，那就造一颗只跑Transformer的芯片。注意力机制、KV缓存、多头并行——全部固化进硬件数据通路。Etched声称八颗Sohu芯片的系统吞吐超过50万 token/s（Llama 70B，FP8精度），约为同等数量B200的十倍。这组数字尚未经MLPerf等第三方验证——但2026年初5亿美元的融资和50亿美元的估值说明，至少有人拿真金白银赌它是真的。

三种方法，一个方向：不再为通用性买单。

四

写到这里，我需要诚实地面对一个可能推翻以上一切论述的问题。

这些专用芯片的全部逻辑建立在一个假设之上：AI模型的架构正在收敛。 Transformer从2017年统治至今，八年了，没有被颠覆。如果这种统治再持续五到十年，那么为Transformer定制芯片就像为内燃机定制发动机一样理所当然。

但如果不是呢？

2024年以来，Mamba（状态空间模型）、混合专家架构（MoE）、线性注意力、各种Transformer变体层出不穷。没有人能保证Transformer就是“最终架构”。如果明年出现一种全新的计算范式——不用注意力机制，不用矩阵乘法——Taalas刻在铜线里的权重、Etched固化在逻辑门里的注意力电路，全部变成昂贵的废铜烂铁。

GPU的通用性在这个视角下不是浪费，是保险。你为“什么都能算”付出的能效代价，换来的是“不会因为押错架构而血本无归”。这笔保费值不值，取决于你对AI研究方向的判断——而这恰恰是工程无法回答的问题。

Bajic在接受采访时说过一句话：你不需要赌Transformer永远赢。你只需要赌它在足够长的时间窗口里保持主流，让你的芯片赚回成本。两个月的制造周期是他最大的筹码——如果新架构出现，他可以在下一个模型发布后六十天内造出新芯片。这不是消灭风险，是把风险的时间窗口从两年压缩到两个月。

历史上有过类似的赌局。六十年代大型机时代，每台机器一颗定制处理器。七十年代Intel出了通用微处理器，x86横扫一切。2007年NVIDIA用CUDA把GPU从显卡变成了通用并行计算平台。钟摆从专用到通用，摆了六十年。

现在钟摆要往回摆了？也许。但这一次，钟摆不是简单地回到ASIC的老路——两个月出片、LoRA微调、底层复用——它带着上一个周期积累的全部工艺能力和设计方法论，螺旋上升到了一个新的位置。

这个位置够不够稳，没有人知道。Jensen Huang不知道，Bajic也不知道。但Bajic有一个Jensen Huang没有的优势：他下注的成本低得多。一颗HC1的掩膜版成本是传统芯片的几十分之一。赌错了，亏一轮；赌对了，赢一个时代。

五

如果模型可以直接变成芯片，中间那些人怎么办？

过去四十年的半导体产业链是一条自上而下的瀑布：应用提需求，软件写算法，芯片公司设计架构，Foundry制造，封测，系统集成。链条清晰，分工明确，每个环节养活一批公司和一群工程师。

新链条长这样：模型权重→编译器→掩膜版→Foundry→系统集成。

中间消失的不是人，是人工驱动的设计环节。RTL工程师、验证工程师、后端物理设计——他们的专业知识没有消失，被封装进了编译器和标准化平台。底层那颗共用的基础芯片，仍然需要几百个工程师花几年时间从头设计和验证。但这笔投入只做一次。之后每换一个模型，只需要编译器跑一遍。

Synopsys和Cadence大概率不会被淘汰——物理验证、签核、良率优化这些事不会消失，甚至会因为新范式催生新的工具需求。但它们的角色可能从“设计流程的主导者”变成“编译器生态的组件供应商”。定价权会向编译器一端转移。

台积电的角色反而可能强化。这个新世界里Foundry变成了“模型打印机”——客户提交的不再是GDS文件，可能就是一个权重文件加上目标工艺节点。快速切换金属层的工艺能力本身就是壁垒。制造的护城河依然深，甚至更深。

英伟达面临的局面最微妙。训练市场它依然是无可争议的王。推理市场它也没有坐以待毙——Blackwell架构自带Transformer Engine和FP4推理支持，TensorRT-LLM做了激进的编译优化，NIM推理微服务在卖“开箱即用”的体验。Jensen Huang在用软件和架构创新拼命缩小能效差距。

但物理定律站在专用芯片这边。当你的权重已经长在铜线里，再好的带宽优化也追不上“压根不需要搬”。Google的TPU从2016年就开始做推理专用化，亚马逊的Inferentia已经大规模部署，Groq的LPU在确定性延迟上打出了差异化——这些不是PPT上的概念，是已经跑在生产环境里的硅。

英伟达的对手不是某一家创业公司，是一个方向。

那件皮夹克，过去十年代表“GPU能做一切”。现在，它开始代表“GPU还能做一切，但别人做同一件事做得更便宜”。代表的东西变了，味道就变了。

六

抽象的产业链分析说多了让人失去体感。回到具体的场景。

日本枥木县，Honda研发中心。2026年初，一辆白色原型车停在测试场上，看起来和普通的雅阁没什么两样。区别藏在仪表盘下面。

过去，要让一辆车实时处理激光雷达、摄像头和超声波传感器的数据流，需要塞一个塞满GPU的计算盒子在后备箱里，功耗两百瓦以上，配液冷散热。这辆原型车里没有那个盒子。取而代之的是一块信用卡大小的PCB板，贴在仪表盘的金属框架上。Mythic的模拟计算芯片，功耗不到五瓦。车顶激光雷达每秒吐出数百万个点云，芯片在一毫秒内完成目标检测和轨迹预测。没有风扇，没有液冷管路，没有后备箱里嗡嗡作响的服务器。

负责这个项目的Honda工程师后来在一次行业会议上说了一句话，被在场的人反复引用：“不是计算变快了，是计算消失了。”

他的意思是：当推理单元小到可以贴在仪表盘后面、安静到听不见、省电到不需要散热，它就不再是车辆架构中需要“设计”的东西，而是像线束一样“存在”的东西。这是一个质变，不是量变。

类似的质变也在其他地方发生。深圳华强北的团队在把70亿参数的语言模型塞进两百块的智能音箱，功耗0.5瓦，一块锂电池撑八小时对话。弗吉尼亚的数据中心在用专用推理卡替换GPU——同一个机架，吞吐量涨十倍，电费降到五分之一。全球推理专用芯片市场在2026年预计超过五百亿美元。

CFO会比CTO更早拍板换芯片。

七

五十年来计算产业的主旋律是硬件变软。从裸金属到虚拟机，从虚拟机到容器，从容器到Serverless。每一步都是用软件抽象层把硬件的复杂性裹起来，让开发者离物理世界越来越远。

现在反过来了。软件正在变硬。

神经网络的权重被刻进金属层的那一刻，“软件”和“硬件”之间的线就模糊了。权重是数据，是代码，也是电路。推理不是在硅片上“运行”的东西——它是电流通过特定物理结构时自然发生的结果。

你的大脑里没有一块区域专门存放记忆、另一块区域专门读取它。突触的连接强度本身就是记忆，信号的传播本身就是思考。亿万年的进化从来没有走上冯·诺依曼那条路。也许那条路从一开始就是弯路——一条被真空管和水银延迟线的制造工艺逼出来的弯路。我们在这条弯路上建了八十年的大厦，建到了GPU这一层，终于撞到了天花板。

Taalas们正在掉头。

但我不确定他们能走多远。

这篇文章写了七千字来论证专用芯片的必然性，但诚实地讲，我不知道Transformer还能统治多久。我不知道Bajic的两个月流片周期是否真的能跟上架构演化的速度。我不知道当英伟达把Blackwell的推理效率再提升一个台阶之后，专用芯片的能效优势还剩多少。我甚至不知道十年后回头看，这篇文章会被认为是一个准确的预言，还是又一次技术乐观主义的标本。

我知道的是：Bajic在多伦多那间办公室的墙上挂了一块白板。白板上画着一条时间线，左端写着“2 months”，右端写着下一个模型的名字。中间只有一个箭头。

Jensen Huang的皮夹克还会穿很久。训练市场仍然需要GPU，需要通用性，需要那种什么都能干的蛮力。但隔壁那块白板上的箭头越来越短，指向的模型越来越大。

没有人宣布通用计算的时代结束了。它只是在某一天变得不再经济。就像没有人宣布门户网站死了——只是有一天，你打开浏览器，发现自己已经很久没有访问过雅虎的首页。