模型即芯片,芯片即电脑
一
Jensen Huang有一件皮夹克穿了十年。
黑色,机车款,拉链永远拉到胸口。从2014年GTC大会到2024年CES主题演讲,十年间英伟达的市值从一百亿美元涨到了两万亿,那件皮夹克始终没换。台下的分析师和记者们渐渐明白,皮夹克不是个人癖好,是一种宣言——GPU能做一切。图形渲染、科学计算、比特币挖矿、蛋白质折叠、大模型训练——什么都行,一颗芯片包打天下。
通用性是GPU帝国的基石。CUDA是它的通用语,全世界的AI研究者用同一套编程框架、同一种硬件写论文、发模型、刷榜单。从AlexNet到GPT-4,每一块里程碑上都刻着英伟达的名字。
这个故事人尽皆知。我想讲一个不太一样的。
Ljubisa Bajic在AMD干了十几年芯片架构,后来创办了AI芯片公司Tenstorrent。2022年秋天,芯片业传奇人物Jim Keller空降Tenstorrent担任CEO,Bajic选择离开。他在多伦多的家里坐了六个月,妻子Lejla——也是芯片工程师出身,在AMD做到了系统工程高级经理——有一天问他:打算歇到什么时候?
2023年,Bajic拉上Lejla和老同事Drago Ignjatovic,三个人在多伦多租了间办公室,干了一件芯片行业的老人们觉得荒唐的事:他们把Meta开源的Llama 3.1模型权重——80亿个浮点数——交给了一台编译器。不是生成代码,是生成芯片版图。
两个月后,台积电6nm线下来一张PCIe卡。卡上没有GPU,没有HBM内存颗粒,没有风扇。只有一颗安静的芯片。
17000 token每秒。
同样的模型跑在英伟达最新的H200上,单用户大约230 token。当然这个对比有取巧的成分——GPU的优势在于同时服务成百上千个用户,而Taalas的数字是单用户峰值。但即便打了折扣,差距仍然惊人。
这家公司叫Taalas。芯片代号HC1。口号五个英文单词:The Model is The Computer。
皮夹克还能穿多久?
二
GPU的问题不在于它不够快。问题在于它太能干了。
一颗H100有800亿个晶体管、132个流式多处理器、80GB的HBM3显存、带宽3.35TB每秒。它能训练大模型,也能做推理;能跑Transformer,也能跑卷积网络;能处理今天的架构,也为明年可能冒出来的新架构预留了余量。
这种通用性在训练阶段是必需的——研究者需要自由度来试探未知。但推理不是训练。推理是一个已知模型的重复执行。Llama 3.1 8B被下载了4000万次,每一个权重、每一层结构都是确定的。用一颗什么都能算的芯片去跑一个结构完全已知的模型,像什么?
像用瑞士军刀拧螺丝。能拧。但刀片、锯子、开瓶器、放大镜全挂在手柄上晃荡,你九成的力气花在稳住那些用不上的工具。
翻译成工程师的语言:一颗GPU做推理时,大部分能耗花在搬运数据——把权重从HBM里搬到计算核心,算完再搬回去。尤其在单用户场景下,搬运的能耗可以占到六成到八成。冯·诺依曼1945年画的那条线——存储和计算分家——八十年后依然是紧箍咒。芯片越做越快,内存墙越垒越高。
二十年前互联网上演过一模一样的剧情。2005年前后,门户网站把新闻、邮箱、搜索、游戏、购物全塞在一个首页里。大而全,无所不包。然后Google拿走了搜索,Facebook拿走了社交,TikTok拿走了短视频。用户不需要一个什么都能做的入口,他们需要一个把一件事做到极致的工具。
到2025年,全球AI推理负载已经占计算总量的一半,而且比例在加速上升——Deloitte预测2026年将达到三分之二。训练是一次性的,推理是永久性的——一个模型训练一次,被调用数十亿次。当推理成为主战场,一个朴素的问题就挡不住了:
既然我们已经知道模型长什么样,为什么还要造一颗什么都能算的芯片?
三
三家公司,三条路径,不约而同地走到了同一个路口。
Taalas的赌注最反直觉。 他们盯上了芯片最顶层的两层金属互连——铜线的宽度、间距、走向。传统芯片制造中这些铜线只是把晶体管连起来的导线。Taalas把它们变成了权重的载体。
每颗芯片的底层——晶体管、乘法器、控制逻辑——是标准化的,台积电6nm工艺,提前批量生产好。模型的80亿个权重被编译器翻译成顶部两层铜线的几何图案。换一个模型?重新生成两层掩膜版就行,底下的东西一字不动。
这像印书。印刷机不变,铅字排版变。Taalas声称能做到两个月从权重文件到实物芯片——传统ASIC要一年半到两年。需要说明的是,这“两个月”更多指的是从掩膜版到硅片的制造周期;底层标准化平台本身仍然需要完整的RTL设计、验证和物理签核,只是这笔投入做一次、复用无数次。
HC1上没有HBM,因为权重已经“长”在了铜线里。权重的搬运被彻底消灭了——激活值仍然需要在层间流动,但最大的瓶颈已经不存在了。
有人会问:模型更新了怎么办?芯片上留了一小块SRAM,跑LoRA微调。基座知识刻在金属里,不可更改;个性化的微调层存在SRAM里,随时可换。骨架是死的,肌肉是活的。但这个答案有边界——LoRA只能调行为,不能改架构。如果下一代模型换了注意力机制或者层数,这颗芯片就是废铁。这是专用化必须付出的代价。
Mythic走了另一条路,更激进。 他们连数字计算都不要了。
Mythic用的是NOR Flash——和U盘同款的存储技术。每个存储单元被编程到特定的电导值,代表一个权重,精度256级。当输入信号以电压形式进入芯片,欧姆定律自动完成乘法——电流等于电压乘以电导——基尔霍夫电流定律沿列线把乘积加起来。一整个矩阵乘法,一步完成。物理学本身就是计算引擎。
当然,模拟计算有代价。噪声、温度漂移、老化会侵蚀精度,256级电导在实际工作中有效精度只有四到六个比特。但推理本身就是一门近似的艺术,神经网络对噪声有天然的容忍度。Mythic目前出货的M1076处理器能效约8 TOPS/W,功耗三四瓦;下一代产品瞄准的目标是120 TOPS/W。他们的Starlight传感平台——把计算芯片和视觉传感器混合键合在一起——功耗已经压到了一瓦以下。
Honda签了联合开发协议,和Mythic共同研发车规级AI SoC,目标是二十年代末装进下一代智能汽车。在对功耗和延迟都极度敏感的车规场景里,模拟计算找到了自己的战场。
Etched走了第三条路,最直接。 两个从哈佛辍学的年轻人造了一颗叫Sohu的芯片。逻辑很朴素:既然九成以上的推理负载都跑在Transformer上,那就造一颗只跑Transformer的芯片。注意力机制、KV缓存、多头并行——全部固化进硬件数据通路。Etched声称八颗Sohu芯片的系统吞吐超过50万 token/s(Llama 70B,FP8精度),约为同等数量B200的十倍。这组数字尚未经MLPerf等第三方验证——但2026年初5亿美元的融资和50亿美元的估值说明,至少有人拿真金白银赌它是真的。
三种方法,一个方向:不再为通用性买单。
四
写到这里,我需要诚实地面对一个可能推翻以上一切论述的问题。
这些专用芯片的全部逻辑建立在一个假设之上:AI模型的架构正在收敛。 Transformer从2017年统治至今,八年了,没有被颠覆。如果这种统治再持续五到十年,那么为Transformer定制芯片就像为内燃机定制发动机一样理所当然。
但如果不是呢?
2024年以来,Mamba(状态空间模型)、混合专家架构(MoE)、线性注意力、各种Transformer变体层出不穷。没有人能保证Transformer就是“最终架构”。如果明年出现一种全新的计算范式——不用注意力机制,不用矩阵乘法——Taalas刻在铜线里的权重、Etched固化在逻辑门里的注意力电路,全部变成昂贵的废铜烂铁。
GPU的通用性在这个视角下不是浪费,是保险。你为“什么都能算”付出的能效代价,换来的是“不会因为押错架构而血本无归”。这笔保费值不值,取决于你对AI研究方向的判断——而这恰恰是工程无法回答的问题。
Bajic在接受采访时说过一句话:你不需要赌Transformer永远赢。你只需要赌它在足够长的时间窗口里保持主流,让你的芯片赚回成本。两个月的制造周期是他最大的筹码——如果新架构出现,他可以在下一个模型发布后六十天内造出新芯片。这不是消灭风险,是把风险的时间窗口从两年压缩到两个月。
历史上有过类似的赌局。六十年代大型机时代,每台机器一颗定制处理器。七十年代Intel出了通用微处理器,x86横扫一切。2007年NVIDIA用CUDA把GPU从显卡变成了通用并行计算平台。钟摆从专用到通用,摆了六十年。
现在钟摆要往回摆了?也许。但这一次,钟摆不是简单地回到ASIC的老路——两个月出片、LoRA微调、底层复用——它带着上一个周期积累的全部工艺能力和设计方法论,螺旋上升到了一个新的位置。
这个位置够不够稳,没有人知道。Jensen Huang不知道,Bajic也不知道。但Bajic有一个Jensen Huang没有的优势:他下注的成本低得多。一颗HC1的掩膜版成本是传统芯片的几十分之一。赌错了,亏一轮;赌对了,赢一个时代。
五
如果模型可以直接变成芯片,中间那些人怎么办?
过去四十年的半导体产业链是一条自上而下的瀑布:应用提需求,软件写算法,芯片公司设计架构,Foundry制造,封测,系统集成。链条清晰,分工明确,每个环节养活一批公司和一群工程师。
新链条长这样:模型权重→编译器→掩膜版→Foundry→系统集成。
中间消失的不是人,是人工驱动的设计环节。RTL工程师、验证工程师、后端物理设计——他们的专业知识没有消失,被封装进了编译器和标准化平台。底层那颗共用的基础芯片,仍然需要几百个工程师花几年时间从头设计和验证。但这笔投入只做一次。之后每换一个模型,只需要编译器跑一遍。
Synopsys和Cadence大概率不会被淘汰——物理验证、签核、良率优化这些事不会消失,甚至会因为新范式催生新的工具需求。但它们的角色可能从“设计流程的主导者”变成“编译器生态的组件供应商”。定价权会向编译器一端转移。
台积电的角色反而可能强化。这个新世界里Foundry变成了“模型打印机”——客户提交的不再是GDS文件,可能就是一个权重文件加上目标工艺节点。快速切换金属层的工艺能力本身就是壁垒。制造的护城河依然深,甚至更深。
英伟达面临的局面最微妙。训练市场它依然是无可争议的王。推理市场它也没有坐以待毙——Blackwell架构自带Transformer Engine和FP4推理支持,TensorRT-LLM做了激进的编译优化,NIM推理微服务在卖“开箱即用”的体验。Jensen Huang在用软件和架构创新拼命缩小能效差距。
但物理定律站在专用芯片这边。当你的权重已经长在铜线里,再好的带宽优化也追不上“压根不需要搬”。Google的TPU从2016年就开始做推理专用化,亚马逊的Inferentia已经大规模部署,Groq的LPU在确定性延迟上打出了差异化——这些不是PPT上的概念,是已经跑在生产环境里的硅。
英伟达的对手不是某一家创业公司,是一个方向。
那件皮夹克,过去十年代表“GPU能做一切”。现在,它开始代表“GPU还能做一切,但别人做同一件事做得更便宜”。代表的东西变了,味道就变了。
六
抽象的产业链分析说多了让人失去体感。回到具体的场景。
日本枥木县,Honda研发中心。2026年初,一辆白色原型车停在测试场上,看起来和普通的雅阁没什么两样。区别藏在仪表盘下面。
过去,要让一辆车实时处理激光雷达、摄像头和超声波传感器的数据流,需要塞一个塞满GPU的计算盒子在后备箱里,功耗两百瓦以上,配液冷散热。这辆原型车里没有那个盒子。取而代之的是一块信用卡大小的PCB板,贴在仪表盘的金属框架上。Mythic的模拟计算芯片,功耗不到五瓦。车顶激光雷达每秒吐出数百万个点云,芯片在一毫秒内完成目标检测和轨迹预测。没有风扇,没有液冷管路,没有后备箱里嗡嗡作响的服务器。
负责这个项目的Honda工程师后来在一次行业会议上说了一句话,被在场的人反复引用:“不是计算变快了,是计算消失了。”
他的意思是:当推理单元小到可以贴在仪表盘后面、安静到听不见、省电到不需要散热,它就不再是车辆架构中需要“设计”的东西,而是像线束一样“存在”的东西。这是一个质变,不是量变。
类似的质变也在其他地方发生。深圳华强北的团队在把70亿参数的语言模型塞进两百块的智能音箱,功耗0.5瓦,一块锂电池撑八小时对话。弗吉尼亚的数据中心在用专用推理卡替换GPU——同一个机架,吞吐量涨十倍,电费降到五分之一。全球推理专用芯片市场在2026年预计超过五百亿美元。
CFO会比CTO更早拍板换芯片。
七
五十年来计算产业的主旋律是硬件变软。从裸金属到虚拟机,从虚拟机到容器,从容器到Serverless。每一步都是用软件抽象层把硬件的复杂性裹起来,让开发者离物理世界越来越远。
现在反过来了。软件正在变硬。
神经网络的权重被刻进金属层的那一刻,“软件”和“硬件”之间的线就模糊了。权重是数据,是代码,也是电路。推理不是在硅片上“运行”的东西——它是电流通过特定物理结构时自然发生的结果。
你的大脑里没有一块区域专门存放记忆、另一块区域专门读取它。突触的连接强度本身就是记忆,信号的传播本身就是思考。亿万年的进化从来没有走上冯·诺依曼那条路。也许那条路从一开始就是弯路——一条被真空管和水银延迟线的制造工艺逼出来的弯路。我们在这条弯路上建了八十年的大厦,建到了GPU这一层,终于撞到了天花板。
Taalas们正在掉头。
但我不确定他们能走多远。
这篇文章写了七千字来论证专用芯片的必然性,但诚实地讲,我不知道Transformer还能统治多久。我不知道Bajic的两个月流片周期是否真的能跟上架构演化的速度。我不知道当英伟达把Blackwell的推理效率再提升一个台阶之后,专用芯片的能效优势还剩多少。我甚至不知道十年后回头看,这篇文章会被认为是一个准确的预言,还是又一次技术乐观主义的标本。
我知道的是:Bajic在多伦多那间办公室的墙上挂了一块白板。白板上画着一条时间线,左端写着“2 months”,右端写着下一个模型的名字。中间只有一个箭头。
Jensen Huang的皮夹克还会穿很久。训练市场仍然需要GPU,需要通用性,需要那种什么都能干的蛮力。但隔壁那块白板上的箭头越来越短,指向的模型越来越大。
没有人宣布通用计算的时代结束了。它只是在某一天变得不再经济。就像没有人宣布门户网站死了——只是有一天,你打开浏览器,发现自己已经很久没有访问过雅虎的首页。