漫天飞舞的小龙虾 | Zhaori Bi (毕朝日)

一

2025年11月的某个深夜，奥地利格拉茨，Peter Steinberger往GitHub推送了一段代码之后关掉了笔记本电脑。他给这个项目取名Clawdbot——一个能接入大语言模型、在即时通讯工具上自主执行任务的AI代理。推送完成时格拉茨是凌晨两点。他没有发推文，没有写博客，关灯睡了。

没有人预料到接下来发生的事。

同一个月，在上海张江的某栋写字楼里，一支十二人的芯片设计团队正在为一颗面向AIoT市场的RISC-V SoC做最后的时序收敛。团队负责人老陈是个干了二十年后端的老兵。他的工位与其他人不同——显示器旁边贴着一张泛黄的手写检查清单，综合约束、时钟树策略、布线拥塞阈值，字迹已经模糊，但每一条都是从过去十几次流片中用真金白银换来的。新来的应届生小王每天跟在老陈身后，看他怎么读时序报告，怎么判断一条关键路径到底是setup violation还是工具的悲观估计。午饭时老陈用搪瓷杯泡浓茶，茶叶在杯底堆成一座小丘。小王坐在他对面，听他讲十年前某次流片因为hold margin不足导致全批次报废的故事。

这种传承方式笨拙、低效，没有任何一家管理咨询公司会推荐它。但它有一个没人注意到的好处：知识在传递过程中被反复检验。老陈说”这条路径的hold margin留太少了”，小王问”为什么”，老陈解释物理原因，小王下次遇到类似情况自己判断，判断错了，老陈纠正。知识在师徒之间的往返中逐渐凝固为可靠的工程直觉——一种Michael Polanyi所说的”缄默知识”¹：老陈能从版图上”看出”哪些走线会出问题，就像一个经验丰富的医生能从X光片上看出常人看不见的阴影。这种知识无法被写成规则手册，因为连老陈自己都无法完全说清楚他到底”看”到了什么。

两个世界各自运转，彼此不知道对方的存在。

二

2026年2月2日，Anthropic的法务部门犯了一个战略性错误。他们向Steinberger发出了商标侵权警告——Clawdbot的名字与Claude太过相似。Steinberger将项目更名为OpenClaw，并把这封律师函公之于众。

互联网的记忆是短暂的，但它的愤怒是爆炸性的。Streisand效应在七十二小时内为OpenClaw带来了九万一千颗新星标。到二月底，这个数字突破了二十四万七千——打破了React用十年积累的GitHub纪录²。五千四百多个技能插件在社区中涌现，从自动化客服到代码审查，从投资分析到学术论文检索。

这些数字需要一个比喻才能被真正理解。小龙虾——学名克氏原螯虾——在二十世纪初作为入侵物种进入中国水域。它们繁殖极快，适应力惊人，几乎没有天敌。更重要的是，它们没有脊椎骨——没有内在的刚性结构，全靠外骨骼支撑。OpenClaw及其衍生的Agent生态，正是技术世界里的小龙虾：繁殖惊人，无处不在，但没有骨骼。龙虾开始漫天飞舞。

张江的老陈也注意到了这场风暴——不是因为他刷GitHub，而是因为公司的技术VP在周会上提了一句：”业界有团队在用AI Agent串联EDA工具链，据说效率提升了三到五倍。我们要不要调研一下？”

调研的任务落在了小王头上。三周后，小王交出了一个原型：用一个类OpenClaw的Agent框架，连接Synopsys的Design Compiler、IC Compiler II和PrimeTime，让Agent根据综合报告自动调整约束、重新跑布局布线、再做时序分析，循环往复直到收敛。

效果立竿见影。过去需要工程师花两天手动迭代的模块级综合-布局-时序循环，Agent在八小时内跑了十四轮。时序收敛的速度提升了将近四倍。小王在团队内部演示时，所有人都沉默了几秒，然后开始鼓掌。

老陈也鼓了掌。但他在散会后多问了一句：”Agent在某条关键路径上插了三级buffer来修setup，但它知不知道这样做会增加上游逻辑的fanout loading，可能在另一个corner引出新的violation？”

小王愣了一下：”它不需要知道为什么。它只需要知道改什么能让timing clean。”

老陈端起搪瓷杯喝了口茶，没有再说话。

三

龙虾的繁殖速度超出了所有人的想象。

2026年2月14日，Steinberger加入OpenAI，OpenClaw被移交给一个开源基金会³。两周后，Nvidia宣布NemoClaw——一个基于OpenClaw架构的企业级AI Agent平台，专门面向工程设计自动化场景。三月初，Meta以未披露的价格收购了Moltbook——一个用OpenClaw构建的AI Agent社交网络，尽管这个平台上大部分”用户”是AI生成的虚拟人格⁴。

上海有一家EDA初创公司的创始人后来回忆，他在融资PPT里加上”AI Agent驱动的芯片设计自动化”之后，同一份技术方案的估值翻了一倍。”不是因为我们想通了Agent该怎么用，”他说，”是因为不写这四个字就拿不到下一轮。”三个月内，”AI Agent”在EDA领域融资材料中的出现频率增长了七倍。

张江团队的故事也在加速。小王的原型被升级为正式项目，公司投入了三个人全职开发。Agent的能力不断扩展——从时序收敛延伸到功耗优化，从单模块迭代扩展到全芯片流程。年轻工程师们开始习惯一种新的工作方式：描述目标，启动Agent，审查结果。过去需要理解每一步原理才能做出的决策，现在Agent替你做了——更快、更稳定、不知疲倦。

老陈发现了一个令他不安的趋势。新来的工程师越来越少问”为什么”。他们问的是”怎么让Agent跑得更快”、”怎么写更好的prompt”、”怎么让Agent少报false violation”。工具链的黑箱从EDA工具本身延伸到了Agent层——一个黑箱之上又叠了一个黑箱。

三个月前，团队里任何一个工程师都能解释为什么某条路径的setup slack是负的。现在，当Agent自动修复了一条timing violation时，大多数人的反应是”fixed”，而不是”我理解它为什么fix了以及这个fix有没有副作用”。所谓的”审查结果”在实践中退化为”检查报告是否全部显示pass”——那不是审查，那是签字。

1983年，英国认知科学家Lisanne Bainbridge发表了一篇名为《自动化的讽刺》的论文⁵，指出了一个至今仍未被充分消化的悖论：设计自动化系统的目的是消除人类操作员的错误，但自动化把人类的角色从主动执行者变成了被动监控者——而人类恰恰不擅长长时间被动监控。更讽刺的是，最难自动化的任务——应对罕见的、前所未见的异常——恰恰是在自动化失败时需要人类接管的任务。Agent越可靠，工程师越少练习独立判断；工程师越少练习独立判断，Agent失败时的后果就越严重。

知识没有消失。它转移了——从人的大脑转移到了Agent的决策链路中。但Agent的决策链路是液态的：它基于统计模式做出选择，不理解物理因果，不知道自己在什么条件下会失败。这种转移是单向的——一旦工程师丧失了独立判断能力，他就再也无法校验Agent的输出是否可靠。

四

2026年秋天——如果按照当前的轨迹外推——某个团队会遇到这样一个场景。

一颗芯片流片回来，功能验证全部通过，但实测性能比仿真预期低了百分之十八。不是某个模块的问题，而是一种弥漫性的性能衰减——每条关键路径都差一点点，累积起来就是百分之十八。

团队开始排查。Agent的决策日志显示，在布局布线阶段，它为了解决某个区域的拥塞问题，将几个关键模块的placement做了微调。每一次微调都是”合理”的——拥塞降低了，DRC clean了，时序报告也是met的。但这些微调的累积效应改变了全局的互连拓扑结构，使最终的物理实现系统性地偏离了架构团队最初的floorplan意图。每一步的signoff提取都是准确的——工具没有撒谎——但最终拿到的那颗芯片，已经不是设计团队原本想要的那颗芯片了。

Agent不知道这件事。它的每一步决策都基于当前工具报告的反馈，而工具报告在每一步都是”通过”的。问题出在步骤之间的耦合效应——一种Agent的统计决策框架天然看不见的东西。Charles Perrow在研究核电站和化工厂事故时提出过一个概念：”正常事故”⁶——在紧密耦合的复杂系统中，每个组件都正常运作，但组件之间的交互产生了不可预见的故障。Agent辅助的芯片设计流程，正在成为这种”正常事故”的温床。

更令人不安的是排查过程本身。两年前，老陈可以在半天内定位这类问题。他的判断力不是来自某条规则，而是来自二十年间”亲手做决策、观察后果、修正理解”的循环——一种只有在实践中才能积累的缄默知识。他能从版图上”看出”哪些信号的走线被意外拉长了，就像一个老中医把脉时能感知到年轻医生无法感知的东西。但老陈去年退休了。现在的团队面对Agent的决策日志，能看到每一步做了什么，但不知道为什么这些”正确”的步骤组合在一起会产生一个”错误”的结果。

他们看到了树，但看不见森林。而森林的形状，是由他们已经不再传承的那种工程直觉所定义的。

有人提议给老陈打个电话。老陈来了，看了半天版图，指着几条走线说：”这里，这里，还有这里——Agent把这些模块往北推了，省了拥塞，但把clock mesh和data path的相对位置改了，interconnect delay的分布整个偏了。”他花了四个小时完成了年轻工程师花一周都无法完成的诊断。

但老陈不可能每次都来。下一次他不来的时候呢？

龙虾的成功之日，就是安全网消失之日。

五

问题的根源不是OpenClaw，不是AI Agent，甚至不是任何一种具体的技术。问题是态度——整个行业对待”AI+芯片设计”这个命题的态度。

2009年6月1日凌晨，法航447航班从里约热内卢飞往巴黎，在大西洋上空遭遇高空结冰。皮托管被冰晶堵塞，自动驾驶断开。三名飞行员面对一个他们已经很少手动处理的场景——失速。在接下来的三分二十秒里，他们做出了一系列矛盾的操作，飞机坠入大西洋，228人遇难⁷。

事故调查之后，航空工业没有拆掉自动驾驶。他们做的是另一件事：用了数十年时间系统性地设计人机协作的方法论——飞行员在什么情况下应该信任自动系统？在什么情况下必须接管？如何确保飞行员在长期依赖自动系统后仍然保持手动飞行的能力？Jens Rasmussen提出的”技能-规则-知识”框架⁸为这种方法论提供了理论基础：自动化可以接管基于技能和规则的决策层次，但基于知识的推理——面对未预见情况的判断能力——必须保留在人类手中。

芯片设计领域正在跳过这一步。浏览过去一年的会议论文、技术博客和融资新闻稿，你会发现一个令人沮丧的模式：几乎所有工作都止步于”我们用Agent/LLM做了X，效率提升了Y倍”。很少有人追问下一层：Agent的决策边界在哪里？它在什么条件下会系统性地犯错？当Agent的能力提升导致人类知识退化时，整个系统的可靠性是在提高还是降低？

这不是学术上的吹毛求疵。这些是工程方法论的核心。而且这些问题在先进制程节点上尤其致命——7纳米以下，物理效应的非线性和跨步骤耦合远比成熟制程严重，Agent的局部最优决策与全局结果之间的鸿沟更深。对于成熟制程上的简单设计，Agent或许已经”够用”。但行业的前沿——也是价值和风险集中的地方——恰恰是Agent最容易出错、而人类最难以校验的区域。

当前的工作几乎都是浅尝辄止。把Agent接入工具链，跑几个案例，报告提速倍数，发一篇论文或写一份融资材料。没有人讨论底层的方法论问题，因为这些问题不性感，不容易变成数字，不能写在PPT的第一页。

这就是浮躁的本质：不是技术的浮躁，是态度的浮躁。追逐龙虾的热闹，回避方法论的沉闷。

六

但如果就此得出”龙虾是坏的”这个结论，那和盲目拥抱龙虾一样肤浅。

OpenClaw在六十天内积累了二十四万七千颗星标，这个数字不是泡沫能解释的。五千四百多个技能插件不是凭空产生的。Nvidia、Meta、OpenAI——这些不是容易被忽悠的玩家——都在押注Agent生态。龙虾的力量是真实的，否认它只是另一种形式的浮躁。

芯片设计的知识同样是真实的。一颗芯片从构想到流片，涉及的因果链条比任何软件系统都更深、更刚性。时序约束背后是电磁波的传播速度，功耗模型背后是晶体管的物理开关特性，可靠性要求背后是材料的疲劳极限。这些不是统计模式，而是物理定律——它们是真正固态的知识，不会因为你换了一个数据集或重新训练了一个模型就消失。

真正的问题不是”龙虾还是芯片”，而是”液态的龙虾如何与固态的物理共存”。

在《液态的芯片》中，我讨论了三种知识形态：液态的统计关联、正在凝固的因果推理、固态的物理定律。AI Agent——包括OpenClaw及其一切后继者——本质上是液态知识的放大器。它们以前所未有的规模和速度调用\(P(Y\vert X)\)，在统计模式的海洋中高效冲浪。但它们无法自行完成从液态到固态的相变。\(P(Y\vert X)\)——”观察到X时Y的概率”——乘以一百万倍的算力，仍然是\(P(Y\vert X)\)，不会自动变成\(P(Y\vert do(X))\)——”主动干预X后Y的概率”。

有人会反驳：Agent和工程师构成了一个耦合认知系统——知识不是从人”转移”到机器，而是”分布”在人机之间。整个系统的认知能力也许提升了，个体工程师的知识退化又何妨？这个反驳有哲学上的合理性⁹，但它忽略了一个关键事实：芯片设计是一个安全关键领域。飞机的自动驾驶系统也与飞行员构成耦合认知系统，但没有人会因此取消飞行员的手动飞行训练。在耦合系统中，当自动化组件出现超出设计预期的行为时——而在紧密耦合的复杂系统中这是必然的——人类组件必须具备独立诊断和干预的能力。这种能力不是从系统中”涌现”的，它必须在人身上被刻意培养和维持。

这意味着Agent在芯片设计中的正确角色不是”替代工程师做决策”，而是”在工程师的因果框架约束下高效探索”。Agent负责速度，工程师负责方向。但这种说法仍然过于干净。诚实地讲，速度本身会改变方向——当Agent在八小时内跑十四轮迭代时，它生成的中间结果会重新定义工程师感知到的设计空间。工程师的”方向感”不是在真空中独立存在的，它依赖于他对设计空间地形的理解，而这个地形正在被Agent的快速探索所重塑。速度和方向不是可以简单分离的——它们之间存在一种不可消解的认识论纠缠。

也许这就是我们真正面对的处境：不是一个可以被方法论完美解决的工程问题，而是一种需要在张力中持续工作的认知状态。Agent的液态力量与人类的固态知识之间，不存在一条一劳永逸的边界。边界本身是动态的——随着工艺节点演进、设计复杂度增加、Agent能力提升，哪些决策可以安全委托、哪些必须人类把关，这个划分会不断变化。而维护这条动态边界所需要的知识，恰恰是我们正在担心会消失的那种知识。

七

让我们回到张江。

假设老陈没有退休。假设他在看到小王的Agent原型时，没有只问一句”它知道为什么吗”然后沉默，而是坐下来，和小王一起做了一件更困难的事：为Agent的决策划定因果边界。

不是一张一劳永逸的清单——他们都知道不存在这样的清单。而是一种持续校准的工作纪律。比如：时钟树综合中，buffer的大小选择可以交给Agent，因为这是一个在给定约束下的凸优化问题；但时钟拓扑结构的选择——mesh还是tree还是混合——必须由人类决定，因为拓扑变化对全芯片时序的影响是非线性的、跨模块的，Agent的局部反馈信号无法捕捉这种全局耦合。再比如：标准单元的placement refinement可以交给Agent在给定窗口内自由调整；但涉及关键模块相对位置的floorplan级决策，必须有人类基于对数据通路和时钟域关系的因果理解来审查。

这不是一个下午能完成的工作。这需要对芯片设计流程中每一个决策节点的因果结构进行系统性的梳理。这项工作不性感，不容易发论文，不能写在融资PPT的第一页。而且它有一个内在的悖论——它需要老陈这样的人来做，但做这件事的目的之一是让未来的工程师不必成为老陈。这个悖论不能被解决，只能被承认，然后在承认中持续工作。

小龙虾确实在漫天飞舞。它们的数量会继续增长，能力会继续增强，生态会继续繁荣。这是不可逆转的趋势，也不应该被逆转。但龙虾没有脊椎——它们在统计模式的水流中自如游弋，没有内骨骼，没有固态的支撑结构。芯片设计需要的是骨骼。

真正的工作不是抓龙虾，也不是拒绝龙虾。而是为龙虾建造一副骨架——一套严肃的方法论，让Agent的液态力量在因果推理和物理约束的固态框架中凝固为可靠的工程能力。这副骨架不会是完美的，不会是永恒的，它本身也会随技术演进而变化。但没有骨架的龙虾，只能在水里游；有了骨架，它才有可能站到陆地上。

这项工作几乎还没有开始。

小王最近养成了一个习惯。每天下班前，他会花二十分钟手动跑一遍Agent当天做过的某个关键决策——不用Agent，用他自己。有时候他的结果和Agent一样，有时候不一样。不一样的时候，他会去查为什么。他从没对任何人提起过这件事。老陈离开之后，办公室里再没有人用搪瓷杯泡浓茶了。但小王的桌上最近多了一只马克杯。杯子上印着一只卡通龙虾。

Michael Polanyi在《个人知识》（1958）中提出”缄默知识”（tacit knowledge）的概念：我们知道的远比我们能说出来的多。一个骑自行车的人知道如何保持平衡，但无法将这种知识完全用规则表述——芯片设计中资深工程师的”直觉”具有同样的性质。 ↩
React是Meta开发的前端JavaScript框架，长期占据GitHub星标数榜首。OpenClaw在约六十天内超越了它十年积累的记录。 ↩
Steinberger于2026年2月14日宣布加入OpenAI，并承诺OpenClaw将继续保持开源，移交至独立基金会运营。但业界对这一承诺的可持续性普遍持怀疑态度。 ↩
Moltbook在被Meta收购前因大量AI生成的虚假帖子引发争议。一个由AI Agent构建、充斥AI生成内容的平台被一家社交媒体巨头收购——这个事实本身就是对”真实性”概念的一次压力测试。 ↩
Lisanne Bainbridge, “Ironies of Automation,” Automatica, 1983. 这篇论文被广泛认为是人因工程领域最具影响力的文献之一，其核心洞察在四十多年后依然尖锐。 ↩
Charles Perrow, Normal Accidents: Living with High-Risk Technologies, Basic Books, 1984. Perrow认为，在紧密耦合且交互复杂的系统中，事故不是异常，而是系统特性的必然结果。 ↩
法航447航班事故（2009年）是自动化依赖导致灾难的经典案例。事故调查报告（BEA, 2012）指出，飞行员未能识别失速状态并采取正确的俯冲改出动作，核心原因之一是长期依赖自动驾驶导致的手动飞行能力退化。 ↩
Jens Rasmussen, “Skills, Rules, and Knowledge; Signals, Signs, and Symbols, and Other Distinctions in Human Performance Models,” IEEE Transactions on Systems, Man, and Cybernetics, 1983. Rasmussen的框架至今仍是人因工程和安全关键系统设计的基石。 ↩
Andy Clark和David Chalmers在1998年提出的”延伸心智假说”（Extended Mind Thesis）认为，认知过程不限于颅内，可以延伸到外部工具和环境。这一框架在解释人机协作时有启发意义，但在安全关键领域的适用性需要审慎评估。 ↩