主体间性文集 · Intersubjectivity

哈贝马斯与一个商量着来的世界-世界模型的第三种可能

Twitter长文 · 世界模型

哈贝马斯与一个商量着来的世界-世界模型的第三种可能

A Third Possibility for World Models — Habermas and a World That Negotiates

✶ ✶ ✶

2021年6月，密歇根大学的一组研究者在JAMA Internal Medicine上发表了一篇论文。他们做了一件很简单的事：验证一下Epic公司的脓毒症预测模型到底准不准。

这个模型已经被美国数百家医院采用了。Epic宣称准确率在76%到83%之间。没有人真正去查过。

结果出来的时候，研究者们沉默了一下。

模型漏掉了三分之二的脓毒症患者。实际准确率大约63%——比扔硬币好不了多少。更糟的是，它对18%的住院患者发出了警报，而在这些警报里找到一个真正需要干预的患者，临床医生需要检查109个假阳性。

数百家医院。几十万住院患者。一个没有人追问过的黑箱。

不是模型太蠢。是没有人问"凭什么"。

那些医院管理者、那些临床科室主任、那些采购决策链上的每一个人——他们看到的是Epic的品牌、是"AI赋能"的标签、是一份内部文档上写着的准确率数字。他们没有追问那个数字是怎么来的。他们没有追问模型在自己医院的患者群体上表现如何。他们没有追问当这个模型说"没有脓毒症风险"的时候，它的不确定性有多大。

不是不能追问。是整个系统的设计，没有给追问留位置。

一个不能被追问的预测，不管它戴着多少"人工智能"的光环——

和一句神谕没有任何区别。

✶ ✶ ✶

◇

第一部分：困局

一、控制的极限：死的准确

有一类系统，你一进去就知道——它很强大，因为它什么都管。

Facebook的内容分发系统。你看到什么、看不到什么，不由你、不由你的朋友、不由写这条内容的人——由算法。算法的目标函数写得很清楚：最大化用户停留时间。为了这个目标，系统精确地建模了你的行为模式、情绪触发点、注意力周期。它比你更了解你自己的弱点——然后利用这些弱点让你多刷十分钟。

这是控制范式的杰作。准确、高效、可追溯—Meta的工程师可以追踪任何一条内容是如何到达你面前的。每一步都有日志。每一个推荐都有理由。从工程角度看，这是完美的系统。

币安的交易引擎也是。每一笔交易都被撮合、清算、结算——毫秒级延迟，全链路可审计。风控规则层层嵌套，异常交易实时监测。你做的每一个操作都在规则之内。规则之外的事情不会发生。

新加坡把这个逻辑推到了国家治理的层面。组屋分配、交通管理、教育分流、移民政策——每一项都是精密设计的机制，每一步都有清晰的规则和可预期的结果。运转极其良好。效率极高。争议极少——不是没有争议，是争议没有太多生存空间。

这三个系统有一个共同特征：它们都非常准确，也都非常死。

死，不是说它们不运作。它们运作得太好了。死，是说它们不允许意外。每一个不在预设范围内的行为，要么被过滤，要么被修正，要么被惩罚。系统追求的是确定性——而确定性的代价是：一切真正新的东西都会被当作噪声处理。

Facebook的内容审核系统无法区分"有害言论"和"对有害现象的批评"。它只能按模式匹配。一个讨论缅甸军事政变的帖子和一个煽动对罗兴亚人暴力的帖子，在模式匹配的层面上可能非常相似——系统选择宁可杀错不可放过。

币安在面对新型金融衍生品时的第一反应是限制，不是理解。新加坡的城市治理在面对无法预期的社会创新时——比如自发形成的地下文化社区——的默认处理也是规范化，也就是把它纳入已有的分类里。

控制范式的极限在这里：它可以让已知的东西运行得极好，但它无法容纳真正未知的东西。 当你把控制推到极致，你得到的是一个没有噪声的世界——同时也是一个没有涌现的世界。

没有涌现的世界，什么都可以预测。

但没有什么值得预测。

二、涌现的极限：活的失控

另一类系统让你看到了完全不同的东西。

2023年4月，斯坦福大学的Joon Sung Park和他的同事发表了一篇论文：Generative Agents: Interactive Simulacra of Human Behavior。他们做了一件很诗意的事——在一个叫Smallville的虚拟小镇里放进了25个AI agent，给每个agent写了一段简短的人设（名字、职业、关系、几条习惯），然后放手不管。

没有人编程让这些agent做什么。没有规则脚本。没有行为树。

两天之后，这些agent自发地组织了一场情人节派对。一个agent决定竞选镇长，其他agent开始讨论他的胜算。有agent主动约另一个agent去派对。信息在agent之间自发扩散——Sam在杂货店告诉Tom自己要竞选，Tom后来又和John聊起这件事。

所有这些社会行为都是涌现的，不是预编程的。

研究者的原话是：我们没有在社会层面设计任何东西，这完全取决于agent自己。

GPT系列的每一次能力跃升几乎都来自涌现。In-context learning——在prompt里给几个例子，模型就能学会新任务——没有人设计这个能力，它在模型规模达到某个临界点后自动出现了。Chain-of-thought推理也是。Tool use也是。这些不是特性，是惊喜。

DeepSeek也展示了类似的跳跃。

涌现的魅力是无法抗拒的。它暗示着一种可能性——也许我们不需要设计智能，我们只需要创造条件，让智能自己长出来。

但涌现的另一面是：你不知道它会长成什么。

Smallville的agent也出了问题。他们对家人说话的语气和对陌生人一样正式。他们会同时使用同一个洗手间。他们中午不去咖啡馆，去酒吧——像是集体养成了白天酗酒的习惯。

这些当然是小bug。但它们指向一个结构性问题：涌现没有方向。 你可以说"有价值的涌现"和"有害的涌现"，但在涌现发生的那一刻，你没有任何机制区分这两者。你只能事后看。

Sora生成的视频里，篮球会瞬移到篮筐里。体操运动员的身体在空中扭曲成物理上不可能的形态。水可以往上流。字节跳动和清华的联合研究直接下了结论：单纯靠扩大规模，不足以让视频生成模型发现基本的物理定律。它们学到的是表面模式——颜色、形状、运动方向——不是因果结构。

涌现范式说：先让它生长，再来修剪。

但如果你的修剪工具是在生长之后才设计的，你永远比问题慢一步。

一个完全自由联想的人不是天才，是精神分裂。天才和疯子的区别不在于涌现本身——在于涌现是否可以被追问。

三、缺失的中间层——不是平衡，是需要一种新关系

你可能以为答案在两者之间——控制多一点，涌现少一点，找到一个平衡。

这是一个直觉上说得通、但结构上行不通的想法。

"平衡"意味着在同一根轴上调参数。多一点控制 = 少一点涌现。多一点涌现 = 少一点安全。这是一个零和博弈。你永远在妥协，永远没有一个让两边都满意的点。

缺的不是一个平衡点。缺的是一个新的维度。

一种机制，不在"控制多少涌现"上做选择，而是在"涌现发生之后如何处理"上提供结构。

这种机制在人类社会里早就存在。

你允许人说出意料之外的话。但你可以追问"你凭什么这么说？"。你允许人做出意料之外的行为。但行为可以被评价、被质疑、被要求给出理由。

这不是控制。控制是提前规定你能说什么、不能说什么。

这也不是放任。放任是你说什么都行，没有人追问。

这是——商谈。

哈贝马斯花了整个职业生涯在阐述这一件事：人类之所以可以在自由和秩序之间找到路，不是因为找到了平衡，是因为拥有了追问的权利和结构。

AI世界模型缺的正是这个。

◇

第二部分：哈贝马斯的刀

四、有效性宣称：不是三个标准，是一种可以追问的关系

哈贝马斯1981年出版了《交往行动理论》（The Theory of Communicative Action）。这本书有一千多页，写得极其艰涩。但它的核心可以用一段话说清楚。

每一个以达成理解为目的的语言行动，都同时提出三种宣称——

真实性（Wahrheit）：我说的符合客观世界。"明天会下雨"——这要么是真的，要么不是。

正当性（Richtigkeit）：我说的符合我们共同承认的规范。"你应该带伞"——这个"应该"背后有一套关于关心、责任、社交礼仪的规范在支撑。

真诚性（Wahrhaftigkeit）：我说的是我真正相信的。我不是在敷衍你，不是在操纵你，不是在说我自己都不信的话。

哈贝马斯的洞见不在于发现这三种宣称——这并不难想到。他的洞见在于指出：这三种宣称的功能不是用来"判分"的，是用来"追问"的。

当你觉得对方说的不对，你追问真实性——"你凭什么说明天会下雨？"

当你觉得对方的做法有问题，你追问正当性——"你凭什么觉得你可以替我决定？"

当你觉得对方在说谎或敷衍，你追问真诚性——"你真的是这么想的吗？"

只要每一个宣称都可以被追问，对话就不会塌缩。不会塌缩成独断——因为独断意味着某些宣称免于追问。不会塌缩成混乱——因为追问提供了方向和结构。

哈贝马斯把这个叫做"理想言说情境"（ideale Sprechsituation）：没有人因为身份或权力而免于被追问。每个参与者都可以要求对方为自己的宣称提供理由。理由本身也可以被追问。

这不是乌托邦。这是一个过程——一个永远不终止的、通过追问逼近共识的过程。

共识不是终点。共识是"到目前为止没有人能提出更好的反对理由"。

这就是商谈。

五、AI预测的三重宣称——真实性、正当性、真诚性

把哈贝马斯的框架放到AI预测上。每一次AI做出一个预测、一个决策、一个推荐，它实际上同时提出了三种宣称——即使它自己"不知道"。

真实性宣称：你说的符合现实吗？

Sora第一代生成的视频里，水往上流，篮球瞬移，手指有六根。这是真实性宣称的赤裸裸的失败——生成内容和物理现实不符。但更微妙的真实性问题藏在日常预测里。

Epic脓毒症模型说"这个患者脓毒症风险低"——这个判断的真实性如何？密歇根大学的研究告诉我们：三分之二的脓毒症患者被这个判断放过了。模型的AUC是0.63，比它自己宣称的0.76到0.83差了一个世界。

但没有人追问。数百家医院直接信了。

正当性宣称：你的建议站在谁的立场上？

当一个医疗AI系统推荐优先治疗某个患者而非另一个，这不只是一个预测问题——是一个规范问题。你用了什么原则？紧急程度优先？预期生命年数最大化？先到先得？

当前的对齐方法——RLHF、Constitutional AI——把价值观烧进模型权重里。问题是：烧进去之后不可追问。你无法知道模型在某个具体推荐上用了什么价值前提。你也无法在运行时说"换一套原则重新算"。

这就像一部法律被硬编码到芯片里。你只能遵守。不能辩论。不能修订。不能在具体案例中做例外处理。

真诚性宣称：你真的知道你在说什么吗？

这是三层中最微妙的一层。AI没有"内心世界"。它不会"故意"撒谎。但它可以以一种结构性的方式不真诚——当它不知道的时候，表现得像知道。

Epic脓毒症模型以确定的语气给出风险评分，没有附带任何关于这个评分可靠性的结构化信息。密歇根大学的医生们不知道，当模型说"低风险"的时候，这个判断背后的不确定性有多大。模型的"自信"和它实际的能力之间存在一个巨大的裂缝。但这个裂缝对使用者不可见。

一个不表达自身不确定性的系统，在结构上就是不真诚的——不是因为它在欺骗，是因为它的输出方式隐藏了它自身的局限。

六、核心转折：世界模型不是正确的表征，是一组可以被追问的宣称

到这里，可以说出这篇文章最关键的一句话了。

控制范式追求一个"正确的世界模型"——一个和现实严格对应的表征。如果模型足够准确，一切问题都会消失。

涌现范式追求一个"自由生长的世界理解"——让模型自己探索、自己建构对世界的理解。如果探索足够深入，真正的智能会出现。

哈贝马斯给出第三种可能：

世界模型不是正确的表征。世界模型是一组宣称。每一个宣称都可以被追问。

"明天降水概率80%"——这不是一个事实。这是一个宣称。它的真实性可以被追问（你凭什么这么判断？）。它的正当性可以被追问（这个预测的阈值设定对谁有利？）。它的真诚性可以被追问（你的不确定性有多大？）。

追问不终止于某个最终答案。追问维持的是追问本身的可能性。

这看起来好像什么都没解决。没有给出"正确答案"，也没有消除不确定性。

但它解决了最根本的问题：它让你和AI之间有了一种可以"说话"的关系。

不是"我问你答"。不是"你输出我接受"。是——你说了一个东西，我可以追问，你必须回应，我可以再追问，你可以修正或坚持但必须给出理由。

这就是商谈的结构。

这个结构里，涌现被重新定义了：涌现是AI提出了一个设计者没有预见的宣称。 只要这个宣称可以被追问、可以在商谈中接受检验——涌现就是安全的。危险的不是涌现本身，是不可追问的涌现。

控制的问题不是控制本身，是它让追问变得不必要。

涌现的问题不是涌现本身，是它让追问变得不可能。

商谈同时解决了两个问题：涌现被鼓励，但追问永远在场。

◇

第三部分：商量着来的Chaos世界的三种可能性

七、诚实的Chaos——以现实收敛

Chaos不是无序。Chaos是还没有被追问过的有序。

一个真正的Chaos世界里，什么都可能发生。这是涌现的天堂，也是决策者的噩梦。你不知道哪些是信号，哪些是噪声，哪些是尚未被理解的新模式。

但Chaos中有一种最简单的操作，可以让地形开始显现——诚实。

具体地说：让AI学会三句话。

第一句："我不确定。"

不是作为敷衍，而是作为结构化的表达。"我不确定"后面必须跟着具体的东西——我不确定的原因是什么？是数据不够？是我的模型根本不擅长这类判断？还是这个问题本身在物理上就不可预测？

这三种不确定性对应着完全不同的后续行动。数据不够——去找数据。模型不行——换方法。问题本身不可预测——调整你的决策框架，不要指望精确预测。

Epic脓毒症模型的核心失败不在于预测不准——预测不准是可以改善的。核心失败在于它从来没有结构化地告诉使用者"我不准"以及"我为什么不准"。它的输出是一个数字。一个光秃秃的数字，没有任何关于自身可靠性的附加信息。

真诚性就是把这个附加信息补上。

第二句："如果X发生，我的结论会反过来。"

这叫反转条件。它可能是所有追问中最有实际价值的一个。

"明天降水概率80%"——这个信息本身有用，但更有用的是："如果当前低压系统路径偏北超过200公里，降水概率会降到30%；这种偏转发生的可能性大约15%。"

你知道了80%，你也知道了让80%崩塌的条件。你的决策空间立刻从一个点变成了一张地图。

第三句："这些是我能站住的地方，那些是我不确定的地方。"

不确定性有地形。有些区域模型能力强、数据充足、预测稳定——那是实地。有些区域模型从未见过类似情况、不确定性极高——那是迷雾。

把实地和迷雾标出来，Chaos就开始有了结构。不是被消灭了——是被标注了。你知道哪里可以落脚，哪里需要小心。

这就是以现实收敛。不是用控制压平Chaos，是用诚实让Chaos中可以依赖的部分显现出来。

Chaos还在。但你不再是在黑暗中走路。

你手里有了一张不完美但诚实的地图。

八、可追问的Chaos——以商谈通行

地图是静态的。但Chaos不是。

你需要的不只是一张标注了实地和迷雾的地图——你需要一种在Chaos中走路的方式。每走一步都可能踩到新的实地，也可能踩进新的迷雾。你需要的是：每一步都可以追问。

追问不是质疑。追问是——我接受你给了我一个判断，但我要求你展开这个判断的理由链。

"凭什么？"——展开你的依据。不是全部计算过程——那不可能也无意义。是关键的几步。你的结论主要依赖哪几个数据点？哪一步推理最不稳定？

"如果这一步不成立呢？"——做一次局部消融。拿掉这个依据，你的结论会怎么变？如果拿掉一个依据，整个结论就塌了——那这个依据就是脆弱点。使用者需要知道脆弱点在哪里。

"还有别的可能吗？"——给出替代路径。也许你用了某个假设，也许换一个假设，结论完全不同。

密歇根大学的研究者们实际上就是在做追问。他们对Epic脓毒症模型的追问——在自己的患者群体上外部验证——揭示了模型声称的准确率和实际表现之间的巨大鸿沟。但这个追问花了好几年才发生。在那之前，数百家医院使用了一个未经追问的模型。

如果追问是系统的一等公民——不是事后的研究论文，而是运行时每一次预测都附带的可追问结构——那么每家医院在部署的第一天就可以做密歇根大学做的事。

追问让Chaos变得可通行。 不是把Chaos变成秩序——那是控制。是在Chaos中踩出一条条可以走的路。每一次追问就是踩出一步。路不是预先铺好的，是走出来的。

而最重要的一点——

追问是双向的。

如果只有人类追问AI，那还是主从关系。还是人类审查机器。

一个真正商量着来的世界模型，AI也可以反问。

"你确定你要这个吗？你的前提是什么？如果你的前提不成立呢？"

斯坦福Smallville的agent之所以展示出那么丰富的社会行为，正是因为它们之间有追问——Sam告诉Tom自己要竞选，Tom不是无条件接受这个信息，他后来和John讨论Sam的胜算。这就是追问。信息不是单向灌输，是在追问中被检验、被传播、被修正的。

当然，Smallville的agent也做出了荒谬的事——白天去酒吧、同时使用同一个卫生间。这些荒谬行为恰好说明了追问不够深的后果——agent之间的互动停留在信息交换的层面，没有深入到对彼此行为正当性的追问。如果一个agent可以追问另一个agent"你为什么中午去酒吧？"——那个荒谬的涌现可能就会被修正。

追问不是消灭涌现。追问是——涌现发生之后，给它一个被检验的机会。

经过追问的涌现，比未经追问的控制更可信赖。

九、博弈的Chaos——以张力存活

真实性、正当性、真诚性——三种宣称之间不是和谐共存。它们之间有张力。有时候这种张力无法消除。

一个预测可以是真实的，但不正当。

Epic脓毒症模型如果在某个特定患者亚群上预测得非常准确——但这个亚群恰好排除了少数族裔——那么模型的真实性没有问题（在它覆盖的群体上确实准确），但正当性有严重缺陷（系统性地排除了某些人群）。研究已经表明脉搏血氧仪在不同肤色人群中的准确度差异会传导到脓毒症预测模型中，放大既有的不平等。准确的歧视仍然是歧视。

一个建议可以是正当的，但不真诚。

一个AI系统在敏感话题上给出政治正确的回应——它完美地符合社会规范（正当性满分），但它掩盖了自己实际的不确定性（真诚性严重不足）。它说"这是一个复杂的问题，需要多角度看待"——这句话在规范上无懈可击，但它的实际信息量约等于零。

一个表态可以是真诚的，但不真实。

模型诚实地告诉你它认为什么——但它认为的恰好是错的。诚实的错误。

三重宣称之间的这种张力不是bug。它是系统的生命力。

如果三种宣称永远和谐一致——那意味着没有真正的冲突需要处理，也就没有真正的商谈需要发生。系统退化成了一个静态的、自洽的、没有生命力的东西。

真正活的系统里，三种宣称持续地互相牵拉。真实性要求无视政治正确（但正当性拉住它）。正当性要求修改判断标准（但真实性拉住它）。真诚性要求暴露所有不确定性（但这可能让使用者感到不安）。

这种牵拉不需要终局。博弈本身就是世界模型持续自我修正的动力。

想想Sora的演进。第一代Sora生成的视频物理规律混乱——这是真实性宣称的失败。OpenAI在Sora 2中改进了物理一致性——篮球不再瞬移到篮筐，如果投篮没中，球会从篮板弹回。但Sora 2仍然不完美。研究者仍然在追问。每一次追问都在推动系统修正自己的真实性宣称。

这个过程不会有终点。因为"真实性"本身是一个不断被重新定义的标准。随着我们对物理世界的理解加深，随着应用场景的扩展，"什么算是足够真实"这个问题的答案一直在变。

控制范式试图消除博弈——给一个标准答案，所有人必须接受。

涌现范式放任博弈——没有仲裁规则，一切自行演化。

哈贝马斯的路：博弈在商谈中进行。 没有谁可以免于被追问，包括仲裁规则本身。一个规则如果不好——追问它。一个标准如果过时——追问它。一个模型如果不准——追问它。一个价值前提如果有偏见——追问它。

没有终局。只有持续的商谈。

这就是一个活的、有张力的、但不失控的Chaos。

诚实让Chaos有了地形。追问让Chaos可以通行。博弈让Chaos保持活力。

三者加在一起——就是一个商量着来的世界。

◇

✶ ✶ ✶

回到Epic脓毒症模型。

2021年之后发生了什么？密歇根大学的论文发表了。Epic不得不公开回应。然后Epic花了一年多的时间重新调整模型，承认了性能问题，修改了推荐阈值。其他医院开始在部署前做独立验证。学术期刊呼吁所有临床AI预测模型必须经过外部验证才能广泛采用。

这就是商谈。

不优美。不迅速。充满争论和拉锯。Epic一开始还在辩护——说研究者的方法有问题、说模型需要在部署前做特定调优。研究者不同意，坚持认为一个声称80%准确率的产品在外部验证中只跑出63%，这本身就是一个需要回应的问题。

来来回回。追问。回应。再追问。修正。再追问。

没有一个"终极正确答案"在这个过程的尽头等着。只有一个持续的、不断逼近更好理解的过程。

这个过程中的每一步，都让世界变得更可居住了一点。

控制说：给你一个答案，信就好了。

涌现说：答案会自己长出来的，等就好了。

而商谈说——

来，我们一起想想。

你觉得呢？

我觉得不一定。

为什么？

然后就接着谈。

这就是全部。

✶ ✶ ✶