以色列理工学院与IBM研究院揭开大语言模型推理黑箱,以色列理工官网

这项由以色列理工学院数据与决策科学系与IBM研究院联合开展的研究，于2026年6月以预印本形式发布，论文编号为arXiv:2606.05972，感兴趣的读者可通过该编号查阅完整论文。

一、黑箱里的秘密：AI做决定时，我们为什么看不懂它的理由

当你去医院看病，医生告诉你"你得了流感"，你至少可以追问："为什么这么判断？"医生会解释："你有高烧、全身酸痛、咳嗽，这些症状综合起来指向流感。"整个推理过程是透明的、可追溯的。

然而，当你把同样的症状描述输入一个人工智能诊断系统，它给出了"流感"的结论，你问它"为什么"，它可能会生成一段听起来头头是道的解释——但这段解释很可能根本不是它真正用来做判断的依据。AI说的和AI想的，可以是两回事。

这个问题不是无关痛痒的技术细节，而是一个关乎安全的核心挑战。当AI系统被用于医疗诊断、法律判决或金融决策时，如果我们无法理解它真正的推理过程，那么一旦它出错，我们既无法发现错误，也无法纠正错误。更危险的是，AI可能带着错误的逻辑给出正确的答案，也可能带着我们无法察觉的偏见做出看似合理的决定。

以色列理工学院与IBM研究院的研究团队决定啃下这块硬骨头。他们的问题不是"AI在想什么词"或"哪个神经元被激活了"，而是更根本的：**当AI完成一次分类任务时，它在概念层面上经历了怎样的推理路径？**它关注了哪些高层次的概念？这些概念之间有着什么样的因果关系？哪些概念最终决定了它的输出？

二、两张地图的区别：研究的核心思路

要理解这项研究的独特之处，可以借助一个地图的比喻来思考。

研究人员在处理AI推理问题时，通常有两种截然不同的出发点。第一种是"现实世界地图"——研究者关心的是真实世界中的因果关系，比如"一个作者的性别会不会影响AI对文章的评价？"或者"某个症状在现实中是否真的导致某种疾病？"AI在这里充当的是一个分析工具，用来研究外部世界的规律。

第二种则是"AI推理地图"——研究者关心的不是外部世界，而是AI这个系统本身：当AI读完一段文字、做出一个判断时，它内部走过了怎样的概念路径？这张地图的起点是"文字"，终点是"预测结果"，中间经过的是一系列AI在认知上"感知到"的概念状态。

以色列理工学院与IBM研究院的团队选择绘制的是第二种地图，而且他们用来绘制这张地图的工具，是因果图（Causal Graph）。

因果图是数学家和统计学家用来描述变量之间因果关系的工具。它的每一个节点代表一个变量，每一条有方向的箭头代表一种因果影响关系。传统上，因果图被用来研究现实世界的机制，比如"吸烟→肺癌"这样的关系链。而这项研究的新颖之处在于，他们把因果图搬到了AI的"认知空间"里，用来描述AI是如何从输入文字出发，经过一系列概念的感知和加工，最终得出预测结论的。

换句话说，这张因果图不是在描述世界，而是在描述AI的思维结构。

三、四步拼图：从一堆文字到一张思维地图

研究团队设计了一套由四个阶段组成的自动化流程，就像组装一幅拼图一样，每个阶段都在为最终那张"AI思维地图"添加关键的一块。整个流程的主角既是被研究的对象（目标AI模型），也是生成研究数据的工具——研究者让AI来解剖AI自己。

**阶段一：让AI用自己的标准来给数据贴标签。**

通常，研究者手里有一批已经由人类专家标注好的数据，比如"这段病人描述属于流感"。但研究团队意识到，如果他们想研究的是AI的推理逻辑，就必须用AI自己的判断作为基准，而不是人类的判断。原因很简单：AI可能和人类专家对同一个案例有不同的分类，而他们要研究的正是AI自己的分类依据。

于是第一步，他们把所有文本都输入目标AI，让AI对每一个案例做出自己的分类预测，用这些AI的预测结果替换原本的人类标注。从这一刻起，所有后续的分析都是在研究"AI眼中的世界"，而非"人类眼中的世界"。

**阶段二：让AI告诉我们它关注哪些概念。**

接下来是最核心的一步：提取"区分性概念"。研究团队把数据分成小批次，每个批次包含来自不同类别的样本，然后让AI扮演一个分析师的角色，从这些样本中归纳出能够区分不同类别的高层次概念。

以医疗诊断为例，AI读完一批关于偏头痛、鼻窦炎和流感的病人描述后，可能会总结出"发烧"、"面部压迫感"、"鼻塞"、"光敏感度"等概念，因为这些概念在不同疾病的描述中表现出了明显的差异。

但光有概念还不够，还需要知道对于每一个文本案例，AI是如何感知这些概念的。研究团队定义了一套精巧的标注方式：对于每个概念，AI不只是回答"有或没有"，而是要回答"这个概念在这段文字中存在吗？如果存在，它指向哪些类别？"比如"头痛"这个概念，在某段描述中可能被AI感知为同时支持偏头痛和鼻窦炎两种诊断，而在另一段描述中则被感知为不具有区分性。这种细腻的多层标注，为后续的因果分析提供了丰富的信息。

系统还会对提取出的概念进行筛选，去掉那些几乎从不出现在文本中的概念（这些概念对分析没什么帮助），也去掉那些对所有类别都同等适用、完全没有区分力的概念。只有那些既常见、又有判别力的概念，才能留下来进入后续分析。

**阶段三：用"变脸实验"填补数据中的空白。**

这是整个研究中最具创意的一步，研究团队称之为"受马尔可夫链蒙特卡洛方法启发的反事实数据扩展"。听起来非常高深，但核心思路其实可以用一个简单的例子来理解。

因果分析就像侦探破案。侦探不仅需要看到现场已经发生的事，还需要做假设实验：如果当时凶器不是刀而是枪，情况会有什么不同？如果嫌疑人当时不在场，结果会怎样变化？这种"如果……会怎样"的思维实验，正是建立因果关系的关键。

对于AI推理的因果分析来说，同样需要大量覆盖不同概念组合的样本。但现实中收集到的数据，往往只覆盖了概念空间的一小部分——就像你手里只有几块拼图，无法看出完整的画面。

解决这个问题的办法，就是让AI自己生成"变脸版本"的文本。给定一段原始文本，研究团队会选择其中的某个目标概念，然后让AI对这段文字进行改写，使得目标概念的状态发生变化，同时尽量保持其他概念不变。

举个具体的例子：原始文本是"今天我吃了一颗鲜橙色的、软烂的木瓜"，AI把它分类为"不好吃"（因为软烂通常意味着过熟）。现在研究者选择"软硬度"这个概念，让AI把它往"好吃"的方向改写，于是AI生成了"今天我吃了一颗鲜橙色的、脆爽的木瓜"。这个新文本被AI重新标注概念状态后，如果"软硬度"概念确实发生了预期的变化，而其他概念（如"颜色"）保持不变，这个新样本就被保留下来，加入数据集。

这个过程会对每个文本、每个概念、每个目标类别方向反复进行，就像一个连续运转的改写机器，不断生产出覆盖各种概念组合的新样本。如果某次改写的结果不符合要求（目标概念没变化，或者其他太多概念发生了连带变化），系统还会把失败原因反馈给AI，让它重新尝试，最多重试五次。

经过这个阶段，原本稀疏的数据集变得丰富而覆盖全面，为最终的因果分析奠定了坚实基础。

**阶段四：用专业算法从数据中读出因果结构。**

最后一步，研究团队把扩充后的数据集输入一个叫做σ-CG的因果发现算法。这个算法会分析各个概念变量之间的统计依赖关系，并从中推断出因果关系的方向和结构，最终输出一张有向图——也就是那张"AI思维地图"。

研究团队选择σ-CG这个算法有其特殊原因：它能处理离散变量（各个概念的状态是有限几种取值的类别变量，不是连续数字），而且它不强制要求图中的关系是单向的、无循环的。这很重要，因为在AI的推理过程中，不同概念之间可能存在相互影响的循环关系，预先排除这种可能性会让分析失去客观性。在构建图的过程中，研究团队只加入了两个来自外部的约束：文本节点只能发出箭头、不能接收箭头（它是因果链的起点）；预测结果节点只能接收箭头、不能发出箭头（它是因果链的终点）。

四、三场测试、三个AI：实验是怎么做的

研究团队选择了三个不同的大语言模型来验证这套方法：谷歌的Gemini-2-Flash、一个代号为gpt-OSS-20B的OpenAI开源模型，以及阿里巴巴的Qwen3-14B。这三个模型被应用在三种不同类型的分类任务上。

第一个任务是医疗诊断。数据集叫做LIBERTY，包含1448条人工生成的病人描述，每条描述需要被分类为偏头痛、鼻窦炎或流感之一。这是一个合成数据集，也就是说研究者知道用来生成数据的真实因果结构，因此可以验证算法提取出的概念是否与真实情况吻合。

第二个任务是情感分析。数据集是大名鼎鼎的IMDB电影评论数据集，包含2096条电影评论，每条评论需要被分类为正面或负面。这是一个"野生"数据集，没有预设的因果结构，适合考察AI在面对真实世界数据时的表现。

第三个任务是"AI评法官"——让AI判断两个AI回答哪个更好。数据集来自Reddit，包含395组问答对，每组包含一个用户问题和两个候选回答，AI需要选择它认为更好的那个回答。这个任务特别具有挑战性，因为不同的问题领域（美食、编程、旅行等）所适用的评判标准可能完全不同，无法用一张图来统一描述。为此，研究团队为每个问题单独构建了一张因果图。

五、地图揭开后：AI们"想"的一样吗？

实验结果带来了几个非常有意思的发现。

在医疗诊断任务上，三个AI模型提取出的概念高度一致。Gemini-2-Flash识别出了发烧、面部压迫感、鼻塞、光敏感度这四个核心概念；gpt-OSS-20B在这四个概念之外还额外识别出了疲劳感；Qwen3-14B的结果也非常相似，多出了一个"系统性疲劳"的概念。这些概念，与生成这个数据集时所使用的真实因果结构中的变量基本一一对应。换句话说，在这个结构清晰的合成任务上，三个AI都成功"看穿"了数据背后的真实机制。

然而，尽管三个AI关注的概念相似，它们构建的因果图却各有不同。以偏头痛为例，不同模型对"哪个症状是其他症状的原因、哪个症状是预测结果的直接父节点"有不同的判断。这说明，即使面对同样的信息，不同AI模型内部的推理结构也可能大相径庭。

在情感分析任务上，这种分歧更加明显。三个AI提取出的概念集合本身就有很大差异。Qwen3-14B关注的是"享受感、受众吸引力、期望管理、情感冲击、表演质量"；Gemini-2-Flash关注的是"享受感、满足感、执行质量、真诚度、聚焦感"；gpt-OSS-20B关注的则是"推荐意愿、享受感、基调、受众参与度、整体质量"。这些概念集合有部分重叠，但每个AI都有自己独特的视角和侧重。这表明，在面对真实世界的"模糊"任务时，不同AI模型确实发展出了不同的内部推理策略。

在"AI评法官"任务上，每个AI对不同问题的评判标准也显现出了稳定的个性特征。Gemini-2-Flash在评判时往往更看重回答的简洁直接性和实用性；gpt-OSS-20B则更关注回答的相关性和深度；Qwen3-14B则对回答的可行性和现实性给予了更多权重。

这些发现对实际应用有重要意义：当你在为某个高风险任务（比如医疗辅助决策）选择AI模型时，仅仅比较准确率是不够的，还需要了解不同模型各自的推理逻辑是否符合你的价值观和业务需求。

六、验证地图的准确性：因果图的评估方法

研究团队面临一个棘手的问题：如何验证得出的因果图是否真的反映了AI的推理逻辑？毕竟，没有人知道AI推理的"标准答案"图长什么样，也没有现成的基准可以对比。

研究团队设计了一套聪明的间接验证方案，核心思路是"预测性忠实度"检验——如果因果图真的抓住了AI推理中的关键依赖关系，那么图中每个节点的"父节点"集合，应该比其他任何概念组合都更能预测这个节点的状态。

具体操作是这样的：对于因果图中的每一个节点（每个概念变量，以及最终的预测结果），研究团队训练了一个简单的逻辑回归模型，用这个节点的"因果父节点"集合来预测它的状态。然后，他们把同样的预测任务交给所有可能的其他概念子集来做，比较因果父节点集合的预测准确率与其他组合的平均准确率。

结果令人信服：在所有测试的模型和数据集上，因果图确定的父节点集合的预测准确率，都显著高于其他随机概念组合的平均水平。更进一步，研究团队还统计了因果父节点集合在所有可能组合的"准确率排行榜"上的位置，发现在绝大多数情况下，因果父节点集合都跻身准确率最高的前三名。

以其中一组数据为例：在医疗诊断任务上，使用因果图父节点预测诊断结果的准确率为0.67，而使用其他不包含父节点集合的概念组合的平均准确率只有0.59。这0.08的差距在统计上是显著的，而且在100%的交叉验证折次中，因果父节点方案都跻身准确率前三。

七、"变脸实验"真的有用吗？

研究团队还专门验证了数据扩展阶段的价值，也就是那套生成大量"变脸版本"文本的程序是否真的改善了最终结果。

他们设计了三种对比方案：第一种是直接用完整的原始数据集做因果分析；第二种是只用被选作MCMC扩展起点的那部分原始数据（叫做"种子数据"）做因果分析；第三种是用种子数据加上AI生成的反事实文本一起做因果分析。

结果显示，"种子数据+反事实文本"这种组合在预测准确率上表现最佳，无论是预测最终的分类结果，还是预测中间的概念状态。反事实数据的加入，为概念空间中原本覆盖不足的区域提供了样本，使得因果依赖关系的估计更加准确和稳定。

研究团队还通过一种叫做"KL散度"的统计量来追踪数据扩展过程是否真正收敛。KL散度可以理解为"当前数据分布与之前数据分布之间的差距"——如果这个差距随着扩展的进行逐渐趋近于零，说明扩展过程已经饱和，继续生成新样本也不会改变数据的整体分布了。

为了确保这种收敛不是数学上的假象（因为随着样本数量增加，每个新样本的影响权重天然会变小，KL散度也会因此自然下降），研究团队设计了两条理论边界：一条是"完美重叠边界"（每个新样本都和已有样本在同一个概念状态上，代表完全无效的扩展），另一条是"完全正交边界"（每个新样本都落在一个全新的、之前从未见过的概念状态上，代表最高效的探索）。如果实际的KL散度曲线从靠近"完全正交边界"开始，随着扩展进行逐渐向"完全重叠边界"靠拢，这才是真正意义上的有效收敛。

实验结果恰好呈现了这条期望中的轨迹：早期扩展阶段，AI不断发现新的概念状态组合，KL散度接近正交边界；随着扩展的深入，越来越多的新样本落入已有的概念区域，KL散度逐渐向重叠边界靠近并趋于稳定。更值得关注的是，当KL散度趋于稳定之后，最终的因果图结构也随之稳定——继续扩展数据不再改变因果图中的边结构，说明因果分析已经得到了足够的信息。

八、方法的局限性：研究者自己承认的不完美之处

这项研究的团队在论文中坦诚地列出了几个值得关注的局限性。

概念提取依赖于分批处理的方式，而且每批次的样本组合是随机确定的。不同的分批方式可能导致AI提取出不同的概念集合，可能错过某些重要的区分性概念，或者提取出的概念集合缺乏全面性。如果计算资源允许，进行多次随机分批的提取实验并取综合结果，会比只做一次更可靠。

评估方法目前只验证了每个节点的"父节点"集合的预测力，但没有直接验证更长的因果链条是否准确。也就是说，研究只证明了"A直接导致B"这一步是可信的，但没有证明"A通过B再通过C最终导致D"这条完整路径的整体准确性。

整个流程高度依赖目标AI自己来完成标注、生成反事实文本和判断生成结果是否满足要求。AI的自我评估并不保证完全准确，任何一步的错误都可能传播到后续阶段。研究团队通过设置严格的接受标准来降低这种风险，但无法完全消除。未来的工作可以考虑引入人工审核或多个AI交叉验证来进一步提升可靠性。

九、这对我们意味着什么

归根结底，这项研究做了一件非常有价值的事：它让我们第一次能够用一张清晰的概念地图，看清AI在做分类决策时的推理结构。

不再是"AI说它是这样想的"，而是"通过观察AI的行为模式，我们推断出它实际上是这样想的"。这两者之间的区别，就如同听一个人描述自己的性格，和观察这个人在不同情境下的真实行为——后者往往更接近真相。

更重要的是，这种理解是可操作的。当你发现某个AI模型的推理图中，"种族"这个概念对最终预测结果有直接的因果影响，你就知道这个模型可能存在偏见，需要进一步检查。当你发现两个准确率相近的模型在推理结构上截然不同，你就能根据自己的业务需求和价值判断选择更合适的那个。

这张"AI思维地图"，正在把AI系统的选择和使用，从盲目信任变成知情决策。

**Q&A**

Q1：因果图在解释AI推理时，和普通的"注意力分析"或"特征重要性"有什么本质区别？

A：普通的注意力分析或特征重要性方法只能告诉你AI在做决定时"看"了哪些词或特征，但无法说明这些特征之间的关系，也无法区分相关性和因果性。因果图则更进一步，它描述的是AI感知到的高层概念之间的直接因果影响关系，可以揭示哪些概念是哪些其他概念的"原因"，而不仅仅是和它们"一起出现"。这对于发现AI推理中的偏见或逻辑错误更有实际价值。

Q2：MCMC启发的反事实数据扩展，和普通的数据增强方法有什么不同？

A：普通数据增强（比如翻转图片、同义词替换）是为了增加样本数量和多样性，但没有明确的目标概念控制。这项研究中的反事实扩展是有目的性的——每次改写都针对一个特定的概念，试图改变这个概念的状态同时保持其他概念稳定。而且，系统会验证生成的文本是否真的达到了预期的概念状态变化，不符合要求的会被拒绝或重新生成。这种受控的、有目标的扩展方式，能够系统性地覆盖原始数据中缺失的概念状态组合。

Q3：这套方法在医疗、法律等高风险场景中，实际部署时面临的最大挑战是什么？

A：最大的挑战是方法本身依赖目标AI来生成和验证数据，而AI的自我评估不能保证完全可靠。在高风险场景中，这种"让AI解释AI自己"的内生性问题可能带来系统性偏差——如果AI本身存在某种固定的认知偏差，它在生成反事实文本和标注概念时也可能带入同样的偏差，导致最终的因果图无法准确反映真实的推理结构。未来需要引入独立的人工专家审核或多模型交叉验证机制来降低这一风险。