第四章 混杂和去混杂:或者,消灭潜伏变量
CHAPTER 4 — Confounding and Deconfounding: Or, Slaying the Lurking Variable
当一个变量同时影响到选择接受处理的对象以及实验结果时,混杂偏倚就产生了。(115)⭐
-
如上图所示,位于叉接合中心的变量Z就是X和Y的混杂因子。真正的因果效应X->Y与由叉接合X<-Z->Y诱导的X和Y之间的伪相关混合在一起。(115)
本章的目标之一就是从因果图的角度来解释,为什么随机对照实验能估计出X->Y的因果效应,同时免除混杂偏倚的影响。因果图使分析重心从混杂因子向去混杂因子的转变成为可能(117)
因果革命允许我们超越费舍尔的随机对照实验,通过非实验性研究推断因果效应,其主要途径就来自这种分析重点的转变。(117)
“后门准则”(back-door criterion)可以明确识别出因果图中哪些变量是去混因子。(118)
目前的普遍共识:(1)混杂需要,也具备一个因果解决方案;(2)因果图提供了一种完整的、系统的方法引领我们找到那个解决方案。(118)
对混杂的长期恐惧
- 掌握既定结论背后的假设比试图用随机对照试验来规避这些假设更有价值。且随机对照试验本身也由局限性。(120)
对自然的巧妙询问:随机对照试验为何有效
混杂的新范式
- 已知条件概率P(Y | X)、X与Y之间的因果关系P(Y | do(X)),混杂可定义为导致P(Y | X) ≠ P(Y | do(X)),即两个概率出现差异的所有因素。(127)
- “后门准则”将定义混杂、识别混杂因子和根据混杂因子进行统计调整这些问题变成了一个简单的过程。(133)
do算子和后门准则⭐(本节有很多图示例子可参考学习)
可以将链接看作一个管道,找个管道将信息从起点X传递到终点Y。(133)
事实上,非因果路径是混杂的根源。(之前将混杂定义为任何使得P(Y | X) ≠ P(Y | do(X))的因素),do算子会清除指向X的所有箭头,这样它就可以防止有关X的任何信息在非因果方向流动。(133)
需要牢记的一条基本规则:(134)
控制一个变量的后代节点(或替代物)如同“部分地”控制变量本身;
控制一个中介物的某个后代节点意味着部分的关闭了信息管道;
控制一个对撞变量的某个后代节点意味着部分地打开了信息管道。
A<—B<—C—>D<—E—>F—>G<—H—>I—>J
如上面的因果图,如果这条路径的一个接合被阻断,那么J就无法通过这条路径“找到”A。
因此有很多办法阻断A和J之间的信息流通:控制B、控制C、不控制D、控制E、控制F、不控制G、控制H、控制I等,并且只需要做到一项就足够了。这就是为什么常规的统计过程——控制我们可以测量的一切,造成了如此严重的误导。
事实上,对上图所示的路径来说,在不控制任何变量的前提下,这条路径本身就算被阻断的!D和G的对撞在没有任何外部帮助的情况下阻断了这条路径。而控制D和G将打开这条路径,使A和J能完成信息流通。(134)
更确切地说,后门准则(back-door criterion)定义为所有X和Y之间以指向X的箭头为开始的路径;如果阻断了后门路径(这些路径允许X和Y之间的伪相关信息在管道中流动),就完成了对X和Y的去混杂。
如果试图通过控制某一组变量Z来实现这一点,还需要确保Z的任何成员都不是X的后代,否则可能部分或完全地关闭这条X和Y之间地因果路径。(135)
“M偏倚”指出了传统方法的一个错误:仅仅因为某个变量与X和Y都相关就将该变量视为混杂因子是错误的。(137)
混杂问题的完整解决方案是因果革命的主要两点之一。(140)
《THE BOOK OF WHY: THE NEW SCIENCE OF CAUSE AND EFFECT》
——JUDEA PEARL AND DANA MACKENZIE
本文链接: https://hexo.whtli.cn/archives/5024bd16.html
版权声明: 遵循 CC 4.0 BY-SA 版权协议,转载请附上原文出处链接及本声明。