因果推論筆記（二）：Causal Effect

Intro

上一篇筆記中簡單敘述因果推論的重要性，以及與統計推論結合如何實現，這份筆記將會從數學符號起手，來介紹counterfactual的架構，並且得到causal effect。在開始之前先舉個實際上的例子：我們想要評估炎性乳腺癌 (Inflammatory breast cancer)的病患中，如果施行三合一療法 (\(S\))後，存活與否 (\(Y\)) 的差別。下面將會以這個舉例貫穿全文。

Counterfactual notation and Average causal effect

先回到統計上的符號，在統計中通常大寫代表了隨機變數 (random variables)，因此我們在建構這些符號時，也是以隨機變數的精神來思考。首先我們會有兩個平行宇宙，在第一個宇宙中某病人施行了三合一療法，被我們標記為\(Y_i(s=1)\)，即使是在這個施行三合一療法的宇宙中，病人是否存活仍然存在著不確定性，亦即\(Y_i(s=1)\)也是一個隨機變數，我們會以一個機率模型描述他；同理，在另一個平行宇宙中該病人並未施行三合一療法，我們將其標為另一個隨機變數\(Y_i(s=0)\)，若\(Y_i(s=1)-Y_i(s=0)\neq 0\)，即是有individual causal effect，而這裡的\(Y(s)\)，通常稱之為counterfactual outcome或是potential outcome。然而，我們僅有接受治療或未接受治療中的一個情況發生，若某病人實際上接受治療 (\(S\)=1)，則counterfactual outcome中 \(Y_i(s=1)=Y_i|(S=1)\)（e.g. 具有相同的p.d.f.），也就是我們觀察到的outcome等於counterfactual outcome，這性質我們稱之為causal consistency，以白話文來敘述就是如果某病人在物理世界中接受某個治療，平行宇宙中同樣接受治療的該病人會具有相同的歷程。

由於不可能在現實中找到同一個人同時接受與不接受治療，因此\(Y_i(s=1)\)與\(Y_i(s=0)\)必然有一個是觀察不到(missing data，同樣的因果推論也是在處理missiing data的問題！) ，那就無法得到這個病人的individual causal effect，此處我們需要Average causal effect來協助我們找到群體治療與否的影響，也就開始會有機率與統計的介入，此處除了一樣需要randomization來確保兩個不同治療之下的病人群體是類似的之外，也需要這個群體足夠大以滿足大樣本性質來幫助我們找到類似的人。Average causal effect的定義相當簡單，由於我們推論的是群體資訊，因此average causal effect的關係式為\(P[Y(s=1)]\neq P[Y(s=0)]\)，又或者是\(E[Y(s=1)]\neq E[Y(s=0)]\)，更廣義的來說，我們也可以用中位數或者是empirical distribbution來定義average causal effect，只要causal effect是兩個不同counterfactual outcome各自的marginal distribution的函數相互比較即可。

Causal effect measure and Association measure

有了前述的關係式，我們得以創造因果推論上的假說檢定\(H_0: P[Y(s=1)=1]= P[Y(s=0)=1]\)，方便我們量測average causal effect的estimand有以下幾種：

\[\begin{cases} \text{Causal risk difference:} &P[Y(s=1)=1]- P[Y(s=0)=1]=0\\ \text{Causal risk ratio:} &\dfrac{P[Y(s=1)=1]}{P[Y(s=0)=1]}=1\\ \text{Causal odds ratio:} &\dfrac{P[Y(s=1)=1]/P[Y(s=1)=0]}{P[Y(s=0)=1]/P[Y(s=0)=0]}=1\\ \text{Number needed to treat:} &NNT=\dfrac{-1}{P[Y(s=1)=1]- P[Y(s=0)=1]} \end{cases}\]

然而，這跟平常所學的似乎不太一樣？考慮association的上述estimands可以表示為：

\[\begin{cases} \text{risk difference:} &P[Y=1|S=1]- P[Y=1|S=0]=0\\ \text{risk ratio:} &\dfrac{P[Y=1|S=1]}{P[Y=1|S=0]}=1\\ \text{odds ratio:} &\dfrac{P[Y=1|S=1]/P[Y=0|S=1]}{P[Y=1|S=0]/P[Y=0|S=0]}=1 \end{cases}\]

以下借用過去的投影片來描述這兩者有何不同之處

物理世界中我們能觀察到的資料就是左邊的方形，我們可以看到如果是相關性，我們是在比較觀察到不同\(S\)條件下個別的\(Y\)，而因果則是將相關性比較中缺漏的部分補成完整的方形，也就是在比較如果整個群體在不同\(S\)條件下的\(Y\)

因此若是觀察到的資料會因為\(S\)的關係而產生不一樣的分配（如方形中的藍點），很顯然能發現相關性在此刻不等於因果

而\(S\)若對於藍點的分配並無影響，也就是如果沒有干擾因子，則相關性就能等於因果！

(To be continued)

Last modified: 2021-06-06.

Title：因果推論筆記（二）：Causal Effect
Author：Shu-Hsien Cho
Link：https://ShuHsienCho.github.io/posts/causal2/
Copyright Clarify：Copyright ownership belongs to Shu-Hsien Cho. For reproduced, please specify from this website.

因果推論筆記（二）：Causal Effect

Intro

Counterfactual notation and Average causal effect

Causal effect measure and Association measure

Comments

Catalogue

Recent

Categories

Archives

Tags

Subscribe to Updates