因果推論筆記(一):What is Causality?

Intro

有鑒於過去在中研院擔任RA時,並沒有建立良好的習慣來記錄自己三年來的所學,而這個網站為了培養這個習慣之餘,我也希望能一點點的把過去所學建檔,並且在未來能有所用,因此接下來會有一系列我個人對於因果推論的摘要,以及因果中介分析論文的內容介紹。

當然,近來因果推論在AI的領域相當盛行,而對這領域有些了解的人必然知道,事實上在40年前就已經開始有電腦科學家在進行因果推論的研究,而他們是使用一種稱為Directed Acyclic Graphs (DAG) 的模式來研究AI,而其中最著名的人就屬在UCLA資工系任教的Dr. Judea Pearl。但在流行病學與統計學領域中也有兩位相當著名的教授,分別是Dr. James Robins 以及Dr. Don Rubin兩位在Harvard的老師(甚至兩位老師的觀點也有些不同),而接下來的介紹會更接近流行病學與統計學中使用的因果推論為主,因此內容會包含較多的符號與統計概念,如果對資工以及AI有興趣的人可以去閱讀Dr. Judea Pearl所寫的“Causality”,或者是更為通俗的“因果革命”。

Overview

在因果推論中,了解因果之前必須要先了解因果關係、相關、以及交互作用的差異,了解這些就能對不直觀的矛盾找出更合理的解釋,如Simpson Paradox。當我們有了清楚的分界,接下來就能將因果推論擴展到最常用的兩個主題:隨機試驗以及觀察性研究,並且介紹因果推論在這兩個主題上的各種應用,包含前述的DAG,以及經常出現的選擇偏誤跟干擾因子在因果推論中的處理等等。界定好上述問題後,可以將因果推論擴展到因果中介分析,以及在經濟學、政治學以及遺傳學中常見的工具變量 (Instrumental Variable,在遺傳學中則為Mendelian Randomization),最後則會基於因果中介分析來介紹一些閱讀過或者是我有參與的論文。

What is Causality?

人生而為人永遠都在尋找因與果,不管是俗諺中的「種什麼因,得什麼果」、佛教信仰中的「因果輪迴」、乃至於今天學習科學中的「因果關係」,再再證明人類對因果推論的本能與渴求,可大多數時候我們不求甚解,經常性地將僅僅是眼睛看見的資訊(亦即統計上的observation)得到的關係作為因果,造成了統計上的名言:「相關並不代表因果」,然而我們卻缺乏適當的數學工具在統計中描述因果並解釋之。雖然我們可以透過日常的事件來思考甚至回答兩件事情是否為因果,例如:疾病治療的效果、冰淇淋銷量與鯊魚攻擊數量的正相關、銷售額的增加要歸因於廣告還是價格等,事實上想要在數學上建立因果事實上需要更多的條件,如藥廠在進行藥物開發與療效評估時,必須要創造出隨機控制試驗 (Randomized Control Trial) 這樣近乎完美的試驗,甚至還得複製數次才得以找出因果關係,而這件事恰恰說明因果推論的核心觀念:控制所有變因下的可複製結果

想要創造出這樣完美的實驗,我們必須要先有「反事實架構 (Counterfactual framework)」 以及「介入 (Intervention)」,counterfactual以中文常見的語彙來說是「如果做了什麼『介入』,會怎樣?」也就是我們創造了另外一個平行世界來推論,然後透過intervention來推論因果是否存在。例如:雖然我們都說雞啼之後太陽就會升起,但我們可以直覺得知在另外一個平行世界中,即使今天把雞燉成雞湯,太陽依然照常升起。我們也能從這樣的例子知道,因果關係同時也潛藏時間的先後順序性,以及因->果這樣的一個箭頭方向。為什麼生物統計、醫學、流行病學、試驗等等方法論牽涉更多的因果推論?因為人只有一條生命與一個歷程,我們沒有辦法在現實的觀察中得到另外一個一模一樣的你跟我,加上在醫學的研究中不能出差錯,畢竟人死不能復生,所以在這方面就需要更嚴謹的因果推論架構,不像做機器學習可以更有彈性的調整參數而不對真實人命有影響(也不會被告),事實上任何的預測方法其實都未必需要因果推論,大部分現存的機器學習方法也很難辯證干擾因子以及偏誤。

當我們知道了因果推論的重要性之後,下一步則討論如何結合因果推論與統計推論。首先回到統計的觀念,進行推論之前我們必須要有目標的estimand,這個待估計的量可以讓我們用估計量 (estimator) 來近似我們想從資料中推斷出的母體資訊,但在創造estimand時,比起使用機率與模型,我們更多時候是優先考慮找到一個想得到的資訊的表現形式(如我們想衡量療法能降低多少死亡風險),再去使用模型來想辦法得到estimator這個表現形式(如log hazard ratio),才得到估計值 (estimate) 這個近似值,最後就是把因果的直觀與統計推論連接,並且在有共識的反事實框架下有效地透過因果來溝通。因此,在定義問題與闡釋因果的階段,我們必須在考慮資料特性前就先評估因果,而不是優先考慮可用模型,並且適當的使用一些無須考慮資料特性的因果假設來創造一個前述的平行世界,這些假設我其實很常稱呼為多拉A夢的時光機,而這些假設會在後面提到。

Conclusion

綜上所述,我們必須了解到因果推論是發生在統計推論之前,並且我們不會因為有了Causal inference讓我們的統計推論得到天翻地覆的變化或是發展出全新的統計量成為causal一方之霸,也不是因為理解causal而開嘴任何的統計方法都沒有因果關係或不符合假設,畢竟我們如果把研究放到量子糾纏的層次,永遠都沒辦法排除掉那隱含的不確定性。因果推論的科學問題更著重在確保怎樣的條件與假設下,使得因果成立,並且得到我們有興趣且具有因果關係的標的,我想這才是因果推論的精髓。

(To be continued)

# Recommend Posts
  1.MD Anderson GSBS第一學期回顧
  2.Statistical Inference Note
  3.Inference on Selected Subgroups in Clinical Trials
  4.Survival Analysis Note
  5.因果推論筆記(一):What is Causality?

Comments