ベイズ因果推論：批判的レビューと最先端の展開

1

因果推論の3大流派と潜在結果フレームワーク

因果推論（Causal Inference）は、たんなる「共変関係（相関）」から、能動的介入に対する結果の変化としての「因果関係」を切り分けるための統計的枠組みです。本論文が依拠する潜在結果フレームワーク（Potential Outcomes Framework）（Rubin因果モデル）では、介入を仮想的に操作可能な「処置（Treatment）」と定義し、同一の主体において異なる処置が与えられた場合に生じたであろう結果の対比をもって因果効果を定式化します。

アプローチ	統計的枠組み	推論の基礎	不確実性のソース
フィッシャーのランダム化テスト	頻度論的 (Fisherian)	「処置効果は全くない」とする鋭い帰無仮説 (Sharp Null)	割付（ランダム化）の置換分布のみ
ネイマンの反復サンプリング評価	頻度論的 (Neymanian)	平均因果効果。不偏推定量と漸近正規性。	サンプリングとランダム割付の繰り返し
ベイズ因果推論	ベイズ主義 (Bayesian)	因果推論を「欠損データ（反事実）の補完問題」と捉える	パラメータの事後分布と欠損値の事後予測分布

基礎となる重要な仮定（SUTVA, Ignorability & Overlap）

SUTVA (Stable Unit Treatment Value Assumption)、無視可能性 (Ignorability)、重なり条件 (Overlap) は、潜在結果に基づく因果推論の土台になる仮定です。

SUTVA: 他主体の処置による干渉（相互作用）がなく、処置自体に異なるバージョンが存在しないことを要請します。
強い無視可能性と重なり条件: 観測された共変量 $X_i$ のもとで処置割付 $Z_i$ が潜在結果と独立であり、さらに傾向スコア $e(X_i)$ が 0 や 1 に張り付かないことを要請します。

$$Z_i \perp \! \! \! \perp \{Y_i(0), Y_i(1)\} \mid X_i \quad \text{and} \quad 0 < e(X_i) < 1$$

2

因果推定対象の再定義とベイズ的分解

ベイズアプローチでは、観察データにおいて観測された「事実（Factual）」である $Y^{obs}_i$ を用いて、欠損した「反事実（Counterfactual）」である $Y^{mis}_i$ を予測・代入（Imputation）することで因果効果を推定します。

PATE (Population Average Treatment Effect)

母集団平均因果効果

対象データが抽出された無限の超母集団における平均効果。

$$\tau^{P} \equiv \mathbb{E}\{Y_i(1) - Y_i(0)\} = \mathbb{E}\{\tau(X_i)\}$$

SATE (Sample Average Treatment Effect)

標本平均因果効果

観測された有限標本 $N$ 個体における実際の平均効果。

$$\tau^{S} \equiv \frac{1}{N} \sum_{i=1}^N \{Y_i(1) - Y_i(0)\}$$

CATE (Conditional Average Treatment Effect)

条件付き平均因果効果

特定の共変量値をもつ部分群における因果効果。不均一性の基本。

$$\tau(x) \equiv \mathbb{E}\{Y_i(1) - Y_i(0) \mid X_i = x\}$$

MATE (Mixed Average Treatment Effect)

混合平均因果効果

共変量分布に「標本の経験分布」を代用した、実務的なベイズ標準指標。

$$\tau^{M} \equiv \frac{1}{N} \sum_{i=1}^N \tau(X_i; \theta_Y)$$

なぜ SATE の不確実性は PATE よりも小さいのか？

PATEの推定では、共変量の分布や潜在結果モデルの「パラメータの不確実性」に加えて、母集団から標本を抽出するサンプリング誤差が加算されます。一方、SATEは手元にある特定の標本個体に焦点をあてるため、すでに固定された共変量のばらつきをモデル化する必要がありません。

反事実の相関パラメータ $\rho$ の役割: SATE の推定値自体は、欠損した片方の結果の予測値の平均に依存するため、$Y_i(0)$ と $Y_i(1)$ の間の相関 $\rho = \text{Corr}(Y_i(0), Y_i(1))$ に敏感です。データ自体は各個人における単一の処置結果しか教えてくれないため、$\rho$ に関する情報は観測データからは得にくく、このパラメータは「部分的（弱い）にしか識別（Partially Identified）」されません。

【インタラクティブ】潜在相関 $\rho$ と SATE / PATE 事後不確実性の比較シミュレータ

スライダーを操作して、反事実どうしの相関 $\rho$（本来データからは観測不能）や標本サイズ $N$ が、SATE の欠損潜在結果の代入不確実性にどのようなインパクトを与えるかを視覚的に確認してください。

反事実相関 $\rho = \text{Corr}(Y(0), Y(1))$ : 0.5

負の完全相関 (-1) 独立 (0) 正の完全相関 (1)

標本サイズ $N$ : 100

残差不確実性 $\sigma$ : 2.0

解析的数学関係式：

SATE代入分散の簡易近似（$\sigma_0=\sigma_1=\sigma$）：

$$\text{Var}(\hat{\tau}^{S}_{mis}) \approx \frac{\sigma^2(1-\rho^2)}{N}$$

$|\rho| \to 1$ のとき欠損潜在結果の条件付き代入幅は小さくなります。

3

結果モデルの特定と高次元統計学の罠

ベイズ因果推論の中心には、結果モデル $\mu(z, x) = \mathbb{E}(Y_i \mid Z_i = z, X_i = x)$ の柔軟な構築があります。伝統的な線形モデルは、外挿領域で不確実性を小さく見積もりやすいという欠点（Example 4.1に示される特性）があります。

S-Learner (Single)

処置インジケータ $Z$ を他の共変量 $X$ と同じ入力変数として、一つの回帰器で学習するモデル。

デメリット: 変数の次元が高い場合、正則化の過程で処置効果 $Z$ が他の共変量に埋没し、効果自体がゼロに向かって不当に縮退するリスクがあります。

T-Learner (Two)

処置群 ($Z=1$) と対照群 ($Z=0$) のそれぞれに対して、別々の結果モデルを学習するモデル。

デメリット: 双方のデータを共有しないため、データが疎な領域（オーバーラップ欠如部）では推定のバリアンスが大きくなりやすい。

BART & BCF

樹木アンサンブル（BART）の正則化事前分布によって、関数の非線形性と交互作用を柔軟に捉えるモデル。

要点: Hahnら(2020)のBCFは、処置効果（CATE）自体とベースライン予後を分けてBARTモデルを配置し、RICを抑えることを狙います。

高次元・高パラメトリック領域に潜む因果の罠

正則化誘発交絡 (Regularization Induced Confounding: RIC)

典型的な高次元事前分布（Bayesian LASSOやSpike & Slabなど）を結果回帰に直接かけると、結果と強い関連をもつが処置確率とも相関する共変量（交絡因子）への係数がゼロ方向へ過度に縮小され、擬似的な選択バイアスを発生させる現象です。

事前分布の教条主義 (Prior Dogmatism)

共変量・処置割付・結果モデルのパラメータが互いに独立であるとする仮定（論文中のAssumption 3.2）のもとで共変量の次元 $p$ が大きくなると、この独立性事前分布自体が結果パラメータに対して強い情報を持つ場合があります。その結果、データだけではバイアスを十分に打ち消せないという脆弱性が生じます（Linero 2021）。

【インタラクティブ】外挿・不確実性比較プロッター (Example 4.1の再現)

共変量オーバーラップ（処置群と対照群の類似度）の状態を切り替えて、線形モデル、BART、ガウスプロセス (GP) の3者が、オーバーラップの悪い外挿域でどのように不確実性の幅を示すか比較してください。

オーバーラップの状態

可視化の洞察：

ガウスプロセス (GP)： 外挿域では関数の自由度が広がるため、信用区間もラッパ状に広がり、過度に狭い区間推定を避けやすくなります。

BART： 均一な決定木構造であるため、外挿域でも不確実性の幅がほとんど広がらず、モデル誤特定のもとで過小評価しやすい傾向があります。

4

傾向スコアの役割とベイズのパラドックス

ベイズ定式化における傾向スコアのパラドックス

強無視可能性および事前分布のパラメータ独立性（$\theta_Z \perp \theta_Y$）の数学的帰結として、傾向スコアモデル（割り付け確率）は、結果パラメータの事後分布導出の数式から「無視可能（脱落）」になります。すなわち、数式上ベイズ流因果効果の推定において傾向スコアを計算・推定する必要は本来ありません。

ただし、この数式上の整理はモデル誤特定（Misspecification）の問題を消すわけではありません。結果モデルが正確ではない（例えば関数が二次曲線なのに線形回帰を適用してしまったなど）場合、結果モデル単体での予測は、外挿領域や交絡領域でバイアスを受けます。この「ベイズパラドックス」に対して、実務では以下の3つの組み込み方が議論されています。

DAGで見る論点

$X$ は $Z$ と $Y$ の両方に入るため交絡の源になります。傾向スコア $e(X)$ は新しい原因ノードではなく、$X$ から作った設計段階の要約です。

ベイズの尤度上は $e(X)$ が脱落しても、オーバーラップ確認や結果モデルの頑健化ではこの要約が効きます。

方法 A

傾向スコアの共変量投入

推定された傾向スコア $\hat{e}(X_i)$ 自体を、通常の共変量に追加して結果モデルへ入れるアプローチ。

傾向スコア層内で共変量バランスを近づけるため、結果モデル誤特定への感度を下げる「二重ロバスト性に類似した」頑健化をもたらします。

方法 B

依存事前分布の構築

「傾向スコアモデルで重要な変数は、結果モデルでも重要であるはず」とし、事前分布パラメータ間に事前従属性（Dependent Prior）を導入。

Wang et al. (2012) のように、傾向スコアにおいて選択された共変量を、確率依存的な重みをもって結果モデルに結合させます。

方法 C

事後予測推論へのプラグイン

事後確率分布から得られた予測パラメータを用いて、頻度論的な二重に頑健な推定量（Doubly Robust Estimator）を再形成する枠組み。

Ding & Guo (2023) などのように、完全な事後予測確率を用いて、因果の不確実性を適正に定量化します。

重要論点：モデル・フィードバック問題（Model Feedback Problem）

傾向スコアと結果モデルを一つの大きな結合分布として「共同パラメータ推定」しようとすると（ドグマティック・ベイズ）、結果モデルに誤特定がある際、その誤差を吸収する形で傾向スコアのパラメータ推定値が歪む相互フィードバックが働くことがあります。

このため、実務上は「第1段階で傾向スコアのみを単独で事前推定し、第2段階で結果モデルへ定数として代入する（Two-Stage Procedure）」というプラグイン近似がよく使われます。結果モデルの誤特定が傾向スコア推定へ逆流しにくい点が、この手順の利点です。

5

未測定の交絡（未観測共変量）と感度分析

強い無視可能性仮定は、観測データだけからは検証できません（Fundamental Untestability）。未測定の交絡因子 $U$ が存在した場合、観察研究から得た因果効果の推定値はバイアスを受けます。この問題に対し、ベイズアプローチと頻度論アプローチはそれぞれ異なる感度分析の道具を用意しています。

感度分析の視点

$U$ が $Z$ と $Y$ の両方に向くと、$X$ で調整しても無視可能性は破れます。ここが観測データだけでは検証できない部分です。

Bayesian data augmentation は $U$ を潜在変数として補完し、E-value 系は $U \to Z$ と $U \to Y$ の必要強度を閾値として読む、という対比になります。

アプローチ 1

未観測共変量 $U$ のデータ代入モデル

交絡因子 $U$ の仮想的な結合分布モデルを定式化し、ベイズのデータ拡張アルゴリズム（MCMC）によって、あたかも欠損データを補完するように各個体に $U_i$ をサンプリング補完します（Rosenbaum & Rubin 1983 のベイズ版拡張）。

アプローチ 2

限界値法・E-value の利用

Ding & VanderWeele (2016) によって提唱されたモデルフリーのアプローチ。推定された効果を説明し切るには、未観測因子 $U$ が処置および結果の双方とどの程度強く関連している必要があるかを、単一の指標として算出。

部分的識別（Partial Identifiability）とコピュラ（Copula）の導入

Franks et al. (2020) は、データに適合して推定が可能な「識別可能（Identifiable）なパラメータ」と、感度分析として動かすほかない「識別不可能な共変量パラメータ」を数学的にシャープに切り離すコピュラモデル（Copula-based model）を推奨しています。

6

複雑な割付メカニズムと時間依存性共変量

基本的な単一時点のバイナリ処置を超えて、本レビューではさらに二つの複雑な因果構造に対するベイズの定式化を扱っています。

A. 操作変数法と主層化

Principal Stratification

操作変数（不遵守が発生する介入）の環境下において、主体をその「潜在的な順応行動」に基づいて主層（Compliers, Never-takers, Always-takers, Defiers）に分類します。

ベイズ流解決策：

個々の主体の「所属タイプ」は潜在変数であるため、一般の頻度論アプローチ（2SLS法）は漸近近似に基づきますが、ベイズアプローチではこれを有限混合モデル（Finite Mixture Model）として扱い、個体ごとに隠れたタイプラベルを代入予測（Data Augmentation）できます。

B. 時間依存的処置と縦断的交絡

Time-varying Treatments

時系列の治療系列において、過去の治療が次期の共変量を変化させ、その時間変化共変量がまた未来の治療確率を支配するという、複雑なフィードバック関係がある構造です。

ベイズ流g演算式 (Bayesian g-computation)：

Robinsのg-computation formula（g演算式）を構成する各ステップ（結果回帰・共変量推移）にベイズ事前分布を指定。各時点でモンテカルロ・シミュレーションをおこない、任意の動的治療選択の下での最終結果の事後分布を再構成します。

警告：g-null パラドックスの罠 Robins & Wasserman (1997) が指摘したこの数理現象は、共変量推移と結果の間のパラメータの不一致・誤特定（不飽和なパラメトリックモデルなど）がある状況下では、「真の因果効果ゼロ」という帰無仮説を、モデル構造の制約によって学習前から排除してしまうことがあります。構造選定には慎重な検討が必要です。

7

総括：ベイズアプローチの強みと限界

本論文「Bayesian causal inference: a critical review」の結言において、著者らはベイズ因果推論を目的そのものとして扱うのではなく、実用的な道具箱（Toolbox）として選択する立場を示しています。

✓

事後予測による補完

欠損潜在結果を代入サンプリングするため、部分群や個別因果効果（ITE）の推計不確実性を、同じ事後分布の枠内で扱いやすい。

✓

不確実性の伝播

多段階の因果設計において、前段階のパラメータ不確実性を次段階の推論へ引き継ぎ、信用区間の過小評価を避けやすくする。

✓

意思決定理論との直感的直結

ベイズの事後分布は「リスク最小化」「効用最大化」などの決定理論と相性がよく、個別化医療やA/Bテストにおける行動選定へ接続しやすい。

✓

事前情報の自然な活用

過去の別の臨床試験データや、地域的な空間相関（Spatial correlation）などを、事前分布という形式で統一的に既存モデルに統合可能。

"For causal inference and perhaps everything in statistics, being Bayesian should be a tool, not a goal."

「ベイズであることは、因果推論、ひいては統計学のすべての領域において、目的（ドグマ）ではなく手段であるべきだ。」