Kompaktskript zur Vorlesung Abhängigkeitsanalyse Friedrich-Schiller-Universität Jena Wirtschaftswissenschaftliche Fakultät Lehrstuhl für Wirtschafts- und Sozialstatistik Wintersemester 2014/15 Inhaltsverzeichnis 1 Grundlagen 1.1 Stochastische Unabhängigkeit . . . . 1.2 Grundbegriffe der Graphentheorie . . 1.3 Separation in Graphen . . . . . . . . 1.4 Identifizierung von Unabhängigkeiten . . . . . . . . . . . . . . . . . . . . . . . . aus Graphen 2 Abhängigkeitsmodelle (Konstruktion von Bayesschen Netzwerken) 2.1 Konstruktion aus Inputlisten . . . . . . . . . 2.2 Konstruktion aus Gleichungssystemen . . . . 2.3 Spezialfall: Lineare Gleichungssysteme . . . . 2.4 Perfekte Abbildungen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1 1 3 4 5 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 6 6 7 8 9 . . . . . . . . 10 10 10 11 12 13 13 13 14 . . . . 15 15 15 16 17 3 Kausale Effekte 3.1 Einführung . . . . . . . . . . . . . . . . . . . . . . . . 3.2 Rubin-Modell . . . . . . . . . . . . . . . . . . . . . . . 3.3 Kausale Effekte in Gleichungssystemen . . . . . . . . . 3.4 Backdoor-Kriterium . . . . . . . . . . . . . . . . . . . 3.5 Frontdoor-Kriterium . . . . . . . . . . . . . . . . . . . 3.6 “Vollständigkeit” der Variablenmenge . . . . . . . . . . 3.6.1 Notwendiges Kriterium für die Vollständigkeit . 3.6.2 Hinreichendes Kriterium für die Vollständigkeit 4 Tetrad-Algorithmus 4.1 Grundsätzliche Schwierigkeiten . . . . . 4.2 Unabhängigkeitsäquivalente Graphen . . 4.3 PC-Algorithmus . . . . . . . . . . . . . . 4.4 Latente Variablen und Tetraddifferenzen 5 Literatur . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 17 1 1.1 Grundlagen Stochastische Unabhängigkeit Ausgangspunkt ist eine Menge von diskreten Zufallsvariablen {X1 , ..., Xn } mit gemeinsamer Wahrscheinlichkeitsverteilung P (X1 = x1 , X2 = x2 , ..., Xn = xn ). (1) Definition 1.1 (Randverteilung) Sei {X1 ,...,Xn } eine Menge von Zufallsvariablen mit gemeinsamer Verteilung P (X1 =x1 ,...,Xn =xn ). Dann nennt man die Verteilung einer Teilmenge {X1 , ..., Xk } definiert als X X P (X1 = x1 , ..., Xn = xn ) (2) ··· P (X1 = x1 , ..., Xk = xk ) = xk+1 xn die Randverteilung von {X1 , ..., Xk } bzgl. P . Die Randverteilung bzgl. einer anderen Variablenauswahl berechnet sich analog. ♦ Definition 1.2 (Bedingte Verteilung) Sei {X1 ,...,Xn } eine Menge von Zufallsvariablen mit gemeinsamer Verteilung P (X1 =x1 ,...,Xn =xn ). Seien X, Y disjunkte Teilmengen von {X1 ,...,Xn } und x, y ihre möglichen Ausprägungen. Die bedingte Verteilung von X gegeben Y ist definiert als P (X = x|Y = y) = P (X = x, Y = y) P (Y = y) (3) für alle y mit P (Y = y) > 0. ♦ Definition 1.3 (Marginale Unabhängigkeit) Sei {X1 ,...,Xn } eine Menge von Zufallsvariablen mit gemeinsamer Verteilung P (X1 =x1 ,...,Xn =xn ). Dann sind die Variablen Xs und Xt (marginal) unabhängig, (Symbol: I(Xs , ∅, Xt )) falls für die Randverteilungen gilt P (Xs = xs , Xt = xt ) = P (Xs = xs ) · P (Xt = xt ) [⇔ P (Xs = xs |Xt = xt ) = P (Xs = xs ) ⇔ P (Xt = xt |Xs = xs ) = P (Xt = xt )] (4) für alle xs , xt [ mit P (Xt = xt ) > 0 bzw. P (Xs = xs ) > 0 ]. Sind X, Y disjunkte Teilmengen von {X1 ,...,Xn } und x, y ihre möglichen Ausprägungen, dann ist X (marginal) unabhängig von Y (Symbol: I(X, ∅, Y)), falls für die Randverteilungen gilt P (X = x, Y = y) = P (X = x) · P (Y = y) [⇔ P (X = x|Y = y) = P (X = x) ⇔ P (Y = y|X = x) = P (Y = y)] (5) für alle x, y [ mit P (Y = y) > 0 bzw. P (X = x) > 0 ]. Gilt eine der Bedingungen nicht, so sind Xs , Xt bzw. X, Y abhängig, symbolisiert als D(Xs , ∅, Xt ) bzw. D(X, ∅, Y). ♦ 1 Definition 1.4 (bedingte Unabhängigkeit) Sei {X1 ,...,Xn } eine Menge von Zufallsvariablen mit gemeinsamer Verteilung P (X1 =x1 ,...,Xn =xn ). Seien X, Y, Z disjunkte Teilmengen von {X1 ,...,Xn } und x, y, z ihre möglichen Ausprägungen. Dann ist X bedingt unabhängig von Y gegeben Z (Symbol: I(X, Z, Y)), falls gilt P (X = x, Y = y|Z = z) = P (X = x|Z = z) · P (Y = y|Z = z) (6) [⇔ P (X = x|Y = y, Z = z) = P (X = x|Z = z) ⇔ P (Y = y|X = x, Z = z) = P (Y = y|Z = z)] für alle x, y, z [ mit P (Y = y, Z = z) > 0 bzw. P (X = x, Z = z) > 0 ]. Gilt eine der Bedingungen nicht, so ist X bedingt abhängig von Y gegeben Z (Symbol: D(X, Z, Y)). ♦ Definition 1.5 (gemeinsame Unabhängigkeit) Sei {X1 ,...,Xn } eine Menge von Zufallsvariablen mit gemeinsamer P (X1 =x1 ,...,Xn =xn ). Dann sind X1 , ..., Xn gemeinsam unabhängig, falls gilt P (X1 = x1 , ..., Xn = xn ) = n Y Verteilung P (Xi = xi ) (7) i=1 für alle xi . ♦ Definition 1.6 (positive Verteilung) Die gemeinsame Verteilung P (X1 =x1 ,...,Xn =xn ) einer {X1 ,...,Xn } heißt positiv, falls gilt Menge von Zufallsvariablen P (X1 = x1 , ..., Xn = xn ) > 0 (8) für alle Werte xi dieser einzelnen Zufallsvariable.♦ Satz 1.1 (Faktorisierungsregel) Sei {X1 ,...,Xn } eine Menge P (X1 =x1 ,...,Xn =xn ). Dann gilt von Zufallsvariablen mit gemeinsamer Verteilung P (X1 = x1 , ..., Xn = xn ) = P (X1 = x1 ) · P (X2 = x2 |X1 = x1 ) ·P (X3 = x3 |X1 = x1 , X2 = x2 ) · ... · P (Xn = xn |X1 = x1 , ..., Xn−1 = xn−1 ).♦ Bemerkung Die Reihenfolge der Variablen X1 ,...,Xn in Satz 1.1 kann beliebig permutiert werden.♦ 2 (9) Einschub: Rechenregeln für bedingte Unabhängigkeitsbeziehungen Satz 1.2 (Eigenschaften bedingter Unabhängigkeit) Sei P die gemeinsame Verteilung von disjunkten Mengen von (A, B, C, D, ...). Dann hat I(A, B, C) die folgenden Eigenschaften: Zufallsvariablen 1. Symmetrie I(A, B, C) ⇔ I(C, B, A) (10) ⇒ I(A, B, C) und I(A, B, D) (11) I(A, {B, D}, C) und I(A, {B, C}, D) (12) 2. Dekomposition I(A, B, {C, D}) 3. Schwache Vereinigung I(A, B, {C, D}) ⇒ 4. Kontraktion I(A, {B, C}, D) und I(A, B, C) ⇒ I(A, B, {C, D}) (13) 5. Intersektion Ist P eine positive Verteilung (vgl. Definition 1.6), so gilt I(A, {B, D}, C) und I(A, {B, C}, D) 1.2 ⇒ I(A, B, {C, D}).♦ (14) Grundbegriffe der Graphentheorie Definition 1.7 (Graph) Ein Graph G(V, E) ist ein Tupel aus der Knotenmenge V = {X1 , ..., Xn } und der Kantenmenge E ⊆ {Lij | 1 ≤ i, j ≤ n}. ♦ Definition 1.8 (gerichtete Kante, ungerichtete Kante) Sei G(V, E) ein Graph. Befindet sich das Element Lij in der Kantenmenge E und Lji nicht in der Kantenmenge, so spricht man von einer gerichteten Kante von Xi nach Xj . Eine gerichtete Kante zwischen zwei Knoten wird dargestellt durch Xi → Xj . Befinden sich Lij und Lji in der Kantenmenge, spricht man von einer ungerichteten Kante, dargestellt durch Xi – Xj oder Xj – Xi . ♦ Definition 1.9 (gerichteter Graph, ungerichteter Graph, partiell gerichteter Graph) Ein Graph G(V, E), in dem alle Kanten gerichtet sind, heißt gerichteter Graph und ein Graph, der nur ungerichtete Kanten enthält, heißt ungerichteter Graph. Besteht ein Graph aus teils gerichteten und teils ungerichteten Kanten, spricht man von einem partiell gerichteten Graphen. ♦ 3 Definition 1.10 (Pfad, gerichteter Pfad) Ein Pfad von Knoten Xi zum Knoten Xj ist ein geordnetes Tupel von Knoten (Xi,1 , ..., Xi,r ) mit dem Ausgangsknoten Xi,1 = Xi und Endknoten Xi,r = Xj derart, dass es jeweils eine Kante (unabhängig von der Orientierung) zwischen Xi,k und Xi,k+1 gibt (k = 1, ..., r − 1). Ein Pfad heißt gerichteter Pfad, falls alle Kanten zwischen den jeweiligen Knoten in die gleiche Richtung Xi,k → Xi,k+1 (k = 1, ..., r − 1) zeigen. ♦ Definition 1.11 (gerichteter azyklischer Graph) Ein Graph G(V, E) heißt gerichteter azyklischer Graph, wenn es keinen gerichteten Pfad mit übereinstimmenden Anfangs- und Endknoten gibt. ♦ Definition 1.12 (Elternknoten, Kind) Gibt es eine Kante Xi → Xj in einem gerichteten Graphen, so heißt Xi Elternknoten von Xj und Xj Kind von Xi . Die Menge aller Elternknoten wird mit PAi bezeichnet. ♦ Definition 1.13 (Vorgänger, Nachfolger) In einem gerichteten Graphen heißt ein Knoten Xk Vorgänger eines Knoten Xi , wenn es einen gerichteten Pfad von Xk nach Xi gibt. Ein Knoten Xj heißt Nachfolger von Xi , wenn es einen gerichteten Pfad von Xi nach Xj gibt. ♦ 1.3 Separation in Graphen Definition 1.14 (U-Separation) Gegeben sei ein ungerichteter Graph G(V, E) und disjunkte Teilmengen A,B,C der Knotenmenge V. Dann wird A durch B von C U-separiert, falls für jeden Pfad von einem Knoten aus A zu einem Knoten aus C ein Knoten aus B auf diesem Pfad existiert. ♦ Definition 1.15 (d-Separation) Gegeben sei ein gerichteter azyklischer Graph G(V, E). Seien A,B,C disjunkte Teilmengen der Knotenmenge V. Dann wird A durch B von C d-separiert ( Symbol: < A | B | C > ), wenn gilt: Für jede Verbindung zwischen einem Knoten aus A zu einem Knoten aus C gilt 1. es existiert ein Knoten W auf dem Pfad mit aufeinander zulaufenden Kanten → W ← und W sowie seine Nachfolger gehören nicht zu B, oder 2. es existiert ein Knoten Q mit nicht aufeinander zulaufenden Kanten → Q →, ← Q → oder ← Q ← und Q gehört zu B. ♦ 4 1.4 Identifizierung von Unabhängigkeiten aus Graphen Definition 1.16 (Bayessches Netzwerk) Gegeben sei ein gerichteter azyklischer Graph G(V, E) mit der Knotenmenge V={X1 , ..., Xn }. Jeder Knoten Xi (1 ≤ i ≤ n) entspreche einer Zufallsvariablen, für die eine bedingte Verteilung gegeben die Elternvariablen von Xi P (Xi = xi | PAi = pai ) 1≤i≤n vorliege. Dann heißt der gerichtete azyklische Graph Bayessches Netzwerk. ♦ Satz 1.3 (Markovbedingung für Graphen) Gegeben sei ein gerichteter azyklischer Graph G(V, E) mit gemeinsamer Verteilung P der betrachteten Variablen V={X1 , ..., Xn }. Dann sind äquivalent: 1. Faktorisierung gegeben der Eltern: P (X1 = x1 , ..., Xn = xn ) = P (X1 = x1 | PA1 = pa1 ) · · . . . · P (Xn = xn | PAn = pan ) (15) 2. Für alle i gilt die Markovbedingung für Graphen : Xi ist unabhängig von allen Nichtnachfolgern von Xi (ohne die Eltern) gegeben die Eltern PAi . ♦ Folgerung Gilt die Markovbedingung für Graphen, so liefert die Faktorisierung durch den Graphen die gemeinsame Wahrscheinlichkeitsverteilung. ♦ Definition 1.17 (Unabhängigkeitsabbildung) Ein gerichteter azyklischer Graph G(V, E) ist eine Unabhängigkeitsabbildung der gemeinsamen Wahrscheinlichkeitsverteilung P von V = {X1 , ..., Xn }, falls < A | B | C >⇒ I(A, B, C) für beliebige disjunkte Teilmengen A, B, C von V gilt. ♦ Satz 1.4 (Kriterium für Unabhängigkeitsabbildung) Gegeben sei ein Bayessches Netzwerk G(V, E), dessen gemeinsame Verteilung P von V={X1 , ..., Xn } durch P (X1 = x1 , ..., Xn = xn ) = P (X1 = x1 | PA1 = pa1 ) · . . . · P (Xn = xn | PAn = pan ) dargestellt werden kann. Dann gilt: < A | B | C >⇒ I(A, B, C) für beliebige disjunkte Teilmengen A, B, C von V. ♦ 5 2 2.1 Abhängigkeitsmodelle (Konstruktion von Bayesschen Netzwerken) Konstruktion aus Inputlisten Seien X1 , . . . , Xn Zufallsvariablen in dieser Reihenfolge mit (nicht notwendig explizit bekannter) gemeinsamer Verteilung P . Definition 2.1 (Inputliste) Eine (kausale) Inputliste zu X1 , . . . , Xn ist gegeben durch Mengen Ci ⊂ V = {X1 , . . . , Xn } (1 ≤ i ≤ n) mit - C1 = ∅ - Für 2 ≤ i ≤ n gilt (1) Ci ⊂ {X1 , . . . , Xi−1 } (2) I(Xi , Ci , {X1 , . . . , Xi−1 } \ Ci ) - keine echte Teilmenge von Ci erfüllt (2). ♦ Definition 2.2 (Bayessches Netzwerk zu Inputliste) Das zur Inputliste C1 , . . . , Cn gehörende Bayessche Netzwerk G(V, E) besteht aus den Knoten V ={X1 , . . . , Xn } und den Kanten Xj → Xi für alle Xj ∈ Ci (1 ≤ i ≤ n). ♦ Satz 2.1 (Faktorisierung bei gegebener Inputliste) Sei C1 , . . . , Cn eine Inputliste. Dann gilt für die gemeinsame Verteilung P V={X1 , . . . , Xn } P (X1 = x1 , ..., Xn = xn ) = n Y P (Xi = xi | Ci = ci ) von (16) i=1 d.h. es gilt die Faktorisierung bzgl. der Elternvariablen im zugehörigen Graphen. ♦ Bemerkung Die Kenntnis der Faktorisierung erleichtert in der Regel die numerische Bestimmung der gemeinsamen Verteilung P erheblich. ♦ Satz 2.2 (Inputliste und Unabhängigkeitsabbildung) Sei G(V, E) das Bayessches Netzwerk zu einer Inputliste C1 , . . . , Cn . Dann gilt: G(V, E) ist Unabhängigkeitsabbildung zur gemeinsamen Verteilung P von V = {X1 , . . . , Xn }, d.h. < A | B | C >⇒ I(A, B, C) gilt für beliebige disjunkte Teilmengen A, B, C von V. ♦ Bemerkung Mittels d-Separation können aus dem Graphen G(V, E) weitere Unabhängigkeitsbeziehungen, die für die Verteilung P von V gelten, abgeleitet werden, ohne notwendiger Weise die Verteilung zu kennen. ♦ 6 2.2 Konstruktion aus Gleichungssystemen Definition 2.3 (Gleichungssystem und zugehöriger Graph) Sei V = {X1 , . . . , Xn } eine Menge von Zufallsvariablen. Zu jeder Variable Xi (1 ≤ i ≤ n) sei eine Menge Di ⊂ {X1 , . . . , Xn } \ {Xi } als direkte Einflussgrößen gegeben. Damit sei ein Gleichungssystem definiert Xi = fi (Di , Ui ) 1≤i≤n (17) mit Funktionen fi und Zufallsvariablen Ui (1 ≤ i ≤ n). Der zum Gleichungssystem gehörende Graph G(V, E) besteht aus V={X1 , . . . , Xn } und den Kanten Xj → Xi für alle Xj ∈ Di (1 ≤ i ≤ n). ♦ den Knoten Definition 2.4 (Markovbedingung für Gleichungssysteme) Das Gleichungssystem (17) erfüllt die Markovbedingung, wenn die Ui (1 ≤ i ≤ n) gemeinsam unabhängige Zufallsvariablen sind und der zugehörige Graph G(V, E) keine Zyklen enthält. ♦ Bemerkung Es gilt: Enthält ein gerichteter Graph keine Zyklen, so existiert mindestens ein Knoten Xi ohne Eltern. ♦ Satz 2.3 (Gleichungssystem und Faktorisierung) Erfüllt ein Gleichungssystem (17) die Markovbedingung (Definition 2.4), so gilt für die gemeinsame Verteilung P von V = {X1 , . . . , Xn } P (X1 = x1 , ..., Xn = xn ) = n Y P (Xi = xi | Di = di ) (18) i=1 d.h. es gilt die Faktorisierung bzgl. der Elternvariablen im zugehörigen Graphen. ♦ Folgerung 1. Der zu einem Gleichungssystem, das die Markovbedingung erfüllt, gehörende Graph G(V, E) ist nach Satz 1.4 eine Unabhängigkeitsabbildung für die gemeinsame Verteilung P von V = {X1 , . . . , Xn }. Es gilt: < A | B | C >⇒ I(A, B, C) für beliebige disjunkte Teilmengen A, B, C von V. 2. Ist die Markovbedingung für ein Gleichungssystem erfüllt, so genügt auch der zugehörige Graph der Markovbedingung (Satz 1.3). ♦ 7 2.3 Spezialfall: Lineare Gleichungssysteme Definition 2.5 (Lineares Gleichungssystem) Sei V = {X1 , . . . , Xn } eine Menge von Zufallsvariablen. Zu jeder Variable Xi (1 ≤ i ≤ n) sei eine Menge Di ⊂ {X1 , . . . , Xn } \ {Xi } als direkte Einflussgrößen gegeben. Damit sei ein lineares Gleichungssystem definiert X Xi = αij Xj + Ui 1≤i≤n (19) j:i6=j mit αij 6= 0 genau dann, wenn Xj ∈ Di ist, und den Zufallsvariablen Ui (1 ≤ i ≤ n). Vektorschreibweise für das X1 U1 .. .. X = . , U = . Xn Un Gleichungssystem: X = AX + U mit 0 α12 ··· α1n .. α21 0 . und A = . . .. .. α(n−1)n αn1 · · · αn(n−1) 0 Satz 2.4 (Erwartungswert und Kovarianzmatrix) Gegeben P sei ein lineares Gleichungssystem X = AX + U . und U die Kovarianzmartix der Ui : V ar(U1 ) Cov(U1 , U2 ) E(U1 ) Cov(U2 , U1 ) V ar(U2 ) P .. µU = , U = . .. . E(Un ) Cov(Un , U1 ) ··· . ♦ Sei µU der Erwartungswertvektor · · · Cov(U1 , Un ) .. . .. .. . . ··· V ar(Un ) . Ist die Matrix (I − A) invertierbar, so gilt E(X1 ) P P .. E(X) = = (I − A)−1 µU und X = (I − A)−1 U ((I − A)−1 )T . . E(Xn ) Dabei bezeichne I die n-dimensionale Einheitsmatrix. ♦ Bemerkung Wenn der Vektor U n-dimensional normalverteilt ist, dann ist auch der Vektor X mit X = AX + U n-dimensional normalverteilt. ♦ Satz 2.5 Sei X ein n-dimensional normalverteilter Zufallsvektor mit Y1 . .. X1 Y Ym .. X= . = und m + p = n. = Z Z1 Xn .. . Zp 8 P P Seien µY , µZ der Erwartungswertvektor und Y , Z die Kovarianzmartix von Y bzw. von Z. E(X1 ) P P P µY . Y Y Z P P . Dann gilt E(X) = und X = . = . µZ ZY Z E(Xn ) Für den bedingten Erwartungswert bzw. die bedingte Kovarianzmatrix von Y gegeben Z = z0 gilt dann P P P P P P−1 P E(Y | Z = z0 ) = µY + Y Z −1 Z (z0 − µZ ) bzw. Y |Z=z0 = Y + YZ Z ZY .♦ Bemerkung • Xi und Xj sind P unabhängig genau dann, wenn das Element in der i-ten Zeile und der j-ten Spalte von X gleich Null ist (Cov(Xi , Xj ) = 0). • Xi und Xj sind unabhängig gegeben Q = {X1 , . . . , Xn P } \ {Xi , Xj } genau dann, wenn das Element in der i-ten Zeile und der j-ten Spalte von −1 X gleich Null ist. ♦ 2.4 Perfekte Abbildungen Definition 2.6 (Perfekte Abbildung) Ein Bayessches Netzwerk G(V, E) heißt perfekte Abbildung für die gemeinsame Verteilung P von V = {X1 , . . . , Xn }, wenn gilt: < A | B | C >⇔ I(A, B, C) für beliebige disjunkte Teilmengen A, B, C von V.♦ Satz 2.6 (Existenz perfekter Abbildungen) Sei G(V, E) ein gerichteter azyklischer Graph. Dann gilt: Es existiert eine gemeinsame Verteilung P̄ von V = {X1 , . . . , Xn }, so dass G(V, E) eine perfekte Abbildung von P̄ darstellt.♦ Satz 2.7 Gegeben sei ein Gleichungsmodell mit Markovbedingung. Es gelte zusätzlich, dass die Mengen P Ai eine Inputliste bilden. Dann können alle Unabhängigkeitsbeziehungen der Form I(Xi , P Ai , {X1 , . . . , Xi−1 }\P Ai ) und alle sich daraus ergebenden Unabhängigkeitsbeziehungen aus Satz 1.2 aus der d-Separation abgeleitet werden.♦ Folgerung Wenn die Unabhängigkeitsbeziehungen der Form I(Xi , P Ai , {X1 , . . . , Xi−1 }\P Ai ) und alle sich daraus ergebenden Unabhängigkeitsbeziehungen aus Satz 1.2 die einzigen sind, dann ist der Graph eine perfekte Abbildung.♦ 9 3 Kausale Effekte 3.1 Einführung 3.2 Rubin-Modell Grundgesamtheit G = {g1 , . . . , gN } Behandlungsvariable (treatment) X : G −→ {0, 1} Antwortvariable (response) Y : G −→ R Y (gj ) gibt die Reaktion des Merkmalsträgers gj an. Y (gj ) hängt davon ab, ob gj mit X = 0 oder mit X = 1 behandelt wurde. Potentielle Antwortvariablen: Y0 : G −→ R und Y1 : G −→ R Y0 , Y1 geben die Reaktionen an, falls alle Merkmalsträger mit X = 0 bzw. X = 1 behandelt werden. Es gilt: X(gj ) = 1 ⇒ Y (gj ) = Y1 (gj ) (1 ≤ j ≤ N ) X(gj ) = 0 ⇒ Y (gj ) = Y0 (gj ) (1 ≤ j ≤ N ) Individueller kausaler Effekt Y1 (gj ) − Y0 (gj ) (1 ≤ j ≤ N ) (i. a. nicht beobachtbar) Durchschnittlicher kausaler Effekt N N 1 X 1 X Y1 (gj ) − Y0 (gj ) N N j=1 (20) j=1 (i. a. nicht beobachtbar) Seien M0 ⊂ G, M1 ⊂ G ,repräsentative’ Teilmengen von G mit N0 bzw. N1 Elementen, so dass gilt N 1 X 1 X Y0 (gj ) = Y0 (gj ) N N0 j=1 j∈M0 N 1 X 1 X Y1 (gj ) = Y1 (gj ). N N1 j=1 j∈M1 Dann kann der durchschnittliche kausale Effekt (20) geschätzt werden. Repräsentativität kann bei hinreichend großem N durch zufällige Zuweisung der Behandlung X erzeugt werden. 10 Stochastische Grundform des Rubinmodells Y0 , Y1 , X, Y sind Zufallsvariablen Seien (xj , yj ) Beobachtungen von X bzw. Y . Es gelte: xj = 0 ⇒ Y0 (gj ) = Y (gj ) = yj xj = 1 ⇒ Y1 (gj ) = Y (gj ) = yj Definition 3.1 Es liegt ein kausaler Effekt von X = 0 gegenüber X = 1 vor, wenn sich die Verteilungen von Y0 und Y1 unterscheiden.♦ Satz 3.1 Sind X und Y0 bzw. X und Y1 unabhängig, so gilt P (Y0 = y) = P (Y = y|X = 0) P (Y1 = y) = P (Y = y|X = 1).♦ (21) Gilt Satz 3.1, so kann die Verteilung der potentiellen Variablen bestimmt werden und überprüft werden, ob ein kausaler Effekt vorliegt. Satz 3.2 Sei Z eine weitere Variable, so dass gilt I(X, Z, Y0 ), I(X, Z, Y1 ). Dann gilt X P (Y0 = y) = P (Y = y|X = 0, Z = z)P (Z = z) z P (Y1 = y) = X P (Y = y|X = 1, Z = z)P (Z = z).♦ z In der Situation des Satzes 3.2 kann ein etwaiger kausaler Effekt aus den Daten bestimmt werden. 3.3 Kausale Effekte in Gleichungssystemen Definition 3.2 Gegeben sei ein Gleichungssystem gemäß Definitionen 2.3 und 2.4 Xj = fj (PAj , Uj ) mit P Aj ⊂ {X1 , . . . , Xj−1 } (1 ≤ j ≤ n). Das durch die Festsetzung Xi ≡ x entstehende manipulierte Gleichungssystem ist gegeben durch X1 = f1 (U1 ) .. . Xi−1 = fi−1 (PAi−1 , Ui−1 ) Xi0 ≡ x 0 Xi+1 = .. . (22) fi+1 (PA0i+1 , Ui+1 ) Xn0 = fn (PA0n , Un ). PA0j ist die sich aus PAj ergebende Variablenmenge, wenn in allen der j-ten Gleichung vorangehenden Gleichungen Xi durch Xi0 ≡ x ersetzt wird.♦ 11 Satz 3.3 0 , . . . , X 0 } bei der Manipulation X 0 ≡ x Die gemeinsame Verteilung von {X1 , . . . , Xi−1 , Xi0 , Xi+1 n i ist gegeben durch 0 P (X1 = x1 , . . . , Xi−1 = xi−1 , Xi0 = x, Xi+1 = xi+1 , . . . , Xn0 = xn ) P (X1 = x1 , . . . , Xi−1 = xi−1 , Xi = x, Xi+1 = xi+1 , . . . , Xn = xn ) = P (Xi = x|PAi = pai ) (23) O.B.d.A. sei Xn die Antwortvariable; d. h. Xn entspricht Y . Die Behandlungsvariable Xi entspricht X.♦ Definition 3.3 Ein kausaler Effekt von Xi ≡ x gegenüber Xi ≡ x0 liegt vor, wenn die Randverteilung von Xn0 aus (23) bei der Manipulation Xi ≡ x sich von der Randverteilung von Xn0 aus (23) bei der Manipulation Xi ≡ x0 unterscheidet.♦ Bemerkung Mit der Behandlungsvariable Xi ←→ X und der Antwortvariablen Xn ←→ Y entsprechen die Verteilungen von Xn0 bei Xi ≡ x bzw. Xi ≡ x0 den Verteilungen von Yx , Yx0 im Rahmen des Rubin-Modells. P (Yx = y), P (Yx0 = y) sind die entsprechenden Randverteilungen in (23).♦ 3.4 Backdoor-Kriterium Im Folgenden sei ein Gleichungssystem Xj = fj (PAj , Uj ) (1 ≤ j ≤ n) gegeben, das die Markov-Bedingung erfüllt. Sei G(V, E) das zugehörige Bayessche Netzwerk. Definition 3.4 Seien Xi und Xk zwei feste Variablen (i<k). Eine Teilmenge Z ⊂ {X1 , . . . , Xn } \ {Xi , Xk } erfüllt das Backdoor-Kriterium bzgl. Xi , Xk , wenn gilt a) kein Z ∈ Z ist Nachfolger von Xi b) für alle Verbindungen zwischen Xi und Xk , die mit einem Pfeil in Richtung Xi enden, sind Xi und Xk durch Z d-separiert.♦ Satz 3.4 Gilt das Backdoor-Kriterium für eine Menge Z bzgl. Xi ←→ X, und Xk ←→ Y , so gilt für die Verteilung von Xk0 ←→ Yx0 bei der Manipulation Xi ≡ x P (Yx0 = y) = X P (Y = y|X = x, Z = z)P (Z = z).♦ z∈Z 12 (24) 3.5 Frontdoor-Kriterium Voraussetzungen wie für 3.4 Definition 3.5 Eine Teilmenge Z ⊂ {X1 , . . . , Xn } \ {Xi , Xn } erfüllt das Frontdoor-Kriterium bzgl. Xi , Xn , falls a) auf jedem gerichteten Pfad von Xi nach Xn liegt ein Z ∈ Z b) jeder ’Backdoor-Pfad’ zwischen Xi und Z ist durch die leere Menge d-separiert c) jeder ’Backdoor-Pfad’ zwischen Z und Xn ist durch Xi d-separiert.♦ Bemerkung: Ein ’Backdoor-Pfad’ zwischen Xi und Z ist eine Verbindung von Xi mit einem Z ∈ Z, die mit einer nach Xi gerichteten Kante endet. Ein ’Backdoor-Pfad’ zwischen Z und Xn ist eine Verbindung von einem Z ∈ Z mit Xn , die mit einer nach Z gerichteten Kante endet.♦ Satz 3.5 Gilt das Frontdoor-Kriterium für Xi ←→ X und Xn ←→ Y , so gilt für die Verteilung von Xn0 ←→ Yx01 bei der Manipulation Xi ≡ x1 : P (Yx01 = y) = X P (Z = z|X = x1 ) 3.6.1 P (Y = y|Z = z, X = x)P (X = x).♦ (25) x z∈Z 3.6 X “Vollständigkeit” der Variablenmenge Notwendiges Kriterium für die Vollständigkeit Sei V eine Variable mit A1) V ist kein Nachfolger von X, A2) Y ist Nachfolger von V. Frage: Wann gilt P (Yx0 = y) = P (Y = y|X = x)? Satz 3.6 Es gelte A1), A2) und P (Yx0 = y) = P (Y = y|X = x). Dann gilt I(X, ∅, V ) oder I(Y, X, V ).♦ Satz 3.7 Es gelte A1), A2) und die Unabhängigkeitsbeziehungen I(X, ∅, V ) und I(Y, X, V ) gelten nicht. Dann gilt P (Yx0 = y) 6= P (Y = y|X = x).♦ Frage: Wann gilt P (Yx0 = y) = P t P (Y = y|X = x, T = t)P (T = t)? 13 Satz 3.8 (Verallgemeinerung des notwendigen Kriteriums) P Es gelte A1), A2) und P (Yx0 = y) = t P (Y = y|X = x, T = t)P (T = t). Dann gilt I(X, T, V ) oder I(Y, {T, X}, V ).♦ Satz 3.9 (Verallgemeinerung des notwendigen Kriteriums) Es gelte A1), A2) und die Unabhängigkeitsbeziehungen I(X, T, V ) und I(Y, {T, X}, V ) gelten nicht. Dann gilt X P (Y = y|X = x, T = t)P (T = t).♦ P (Yx0 = y) 6= t 3.6.2 Hinreichendes Kriterium für die Vollständigkeit Satz 3.10 Sei V eine Variable mit B1) V ist Vorgänger von X, B2) V ist unabhängig von Y gegeben X. Der wahre Graph sei eine perfekte Abbildung. Dann gilt P (Yx0 = y) = P (Y = y|X = x).♦ Satz 3.11 (Verallgemeinerung des hinreichenden Kriteriums) Sei V eine weitere Variable mit C1) V ist Vorgänger von X im wahren Modell, C2) V ist nicht unabhängig von X gegeben T, C3) V ist unabhängig von Y gegeben {X,T}. Der wahre Graph sei eine perfekte Abbildung. Dann gilt X P (Yx0 = y) = P (Y = y|X = x, T = t)P (T = t).♦ t 14 4 4.1 Ziel: Tetrad-Algorithmus Grundsätzliche Schwierigkeiten Konstruktion eines (partiell) gerichteten azyklischen Graphen aus Daten Anzahl gerichteter azyklischer Graphen mit n Knoten f (n): f (0) := 1 f (1) := 1 n P n! i(n−i) f (n − i) (−1)i+1 · (n−i)! f (n) := i! 2 i=1 4.2 Unabhängigkeitsäquivalente Graphen Definition 4.1 (Unabhängigkeitsäquivalenz) Zwei Graphen G1 und G2 heißen unabhängigkeitsäquivalent, wenn sie die selben d-Separationen implizieren.♦ Definition 4.2 (V-Struktur) Drei Knoten X, Y und Z bilden eine V-Struktur, wenn X → Z ← Y gilt und keine Kante zwischen X und Y existiert (Unshielded Collider).♦ Satz 4.1 Zwei gerichtete azyklische Graphen G1 und G2 sind genau dann unabhängigkeitsäquivalent, wenn sie 1. den gleichen zugehörigen ungerichteten Graphen besitzen 2. die gleichen V-Strukturen besitzen.♦ Definition 4.3 (Irreversibilität) Sei Xi → Xj eine gerichtete Kante aus G. Die Kante Xi → Xj heißt nicht umkehrbar bzw. irreversibel, wenn gilt: In jedem zu G unabhängigkeitsäquivalenten Graphen G0 gibt es ebenfalls die Kante Xi → Xj .♦ Definition 4.4 (Muster) π sei ein teilweise gerichteter Graph. Ein gerichteter azyklischer Graph gehört zur Äquivalenzklasse von π, wenn gilt a) G besitzt die selben Verbindungen wie π b) Jede Kante Xi → Xj aus π ist auch in G so gerichtet c) Jeder Unshielded Collider aus G ist Unshielded Collider in π π heißt auch Muster.♦ 15 4.3 PC-Algorithmus Der PC-Algorithmus (Spirtes/Glymour/Scheines 1993) basiert auf der Auswertung von (bedingten) Unabhängigkeitsbeziehungen zur Konstruktion eines partiell gerichteten azyklischen Graphen. Der Algorithmus ist in zwei nacheinander ablaufende Phasen gegliedert. Eine Implementation des Algorithmus enthält das Programmpaket TETRAD. Die wesentlichen Aspekte sind im Folgenden dargestellt. Gegeben sei eine Realisation einer einfachen Zufallsstichprobe (x1k , . . . , xnk ) vom Umfang N (1 ≤ k ≤ N ) zu den Zufallsvariablen V = {X1 , . . . , Xn }. Zur gemeinsamen Verteilung P von V existiere ein gerichteter azyklischer Graph G(V, E), der eine perfekte Abbildung zu P ist. Zur Durchführung der Unabhängigkeitstests bedarf es der Festlegung eines Signifikanzniveaus α. Kantengenierungsphase Ausgehend vom vollständigen ungerichteten Graph wird eine Kante zwischen zwei Knoten X, Y ∈ V entfernt, falls eine Teilmenge T ⊂ V \ {X, Y } existiert, für die zu einem vorgegebenen Signifikanzniveau α die Nullhypothese, dass X und Y bedingt unabhängig gegeben T sind, nicht abgelehnt werden kann. Die Bedingungsmenge T wird ausgehend von der leeren Menge aus im bereits konstruierten Graphen noch zu X und Y benachbarten Knoten aufgebaut. Existiert keine Teilmenge T aus noch zu X und Y benachbarten Knoten, für die die Nullhypothese I(X,T,Y) nicht abgelehnt werden kann, bleibt die Kante X − Y bestehen. Orientierungsphase Nachdem die Kantengenerierungsphase abgeschlossen ist, beginnt die Orientierungsphase. Diese baut auf zwei Regeln auf, die sequentiell abgearbeitet werden. Orientierungsregel 1: Ein Objekt aus drei Knoten X − Z − Y (X und Z, Y und Z sind benachbart, X und Y jedoch nicht) wird zu X → Z ← Y orientiert, falls Z nicht in der Menge T enthalten ist, für die I(X,T,Y) gilt. Orientierungsregel 2: Sind alle Unshielded Collider identifiziert, werden alle verbleibenden Kanten so weit wie möglich so orientiert, dass kein neuer unshielded collider und keine Zyklen entstehen. Ergebnis Ergebnis des PC-Algorithmus ist ein partiell gerichteter Graph, der alle unabhängigkeitsäquivalenten gerichteten azyklischen Graphen repräsentiert. Bemerkung: Der PC-Algorithmus liefert die ’wahre’ Struktur, falls - im Modell alle gemeinsamen Ursachen enthalten sind gilt: zur Verteilung P (V) existiert eine perfekte Abbildung G(V, E) die Testentscheidungen korrekt sind alle Merkmalsträger die gleichen ’kausalen Relationen’ besitzen. 16 4.4 Latente Variablen und Tetraddifferenzen Definition 4.5 (linear rekursives Gleichungssystem) Ein linear rekursives Gleichungssystem der Variablen V = {X1 , . . . , Xn } ist ein rekursives Gleichungssystem mit Gleichungen der Gestalt n X Xi = αij Xj + Ui 1 ≤ i ≤ n (26) j=1, j6=i mit unabhängigen Zufallsvariablen U1 , . . . , Un und Koeffizienten αij ∈ IR. Definition 4.6 (Tetraddifferenzen) Gegeben sei ein linear rekursives Gleichungssystem. Seien Y1 , Y2 , Y3 , Y4 beliebige Variablen aus V = {X1 , . . . , Xn }. Die möglichen Tetraddiffererenzen lauten ρ12 ρ34 − ρ13 ρ24 ρ12 ρ34 − ρ14 ρ23 (27) ρ13 ρ24 − ρ14 ρ23 mit den Korrelationskoeffizienten ρij = corr(Yi , Yj ). Definition 4.7 (Tetradgleichung) Eine Tetradgleichung τ ist gegeben, falls die Tetraddifferenz 0 ist. Bemerkungen 1. Für n-Variablen gibt es 3 n4 Tetraddifferenzen. 2. Es gibt zu je 4 Variablen drei Möglichkeiten: - keine Tetradgleichung ist erfüllt - eine Tetradgleichung ist erfüllt - 3 Tetradgleichungen sind erfüllt. 5 Literatur CASTILLO, E., GUTIERREZ, J. M., HADI, A. S. (1997): Expert Systems and Probabilistic Network Models, New York. KISCHKA, P. (2000): Graphentheoretische Modelle in der Statistik, in: Voss, H. (ed.), Taschenbuch der Statistik, Leipzig. PEARL, J. (1988): Probabilistic Reasoning in Intelligent Systems, San Mateo. PEARL, J. (1993): Comment: Graphical Models, Causality and Intervention, Statistical Science, 266-269. PEARL, J. (2009): Causality: Models, Reasoning, and Inference, 2. Auflage, Cambridge University Press, Cambridge. SPIRTES, P., GLYMOUR, C., SCHEINES, R. (2000): Causation, Prediction, and Search, 2. Auflage, MIT Press, New York. Aktuelle TETRAD-Versionen III und IV im Internet unter „THE TETRAD PROJECT“, URL: http://www.phil.cmu.edu/projects/tetrad/index.html 17