Kompaktskript zur Vorlesung Abhängigkeitsanalyse

Werbung
Kompaktskript zur Vorlesung
Abhängigkeitsanalyse
Friedrich-Schiller-Universität Jena
Wirtschaftswissenschaftliche Fakultät
Lehrstuhl für Wirtschafts- und Sozialstatistik
Wintersemester 2014/15
Inhaltsverzeichnis
1 Grundlagen
1.1 Stochastische Unabhängigkeit . . . .
1.2 Grundbegriffe der Graphentheorie . .
1.3 Separation in Graphen . . . . . . . .
1.4 Identifizierung von Unabhängigkeiten
. . . . . . . .
. . . . . . . .
. . . . . . . .
aus Graphen
2 Abhängigkeitsmodelle
(Konstruktion von Bayesschen Netzwerken)
2.1 Konstruktion aus Inputlisten . . . . . . . . .
2.2 Konstruktion aus Gleichungssystemen . . . .
2.3 Spezialfall: Lineare Gleichungssysteme . . . .
2.4 Perfekte Abbildungen . . . . . . . . . . . . .
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
1
1
3
4
5
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
6
6
7
8
9
.
.
.
.
.
.
.
.
10
10
10
11
12
13
13
13
14
.
.
.
.
15
15
15
16
17
3 Kausale Effekte
3.1 Einführung . . . . . . . . . . . . . . . . . . . . . . . .
3.2 Rubin-Modell . . . . . . . . . . . . . . . . . . . . . . .
3.3 Kausale Effekte in Gleichungssystemen . . . . . . . . .
3.4 Backdoor-Kriterium . . . . . . . . . . . . . . . . . . .
3.5 Frontdoor-Kriterium . . . . . . . . . . . . . . . . . . .
3.6 “Vollständigkeit” der Variablenmenge . . . . . . . . . .
3.6.1 Notwendiges Kriterium für die Vollständigkeit .
3.6.2 Hinreichendes Kriterium für die Vollständigkeit
4 Tetrad-Algorithmus
4.1 Grundsätzliche Schwierigkeiten . . . . .
4.2 Unabhängigkeitsäquivalente Graphen . .
4.3 PC-Algorithmus . . . . . . . . . . . . . .
4.4 Latente Variablen und Tetraddifferenzen
5 Literatur
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
17
1
1.1
Grundlagen
Stochastische Unabhängigkeit
Ausgangspunkt ist eine Menge von diskreten Zufallsvariablen {X1 , ..., Xn } mit gemeinsamer
Wahrscheinlichkeitsverteilung
P (X1 = x1 , X2 = x2 , ..., Xn = xn ).
(1)
Definition 1.1 (Randverteilung)
Sei {X1 ,...,Xn } eine Menge von Zufallsvariablen mit gemeinsamer Verteilung
P (X1 =x1 ,...,Xn =xn ). Dann nennt man die Verteilung einer Teilmenge {X1 , ..., Xk } definiert
als
X
X
P (X1 = x1 , ..., Xn = xn )
(2)
···
P (X1 = x1 , ..., Xk = xk ) =
xk+1
xn
die Randverteilung von {X1 , ..., Xk } bzgl. P . Die Randverteilung bzgl. einer anderen Variablenauswahl berechnet sich analog. ♦
Definition 1.2 (Bedingte Verteilung)
Sei {X1 ,...,Xn } eine Menge von Zufallsvariablen mit gemeinsamer Verteilung
P (X1 =x1 ,...,Xn =xn ). Seien X, Y disjunkte Teilmengen von {X1 ,...,Xn } und x, y ihre möglichen Ausprägungen. Die bedingte Verteilung von X gegeben Y ist definiert als
P (X = x|Y = y) =
P (X = x, Y = y)
P (Y = y)
(3)
für alle y mit P (Y = y) > 0. ♦
Definition 1.3 (Marginale Unabhängigkeit)
Sei {X1 ,...,Xn } eine Menge von Zufallsvariablen mit gemeinsamer Verteilung
P (X1 =x1 ,...,Xn =xn ). Dann sind die Variablen Xs und Xt (marginal) unabhängig,
(Symbol: I(Xs , ∅, Xt )) falls für die Randverteilungen gilt
P (Xs = xs , Xt = xt ) = P (Xs = xs ) · P (Xt = xt )
[⇔ P (Xs = xs |Xt = xt ) = P (Xs = xs )
⇔ P (Xt = xt |Xs = xs ) = P (Xt = xt )]
(4)
für alle xs , xt [ mit P (Xt = xt ) > 0 bzw. P (Xs = xs ) > 0 ].
Sind X, Y disjunkte Teilmengen von {X1 ,...,Xn } und x, y ihre möglichen Ausprägungen, dann
ist X (marginal) unabhängig von Y (Symbol: I(X, ∅, Y)), falls für die Randverteilungen gilt
P (X = x, Y = y) = P (X = x) · P (Y = y)
[⇔ P (X = x|Y = y) = P (X = x)
⇔ P (Y = y|X = x) = P (Y = y)]
(5)
für alle x, y [ mit P (Y = y) > 0 bzw. P (X = x) > 0 ].
Gilt eine der Bedingungen nicht, so sind Xs , Xt bzw. X, Y abhängig, symbolisiert als
D(Xs , ∅, Xt ) bzw. D(X, ∅, Y). ♦
1
Definition 1.4 (bedingte Unabhängigkeit)
Sei {X1 ,...,Xn } eine Menge von Zufallsvariablen mit gemeinsamer Verteilung
P (X1 =x1 ,...,Xn =xn ). Seien X, Y, Z disjunkte Teilmengen von {X1 ,...,Xn } und x, y, z ihre möglichen Ausprägungen. Dann ist X bedingt unabhängig von Y gegeben Z (Symbol:
I(X, Z, Y)), falls gilt
P (X = x, Y = y|Z = z) = P (X = x|Z = z) · P (Y = y|Z = z)
(6)
[⇔ P (X = x|Y = y, Z = z) = P (X = x|Z = z)
⇔ P (Y = y|X = x, Z = z) = P (Y = y|Z = z)]
für alle x, y, z [ mit P (Y = y, Z = z) > 0 bzw. P (X = x, Z = z) > 0 ].
Gilt eine der Bedingungen nicht, so ist X bedingt abhängig von Y gegeben Z (Symbol:
D(X, Z, Y)). ♦
Definition 1.5 (gemeinsame Unabhängigkeit)
Sei {X1 ,...,Xn } eine Menge von Zufallsvariablen mit gemeinsamer
P (X1 =x1 ,...,Xn =xn ). Dann sind X1 , ..., Xn gemeinsam unabhängig, falls gilt
P (X1 = x1 , ..., Xn = xn ) =
n
Y
Verteilung
P (Xi = xi )
(7)
i=1
für alle xi . ♦
Definition 1.6 (positive Verteilung)
Die gemeinsame Verteilung P (X1 =x1 ,...,Xn =xn ) einer
{X1 ,...,Xn } heißt positiv, falls gilt
Menge
von
Zufallsvariablen
P (X1 = x1 , ..., Xn = xn ) > 0
(8)
für alle Werte xi dieser einzelnen Zufallsvariable.♦
Satz 1.1 (Faktorisierungsregel)
Sei {X1 ,...,Xn } eine Menge
P (X1 =x1 ,...,Xn =xn ). Dann gilt
von
Zufallsvariablen
mit
gemeinsamer
Verteilung
P (X1 = x1 , ..., Xn = xn ) = P (X1 = x1 ) · P (X2 = x2 |X1 = x1 )
·P (X3 = x3 |X1 = x1 , X2 = x2 ) · ... ·
P (Xn = xn |X1 = x1 , ..., Xn−1 = xn−1 ).♦
Bemerkung
Die Reihenfolge der Variablen X1 ,...,Xn in Satz 1.1 kann beliebig permutiert werden.♦
2
(9)
Einschub: Rechenregeln für bedingte Unabhängigkeitsbeziehungen
Satz 1.2 (Eigenschaften bedingter Unabhängigkeit)
Sei P die gemeinsame Verteilung von disjunkten Mengen von
(A, B, C, D, ...). Dann hat I(A, B, C) die folgenden Eigenschaften:
Zufallsvariablen
1. Symmetrie
I(A, B, C)
⇔
I(C, B, A)
(10)
⇒
I(A, B, C) und I(A, B, D)
(11)
I(A, {B, D}, C) und I(A, {B, C}, D)
(12)
2. Dekomposition
I(A, B, {C, D})
3. Schwache Vereinigung
I(A, B, {C, D})
⇒
4. Kontraktion
I(A, {B, C}, D) und I(A, B, C)
⇒
I(A, B, {C, D})
(13)
5. Intersektion
Ist P eine positive Verteilung (vgl. Definition 1.6), so gilt
I(A, {B, D}, C) und I(A, {B, C}, D)
1.2
⇒
I(A, B, {C, D}).♦
(14)
Grundbegriffe der Graphentheorie
Definition 1.7 (Graph)
Ein Graph G(V, E) ist ein Tupel aus der Knotenmenge V = {X1 , ..., Xn } und der Kantenmenge E ⊆ {Lij | 1 ≤ i, j ≤ n}. ♦
Definition 1.8 (gerichtete Kante, ungerichtete Kante)
Sei G(V, E) ein Graph. Befindet sich das Element Lij in der Kantenmenge E und Lji nicht in
der Kantenmenge, so spricht man von einer gerichteten Kante von Xi nach Xj . Eine gerichtete
Kante zwischen zwei Knoten wird dargestellt durch Xi → Xj .
Befinden sich Lij und Lji in der Kantenmenge, spricht man von einer ungerichteten Kante,
dargestellt durch Xi – Xj oder Xj – Xi . ♦
Definition 1.9 (gerichteter Graph, ungerichteter Graph, partiell gerichteter Graph)
Ein Graph G(V, E), in dem alle Kanten gerichtet sind, heißt gerichteter Graph und ein Graph,
der nur ungerichtete Kanten enthält, heißt ungerichteter Graph. Besteht ein Graph aus teils
gerichteten und teils ungerichteten Kanten, spricht man von einem partiell gerichteten Graphen. ♦
3
Definition 1.10 (Pfad, gerichteter Pfad)
Ein Pfad von Knoten Xi zum Knoten Xj ist ein geordnetes Tupel von Knoten
(Xi,1 , ..., Xi,r ) mit dem Ausgangsknoten Xi,1 = Xi und Endknoten Xi,r = Xj derart, dass
es jeweils eine Kante (unabhängig von der Orientierung) zwischen Xi,k und Xi,k+1 gibt (k =
1, ..., r − 1).
Ein Pfad heißt gerichteter Pfad, falls alle Kanten zwischen den jeweiligen Knoten in die gleiche
Richtung Xi,k → Xi,k+1 (k = 1, ..., r − 1) zeigen. ♦
Definition 1.11 (gerichteter azyklischer Graph)
Ein Graph G(V, E) heißt gerichteter azyklischer Graph, wenn es keinen gerichteten Pfad mit
übereinstimmenden Anfangs- und Endknoten gibt. ♦
Definition 1.12 (Elternknoten, Kind)
Gibt es eine Kante Xi → Xj in einem gerichteten Graphen, so heißt Xi Elternknoten von Xj
und Xj Kind von Xi .
Die Menge aller Elternknoten wird mit PAi bezeichnet. ♦
Definition 1.13 (Vorgänger, Nachfolger)
In einem gerichteten Graphen heißt ein Knoten Xk Vorgänger eines Knoten Xi , wenn es einen
gerichteten Pfad von Xk nach Xi gibt. Ein Knoten Xj heißt Nachfolger von Xi , wenn es einen
gerichteten Pfad von Xi nach Xj gibt. ♦
1.3
Separation in Graphen
Definition 1.14 (U-Separation)
Gegeben sei ein ungerichteter Graph G(V, E) und disjunkte Teilmengen A,B,C der Knotenmenge V. Dann wird A durch B von C U-separiert, falls für jeden Pfad von einem Knoten
aus A zu einem Knoten aus C ein Knoten aus B auf diesem Pfad existiert. ♦
Definition 1.15 (d-Separation)
Gegeben sei ein gerichteter azyklischer Graph G(V, E). Seien A,B,C disjunkte Teilmengen
der Knotenmenge V. Dann wird A durch B von C d-separiert ( Symbol: < A | B | C > ),
wenn gilt:
Für jede Verbindung zwischen einem Knoten aus A zu einem Knoten aus C gilt
1. es existiert ein Knoten W auf dem Pfad mit aufeinander zulaufenden Kanten → W ←
und W sowie seine Nachfolger gehören nicht zu B,
oder
2. es existiert ein Knoten Q mit nicht aufeinander zulaufenden Kanten → Q →, ← Q →
oder ← Q ← und Q gehört zu B. ♦
4
1.4
Identifizierung von Unabhängigkeiten aus Graphen
Definition 1.16 (Bayessches Netzwerk)
Gegeben sei ein gerichteter azyklischer Graph G(V, E) mit der Knotenmenge
V={X1 , ..., Xn }. Jeder Knoten Xi (1 ≤ i ≤ n) entspreche einer Zufallsvariablen, für die eine
bedingte Verteilung gegeben die Elternvariablen von Xi
P (Xi = xi | PAi = pai )
1≤i≤n
vorliege. Dann heißt der gerichtete azyklische Graph Bayessches Netzwerk. ♦
Satz 1.3 (Markovbedingung für Graphen)
Gegeben sei ein gerichteter azyklischer Graph G(V, E) mit gemeinsamer Verteilung P der
betrachteten Variablen V={X1 , ..., Xn }. Dann sind äquivalent:
1. Faktorisierung gegeben der Eltern:
P (X1 = x1 , ..., Xn = xn ) = P (X1 = x1 | PA1 = pa1 ) ·
· . . . · P (Xn = xn | PAn = pan )
(15)
2. Für alle i gilt die Markovbedingung für Graphen :
Xi ist unabhängig von allen Nichtnachfolgern von Xi (ohne die Eltern) gegeben die
Eltern PAi . ♦
Folgerung
Gilt die Markovbedingung für Graphen, so liefert die Faktorisierung durch den Graphen die
gemeinsame Wahrscheinlichkeitsverteilung. ♦
Definition 1.17 (Unabhängigkeitsabbildung)
Ein gerichteter azyklischer Graph G(V, E) ist eine Unabhängigkeitsabbildung der gemeinsamen
Wahrscheinlichkeitsverteilung P von V = {X1 , ..., Xn }, falls
< A | B | C >⇒ I(A, B, C)
für beliebige disjunkte Teilmengen A, B, C von V gilt. ♦
Satz 1.4 (Kriterium für Unabhängigkeitsabbildung)
Gegeben sei ein Bayessches Netzwerk G(V, E), dessen gemeinsame Verteilung P von
V={X1 , ..., Xn } durch
P (X1 = x1 , ..., Xn = xn ) = P (X1 = x1 | PA1 = pa1 ) · . . . · P (Xn = xn | PAn = pan )
dargestellt werden kann. Dann gilt:
< A | B | C >⇒ I(A, B, C)
für beliebige disjunkte Teilmengen A, B, C von V. ♦
5
2
2.1
Abhängigkeitsmodelle
(Konstruktion von Bayesschen Netzwerken)
Konstruktion aus Inputlisten
Seien X1 , . . . , Xn Zufallsvariablen in dieser Reihenfolge mit (nicht notwendig explizit bekannter) gemeinsamer Verteilung P .
Definition 2.1 (Inputliste)
Eine (kausale) Inputliste zu X1 , . . . , Xn ist gegeben durch Mengen Ci ⊂ V = {X1 , . . . , Xn }
(1 ≤ i ≤ n) mit
- C1 = ∅
- Für 2 ≤ i ≤ n gilt
(1) Ci ⊂ {X1 , . . . , Xi−1 }
(2) I(Xi , Ci , {X1 , . . . , Xi−1 } \ Ci )
- keine echte Teilmenge von Ci erfüllt (2). ♦
Definition 2.2 (Bayessches Netzwerk zu Inputliste)
Das zur Inputliste C1 , . . . , Cn gehörende Bayessche Netzwerk G(V, E) besteht aus den Knoten
V ={X1 , . . . , Xn } und den Kanten Xj → Xi für alle Xj ∈ Ci (1 ≤ i ≤ n). ♦
Satz 2.1 (Faktorisierung bei gegebener Inputliste)
Sei C1 , . . . , Cn eine Inputliste. Dann gilt für die gemeinsame Verteilung P
V={X1 , . . . , Xn }
P (X1 = x1 , ..., Xn = xn ) =
n
Y
P (Xi = xi | Ci = ci )
von
(16)
i=1
d.h. es gilt die Faktorisierung bzgl. der Elternvariablen im zugehörigen Graphen. ♦
Bemerkung
Die Kenntnis der Faktorisierung erleichtert in der Regel die numerische Bestimmung der gemeinsamen Verteilung P erheblich. ♦
Satz 2.2 (Inputliste und Unabhängigkeitsabbildung)
Sei G(V, E) das Bayessches Netzwerk zu einer Inputliste C1 , . . . , Cn . Dann gilt: G(V, E) ist
Unabhängigkeitsabbildung zur gemeinsamen Verteilung P von V = {X1 , . . . , Xn }, d.h.
< A | B | C >⇒ I(A, B, C)
gilt für beliebige disjunkte Teilmengen A, B, C von V. ♦
Bemerkung
Mittels d-Separation können aus dem Graphen G(V, E) weitere Unabhängigkeitsbeziehungen, die für die Verteilung P von V gelten, abgeleitet werden, ohne notwendiger Weise die
Verteilung zu kennen. ♦
6
2.2
Konstruktion aus Gleichungssystemen
Definition 2.3 (Gleichungssystem und zugehöriger Graph)
Sei V = {X1 , . . . , Xn } eine Menge von Zufallsvariablen. Zu jeder Variable Xi (1 ≤ i ≤ n)
sei eine Menge Di ⊂ {X1 , . . . , Xn } \ {Xi } als direkte Einflussgrößen gegeben. Damit sei ein
Gleichungssystem definiert
Xi = fi (Di , Ui )
1≤i≤n
(17)
mit Funktionen fi und Zufallsvariablen Ui (1 ≤ i ≤ n).
Der zum Gleichungssystem gehörende Graph G(V, E) besteht aus
V={X1 , . . . , Xn } und den Kanten Xj → Xi für alle Xj ∈ Di (1 ≤ i ≤ n). ♦
den
Knoten
Definition 2.4 (Markovbedingung für Gleichungssysteme)
Das Gleichungssystem (17) erfüllt die Markovbedingung, wenn die Ui (1 ≤ i ≤ n) gemeinsam
unabhängige Zufallsvariablen sind und der zugehörige Graph G(V, E) keine Zyklen enthält. ♦
Bemerkung
Es gilt: Enthält ein gerichteter Graph keine Zyklen, so existiert mindestens ein Knoten Xi
ohne Eltern. ♦
Satz 2.3 (Gleichungssystem und Faktorisierung)
Erfüllt ein Gleichungssystem (17) die Markovbedingung (Definition 2.4), so gilt für die gemeinsame Verteilung P von V = {X1 , . . . , Xn }
P (X1 = x1 , ..., Xn = xn ) =
n
Y
P (Xi = xi | Di = di )
(18)
i=1
d.h. es gilt die Faktorisierung bzgl. der Elternvariablen im zugehörigen Graphen. ♦
Folgerung
1. Der zu einem Gleichungssystem, das die Markovbedingung erfüllt, gehörende Graph
G(V, E) ist nach Satz 1.4 eine Unabhängigkeitsabbildung für die gemeinsame Verteilung
P von V = {X1 , . . . , Xn }. Es gilt:
< A | B | C >⇒ I(A, B, C)
für beliebige disjunkte Teilmengen A, B, C von V.
2. Ist die Markovbedingung für ein Gleichungssystem erfüllt, so genügt auch der zugehörige
Graph der Markovbedingung (Satz 1.3). ♦
7
2.3
Spezialfall: Lineare Gleichungssysteme
Definition 2.5 (Lineares Gleichungssystem)
Sei V = {X1 , . . . , Xn } eine Menge von Zufallsvariablen. Zu jeder Variable Xi (1 ≤ i ≤ n)
sei eine Menge Di ⊂ {X1 , . . . , Xn } \ {Xi } als direkte Einflussgrößen gegeben. Damit sei ein
lineares Gleichungssystem definiert
X
Xi =
αij Xj + Ui
1≤i≤n
(19)
j:i6=j
mit αij 6= 0 genau dann, wenn Xj ∈ Di ist, und den Zufallsvariablen Ui (1 ≤ i ≤ n).
Vektorschreibweise für das



X1
U1
 .. 
 ..
X =  . , U =  .
Xn
Un
Gleichungssystem:
X = AX + U mit

0 α12
···
α1n


..
 α21 0
.


 und A =  .
.
..
 ..
α(n−1)n
αn1 · · · αn(n−1)
0
Satz 2.4 (Erwartungswert und Kovarianzmatrix)
Gegeben
P sei ein lineares Gleichungssystem X = AX + U .
und U die Kovarianzmartix
 der Ui :
V ar(U1 )
Cov(U1 , U2 )


E(U1 )

 Cov(U2 , U1 )
V ar(U2 )

 P
..
µU = 
, U =
.

..

.
E(Un )
Cov(Un , U1 )
···



. ♦


Sei µU der Erwartungswertvektor
· · · Cov(U1 , Un )
..
.
..
..
.
.
···
V ar(Un )



.


Ist die Matrix (I − A) invertierbar, so gilt


E(X1 )
P
P


..
E(X) = 
 = (I − A)−1 µU und X = (I − A)−1 U ((I − A)−1 )T .
.
E(Xn )
Dabei bezeichne I die n-dimensionale Einheitsmatrix. ♦
Bemerkung
Wenn der Vektor U n-dimensional normalverteilt ist, dann ist auch der Vektor X mit X =
AX + U n-dimensional normalverteilt. ♦
Satz 2.5
Sei X ein n-dimensional normalverteilter Zufallsvektor mit


Y1
. 

 
 .. 
X1

 Y
Ym 
 ..  


X= . =
und m + p = n.
= Z
 Z1 
Xn
 .. 
 . 
Zp
8
P P
Seien µY , µZ der Erwartungswertvektor und Y , Z die Kovarianzmartix von Y bzw. von
Z.


E(X1 )
P
P
P
µY


.
Y
Y
Z
P
P
.
Dann gilt E(X) = 
und X =
.
=
.
µZ
ZY
Z
E(Xn )
Für den bedingten Erwartungswert bzw. die bedingte Kovarianzmatrix von Y gegeben Z = z0
gilt dann
P P
P
P
P P−1 P
E(Y | Z = z0 ) = µY + Y Z −1
Z (z0 − µZ ) bzw.
Y |Z=z0 =
Y +
YZ
Z
ZY .♦
Bemerkung
• Xi und Xj sind P
unabhängig genau dann, wenn das Element in der i-ten Zeile und der
j-ten Spalte von X gleich Null ist (Cov(Xi , Xj ) = 0).
• Xi und Xj sind unabhängig gegeben Q = {X1 , . . . , Xn P
} \ {Xi , Xj } genau dann, wenn
das Element in der i-ten Zeile und der j-ten Spalte von −1
X gleich Null ist. ♦
2.4
Perfekte Abbildungen
Definition 2.6 (Perfekte Abbildung)
Ein Bayessches Netzwerk G(V, E) heißt perfekte Abbildung für die gemeinsame Verteilung P
von V = {X1 , . . . , Xn }, wenn gilt:
< A | B | C >⇔ I(A, B, C)
für beliebige disjunkte Teilmengen A, B, C von V.♦
Satz 2.6 (Existenz perfekter Abbildungen)
Sei G(V, E) ein gerichteter azyklischer Graph. Dann gilt: Es existiert eine gemeinsame Verteilung P̄ von V = {X1 , . . . , Xn }, so dass G(V, E) eine perfekte Abbildung von P̄ darstellt.♦
Satz 2.7
Gegeben sei ein Gleichungsmodell mit Markovbedingung. Es gelte zusätzlich, dass die Mengen P Ai eine Inputliste bilden. Dann können alle Unabhängigkeitsbeziehungen der Form
I(Xi , P Ai , {X1 , . . . , Xi−1 }\P Ai ) und alle sich daraus ergebenden Unabhängigkeitsbeziehungen aus Satz 1.2 aus der d-Separation abgeleitet werden.♦
Folgerung
Wenn die Unabhängigkeitsbeziehungen der Form I(Xi , P Ai , {X1 , . . . , Xi−1 }\P Ai ) und alle
sich daraus ergebenden Unabhängigkeitsbeziehungen aus Satz 1.2 die einzigen sind, dann ist
der Graph eine perfekte Abbildung.♦
9
3
Kausale Effekte
3.1
Einführung
3.2
Rubin-Modell
Grundgesamtheit G = {g1 , . . . , gN }
Behandlungsvariable (treatment) X : G −→ {0, 1}
Antwortvariable (response) Y : G −→ R
Y (gj ) gibt die Reaktion des Merkmalsträgers gj an. Y (gj ) hängt davon ab, ob gj mit X = 0
oder mit X = 1 behandelt wurde.
Potentielle Antwortvariablen: Y0 : G −→ R und Y1 : G −→ R
Y0 , Y1 geben die Reaktionen an, falls alle Merkmalsträger mit X = 0 bzw. X = 1 behandelt werden. Es gilt:
X(gj ) = 1 ⇒ Y (gj ) = Y1 (gj ) (1 ≤ j ≤ N )
X(gj ) = 0 ⇒ Y (gj ) = Y0 (gj ) (1 ≤ j ≤ N )
Individueller kausaler Effekt
Y1 (gj ) − Y0 (gj ) (1 ≤ j ≤ N )
(i. a. nicht beobachtbar)
Durchschnittlicher kausaler Effekt
N
N
1 X
1 X
Y1 (gj ) −
Y0 (gj )
N
N
j=1
(20)
j=1
(i. a. nicht beobachtbar)
Seien M0 ⊂ G, M1 ⊂ G ,repräsentative’ Teilmengen von G mit N0 bzw. N1 Elementen, so
dass gilt
N
1 X
1 X
Y0 (gj ) =
Y0 (gj )
N
N0
j=1
j∈M0
N
1 X
1 X
Y1 (gj ) =
Y1 (gj ).
N
N1
j=1
j∈M1
Dann kann der durchschnittliche kausale Effekt (20) geschätzt werden.
Repräsentativität kann bei hinreichend großem N durch zufällige Zuweisung der Behandlung
X erzeugt werden.
10
Stochastische Grundform des Rubinmodells
Y0 , Y1 , X, Y sind Zufallsvariablen
Seien (xj , yj ) Beobachtungen von X bzw. Y . Es gelte:
xj = 0 ⇒ Y0 (gj ) = Y (gj ) = yj
xj = 1 ⇒ Y1 (gj ) = Y (gj ) = yj
Definition 3.1
Es liegt ein kausaler Effekt von X = 0 gegenüber X = 1 vor, wenn sich die Verteilungen von
Y0 und Y1 unterscheiden.♦
Satz 3.1
Sind X und Y0 bzw. X und Y1 unabhängig, so gilt
P (Y0 = y) = P (Y = y|X = 0)
P (Y1 = y) = P (Y = y|X = 1).♦
(21)
Gilt Satz 3.1, so kann die Verteilung der potentiellen Variablen bestimmt werden und überprüft
werden, ob ein kausaler Effekt vorliegt.
Satz 3.2
Sei Z eine weitere Variable, so dass gilt I(X, Z, Y0 ), I(X, Z, Y1 ). Dann gilt
X
P (Y0 = y) =
P (Y = y|X = 0, Z = z)P (Z = z)
z
P (Y1 = y) =
X
P (Y = y|X = 1, Z = z)P (Z = z).♦
z
In der Situation des Satzes 3.2 kann ein etwaiger kausaler Effekt aus den Daten bestimmt
werden.
3.3
Kausale Effekte in Gleichungssystemen
Definition 3.2
Gegeben sei ein Gleichungssystem gemäß Definitionen 2.3 und 2.4
Xj = fj (PAj , Uj ) mit P Aj ⊂ {X1 , . . . , Xj−1 } (1 ≤ j ≤ n).
Das durch die Festsetzung Xi ≡ x entstehende manipulierte Gleichungssystem ist gegeben
durch
X1 = f1 (U1 )
..
.
Xi−1 = fi−1 (PAi−1 , Ui−1 )
Xi0 ≡ x
0
Xi+1
=
..
.
(22)
fi+1 (PA0i+1 , Ui+1 )
Xn0 = fn (PA0n , Un ).
PA0j ist die sich aus PAj ergebende Variablenmenge, wenn in allen der j-ten Gleichung vorangehenden Gleichungen Xi durch Xi0 ≡ x ersetzt wird.♦
11
Satz 3.3
0 , . . . , X 0 } bei der Manipulation X 0 ≡ x
Die gemeinsame Verteilung von {X1 , . . . , Xi−1 , Xi0 , Xi+1
n
i
ist gegeben durch
0
P (X1 = x1 , . . . , Xi−1 = xi−1 , Xi0 = x, Xi+1
= xi+1 , . . . , Xn0 = xn )
P (X1 = x1 , . . . , Xi−1 = xi−1 , Xi = x, Xi+1 = xi+1 , . . . , Xn = xn )
=
P (Xi = x|PAi = pai )
(23)
O.B.d.A. sei Xn die Antwortvariable; d. h. Xn entspricht Y . Die Behandlungsvariable Xi
entspricht X.♦
Definition 3.3
Ein kausaler Effekt von Xi ≡ x gegenüber Xi ≡ x0 liegt vor, wenn die Randverteilung von Xn0
aus (23) bei der Manipulation Xi ≡ x sich von der Randverteilung von Xn0 aus (23) bei der
Manipulation Xi ≡ x0 unterscheidet.♦
Bemerkung
Mit der Behandlungsvariable Xi ←→ X und der Antwortvariablen Xn ←→ Y entsprechen die
Verteilungen von Xn0 bei Xi ≡ x bzw. Xi ≡ x0 den Verteilungen von Yx , Yx0 im Rahmen des
Rubin-Modells. P (Yx = y), P (Yx0 = y) sind die entsprechenden Randverteilungen in (23).♦
3.4
Backdoor-Kriterium
Im Folgenden sei ein Gleichungssystem
Xj = fj (PAj , Uj )
(1 ≤ j ≤ n)
gegeben, das die Markov-Bedingung erfüllt. Sei G(V, E) das zugehörige Bayessche Netzwerk.
Definition 3.4
Seien Xi und Xk zwei feste Variablen (i<k). Eine Teilmenge Z ⊂ {X1 , . . . , Xn } \ {Xi , Xk }
erfüllt das Backdoor-Kriterium bzgl. Xi , Xk , wenn gilt
a) kein Z ∈ Z ist Nachfolger von Xi
b) für alle Verbindungen zwischen Xi und Xk , die mit einem Pfeil in Richtung Xi enden,
sind Xi und Xk durch Z d-separiert.♦
Satz 3.4
Gilt das Backdoor-Kriterium für eine Menge Z bzgl. Xi ←→ X, und Xk ←→ Y , so gilt für
die Verteilung von Xk0 ←→ Yx0 bei der Manipulation Xi ≡ x
P (Yx0 = y) =
X
P (Y = y|X = x, Z = z)P (Z = z).♦
z∈Z
12
(24)
3.5
Frontdoor-Kriterium
Voraussetzungen wie für 3.4
Definition 3.5
Eine Teilmenge Z ⊂ {X1 , . . . , Xn } \ {Xi , Xn } erfüllt das Frontdoor-Kriterium bzgl. Xi , Xn ,
falls
a) auf jedem gerichteten Pfad von Xi nach Xn liegt ein Z ∈ Z
b) jeder ’Backdoor-Pfad’ zwischen Xi und Z ist durch die leere Menge d-separiert
c) jeder ’Backdoor-Pfad’ zwischen Z und Xn ist durch Xi d-separiert.♦
Bemerkung:
Ein ’Backdoor-Pfad’ zwischen Xi und Z ist eine Verbindung von Xi mit einem Z ∈ Z, die
mit einer nach Xi gerichteten Kante endet. Ein ’Backdoor-Pfad’ zwischen Z und Xn ist eine
Verbindung von einem Z ∈ Z mit Xn , die mit einer nach Z gerichteten Kante endet.♦
Satz 3.5
Gilt das Frontdoor-Kriterium für Xi ←→ X und Xn ←→ Y , so gilt für die Verteilung von
Xn0 ←→ Yx01 bei der Manipulation Xi ≡ x1 :
P (Yx01 = y) =
X
P (Z = z|X = x1 )
3.6.1
P (Y = y|Z = z, X = x)P (X = x).♦
(25)
x
z∈Z
3.6
X
“Vollständigkeit” der Variablenmenge
Notwendiges Kriterium für die Vollständigkeit
Sei V eine Variable mit
A1) V ist kein Nachfolger von X,
A2) Y ist Nachfolger von V.
Frage: Wann gilt P (Yx0 = y) = P (Y = y|X = x)?
Satz 3.6
Es gelte A1), A2) und P (Yx0 = y) = P (Y = y|X = x). Dann gilt I(X, ∅, V ) oder I(Y, X, V ).♦
Satz 3.7
Es gelte A1), A2) und die Unabhängigkeitsbeziehungen I(X, ∅, V ) und I(Y, X, V ) gelten nicht.
Dann gilt
P (Yx0 = y) 6= P (Y = y|X = x).♦
Frage: Wann gilt P (Yx0 = y) =
P
t P (Y
= y|X = x, T = t)P (T = t)?
13
Satz 3.8 (Verallgemeinerung des notwendigen Kriteriums)
P
Es gelte A1), A2) und P (Yx0 = y) = t P (Y = y|X = x, T = t)P (T = t). Dann gilt I(X, T, V )
oder I(Y, {T, X}, V ).♦
Satz 3.9 (Verallgemeinerung des notwendigen Kriteriums)
Es gelte A1), A2) und die Unabhängigkeitsbeziehungen I(X, T, V ) und I(Y, {T, X}, V ) gelten
nicht. Dann gilt
X
P (Y = y|X = x, T = t)P (T = t).♦
P (Yx0 = y) 6=
t
3.6.2
Hinreichendes Kriterium für die Vollständigkeit
Satz 3.10
Sei V eine Variable mit
B1) V ist Vorgänger von X,
B2) V ist unabhängig von Y gegeben X.
Der wahre Graph sei eine perfekte Abbildung. Dann gilt
P (Yx0 = y) = P (Y = y|X = x).♦
Satz 3.11 (Verallgemeinerung des hinreichenden Kriteriums)
Sei V eine weitere Variable mit
C1) V ist Vorgänger von X im wahren Modell,
C2) V ist nicht unabhängig von X gegeben T,
C3) V ist unabhängig von Y gegeben {X,T}.
Der wahre Graph sei eine perfekte Abbildung. Dann gilt
X
P (Yx0 = y) =
P (Y = y|X = x, T = t)P (T = t).♦
t
14
4
4.1
Ziel:
Tetrad-Algorithmus
Grundsätzliche Schwierigkeiten
Konstruktion eines (partiell) gerichteten azyklischen Graphen aus Daten
Anzahl gerichteter azyklischer Graphen mit n Knoten f (n):
f (0) := 1
f (1) := 1
n
P
n!
i(n−i) f (n − i)
(−1)i+1 · (n−i)!
f (n) :=
i! 2
i=1
4.2
Unabhängigkeitsäquivalente Graphen
Definition 4.1 (Unabhängigkeitsäquivalenz)
Zwei Graphen G1 und G2 heißen unabhängigkeitsäquivalent, wenn sie die selben d-Separationen
implizieren.♦
Definition 4.2 (V-Struktur)
Drei Knoten X, Y und Z bilden eine V-Struktur, wenn X → Z ← Y gilt und keine Kante
zwischen X und Y existiert (Unshielded Collider).♦
Satz 4.1
Zwei gerichtete azyklische Graphen G1 und G2 sind genau dann unabhängigkeitsäquivalent,
wenn sie
1. den gleichen zugehörigen ungerichteten Graphen besitzen
2. die gleichen V-Strukturen besitzen.♦
Definition 4.3 (Irreversibilität)
Sei Xi → Xj eine gerichtete Kante aus G. Die Kante Xi → Xj heißt nicht umkehrbar
bzw. irreversibel, wenn gilt: In jedem zu G unabhängigkeitsäquivalenten Graphen G0 gibt es
ebenfalls die Kante Xi → Xj .♦
Definition 4.4 (Muster)
π sei ein teilweise gerichteter Graph. Ein gerichteter azyklischer Graph gehört zur Äquivalenzklasse von π, wenn gilt
a) G besitzt die selben Verbindungen wie π
b) Jede Kante Xi → Xj aus π ist auch in G so gerichtet
c) Jeder Unshielded Collider aus G ist Unshielded Collider in π
π heißt auch Muster.♦
15
4.3
PC-Algorithmus
Der PC-Algorithmus (Spirtes/Glymour/Scheines 1993) basiert auf der Auswertung von (bedingten) Unabhängigkeitsbeziehungen zur Konstruktion eines partiell gerichteten azyklischen
Graphen. Der Algorithmus ist in zwei nacheinander ablaufende Phasen gegliedert. Eine Implementation des Algorithmus enthält das Programmpaket TETRAD. Die wesentlichen Aspekte
sind im Folgenden dargestellt.
Gegeben sei eine Realisation einer einfachen Zufallsstichprobe (x1k , . . . , xnk ) vom Umfang N
(1 ≤ k ≤ N ) zu den Zufallsvariablen V = {X1 , . . . , Xn }. Zur gemeinsamen Verteilung P von
V existiere ein gerichteter azyklischer Graph G(V, E), der eine perfekte Abbildung zu P ist.
Zur Durchführung der Unabhängigkeitstests bedarf es der Festlegung eines Signifikanzniveaus
α.
Kantengenierungsphase
Ausgehend vom vollständigen ungerichteten Graph wird eine Kante zwischen zwei Knoten
X, Y ∈ V entfernt, falls eine Teilmenge T ⊂ V \ {X, Y } existiert, für die zu einem vorgegebenen Signifikanzniveau α die Nullhypothese, dass X und Y bedingt unabhängig gegeben T
sind, nicht abgelehnt werden kann. Die Bedingungsmenge T wird ausgehend von der leeren
Menge aus im bereits konstruierten Graphen noch zu X und Y benachbarten Knoten aufgebaut. Existiert keine Teilmenge T aus noch zu X und Y benachbarten Knoten, für die die
Nullhypothese I(X,T,Y) nicht abgelehnt werden kann, bleibt die Kante X − Y bestehen.
Orientierungsphase
Nachdem die Kantengenerierungsphase abgeschlossen ist, beginnt die Orientierungsphase. Diese baut auf zwei Regeln auf, die sequentiell abgearbeitet werden.
Orientierungsregel 1:
Ein Objekt aus drei Knoten X − Z − Y (X und Z, Y und Z sind benachbart, X und Y jedoch
nicht) wird zu X → Z ← Y orientiert, falls Z nicht in der Menge T enthalten ist, für die
I(X,T,Y) gilt.
Orientierungsregel 2:
Sind alle Unshielded Collider identifiziert, werden alle verbleibenden Kanten so weit wie möglich so orientiert, dass kein neuer unshielded collider und keine Zyklen entstehen.
Ergebnis
Ergebnis des PC-Algorithmus ist ein partiell gerichteter Graph, der alle unabhängigkeitsäquivalenten gerichteten azyklischen Graphen repräsentiert.
Bemerkung:
Der PC-Algorithmus liefert die ’wahre’ Struktur, falls
-
im Modell alle gemeinsamen Ursachen enthalten sind
gilt: zur Verteilung P (V) existiert eine perfekte Abbildung G(V, E)
die Testentscheidungen korrekt sind
alle Merkmalsträger die gleichen ’kausalen Relationen’ besitzen.
16
4.4
Latente Variablen und Tetraddifferenzen
Definition 4.5 (linear rekursives Gleichungssystem)
Ein linear rekursives Gleichungssystem der Variablen V = {X1 , . . . , Xn } ist ein rekursives
Gleichungssystem mit Gleichungen der Gestalt
n
X
Xi =
αij Xj + Ui 1 ≤ i ≤ n
(26)
j=1, j6=i
mit unabhängigen Zufallsvariablen U1 , . . . , Un und Koeffizienten αij ∈ IR.
Definition 4.6 (Tetraddifferenzen)
Gegeben sei ein linear rekursives Gleichungssystem. Seien Y1 , Y2 , Y3 , Y4 beliebige Variablen aus
V = {X1 , . . . , Xn }. Die möglichen Tetraddiffererenzen lauten
ρ12 ρ34 − ρ13 ρ24
ρ12 ρ34 − ρ14 ρ23
(27)
ρ13 ρ24 − ρ14 ρ23
mit den Korrelationskoeffizienten ρij = corr(Yi , Yj ).
Definition 4.7 (Tetradgleichung)
Eine Tetradgleichung τ ist gegeben, falls die Tetraddifferenz 0 ist.
Bemerkungen
1. Für n-Variablen gibt es 3 n4 Tetraddifferenzen.
2. Es gibt zu je 4 Variablen drei Möglichkeiten:
- keine Tetradgleichung ist erfüllt
- eine Tetradgleichung ist erfüllt
- 3 Tetradgleichungen sind erfüllt.
5
Literatur
CASTILLO, E., GUTIERREZ, J. M., HADI, A. S. (1997): Expert Systems and Probabilistic
Network Models, New York.
KISCHKA, P. (2000): Graphentheoretische Modelle in der Statistik, in: Voss, H. (ed.), Taschenbuch der Statistik, Leipzig.
PEARL, J. (1988): Probabilistic Reasoning in Intelligent Systems, San Mateo.
PEARL, J. (1993): Comment: Graphical Models, Causality and Intervention, Statistical Science,
266-269.
PEARL, J. (2009): Causality: Models, Reasoning, and Inference, 2. Auflage, Cambridge University Press, Cambridge.
SPIRTES, P., GLYMOUR, C., SCHEINES, R. (2000): Causation, Prediction, and Search, 2.
Auflage, MIT Press, New York.
Aktuelle TETRAD-Versionen III und IV im Internet unter „THE TETRAD PROJECT“, URL:
http://www.phil.cmu.edu/projects/tetrad/index.html
17
Herunterladen