10 Gauß`sche graphische Modelle

Werbung
10
Gauß’sche graphische Modelle
30. 1. 2014
25.Vorlesung
Graphische Modelle in der Statistik:
• statistische Modelle für mehrdimensionale Zufallsvektoren
• Darstellung als Graph mit (univariaten) Merkmalen als Knoten
• Kanten (gerichtet oder ungerichtet) repräsentieren irgendeine stochastische Abhängigkeitsbeziehung zwischen den Merkmalen, meistens
bedingte Unabhängigkeit
• graphische Modellierung: finde den zu den Daten passenden Graphen
• Methoden der graphischen Modellierung unterscheiden sich stark hinsichtlich der Art der Modelle (was die Kanten repräsentieren) und der
Art der Daten (nominal/metrisch)
Im Folgenden: ungerichtete Kanten, stetig verteilte Daten
10.1
Bedingte Unabhängigkeit
Definition 10.1. Seien X, Y, Z Zufallsvektoren mit gemeinsamer Dichte f .
X und Y sind bedingt unabhängig gegeben Z (Notation X ⊥
⊥Y|Z), falls es
Funktionen g, h gibt, so dass
f (x, y, z) = g(x, z) h(y, z).
(8)
Bemerkung 10.2.
• Anschaulich bedeutet X ⊥
⊥Y|Z, dass, wenn man Z bereits kennt, die
Kenntnis von Y keine zusätzliche Info über X liefert.
• Mathematisch bedeutet X ⊥
⊥Y|Z, dass die bedingte Verteilung von (X, Y)
gegeben Z = z für (fast) alle z ein Produktmaß ist.
172
• Falls X ⊥
⊥Y|Z, dann
f (X,Y)|Z (x, y|z) = f X|Z (x|z) f Y|Z (y|z).
(9)
Beispiel 10.3. Seien U, V, Z iid, ∼ N (0, 1), X := U + Z, Y := V + Z.
Dann
X⊥
6 ⊥Y,
Es gilt:

X

Y

Z

aber

X⊥
⊥Y | Z

 

2 1 1
0


  
 ∼ N3  0  ,  1 2 1  ,


  
0
1 1 1
Σ −1

1
0 −1


=
1 −1 
 0

−1 −1 3
Beispiel 10.4. Drei Bernoulli-Variablen A, B, C mit folgender gemeinsamer Dichte:
C
B
0
0
1
1
0
1
A 0 1/10 3/10 3/40 1/40
1 1/40 3/40 3/10 1/10
Hier ebenfalls A ⊥
6 ⊥ B, A ⊥
⊥ B|C.
Warum bedingte (Un-) Abhängigkeiten? Nützlich um Scheinkorrelationen zu identifizieren und kausale Zusammenhänge aufzuspüren (klassische Beispiele: Störche und Babys, Anstieg der Krebstoten)
173
Beispiel 10.5. Example 10.4 revisited.
Student applicants at some small university for a given year classified
by sex (A) and admission (B):
# applicants
admitted
no (0) yes (1)
total
800
400
400
sex m (0)
400
140
260
f (1)
400
260
140
sign of gender discrimination?
Applicants classified by sex (A), admission (B) and department (C):
computer science (0)
pedagogy (1)
admitted
# applicants
# applicants
no (0)
yes (1)
admitted
no (0)
yes (1)
total
400
100
300
400
300
100
sex m (0)
320
80
240
80
60
20
f (1)
80
20
60
320
240
80
Bedingte (Un-)Abhängigkeiten von Zufallsvektor X = ( X1 , . . . , Xd ) werden
durch Graphen repräsentiert:
Kante zwischen Xi und X j
⇐⇒
Xi ⊥
6 ⊥ X j |X−i,j .
Dabei ist X−i,j der Zufallsvektor X ohne die Komponenten Xi und X j .
174
10.2
Graphen
In diesem Abschnitt wird erklärt, warum sich insbesondere die Beziehung
“bedingte Unabhängigkeit” für die graphische Darstellung eignet.
Zunächst ein paar Begriffe. Sei G = (V, E) ein ungerichteter Graph mit d
Knoten.
• V = {1, . . . , d}
vertices (Plural von vertex),
• E ⊆ {{i, j} | 1 ≤ i < j ≤ d}
edges,
• Zwei Knoten a und b sind benachbart, falls { a, b} ∈ E.
• Ein Pfad der Länge k ist eine Folge ( a1 , . . . , ak+1 ) paarweise verschiedener Knoten ai für die { ai , ai + 1} ∈ E, i = 1, . . . , k gilt.
• Ist ( a1 , . . . , ak ) ein Pfad und { ak , a1 } ∈ E, dann ist ( a1 , . . . , ak , a1 ) ein
Zyklus der Länge k.
• Sei ( a1 , . . . , ak , a1 ) ein Zyklus. Falls
∃i, j : { ai , a j } ∈ E,
|i − j | ∈
/ {1, k},
dann heißt { ai , a j } Sehne des Zyklus.
• Ein Graph mit allen möglichen Kanten heißt saturiert oder vollständig.
• Sei A ⊂ V. Der von A induzierte Teilgraph ist
G A = ( A, E A ),
E A = {{ a, b} | a, b ∈ A, { a, b} ∈ E}.
Falls G A vollständig, aber GB für alle A $ B ⊂ V nicht vollständig
ist, so heißt A eine Clique von G. Eine Clique ist eine maximaler
vollständiger Teilgraph.
• G = (V, E) heißt trianguliert oder zerlegbar (decomposable), falls
jeder Zyklus (der Länge 4 oder größer) eine Sehne hat.
175
• Seien A, B, S disjunkte Teilmengen von V. Die Mengen A und B werden im Graphen G von S separiert, falls jeder Pfad von einem Knoten
in A zu einem Knoten in B einen Knoten aus S enthält. A und B sind
in G separiert, falls sie durch die leere Menge separiert werden. (Etwas logische Spielerei: das heißt das einfach: es gibt keinen Pfad von
A nach B.)
Satz 10.6. Separationstheorem Seien X = ( X1 , . . . , Xd ) ein Zufallsvektor
mit positiver Dichte f und A, B, S ⊂ V = {1, . . . , d} disjunkt. S separiert
A und B in G genau dann, wenn X A ⊥
⊥X B |XS .
10.3
Partielle Korrelation
Sei X = (Y, Z) ein d-dimensionaler (d ≥ 3) normalverteilter Zufallsvektor
mit nicht singulärer Kovarianzmatrix Σ, wobei Y = (Y1 , Y2 ),
 
  

Y
µ
Σ ΣYZ
  ∼ Nd  Y  ,  Y
 ,
wobei ΣY ∈ R2×2 .
Z
µZ
ΣZY ΣZ
Erinnere an Satz 2.12: Die bedingte Vtlg. von Y gegeben Z = z ist eine
Normalverteilung mit
1
Erwartungswert E(Y|Z = z) = µY + ΣYZ Σ−
Y (z − µZ )
und
1
Varianz Var(Y|Z = z) = ΣY − ΣYZ Σ−
Z Σ ZY = : Σ Y•Z ,
d. h.
Y1 ⊥
⊥Y2 |Z ⇐⇒ (ΣY•Z )1,2 = 0 ⇐⇒ ρY1 ,Y2 •Z = 0,
176
wobei
ρY1 ,Y2 •Z = q
(ΣY•Z )1,2
(ΣY•Z )1,1 (ΣY•Z )2,2
die bedingte Korrelation von Y1 und Y2 gegeben Z ist.
Definition 10.7. Sei X = ( X1 , . . . , Xd ein beliebiger Zufallsvektor (nicht
notwendig normalverteilt) mit pos. def. Kovarianzmatrix Σ. Die Inverse
K := Σ−1 heißt Konzentrationsmatrix oder Präzisionsmatrix von X.
Satz 10.8. ρY1 ,Y2 •Z := − p
k1,2
.
k1,1 k2,2
Der Beweis folgt mit dem folgenden Lemma.
3. 2. 2014
26.Vorlesung
Lemma 10.9.



 −1
d −b
a b
1



a) 
=
ad
−
bd
−c a
c d

b) 
ΣY ΣYZ
ΣZY ΣZ
 −1


=
1
Σ−
Y
•
Z

−1
1
−ΣZ ΣZY Σ−
Y•Z

1
−1
−Σ−
Y•Z Σ YZ Σ Z
.
−1
−1
−1
−1
ΣZ + ΣZ ΣZY ΣY•Z ΣYZ ΣZ
Korollar 10.10. Ist X multivariat normalverteilt, so gilt
Xi ⊥
⊥ X j |X−i,j
⇐⇒
k ij = 0.
Die Information des Graphen ist auch an der Konzentrationsmatrix enthalten: eine Nicht-Kante zwischen Xi und X j entspricht einem Nulleintrag an
Stelle (i, j).
177
Definition 10.11. Sei X = (Y1 , Y2 , Z) ein beliebiger (nicht notwendig normalverteilter) Zufallsvektor mit nicht singulärer Kovarianzmatrix Σ. Die
Matrix ΣY•Z heißt partielle Varianz von Y gegeben Z, ρY1 ,Y2 •Z heißt partielle Korrelation von Y1 und Y2 gegeben Z.
Partielle Varianz und partielle Korrelation lassen sich allgemein, für beliebig verteilte ZV’en definieren und gänzlich ohne Normalverteilung motivieren. Sei
1
h` (z) := EY + ΣYZ Σ−
Z ( z − EZ ).
Die Funktion h` minimiert den mittleren quadratischen Vorhersagefehler
(von Y durch Z), vgl. Satz 1.19,
0
MSE(h) = E (Y − h(Z)) (Y − h(Z))
unter allen affin linearen Funktionen h, d. h. h` ist die Regressionsfunktion einer linearen Regression von Y auf Z. (Oder etwas mathematischer:
h` (Z) ist die orthogonale Projektion von Y auf den Raum aller affin linearen Funktionen von Z im Hilbertraum L2 (Ω, A, P).) Die partielle Varianz
ΣY•Z ist die Varianz des Residuums Y − h` (Z) bzgl. der linearen Regression von Y auf Z. Die partielle Korrelation ρY1 ,Y2 •Z ist dementsprechend die
Korrelation der Residuen Y1 − h`,1 (Z) und Y2 − h`,2 (Z). Die partielle Korrelation kann interpretiert werden als ein Maß für die lineare Abängigkeit
zwischen Y1 und Y2 nachdem die gemeinsamen linearen Abhängigkeiten
zu den anderen Variablen Z eliminiert wurden.
Erinnerung: die bedingte Erwartung
hb (z) = E(Y|Z = z)
minimiert MSE(h) unter allen (messbaren) Funktionen h. Satz 2.12 besagt
nun, dass – falls X = (Y, Z) normalverteilt ist – die Funktionen h` und
178
hb identisch sind. Die beste Vorhersage ist bereits linear. Das hat u. a. die
Konsequenz, dass unter Normalverteilung bedingte und partielle Varianz
identisch sind.
Aber Vorsicht: die bedingte Varianz Var(Y|Z) ist im Allgemeinen nicht die
Varianz des Residuums
Y − h b ( Z ) = Y − E ( Y | Z ),
(10)
sondern Var(Y|Z) ist eine Funktion der bedingende Variablen Z. Die Varianz von (10) ist E(Var(Y|Z)), vlg. Bemerkung 1.16.
10.4
Graphische Modellierung
Sei G = (V, E) ein Graph mit q fehlenden Kanten und
n
o
+
d×d Sd ( G ) := S ∈ R S pos. def., sij = 0 ⇔ i 6= j, {i, j} ∈
/E .
Die Menge
M( G ) :=
n
o
d
+
Nd (µ, K ) µ ∈ R , K ∈ Sd ( G )
−1
ist das zu G gehörige Gauß’sche graphische Modell.
Nun Statistik: wir haben wie üblich d-dimensionale Beobachtungen x1 , . . . , xn
(Zeilen der Datenmatrix X ∈ Rn×d ), die wir als iid Realisierungen von
Nd (µ, Σ) annehmen. Aufgaben der graphischen Modellierung bei GGM’n:
1. Nulleinträge von K = Σ−1 identifizieren (d. h. einen passenden Graphen
finden),
2. (Nachdem wir uns für einen Graphen G entschieden haben) Σ schätzen
unter der Restriktion Σ−1 ∈ Sd+ ( G ).
Wir machen den zweiten Schritt vor dem ersten und erläutern anschließend, wie das für den ersten Schritt nützlich sein kann.
179
Beispiel 10.12. Frets Heads (vgl. Bsp. 3.26), Vier Variablen (l1, b1, l2, b2).


95.29 52.87 69.66 46.11


52.87 54.36 51.31 35.05


Σ̂ = 

69.66 51.31 100.81 56.54


46.11 35.05 56.54 45.02


0.028 −0.016 −0.007 −0.007


−0.016 0.048 −0.006 −0.014


K̂ = 

−0.007 −0.006 0.038 −0.036


−0.007 −0.014 −0.036 0.086
k̂ i,j
Matrix der partiellen Korrelationen P̂ = − √
:
k̂ i,i k̂ j,j
i,j


·
0.425 0.223 0.152


0.425
·
0.132 0.225


P̂ = 

0.223 0.132

·
0.626


0.152 0.225 0.626
·
Erster (naiver) Ansatz: setze jene Einträge von K̂ auf null, die betragsmäßig
kleinen partiellen Korrelationen entsprechen.
K̃G . Invertieren
Konzentrationsmatrix-Schätzer
Kovarianzmatrix-Schätzer Σ̃G unter G:
Beispiel 10.13. Frets Heads (Fortsetzung von 10.12). Setze partielle Korrelationen, deren Betrag kleiner als 0.2 ist, auf null:


0.028 −0.016 −0.007
0


−0.016 0.048

0
−
0.014


K̃G = 

−0.007

0
0.038
−
0.036


0
−0.014 −0.036 0.086
180
Invertieren:


53.03 21.03 22.21 12.76


21.03 30.93 14.70 11.31


=⇒ Σ̃G = 

22.21 14.70 54.32 25.02


12.76 11.31 25.02 23.93
Probleme mit diesem Ansatz:
• Die Kovarianzschätzung wird stark verzerrt. Σ̃G hat mit dem unrestringierten Schätzer Σ̂ unter Umständen nicht mehr viel zu tun (vgl.
Bsp. 10.13).
• Σ̃G im Allgemeinen nicht positiv definit.
Besserer Ansatz: Maximum Likelihood
Sei G = (V, E) ein Graph. Der ML-Schätzer Σ̂G von Σ in M( G ) erfüllt
folgende Beziehung:


(Σ̂G )i,j = σ̂i,j ,

(Σ̂−1 )i,j = 0,
G
{i, j} ∈ E oder i = j,
(11)
{i, j} ∈
/ E und i 6= j.
Satz 10.14. Ist Σ̂ positiv definit, gibt es genau eine Lösung von (11).
Bemerkung 10.15.
• Die Voraussetzung in Satz 10.14 ist hinreichend, aber nicht notwendig.
181
1
• K̂G = Σ̂−
G ist Lösung des restringierten Optimierungsproblems
K̂G = arg max log det K − Spur(KΣ̂) .
(12)
K∈Sd+ ( G )
Die Gleichung (11) erhält man als kritische Punkte dieses OPs.
• Erinnerung: K̂ = Σ̂−1 ist Lösung des restringierten OPs
K̂ = arg max log det K − Spur(KΣ̂) .
K pos. def.
• (12) ist ein sehr schönes OP: die Zielfunktion ist konvex und differenzierbar, der zulässige Bereich ist konvex.
• Üblicherweise wird der ML-Schätzer Σ̂G mit dem IPS-Algorithmus bestimmt (Iterative proportional scaling), z. B. in der Funktion fitConGraph() im R-Paket ggm.
• Ist G zerlegbar, dann lässt sich Σ̂ in endlich vielen Schritten exakt
berechnen (es gibt eine explizite Formel).
Beispiel 10.16. Fortsetzung Frets’ heads.


95.29 52.87 69.66 43.67


52.87 54.36 49.30 35.05


Σ̂G = 

69.66 49.30 100.81 56.54


43.67 35.05 56.54 45.02


0.028 −0.018 −0.011
0


−0.018 0.049
0
−0.021


K̂G = 

−0.011

0
0.039
−
0.038


0
−0.021 −0.038 0.087
182
Nach der Anpassung eines Modells ist nun der nächste Schritt die Bewertung der Güte der Anpassung: Likelihood-Quotienten-Test.
Satz 10.17. Sei G = (V, E) ein Graph mit q Nicht-Kanten. Seien X1 , . . . , Xn , . . .
∼ Nd (µ, Σ) iid. mit Σ−1 ∈ Sd+ ( G ). Dann
d
Dn ( G ) := n(log det Σ̂G − log det Σ̂) −→ χ2q .
Die Teststatistik Dn ( G ) heißt Deviance und ist minus 2 mal die log-LikelihoodRatio. Der zugehörige Likelihood-Quotienten-Test (vgl. Satz 3.6)
H0 : Σ−1 ∈ Sd+ ( G )
H1 : Σ−1 ∈ Sd+
gegen
heißt auch Deviance-Test.
Eine Verallgemeinerung:
Satz 10.18. Seien G1 = (V, E1 ) und G2 = (V, E2 ) zwei Graphen wobei
E1 $ E2 und q := | E2 | − | E1 |. Seien X1 , . . . , Xn , . . . ∼ Nd (µ, Σ) iid. mit Σ−1 ∈
Sd+ ( G1 ). Dann
d
Dn ( G1 , G2 ) := n(log det Σ̂G1 − log det Σ̂G2 ) −→ χ2q .
Die Teststatistik Dn ( G1 , G2 ) nennt man auch die Deviance-Differenz zwischen den Modellen G1 und G2 . Man testet damit
H0 : Σ−1 ∈ Sd+ ( G1 )
gegen
H1 : Σ−1 ∈ Sd+ ( G2 ).
Beispiel 10.19. Frets’ heads once more. Sei G der “chordless-4-cycle”,
den wir in Bsp. 10.13 anzupassen versucht und in Bsp. 10.16 erfolgreich
angepasst haben
det Σ̂ = 1207109.459,
det Σ̂G = 1243863.506,
Dn ( G ) = n(log det Σ̂G − log det Σ̂) = 0.750 < 5.99 = χ22;0.95
Dieses Modell wird also akzeptiert (zum Signifikanzniveau 5%).
183
Beispiel 10.20. Mathematics marks. n = 88, d = 5.
60
40
20
●
●
●
●
●
vectors
●
●
●● ●
●● ●● ●●
●●
●●●● ● ●
●
●●
● ●●
●●
●
●●●●●
●
●●
●
●● ●
●
●●
●●●●●●
●● ●
●
●
●● ●●
●● ●
●● ●
●●
●●●●●
●●●
●
●
● ●
●
●
●
●
● ●
● ●
●● ●● ●
● ●● ●
●●●●
●●●●
●●● ●●●
●
●
●
●
●●
●●
●● ●
● ●
●
●●●
●●●● ●
●●●
●
●
●
● ●●●
●
●●
● ●●
●
● ●●
●●
●
●● ●
●
●
● ●●
●●
●
70
50
algebra
● ●
●●
●●
●
● ●●
●●●●
●●●●●
●● ●
● ●● ● ●●
●
●
●
●
●
●
● ● ● ●●●
●●
●●
●
●●●
● ● ● ● ●●
● ●●
●
●●
●●
● ●●
● ●●
●
●● ●
● ●●
●
● ● ●●
●
●
●
●
●
●
●
● ●●
●● ●
●●●
●●●●●
●
●●
●
●
●
●
●
● ●●● ● ●
●●
● ●
●
●
●
●
●
● ●
● ● ●●●
●
●●●●●●●●●
● ●●
●
●
●●
●
●●
●
●
●
●●
●
●
●●
●●
● ●
●●
● ●●
●
●
●
●
●●
●
●
●
●● ●
●
●
●
●
● ●
●
● ●●
●
● ●
●
●
●
●
● ● ●●● ●
● ●●
●● ●●
● ●● ●● ●
●
●●
●● ● ●
●●
●●
●
●●
●
●●
●
●
● ●
● ●● ●
●●
●
●
● ●
●
●
●
●
●
●
●
20
40

60
●
●
●●
●
● ● ●●●
●
●
● ●●●
●
●●
●
●
●
●
● ●● ●● ●
●●
●●●●
● ● ●●
●
●
●
●
●
●
●
●
● ●● ● ●
●●●●
●
●● ●●●●
●● ● ●
●●● ●●
● ● ● ●●
●●
●
●
●
●
● ●
● ●
●
●
●●
●
●
●
● ● ●●●●●
●
●
●●
● ●● ●
●
●
●
●
●●
●●
●
● ● ●●
●
●●
●
●
●
●●
●● ●
●●
●●●
● ●●
●
●●
●●●
●
●●● ●●
●
●
● ●●● ● ●
●● ●
●
●
●
●●
●
●●
●
●
●●● ●
●●●
●
●
●●
●●
●
●●●●●
●
● ●
●●
●●●●●
●
●●
● ●
●● ● ●
● ●
●●
●
● ● ●● ●
●●●
●
●
● ●
●● ●
● ●●
●●●
●● ●
●
● ● ●●
●
●
●●●
●
●
●
●
●●
●
●
●
● ●●●●
●
●●
● ● ●●
●
●● ●
●● ●● ●
●●
●● ●
●
●
●
●
●
●
●●
● ●●● ●
●
●
●●
●
●● ●
●
●●
●● ●●
●
●●
●●
●●
●
●● ●
●
●● ●
●
●
●● ●
●
20
40
60
●
80
0.329 0.230 −0.002 0.025
0.025
0.020 0.357
0.078
0.432
·
0.253
184
30
50
70


0.020



0.253
0.357
·
statistics
10
121.87 155.54 297.76
 0.329
·
0.281


P̂ =  0.230 0.281
·

−0.002 0.078 0.432
80
60
●
●●
● ●
● ●
●● ●
● ●● ● ●
●
●
●
● ● ●
● ●● ●
●
●
●●
●
●●●●●
●●
●● ●●
●
●●●●
●●
●●
●
● ●
●
●
●
●
● ● ●
●
●●●
● ● ● ●
●●
●
●
●●
● ● ●●
●
●
305.77 127.22 101.58 106.27 117.40
·
40
●
● ●●
●●
●
●
● ●●
●●●
●
●
● ●
●
●●
●
● ● ●●
●
●
●
● ●●
● ●●●
●
●
●
●
● ●●●● ●
● ● ●
● ● ●
●
●● ● ●
●●
●● ●●
●
●
● ●●●
●
●●
●
●●●
●●
●
99.01
●●
●
●
●● ●
●●
●
●
●
● ●● ●
●
●
● ●
●
● ● ●
●●
●
●●
●
●●
●
●
●
●
●●● ●
● ●●
●●●
●
●● ● ●
●●
●
●●
● ●
●●
●
●
●
●
●● ● ● ●
●
● ●●
●
●
●
● ●
● ●
●
●
●
●
● ●
●
●
80
117.40
●
analysis
127.22 172.84 85.16 94.67 99.01 




Σ̂ = 101.58 85.16 112.89 112.11 121.87 ,


106.27 94.67 112.11 220.38 155.54

●
●
●
●
●
●
●
●
20
●
●
●
●
●
● ●● ●
●
●
● ●●●
● ● ● ●●
● ●
●
●●
●●● ●●
●
●
●● ●
●●
●●●
●●●
●
●
● ●
●●●●
●
●
●
●
●● ● ● ●●●
●
●
● ●●
●●
●
● ● ● ●
●●
●
●
●●
●
●
●
30
●
●
●●●
●
●● ●
●●
● ●
● ●● ●
● ●
●
● ●● ●
●● ●●
●● ●
●
●
● ●●●
●●
●● ●●● ● ● ●
●● ● ● ●
●
●
● ● ●●
● ●●
●
●
●
●
●●
●
●●
●
●●
●
●●●
●
● ●●
●
●
●
●
●
●
●
●
●
●●
●● ●
● ● ●
● ● ●●● ●
●
●
●
●
● ●●●
●
●
●
●
●
●
●●
●●
● ●●
●●
●
●●
● ●●
● ●
● ● ●
●
●
●●●
●
●●
●●
●● ●
● ● ● ●●
●●
●
● ●●
●
●
●
●●
10
● ●
● ● ●
●●●
●
● ●
● ● ●
●
● ●●●
●
●●
● ●
●
●
●
●
●●●
●●
●● ●
●
● ●●● ●
● ●●
●
●
●●● ● ●
●●● ●
● ● ● ●●
●
●●
●
●
●
●
●
●
●
● ● ●
●
●
●●●
●
●
●
●
0
●
●
●
● ● ●
●● ●
●
● ● ●●
● ●
●
●
●●● ●
●● ● ●●
●
● ●● ●
●●●●●
●
●
● ●
●●●●
● ●●
●
●
●●
●●●
● ●
● ●●● ●
● ●●
●
●
●
●●● ● ●
●
●
●
●● ● ●
●
●
● ●
0
●● ●
●
●●
● ●
●
● ●
● ●
●●
●●
●● ●●●
●●
●
●
● ●
●● ●
●
● ● ●●
●
●●
● ●
●●
●●
●●
●●
●
●
● ●●
● ●●
●
● ●
● ● ●● ●
●● ●
●●
●
●
●
● ●
●
●
80
●
● ●
●● ●●●
●
● ● ●●●
●●●●●●● ●
● ● ●●
●
●
●
●
● ●
●
●●
●
●●
● ●●
●
●● ●
●
●●
●
● ●
●
● ●●
●
●●●●
●●
● ●
● ● ●
●●
● ● ● ●
●
● ●●
●
●
●
●
●
70
●
●
70
80
●
50
30
mechanics
●
●●
●● ● ●
●● ● ●
● ●●
●●● ●
● ●
●
●●●
● ●
●
●●● ●●●
●
●●
● ●
●●
●
●
●●●
●● ●
●
●●
●
●●
● ● ●●●●●● ●
●
●●
● ● ●●
●● ●
●
●
●
● ●
●●
●
30
●●
60
10
● ●
40
80
20
60
50
40
10
20
det Σ̂ ≈ 39 · 109 ,
Passe den “Schmetterling” G0 an:
Dn ( G ) = n(log det Σ̂G0 − log det Σ̂) = 0.8957 < 9.49 = χ24;0.95
Dieses Modell wird also akzeptiert (zum Signifikanzniveau 5%).
Modellwahl
d
Bei d Variablen gibt es 2(2) verschiedene Modelle
Iterative Modellwahl-
prozedur.
Backward elimination
1. Starte mit dem saturierten Modell
2. Berechne alle Deviance-Differenzen vom aktuellen Modell zu allen Modellen mit einer Kante weniger.
3. Falls
a) alle Deviance-Differenzen größer als χ21;0.95 = 3.841: STOP.
b) mindestens einer der Deviance-Differenzen kleiner als 3.841 ist: Setze das Modell mit der kleinsten Deviance als aktuelles Modell und
springe zu 2.
Varianten: Deviance-Differenz zum saturierten Modell (overall deviance)
als Abbruch-Kriterium, anderes Quantil der Chi-Quadrat-Verteilung, mehrere Kanten in einem Schritt eliminieren, . . .
Alternativen: Forward Selection, Edwards-Havranek-Procedure, One-Step
Model Selection (Teste jede Kante einzeln, ob sie drin behalten werden
soll), Penalized-Likelihood-Methoden (glasso), Nodewise regression, . . .
∼ FIN ∼
185
Herunterladen