10 Gauß’sche graphische Modelle 30. 1. 2014 25.Vorlesung Graphische Modelle in der Statistik: • statistische Modelle für mehrdimensionale Zufallsvektoren • Darstellung als Graph mit (univariaten) Merkmalen als Knoten • Kanten (gerichtet oder ungerichtet) repräsentieren irgendeine stochastische Abhängigkeitsbeziehung zwischen den Merkmalen, meistens bedingte Unabhängigkeit • graphische Modellierung: finde den zu den Daten passenden Graphen • Methoden der graphischen Modellierung unterscheiden sich stark hinsichtlich der Art der Modelle (was die Kanten repräsentieren) und der Art der Daten (nominal/metrisch) Im Folgenden: ungerichtete Kanten, stetig verteilte Daten 10.1 Bedingte Unabhängigkeit Definition 10.1. Seien X, Y, Z Zufallsvektoren mit gemeinsamer Dichte f . X und Y sind bedingt unabhängig gegeben Z (Notation X ⊥ ⊥Y|Z), falls es Funktionen g, h gibt, so dass f (x, y, z) = g(x, z) h(y, z). (8) Bemerkung 10.2. • Anschaulich bedeutet X ⊥ ⊥Y|Z, dass, wenn man Z bereits kennt, die Kenntnis von Y keine zusätzliche Info über X liefert. • Mathematisch bedeutet X ⊥ ⊥Y|Z, dass die bedingte Verteilung von (X, Y) gegeben Z = z für (fast) alle z ein Produktmaß ist. 172 • Falls X ⊥ ⊥Y|Z, dann f (X,Y)|Z (x, y|z) = f X|Z (x|z) f Y|Z (y|z). (9) Beispiel 10.3. Seien U, V, Z iid, ∼ N (0, 1), X := U + Z, Y := V + Z. Dann X⊥ 6 ⊥Y, Es gilt: X Y Z aber X⊥ ⊥Y | Z 2 1 1 0 ∼ N3 0 , 1 2 1 , 0 1 1 1 Σ −1 1 0 −1 = 1 −1 0 −1 −1 3 Beispiel 10.4. Drei Bernoulli-Variablen A, B, C mit folgender gemeinsamer Dichte: C B 0 0 1 1 0 1 A 0 1/10 3/10 3/40 1/40 1 1/40 3/40 3/10 1/10 Hier ebenfalls A ⊥ 6 ⊥ B, A ⊥ ⊥ B|C. Warum bedingte (Un-) Abhängigkeiten? Nützlich um Scheinkorrelationen zu identifizieren und kausale Zusammenhänge aufzuspüren (klassische Beispiele: Störche und Babys, Anstieg der Krebstoten) 173 Beispiel 10.5. Example 10.4 revisited. Student applicants at some small university for a given year classified by sex (A) and admission (B): # applicants admitted no (0) yes (1) total 800 400 400 sex m (0) 400 140 260 f (1) 400 260 140 sign of gender discrimination? Applicants classified by sex (A), admission (B) and department (C): computer science (0) pedagogy (1) admitted # applicants # applicants no (0) yes (1) admitted no (0) yes (1) total 400 100 300 400 300 100 sex m (0) 320 80 240 80 60 20 f (1) 80 20 60 320 240 80 Bedingte (Un-)Abhängigkeiten von Zufallsvektor X = ( X1 , . . . , Xd ) werden durch Graphen repräsentiert: Kante zwischen Xi und X j ⇐⇒ Xi ⊥ 6 ⊥ X j |X−i,j . Dabei ist X−i,j der Zufallsvektor X ohne die Komponenten Xi und X j . 174 10.2 Graphen In diesem Abschnitt wird erklärt, warum sich insbesondere die Beziehung “bedingte Unabhängigkeit” für die graphische Darstellung eignet. Zunächst ein paar Begriffe. Sei G = (V, E) ein ungerichteter Graph mit d Knoten. • V = {1, . . . , d} vertices (Plural von vertex), • E ⊆ {{i, j} | 1 ≤ i < j ≤ d} edges, • Zwei Knoten a und b sind benachbart, falls { a, b} ∈ E. • Ein Pfad der Länge k ist eine Folge ( a1 , . . . , ak+1 ) paarweise verschiedener Knoten ai für die { ai , ai + 1} ∈ E, i = 1, . . . , k gilt. • Ist ( a1 , . . . , ak ) ein Pfad und { ak , a1 } ∈ E, dann ist ( a1 , . . . , ak , a1 ) ein Zyklus der Länge k. • Sei ( a1 , . . . , ak , a1 ) ein Zyklus. Falls ∃i, j : { ai , a j } ∈ E, |i − j | ∈ / {1, k}, dann heißt { ai , a j } Sehne des Zyklus. • Ein Graph mit allen möglichen Kanten heißt saturiert oder vollständig. • Sei A ⊂ V. Der von A induzierte Teilgraph ist G A = ( A, E A ), E A = {{ a, b} | a, b ∈ A, { a, b} ∈ E}. Falls G A vollständig, aber GB für alle A $ B ⊂ V nicht vollständig ist, so heißt A eine Clique von G. Eine Clique ist eine maximaler vollständiger Teilgraph. • G = (V, E) heißt trianguliert oder zerlegbar (decomposable), falls jeder Zyklus (der Länge 4 oder größer) eine Sehne hat. 175 • Seien A, B, S disjunkte Teilmengen von V. Die Mengen A und B werden im Graphen G von S separiert, falls jeder Pfad von einem Knoten in A zu einem Knoten in B einen Knoten aus S enthält. A und B sind in G separiert, falls sie durch die leere Menge separiert werden. (Etwas logische Spielerei: das heißt das einfach: es gibt keinen Pfad von A nach B.) Satz 10.6. Separationstheorem Seien X = ( X1 , . . . , Xd ) ein Zufallsvektor mit positiver Dichte f und A, B, S ⊂ V = {1, . . . , d} disjunkt. S separiert A und B in G genau dann, wenn X A ⊥ ⊥X B |XS . 10.3 Partielle Korrelation Sei X = (Y, Z) ein d-dimensionaler (d ≥ 3) normalverteilter Zufallsvektor mit nicht singulärer Kovarianzmatrix Σ, wobei Y = (Y1 , Y2 ), Y µ Σ ΣYZ ∼ Nd Y , Y , wobei ΣY ∈ R2×2 . Z µZ ΣZY ΣZ Erinnere an Satz 2.12: Die bedingte Vtlg. von Y gegeben Z = z ist eine Normalverteilung mit 1 Erwartungswert E(Y|Z = z) = µY + ΣYZ Σ− Y (z − µZ ) und 1 Varianz Var(Y|Z = z) = ΣY − ΣYZ Σ− Z Σ ZY = : Σ Y•Z , d. h. Y1 ⊥ ⊥Y2 |Z ⇐⇒ (ΣY•Z )1,2 = 0 ⇐⇒ ρY1 ,Y2 •Z = 0, 176 wobei ρY1 ,Y2 •Z = q (ΣY•Z )1,2 (ΣY•Z )1,1 (ΣY•Z )2,2 die bedingte Korrelation von Y1 und Y2 gegeben Z ist. Definition 10.7. Sei X = ( X1 , . . . , Xd ein beliebiger Zufallsvektor (nicht notwendig normalverteilt) mit pos. def. Kovarianzmatrix Σ. Die Inverse K := Σ−1 heißt Konzentrationsmatrix oder Präzisionsmatrix von X. Satz 10.8. ρY1 ,Y2 •Z := − p k1,2 . k1,1 k2,2 Der Beweis folgt mit dem folgenden Lemma. 3. 2. 2014 26.Vorlesung Lemma 10.9. −1 d −b a b 1 a) = ad − bd −c a c d b) ΣY ΣYZ ΣZY ΣZ −1 = 1 Σ− Y • Z −1 1 −ΣZ ΣZY Σ− Y•Z 1 −1 −Σ− Y•Z Σ YZ Σ Z . −1 −1 −1 −1 ΣZ + ΣZ ΣZY ΣY•Z ΣYZ ΣZ Korollar 10.10. Ist X multivariat normalverteilt, so gilt Xi ⊥ ⊥ X j |X−i,j ⇐⇒ k ij = 0. Die Information des Graphen ist auch an der Konzentrationsmatrix enthalten: eine Nicht-Kante zwischen Xi und X j entspricht einem Nulleintrag an Stelle (i, j). 177 Definition 10.11. Sei X = (Y1 , Y2 , Z) ein beliebiger (nicht notwendig normalverteilter) Zufallsvektor mit nicht singulärer Kovarianzmatrix Σ. Die Matrix ΣY•Z heißt partielle Varianz von Y gegeben Z, ρY1 ,Y2 •Z heißt partielle Korrelation von Y1 und Y2 gegeben Z. Partielle Varianz und partielle Korrelation lassen sich allgemein, für beliebig verteilte ZV’en definieren und gänzlich ohne Normalverteilung motivieren. Sei 1 h` (z) := EY + ΣYZ Σ− Z ( z − EZ ). Die Funktion h` minimiert den mittleren quadratischen Vorhersagefehler (von Y durch Z), vgl. Satz 1.19, 0 MSE(h) = E (Y − h(Z)) (Y − h(Z)) unter allen affin linearen Funktionen h, d. h. h` ist die Regressionsfunktion einer linearen Regression von Y auf Z. (Oder etwas mathematischer: h` (Z) ist die orthogonale Projektion von Y auf den Raum aller affin linearen Funktionen von Z im Hilbertraum L2 (Ω, A, P).) Die partielle Varianz ΣY•Z ist die Varianz des Residuums Y − h` (Z) bzgl. der linearen Regression von Y auf Z. Die partielle Korrelation ρY1 ,Y2 •Z ist dementsprechend die Korrelation der Residuen Y1 − h`,1 (Z) und Y2 − h`,2 (Z). Die partielle Korrelation kann interpretiert werden als ein Maß für die lineare Abängigkeit zwischen Y1 und Y2 nachdem die gemeinsamen linearen Abhängigkeiten zu den anderen Variablen Z eliminiert wurden. Erinnerung: die bedingte Erwartung hb (z) = E(Y|Z = z) minimiert MSE(h) unter allen (messbaren) Funktionen h. Satz 2.12 besagt nun, dass – falls X = (Y, Z) normalverteilt ist – die Funktionen h` und 178 hb identisch sind. Die beste Vorhersage ist bereits linear. Das hat u. a. die Konsequenz, dass unter Normalverteilung bedingte und partielle Varianz identisch sind. Aber Vorsicht: die bedingte Varianz Var(Y|Z) ist im Allgemeinen nicht die Varianz des Residuums Y − h b ( Z ) = Y − E ( Y | Z ), (10) sondern Var(Y|Z) ist eine Funktion der bedingende Variablen Z. Die Varianz von (10) ist E(Var(Y|Z)), vlg. Bemerkung 1.16. 10.4 Graphische Modellierung Sei G = (V, E) ein Graph mit q fehlenden Kanten und n o + d×d Sd ( G ) := S ∈ R S pos. def., sij = 0 ⇔ i 6= j, {i, j} ∈ /E . Die Menge M( G ) := n o d + Nd (µ, K ) µ ∈ R , K ∈ Sd ( G ) −1 ist das zu G gehörige Gauß’sche graphische Modell. Nun Statistik: wir haben wie üblich d-dimensionale Beobachtungen x1 , . . . , xn (Zeilen der Datenmatrix X ∈ Rn×d ), die wir als iid Realisierungen von Nd (µ, Σ) annehmen. Aufgaben der graphischen Modellierung bei GGM’n: 1. Nulleinträge von K = Σ−1 identifizieren (d. h. einen passenden Graphen finden), 2. (Nachdem wir uns für einen Graphen G entschieden haben) Σ schätzen unter der Restriktion Σ−1 ∈ Sd+ ( G ). Wir machen den zweiten Schritt vor dem ersten und erläutern anschließend, wie das für den ersten Schritt nützlich sein kann. 179 Beispiel 10.12. Frets Heads (vgl. Bsp. 3.26), Vier Variablen (l1, b1, l2, b2). 95.29 52.87 69.66 46.11 52.87 54.36 51.31 35.05 Σ̂ = 69.66 51.31 100.81 56.54 46.11 35.05 56.54 45.02 0.028 −0.016 −0.007 −0.007 −0.016 0.048 −0.006 −0.014 K̂ = −0.007 −0.006 0.038 −0.036 −0.007 −0.014 −0.036 0.086 k̂ i,j Matrix der partiellen Korrelationen P̂ = − √ : k̂ i,i k̂ j,j i,j · 0.425 0.223 0.152 0.425 · 0.132 0.225 P̂ = 0.223 0.132 · 0.626 0.152 0.225 0.626 · Erster (naiver) Ansatz: setze jene Einträge von K̂ auf null, die betragsmäßig kleinen partiellen Korrelationen entsprechen. K̃G . Invertieren Konzentrationsmatrix-Schätzer Kovarianzmatrix-Schätzer Σ̃G unter G: Beispiel 10.13. Frets Heads (Fortsetzung von 10.12). Setze partielle Korrelationen, deren Betrag kleiner als 0.2 ist, auf null: 0.028 −0.016 −0.007 0 −0.016 0.048 0 − 0.014 K̃G = −0.007 0 0.038 − 0.036 0 −0.014 −0.036 0.086 180 Invertieren: 53.03 21.03 22.21 12.76 21.03 30.93 14.70 11.31 =⇒ Σ̃G = 22.21 14.70 54.32 25.02 12.76 11.31 25.02 23.93 Probleme mit diesem Ansatz: • Die Kovarianzschätzung wird stark verzerrt. Σ̃G hat mit dem unrestringierten Schätzer Σ̂ unter Umständen nicht mehr viel zu tun (vgl. Bsp. 10.13). • Σ̃G im Allgemeinen nicht positiv definit. Besserer Ansatz: Maximum Likelihood Sei G = (V, E) ein Graph. Der ML-Schätzer Σ̂G von Σ in M( G ) erfüllt folgende Beziehung: (Σ̂G )i,j = σ̂i,j , (Σ̂−1 )i,j = 0, G {i, j} ∈ E oder i = j, (11) {i, j} ∈ / E und i 6= j. Satz 10.14. Ist Σ̂ positiv definit, gibt es genau eine Lösung von (11). Bemerkung 10.15. • Die Voraussetzung in Satz 10.14 ist hinreichend, aber nicht notwendig. 181 1 • K̂G = Σ̂− G ist Lösung des restringierten Optimierungsproblems K̂G = arg max log det K − Spur(KΣ̂) . (12) K∈Sd+ ( G ) Die Gleichung (11) erhält man als kritische Punkte dieses OPs. • Erinnerung: K̂ = Σ̂−1 ist Lösung des restringierten OPs K̂ = arg max log det K − Spur(KΣ̂) . K pos. def. • (12) ist ein sehr schönes OP: die Zielfunktion ist konvex und differenzierbar, der zulässige Bereich ist konvex. • Üblicherweise wird der ML-Schätzer Σ̂G mit dem IPS-Algorithmus bestimmt (Iterative proportional scaling), z. B. in der Funktion fitConGraph() im R-Paket ggm. • Ist G zerlegbar, dann lässt sich Σ̂ in endlich vielen Schritten exakt berechnen (es gibt eine explizite Formel). Beispiel 10.16. Fortsetzung Frets’ heads. 95.29 52.87 69.66 43.67 52.87 54.36 49.30 35.05 Σ̂G = 69.66 49.30 100.81 56.54 43.67 35.05 56.54 45.02 0.028 −0.018 −0.011 0 −0.018 0.049 0 −0.021 K̂G = −0.011 0 0.039 − 0.038 0 −0.021 −0.038 0.087 182 Nach der Anpassung eines Modells ist nun der nächste Schritt die Bewertung der Güte der Anpassung: Likelihood-Quotienten-Test. Satz 10.17. Sei G = (V, E) ein Graph mit q Nicht-Kanten. Seien X1 , . . . , Xn , . . . ∼ Nd (µ, Σ) iid. mit Σ−1 ∈ Sd+ ( G ). Dann d Dn ( G ) := n(log det Σ̂G − log det Σ̂) −→ χ2q . Die Teststatistik Dn ( G ) heißt Deviance und ist minus 2 mal die log-LikelihoodRatio. Der zugehörige Likelihood-Quotienten-Test (vgl. Satz 3.6) H0 : Σ−1 ∈ Sd+ ( G ) H1 : Σ−1 ∈ Sd+ gegen heißt auch Deviance-Test. Eine Verallgemeinerung: Satz 10.18. Seien G1 = (V, E1 ) und G2 = (V, E2 ) zwei Graphen wobei E1 $ E2 und q := | E2 | − | E1 |. Seien X1 , . . . , Xn , . . . ∼ Nd (µ, Σ) iid. mit Σ−1 ∈ Sd+ ( G1 ). Dann d Dn ( G1 , G2 ) := n(log det Σ̂G1 − log det Σ̂G2 ) −→ χ2q . Die Teststatistik Dn ( G1 , G2 ) nennt man auch die Deviance-Differenz zwischen den Modellen G1 und G2 . Man testet damit H0 : Σ−1 ∈ Sd+ ( G1 ) gegen H1 : Σ−1 ∈ Sd+ ( G2 ). Beispiel 10.19. Frets’ heads once more. Sei G der “chordless-4-cycle”, den wir in Bsp. 10.13 anzupassen versucht und in Bsp. 10.16 erfolgreich angepasst haben det Σ̂ = 1207109.459, det Σ̂G = 1243863.506, Dn ( G ) = n(log det Σ̂G − log det Σ̂) = 0.750 < 5.99 = χ22;0.95 Dieses Modell wird also akzeptiert (zum Signifikanzniveau 5%). 183 Beispiel 10.20. Mathematics marks. n = 88, d = 5. 60 40 20 ● ● ● ● ● vectors ● ● ●● ● ●● ●● ●● ●● ●●●● ● ● ● ●● ● ●● ●● ● ●●●●● ● ●● ● ●● ● ● ●● ●●●●●● ●● ● ● ● ●● ●● ●● ● ●● ● ●● ●●●●● ●●● ● ● ● ● ● ● ● ● ● ● ● ● ●● ●● ● ● ●● ● ●●●● ●●●● ●●● ●●● ● ● ● ● ●● ●● ●● ● ● ● ● ●●● ●●●● ● ●●● ● ● ● ● ●●● ● ●● ● ●● ● ● ●● ●● ● ●● ● ● ● ● ●● ●● ● 70 50 algebra ● ● ●● ●● ● ● ●● ●●●● ●●●●● ●● ● ● ●● ● ●● ● ● ● ● ● ● ● ● ● ●●● ●● ●● ● ●●● ● ● ● ● ●● ● ●● ● ●● ●● ● ●● ● ●● ● ●● ● ● ●● ● ● ● ●● ● ● ● ● ● ● ● ● ●● ●● ● ●●● ●●●●● ● ●● ● ● ● ● ● ● ●●● ● ● ●● ● ● ● ● ● ● ● ● ● ● ● ●●● ● ●●●●●●●●● ● ●● ● ● ●● ● ●● ● ● ● ●● ● ● ●● ●● ● ● ●● ● ●● ● ● ● ● ●● ● ● ● ●● ● ● ● ● ● ● ● ● ● ●● ● ● ● ● ● ● ● ● ● ●●● ● ● ●● ●● ●● ● ●● ●● ● ● ●● ●● ● ● ●● ●● ● ●● ● ●● ● ● ● ● ● ●● ● ●● ● ● ● ● ● ● ● ● ● ● ● 20 40 60 ● ● ●● ● ● ● ●●● ● ● ● ●●● ● ●● ● ● ● ● ● ●● ●● ● ●● ●●●● ● ● ●● ● ● ● ● ● ● ● ● ● ●● ● ● ●●●● ● ●● ●●●● ●● ● ● ●●● ●● ● ● ● ●● ●● ● ● ● ● ● ● ● ● ● ● ●● ● ● ● ● ● ●●●●● ● ● ●● ● ●● ● ● ● ● ● ●● ●● ● ● ● ●● ● ●● ● ● ● ●● ●● ● ●● ●●● ● ●● ● ●● ●●● ● ●●● ●● ● ● ● ●●● ● ● ●● ● ● ● ● ●● ● ●● ● ● ●●● ● ●●● ● ● ●● ●● ● ●●●●● ● ● ● ●● ●●●●● ● ●● ● ● ●● ● ● ● ● ●● ● ● ● ●● ● ●●● ● ● ● ● ●● ● ● ●● ●●● ●● ● ● ● ● ●● ● ● ●●● ● ● ● ● ●● ● ● ● ● ●●●● ● ●● ● ● ●● ● ●● ● ●● ●● ● ●● ●● ● ● ● ● ● ● ● ●● ● ●●● ● ● ● ●● ● ●● ● ● ●● ●● ●● ● ●● ●● ●● ● ●● ● ● ●● ● ● ● ●● ● ● 20 40 60 ● 80 0.329 0.230 −0.002 0.025 0.025 0.020 0.357 0.078 0.432 · 0.253 184 30 50 70 0.020 0.253 0.357 · statistics 10 121.87 155.54 297.76 0.329 · 0.281 P̂ = 0.230 0.281 · −0.002 0.078 0.432 80 60 ● ●● ● ● ● ● ●● ● ● ●● ● ● ● ● ● ● ● ● ● ●● ● ● ● ●● ● ●●●●● ●● ●● ●● ● ●●●● ●● ●● ● ● ● ● ● ● ● ● ● ● ● ●●● ● ● ● ● ●● ● ● ●● ● ● ●● ● ● 305.77 127.22 101.58 106.27 117.40 · 40 ● ● ●● ●● ● ● ● ●● ●●● ● ● ● ● ● ●● ● ● ● ●● ● ● ● ● ●● ● ●●● ● ● ● ● ● ●●●● ● ● ● ● ● ● ● ● ●● ● ● ●● ●● ●● ● ● ● ●●● ● ●● ● ●●● ●● ● 99.01 ●● ● ● ●● ● ●● ● ● ● ● ●● ● ● ● ● ● ● ● ● ● ●● ● ●● ● ●● ● ● ● ● ●●● ● ● ●● ●●● ● ●● ● ● ●● ● ●● ● ● ●● ● ● ● ● ●● ● ● ● ● ● ●● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● 80 117.40 ● analysis 127.22 172.84 85.16 94.67 99.01 Σ̂ = 101.58 85.16 112.89 112.11 121.87 , 106.27 94.67 112.11 220.38 155.54 ● ● ● ● ● ● ● ● 20 ● ● ● ● ● ● ●● ● ● ● ● ●●● ● ● ● ●● ● ● ● ●● ●●● ●● ● ● ●● ● ●● ●●● ●●● ● ● ● ● ●●●● ● ● ● ● ●● ● ● ●●● ● ● ● ●● ●● ● ● ● ● ● ●● ● ● ●● ● ● ● 30 ● ● ●●● ● ●● ● ●● ● ● ● ●● ● ● ● ● ● ●● ● ●● ●● ●● ● ● ● ● ●●● ●● ●● ●●● ● ● ● ●● ● ● ● ● ● ● ● ●● ● ●● ● ● ● ● ●● ● ●● ● ●● ● ●●● ● ● ●● ● ● ● ● ● ● ● ● ● ●● ●● ● ● ● ● ● ● ●●● ● ● ● ● ● ● ●●● ● ● ● ● ● ● ●● ●● ● ●● ●● ● ●● ● ●● ● ● ● ● ● ● ● ●●● ● ●● ●● ●● ● ● ● ● ●● ●● ● ● ●● ● ● ● ●● 10 ● ● ● ● ● ●●● ● ● ● ● ● ● ● ● ●●● ● ●● ● ● ● ● ● ● ●●● ●● ●● ● ● ● ●●● ● ● ●● ● ● ●●● ● ● ●●● ● ● ● ● ●● ● ●● ● ● ● ● ● ● ● ● ● ● ● ● ●●● ● ● ● ● 0 ● ● ● ● ● ● ●● ● ● ● ● ●● ● ● ● ● ●●● ● ●● ● ●● ● ● ●● ● ●●●●● ● ● ● ● ●●●● ● ●● ● ● ●● ●●● ● ● ● ●●● ● ● ●● ● ● ● ●●● ● ● ● ● ● ●● ● ● ● ● ● ● 0 ●● ● ● ●● ● ● ● ● ● ● ● ●● ●● ●● ●●● ●● ● ● ● ● ●● ● ● ● ● ●● ● ●● ● ● ●● ●● ●● ●● ● ● ● ●● ● ●● ● ● ● ● ● ●● ● ●● ● ●● ● ● ● ● ● ● ● 80 ● ● ● ●● ●●● ● ● ● ●●● ●●●●●●● ● ● ● ●● ● ● ● ● ● ● ● ●● ● ●● ● ●● ● ●● ● ● ●● ● ● ● ● ● ●● ● ●●●● ●● ● ● ● ● ● ●● ● ● ● ● ● ● ●● ● ● ● ● ● 70 ● ● 70 80 ● 50 30 mechanics ● ●● ●● ● ● ●● ● ● ● ●● ●●● ● ● ● ● ●●● ● ● ● ●●● ●●● ● ●● ● ● ●● ● ● ●●● ●● ● ● ●● ● ●● ● ● ●●●●●● ● ● ●● ● ● ●● ●● ● ● ● ● ● ● ●● ● 30 ●● 60 10 ● ● 40 80 20 60 50 40 10 20 det Σ̂ ≈ 39 · 109 , Passe den “Schmetterling” G0 an: Dn ( G ) = n(log det Σ̂G0 − log det Σ̂) = 0.8957 < 9.49 = χ24;0.95 Dieses Modell wird also akzeptiert (zum Signifikanzniveau 5%). Modellwahl d Bei d Variablen gibt es 2(2) verschiedene Modelle Iterative Modellwahl- prozedur. Backward elimination 1. Starte mit dem saturierten Modell 2. Berechne alle Deviance-Differenzen vom aktuellen Modell zu allen Modellen mit einer Kante weniger. 3. Falls a) alle Deviance-Differenzen größer als χ21;0.95 = 3.841: STOP. b) mindestens einer der Deviance-Differenzen kleiner als 3.841 ist: Setze das Modell mit der kleinsten Deviance als aktuelles Modell und springe zu 2. Varianten: Deviance-Differenz zum saturierten Modell (overall deviance) als Abbruch-Kriterium, anderes Quantil der Chi-Quadrat-Verteilung, mehrere Kanten in einem Schritt eliminieren, . . . Alternativen: Forward Selection, Edwards-Havranek-Procedure, One-Step Model Selection (Teste jede Kante einzeln, ob sie drin behalten werden soll), Penalized-Likelihood-Methoden (glasso), Nodewise regression, . . . ∼ FIN ∼ 185