Einführung und Beispiele Vorlesung: Lineare Modelle 1 Das einfache lineare Regressionsmodell 2 Das multiple lineare Regressionsmodell Prof. Dr. Helmut Küchenhoff Institut für Statistik, LMU München Quadratsummenzerlegung und statistische Inferenz im multiplen linearen Regressionsmodell SoSe 2014 Diskrete Einflußgrößen: Dummy- und Effektkodierung, Mehrfaktorielle Varianzanalyse Quadratsummenzerlegung Zerlegung ohne Absolutglied Gegeben sei das Modell (2.1) mit Design-Matrix X und rg (X ) = p + 1 =: p 0 . Die Zerlegung (3.2) setzt ein Absolutglied in der Regression voraus. (3.1) Dann gilt: (Y − Ȳ )0 (Y − Ȳ ) = (Y − Ŷ )0 (Y − Ŷ ) + (Ŷ − Ȳ )0 (Ŷ − Ȳ ) | {z } | {z } | {z } SST SSE SSM Helmut Küchenhoff (Institut für Statistik, LMU) 0 Y Y = |{z} SST* (3.2) Interpretation: SST : Gesamt-Streuung, (korrigierte) Gesamt-Quadratsumme, “Total” SSE : Fehler-Quadratsumme, “Error” SSM : Modell-Quadratsumme, “Model” Lineare Modelle SoSe 2014 Weitere Zerlegung, die nicht notwendig ein Absolutglied in der Regression voraussetzt: 55 / 233 SST ∗ : SSE SSM ∗ : : 0 (Y − Ŷ )0 (Y − Ŷ ) + Ŷ Ŷ | {z } |{z} SSM* SSE (3.3) nicht korrigierte Gesamt-Quadratsumme Erfasst auch Abweichungen von Y = 0 und nicht nur von Ȳ . Fehler-Quadratsumme, wie bei (3.2) nicht korrigierte Modell-Quadratsumme Lineare Modelle SoSe 2014 Helmut Küchenhoff (Institut für Statistik, LMU) 56 / 233 Nachweis der Quadratsummenzerlegung (3.3) Nachweis der Quadratsummenzerlegung (3.2) I Wir definieren: Pe = e(e 0 e)−1 e 0 , Qe = I − Pe mit e = (1, 1, . . . , 1)0 . Y 0 Y = Y 0 IY (3.4) Pe entspricht der Regression auf eine Konstante (E (Y ) = β0 ) = Y 0 (Q + P)Y Pe Y = Qe Y = = Y 0 QY + Y 0 PY = Y 0 Q 0 QY + Y 0 P 0 PY = ε̂0 ε̂ + Ŷ 0 Ŷ Ȳ Y − Ȳ ( Mittelwert bilden“) ” ( Mittelwertsbereinigung“) ” qed (Y − Ȳ )0 (Y − Ȳ ) = Y 0 Qe0 Qe Y = Y 0 Qe Y = Y 0 Qe (Q + P)Y = Y 0 Qe QY + Y 0 Qe PY P und Q Projektionsmatrizen. (∗) = ... Lineare Modelle SoSe 2014 Helmut Küchenhoff (Institut für Statistik, LMU) 57 / 233 Nachweis der Quadratsummenzerlegung (3.2) II (∗) Qe QY = Qe ε̂ Qe PQe PY = Qe P Ŷ − Qe P Ȳ 58 / 233 Erwartungswerte der Quadratsummen Wir betrachten das multiple Regressionsmodell (2.1) mit (2.2) bis (2.4) und Pe = e(e 0 e)−1 e 0 , Qe = I − Pe mit e = (1, 1, . . . , 1)0 . = Qe PQe Ŷ = Qe P(Ŷ − Ȳ ) = Qe Ŷ − Qe Ȳ = Qe Ŷ − 0 ↑ Regression auf Ŷ und Ȳ liefert Identität“ ” Dann gilt für die Erwartungswerte der Quadratsummen: E (SST ∗ ) = E (Y 0 Y ) (Y − Ȳ )0 (Y − Ȳ ) = Y 0 Qe0 Qe Y = Y 0 Qe Y 0 E (SST ) = E (Y − Ȳ ) (Y − Ȳ ) = Y 0 Qe (Q + P)Y = Y 0 Qe QY + Y 0 Qe PY (∗) 0 0 E (SSE ) = E (ε̂ ε̂) 0 = Y QY + Y Qe PQe PY ∗ = ε̂0 ε̂ + Y 0 P 0 Qe PY 0 = (Ŷ − Ȳ ) (Ŷ − Ȳ ) Lineare Modelle SoSe 2014 Helmut Küchenhoff (Institut für Statistik, LMU) = ε̂ = QY ↑ Residuen haben Mittelwert 0“ ” (∗) Lineare Modelle SoSe 2014 Helmut Küchenhoff (Institut für Statistik, LMU) 59 / 233 0 = = = E (SSM ) = E (Ŷ Ŷ ) = E (SSM) = E (Ŷ − Ȳ )0 (Ŷ − Ȳ ) = Lineare Modelle SoSe 2014 σ2 n + β 0 X 0 X β 0 2 (3.5) 0 σ (n − 1) + β (Qe X ) (Qe X )β (3.6) σ 2 (n − p 0 ) 2 0 0 (3.7) 0 σ p + β X Xβ (3.8) σ 2 p + β 0 (Qe X )0 (Qe X )β (3.9) Helmut Küchenhoff (Institut für Statistik, LMU) 60 / 233 Bemerkungen 1 2 3 Beweisidee Die stochastischen Eigenschaften der Quadratsummen werden zur Konstruktion von Tests bezüglich β genutzt β = 0 =⇒ E (Y 0 Y ) = σ 2 n Allgemein berechnet man den Erwartungswert von quadratischen Formen wie folgt: E (Y 0 AY ) 2 β1 , ...βp = 0 =⇒ E (SSM) = σ p i=1 j=1 = Zum Nachweis von 3. benutzt man, dass Qe der Mittelwertsbereinigungs- Operator“ ist: ” = V (Y ) Qe x = (I − Pe )x = x − x̄ Helmut Küchenhoff (Institut für Statistik, LMU) 61 / 233 Mittlere Quadratsummen i=1 j=1 aij E (Yi )E (Yj ) + i=1 j=1 0 n X n X aij Cov (Yi , Yj ) i=1 j=1 E (Y ) AE (Y ) + Sp(AV (Y )) Varianz-Kovarianzmatrix von Y Lineare Modelle SoSe 2014 Helmut Küchenhoff (Institut für Statistik, LMU) 62 / 233 Verteilungsdefinitionen Wir definieren entsprechend der Zahl der Freiheitsgrade die mittleren Quadratsummen: Lineare Modelle SoSe 2014 := n X n X Unter Benutzung von Sp(AV (Y )) = sp(A) ∗ σ 2 = rang (A) ∗ σ 2 für Projektionsmatrizen erhält man obige Identitäten. Die erste Spalte von Qe X ist also der Nullvektor. Lineare Modelle SoSe 2014 = n X n n X n X X E aij Yi Yj = aij E (Yi Yj ) MST ∗ := MST := MSE := MSM ∗ := MSM := SST ∗ n SST n−1 SSE n − p0 SSM ∗ p0 SSM p Helmut Küchenhoff (Institut für Statistik, LMU) Normalverteilung (3.10) (3.11) (3.12) (3.13) (3.14) 63 / 233 Ein n-dimensionaler Zufallsvektor Z heißt multivariat normalverteilt, falls für seine Dichtefunktion gilt: 1 1 0 −1 p fz (z) = √ exp − (z − µ) Σ (z − µ) (3.15) 2 det Σ (2π)n mit positiv definiter, symmetrischer Matrix Σ. Bezeichnung: Lineare Modelle SoSe 2014 Z ∼ Nn (µ, Σ) Helmut Küchenhoff (Institut für Statistik, LMU) 64 / 233 Eigenschaften der Normalverteilung Chi-Quadrat-Verteilung I Ist Z ∼ Nn (µ, Σ), so gilt: 1 Momente: E (Z ) V (Z ) 2 = = µ Σ Ist Z ∼ Nn (µ, I ) so heißt X = Z 0 Z (nicht-zentral) Chi-Quadrat-verteilt. Lineare Transformationen: Ist A : R n −→ R m eine lineare Tranformation mit rg (A) = m =⇒ AZ ∼ Nm (Aµ, AΣA0 ) 3 (3.16) Orthogonale Transformation in unabhängige Komponenten (Spektralzerlegung) Es existiert eine Matrix T ∈ R n×n mit T 0 T = I und T ΣT 0 = diag (λ1 , . . . , λn ), so dass TZ ∼ Nn (T µ, diag (λ1 , . . . , λn )) gilt. Lineare Modelle SoSe 2014 Helmut Küchenhoff (Institut für Statistik, LMU) X ∼ χ2 (n, δ) Bezeichnung: n: δ := µ0 µ: Zahl der Freiheitsgrade Nichtzentralitätsparameter Im Fall δ = 0 erhält man die zentrale χ2 (n)-Verteilung. (3.17) 65 / 233 Chi-Quadrat-Verteilung II Lineare Modelle SoSe 2014 Helmut Küchenhoff (Institut für Statistik, LMU) 66 / 233 t-Verteilung Seien Z und W voneinander unabhängige Zufallsgrößen mit Z Eigenschaften: Ist X ∼ χ2 (n, δ), so gilt: 1 2 W Momente: ∼ χ2 (n). Dann heißt X = √ZW (nicht-zentral) t-verteilt. E (X ) = n+δ V (X ) = n 2n + 4δ Bezeichnung: X ∼ t(n, δ) n: Zahl der Freiheitsgrade, δ: Nicht-Zentralitätsparameter Allgemeiner Bezug zur Normalverteilung Z ∼ Nn (µ, Σ) Lineare Modelle SoSe 2014 ∼ N(δ, 1), =⇒ Z 0 Σ−1 Z ∼ χ2 (n, µ0 Σ−1 µ) Helmut Küchenhoff (Institut für Statistik, LMU) (3.18) Erwartungswert: Ist X ∼ t(n, δ),so gilt: r n Γ( n−1 2 ) E (X ) = δ n 2 Γ( 2 ) 67 / 233 Lineare Modelle SoSe 2014 für n > 1. Helmut Küchenhoff (Institut für Statistik, LMU) (3.19) 68 / 233 F-Verteilung Unabhängigkeit von Quadratsummen (Satz von Cochran) Seien W1 und W2 voneinander unabhängige Zufallsgrößen mit ∼ χ2 (n1 , δ) W1 Dann heißt X = W1 /n1 W2 /n2 Sei Z ∼ N(µ, I ), dim Z = n, A ∈ R n×n , A0 = A, rg (A) = r , A2 = A, B ∈ R n×n , B 2 = B, B = B 0 , C ∈ R m×n . ∼ χ2 (n2 ) W2 (nicht-zentral) F-verteilt. Dann gilt: Bezeichnung: X ∼ F (n1 , n2 , δ) n1 : Zählerfreiheitsgrade n2 : Nennerfreiheitsgrade δ: Nichtzentralitätsparameter Z 0 AZ ∼ χ2 (r , µ0 Aµ) 0 CA = 0 =⇒ CZ und Z AZ sind unabh. 0 0 AB = 0 =⇒ Z AZ und Z BZ sind unabh. (3.21) (3.22) (3.23) Erwartungswert: Ist X ∼ F (n1 , n2 , δ), so gilt: E (X ) = Lineare Modelle SoSe 2014 n2 (1 + δ/n1 ) für n2 > 2. n2 − 2 Helmut Küchenhoff (Institut für Statistik, LMU) (3.20) 69 / 233 Beweis von (3.21) Lineare Modelle SoSe 2014 Helmut Küchenhoff (Institut für Statistik, LMU) 70 / 233 Beweis von (3.22) und (3.23) Spektralzerlegung von A (3.17) A = T ΣT 0 Cov (CZ , Z 0 A) = CCov (Z , Z 0 )A = CA = 0 1 Σ= | ⇒ Z 0 AZ = Z 0 T ΣT 0 Z .. . 1 0 {z r } 0 Damit sind CZ und Z 0 A unabhängig (NV-Annahme!) ⇒ CZ und (Z 0 A)(Z 0 A)0 = Z 0 AZ unabh. da A = A Cov (AZ , Z 0 B) = ACov (Z , Z 0 )B = AB = 0 Damit sind AZ und Z 0 B unabhängig (NV-Annahme!) ⇒ (AZ )0 (AZ ) = Z 0 AZ und (Z 0 B)(Z 0 B)0 = Z 0 BZ unabh. Var (T 0 Z ) = T 0 IT = I Pr ⇒ Z 0 AZ = ZeΣZ = i=1 zei2 ∼ χ2 (r , µ0 Aµ) Lineare Modelle SoSe 2014 qed 2 Helmut Küchenhoff (Institut für Statistik, LMU) 71 / 233 Lineare Modelle SoSe 2014 Helmut Küchenhoff (Institut für Statistik, LMU) qed 72 / 233 Verteilung des KQ-Schätzers unter Normalverteilung Sei multiples Regressionsmodell (2.1) mit (2.5) und rg (X ) = p 0 gegeben. Für den KQ-Schätzer β̂ gilt: β̂ Σ̂β̂ N(β, σ 2 (X 0 X )−1 ) ∼ 2 := 0 (3.24) −1 (3.25) 0 σ̂ (X X ) σ̂ 2 (n − p ) 2 σ σ̂ und β̂ ∼ χ (n − p ) (3.26) sind (3.27) σ̂β̂k := unabhängig √ ckk σ̂, 0 2 (3.28) Beweis (3.24) (Normalverteilung von β) folgt aus Eigenschaften der NV (3.16) (3.26) folgt aus (3.21), da σ̂ 2 = rg (Q) = sp(Q) ∼ Lineare Modelle SoSe 2014 0 t(n − p , 0) 1 0 n−p 0 Y QY C ∈ R p×n , CA = 0 =⇒ CZ und Z 0 AZ sind unabh. mit C := (X 0 X )−1 X 0 , A := Q, Z := Y CA = (X 0 X )−1 X 0 Q = (X 0 X )−1 X 0 (I − P) = (3.29) Helmut Küchenhoff (Institut für Statistik, LMU) = (3.27) folgt aus (3.22): (ckk entspr. Diagonalelement von (X 0 X )−1 ) β̂k − βk σ̂β̂k 1 0 n−p 0 ε̂ ε̂ 73 / 233 Overall-Tests (X 0 X )−1 X 0 − (X 0 X )−1 X 0 X (X 0 X )−1 X 0 = 0. Lineare Modelle SoSe 2014 Helmut Küchenhoff (Institut für Statistik, LMU) 74 / 233 Overall Test mit β0 = 0 Sei Modell (2.1) mit (2.5) und rg (X ) = p 0 gegeben. Dann gilt für die mittlere Quadratsummen: FO = MSM MSE ∼ F (p, n − p 0 , σ −2 β 0 (Qe X )0 (Qe X )β) (3.30) (3.30) folgt aus (3.21) und (3.23) mit MSM MSE QP − QPe = 0 Helmut Küchenhoff (Institut für Statistik, LMU) ∼ F (p 0 , n − p 0 , σ −2 β 0 (X 0 X )β) (3.32) Lehne H0O∗ ab, falls = SSE /(n − p 0 ) = Y 0 QY /(n − p 0 ) F0∗ > F1−α (p 0 , n − p 0 ) Die Verteilung wird zur Konstruktion des folgenden Tests benutzt: H0O : β1 = β2 = · · · = βp = 0 Lehne H0O ab, falls FO > F1−α (p, n − p 0 ) (3.31) Lineare Modelle SoSe 2014 MSM ∗ MSE H0O∗ : β0 = β1 = · · · = βp = 0 = SSM/p = Y 0 (P − Pe )Y /p Q(P − Pe ) = FO∗ = 75 / 233 (3.33) F1−α (p, n − p 0 ) : (1 − α)-Quantil der zentralen F (p, n − p 0 )–Verteilung. Dieser Test wird nur in Ausnahmefällen angewendet. Lineare Modelle SoSe 2014 Helmut Küchenhoff (Institut für Statistik, LMU) 76 / 233 Lineare Hypothesen Allgemeine lineare Hypothese, Wald-Test 0 Es sollen Hypothesen, die sich mit Hilfe linearer Transformationen von β darstellen lassen, betrachtet werden: A∈R a×(p+1) a ,c ∈ R , Sei das Modell (2.1) mit (2.5) und A ∈ R a×p , rg (A) = a, c ∈ R a gegeben. V (Aβ̂ − c) SSH σ Aβ = c mit rg (A) = a −2 Beispiele: p = 2 β1 = β2 ↔ A= p = 4 β 3 = β4 = 0 ↔ A = p = 4 β2 = 3 β 3 + β4 = 1 ↔ A = 0 1 0 0 0 0 0 0 0 0 −1 0 0 1 0 ,c = 0 1 0 ,c = 0 0 1 0 0 3 ,c = 1 1 1 MSH MSE = := SSH ∼ MSH := ∼ σ 2 A(X 0 X )−1 A0 0 (3.34) 0 (Aβ̂ − c) (A(X X ) 2 χ (a, σ SSH a −2 −1 0 0 −1 A) 0 (Aβ̂ − c) (Aβ − c) (A(X X ) −1 0 −1 A) (3.35) (Aβ − c)) (3.36) (3.37) F (a, n − p 0 , σ −2 (Aβ − c)0 (A(X 0 X )−1 A0 )−1 (Aβ − c)) (3.38) SSH: Quadratsumme, die die Abweichung von der Hypothese Aβ = c beschreibt. Test nach Wald: H0 : Aβ = c. Lehne H0 ab, falls: TF = MSH/MSE > F1−α (a, n − p 0 ) Lineare Modelle SoSe 2014 Helmut Küchenhoff (Institut für Statistik, LMU) 77 / 233 Overall-Test und zweiseitiger t-Test Lineare Modelle SoSe 2014 (3.39) Helmut Küchenhoff (Institut für Statistik, LMU) 78 / 233 Lineare Hypothese und Modell mit Restriktion Die Overall-Tests aus (3.31) und (3.33) sind spezielle Wald-Tests. Wir betrachten das lineare Modell mit der linearen Restriktion Aβ = c. ˆ gekennzeichnet. Alle Schätzungen aus diesem Modell werden mit ˆ Nachweis von (3.33) erfolgt direkt, da hier A = I ist. Wir lösen das Minimierungsproblem: Der Nachweis von (3.31) erfolgt später. (y − X β)0 (y − X β) → min S(β, λ) = (y − X β)0 (Y − X β) + 2λ0 (Aβ − c) λ ist der Vektor der Lagrange-Multiplikationen. Der Nachweis erfolgt direkt unter Benutzung von A = (0 · · · 1 · · · 0) Helmut Küchenhoff (Institut für Statistik, LMU) Aβ = c mit der Lagrange-Methode: Der mit Hilfe von (3.29) konstruierte zweiseitige Test auf βk = βk0 ist ebenfalls ein Wald-Test. Lineare Modelle SoSe 2014 unter 79 / 233 Lineare Modelle SoSe 2014 Helmut Küchenhoff (Institut für Statistik, LMU) 80 / 233 ˆ Berechnung der Lösung β̂ ∂S ∂β ∂S ∂λ 0 = 0 ⇔ −2X 0 Y + 2X 0 X β̂ˆ + 2A0 λ = 0 = 0 ⇔ Aβ̂ˆ = c Aλ = (X 0 X )−1 A0 λ = ⇒ A(X 0 X )−1 A0 λ = ⇒λ (∗) ⇒ β̂ˆ w Lineare Modelle SoSe 2014 Darstellung von SSH = = := ˆ Ŷ ε̂ˆ = ˆ X Y − X X β̂ | · (X 0 X )−1 β̂ − β̂ˆ | · A (∗) 0 0 (A(X 0 X )−1 A0 )−1 (Aβ̂ − c) 0 −1 β̂ − (X X ) 0 (X X ) ˆ0 ˆ ⇒ ε̂ ε̂ = = ⇒ SSH ˆ (Aβ̂ = c) Aβ̂ − c −1 0 0 −1 −1 0 −1 A [A(X X ) 0 0 A [A(X X ) 0 −1 A] A] = = ˆ X β̂ = Ŷ − Xw ˆ Y − Ŷ = ε̂ + Xw ε̂0 ε̂ + w 0 X 0 Xw (da X 0 ε̂ = 0) ε̂0 ε̂ + (Aβ̂ − c)0 [A(X 0 X )−1 A0 ]−1 (Aβ̂ − c) ε̂ˆ0 ε̂ˆ − ε̂0 ε̂ Damit haben wir eine andere Möglichkeit, SSH aus den Residuenquadratsummen zu berechnen. (Aβ̂ − c) (Aβ̂ − c) Helmut Küchenhoff (Institut für Statistik, LMU) 81 / 233 Lineare Hypothese (alternative Durchführung) Lineare Modelle SoSe 2014 Helmut Küchenhoff (Institut für Statistik, LMU) 82 / 233 Spezialfall: Overall - Test 0 Sei das Modell (2.1) mit (2.5) und A ∈ R a×p , rg (A) = a, c ∈ R a gegeben. Overall- Test H0 : Aβ = c H0O : β1 = β2 = . . . = βp = 0 Berechne SSE des Modells und des Modells unter H0 : SSE SSE (H0 ) ε̂0 ε̂0 := ε̂ˆ0 ε̂ˆ = SSH = MSH = TF TF SSE (H0 ) − SSE Das Modell unter H0 ist y = β0 (3.40) (3.41) SSE (H0 ) SSH/a (SSE (H0 ) − SSE )/a := MSH/MSE = SSE /(n − p 0 ) ∼ F (a, n − p 0 ) unter H0 SSH (3.42) = ˆ0 )0 (Y − βˆ ˆ0 ) = SST (Y − βˆ = SSE (H0 ) − SSE = SSM Damit entspricht hier der Wald -Test dem Test (3.31) (3.43) Das Vorgehen entspricht dem Wald- Test (3.39). Lineare Modelle SoSe 2014 Helmut Küchenhoff (Institut für Statistik, LMU) 83 / 233 Lineare Modelle SoSe 2014 Helmut Küchenhoff (Institut für Statistik, LMU) 84 / 233 Beispiel: Welche Faktoren stehen in Zusammenhang Weglassen von Einflussgrößen mit den Fehlern bei einem Lesetest Lineare Hypothese: Daten von Christa Kieferle (Pädagogik, LMU) Daten von 180 Kindern aus den 8 Klassen (3. und 4. Klassen Grundschule) H0 : βk = βk+1 = . . . = βp = 0 Das Modell unter H0 ist M1: y = β0 + β1 x1 + . . . + βk−1 xk−1 Zielgröße: Anzahl der Fehler bei einem Lesetest SSE (H0 ) potentielle Einflussgrößen: Geschlecht, Jahrgang, Leseförderzeit, sonstiges lesen (1= oft,.. 5= fast nie), Gameboy (1= oft,.. 5= fast nie), Jahrgang. SSH = SSE (M1) = SSE (M1) − SSE Vergleich der SSE der beiden Modelle. Lineare Modelle SoSe 2014 Helmut Küchenhoff (Institut für Statistik, LMU) 85 / 233 Modell Helmut Küchenhoff (Institut für Statistik, LMU) 86 / 233 Auswertung Y = β0 +β1 ∗GE +β2 ∗JG +β3 ∗LZ +β4 ∗WOL+β5 ∗WOG +β6 ∗WOTV Y: GE: JG: LZ: WOL: WOG: WOTV: Lineare Modelle SoSe 2014 Anzahl der Fehler Indikator für männlich (= 1 für männlich, 0 sonst) Indikator für Klassenstufe (=1 für 3. Klasse, 0 für 4.Klasse) Lesezeit in der Schule Wie oft wird sonst gelesen Wie oft wird Gameboy gespielt Wie oft TV Interpretation der Parameter, z.B β1 : Geschlechtsunterschied Helmut Küchenhoff (Institut für Statistik, LMU) Schätzung des Gesamtmodells 2 Gibt es einen Zusammenhang zwischen den Variablen WOL, WOG, WOTV und Y ? 3 Ist der Einfluss von WOG und WOTV auf die Fehlerzahl gleich ? 4 Gibt es einen Zusammenhang von Lesezeit und WOL und der Fehlerzahl ? 5 Wie lässt die Assoziation zur Lesezeit quantifizieren? Fragen 2-4 lassen sich als lineare Hypothesen in dem Modell formulieren. Fragen 1 und 5 betreffen die Schätzung des Modells. Annahme: Bei WOL ist der durchschnittliche Unterschied in der Fehlerzahl zwischen den Stufen 1-5 gleich groß (Änderung um 1 entspricht β4 Lineare Modelle SoSe 2014 1 87 / 233 Lineare Modelle SoSe 2014 Helmut Küchenhoff (Institut für Statistik, LMU) 88 / 233 Reparametrisierung des Modells unter linearer Restriktion Wir betrachten das Modell (2.1) mit (2.5) unter der linearen Restriktion 0 Aβ = c mit A ∈ R a×p , rg (A) = a, c ∈ R a . 0 0 0 Dann gibt es Matrizen B ∈ R p ×(p −a) und d ∈ R p mit: V = Zγ + ε (3.44) V := Y − Xd (3.45) Z := XB (3.46) Das Modell ist das reparametrisierte Modell mit: V = Y − Xd ∈ R n 0 Z , Z ∈ R n×(p −a) ; rgZ = p 0 − a 0 γ ∈ R p −a ε stimmt mit dem aus dem Grundmodell überein! Zielgröße: Design-Matrix: Parameter: Störterm : Lineare Modelle SoSe 2014 Helmut Küchenhoff (Institut für Statistik, LMU) 89 / 233 ML-Schätzung Zusammenhang Reparametrisierung und Modell unter linearer Restriktion Es gilt: β̂ˆ = B γ̂ + d SSH = ε̂ˆ0 ε̂ˆ − ε̂0 ε̂ β̂ˆ : mit γ̂ : ε̂ˆ : (3.48) KQ-Schätzer unter Restriktion Aβ = c KQ-Schätzer aus Modell (3.44) Residuenvektor aus Modell (3.44) = Residuenvektor aus KQ-Schätzung unter Restriktion. Lineare Modelle SoSe 2014 Helmut Küchenhoff (Institut für Statistik, LMU) 90 / 233 Likelihood Quotienten-Test Die maximierte Likelihood des Modells ist: " n X ε̂2i −n/2 −n (2π) · σ̂ · exp − 2σ̂ 2 i=1 Grundidee des Likelihood-Quotienten-Tests: Vergleiche (Bilde den Quotienten) maximierte Likelihood des Modells unter H0 mit maximierter Likelihood ohne H0 # Wir betrachten also den ML - Schätzer mit und ohne die Restriktion Aβ = c: Es folgt (siehe Nachweis ML = KQ aus Kapitel 1) P ε̂2i n MaxL = C ∗ σ̂ n = C ∗ (SSE /n)(n/2) σ̂ 2 = (3.49) ε̂ˆ : Residuen unter dem Modell mit H0 ε̂ : Residuen unter dem Modell ohne Einschränkung Die LQ- Teststatistik lautet dann: (3.50) τLQ = Lineare Modelle SoSe 2014 (3.47) Helmut Küchenhoff (Institut für Statistik, LMU) 91 / 233 Lineare Modelle SoSe 2014 ˆ σ̂ σ̂ !−n = ε̂ˆ0 ε̂ˆ ε̂0 ε̂ !−n/2 Helmut Küchenhoff (Institut für Statistik, LMU) (3.51) 92 / 233 Wald-Test ist Likelihood-Quotienten-Test Beweis 0 Sei das Modell (2.1) mit (2.5) und A ∈ R a×p , rg (A) = a, c ∈ R a gegeben. Damit ist τLQ eine monotone Funktion der Testgröße des Wald-Tests: H0 : Aβ = c gegen H1 : Aβ 6= c (ε̂ˆ0 ε̂ˆ − ε̂0 ε̂)/a MSH = 0 =: τW MSE ε̂ ε̂/(n − p 0 ) Dann ist der Wald-Test zu dem Likelihood-Quotienten-Test äquivalent, d. h. : Die Testgröße des LQ-Tests ist eine streng monotone Funktion der Testgröße des Wald-Tests: τLQ = g MSH MSE ⇒ τW · a +1 (n − p)0 −n/2 = τLQ (3.52) g streng monoton Lineare Modelle SoSe 2014 Helmut Küchenhoff (Institut für Statistik, LMU) 93 / 233 Sequentielle und Partielle Quadratsummen M2: M1: SSH: (3.53) Helmut Küchenhoff (Institut für Statistik, LMU) 94 / 233 Die zu der Hypothese βi = 0 gehörigen Quadratsummen bzgl. des Gesamtmodells heißen partielle Quadratsummen: R(βi |β0 , . . . βi−1 , βi+1 , . . . , βp ) = SSE (M−i ) − SSE (3.54) M−k : Modell mit βk = 0. Beachte: Die partiellen Quadratsummen führen im Allgemeinen zu keiner Zerlegung von SST, d.h. Modell, das die Parameter βi1 , . . . , βik , βj1 , . . . , βjl enthält. Modell, das die Parameter βj1 , . . . , βjl enthält. Hypothesenquadratsumme zur Hypothese (βi1 = . . . = βik = 0) im Modell M2. Lineare Modelle SoSe 2014 Helmut Küchenhoff (Institut für Statistik, LMU) Partielle Quadratsummen Gegeben sei das Modell (2.1). Wir betrachten nun Teilmodelle, die durch Nullrestriktionen von Komponenten des Vektors β entstehen und deren Residuenquadratsummen. R(βi1 , . . . , βik |βj1 , . . . , βjl ) = SSH = SSE (M1) − SSE (M2) Lineare Modelle SoSe 2014 SST 6= 95 / 233 Lineare Modelle SoSe 2014 p X k=1 R(βk |β0 , . . . , βk−1 , βk+1 , . . . , βp ) + SSE Helmut Küchenhoff (Institut für Statistik, LMU) (3.55) 96 / 233 Sequentielle Quadratsummen Bereinigung Wir betrachten die Folge von Modellen: Wir betrachten folgende Zerlegung des Modells (2.1): M0 : Y = β0 + ε (3.56) M1 : Y = β0 + β1 x 1 + ε (3.57) Mp : ··· Y Y = Xβ + ε heißen sequentielle Quadratsummen und es gilt: SST = k=1 Lineare Modelle SoSe 2014 R(βk |β0 , . . . , βk−1 ) + SSE (3.60) Helmut Küchenhoff (Institut für Statistik, LMU) 97 / 233 Beweis von (3.67) I Y = X1 β1 + X2 β2 + ε = (X1 X2 )(β10 β20 )0 0 −1 0 Q2 := ∗ X1∗ =⇒ Xβ + ε = Y (3.59) = β̂ (3.58) R(βk |β0 , . . . , βk−1 ) = SSE (Mk−1 ) − SSE (Mk ) p X Y β̂1 + ε = X1 β1 + X2 β2 + ε (X X ) X Y = (β̂10 , β̂20 )0 I − X2 (X20 X2 )−1 X20 (3.62) (3.63) (3.64) := Q2 Y (3.65) := Q2 X1 (3.66) (X1∗ 0 X1∗ )−1 X1∗ 0 Y ∗ = (3.67) Y ∗ , X1∗ : von X2 bereinigte Variablen Lineare Modelle SoSe 2014 Helmut Küchenhoff (Institut für Statistik, LMU) 98 / 233 Beweis von (3.67) II X = (X1 X2 ) β= β1 β2 Q2 Y = KQ: Y = X1 β̂1 + X2 β̂2 + ε̂ Q2 X1 β̂1 + Q2 X2 β̂2 + Q2 ε̂ | {z } |{z} 0 Q2 QY | {z } Q Q2 = I − P2 = I − X2 (X20 X )−1 X20 ⇒ Q2 Y Y Es gilt: Q2 Q = (I − P2 )(I − P) = I − P2 − P + P2 P = I − P = Q |{z} P2 ∗ = = Q2 X1 β̂1 + ε̂ X1∗ β̂1 + ε̂ Bereinigte Variablen X1∗ 0 ε̂ = (Q2 X1 )0 ε̂ = X10 Q2 Q ε̂ = X10 ε̂ = 0 (Residuen von Regression auf (Y1 Y2 ) und Residuen bzgl. Y2 ) Analog: QQ2 = Q Lineare Modelle SoSe 2014 (3.61) ⇒ β̂1 ist KQ-Lösung der Regression von Y* auf X*. Helmut Küchenhoff (Institut für Statistik, LMU) 99 / 233 Lineare Modelle SoSe 2014 Helmut Küchenhoff (Institut für Statistik, LMU) 100 / 233 Beispiele zur Bereinigung Beispiel: Zusammenhang zwischen Fehleranzahl bei Test zu starken Verben Mittelwerts-Bereinigung beim einfachen linearen Regressionsmodell 0∗ ∗ −1 (X X ) X2 = (1 . . . 1)0 X1 = (x1 . . . xn )0 Y∗ = X1∗ = Y − ȳ ∗ = 0∗ X Y Zielgröße : Einflussgrößen : Anzahl der Fehler bei Test Geschlecht Alter Leseverhalten, Fernsehverhalten, etc. Regression auf binäre Variable Geschlecht entspricht Mittelwertsschätzung x − x̄ Bereinigung nach Geschlecht: Abziehen des jeweiligen Gruppenmittelwertes Sx−2 Sxy Geschlechtseffekt, Trendbereinigung Lineare Modelle SoSe 2014 Helmut Küchenhoff (Institut für Statistik, LMU) 101 / 233 Bonferroni-Konfidenzintervalle (3.68) 102 / 233 Sei das Modell (2.1) mit NV-Annahme (2.5) gegeben. Dann ist n o β | (β − β̂)0 (X 0 X )(β − β̂) ≤ p 0 σ̂ 2 F1−α (p 0 , n − p 0 ) (3.70) eine Konfidenzregion für β. simultane Konfidenzintervalle zum Sicherheitsniveau 1 − α: P(es gibt l : |βil − β̂il | > σ̂βil t1−α/2k (n − p 0 )) ≤ α Helmut Küchenhoff (Institut für Statistik, LMU) Konfidenzellipsoide Gegeben sei das Modell (2.1) mit der Normalverteilungsannahme (2.5). Dann sind für die Parameter βi1 , . . . , βik β̂il ± σ̂β̂il t1−α/2k (n − p 0 ), l = 1, . . . , k Lineare Modelle SoSe 2014 (3.69) Die Parameter βil können durch Linearkombinationen γl = a0 β mit den entsprechenden geschätzten Standardabweichungen ersetzt werden. Entsprechendes gilt für lineare Transformationen γ = Aβ: −1 0[ 0 γ | (γ − γ̂) V (γ̂) (γ − γ̂) < dim γ · F1−α (dim(γ), n − p )) ist Konfidenzregion zum Sicherheitsniveau 1 − α. Lineare Modelle SoSe 2014 Helmut Küchenhoff (Institut für Statistik, LMU) 103 / 233 Lineare Modelle SoSe 2014 Helmut Küchenhoff (Institut für Statistik, LMU) 104 / 233 Konfidenzintervalle nach Scheffe Sei Modell (2.1) mit NV-Annahme (2.5) gegeben. Dann sind p β̂j ± p 0 F1−α (p 0 , n − p 0 ) σ̂β̂j Bemerkungen Die KIs nach Scheffe sind bei einer Vielzahl von Parametern sinnvoll (3.71) Es gibt in Analogie zu den KIs einen entsprechenden multiplen Test für die Parameter βj und γ̂ ± p p 0 F1−α (p 0 , n − p 0 ) σ̂γ̂ für beliebige Linearkombinationen γ = a0 β simultane Konfidenzintervalle. Lineare Modelle SoSe 2014 Helmut Küchenhoff (Institut für Statistik, LMU) Die KIs nach Scheffe sind z.B zur Bestimmung von simultanen Konfidenzregionen für Y geeignet 105 / 233 Das Gauss-Markov-Theorem Allgemeine Strategie für KI siehe Hothorn, Bretz und Westfall: Simultaneous inference in general parametric models. Biometrical Journal, 2008; R-package multcomp“ ” Lineare Modelle SoSe 2014 Helmut Küchenhoff (Institut für Statistik, LMU) 106 / 233 Konsistenz des KQ–Schätzers I Sei das Modell Y = X β + ε, E (ε) = V (ε) = σ2 I Sei das Modell (2.1) - (2.4) gegeben. Wir betrachten nun das Modell mit steigendem Stichprobenumfang n. Da die Einflussgrößen fest sind, gehen wir von einer gegebenen Folge xn der Einflussgrößen aus. rg X = p 0 0 gegeben. Dann ist der KQ-Schätzer β̂ unter den erwartungsteuen linearen Schätzern derjenige mit der kleinsten Varianz: β̂ ist BLUE-Schätzer (best linear unbiased estimator). Sei zu jedem n > p 0 Xn β̂ (n) : : Designmatrix, die aus den ersten n Beobachtungen besteht KQ- Schätzer aus den ersten n Beobachtungen Vor.: Xn hat vollen Rang für alle n ≥ p Ist β̃ ein weiterer Schätzer von β mit E (β̃) = β und β̃ = CY , so gilt: lim (Xn0 Xn )−1 = 0. n→∞ V (β̃) ≥ V (β̂) V (β̃) ≥ V (β̂) ⇔ V (β̃) = V (β̂) + M mit M positiv semidefinit. Lineare Modelle SoSe 2014 Helmut Küchenhoff (Institut für Statistik, LMU) 107 / 233 Lineare Modelle SoSe 2014 Helmut Küchenhoff (Institut für Statistik, LMU) 108 / 233 Konsistenz des KQ–Schätzers II Asymptotische Normalität des KQ–Schätzers Sei das Modell (2.1) - (2.4) gegeben. Dann folgt die schwache Konsistenz des KQ-Schätzers (Konvergenz in Wahrscheinlichkeit): P β̂ (n) −→ β. (3.72) f.s. Xn β̂ (n) : : Designmatrix, die aus den ersten n Beobachtungen besteht. KQ- Schätzer aus den ersten n Beobachtungen Vor.: Xn hat vollen Rang für alle n ≥ p Sind die Störgrößen zusätzlich identisch verteilt, so folgt die starke Konsistenz (fast sichere Konvergenz) β̂ (n) −→ β. Sei zu jedem n > p 0 lim max xi0 (Xn0 Xn )−1 xi = 0. n→∞ 1≤i≤n (3.73) Dann folgt die asymptotische Normalität von β d σ −1 (Xn0 Xn )1/2 (β̂ (n) − β) −→ N(0, I ). Lineare Modelle SoSe 2014 Helmut Küchenhoff (Institut für Statistik, LMU) 109 / 233 Lineare Modelle SoSe 2014 Helmut Küchenhoff (Institut für Statistik, LMU) (3.74) 110 / 233