8. Lineare Modelle In diesem Abschnitt betrachten wir eine spezielle Klasse von statistischen Modellen, in denen die Parameter linear auftauchen. Wir beginnen mit zwei Beispielen. Beispiel 8.1. (lineare Regression) wir nehmen an, dass ein physikalischer/biologischer Zusammenhang zwischen einer Größe y und einer Größe x durch die Gleichung y = b0 + b1 x beschrieben werden kann. Dabei sind b0 , b1 unbekannte Parameter, die aus n Beobachtungen geschätzt werden sollen. Für diese Beobachtungen nehmen wir an, dass sie Realisationen von Zufallsvariablen Yj = b 0 + b 1 x j + ε j , sind, wobei ε1 , . . . , εn unabhängig, identisch verteilte Zufallsvariable mit E[εj ] = 0, V (εj ) = σ 2 > 0 bezeichnen. Fasst man die Größen Y1 , . . . Yn in einem Vektor zusammen, so erhält man ε1 Y1 1 x1 " # .. .. .. .. b0 + . = Xb + ε, Y = . =. . b1 εn Yn 1 xn | {z } | {z } | {z } b ε X wobei ε = (ε1 , . . . , εn )T den Vektor der Versuchsfehler bezeichnet. Typische Fragen in einem solchen linearen Regressionsmodell sind 1) Wie groß sind b0 bzw. b1 ? 2) Hat die Größe x einen Einfluss auf y, d.h. gilt die Hypothese: H : b1 = 0 3) Gilt die HypotheseH : b0 = 0 Wichtige Anwendungen des linearen Regressionsmodells findet man u.a. in der Biologie, Physik und Ökonomie. Beispiel 8.2. (einfaktorielle Varianzanalyse) In einem Experiment soll der Einfluss verschiedener Futtersorten auf die Gewichtszunahme von Versuchstieren untersucht werden. Dazu werden n Versuchstiere auf a Gruppen verteilt. In jeder dieser Gruppen werden dann ni (i = 1, . . . , a) Tiere mit der Futtersorte “i” gefüttert. Als statistisches Modell für diesen Versuch verwendet man oft das Modell der einfaktoriellen Varianzanalyse, d.h. Yij |{z} = µi |{z} Gewichtszunahme Einfluss des j-ten Tiers der Sorte “i” + εij |{z} i = 1, . . . , a (Futtersorten) Messfehler in Gruppe i 1 j = 1, . . . , ni (Anzahl der Tiere in Gruppe “i”) Fasst man die Daten Y1 , . . . , Yn (n = n1 + . . . + na ) in einem Vektor zusammen, so erhält man die Darstellung Y11 ε11 . .. .. . Y 1n1 1n1 ε1n1 µ1 Y21 1n2 0 . . .. + .. Y := . = =: Xb + ε .. . . . 0 εa1 µa Ya1 1na | {z } . .. {z } b | .. . X εana Yana | {z } ε Wichtige Fragen in diesem Modell sind: (1) Wie groß ist der Einfluss von Futtersorte “i” auf die Gewichtszunahme der Tiere, d.h. wie groß sind die µi ? (2) Besteht ein Unterschied zwischen den Futtersorten bzgl. der Gewichtszunahme der Versuchstiere, d.h. gilt die Hypothese: H : µ1 = . . . = µa ? (3) Wie groß ist der Unterschied zwischen Futtersorte 1 und 2, d.h. gilt die Hypothese H : µ1 = µ2 ? (4) Wie groß ist maxai=1 µi ? Definition 8.3. Es sei X ∈ Rn×k , b ∈ Rk (n ≥ k), ε = (ε1 , . . . , εn )T eine n − dim Zufallsvariable so, dass mit Z ∼ N (0, σ 2 In ) gilt: (∗) E[εηi11 . . . εηi44 ] = E[Ziη11 . . . Ziη44 ] ∀ i1 , . . . , i4 ∈ {1, . . . , n} ∀ η1 , . . . , η4 ∈ {0, . . . , 4} mit P4 j=1 ηj ≤ 4 [d.h. die Momente von ε bis zur Ordnung 4 stimmen mit den Momenten einer N (0, σ 2 In ) Verteilung überein]. Das Modell (1) Y = Xb + ε heißt lineares Modell mit Momentenannahme (LMM). Die Matrix X heißt Designmatrix. Gilt zusätzlich ε ∼ N (0, σ 2 In ), so heißt das Modell (1) lineares Modell mit Normalverteilungsannahme (L Bemerkung: Bezeichnet r = Rang(X) den Rang der Matrix X, R(X) = {Xb | b ∈ Rk } ⊂ Rn 2 das Bild von X (r − dim UVR von Rn ), so ist eine naheliegende Schätzung für Xb die orthogonal Projektion P0 Y von Y auf R(X). Als Schätzer für den Parameter b verwendet man dann jeden Wert b̂, der die Gleichung P0 Y = X b̂ erfüllt. Es stellt sich nun die Frage, wie man die orthogonale Projektion auf R(X) berechnet. Definition 8.4. Für eine Matrix A ∈ Rm×n heißt die Matrix G ∈ Rn×m eine verallgemeinerte Inverse von A genau dann, wenn gilt AGA = A. Mit A− := {G ∈ Rn×m | AGA = A} wird die Menge aller verallgemeierten Inversen der Matrix A bezeichnet. Man schreibt in einer Formel A− statt G, falls diese Formel von der Wahl G ∈ A− unabhängig ist. (z.B. AA− A = A) Lemma 8.5. (range inclusion) Es sei X ∈ Rn×k , V ∈ Rn×s , dann gilt (1) (∗) R(X) ⊂ R(V ) ⇐⇒ V V − X = X (2) gilt (∗) und V ≥ 0 (s = n), so folgt a) X T V − X ≥ 0 b) R(X T ) = R(X T V − X) Lemma 8.6. Im linearen Modell (1) werden die orthogonalen Projektionen auf die Untervektorräume R(X) und auf das orthogonale Komplement R(X)⊥ := {z ∈ Rn | z T x = 0 ∀ x ∈ R(X)} durch die Matrizen P0 = X(X T X)− X T und R = In − P0 = In − X(X T X)− X T beschrieben. Bemerkung 8.7. Man beachte: (Übung): P0 ist orthogonale Projektion ⇐⇒ P02 = P0 idempotent und P0T = P0 . Einen naheliegenden Schätzer für die Größen Xb und σ 2 im linearen Modell (1) erhält man dann durch P0 Y = X(X T X)− X T Y 1 1 1 σ̂ 2 = kRY k2 = Y T RY = Y T (In − X(X T X)− X T )Y n−r n−r n−r 3 wobei die Mastrix R durch R = In − X(X T X)− X T definiert ist. Man beachte außerdem: (Übung) σ̂ 2 = kY − X b̂k2 /(n − r) = (Y − X b̂)T (Y − X b̂)/(n − r) Lemma 8.8. Es bezeichne Y eine n-dimensionale Zufallsvariable mit E[Y ] = µ, Var(Y ) = V > 0, A ∈ Rn×n , dann gilt (1) E[Y T AY ] = µT Aµ + Spur (AV) (2) Hat Y Momente bis zur Ordnung 4 wie eine N (µ, V ) Verteilung [vgl. die Darstellung (∗) in Definition 8.3], so gilt (a) Cov(Y, Y T AY ) = 2V Aµ (b) Ist zusätzlich µ = 0 und ist B ∈ Rn×n eine weitere Matrix, so gilt Cov (Y T AY, Y T BY ) = 2 Spur (AV BV ) Folgerung 8.9. In dem linearen Modell (1) gilt mit den Bezeichnungen aus Lemma 8.6 E[P0 Y ] = Xb. Damit erhält man für µ = Xb mit Lemma 8.5 µT Rµ = 0, und es ergibt sich E[σ̂ 2 ] = σ2 Spur(In − X(X T X)T ) = σ 2 . n−r Für die letzte Identität haben wir die Eigenschaft benutzt, dass eine Projektion als Eigenwerte nur die Zahlen 0 oder 1 besitzt. Da die Summe der Eigenwerte der Matrix P gleich der Spur ist, erhält man Spur (P ) = r(P ). Man beachte, dass die Schätzer P0 Y und σ̂ 2 erwartungstreue Schätzer für die Parameter Xb und σ 2 sind. Für r < k ist die Lösung b̂ der Gleichung (∗) X b̂ = P0 Y = X(X T X)− X T Y nicht eindeutig bestimmt. Falls k = r gilt, so erhält man mit Lemma 8.5 (X T X)− = (X T X)−1 und damit ist die Gleichung (∗) äquivalent zu (X T X)b̂ = X T Y. Diese Gleichungen heißen Normalgleichungen. Als Lösung erhält man mit b̂ = (X T X)−1 X T Y einen Schätzer für b. Wegen E[b̂] = (X T X)−1 X T Xb = b ist dieser Schätzer auch erwartungstreu. 4 Satz 8.10. (Gauß-Markov) Im linearen Modell mit Momentenannahme und r = r(X) = k gilt: (1) Die Schätzer b̂ = (X T X)−1 X T Y und σ̂ 2 = 1 Y T (In − X(X T X)−1 X T )Y n−k sind erwartungstreue Schätzer für die Parameter b und σ 2 . Die Schätzer b̂ und σ̂ 2 sind unkorreliert. (2) b̂ ist bester linearer e-treuer Schätzer für b, d.h. ∀ b̃ = LY, E[b̃] = b ⇒ Var(b̃) ≥ Var(b̂) = σ 2 (X T X)−1 . (BLUE best linear unbiased estimator) (3) σ̂ 2 ist bester quadratischer erwartungstreuer Schätzer für σ 2 , d.h. für alle quadratischen Schätzer der Form σ̃ 2 = Y T AY mit E[σ̃ 2 ] = σ 2 gilt Var(σ̃ 2 ) ≥ Var(σ̂ 2 ). Lemma 8.11. Sei Y ∼ Nn (0, V ) eine n-dimensionale Zufallsvariable (1) Für Matrizen A ∈ Rp×n , B ∈ Rq×n gilt AY, BY stochastisch unabhängig ⇐⇒ AV B T = 0 (2) Für Matrizen A ∈ Rp×n , B ∈ Rn×n gilt: Ist B Projektion, dann sind die Zufallsvariablen Y T BY und AY stochastisch unabhängig, falls AV B = 0 gilt. Satz 8.12 Im linearen Modell mit Normalverteilungsannahme und r(X) = k ist (b̂, σ̂ 2 ) bester (bzgl. der Loewner Ordnung der Covarianzmatrizen) erwartungstreuer Schätzer für den Parameter (b, σ 2 ). Außerdem sind die Schätzer b̂, σ̂ 2 stochastisch unabhängig. Beispiel 8.13. (lineare Regression) Wir betrachten das Modell aus Beispiel 8.1 Yj = b0 + b1 tj + εj j = 1, . . . , n E[εj ] = 0 E[ε2j ] = σ 2 > 0. In diesem Modell gilt X = b = 1 ... 1 t1 . . . tn ! b0 . b1 5 !T Mit den Bezeichnungen t̄ = 1 n Pn j=1 tj und t̄2 = 1 n Pn 1 t̄ t̄ t̄2 XT X = n 2 j=1 tj gilt dann ! . Diese Matrix ist genau dann invertierbar, wenn nicht alle tj gleich sind, denn für die Determinante der Matrix X T X erhält man T |X X| = n n X (tj − t̄)2 . 1 Es ergibt sich damit für die Größen im Satz von Gauß-Markov ! Pn Y Pnj=1 j XT Y = j=1 tj Yj ! 2 1 t̄ − t̄ . (X T X)−1 = Pn 2 −t̄ 1 j=1 (tj − t̄) Für den Schätzer des Parameters b = (b0 , b1 )T in Satz 8.10 erhält man schließlich ! b̂0 b̂ = b̂1 mit b̂0 = Ȳ − b̂1 t̄ Pn j=1 (tj − t̄)(Yj − Ȳ ) Pn b̄1 = 2 j=1 (tj − t̄) Nach Satz 8.10 ist b̂ bester linearer erwartungstreuer Schätzer für den Parameter b und die Statistik n 1 X σ̂ = (Yj − b̂0 − b̂1 tj )2 n − 2 j=1 2 ist bester quadratischer erwartungstreuer Schätzer für σ 2 . Bemerkung 8.14. Oft is man nicht direkt an dem Parameter b sondern an Linearkombinationen K T b mit K ∈ Rk×s interessiert (man denke im Beispiel 8.13 an die Schätzung der Steigung b1 ). Ein naheliegender Schätzer in diesem Fall ist die Statistik K T b̂ = K T (X T X)−1 X T Y (falls r(X) = k gilt). Für die Eindeutigkeit dieses Schätzers ist die Annahme r(X) = k nicht nötig. Es reicht hier, die Voraussetzung R(K) ⊂ R(X T ) zu fordern. Dann gilt nämlich mit Lemma 6 8.5., dass der Schätzer K T (X T X)− X T Y unabhängig von der Wahl der verallgemeinerten Inversen der Matrix X T X ist und E[K T (X T X)− X T Y ] = K T b gilt. Damit ist dieser Schätzer erwartungstreu für K T b. Definition 8.15. Für eine Matrix K ∈ Rk×s mit r(K) = s heißt der Parameter K T b im linearen Modell (1) schätzbar : ⇐⇒ R(K) ⊂ R(X T ) Satz 8.16. Unter den obigen Annahmen gilt: (a) Im linearen Modell mit Momentenannahme ist K T b̂ := K T (X T X)− X T Y bester linearer erwartungstreuer Schätzer für den Parameter K T b mit Varianz σ 2 K T (X T X)− K ∈ Rs×s . (b) Im linearen Modell mit Normalverteilungsannahme hat der Schätzer K T b̂ gleichmäßig kleinste Kovarianzmatrix unter allen erwartungstreuen Schätzern für den Parameter K T b. Beispiel 8.17. (Fortsetzung des Beispiels 8.13) Für die Matrix K = 10 erhält man K T b = b0 . Wählt man alle Beobachtungen im Nullpunkt so, erhält man für die Matrix X, !T 1 ... 1 X= . 0 ... 0 Der Parameter b0 is schätzbar, wegen R(K) ⊂ R(X T ) und wegen Lemma 8.5 ist die Matrix K T (X T X)− X T Y unabhängig von der Wahl der verallgemeinerten Inversen. Wegen ! ! 1 1 0 n 0 T X X= G= ∈ (X T X)− n 0 0 0 0 erhält man K T b̂ = K T (X T X)− X T Y = Ȳn als gleichmäßig bester erwartungstreuer Schätzer für den Achsenabschnitt b0 . Satz 8.18. Es sei Y ∼ Nn (µ, σ 2 In ) eine n-dimensionale Zufallsvariable P ∈ Rn×n eine Matrix mit P T = P, r(P ) = r. Dann gilt: P ist orthogonale Projektion (d.h. P 2 = P ) genau dann, wenn gilt Q= (Y − µ)T P (Y − µ) ∼ Xr2 . σ2 Bemerkung 8.19. Wir stellen in dieser Bemerkung einige weitere Beispiele für die Verteilung von quadratischen Formen zusammen: 7 (1) Es sei Y ∼ Nn (µ, σ 2 In ), P T = P, P 2 = P, r = r(P ) = Spur(P ), dann gilt 1 T 2 Y P Y ∼ Xr,δ 2 2 σ mit δ 2 = (µT P µ)/σ 2 . (2) Es sei Y ∼ Nn (µ, V ); V > 0; A ∈ Rn×n ; AT = A, r = r(A), dann gilt (a) (Y − µ)T A(Y − µ) ∼ Xr2 ⇐⇒ AV A = A 2 T 2 (b) AV A = A ⇒ Y T AY ∼ Xr(A),δ 2 mit δ = µ Aµ (3) Es sei X ∼ Nn (µ, V ), µ ∈ R(V ), V ≥ 0 und G ∈ V − eine verallgemeinerte Inverse von V mit GT = G und GV G = G (z. B. die Moore-Penrose Inverse), dann gilt 2 X T GX ∼ Xr(V ),δ 2 mit δ 2 = µT Gµ. Lemma 8.20. Im linearen Modell mit Normalverteilungsannahme und R(K) ⊂ R(X T ) gilt: K T b̂ := K T (X T X)− X T Y ∼ Ns (K T b, σ 2 K T (X T X)− K) n−r 2 1 2 σ̂ = 2 Y T (In − X(X T X)− X T )Y ∼ Xn−r , 2 σ σ wobei r = r(X) den Rang der Matrix X bezeichnet. Beispiel 8.21. Wir benutzen nun diese Resultate, um ein Konfidenzellipsoid für den Parameter K T b zu bestimmen, falls R(K) ⊂ R(X T ) gilt. Wegen Lemma 8.20 erhält man d = K T b̂ − K T b ∼ N (0, σ 2 (K T (X T X)− K)). Daher ergibt sich aus Lemma 8.19(3) H = dT (K T (X T X)− K)− d ∼ σ 2 Xt2 mit t = r(K), und man erhält aus der Definition der F -Verteilung 1 H/σ 2 D t ∼ σ̂ 2 /σ 2 1 2 X t r Ft,n−r . 1 X2 n−r n−r Dabei erhält man die Unabhängigkeit des Zählers und Nenners aus Lemma 8.11 und der Identität (K T (X T X)− X T )(In − X(X T X)− X T ) = 0. Damit ergibt sich aus der Identität P [(K T b̂ − K T b)T (K T (X T X)− K)− (K T b̂ − K T b) ≤ tσ̂ 2 Ft,n−r,1−α ) = 1 − α ein Konfidenzellipsoid für K T b. Man beachte: • Die Matrix K(K T (X T X)− K)− K T ist unabhängig von der Wahl der verallgemeinerten Inversen (wegen Lemma 8.5). • Falls zusätzlich t = r(K) = s gilt, so erhält man mit Teil b aus Lemma 8.5, dass die Inverse der Matrix K T (X T X)− K existiert. 8