Lineare statistische Methoden Von Universitätsprofessor Dr. Ulrich Kockelkorn R.01denbourg Verlag München Wien Inhaltsverzeichnis Vorwort 11 I 15 1 Das Handwerkszeug Das mathematische Handwerkszeug 1.1 Geometrische Strukturen 1.1.1 Beschreibung von Datensätzen durch Vektoren 1.1.2 Geraden, Ebenen, Räume 1.1.3 Dimensionen und Basen 1.1.4 Winkel und Abstand 1.1.5 Projektionen 1.2 Matrizenrechnung und lineare Gleichungssysteme 1.2.1 Grundbegriffe 1.2.2 Verallgemeinerte Inverse einer Matrix 1.2.3 Lineare Gleichungssysteme 1.2.4 Normalgleichungen 1.3 Beschreibung von Punktwolken 1.3.1 Punktwolken im R m und das Konzentrationsellipsoid . . . 1.3.2 Richtung einer Punktwolke im R 2 1.3.3 Straffheit einer Punktwolke im R 2 1.3.4 Drei Ausgleichsgeraden 1.4 Anhang: Ergänzungen und Aufgaben 1.4.1 Matrizen 1.4.2 Spektralzerlegung von Matrizen 1.4.3 Symmetrische Matrizen 1.4.4 Ellipsoide im R™ 1.4.5 Normierte lineare Vektorräume 1.4.6 Projektionen 1.4.7 Optimale Abbildung einer Punktwolke 1.4.8 Lösungen der Aufgaben 17 18 18 28 34 38 44 54 54 63 66 69 75 75 79 81 83 91 91 96 99 102 104 110 114 119 4 2 INHALTSVERZEICHNIS Das statistische Handwerkszeug 2.1 Zufällige Variable 2.1.1 Der Wahrscheinlichkeitsbegriff 2.1.2 Wahrscheinlichkeitsverteilungen 2.1.3 Unabhängigkeit und Bedingtheit 2.1.4 Erwartungswert 2.1.5 Varianz, Kovarianz und Korrelation 2.1.6 Kovarianzmatrix und Konzentrations-Ellipsoid 2.1.7 Grenzwertsätze 2.2 Die Normalverteilung und ihre Verwandten 2.2.1 Die Normalverteilungsfamilie 2.2.2 x2"Verteilung und der Satz von Cochran 2.2.3 F-Verteilung 2.2.4 t-Verteilung 2.2.5 Das Student-Prinzip 2.2.6 Sum-of-Squares-Schreibweise 2.3 Grundprinzipien der Statistik 2.3.1 Der statistische Schluß 2.3.2 Die Prognose 2.3.3 Der statistische Test 2.3.4 Konfidenzbereiche 2.3.5 Punktschätzer 2.4 Anhang: Ergänzungen und Aufgaben 2.4.1 Spezielle stetige Verteilungen 2.4.2 Ausgeartete Verteilungen 2.4.3 Geordnete Verteilungen 2.4.4 Die Mahalanobis-Metrik 2.4.5 Konsistente Varianzschätzer 2.4.6 Score- und Informationsfunktion 2.4.7 Spezielle Parameter-Tests 2.4.8 Lösung der Aufgaben 127 127 127 128 129 130 132 134 137 139 139 147 153 155 156 158 160 160 162 163 165 166 172 172 175 177 179 181 183 187 189 II Korrelations- und Prognosemodelle 193 3 Modelle mit zwei Variablen 3.1 Der Zusammenhangsbegriff 3.2 Der Korrelationskoeffizient von BravaisPearson 3.2.1 Ein kurzer historischer Rückblick 3.2.2 Struktur des Korrelationskoeffizienten 3.2.3 Überlagerungsmodell 3.2.4 Verteilung des Korrelationskoeffizienten 3.2.5 Quellen für Fehlinterpretationen 3.3 Der Intraklassen-Korrelationskoeffizient 195 195 198 199 201 205 207 209 214 INHALTSVERZEICHNIS 5 4 Modelle mit mehr als zwei Variablen 217 4.T Bedingte Korrelation 217 4.2 Die beste Prognose 220 4.2.1 Beste Prognosen für eindimensionale zufällige Variable . . 221 4.2.2 Beste lineare Prognose 222 4.3 Multiple Korrelation 228 4.3.1 Struktur der multiplen Korrelation 228 4.3.2 Bestimmtheitsmaß 232 4.4 Partielle Korrelation 233 4.4.1 Struktur des partiellen Korrelationskoeffizienten 233 4.4.2 Geometrische Veranschaulichung 237 4.4.3 Berechnung der partiellen Korrelation 238 4.4.4 Schrittweise Bestimmung der Residuen 239 4.4.5 Partielle Korrelation bei Modellerweiterung 241 4.4.6 Reziproke Partialisierung 241 4.4.7 Regressionskoeffizienten 243 4.4.8 Konzentrationsmatrix 245 4.5 Kanonische Korrelation 249 4.5.1 Kanonisch korrelierte Paare 249 4.5.2 Kanonische Zerlegung zweier Räume 255 5 Anhang zur Korrelation 5.1 Ergänzungen und Aufgaben 5.1.1 Aufgaben und Beispiele 5.1.2 Korrelation bei stochastischer Skalierung 5.1.3 Verallgemeinerungen des Korrelationskoeffizienten 5.2 Korrelation und Information 5.2.1 Korrelationskoeffizient als Informationsmaß 5.2.2 Kullback-Leibler-Informationskriterium: 5.2.3 Kanonische Korrelationen als Informationsmaß 5.3 Lösungen der Aufgaben III 6 Das lineare Regressionsmodell Parameterschätzung im Regressionsmodell 6.1 Struktur und Design 6.1.1 Die Struktur des Regressionsmodells 6.1.2 Das Design 6.2 Schätzung von // und ß 6.2.1 Schätzung von /M 6.2.2 Schätzung von ß 6.2.3 Schätzbare Parameter 6.2.4 Identifizierbare Parameter 6.2.5 Kanonische Darstellung eines Parameters 259 259 259 260 . . . . 262 264 264 265 266 268 271 273 273 274 277 278 281 282 287 289 290 INHALTSVERZEICHNIS 6 6.2.6 Kontraste 6.2.7 Mehrdimensionale Parameter und Parameterräume . . . . 6.2.8 Modellerweiterungen 6.3 Das Bestimmtheitsmaß 6.3.1 Probleme bei der Interpretation des Bestimmtheitsmaßes 6.4 Genauigkeit der Schätzer 6.4.1 Kovarianzmatrizen der Schätzer 6.4.2 Schätzer der Kovarianzmatrizen 6.4.3 Konfidenzellipsoide für Parameter 6.5 Lineare Einfachregression 6.5.1 Punkt- und Bereichsschätzer der Parameter 6.5.2 Konfidenzgürtel für die Regressionsgerade 6.5.3 Prognoseintervall für eine zukünftige Beobachtung . . . . 6.5.4 Inverse Regression 6.6 Beste lineare unverfälschte Schätzer 6.6.1 Der Satz von Gauß-Markov 6.6.2 Beste lineare unverfälschte Schätzer 6.7 Schätzen unter Nebenbedingungen 6.7.1 Das eingeschränkte lineare Modell 6.7.2 Gestalt der Nebenbedingungen 6.7.3 Schätzung nach Reparametrisierung 6.7.4 Schätzung mit der Methode von Lagrange 6.7.5 Schätzung mit Projektionen 6.7.6 Eindeutigkeit des KQ-Schätzers unter Nebenbedingungen 6.7.7 Identifikationsbedingungen 7 Parametertests im Regressionsmodell 7.1 Hypothesen über die systematische Komponente 7.1.1 Die Leitidee 7.1.2 Symbolische Darstellung der SS-Terme 7.1.3 Die Prüfgröße des F-Tests 7.1.4 Eine invariante Formulierung der Hypothese 7.1.5 Explizite Darstellung des Testkriteriums 7.2 Hypothesen über einen Parameter 7.2.1 Test der Hypothese $ = 5>0 7.2.2 Kombinationen von Tests 7.2.3 8 Test der Hypothese: H$ : "0 X = 4>2 = • • • = 4>p" 292 293 294 295 303 308 309 310 313 315 315 319 321 323 326 327 331 337 337 339 340 340 342 343 345 353 353 353 355 356 358 359 360 360 367 374 7.3 Testen in Modellketten 376 Diagnose 8.1 Grafische Kontrollen 8.1.1 Residuenplots 8.1.2 Partielle Plots 8.2 Die Kollinearitätstruktur der Regressoren 8.2.1 Das Kollinearitäts-Syndrom 8.2.2 Der Toleranz- und der Varianz-Infiations-Faktor 383 384 386 390 395 395 399 INHALTSVERZEICHNIS 8.3 8.4 8.5 8.6 9 7 8.2.3 Singulärwertzerlegung von X 403 Der Rand des Definitionsbereiches 406 8.3.1 Der Definitionsbereich des Modells 406 8.3.2 Beobachtungsstellen mit Hebelwirkung 410 Einflußreiche und auffällige Beobachtungen 415 8.4.1 Bezeichnungen und Umrechnungsformeln 415 8.4.2 Skalierte, standardisierte und studentisierte Residuen . . . 420 8.4.3 Der Einfluß einer einzelnen Beobachtung 424 Überprüfung der Normalverteilung 432 Überprüfung der Kovarianzmatrix 435 8.6.1 Überprüfung der UnkorreUertheit der Residuen 435 8.6.2 Überprüfung der Konstanz der Varianz 440 Modellsuche 445 9.1 Unter- und überangepaßte Modelle 446 9.2 Modellbewertungen und Selektionskriterien 448 9.2.1 Die Abweichung zwischen Schätzwert und Beobachtung . 449 9.2.2 Die Prüfgröße des F-Tests 450 9.2.3 Der geschätzte mittlere quadratische Fehler 451 9.2.4 Das Bayesianische Informationskriterium 452 9.2.5 Das Akaike Informationskriterium 454 9.2.6 Die Prognosegüte 457 9.2.7 Vergleich der Selektionskriterien 459 9.2.8 Selektion und Inferenz 463 9.2.9 Die VC-Dimension 464 9.3 Algorithmen zur Modellsuche 465 9.4 Modelle mit Box-Cox-transformierten Variablen 469 10 Spezialgebiete des Regressionsmodells 10.1 Orthogonale Regressoren 10.2 Schrittweise Verfahren 10.2.1 Zweistufige Regression 10.2.2 Rekursive KQ-Schätzer 10.3 Der Kaiman-Filter 10.4 Hauptkomponentenregression 10.5 Lineare Modelle in der Bayesianischen Statistik 483 483 492 492 498 500 511 515 IV 523 Modelle der Varianzanalyse 11 Einfache Varianzanalyse 11.1 Aufgabenstellung und Bezeichnungen 11.2 Das Modell 11.3 Die Effekte 11.3.1 Schätzbare Funktionen 11.3.2 Identifikation der Effekte 525 525 527 532 533 534 11.3.3 Test auf Vorliegen von Effekten 11.3.4 Kontraste 11.3.5 Optimale Wahl der Besetzungszahlen 535 536 541 12 Multiple Entscheidungsverfahren 12.1 Grundbegriffe und Eigenschaften 12.2 Ein-Schritt-Verfahren 12.2.1 Das Bonferroni-Verfahren 12.2.2 Der Tukey Test 12.2.3 Simultan verwerfende Testprozeduren 12.2.4 Der Many-One Test von Dunnett 12.2.5 Der Scheffe-Test 12.3 Mehrschrittige Testprozeduren 12.3.1 Der Protected LSD-Test von Fisher 12.3.2 Der Newman-Keuls-Test 12.3.3 Der Duncan-Test 12.3.4 Die Bonferroni-Holm Methode 543 543 550 550 554 558 561 563 566 567 569 572 573 13 Zweifache Varianzanalyse 13.1 Grundbegriffe 13.2 Das saturierte Modell 13.2.1 Erwartungswertparametrisierung 13.2.2 Effektparametrisierung 13.2.3 Schätzbare Parameter 13.2.4 Identifizierende Nebenbedingungen 13.2.5 Unbereinigten Haupteffekte 13.3 Das additive Modell 13.3.1 Effektparametrisierung 13.3.2 Schätzung der Parameter 13.3.3 Grafische Überprüfung 13.3.4 Wechselwirkungen bei unbereinigten Effekten 13.4 Tests in der Varianzanalyse 13.4.1 Tests von Struktur-Hypothesen 13.4.2 Test von Parameterhypothesen 13.4.3 Allgemeine Haupteffekte im saturierten Modell 13.5 Modelle mit proportionaler Besetzung 13.6 ANOVA mit SAS 577 579 584 584 585 586 587 592 595 597 598 601 602 604 605 609 611 615 619 14 Varianzanalyse mit mehreren Faktoren 14.1 Bezeichnungen und Begriffe 14.2 Das saturierte Modell 14.3 Modelle mit proportionaler Besetzung 14.4 Beweise 14.5 Parametrisierungsformeln 14.6 Genestete Modelle 623 623 627 631 642 646 647 INHALTSVERZEICHNIS 9 15 Kovarianzanalyse 15.1 Grundmodelle 15.2 Allgemeine Modelle 653 653 659 16 Modelle mit zufalligen Effekten 16.1 Grundbegriffe 16.2 Saturierte balanzierte Modelle 16.2.1 Zerlegung des R™ in orthogonale Effekträume 16.2.2 Struktur der Kovarianzmatrix 16.2.3 Schätzung der Effekte 16.2.4 ANOVA-Schätzung der Varianzen 16.2.5 Rekursionsformeln 16.2.6 ANOVA-Tests im balanzierten Modell 16.2.7 Approximative Tests 16.3 Likelihoodschätzer im balanzierten Modell 16.4 Nichtbalanzierte Modelle 669 670 674 674 675 677 678 682 684 689 690 692 Literaturverzeichnis 699 Symbolverzeichnis 716 /