Lineare statistische Methoden

Werbung
Lineare
statistische
Methoden
Von
Universitätsprofessor
Dr. Ulrich Kockelkorn
R.01denbourg Verlag München Wien
Inhaltsverzeichnis
Vorwort
11
I
15
1
Das Handwerkszeug
Das mathematische Handwerkszeug
1.1 Geometrische Strukturen
1.1.1 Beschreibung von Datensätzen durch Vektoren
1.1.2 Geraden, Ebenen, Räume
1.1.3 Dimensionen und Basen
1.1.4 Winkel und Abstand
1.1.5 Projektionen
1.2 Matrizenrechnung und lineare Gleichungssysteme
1.2.1 Grundbegriffe
1.2.2 Verallgemeinerte Inverse einer Matrix
1.2.3 Lineare Gleichungssysteme
1.2.4 Normalgleichungen
1.3 Beschreibung von Punktwolken
1.3.1 Punktwolken im R m und das Konzentrationsellipsoid . . .
1.3.2 Richtung einer Punktwolke im R 2
1.3.3 Straffheit einer Punktwolke im R 2
1.3.4 Drei Ausgleichsgeraden
1.4 Anhang: Ergänzungen und Aufgaben
1.4.1 Matrizen
1.4.2 Spektralzerlegung von Matrizen
1.4.3 Symmetrische Matrizen
1.4.4 Ellipsoide im R™
1.4.5 Normierte lineare Vektorräume
1.4.6 Projektionen
1.4.7 Optimale Abbildung einer Punktwolke
1.4.8 Lösungen der Aufgaben
17
18
18
28
34
38
44
54
54
63
66
69
75
75
79
81
83
91
91
96
99
102
104
110
114
119
4
2
INHALTSVERZEICHNIS
Das statistische Handwerkszeug
2.1 Zufällige Variable
2.1.1 Der Wahrscheinlichkeitsbegriff
2.1.2 Wahrscheinlichkeitsverteilungen
2.1.3 Unabhängigkeit und Bedingtheit
2.1.4 Erwartungswert
2.1.5 Varianz, Kovarianz und Korrelation
2.1.6 Kovarianzmatrix und Konzentrations-Ellipsoid
2.1.7 Grenzwertsätze
2.2 Die Normalverteilung und ihre Verwandten
2.2.1 Die Normalverteilungsfamilie
2.2.2 x2"Verteilung und der Satz von Cochran
2.2.3 F-Verteilung
2.2.4 t-Verteilung
2.2.5 Das Student-Prinzip
2.2.6 Sum-of-Squares-Schreibweise
2.3 Grundprinzipien der Statistik
2.3.1 Der statistische Schluß
2.3.2 Die Prognose
2.3.3 Der statistische Test
2.3.4 Konfidenzbereiche
2.3.5 Punktschätzer
2.4 Anhang: Ergänzungen und Aufgaben
2.4.1 Spezielle stetige Verteilungen
2.4.2 Ausgeartete Verteilungen
2.4.3 Geordnete Verteilungen
2.4.4 Die Mahalanobis-Metrik
2.4.5 Konsistente Varianzschätzer
2.4.6 Score- und Informationsfunktion
2.4.7 Spezielle Parameter-Tests
2.4.8 Lösung der Aufgaben
127
127
127
128
129
130
132
134
137
139
139
147
153
155
156
158
160
160
162
163
165
166
172
172
175
177
179
181
183
187
189
II
Korrelations- und Prognosemodelle
193
3
Modelle mit zwei Variablen
3.1 Der Zusammenhangsbegriff
3.2 Der Korrelationskoeffizient von BravaisPearson
3.2.1 Ein kurzer historischer Rückblick
3.2.2 Struktur des Korrelationskoeffizienten
3.2.3 Überlagerungsmodell
3.2.4 Verteilung des Korrelationskoeffizienten
3.2.5 Quellen für Fehlinterpretationen
3.3 Der Intraklassen-Korrelationskoeffizient
195
195
198
199
201
205
207
209
214
INHALTSVERZEICHNIS
5
4
Modelle mit mehr als zwei Variablen
217
4.T Bedingte Korrelation
217
4.2 Die beste Prognose
220
4.2.1 Beste Prognosen für eindimensionale zufällige Variable . . 221
4.2.2 Beste lineare Prognose
222
4.3 Multiple Korrelation
228
4.3.1 Struktur der multiplen Korrelation
228
4.3.2 Bestimmtheitsmaß
232
4.4 Partielle Korrelation
233
4.4.1 Struktur des partiellen Korrelationskoeffizienten
233
4.4.2 Geometrische Veranschaulichung
237
4.4.3 Berechnung der partiellen Korrelation
238
4.4.4 Schrittweise Bestimmung der Residuen
239
4.4.5 Partielle Korrelation bei Modellerweiterung
241
4.4.6 Reziproke Partialisierung
241
4.4.7 Regressionskoeffizienten
243
4.4.8 Konzentrationsmatrix
245
4.5 Kanonische Korrelation
249
4.5.1 Kanonisch korrelierte Paare
249
4.5.2 Kanonische Zerlegung zweier Räume
255
5
Anhang zur Korrelation
5.1 Ergänzungen und Aufgaben
5.1.1 Aufgaben und Beispiele
5.1.2 Korrelation bei stochastischer Skalierung
5.1.3 Verallgemeinerungen des Korrelationskoeffizienten
5.2 Korrelation und Information
5.2.1 Korrelationskoeffizient als Informationsmaß
5.2.2 Kullback-Leibler-Informationskriterium:
5.2.3 Kanonische Korrelationen als Informationsmaß
5.3 Lösungen der Aufgaben
III
6
Das lineare Regressionsmodell
Parameterschätzung im Regressionsmodell
6.1 Struktur und Design
6.1.1 Die Struktur des Regressionsmodells
6.1.2 Das Design
6.2 Schätzung von // und ß
6.2.1 Schätzung von /M
6.2.2 Schätzung von ß
6.2.3 Schätzbare Parameter
6.2.4 Identifizierbare Parameter
6.2.5 Kanonische Darstellung eines Parameters
259
259
259
260
. . . . 262
264
264
265
266
268
271
273
273
274
277
278
281
282
287
289
290
INHALTSVERZEICHNIS
6
6.2.6 Kontraste
6.2.7 Mehrdimensionale Parameter und Parameterräume . . . .
6.2.8 Modellerweiterungen
6.3 Das Bestimmtheitsmaß
6.3.1 Probleme bei der Interpretation des Bestimmtheitsmaßes
6.4 Genauigkeit der Schätzer
6.4.1 Kovarianzmatrizen der Schätzer
6.4.2 Schätzer der Kovarianzmatrizen
6.4.3 Konfidenzellipsoide für Parameter
6.5 Lineare Einfachregression
6.5.1 Punkt- und Bereichsschätzer der Parameter
6.5.2 Konfidenzgürtel für die Regressionsgerade
6.5.3 Prognoseintervall für eine zukünftige Beobachtung . . . .
6.5.4 Inverse Regression
6.6 Beste lineare unverfälschte Schätzer
6.6.1 Der Satz von Gauß-Markov
6.6.2 Beste lineare unverfälschte Schätzer
6.7 Schätzen unter Nebenbedingungen
6.7.1 Das eingeschränkte lineare Modell
6.7.2 Gestalt der Nebenbedingungen
6.7.3 Schätzung nach Reparametrisierung
6.7.4 Schätzung mit der Methode von Lagrange
6.7.5 Schätzung mit Projektionen
6.7.6 Eindeutigkeit des KQ-Schätzers unter Nebenbedingungen
6.7.7 Identifikationsbedingungen
7
Parametertests im Regressionsmodell
7.1 Hypothesen über die systematische Komponente
7.1.1 Die Leitidee
7.1.2 Symbolische Darstellung der SS-Terme
7.1.3 Die Prüfgröße des F-Tests
7.1.4 Eine invariante Formulierung der Hypothese
7.1.5 Explizite Darstellung des Testkriteriums
7.2 Hypothesen über einen Parameter
7.2.1 Test der Hypothese $ = 5>0
7.2.2 Kombinationen von Tests
7.2.3
8
Test der Hypothese: H$ : "0 X = 4>2 = • • • = 4>p"
292
293
294
295
303
308
309
310
313
315
315
319
321
323
326
327
331
337
337
339
340
340
342
343
345
353
353
353
355
356
358
359
360
360
367
374
7.3 Testen in Modellketten
376
Diagnose
8.1 Grafische Kontrollen
8.1.1 Residuenplots
8.1.2 Partielle Plots
8.2 Die Kollinearitätstruktur der Regressoren
8.2.1 Das Kollinearitäts-Syndrom
8.2.2 Der Toleranz- und der Varianz-Infiations-Faktor
383
384
386
390
395
395
399
INHALTSVERZEICHNIS
8.3
8.4
8.5
8.6
9
7
8.2.3 Singulärwertzerlegung von X
403
Der Rand des Definitionsbereiches
406
8.3.1 Der Definitionsbereich des Modells
406
8.3.2 Beobachtungsstellen mit Hebelwirkung
410
Einflußreiche und auffällige Beobachtungen
415
8.4.1 Bezeichnungen und Umrechnungsformeln
415
8.4.2 Skalierte, standardisierte und studentisierte Residuen . . . 420
8.4.3 Der Einfluß einer einzelnen Beobachtung
424
Überprüfung der Normalverteilung
432
Überprüfung der Kovarianzmatrix
435
8.6.1 Überprüfung der UnkorreUertheit der Residuen
435
8.6.2 Überprüfung der Konstanz der Varianz
440
Modellsuche
445
9.1 Unter- und überangepaßte Modelle
446
9.2 Modellbewertungen und Selektionskriterien
448
9.2.1 Die Abweichung zwischen Schätzwert und Beobachtung . 449
9.2.2 Die Prüfgröße des F-Tests
450
9.2.3 Der geschätzte mittlere quadratische Fehler
451
9.2.4 Das Bayesianische Informationskriterium
452
9.2.5 Das Akaike Informationskriterium
454
9.2.6 Die Prognosegüte
457
9.2.7 Vergleich der Selektionskriterien
459
9.2.8 Selektion und Inferenz
463
9.2.9 Die VC-Dimension
464
9.3 Algorithmen zur Modellsuche
465
9.4 Modelle mit Box-Cox-transformierten Variablen
469
10 Spezialgebiete des Regressionsmodells
10.1 Orthogonale Regressoren
10.2 Schrittweise Verfahren
10.2.1 Zweistufige Regression
10.2.2 Rekursive KQ-Schätzer
10.3 Der Kaiman-Filter
10.4 Hauptkomponentenregression
10.5 Lineare Modelle in der Bayesianischen Statistik
483
483
492
492
498
500
511
515
IV
523
Modelle der Varianzanalyse
11 Einfache Varianzanalyse
11.1 Aufgabenstellung und Bezeichnungen
11.2 Das Modell
11.3 Die Effekte
11.3.1 Schätzbare Funktionen
11.3.2 Identifikation der Effekte
525
525
527
532
533
534
11.3.3 Test auf Vorliegen von Effekten
11.3.4 Kontraste
11.3.5 Optimale Wahl der Besetzungszahlen
535
536
541
12 Multiple Entscheidungsverfahren
12.1 Grundbegriffe und Eigenschaften
12.2 Ein-Schritt-Verfahren
12.2.1 Das Bonferroni-Verfahren
12.2.2 Der Tukey Test
12.2.3 Simultan verwerfende Testprozeduren
12.2.4 Der Many-One Test von Dunnett
12.2.5 Der Scheffe-Test
12.3 Mehrschrittige Testprozeduren
12.3.1 Der Protected LSD-Test von Fisher
12.3.2 Der Newman-Keuls-Test
12.3.3 Der Duncan-Test
12.3.4 Die Bonferroni-Holm Methode
543
543
550
550
554
558
561
563
566
567
569
572
573
13 Zweifache Varianzanalyse
13.1 Grundbegriffe
13.2 Das saturierte Modell
13.2.1 Erwartungswertparametrisierung
13.2.2 Effektparametrisierung
13.2.3 Schätzbare Parameter
13.2.4 Identifizierende Nebenbedingungen
13.2.5 Unbereinigten Haupteffekte
13.3 Das additive Modell
13.3.1 Effektparametrisierung
13.3.2 Schätzung der Parameter
13.3.3 Grafische Überprüfung
13.3.4 Wechselwirkungen bei unbereinigten Effekten
13.4 Tests in der Varianzanalyse
13.4.1 Tests von Struktur-Hypothesen
13.4.2 Test von Parameterhypothesen
13.4.3 Allgemeine Haupteffekte im saturierten Modell
13.5 Modelle mit proportionaler Besetzung
13.6 ANOVA mit SAS
577
579
584
584
585
586
587
592
595
597
598
601
602
604
605
609
611
615
619
14 Varianzanalyse mit mehreren Faktoren
14.1 Bezeichnungen und Begriffe
14.2 Das saturierte Modell
14.3 Modelle mit proportionaler Besetzung
14.4 Beweise
14.5 Parametrisierungsformeln
14.6 Genestete Modelle
623
623
627
631
642
646
647
INHALTSVERZEICHNIS
9
15 Kovarianzanalyse
15.1 Grundmodelle
15.2 Allgemeine Modelle
653
653
659
16 Modelle mit zufalligen Effekten
16.1 Grundbegriffe
16.2 Saturierte balanzierte Modelle
16.2.1 Zerlegung des R™ in orthogonale Effekträume
16.2.2 Struktur der Kovarianzmatrix
16.2.3 Schätzung der Effekte
16.2.4 ANOVA-Schätzung der Varianzen
16.2.5 Rekursionsformeln
16.2.6 ANOVA-Tests im balanzierten Modell
16.2.7 Approximative Tests
16.3 Likelihoodschätzer im balanzierten Modell
16.4 Nichtbalanzierte Modelle
669
670
674
674
675
677
678
682
684
689
690
692
Literaturverzeichnis
699
Symbolverzeichnis
716
/
Zugehörige Unterlagen
Herunterladen