Einführung in die Statistik Analyse und Modellierung von Daten Von Prof. Dr. Rainer Schlittgen 4., überarbeitete und erweiterte Auflage R. Oldenbourg Verlag München Wien Inhaltsverzeichnis 1 1.1 Statistische Daten Erhebungen Problemstellung Begriffsbildungen Statistische Variablen Begriffsbildungen Klassifikationen Transformationen Die Datenmatrix Aufgaben 1 1 1 1 4 4 5 7 9 11 2.5 Darstellung univariater Datensätze Häufigkeitsverteilungen diskreter Variablen Problemstellung Häufigkeiten Graphische Darstellungen Häufigkeitsverteilungen stetiger Variablen Problemstellung Geordneter Datensatz Stemleaf-Diagramm Häufigkeitstabelle Das Histogramm Die empirische Verteilungsfunktion Einführendes Beispiel Empirische Verteilungsfunktion Klassierte Daten Quantile Problemstellung Bestimmung der Quantile Spezielle Quantile Quantildiagramme 5-Zahlen-Zusammenfassung Box-Plots Aufgaben 13 13 13 14 15 17 17 18 19 22 23 26 26 26 28 31 31 31 34 34 37 38 40 3 Darstellung multivariater Datensätze 44 3.1 Diskrete Variablen Einführendes Beispiel Bivariate Kontingenztabellen Bedingte relative Häufigkeiten Mehrdimensionale Kontingenztabellen 44 44 45 46 47 1.2 1.3 1.4 2 2.1 2.2 2.3 2.4 VIII 3.2 3.3 4 4.1 4.2 4.3 4.4 5 5.1 5.2 5.3 5.4 5.5 5.6 6 6.1 Inhaltsverzeichnis Stetige Variablen Streudiagramm Konvexe Hüllen Histogramm Mehrdimensionale Daten Aufgaben 48 48 49 50 52 54 Grundlagen der Wahrscheinlichkeitsrechnung Zufallsexperimente und Ereignisse Zufallsexperimente Ereignisse Wahrscheinlichkeiten Chancen von Ereignissen Häufigkeiten von Ereignissen Statistische Wahrscheinlichkeiten Axiome von Kolmogorov Das Gleichmöglichkeitsmodell Zufallsauswahlen aus endlichen Grundgesamtheiten Bedingte Wahrscheinlichkeit und Unabhängigkeit Bedingte Wahrscheinlichkeit Unabhängigkeit Aufgaben 57 57 57 59 64 64 65 66 68 71 72 77 77 80 82 Zufallsvariablen Zufallsvariablen Definition Verteilungsfunktion Diskrete Zufallsvariablen Wahrscheinlichkeitsfunktion Bestimmung eines Verteilungsmodells Verteilungsfunktion Stetige Zufallsvariablen Dichtefunktion Verteilungsfunktion Bestimmung eines Verteilungsmodells Theoretische Quantile Definition Quantildiagramme Mehrdimensionale Zufallsvariablen Grundlagen Unabhängigkeit Aufgaben Lageparameter Empirische Lageparameter Problemstellung Erfassung des Niveaus Der Median 87 87 88 89 91 91 92 95 96 96 99 100 102 102 103 108 108 111 112 116 116 116 116 117 Inhaltsverzeichnis IX 6.3 Das arithmetische Mittel Berechnung des arithmetischen Mittels Eigenschaften des arithmetischen Mittels Weitere Lageparameter Theoretische Lageparameter . . . . Der Erwartungswert Eigenschaften des Erwartungswertes Der Median Der Modus Aufgaben 118 119 121 124 127 127 129 131 132 132 7 Streuungsparameter 136 7.1 Empirische Streuungsparameter Problemstellung Durchschnittliche Abweichung und Standardabweichung Varianz Weitere Streuungsparameter Die theoretische Varianz Definition der Varianz Eigenschaften Die Tschebyschev-Ungleichung Aufgaben 136 136 136 139 142 144 144 146 148 151 Schiefeparameter und Datentransformation Schiefeparameter Einführendes Beispiel Schiefe theoretischer Verteilungen Theoretische Parameter Schiefe empirische Verteilungen Datentransformation Problemstellung Nichtlineare Transformation Auswahl einer Transformation zur Symmetrisierung Stabilisierung der Streuung Aufgaben 154 154 154 154 157 158 162 162 162 164 168 171 Parameter multivariater Verteilungen Empirische Verteilungen Problemstellung Die Kovarianz Der Korrelationskoeffizient von Bravais-Pearson Der Rangkorrelationskoeffizient von Spearman Der Phi-Koeffizient Theoretische Verteilungen Aufgaben 172 172 172 173 176 179 181 183 185 6.2 7.2 7.3 8 8.1 8.2 8.3 9 9.1 9.2 9.3 X Inhaltsverzeichnis 10 Diskrete Verteilungsmodelle 10.1 Die Binomialverteilung Einführendes Beispiel Herleitung der Verteilung Eigenschaften Anpassung an empirische Verteilungen Die hypergeometrische Verteilung 10.2 Die Poisson-Verteilung Problemstellung Ableitung und Eigenschaften Anpassung an empirische Verteilungen 10.3 Die geometrische Verteilung Einführendes Beispiel Ableitung und Eigenschaften 10.4 Die negative Binomialverteilung Ableitung und Eigenschaften Anpassung an empirische Verteilungen 10.5 Zur Auswahl eines diskreten Verteilungsmodells Einführendes Beispiel Das Auswahldiagramm 10.6 Aufgaben 188 189 189 190 193 194 194 196 196 197 199 200 200 201 203 203 204 207 207 207 211 11 Stetige Verteilungsmodelle 11.1 Stetige Gleichverteilung 11.2 Die Pareto-Verteilung Definition Anpassung an empirische Verteilungen 11.3 Die Exponentialverteilung Ableitung und Eigenschaften Anpassung an empirische Verteilungen 11.4 Die Gamma-Verteilung Ableitung und Eigenschaften 11.5 Aufgaben 214 214 215 215 216 218 218 221 224 224 226 12 Die Normalverteilung 12.1 Grundlagen Problemstellung Definition und Bedeutung der Parameter Eigenschaften Anpassung an empirische Verteilungen 12.2 Approximation von Verteilungen Problemstellung Der zentrale Grenzwertsatz Approximation der Binomialverteilung Approximation der Poisson-Verteilung 228 228 228 229 230 234 237 237 238 239 242 Inhaltsverzeichnis XI 12.3 Die logarithmische Normalverteilung Problemstellung Definition und Eigenschaften Anpassung an empirische Verteilungen 12.4 Die bivariate Normalverteilung Problemstellung Ableitung und Eigenschaften Anpassung an empirische Verteilungen 12.5 Aufgaben 243 243 244 244 247 247 248 251 253 13 Stichprobenfunktionen 13.1 Grundlagen Einführendes Beispiel Definition 13.2 Spezielle Stichprobenfunktionen Das arithmetische Mittel Die relative Häufigkeit Die empirische Verteilungsfunktion Monte-Carlo-Simulation 13.3 Aufgaben 257 257 257 258 260 260 262 264 265 266 14 Schätzen von Parametern 14.1 Schätzfunktionen und ihre Eigenschaften Problemstellung Schätzfunktionen Mittlerer quadratischer Fehler Erwartungstreue Konsistenz 14.2 Anwendungsorientierte Aspekte Problemstellung Robustheit Sensivitätskurve und Bruchpunkt Daten validierung mit der Sensitivitätskurve Standardfehler 14.3 Schätzmethoden Problemstellung Momentenmethode Maximum-Likelihood-Methode Bestimmung des Maximus von L(0) Mehrere Parameter 14.4 Übersicht 14.5 Aufgaben 268 268 268 270 270 273 276 277 277 278 279 280 283 286 286 286 287 291 291 293 294 15 Konlidenzintervalle 15.1 Konfidenzintervall für den Median Problemstellung Ableitung des Konfidenzintervalles Das Konfidenzintervall 297 297 297 298 299 Inhaltsverzeichnis 15.2 Allgemeine Definition eines Konfidenzintervalles 15.3 Konfidenzintervalle für den Erwartungswert Normalverteilung mit bekanntem G2 Normalverteilung mit unbekanntem o2 Approximative Konfidenzintervalle für \i 15.4 Konfidenzintervalle für Streuungsparameter Konfidenzintervall für a2 bei Normalverteilung Konfidenzintervalle für zwei Quartile 15.5 Konfidenzintervalle für Wahrscheinlichkeiten und Anteile Problemstellung Approximatives Konfidenzintervall für eine Wahrscheinlichkeit Approximatives Konfidenzintervall für einen Anteil Länge der Konfidenzintervalle für p 15.6 Aufgaben 302 303 303 304 307 309 309 311 313 313 314 315 316 318 16 Testen von Hypothesen 16.1 Reine Signifikanztests Problemstellung Tests auf der Basis von Konfidenzintervallen Tests auf der Basis von Prüfgrößen Das empirische Signifikanzniveau 16.2 Die Elemente der klassischen Testtheorie Problemstellung Formen und Hypothesen Fehlerarten Gütefunktion 16.3 Aufgaben 321 321 321 321 323 325 327 327 327 329 330 333 17 Spezielle Parametertests 17.1 Einstichprobentests Tests auf ß bei Normalverteilung Approximative Tests auf fi Test auf ß bei symmetrischen Verteilungen Test auf ß bei beliebigen Verteilungen Tests auf a2 bei Normalverteilung Test auf eine Wahrscheinlichkeit p 17.2 Parametervergleich bei unabhängigen Stichproben Testen von Lageunterschieden Vergleich von ßx und fiY bei Normalverteilung: a\ und aY bekannt . Vergleich von fix und jiY: Stichproben groß Vergleich von fix und [iY bei Normalverteilung: a\ und a\ unbekannt, Stichproben klein Vergleich von fix und ßY Vergleich zweier Streuungen Vergleich zweier Wahrscheinlichkeiten 17.3 Übersichten über die Parametertests Übersicht Einstichprobentests 335 335 335 336 337 340 342 343 343 343 344 344 346 347 349 350 352 352 Inhaltsverzeichnis XIII Übersicht Zweistichprobentests 17.4 Aufgaben 353 354 18 Varianzanalyse 18.1 Einfache Varianzanalyse Einführendes Beispiel Das Modell Der Test bei Normalverteilung Multiple Vergleiche bei Normalverteilung Ungleiche Steuerungen Nicht-normalverteilte Variablen 18.2 Zweifache Varianzanalyse Einführendes Beispiel Modell mit Wechselwirkungen Test bei Normalverteilung Eine Beobachtung pro Zelle Ungleiche Varianzen Nicht-normalverteilte Störungen 18.3 Aufgaben 358 358 358 359 360 364 366 368 371 371 371 372 376 377 380 382 19 Überprüfung der Anpassungsgüte von Verteilungen und der Unabhängigkeit 19.1 Anpassungstests Problemstellung Der Chi-Quadrat-Anpassungstest für vollständig spezifizierte Verteilungen Der Chi-Quadrat-Anpassungstest für Verteilungen mit unbekannten Parametern Das Chigramm Der Kolmogorov-Smirnov-Test Anpassungstest vom Korrelationstyp 19.2 Unabhängigkeitstests Problemstellung Der Chi-Quadrat-Test Tests auf Korrelation 19.3 Aufgaben 20 Regressionsanalyse 20.1 Die empirische Regressionsgerade Problemstellung Kriterien für die Anpassung einer Geraden Bestimmung der Regressionsgeraden Das Bestimmtheitsmaß 20.2 Das lineare Regressionsmodell Einführendes Beispiel Entwicklung des Modells 384 384 384 385 387 390 391 398 400 400 401 405 407 411 412 412 413 415 417 419 419 420 XIV Inhaltsverzeichnis 20.3 Schätzen und Testen im linearen Regressionsmodell Problemstellung Die Kleinst-Quadrate-Schätzfunktion Eigenschaften des KQ-Schätzers Konfidenzintervalle Tests 20.4 Residuenanalyse Systematische Änderung des Mittels Inhomogenität der Varianz Ausreißer Verletzung der Normalverteilungsannahme 20.5 Linearisierung eines Zusammenhanges Problemstellung Transformationen Auswahl der Transformationen 20.6 Aufgaben 422 422 423 424 426 429 431 433 435 437 440 443 443 444 444 446 Anhang Tabellen A: Binomialverteilung B: Poissonverteilung C: Normalverteilung D: t-Verteilung E: Chi-Quadrat-Verteilung F: Kritische Werte des F-Tests für a = 0.05 G: Kritische Werte der Korrelationstests H: Quantile der Wilcoxon-Vorzeichen-Rangteststatistik I: Quantile der Wilcoxon-Rangsummenstatistik 453 454 460 462 464 466 468 470 472 474 Anhang: Lösungen der Aufgaben 478 Index 514