j © 2008 AGI-Information Management Consultants May be used for personal purporses only or by libraries associated to dandelon.com network. Einführung in die Statistik Analyse und Modellierung von Daten Von Univ.-Prof. Dr. Rainer Schlittgen 10., durchgesehene Auflage R.Oldenbourg Verlag München Wien Inhaltsverzeichnis 1 1.1 1.2 1.3 1.4 2 2.1 2.2 2.3 2.4 2.5 3 3.1 Statistische Daten Erhebungen Problemstellung Begriffsbildungen Statistische Variablen Begriffsbildungen Klassifikationen Transformationen Die Datenmatrix Aufgaben 1 1 1 1 4 4 5 7 9 11 Darstellung univariater Datensätze Häufigkeitsverteilungen diskreter Variablen Problemstellung Häufigkeiten Graphische Darstellungen Häufigkeitsverteilungen stetiger Variablen Problemstellung Geordneter Datensatz Stemleaf-Diagramm Häufigkeitstabelle Das Histogramm Die empirische Verteilungsfunktion Einführendes Beispiel Empirische Verteilungsfunktion Klassierte Daten Quantile Problemstellung Bestimmung der Quantile Spezielle Quantile Quantildiagramme 5-Zahlen-Zusammenfassung Box-Plots Aufgaben 13 13 13 14 15 17 17 18 19 22 23 26 26 26 28 31 31 31 34 34 37 38 40 Darstellung multivariater Datensätze Diskrete Variablen Einführendes Beispiel Bivariate Kontingenztabellen Bedingte relative Häufigkeiten Mehrdimensionale Kontingenztabellen 44 44 44 45 46 47 ' VIII 3.2 3.3 4 4.1 4.2 4.3 4.4 5 5.1 5.2 5.3 5.4 5.5 5.6 6 6.1 Inhaltsverzeichnis Stetige Variablen Streudiagramm Konvexe Hüllen Histogramm Mehrdimensionale Daten Aufgaben 48 48 49 50 52 54 Grundlagen der Wahrscheinlichkeitsrechnung Zufallsexperimente und Ereignisse Zufallsexperimente Ereignisse Wahrscheinlichkeiten Chancen von Ereignissen Häufigkeiten von Ereignissen Statistische Wahrscheinlichkeiten Axiome von Kolmogorov Das Gleichmöglichkeitsmodell Zufallsauswahlen aus endlichen Grundgesamtheiten Bedingte Wahrscheinlichkeit und Unabhängigkeit Bedingte Wahrscheinlichkeit Unabhängigkeit Aufgaben 57 57 57 59 64 64 65 66 68 71 72 77 77 80 82 Zufallsvariablen Zufallsvariablen Definition Verteilungsfunktion Diskrete Zufallsvariablen Wahrscheinlichkeitsfunktion Bestimmung eines Verteilungsmodells Verteilungsfunktion Stetige Zufallsvariablen Dichtefunktion Verteilungsfunktion Bestimmung eines Verteilungsmodells Theoretische Quantile Definition Quantildiagramme Mehrdimensionale Zufallsvariablen Grundlagen Unabhängigkeit Aufgaben Lageparameter Empirische Lageparameter Problemstellung Erfassung des Niveaus Der Mediän 87 87 88 89 91 91 92 95 96 96 99 100 102 102 103 108 108 111 112 116 116 116 116 117 Inhaltsverzeichnis 6.2 6.3 7 7.1 7.2 7.3 8 8.1 8.2 8.3 9 9.1 9.2 9.3 IX Das arithmetische Mittel Berechnung des arithmetischen Mittels Eigenschaften des arithmetischen Mittels Weitere Lageparameter Theoretische Lageparameter Der Erwartungswert Eigenschaften des Erwartungswertes Der Mediän Der Modus Aufgaben 118 119 121 124 127 127 129 131 132 132 Streuungsparameter Empirische Streuungsparameter Problemstellung Durchschnittliche Abweichung und Standardabweichung Varianz Weitere Streuungsparameter Die theoretische Varianz Definition der Varianz Eigenschaften Die Tschebyschev-Ungleichung Aufgaben 136 136 136 136 139 142 144 144 146 148 151 Schiefeparameter und Datentransformation Schiefeparameter Einführendes Beispiel Schiefe theoretischer Verteilungen Theoretische Parameter Schiefe empirische Verteilungen Datentransformation Problemstellung Nichtlineare Transformation Auswahl einer Transformation zur Symmetrisierung Stabilisierung der Streuung Aufgaben 154 154 154 154 157 158 162 162 162 164 168 171 Parameter multivariater Verteilungen Empirische Verteilungen Problemstellung Die Kovarianz Der Korrelationskoeffizient von Bravais-Pearson Der Rangkorrelationskoeffizient von Spearman Der Phi-Koeffizient Theoretische Verteilungen Aufgaben 172 172 172 173 176 179 181 183 185 X Inhaltsverzeichnis 10 Diskrete Verteilungsmodelle 10.1 Die Binomialverteilung Einführendes Beispiel Herleitung der Verteilung Eigenschaften Anpassung an empirische Verteilungen Die hypergeometrische Verteilung Die Multinomialverteilung 10.2 Die Poisson-Verteilung Problemstellung Ableitung und Eigenschaften Anpassung an empirische Verteilungen 10.3 Die geometrische Verteilung Einführendes Beispiel Ableitung und Eigenschaften 10.4 Die negative Binomialverteilung Ableitung und Eigenschaften Anpassung an empirische Verteilungen 10.5 Zur Auswahl eines diskreten Verteilungsmodells Einführendes Beispiel Das Auswahldiagramm 10.6 Aufgaben 188 189 189 190 193 194 194 196 197 197 198 200 201 201 202 204 204 205 208 208 208 212 11 Stetige Verteilungsmodelle 11.1 Stetige Gleichverteilung 11.2 Die Pareto-Verteilung Definition Anpassung an empirische Verteilungen 11.3 Die Exponentialverteilung Ableitung und Eigenschaften Anpassung an empirische Verteilungen 11.4 Die Gamma-Verteilung Ableitung und Eigenschaften 11.5 Aufgaben 215 215 216 216 217 219 219 222 225 225 227 12 Die Normalverteilung 12.1 Grundlagen Problemstellung Definition und Bedeutung der Parameter Eigenschaften Anpassung an empirische Verteilungen 12.2 Approximation von Verteilungen Problemstellung Der zentrale Grenzwertsatz Approximation der Binomialverteilung Approximation der Poisson-Verteilung 229 229 229 230 231 235 238 238 239 240 243 Inhaltsverzeichnis XI 12.3 Die logarithmische Normalverteilung Problemstellung Definition und Eigenschaften Anpassung an empirische Verteilungen 12.4 Die bivariate Normalverteilung Problemstellung Ableitung und Eigenschaften Anpassung an empirische Verteilungen 12.5 Aufgaben 244 244 245 245 248 248 249 252 254 13 Stichprobenfunktionen 13.1 Grundlagen Einführendes Beispiel Definition 13.2 Spezielle Stichprobenfunktionen Das arithmetische Mittel Die relative Häufigkeit Die empirische Verteilungsfunktion Monte-Carlo-Simulation 13.3 Aufgaben 258 258 258 259 261 261 263 265 266 267 14 Schätzen von Parametern 14.1 Schätzfunktionen und ihre Eigenschaften Problemstellung Schätzfunktionen Mittlerer quadratischer Fehler Erwartungstreue Konsistenz 14.2 Anwendungsorientierte Aspekte Problemstellung Robustheit Sensivitätskurve und Bruchpunkt Datenvalidierung mit der Sensitivitätskurve Standardfehler 14.3 Schätzmethoden Problemstellung Momentenmethode Maximum-Likelihood-Methode Bestimmung des Maximus von L(0) Mehrere Parameter 14.4 Übersicht 14.5 Aufgaben 269 269 269 271 271 275 277 278 278 279 280 282 285 288 288 288 289 293 293 295 296 15 Konfidenzintervalle 15.1 Konfidenzintervall für den Mediän Problemstellung Ableitung des Konfidenzintervalles Das Konfidenzintervall 299 299 299 300 301 I XII Inhaltsverzeichnis 15.2 Allgemeine Definition eines Konfidenzintervalles 15.3 Konfidenzintervalle für den Erwartungswert Normalverteilung mit bekanntem a1 Normalverteilung mit unbekanntem <r2 Approximative Konfidenzintervalle für \i 15.4 Konfidenzintervalle für Streuungsparameter Konfidenzintervall für a2 bei Normalverteilung Konfidenzintervalle für zwei Quartile 15.5 Konfidenzintervalle für Wahrscheinlichkeiten und Anteile Problemstellung Approximatives Konfidenzintervall für eine Wahrscheinlichkeit Approximatives Konfidenzintervall für einen Anteil Länge der Konfidenzintervalle für p 15.6 Aufgaben 304 305 305 306 309 311 311 313 315 315 316 317 318 320 16 Testen von Hypothesen 16.1 Reine Signifikanztests Problemstellung Tests auf der Basis von Konfidenzintervallen Tests auf der Basis von Prüfgrößen Das empirische Signifikanzniveau 16.2 Die Elemente der klassischen Testtheorie Problemstellung Formen und Hypothesen Fehlerarten Gütefunktion 16.3 Aufgaben 323 323 323 323 325 327 329 329 329 331 332 335 17 Spezielle Parametertests 17.1 Einstichprobentests Tests auf fi bei Normalverteilung Approximative Tests auf /z Test auf fi bei symmetrischen Verteilungen Test auf fi bei beliebigen Verteilungen Tests auf o1 bei Normalverteilung Test auf eine Wahrscheinlichkeit p 17.2 Parametervergleich bei unabhängigen Stichproben Testen von Lageunterschieden Vergleich von nx und iiY bei Normalverteilung: ax und a\ bekannt . Vergleich von fix und fiY: Stichproben groß Vergleich von nx und fiy bei Normalverteilung: ax und a\ unbekannt, Stichproben klein Vergleich von fix und fiY Vergleich zweier Streuungen Vergleich zweier Wahrscheinlichkeiten 17.3 Übersichten über die Parametertests Übersicht Einstichprobentests 337 337 337 338 339 342 344 345 345 345 346 346 348 349 351 352 354 354 Inhaltsverzeichnis XIII Übersicht Zweistichprobentests 17.4 Aufgaben 355 356 18 Varianzanalyse 18.1 Einfache Varianzanalyse Einführendes Beispiel Das Modell Der Test bei Normalverteilung Multiple Vergleiche bei Normalverteilung Ungleiche Steuerungen Nicht-normalverteilte Variablen 18.2 Zweifache Varianzanalyse Einführendes Beispiel Modell mit Wechselwirkungen Test bei Normalverteilung Eine Beobachtung pro Zelle Ungleiche Varianzen Nicht-normalverteilte Störungen 18.3 Aufgaben 360 360 360 361 362 366 368 370 373 373 373 374 378 379 382 384 19 Überprüfung der Anpassungsgüte von Verteilungen und der Unabhängigkeit 19.1 Anpassungstests Problemstellung Der Chi-Quadrat-Anpassungstest für vollständig spezifizierte Verteilungen Der Chi-Quadrat-Anpassungstest für Verteilungen mit unbekannten Parametern Das Chigramm Der Kolmogorov-Smirnov-Test Anpassungstest vom Korrelationstyp 19.2 Unabhängigkeitstests Problemstellung Der Chi-Quadrat-Test Tests auf Korrelation 19.3 Aufgaben 389 393 394 401 403 403 404 408 410 20 Regressionsanalyse 20.1 Die empirische Regressionsgerade Problemstellung Kriterien für die Anpassung einer Geraden Bestimmung der Regressionsgeraden Das Bestimmtheitsmaß 20.2 Das lineare Regressionsmodell Einführendes Beispiel Entwicklung des Modells 414 415 415 416 418 420 422 422 423 386 386 386 387 XIV Inhaltsverzeichnis 20.3 Schätzen und Testen im linearen Regressionsmodell Problemstellung Die Kleinst-Quadrate-Schätzfunktion Eigenschaften des KQ-Schätzers Konfidenzintervalle Tests 20.4 Residuenanalyse Systematische Änderung des Mittels Inhomogenität der Varianz Ausreißer Verletzung der Normalverteilungsannahme 20.5 Linearisierung eines Zusammenhanges Problemstellung Transformationen Auswahl der Transformationen 20.6 Aufgaben 425 425 426 427 429 432 434 436 438 440 443 446 446 447 447 449 Anhang Tabellen A: Binomialverteilung B: Poissonverteilung C: Normalverteilung D: t-Verteilung E: Chi-Quadrat-Verteilung F: Kritische Werte des F-Tests für <x = 0.05 G: Kritische Werte der Korrelationstests H: Quantile der Wilcoxon-Vorzeichen-Rangteststatistik I: Quantile der Wilcoxon-Rangsummenstatistik 455 456 462 464 466 468 470 472 474 476 Anhang: Lösungen der Aufgaben 480 Index 515