Einführung in die Statistik für Wirtschafts- und Sozialwissenschaften c Lutz Dümbgen Juli 2009 Dozenten im akademischen Jahr 2009/2010: Riccardo Gatto (Herbstsemester 2009) Dirk Klingbiel (Frühjahrssemester 2010) Inhaltsverzeichnis 1 Überblick 7 I Beschreibende Statistik 9 2 Beschreibende Statistik 11 2.1 Datensätze . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11 2.1.1 Variablentypen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 12 2.1.2 Datenmatrizen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 12 2.2 Beschreibung kategorieller Merkmale . . . . . . . . . . . . . . . . . . . . . . . 12 2.3 Beschreibung numerischer Merkmale . . . . . . . . . . . . . . . . . . . . . . . 13 2.3.1 Die (empirische) Verteilungsfunktion . . . . . . . . . . . . . . . . . . . 14 2.3.2 Histogramme . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 16 2.3.3 Quantile und Quartile . . . . . . . . . . . . . . . . . . . . . . . . . . . . 20 2.3.4 Lageparameter . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 23 2.3.5 Skalenparameter . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 25 2.3.6 Lorenz-Kurve und Gini-Index . . . . . . . . . . . . . . . . . . . . . . . 30 2.3.7 Formparameter . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 33 Simultane Beschreibung zweier Merkmale . . . . . . . . . . . . . . . . . . . . . 36 2.4.1 Kontingenztafeln . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 37 2.4.2 Box–Plots und Box–Whisker–Plots . . . . . . . . . . . . . . . . . . . . 44 2.4.3 Regression und Korrelation . . . . . . . . . . . . . . . . . . . . . . . . 48 2.4 62 3 4 II 3 INHALTSVERZEICHNIS Wahrscheinlichkeitsrechnung und statistische Modelle 63 Wahrscheinlichkeitsrechnung 65 3.1 Beschreibung eines Zufallsexperiments . . . . . . . . . . . . . . . . . . . . . . 65 3.1.1 Grundraum und Ereignisse . . . . . . . . . . . . . . . . . . . . . . . . . 65 3.1.2 Wahrscheinlichkeiten . . . . . . . . . . . . . . . . . . . . . . . . . . . . 66 Wahrscheinlichkeitsverteilungen . . . . . . . . . . . . . . . . . . . . . . . . . . 68 3.2.1 Exkurs in die Kombinatorik . . . . . . . . . . . . . . . . . . . . . . . . 68 3.2.2 Laplace–Verteilungen . . . . . . . . . . . . . . . . . . . . . . . . . . . 70 3.2.3 Diskrete Verteilungen . . . . . . . . . . . . . . . . . . . . . . . . . . . . 72 3.2.4 Rechenregeln für Wahrscheinlichkeiten . . . . . . . . . . . . . . . . . . 72 3.2.5 Die Siebformel . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 74 3.2.6 Bonferroni–Ungleichungen . . . . . . . . . . . . . . . . . . . . . . . . . 77 Bedingte Wahrscheinlichkeiten . . . . . . . . . . . . . . . . . . . . . . . . . . . 77 3.3.1 Die Bayessche Formel . . . . . . . . . . . . . . . . . . . . . . . . . . . 80 Stochastische Unabhängigkeit . . . . . . . . . . . . . . . . . . . . . . . . . . . 82 3.4.1 Stochastische Unabhängigkeit zweier Ereignisse . . . . . . . . . . . . . 82 3.4.2 Stochastische Unabhängigkeit beliebig vieler Ereignisse . . . . . . . . . 83 3.5 Zufallsvariablen und deren Verteilung . . . . . . . . . . . . . . . . . . . . . . . 86 3.6 Spezielle Verteilungen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 89 3.6.1 Hypergeometrische Verteilungen . . . . . . . . . . . . . . . . . . . . . . 89 3.6.2 Binomialverteilungen . . . . . . . . . . . . . . . . . . . . . . . . . . . . 93 3.6.3 Geometrische Verteilungen . . . . . . . . . . . . . . . . . . . . . . . . . 99 3.6.4 Poissonverteilungen . . . . . . . . . . . . . . . . . . . . . . . . . . . . 102 3.2 3.3 3.4 3.7 3.8 Erwartungswerte und davon abgeleitete Kenngrößen . . . . . . . . . . . . . . . 105 3.7.1 Erwartungswerte . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 107 3.7.2 Die Markov–Ungleichung . . . . . . . . . . . . . . . . . . . . . . . . . 112 3.7.3 Varianzen und Standardabweichungen . . . . . . . . . . . . . . . . . . . 113 3.7.4 Produkte und Kovarianzen . . . . . . . . . . . . . . . . . . . . . . . . . 118 3.7.5 Allgemeine Überlegungen zum Stichprobenziehen . . . . . . . . . . . . 123 Erste Anwendungsbeispiele statistischer Modelle . . . . . . . . . . . . . . . . . 125 3.8.1 Die Bestimmung eines optimalen Preises . . . . . . . . . . . . . . . . . 126 3.8.2 Bestimmung einer optimalen Vorratsgröße. . . . . . . . . . . . . . . . . 127 INHALTSVERZEICHNIS 3.8.3 4 131 4.1 Von Histogrammen zu Wahrscheinlichkeitsdichten . . . . . . . . . . . . . . . . 131 4.2 Rechnen mit Wahrscheinlichkeitsdichten . . . . . . . . . . . . . . . . . . . . . . 135 4.4 4.5 5 Ein Beispiel einer “verzerrten Stichprobe” . . . . . . . . . . . . . . . . . 128 Dichtefunktionen und Normalverteilungen 4.3 III 5 4.2.1 Transformationen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 135 4.2.2 Erwartungswert, Varianz und Standardabweichung . . . . . . . . . . . . 136 Beispiele von Dichtefunktionen . . . . . . . . . . . . . . . . . . . . . . . . . . 138 4.3.1 Exponentialverteilungen . . . . . . . . . . . . . . . . . . . . . . . . . . 138 4.3.2 Gammaverteilungen . . . . . . . . . . . . . . . . . . . . . . . . . . . . 139 4.3.3 Einige nützliche Integrale . . . . . . . . . . . . . . . . . . . . . . . . . 140 Uniforme Verteilungen und Anwendungen . . . . . . . . . . . . . . . . . . . . . 142 4.4.1 Pseudozufallszahlen und uniforme Verteilungen . . . . . . . . . . . . . . 142 4.4.2 Simulationsmethoden . . . . . . . . . . . . . . . . . . . . . . . . . . . . 143 4.4.3 Benfords Gesetz . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 144 Normalverteilungen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 146 4.5.1 Standardnormalverteilung . . . . . . . . . . . . . . . . . . . . . . . . . 146 4.5.2 Beliebige Normalverteilungen . . . . . . . . . . . . . . . . . . . . . . . 147 4.5.3 Anwendungsbeispiele und weitere Eigenschaften . . . . . . . . . . . . . 149 4.5.4 Warum ausgerechnet die Gaußsche Glockenkurve? . . . . . . . . . . . . 152 Schließende Statistik Konfidenzbereiche 157 159 5.1 Allgemeine Beschreibung von Konfidenzbereichen . . . . . . . . . . . . . . . . 159 5.2 Konfidenzintervalle nach Wald . . . . . . . . . . . . . . . . . . . . . . . . . . . 160 5.3 5.2.1 Z–Konfidenzschranken für µ . . . . . . . . . . . . . . . . . . . . . . . . 160 5.2.2 Walds Methode allgemein . . . . . . . . . . . . . . . . . . . . . . . . . 162 Verfeinerte Konfidenzbereiche für Mittelwerte . . . . . . . . . . . . . . . . . . . 164 5.3.1 Student– und Chiquadrat–Verteilungen . . . . . . . . . . . . . . . . . . 164 5.3.2 Student–Konfidenzschranken für µ . . . . . . . . . . . . . . . . . . . . . 166 5.3.3 Schranken für σ . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 167 5.3.4 Vergleich zweier Mittelwerte . . . . . . . . . . . . . . . . . . . . . . . . 168 6 INHALTSVERZEICHNIS 5.4 5.5 6 Konfidenzbereiche für eine Wahrscheinlichkeit . . . . . . . . . . . . . . . . . . 169 5.4.1 Walds Methode . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 170 5.4.2 Wilsons Methode . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 170 Konfidenzbereiche für Quantile . . . . . . . . . . . . . . . . . . . . . . . . . . . 172 5.5.1 Punktschätzung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 173 5.5.2 Vertrauensbereiche . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 174 Tests 181 6.1 Grundideen des Testens an Hand von Fishers exaktem Test . . . . . . . . . . . . 181 6.2 Das allgemeine Prinzip statistischer Tests . . . . . . . . . . . . . . . . . . . . . 186 6.3 Der χ2 –Test für Kontingenztafeln . . . . . . . . . . . . . . . . . . . . . . . . . 187 6.4 Binomialtests . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 189 6.5 Der χ2 –Anpassungstest . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 197 6.6 Vergleiche zweier Stichproben . . . . . . . . . . . . . . . . . . . . . . . . . . . 201 6.7 6.6.1 “Verbundene Stichproben” . . . . . . . . . . . . . . . . . . . . . . . . . 201 6.6.2 “Freie/Unabhängige Stichproben” . . . . . . . . . . . . . . . . . . . . . 203 Tests auf Korrelation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 206 A Tabellen 207 Die Standardnormalverteilungsfunktion . . . . . . . . . . . . . . . . . . . . . . . . . 207 Einige Student–Quantile . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 208 Einige χ2 –Quantile . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 209 Die wichtigsten diskreten Verteilungen . . . . . . . . . . . . . . . . . . . . . . . . . . 210 Danksagung. Zahlreiche Studierende halfen mir durch Rückmeldungen. Besonders danke ich Jasmin Furrer, Matthias Kirchner, Sophia Schwindt und Simon Wandel herzlich für ihre Unterstützung und Mitarbeit. Kapitel 1 Überblick Zum Stichwort Statistik hört man oft das Zitat: “Traue keiner Statistik, die Du nicht selbst gefälscht hast!”. Aber die vielen Zahlen und Graphiken, die in Zeitungen und anderen Medien publiziert werden, sind nur ein mögliches Mittel, das die Statistik zur Auswertung empirischer Daten anbietet. Daher machen sich viele Leute ein falsches Bild von dieser Disziplin. Tatsächlich handelt es sich bei der Statistik um eine präzise Wissenschaft mit starker Anbindung an die Mathematik und Informatik; die Grenzen sind fliessend. Sie wird in verschiedenen naturwissenschaftlichen (biologischen, geographischen, ökologischen), wirtschaftlichen, medizinischen und industriellen sowie amtlichen und versicherungstechnischen Gebieten verlangt und eingesetzt. Dabei nimmt ihre Bedeutung zu, da Fortschritte in der elektronischen Datenverarbeitung die Erhebung immer umfangreicherer Datensätze ermöglichen. Der vorliegende Kurs besteht grob gesagt aus drei Teilen: • Beschreibende (Deskriptive) Statistik: Hier geht es um die quantitative Beschreibung und graphische Darstellungen von Datensätzen. • Wahrscheinlichkeitsrechnung und statistische Modelle: In diesem Teil werden die wichtigsten Grundlagen der Wahrscheinlichkeitstheorie vermittelt. Ferner werden wichtige Modelle der Statistik (sogenannte Verteilungen) eingeführt. Dies alles sind wesentliche Hilfsmittel für die schließende Statistik. • Schließende (Induktive) Statistik: Mit einer gewissen Sicherheit möchte man aus empirischen Daten Rückschlüsse ziehen, selbst wenn die Daten fehlerbehaftet oder unvollständig sind (Messfehler oder Stichprobenfehler). Das erste Semester umfasst den ersten und einen Großteil des zweiten Teils. Im zweiten Semester wird der zweite Teil abgeschlossen und darauf aufbauend der dritte Teil behandelt. 7 8 KAPITEL 1. ÜBERBLICK ' $ Beschreibende ' $ Statistik Wahrscheinlichkeits$ ' & % Schließende Rechnung & % Statistik & % Teil I Beschreibende Statistik 9 Kapitel 2 Beschreibende Statistik Die zwei Hauptaufgaben der beschreibenden Statistik sind (a) die quantitative Beschreibung und Zusammenfassung sowie (b) die graphische Darstellung von Datenmaterial. 2.1 Datensätze Ein Datensatz (Stichprobe, data set, sample) besteht aus mehreren Beobachtungen (Fällen, observations, cases). Zu jeder Beobachtung gibt es Werte von einer oder mehreren Variablen (Merkmalen, variables). Die Anzahl der Beobachtungen nennt man den Stichprobenumfang (sample size). Beispiel 2.1 (Befragung von Studierenden) In der Vorlesung “Einführung in die Statistik für Wirtschafts– und Sozialwissenschaften” (Bern, WS 2003/2004) füllten 263 Studierende einen Fragebogen aus. Jede(r) Studierende entspricht einer Beobachtung. Erhoben wurden die Werte von folgenden elf Variablen: (1) Geschlecht : w oder m (2) Alter : in Jahren (3) Geburtsmonat : eine Zahl aus {1, 2, . . . , 12} (4) Herkunft : Geburtskanton bzw. -land (5,6) Körpergröße und -gewicht : in cm bzw. kg (7) Monatsmiete : Nettomiete in CHF (8) Rauchen : nein = 0, gelegentlich = 1, regelmäßig = 2 (9) Zufallsziffer : eine in Gedanken “rein zufällig” gewählte Ziffer aus {0, 1, . . . , 9} (10) Anzahl Geschwister : eine Zahl aus {0, 1, 2, . . .} (11) Geschätzte Größe des Dozenten : in cm 11 12 KAPITEL 2. BESCHREIBENDE STATISTIK 2.1.1 Variablentypen Die Werte, welche eine bestimmte Variable annehmen kann, nennt man auch Merkmalsausprägungen. Man unterscheidet zwei bzw. drei Typen von Variablen: Kategorielle (Qualitative) Variablen: Diese können endlich viele Werte in irgendeinem Bereich annehmen. In Beispiel 2.1 sind folgende Variablen kategoriell: Geschlecht, Geburtsmonat, Herkunft, Rauchen, Zufallsziffer. Numerische (Quantitative) Variablen: Diese nehmen einen Zahlenwert mit einer objektiven Bedeutung an. In Beispiel 2.1 sind folgende Variablen numerisch: Alter, Körpergröße und -gewicht, Monatsmiete, Anzahl Geschwister, gesch. Größe des Dozenten. Die Variable Raucher ist zwar ebenfalls zahlenkodiert, aber die Ausprägungen wurden willkürlich gewählt. Ordinal(skaliert)e Variablen: Dies sind kategorielle Variablen, deren Ausprägungen in einer natürlichen Reihenfolge stehen mit einem “kleinsten” und einem “größten” Wert. In Beispiel 2.1 ist die Variable Rauchen ordinalskaliert: 0 (nein) ≤ 1 (gelegentlich) ≤ 2 (regelmäßig). Solche Variablen sind gerade in Medizin, Psychologie und Sozialwissenschaften sehr verbreitet. Man denke beispielsweise an Fragen zur Zufriedenheit mit irgendetwas, bei denen z.B. eine der folgenden Antworten anzukreuzen ist: unzufrieden, teilweise zufrieden, überwiegend zufrieden, rundum zufrieden. Auch Schul– oder Prüfungsnoten kann man als ordinale Variablen auffassen. Mitunter entstehen ordinale Variablen aus numerischen Merkmalen durch Einteilung ihres Wertebereichs in endlich viele Intervalle. 2.1.2 Datenmatrizen Datensätze werden typischerweise in Form einer Tabelle, auch Datenmatrix genannt, gespeichert. Dabei entspricht jede Zeile einer Beobachtung, und jede Spalte entspricht einer Variable. Oftmals enthält die erste Zeile die Variablenbezeichnungen. 2.2 Beschreibung kategorieller Merkmale Wir betrachten eine kategorielle Variable (X) mit Ausprägungen x1 , x2 , . . . , xL . Die Stichprobenwerte dieser Variable seien X1 , X2 , . . . , Xn ; dies sind also die Einträge einer Spalte der Datenmatrix, und n ist der Stichprobenumfang. 2.3. BESCHREIBUNG NUMERISCHER MERKMALE 13 Quantitative Auswertung. Für j = 1, 2, . . . , L bezeichnen wir mit Hj die absolute Häufigkeit des Wertes xj in der Stichprobe: Hj := # i ∈ {1, . . . , n} : Xi = xj = Anzahl aller Beobachtungen mit Wert xj . Hier und im Folgenden verwenden wir die Notation #M für die Anzahl einer Menge M . An Stelle absoluter Häufigkeiten kann man auch relative Häufigkeiten berechnen: fj := = Hj n relativer Anteil von Beobachtungen mit Wert xj . Graphische Darstellung. Die absoluten oder relativen Häufigkeiten Hj bzw. fj kann man durch ein Stabdiagramm (Balkendiagramm, bar chart) oder ein Kuchendiagramm (pie chart) graphisch darstellen. Für das Stabdiagramm werden die Ausprägungen xj horizontal aufgelistet, und vertikal zeichnet man zu jedem xj einen Stab mit Höhe Hj bzw. fj . Für das Kuchendiagramm wird eine Kreisscheibe in L Sektoren (“Kuchenstücke”) unterteilt. Jeder Sektor entspricht einer Ausprägung xj , und seine Fläche ist proportional zu Hj bzw. fj . Beispiel 2.1 (Befr. von Stud., Forts.) Die Frage nach dem Rauchen wurde von n = 261 Studierenden beantwortet. In Kategorie ‘nein’ fallen 171 Beobachtungen, Kategorie ‘gelegentlich’ enthält 47 und Kategorie ‘regelmäßig’ 43 Beobachtungen. Hieraus ergibt sich folgende Tabelle j (xj ) Hj fj 1 (nein) 171 0.655 2 (gelegentl.) 47 0.180 3 (regelm.) 43 0.165 Abbildung 2.1 zeigt das entsprechende Stab- und Kuchendiagramm (basierend auf relativen Häufigkeiten). Die Kreissektoren haben folgende Größen: f1 = 0.655·360o ≈ 236o , f2 = 0.180·360o ≈ 65o , f3 = 0.165 · 360o ≈ 59o . 2.3 Beschreibung numerischer Merkmale Nun betrachten wir eine numerische Variable (X) mit Stichprobenwerten X1 , X2 , . . . , Xn . Die Reihenfolge der Beobachtungen ist in vielen Fällen irrelevant. Dann kann man die Werte Xi sortieren, ohne wesentliche Informationen zu verlieren, und erhält die Ordnungsstatistiken X(1) ≤ X(2) ≤ · · · ≤ X(n) . Man nennt X(i) die i–te Ordnungsstatistik. Insbesondere ist X(1) das Minimum und X(n) das Maximum aller X–Werte in der Stichprobe. 14 KAPITEL 2. BESCHREIBENDE STATISTIK Abbildung 2.1: Stab- und Kuchendiagramm des Merkmals ‘Rauchen’ in Beispiel 2.1. 2.3.1 Die (empirische) Verteilungsfunktion Für eine beliebige Schranke r definieren wir F (r) := #{i : Xi ≤ r}/n = rel. Anteil von Beobachtungen mit X ≤ r. Dies liefert eine Funktion F : R → [0, 1], die sogenannte (empirische) Verteilungsfunktion. Von ihrem Graphen kann man ablesen, “wie die X–Werte in der Stichprobe verteilt sind”. Mit Hilfe der Ordnungsstatistiken X(i) kann man die Verteilungsfunktion F wie folgt beschreiben und konstruieren: Es handelt sich um eine monoton wachsende Treppenfunktion, und zwar ist 0 für r < X(1) , i/n für r ∈ [X(i) , X(i+1) ) und 1 ≤ i < n, F (r) = 1 für r ≥ X(n) . Der Wert von F nimmt also an den Stellen X(i) sprunghaft um ein Vielfaches von 1/n zu. Beispiel 2.2 Angenommen, die Stichprobe enthält n = 8 Beobachtungen mit X–Werten 180, 195, 180, 182, 169, 176, 176, 150. Die entsprechenden Ordnungsstatistiken sind 150, 169, 176, 176, 180, 180, 182, 195. Abbildung 2.2 zeigt den Graphen ihrer Verteilungsfunktion. Wie man sieht, springt der Wert von F an der Stelle ◦ X(1) = 150 von 0 auf 1/8 = 0.125, ◦ X(2) = 169 von 1/8 auf 2/8, ◦ X(3) = X(4) = 176 von 2/8 auf 4/8, 2.3. BESCHREIBUNG NUMERISCHER MERKMALE 15 ◦ X(5) = X(6) = 180 von 4/8 auf 6/8, ◦ X(7) = 182 von 6/8 auf 7/8 und ◦ X(8) = 195 von 7/8 auf 1. 1 0.9 0.8 0.7 0.6 0.5 0.4 0.3 0.2 0.1 0 150 155 160 165 170 175 180 185 190 195 Abbildung 2.2: Empirische Verteilungsfunktion für Beispiel 2.2. Allgemein kann man folgende Informationen ablesen: • F (r) ist der relative Anteil von Beobachtungen mit X ≤ r. • Der linksseitige Grenzwert F (r −) ist der relative Anteil von Beobachtungen mit X < r. • Die Sprunghöhe an der Stelle r, also die Differenz F (r) − F (r −), ist der relative Anteil von Beobachtungen mit X = r. • Für r ≤ s ist F (s) − F (r −) der relative Anteil von Beobachtungen mit r ≤ X ≤ s. Beispiel 2.1 (Befr. von Stud., Forts.) Abbildung 2.3 zeigt die empirische Verteilungsfunktion der Variable ‘Alter’ (in Jahren). Man sieht deutlich, dass der minimale Stichprobenwert X(1) = 18 ist und das Maximum bei X(263) = 42 liegt. Die Sprunghöhe der Verteilungsfunktion an den Stellen 18, 19, 20, . . . , 42 ist der relative Anteil der Hörer mit genau diesem Alter. Am stärksten vertreten sind die 20–jährigen mit einem relativen Anteil von F (20)−F (20 −) = 0.513−0.228 = 0.285. Die Abbildungen 2.4 und 2.5 zeigen die empirische Verteilungsfunktion der Variable ‘Körpergröße’ (in cm), nach Damen und Herren getrennt. Bei den Damen gab es nD = 113 Werte, bei den Herren waren es nH = 145. 16 KAPITEL 2. BESCHREIBENDE STATISTIK 1 0.9 0.8 0.7 0.6 0.5 0.4 0.3 0.2 0.1 0 20 25 30 35 40 Abbildung 2.3: Emp. Verteilungsfunktion der Variable ‘Alter’ Alle Werte der Damen liegen im Intervall [155, 185]. Es ist F (168) = 0.531 und F (168 −) = 0.416. Demnach sind weniger als 50% aller Damen (strikt) kleiner als 168 cm, und weniger als 50% sind (strikt) größer als 168 cm. Daher ist 168 der “Median” dieser Stichprobe; siehe auch den späteren Abschnitt über Quantile und andere Kenngrößen. Bei den Herren liegen alle Werte im Intervall [163, 194]. Hier ist der Median gleich 179, denn F (179) = 0.531 und F (179 −) = 0.497. Zuguterletzt zeigt Abbildung 2.6 noch die empirische Verteilungsfunktion der Variable ‘Gesch. Größe des Doz.”. Hier gaben n = 261 Studierende einen Schätzwert an. Der kleinste und größte Schätzwert war 150 bzw. 187 (cm). Bei aufmerksamer Betrachtung sieht man, dass die “glatten” Werte 165, 170, 175, 180, 185 stärker vertreten sind als ihre jeweiligen Nachbarn. Dies zeigt, dass die meisten Personen beim Schätzen zu gerundeten Werten tendieren. Der richtige Wert, 176, ist nicht besonders häufig vertreten. Unter dem Aspekt der Rundung sollten Sie noch einmal die Abbildungen 2.4 und 2.5 betrachten ... 2.3.2 Histogramme Aus dem Graphen der empirischen Verteilungsfunktion F kann man im Prinzip alle Ordnungsstatistiken X(i) rekonstruieren. Man verliert also bis auf die Reihenfolge der Beobachtungen keinerlei Information. Dies ist ein Vorteil gegenüber einer anderen, viel populäreren Art der graphischen Darstellung, den Histogrammen. Diese sind eng verwandt mit den Balkendiagrammen für katego- 2.3. BESCHREIBUNG NUMERISCHER MERKMALE 17 1 0.9 0.8 0.7 0.6 0.5 0.4 0.3 0.2 0.1 0 155 160 165 170 175 180 185 190 195 Abbildung 2.4: Emp. Verteilungsfunktion der Variable ‘Körpergröße’ unter den Damen 1 0.9 0.8 0.7 0.6 0.5 0.4 0.3 0.2 0.1 0 155 160 165 170 175 180 185 190 195 Abbildung 2.5: Emp. Verteilungsfunktion der Variable ‘Körpergröße’ unter den Herren 18 KAPITEL 2. BESCHREIBENDE STATISTIK 1 0.9 0.8 0.7 0.6 0.5 0.4 0.3 0.2 0.1 0 150 155 160 165 170 175 180 185 Abbildung 2.6: Emp. Verteilungsfunktion der Variable ‘Gsch. Größe des Doz.’ rielle Variablen. Man wählt endlich viele, nicht überlappende Intervalle I1 , I2 , . . . , IL , die alle Stichprobenwerte Xi überdecken; beispielsweise nehme man [a0 , a1 ), [a1 , a2 ), [a2 , a3 ), . . . , [aL−1 , aL ) mit a0 < a1 < a2 < · · · < aL und X(1) , X(n) ∈ [a0 , aL ). Dann berechnet man für j = 1, 2, . . . , L die absoluten Häufigkeiten Hj := #{i : Xi ∈ Ij }, also die Anzahl aller Beobachtungen mit X–Wert in Ij , sowie die relativen Häufigkeiten fj := Hj /n. Nun zeichnet man für jedes Intervall Ij ein Rechteck mit horizontaler Grundseite Ij und vertikal von Null bis zu einer bestimmten Höhe. Für diese Höhe gibt es zwei verschiedene Konventionen: Konvention 1: Die Höhe ist gleich Hj . Konvention 2: Die Höhe ist gleich fj /Länge(Ij ). Bei Konvention 2 ist die Fläche des j–ten Rechtecks proportional zum relativen Anteil aller Beobachtungen mit X ∈ Ij . 2.3. BESCHREIBUNG NUMERISCHER MERKMALE 19 Wenn alle Intervalle Ij gleich groß sind, liefern beide Konventionen das gleiche Bild bis auf einen Skalenfaktor in vertikaler Richtung. Ansonsten sollte man aber unbedingt Konvention 2 verwenden. Einerseits vermeidet man dadurch Verzerrungen durch die unterschiedlich langen Intervalle, da beim Betrachten vor allem die Flächen der Rechtecke wahrgenommen werden. Außerdem kann man mit Konvention 2 die Histogramme unterschiedlicher (Teil–) Stichproben gut vergleichen, selbst wenn unterschiedliche Intervalleinteilungen oder unterschiedliche Stichprobenumfänge vorliegen. Beispiel 2.3 Angenommen, die Stichprobe enthält n = 20 X–Werte, die in einem der folgenden fünf Intervalle liegen: [150, 160), [160, 170), [170, 175), [175, 180), [180, 190). Die entsprechenden Häufigkeiten seien H1 = 2, H2 = 5, H3 = 3, H4 = 6 und H5 = 4. Dann liefern die beiden Konventionen die in Abbildung 2.7 gezeigten Histogramme. Man erkennt (hoffentlich) die aus Konvention 1 resultierende Verzerrung. 6 0.06 5 0.05 4 0.04 3 0.03 2 0.02 1 0.01 0 150 155 160 165 170 175 180 185 190 0 150 155 160 165 170 175 180 185 190 Abbildung 2.7: Histogramme für Beispiel 2.3, links Konvention 1 und rechts Konvention 2. Histogramme liefern einen Eindruck, in welchem Bereich wieviele Werte liegen. Allerdings hängt das Bild sehr stark von der Auswahl der Intervalle Ij ab. Selbst wenn man sich auf Intervalle mit einer festen Länge festlegt, können bei Variation des Randpunktes sehr unterschiedliche Bilder entstehen. Ein weiteres Problem ist die Zuordnung der Randpunkte: Einem Histogramm sieht man nicht an, ob der Randpunkt zweier benachbarter Intervalle zum linken oder rechten Intervall gezählt wurde. Beispiel 2.1 (Befr. von Stud., Forts.) Abbildung 2.8 zeigt vier verschiedene Histogramme der Variable ‘Körpergröße’ unter den 113 Damen. In der ersten Zeile wurden Intervalle der Länge 3 (cm) verwendet, in der zweiten Intervalle der Länge 4. 20 KAPITEL 2. BESCHREIBENDE STATISTIK 0.07 0.07 0.06 0.06 0.05 0.05 0.04 0.04 0.03 0.03 0.02 0.02 0.01 0.01 0 150 155 160 165 170 175 180 185 190 0 150 0.07 0.07 0.06 0.06 0.05 0.05 0.04 0.04 0.03 0.03 0.02 0.02 0.01 0.01 0 150 155 160 165 170 175 180 185 190 0 150 155 160 165 170 175 180 185 190 155 160 165 170 175 180 185 190 Abbildung 2.8: Histogramme für die Variable ‘Körpergröße’ unter den Damen 2.3.3 Quantile und Quartile Vom Graphen der Verteilungsfunktion F kann man sogenannte Quantile ablesen. Dabei sucht man für eine vorgegebene Zahl β ∈ (0, 1) eine Schranke Qβ mit folgenden zwei Eigenschaften: • Höchstens nβ der X–Werte sind strikt kleiner als Qβ ; • mindestens nβ der X–Werte sind kleiner oder gleich Qβ . Mit Hilfe der Verteilungsfunktion F kann man auch sagen, F (Qβ −) ≤ β und F (Qβ ) ≥ β. Gleichbedeutend mit diesen Forderungen sind folgende zwei Eigenschaften: • Mindestens nβ der X–Werte sind kleiner oder gleich Qβ ; • mindestens n(1 − β) der X–Werte sind größer oder gleich Qβ . Eine Schranke Qβ mit diesen Eigenschaften heißt β–Quantil. Grob gesagt unterteilt sie den Datensatz im Verhältnis β zu 1 − β in Beobachtungen mit kleinerem bzw. größerem X–Wert. Um 2.3. BESCHREIBUNG NUMERISCHER MERKMALE 21 Qβ konkret zu bestimmen, gibt es zwei Möglichkeiten: Graphische Methode: Man betrachtet den Graphen der Verteilungsfunktion F und sucht einen Punkt Qβ , an welchem sie den Wert β annimmt bzw. überspringt. Numerische Methode: Man sortiert die X–Werte und erhält die Ordnungstatistiken X(1) ≤ X(2) ≤ · · · ≤ X(n) . Ist nβ eine ganze Zahl, dann ist jede Schranke aus [X(nβ) , X(nβ+1) ] ein β–Quantil. In diesem Fall wählen wir den Mittelpunkt dieses Intervalls, setzen also Qβ = X(nβ) + X(nβ+1) . 2 Ist aber nβ keine ganze Zahl, dann gibt es genau ein β–Quantil, nämlich Qβ = X(dnβe) . Dabei schreibt man bac und dae, wenn eine Zahl a nach unten bzw. oben gerundet wird. Es gibt noch eine allgemeine Formel, die ohne Fallunterscheidung bezüglich nβ auskommt: Qβ = X(dnβe) + X(bnβ+1c) 2 . Beispiel 2.1 (Befr. von Stud., Forts.) Wir betrachten den Datensatz der VorlesungsteilnehmerInnen und die Variable ‘Monatsmiete’ (netto, in CHF). Dabei interessiert uns nur die Teilgruppe derjenigen Studierenden, die nicht bei Angehörigen umsonst wohnen. Wir reduzieren also den Datensatz auf die n = 129 Beobachtungen mit strikt positiver Monatsmiete. Abbildung 2.9 zeigt die Verteilungsfunktion dieser 129 Werte. Wenn man genau hinschaut (bzw. bestimmte Ausschnitte stark vergößert), erkennt man den minimalen Wert X(1) = 220 und den maximalen Wert X(n) = 2000. • Als “typischen” Wert für die Monatsmiete berechnen wir das 50%–Quantil (Median) Q0.5 . Wenn man die Graphik entsprechend vergrößert, sieht man, dass F (550 −) = 0.473 < 0.5 < F (550) = 0.535. Daher ist das 50%–Quantil gleich 550. Mit der numerischen Methode kommt man (natürlich) zum gleichen Ergebnis: Hier ist nβ = 129 · 0.5 = 64.5. Somit ist Q0.5 = X(65) = 550. • Um einen Eindruck von den günstigen Mieten zu bekommen, berechnen wir das 20%–Quantil Q0.2 . Vom Graphen der Verteilungsfunktion kann man ablesen, dass F (420 −) = 0.178 < 0.2 < F (420) = 0.217. Daher ist das 20%–Quantil gleich 420. Nun die numerische Methode: Wegen nβ = 129 · 0.2 = 25.8 ist Q0.2 = X(26) = 420. • Schließlich betrachten wir noch die teuren Mieten und berechnen das 80%–Quantil Q0.8 . Wegen F (700 −) = 0.791 < 0.8 < F (700) = 0.830 ist das 80%–Quantil gleich 700. Nun die numerische Methode: Wegen nβ = 129 · 0.8 = 103.2 ist Q0.8 = X(104) = 700. Spezielle Quantile: Quartile und Median Drei spezielle Quantile sind die sogenannten Quartile: 22 KAPITEL 2. BESCHREIBENDE STATISTIK 1 0.9 0.8 0.7 0.6 0.5 0.4 0.3 0.2 0.1 0 200 400 600 800 1000 1200 1400 1600 1800 2000 Abbildung 2.9: Emp. Verteilungsfunktion der Variable ‘Monatsmiete’ • Erstes Quartil : Q0.25 • Zweites Quartil oder Median : Q0.5 • Drittes Quartil : Q0.75 Grob gesagt unterteilen die Quartile den Datensatz an Hand der Variable X in vier etwa gleich große Teile. Beispiel 2.4 Angenommen, der Stichprobenumfang ist n = 20. Dann ergeben sich die drei Quartile wie folgt: • n · 0.25 = 5, also Q0.25 = (X(5) + X(6) )/2 • n · 0.5 = 10, also Q0.5 = (X(10) + X(11) )/2 • n · 0.75 = 15, also Q0.75 = (X(15) + X(16) )/2 In allen drei Fällen ist nβ eine ganze Zahl, so dass zwei Ordnungsstatistiken gemittelt werden. Nun noch zwei andere Quantile: • n · 1/3 = 6.66, also Q1/3 = X(7) • n · 2/3 = 13.33, also Q2/3 = X(14) Quantile sind ein erstes Beispiel für Kenngrößen einer Variable. Allgemein möchte man die “Verteilung” der X–Werte in der Stichprobe mit wenigen Zahlen charakterisieren. Dabei unterscheidet man drei Arten von Parametern: • Lageparameter (location parameters, centers) • Skalenparameter (scale parameters, measures of spread) 2.3. BESCHREIBUNG NUMERISCHER MERKMALE 23 • Formparameter (shape parameters) 2.3.4 Lageparameter Ein Lageparameter (center, location parameter) ist eine Zahl, die ◦ “möglichst nah” an allen X–Werten liegt bzw. ◦ einen typischen Wert der X–Werte angibt. Hier beschreiben wir drei von vielen möglichen Kenngrößen dieser Art: Mittelwert (mean). Der gängigste Lageparameter ist das arithmetische Mittel der Zahlen Xi : n X̄ := 1X X1 + X2 + · · · + Xn = Xi . n n i=1 Median. Ein weiterer Lageparameter ist das 50%–Quantil, also X((n+1)/2) falls n ungerade Med := Q0.5 = (X(n/2) + X(n/2+1) )/2 falls n gerade Getrimmter Mittelwert (trimmed mean). Mitunter misstraut man den größten und kleinsten X–Werten in der Stichprobe. In diesem Falle fixiert man eine Zahl α ∈ (0, 1), zum Beispiel α = 10%, und berechnet den arithmetischen Mittelwert X̄α aller Ordnungsstatistiken X(i) mit nα/2 < i < n + 1 − nα/2: X̄α = n−k X 1 X(i) n − 2k mit k := bnα/2c. i=k+1 Beispielsweise ergibt sich bei n = 100 Beobachtungen und α = 0.1 der getrimmte Mittelwert 95 X̄α 1 X X(i) . = 90 i=6 Beispiel 2.1 (Befr. von Stud., Forts.) Betrachten wir noch einmal die Variable ‘Körpergröße’ (in cm) der Damen. Dann haben wir n = 113 Werte zur Verfügung. Deren Summe ist gleich 18995.5, also 18995.5 X̄ = ≈ 168.102. 113 Wie schon früher gezeigt wurde, ist der Median gleich Med = X(57) = 168. Betrachten wir stattdessen die Variable ‘Monatsmiete’ (in CHF) in der Teilstichprobe aller Studierenden, die überhaupt Miete bezahlen, dann ist die Summe aller n = 129 Werte gleich 78577.5, so dass 78577.5 X̄ = ≈ 609.128. 129 Dieser Wert ist deutlich höher als der Median, Med = X(65) = 550. Dies liegt daran, dass die X–Werte recht unsymmetrisch um den Median verteilt sind. 24 KAPITEL 2. BESCHREIBENDE STATISTIK Robustheit Der Mittelwert ist einfacher zu berechnen als der Median, da keine Sortierung der X–Werte notwendig ist. Andererseits reagiert er empfindlich auf “Ausreißer” in den Daten. Dabei verstehen wir unter “Ausreißern” Werte, die entweder falsch eingetragen wurden (z.B. durch falsches Setzen von Dezimalpunkten, unsinnige Angaben auf Fragebögen) oder tatsächlich ungewöhnlich groß oder klein sind. Ein einziger extremer Wert kann dafür sorgen, dass der Mittelwert X̄ von den meisten Werten Xi sehr weit entfernt ist. Im Gegensatz dazu ist der Median robust gegenüber Ausreißern. Dies werden wir in den Übungen noch genauer untersuchen. Dass gerade Ökonomen lieber mit Mittelwerten als mit Quantilen arbeiten, liegt vermutlich daran, dass man mit Mittelwerten leicht rechnen und sie gut extrapolieren kann. Wenn man beispielsweise schätzt, dass Studierende, die nicht bei Angehörigen wohnen, monatlich und pro Person ca. 600 CHF Miete zahlen, und wenn man davon ausgeht, dass in der Agglomeration Bern ca. 3’500 solche Personen leben, dann beträgt ihr gesamtes Mietaufkommen ca. 30 500 · 600 = 20 1000 000 CHF pro Monat. Mathematische Charakterisierung von Median und Mittelwert Wie schon gesagt, ist ein Lageparameter eine Zahl, die “möglichst nahe” an allen X–Werten liegt. Dies wollen wir nun präzisieren: Optimalität des Medians. Für eine beliebige Zahl r betrachten wir die Abstandssumme A(r) = |r − X1 | + |r − X2 | + · · · + |r − Xn | = n X |r − Xi |. i=1 Man denke beispielsweise an eine lange Straße, an welcher n Häuser an den Positionen X1 , . . . , Xn liegen. Nun möchte man einen Briefkasten an einer Stelle r anbringen, so dass die Summe aller Entfernungen von den Häusern zum Briefkasten möglichst klein wird. Die Abstandssumme A(r) ist genau dann minimal, wenn r ein Median der Zahlen X1 , . . . , Xn ist! Dies kann man wie folgt begründen: Angenommen, der Briefkasten befindet sich momentan an einer Stelle r < X(1) . Wenn man ihn um eine kleine Strecke ∆ nach rechts versetzt, sind alle Haushalte zufrieden, denn die Entfernung nimmt jeweils um ∆ ab. Mathematisch gesprochen hat die Funktion A auf dem Intervall (−∞, X(1) ] die Steigung −n. Angenommen, der Briefkasten befindet sich momentan an einer Stelle r ∈ (X(i) , X(i+1) ). Wenn man ihn nun um ein kleines Stück ∆ nach rechts verschiebt, werden sich die i Haushalte zur linken Seite beschweren, aber die n−i Haushalte zur rechten sind zufrieden(er). Auf dem Intervall [X(i) , X(i+1) ] hat die Funktion A die Steigung i − (n − i) = 2i − n. Auf dem Intervall [X(n) , ∞) hat A die Steigung n. 2.3. BESCHREIBUNG NUMERISCHER MERKMALE 25 Diese Überlegungen zeigen, dass man den Briefkasten im Falle einer geraden Zahl n irgendwo im Intervall [X(n/2) , X(n/2+1) ] platzieren sollte. Im Falle einer ungeraden Zahl n sollte er an der Stelle X((n+1)/2) stehen. Optimalität des Mittelwertes. An Stelle der Summe aller Abstände |r − Xi | betrachten wir nun die Quadratsumme 2 2 2 Q(r) := (r − X1 ) + (r − X2 ) + · · · + (r − Xn ) = n X (r − Xi )2 . i=1 Diese ist minimal genau dann, wenn r gleich dem Mittelwert X̄ ist. Denn zweimaliges Anwenden der binomischen Formel (a − b)2 = a2 − 2ab + b2 liefert: n X Q(r) = (r2 − 2rXi + Xi2 ) i=1 2 = nr − 2r n X Xi + i=1 n X Xi2 i=1 = n(r2 − 2rX̄) + n X Xi2 i=1 = n(r − X̄)2 + n X Xi2 − nX̄ 2 . i=1 Dies zeigt, dass der Graph von r 7→ Q(r) eine nach oben offene Parabel mit Scheitelpunkt an der Stelle r = X̄ ist. Beispiel 2.5 (Illustration beider Kriterien) Abbildung 2.10 zeigt die Funktion r 7→ A(r) im Falle von n = 5 und X(1) = 0.5, X(2) = 1, X(3) = 2.5, X(4) = 5, X(5) = 15. In diesem Beispiel ist X̄ = 4.8, und Abbildung 2.11 zeigt die entsprechende Funktion r 7→ Q(r). 2.3.5 Skalenparameter Ein Skalenparameter (measure of spread, variation, variability) ist eine Zahl, welche angibt, wie groß “typischerweise” die ◦ Abweichungen der X–Werte von ihrem “Zentrum” sind bzw. ◦ Abstände der X–Werte untereinander sind. Nachfolgend beschreiben wir die fünf gängigsten Skalenparameter: Spannweite (range): Die Spannweite der X–Werte in der Stichprobe ist X(n) − X(1) , also die Differenz von Maximum und Minimum der Stichprobenwerte. 26 KAPITEL 2. BESCHREIBENDE STATISTIK 60 50 A(r) 40 30 20 10 0 −2 0 2 4 6 Abbildung 2.10: r 7→ A(r) = r 8 Pn i=1 |Xi 10 12 14 16 18 − r| für Beispiel 2.5. Interquartilabstand (inter quartile range): Der Interquartilabstand ist definiert als die Differenz zwischen drittem und erstem Quartil, also IQR := Q0.75 − Q0.25 . Mit anderen Worten, es ist die Länge des Intervalls [Q0.25 , Q0.75 ], von dem wir wissen, dass es mindestens 50% aller X–Werte enthält. Standardabweichung (standard deviation): Die (Stichproben-) Standardabweichung ist definiert als v u n u 1 X S := t (Xi − X̄)2 . n−1 i=1 Diese Zahl ist ein Maß für die mittlere Abweichung der X–Werte vom Stichprobenmittelwert P X̄. Eine naheliegendere Größe wäre eigentlich n−1 ni=1 |Xi − X̄|. Warum man stattdessen die Differenzen erst quadriert, mit (n − 1)−1 an Stelle von n−1 normiert und dann die Quadratwurzel zieht, werden wir erst später erklären können. P Die Kenngröße innerhalb der Quadratwurzel, (n − 1)−1 ni=1 (Xi − X̄)2 , ist die sogenannte (Stichproben-) Varianz. Die konkrete Berechnung der Standardabweichung kann nach obiger Formel erfolgen, oder man 2.3. BESCHREIBUNG NUMERISCHER MERKMALE 27 800 700 600 Q(r) 500 400 300 200 100 0 0 2 4 6 Abbildung 2.11: r 7→ Q(r) = r Pn 8 i=1 (Xi 10 12 14 16 − r)2 für Beispiel 2.5. nutzt aus, dass n n X X (Xi − X̄)2 = (Xi2 − 2X̄Xi + X̄ 2 ) i=1 = i=1 n X Xi2 − 2X̄ i=1 = n X n X Xi + nX̄ 2 |i=1{z } = nX̄ Xi2 − nX̄ 2 . i=1 Daher ist v u u S = t n 1 X 2 Xi − nX̄ 2 . n−1 i=1 Allerdings ist diese Variante numerisch heikel! Wenn man den Mittelwert X̄ etwas rundet und dann in diese Formel einsetzt, kann sich durch das Quadrieren und Multiplizieren mit n ein deutlicher Fehler einschleichen. Ginis Skalenparameter: Dieser Skalenparameter wurde von dem italienischen Ökonometriker Corrado Gini (1884-1965) vorgeschlagen. (Bekannter ist allerdings der Gini–Index; siehe den Abschnitt über Formparameter). Es handelt sich um den arithmetischen Mittelwert der Abstände 28 KAPITEL 2. BESCHREIBENDE STATISTIK |Xi − Xj | über alle möglichen Paare von Beobachtungen: G := n−1 n 1 X X |Xi − Xj |. n 2 i=1 j=i+1 In der Doppelsumme kommen alle Paare (i, j) von Indizes mit 1 ≤ i < j ≤ n vor, und hiervon gibt es n2 = n(n − 1)/2 Stück. Diese Definition des Skalenparameters von Gini ist intuitiv einleuchtend, aber die Berchnung nach dieser Formel würde eine Summe von n(n − 1)/2 Zahlen bedeuten. Viel einfacher ist folgende Formel, bei der man die Ordnungsstatistiken, also die sortierten X–Werte, benötigt: n G = X 2 (2i − n − 1)X(i) . n(n − 1) i=1 Den Beweis dieser Formel stellen wir als Übungsaufgabe. Median der absoluten Abweichungen (median absolute deviation): Ähnlich wie bei der Standardabweichung, geht es hier um typische Abweichungen vom Zentrum, diesmal dem Median: Zunächst berechnet man den Median Med = Med(X1 , . . . , Xn ) der X–Werte, und dann den Median der Abweichungen |Xi − Med |: MAD := Med |X1 − Med |, |X2 − Med |, . . . , |Xn − Med | . Man kann also sagen, dass |Xi − Med | < MAD für höchstens 50% aller Beobachtungen und |Xi − Med | ≤ MAD für mindestens 50% aller Beobachtungen. Wenn die Abstände des Medians zu den beiden anderen Quartilen identisch sind, ist MAD = IQR/2. Denn nach Definition der Quartile ist dann |Xi − Med | ≤ IQR/2 für mindestens 50% aller Beobachtungen und |Xi − Med | < IQR/2 für höchstens 50% aller Beobachtungen. Beispiel 2.6 Angenommen, n = 8 und die Stichprobenwerte von X seien nach Sortierung gleich 0.5, 1, 2, 3, 3.5, 4.2, 7, 11. Hier ist Q0.25 = (X(2) + X(3) )/2 = 1.5, Med = (X(4) + X(5) )/2 = 3.25, Q0.75 = (X(6) + X(7) )/2 = 5.6, X̄ = (X1 + · · · + X8 )/8 = 4.025. 2.3. BESCHREIBUNG NUMERISCHER MERKMALE 29 Folglich ist Range = X(8) − X(1) = 11 − 0.5 = 10.5, IQR = Q0.75 − Q0.25 = 5.6 − 1.5 = 4.1, v u 8 u X √ t −1 7 S = (Xi − 4.025)2 = 7−1 84.535 ≈ 3.475, i=1 −1 X 7 X 8 8 G = |Xi − Xj | = 28−1 110.6 = 3.95, 2 i=1 j=i+1 MAD = Med(|X1 − 3.25|, |X2 − 3.25|, . . . , |X8 − 3.25|) = Med(2.75, 2.25, 1.25, 0.25, 0.25, 0.95, 3.75, 7.75) = Med(0.25, 0.25, 0.95, 1.25, 2.25, 2.75, 3.75, 7.75) = 1.75. Die alternativen Formeln für S und G liefern natürlich die gleichen Resultate: v u 8 X u p 7−1 (214.14 − 8 · 4.0252 ) ≈ 3.475, Xi2 − 8 · 4.0252 = S = t7−1 i=1 G = 2 8·7 8 X (2i − 9)X(i) = 28−1 110.6 = 3.95. i=1 Beispiel 2.1 (Befr. von Stud., Forts.) Betrachten wir noch einmal die Variable ‘Körpergröße’ (in cm) der Damen mit n = 113 Werten. Wir wissen bereits, dass Med = 168, X̄ ≈ 168.102. Ferner ist Q0.25 = X(29) = 164 und Q0.75 = X(85) = 172. Folglich ist Range = X(113) − X(1) = 185 − 155 = 30, IQR = Q0.75 − Q0.25 = 8, v u 113 u X t112−1 (Xi − 168.102)2 i=1 S ≈ v u 113 X u t112−1 2 − 113 · 168.1022 X i i=1 ≈ √ 112−1 · 4007.08 ≈ 5.981, 113 X 2 (2i − 114)X(i) = 6328−1 · 42881 ≈ 6.776, 113 · 112 i=1 Med(|X1 − 168|, |X2 − 168|, . . . , |X113 − 168|) MAD = = 4. hier: IQR/2, da Q0.75 − Med = Med −Q0.25 G = Betrachten wir stattdessen die Variable ‘Monatsmiete’ (in CHF) in der Teilstichprobe aller Studierenden, die überhaupt Miete bezahlen, also n = 129. Hier ist Med = 550 und X̄ ≈ 609.128. 30 KAPITEL 2. BESCHREIBENDE STATISTIK Ferner ist Q0.25 = X(33) = 440 und Q0.75 = 665. Daher ist Range = X(129) − X(1) = 2000 − 220 = 1780, IQR = Q0.75 − Q0.25 = 225, v u 129 u X √ S ≈ t128−1 (Xi − 609.128)2 ≈ 128−1 · 10702041.14 ≈ 289.153, i=1 129 G = X 2 (2i − 130)X(i) = 8256−1 · 2312830 ≈ 280.139, 129 · 128 i=1 MAD = Med(|X1 − 550|, |X2 − 550|, . . . , |X129 − 550|) = 110. Robustheit Von den fünf behandelten Skalenparametern reagieren drei empfindlich auf einzelne Ausreißer, nämlich die Spannweite, die Standardabweichung und Ginis Skalenparameter. Im Gegensatz dazu sind der Interquartilabstand und der Median der absoluten Abweichungen robust. Man kann zeigen, dass man bis zu • bn/4c − 1 der X–Werte beliebig verändern kann, ohne dass der IQR beliebig stark entartet, • bn/2c − 1 der X–Werte beliebig verändern kann, ohne dass der MAD beliebig stark entartet. 2.3.6 Lorenz-Kurve und Gini-Index Im Falle einer Variable X mit nichtnegativen Werten und X̄ > 0 möchte man vielleicht quantifizieren, wie stark die Quotienten Xi /X̄ von Eins abweichen. Hierfür gibt es im Prinzip viele Möglichkeiten; man nehme den Quotient aus irgendeinem Skalenparameter und dem Mittelwert, z.B. den “Variationskoeffizienten” S/X̄. In der Ökonometrie wurde ein anderes Maß hierfür entwickelt. Im Zusammenhang mit Einkommensverteilungen führte der amerikanische Ökonometriker Max O. Lorenz die nach ihm benannten Lorenz-Kurven ein. Dabei dachte er primär an eine Population von n Individuen mit Einkommen X1 , X2 , . . . , Xn (z.B. Jahreseinkommen). Das Gesamteinkommen der Population ist also n X Xi = nX̄. i=1 Nun sortiert man die X–Werte und erhält die Ordnungsstatistiken X(1) ≤ X(2) ≤ · · · ≤ X(n) . Dann betrachtet man für eine beliebige Zahl k ∈ {1, 2, . . . , n} das Gesamteinkommen der k ärmsten Individuen, also die Summe X(1) + X(2) + · · · + X(k) = k X X(i) . i=1 Dieses vergleicht man mit dem Gesamteinkommen der Population und bildet den Quotienten Pk i=1 X(i) . nX̄ 2.3. BESCHREIBUNG NUMERISCHER MERKMALE 31 Die Lorenzkurve ist ein Streckenzug, der die Punkte (0, 0) und k Pk X (i) , i=1 n nX̄ für k = 1, 2, . . . , n verbindet. Dabei ist k/n der relative Anteil der k ärmsten Individuen an P der Gesamtpopulation, und ki=1 X(i) /(nX̄) ist der relative Anteil ihres Gesamteinkommens am Populationseinkommen. Beispiel 2.7 Angenommen, n = 10, und die sortierten X–Werte seien 1, 1, 2, 2, 2, 3, 3, 4, 7, 9 (z.B. wöchentliches Taschengeld von 10 Schulanfängern in Euro). Das Gesamteinkommen ist nX̄ = 34, und die Lorenz-Kurve verbindet die Punkte 1 1 2 2 3 4 4 6 5 8 0, 0 , , , , , , , , , , 10 34 10 34 10 34 10 34 10 34 , 6 11 10 , 34 , 7 14 10 , 34 , 8 18 10 , 34 , 9 25 10 , 34 , 1, 1 ; siehe Abbildung 2.12. 1 0.9 0.8 0.7 0.6 0.5 0.4 0.3 0.2 0.1 0 0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1 Abbildung 2.12: Lorenzkurve für Beispiel 2.7. Ganz allgemein ist die Lorenzkurve monoton wachsend und konvex. Das heißt, von links nach rechts nehmen der Funktionswert sowie die Steigung zu. Je ungleichmäßiger die Einkommen in der Population verteilt sind, desto weiter ist die Lorenzkurve von der ersten Winkelhalbierenden entfernt. Wären alle X–Werte identisch, dann würde die Lorenzkurve der ersten Winkelhalbierenden folgen. Wären dagegen alle X–Werte bis auf einen gleich Null, so würde die Lorenzkurve fast durchgehend der horizontalen Achse folgen. Im obigen Beispiel mit n = 10 Werten sähen diese Extremfälle wie in Abbildung 2.13 aus. 32 KAPITEL 2. BESCHREIBENDE STATISTIK 1 1 0.9 0.9 0.8 0.8 0.7 0.7 0.6 0.6 0.5 0.5 0.4 0.4 0.3 0.3 0.2 0.2 0.1 0.1 0 0 0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1 0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1 Abbildung 2.13: Extremfälle für die Lorenzkurve Gini–Index. Als Maß für die ungleiche Verteilung der X–Werte verwenden Ökonometriker häufig die Zahl GI := 2 · Fläche zwischen Lorenzkurve und 1. Winkelhalbierender. Diese Zahl liegt stets zwischen Null und Eins. Diese Extremwerte entsprechen der Situation, dass X(1) = X(2) = · · · = X(n) bzw. X(1) = · · · = X(n−1) = 0, X(n) > 0 und n → ∞. Mit Hilfe der Formel für den Flächeninhalt von Trapezen und einfachen algebraischen Umformungen kann man zeigen, dass GI = n n+1 2 X i · X(i) − . 2 n n X̄ i=1 In der Literatur gibt es noch mindestens drei andere äquivalente Formeln für den Gini–Index. Beispiel 2.7 (Forts.) Hier ist n = 10 und n2 · X̄ = 340, also 2 11 1 · 1 + 2 · 1 + 3 · 2 + 4 · 2 + 5 · 2 + 6 · 3 + 7 · 3 + 8 · 4 + 9 · 7 + 10 · 9) − 340 10 ≈ 0.3765. GI = Beispiel 2.8 (Gehälter professioneller Baseballspieler) Als weiteres Beispiel betrachten wir einen Datensatz mit den Jahresgehältern von n = 263 US-amerikanischen Baseballspielern aus der Profiliga. Die Einheit ist 1000 USD. Der linke Plot in Abbildung 2.14 zeigt die entsprechende empirische Verteilungsfunktion. Minimum und Maximum der X–Werte sind X(1) = 67.5 bzw. X(n) = 2460, der Median ist Med = X(132) = 425, und der Mittelwert ist X̄ ≈ 535.926. 2.3. BESCHREIBUNG NUMERISCHER MERKMALE 33 Die entsprechende Lorenzkurve sieht man im rechten Plot von Abbildung 2.14. Die allgemeine Formel für den Gini-Index liefert hier 263 X 264 2 iX(i) − ≈ 0.435. GI ≈ 2632 · 535.926 263 i=1 Die Graphik und die Kenngröße zeigen, dass die Quotienten Xi /X̄ recht stark von Eins abweichen. 1 1 0.9 0.9 0.8 0.8 0.7 0.7 0.6 0.6 0.5 0.5 0.4 0.4 0.3 0.3 0.2 0.2 0.1 0.1 0 0 0 500 1000 1500 2000 2500 0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1 Abbildung 2.14: Empirische Verteilungsfunktion (links) und Lorenzkurve (rechts) der Gehälter in Beispiel 2.8. 2.3.7 Formparameter Nun kommen wir zur dritten Kategorie von Kenngrößen, die sich mit der “Form” der Verteilung der X–Werte befassen. Ein Aspekt der Form ist zum Beispiel die Symmetrie. Schiefe (skewness). Der Mittelwert X̄ ist der Schwerpunkt aller X–Werte in dem Sinne, dass n X (Xi − X̄) = 0. i=1 Anschaulich bedeutet dies Folgendes: Angenommen, n Personen nehmen auf einer Wippe Platz, und zwar an den Positionen X1 , . . . , Xn . Wenn der Drehpunkt mit X̄ übereinstimmt, dann befindet sich die Wippe im Gleichgewicht. Um nun zu quantifizieren, wie unsymmetrisch die Werte Xi um den Schwerpunkt X̄ herum liegen, betrachtet man die Summe n X (Xi − X̄)3 . i=1 Nun werden also die Abweichungen vom Mittelwert überproportional gewichtet. Diese Summe 34 KAPITEL 2. BESCHREIBENDE STATISTIK wird noch standardisiert, und man erhält die Schiefe := n 1 X (Xi − X̄)3 nS 3 = n 1 X Xi − X̄ 3 . n S i=1 i=1 Angenommen, die X–Werte sind in etwa symmetrisch um den Mittelwert X̄ verteilt. Anschaulich bedeutet dies, dass ein Histogramm der X–Werte in etwa symmetrisch um X̄ verläuft. In diesem Falle ist die Schiefe nahezu gleich Null. Ist die Verteilung der X–Werte rechtsschief, so ist Schiefe > 0. Dabei bedeutet rechtsschief, dass (a) mehr als 50% der Werte Xi links vom Mittelwert liegen, viele davon relativ nahe, und (b) weniger als 50% der Werte Xi rechts vom Mittelwert liegen, einige davon relativ weit entfernt. Analog ist Schiefe < 0, wenn die Verteilung der X–Werte linksschief ist. Das heißt, (a) mehr als 50% der Werte Xi liegen rechts vom Mittelwert, viele davon relativ nahe, und (b) weniger als 50% der Werte Xi links vom Mittelwert, einige davon relativ weit entfernt. Typische Verläufe von Histogrammen bei einer rechts- bzw. linksschiefen Verteilung sind in Abbildung 2.15 skizziert. Abbildung 2.15: Karikaturen von Histogrammen bei links- bzw. rechtsschiefer Verteilung. Beispiel 2.1 (Befr. von Stud., Forts.) Für die n = 113 Werte der Körpergröße der Damen hatten wir bereits Histogramme gesehen. Eine deutliche Schieflage ist nicht erkennbar. Dies wird auch durch den Zahlenwert der Schiefe bestätigt: X̄ ≈ 168.102, S ≈ 5.981, n X (Xi − X̄)3 ≈ 4966.856, i=1 also Schiefe ≈ 4966.856 ≈ 0.2054. 113 · 5.9813 Nun betrachten wir zum Vergleich die strikt positiven Monatsmieten in CHF: Hier gibt es n = 129 Werte, und das Histogramm bezüglich der Intervalle [150, 250), [250, 350), . . . , [1950, 2050) zeigt 2.3. BESCHREIBUNG NUMERISCHER MERKMALE 35 eine rechtsschiefe Verteilung der Monatsmieten; siehe Abbildung 2.16. Die Schiefe berechnet sich wie folgt: n X X̄ ≈ 609.128, S ≈ 289.153, (Xi − X̄)3 ≈ 6.481 · 109 , i=1 also Schiefe ≈ 6.481 · 109 ≈ 2.0781. 129 · 289.1533 −3 x 10 2.5 2 1.5 1 0.5 0 200 400 600 800 1000 1200 1400 1600 1800 2000 Abbildung 2.16: Histogramm der Monatsmieten in Beispiel 2.1. Kurtose (kurtosis). Der zweite und letzte hier besprochene Formparameter ist die Kurtose. Dabei handelt es sich um die Zahl Kurtose := n 1 X (Xi − X̄)4 − 3, nS 4 i=1 = n 1 X Xi − X̄ 4 − 3. n S i=1 Die Idee hinter dieser Kenngröße ist folgende: Viele numerische Merkmale ergeben bei großem Stichprobenumfang n und recht kleinen Intervallen ein Histogramm, welches einer Gaußschen Glockenkurve ähnelt. Genauer: Mit unserer zweiten Konvention für die Histogramme erinnern diese an die Funktion (x − X̄)2 1 exp − . (2.1) f (x) := √ 2S 2 2πS 2 Dabei bezeichnet exp(·) die Exponentialfunktion, (r) = er . In diesem Falle ist der Wert der Kurtose nahe an Null. Warum ausgerechnet diese, zugegebenermaßen komplizierte, Glockenkurve auftritt, werden wir in einem späteren Abschnitt noch besprechen. 36 KAPITEL 2. BESCHREIBENDE STATISTIK Beispiel 2.9 In den Abbildungen 2.17, 2.18 bzw. 2.19 zeigen wir Histogramme von drei simulierten Datensätzen, zusammen mit der entsprechenden Gaußschen Glockenkurve aus (2.1). Der Stichprobenumfang ist jeweils n = 500, und die Daten wurden so skaliert und verschoben, dass stets X̄ = 100 sowie S = 15. Die Histogramme wurden jeweils mit Intervallen der Länge 3 erzeugt. P Im ersten Beispiel ist ni=1 (Xi − X̄)4 ≈ 7.824 · 107 , also Kurtose ≈ 7.824 · 107 − 3 ≈ 0.091. 500 · 154 Dieser Wert ist (absolut) recht klein, und auch die Übereinstimmung von Histogramm und Gaußscher Glockenkurve ist recht gut im Vergleich zu den zwei späteren Beispielen: P Im zweiten Beispiel ist ni=1 (Xi − X̄)4 ≈ 4.755 · 107 , also 4.557 · 107 − 3 ≈ −1.1213. 500 · 154 Im Vergleich zur Glockenkurve fällt das Histogramm in den Randbereichen zu schnell ab: P In unserem letzten Beispiel ist ni=1 (Xi − X̄)4 ≈ 2.983 · 108 , also Kurtose ≈ 2.983 · 108 − 3 ≈ 8.784. 500 · 154 Im Vergleich zur Glockenkurve fällt das Histogramm in den Randbereichen zu langsam ab: Kurtose ≈ Abbildung 2.17: Beispiel 1 zur Kurtose. 2.4 Simultane Beschreibung zweier Merkmale Nun betrachten wir zwei Variablen, X und Y , von ein und demselben Datensatz. Mit Hilfe geeigneter Graphiken oder Kenngrößen wollen wir den augenscheinlichen Zusammenhang zwischen 2.4. SIMULTANE BESCHREIBUNG ZWEIER MERKMALE 37 Abbildung 2.18: Beispiel 2 zur Kurtose. X– und Y –Werten beschreiben. Je nach Typ von X und Y gibt es hierfür verschiedene Verfahren. 2.4.1 Kontingenztafeln Beide Variablen X und Y seien kategoriell mit Werten in {x1 , . . . , xL } bzw. {y1 , . . . , yM }. Dann kann man die n Paare (Xi , Yi ) zu einer Kontingenztafel (contingency table) zusammenfassen: y2 H1,2 H2,2 .. . ··· ··· ··· .. . x1 x2 .. . y1 H1,1 H2,1 .. . xL HL,1 HL,2 · · · yM H1,M H2,M . .. . HL,M Dabei ist Hj,k := # {i : Xi = xj und Yi = yk } = Anzahl aller Beobachtungen mit X = xj und Y = yk . Beispiel 2.1 (Befr. von Stud., Forts.) Für die Variablen X = Geschlecht und Y = Rauchen ergibt sich folgende Kontingenztafel: m w 0 100 71 1 21 26 2 24 19 Dabei wurden zwei der 263 Beobachtungen wegen fehlender Y –Werte herausgenommen. 38 KAPITEL 2. BESCHREIBENDE STATISTIK Abbildung 2.19: Beispiel 3 zur Kurtose. Oftmals ergänzt man diese Tabelle noch um die Zeilensummen Hj,+ := M X Hj,k = # {i : Xi = xj } , k=1 die Spaltensummen H+,k := L X Hj,k = # {i : Yi = yk } j=1 sowie den Stichprobenumfang n = PL j=1 Hj,+ , PM k=1 H+,k . Dies ergibt die erweiterte Kontingentafel x1 x2 .. . xL ··· ··· ··· .. . yM H1,M H2,M .. . H1,+ H2,+ .. . . HL,1 HL,2 · · · H+,1 H+,2 · · · HL,M H+,M HL,+ n y1 H1,1 H2,1 .. . y2 H1,2 H2,2 .. . Beispiel 2.1 (Befr. von Stud., Forts.) Für das obige Beispiel ist die erweiterte Tabelle gleich m w 0 100 71 171 1 21 26 47 2 24 19 43 145 116 261 2.4. SIMULTANE BESCHREIBUNG ZWEIER MERKMALE 39 Wenn man nun den augenscheinlichen Zusammenhang zwischen X– und Y –Werten verdeutlichen will, gibt es zwei Möglichkeiten: (a) Man unterteilt den Datensatz anhand der Variable X in L Teilgruppen und schaut, ob die Y – Werte in diesen Teilgruppen ähnlich oder sehr unterschiedlich verteilt sind. Mit anderen Worten, man normiert alle Zeilen der Kontingenztafel auf Summe Eins (100%). (b) Man unterteilt den Datensatz anhand der Variable Y in M Teilgruppen und schaut, ob die X– Werte in diesen Teilgruppen ähnlich oder sehr unterschiedlich verteilt sind. Mit anderen Worten, man normiert alle Spalten der Kontingenztafel auf Summe Eins (100%). Beispiel 2.1 (Befr. von Stud., Forts.) Mit der Zeilennormierung ergibt sich folgende Tabelle: m w 0 0.690 0.612 0.655 1 0.145 0.224 0.180 2 0.165 0.164 0.165 Dagegen liefert die Spaltennormierung die Tabelle m w 0 0.585 0.415 1 0.447 0.553 2 0.558 0.442 0.556 0.444 Man sieht, dass der relative Anteil der regelmäßigen RaucherInnen unter den Männern und Frauen fast identisch ist. Dagegen ist der relative Anteil von NichtraucherInnen unter den Männern höher als unter den Frauen. Bei den Frauen ist der relative Anteil von GelegenheitsraucherInnen höher als bei den Männern. Kenngröße 1: Chiquadrat–Statistik Wenn es keinerlei Zusammnhang zwischen den X– und Y –Werten gäbe, würde man damit rechnen, dass je zwei Zeilen bzw. Spalten proportional zueinander sind. Tatsächlich kann man zeigen, dass die folgenden drei Aussagen äquivalent sind: (a) Die normierten Zeilen der Kontingenztafel sind identisch. (b) Die normierten Spalten der Kontingenztafel sind identisch. (c) Für alle j ∈ {1, . . . , L} und k ∈ {1, . . . , M } ist Hj,k = Hj,+ H+,k . n Eine (und damit alle) dieser drei Bedingungen ist selten perfekt erfüllt. Aber um den Zusammenhang zwischen X– und Y –Werten zu quantifizieren, kann man messen, wie sehr sich die tatsächlichen Tabelleneinträge Hj,k von den “idealisierten Werten” H̄j,k := Hj,+ H+,k n 40 KAPITEL 2. BESCHREIBENDE STATISTIK unterscheiden. (Letztere sind im allgemeinen nicht ganzzahlig.) Je größer die Abweichungen |Hj,k − H̄j,k | sind, desto größer ist der augenscheinliche Zusammenhang zwischen X– und Y – Werten. Eine konkrete Kenngröße für diesen Unterschied ist die Chiquadrat–Statistik (χ2 –statistic) 2 χ := L X M X (Hj,k − H̄j,k )2 H̄j,k j=1 k=1 . Dass ausgerechnet diese spezielle Normierung sinnvoll ist, werden wir später im Zusammnhang P P P P mit statistischen Tests noch sehen. Aus den Gleichungen j k Hjk = j k H̄jk = n kann man eine vereinfachte Formel ableiten: χ2 := L X M 2 X Hj,k j=1 k=1 H̄j,k − n. Eine Faustregel. Es ist noch nicht klar, wie man diese Zahl χ2 nun beurteilen soll. Welche Werte sind “auffallend groß”, welche Werte sind “normal groß”. Bei keinem “echten” Zusammenhang zwischen X– und Y –Werten rechnet man mit einem Wert χ2 von der Größenordnung (L−1)(M − 1). Etwas genauer: Wenn χ2 größer ist als die Schranke (L − 1)(M − 1) + 2 p 2(L − 1)(M − 1), so kann man mit einer Sicherheit von ca. 95% davon ausgehen, dass es einen “echten” Zusammenhang gibt; siehe das Kapitel über statistische Tests. Zusammenhang und Kausalität. Kontingenztafeln und daraus abgeleitete Kenngrößen werden oft überinterpretiert. Ein großer Wert von χ2 spricht für einen Zusammenhang zwischen X– und Y –Werten, doch sagt dies nichts über Ursache und Wirkung aus! Ein Zusammenhang zwischen zwei Merkmalen heißt noch nicht, dass sich eines der beiden ursächlich auf das andere auswirkt (“correlation is not causation”). Beispiel 2.1 (Befr. von Stud., Forts.) Wir ergänzen die Kontingenztafel mit den idealisierten Werten H̄j,k (in Klammern und auf zwei Nachkommastellen gerundet): m w 0 100 (95.00) 71 (76.00) 171 1 21 (26.11) 26 (20.89) 47 2 24 (23.89) 19 (19.11) 43 145 116 261 Zum Beispiel ist H̄1,1 = 145 · 171/261 ≈ 95.00, und H̄2,3 = 116 · 43/261 ≈ 19.11. Die χ2 – 2.4. SIMULTANE BESCHREIBUNG ZWEIER MERKMALE 41 Statistik ist gleich (100 − 95.00)2 (21 − 26.11)2 (24 − 23.89)2 + + 95.00 26.11 23.89 (71 − 76.00)2 (26 − 20.89)2 (19 − 19.11)2 + + + 76.00 20.89 19.11 ≈ 2.84. χ2 = Die obige Faustregel liefert (L − 1)(M − 1) = 2, und die genauere Schranke ist gleich 2 + 2 · √ 2 · 2 = 6. Der Zusammenhang zwischen Geschlecht und Rauchverhalten scheint also nicht sehr stark zu sein. Beispiel 2.10 (Herzerkrankungen und Schnarchen) In einer medizinischen Studie über den möglichen Zusammenhang zwischen Herzerkrankungen und Schnarchen wurden n = 2484 Männer untersucht. Zum einen wurde festgestellt, ob eine Erkrankung des Herzens vorliegt oder nicht. Dies ergab eine Variable X mit möglichen Werten ‘ja’ und ‘nein’. Desweiteren wurden sie anhand von Aussagen ihrer Lebenspartnerinnen in vier Kategorien bezüglich Schnarchens unterteilt, und man erhielt eine Variable Y mit möglichen Werten ‘nie’, ‘manchmal’, ‘oft’ (mind. jede zweite Nacht) und ‘immer’ (jede Nacht). Hier ist die entsprechende Kontingenztafel: Herzkrank? ja nein nie 24 1355 1379 Schnarchen? manchm. oft 35 21 603 192 638 213 immer 30 224 254 110 2374 2484 Die Gruppe der Herzkranken ist wesentlich kleiner als die Gruppe der Gesunden, und die Gruppe der Nichtschnarchenden ist deutlich größer als die Gruppe der Schnarchenden. Daher sieht man dieser Tabelle nicht auf Anhieb einen augenscheinlichen Unterschied zwischen X– und Y –Werten an. Also betrachten wir die Zeilennormierung auf drei Nachkommastellen: ja nein nie 0.218 0.571 0.555 manchm. 0.318 0.254 0.257 oft 0.191 0.081 0.086 immer 0.273 0.094 0.102 Jetzt wird deutlich, dass der relative Anteil von Schnarchenden bei den Herzkranken deutlich höher ist als bei den Gesunden. Auch bei der Spaltennormierung wird dies deutlich: ja nein nie 0.017 0.983 manchm. 0.055 0.945 oft 0.099 0.901 immer 0.118 0.882 0.044 0.956 Mit der ordinalen Variable Y wächst der relative Anteil von Herzkranken an. Nun die Berechnung der χ2 –Statistik: Die um die idealisierten Werte H̄j,k ergänzte Kontingenztafel ist 42 KAPITEL 2. BESCHREIBENDE STATISTIK ja nein nie 24 (61.07) 1355 (1317.93) 1379 manchm. 35 (28.25) 603 (609.75) 638 oft 21 (9.43) 192 (203.57) 213 immer 30 (11.25) 224 (242.75) 254 110 2374 2484 Dies ergibt den Wert (24 − 61.07)2 (35 − 28.25)2 (224 − 242.75)2 + + ··· + ≈ 72.78. 61.07 28.25 242.75 √ Vergleicht man dies mit (L − 1)(M − 1) = 3 bzw. 3 + 2 2 · 3 ≈ 7.899, so scheint ein echter Zusammenhang zwischen Schnarchen und Herzerkrankungen vorzuliegen. Dies sagt noch nichts über mögliche Ursachen aus. Denkbar wäre beispielsweise, dass (i) Schnarchen zu Herzerkrankungen führt, (ii) Herzerkrankungen das Schnarchen mitverursachen oder (iii) sowohl Schnarchen als auch Herzerkrankungen von gemeinsamen genetischen Faktoren beinflusst werden. Die χ2 – Testgröße beurteilt auch nicht die Richtung des Zusammenhangs! χ2 = Kenngröße 2: Chancenquotient Wenn beide Merkmale nur zwei mögliche Ausprägungen haben (binäre oder dichotome Merkmale), also L = M = 2, so ergibt sich eine Vierfeldertafel H1,1 H1,2 . H2,1 H2,2 Hier kann man die Zahlenverhältnisse innerhalb der Zeilen (oder Spalten) berechnen und miteinander vergleichen. Eine entsprechende Kenngröße ist der Chancenquotient (Kreuzproduktverhältnis, odds ratio) H1,1 /H1,2 , H2,1 /H2,2 H1,1 H2,2 OR := = H1,2 H2,1 H1,1 /H2,1 . H1,2 /H2,2 Die Namen “Chancenquotient” und “odds ratio” versteht man am besten an Hand eines Beispiels. Beispiel 2.11 (ManagerInnen) Im Rahmen einer Fortbildungsveranstaltung nahmen 48 angehende ManagerInnen an einem Experiment teil, ohne dies zu wissen. Jede(r) von ihnen erhielt eine (fiktive) Personalakte und sollte entscheiden, ob die betreffende Person befördert wird oder nicht. Die 48 Personalakten waren identisch bis auf den Namen der Person und wurden rein zufällig verteilt. In 24 Fällen handelte es sich um die Akte eines Herrn, in 24 Fällen um die einer Dame. Dieses Experiment lieferte einen Datensatz mit n = 48 Beobachtungen (ManagerInnen) und den Variablen X ∈ {m, w} (Geschlecht der beurteilten Person) sowie Y ∈ {ja, nein} (Entscheidung über Beförderung). Die entsprechende Vierfeldertafel war: 2.4. SIMULTANE BESCHREIBUNG ZWEIER MERKMALE m w ja 21 14 35 nein 3 10 13 43 24 24 48 Interpretieren wir die Tabelle zeilenweise: Die Chancen einer Beförderung sind für die 24 (fiktiven) Herren gleich 21/3 = 7; für die 24 Damen sind sie gleich 14/10 = 1.4. Die Chancen für Herren sind also um den Faktor 7/1.4 = 5 höher als diejenigen für Damen. Nun die spaltenweise Betrachtung: Die Chancen unter den 35 Beförderten einen Mann anzutreffen sind gleich 21/14 = 1.5; bei den 13 Nichtbeförderten sind diese Chancen gleich 3/10 = 0.3. Der Quotient dieser Chancen beträgt 1.5/0.3 = 5. Kurzum: OR = 21 · 10 = 5. 14 · 3 Inwieweit diese Daten eine Benachteiligung von Frauen belegen, werden wir später noch diskutieren. Beispiel 2.12 Ein neues Medikament zur Heilung oder Linderung eines bestimmten Hautausschlags sollte in einer klinischen Studie getestet werden. Hierzu wurden dreißig Probanden mit dem besagten Hautausschlag rein zufällig in zwei Gruppen aufgeteilt: Einer Gruppe von 15 Probanden wurde das neue Medikament verabreicht, die übrigen 15 Personen erhielten ein Placebo. Die Behandlungsergebnisse waren wie folgt: Medikament Placebo Besserung 12 5 17 keine Bess. 3 10 13 15 15 30 Die Chancen einer Heilung/Linderung mit Medikament sind schätzungsweise gleich 12/3 = 4, die Chancen für eine spontane Besserung sind schätzungsweise gleich 5/10 = 0.5. Der Chancenquotient ist also gleich 4/0.5 = 8 = 12 · 10/(5 · 3). Noch etwas zur Allgemeinbildung: Man spricht hier von einer randomisierten Studie, da die Gruppeneinteilung, d.h. Medikament oder Placebo, zufällig erfolgte. (Auch das Experiment in Beispiel 2.11 war eine randomisierte Studie.) Außerdem war den Patienten während der Studie nicht bekannt, ob sie Medikament oder Placebo zu sich nahmen. In diesem Falle spricht man von einer Blindstudie. Wenn sogar die behandelnden Ärzte während der Studie die Gruppenzugehörigkeiten der Probanden nicht kennen, spricht man von einer Doppelblindstudie. Das Simpson-Paradoxon Auf die mögliche Fehlinterpretation von Kontingenztafeln haben wir bereits hingewiesen. Insbesondere kann es bei der Zusammenfassung mehrerer Kontingenztafeln zu einer Gesamttafel zu Fehlschlüssen kommen. Dies illustrieren wir an einem Beispiel. 44 KAPITEL 2. BESCHREIBENDE STATISTIK Beispiel 2.13 In den sechziger Jahren wurden Daten über Bewerbungen um einen Studienplatz an der University of California in Berkeley erhoben. Insbesondere interessierte man sich für die Gesamtzahlen und Zulassungsquoten der Bewerberinnen und Bewerber. Von den insgesamt 8442 Bewerbern wurden in etwa 44 % zugelassen, von den 4321 Bewerberinnen dagegen nur 35 %. Für die Zulassung zum Studium bei Männern im Vergleich zu Frauen ergibt sich also der Chancenquotient OR ≈ 1.46, was eine Benachteiligung von Frauen suggeriert. Als man diese Daten einzelnen Departments vorlegte, wiesen sie fast ausnahmslos den Vorwurf der Benachteiligung von sich. Hier sieht man die entsprechenden Zahlen für die sechs größten Fachbereiche, die durch Buchstaben kodiert wurden: Dept. A B C D E F Männer Anzahl Zul.quote 825 0.621 560 0.630 325 0.369 417 0.331 191 0.277 373 0.059 Frauen Anzahl Zul.quote 108 0.824 25 0.680 593 0.341 375 0.349 393 0.239 341 0.070 OR 0.350 0.801 1.130 0.923 1.220 0.833 Kein einziger Chancenquotient der einzelnen Fachbereiche ist größer als 1.3; vier von sechs Quotienten sind sogar kleiner als Eins! Man sieht jedoch, dass die Zulassungsquoten in den einzelnen Fachbereichen unterschiedlich hoch sind. Die Frauen tendierten eher zu den Fächern C–F mit relativ niedrigen Zulassungsquoten. In den Fächern A–B mit hohen Zulassungsquoten wurden sogar die Männer etwas benachteiligt, doch bewarben sich dort relativ wenige Frauen. Das Simpson–Paradoxon tritt auf, wenn man mehrere Vierfeldertafeln zu einer Gesamttafel zusammenfasst und folgendes passiert: Alle oder zumindest die meisten Einzeltafeln ergeben einen Chancenquotienten kleiner (größer) als Eins, doch der Chancenquotient für die Gesamttafel ist größer (kleiner) als Eins. In den Übungen werden wir ein weiteres Zahlenbeispiel konstruieren. Beispiel 2.13 zeigt auch den Unterschied zwischen Zusammenhang und Kausalität. Zwischen den Variablen ‘Geschlecht’ und ‘Zulassung’ gibt es einen deutlichen Zusammenhang. Dieser beruht aber vermutlich auf dem Zusammenhang beider Variablen mit einer weiteren Variable, nämlich der gewählten Studienrichtung. 2.4.2 Box–Plots und Box–Whisker–Plots Die Variable X sei kategoriell mit Werten in {x1 , x2 , . . . , xL }, und Y sei ein numerisches Merkmal. Nun unterteilen wir den Datensatz an Hand von X in L Teilgruppen und möchten die Verteilung der Y –Werte in diesen Teilgruppen graphisch darstellen, so dass mögliche Unterschiede je nach X–Wert deutlich werden. Im Prinzip könnte man für jede der L Teilgruppen eine empirische Verteilungsfunktion oder ein Histogramm der Y –Werte zeichnen. Allerdings wird dies bei größeren Zahlen L schnell unübersichtlich. Als Alternative erfand John W. Tukey die sogenannten Box–Plots und Box–Whisker– Plots. 2.4. SIMULTANE BESCHREIBUNG ZWEIER MERKMALE 45 Konstruktion eines Box–Plots Wir betrachten eine einzelne Teilgruppe. Für diese berechnen wir folgende fünf Kenngrößen der Y –Werte: Minimum, erstes Quartil, Median, drittes Quartil, Maximum. Diese fünf Werte werden nun graphisch dargestellt: Die vertikale Achse entspicht den möglichen Y –Werten. Nun zeichnet man ein Rechteck mit unterer Kante in Höhe des ersten Quartils und oberer Kante in Höhe des dritten Quartils. In Höhe des Medians wird das Rechteck zusätzlich durch eine horizontale Linie unterteilt. Zusätzlich zeichnet man eine einfache Linie von der Mitte der unteren Kante bis zum Minimum und eine Linie von der Mitte der oberen Kante bis zum Maximum. Minimum und Maximum werden oftmals durch einen kleinen Querbalken zusätzlich hervorgehoben. Beispiel 2.14 Angenommen, die sortierten Y –Werte der Teilgruppe sind 0, 1, 5, 6, 7, 7, 8, 9, 14, 18. Dann ist Minimum = 0, Q0.25 = 5, Median = 7, Q0.75 = 9, Maximum = 18. Den entsprechenden Box-Plot sieht man auf der linken Seite von Abbildung 2.20. Konstruktion eines Box–Whisker–Plots Ein möglicher Schwachpunkt des Box–Plots ist die fehlende Detailinformation für den Bereich zwischen Minimum und erstem Quartil bzw. drittem Quartil und Maximum. Um diesen Bereich präziser darzustellen, definiert man einen Y –Wert als ◦ “extrem klein”, falls Y < 1. Quartil − 1.5 · IQR, ◦ “extrem groß”, falls Y > h3. Quartil + 1.5 · IQR, i ◦ “nichtextrem”, falls Y ∈ 1. Quartil − 1.5 · IQR, 3. Quartil + 1.5 · IQR . Die einfache Linie des Box–Plots vom Minimum zum ersten Quartil wird nun durch eine einfache Linie vom kleinsten nichtextremen Stichprobenwert zum ersten Quartil ersetzt. Analog ersetzt man die einfache Linie vom dritten Quartil zum Maximum durch eine Linie vom dritten Quartil zum größten nichtextremen Wert. Falls es extrem kleine oder extrem große Werte gibt, werden diese durch Punkte, Kreise oder Sterne einzeln markiert. Beispiel 2.14 (Forts.) Der Interquartilabstand ist hier IQR = 9 − 5 = 4. Ein Y –Wert gilt also als extrem klein, wenn er kleiner ist als 5 − 1.5 · 4 = −1, und als extrem groß, wenn er größer ist als 9 + 1.5 · 4 = 15. In der Stichprobe ist der kleinste nichtextreme Werte gleich 0, und der größte nichtextreme Wert ist 14. Es gibt genau einen extremen Wert, nämlich 18. Daher sieht der Box–Whisker–Plot wie auf der rechten Seite von Abbildung 2.20 aus. 46 KAPITEL 2. BESCHREIBENDE STATISTIK 16 16 14 14 12 12 10 10 Y 18 Y 18 8 8 6 6 4 4 2 2 0 0 Abbildung 2.20: Box-Plot (links) und Box-Whiskers-Plot (rechts) für Beispiel 2.14. Anmerkungen. Die Grenzen Q0.25 − 1.5 · IQR und Q0.75 + 1.5 · IQR selbst werden nicht eingezeichnet. Sie dienen nur der Festlegung, welche Y –Werte extrem sind und welche nicht. Bei kleinen Stichproben oder vielen identischen Y –Werten kann der Box– (Whisker–) Plot auch entarten in dem Sinne, dass z.B. einfache Linien fehlen oder die Median–Linie mit einer der Rechteckkanten zusammenfällt. Nun zeigen wir multiple Box–Whiskers–Plots für zwei umfangreichere Datenbeispiele: Beispiel 2.8 (Baseballspieler, Forts.) Zusätzlich zur Variable Y = Jahresgehalt (in 1000 USD) enthält dieser Datensatz die Variable X = Jahre. Letztere gibt an, wieviele Jahre der betreffende Spieler bereits in der Profiliga spielt (einschließlich des laufenden Jahres). Hier behandeln wir X als kategorielle (ordinale) Variable. Der Box–Whiskers–Plot von Y in Abhängigkeit von X wird in Abbildung 2.21 gezeigt. Man sieht deutlich, dass die Gehälter innerhalb der ersten drei bis vier Jahre deutlich ansteigen. Danach ist kein deutlicher Abwärts- oder Aufwärtstrend erkennbar. Bemerkenswert sind auch die extrem großen Werte in den verschiedenen Teilgruppen. Einige wenige sehr junge Spieler verdienen von Anfang an mehr als so mancher “alte Hase”. Insgesamt sind nur 25 X–Werte größer als 14. Die Größe der Teildatensätze sieht man dem Box– Whisker–Plot nicht an; nur die entarteten Plots am rechten Rand lassen vermuten, dass die entsprechenden Teilgruppen recht klein sind. Um die Lesbarkeit zu erhöhen, kann man die Beobachtungen mit X–Wert größer als 14 zu einer Teilgruppe zusammenfassen. Dann ergibt sich der Box–Whiskers–Plot in Abbildung 2.22. Beispiel 2.15 (Hamburg-Marathon 2000) Nun betrachten wir die Netto-Laufzeiten (Y , in Stunden) der n = 13049 Teilnehmer des Hamburg–Marathons 2000, welche das Ziel erreichten. (Gemeldet waren ca. 16000 Personen). Zunächst zeigen wir die empirische Verteilungsfunktion dieser Variable Y in Abbildung 2.23. Der schnellste Läufer erreichte das Ziel nach 2 Stunden, 11 Minuten und 6 Sekunden; der langsamste Läufer kam nach 5 Stunden, 32 Minuten und 21 Sekunden an. 2.4. SIMULTANE BESCHREIBUNG ZWEIER MERKMALE 47 2500 2000 Salary 1500 1000 500 0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 24 Years Abbildung 2.21: Box-Whiskers-Plot für die Gehälter (Y ) in Abhängigkeit von der Berufserfahrung (X), Beispiel 2.8. Der Median der Laufzeit liegt bei Y(6525) , und das sind 3 Stunden, 52 Minuten und 10 Sekunden. Aus Sicht von Veranstaltern solcher Volksläufe ist diese Verteilungsfunktion sehr interessant. Von ihrem stärksten Anstieg hängt beispielsweise ab, wie groß im Zielbereich die Verpflegungsstände, Duschräume und Umkleidekabinen ausgelegt werden müssen. Noch ein interessantes Phänomen ist der leichte Knick der Verteilungsfunktion an den Stellen 3, 3.5 und 4. Dies hat vermutlich damit zu tun, dass einige LäuferInnen sich vornehmen, unter drei, dreieinhalb bzw. vier Stunden zu laufen. Nun wollen wir aber die Abhängigkeit der Laufzeit vom Alter und getrennt nach Geschlecht der TeilnehmerInnen untersuchen. Der Datensatz enthält die Variable “Altersklasse’. Bei den nM = 11203 Männern nimmt diese Variable folgende Werte an: ◦ MJ : Teilnehmer wurde oder wird im laufenden Jahr 18 oder 19 Jahre alt, ◦ MH : Teilnehmer wurde oder wird im laufenden Jahr 20 – 29 Jahre alt, ◦ M30 : Teilnehmer wurde oder wird im laufenden Jahr 30 – 34 Jahre alt, ◦ M35 : Teilnehmer wurde oder wird im laufenden Jahr 35 – 39 Jahre alt, .. . ◦ M75 : Teilnehmer wurde oder wird im laufenden Jahr 75 – 79 Jahre alt. (Der älteste Teilnehmer gehörte dem Jahrgang 1923 an.) Der entsprechende Box–Whiskers–Plot für die Laufzeiten der Männer in Abhängigkeit von ihrer Altersklasse wird in Abbildung 2.24 gezeigt. Interessanterweise steigt der Median der Laufzeit mit dem Alter nicht monoton an. Vielmehr ist er in der Gruppe der jungen Läufer (MJ) höher 48 KAPITEL 2. BESCHREIBENDE STATISTIK 2500 2000 Salary 1500 1000 500 0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 > 14 Years Abbildung 2.22: Box-Whiskers-Plot wie in Abb. 2.21, nach Zusammenfassung einiger Ausprägungen von X. als in Gruppe MH, und dort höher als in den Gruppen M30, M35, M40, M45, wo er nahezu konstant bleibt. Erst ab Gruppe M50 aufwärts steigt der Median mit dem Alter merklich an. Dieses Phänomen ist aus der Sportmedizin bestens bekannt. Selbst professionellen Langstreckenläufern erreichen ihren Leistungspeak in der Regel im Alter von 25–35 Jahren. Abbildung 2.25 zeigt den analogen Plot für die Laufzeiten der nD = 1846 Damen. Hier gab es die Altersklassen WJ, WH, W30, . . . , W65. (Die älteste Teilnehmerin gehörte dem Jahrgang 1931 an.) Auch hier sieht man den nahezu konstanten Median in den Altersklassen W30, W35, W40. Ab der Klasse W45 steigt er an, etwas früher und deutlicher als bei den Männern. 2.4.3 Regression und Korrelation Nun behandeln wir den verbleibenden Fall zweier numerischer Merkmale X und Y . Das Streudiagramm (scatter plot) liefert einen visuellen Eindruck von der gemeinsamen Verteilung der X– und Y –Werte in der Stichprobe. Jedes Datenpaar (Xi , Yi ) wird als Punkt in einem zweidimensionalen Koordinatensystem eingezeichnet. Beispiel 2.16 Abbildung 2.26 zeigt Streudiagramme von vier verschiedenen Datensätzen. Im linken oberen Diagramm erkennt man einen deutlichen linearen Zusammenhang zwischen X– und Y –Werten mit positiver Korrelation. Das heißt, die Punktepaare liegen in etwa auf einer Geraden mit positiver Steigung. Im rechten oberen Diagramm sieht man ebenfalls einen linearen Zusammenhang, allerdings etwas schwächer und mit negativer Korrelation. Im linken unteren Diagramm 2.4. SIMULTANE BESCHREIBUNG ZWEIER MERKMALE 49 1 0.9 0.8 0.7 0.6 0.5 0.4 0.3 0.2 0.1 0 2 2.5 3 3.5 4 Laufzeit 4.5 5 5.5 Abbildung 2.23: Verteilungsfunktion der Netto-Laufzeiten des Hamburg-Marathons 2000. erkennt man keinerlei Zusammenhang zwischen beiden Variablen, und das rechte untere Diagramm zeigt einen deutlichen nichtlinearen Zusammenhang. Nun wollen wir solche vagen Beurteilungen von Streudiagrammen präzisieren. Unter einem “Zusammenhang” zwischen X– und Y –Werten verstehen wir, dass man entweder die Y –Werte durch eine “einfache” Funktion der X–Werte approximieren kann, oder umgekehrt. Der Begriff Regression bedeutet allgemein, dass man versucht, eine Variable (Y ) durch eine Funktion von einer oder mehreren anderen Variablen (X) zu approximieren. In diesem Kontext ist dann die Korrelation eine Kenngröße, die quantifiziert, wie gut diese Approximation funktioniert. Lineare Regression Wir möchten quantifizieren, inwiefern ein linearer Zusammenhang zwischen X– und Y –Werten besteht. Dazu versuchen wir zunächst, die Y –Werte möglichst gut durch eine lineare Funktion der X–Werte zu approximieren. Genauer gesagt, suchen wir zwei Zahlen a und b, so dass die Werte Yi möglichst gut mit den Werten f (Xi ) = a + bXi übereinstimmen in dem Sinne, dass die Quadratsumme n X Q(a, b) := (Yi − (a + bXi ))2 i=1 möglichst klein wird. (Ebenso könnte man versuchen die X–Werte durch eine lineare Funktion der Y –Werte zu approximieren.) Eine Funktion f der Form f (x) = a + bx nennt man eine lineare Funktion. Sie beschreibt eine Gerade mit y–Achsenabschnitt a = f (0) und Steigung b. 50 KAPITEL 2. BESCHREIBENDE STATISTIK 5.5 5 4.5 4 3.5 3 2.5 2 MJ MH M30 M35 M40 M45 M50 M55 M60 M65 M70 M75 Abbildung 2.24: Box-Whiskers-Plot der Netto-Laufzeiten der Männer in Abhängigkeit von ihrer Altersklasse. Beispiel 2.17 Gegeben sei ein Datensatz mit folgenden n = 10 Beobachtungen: i Xi Yi 1 186.5 75.1 2 182.0 72.2 3 182.0 74.3 4 171.5 63.6 5 181.0 69.7 6 183.5 76.1 7 177.0 69.3 8 175.0 66.5 9 179.0 70.5 10 174.5 64.6 Der linke Teil von Abbildung 2.27 zeigt diese zehn Datenpaare (Xi , Yi ), eine Gerade mit Achsenabschnitt a = −20 und Steigung b = 0.5 sowie die Differenzen Yi − (a + bXi ). (Die Geradenparameter a und b wurden willkürlich gewählt.) Nun leiten wir optimale Parameter a und b in zwei Schritten her. Schritt 1: Bei festem b und als Funktion von a wird Q(a, b) = n X ((Yi − bXi ) − a)2 i=1 genau dann minimal, wenn a das arithmetische Mittel der Zahlen Yi − bXi ist. Dies ergibt sich aus unserer Herleitung des Stichprobenmittelwertes, wenn man dort Xi durch Yi − bXi und r durch a ersetzt. Also sollte a gleich n 1X (Yi − bXi ) = Ȳ − bX̄ n i=1 sein. Für die lineare Funktion f bedeutet dies: f (x) = Ȳ − bX̄ + bx = Ȳ + b(x − X̄) . 2.4. SIMULTANE BESCHREIBUNG ZWEIER MERKMALE 51 5.5 5 4.5 4 3.5 3 2.5 WJ WH W30 W35 W40 W45 W50 W55 W60 W65 Abbildung 2.25: Box-Whiskers-Plot der Netto-Laufzeiten der Frauen in Abhängigkeit von ihrer Altersklasse. Insbesondere ist f (X̄) = Ȳ . Die gesuchte Gerade verläuft also durch den “Schwerpunkt” (X̄, Ȳ ) der Datenpaare (Xi , Yi ), und nur noch der Steigungsparameter b ist zu bestimmen. Schritt 2: Mit dem obigen Wert Ȳ − bX̄ für a ergibt sich die Quadratsumme Q(b) := Q(Ȳ − bX̄, b) = n X ((Yi − Ȳ ) − b(Xi − X̄))2 . i=1 Bevor wir dies ausmultiplizieren und weiterrechnen, bietet es sich an, die folgenden Hilfsgrößen einzuführen: QSXX := n X (Xi − X̄)2 , i=1 QSY Y QSXY := := n X i=1 n X (Yi − Ȳ )2 , (Xi − X̄)(Yi − Ȳ ). i=1 Dann ist Q(b) = QSY Y −2b QSXY +b2 QSXX QSXY = QSY Y + QSXX b2 − 2b QSXX 2 QS QSXY 2 = QSY Y − XY + QSXX b − . QSXX QSXX Da die Quadratsumme QSXX strikt positiv ist (es sei denn, alle X–Werte sind identisch), wird Q(b) als Funktion von b genau dann minimal, wenn b gleich QSXY / QSXX ist. Yi KAPITEL 2. BESCHREIBENDE STATISTIK Yi 52 Yi Xi Yi Xi Xi Xi Abbildung 2.26: Beispiele von Streudiagrammen. Zusammenfassung: Die Quadratsumme b gleich Pn 2 i=1 (Yi −(a+bXi )) wird minimal genau dann, wenn bb := QSXY QSXX ist, und wenn a gleich b a := Ȳ − bbX̄ ist. Die entsprechende Regressionsgerade besteht aus allen Zahlenpaaren (x, y) mit y = b a + bbx = Ȳ + bb(x − X̄) und verläuft durch den Schwerpunkt (X̄, Ȳ ) der Beobachtungen (Xi , Yi ). Alternative Formeln. Für die Quadratsummen QSXX , QSY Y , QSXY ergeben sich durch Ausmultiplizieren und Zusammenfassen noch folgende Formeln: QSXX = n X Xi2 − nX̄ 2 , i=1 QSY Y = n X Yi2 − nȲ 2 , i=1 QSXY = n X i=1 Xi Yi − nX̄ Ȳ . 2.4. SIMULTANE BESCHREIBUNG ZWEIER MERKMALE 53 Allerdings sind diese Formeln wegen möglicher Rundungsfehler in den Mittelwerten X̄ und Ȳ mit Vorsicht zu genießen. P10 P Beispiel 2.17 (Forts.) Hier ist 10 i=1 Yi = 701.9, also X̄ = 179.2 und i=1 Xi = 1792 und P10 P10 2 P 2 Ȳ = 70.19. Ferner ist i=1 Xi = 321321, i=1 Yi = 49435.75 und 10 i=1 Xi Yi = 125952.4, also QSXX = 321321 − 10 · 179.22 = 194.6, QSY Y = 49435.75 − 10 · 70.192 = 169.389, QSXY = 125952.4 − 10 · 179.2 · 70.19 = 171.920. (Die Größe QSY Y werden wir später noch brauchen.) Mit diesen Hilfsgrößen ergibt sich bb ≈ 171.920/194.6 ≈ 0.883, b a ≈ 70.19 − 0.883 · 179.2 ≈ −88.125. Der rechte Teil von Abbildung 2.27 zeigt noch einmal die zehn Beobachtungen (Xi , Yi ), ihren Schwerpunkt (X̄, Ȳ ) sowie die entsprechende Regressionsgerade. Abbildung 2.27: Beispiel zur linearen Regression. Bestimmtheitsmaß und Korrelation Gesucht ist nun eine Kenngröße, die quantifiziert, wie stark der lineare Zusammenhang zwischen den Stichprobenwerten von X und Y ist. Hierzu dient das sogenannte Bestimmtheitsmaß Pn (Y − (b a + bbXi ))2 2 Pn i R := 1 − i=1 . 2 i=1 (Yi − Ȳ ) Man vergleicht also die Quadrate der Abweichungen Yi − (b a + bbXi ) mit den Quadraten der Abweichungen Yi − Ȳ . Die Größe R2 liegt stets zwischen Null und Eins. Der Maximalwert Eins tritt genau dann auf, wenn alle Punkte (Xi , Yi ) auf einer Geraden mit von Null verschiedener Steigung liegen. 54 KAPITEL 2. BESCHREIBENDE STATISTIK Alternative Formel für R2 . Die Herleitung der Regressionsparameter b a und bb oder elementaP re Rechnungen zeigen, dass i (Yi − (b a + bbXi ))2 gleich QSY Y − QS2XY / QSXX ist, während P 2 i (Yi − Ȳ ) = QSY Y . Hieraus kann man ableiten, dass R2 = QS2XY . QSXX QSY Y Korrelation. Eine mit dem Bestimmtheitsmaß eng verwandte Größe ist der Korrelationskoeffizient (nach Bravais–Pearson) QSXY . rXY := p QSXX QSY Y Dies ist stets eine Zahl in [−1, 1]. Ihr Vorzeichen ist identisch mit dem Vorzeichen von bb, und 2 R2 = rXY . Es ist rXY = 1 oder rXY = −1 genau dann, wenn alle Punkte (Xi , Yi ) auf einer Gerade mit positiver bzw. negativer Steigung liegen. Außerdem bleibt rXY unverändert, wenn man ◦ die Rollen von X und Y vertauscht, ◦ zu allen X– oder Y –Werten eine Konstante addiert, ◦ alle X– oder Y –Werte mit einer positiven Konstante multipliziert. Beispiel 2.17 (Forts.) Hier ist rXY ≈ √ 171.92 ≈ 0.947 und 194.6 · 169.389 R2 ≈ 0.9472 ≈ 0.897. Beispiel 2.18 (Ein Kalibrierungsexperiment) Den Sauerstoffgehalt des Blutes kann man mit einer chemischen Methode sehr genau bestimmen, doch ist dieses Verfahren recht aufwendig. Alternativ kann man die Absorption von Licht einer bestimmten Wellenlänge durch die Kuppe des Zeigefingers messen. Bezeichnen wir den tatsächlichen Sauerstoffgehalt mit X und den Messwert der Lichtabsorption mit Y , dann nehmen wir an, dass Y bis auf einen zufälligen und kleinen Messfehler gleich a + bX ist, wobei die Konstanten a und b 6= 0 unbekannt sind. Um diese Annahme zu überprüfen und die Koeffizienten a und b zu schätzen, wurde ein Kalibrierungsexperiment durchgeführt. Dabei wurde für einen Probanden n = 15 mal sowohl der exakte Wert Xi als auch der Messwert Yi bestimmt. (Dabei unterstellte man, dass die Koeffizienten a und b nicht personenspezifisch sind.) Hier die Beobachtungen: Xi Yi 68.1 43.66 69.8 45.22 69.9 45.35 71.0 45.96 71.7 46.67 Xi Yi 78.8 50.61 79.7 51.42 80.1 50.46 80.7 51.41 81.4 51.76 Xi Yi 88.1 55.06 89.5 56.83 90.7 56.89 91.3 58.49 91.4 57.44 2.4. SIMULTANE BESCHREIBUNG ZWEIER MERKMALE 55 Das Streudiagramm dieser n = 15 Punktepaare samt Regressionsgerade wird in Abbildung 2.28 gezeigt. Die Regressionsparameter ergeben sich wie folgt: n X Xi = 1202.2 also X̄ = 80.15, i=1 n X Yi = 767.22 also Ȳ = 51.15. i=1 Ferner ist n X i=1 n X Xi2 = 97381.54 also QSXX = 1029.22, Yi2 = 39588.62 also QSY Y = 347.10, i=1 n X Xi Yi = 62085.24 also QSXY = 595.31. i=1 Hieraus folgt, dass 595.31 = 0.578, 1029.22 b a = 51.15 − 0.578 · 80.15 = 4.791, 595.31 rXY = √ = 0.996, 1029.22 · 347.10 bb = und das Bestimmtheitsmaß ist gleich R2 = 0.9962 = 0.992. Man sieht, das der Zusammenhang zwischen X– und Y –Werten recht deutlich ist. Für eine zukünftige Beobachtung sei Xo die unbekannte wahre Sauerstoffsättigung des Blutes, und Yo sei der entsprechende optische Messwert. Dann schätzt man Xo durch a bo := Yo − b X . bb Beispiel 2.1 (Befr. von Stud., Forts.) Für n = 141 Studenten (männl.) sind sowohl KörgerP P größe (X) als auch Körpergewicht (Y ) verfügbar. Hier ist i Xi = 25233 und i Yi = 9904.5, P P also X̄ ≈ 178.957 und Ȳ ≈ 70.245. Ferner ist i Xi2 = 4521187, i Yi2 = 703039.25 und P i Xi Yi = 1775526.5. Dies ergibt QSXX ≈ 4521187 − 141 · 178.9572 ≈ 5553.745, QSY Y ≈ 703039.25 − 141 · 70.2452 ≈ 7300.809, QSXY ≈ 1775526.5 − 141 · 178.957 · 70.245 ≈ 3042.468. 56 KAPITEL 2. BESCHREIBENDE STATISTIK 58 56 54 52 50 48 46 44 70 75 80 85 90 Abbildung 2.28: Daten und Regressionsgerade in Beispiel 2.18. Daher ist 3042.468 ≈ 0.548, 5553.745 b a ≈ 70.245 − 0.548 · 178.957 ≈ −27.792, 3042.468 rXY ≈ √ ≈ 0.478, 5553.745 · 7300.809 R2 ≈ 0.4782 ≈ 0.228. bb ≈ Das entsprechende Streudiagramm mit Regressionsgerade wird in Abbildung 2.29 gezeigt. Die Stichprobenkorrelation zwischen Körpergröße und Körpergewicht ist zwar positiv, aber der kleine Wert von R2 zeigt auch, dass der lineare Zusammenhang eher schwach ist. Bei den Studentinnen ergeben sich aus n = 109 Datenpaaren die Kenngrößen rXY ≈ 0.568, R2 ≈ 0.322 und das Streudiagramm in Abbildung 2.30. Der lineare Zusammenhang zwischen X– und Y –Werten ist also bei den Damen etwas stärker als bei den Herren. Beispiel 2.8 (Baseballspieler, Forts.) Nun betrachten wir sowohl die Anzahl X von Berufsjahren als auch das Jahresgehalt Y als numerische Variable. Aus den n = 263 Beobachtungen ergeben sich für die Regressionsgerade die Parameter b a ≈ 260.234 (Einheit: 1000 USD), bb ≈ 37.705 (Einheit: 1000 USD/Jahr) sowie rXY ≈ 0.401 und R2 ≈ 0.161. Hier kann man bb als mittlere Gehaltssteigerung pro Jahr deuten. Abbildung 2.31 zeigt ein Streudiagramm plus Regressionsgerade. Wie bereits gesagt wurde, sind rXY und R2 invariant unter linearen Transformationen der X– und Y –Werte. Doch bei nichtlinearen Transformationen können sie sich durchaus verändern. Ersetzen 2.4. SIMULTANE BESCHREIBUNG ZWEIER MERKMALE 57 105 100 95 90 85 80 75 70 65 60 55 165 170 175 180 185 190 195 Abbildung 2.29: Körpergröße und -gewicht der Herren in Beispiel 2.1. wir beispielsweise die Y –Werte durch ihre Logarithmen zur Basis 10, dann ergibt sich R2 ≈ 0.289 und das Streudiagramm in Abbildung 2.32. Weitere Interpretationen und Zusammenhänge Man kann die lineare Regressionsgerade als Hilfsmittel für Vorhersagen deuten. Aus den Daten wurde der lineare Zusammenhang zwischen den numerischen Variablen X und Y geschätzt. Für eine zukünftige Beobachtung (Xo , Yo ), von der nur bekannt ist, dass Xo = x, würde man schätzen, dass Yo in etwa gleich b a + bbx ist. Die Stichprobenstandardabweichungen der X– und Y –Werte sind p p SX := QSXX /(n − 1) bzw. SY := QSY Y /(n − 1). Mit diesen kann man schreiben: SY bb = r . XY · SX Die Regressionsgerade ist also gegeben durch die Gleichung y = Ȳ + rXY · SY · x − X̄ . SX Auf der rechten Seite steht zuerst der Stichprobenmittelwert Ȳ . Dieser ist die einfachste Vorhersage von Yo , ohne Berücksichtigung des Wertes x von Xo . Der nächste Summand, rXY · SY · x − X̄ , SX beschreibt die Korrektur dieser einfachen Prädiktion unter Berücksichtigung von x. Und zwar bildet man die Differenz zwischen x und dem Stichprobenmittelwert X̄ in Relation zu SX . Dies 58 KAPITEL 2. BESCHREIBENDE STATISTIK 80 75 70 65 60 55 50 45 155 160 165 170 175 180 185 Abbildung 2.30: Körpergröße und -gewicht der Damen in Beispiel 2.1. liefert die dimensionslose Größe (x − X̄)/SX , welche angibt, ob der Wert x groß oder klein im Vergleich zu “typischen X–Werten ist. Durch Multiplikation mit SY landet man auf der Skala der Y –Werte. Der Faktor rXY berücksichtigt Stärke und Richtung des linearen Zusammenhangs zwischen beiden Variablen, und der Summand Ȳ rückt die Gerade in den Schwerpunkt der Datenpaare. Insbesondere verläuft die Regressionsgerade stets zwischen den beiden Geraden, die durch die Gleichungen x − X̄ y = Ȳ ± SY · SX beschrieben werden. Wenn man die Rollen von X und Y vertauscht, also versucht, die X–Werte durch eine lineare Funktion der Y –Werte zu approximieren bzw. vorherzusagen, dann ergibt sich die Geradengleichung y − Ȳ . x = X̄ + rXY · SX · SY Rangkorrelation Das letzte Beispiel zum Korrelationskoeffizienten zeigte, dass dieser nicht invariant ist unter streng monoton wachsenden, nichtlinearen Transformationen der X– oder Y –Werte. Beispiele für solche Transformationen sind die Exponentialfunktion, Logarithmen (bei strikt positiven Merkmalen) oder die Quadratwurzel (bei nichtnegativen Merkmalen). Ein weiteres Problem von rXY und R2 ist ihre Empfindlichkeit gegenüber Ausreißern in den Daten. Beide Probleme kann man lösen, wenn man die Rohdaten durch Ränge ersetzt. 2.4. SIMULTANE BESCHREIBUNG ZWEIER MERKMALE 59 2500 2000 1500 1000 500 0 0 5 10 15 20 25 Abbildung 2.31: Berufserfahrung und Jahresgehalt von Baseballspielern. Ränge. Für ein numerisches oder ordinales Merkmal X definiert man Ränge wie folgt: Nehmen wir zunächst an, dass alle X–Werte in der Stichprobe verschieden sind. Die Beobachtung mit dem kleinsten X–Wert erhält Rang 1, die Beobachtung mit dem zweitkleinsten X–Wert erhält Rang 2, und so weiter; die Beobachtung mit dem größten X–Wert erhält Rang n. Wenn manche X–Werte identisch sind, spricht man von Bindungen (in der Variable X). Dann arbeitet man mit mittleren Rängen. Angenommen, für die sortierten X–Werte gilt: X(j−1) < X(j) = X(j+1) = · · · = X(k) < X(k+1) (wobei X(0) := −∞ und X(n+1) := ∞). Dann müsste man man den Beobachtungen mit X = X(j) irgendwie die Ränge j, j + 1, . . . , k zuteilen. Da jede konkrete Zuordnung willkürlich wäre, erhalten stattdessen alle diese Beobachtungen den Rang (j + k)/2. Beispiel 2.19 Betrachten wir eine Stichprobe mit n = 7 Beobachtungen und folgenden X– Werten: i Xi 1 4 2 5 3 0 4 1 5 10 6 13 7 12 Daraus ergeben sich folgende Ränge: i Xi RXi 1 4 3 2 5 4 3 0 1 4 1 2 5 10 5 Beispiel 2.20 Nun betrachten wir eine andere Stichprobe: 6 13 7 7 12 6 60 KAPITEL 2. BESCHREIBENDE STATISTIK 3.4 3.2 3 2.8 2.6 2.4 2.2 2 1.8 0 5 10 15 20 25 Abbildung 2.32: Berufserfahrung und log10 (Jahresgehalt) von Baseballspielern. i Xi 1 4 2 10 3 0 4 0 5 10 6 13 7 10 Die Ordnungsstatistiken sind hier 0, 0, 4, 10, 10, 10, 13. Die Ränge 1 und 2 werden also durch (1 + 2)/2 = 1.5 ersetzt, und die drei Ränge 4, 5 und 6 werden durch (4 + 5 + 6)/3 = 5 ersetzt. Daher ergeben sich folgende Ränge: i Xi RXi 1 4 3 2 10 5 3 0 1.5 4 0 1.5 5 10 5 6 13 7 7 10 5 Rangkorrelation. Man berechnet die Ränge RXi der X–Werte sowie die Ränge RYi der Y – Werte. Dann berechnet man den Rangkorrelationskoeffizienten (nach Spearman): (Sp) rXY := rRX,RY Pn = − n(n + 1)2 /4 P . n n 2 2 2 2 i=1 RYi − n(n + 1) /4 i=1 RXi − n(n + 1) /4 i=1 RXi RYi r P Dabei wurde ausgenutzt, dass das arithmetische Mittel aller Ränge RXi bzw. RYi stets gleich (Sp) (n + 1)/2 ist. Dieser Koeffizient rXY liegt ebenfalls im Intervall [−1, 1]. Er ist ein Maß für den monotonen Zusammenhang zwischen X– und Y –Werten. Die Extremwerte 1 und −1 treten genau dann auf, wenn die Beobachtungspaare (Xi , Yi ) auf dem Graphen einer streng monoton wachsenden bzw. fallenden Funktion liegen. Außerdem bleibt r(Sp) unverändert, wenn man die X– oder Y –Werte streng monoton wachsend transformiert. Schließlich ist er robust gegenüber Ausreißern in den Daten. Er erfüllt also die anfangs genannten Forderungen. 2.4. SIMULTANE BESCHREIBUNG ZWEIER MERKMALE 61 Vereinfachte Formeln. In Formelsammlungen findet man die Gleichungen n X i = n(n + 1)/2 n X und i=1 i2 = n(n + 1)(2n + 1)/6. i=1 P Bei der Definition von rSP wurde die erste Formel bereits ausgenutzt, denn ni=1 RZi ist stets P gleich ni=1 i = n(n + 1)/2. Dabei ist Z ein Platzhalter für X oder Y . Wenn die Z–Werte in der Stichprobe keine Bindungen aufweisen, also paarweise verschieden sind, ist außerdem Pn Pn 2 2 i=1 (RZi ) gleich i=1 i = n(n + 1)(2n + 1)/6. In diesem Falle ist n X (RZi )2 − n(n + 1)2 /4 = n(n + 1)(2n + 1)/6 − n(n + 1)2 /4 = n(n2 − 1)/12. i=1 Speziell wenn weder die X– noch die Y –Werte Bindungen aufweisen, ist Pn 2 (Sp) i=1 RXi RYi − n(n + 1) /4 . rXY = n(n2 − 1)/12 Beispiel 2.21 Wir ergänzen die Stichprobe von Beispiel 2.19 um Y –Werte: i Xi Yi 1 4 2.1 2 5 1.5 3 0 1.2 4 1 1.3 5 10 2.7 6 13 4.0 7 12 3.5 Weder die X– noch die Y –Werte weisen Bindungen auf, und es ergeben sich folgende Ränge: i RXi RYi 1 3 4 2 4 3 3 1 1 4 2 2 5 5 5 6 7 7 7 6 6 Also kann man die vereinfachte Formel für den Rangkorrelationskoeffizienten anwenden und erhält P7 2 139 − 112 (Sp) i=1 RXi RYi − 7 · 8 /4 rXY = = ≈ 0.964. 2 7 · (7 − 1)/12 28 Beispiel 2.22 Nun ersetzen wir die X–Werte in Beispiel 2.21 durch diejenigen von Beispiel 2.20: i Xi Yi 1 4 2.1 2 10 1.5 3 0 1.2 4 0 1.3 5 10 2.7 6 13 4.0 7 10 3.5 Dies führt zu folgenden Rängen: i RXi RYi 1 3 4 2 5 3 3 1.5 1 4 1.5 2 5 5 5 6 7 7 7 5 6 Daher ist (Sp) rXY P7 135.5 − 112 i=1 RXi RYi − 112 r = = p ≈ 0.880. P (137.5 − 112) · 28 7 2 − 112 · 28 RX i=1 i 62 KAPITEL 2. BESCHREIBENDE STATISTIK Beispiel 2.8 (Baseballspieler, Forts.) Hier sind weder die X–Werte noch die Y –Werte paarP P263 P263 2 2 weise verschieden. Es ist 263 i=1 RXi = 6089630, i=1 RYi = 6098224 und i=1 RXi RYi = 2 2 5528264. Außerdem ist n(n + 1) /4 = 263 · 264 /4 = 4582512. Folglich ist (Sp) rXY = p (5528264 − 4582512) (6089630 − 4582512)(6098224 − 4582512) ≈ 0.626. Interessanterweise ist dieser Wert höher als der Korrelationskoeffizient für die ursprünglichen Variablen X und Y bzw. log10 (Y ). Abbildung 2.33 zeigt das Streudiagramm der Rangpaare (RXi , RYi ) plus Regressionsgerade. 250 200 150 100 50 0 0 50 100 150 200 250 Abbildung 2.33: Ränge von Berufserfahrung bzw. Jahresgehalt von Baseballspielern. Eine Faustregel. Ähnlich wie bei der χ2 –Statistik gibt es auch für Korrelationskoeffizienten eine grobe Faustregel, welche Werte für einen “echten Zusammenhang” zwischen X– und Y – Werten sprechen: Ist √ (Sp) n − 1 rXY > 2 , dann kann man mit einer Sicherheit von ca. 95% davon ausgehen, dass es einen echten Zusammenhang zwischen beiden Variablen gibt. Die gleiche Faustregel könnte man auch für den Korrelationskoeffizienten rXY nach BravaisPearson verwenden. Allerdings ist Letzterer empfindlich gegenüber Ausreißern in den Daten und misst nur den linearen Zusammenhang zwischen X- und Y -Werten, weshalb wir die Verwendung (Sp) von rXY empfehlen. Teil II Wahrscheinlichkeitsrechnung und statistische Modelle 63 Kapitel 3 Wahrscheinlichkeitsrechnung Empirische Daten betrachtet man in der Regel als zufällig. Zum einen betrachtet man die betrachteten Objekte (z.B. Personen) oft als Zufallsstichprobe aus einer größeren Grundgesamtheit (Population), und mit Hilfe der Stichprobe möchte man Rückschlüsse auf die Grundgesamtheit ziehen. Zum anderen sind bei manchen Daten physikalische oder chemische Messungen im Spiel, und man muss zufällige Messfehler berücksichtigen. Um Daten trotz solcher Fehlerquellen seriös auszuwerten, benötigt man einige Begriffe und Werkzeuge der Wahrscheinlichkeitsrechnung, die in diesem Kapitel behandelt werden. 3.1 Beschreibung eines Zufallsexperiments Wir möchten einen zufälligen Vorgang, ein “Zufallsexperiment”, mathematisch beschreiben. Dies erfolgt im wesentlichen in zwei Schritten. 3.1.1 Grundraum und Ereignisse Zunächst legt man den Grundraum oder Ereignisraum Ω fest. Dies ist die Menge aller möglichen Resultate, welche das Zufallsexperiment liefern kann. Ein einzelnes Element ω von Ω nennt man Elementarereignis, und eine Teilmenge A von Ω nennt man Ereignis. Beispiel 3.1 (Würfel) Ein Würfel wird geworfen, und wir interessieren uns nur für die Zahl auf der Oberseite. Dann ist Ω = {1, 2, 3, 4, 5, 6}. Das Ereignis, eine gerade Zahl zu werfen, ist beispielsweise gleich A = [werfe gerade Zahl] = {2, 4, 6}. Beispiel 3.2 (Austeilen von Jass–Karten) Ein Stapel mit 4 · 9 = 36 Jass–Karten wird gemischt und an vier Spieler gleichmäßig verteilt. Wir identizizieren den Kartenstapel nach dem Mischen mit einem Tupel (einer Liste) ω = (ω1 , ω2 , . . . , ω36 ), 65 66 KAPITEL 3. WAHRSCHEINLICHKEITSRECHNUNG welches alle 36 Karten (bzw. deren Namen) enthält. Man nennt ein solches ω auch Permutation, und unser Grundraum Ω bestehe aus allen solchen Tupeln ω. Die Karten des gemischten Stapels werden dann nach einem bestimmten Schema an die vier Spieler verteilt. Typischerweise geschieht dies in Dreierpaketen, aber für die nachfolgenden Rechnungen kann man sich ebenso gut vorstellen, die Karten würden in Neunerpaketen ausgeteilt: ω = ω1 , . . . , ω9 , ω10 , . . . , ω18 , ω19 , . . . , ω27 , ω28 , . . . , ω36 . | {z } | {z } | {z } | {z } Karten für Sp. 1 Karten für Sp. 2 Karten für Sp. 3 Karten für Sp. 4 Nun zwei Beispiele für Ereignisse: A = [Spieler 1 erhält alle Kreuz-Karten] n o = ω ∈ Ω : {ω1 , . . . , ω9 } = {Kreuz-Karten} , B = [Spieler 1 erhält kein Ass] n o = ω ∈ Ω : {ω1 , . . . , ω9 } ∩ {Asse} = ∅ . Bei diesem Beispiel könnte man auch den Grundraum Ω aller Quadrupel (ω1 , ω2 , ω3 , ω4 ) verwenden, wobei jedes ωi eine Menge von neun Karten ist und ωi ∩ ωj = ∅ für 1 ≤ i < j ≤ 4. Denn für die Spieler ist letztlich nur entscheidend, welche Menge von Karten sie erhalten. Die Berechnungen mancher Wahrscheinlichkeiten werden dadurch aber nicht einfacher. 3.1.2 Wahrscheinlichkeiten Nach Festlegung von Ω ordnet man jedem Ereignis A ⊂ Ω eine Wahrscheinlichkeit P (A) zu. Dies ist eine Zahl aus dem Intervall [0, 1], die man auf zweierlei Arten interpretieren kann. Deutung von P (A) als Wetteinsatz (subjektivistische Betrachtung) Die Zahl P (A) ist ein subjektives Maß dafür, wie sicher man mit dem Eintreten des Ereignisses A rechnet. Im Extremfall, dass P (A) = 1, ist man sich dessen absolut sicher; im Falle von P (A) = 0 ist man sicher, dass das Ereignis A nicht eintritt. Angenommen, man wettet auf das Eintreten von A: Man macht einen Einsatz E, und bei Eintreten von A erhält man den Bruttogewinn G. Wenn das Verhältnis E/G kleiner ist als P (A), lässt man sich gerne auf die Wette ein. Wenn aber E/G größer ist als P (A), lehnt man die Wette ab. Deutung von P (A) als Grenzwert (frequentistische Betrachtung) Bei einer einzelnen Durchführung des Experiments kann man nicht sicher voraussagen, ob das Ereignis A eintritt oder nicht. Aber angenommen, man könnte das Experiment beliebig oft und “unabhängig” wiederholen. Nach den ersten n Runden berechne man die Zahl Anzahl von Versuchen, bei denen A eintrat, unter den ersten n . Pbn (A) := n 3.1. BESCHREIBUNG EINES ZUFALLSEXPERIMENTS 67 Nun postulieren wir, dass diese empirischen Wahrscheinlichkeiten Pbn (A) mit wachsendem n gegen eine feste Zahl P (A) konvergieren: Pbn (A) → P (A) für n → ∞. Ferner gehen wir davon aus, dass der Grenzwert P (A) bei jeder neuen Versuchsreihe der gleiche ist. Beispiel 3.1 (Würfel, Forts.) Ein bestimmter Würfel wurde 333 mal geworfen. Die ersten 20 Resultate waren 4, 5, 3, 1, 4, 2, 5, 1, 2, 4, 4, 6, 1, 5, 1, 6, 6, 2, 6, 6. 1 1 0.9 0.9 0.8 0.8 0.7 0.7 0.6 0.6 Pn(A) n P (A) Für das Ereignis A = [werfe gerade Zahl] = {2, 4, 6} ergeben sich daraus die empirischen Wahrscheinlichkeiten 1 1 1 1 2 3 3 3 4 5 6 7 7 7 7 8 9 10 11 12 , , , , , , , , , , , , , , , , , , , . 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 Die folgenden Abbildungen zeigen Pbn (A) in Abhängigkeit von n ≤ 20 bzw. n ≤ 333. 0.5 0.5 0.4 0.4 0.3 0.3 0.2 0.2 0.1 0.1 0 2 4 6 8 10 n 12 14 16 18 20 0 50 100 150 n 200 250 300 Augenscheinlich stabilisieren sich die empirischen Häufigkeiten bei einem Wert nahe 1/2. Zusammenhang zwischen beiden Deutungen Angenommen, ein Spielanbieter lässt beliebig viele Leute immer wieder auf das Eintreten von A wetten. Bei jeder Runde setze der Spieler einen festen Betrag E und erhalte vom Anbieter den Bruttogewinn G, falls A tatsächlich eintritt. Nach n Runden ist der Nettogewinn des Anbieters gleich n · E − Anzahl Runden, bei denen A eintrat, unter den ersten n · G E = nG · − Pbn (A) . G Der erste Faktor, nG, wächst mit n linear an, und der zweite Faktor, E/G − Pbn (A) konvergiert mutmaßlich gegen die feste Zahl E/G − P (A). Wenn also E/G > P (A), so macht der Anbieter auf lange Sicht beliebig große Gewinne. Im Falle von E/G < P (A) wird er früher oder später pleite sein. 68 KAPITEL 3. WAHRSCHEINLICHKEITSRECHNUNG Beispiel 3.3 (Becherspiel) Ein Spielanbieter legt vor den Augen eines Spielers eine weiche Kugel unter einen von drei gleichartigen Bechern. Dann beginnt er, die drei Becher beliebig zu vertauschen, wobei ihm der Spieler genau zusieht. Nach einer gewissen Zeit stoppt der Anbieter, und der Spieler muss sagen, unter welchem Becher die Kugel liegt. Wenn ihm dies gelingt, wird sein Einsatz E verdoppelt, also G = 2E; anderenfalls verliert er seinen Einsatz. Hier ist E/G = 1/2, und naive Leute trauen sich zu, den richtigen Becher nicht aus den Augen zu verlieren. Für sie hat also das Ereignis A = [nenne richtigen Becher] eine subjektive Wahrscheinlichkeit von nahezu Eins oder zumindest größer als 1/2. Erfahrungsgemäß kann ein geübter Spielanbieter erreichen, dass P (A) ≤ 1/3. Der Fall P (A) = 1/3 bedeutet, dass der Spieler rein zufällig auf einen der drei Becher zeigt. Wenn der Spieler aber ernsthaft versucht, den richtigen Becher zu fixieren, können ihn besonders geschickte Spielanbieter dabei beobachten und permutieren so lange, bis der Spieler den falschen Becher fixiert. 3.2 Wahrscheinlichkeitsverteilungen In diesem Abschnitt beschreiben wir zwei Möglichkeiten, wie man die Wahrscheinlichkeiten P (A) festlegen kann. Danach geben wir allgemeine Axiome für Wahrscheinlichkeiten an und leiten daraus diverse Rechenregeln ab. 3.2.1 Exkurs in die Kombinatorik Beim Berechnen diverser Wahrscheinlichkeiten kommen immer wieder kombinatorische Überlegungen und Hilfsgrößen zum Einsatz, die wir hier kurz erläutern. Im Folgenden sei stets M eine endliche Menge von N Elementen. (A) Auflistungen von M. Sei Ω die Menge aller Tupel (Listen) ω = (ω1 , ω2 , . . . , ωN ), welche alle Elemente von M enthalten. Die Anzahl der Elemente von Ω kann man bestimmen, indem man sich eine zunächst noch leere Liste vorstellt, deren Einträge Schritt für Schritt gesetzt werden: Für ω1 hat man N Möglichkeiten. Nach Festlegung von ω1 gibt es noch N − 1 Möglichkeiten für ω2 , danach noch N − 2 Möglichkeiten für ω3 , und so weiter. Im vorletzten Schritt gibt es noch zwei Möglichkeiten für ωN −1 , und am Ende bleibt genau ein Element für ωN übrig. Daher besteht Ω aus N ! := N (N − 1)(N − 2) · · · 2 · 1 (sprich: “N -Fakultät”) verschiedenen Tupeln ω. (B) Listen mit Einträgen aus M ohne Wiederholungen. Nun fixieren wir eine Zahl K ∈ {1, 2, . . . , N } und betrachten die Menge Ω aller Tupel ω = (ω1 , ω2 , . . . , ωK ) mit K verschiedenen Einträgen ωi ∈ M. Die Anzahl der Elemente von Ω kann man ähnlich wie in Betrachtung 3.2. WAHRSCHEINLICHKEITSVERTEILUNGEN 69 (A) bestimmen: Für ω1 gibt es N Möglichkeiten, dann für ω2 noch N − 1 Möglichkeiten, und so weiter. Am Ende stehen für ωK noch N − K + 1 Elemente zur Auswahl. Also besteht Ω aus [N ]K := N (N − 1)(N − 2) · · · (N − K + 1) (sprich: “N K–faktoriell”) verschiedenen Tupeln. Speziell ist [N ]N = N ! Außerdem gibt es noch die Konvention, dass [N ]0 = 1. Man kann auch schreiben [N ]K = N! (N − K)! für 0 ≤ K ≤ N. (C) Teilmengen von M. Wie in Betrachtung (B) fixieren wir eine Zahl K ∈ {1, 2, . . . , N }, betrachten jetzt aber die Menge Ω aller K–elementigen Teilmengen von M. Um die Anzahl e aller Tupel ω der Elemente von Ω zu bestimmen, betrachten wir zusätzlich die Menge Ω e = e (e ω1 , ω e2 , . . . , ω eK ) mit K verschiedenen Einträgen ω ei ∈ M. Wir wissen bereits, dass Ω aus [N ]K e die Menge {e verschiedenen solchen Tupeln besteht. Natürlich kann man ω e∈Ω ω1 , ω e2 , . . . , ω eK } ∈ e Ω zuordnen. Aber zu jedem Tupel ω e gibt es noch K! − 1 andere Tupel in Ω mit den gleichen Einträgen, nur in einer anderen Reihenfolge. Das heißt, zu jeder Menge ω ∈ Ω gibt es K! Tupel e welche die Elemente von ω in verschiedenen Reihenfolgen enthalten. Daher besteht Ω aus ω e ∈ Ω, e [N ]K N! #Ω = = =: K! K! K!(N − K)! N N = K N −K verschiedenen Mengen. (D) Beliebige Listen mit Einträgen aus M. Für eine beliebige natürliche Zahl K betrachten wir die Menge Ω aller Tupel ω = (ω1 , ω2 , . . . , ωK ) mit K beliebigen Einträgen ωi ∈ M. Mit anderen Worten, Ω ist das “K-fache kartesische Produkt von M”, Ω = M × · · · × M}, | × M {z K mal und enthält N K verschiedene Elemente. Denn für jeden Eintrag ωi gibt es N Möglichkeiten, egal was an den anderen Positionen steht. Beispiel: Sportverein. Sei M die Menge aller erwachsenen Mitglieder eines Sportvereins. Angenommen, man möchte K verschiedene Ämter (Vorsitz, Stellvertretung für Vorsitz, Kassenführer, etc.) besetzen, wobei keine Person mit mehreren Ämtern belastet werden soll. Dann gibt es [N ]K Möglichkeiten hierfür. Angenommen, man lässt auch Ämterhäufungen zu. Das heißt, Personen dürfen mehr als nur ein Amt ausüben. Dann gibt es N K Möglichkeiten. Angenommen, man lässt Ämterhäufungen zu, nur die/der Vorsitzende und ihre/seine Stellvertretung sollen zwei verschiedene Personen sein, die jeweils keine anderen Ämter wahrnehmen. Dann gibt es [N ]2 Möglichekeiten, die (den) Vorsitzende(n) und deren (dessen) Stellvertretung 70 KAPITEL 3. WAHRSCHEINLICHKEITSRECHNUNG zu wählen. Danach gibt es noch (N − 2)K−2 Möglichkeiten, die anderen Ämter zu besetzen. Insgesamt gibt es also [N ]2 · (N − 2)K−2 Möglichkeiten. Angenommen, der Verein sucht K Freiwillige, die den nächsten Sommerausflug organisieren. N Möglichkeiten, dieses Team zusammenzustellen. Dann gibt es K Beispiel: Casting. Für eine Sammlung mit wohltätigem Zweck soll ein Werbefilm gedreht werden, bei dem ein(e) Sänger(in) und drei Tänzer(innen) auftreten. Wie viele Möglichkeiten gibt es, eine solche Gruppe mit Bundesrät(inn)en zu besetzen? Lösung 1: Man wählt zunächst aus den sieben Bundesrät(inn)en den (die) Sänger(in). Danach wählt man aus den übrigen sechs Bundesrät(inn)en die drei Tänzer(innen) aus, wofür es noch 6 3 = 20 Möglichkeiten gibt. Also gibt es insgesamt 7 · 20 = 140 Möglichkeiten. Lösung 2: Man wählt zunächst eine Gruppe von vier Akteuren aus, wofür es 74 = 73 = 35 Möglichkeiten gibt. Danach wird eine dieser vier Personen als Sänger(in) verpflichtet. Also gibt es insgesamt 35 · 4 = 120 Möglicheiten. 3.2.2 Laplace–Verteilungen Sei Ω eine endliche Menge. Die Laplace–Wahrscheinlichkeit eines Ereignisses A ⊂ Ω wird definiert als Anzahl günstiger Fälle #A . P (A) := #Ω Anzahl möglicher Fälle Die entsprechende Funktion A 7→ P (A) nennt man die Laplace–Verteilung oder uniforme Verteilung auf Ω. Sie beschreibt die “rein zufällige” Auswahl eines Elementes von Ω. Beispiel 3.1 (Würfel, Forts.) Hier ist #Ω = 6, also P (A) = #A/6. Beispielsweise ist P [werfe gerade Zahl] = P ({2, 4, 6}) = 3/6 = 0.5, P [werfe Zahl ≥ 5] = P ({5, 6}) = 2/6 = 0.333. Beispiel 3.2 (Austeilen von Jasskarten, Forts.) Der Grundraum Ω enthält 36! Elementarereignisse. Nun betrachten wir das Ereignis A, dass Spieler 1 alle Kreuz–Karten erhält. Um die Anzahl von A zu bestimmen, stellen wir uns wieder 36 zunächst leere Positionen vor, auf welche die 36 Karten zu verteilen sind. Setzt man in Gedanken zunächst die Kreuz–Karten und dann die übrigen 27 Karten, so sieht man, dass #A = 9! · 27! Also ist P (A) = (wo sitzen die Kreuz–Karten) (wo sitzen dann die übrigen 27 Karten). 9! 9!27! = ≈ 1.062 · 10−8 . 36! [36]9 3.2. WAHRSCHEINLICHKEITSVERTEILUNGEN 71 Das Ereignis B, dass Spieler Eins kein Ass erhält, kann man ähnlich bewerten: Setzen wir in Gedanken zunächst die Asse und dann die übrigen 32 Karten, so ist #B = [27]4 · 32! Daher ist P (B) = (wo sitzen die Asse) (wo sitzen dann die übrigen 32 Karten). [27]4 · 32! [27]4 ≈ 0.2979. = 36! [36]4 Für das Ereignis C, dass Spieler 1 genau zwei Asse erhält, gilt: 4 #C = (welche Asse erhält Spieler 1) 2 · [9]2 (wo sitzen diese beiden Asse) · [27]2 · 32! also P (C) = (wo sitzen die anderen beiden Asse) (wo sitzen dann die übrigen 32 Karten), 6 · [9]2 · [27]2 · 32! 6 · [9]2 · [27]2 = ≈ 0.2145. 36! [36]4 Als letztes Beispiel betrachten wir das Ereignis D, dass mindestens ein Spieler kein Ass hat. Hier bietet es sich an, das Gegenereignis Dc = Ω \ D zu betrachten. Da es genau vier Asse gibt, ist Dc = [jeder Spieler erhält genau ein Ass], und #(Dc ) = 4! · 94 · 32! (welcher Spieler erhält welches Ass) (wo sitzen dann die Asse; für jedes Ass 9 mögliche Plätze) (wo sitzen dann die übrigen 32 Karten), also P (D) = 1 − P (Dc ) = 1 − 4! · 94 · 32! 4! · 94 = 1− ≈ 0.8886. 36! [36]4 Beispiel 3.4 (Moderner Fünfkampf) Beim modernen Fünfkampf muss jede(r) Teilnehmende unter anderem einen Hindernisritt zu Pferd absolvieren. Jede(r) Teilnehmende bringt ein Pferd mit, allerdings werden diese dann rein zufällig zugeteilt. Bei n Teilnehmern beschreiben wir diese Zuordnung der Pferde durch den Grundraum Ω aller Permutationen ω = (ω1 , ω2 , . . . , ωn ) von (1, 2, . . . , n). Nach rein zufälliger Auswahl eines ω ∈ Ω reitet Teilnhmer Nr. i auf dem Pferd von Teilnehmer Nr. ωi . Der Grundraum Ω besteht aus n! Elementarereignissen. Für 1 ≤ i ≤ n betrachten wir das Ereignis Ai := [Teiln. Nr. i reitet eigenes Pferd] n o = ω ∈ Ω : ωi = i . 72 KAPITEL 3. WAHRSCHEINLICHKEITSRECHNUNG Dieses Ereignis besteht aus (n − 1)! verschiedenen Permutationen, denn n − 1 Pferde müssen auf n − 1 Reiter verteilt werden. Also ist P (Ai ) = 3.2.3 1 (n − 1)! = . n! n Diskrete Verteilungen Für jedes Elementarereignis ω ∈ Ω sei p(ω) eine nichtnegative Zahl, so dass X p(ω) = 1. ω∈Ω Wir deuten p(ω) als Wahrscheinlichkeit für das Ereignis {ω} und definieren X p(ω) P (A) := ω∈A für beliebige Ereignisse A ⊂ Ω. Diese Abbildung A 7→ P (A) ist eine diskrete Wahrscheinlichkeitsverteilung mit Gewichtsfunktion p. Laplace–Verteilungen sind ein Spezialfall hiervon, wenn man p(ω) gleich 1/#Ω setzt. Beispiel 3.1 (Würfel, Forts.) Wir wollen einen realen Würfel modellieren, der bevorzugt die Zahlen 4 und 5 und eher selten die Zahlen 1 und 6 zeigt. Dazu legen wir die Wahrscheinlichkeitsgewichte p(ω) beispielsweise wie folgt fest: ω p(ω) 1 2 3 4 5 6 0.1 0.15 0.15 0.3 0.2 0.1 Mit diesem Würfel ist zum Beispiel P [werfe gerade Zahl] = p(2) + p(4) + p(6) = 0.55. 3.2.4 Rechenregeln für Wahrscheinlichkeiten Die Wahrscheinlichkeitsverteilung P , also die Abbildung A 7→ P (A), sollte die folgenden drei Grundregeln erfüllen: • Für beliebige Ereignisse A ist P (A) ≥ 0; • für zwei disjunkte Ereignisse A, B ist stets P (A ∪ B) = P (A) + P (B). • P (Ω) = 1; Dies sind Kolmogorovs Axiome für Wahrscheinlichkeitsverteilungen. Zwei Ereignisse heißen disjunkt, wenn sie sich gegenseitig ausschließen, also A ∩ B = ∅. Die zuvor eingeführten Laplace–Verteilungen und diskreten Verteilungen genügen diesen Grundregeln. 3.2. WAHRSCHEINLICHKEITSVERTEILUNGEN 73 Folgerungen Aus den drei Grundregeln für Wahrscheinlichkeiten kann man diverse andere Eigenschaften und Formeln ableiten: • Für zwei Ereignisse A, B mit A ⊂ B ist P (A) ≤ P (B). Denn B = A ∪ (B \ A), so dass P (B) = P (A) + P (B \ A) ≥ P (A). • Für ein Ereignis A und sein komplementäres Ereignis Ac = Ω \ A ist stets P (A) = 1 − P (Ac ). Denn Ω ist die Vereinigung der disjunkten Ereignisse A und Ac , so dass 1 = P (Ω) = P (A ∪ Ac ) = P (A) + P (Ac ). • P (∅) = 0. Denn für ein beliebiges Ereignis A ist A ∪ ∅ = A und A ∩ ∅ = ∅, so dass P (A) = P (A ∪ ∅) = P (A) + P (∅). • Für beliebige Zahlen n ≥ 2 und paarweise disjunkte Ereignisse A1 , A2 , . . . , An ist P (A1 ∪ A2 ∪ · · · ∪ An ) = P (A1 ) + P (A2 ) + · · · + P (An ). Dies kann man induktiv aus der zweiten Grundregel ableiten. • Für zwei beliebige Ereignisse A, B ist P (A ∪ B) = P (A) + P (B) − P (A ∩ B). Denn man kann A, B und A ∪ B aus den drei paarweise disjunkten Mengen A \ B, A ∩ B und B \ A aufbauen: P (A) = P (A \ B) + P (A ∩ B), P (B) = P (A ∩ B) + P (B \ A), P (A ∪ B) = P (A \ B) + P (A ∩ B) + P (B \ A); siehe auch Abbildung 3.1. Wenn man nun die ersten beiden Gleichungen addiert, dann ergibt sich zusammen mit der dritten Gleichung die Formel P (A) + P (B) = P (A \ B) + 2P (A ∩ B) + P (B \ A) = P (A ∪ B) + P (A ∩ B). 74 KAPITEL 3. WAHRSCHEINLICHKEITSRECHNUNG Abbildung 3.1: Zerlegung von A ∪ B in drei disjunkte Teilmengen Beispiel 3.4 (Mod. Fünfkampf, Forts.) Mit dem Ereignis Ai = [Teiln. i reitet eigenes Pferd] ist P (Ai ) = 1/n, und für zwei verschiedene Indizes i, j ist P (Ai ∩ Aj ) = (n − 2)! 1 = . n! n(n − 1) Denn das Ereignis Ai ∩ Aj besteht aus allen Permutationen ω von (1, 2, . . . , n), so dass ωi = i und ωj = j. Es sind also noch n − 2 Pferde auf n − 2 Reiter zu verteilen. Folglich ist P [Teiln. i oder Teiln. j reitet eigenes Pferd] 1 2n − 3 2 − = . = P (Ai ) + P (Aj ) − P (Ai ∩ Aj ) = n n(n − 1) n(n − 1) 3.2.5 Die Siebformel Eine naheliegende Frage ist, wie man die zuletzt erwähnte Formel für P (A ∪ B) auf mehr als zwei Ereignisse erweitern kann. Für drei Ereignisse A1 , A2 , A3 gilt: P (A1 ∪ A2 ∪ A3 ) = P (A1 ) + P (A2 ) + P (A3 ) − P (A1 ∩ A2 ) − P (A1 ∩ A3 ) − P (A2 ∩ A3 ) + P (A1 ∩ A2 ∩ A3 ). Dies kann man erklären, indem man A1 ∪ A2 ∪ A3 wie in Abbildung 3.2 in sieben paarweise disjunkte Teilmengen B1 , B2 , B3 , C1 , C2 , C3 und D zerlegt. Jetzt kann man ablesen, dass P (A1 ) + P (A2 ) + P (A3 ) = P (B1 ) + P (B2 ) + P (B3 ) + 2P (C1 ) + 2P (C2 ) + 2P (C3 ) + 3P (D), P (A1 ∩ A2 ) + P (A1 ∩ A3 ) + P (A2 ∩ A3 ) = P (C1 ) + P (C2 ) + P (C3 ) + 3P (D), P (A1 ∩ A2 ∩ A3 ) = P (D). 3.2. WAHRSCHEINLICHKEITSVERTEILUNGEN 75 Addiert man die erste und dritte Gleichung und subtrahiert die zweite, dann steht auf der linken Seite P (A1 ) + P (A2 ) + P (A3 ) − P (A1 ∩ A2 ) − P (A1 ∩ A3 ) − P (A2 ∩ A3 ) + P (A1 ∩ A2 ∩ A3 ), und auf der rechten Seite steht P (B1 ) + P (B2 ) + P (B3 ) + P (C1 ) + P (C2 ) + P (C3 ) + P (D) = P (A1 ∪ A2 ∪ A3 ). Abbildung 3.2: Zerlegung von A1 ∪ A2 ∪ A3 in sieben disjunkte Teilmengen Für mehr als drei Ereignisse kann man leider keine brauchbaren Skizzen anfertigen. Dennoch gibt es eine allgemeine Formel, die sogenannte Siebformel von Sylvester- Poincaré: X P (A1 ∪ A2 ∪ · · · ∪ An ) = P (Ai ) i − X P (Ai ∩ Aj ) i<j + X P (Ai ∩ Aj ∩ Ak ) i<j<k ∓··· + (−1)n−1 P (A1 ∩ A2 ∩ · · · ∩ An ). Man summiert also alle Wahrscheinlichkeiten P (Ai ) der Einzelereignisse, davon subtrahiert man alle Wahrscheinlichkeiten P (Ai ∩ Aj ) von paarweisen Schnitten, dann addiert man die Wahrscheinlichkeiten aller dreifachen Schnitte, dann subtrahiert man die Wahrscheinlichkeiten aller vierfachen Schnitte, und so weiter. Kompakte Schreibweise. Die k–te Summe in der Siebformel ist gleich X P (Ai1 ∩ Ai2 ∩ · · · ∩ Aik ), i1 <i2 <···<ik 76 und KAPITEL 3. WAHRSCHEINLICHKEITSRECHNUNG n X P (A1 ∪ A2 ∪ · · · ∪ An ) = (−1)k−1 k=1 X P (Ai1 ∩ Ai2 ∩ · · · ∩ Aik ). i1 <i2 <···<ik Beispiel 3.2 (Jass, Forts.) Die Wahrscheinlichkeit P [mindestens ein Spieler hat keine ♥–Karte] kann man wie folgt berechnen: Mit dem Ereignis Ai := [Spieler i hat keine ♥–Karte] ist die gesuchte Wahrscheinlichkeit gleich P (A1 ∪ A2 ∪ A3 ∪ A4 ). Für jedes i ist #Ai = 27 · 26 · · · 19 · 27! (wo sitzen die ♥–Karten) (wo sitzen dann die übrigen Karten), also P (Ai ) = 27 · 26 · · · · 19 · 27! [27]9 = . 36! [36]9 Dabei schreiben wir zur Abkürzung [a]k = a · (a − 1) · (a − 2) · · · (a − k + 1). Für 1 ≤ i < j ≤ 4 ergibt eine analoge Überlegung, dass P (Ai ∩ Aj ) = [18]9 , [36]9 und für 1 ≤ i < j < k ≤ 4 ist P (Ai ∩ Aj ∩ Ak ) = [9]9 . [36]9 Ferner ist P (A1 ∩ A2 ∩ A3 ∩ A4 ) = 0, denn irgendwo müssen ja die ♥–Karten landen. Alles in allem ergibt sich aus der Siebformel [27]9 4 [18]9 4 [9]9 P (A1 ∪ A2 ∪ A3 ∪ A4 ) = 4 − + [36]9 2 [36]9 3 [36]9 ≈ 4 · 0.0498 − 6 · 5.165 · 10−4 + 4 · 1.062 · 10−8 ≈ 0.1960. Beispiel 3.4 (Mod. Fünfkampf, Forts.) Mit Ai = [Teiln. i reitet eigenes Pferd] ist P [mind. ein Teiln. reitet eigenes Pferd] = P n [ i=1 Ai . 3.3. BEDINGTE WAHRSCHEINLICHKEITEN 77 Für beliebige Indizes i1 < · · · < ik ist Ai1 ∩ · · · ∩ Aik das Ereignis, dass die Teilnehmer mit den Nummern i1 , . . . , ik jeweils ihr eigenes Pferd reiten. Es sind also nur noch n − k Pferde auf n − k Reiter zu verteilen, so dass P (Ai1 ∩ · · · ∩ Aik ) = (n − k)! . n! Setzt man dies in die Siebformel ein, dann ergibt sich P (A1 ∪ A2 ∪ · · · ∪ An ) = = n X k=1 n X (−1) n (n − k)! k n! (−1)k−1 (n − k)! n! k!(n − k)! n! (−1)k−1 1 k! k−1 k=1 = n X k=1 = 1− n X (−1)k k=0 k! . Dies ist gleich 0.5 0.666 0.625 0.633 für n = 2, für n = 3, für n = 4, für n = 5. Für n → ∞ konvergiert diese Wahrscheinlichkeit gegen 1− ∞ X (−1)k k=0 3.2.6 k! = 1 − exp(−1) ≈ 0.6321. Bonferroni–Ungleichungen Nicht immer liefert die Siebformel eine handhabbare Formel. Wenn man schon mit Schranken für die Wahrscheinlichkeit bestimmter Ereignisse zufrieden ist, sind oft folgende Ungleichungen von Nutzen: P (A1 ∪ A2 ∪ · · · ∪ An ) ≤ P (A1 ) + P (A2 ) + · · · + P (An ) und P (A1 ∪ A2 ∪ · · · ∪ An ) ≥ X i 3.3 P (Ai ) − X P (Ai ∩ Aj ). i<j Bedingte Wahrscheinlichkeiten Für zwei Ereignisse A und B mit P (B) > 0 definiert man die bedingte Wahrscheinlichkeit von A, gegeben B, als P (A ∩ B) . P (A | B) := P (B) 78 KAPITEL 3. WAHRSCHEINLICHKEITSRECHNUNG Dies liefert uns eine neue Wahrscheinlichkeitsverteilung P (· | B) auf Ω, wobei P (B | B) = 1 und P (B c | B) = 0. Deutet man P (A) als Wetteinsatz auf das Eintreten von A, dann ist P (A | B) der modifizierte Wetteinsatz, wenn man bereits weiß, dass das Ereignis B eingetreten ist oder eintreten wird. Beispiel 3.3 (Becherspiel, Forts.) Angenommen, von den drei Bechern ist einer aufgrund einer kleinen Beschädigung oder Verschmutzung erkennbar, aber der Spielanbieter hat dies noch nicht bemerkt. Nun betrachten wir die Ereignisse A := [Spieler erkennt richtigen Becher], B := [Anbieter legt Kugel unter den besonderen Becher]. Aus Sicht eines Spielers ist dann P (A | B) = 1, P (A | B c ) = 1/2. Aus der Definition von P (A | B) folgt offensichtlich, dass P (A ∩ B) = P (B)P (A | B), und diese Formel werden wir oft anwenden. Beispiel 3.5 (Medizinische Tests) Aus einer gewissen Population wird rein zufällig eine Person herausgegriffen, und wir betrachten folgende Ereignisse K := [Person leidet(e) an einer bestimmten Krankheit], T := [Ein bestimmter med. Test liefert bei dieser Person ein positives Ergebnis]. Im Idealfall sind beide Ereignisse identisch, doch in der Realität gibt es stets Abweichungen. Konkrete Beispiele sind Bluttests auf Hepatitis oder andere Infektionskrankheiten. Bei der Entwicklung geeigneter Tests werden folgende Kenngrößen bestimmt (bzw. geschätzt): Sensitivität := P (T | K) (Wahrscheinlichkeit eines positiven Testresultats bei Kranken) Spezifität := P (T c | K c ) (Wahrscheinlichkeit eines negativen Testresultats bei Gesunden) Prävalenz := P (K) (relative Häufigkeit der Kranken in der Population). Aus Sicht von Anwendern des Tests sind allerdings folgende Größen interessant: P (K | T ) P (K c | T c ) (bed. Wahrscheinlichkeit krank zu sein, gegeben ein pos. Testresultat), (bed. Wahrscheinlichkeit gesund zu sein, gegeben ein neg. Testresultat). 3.3. BEDINGTE WAHRSCHEINLICHKEITEN 79 Man kann die möglichen Ereignisse und Wahrscheinlichkeiten in einer Vierfeldertafel anordnen: K Kc T Tc P (K ∩ T ) P (K ∩ T c ) P (K c ∩ T ) P (K c ∩ T c ) P (T ) P (T c ) P (K) P (K c ) Die Zeilennormierung dieser Tabelle führt zu den oben genannten Kenngrößen Sensitivität und Spezifität, und die Spaltennormierung ergibt die interessanten Größen P (K | T ) und P (K c | T c ): K Kc T P (T | K) 1 − P (T c | K c ) Tc 1 − P (T | K) P (T c | K c ) bzw. K Kc T P (K | T ) P (K c | T ) Tc P (K | T c ) . P (K c | T c ) Die letzteren Größen lassen sich wie folgt berechnen: P (K ∩ T ) P (K ∩ T ) = , P (T ) P (K ∩ T ) + P (K c ∩ T ) P (K ∩ T ) = P (K)P (T | K), P (K | T ) = P (K c ∩ T ) = P (K c )P (T | K c ) = (1 − P (K))(1 − P (T c | K c )). Setzt man die beiden letzteren Gleichungen in die erste ein, dann ergibt sich die Formel P (K | T ) = P (K)Sens. . P (K)Sens. + (1 − P (K))(1 − Spez.) Für P (K c | T c ) kann man analog rechnen, oder man stellt eine Symmetrieüberlegung an: Wenn man nämlich K mit K c und T mit T c vertauscht, dann vertauscht man die Sensitivität mit der Spezifität und P (K) mit 1 − P (K). Also ist P (K c | T c ) = (1 − P (K))Spez. . (1 − P (K))Spez. + P (K)(1 − Sens.) Zahlenbeispiel. Sei P (K) = 0.01, Sens. = 0.99 und Spez. = 0.9. Dann ist P (K | T ) = P (K c | T c ) = 0.01 · 0.99 0.01 = = 0.0909, 0.01 · 0.99 + (1 − 0.01) · (1 − 0.9) 0.11 (1 − 0.01) · 0.9 0.891 = ≈ 0.9999. (1 − 0.01) · 0.9 + 0.01 · (1 − 0.99) 0.8911 Man sieht deutlich, dass die Wahrscheinlichkeit P (K | T ) recht klein ist, obwohl Sensitivität und Spezifität nahe bei Eins liegen, da die Wahrscheinlichkeit von K nur sehr klein ist. Beispiel 3.6 (Spam–Filter) Ein verzweifelter Universitätsdozent ärgert sich jeden Morgen über die vielen Spam–Mails (unerwünschte Werbung) unter den neu eingetroffenen E–Mails. Für ein zufällig herausgegriffenes E–Mail sei K := [E–Mail ist Spam]. Aufgrund seiner Erfahrungen in den letzten Wochen geht er davon aus, dass in etwa P (K) = 0.8. Nach dem Betrachten vieler Spam–Mails stellt er fest, dass der Absender ofmals mit .com oder 80 KAPITEL 3. WAHRSCHEINLICHKEITSRECHNUNG .net endet. Daraufhin vergleicht er die Spam– mit den seriösen E–Mails und stellt fest, dass für das Ereignis T := [Absender endet mit .com oder .net] in etwa gilt: P (T | K) = 0.75, P (T | K c ) = 0.02. Wenn der Dozent also alle E–Mails mit Absender .com oder .net automatisch in den Papierkorb legen lässt (den er aber vor dem Leeren noch kurz durchschaut), dann ist auf lange Sicht der relative Anteil von Spam–Mails im Papierkorb gleich P (K ∩ T ) P (T ) P (K ∩ T ) = P (K ∩ T ) + P (K c ∩ T ) P (K)P (T | K) = P (K)P (T | K) + P (K c )P (T | K c ) 0.8 · 0.75 0.6 = = ≈ 0.9934, 0.8 · 0.75 + 0.2 · 0.02 0.604 also größer als 99%. Andererseits ist der relative Anteil von Spam–Mails im Briefkasten gleich P (K | T ) = P (K)P (T c | K) P (K)P (T c | K) + P (K c )P (T c | K c ) 0.8 · 0.25 0.2 = = ≈ 0.5051; 0.8 · 0.25 + 0.2 · 0.98 0.396 er erreicht also immerhin eine Reduktion von 80% auf knapp 51%. P (K | T c ) = 3.3.1 Die Bayessche Formel Beide vorangehenden Beispiele kann man als Spezialfälle der Bayesschen Formel(n) betrachten. Allgemein betrachtet man ein beliebiges Ereignis A sowie paarweise disjunkte Ereignisse B1 , . . . , BM jeweils mit strikt positiver Wahrscheinlichkeit, so dass Ω = B1 ∪ B2 ∪ · · · ∪ BM . Dann ist A die Vereinigung der paarweise disjunkten Mengen A ∩ B1 , A ∩ B2 , . . . , A ∩ BM , so dass M X P (A) = P (A ∩ Bj ). j=1 Ferner gilt für jeden Summanden auf der rechten Seite: P (A ∩ Bj ) = P (Bj )P (A | Bj ). Hieraus ergeben sich folgende Formeln: P (A) = M X P (Bj )P (A | Bj ), j=1 und für 1 ≤ i ≤ M ist P (Bi | A) = (vorausgesetzt, dass P (A) > 0). P (Bi )P (A | Bi ) P (Bi )P (A | Bi ) = PM P (A) j=1 P (Bj )P (A | Bj ) 3.3. BEDINGTE WAHRSCHEINLICHKEITEN 81 Beispiel 3.7 (Signalübertragung) Stellen wir uns ein Gerät vor, welches Nachrichten in “Wörter” aus der Menge {00, 01, 10, 11} zerlegt und diese überträgt. (Realistischer wäre die Übertragung von Bytes, also Vierertupeln von Bits, an Stelle von Paaren, aber dann werden die Tabellen zu unübersichtlich). Angenommen, die Übertragung ist nicht fehlerfrei. Um dies zu präzisieren betrachten wir die Ereignisse Bxy := [xy soll übertragen werden], Avw := [vw wird empfangen]. Die Wahrscheinlichkeiten der Ereignisse Bxy seien: xy P (Bxy ) 00 01 10 11 0.7 0.05 0.05 0.2 Angenommen, ein Wort wird mit Wahrscheinlichkeit 0.81 korrekt übertragen, mit Wahrscheinlichkeit 0.09 wird die erste (bzw. zweite) Ziffer korrekt und die zweite (bzw. erste) falsch übertragen, und mit Wahrscheinlichkeit 0.01 werden beide Ziffern falsch übertragen. Dann ergeben sich folgende Übertragungswahrscheinlichkeiten P (Avw | Bxy ): P (Avw | Bxy ) B00 B01 B10 B11 A00 0.81 0.09 0.09 0.01 A01 0.09 0.81 0.01 0.09 A10 0.09 0.01 0.81 0.09 A11 0.01 0.09 0.09 0.81 Für den Empfänger ist jetzt interessant, wie groß die bedingten Wahrscheinlichkeiten P (Bxy | Avw ) sind. Insbesondere möchte er wissen, mit welcher Wahrscheinlichkeit ein bestimmtes von ihm empfangenes Wort tatsächlich dem zu sendenden Wort entspricht. Zu diesem Zweck berechnen wir zunächst die Wahrscheinlichkeiten P (Avw ). Nach der Bayesschen Formel, Teil 1 ist X P (Avw ) = P (Bxy )P (Avw | Bxy ). xy=00,01,10,11 Beispielsweise ist P (A00 ) = 0.7 · 0.81 + 0.05 · 0.09 + 0.05 · 0.09 + 0.2 · 0.01 = 0.578. Hier sind alle Wahrscheinlichkeiten P (Avw ) als Tabelle: vw P (Avw ) 00 01 10 11 0.578 0.122 0.122 0.178 Nun ergeben sich die bedingten Wahrscheinlichkeiten P (Bxy | Avw ) nach der Bayesschen Formel, Teil 2: P (Bxy )P (Avw | Bxy ) P (Bxy | Avw ) = . P (Avw ) Beispielsweise ist 0.7 · 0.81 P (B00 | A00 ) = ≈ 0.9810. 0.578 Hier eine Tabelle mit allen bedingten Wahrscheinlichkeiten P (Bvw | Avw ) auf vier Nachkommastellen gerundet: vw 00 01 10 11 P (Bvw | Avw ) 0.9810 0.3320 0.3320 0.9101 82 3.4 KAPITEL 3. WAHRSCHEINLICHKEITSRECHNUNG Stochastische Unabhängigkeit Mitunter ist die bedingte Wahrscheinlichkeit P (A | B) identisch mit P (A). Aus der Sicht eines Glücksspielers, der auf das Eintreten von A wettet, ist dann das Ereignis B uninteressant. Die Gleichung P (A | B) = P (A) führt aber zu einem ganz wesentlichen Begriff der Wahrscheinlichkeitsrechnung, der stochastischen Unabhängigkeit. Mit diesem Begriff kann man präzisieren, was es bedeutet, mehrere Zufallsexperimente unabhängig voneinander durchzuführen. 3.4.1 Stochastische Unabhängigkeit zweier Ereignisse Zwei Ereignisse A und B heißen stochastisch unabhängig, wenn P (A ∩ B) = P (A)P (B). Im Falle von P (B) > 0 ist dies gleichbedeutend mit P (A | B) = P (A). Die stochastische Unabhängigkeit von A und B bleibt erhalten, wenn man A durch Ac oder B durch B c ersetzt! Denn beispielsweise ist P (A ∩ B c ) = P (A) − P (A ∩ B) = P (A) − P (A)P (B) = P (A)(1 − P (B)) = P (A)P (B c ). Beispiel 3.8 (Zweifacher Münzwurf) Eine Münze oder ein Reißnagel wird zweimal hintereinander geworfen. Kodieren wir die möglichen Ergebnisse durch Null oder Eins, so ist n o Ω = (0, 0), (0, 1), (1, 0), (1, 1) . Nun wollen wir beschreiben, dass die beiden Würfe unabhängig sind, und dass bei jedem Wurf die Eins mit Wahrscheinlichkeit p ∈ [0, 1] auftritt. Die Ereignisse A := [beim ersten Wurf eine Eins], B := [beim zweiten Wurf eine Eins] sollen also stochastisch unabhängig sein mit Wahrscheinlichkeit P (A) = P (B) = p. Dies bedeutet, dass P (A ∩ B) = P (A)P (B) = p2 , P (A ∩ B c ) = P (A)P (B c ) = p(1 − p), P (Ac ∩ B) = P (Ac )P (B) = (1 − p)p, P (Ac ∩ B c ) = P (Ac )P (B c ) = (1 − p)2 . 3.4. STOCHASTISCHE UNABHÄNGIGKEIT 83 Wir erhalten also einen diskreten Wahrscheinlichkeitsraum (Ω, P ) mit folgenden Wahrscheinlichkeitsgewichten p(ω): ω p(ω) 3.4.2 (0, 0) (0, 1) (1, 0) (1, 1) 2 (1 − p) p(1 − p) p(1 − p) p2 Stochastische Unabhängigkeit beliebig vieler Ereignisse Nun betrachten wir n ≥ 2 Ereignisse A1 , A2 , . . . , An . Diese nennt man stochastisch unabhängig, wenn für beliebige Zahlen 2 ≤ k ≤ n und Indizes 1 ≤ i(1) < i(2) < · · · < i(k) ≤ n gilt: P Ai(1) ∩ Ai(2) ∩ · · · ∩ Ai(k) = P (Ai(1) )P (Ai(2) ) · · · P (Ai(k) ). Paarweise Unabhängigkeit. Für die stochastische Unabhängigkeit der Ereignisse A1 , . . . , An genügt es nicht, dass P (Ai ∩ Aj ) = P (Ai )P (Aj ) für 1 ≤ i < j ≤ n. Als Gegenbeispiel betrachten wir Ω = {0, 1, 2, 3} mit der Laplaceverteilung P sowie die Ereignisse Ai := {0, i} für i = 1, 2, 3. Hier ist P (Ai ) = 2/4 = 0.5 P (Ai ∩ Aj ) = 1/4 = 0.52 für 1 ≤ i ≤ 3, für 1 ≤ i < j ≤ 3. Je zwei der drei Ereignisse sind also stochastisch unabhängig. Aber P (A1 ∩ A2 ∩ A3 ) = 1/4 6= 0.53 . Eine “zeitliche” Interpretation. Die stochastische Unabhängigkeit der Ereignisse A1 , . . . , An ist gleichbedeutend mit folgender Bedingung: Für eine beliebige Zahl 1 ≤ k < n sei B irgendein Ereignis, das mit Hilfe von A1 , . . . , Ak beschrieben werden kann. Dann sind B und Ak+1 stochastisch unabhängig. Komplementärereignisse. Die stochastische Unabhängigkeit der Ereignisse A1 , . . . , An bleibt erhalten, wenn man beliebig viele dieser Ereignisse durch ihre Komplementärereignisse ersetzt. (Der Beweis hierfür ist analog zu dem Beweis für zwei Ereignisse.) Noch eine andere Charakterisierung. Die stochastische Unabhängigkeit der Ereignisse A1 , ei gleich Ai oder Ac . . . . , An ist gleichbedeutend mit folgender Bedingung: Für 1 ≤ i ≤ n sei A i Dann ist stets e1 ∩ A e2 ∩ · · · ∩ A en = P (A e1 )P (A e2 ) · · · P (A en ). P A 84 KAPITEL 3. WAHRSCHEINLICHKEITSRECHNUNG Beispiel 3.9 (Dreifacher Münzwurf) Eine Münze oder ein Reißnagel wird dreimal hintereinander geworfen. Der Ereignisraum ist n o Ω = (ω1 , ω2 , ω3 ) : ω1 , ω2 , ω3 ∈ {0, 1} , besteht also aus 23 = 8 Elementen. Nun möchten wir eine diskrete Wahrscheinlichkeitsverteilung P auf Ω angeben, so dass die drei Würfe “unabhängig” sind und jeder Wurf mit einer Wahrscheinlichkeit p ∈ [0, 1] die Eins ergibt. Die drei Ereignisse Ai := [beim i–ten Wurf eine Eins] sollen also stochastisch unabhängig sein mit P (Ai ) = p. Dadurch ist P schon eindeutig festgelegt. Zum Beispiel ist A1 ∩ Ac2 ∩ Ac3 = {(1, 0, 0)} und soll Wahrscheinlichkeit p(1 − p)2 haben. So ergeben sich folgende Wahrscheinlichkeitsgewichte p(ω): ω p(ω) (0, 0, 0) (1 − p)3 (0, 0, 1) (0, 1, 0) p(1 − p)2 (1, 0, 0) ω p(ω) (0, 1, 1) (1, 0, 1) p2 (1 − p) (1, 1, 0) (1, 1, 1) p3 Beispiel 3.10 (n–facher Münzwurf) Eine Münze oder ein Reißnagel wird n–mal hintereinander geworfen. Der Ereignisraum ist n o Ω = (ω1 , ω2 , . . . , ωn ) : ω1 , ω2 , . . . , ωn ∈ {0, 1} mit 2n Elementen. Die einzelnen Würfe sollen “unabhängig” sein und jeweils mit Wahrscheinlichkeit p ∈ [0, 1] eine Eins ergeben. Dadurch sind die Wahrscheinlichkeitsgewichte p(ω) schon eindeutig festgelegt, und zwar ist p(ω) = pS(ω) (1 − p)n−S(ω) . Dabei ist S(ω) := Pn i=1 ωi , die Anzahl von Einsen in ω = (ω1 , . . . , ωn ). Zahlenbeispiele: Sei n = 10 und p = 0.3. Dann ist P [bei den zwei ersten Würfen eine Eins, dann nur noch Nullen] = p((1, 1, 0, . . . , 0)) = p2 (1 − p)n−2 = 0.32 · 0.78 ≈ 0.0052, P [insgesamt genau viermal eine Eins] X n 4 4 n−4 = p(ω) = # {ω ∈ Ω : S(ω) = 4} p (1 − p) = p (1 − p)n−4 4 ω∈Ω : S(ω)=4 10 = · 0.34 · 0.76 ≈ 0.2001, 4 P [mindestens eine Eins] = 1 − P [nur Nullen] = 1 − (1 − p)n = 1 − 0.710 ≈ 0.9718. 3.4. STOCHASTISCHE UNABHÄNGIGKEIT 85 Beispiel 3.11 (Berner “Geisterhaus”, Version I) Ein Radioreporter kommt nach Bern und fragt fünf Passanten in der Innenstadt, ob sie wissen, wo das “Geisterhaus” steht. Angenommen, in der Gesamtbevölkerung von Bern und seiner näheren Umgebung kennt jede zehnte Person die Antwort. Nun betrachten wir die Ereignisse Ai := [die i–te befragte Person weiß Bescheid] für i = 1, 2, . . . , 5. Wir unterstellen, dass diese stochastisch unabhängig sind mit P (Ai ) = 0.1. Dann ist P [keine befragte Person weiß Bescheid] = P (Ac1 ∩ Ac2 ∩ · · · ∩ Ac5 ) = P (Ac1 )P (Ac2 ) · · · P (Ac5 ) = 0.95 ≈ 0.591, P [genau zwei befragte Personen wissen Bescheid] 5 = · 0.12 · 0.93 ≈ 0.073. 2 Diese Überlegungen werden uns im Zusammenhang mit Binomialverteilungen noch einmal begegnen. Beispiel 3.12 (Das Geburtstagsproblem) Man fragt insgesamt n verschiedene Personen nach ihren Geburtstagen. Nun wüssten wir gerne, mit welcher Wahrscheinlichkeit mindestens zwei Personen am gleichen Tag Geburtstag haben. (Dabei nehmen wir an, dass 2 ≤ n ≤ 365.) Hierzu benötigt man erst ein geeignetes Modell. Wir vernachlässigen die Schaltjahre und den 29. Februar und gehen von 365 möglichen Geburtstagen aus. Ansatz 1. Die Liste der n Geburtstage bezeichnen wir mit ω = (ω1 , ω2 , . . . , ωn ). Die Menge Ω aller dieser Listen hat 365n Elemente. Das Ereignis A, dass alle n Befragten an verschiedenen Tagen Geburtstag haben, besteht aus 365 · 364 · · · (365 − n + 2) · (365 − n + 1) = [365]n möglichen Listen. Also ist die Laplace–Wahrscheinlichkeit von A gleich P [alle n Personen haben unterschiedliche Geburtstage] = [365]n [364]n−1 = . n 365 365n−1 Ansatz 2. Wir stellen uns vor, dass bei jeder Befragung rein zufällig einer der 365 möglichen Geburtstage auftritt, und zwar unabhängig von den vorangegangenen Befragungen. Definiert man das Ereignis Bi := [keine doppelten Geburtstage bei den ersten i Befragungen] für 1 ≤ i ≤ n, dann ist B1 ⊃ B2 ⊃ B3 ⊃ · · · mit P (B1 ) = 1 und P (Bi+1 | Bi ) = 365 − i . 365 86 KAPITEL 3. WAHRSCHEINLICHKEITSRECHNUNG Denn nach Eintreten von Bi stehen in der (i+1)–ten Ziehung genau 365−i von 365 Geburtstagen zur Auswahl, wenn auch Bi+1 eintreten soll. Also ist P [alle n Personen haben unterschiedliche Geburtstage] = P (Bn ) = P (Bn−1 )P (Bn | Bn−1 ) = P (Bn−2 )P (Bn−1 | Bn−2 )P (Bn | Bn−1 ) .. . = P (B1 ) P (B2 | B1 )P (B3 | B2 ) · · · P (Bn−1 | Bn−2 )P (Bn | Bn−1 ) 365 − n + 2 365 − n + 1 364 363 · ··· · = 1· 365 365 365 365 [364]n−1 = . 365n−1 Zahlenbeispiele. Hier einige Zahlenwerte auf vier Nachkommastellen gerundet: n [364]n−1 365n−1 3.5 10 15 20 25 30 40 50 0.8831 0.7471 0.5886 0.4313 0.2937 0.1088 0.0296 Zufallsvariablen und deren Verteilung Wie bisher betrachten wir ein Zufallsexperiment, das durch einen Grundraum Ω und eine Wahrscheinlichkeitsverteilung P auf Ω beschrieben wird. Oftmals interessiert man sich nur für einen Teilaspekt des Experiments. Dies kann man durch eine Abbildung X : Ω → X beschreiben. Jedem Elementarereignis ω wird ein Wert X(ω) im Wertebereich X zugeordnet. Die Abbildung X nennen wir eine Zufallsvariable auf (Ω, P ) mit Werten in X oder einfach eine Zufallsvariable. Die Bezeichnung ‘Zufallsvariable’ anstelle von ‘Abbildung’ bringt zum Ausdruck, dass der Definitionsbereich Ω von X mit einer Wahrscheinlichkeitsverteilung P versehen ist. Für eine beliebige Menge B ⊂ X ist die Wahrscheinlichkeit, dass X einen Wert in B annimmt, gleich P (X ∈ B) := P ({ω ∈ Ω : X(ω) ∈ B}) . Als Funktion von B definiert dies eine Wahrscheinlichkeitsverteilung auf X , welche wir manchmal mit P X bezeichnen, also P X (B) := P (X ∈ B). Man nennt P X die Verteilung der Zufallsvariable X; siehe auch Abbildung 3.3. Ist der Wertebereich X endlich oder abzählbar, dann ist P X eine diskrete Wahrscheinlichkeitsverteilung, die durch die Gewichte P (X = x) für x ∈ X eindeutig festgelegt ist. Beispiel 3.13 (Augensumme zweier Würfel) Zwei (ideale) Würfel werden geworfen. Der entsprechende Grundraum Ω besteht aus allen 36 Paaren ω = (ω1 , ω2 ) zweier Zahlen aus {1, . . . , 6}, und P sei die Laplace-Verteilung hierauf. In manchen Spielen (z.B. “Die Siedler von Catan”) kommt es nur auf die Augensumme an. Wir betrachten daher folgende Zufallsvariable X: X(ω) := ω1 + ω2 . 3.5. ZUFALLSVARIABLEN UND DEREN VERTEILUNG 87 ' ' $ $ ' $ X : $ ' & % P (X ∈ B) & P X (B) B % {ω : X(ω) ∈ B} & & X% % Ω Abbildung 3.3: Zufallsvariable und deren Verteilung Die Menge der möglichen Werte von X ist X := {2, 3, . . . , 12}. Es ist P (X = 2) = P ({(1, 1)}) = 1 , 36 P (X = 3) = P ({(1, 2), (2, 1)}) = 2 , 36 P (X = 4) = P ({(1, 3), (2, 2), (3, 1)}) = 3 , 36 .. . P (X = 7) = P ({(1, 6), (2, 5), . . . , (5, 2), (6, 1)}) = P (X = 8) = P ({(2, 6), (3, 5), . . . , (6, 2)}) = 6 , 36 5 , 36 .. . P (X = 12) = P ({(6, 6)}) = 1 . 36 Als geschlossene Formel erhalten wir P (X = k) = 6 − |k − 7| 36 für k = 2, 3, . . . , 12. Abbildung 3.4 zeigt ein Stabdiagramm dieser Wahrscheinlichkeiten. Beispiel 3.14 (Ziehung der Lottozahlen) Bei der (Schweizer) Ziehung der Lottozahlen werden aus einer Urne mit 45 Kugeln rein zufällig nacheinander sechs Kugeln gezogen, ohne bereits gezogene Kugeln zurückzulegen. Der entsprechende Grundraum Ω besteht aus allen Tupeln ω = (ω1 , . . . , ω6 ) von sechs verschiedenen Zahlen aus {1, 2, . . . , 45}. Es gibt 45 · 44 · · · 41 · 40 = [45]6 ≈ 5.8644 · 109 88 KAPITEL 3. WAHRSCHEINLICHKEITSRECHNUNG 0.18 0.16 0.14 P(X = k) 0.12 0.1 0.08 0.06 0.04 0.02 0 2 3 4 5 6 7 k 8 9 10 11 12 Abbildung 3.4: Augensumme zweier Würfel solche Elementarereignisse. Nun sei P die Laplace-Verteilung hierauf. Nach der eigentlichen Ziehung werden die Zahlen der Größe nach sortiert; es kommt also nur auf die Menge X(ω) := {ω1 , . . . , ω6 } an. Dies definiert eine Zufallsvariable X auf (Ω, P ) mit Wertebereich n o X := alle sechs–elementigen Teilmengen von {1, 2, . . . , 45} . Zu jeder Menge {k1 , . . . , k6 } in X gibt es genau 6! Elemtarereignisse ω mit X(ω) = {k1 , . . . , k6 }, nämlich alle 6! Permutationen von (k1 , . . . , k6 ). Daher ist −1 6! 45 P (X = {k1 , . . . , k6 }) = = ≈ 1.2277 · 10−7 . [45]6 6 Mit anderen Worten, X ist uniform verteilt (Laplace-verteilt) auf der Menge X , die aus 45 6 verschiedenen Teilmengen von {1, 2, . . . , 45} besteht. Eine Verbindung zur deskriptiven Statistik Bei der deskriptiven Statistik betrachteten wir “Variablen”, und nun untersuchen wir “Zufallsvariablen”. Den Zusammenhang zwischen beiden Konzepten kann man an folgendem Beispiel erkennen: Sei Ω eine Population, und für jedes Individuum ω ∈ Ω seien X(ω), Y (ω), Z(ω) die Werte dreier Variablen. Beispielsweise sei Ω die Menge aller wahlberechtigten Schweizerinnen und Schweizer, und X(ω) := Alter von Person ω, Y (ω) := Geschlecht von Person ω, Z(ω) := die von Person ω derzeit bevorzugte Partei bei Nationalratswahlen. 3.6. SPEZIELLE VERTEILUNGEN 89 Wenn man nun eine Person ω aus Ω rein zufällig auswählt, dann sind X, Y, Z Zufallsvariablen auf (Ω, P ), wobei P die Laplaceverteilung auf Ω bezeichnet. Die Verteilungen P X , P Y und P Z beschreiben dann die prozentuale Zusammensetzung der Population in Bezug auf diese Merkmale. Im konkreten Beispiel etwa ist P X ((0 Jahre, 65 Jahre]) = P (X ≤ 65 Jahre) = P Z ({SVP}) = P (Z = SVP) = 3.6 #{ω ∈ Ω : X(ω) ≤ 65 Jahre} , #Ω #{ω ∈ Ω : Y (ω) = SVP} . #Ω Spezielle Verteilungen In den folgenden Abschnitten leiten wir vier Typen von Verteilungen her, die in vielen Anwendungen eine wichtige Rolle spielen. Insbesondere interessieren wir uns für Verteilungen, die im Zusammenhang mit Stichprobenerhebungen auftreten. 3.6.1 Hypergeometrische Verteilungen Wir gehen von folgendem Urnenmodell aus: Eine Urne enthalte N Kugeln, von denen L markiert sind. Nun ziehen wir rein zufällig und ohne Zurücklegen n Kugeln aus der Urne. Wir betrachten also den Grundraum Ω aller Stichproben ω = (ω1 , ω2 , . . . , ωn ) von n verschiedenen Kugeln aus der Urne. Dieser Grundraum besteht aus N (N − 1) · · · (N − n + 1) = [N ]n Stichproben. Nun interessieren wir uns für die Zahl X(ω) := Anzahl markierter Kugeln in der Stichprobe ω. Diese Zufallsvariable kann Werte in {0, 1, . . . , n} annehmen. Genauer gesagt, ist X ∈ max(0, n + L − N ), . . . , min(n, L) , denn X kann auch nicht größer sein als die Zahl L aller markierten Kugeln in der Urne, und n−X kann nicht größer sein als die Zahl N − L aller unmarkierten Kugeln. Herleitung 1 der Verteilung von X. Für k ∈ {0, 1, . . . , n} ist n #{ω ∈ Ω : X(ω) = k} = (bei welchen Ziehungen treten markierte Kugeln auf) k ·[L]k (wähle dann k markierte Kugeln) ·[N − L]n−k (wähle dann n − k unmarkierte Kugeln). Folglich ist n [L]k [N − L]n−k . P (X = k) = [N ]n k 90 KAPITEL 3. WAHRSCHEINLICHKEITSRECHNUNG Herleitung 2 der Verteilung von X. Für die Zufallsvariable X ist die Reihenfolge der Ziehungen unerheblich. Wir können das Zufallsexperiment auch so beschreiben, dass wir rein zufällig eine n–elementige Menge von Kugeln auswählen. Es gibt insgesamt N n solche Mengen. Außer N −L L dem gibt es k · n−k Teilmengen mit genau k markierten und n − k unmarkierten Kugeln. Also ist L N −L . N P (X = k) = . k n−k n (Dabei verwenden wir stets die Konventionen, dass ab := 0 falls b > a oder b < 0.) Anmerkung 1. Die Ergebnisse dieser beiden Herleitungen sehen unterschiedlich aus, sind aber identisch. Denn . L N −L . N L! (N − L)! N! = · k n−k n k!(L − k)! (n − k)!(N − L − n + k)! n!(N − n)! [L]k [N − L]n−k . [N ]n · = k! (n − k)! n! [L]k [N − L]n−k n! · = k!(n − k)! [N ]n n [L]k [N − L]n−k . = [N ]n k Anmerkung 2. Die Verteilung von X bleibt die gleiche, wenn man die Zahlen L und n vertauscht. Man könnte also ebensogut aus einer Urne mit insgesamt n markierten Kugeln eine Stichprobe vom Umfang L ziehen. Diese Symmetrie in L und n sieht man deutlich, wenn man schreibt L N −L . N L!n!(N − L)!(N − n)! = . k n−k n k!(L − k)!(n − k)!(N − L − n + k)!N ! Definition 3.15 (Hypergeometrische Verteilung) Die hypergeometrische Verteilung mit Parametern N , L, n ist die diskrete Wahrscheinlichkeitsverteilung auf {0, 1, 2, . . .} mit Wahrscheinlichkeitsgewichten L N −L . N hN,L,n (k) := . k n−k n Als Symbol für diese Verteilung verwenden wir Hyp(N, L, n). Eine Zufallsvariable mit Verteilung Hyp(N, L, n) heißt hypergeometrisch verteilt mit Parametern N , L, n. Beispiel 3.14 (Ziehung der Lottozahlen, Forts.) Hier hat man tatsächlich eine Urne mit N = 45 Kugeln und zieht eine Stichprobe vom Umfang n = 6. (a) Aus Sicht eines bestimmten Lottospielers, der genau einen Tipp abgegeben hat, ist entscheidend, welche der von ihm angekreuzten Zahlen bei der Ziehung dabei sind. Er betrachtet also L = 6 von ihm “markierte” Kugeln, und die Zufallsgröße X := Anzahl seiner richtigen Tipps 3.6. SPEZIELLE VERTEILUNGEN 91 ist hypergeometrisch verteilt mit Parametern 45, 6, 6. Demnach ist 6 [6]0 [39]6 1 · [39]6 P (X = 0) = · = 1· ≈ 0.4006, 0 [45]6 [45]6 6 · [39]5 6 [6]1 [39]5 = 6· ≈ 0.4241, P (X = 1) = · [45]6 [45]6 1 [6]2 · [39]4 6 [6]2 [39]4 = 15 · ≈ 0.15515. P (X = 2) = · [45]6 [45]6 2 0.0 0.1 0.2 0.3 0.4 Abbildung 3.5 zeigt ein Stabdiagramm mit allen sieben strikt positiven (!) Gewichten h45,6,6 (k). 0 1 2 3 4 5 6 Abbildung 3.5: Stabdiagramm der Gewichte h45,6,6 (k) von Hyp(45, 6, 6) (b) Erfahrungsgemäß werden von Lottospielern mehr ungerade als gerade Zahlen angekreuzt. Deshalb betrachten wir nun die Zufallsvariable X := Anzahl der ungeraden unter den sechs Lottozahlen. Diese ist hypergeometrisch verteilt mit Parametern 45, 23, 6. Abbildung 3.6 zeigt ein Stabdiagramm der entsprechenden Gewichte h45,23,6 (k). Das größte Gewicht liegt auf der Zahl Drei. Die Verteilung ist nicht ganz symmetrisch um den Wert Drei, da sich in der Urne 23 Kugeln mit ungerader und nur 22 mit gerader Zahl befinden. Beispiel 3.16 (Berner “Geisterhaus”, Version II) Wir betrachten die gleiche Situation wie in Beispiel 3.11, stellen uns allerdings vor, dass der Reporter nicht in der Innenstadt sondern in einer KAPITEL 3. WAHRSCHEINLICHKEITSRECHNUNG 0.00 0.05 0.10 0.15 0.20 0.25 0.30 92 0 1 2 3 4 5 6 Abbildung 3.6: Stabdiagramm der Gewichte h45,23,6 (k) von Hyp(45, 23, 6) Lehrveranstaltung mit 100 Teilnehmenden rein zufällig fünf davon befragt. Die Zufallsvariable X := Anzahl der “Wissenden” unter den fünf Befragten ist hypergeometrisch verteilt mit Parametern 100, 10, 5. Die folgende Tabelle enthält die entsprechenden Wahrscheinlichkeiten h100,10,5 (k) auf vier Nachkommastellen gerundet: k h100,10,5 (k) 0 1 2 3 4 5 0.5838 0.3394 0.0702 0.0064 0.0003 0.0000 (Ein genauerer Wert für h100,10,5 (5) ist 3.35 · 10−6 .) Mit einer Wahrscheinlichkeit von knapp 60% weiß niemand der Befragten Bescheid, obwohl immerhin 10 der einhundert Personen eingeweiht sind. Beispiel 2.11 (Experiment mit ManagerInnen, Forts.) Eine naheliegende Frage ist, ob dieses Datenbeispiel belegt, dass Männer gegenüber Frauen bevorzugt werden. Angenommen, es gibt keine Diskriminierung, sondern die 48 ManagerInnen urteilten objektiv. Dann sind 35 von ihnen der Meinung, dass Herr oder Frau XY befördert werden sollte, und 13 von ihnen halten dies für falsch. Nun konzentrieren wir uns auf die Zahl X := Anzahl Beförderungen von Herrn XY, 3.6. SPEZIELLE VERTEILUNGEN 93 also den Tabelleneintrag links oben. Wegen der rein zufälligen Aufteilung der ManagerInnen in zwei gleich große Gruppen (Beurteilung von Herrn XY bzw. Frau XY) handelt es sich um eine Zufallsvariable mit Verteilung Hyp(48, 35, 24). Der effektive Wertebereich von X ist {11, 12, . . . , 24}, denn Herr XY muss mindestens 35 − 24 = 11 mal befördert werden. Außerdem kann man zeigen, dass hier h48,35,24 (k) = h48,35,24 (35 − k) für k = 0, 1, 2, . . .; siehe Übungen. Hier eine Tabelle der entsprechenden Wahrscheinlichkeiten P (X = k): k P (X = k) 11, 24 12, 23 13, 22 14, 21 15, 20 16, 19 17, 18 0.0000 0.0003 0.0036 0.0206 0.0720 0.1620 0.2415 (Es ist h48,35,24 (11) = h48,35,24 (24) ≈ 1.294 · 10−5 .) Im Zusammenhang mit statistischen Tests werden wir auf dieses Beispiel noch einmal zurückkommen. Betrachten wir noch einmal die erste Herleitung der Verteilung von X: Die Ereignisse A1 , A2 , . . . , An mit Ai := [bei der i–ten Ziehung eine markierte Kugel] haben zwar ein und dieselbe Wahrscheinlichkeit P (Ai ) = L . N Aber sie sind nicht stochastisch unabhängig. Denn bei jeder Ziehung verändert sich die Zusammensetzung der Urne. Bei großen Quotienten N/n ist dieser Effekt sehr gering, und man kann näherungsweise mit unabhängigen Ereignissen rechnen. Dies führt dann zu der im nächsten Abschnitt behandelten Binomialverteilung. 3.6.2 Binomialverteilungen Nun betrachten wir ein Zufallsexperiment mit stochastisch unabhängigen Ereignissen A1 , A2 , . . . , An , wobei P (Ai ) = p für eine Zahl p ∈ [0, 1]. Hier zwei konkrete Beispiele: • n–facher Münzwurf. Eine Münze wird n mal geworfen, und Ai ist das Ereignis, dass beim i–ten Wurf “Zahl” auftritt. Anstelle des Wurfes einer Münze oder eines Reißnagels kann man auch an andere Experimente denken. Beispielsweise sei p die Wahrscheinlichkeit, dass ein bestimmtes Gerät bei einer bestimmten Belastung ausfällt. Um etwas über p herauszufinden, werden n gleichartige Geräte einem Belastungstest unterworfen, und wir betrachten das Ereignis Ai , dass Gerät Nr. i ausfällt. 94 KAPITEL 3. WAHRSCHEINLICHKEITSRECHNUNG • Stichprobenziehen. Aus einer Urne mit N Kugeln, von denen L = N p markiert sind, wird n–mal rein zufällig eine Kugel gezogen. Nun betrachten wir das Ereignis Ai , dass bei der i–ten Ziehung eine markierte Kugel auftritt. Diese Ereignisse haben jeweils Wahrscheinlichkeit p. Sie sind stochastisch unabhängig, wenn wir mit Zurücklegen ziehen. Das heißt, nach jeder Ziehung wird die die Kugel wieder in die Urne zurückgelegt. Sie sind näherungsweise stochastisch unabhängig, wenn wir ohne Zurücklegen ziehen, aber die Gesamtzahl N aller Kugeln sehr groß ist im Vergleich zum Stichprobenumfang n. Anstelle einer Urne mit N Kugeln kann man beispielsweise auch an eine Population von Personen denken. Von diesen Personen werden n rein zufällig ausgewählt und befragt. Dann sei Ai das Ereignis, dass die i–te befragte Person auf eine bestimmte Frage mit ‘Ja’ antwortet. Nun zählen wir, wieviele der n Ereignisse Ai tatsächlich eintreten. Wir betrachten also die Zufallsvariable n X X := Xi i=1 mit Xi := 1 wenn Ereignis Ai eintritt, 0 wenn Ereignis Ai nicht eintritt. Die möglichen Werte von X sind 0, 1, . . . , n. Für einen solchen Wert k ist P (X = k) = n k p (1 − p)n−k . k Denn das Ereignis [X = k] kann man zerlegen in n k disjunkte Ereignisse der Form e1 ∩ A e2 ∩ · · · ∩ A en , A ei = Ai für genau k Indizes i, und A fi = Ac für genau n − k Indizes i. Ferner ist wobei A i e1 ∩ A e2 ∩ · · · ∩ A en ) = P (A e1 )P (A e2 ) · · · P (A en ) = pk (1 − p)n−k P (A wegen der stochastischen Unabhängigkeit der Ai . Definition 3.17 (Binomialverteilung) Die Binomialverteilung mit Parametern n ∈ {1, 2, 3, . . .} und p ∈ [0, 1] ist die diskrete Wahrscheinlichkeitsverteilung auf {0, 1, . . . , n} mit Wahrscheinlichkeitsgewichten n k bn,p (k) := p (1 − p)n−k . k Als Symbol für diese Verteilung verwenden wir Bin(n, p). Eine Zufallsvariable mit Verteilung Bin(n, p) heißt binomialverteilt mit Parametern n und p. 3.6. SPEZIELLE VERTEILUNGEN 95 Zum Verlauf der Gewichtsfunktion bn,p (·) Für 0 < p < 1 wollen wir herausfinden, an welcher Stelle die Gewichtsfunktion bn,p (·) maximal ist. Dazu betrachten wir für 1 ≤ k ≤ n die Differenz [n]k−1 k−1 [n]k k p (1 − p)n−k − p (1 − p)n−k+1 k! (k − 1)! [n]k−1 k−1 p (1 − p)n−k · (n − k + 1)p − k(1 − p) = k! [n]k−1 k−1 = p (1 − p)n−k · (n + 1)p − k . | k! {z } bn,p (k) − bn,p (k − 1) = >0 Also ist < = b (k) bn,p (k − 1) n,p > genau dann, wenn < = k (n + 1)p. > Wenn also m := (n + 1)p eine ganze Zahl ist, dann ist bn,p (0) < bn,p (1) < · · · < bn,p (m − 1) = bn,p (m) > bn,p (m + 1) > · · · > bn,p (n). Ist dagegen m < (n + 1)p < m + 1 für eine ganze Zahl m, dann ist bn,p (0) < bn,p (1) < · · · < bn,p (m) > bn,p (m + 1) > · · · > bn,p (n). Grob gesagt sind die Gewichte bn,p (k) maximal, wenn k/n in etwa gleich p ist. Illustration der Gewichtsfunktion bn,p (·) Wir zeigen für diverse Parameterpaare (n, p) Stabdiagramme der Gewichte bn,p (k), wobei wir auf der horizontalen Achse nicht k ∈ {0, 1, . . . , n}, sondern k/n ∈ [0, 1] auftragen. Dies hat den Vorteil, dass man den Einfluss des Parameters n (Stichprobenumfang) besser sieht. In Abbildung 3.7 zeigen wir für n = 10 und p = 0.33, 0.5, 0.8, 0.99 jeweils ein Stabdiagramm der Gewichte bn,p (k). Man sieht, wie die Verteilung mit p “von links nach rechts wandert”. In Abbildung 3.8 fixieren wir p = 0.33 und zeigen die Gewichtsfunktionen bn,p (·) für n = 20, 30, 50, 100. Nun sieht man deutlich, dass die Verteilung von X/n mit wachsendem n näher an der Stelle p konzentriert ist. Beispiel 3.18 (Fünffacher Münzwurf) Eine perfekte Münze wird fünfmal geworfen, und wir betrachten die Anzahl X von Würfen, bei denen “Zahl” auftritt. Diese Zufallsvariable X ist binomialverteilt mit Parametern n = 5 und p = 1/2. Also gilt für eine beliebige Zahl k ∈ {0, 1, . . . , 5}: . n k n 5 n−k n P (X = k) = p (1 − p) = (1/2) = 32. k k k Beispielsweise ist P (X ≥ 2) = 1 − P (X = 0) − P (X = 1) = 1 − 1/32 − 5/32 = 13/16 = 0.8125. 96 KAPITEL 3. WAHRSCHEINLICHKEITSRECHNUNG Bin(10, 0.33) Bin(10, 0.5) 0.25 0.25 0.2 bn,p(k) bn,p(k) 0.2 0.15 0.1 0.1 0.05 0.05 0 0.15 0 0.1 0.2 0.3 0.4 0.5 k/n 0.6 0.7 0.8 0.9 0 1 0 0.1 0.2 0.3 0.4 Bin(10, 0.8) 0.5 k/n 0.6 0.7 0.8 0.9 1 0.6 0.7 0.8 0.9 1 Bin(10, 0.99) 0.9 0.3 0.8 0.25 0.7 0.6 bn,p(k) bn,p(k) 0.2 0.15 0.5 0.4 0.3 0.1 0.2 0.05 0.1 0 0 0.1 0.2 0.3 0.4 0.5 k/n 0.6 0.7 0.8 0.9 1 0 0 0.1 0.2 0.3 0.4 0.5 k/n Abbildung 3.7: Gewichte von Bin(10, p) für p = 0.33, 0.5, 0.8, 0.99. Beispiel 3.19 (Qualitätskontrolle) Sei p die Wahrscheinlichkeit, dass eine bestimmte Art von Gerät bei einer bestimmten Belastung ausfällt. Um etwas über p zu erfahren, werden n gleichartige Geräte dieser Belastung ausgesetzt, und man bestimmte die Zahl X der Testgeräte, welche ausfallen. Beispielsweise gilt im Falle von n = 20 und p = 0.07: P (X = 0) = (1 − p)n = 0.9320 ≈ 0.2342. Angenommen, der Hersteller möchte sicherstellen, dass die ihm unbekannte Ausfallwahrscheinlichkeit p kleiner ist als ein bestimmter Wert po . Hierzu könnte er obige Testserie durchführen und wie folgt reagieren: Wenn alle Testgeräte intakt bleiben (X = 0), behauptet er, dass p < po . Wenn aber eines oder mehrere Testgeräte ausfallen (X > 0), so werden die Geräte grundlegend überarbeitet. Eine unangenehme Situation bei dieser Vorgehensweise wäre, dass X = 0, obwohl p ≥ po . Dies kann man nie mit völliger Sicherheit ausschließen! Aber im Falle von p ≥ po ist P (X = 0) = (1 − p)n ≤ (1 − po )n , 3.6. SPEZIELLE VERTEILUNGEN 97 Bin(20, 0.33) Bin(30, 0.33) 0.2 0.16 0.18 0.14 0.16 0.12 0.14 0.1 bn,p(k) bn,p(k) 0.12 0.1 0.08 0.08 0.06 0.06 0.04 0.04 0.02 0.02 0 0 0.1 0.2 0.3 0.4 0.5 k/n 0.6 0.7 0.8 0.9 0 1 0 0.1 0.2 0.3 0.4 Bin(50, 0.33) 0.5 k/n 0.6 0.7 0.8 0.9 1 0.6 0.7 0.8 0.9 1 Bin(100, 0.33) 0.09 0.12 0.08 0.1 0.07 0.06 bn,p(k) bn,p(k) 0.08 0.06 0.05 0.04 0.03 0.04 0.02 0.02 0.01 0 0 0.1 0.2 0.3 0.4 0.5 k/n 0.6 0.7 0.8 0.9 1 0 0 0.1 0.2 0.3 0.4 0.5 k/n Abbildung 3.8: Gewichte von Bin(n, 0.33) für n = 20, 30, 50, 100. und die rechte Seite wird mit wachsendem n beliebig klein. Sie ist kleiner oder gleich einer vorgegebenen Schranke α ∈ (0, 1) genau dann, wenn n ≥ log(α) . log(1 − po ) Dann kann der Hersteller im Falle von X = 0 mit einer Sicherheit von 1 − α davon ausgehen, dass p < po . Zahlenbeispiel. Der Hersteller strebt an, dass p kleiner ist als po = 0.1, und aus seiner Testserie möchte er mit Wahrscheinlichkeit höchstens α = 0.05 einen Fehlschluss ziehen. Somit muss gelten: log(0.05) ≈ 28.433. n ≥ log(0.9) Wenn er also mindestens 29 Geräte testet und keines davon ausfällt, dann kann er mit einer Sicherheit von 1 − α = 0.95 davon ausgehen, dass die unbekannte Ausfallwahrscheinlichkeit kleiner ist als po = 0.1. Dieses Beispiel ist schon ein Spezialfall sogenannter statistischer Tests, die wir im zweiten Teil der Veranstaltung systematisch behandeln werden. 98 KAPITEL 3. WAHRSCHEINLICHKEITSRECHNUNG Beispiel 3.20 (Pseudozufallsfolgen) Bei der Befragung von Vorlesungsteilnehmenden im akad. Jahr 2006/2007 wurde unter anderem um eine “rein zufällige” 0-1-Folge der Länge Zehn gebeten. Dies führte zu n = 201 Tupeln ω = (ω1 , ω2 , . . . , ω10 ) ∈ {0, 1}10 . Erfahrungsgemäß tendieren Menschen bei dieser Aufgabe (i) zu Folgen mit ungefähr gleich vielen Nullen wie Einsen und (ii) Folgen mit zu vielen Wechseln zwischen aufeinanderfolgenden Ziffern. Definieren wir X(ω) := Y (ω) := 10 X i=1 9 X ωi (Anzahl von Einsen in ω), 1{ωi 6= ωi+1 } (Anzahl Wechseln in ω), i=1 Dann wären X ∼ Bin(10, 0.5) und Y ∼ Bin(9, 0.5), wenn man tatsächlich ω ∈ {0, 1}10 rein zufällig wählt. Abbildungen 3.9 und 3.10 zeigen Stabdiagramme der Gewichte dieser Binomialverteilungen zusammen mit den relativen Häufigkeiten der n = 201 X– bzw. Y –Werte in der Stichprobe. Man erkennt deutlich die Tendenz zu Folgen ω, die “ausgeglichenen” sind (X(ω) = 5) und viele Wechsel beinhalten (Y (ω) ≥ 5). Abbildung 3.9: Theoretische und empirische Verteilung von X in Beispiel 3.20 3.6. SPEZIELLE VERTEILUNGEN 99 Abbildung 3.10: Theoretische und empirische Verteilung von Y in Beispiel 3.20 3.6.3 Geometrische Verteilungen Nun behandeln wir eine Klasse von Verteilungen, die im Zusammenhang mit Wartezeiten oft auftreten. Wir betrachten ein Zufallsexperiment, bei welchem ein bestimmtes Ereignis mit Wahrscheinlichkeit p eintritt. Nun wiederholen wir das Experiment unabhängig und so oft, bis dieses Ereignis erstmalig eintritt. Die Frage ist, wie viele Wiederholungen des Experiments durchgeführt werden müssen. Um dies präziser zu beschreiben, fassen wir die unabhängigen Wiederholungen des Experiments zu einem Gesamtexperiment (Ω, P ) zusammen. Es seien A1 , A2 , A3 , . . . stochastisch unabhängige Ereignisse mit P (A1 ) = P (A2 ) = P (A3 ) = · · · p ∈ (0, 1]. Nun betrachten wir die Zufallsvariable n o X := min k ≥ 1 : Ak tritt ein . Falls keines der Ereignisse Ai eintritt, definieren wir X = ∞. Dies passiert allerdings mit Wahrscheinlichkeit Null. Die Frage ist nun, wie diese Zufallsvariable X verteilt ist. Es ist [X = 1] = A1 , [X = 2] = Ac1 ∩ A2 , [X = 3] = Ac1 ∩ Ac2 ∩ A3 , und allgemein gilt für k > 1: [X = k] = Ac1 ∩ · · · ∩ Ack−1 ∩ Ak . 100 KAPITEL 3. WAHRSCHEINLICHKEITSRECHNUNG Die Wahrscheinlichkeit dieses Ereignisses ist gleich P (Ac1 ∩ · · · ∩ Ack−1 ∩ Ak ) = P (Ac1 ) · · · P (Ack−1 )P (Ak ) = (1 − p)k−1 p. Zusammen mit dem Spezialfall P (X = 1) = P (A1 ) = p = (1 − p)0 p ergibt sich folgende Formel: P (X = k) = (1 − p)k−1 p für k = 1, 2, 3, . . . . Für eine beliebige natürliche Zahl k ist das Ereignis [X > k] identisch mit Ac1 ∩ Ac2 ∩ · · · ∩ Ack , und dieses Ereignis hat Wahrscheinlichkeit (1 − p)k . Wir erhalten also die allgemeine Formel P (X > k) = (1 − p)k für k = 0, 1, 2, . . . . Da der Faktor 1 − p strikt kleiner ist als Eins, konvergiert (1 − p)k für k → ∞ gegen Null. Somit hat das Ereignis [X = ∞] ⊂ [X > k] Wahrscheinlichkeit Null: P (X = ∞) = 0. Definition 3.21 (Geometrische Verteilung) Die geometrische Verteilung mit Parameter p ∈ (0, 1] ist die diskrete Wahrscheinlichkeitsverteilung auf {1, 2, 3, . . .} mit Wahrscheinlichkeitsgewichten gp (k) := (1 − p)k−1 p. Als Symbol für diese Verteilung verwenden wir Geom(p). Eine Zufallsvariable mit Verteilung Geom(p) heißt geometrisch verteilt mit Parameter p. Beispiel 3.11 (Berner Geisterhaus, Version I, Forts.) Wir betrachten nochmals den Radioreporter, der Passanten in der Berner Innenstadt nach dem Geisterhaus fragt. Angenommen, er befragt nicht eine feste Zahl (n) von Personen, sondern er möchte wirklich zu diesem Haus gehen und benötigt dessen Adresse. Nun sei X die Zahl der Personen, welche er befragen muss, um diese Auskunft zu erhalten. Gehen wir davon aus, dass er bei einer einzelnen Befragung mit Wahrscheinlichkeit 10% Erfolg hat und die einzelnen Befragungen stochastisch unabhängig sind, dann ist X geometrisch verteilt mit Parameter p = 0.1. Insbesondere ist P (X > 10) = 0.910 ≈ 0.3487, P (X > 20) = 0.920 ≈ 0.1216, P (X > 30) = 0.930 ≈ 0.0424. Beispiel 3.22 (Garantiefälle) Für einen bestimmten Typ von Gerät sei die Wahrscheinlichkeit, dass es innerhalb der Garantiefrist ausfällt, gleich 0.07. Nun werden beliebig viele solche Geräte nacheinander verkauft, und wir betrachten die Anzahl X der verkauften Geräte bis zum ersten Garantiefall. Beispielsweise ist [X = 5] das Ereignis, dass die ersten vier verkauften Geräte die 3.6. SPEZIELLE VERTEILUNGEN 101 Garantiezeit durchhalten aber beim fünften Gerät reklamiert wird. Hier ist X geometrisch verteilt mit Parameter p = 0.07. Beispielsweise ist P [keine Reklamationen bei den ersten k verkauften Geräten] 0.4840 für k = 10, = P (X > k) = 0.93k ≈ 0.1630 für k = 25. Beispiel 3.23 (“Mensch ärgere Dich nicht” bzw. “Eile mit Weile”) Bei diesem Brettspiel kommt es in einigen Situationen darauf an, möglichst bald eine Sechs zu würfeln. Im Falle eines idealen Würfels liefert ein einzelner Wurf mit Wahrscheinlichkeit 1/6 eine Sechs. Die Anzahl X von Versuchen bis zur ersten Sechs ist also geometrisch verteilt mit Parameter p = 1/6. Beispielsweise ist P (X > 3) = (5/6)3 ≈ 0.5787, P (X > 9) = (5/6)9 ≈ 0.1938. Manche naive Spieler denken, je öfter sie bereits erfolglos um eine Sechs gewürfelt haben, desto höher sind ihre Chancen beim nächsten Versuch. In Formeln: Sie glauben, dass P (X = ` + 1 | X > `) = P Erfolg beim Versuch Nr. ` + 1 kein Erfolg bei den ersten ` Versuchen mit ` = 1, 2, 3, . . . anwächst. Leider ist dies falsch wegen der stochastischen Unabhängigkeit der Ereignisse Ai := [beim i–ten Versuch eine Sechs]; siehe auch die nachfolgende Bemerkung. “Gedächtnislosigkeit” der geometrischen Verteilung. gilt: Für beliebige natürliche Zahlen k, ` P (X = ` + k | X > `) = P (X = k), P (X > ` + k | X > `) = P (X > k). In Worten: Die bedingte Verteilung von X−`, gegeben dass X > `, ist identisch mit der Verteilung von X. Diese Eigenschaft nennt man auch “Gedächtnislosigkeit”. Die obigen Gleichungen folgen aus der stochastischen Unabhängigkeit der zugrundeliegenden Ereignisse Ai oder durch stures Nachrechnen. Beispielsweise ist P (X = ` + k | X > `) = = = P (X = ` + k und X > `) P (X > `) P (X = ` + k) P (X > `) (1 − p)`+k−1 p (1 − p)` = (1 − p)k−1 p = P (X = k). 102 3.6.4 KAPITEL 3. WAHRSCHEINLICHKEITSRECHNUNG Poissonverteilungen Nun behandeln wir eine Klasse von Verteilungen, die im Zusammenhang mit seltenen Ereignissen auftreten. Genauer gesagt, seien A1 , A2 , . . . , An stochastisch unabhängige Ereignisse mit Wahrscheinlichkeiten p1 , p2 , . . . , pn . Die Wahrscheinlichkeiten pi = P (Ai ) müssen nicht identisch sein. Wir interessieren uns aber für den Fall, dass sie alle recht klein sind, und betrachten wie bereits bei den Binomialverteilungen die Zufallsvariable n X X := Xi i=1 mit Xi := 1 wenn Ereignis Ai eintritt, 0 wenn Ereignis Ai nicht eintritt. Also gibt X an, wie viele der Ereignisse Ai tatsächlich eintreten. Der Spezialfall, dass alle pi identisch sind. Es sei p1 = p2 · · · = pn = λ n für eine feste Zahl λ > 0. In diesem Falle ist X binomialverteilt mit Parametern n und p = λ/n. Die Frage ist nun, wie sich diese Verteilung im Falle von n → ∞ entwickelt. Für eine feste ganze Zahl k ≥ 0 ist λ n−k n λ k 1− P (X = k) = n n k [n]k λ k λ n−k = 1− k! n n λ −k λk λ n [n − 1]k−1 = · · 1 − 1− k! n n nk−1 k λ n 1 2 k − 1 λ −k λ = 1− · 1− 1− ··· 1 − · 1− . k! n n n n n Auf der rechten Seite stehen 2k − 1 Faktoren der Form (1 − j/n) und (1 − λ/n)−1 , die alle gegen Eins konvergieren. Also ist λk λ n P (X = k) ≈ 1− . k! n Der Term (1 − λ/n)n ist nicht so einfach zu behandeln. Zwar konvergiert der Faktor (1 − λ/n) gegen Eins, doch der Exponent n strebt gleichzeitig gegen Unendlich. Daher schreiben wir mit Hilfe des natürlichen Logarithmus log(·): 1− λ λ n λ = exp n log 1 − ≈ exp n − = exp(−λ). n n n 3.6. SPEZIELLE VERTEILUNGEN 103 Bin(5, 0.5) Bin(10, 0.25) 0.3 0.3 0.25 0.25 0.2 0.2 0.15 0.15 0.1 0.1 0.05 0.05 0 0 2 4 6 8 10 12 0 0 2 4 Bin(20, 0.125) 8 10 12 8 10 12 0.25 0.25 0.2 0.2 0.15 0.15 0.1 0.1 0.05 0.05 0 6 Bin(50, 0.05) 0 2 4 6 8 10 12 0 0 2 4 6 Abbildung 3.11: Von der Binomial- zur Poissonverteilung Dabei nutzen wir aus, dass log(1 ± δ) ≈ ±δ für kleine Zahlen δ ≥ 0. Folglich ist P (X = k) ≈ exp(−λ) λk k! für festes k ≥ 0 und große Zahlen n. Illustration dieses Grenzübergangs. Abbildung 3.11 zeigt für n = 5, 10, 20, 50 und λ = 2.5 jeweils ein Stabdiagramm der Wahrscheinlichkeitsgewichte bn,λ/n (k) im Bereich k ∈ {0, 1, . . . , 12}. Zusätzlich werden, etwas nach rechts verschoben, die Grenzwerte exp(−λ)λk /k! gezeichnet. Man sieht deutlich, dass die Unterschiede zwischen den Binomialwahrscheinlichkeiten und den Grenzwerten mit wachsendem n kleiner werden. Definition 3.24 (Poissonverteilung) Die Poissonverteilung mit Parameter λ ≥ 0 ist die diskrete Wahrscheinlichkeitsverteilung auf {0, 1, 2, . . .} mit Wahrscheinlichkeitsgewichten pλ (k) := exp(−λ) λk . k! Als Symbol für diese Verteilung verwenden wir Poiss(λ). 104 KAPITEL 3. WAHRSCHEINLICHKEITSRECHNUNG Eine Zufallsvariable mit Verteilung Poiss(λ) heißt poissonverteilt mit Parameter λ. Unsere bisherige Beobachtung zur Binomialverteilung kann man auch wie folgt formulieren: Eine Binomialverteilung mit großem Parameter n und kleinem Parameter p kann man durch die Poissonverteilung Poiss(n · p) approximieren. Der allgemeine Fall. Nun betrachten wir wieder den allgemeinen Fall, dass die Wahrscheinlichkeiten pi nicht unbedingt identisch sind. Auch hier kann man die Verteilung von X durch eine Poissonverteilung approximieren, nämlich Poiss(p1 + p2 + . . . + pn ). Diese Approximation ist umso besser, je kleiner der Quotient p21 + p22 + · · · + p2n p1 + p2 + · · · + pn ist, und diesen kann man wiederum durch max{p1 , p2 , . . . , pn } nach oben abschätzen. Hier ist ein präzises Resultat, das wir ohne Beweis angeben: Satz 3.25 Für beliebige Mengen B ⊂ {0, 1, 2, . . .} ist n X X P (X ∈ B) − p (k) ≤ p2i /λ, λ k∈B wobei λ := i=1 Pn i=1 pi . Beispiel 3.26 (Telefonauskunft) Sei X die Anzahl von Anfragen bei einer Telefonauskunftsstelle zwischen 8:00 und 8:15 Uhr am kommenden Freitag. Man kann diese Zahl X als Zufallsvariable betrachten und davon ausgehen, dass sie poissonverteilt ist mit unbekanntem Parameter λ > 0. Begründung: Es gebe eine sehr große Anzahl n von potentiellen Kunden. Wir gehen davon aus, dass die Ereignisse Ai := [Kunde Nr. i ruft im besagten Zeitraum an] stochastisch unabhängig sind und alle sehr geringe Wahrscheinlichkeiten haben. Daher ist X in etwa poissonverteilt. Anwendung: Den unbekannten Parameter λ kann man als mittlere Zahl von Anfragen, die freitags zwischen 8:00 und 8:15 Uhr eingehen, auffassen (siehe auch den späteren Abschnitt über Erwartungswerte) und aus empirischen Daten schätzen. Angenommen, diese mittlere Anzahl von 3.7. ERWARTUNGSWERTE UND DAVON ABGELEITETE KENNGRÖSEN 105 Anfragen ist gleich λ = 5. Dann kann man die Wahrscheinlichkeiten für beliebige Auslastungen am kommenden Freitag berechnen. Beispielsweise ist P (X = 0) = P [keine Anfrage] = exp(−5) ≈ 0.0067, P (X = 1) = P [genau eine Anfrage] = exp(−5)5 ≈ 0.0337, P (X > 5) = P [mehr als 5 Anfragen] 55 52 + ··· + ≈ 0.3840, = 1 − P (X ≤ 5) = 1 − exp(−5) 1 + 5 + 2! 5! P (X > 10) = P [mehr als 10 Anfragen] ≈ 0.0137. Beispiel 3.27 (Haftpflichtversicherungsfälle) Sei X die Anzahl von Schadensmeldungen, die einer bestimmten Versicherungsgesellschaft im kommenden Monat gemeldet werden. Wenn die Versicherungsgesllschaft sehr viele Kunden hat, und wenn jeder einzelne Kunde nur mit geringer Wahrscheinlichkeit einen Schaden verursacht, dann ist X näherungsweise poissonverteilt. Die Begründung ist analog wie im vorigen Beispiel 3.26, und der Versicherer kann den Parameter λ aus früheren Daten schätzen. Die stochastische Unabhängigkeit der Ereignisse Ai := [Versicherte(r) Nr. i meldet Schaden] kann man bei Haftpflichtfällen annehmen. Ganz anders wäre dies beispielsweise bei Versicherungen von Hauseigentümern gegen Sturmschäden. Beispiel 3.28 (Feuerwehreinsätze am Heiligen Abend) Sei X die Anzahl der Einsätze für eine bestimmte Feuerwehrstelle zwischen 18 Uhr am kommenden 24. Dezember und 6 Uhr am 25. Dezember. Angenommen, in den vergangenen zwanzig Jahren gab es in der heiligen Nacht im Mittel 2.5 Einsätze. Nun gehen wir davon aus, dass die Zahl X eine poissonverteilte Zufallsgröße ist mit Parameter λ = 2.5. Dies bedeutet beispielsweise, dass P (X = 0) = P [ruhige Nacht ohne Einsatz] = exp(−2.5) ≈ 0.0821, P (X > 3) = P [mehr als drei Einsätze] 2.52 2.53 + ≈ 0.2424. = 1 − P (X ≤ 3) = 1 − exp(−2.5) 1 + 2.5 + 2! 3! 3.7 Erwartungswerte und davon abgeleitete Kenngrößen In diesem Abschnitt betrachten wir reellwertige Zufallsvariablen, deren Verteilung durch ein paar einfache Kenngrößen charakterisiert werden soll. Der Begriff des Erwartungswertes stammt ursprünglich aus der Theorie der Glücksspiele. Diesen Aspekt wollen wir zunächst erklären und knüpfen dabei an unsere Überlegungen zu Wahrscheinlichkeiten und Wetteinsätzen an: Gegeben sei ein Zufallsexperiment (Ω, P ) mit einer diskreten Wahrscheinlichkeitsverteilung P auf Ω. Angenommen, ein Spieler setzt einen festen Betrag E und erhält den Gewinn X(ω), wenn 106 KAPITEL 3. WAHRSCHEINLICHKEITSRECHNUNG das Zufallsexperiment das Ergebnis ω ∈ Ω liefert. Die Frage ist nun, welcher Einsatz E bei diesem Spiel “fair” wäre. Angenommen, dieses Spiel wird nicht einmal sondern beliebig oft und unabhängig wiederholt. Die Einzelergebnisse seien ω1 , ω2 , ω3 , . . .. Nach der n–ten Runde betrachten wir die empirischen Wahrscheinlichkeitsgewichte #{i ≤ n : ωi = ω} . n Diese kann man als Schätzwerte für die Gewichte p(ω) = P ({ω}) betrachten. Nach n Runden ist der Nettogewinn des Spielers gleich n X X X(ωi ) − n · E = n · pbn (ω)X(ω) − E . pbn (ω) := i=1 ω∈Ω Wir rechnen damit, dass der Ausdruck innerhalb der Klammer für n → ∞ gegen X p(ω)X(ω) − E ω∈Ω konvergiert. Auf lange Sicht macht der Spieler also X < Gewinn p(ω)X(ω). falls E beliebig großen > Verlust ω∈Ω Ein fairer Spieleinsatz ist demnach E = X p(ω)X(ω). ω∈Ω Diese Zahl ist der sogenannte Erwartungswert der Zufallsvariable X; siehe auch den folgenden Abschnitt. Beispiel 3.29 (Einfache Spiele mit Würfel) Es sei P die Laplaceverteilung auf der Menge Ω = {1, 2, . . . , 6}, also p(ω) = 1/6. Nun betrachten wir drei verschiedene Spiele: • Für X(ω) := ω CHF wäre der faire Spieleinsatz gleich 6 X 1 · ω CHF = 3.5 CHF . 6 ω=1 • Für X(ω) := 2ω−1 CHF wäre der richtige Spieleinsatz gleich 6 X 1 ω−1 63 ·2 CHF = CHF = 10.5 CHF . 6 6 ω=1 Mit diesem Einsatz wäre das Spiel fair, obwohl der Spieler mit Wahrscheinlichkeit 4/6 Geld verliert. • Angenommen X(1) = 15 CHF, X(2) = X(3) = X(4) = X(5) = 11 CHF und X(6) = 0 CHF. Dann wäre der faire Wetteinsatz gleich (15 + 4 · 11)/6 CHF = 59/6 CHF = 9.833 CHF . Würde man dieses Spiel mit einem Einsatz von 10 CHF spielen, wäre es aus Sicht des Spielers unfair, obwohl sein Nettogewinn mit Wahrscheinlichkeit 5/6 positiv ist. 3.7. ERWARTUNGSWERTE UND DAVON ABGELEITETE KENNGRÖSEN 3.7.1 107 Erwartungswerte Definition 3.30 (Erwartungswert) (a) Sei X eine Zufallsvariable auf (Ω, P ), und P sei eine diskrete Wahrscheinlichkeitsverteilung mit Gewichten p(ω). Dann definiert man den Erwartungswert von X als die Zahl E(X) := X p(ω)X(ω). ω∈Ω Dabei setzen wir voraus, dass entweder X(ω) ≥ 0 für alle ω ∈ Ω oder P ω∈Ω p(ω)|X(ω)| < ∞. (b) Sei X eine Zufallsvariable mit endlichem oder abzählbarem Wertebereich X ⊂ R. Dann ist der Erwartungswert von X definiert als die Zahl E(X) := X P (X = x) x. x∈X Hier nehmen wir an, dass entweder X ⊂ [0, ∞) oder P P (X = x) |x| < ∞. x∈X Teil (a) dieser Definition liefert die gleiche Zahl wie Teil (b). Dazu muss man einfach den Raum Ω je nach Werten von X in Teilmengen aufspalten: X p(ω)X(ω) = ω∈Ω X X p(ω) x = X P (X = x) x. x∈X x∈X ω∈Ω : X(ω)=x Bei theoretischen Überlegungen ist Teil (a) oft nützlich. Für konkrete Berechnungen verwendet man eher Teil (b). ' ' $ $ X : & & P % Ω P X% P (X = x) x x∈X p(ω)X(ω) ω∈Ω Beispiel 3.31 (Poissonverteilungen) Die Zufallsvariable X sei poissonverteilt mit Parameter λ ≥ 0. Dann ist E(X) = λ. 108 KAPITEL 3. WAHRSCHEINLICHKEITSRECHNUNG Denn E(X) = = ∞ X k=0 ∞ X P (X = k) k λk k k! e−λ k=1 −λ = e ∞ X k=1 = e−λ λk (k − 1)! ∞ X λj+1 j=0 (j = k − 1) j! ∞ X λj = e−λ λ j! j=0 | {z } =exp(λ)=eλ = λ. Beispiel 3.32 (Geometrische Verteilungen) Die Zufallsvariable X sei geometrisch verteilt mit Parameter p ∈ (0, 1]. Dann ist 1 (3.1) E(X) = . p Zahlenbeispiele: • Einen idealen Würfel muss man im Schnitt 1/p = 6 mal werfen, bis erstmalig eine Sechs fällt. • Eine ideale Münze muss man im Mittel 1/p = 2 mal werfen, bis erstmalig “Zahl” fällt. • Wenn ein bestimmter Gerätetyp mit Wahrschinlichkeit p = 0.07 innerhalb der Garantiefrist ausfällt, dann kann man im Mittel 1/p ≈ 14.29 Geräte bis zum ersten Garantiefall verkaufen. Für (3.1) gibt es zwei mögliche Herleitungen: Beweis 1 (verwendet Ableitungen): Nach Definition von E(X) ist E(X) = ∞ X P (X = k) k = k=1 = −p ∞ X (1 − p)k−1 p k k=1 ∞ X k=1 ∞ ∞ k=1 k=0 d d X d X (1 − p)k = −p (1 − p)k = −p (1 − p)k dp dp dp −1 d 1 = −p 2 = −p dp p p 1 = . p Dabei verwendeten wir die allgemeine Formel a = 1 − p). P∞ k k=0 a = 1/(1 − a) für −1 < a < 1 (hier mit 3.7. ERWARTUNGSWERTE UND DAVON ABGELEITETE KENNGRÖSEN 109 Beweis 2: Allgemein gilt für eine Zufallsvariable mit Werten in {0, 1, 2, . . .} die Formel E(X) = ∞ X P (X = k) k k=1 + + = + = 1) = 2) + P (X = 2) = 3) + P (X = 3) + P (X = 3) = 4) + P (X = 4) + P (X = 4) + P (X = 4) .. .. .. .. . . . . .. . P (X ≥ 1) + P (X ≥ 2) + P (X ≥ 3) + P (X ≥ 4) + · · · = = P (X P (X P (X P (X ∞ X P (X ≥ k). k=1 Speziell bei einer Zufallsvariable X mit Verteilung Geom(p) ist P (X ≥ k) = (1 − p)k−1 , also E(X) = ∞ ∞ X X 1 (1 − p)k−1 = (1 − p)j = . p 2 j=0 k=1 Noch eine andere Berechnungsmethode für Erwartungswerte ist oft nützlich: Sei X eine Zufallsvariable mit beliebigem Wertebereich X und diskreter Verteilung, und sei Y := g(X) für eine Abbildung g : X → R: X g Ω −→ X −→ R. Dann ist E(Y ) = X P (X = x) g(x). x∈X Beispiel 3.33 (St. Petersburg–Paradoxon) Angenommen, jemand bietet Ihnen ein wertvolles Gemälde an, wobei der Preis Y nach folgendem Spiel ermittelt wird: Sie legen einen Franken auf den Tisch. Dann wird eine (perfekte) Münze so oft geworfen, bis erstmalig “Zahl” fällt. Jedesmal, wenn “Kopf” auftritt, müssen Sie den Betrag auf dem Tisch verdoppeln. Mit anderen Worten, die Münze wird X mal geworfen, wobei X nach Geom(1/2) verteilt ist, und der Preis beträgt Y = 2X−1 (in CHF). Je nach Gemälde wäre dieses Spiel wirklich verlockend. Erstaunlicherweise ist der entsprechende Gegenwert des Gemäldes gleich Unendlich! Denn E(Y ) = ∞ X x=1 P (X = x) 2x−1 = ∞ X x=1 2| −x{z 2x−1} = ∞. =1/2 Das bedeutet: Würde ein hinreichend verrückter Galerist alle seine Gemälde nach diesem Schema verkaufen, so wäre auf lange Sicht sein mittlerer Gewinn pro Gemälde beliebig groß. Der Haken dabei ist, dass er eine sehr große Anzahl von Gemälden verkaufen müsste, und alle Kunden müssten ihr Spiel konsequent durchziehen, egal wie hoch der zu zahlende Preis wird! 110 KAPITEL 3. WAHRSCHEINLICHKEITSRECHNUNG Beispiel 3.34 (Eine Zufallsvariable ohne Erwartungswert) In Anlehnung an das vorangehende Beispiel betrachten wir ein Spiel für zwei Personen, sagen wir, Gabi und Klaus. Es wird eine (perfekte) Münze so oft geworfen, bis erstmalig “Zahl” fällt. Sei X die entsprechende Anzahl von Würfen, die geometrisch verteilt ist mit Parameter 1/2. Im Falle von X = 1 erhält Gabi 1 CHF von Klaus, im Falle von X = 2 zahlt sie ihm 2 CHF, im Falle von X = 3 erhält sie 4 CHF, und so weiter. Allgemein erhält sie Y = (−1)X−1 2X−1 CHF von Klaus. Der Erwartungswert des Gewinns X von Gabi ist nicht definiert, denn hier wäre X P (X = x) · x = x ∞ X 2−x · (−1)x−1 2x−1 = x=1 ∞ X (−1)x−1 /2 = ? x=1 Interpretation von E(X): Das starke Gesetz der großen Zahlen. Die anfangs gemachten Überlegungen zum Glücksspiel deuten schon an, wie man den Erwartungswert E(X) interpretieren kann: Angenommen, das zugrundeliegende Zufallsexperiment wird beliebig oft und unabhängig wiederholt. Die Werte unserer Zufallsvariable bei den Einzelexperimenten seien X1 , P X2 , X3 , . . . . Dann konvergiert der arithmetische Mittelwert n−1 ni=1 Xi für n → ∞ gegen die Zahl E(X). Um dies zu illustrieren, zeigen wir in Abbildung 3.12 die Realisierungen von 100 (simulierten) Zufallsvariablen mit Verteilung Poiss(2.5), markiert durch ‘+’. Zusätzlich wird für n = 1, 2, . . . , 100 der arithmetische Mittelwert der ersten n Beobachtungen gezeigt. Augenscheinlich nähert sich dieser mit wachsendem n dem Erwartungswert von 2.5. 8 7 6 5 4 3 2 1 0 10 20 30 40 50 60 70 80 90 100 Abbildung 3.12: Illustration des Gesetzes der Großen Zahlen Rechenregeln für Erwartungswerte. Bisher kennen wir Erwartungswerte nur im Zusammenhang mit diskreten Wahrscheinlichkeitsverteilungen. Doch die nachfolgenden Rechenregeln gelten 3.7. ERWARTUNGSWERTE UND DAVON ABGELEITETE KENNGRÖSEN 111 für beliebige Zufallsvariablen, auch solche, die uns erst später begegnen werden. • Regel 1. Für eine Zufallsvariable X mit reellem Erwartungswert und beliebige Konstanten a, b ist E(a + bX) = a + bE(X). (Auf der linken Seite steht die neue Zufallsvariable ω 7→ a + bX(ω).) • Regel 2. Für zwei beliebige Zufallsvariablen X und Y mit reellen Erwartungswerten bzw. mit Werten in [0, ∞) ist E(X + Y ) = E(X) + E(Y ). (Auf der linken Seite steht die neue Zufallsvariable ω 7→ X(ω) + Y (ω).) • Regel 3. Sind X und Y Zufallsvariablen, so dass stets X ≤ Y , dann ist auch E(X) ≤ E(Y ), sofern E(X) und E(Y ) definiert sind. Alle drei Regeln kann man sehr leicht begründen, wenn man von Definition 3.30 (a) ausgeht. Denn E(a + bX) ist gleich X p(ω)(a + bX(ω)) = a + b ω∈Ω X p(ω)X(ω) = a + bE(X), ω∈Ω und E(X + Y ) ist gleich X p(ω)(X(ω) + Y (ω)) = ω∈Ω X p(ω)X(ω) + ω∈Ω X p(ω)Y (ω) = E(X) + E(Y ). ω∈Ω Außerdem ist E(X) = X ω∈Ω p(ω)X(ω) ≤ X p(ω)Y (ω) = E(Y ), ω∈Ω falls X(ω) ≤ Y (ω) für alle ω ∈ Ω. Regel 2 kann man noch auf beliebig viele Zufallsvariablen ausdehnen: • Regel 2’. Für beliebige Zufallsvariablen X1 , X2 , . . . , Xn mit reellen Erwartungswerten ist E(X1 + X2 + · · · + Xn ) = E(X1 ) + E(X2 ) + . . . + E(Xn ). Beispiel 3.35 (Hypergeometrische Verteilungen) Für eine Zufallsvariable X mit Verteilung Hyp(N, L, n) ist nL . E(X) = N P Dies könnte man nachweisen, indem man stur die Formel E(X) = nk=1 P (X = k) k auswertet. Stattdessen verwenden wir lieber Regel 2 für Erwartungswerte: Wir betrachten eine Urne mit N 112 KAPITEL 3. WAHRSCHEINLICHKEITSRECHNUNG Kugeln, von denen L Stück markiert sind. Hieraus ziehen wir rein zufällig und ohne Zurücklegen n Kugeln. Definiert man Xi := 1 wenn i–te gezogene Kugel markiert ist, 0 sonst, dann ist X genauso verteilt wie X1 + X2 + . . . + Xn . Jede Variable Xi nimmt nur die Werte Null und Eins an, und zwar ist P (Xi = 1) = L/N . Daher ist auch E(Xi ) = P (Xi = 0) · 0 + P (Xi = 1) · 1 = P (Xi = 1) = L , N so dass E(X) = E(X1 ) + E(X2 ) + · · · + E(Xn ) = n L . N 2 Beispiel 3.36 (Binomialverteilungen) Für eine Zufallsvariable X mit Verteilung Bin(n, p) ist E(X) = np. Auch hier vermeiden wir aufwändige Rechnungen, indem wir Regel 2 für Erwartungswerte anwenden: Seien A1 , A2 , . . . , An stochastisch unabhängige Ereignisse, jeweils mit Wahrscheinlichkeit p. Definiert man 1 wenn Ai eintritt, Xi := 0 sonst, dann ist X genauso verteilt wie X1 + X2 + . . . + Xn . Jede Variable Xi nimmt nur die Werte Null und Eins an, so dass E(Xi ) = P (Xi = 1) = p. Folglich ist E(X) = E(X1 ) + E(X2 ) + · · · + E(Xn ) = np. 3.7.2 2 Die Markov–Ungleichung Oftmals verwendet man Erwartungswerte, um gewisse Wahrscheinlichkeiten grob abzuschätzen. Dabei spielt folgende Ungleichung eine Rolle: Lemma 3.37 (Markov–Ungleichung) Sei X eine Zufallsvariable mit Werten in [0, ∞). Für beliebige Schranken c > 0 ist dann P (X ≥ c) ≤ E(X) . c Diese Schranke ist natürlich nur von Nutzen, wenn c größer ist als E(X). Zahlenbeispiel. Der Erwartungswert einer nichtnegativen Zufallsvariable X sei gleich 2.5. Dann ist 2.5 1 P (X ≥ 20) ≤ = = 0.125. 20 8 3.7. ERWARTUNGSWERTE UND DAVON ABGELEITETE KENNGRÖSEN 113 Beweis von Lemma 3.37. Wir definieren eine neue Zufallsvariable ( 1 falls X ≥ c, Y := 0 falls X < c. Diese Zufallsvariable nimmt nur die Werte Null oder Eins an, so dass E(Y ) = P (Y = 1) = P (X ≥ c). Außerdem ist stets Y ≤ X/c; siehe auch Abbildung 3.13. Nach Regel 3 und Regel 1 ist also P (X ≥ c) = E(Y ) ≤ E(X/c) = E(X)/c. 2 Abbildung 3.13: Zum Nachweis der Markov-Ungleichung 3.7.3 Varianzen und Standardabweichungen Die Verteilung einer Zufallsvariable X wird durch ihren Erwartungswert nur sehr grob charakterisiert. Insbesondere möchten wir gerne quantifizieren, wie stark X von E(X) abweicht. Eine mögliche Kenngröße wäre der Erwartungswert der neuen Zufallsgröße |X − E(X)|, also X P (X = x) |x − E(X)|. E (|X − E(X)|) = x∈X Doch für konkrete Berechnungen ist diese Größe oft unhandlich. Stattdessen arbeitet man lieber mit sogenannten Standardabweichungen. Definition 3.38 (Varianz und Standardabweichung) Die Varianz einer Zufallsvariable X mit reellem Erwartungswert ist definiert als die Zahl Var(X) := E (X − E(X))2 . 114 KAPITEL 3. WAHRSCHEINLICHKEITSRECHNUNG Die Standardabweichung von X ist dann die Zahl Std(X) := p Var(X). Die Varianz von X ist also der Erwartungswert der neuen Zufallsgröße (X −E(X))2 . Die aussagekräftigere Größe ist jedoch die Standardabweichung, denn sie hat die gleiche Dimension (Einheit) wie X. Kombiniert man die Markov–Ungleichung und die Definition der Varianz, so ergibt sich die erste der folgenden Ungleichungen: Lemma 3.39 Für eine beliebige Zufallsvariable mit reellem Erwartungswert E(X) und beliebige Konstanten c > 0 gelten die Tshebyshev–Ungleichung, Var(X) , c2 P (|X − E(X)| ≥ c) ≤ sowie die Tshebyshev-Cantelli-Ungleichung, P (X ≥ E(X) + c) ) P (X ≤ E(X) − c) ≤ c2 Var(X) . + Var(X) Mit Hilfe der Standardabweichung kann man diese Ungleichungen auch wie folgt umschreiben: Für beliebige Konstanten m ≥ 1 ist P |X − E(X)| ≥ m Std(X) ≤ 1 m2 und P X ≥ E(X) + m Std(X) P X ≤ E(X) − m Std(X) ≤ m2 1 . +1 Die Wahrscheinlichkeit, dass die Zufallsgröße X um mindestens m Standardabweichungen von der Zahl E(X) abweicht, ist also höchstens gleich 1/m2 . Zahlenbeispiel. Angenommen, wir wissen, dass E(X) = 2.5 und Var(X) ≤ 3. Nach der Tshebyshev–Ungleichung ist dann P (X ≥ 20) = P (X − E(X) ≥ 17.5) ≤ P (|X − E(X)| ≥ 17.5) ≤ Var(X) 3 ≤ ≈ 0.0098. 2 17.5 17.52 Die Tshebyshev-Cantelli-Ungleichung ergibt eine winzige Verbesserung: P (X ≥ 20) = P (X − E(X) ≥ 17.5) ≤ 3 ≈ 0.0097. 17.52 + 3 3.7. ERWARTUNGSWERTE UND DAVON ABGELEITETE KENNGRÖSEN 115 Beweis von Lemma 3.39. Die Tshebyshev–Ungleichung lässt sich auf die Markov-Ungleichung e := zurückführen. Denn die Ungleichung |X − E(X)| ≥ c ist gleichbedeutend damit, dass X (X − E(X))2 größer oder gleich e c := c2 ist. Also folgt aus der Markov–Ungleichung, dass e E(X) Var(X) e ≥e . P (|X − E(X)| ≥ c) = P X c ≤ = e c c2 Nun beschreiben wir noch einen etwas anderen Weg: Mit ( 1 Y := 0 falls |X − E(X)| ≥ c falls |X − E(X)| < c ist P (|X − E(X)| ≥ c) = E(Y ). Doch Y ≤ (X − E(X))2 /c2 , siehe auch Abbildung 3.14, so dass P (|X − E(X)| ≥ c) ≤ E (X − E(X))2 /c2 = Var(X)/c2 . Für den Nachweis der (ersten) Tshebyshev-Cantelli-Ungleichung definieren wir ( 1 Y := 0 falls X ≥ E(X) + c falls X < E(X) + c und wählen eine beliebige Zahl s < c. Dann ist stets Y ≤ X − (E(X) + s) 2 2 E(X) + c − (E(X) + s) = (X − E(X) − s)2 ; (c − s)2 siehe auch Abbildung 3.15. Nun kann man den Erwartungswert der rechten Seite bestimmen und s so wählen, dass er minimal wird; siehe Übungen. 2 Abbildung 3.14: Zum Nachweis der Tshebyshev-Ungleichung 116 KAPITEL 3. WAHRSCHEINLICHKEITSRECHNUNG Abbildung 3.15: Zum Nachweis der Tshebyshev-Cantelli-Ungleichung Diverse Formeln und Rechenregeln für Varianzen. Für konkrete Berechnungen kann man einerseits die Formeln X p(ω)(X(ω) − E(X))2 ω∈Ω X Var(X) = P (X = x)(x − E(X))2 x∈X anwenden. Doch durch Ausmultiplizieren von (X − E(X))2 und Anwendung der Regeln 1 und 2 für Erwartungswerte ergibt sich noch eine alternative Formel: Var(X) = E(X 2 ) − E(X)2 . Dabei ist X p(ω)X(ω)2 , ω∈Ω X E(X 2 ) = P (X = x) x2 . x∈X Aus den Regeln 1 und 2 für Erwartungswerte kann man auch ableiten, dass Var(a + bX) = b2 Var(X) und Std(a + bX) = |b| Std(X) für beliebige Konstanten a und b. Insbesondere verändern sich Varianz und Standardabweichung nicht, wenn man eine Zufallsvariable um einen festen Wert verschiebt. Beispiel 3.40 Eine Zufallsvariable nehme Werte in {0, 1, 2, 3} mit folgenden Wahrscheinlichkeiten an: k 0 1 2 3 P (X = k) 0.3 0.4 0.2 0.1 3.7. ERWARTUNGSWERTE UND DAVON ABGELEITETE KENNGRÖSEN 117 Dann ist E(X) = 3 X P (X = k) k = 0.4 · 1 + 0.2 · 2 + 0.1 · 3 = 1.1, k=1 E(X 2 ) = 3 X P (X = k) k 2 = 0.4 · 1 + 0.2 · 4 + 0.1 · 9 = 2.1, k=1 also Var(X) = 2.1 − 1.12 = 0.89 und Std(X) = √ 0.89 ≈ 0.943. Sei X poissonverteilt mit Parameter λ = E(X). Beispiel 3.31 (Poissonverteilungen, Forts.) Dann ist Var(X) = λ und √ Std(X) = λ. Beweis: Zunächst berechnen wir den Erwartungswert von X 2 : E(X 2 ) = ∞ X P (X = k) k 2 k=1 = exp(−λ) ∞ X λk k=1 = exp(−λ) ∞ X k=1 = exp(−λ) ∞ X k=1 = exp(−λ) ∞ X k! k2 λk k (k − 1)! λk (1 + (k − 1)) (k − 1)! ∞ X λk λk + exp(−λ) (k − 1)! (k − 2)! k=1 ∞ X = exp(−λ) λ i=0 k=2 λi i! + exp(−λ) λ2 ∞ X λj j=0 j! = λ + λ2 . Daher ist Var(X) = E(X 2 ) − λ2 = λ. 2 Beispiel 3.32 (Geometrische Verteilungen, Forts.) Sei X geometrisch verteilt mit Parameter p = 1/E(X). Dann ist √ 1−p Std(X) = . p Auf den Beweis dieser Formel verzichten wir aus Zeitgründen. 118 KAPITEL 3. WAHRSCHEINLICHKEITSRECHNUNG 3.7.4 Produkte und Kovarianzen Bevor wir Varianz und Standardabweichung von hypergeometrisch oder binomialverteilten Zufallsgrößen herleiten, wollen wir grundsätzlich überlegen, wie man die Varianz einer Summe von Zufallsgrößen berechnen kann. Dabei kommen Produkte zweier Zufallsvariablen ins Spiel, womit wir uns zuerst beschäftigen. Erwartungswerte von Produkten. Ein wichtige Tatsache, die wir schon mehrfach verwendeten, ist, dass der Erwartungswert einer Summe von Zufallsvariablen gleich der Summe der einzelnen Erwartungswerte ist. Für Produkte von Zufallsvariablen ist dies im Allgemeinen falsch! Der nachfolgende Satz liefert eine Ungleichung und eine Gleichung für einen wichtigen Spezialfall. Satz 3.41 (Produkte und Kovarianzen) Seien X und Y Zufallsvariablen. (a) Falls E(X 2 ) und E(Y 2 ) endlich sind, ist auch E(XY ) definiert und erfüllt die CauchySchwarz-Ungleichung p p E(X 2 ) E(Y 2 ). |E(XY )| ≤ (b) Sind die Zufallsvariablen stochastisch unabhängig im Sinne der nachfolgenden Definition 3.42 mit Erwartungswerten in R, dann ist E(XY ) = E(X)E(Y ). Die gleiche Formel gilt, falls X und Y nur Werte in [0, ∞) annehmen. Definition 3.42 (Stochastische Unabhängigkeit von Zufallsvariablen) Seien X1 , X2 , . . . , Xn Zufallsvariablen mit beliebigen Wertebereichen. Man nennt sie stochastisch unabhängig, wenn P (X1 ∈ B1 , X2 ∈ B2 , . . . , Xn ∈ Bn ) = P (X1 ∈ B1 )P (X2 ∈ B2 ) · · · P (Xn ∈ Bn ) für beliebige Mengen B1 , B2 , . . . , Bn . Begründung für Satz 3.41∗ . Zunächst folgt aus 0 ≤ (|X| − |Y |)2 = X 2 + Y 2 − 2|XY |, dass E(|XY |) ≤ E(X 2 ) + E(Y 2 ) /2. Also existiert E(XY ) in R. Im Falle von E(X 2 ) = 0 oder E(Y 2 ) = 0 ist die Ungleichung trivial, weil dann P (XY = 0) = 1, also E(XY ) = 0. Anderenfalls gilt für jede Konstante c > 0 die Ungleichung 0 ≤ (cX ∓ Y )2 = c2 X 2 + Y 2 ∓ 2cXY, also ±E(XY ) ≤ cE(X 2 ) + c−1 E(Y 2 ) /2. p Wählt man speziell c = E(Y 2 )/E(X 2 ), dann ergibt sich die Behauptung, dass |E(XY )| nicht p größer ist als E(X 2 )E(Y 2 ). 3.7. ERWARTUNGSWERTE UND DAVON ABGELEITETE KENNGRÖSEN 119 Die Produktformel für unabhängige Zufallsvariablen X, Y begründen wir nur im Spezialfall, dass X und Y abzählbare Wertebereiche X bzw. Y haben: Hier ist E(XY ) = X P (X = x, Y = y) · xy x∈X ,y∈Y = X = X P (X = x)P (Y = y) · xy (Unabhängigkeit von X und Y ) x∈X ,y∈Y X P (X = x) · x P (Y = y) · y x∈X y∈Y = E(X)E(Y ). 2 Die Varianz einer Summe von Zufallsvariablen. Für Zufallsvariablen X und Y mit reellen Erwartungswerten ist (X + Y − E(X + Y ))2 gleich (X − E(X))2 + (Y − E(Y ))2 + 2(X − E(X))(Y − E(Y )). Die Varianz von X + Y ist also die Summe von Var(X), Var(Y ) und dem zweifachen Erwartungswert von (X − E(X))(Y − E(Y )). Für die letztere Größe gibt es einen speziellen Namen: Definition 3.43 (Kovarianz) Seien X und Y Zufallsvariablen mit reellem Erwartungswert und endlicher Varianz. Die Kovarianz von X und Y ist definiert als die Zahl Cov(X, Y ) := E (X − E(X))(Y − E(Y )) . Die Kovarianz ist eine Verallgemeinerung der Varianz, denn Var(X) = Cov(X, X). Durch Ausmultiplizieren von (X − E(X))(Y − E(Y )) und Anwenden der Regeln 1 und 2 für Erwartungswerte ergibt sich noch die alternative Darstellung Cov(X, Y ) = E(XY ) − E(X)E(Y ). (3.2) Wenn X und Y abzählbaren oder endlichen Wertebereich X bzw. Y haben, kann ihre Kovarianz wie folgt berechnet werden: Cov(X, Y ) = XX P (X = x, Y = y) · (x − E(X))(y − E(Y )) x∈X y∈Y = XX P (X = x, Y = y) · xy − E(X)E(Y ). x∈X y∈Y Angenommen, zwei Zufallsvariablen X und Y sind “gleichsinnig gekoppelt” in folgendem Sinne: Große bzw. kleine Werte von X −E(X) gehen tendenziell mit großen bzw. kleinen Werte von Y − E(Y ) einher. Dies bedeutet, dass das Produkt (X − E(X))(Y − E(Y )) tendenziell strikt positiv ist, und in der Regel ist auch Cov(X, Y ) strikt positiv. Sind die Zufallsvariablen “gegensinnig gekoppelt”, dann ist Cov(X, Y ) in der Regel strikt negativ. Die obigen Überlegungen und der zweite Teil von Satz 3.41 ergeben folgende Aussagen: 120 KAPITEL 3. WAHRSCHEINLICHKEITSRECHNUNG Korollar 3.44 Für Zufallsvariablen X und Y mit reellen Erwartungswerten und endlichen Varianzen ist Var(X + Y ) = Var(X) + Var(Y ) + 2 Cov(X, Y ). Sind die Zufallsvariablen X und Y stochastisch unabhängig, dann ist Cov(X, Y ) = 0 und Var(X + Y ) = Var(X) + Var(Y ). Die in Korollar 3.44 angegebenen Formeln lassen sich auf beliebig viele Summanden verallgemeinern: Korollar 3.45 Für Zufallsvariablen X1 , X2 , . . . , Xn mit reellen Erwartungswerten und endlichen Varianzen ist n n X n X X Var Xi = Cov(Xi , Xj ) i=1 = i=1 j=1 n X Var(Xi ) + 2 i=1 (3.3) X Cov(Xi , Xj ). 1≤i<j≤n Sind die Zufallsvariablen X1 , X2 , . . . , Xn (paarweise) stochastisch unabhängig, dann ist n n X X Var Xi = Var(Xi ). i=1 (3.4) i=1 Beispiel 3.35 (Hypergeometrische Verteilungen, Forts.) Sei X hypergeometrisch verteilt mit Parametern N , L und n. Dann ist E(X) = nL/N und r Std(X) = L LN −n n 1− = N N N −1 s nL(N − n)(N − L) . N 2 (N − 1) P Beweis: Wie bei der Herleitung des Erwartungswertes von X betrachten wir die Summe ni=1 Xi , wobei Xi ∈ {0, 1} angibt, ob die i–te gezogene Kugel markiert ist. Nun wenden wir die Varianz– Kovarianz–Formel (3.3) an: Einerseits ist E(Xi ) = P (Xi = 1) = L/N . Außerdem ist hier Xi2 identisch mit Xi , so dass Var(Xi ) = E(Xi ) − E(Xi )2 = L L 2 L L = − 1− . N N N N Für 1 ≤ i < j ≤ n kann man zeigen, dass E(Xi Xj ) = P (Xi = Xj = 1) = L(L − 1) . N (N − 1) Daher ist Cov(Xi , Xj ) = L 2 L(L − 1) 1 L L − = − 1− . N (N − 1) N N −1 N N 3.7. ERWARTUNGSWERTE UND DAVON ABGELEITETE KENNGRÖSEN 121 Nun setzen wir dies alles zusammen: Var(X) = n X Var(Xi ) + 2 i=1 X Cov(Xi , Xj ) 1≤i<j≤n L = n 1− N L = n 1− N L = n 1− N L L n 1 L −2 1− N N 2 N −1 N L n−1 1− N N −1 L N − n . 2 N N −1 Beispiel 3.36 (Binomialverteilungen, Forts.) Sei X binomialverteilt mit Parametern n und p. Dann ist E(X) = np und p np(1 − p). Std(X) = Beweis: Wie bei der Herleitung von E(X) betrachten wir X1 + · · · + Xn , wobei Xi ∈ {0, 1} angibt, ob das Ereignis Ai eintritt oder nicht. Auch hier ist Var(Xi ) = E(Xi ) − E(Xi )2 = p − p2 = p(1 − p). Ferner sind die Zufallsvariablen Xi stochastisch unabhängig, so dass (3.4) anwendbar ist: n X Var(X) = Var(Xi ) = np(1 − p). 2 i=1 Beispiel 3.46 (Schätzung eines Binomialparameters) In vielen Anwendungen, bei denen eine Zufallsvariable X mit Verteilung Bin(n, p) auftritt, ist p ein unbekannter Parameter, den man durch den Quotienten pb := X/n schätzt. Für diese Zufallsvariable pb ist E(b p) = E(X)/n und Std(b p) = Std(X)/n, also p p(1 − p) √ . E(b p) = p und Std(b p) = n Man sieht, dass die Standardabweichung von pb mit wachsendem n immer kleiner wird. Die Quadratwurzel hat allerdings zur Folge, dass man für eine Verdoppelung der Präzision (i.e. Halbierung von Std(b p)) den Parameter n vervierfachen muss. Soll die Präzision um den Faktor 10 erhöht werden, muss man sogar n mit 100 multiplizieren. Den Faktor p(1 − p) = 1/4 − (p − 1/2)2 kann man noch durch 1/4 nach oben abschätzen, was dem Fall p = 1/2 entspricht. Dann ergibt sich die Ungleichung Std(b p) ≤ 1 √ . 2 n Aus der Tshebyshev–Ungleichung folgt, dass P [Schätzfehler von mindestens c] = P (|b p − p| ≥ c) ≤ p(1 − p) 1 ≤ . nc2 4nc2 Zahlenbeispiel. In einer Population von Wahlberechtigten sei p der relative Anteil von Wählern einer Partei ABC. Um etwas über p herauszufinden, werden rein zufällig n = 1000 Wahlberechtigte 122 KAPITEL 3. WAHRSCHEINLICHKEITSRECHNUNG befragt. Sei X die Anzahl von ABC–Wählern in dieser Stichprobe. Eigentlich ist X hypergeometrisch verteilt. Doch wir gehen davon aus, dass die Population deutlich mehr als 1000 Personen umfasst. Daher betrachten wir X als binomialverteilt mit Parametern 1000 und p. Die Standardabweichung von X ist nun p p(1 − p) 1 √ ≤ √ ≈ 0.0158. 1000 2 1000 Die Wahrscheinlichkeit, dass der Schätzer pb von p um mindestens c abweicht, kann man nach oben abschätzen durch 0.025 für c = 0.1, 1 1 0.1 für c = 0.05, = = 4nc2 4000 c2 0.4 für c = 0.025. Stichprobenmittelwerte. Seien X1 , X2 , . . . , Xn stochastisch unabhängige Zufallsvariablen mit P Erwartungswert µ und Standardabweichung σ. Dann gilt für den Mittelwert X̄ = n−1 ni=1 Xi : E(X̄) = µ und σ Std(X̄) = √ . n Solche Zufallsvariablen X1 , X2 , . . . , Xn treten beispielsweise in folgenden Situationen auf: • Man zieht rein zufällig eine Stichprobe vom Umfang n aus einer Population M mit Zurücklegen. Bei der i–ten Ziehung notiert man sich den Wert Xi eines bestimmten numerischen Merkmals. Hier ist µ der arithmetische Mittelwert des Merkmals in der Population. • Eine bestimmte Messung (z.B. mit einer Waage) wird n mal “unabhängig” wiederholt und liefert die Messwerte X1 , X2 , . . . , Xn . Hier ist µ der zu messende Wert, und Xi ist von der Form µ + Messfehleri , wobei wir voraussetzen, dass E(Messfehler) = 0. Das heißt, mit der Messmethode macht man keinen systematischen Fehler. Zahlenbeispiel: Für eine Waage sei aus umfangreichen Testserien bekannt, dass die Messfehler Erwartungswert Null und Standardabweichung σ = 10 g haben. Mit anderen Worten, E(X) = µ und Std(X) = σ = 10 g. Wenn man eine solche Messung n = 9 mal unabhängig wiederholt, dann gilt für das arithmetische Mittel X̄ der Einzelwerte: E(X̄) = µ und σ Std(X̄) = √ = 3.33 g. n Nach der Tshebyshev–Ungleichung ist die Wahrscheinlichkeit, dass X̄ von µ um mehr als c = 20 g abweicht, nicht größer als Var(X̄) σ2 (10 g)2 = = ≈ 0.0278. c2 nc2 9 · (20 g)2 “Standardfehler”: In vielen Anwendungen ist der Parameter σ unbekannt. Um dann die Präzision von X̄ zu quantifizieren, verwendet man entweder eine obere Schranke für σ, oder man schätzt σ 3.7. ERWARTUNGSWERTE UND DAVON ABGELEITETE KENNGRÖSEN 123 durch die Stichprobenstandardabweichung S. Dann ergibt sich der sogenannte Standardfehler von X̄ (standard error of X̄) : S √ . n Dies darf man nicht verwechseln mit der theoretischen Standardabweichung σ oder der Stichprobenstandardabweichung S. Letztere Größen beziehen sich auf die Verteilung einer einzelnen Beobachtung Xi . Beim Standardfehler handelt es sich um einen Schätzer für die Standardabweichung eines Schätzers. 3.7.5 Allgemeine Überlegungen zum Stichprobenziehen In diesem Abschnitt wollen wir das Stichprobenziehen noch einmal etwas allgemeiner betrachten und bei dieser Gelegenheit einen Zusammenhang zwischen der deskriptiven Statistik und den zuletzt eingeführten Grundbegriffen der Wahrscheinlichkeitsrechnung herstellen. Sei M eine Population von N Individuen (oder Objekten). Für jedes Individuum m ∈ M sei x(m) der Wert eines numerischen Merkmals wie zum Beispiel Alter, Körpergröße, Intelligenzquotient, Monatseinkommen oder Anzahl von Geschwistern. Nun charakterisieren wir die Population durch zwei Kenngrößen: Den Mittelwert 1 X x(m) µ := N m∈M und die Standardabweichung s σ := 1 X (x(m) − µ)2 N m∈M des Merkmals in der Gesamtpopulation. Um etwas über µ und σ herauszufinden, ziehen wir rein zufällig eine Stichprobe vom Umfang n aus M, mit oder ohne Zurücklegen. Wenn wir für diese n Individuen den Wert unseres Merkmals notieren, erhalten wir Zufallsvariablen X1 , X2 , . . . , Xn . Der gleiche Sachverhalt formal: Wir wählen zufällig ein Tupel ω = (ω1 , ω2 , . . . , ωn ) bestehend aus Individuen ω1 , ω2 , . . . , ωn ∈ M und betrachten Xi (ω) = x(ωi ). Im Beweis von Satz 3.47 unten wird unter anderem gezeigt, dass für die einzelnen Zufallsvariablen Xi gilt: E(Xi ) = µ und Std(Xi ) = σ. Nun berechnen wir aus diesen Zufallsgrößen den Stichprobenmittelwert n 1X Xi X̄ = n i=1 als Schätzwert für µ sowie die Stichprobenstandardabweichung v u n u 1 X S = t (Xi − X̄)2 n−1 i=1 124 KAPITEL 3. WAHRSCHEINLICHKEITSRECHNUNG als Schätzwert für die Standardabweichung σ. Die Frage ist nun, wie präzise X̄ als Schätzwert für µ ist. Um diese zu beantworten, berechnen wir den Erwartungswert und die Standardabweichung von X̄. Satz 3.47 Beim Ziehen mit oder ohne Zurücklegen ist E(X̄) = µ, und Std(X̄) = σ √ n (mit Zurücklegen), r N −n σ √ n N −1 (ohne Zurücklegen). Auch hier zeigt sich, dass die Standardabweichung des Schätzers X̄ mit wachsendem n beliebig p klein wird. Beim Ziehen ohne Zurücklegen ist sie um den Faktor (N − n)/(N − 1) kleiner als beim Ziehen mit Zurücklegen. Dieser Faktor ist aber nahezu gleich Eins, wenn der Stichprobenumfang n klein ist im Vergleich zur Populationsgröße N . ∗ Beweis von Satz 3.47 Beim Ziehen mit Zurücklegen besteht der Grundraum Ω aus allen N n Tupeln ω = (ω1 , ω2 , . . . , ωn ) mit Komponenten ωi ∈ M. Beim Ziehen ohne Zurücklegen besteht Ω aus allen solchen Tupeln mit n verschiedenen Komponenten; hiervon gibt es N (N −1) · · · (N − n + 1) = [N ]n Stück. In beiden Fällen gilt für 1 ≤ i ≤ n und ein beliebiges m ∈ M: Die Wahrscheinlichkeit, dass das i–te Stichprobenelement ωi gleich m ist, ist 1/N . Für die Zufallsvariable Xi bedeutet dies: X E(Xi ) = P [bei der i–ten Ziehung m] · x(m) = µ. m∈M Insbesondere ist n n i=1 i=1 1 X 1X Xi = E E(Xi ) = µ. n n E(X̄) = Was die Varianz von X̄ anbelangt, so ist Var(Xi ) = X P [ωi = m] · (x(m) − µ)2 = σ 2 . m∈M P n Also ist Var(X̄) = n−2 Var X i=1 i gleich 1 n2 n X i=1 Var(Xi ) + 2 X Cov(Xi , Xj ) = 1≤i<j≤n = 1 2 nσ + 2 n2 σ2 n + 2 n2 X Cov(Xi , Xj ) 1≤i<j≤n X 1≤i<j≤n Cov(Xi , Xj ). 3.8. ERSTE ANWENDUNGSBEISPIELE STATISTISCHER MODELLE 125 Beim Ziehen mit Zurücklegen sind die Zufallsvariablen Xi stochastisch unabhängig, so dass Cov(Xi , Xj ) = 0. In diesem Falle ist also Var(X̄) = σ2 . n Beim Ziehen ohne Zurücklegen müssen wir etwas weiter ausholen: Für zwei verschiedene m, m̃ ∈ M und zwei verschiedene Indizes i, j ∈ {1, . . . , n} ist P [ωi = m, ωj = m̃] = 1 [N − 2]n−2 = . [N ]n N (N − 1) Daher ist Cov(Xi , Xj ) = E(Xi Xj ) − µ2 X P [ωi = m, ωj = m]x(m)x( e m) e − µ2 = m,m∈M e : m6=m e = 1 N (N − 1) = 1 N (N − 1) = = = = = X x(m)x(m) e − µ2 m,m∈M e : m6=m e X m,m∈M e x(m)x(m) e − X x(m)2 − µ2 m∈M 2 X X 1 x(m) − x(m)2 − µ2 N (N − 1) m∈M m∈M X 1 (N µ)2 − x(m)2 − µ2 N (N − 1) m∈M X N 1 µ2 − x(m)2 − µ2 N −1 N (N − 1) m∈M X 1 1 µ2 − x(m)2 N −1 N (N − 1) m∈M 1 1 X − x(m)2 − µ2 N −1 N m∈M = − σ2 N −1 . Beim Ziehen ohne Zurücklegen ist also Var(X̄) = 3.8 σ 2 n(n − 1) σ 2 σ2 N − n − = . n n2 N −1 n N −1 2 Erste Anwendungsbeispiele statistischer Modelle In diesem Abschnitt beschreiben wir drei Beispiele von Anwendungen, in denen statistische Modelle und Erwartungswerte eine wichtige Rolle spielen. Mit der Präzision der dabei auftretenden Schätzwerte unbekannter Größen, die aus empirischen Daten ermittelt werden, werden wir uns in späteren Kapiteln beschäftigen. 126 3.8.1 KAPITEL 3. WAHRSCHEINLICHKEITSRECHNUNG Die Bestimmung eines optimalen Preises Der Hersteller eines neuen Produktes möchte festlegen, zu welchem Preis a er es anbietet. Sei X der Preis, den eine zufällig ausgewählte Person zu zahlen bereit wäre. Ein erster naiver Ansatz wäre vielleicht a = E(X). Tatsächlich kann der Hersteller nach Festlegung des Preises a damit rechnen, dass ein zufällig ausgewählter und kaufwilliger Kunde den Betrag a bezahlt, wenn X ≥ a, aber das Produkt nicht kauft, wenn X < a. Die mittleren Einnahmen pro kaufwilligem Kunden betragen also MEK(a) := E 1{X ≥ a} · a = P(X ≥ a) · a. Diese Größe sollte nun als Funktion von a maximiert werden. Die Verteilung von X ist in der Regel unbekannt und wird mit Hilfe von Befragungen potentieller Kunden geschätzt. Wenn in der Stichprobe die subjektiven Preise X1 , X2 , . . . , Xn ermittelt wurden, schätzt man MEK(a) durch #{i : Xi ≥ a} \ · a. MEK(a) := n Mit Hilfe der Ordnungsstatistiken X(1) ≤ X(2) ≤ · · · ≤ X(n) kann man auch schreiben \ MEK(a) = a falls a ≤ X(1) , (1 − k/n) · a falls X(k) < a ≤ X(k+1) , 1 ≤ k < n, 0 falls a > X(n) . Datenbeispiel. Zu einem Kapuzenpullover mit Universitätslogo wurden n = 813 Studierende ausführlich befragt. Abbildung 3.16 zeigt auf der linken Seite die empirische Verteilungsfunktion Fb der dabei ermittelten subjektiven Preise Xi in CHF, also Fb(r) = #{i : Xi ≤ r}/n. Die ent\ wird auf der rechten Seite gezeigt. Aus dieser sprechende geschätzte Einnahmenfunktion MEK Graphik bzw. den genauen Werten lässt sich ablesen, dass die mittleren Einnahmen pro (kaufwilligem) Kunden schätzungsweise gleich 14.791 CHF sind, wenn man den Preis a = 25 CHF verlangt. Anmerkung. Die Annahme, dass jeder potentielle Kunde einen bestimmten Preis im Hinterkopf hat, ist durchaus fragwürdig. Sie setzt voraus, dass die Kunden mit dem fraglichen Produkt recht vertraut sind. Insbesondere impliziert diese Annahme folgenden Effekt: Die Kaufbereitschaft b(a), d.h. die Wahrscheinlichkeit, dass ein zufällig gewählter und interessierter Kunde das Produkt wirklich kauft, ist gegeben durch b(a) = P (X ≥ a), also monoton fallend im Preis a. Auf den ersten Blick erscheint dies vernünftig. Aber bei vielen Produkten gibt es den Effekt, dass die Kaufbereitschaft b(·) monoton wachsend in einem gewissen Intervall [0, ao ] und monoton fallend im Bereich [ao , ∞) ist. Man denke z.B. an den Kauf einer Flasche Rotwein in einem Urlaubsort, wenn man keine der im Supermarkt angebotenen Sorten kennt. Nur wenige Leute würden jetzt den billigsten Rotwein kaufen. Ein weiterer Effekt, den viele Händler ausnutzen, ist die Beeinflussung der Kaufbereitschaft durch Anbieten von ähnlichen Produkten zu anderen, teilweise deutlich höheren Preisen. 3.8. ERSTE ANWENDUNGSBEISPIELE STATISTISCHER MODELLE 127 Abbildung 3.16: Datenbeispiel zur Preisgestaltung: Empirische Verteilung der subjektiven Preise (links) und daraus geschätzte mittlere Einnahmenfunktion (rechts) 3.8.2 Bestimmung einer optimalen Vorratsgröße. Ein Hersteller bzw. Händler eines Produktes, welches nur an einem bestimmten Tag verkauft werden kann (z.B. ein Lebensmittel mit kurzer Lebensdauer oder eine Tageszeitung), muss festlegen, wie viele Exemplare er bereit hält. Sei a die noch zu bestimmende Anzahl, und sei X die tatsächliche Nachfrage, die wir als Zufallsvariable betrachten. Auch hier würde man vielleicht auf den ersten Blick a = E(X) bzw. a = bE(X)c wählen. Um eine wirklich brauchbare Lösung zu bestimmen, betrachten wir den Einkaufspreis K sowie den (Brutto-) Verkaufspreis V für ein Exemplar. Das heißt, für jedes bereitgestellte Exemplar bezahlt der Händler den Betrag K, aber für jedes verkaufte Exemplar erhält er den Betrag V . Offensichtlich ist das ganze Geschäft nur interessant, wenn 0 < K < V . Wenn sich der Händler entscheidet, a Exemplare vorrätig zu halten, so ist letztlich sein Nettogewinn gleich G(a, X) = min(a, X) · V − a · K. Eine sinnvolle Forderung ist nun, dass der erwartete Nettogewinn, EG(a, X), möglichst groß sein sollte. Hierfür gibt es in der Regel keine einfache geschlossene Formel. Dennoch ist die Bestimmung einer optimalen Zahl a leicht möglich: Denn −K falls X ≤ a G(a + 1, X) − G(a, X) = V − K falls X ≥ a + 1 = 1{X ≥ a + 1} · (V − K) − 1{X ≤ a} · K = (V − K) − 1{X ≤ a} · V. Folglich ist EG(a + 1, X) − EG(a, X) = E G(a + 1, X) − G(a, X) = (V − K) − P(X ≤ a) · V. 128 KAPITEL 3. WAHRSCHEINLICHKEITSRECHNUNG Diese Differenz ist positiv genau dann, wenn P(X ≤ a) < 1 − K/V . Ein optimaler Wert für a ist daher gleich min a ∈ N 0 : P(X ≤ a) ≥ 1 − K/V . Zahlenbeispiel. Angenommen, X ist poissonverteilt mit Parameter λ = 15, das heißt, P(X ≤ a) = F15 (a) := a X e−15 k=0 15k . k! Wenn das Verhältnis K/V gleich 1/3 ist, so ergibt sich a = 17, denn F15 (16) ≈ 0.6641 und F15 (17) = 0.7489. Die Schätzung der Verteilung von X führt übrigens auf das interessante Feld der “zensierten” bzw. “trunkierten” Daten. Das bedeutet, man beobachtet eigentlich nur min(a1 , X1 ), min(a2 , X2 ), . . . , min(an , Xn ) für gewisse Auflagezahlen a1 , a2 , . . . , an . 3.8.3 Ein Beispiel einer “verzerrten Stichprobe” Bei der Befragung von jungen Erwachsenen wurden diese unter anderem danach gefragt, wie viele Geschwister sie mütterlicherseits haben. Sei X diese Zahl für eine rein zufällig ausgewählte Person. Also ist X eine Zufallsvariable mit Werten in {0, 1, 2, . . .}. Nun interessieren wir uns für die Verteilung der Anzahl Y von Kindern, die eine rein zufällig ausgewählte Mutter hat. Diese Zufallsvariable hat per Definition Werte in {1, 2, 3, . . .}. Auf den ersten Blick denkt man vielleicht, dass P(X = k − 1) = P(Y = k) für k = 1, 2, 3, . . ., was aber ein Trugschluss ist! Die Zufallsvariable Y bezieht sich auf die Grundgesamtheit aller Mütter, wohingegen X auf der Grundgesamtheit der entsprechenden Kinder basiert. Eine Mutter mit k Kindern ist also in der Population der Kinder k–fach vertreten, was sich auf die Verteilungen von X und Y wie folgt auswirkt: P(Y = k) · k P(Y = k) · k = , P(X = k − 1) = P∞ P(Y = `) · ` E(Y ) `=1 also P(X = k − 1) (3.5) k für k = 1, 2, 3, . . .. Die Wahrscheinlichkeiten P(X = k − 1) auf der rechten Seite lassen sich aus den oben erwähnten Daten schätzen, doch müssen wir noch den unbekannten Erwartungswert E(Y ) in den Griff bekommen. Zu diesem Zweck summieren wir die Gleichung (3.5) über alle k und erhalten die folgende Formel: P(Y = k) = E(Y ) · ∞ X P(X = k − 1) −1 E(Y ) = . k k=1 Mit anderen Worten, 1 1 = E . E(Y ) X +1 (3.6) 3.8. ERSTE ANWENDUNGSBEISPIELE STATISTISCHER MODELLE 129 Datenbeispiel. Bei der Befragung von n = 384 Vorlesungsteilnehmenden in den Jahren 2005 (Statistik für Naturwissenschaften) und 2006 (Statistik für WiSo) ergaben sich die folgenden absoluten Häufigkeiten Ng = #{i : Xi = g} und Schätzer pbg = Ng /n für pg := P(X = g): g Ng pbg 0 1 2 3 4 5 6 7 8 9 10 25 186 121 32 11 5 0 1 0 0 3 .0651 .4844 .3151 .0833 .0286 .0130 .0000 .0026 .0000 .0000 .0078 Mit Hilfe von (3.6) ergibt sich daraus der Schätzwert νb := ∞ X pb k−1 k=1 k −1 ≈ (0.4421)−1 ≈ 2.2620 für die mittlere Zahl ν = E(Y ) von Kindern pro Mutter. Übrigens ist der naive, aber systematisch zu große Schätzwert X̄ + 1 hierfür gleich 2.6406. Für die Wahrscheinlichkeiten qk := P(Y = k) ergeben sich nun die folgenden Schätzwerte qbk := νbpbk−1 /k: k qbk 1 2 3 4 5 6 7 8 9 10 11 .1473 .5478 .2376 .0471 .0130 .0049 .0000 .0007 .0000 .0000 .0016 Anmerkung. Bei den obigen Betrachtungen gehen wir stillschweigend davon aus, dass die Verteilung von Y sich im Laufe der Zeit kaum verändert. Wollte man ein möglichst aktuelles Bild erhalten, könnte man beispielsweise mehrere hundert Primarschüler befragen. Dabei tritt allerdings ein neues Problem auf: Bei Primarschülern ist es durchaus möglich, dass deren Mütter noch weitere Kinder zur Welt bringen werden. Das heißt, die Zahlen Xi in einer solchen Stichprobe wären systematsich zu klein! Ein möglicher Ausweg wäre, nach der Zahl der älteren Geschwister mütterlicherseits zu fragen. Bezeichnen wir die Anzahl älterer Geschwister eines zufällig herause und Y einen gegriffenen Kindes mit X̃, dann gibt es auch zwischen den Verteilungen von X genauen Zusammenhang; siehe Übungen. e erhoben, und es ergaben sich Bei der obigen Datenerhebung wurde übrigens auch das Merkmal X ei = g} aus n = 382 sinnvollen Antworten: die folgenden absoluten Häufigkeiten Ñg = #{i : X g Ñg 0 1 2 3 4 5 6 7 8 9 10 193 125 43 13 5 2 0 0 0 0 1 130 KAPITEL 3. WAHRSCHEINLICHKEITSRECHNUNG Kapitel 4 Dichtefunktionen und Normalverteilungen Bisher betrachteten wir Zufallsvariablen X mit diskreter Verteilung. Das heißt, die möglichen Werte lassen sich auflisten, und die Verteilung von X wird durch die Wahrscheinlichkeiten P (X = x) für alle in Frage kommenden Werte x vollständig charakterisiert. Diesen Rahmen werden wir nun erweitern. 4.1 Von Histogrammen zu Wahrscheinlichkeitsdichten Wir betrachten eine große Population von N Individuen. Für Individuum m sei x(m) der Wert einer numerischen Variable, z.B. eine sehr genaue Messung der Körpergröße um 12:00 Uhr. Nun wählen wir rein zufällig ein Individuum aus der Population und bezeichnen dessen Variablenwert mit X. Dies ist eine Zufallsvariable mit diskreter Verteilung. Und zwar gilt für beliebige Mengen B ⊂ R: #{m : x(m) ∈ B} . P (X ∈ B) = N Nun erzeugen wir mit Hilfe aller Werte x(m) ein Histogramm: Wir unterteilen den Wertebereich von x(·) in Intervalle (a0 , a1 ], (a1 , a2 ], . . . , (aK−1 , aK ] und definieren eine Histogrammfunktion f wie folgt: Für x ∈ (aj−1 , aj ] sei f (x) := #{m : x(m) ∈ (aj−1 , aj ]} P (X ∈ (aj−1 , aj ]) = . N (aj − aj−1 ) aj − aj−1 Für x ≤ a0 und x > aK setzen wir noch f (x) := 0. Hierbei handelt es sich um eine Treppenfunktion, und die Gesamtfläche zwischen der x–Achse und dem Graphen von f ist gleich Z ∞ f (x) dx = 1. −∞ Zur Illustration zeigt Abbildung 4.1 für eine hypothetische Population ein Histogramm bezüglich der Intervalle (155, 157], (157, 159], . . . , (203, 205]. 131 132 KAPITEL 4. DICHTEFUNKTIONEN UND NORMALVERTEILUNGEN 0.05 0.04 0.03 0.02 0.01 0 155 160 165 170 175 180 185 190 195 200 205 Abbildung 4.1: Histogramm 1 eines numerischen Merkmals in einer (hyp.) Population Wenn die Intervalle so klein gewählt wurden, dass alle relativen Anteile P (X ∈ (aj−1 , aj ]) sehr klein sind, so gilt für −∞ ≤ a < b ≤ ∞: Z b P (a < X ≤ b) ≈ f (x) dx. a Diese Formel ist sogar exakt gültig, wenn die Grenzen a und b in der Menge der Punkte −∞, a0 , a1 , . . . , aK , ∞ liegen. Andererseits erinnert die Histogrammfunktion f bei kleinen Intervallen aber großen Populationen oftmals an eine stetige Funktion, das heißt, die Treppenstufen sind nicht sehr deutlich. Zur Illustration zeigt Abbildung 4.2 für die obige hypothetische Population nun Histogramme bezüglich Intervallen der Länge h = 1 bzw. h = 0.5. 0.05 0.05 0.04 0.04 0.03 0.03 0.02 0.02 0.01 0.01 0 155 160 165 170 175 180 185 190 195 200 205 0 160 165 170 175 180 185 190 195 200 Abbildung 4.2: Histogramme 2 und 3 eines numerischen Merkmals in einer (hyp.) Population Daher könnte man direkt die Verteilung von X durch eine sogenannte Dichtefunktion im Sinne 4.1. VON HISTOGRAMMEN ZU WAHRSCHEINLICHKEITSDICHTEN 133 der folgenden Definition beschreiben, zumindest näherungsweise. Definition 4.1 (Wahrscheinlichkeitsdichtefunktion) (a) Eine Funktion f auf R mit Werten in [0, ∞) heißt Wahrscheinlichkeitsdichtefunktion (oder kurz: Wahrscheinlichkeitsdichte, Dichtefunktion), wenn Z ∞ f (x) dx = 1. −∞ (b) Eine Dichtefunktion f wie in Teil (a) induziert eine Wahrscheinlichkeitsverteilung Q auf R, und zwar definieren wir für ein beliebiges Intervall B mit Endpunkten a < b: Z b f (x) dx. Q(B) := a (c) Zu einer Dichtefunktion f wie in Teil (a) gehört eine Verteilungsfunktion F , nämlich Z r f (x) dx. F (r) := −∞ Für das Intervall B in Teil (b) ist dann Q(B) = F (b) − F (a). (d) Eine Zufallsvariable X ist verteilt nach einer Dichtefunktion f , wenn für beliebige Intervalle B wie in (b) gilt: Z b P (X ∈ B) = f (x) dx. a Abbildung 4.3 illustriert den Zusammenhang zwischen f und F . Im oberen Teil sieht man die Dichtefunktion f und im unteren die entsprechende Verteilungsfunktion F . Den Zusammenhang zwischen f , F und Q illustriert Abbildung 4.4. Sie zeigt ein kompaktes Intervall [a, b] und den Rb entsprechenden Flächeninhalt Q(B) = a f (x) dx = F (b) − F (a). Die Deutung von f . Bei einer Wahrscheinlichkeitsverteilung Q mit Dichtefunktion f ist Q({x}) = 0 für einen beliebigen Punkt x. Man kann also f (x) nicht als Wahrscheinlichkeit des Punktes x interpretieren! Vielmehr ist f (x) = lim ↓0 Q([x − , x + ]) = 2 lim a,b→x, a<b Q([a, b]) = F 0 (x) b−a sofern f an der Stelle x stetig ist. Anmerkung (Eigenschaften von F ). Die Verteilungsfunktion F hat folgende drei Eigenschaften: • F ist stetig und monoton wachsend; 134 KAPITEL 4. DICHTEFUNKTIONEN UND NORMALVERTEILUNGEN F(r) r 1 F(r) 0.5 0 r Abbildung 4.3: Zusammenhang zwischen Dichtefunktion f und Verteilungsfunktion F • die Grenzwerte im Unendlichen sind F (−∞) = 0 und F (∞) = 1. • F ist fast überall differenzierbar mit Ableitung F 0 = f ; Umgekehrt sei eine stetige Funktion F gegeben mit Grenzwerten F (−∞) = 0 und F (∞) = 1. Ist F überall differenzierbar mit Ausnahme von höchstens endlich vielen Stellen, und ist F 0 ≥ 0, dann ist f := F 0 eine Wahrscheinlichkeitsdichtefunktion mit zugehöriger Verteilungsfunktion F . Beispiel 4.2 Sei F (r) := 0 für r ≤ 0, r/(1 + r) für r ≥ 0. Dies ist eine stetige Funktion mit Grenzwerten F (−∞) = 0 und F (∞) := lim F (r) = lim r→∞ r→∞ 1 = 1. r−1 + 1 Außerdem ist F an jeder von Null verschiedenen Stelle differenzierbar, nämlich 0 für x < 0 0 F (x) = ≥ 0. 1/(1 + x)2 für x > 0 Daher ist F die Verteilungsfunktion der Wahrscheinlichkeitsdichte f = F 0 , wobei wir f (0) beliebig definieren können, z.B. f (0) := 0. Abbildung 4.5 zeigt F und f . 4.2. RECHNEN MIT WAHRSCHEINLICHKEITSDICHTEN 135 Q([a,b]) 0 a b 1 Q([a,b]) = F(b) − F(a) 0.5 0 a b Abbildung 4.4: Zusammenhang zwischen Dichtefunktion f , Verteilungsfunktion F und Verteilung Q 4.2 Rechnen mit Wahrscheinlichkeitsdichten Bevor wir konkrete Beispiele für Wahrscheinlichkeitsdichten behandeln, wollen wir ein paar Rechenregeln hierzu zusammenstellen. Im Folgenden sei X eine Zufallsvariable, deren Verteilung durch eine Dichtefunktion f und Verteilungsfunktion F beschrieben wird. 4.2.1 Transformationen Für zwei beliebige Zahlen µ und σ > 0 betrachten wir die transformierte Zufallsvariable Y := µ + σX. Die Verteilungsfunktion dieser Zufallsvariable bezeichnen wir mit G, also G(r) := P (Y ≤ r). Der Zusammenhang zwischen F und G ist wie folgt: r − µ r − µ = F , G(r) = P (µ + σX ≤ r) = P (σX ≤ r − µ) = P X ≤ σ σ also G(r) = F r − µ σ . 136 KAPITEL 4. DICHTEFUNKTIONEN UND NORMALVERTEILUNGEN 1 F(x) 0.8 0.6 0.4 0.2 0 −1 0 1 2 3 4 0 1 2 3 4 x 5 6 7 8 9 10 5 6 7 8 9 10 1 f(x) 0.8 0.6 0.4 0.2 0 −1 x Abbildung 4.5: Verteilungs- und Dichtefunktion in Beispiel 4.2. Wenn man jetzt beide Seiten dieser Gleichung nach r ableitet, dann ergibt sich eine Dichtefunktion für Y . Und zwar folgt aus der Kettenregel, dass d x − µ F dx σ x − µ d x − µ 0 · = F σ dx σ x − µ 1 = f · . σ σ d G(x) = dx Also wird die Verteilung von Y durch folgende Dichtefunktion g beschrieben: g(x) = 4.2.2 1 x − µ f . σ σ Erwartungswert, Varianz und Standardabweichung Bei Zufallsvariablen mit diskreter Verteilung definierten wir den Erwartungswert E(X) als die P Summe x P (X = x) · x. Hier funktioniert dies nicht, da alle Wahrscheinlichkeiten P (X = x) gleich Null sind. Die neue Definition für den Mittelwert lautet: Z ∞ f (x) · x dx. E(X) := −∞ 4.2. RECHNEN MIT WAHRSCHEINLICHKEITSDICHTEN 137 Anschaulich kann man dies wie folgt deuten: Man unterteilt die reelle Achse in unendlich viele sehr kleine Intervalle . . . , I−2 , I−1 , I0 , I1 , I2 , . . .. Dann ist Z ∞ X P (X ∈ Iz ) · mz f (x) · x dx ≈ −∞ z=0,±1,±2,... X ≈ Länge(Iz ) · f (mz ) · mz , z=0,±1,±2,... wobei mz der Mittelpunkt des Intervalls Iz ist. Die obige Formel für den Erwartungswert von X kann man noch auf Funktionen von X verallgemeinern: Für eine Funktion h : R → R ist Z ∞ f (x) · h(x) dx. E(h(X)) := −∞ Speziell für die Varianz von X ergeben sich zwei mögliche Formeln. Zunächst gilt allgemein Var(X) = E (X − E(X))2 = E(X 2 ) − E(X)2 . Daher ist Z ∞ Var(X) = f (x) · (x − E(X))2 dx = Z −∞ ∞ f (x) · x2 dx − E(X)2 . −∞ Die Standardabweichung ist nach wie vor definiert als Std(X) = p Var(X). Beispiel 4.3 Wir betrachten die Funktion f (x) := 0 für x ≤ 0, xe−x für x ≥ 0. Diese Funktion ist nichtnegativ. Dass sie sogar eine Wahrscheinlichkeitsdichte darstellt, werden wir gleich sehen. Für r ≤ 0 ist offensichtlich Z r f (x) dx = 0. −∞ Für r > 0 verwenden wir partielle Integration: Z r Z r f (x) dx = x · |{z} e−x dx |{z} −∞ 0 = v 0 (x) u(x) Z r −x x ·(−e ) − |{z} | {z } 0 u(x) 0 v(x) Z r = −re−r + e−x dx r = −re−r + −e−x 0 0 = 1 − (1 + r)e−r . r −x 1 ·(−e |{z} | {z }) dx u0 (x) v(x) 138 KAPITEL 4. DICHTEFUNKTIONEN UND NORMALVERTEILUNGEN Da limr→∞ e−r rk = 0 für beliebige Exponenten k ≥ 0, ist der Grenzwert von 1 − (1 + r)e−r für r → ∞ gleich Eins. Somit ist f tatsächlich eine Wahrscheinlichkeitsdichte mit Verteilungsfunktion 0 für r ≤ 0, F (r) := −r 1 − (1 + r)e für r ≥ 0. Für eine Zufallsvariable X mit dieser Verteilung ist Z ∞ Z ∞ x2 e−x dx = 2, x · f (x) dx = E(X) = Z0 ∞ Z−∞ ∞ x3 e−x dx = 6. x2 · f (x) dx = E(X 2 ) = −∞ 0 Dabei verwenden wir die allgemeine Formel Z ∞ xk e−x dx = k! für k = 0, 1, 2, . . . 0 (die man ebenfalls mit partieller Integration nachweisen kann). Insbesondere ist p p √ Std(X) = Var(X) = E(X 2 ) − E(X)2 = 2 . 4.3 Beispiele von Dichtefunktionen In diesem Abschnitt beschreiben wir zwei Familien von Verteilungen mit Dichtefunktion. Uniforme Verteilungen und die besonders wichtigen Normalverteilungen werden in separaten Abschnitten behandelt. 4.3.1 Exponentialverteilungen Für λ > 0 definieren wir die Wahrscheinlichkeitsdichtefunktion ( 0 für x ≤ 0, x fλ (x) := 1 exp − für x > 0. λ λ Es handelt sich tatsächlich um eine Wahrscheinlichkeitsdichte, denn an jeder von Null verschiedenen Stelle ist fλ die Ableitung der folgenden Funktion Fλ : ( 0 für r ≤ 0, r Fλ (r) := 1 − exp − für r ≥ 0. λ Die entsprechende Verteilung nennt man Exponentialverteilung mit Parameter λ, und wir bezeichnen sie mit Exp(λ). Der Parameter λ > 0 ist ein Skalenparameter. Ist nämlich X nach Exp(1) verteilt, dann folgt aus unseren Überlegungen zu Transformationen, dass Y = λX nach Exp(λ) verteilt ist. Für eine Zufallsvariable Y mit Verteilung Exp(λ) kann man zeigen, dass E(Y ) = λ und Std(Y ) = λ. Denn für X ∼ Exp(1) folgt aus (4.5) in Abschnitt 4.3.3, dass E(X) = 1 und E(X 2 ) = 2, also Var(X) = 1. 4.3. BEISPIELE VON DICHTEFUNKTIONEN 139 Zusammenhang mit der geometrischen Verteilung. Sei Y geometrisch verteilt mit Parameter p ∈ (0, 1); das heißt, P(Y > k) = (1 − p)k für k = 0, 1, 2, . . . . Für beliebige reelle Zahlen r ist dann ( 0 P(Y ≤ r) = 1 − P(Y > r) = 1 − (1 − p)brc für r ≤ 0, für r ≥ 0. Doch (1 − p)brc und (1 − p)r unterscheiden sich für jedes r ≥ 0 um weniger als p, denn 0 ≤ (1 − p)brc − (1 − p)r < (1 − p)brc − (1 − p)brc+1 = (1 − p)brc p ≤ p. Für kleine Werte p ∈ (0, 1) ist also P(Y ≤ r) ≈ 1 − (1 − p)r = 1 − exp(log(1 − p)r), das heißt, Y ist näherungsweise exponentialverteilt mit Parameter λ := −1/ log(1 − p) > 0. 4.3.2 Gammaverteilungen Nun lernen wir ein Modell für rechtsschiefe Verteilungen kennen. Dieses kommt beispielsweise bei der Modellierung von Überlebenszeiten (Medizin, Biologie) oder Einkommensverteilungen zum Einsatz. Für Parameter a, b > 0 sei 0 für x ≤ 0, x a−1 x 1 fa,b (x) := für x > 0. exp − bΓ(a) b b Dabei ist Γ(·) die sogenannte Gammafunktion, Z ∞ ta−1 exp(−t) dt; Γ(a) := 0 siehe auch Abschnitt 4.3.3. Die entsprechende Wahrscheinlichkeitsverteilung ist die Gammaverteilung mit Parametern a und b und wird im Folgenden mit Gamma(a, b) bezeichnet. • Der erste Parameter, a, bestimmt die Form der Dichtefunktion. Für a < 1 hat fa,b an der Stelle Null den rechtsseitigen Grenzwert ∞. Für a = 1 handelt es sich um eine Exponentialverteilung, Gamma(1, b) = Exp(b). Für a > 1 ist fa,b an der Stelle Null stetig. Für a > 2 ist fa,b sogar 0 (0) = 0. überall differenzierbar mit fa,b • Der zweite Parameter, b, ist ein Skalenparameter. Wenn X nach Gamma(a, 1) verteilt ist, dann ist Y = bX nach Gamma(a, b) verteilt. • Im Falle von a > 1 ist die Dichtefunktion fa,b streng monoton wachsend auf [0, (a − 1)b] und streng monoton fallend auf [(a − 1)b, ∞). • In den Übungen werden wir zeigen, dass für eine nach Gamma(a, b) verteilte Zufallsvariable Y gilt: E(Y ) = ab, Std(Y ) = a1/2 b, 140 KAPITEL 4. DICHTEFUNKTIONEN UND NORMALVERTEILUNGEN und E (Y − E(Y ))3 Schiefe(Y ) := Std(Y )3 = 2a−1/2 . Abbildung 4.6 zeigt die Dichtefunktion fa,b für a = 1, 2, 4, 8 und b = 1 (im Bereich [0, a+5a1/2 ]). Dabei werden jeweils die Maximalstelle der Dichtefunktion ((a − 1)b) und der Mittelwert der Verteilung (ab) durch eine vertikale Linie hervorgehoben. Gamma(1, 1) Gamma(2, 1) 1 0.35 0.9 0.3 0.8 0.7 0.25 f(x) f(x) 0.6 0.5 0.2 0.15 0.4 0.3 0.1 0.2 0.05 0.1 0 0 1 2 x 3 4 5 0 6 0 1 2 Gamma(4, 1) 3 4 x 5 6 7 8 9 Gamma(8, 1) 0.15 0.2 0.1 f(x) f(x) 0.15 0.1 0.05 0.05 0 0 2 4 6 8 x 10 12 0 14 0 5 10 x 15 20 Abbildung 4.6: Dichtfunktionen diverser Gammaverteilungen 4.3.3 Einige nützliche Integrale Wir stellen hier einige Formeln für Integrale zusammen, die in den vorangehenden Abschnitten und den Übungen dazu verwendet werden. (I) Für Konstanten c 6= 0 und q ≤ r ist Z r r ecx dx = c−1 ecx = c−1 ecr − c−1 ecq , q q 4.3. BEISPIELE VON DICHTEFUNKTIONEN 141 denn (c−1 ecx )0 = ecx . Speziell für c = −1 und r ≥ 0 gilt also die Gleichung Z r e−x dx = 1 − e−r , (4.1) 0 und für r → ∞ ergibt sich die Formel Z ∞ e−x dx = 1. (4.2) 0 (II) Für Konstanten k > 0 und r ≥ 0 ist Z Z r k −x k −r x e dx = −r e + k r xk−1 e−x dx. (4.3) 0 0 Dies ergibt sich durch partielle Integration. Denn allgemein gilt für Funktionen u(·) und v(·) die Formel Z r Z r r 0 u0 (x)v(x) dx. u(x)v (x) dx = u(x)v(x) − q q q −e−x , Setzen wir speziell u(x) := und v(x) := dann ist u(x)v 0 (x) = xk e−x und u0 (x)v(x) = −kxk−1 e−x . Lässt man in (4.3) noch r gegen ∞ laufen, dann ergibt sich die Formel Z ∞ Z ∞ xk e−x dx = k xk−1 e−x dx, (4.4) xk 0 denn limr→∞ rk e−r 0 = 0 für beliebige Exponenten k > 0. (III) Ist k eine natürliche Zahl, dann kann man (4.4) induktiv anwenden, bis man bei Formel (4.2) landet: Z ∞ Z ∞ k −x x e dx = k xk−1 e−x dx 0 0 Z ∞ = k(k − 1) xk−2 e−x dx (falls k > 1) 0 Z ∞ = k(k − 1)(k − 2) xk−3 e−x dx (falls k > 2) 0 .. . Z ∞ = k! x0 e−x dx, 0 und zusammen mit (4.2) ergibt sich die Gleichung Z ∞ xk e−x dx = k! für beliebige k ∈ N0 . (4.5) 0 R∞ (IV) Die Gamma-Funktion. Die Berechnung des Integrals 0 xk e−x dx für beliebige Exponenten k > 0 ist schwierig; nur in Spezialfällen existieren geschlossene Formeln wie (4.5). Weil aber solche Integrale immer wieder auftreten, verwendet man hierfür folgende Abkürzung: Die Gamma-Funktion an der Stelle a > 0 ist definiert als Z ∞ Γ(a) := xa−1 e−x dx. (4.6) 0 Formel (4.4) ergibt dann die Gleichung Γ(a + 1) = aΓ(a) für beliebige a > 0. (4.7) 142 4.4 KAPITEL 4. DICHTEFUNKTIONEN UND NORMALVERTEILUNGEN Uniforme Verteilungen und Anwendungen Im Rahmen von diskreten Wahrscheinlichkeitsverteilungen begegneten uns bereits Laplace-Verteilungen, das heißt, uniforme Verteilungen auf endlichen Mengen. In diesem Abschnitt betrachten wir idealisierte Versionen solcher Verteilungen. Zur Motivation betrachten wir zunächst von Rechnern erzeugte Pseudozufallszahlen. 4.4.1 Pseudozufallszahlen und uniforme Verteilungen Pseudozufallszahlen. Taschenrechner und Computer bieten “Zufallszahlen” zwischen Null und Eins an. Dahinter steckt in der Regel folgendes Verfahren: Der Rechner erzeugt nach einem festen Schema ganze Zahlen z0 , z1 , z2 , z3 , . . . in einem Intervall {0, 1, 2, . . . , m − 1} mit einer astronomisch großen natürlichen Zahl m. Genauer gesagt, ist zk+1 = H(zk ) für k = 0, 1, 2, . . . und eine gewisse Funktion H, so dass gilt: {z0 , z1 , z2 , . . . , zm−1 } = {0, 1, 2, . . . , m − 1} und zm = z0 . Die Zahlen von 0 bis m − 1 werden also nach einem festen und (scheinbar) schwer durchschaubaren Schema immer wieder durchlaufen. Bei jedem Aufruf der Zufallsfunktion wird die derzeitige Zufallszahl zk , die im Rechner als “random seed” gespeichert ist, durch ihre Nachfolgerin zk+1 = H(zk ) ersetzt, und der Rechner spuckt die Pseudozufallszahl Uk+1 := zk+1 + 0.5 ∈ [0, 1] m aus. Beim Entwurf eines Zufallsgenerators, also der Konstruktion einer Funktion H, achtet man darauf, dass die resultierende Sequenz U0 , U1 , U2 , . . . keine Regelmäßigkeiten zeigt. Genauer gesagt, möchte man sicherstellen, dass für möglichst hohe Dimensionen d noch folgende Bedingung erfüllt ist: Bildet man die d–Tupel U (1) = (U1 , . . . , Ud ), U (2) = (Ud+1 , . . . , U2d ), U (3) = (U2d+1 , . . . , U3d ) und so weiter, dann ist der relative Anteil dieser Tupel, welche in einem “Rechteck” [a1 , b1 ] × [a2 , b2 ] × · · · × [ad , bd ] ⊂ [0, 1] × [0, 1] × · · · × [0, 1] landen, näherungsweise gleich dem d–dimensionalen Volumen (b1 − a1 )(b2 − a2 ) · · · (bd − ad ). Nun vergessen wir wieder, dass es sich um Pseudozufallszahlen handelt, und tun so, als wären z0 , z1 , z2 , . . . stochastisch unabhängige Zufallszahlen, die jeweils auf {0, 1, . . . , m − 1} uniform verteilt sind. Die Zufallsvariablen Uk := (zk + 0.5)/m liegen dann im Einheitsintervall [0, 1], und für beliebige Intervalle B ⊂ [0, 1] gilt näherungsweise die Formel P (Uk ∈ B) = Länge(B). 4.4. UNIFORME VERTEILUNGEN UND ANWENDUNGEN 143 Der Fehler bei dieser Gleichung ist höchstens 1/m, also bei großem m vernachlässigbar. Mit anderen Worten, definiert man f (x) := 1 für x ∈ [0, 1], 0 für x ∈ R \ [0, 1], dann wird die Verteilung der Zufallszahlen Uk durch diese Dichtefunktion f (näherungsweise) beschrieben. Die entsprechende Verteilungsfunktion F ist gegeben durch 0 für r ≤ 0, r für 0 ≤ r ≤ 1, F (r) = 1 für r ≥ 1. Die entsprechende Verteilung nennt man uniforme Verteilung auf dem Intervall [0, 1] und bezeichnet sie mit dem Symbol U[0, 1]. Uniforme Verteilungen auf Intervallen. Für beliebige Zahlen −∞ < A < B < ∞ sei (B − A)−1 für x ∈ [A, B], fA,B (x) := 0 für x ∈ R \ [A, B], Dies ist eine Wahrscheinlichkeitsdichte mit Verteilungsfunktion 0 für r ≤ A, (r − A)/(B − A) für A ≤ r ≤ B, FA,B (r) = 1 für r ≥ B. Die entsprechende Verteilung nennt man uniforme Verteilung auf [A, B] und bezeichnet sie mit dem Symbol U[A, B]. 4.4.2 Simulationsmethoden Auf den ersten Blick sind uniforme Verteilungen kein realistisches Modell für irgendwelche realen Verteilungen, doch dieser Eindruck trügt. Außerdem spielen sie eine wichtige Rolle bei Simulationsprogrammen. Denn im Prinzip kann man mit dem Rechner Zufallsvariablen X mit beliebiger vorgegebener Verteilung simulieren. Dies erläutern wir jetzt in zwei Spezialfällen. Simulation von Zufallsvariablen mit vorgegebener diskreter Verteilung. Angenommen, wir möchten eine Zufallsvariable X simulieren, welche K verschiedene Werte x1 , x2 , . . . , xK mit Wahrscheinlichkeiten p1 , p2 , . . . , pK annimmt. Zu diesem Zweck unterteilen wir das Intervall [0, 1] in Intervalle B1 , B2 , . . . , BK derart, dass Länge(Bj ) = pj . Ausgehend von einer (simulierten) Zufallsvariable U mit Verteilung U[0, 1] definieren wir dann X := xj falls U ∈ Bj , 1 ≤ j ≤ K. Diese Zufallsvariable X hat dann die gewünschte diskrete Verteilung, denn P(X = xj ) = P(U ∈ Bj ) = pj . Hier noch ein Spezialfall dieser Konstruktion: Die Zufallsvariable X := dU · Ke ist Laplaceverteilt auf der Menge {1, 2, . . . , K}. Denn X = j genau dann, wenn U im Intervall Bj = (j − 1)/K, j/K landet. 144 KAPITEL 4. DICHTEFUNKTIONEN UND NORMALVERTEILUNGEN Simulation von Zufallsvariablen mit vorgegebener Verteilung auf R. Sei Q eine beliebige Wahrscheinlichkeitsverteilung auf R mit Verteilungsfunktion F , das heißt, F (r) = Q((−∞, r]) für r ∈ R. Für eine beliebige Zahl u ∈ (0, 1) sei F −1 (u) := min r ∈ R : F (r) ≥ u . Ist U eine nach U[0, 1] verteilte Zufallsvarable, dann ist X := F −1 (U ) eine Zufallsvariable mit der vorgegebenen Verteilung Q bzw. Verteilungsfunktion F . Denn nach Definition von F −1 ist P(X ≤ r) = P(F (r) ≥ U ) = F (r). Beispiel: Simulation von exponentialverteilten Zufallsvariablen. Angenommen, wir möchten eine Zufallsvariable mit Verteilung Exp(λ) simulieren. Die entsprechende Verteilungsfunktion ist gegeben durch Fλ (r) = 1 − exp(−r/λ) für r ≥ 0; siehe auch Abschnitt 4.3.1. Für u ∈ (0, 1) ist die Gleichung F (r) = u gleichbedeutend mit 1 − exp(−r/λ) = u und hat die eindeutige Lösung r = − log(1 − u) · λ. Also ist Fλ−1 (u) = − log(1 − u) · λ, und X := − log(1 − U ) · λ definiert eine exponentialverteilte Zufallsvariable mit Parameter λ. 4.4.3 Benfords Gesetz Vor ca. 120 Jahren stellte der kanadische Astronom Simon Newcomb fest, dass die vorderen Seiten einer Logarithmentafel viel abgegriffener waren als die hinteren. Aus dieser Beobachtung zog er den Schluss, dass seine Kollegen öfters mit Zahlen zu tun hätten, die mit den Ziffern 1 oder 2 begannen, als mit solchen, die durch 8 oder 9 angeführt wurden. Diese These geriet alsbald in Vergessenheit und wurde erst im Jahre 1938 von dem Physiker Frank Benford wiederentdeckt. Dieser wertete verschiedene umfangreiche Datensätze aus. Unter anderem betrachtete er Tabellen von Naturkonstanten, Flusslängen und Atomgewichten chemischer Elemente. Dabei stellte er fest, dass die relative Häufigkeit von Zahlen mit führender Ziffer d, also Zahlen der Form ± d.ef g . . . · 10z mit einer ganzen Zahl z, monoton fallend ist in d ∈ {1, 2, . . . , 9}. Nach genaueren Analysen formulierte er folgende Gesetzmäßigkeit: Die relative Häufigkeit von Zahlen mit führender Ziffer d ∈ {1, 2, . . . , 9} ist in etwa gleich 1 . p(d) := log10 (d + 1) − log10 (d) = log10 1 + d Hier ist eine Tabelle dieser Zahlen p(d) auf drei Nachkommastellen gerundet: d p(d) 1 0.301 2 0.176 3 0.125 4 0.097 5 0.079 6 0.067 7 0.058 8 0.051 Für dieses Phänomen gibt es mehrere Erklärungen, von denen wir zwei skizzieren: 9 0.046 4.4. UNIFORME VERTEILUNGEN UND ANWENDUNGEN 145 Erklärung 1 (heuristisch). An Stelle eines umfangreichen Datensatzes betrachten wir eine zeitabhängige Größe x(t) > 0 über einen längeren Zeitraum. Genauer gesagt wachse oder falle diese Größe exponentiell. Das heißt, man kann schreiben x(t) = x(0) exp(at) für t ≥ 0 mit einer von Null verschiedenen Konstante a. Man denke beispielsweise an ein fest verzinstes Sparguthaben oder an die Größe einer Population. Betrachtet man log10 x(t) an Stelle von x(t), so ergibt sich ein linearer Anstieg: log10 x(t) = log10 x(0) + bt mit b := a/ log(10) 6= 0. Dass eine Zahl x mit der führenden Ziffer d beginnt, ist gleichbedeutend damit, dass die Zahl log10 x in einem Intervall der Form log10 (d · 10z ), log10 ((d + 1) · 10z ) = z + log10 (d), z + log10 (d + 1) ⊂ [z, z + 1) mit einer ganzen Zahl z liegt; siehe auch Abbildung 4.7. Dies bedeutet, dass x(t) auf lange Sicht mit Wahrscheinlichkeit log10 (d + 1) − log10 (d) = p(d) mit der führenden Ziffer d beginnt. Dabei ist ‘Wahrscheinlichkeit’ im Sinne des zeitlichen Mittels zu verstehen. log (0.2) log (2) 10 log10(0.3) log10(0.1) −1 log (20) 10 log (200) 10 log10(3) 10 log10(30) log10(300) log10(1) log10(10) log10(100) 0 1 2 3 Abbildung 4.7: Begründung für Benfords Gesetz Erklärung 2 (stochastisch). Nun betrachten wir eine Zufallsvariable X > 0 deren Verteilung sich über einige Zehnerpotenzen erstreckt. Dies ist gleichbedeutend damit, dass sich die Verteilung 146 KAPITEL 4. DICHTEFUNKTIONEN UND NORMALVERTEILUNGEN von Y := log10 X über einen großen Bereich erstreckt. Wir schreiben Y = Z +R mit einer zufälligen ganzen Zahl Z und einem zufälligen Rundungsrest R ∈ [0, 1). Dass X mit der führenden Ziffer d beginnt, ist gleichbedeutend damit, dass log10 (d) ≤ R < log10 (d + 1). Wenn die Verteilung von Y recht “diffus’ ist, dann ist R näherungsweise uniform verteilt auf [0, 1). (Mathematisch präzise Aussagen sind möglich, würden aber hier zu weit führen.) Folglich ist P X beginnt mir führender Ziffer d = P log10 (d) ≤ R < log10 (d + 1) ≈ log10 (d + 1) − log10 (d) = p(d). Anwendungen. Bei einem umfangreichen Datensatz mit Werten, die sich über mehrere Zehnerpotenzen erstrecken, und die nicht systematisch gerundet wurden, kann man also mit Benfords Verteilung für die führende Dezimalziffer rechnen. Ein Gegenbeispiel sind Preise für Kaufhausartikel. Diese erstrecken sich zwar auch über einige Zehnerpotenzen, aber aus psychologischen Gründen wird die führende Ziffer 9 bevorzugt (z.B. 0,95 CHF statt 1,00 CHF oder 99 CHF statt 100 CHF). Doch in Steuererklärungen sollten solche Effekte keine Rolle spielen, und manche Steuerbehörden verwenden die Benford–Verteilung, um potentielle Steuersünder zu finden. 4.5 Normalverteilungen Für eine Zufallsvariable X mit 0 < Std(X) < ∞ betrachten wir die standardisierte Zufallsvariable X − E(X) . Z := Std(X) Das Besondere an dieser Standardisierung ist, dass Z Erwartungswert Null und Standardabweichung Eins hat. Oftmals ist diese Zufallsgröße Z exakt oder zumindest approximativ standardnormalverteilt. Was dies bedeutet, erläutern wir im folgenden Abschnitt. 4.5.1 Standardnormalverteilung Eine Zufallsvariable Z heißt standardnormalverteilt, wenn ihre Verteilung durch folgende Dichtefunktion φ beschrieben wird: x2 1 φ(x) := √ exp − . 2 2π Diese Funktion nennt man auch “Gaußsche Glockenkurve”. Die entsprechende Verteilungsfunktion bezeichnen wir mit Φ: Z r Φ(r) := φ(x) dx. −∞ Man nennt Φ auch “Gaußsche Fehlerfunktion”. Die entsprechende Verteilung ist die Standardnormalverteilung, die mit N (0, 1) bezeichnet wird. Diese Bezeichnung erklärt sich durch die erste der folgenden Tatsachen. 4.5. NORMALVERTEILUNGEN 147 • Für eine standardnormalverteilte Zufallsvariable Z ist E(Z) = 0 und Std(Z) = 1. • Die Dichtefunktion φ ist symmetrisch um Null, das heißt, φ(−x) = φ(x) für alle x. Ihr eindeutiges Maximum ist an der Stelle Null, auf dem Intervall [−1, 1] verläuft sie konkav (φ00 ≤ 0), und auf den Intervallen (−∞, −1], [1, ∞) veläuft sie konvex (φ00 ≥ 0); siehe auch Abbildung 4.8. 0.4 0.35 0.3 φ(x) 0.25 0.2 0.15 0.1 0.05 0 −3 −2 −1 0 x 1 2 3 Abbildung 4.8: Dichtefunktion der Standardnormalverteilung • Für die Verteilungsfunktion Φ gibt es keine geschlossene Formel. Viele Rechner bzw. Programmpakete bieten diese Funktion unter Namen wie “normal distribution function” oder “gaussian error function” an. Außerdem gibt es für Φ umfangreiche Tabellen, auch im Anhang dieses Skriptums. Aus der Symmetrie von φ kann man ableiten, dass Φ(0) = 1/2 und Φ(−r) = 1 − Φ(r) für alle r ∈ R; siehe auch Abbildung 4.9. Aus diesem Grund werden die Tabellen oft nur für positive Zahlen r angelegt. 4.5.2 Beliebige Normalverteilungen Nun seien µ und σ > 0 beliebige Zahlen. Eine Zufallsvariable X heißt normalverteilt mit Mittelwert µ und Standardabweichung σ (Varianz σ 2 ), wenn sie sich schreiben lässt als X − µ X = µ + σZ also Z = σ mit einer standardnormalverteilten Zufallsvariable Z. Hieraus ergibt sich unter anderem, dass E(X) = µ und Std(X) = σ. Ferner ergibt sich aus unseren allgemeinen Betrachtungen in Abschnitt 4.2.1, dass X nach der Dichtefunktion (x − µ)2 1 x − µ 1 f (x) = φ = √ exp − σ σ 2σ 2 2πσ 2 148 KAPITEL 4. DICHTEFUNKTIONEN UND NORMALVERTEILUNGEN 1 0.9 0.8 0.7 Φ(r) 0.6 0.5 0.4 0.3 0.2 0.1 0 −3 −2 −1 0 r 1 2 3 Abbildung 4.9: Verteilungsfunktion der Standardnormalverteilung verteilt ist. Die entsprechende Verteilungsfunktion ist dann F (r) = Φ r − µ σ . Diese Dichtefunktion f hat die gleiche Form wie φ. Den Graphen von f erhält man aus dem Graphen von φ, indem man ihn in horizontaler Richtung um den Faktor σ streckt, in vertikaler Richtung um den Faktor σ verkürzt und schließlich das Zentrum von Null nach µ verschiebt. Abbildung 4.10 zeigt illustriert dies im Falle von µ = 3 und σ = 1/2. 0.8 0.7 0.6 f(x) 0.5 0.4 0.3 0.2 0.1 0 −3 −2 −1 0 x 1 2 3 4 Abbildung 4.10: Dichtefunktionen von N (0, 1) und N (3, (1/2)2 ) Die Verteilung von X ist die Normalverteilung mit Mittelwert µ und Varianz σ 2 (bzw. Standardabweichung σ). Bezeichnet wird sie mit dem Symbol N (µ, σ 2 ). 4.5. NORMALVERTEILUNGEN 149 Normalverteilungen sind gute Modelle für diverse numerische Merkmale wie beispielsweise Körpergröße oder –gewicht (nach Geschlecht getrennt) in größeren Populationen. Ein weiteres Beispiel sind Intelligenzquotienten. Außerdem werden physikalisch–chemische Messwerte oft durch Normalverteilungen modelliert. 4.5.3 Anwendungsbeispiele und weitere Eigenschaften Beispiel 4.4 (Körpergröße). In einer bestimmten Population sei die Körpergröße der Männer (näherungsweise) normalverteilt mit Mittelwert µ = 180 cm und Standardabweichung σ = 7 cm. Wenn beispielsweise ein Eisenbahnunternehmen neue Schlafwaggons in Auftrag gibt, ist vielleicht folgende Frage interessant: Wie groß ist der relative Anteil von Personen mit Körpergröße 190 cm oder mehr? Mit der Körpergröße X einer zufällig herausgegriffenen Person ist dieser Anteil gleich P (X ≥ 190 cm) = 1 − P (X < 190 cm) 190 − 180 = 1−Φ 7 ≈ 1 − Φ(1.4286) ≈ 1 − 0.9234 = 0.0766. Beispiel 4.5 (Intelligenzquotient). Intelligenztests werden so konzipiert, dass der Intelligenzquotient (IQ) in der Gesamtbevölkerung (näherungsweise) normalverteilt ist mit Mittelwert 100 und Standardabweichung 15; siehe später. Bezeichnen wir mit X den IQ einer zufällig herausgegriffenen Person, dann ist beispielsweise der relative Anteil von Personen mit IQ ≤ 100 : P (X ≤ 100) = 0.5 (Symmetrie von N (100, 152 ) um 100), 75 − 100 IQ ≤ 75 : P (X ≤ 75) = Φ = Φ(−1.666) = 1 − Φ(1.666) ≈ 0.0478, 15 136 − 100 IQ ≥ 136 : 1 − P (X < 136) = 1 − Φ ≈ 0.0082. 15 Bei extrem kleinen oder großen IQ-Schranken sind die berechneten Wahrscheinlichkeiten eher fragwürdig, wenn man die konkrete Bestimmung von Intelligenzquotienten bedenkt: • Man entwirft einen Intelligenztest aus vielen Einzelaufgaben. Für jede einzelne Aufgabe gibt es eine gewisse Maximalzahl von Punkten, und die Einzelergebnisse werden zu einer Gesamtzahl Y addiert. • Man nimmt an, dass dieses Ergebnis Y in der Gesamtpopulation näherungsweise normalverteilt ist mit einem gewissen Mittelwert µ und einer gewissen Standardabweichung σ. • Man unterzieht eine große Zahl n von Probandinnen und Probanden diesem Intelligenztest und notiert deren Ergebnisse Y1 , Y2 , . . . , Yn . • Anhand dieser Ergebnisse Yi überprüft man (hoffentlich) mit graphischen oder anderen Methoden die Modellannahme. Außerdem schätzt man die Parameter µ und σ durch Stichprobenmittelwert µ b und –standardabweichung σ b der Werte Yi . 150 KAPITEL 4. DICHTEFUNKTIONEN UND NORMALVERTEILUNGEN • Für einen zukünftigen Teilnehmer des Intelligenztests mit Punktzahl Y ergibt sich dann der IQ := 100 + 15 · Y −µ b . σ b Wenn der eigentliche Test nur eine ganze Punktezahl Y zwischen Null und M ergibt, dann hat auch der zuletzt definierte IQ nur M + 1 mögliche Werte. Die maximale Abweichung zwischen der tatsächlichen Verteilungsfunktion F des IQ in der Bevölkerung und irgendeiner Normalverteilungsfunktion ist also immer mindestens gleich 1/(2M + 2), denn F ist eine Treppenfunktion mit höchstens M + 1 Sprungstellen. (Ferner ist zu sagen, dass auch bei einer einzelnen Person der IQ keine feste sondern eine zeitlich variable und sogar trainierbare Größe ist. Beispielsweise nimmt der IQ während eines reinen Erholungsurlaubs spürbar ab, steigt aber danach in der Regel wieder an ;-)) Unabhängige Summanden. Eine wichtige Eigenschaft von Normalverteilungen ist: Die Summe stochastisch unabhängiger, normalverteilter Zufallsvariablen ist erneut normalverteilt. In Formeln bedeutet dies: Sind X und Y stochastisch unabhängig und nach N (µ, σ 2 ) bzw. N (ν, τ 2 ) verteilt, dann gilt für beliebige Konstanten a und b: aX + bY ∼ N (aµ + bν, a2 σ 2 + b2 τ 2 ). Induktiv kann man dieses Ergebnis auf beliebig viele Summanden verallgemeinern. Hier ist ein wichter Spezialfall: Sind X1 , X2 , . . . , Xn stochastisch unabhängig und nach N (µ, σ 2 ) verteilt, P dann gilt für den arithmetischen Mittelwert X̄ = n−1 ni=1 Xi : σ2 . X̄ ∼ N µ, n Beispiel 4.6 (Messfehler). Gegeben sei eine Waage, die bei Auflegen eines Objektes mit unbekanntem Gewicht µ einen Messwert X anzeigt. Auf Grund von umfangreichen Testserien sei bekannt, dass X normalverteilt ist mit Mittelwert µ und Standardabweichung σ = 3 g, also X ∼ N (µ, (3 g)2 ). Dann ist P [Messwert weicht um mehr als 8 g ab] = P (|X − µ| > 8 g) X − µ 8 g = P > σ } 3g | {z =:Z = P (Z < −8/3) + P (Z > 8/3) = Φ(−8/3) + 1 − Φ(8/3) = 2(1 − Φ(8/3)) | {z } ≈0.9962 ≈ 0.0077. Anmerkung. Ohne die Annahme normalverteilter Messwerte hätten wir nur die Tshebyshev-Ungleichung anwenden können: P (|X − µ| > 8 g) ≤ 32 ≈ 0.1406. 82 4.5. NORMALVERTEILUNGEN 151 Angenommen die Messung wird n–mal wiederholt. Der Mittelwert X̄ der Einzelergebnisse ist dann verteilt nach N (µ, σ 2 /n). Für ein beliebiges c > 0 ist dann X̄ − µ c P (|X̄ − µ| > c) = P √ > √ σ/ n σ/ n | {z } =:Z √ nc = P |Z| > σ √n c = 2 1−Φ . σ Speziell für n = 5 ergibt sich dann 2.48 · 10−9 für c = 8 g, 0.0253 für c = 3 g, P (|X̄ − µ| > c) ≈ 0.4561 für c = 1 g. Quantile von Normalverteilungen. Die Verteilungsfunktion Φ ist stetig und streng monoton wachsend mit Grenzwerten Null und Eins im Unendlichen. Daher existiert eine Umkehrfunktion Φ−1 : (0, 1) → R, die sogenannte Quantilfunktion der Standardnormalverteilung. Das heißt, für 0 < γ < 1 ist Φ−1 (γ) die eindeutige Zahl r, so dass Φ(r) = γ. Auch für Φ−1 (γ) gibt es leider keine geschlossene Formel, und man ist auf Computerprogramme oder Approximationen angewiesen. In den Übungen wird gezeigt werden, dass Φ−1 (1 − γ) = −Φ−1 (γ). Hier sind einige ausgewählte Werte von Φ−1 auf vier Nachkommastellen genau: γ Φ−1 (γ) 0.75 0.6745 0.9 1.2816 0.95 1.6449 0.975 1.9600 0.99 2.3263 0.995 2.5758 Für eine Zufallsvariable X mit Verteilung N (µ, σ 2 ) ist ihr γ–Quantil die eindeutige Zahl r mit der Eigenschaft, dass P (X ≤ r) = P (X < r) = γ. Dies ist aber gleichbedeutend damit, dass P (X − µ)/σ ≤ (r − µ)/σ = γ bzw. (r − µ)/σ = Φ−1 (γ). Also ist das γ–Quantil von N (µ, σ 2 ) = µ + σ · Φ−1 (γ). Beispiel 4.4 (Körpergröße, Forts.) Wenn das Eisenbahnunternehmen sicherstellen will, dass die geplanten Betten für höchstens 3% aller Männer zu kurz sind, benötigt es das 97%–Quantil von N 180 cm, (7 cm)2 . Mit Hilfe einer Tabelle von Φ bzw. entsprechender Software ergibt sich Φ−1 (0.97) = 1.8808. Das gesuchte Quantil ist also gleich 180 cm + 7 cm · Φ−1 (0.97) ≈ 193.17 cm. Beispiel 4.5 (Intelligenzquotienten, Forts.) Die Quartile des IQ in der Gesamtbevölkerung entsprechen seinem 0.25–, 0.50– und 0.75–Quantil. Mit Φ−1 (0.75) = −Φ−1 (0.25) ≈ 0.6745 erge- 152 KAPITEL 4. DICHTEFUNKTIONEN UND NORMALVERTEILUNGEN ben sich also folgende Werte: 1. Quartil : 100 + 15 · Φ−1 (0.25) ≈ 100 − 15 · 0.6745 ≈ 89.8827, 2. Quartil : 100 + 15 · Φ−1 (0.50) = 100, 3. Quartil : 100 + 15 · Φ−1 (0.75) ≈ 100 + 15 · 0.6745 ≈ 110.1173. Beispiel 4.6 (Messfehler, Forts.) Wie groß müsste die Anzahl n von Messwiederholungen sein, damit für ein vorgegebenes c > 0 und α ∈ (0, 1) gilt: P (|X̄ − µ| > c) ≤ α ? Diese Ungleichung ist äquivalent zu folgenden Ungleichungen: √n c ≤ α, 2 1−Φ σ √n c α Φ ≥ 1− , σ 2 √ α nc ≥ Φ−1 1 − , σ 2 α 2 /c . n ≥ σ Φ−1 1 − 2 Speziell für σ = 3 g und α = 0.01 ergibt sich die Ungleichung n ≥ (3 g · 2.5758/c)2 . Beispielsweise ist P (|X̄ − µ| > 1 g) ≤ 0.01 falls n ≥ 60, P (|X̄ − µ| > 2 g) ≤ 0.01 falls n ≥ 15. 4.5.4 Warum ausgerechnet die Gaußsche Glockenkurve? Es gibt viele glockenförmige, um Null symmetrische Dichtefunktionen f , deren Verteilungsfunktion F und Quantilfunktion F −1 leicht zu berechnen sind. In den Übungen wird beispielsweise die logistische Verteilung behandelt: 1 , + e−x + 2 er 1 F (r) = = −r , r 1 +e e +1 γ F −1 (γ) = log . 1−γ f (x) = ex Eine Begründung dafür, dass man mit den schwierigeren Normalverteilungen arbeitet, liefert der sogenannte Zentrale Grenzwertsatz. In Prosa lautet er wie folgt: 4.5. NORMALVERTEILUNGEN 153 Zentraler Grenzwertsatz. Die Summe von stochastisch unabhängigen Zufallsvariablen, von denen jede einzelne nur geringen Einfluss auf die Gesamtsumme hat, ist näherungsweise normalverteilt. Wenn man davon ausgeht, dass Merkmale wie die Körpergröße oder der IQ von vielen verschiedenen Genen und anderen Einflüssen gesteuert werden, dann wird deren Normalverteilung mit Hilfe dieses Satzes plausibel. Auch bei Messfehlern kann man sich viele kleine Fehlerquellen auf mikroskopischer Ebene vorstellen, die sich zu einem Gesamtfehler addieren. In der Statistik nutzt man oft aus, dass diverse Zufallsgrößen Y näherungsweise normalverteilt sind. Hier ein wichtiger Spezialfall: Seien X1 , X2 , X3 , . . . stochastisch unabhängig und identisch verteilte Zufallsvariablen mit Erwartungswert E(Xi ) = µ und Standardabweichung Std(Xi ) = σ. P (Die einzelnen Xi müssen nicht normalverteilt sein.) Dann ist der Mittelwert X̄n = n−1 ni=1 Xi √ näherungsweise normalverteilt mit Mittelwert µ und Standardabweichung σ/ n. Genauer gesagt gilt: X̄ − µ n √ ≤ r → Φ(r) für n → ∞. P σ/ n Beispiel 4.7 (Geschwisterzahlen). In einer gewissen Population von jungen Leuten betrachten wir die Variable X := Anzahl von Geschwistern ∈ {0, 1, 2, . . .}. Genauer gesagt interessiert uns die Zahl µ := E(X) = mittlere Zahl von Geschwistern pro Person. Angenommen in der Population ist das Merkmal X wie folgt verteilt: k P (X = k) 0 0.2 1 0.4 2 0.3 3 0.1 Dann wäre der gesuchte Parameter µ gleich µ = 3 X P (X = k) · k = 1.3. k=0 Nun betrachten wir den Stichprobenmittelwert X̄n aus einer Stichprobe vom Umfang n mit Beobachtungen X1 , X2 , . . . , Xn . Für n = 1 ist X̄n verteilt wie X. Für n = 2, 3, . . . kann man die Wahrscheinlichkeit, dass X̄n einen bestimmten Wert annimmt, nach folgender Induktionsformel berechnen: 3 3 X X k−` k −` k P X̄n = = P X̄n−1 = , Xn = ` = P X̄n−1 = P (Xn = `). n n−1 n−1 `=0 `=0 Abbildung 4.11 zeigt Stabdiagramme der Wahrscheinlichkeiten P (X̄n = k/n) für Stichprobenumfänge n = 1, 2, 10, 50. Man erkennt, dass die Verteilung von X̄n mit wachsendem n zunehmend nahe bei µ = 1.3 konzentriert ist. Dieses Phänomen ist das “Gesetz der großen Zahlen”. 154 KAPITEL 4. DICHTEFUNKTIONEN UND NORMALVERTEILUNGEN 0.3 0.4 0.25 0.3 0.2 0.15 0.2 0.1 0.1 0.05 0 0 1 2 0 3 0 0.5 1 0 0.5 1 1.5 2 2.5 3 0.05 0.14 0.04 0.12 0.1 0.03 0.08 0.02 0.06 0.04 0.01 0.02 0 −0.5 0 0.5 1 1.5 2 2.5 3 3.5 0 −0.5 1.5 2 2.5 3 3.5 Abbildung 4.11: Gesetz der Großen Zahlen und Zentraler Grenzwertsatz, I Den gleichen Sachverhalt illustrieren wir nun mit der Verteilungsfunktion Fn von X̄n , also Fn (r) := P (X̄n ≤ r). Abbildung 4.12 zeigt den Graph von Fn für n = 1, 2, 10, 50. Dass die Verteilung von X̄n mit wachsendem n zunehmend nahe bei µ konzentriert ist, bedeutet auf der Ebene der Verteilungsfunktionen Fn : Für ein festes r ist 0 falls r < µ, lim Fn (r) = n→∞ 1 falls r > µ. Mit Hilfe des Zentralen Grenzwertsatzes können wir das Geschehen in der Nähe von µ genauer beleuchten: Zunächst ist v u 3 uX p 2 2 E(X ) − µ = t P (X = k) · k 2 − 1.32 = 0.9. σ := Std(X) = k=0 √ √ Dies bedeutet, dass Std(X̄n ) = σ/ n = 0.9/ n, und der Zentrale Grenzwertsatz impliziert, dass X̄ − µ r−µ r−µ n √ ≤ √ √ . ≈ Φ Fn (r) = P σ/ n σ/ n σ/ n 4.5. NORMALVERTEILUNGEN 155 1 1 0.9 0.9 0.8 0.7 0.6 0.6 0.5 0.4 0.3 0.2 0.2 0.1 0 −0.5 0 0.5 1 1.5 2 2.5 3 3.5 0 −0.5 1 1 0.9 0.9 0.8 0.8 0.7 0.7 0.6 0.6 0.5 0.5 0.4 0.4 0.3 0.3 0.2 0.2 0.1 0.1 0 −0.5 0 0.5 1 1.5 2 2.5 3 3.5 0 −0.5 0 0.5 1 1.5 2 2.5 3 3.5 0 0.5 1 1.5 2 2.5 3 3.5 Abbildung 4.12: Gesetz der Großen Zahlen und Zentraler Grenzwertsatz, II Abbildung 4.13 zeigt die Verteilungsfunktion Fn (·) zusammen mit ihrer Approximation durch √ Φ n (· − µ)/σ für n = 1, 2, 10, 50. Der Unterschied zwischen der tatsächlichen Verteilungsfunktion Fn und der approximativen Normalverteilungsfunktion wird mit wachsendem n deutlich kleiner. Für n = 200 ist der Unterschied nur noch sehr gering; siehe Abbildung 4.14. 156 KAPITEL 4. DICHTEFUNKTIONEN UND NORMALVERTEILUNGEN 1 1 0.9 0.9 0.8 0.7 0.6 0.6 0.5 0.4 0.3 0.2 0.2 0.1 0 −0.5 0 0.5 1 1.5 2 2.5 3 3.5 0 −0.5 1 1 0.9 0.9 0.8 0.8 0.7 0.7 0.6 0.6 0.5 0.5 0.4 0.4 0.3 0.3 0.2 0.2 0.1 0.1 0 0.5 1 1.5 2 0 2.5 0 0.8 0.5 0.9 1 1 1.1 1.5 1.2 1.3 2 1.4 2.5 1.5 1.6 Abbildung 4.13: Gesetz der Großen Zahlen und Zentraler Grenzwertsatz, III 1 0.9 0.8 0.7 0.6 0.5 0.4 0.3 0.2 0.1 0 1.05 1.1 1.15 1.2 1.25 1.3 1.35 1.4 1.45 1.5 1.55 Abbildung 4.14: Gesetz der Großen Zahlen und Zentraler Grenzwertsatz, IV 3 1.7 3.5 1.8 Teil III Schließende Statistik 157 Kapitel 5 Konfidenzbereiche In der schließenden (induktiven) Statistik betrachtet man im wesentlichen drei Typen von Verfahren: • Punktschätzer: Mit Hilfe der Daten berechnet man einen Schätzwert für einen unbekannten Parameter θ, beispielsweise einen Mittelwert. • Konfidenzbereiche: An Hand der Daten berechnet man einen Bereich, in welchem ein unbekannter Parameter θ mit einer gewissen Sicherheit liegen soll. Dabei bemüht man sich um möglichst kleine Konfidenzbereiche. • Tests: Mit Hilfe der Daten soll nachgewiesen werden, dass ein augenscheinlicher Effekt, z.B. die Wirkung eines neuen Medikaments, wirklich vorhanden ist und nicht durch reinen Zufall erklärt werden kann. Von diesen drei Verfahren sind die Konfidenzbereiche besonders wichtig, so dass wir uns in diesem Kapitel vorwiegend hiermit beschäftigen werden. Dabei kommen zwangsläufig auch Schätzer zur Sprache. Im nächsten Kapitel werden wir uns mit statistischen Tests auseinandersetzen. 5.1 Allgemeine Beschreibung von Konfidenzbereichen Gegeben seien Daten D, die wir auf Grund von Stichprobenfehlern, Messfehlern etc. als zufällig betrachten. Die Verteilung der Daten hänge unter anderem von einem unbekannten Parameter θ ab. Ein Konfidenzbereich (Vertrauensbereich) für θ ist eine datenabhängige Menge C(D) von möglichen Werten für θ. Nach Berechnung dieser Menge behauptet man, dass der tatsächliche Parameter θ in C(D) liegt. Sicherheit bzw. Konfidenzniveau. Der Konfidenzbereich C(D) hat Konfidenzniveau (Vertrauensniveau) 1 − α, falls er den unbekannten Parameter θ mit Wahrscheinlichkeit mindestens 1 − α enthält, also P (θ ∈ C(D)) ≥ 1 − α. 159 (5.1) 160 KAPITEL 5. KONFIDENZBEREICHE Man sagt dann auch kurz: C(D) ist ein (1 − α)–Konfidenzbereich für θ. Die Zahl α ∈ (0, 1) ist eine obere Schranke für das Risiko, dass C(D) den Parameter θ nicht enthält. Sicherheit versus Wahrscheinlichkeit. In der Ungleichung (5.1) ist C(D) ein zufälliges Objekt und θ ein fester Parameter. Der Zufall kommt also nur über die Daten D in’s Spiel, und die Ungleichung (5.1) berücksichtigt alle möglichen Datenkonstellationen. In einer konkreten Anwendung liegt genau ein Datensatz D vor, und die Behauptung, dass C(D) den Parameter θ enthält, ist schlichtweg richtig oder falsch. Es würde dann keinen Sinn machen zu sagen: “Mit Wahrscheinlichkeit 1 − α liegt θ in C(D).” Stattdessen sagt man beispielsweise: “Mit Sicherheit 1 − α liegt θ in C(D)”. Wenn man viele Auswertungen macht und jeweils einen (1 − α)–Konfidenzbereich für einen gewissen Parameter berechnet, dann ist auf lange Sicht der relative Anteil von Auswertungen, bei denen der Konfidenzbereich “daneben liegt” höchstens gleich α. 5.2 Konfidenzintervalle nach Wald In diesem Abschnitt behandeln wir eine recht allgemeine Methode, um Konfidenzintervalle für einen Parameter θ zu berechnen, so dass die Gleichung (5.1) zumindest approximativ für große Stichproben erfüllt ist. Zunächst starten wir mit einem Spezialfall, nämlich der Schätzung eines Mittelwertes. Danach erläutern und illustrieren wir den allgemeinen Zugang. 5.2.1 Z–Konfidenzschranken für µ Seien X1 , X2 , . . . , Xn unabhängige und identisch verteilte Zufallsvariablen mit unbekanntem Erwartungswert µ und unbekannter Standardabweichung σ. Mit Hilfe von n, dem Stichprobenmittelwert X̄ und der Stichprobenstandardabweichung S kann man Vertrauensschranken für µ berechnen. Die standardisierte Größe X̄ − µ √ σ/ n ist standardnormalverteilt, wenn die Beobachtungen Xi selbst normalverteilt sind. Ansonsten ist sie zumindest approximativ standardnormalverteilt für wachsendes n. Außerdem ist der Quotient S/σ bei wachsendem n nahe an Eins. Hieraus folgt, dass die Hilfsgröße Z := X̄ − µ √ S/ n approximativ nach N (0, 1) verteilt ist. Insbesondere gilt für α ∈ (0, 1): P |Z| ≤ Φ−1 (1 − α/2) −1 P Z ≤ Φ (1 − α) → 1 − α (n → ∞). P Z ≥ −Φ−1 (1 − α) Die Ungleichungen |Z| ≤ Φ−1 (1 − α/2), Z ≤ Φ−1 (1 − α) und Z ≥ −Φ−1 (1 − α) kann man 5.2. KONFIDENZINTERVALLE NACH WALD jeweils nach µ auflösen und erhält folgende Aussagen: S −1 P µ ∈ X̄ ± √ Φ (1 − α/2) n S −1 √ P µ ≥ X̄ − Φ (1 − α) n S −1 P µ ≤ X̄ + √ Φ (1 − α) n 161 → 1−α (n → ∞). Wir haben also drei verschiedene Konfidenzbereiche für µ zur Auswahl, wobei das Konfidenzniveau approximativ gleich 1 − α ist: • Das Konfidenzintervall • die untere Konfidenzschranke • die obere Konfidenzschranke S −1 X̄ ± √ Φ (1 − α/2) , n S X̄ − √ Φ−1 (1 − α), n S X̄ + √ Φ−1 (1 − α). n Wichtig ist, dass man sich bereits vor der Datenauswertung überlegt, ob man an einem Vertrauensintervall oder nur einer einseitigen Schranke für µ interessiert ist. Beispiel 5.1 (Mittlere Anzahl von Geschwistern). Bei der Befragung der Vorlesungsteilnehmenden wurde unter anderem nach der Anzahl X von Geschwistern einer Person gefragt. Nun möchten wir ein 95%–Vertrauensintervall für die unbekannte Zahl µ := mittlere Anzahl von Geschwistern pro Person in der Grundgesamtheit berechnen. (Als Grundgesamtheit betrachten wir beispielsweise die Menge aller Personen in der Schweiz im Alter von 18-40 Jahren, und wir tun so, als wären die Vorlesungsteilnehmenden eine rein zufällige Stichprobe hieraus.) Die Stichprobenkenngrößen sind n = 260, X̄ = 1.5538 und S = 0.9711. Es ist α = 0.05, also Φ−1 (1 − α/2) = Φ−1 (0.975) = 1.960, so dass 0.9711 S −1 1.96 = [1.4358, 1.6719]. X̄ ± √ Φ (1 − α/2) = 1.5538 ± √ n 260 Wir behaupten also mit einer Sicherheit von ca. 95%, dass die mittlere Anzahl µ von Geschwistern pro Person zwischen 1.4358 und 1.6719 liegt. Beispiel 5.2 (Monatsmiete von Studierenden) Sei µ die mittlere Monatsmiete (in CHF) von allen Studierenden der Universität Bern, die nicht bei Angehörigen umsonst wohnen. Um zu unterstreichen, dass dieser unbekannte Wert µ deutlich höher ist als beispielsweise in Norddeutschland, möchten wir nun µ mit einer Sicherheit von ca. 95% nach unten abschätzen. 162 KAPITEL 5. KONFIDENZBEREICHE Auch hier verwenden wir den Datensatz der Vorlesungsteilnehmer, reduzieren ihn aber auf diejenigen Personen, welche überhaupt Miete zahlen. Die Stichprobenkenngrößen sind n = 129, X̄ = 609.128 und S = 289.153. Mit α = 0.05 ergibt sich Φ−1 (1 − α) = Φ−1 (0.95) = 1.645. Die gesuchte untere Vertrauensschranke ist also S 289.153 X̄ − √ Φ−1 (1 − α) = 609.128 − √ 1.645 = 567.248. n 129 Wir behaupten also mit einer Sicherheit von ca. 95%, dass die mittlere Monatsmiete für Studierende der Universität Bern mindestens 567 CHF beträgt. Beispiel 5.3 (Körpergröße) Bekanntlich gibt es in Europa ein Nord–Süd–Gefälle in Bezug auf die Körpergröße. Angenommen, man vermutet auf Grund von Alltagsbeobachtungen, dass die mittlere Körpergröße µ (in cm) von Schweizern (männl.) im Alter von 18-40 Jahren kleiner ist als der entsprechende Parameter z.B. für die Niederlande. Um potentielle Unterschiede zu untermauern, berechnen wir eine obere Vertrauensschranke für µ. Der Datensatz der Vorlesungsteilnehmer, reduziert auf die Herren, liefert n = 145 Werte mit X̄ = 178.938 und S = 6.2363. Zusammen mit Φ−1 (1 − α) = Φ−1 (0.95) = 1.645 ergibt sich die obere Vertrauensschranke 6.2363 S 1.645 = 179.79. X̄ + √ Φ−1 (1 − α) = 178.938 + √ n 145 Wir behaupten nun mit einer Sicherheit von ca. 95%, dass die mittlere Körpergröße µ strikt kleiner ist als 180 cm. 5.2.2 Walds Methode allgemein Die Z–Vertrauensbereiche für µ sind ein Spezialfall einer allgemeineren Methode, die auf Abraham Wald zurückgeht: Sei θ ∈ R ein unbekannter Parameter. Mit Hilfe der Daten D berechnet b man einen Schätzer θb = θ(D) hierfür. Ferner sei τ > 0 die unbekannte Standardabweichung des b und auch hierfür sei ein Schätzer τb = τb(D) verfügbar, ein sogenannter “StandardfehSchätzers θ, ler”. Bei umfangreichen Datensätzen gilt oftmals: θb − θ ∼appr. N (0, 1) und τ τb ≈ 1. τ Insbesondere gilt für die Hilfsgröße Z := (θb − θ)/b τ: P |Z| ≤ Φ−1 (1 − α/2) P Z ≤ Φ−1 (1 − α) P Z ≥ −Φ−1 (1 − α) ≈ 1 − α. Die Ungleichungen |Z| ≤ Φ−1 (1 − α/2), Z ≤ Φ−1 (1 − α) und Z ≥ −Φ−1 (1 − α) kann man jeweils nach θ auflösen und erhält drei verschiedene Konfidenzbereiche für θ mit Konfidenzniveau ca. 1 − α: 5.2. KONFIDENZINTERVALLE NACH WALD 163 • Das Konfidenzintervall h i θb ± τb Φ−1 (1 − α/2) , (5.2) θb − τb Φ−1 (1 − α), (5.3) θb + τb Φ−1 (1 − α). (5.4) • die untere Konfidenzschranke • die obere Konfidenzschranke Diese Methode ist in vielen verschiedenen Anwendungen einsetzbar. Zwar ist sie bei kleinen und moderaten Stichprobenumfängen nicht sehr präzise, aber immerhin ein guter Startpunkt für mögliche Verfeinerungen. √ Beispiel 5.4 (Mittelwert). Bei der Schätzung von θ = µ betrachteten wir θb = X̄, und τ = σ/ n, √ τb = S/ n. Beispiel 5.5 (Vergleich zweier Mittelwerte). Angenommen, wir betrachten ein numerisches Merkmal in zwei unabhängigen Stichproben. Die entsprechenden Beobachtungen seien X1 , . . . , XnX bzw. Y1 , . . . , YnY . Nun betrachten wir die unbekannten Parameter µX := E(Xi ), µY := E(Yj ), σX := Std(Xi ) und σY := Std(Yj ). Als Schätzwerte bieten sich die Stichprobenmittelwerte X̄, Ȳ bzw. die Stichprobenstandardabweichungen SX und SY an. Nun möchten wir Vertrauensschranken für die Differenz θ := µX −µY angeben. Der naheliegende Schätzwert θb := X̄ − Ȳ hat Erwartungswert θ und Standardabweichung s 2 σ2 σX + Y. τ = nX nY Letztere schätzen wir durch s τb = 2 SX S2 + Y. nX nY Nun können wir einen der Vertrauensbereiche (5.2), (5.3) oder (5.4) berechnen. Das Vertrauensniveau ist jeweils nahe an 1 − α, wenn beide Stichprobenumfänge nX und nY recht groß sind. Beispiel 5.6 (Nord–Süd–Gefälle der Körpergröße). Als Zahlenbeispiel für Beispiel 5.5 betrachten wir die mittlere Körpergröße µX der Schweizer und µY der Norddeutschen (männl.) im Alter von 18-40 Jahren. Bei einer Befragung von nX = 145 Studenten der Universität Bern ergaben sich X̄ = 178.938 und SX = 6.2363. Eine Befragung von nY = 26 Studenten der Universität Lübeck lieferte Ȳ = 183.962 und SY = 7.5497. Daraus ergeben sich die Schätzwerte θb = X̄ − Ȳ = −5.024 für θ und r 6.23632 7.54972 τb = + = 1.5686 145 26 für τ . Ein approx. 95%–Vertrauensintervall für die Differenz θ ist also gegeben durch [−5.024 ± 1.5686 · 1.96] = [−8.0984, −1.9496] 164 KAPITEL 5. KONFIDENZBEREICHE Wir können also mit einer Sicherheit von ca. 95% behaupten, dass (a) die mittlere Körpergröße µX kleiner ist als µY und (b) der Unterschied zwischen 1.9 und 8.1 cm liegt. (Das Problem, dass keine echten Zufallsstichproben vorliegen, unterschlagen wir allerdings.) 5.3 Verfeinerte Konfidenzbereiche für Mittelwerte Wie in Abschnitt 5.2.1 seien X1 , X2 , . . . , Xn unabhängige und identisch verteilte Zufallsvariablen mit unbekanntem Erwartungswert µ und unbekannter Standardabweichung σ. Bisher kennen wir nur Konfidenzbereiche mit approximativem Konfidenzniveau 1 − α. Eine naheliegende Frage ist, ob und wie sich diese Ungenauigkeit vermeiden lässt. Zumindest im Falle von normalverteilten Beobachtungen ist dies der Fall. Dabei stützt man sich auf Resultate der britischen Statistiker William Gosset und Ronald A. Fisher. 5.3.1 Student– und Chiquadrat–Verteilungen Satz 5.7 Seien X1 , X2 , . . . , Xn stochastisch unabhängig und nach N (µ, σ 2 ) verteilt. Dann ist X̄ − µ S √ , σ/ n σ genauso verteilt wie v u u Z1 , t 1 n−1 n X Zi2 i=2 mit stochastisch unabhängigen, standardnormalverteilten Zufallsvariablen Z1 , Z2 , . . . , Zn . Übrigens publizierte W. Gosset auf Wunsch seines Arbeitgebers, der Guinness–Brauerei, unter dem Pseudonym “student”. Daher spricht man heute von “Student–Verteilungen” (mit englisch ausgesprochenem ‘student’) und nicht von “Gosset–” oder “G–Verteilungen”. √ Der obige Satz impliziert, dass unsere Hilfsgröße (X̄ − µ)/(S/ n) student-verteilt ist mit n − 1 Freiheitsgraden im Sinne der folgenden Definition. Definition 5.8 (Student’s t–Verteilungen, Chiquadrat–Verteilungen). Wir betrachten stochastisch unabhängige, standardnormalverteilte Zufallsvariablen Z1 , Z2 , Z3 , . . . . (a) Student’s t–Verteilung (Student–Verteilung, t–Verteilung) mit k Freiheitsgraden ist definiert als die Verteilung von v k+1 .u u1 X Z1 t Zi2 . k i=2 Als Symbol für diese Verteilung verwendet man tk . Ihr β–Quantil bezeichnet man mit tk;β . (b) Die Chiquadrat–Verteilung (χ2 –Verteilung) mit k Freiheitsgraden ist definiert als die Verteilung von k X Zi2 . i=1 5.3. VERFEINERTE KONFIDENZBEREICHE FÜR MITTELWERTE 165 Als Symbol für diese Verteilung verwendet man χ2k . Ihr β–Quantil bezeichnet man mit χ2k;β . Anmerkungen zu tk . Die Student–Verteilung tk hat eine Dichtefunktion, nämlich fk (x) = Ck (1 + x2 /k)−(k+1)/2 mit einer gewissen Normierungskonstante Ck > 0. Wichtig ist für uns in erster Linie, dass auch fk eine um Null symmetrische Glockenkurve ist. Die folgende Abbildung zeigt die Dichtefunktionen fk für k = 1, 2, 4, 9. Zusätzlich wird jeweils die Gaußsche Glockenkurve φ und die Funktion f1 gezeigt. Man erahnt (und kann auch beweisen), dass die Dichtefunktion fk für k → ∞ gegen φ konvergiert: k=1 0.4 0.35 0.35 0.3 0.3 0.25 0.25 0.2 0.2 0.15 0.15 0.1 0.1 0.05 0.05 0 −4 −3 −2 −1 0 1 2 3 0 4 k=4 0.4 0.35 0.3 0.3 0.25 0.25 0.2 0.2 0.15 0.15 0.1 0.1 0.05 0.05 −4 −3 −2 −1 0 −4 −3 −2 −1 1 2 3 4 0 0 1 2 3 4 k=9 0.4 0.35 0 k=2 0.4 −4 −3 −2 −1 0 1 2 3 4 Für die Quantile tk;β ergibt sich aus der Symmetrie von fk die Gleichung tk;1/2 = 0 und tk;1−β = −tk;β . Außerdem gilt für 1/2 < β < 1: t1;β > t2;β > t3;β > · · · und lim tk;β = Φ−1 (β). k→∞ Auch bei den Studentquantilen ist man auf Computerprogramme oder Tabellen angewiesen. Anmerkungen zu χ2k . Die Chiquadratverteilungen sind auf (0, ∞) konzentriert und unsymmetrisch. Es handelt sich um Spezialfälle der früher erwähnten Gammaverteilungen: χ2k = Gamma(k/2, 2). 166 5.3.2 KAPITEL 5. KONFIDENZBEREICHE Student–Konfidenzschranken für µ Nun können wir die anfangs besprochenen Z–Vertrauensschranken für µ wie folgt verfeinern. Im √ Falle von normalverteilten Beobachtungen Xi ist die Hilfsgröße (X̄ − µ)/(S/ n) student-verteilt mit n − 1 Freiheitsgraden, so dass S P µ ∈ X̄ ± √ tn−1;1−α/2 n S P µ ≥ X̄ − √ tn−1;1−α = 1 − α. n S P µ ≤ X̄ + √ tn−1;1−α n Wir haben also drei verschiedene (1 − α)–Konfidenzbereiche für µ zur Auswahl: • Das Konfidenzintervall • die untere Konfidenzschranke • die obere Konfidenzschranke S X̄ ± √ tn−1;1−α/2 , n S X̄ − √ tn−1;1−α , n S X̄ + √ tn−1;1−α . n Sind die Beobachtungen Xi nicht normalverteilt, dann haben auch diese Konfidenzbereiche zumindest asymptotisch für n → ∞ das Konfidenzniveau 1 − α. Weil tn−1;β > Φ−1 (β) für 1/2 < β < 1, sind die Student–Schranken sicherlich zuverlässiger als die einfacheren Z–Schranken. In unseren drei Zahlenbeispielen zu den Z–Schranken waren die Stichprobenumfänge n recht groß, so dass sich keine drastischen Änderungen ergeben: Beispiel 5.1 (Mittlere Anzahl von Geschwistern, Forts.). Hier müssen wir Φ−1 (0.975) = 1.960 durch t259;0.975 = 1.9692 ersetzen und erhalten das Intervall S 0.9711 1.9692 = [1.4352, 1.6724]. X̄ ± √ tn−1;1−α/2 = 1.5538 ± √ n 260 Beispiel 5.2 (Monatsmiete von Studierenden, Forts.). An Stelle von Φ−1 (0.95) = 1.645 verwenden wir t128;0.95 = 1.6568 und gelangen zu der unteren Schranke S 289.153 X̄ − √ tn−1;1−α = 609.128 − √ 1.6568 = 565.947. n 129 Beispiel 5.3 (Körpergröße, Forts.). Hier verwenden wir t144;0.95 = 1.6555 und erhalten die obere Schranke 6.2363 S X̄ + √ tn−1;1−α = 178.938 + √ 1.6555 = 179.795. n 145 5.3. VERFEINERTE KONFIDENZBEREICHE FÜR MITTELWERTE 167 Beispiel 5.9 (Mittlere Zahl von Kindern pro Mutter). Als letztes Beispiel eines Konfidenzintervalls für einen Mittelwert greifen wir noch einmal das Beispiel aus Abschnitt 3.8.3 auf: Für eine zufällig ausgewählte Mutter betrachten wir die Anzahl Y ihrer Kinder und interessiern uns für den Erwartungswert ν = E(Y ), also die mittlere Zahl von Kindern pro Mutter. Zu Verfügung steht uns eine Stichprobe von n “Kindern” und deren Geschwisterzahlen X1 , X2 , . . . , Xn . Wir gehen davon aus, dass ∞ X P(X = g) −1 = E(W )−1 ν = g+1 mit W := g=0 1 . X +1 Daher betrachten wir die transformierten Beobachtungen Wi := 1/(Xi + 1) und berechnen zunächst ein (1 − α)–Vertrauensintervall für E(W ), nämlich h i SW W̄ ± √ tn−1;1−α/2 . n Hieraus ergibt sich dann das (1 − α)–Vertrauensintervall −1 −1 SW SW , W̄ − √ tn−1;1−α/2 W̄ + √ tn−1;1−α/2 n n √ für ν, sofern die untere Schranke W̄ − SW tn−1;1−α/2 / n strikt positiv ist. Ansonsten hätten wir nur eine untere Vertrauensschranke für ν. Zahlenbeispiel. Bei der Befragung von n = 384 Vorlesungsteilnehmenden ergaben sich die Werte W̄ = 0.4421 und SW = 0.1807. Zusammen mit t383;0.975 = 1.9662 ergibt sich so das 95%– Vertrauensintervall h i 0.1807 0.4421 ± √ 1.9662 ≈ [0.4240, 0.4602], 384 für E(W ). Wir können also mit einer Sicherheit von ca. 96% davon ausgehen, dass die mittlere Anzahl von Kindern pro Mutter zwischen 1/0.4602 ≈ 2.1728 und 1/0.4240 ≈ 2.3587 liegt. 5.3.3 Schranken für σ Der Einfachheit halber betrachten wir nur den Fall normalverteilter Beobachtungen Xi . Ein typisches Anwendungsbeispiel sind Messungen mit einem Messinstrument. Hier ist σ die Standardabweichung einer Einzelmessung und beschreibt die Ungenauigkeit des Gerätes. Aus den Resultaten von Gosset und Fisher folgt, dass (n − 1)S 2 /σ 2 chiquadrat–verteilt ist mit n − 1 Freiheitsgraden. Insbesondere ist P (n − 1)S 2 /σ 2 ≤ χ2n−1;1−α 2 2 2 = 1 − α. P (n − 1)S /σ ≥ χn−1;α P χ2n−1;α/2 ≤ (n − 1)S 2 /σ 2 ≤ χ2n−1;1−α/2 Auch hier kann man die Ungleichungen innerhalb P (·) nach σ auflösen und erhält die folgenden (1 − α)–Konfidenzbereiche für σ: 168 KAPITEL 5. KONFIDENZBEREICHE • Die untere Konfidenzschranke s • die obere Konfidenzschranke s S • das Konfidenzintervall " s S n−1 , χ2n−1;1−α S n−1 , χ2n−1;α n−1 χ2n−1;1−α/2 s , S n−1 χ2n−1;α/2 # . Auch hier ist es wichtig, sich bereits vor der Datenauswertung zu überlegen, was man eigentlich will: Möchte man einfach einen Bereich von möglichen Werten für σ angeben, so bietet sich das Konfidenzintervall an. Für den Hersteller eines Messinstruments, der sein Gerät seriös anpreisen möchte, ist eine obere Vertrauensschranke von Interesse. Möchte man hingegen nachweisen, dass ein bestimmtes Messinstrument bzw. eine bestimmte Messmethode recht ungenau ist, bietet sich eine untere Schranke für σ an. 5.3.4 Vergleich zweier Mittelwerte In Beispiel 5.5 betrachteten wir Konfidenzschranken für die Differenz zweier Mittelwerte nach Wald. Diese Methode kann man noch auf zweierlei Weisen verfeinern. Fall 1: Identische Standardabweichungen σX und σY . Wenn die X– und Y –Werte ein und dieselbe Standardabweichung σ haben, dann ist E(X̄ − Ȳ ) = µX − µY und q −1 Std(X̄ − Ȳ ) = σ n−1 X + nY . Ein möglicher Schätzer für σ ist s σ b := 2 + (n − 1)S 2 (nX − 1)SX Y Y . nX + nY − 2 Aus den Resultaten von Gosset und Fisher kann man ableiten, dass im Falle von normalverteilten Beobachtungen gilt: (nX + nY − 2)b σ 2 /σ 2 ∼ χ2nX +nY −2 , X̄ − Ȳ q −1 σ b n−1 X + nY ∼ tnX +nY −2 . Hieraus ergeben sich die folgenden Vertrauensbereiche für µX − µY : • Die untere Konfidenzschranke X̄ − Ȳ − σ b q −1 n−1 X + nY tnX +nY −2;1−α , 5.4. KONFIDENZBEREICHE FÜR EINE WAHRSCHEINLICHKEIT 169 • die obere Konfidenzschranke X̄ − Ȳ + σ b q −1 n−1 X + nY tnX +nY −2;1−α , • das Konfidenzintervall q −1 −1 X̄ − Ȳ ± σ b nX + nY tnX +nY −2;1−α/2 . Das Vertrauensniveau ist exakt 1 − α, wenn die Einzelbeobachtungen Xi und Yi normalverteilt sind. Ansonsten ist das Vertrauensniveau approximativ gleich 1 − α für min(nX , nY ) → ∞. Fall 2: Welchs Methode für beliebige Standardabweichungen σX und σY . Für den allgemeinen Fall q erwähnten wir bereits, dass X̄ − Ȳ Erwartungswert µX − µY und Standardabweichung 2 /n + σ 2 /n hat. Im Falle normalverteilter Beobachtungen kann man zeigen, dass τ = σX X Y qY 2 /n + S 2 /n von X̄ − Ȳ stochastisch unabhängig ist, und die standarder Schätzer τb = SX X Y Y disierte Größe X̄ − Ȳ − µX + µY τb ist approximativ student-verteilt mit m = m(nX , nY , σX , σY ) := 2 /n + σ 2 /n σX X Y Y 4 2 4 σX /(nX (nX − 1)) + σY /(n2Y (nY − 1)) Freiheitsgraden. Diese Anzahl schätzt man aus den Daten durch m b = m(nX , nY , SX , SY ) und −1 ersetzt in den Waldschen Konfidenzschranken Φ (β) durch tm;β b . 5.4 Konfidenzbereiche für eine Wahrscheinlichkeit In diesem Abschnitt betrachten wir einen unbekannten Parameter p ∈ [0, 1], für den wir Vertrauensschranken berechnen wollen. Dabei stützen wir uns auf stochastisch unabhängige Beobachtungen X1 , X2 , . . . , Xn mit P (Xi = 1) = p und P (Xi = 0) = 1 − p. Hier zwei Beispiele für diese Situation: • Sei p der relative Anteil von Wählern einer Partei ABC. Im Vorfeld einer Wahl werden n Wahlberechtigte rein zufällig ausgewählt und befragt. Wir setzen Xi gleich Eins, wenn die i–te befragte Person Partei ABC wählt, und sonst gleich Null. • Sei p die Wahrscheinlichkeit, dass ein technisches Gerät unter bestimmten Bedingungen ausfällt. In einer Testserie lässt man n solche Geräte laufen, und Xi gibt an, ob das i–te Gerät ausfällt oder nicht. Bildet man aus den Daten die Summe Y := n X i=1 Xi , 170 KAPITEL 5. KONFIDENZBEREICHE dann ist Y binomialverteilt mit Parametern n und p, das heißt, n k P (Y = k) = p (1 − p)n−k für k = 0, 1, . . . , n; k siehe Kapitel 3. Ein naheliegender Schätzer für p ist dann pb := Y /n, und hierfür gilt: p p(1 − p) √ . E(b p) = p und Std(b p) = n Für die Konstruktion von Konfidenzbereichen für p gibt es verschiedene Ansätze, darunter: • Walds Methode, • Wilsons Methode, • exakte Methoden (z.B. von Clopper–Pearson, Sterne oder Casella). Aus Zeitgründen behandeln wir nur die ersten beiden Ansätze. Für die exakten Methoden gibt es keine geschlossenen Formeln, sondern man ist auf entsprechende Computerprogramme angewiesen. 5.4.1 Walds Methode Wenn die Zahl np(1 − p) hinreichend groß ist, sagen wir, größer oder gleich Fünf, dann ist pb p √ näherungsweise normalverteilt mit Mittelwert p und Standardabweichung p(1 − p)/ n. Nun p √ schätzen wir letztere durch pb(1 − pb)/ n und erhalten das approximative (1 − α)–Vertrauensintervall " # p pb(1 − pb) −1 √ pb ± (5.5) Φ (1 − α/2) . n Dies ist eine Standardmethode, die in vielen Lehr– und Handbüchern propagiert wird. Man kann sich einigermaßen auf sie verlassen, wenn nb p(1 − pb) ≥ 5. Übrigens kann man dieses Konfidenzintervall (fast) als Spezialfall der Z–Konfidenzintervalle für einen Mittelwert auffassen. Denn p = E(Xi ) und pb = X̄. Außerdem kann man hier zeigen, dass die Stichprobenstandardabweichung S gegeben ist durch r n pb(1 − pb). S = n−1 Von daher könnte man im obigen Vertrauensintervall den Faktor Φ−1 (1 − α/2) durch r n t n − 1 n−1;1−α/2 ersetzen. Dies würde die Zuverlässigkeit etwas erhöhen, aber dennoch gibt es Schwierigkeiten, wenn p bzw. pb nahe an Null oder Eins ist. 5.4.2 Wilsons Methode Die Tatsache, dass pb bei großem np(1 − p) approximativ normalverteilt ist, beinhaltet, dass p P |b p − p| ≤ c p(1 − p) ≈ 1 − α, 5.4. KONFIDENZBEREICHE FÜR EINE WAHRSCHEINLICHKEIT wobei c := 171 Φ−1 (1 − α/2) √ . n p Die Ungleichung |b p − p| ≤ c p(1 − p) kann man nach p auflösen. Sie ist erfüllt genau dann, wenn p in dem Intervall " # p c pb(1 − pb) + c2 /4 pb + c2 /2 ± (5.6) 1 + c2 1 + c2 liegt; siehe Übungen. Dieses Intervall ist Wilsons Verfeinerung von Walds Konfidenzintervall (5.5). Vernachlässigt man in (5.6) alle Terme c2 , dann erhält man wieder das Intervall (5.5). Mit numerischen Rechnungen kann man zeigen, dass Wilsons Methode wesentlich zuverlässiger ist als die klassische. Ist man ausschließlich an einer unteren oder oberen Vertrauensschranke für p interessiert, dann sollte man q 0 2 c pb(1 − pb) + c0 2 /4 pb + c0 /2 − (5.7) 1 + c0 2 1 + c0 2 bzw. c0 2 /2 pb + 1 + c0 2 c0 + q pb(1 − pb) + c0 2 /4 1 + c0 2 (5.8) berechnen, wobei c0 := Φ−1 (1 − α) √ . n Auch bei diesen Methoden empfehlen wir zu prüfen, ob nb p(1−b p) ≥ 5. Ist diese Ungleichung nicht erfüllt, sollte man mit Hilfe entsprechender Software exakte Konfidenzintervalle bzw. -schranken bestimmen. p p(1 − p). Illustration. Abbildung 5.1 zeigt für n = 30 und α h= 0.05 die Kurven p → 7 p ± c i p Für einzelne Zahlen p ∈ (0, 1) werden die Intervalle p ± c p(1 − p) als vertikale Linien gezeichnet. Außerdem sieht man für einzelne Schätzwerte pb ∈ (0, 1) die entsprechenden Konfidenzintervalle (5.6) als horizontale Linien. Beispiel 5.10 (Umfrage vor einer Abstimmung). Sei p der relative Anteil von Befürwortern einer Initiative. Angenommen, n = 300 Wahlberechtigte werden befragt, und hiervon sind Y = 171 für die Initiative. Um ein approximatives 95%–Vertrauensintervall für p zu berechnen, benötigen √ wir pb = 171/300 = 0.57, Φ−1 (1 − α/2) = Φ−1 (0.975) = 1.96 und c = 1.96/ 300 ≈ 0.1132. Hieraus ergibt sich nach Formel (5.6) das Vertrauensintervall [0.5134, 0.6248]. Wir können also mit einer Sicherheit von ca. 95% davon ausgehen, dass zwischen 51.3 und 62.5 Prozent der Wahlberechtigten die Initiative befürworten. Hätte man stattdessen n = 2000 Personen befragt und darunter Y = 1140 Befürworter gefunden, √ was den gleichen Schätzwert pb wie oben ergibt, dann ergäbe sich mit c = 1.96/ 2000 ≈ 0.0438 das Vertrauensintervall [0.5482, 0.5915], was deutlich kürzer ist als das erstgenannte. 172 KAPITEL 5. KONFIDENZBEREICHE 1 0.9 0.8 geschaetztes p 0.7 0.6 0.5 0.4 0.3 0.2 0.1 0 0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1 wahres p Abbildung 5.1: Wilsons Methode Beispiel 5.11 (Rauchen). Sei p der relative Anteil von Rauchern unter den Schweizer Studenten (männl.). Bei einer Befragung von n = 145 Studenten fanden sich Y = 45 Raucher. Dies liefert den Schätzwert pb = 45/145 ≈ 0.31. Um ein 90%–Vertrauensintervall für p zu berechnen, benöti√ √ gen wir c = Φ−1 (0.95)/ 145 = 1.645/ 145 ≈ 0.1366, und Formel (5.6) liefert das Intervall [0.2408, 0.3897]. Mit einer Sicherheit von ca. 90% behaupten wir nun, dass der relative Anteil von Rauchern zwischen 24 und 39 Prozent liegt. Beispiel 5.12 (“mietfreie” Studierende). Sei p der relative Anteil von Studierenden der Universität Bern, die bei Angehörigen umsonst wohnen. Um zu unterstreichen, dass dieser Anteil recht groß ist, möchten wir eine untere 95%–Vertrauensschranke für p berechnen. Bei einer Befragung von n = 258 Studierenden fanden sich Y = 129 “mietfreie” Personen. Dies liefert den Schätzwert √ pb = 0.5. Mit c0 = Φ−1 (0.95)/ 258 ≈ 0.1024 ergibt sich aus Formel (5.7) die untere approx. 95%–Vertrauensschranke 0.4491. Wir behaupten also mit einer Sicherheit von ca. 95%, dass mehr als 44,9 % aller Berner Studierenden bei Angehörigen umsonst wohnen. 5.5 Konfidenzbereiche für Quantile Wir betrachten wieder ein numerisches Merkmal mit Stichprobenwerten X1 , X2 , . . . , Xn . Die empirische Verteilungsfunktion dieser n Beobachtungen ist gegeben durch Fb(r) := #{i : Xi ≤ r}/n. 5.5. KONFIDENZBEREICHE FÜR QUANTILE 173 Wir deuten Fb als Schätzer für eine theoretische Verteilungsfunktion F . Im Falle von Stichproben aus einer Grundgesamtheit ist F (r) der relative Anteil aller Individuen in der Grundgesamtheit mit Merkmalswert kleiner oder gleich r. Allgemein ist F (r) = P (Xi ≤ r). Ein Problem beim Schätzen von Mittelwert und Standardabweichung aus einer Stichprobe ist, dass sowohl X̄ als auch S empfindlich auf “Ausreißer” in den Daten reagieren. Schon ein einziger extremer oder fehlerhaft übertragener Wert Xi kann die Ergebnisse beliebig stark verändern. Außerdem ist bei unsymmetrischen, beispielsweise rechtsschiefen Verteilungen unklar, ob der Mittelwert überhaupt ein sinnvoller Lageparameter ist. Als Alternative zum Mittelwert bieten sich Quantile an. Für eine Zahl 0 < γ < 1 nennt man eine Zahl qγ ein γ–Quantil der Verteilungsfunktion F bzw. der Verteilung von X1 , wenn ≤ γ für r < qγ , F (r) ≥ γ für r ≥ qγ . Eine andere Umschreibung ist, dass P (Xi < qγ ) ≤ γ ≤ P (Xi ≤ qγ ). Wenn die Verteilung von X1 durch eine Dichtefunktion f = F 0 beschrieben wird und die Menge {x : f (x) > 0} ein Intervall ist, sind ihre Quantile eindeutig definiert. Abbildung 5.2 zeigt eine theoretische Verteilungsfunktion F und das entsprechene 50%–Quantil q0.5 . 1 0.5 0 Abbildung 5.2: Eine Verteilungsfunktion samt ihrem Median. 5.5.1 Punktschätzung Ein naheliegender Schätzer für das Quantil qγ ist das Stichprobenquantil ( X(nγ) + X(nγ+1) /2 falls nγ ganzzahlig ist, Qγ := X(dnγe) sonst. Dabei sind X(1) ≤ X(2) ≤ · · · ≤ X(n) die Ordnungsstatistiken der Beobachtungen Xi . 174 KAPITEL 5. KONFIDENZBEREICHE Illustration. In Abbildung 5.3 zeigen wir für vier simulierte Stichproben vom Umfang n = 70 jeweils die theoretische Verteilungsfunktion F und ihren Median q0.5 sowie die empirische Verteilungsfunktion Fb und den Stichprobenmedian Q0.5 = (X(35) + X(36) )/2. Am unteren Bildrand sieht man außerdem einen Linienplot der Beobachtungen Xi . Stichproben−0.5−Quantil (n = 70) 1 1 0.5 0.5 0 0 Stichproben−0.5−Quantil (n = 70) 1 1 0.5 0.5 0 0 Stichproben−0.5−Quantil (n = 70) Stichproben−0.5−Quantil (n = 70) Abbildung 5.3: Wahre und empirische Verteilungsfunktion, wahrer und empirischer Median. 5.5.2 Vertrauensbereiche Manche Softwarepakete verwenden nun eine Variante von Walds Methode und berechnen Vertrauensintervalle der Form Qγ ± τb Φ−1 (1 − α/2) für qγ . Dabei ist τb ein Schätzwert für einen schwierig zu bestimmenden Parameter τ (F, γ) . . . Dies ist völlig unnötig, da es eine relativ einfache exakte Methode gibt, die sich bei wachsendem n nur wenig von der Waldschen Methode unterscheidet, und die wir nun behandeln. Der Punktschätzer Qγ ist entweder eine einzelne Ordnungsstatistik oder das Mittel zweier aufeinanderfolgender Ordnungsstatistiken. Nun machen wir für unser Konfidenzintervall den Ansatz h i X(k) , X(`) (5.9) 5.5. KONFIDENZBEREICHE FÜR QUANTILE 175 mit festen Indizes 1 ≤ k < ` ≤ n, die noch zu bestimmen sind. Jetzt definieren wir noch X(0) := −∞ und X(n+1) := ∞. Lässt man nun in (5.9) auch k = 0 oder ` = n + 1 zu, dann haben wir auch einen Ansatz für einseitige Konfidenzschranken. Bei der Festlegung von k und ` hilft folgendes Resultat: Satz 5.13 Für beliebige Indizes 0 ≤ k < ` ≤ n + 1 ist stets h P qγ ∈ X(k) , X(`) i `−1 X n j ≥ γ (1 − γ)n−j . j (5.10) i=k Gleichheit gilt, falls P (X1 < qγ ) = γ = P (X1 ≤ qγ ). Bestimmung der Indizes k und ` (exakt). Für vorgegebenes n und γ ∈ (0, 1) sowie eine Risikoschranke α ∈ (0, 1) wählt man Indizes 0 ≤ k < ` ≤ n + 1, so dass die rechte Seite von (5.10) möglichst nahe an, aber nicht kleiner ist als 1 − α. Die rechte Seite von (5.10) beinhaltet die Wahrscheinlichkeitsgewichte der Binomialverteilung Bin(n, γ). Mit der entsprechenden Verteilungsfunktion X n Fn,γ (c) := γ j (1 − γ)n−j j j≤c müssen wir also sicherstellen, dass Fn,γ (` − 1) − Fn,γ (k − 1) ≥ 1 − α. (5.11) • Ist man ausschließlich an einer unteren Schranke für qγ interessiert, dann setzt man ` = n + 1 und bestimmt ein möglichst großes k = k(n, γ, α), so dass noch Fn,γ (k − 1) ≤ α (denn Fn,γ (n) = 1). • Für eine reine obere Schranke setzt man k = 0 und bestimmt ein möglichst kleines ` = `(n, γ, α), so dass noch Fn,γ (` − 1) ≥ 1 − α. • Für ein Konfidenzintervall kann man die Indizes k = k(n, γ, α/2) und ` = `(n, γ, α/2) verwenden. Illustration. In Abbildung 5.4 zeigen wir noch einmal vier simulierte Stichproben vom Umfang n = 70 und die resultierenden 95%–Konfidenzintervalle für den Median q0.5 . Hier verwenden wir die Indizes k(n, γ, α/2) = k(70, 0.5, 0.025) = 27 und `(n, γ, α/2) = `(70, 0.5, 0.025) = 44. In Abbildung 5.5 betrachten wir Stichproben vom Umfang n = 250. Die Indizes für ein 95%– Vertrauensintervall sind k = 110 und ` = 141. 176 KAPITEL 5. KONFIDENZBEREICHE Abbildung 5.4: Vertrauensintervalle für den Median, n = 70. Bestimmung der Indizes k und ` (approximativ). Im Falle von nγ(1 − γ) ≥ 5 kann man die Indizes k(n, γ, α) und `(n, γ, α) durch die folgenden Approximationen ersetzen: j k p kappr. (n, γ, α) := nγ + 1/2 − nγ(1 − γ) Φ−1 (1 − α) , (5.12) l m p `appr. (n, γ, α) := nγ + 1/2 + nγ(1 − γ) Φ−1 (1 − α) . (5.13) Dahinter steckt mal wieder der Zentrale Grenzwertsatz: Für eine nach Bin(n, γ) verteilte Zufallsvariable Y ist c + 1/2 − nγ P (Y ≤ c) Fn,γ = = P (Y ≤ c + 1/2) ≈ Φ p , P (Y < c + 1) nγ(1 − γ) wenn nγ(1 − γ) hinreichend groß ist. (Die Verschiebung um 1/2 erhöht die Approximationsgüte erheblich.) Somit ist k − 1/2 − nγ Fn,γ (k − 1) ≈ Φ p , nγ(1 − γ) und die rechte Seite ist kleiner oder gleich α genau dann, wenn p p k ≤ nγ + 1/2 + nγ(1 − γ) Φ−1 (α) = nγ + 1/2 − nγ(1 − γ) Φ−1 (1 − α). 5.5. KONFIDENZBEREICHE FÜR QUANTILE 177 Abbildung 5.5: Vertrauensintervalle für den Median, n = 250. Analog kann man die Näherungsformel für `(n, γ, α) begründen. Im wichtigen Spezialfall des Medians (γ = 0.5) kann man noch ausnutzen, dass `(n, 0.5, α) = n + 1 − k(n, 0.5, α), `appr. (n, 0.5, α) = n + 1 − kappr. (n, 0.5, α). Beispiel 5.14 (Monatsmieten Studierender). Wir betrachten die Monatsmiete (in CHF, ohne NK) von Berner Studierenden, wobei wir nur diejenigen betrachten, welche nicht bei Angehörigen umsonst wohnen. Um hervorzuheben, wie teuer das Leben in Bern ist, möchten wir eine untere 90%–Vertrauensschranke für den Median q0.5 der Monatsmieten berechnen. Zur Verfügung steht uns die (reduzierte) Stichprobe der Vorlesungsteilnehmer mit n = 129 Werten Xi . Der Stichprobenmedian ist Q0.5 = X(65) = 550 CHF. Da nγ(1 − γ) = 129/4 > 5, verlassen 178 KAPITEL 5. KONFIDENZBEREICHE wir uns nun auf die Approximation (5.12) an k(n, γ, α): kappr. (n, γ, α) = kappr. (129, 0.5, 0.1) k j p = 129/2 + 1/2 − 129/4 · 1.2816 = b57.7219c = 57. Die gesuchte untere Schranke ist also gleich X(57) = 500 CHF. Wir behaupten also mit einer Sicherheit von 90%, dass der Median der Monatsmieten für Studenten der Univ. Bern mindestens 500 CHF beträgt. Angenommen, man hätte sich ein 90%–Konfidenzintervall für q0.5 vorgenommen. Hierfür benötigt man kappr. (n, γ, α/2) = kappr. (129, 0.5, 0.05) k j p = 129/2 + 1/2 − 129/4 · 1.645 = b55.658c = 55 und `appr. (129, 0.5, 0.05) = 130 − kappr. (129, 0.5, 0.05) = 75. Daraus ergibt sich das Intervall [X(55) , X(75) ] = [500 CHF, 580 CHF]. Man kann also mit einer Sicherheit von 90% behaupten, dass der Median der Monatsmieten für Studenten der Univ. Bern zwischen 500 und 580 CHF liegt. Noch eine andere Fragestellung für das gleiche Datenbeispiel: Um zu illustrieren, wie günstig die Mieten beispielsweise im Vergleich zum Raum Genf oder Zürich sind, berechnen wir eine obere 95%–Konfidenzschranke für das 2/3–Quantil q2/3 der Monatsmieten. Wegen nγ(1 − γ) = 129 · 2/9 > 5 verlassen wir uns auch hier auf die approximativen Formeln für `(n, γ, α). Nach Formel (5.13) ist `appr. (n, γ, α) = `appr. (129, 2/3, 0.05) m l p = 129 · 2/3 + 1/2 + 129 · 2/9 · 1.645 = d95.308e = 96. Die gesuchte obere Schranke ist also gleich X(96) = 650 CHF. Wir behaupten mit einer Sicherheit von 95%, dass mindestens 2/3 aller Berner Studierenden höchstens 650 CHF Miete pro Monat zahlen. Beispiel 5.15 (Körpergewicht der Damen). Wir betrachten das Körpergewicht der Schweizerinnen im Alter von 18-40 Jahren und behandeln den Teildatensatz der n = 110 Vorlesungsteilnehmerinnen wie eine Zufallsstichprobe aus dieser Grundgesamtheit. Auf Grund von Gerüchten, dass die Damen immer schwerer werden, möchten wir eine untere 90%–Vertrauensschranke für den 5.5. KONFIDENZBEREICHE FÜR QUANTILE 179 Median q0.5 des Körpergewichts berechnen. Dafür benötigen wir kappr. (n, γ, α) = kappr. (110, 0.5, 0.1) k j p = 110/2 + 1/2 − 110/4 · 1.2816 = b48.779c = 48. Die gesuchte untere Schranke ist also X(48) = 56 kg. Wir behaupten nun mit einer Sicherheit von 90%, dass mindestens 50% aller Schweizerinnen im Alter von 18-40 Jahren mindestens 56 kg wiegen. Beweis von Satz 5.13. Es ist P qγ 6∈ [X(k) , X(`) ] = P qγ < X(k) oder X(`) < qγ = P qγ < X(k) + P X(`) < qγ = P (höchstens k − 1 Beob. sind ≤ qγ ) + P (mindestens ` Beob. sind < qγ ) = P (Y1 ≤ k − 1) + P (Y2 ≥ `), wobei Y1 := #{i : Xi ≤ qγ } und Y2 := #{i : Xi < qγ }. Diese Zufallsvariablen Y1 , Y2 sind binomialverteilt mit Parametern n und p1 := P (X1 ≤ qγ ) bzw. p2 := P (X1 < qγ ). Nach Definition von qγ ist p1 ≥ γ ≥ p2 . Hieraus kann man ableiten, dass X n P (Y1 ≤ k − 1) ≤ γ j (1 − γ)n−j , j j≤k−1 X n P (Y2 ≥ `) ≤ γ j (1 − γ)n−j , j j≥` mit Gleichheit, falls p1 = γ = p2 . Denn auf der linken Seite steht Fn,p1 (k−1) bzw. 1−Fn,p2 (`−1), und in einem späteren Abschnitt über Binomialtests werden wir zeigen, dass Fn,p (c) monoton fallend ist in p ∈ [0, 1]. Folglich ist P qγ ∈ [X(k) , X(`) ] = 1 − P qγ 6∈ [X(k) , X(`) ] X n X n j n−j ≥ 1− γ (1 − γ) − γ j (1 − γ)n−j j j j≤k−1 = `−1 X j=k mit Gleichheit, falls p1 = γ = p2 . j≥` n j γ (1 − γ)n−j j 2 180 KAPITEL 5. KONFIDENZBEREICHE Kapitel 6 Tests 6.1 Grundideen des Testens an Hand von Fishers exaktem Test Beispiel 2.11 (Bankmanager, Forts.) Wir greifen noch einmal das Beispiel der 48 BankmanagerInnen auf. Diese sollten für eine fiktive Person entscheiden, ob sie in eine bestimmte Position befördert wird oder nicht. Die 48 Personalakten wurden rein zufällig verteilt; in vierundzwanzig Fällen handelte es sich um die Akte eines Herrn, in 24 Fällen um die einer Dame. Die Vermutung war, dass Männer gegenüber Frauen bevorzugt würden. Die Ergebnisse der Beurteilung, dargestellt als Vierfeldertafel: Beförderung keine Beförd. Kandidat 21 3 24 Kandidatin 14 10 24 35 13 48 Belegen diese Daten die Behauptung, dass die 48 ManagerInnen voreingenommen sind? Hier sind zwei mögliche Standpunkte: Argument 1. “Bei gerechter Beurteilung sollten in den Gruppen 1 und 2 etwa gleichviele Kandidaten befördert beziehungsweise nicht befördert werden. Tatsächlich ist der Prozentsatz von Beförderungen in Gruppe 1 (87, 5%) deutlich höher als in Gruppe 2 (58, 3%). Dies zeigt, dass Männer gegenüber Frauen bevorzugt wurden!” Argument 2. “Bei den 48 ManagerInnen handelt es sich um Personen mit unterschiedlichen Ansprüchen. Hiervon sind 35 der Ansicht, die Kandidatin oder der Kandidat sollte befördert werden, und 13 sind gegenteiliger Meinung. Dabei spielt das Geschlecht der zu beurteilenden Person keine Rolle. Von den 35 ManagerInnen mit positivem Urteil landeten zufällig 21 in Gruppe 1 und 14 in Gruppe 2. Anhand der vorgelegten Daten kann man nichts beweisen.” Das zweite Argument ist vielleicht “politisch unkorrekt” aber durchaus richtig. Beweisen kann man an Hand der Daten nichts. Dieser Hinweis ist jedoch wenig hilfreich, denn in den wenigsten Situationen kann man sich auf absolut beweisbare Tatsachen verlassen. Vielmehr muss man oft Entscheidungen fällen, von deren Richtigkeit man mehr oder weniger überzeugt ist. Wenn wir im vorliegenden Beispiel ein gewisses Risiko einer falschen Unterstellung eingehen, können wir vielleicht die Voreingenommenheit der 48 ManagerInnen statistisch nachweisen. 181 182 KAPITEL 6. TESTS Betrachten wir nochmals Argument 2, welches besagt, dass alle 48 ManagerInnen objektiv urteilten und sich die Unterschiede zwischen den Gruppen zufällig ergaben. In der Sprache der Statistik beschreibt dieses Argument eine Nullhypothese, und wir unterstellen bis auf weiteres, dass diese zutrifft. Wir haben also 35 Personen, welche für eine Beförderung plädieren, und 13 Personen, welche dagegen sind. Die Vierfeldertafel hat dann stets die folgende Gestalt: Gruppe 1 Gruppe 2 + T 35 − T 35 − 24 − T −11 + T 13 24 24 48 Wir konzentrieren uns hier auf die zufällige Zahl T von Beförderungen in Gruppe 1, die zwischen 11 und 24 liegen muss. Diese Zufallsgröße ist hypergeometrisch verteilt mit Parametern 48, 24, 35; siehe Kapitel 3. Das heißt, für k ∈ {11, 12, . . . , 24} ist . . 35 13 48 24 24 48 P [T = k] = = . k 24 − k 24 k 35 − k 35 Abbildung 6.1 zeigt ein Stabdiagramm dieser Wahrscheinlichkeiten. Nun suchen wir einen geeigneten Schwellenwert c, um im Falle von T > c zu behaupten, die Nullhypothese sei falsch. Dazu wählen wir zunächst eine Schranke α ∈ (0, 1) für die Wahrscheinlichkeit, den ManagerInnen Unrecht zu tun. Dann definieren wir den kritischen Wert n o c(α, 48, 24, 35) := min c ∈ {11, . . . , 24} : P [T > c] ≤ α n o = min c ∈ {11, . . . , 24} : P [T ≤ c] ≥ 1 − α . Dabei erhält man die Zahlen P [T ≤ c] durch Summation von Gewichten P [T = k], nämlich Pc P [T ≤ c] = k=11 P [T = k]. Im Falle von T > c(α, 48, 24, 35) behaupten wir mit einer Sicherheit von 1−α, dass die ManagerInnen nicht objektiv urteilten. Denn unter der Nullhypothese ist die Wahrscheinlichkeit, dass T > c(α, 48, 24, 35), höchstens gleich α. Im Falle von T ≤ c(α, 48, 24, 35) halten wir den Mund und die Nullhypothese für möglich. Zahlenbeispiel. Sei α = 5%. Die Zahlen P [T ≤ c] sind wie folgt: c P [T ≤ c] 17 0.500 18 0.742 19 0.904 20 0.976 21 0.996 22 1.000 23 1.000 24 1.000 Der kritische Wert ist also c(5%, 48, 24, 35) = 20. Da im konkreten Experiment T = 21 beobachtet wurde, behaupten wir tatsächlich mit einer Sicherheit von 95%, dass die Nullhypothese nicht zutrifft! Ob diese Behauptung zutrifft oder nicht, werden wir leider nie erfahren. Wenn aber bei vielen Fortbildungsveranstaltungen ein solches Experiment durchgeführt wird, und wenn es viele Gruppen von objektiv urteilenden Personen gibt, dann werden wir höchstens 100 · α Prozent dieser Gruppen falsch beurteilen. Beispiel 2.12 (Med. gegen Hautausschlag, Forts.) In einer randomisierten Blindstudie wurden 30 Personen mit einem bestimmten Hautausschlag rein zufällig in zwei Gruppen eingeteilt. Per- 6.1. GRUNDIDEEN DES TESTENS AN HAND VON FISHERS EXAKTEM TEST 183 Abbildung 6.1: Hypothetische Verteilung der Teststatistik T . sonen in Gruppe 1 erhielten ein neues Medikament, Personen in Gruppe 2 ein Placebo. Hier noch einmal die Heilungserfolge als Vierfeldertafel: Medikament Placebo Besserung 12 5 17 keine Bess. 3 10 13 15 15 30 Hier möchte man die Arbeitshypothese, dass das neue Medikament wirkt, nachweisen. Dazu betrachten wir auch hier die Nullhypothese, dass das Medikament keinerlei Wirkung hat. Unter dieser Nullhypothese gibt es 17 spontane Besserungen und 13 Misserfolge. Die Vierfeldertafel hat dann die Form Besserung keine Bess. Medikament T 15 − T 15 Placebo 17 − T T −2 15 17 13 30 und der Eintrag T ist verteilt nach Hyp(30, 15, 17). Das heißt, für k ∈ {2, 3, . . . , 15} ist . 30 17 13 k 15−k . 15 , P (T = k) = 30 15 15 k 17−k 17 . Auch hier wählen wir für ein vorab gewähltes α ∈ (0, 1) einen möglichst kleinen kritischen Wert c = c(α, 30, 15, 17), so dass P [T > c] ≤ α, was gleichbedeutend ist mit P [T ≤ c] ≥ 1 − α. Hier eine Tabelle dieser Wahrscheinlichkeiten P [T ≤ c]: c P [T ≤ c] 8 0.500 9 0.769 10 0.930 11 0.987 12 0.999 ≥ 13 > 0.999 184 KAPITEL 6. TESTS Speziell für α = 0.05 ergibt sich der kritische Wert c(0.05, 30, 15, 17) = 11. Da bei den konkreten Daten T = 12 > c, behaupten wir mit einer Sicherheit von 1 − α = 95%, dass das neue Medikament positiv wirkt. Beide Beispiele sind Spezialfälle des folgenden Verfahrens. Fishers exakter Test Die hier beschriebene Methode ist Fishers exakter Test. R.A. Fisher selbst konzipierte diesen Test ausschließlich für die Auswertung randomisierter Studien. Er wird aber auch in anderen Situationen verwendet. Allgemein betrachtet man eine Vierfeldertafel an Hand zweier binärer Merkmale X ∈ {x1 , x2 } und Y ∈ {y1 , y2 }: X = x1 X = x2 Y = y1 H1,1 H2,1 H+,1 Y = y2 H1,2 H2,2 H+,2 H1,+ H2,+ n Die Nullhypothese lautet, grob gesagt, dass zwischen den Merkmalen X und Y kein echter Zusammenhang besteht. Genauer gesagt, gehen wir davon aus, dass unter der Nullhypothese die bedingte Verteilung von H1,1 , gegeben die Zeilen– und Spaltensummen Hi,+ bzw. H+,j , eine hypergeometrische Verteilung mit Parametern n, H1,+ und H+,1 ist. Das heißt, bei gegebenen Zeilen– und Spaltensummen ist P (H1,1 = k) = . . H1,+ H2,+ n H+,1 H+,2 n = . k H+,1 − k H+,1 k H1,+ − k H1,+ Die möglichen Werte für k reichen von max(0, H+,1 + H1,+ − n) bis min(H1,+ , H+,1 ). Rechtsseitige Version von Fishers exaktem Test. Angenommen, die Arbeitshypothese lautet, dass Fälle mit X = x1 tendenziell eher zu Y = y1 neigen und X = x2 eher mit Y = y2 einhergeht. Um die Nullhypothese zugunsten dieser Arbeitshypothese abzulehnen, wählt man einen möglichst kleinen Schwellenwert c(α) = c(α, n, H1,+ , H+,1 ), so dass H1,1 diesen Wert unter der Nullhypothese mit Wahrscheinlichkeit höchstens α überschreitet. Mit anderen Worten, n o c(α, n, H1,+ , H+,1 ) = min c : Fn,H1,+ ,H+,1 (c) ≥ 1 − α . Dabei ist Fn,H1,+ ,H+,1 die Verteilungsfunktion von Hyp(n, H1,+ , H+,1 ), also X H1,+ n − H1,+ . n Fn,H1,+ ,H+,1 (c) = . k H+,1 − k H+,1 k≤c (Für diese Verteilungsfunktionen gibt es umfangreiche Tabellen bzw. Computerprogramme.) Im Falle von H1,1 > c(α) behauptet man mit einer Sicherheit von 1 − α, dass die Nullhypothese nicht zutrifft. 6.1. GRUNDIDEEN DES TESTENS AN HAND VON FISHERS EXAKTEM TEST 185 Ein P–Wert. Eine alternative Beschreibung dieses Tests verwendet einen sogenannten P–Wert. Genauer gesagt, betrachten wir hier den X H1,+ n − H1,+ . n rechtss. P–Wert := H+,1 − k H+,1 k k≥H1,1 = 1 − Fn,H1,+ ,H+,1 (H1,1 − 1). Und zwar ist H1,1 > c(α, n, H1,+ , H+,1 ) genau dann, wenn dieser P–Wert kleiner oder gleich α ist. Statistiksoftware liefert typischerweise P–Werte. Dies hat den Vorteil, dass Benutzer nicht vorab ihren Wert α spezifizieren müssen. Leider wird der P–Wert oft fehlinterpretiert als die “Wahrscheinlichkeit, dass die Nullhypothese zutrifft”. Diese Deutung ist Unfug. Der P–Wert ist eine Hilfsgröße, mit deren Hilfe beurteilt wird, wie plausibel die Nullhypothese ist. Linksseitige Version von Fishers exaktem Test. Angenommen, die Arbeitshypothese lautet, dass Fälle mit X = x1 tendenziell eher zu Y = y2 neigen und X = x2 eher mit Y = y1 einhergeht. Natürlich könnte man einfach die Kategorien x1 und x2 oder die Kategorien y1 und y2 vewrtauschen und dann den obigen rechtsseitigen Test durchführen. Im Hinblick auf den nachfolgenden zweiseitigen Test beschreiben wir aber auch eine linksseitige Variante. Wir wählen einen möglichst großen Schwellenwert c0 (α) = c0 (α, n, H1,+ , H+,1 ), so dass H1,1 diesen Wert unter der Nullhypothese mit Wahrscheinlichkeit höchstens α unterschreitet. Mit anderen Worten, n o c0 (α, n, H1,+ , H+,1 ) = max c : Fn,H1,+ ,H+,1 (c − 1) ≤ α . Im Falle von H1,1 < c0 (α) behauptet man mit einer Sicherheit von 1 − α, dass die Nullhypothese nicht zutrifft. Ein P–Wert. Ein entsprechender P–Wert ist gegeben durch X H1,+ n − H1,+ . n linkss. P–Wert := k H+,1 − k H+,1 k≤H1,1 = Fn,H1,+ ,H+,1 (H1,1 ). Und zwar ist H1,1 < c0 (α, n, H1,+ , H+,1 ) genau dann, wenn dieser P–Wert kleiner oder gleich α ist. Zweiseitige Version von Fishers exaktem Test. Die Arbeitshypothese lautet einfach, dass es zwischen X und Y einen systematischen Zusammenhang gibt; es gibt aber keine Vermutung über die Richtung des Zusammenhangs. Deshalb achtet man darauf, ob der Tabelleneintrag H1,1 verdächtig groß oder verdächtig klein ist. (Ebensogut könnte man einen anderen der vier Tabelleneinträge betrachten.) Daher kombiniert man die beiden obigen Tests, ersetzt allerdings α durch α/2. Das heißt, man behauptet mit einer Sicherheit von 1 − α, dass die Nullhypothese falsch ist und ein echter Zusammenhang zwischen X und Y besteht, sofern H1,1 < c0 (α/2) oder H1,1 > c(α/2). 186 KAPITEL 6. TESTS P–Wert. Auch diesen zweiseitigen Test kann man über einen P–Wert beschreiben, nämlich zweis. P–Wert := 2 · min(links. P–Wert, rechtss. P–Wert) = 2 · min Fn,H1,+ ,H+,1 (H1,1 ), 1 − Fn,H1,+ ,H+,1 (H1,1 − 1) . Dieser P–Wert ist kleiner oder gleich α genau dann, wenn H1,1 < c0 (α/2) oder H1,1 > c(α/2). Beispiel 6.1 (Geschlecht und Rauchen) Sei X das Geschlecht einer Person, und Y gebe an, ob sie raucht oder nicht. Unsere Stichprobe der n = 261 Vorlesungsteilnehmenden ergibt folgende Tabelle: Raucher Nichtr. Herren 45 100 145 Damen 45 71 116 90 171 261 Um kritische Werte zu bestimmen, benötigen wir Werte der Verteilungsfunktion F261,145,90 . Hier eine unvollständige Tabelle: c F261,145,90 (c) 38 0.001 39 0.003 40 0.006 41 0.013 42 0.025 43 0.044 44 0.075 c 54 0.881 55 0.926 56 0.956 57 0.976 58 0.987 59 0.994 60 0.997 F261,145,90 (c) Wenn wir wieder einmal mit der Schranke α = 0.05 arbeiten, ergeben sich die kritischen Werte c0 = 43 und c = 57. Im Falle von H1,1 < 43 könnten wir also mit einer Sicherheit von 95% behaupten, dass der relative Anteil von Rauchern unter den Männern geringer ist als unter den Frauen. Im Falle von H1,1 > 57 könnten wir mit einer Sicherheit von 95% behaupten, dass es sich umgekehrt verhält. Da bei unseren konkreten Daten H1,1 im Intervall [c0 , c] liegt, können wir keine Aussage über den Zusammenhang zwischen Geschlecht und Rauchgewohnheiten machen. Der entsprechende P–Wert ist hier gleich 2 · min(F261,145,90 (45), 1 − F261,145,90 (44)) = 2 · min(0.1192, 0.9251) = 0.2384. 6.2 Das allgemeine Prinzip statistischer Tests In vielen Anwendungen möchte man aufgrund von Daten D ∈ D einen bestimmten “Effekt” nachweisen, beispielsweise den Erfolg oder Misserfolg einer neuen medizinischen Behandlung. Man spricht auch von einer Arbeitshypothese. Oftmals kann man diese Arbeitshypothese nur indirekt nachweisen. Zu diesem Zweck formuliert man eine Nullhypothese Ho : Man betrachtet die Daten als Zufallsvariable mit Werten in D und beschreibt mögliche Wahrscheinlichkeitsverteilungen von D unter der Annahme, dass es den besagten Effekt nicht gibt. Nun muss man anhand der Daten entscheiden, ob man die Nullhypothese ablehnt (und damit an der Arbeitshypothese festhält) oder nicht. Eine solche Entscheidungsregel nennt man einen statistischen Test. Mitunter hat man auch für den Fall, dass der besagte Effekt vorhanden ist, explizite statistische Modelle für die Daten D. Man spricht dann auch von Alternativhypothesen. In solchen Situationen 6.3. DER χ2 –TEST FÜR KONTINGENZTAFELN 187 bietet es sich an, nicht nur einen statistischen Test durchzuführen, sondern den Effekt mithilfe von Konfidenzschranken genauer zu quantifizieren. Bei der Durchführung eines statistischen Tests riskiert man immer einen der folgenden zwei Fehler: Fehler der ersten Art. Man lehnt die Nullhypothese ab, obwohl sie zutrifft. Fehler der zweiten Art. Man lehnt die Nullhypothese nicht ab, obwohl sie falsch ist. Üblicherweise legt man eine obere Schranke α ∈ (0, 1) für die Wahrscheinlichkeit eines Fehlers der ersten Art fest. Diese Schranke ist das sogenannte Signifikanzniveau. Gängige Werte für α sind 0.05 und 0.01. Dann wählt man einen kritischen Bereich K(α) ⊂ D, so dass gilt: P [D ∈ K(α)] ≤ α unter Ho . (6.1) Fallen die Daten D in diesen kritischen Bereich K(α), so behauptet man mit einer Sicherheit von 1 − α, die Nullhypothese sei falsch. Anderenfalls hält man die Nullhypothese für möglich. In einer einzelnen Anwendung kann man nicht sagen, ob und welchen Fehler man begangen hat. Wenn man aber in sehr vielen (unabhängigen) Situationen einen Test mit Signifikanzniveau α anwendet, so begeht man in höchstens 100α Prozent aller Fälle einen Fehler der ersten Art. Fishers exakter Test ist ein erstes Beispiel für ein solches Verfahren. Beim einseitigen Test besteht der kritische Bereich K(α) aus allen Vierfeldertafeln D = (Hi,j )2i,j=1 , so dass gilt: H1,1 > c(α, n, H1,+ , H+,1 ). Beim zweiseitigen Test besteht K(α) aus allen Vierfeldertafeln mit H1,1 < c0 (α/2, n, H1,+ , H+,1 ) 6.3 oder H1,1 > c(α/2, n, H1,+ , H+,1 ). Der χ2 –Test für Kontingenztafeln Nun betrachten wir zwei kategorielle Merkmale X ∈ {x1 , . . . , xK } und Y ∈ {y1 , . . . , yL } und wollen gegebenenfalls die Arbeitshypothese nachweisen, dass zwischen diesen beiden Merkmalen ein echter Zusammenhang besteht. Die Nullhypothese lautet, dass kein echter Zusammenhang besteht. In dem Spezialfall, dass wir eine Zufallsstichprobe aus einer Population betrachten, sei (X, Y ) das Merkmalspaar eines zufällig herausgegriffenen Individuums. Dann lautet die Nullhypothese: Die beiden Zufallsvariablen X und Y sind stochastisch unabhängig. Das heißt, für die K · L Wahrscheinlichkeiten pi,j := P (X = xi , Y = yj ) mit 1 ≤ i ≤ K und 1 ≤ j ≤ L gilt die Gleichung pi,j = pi,+ p+,j . 188 Dabei ist pi,+ := KAPITEL 6. TESTS P j pi,j = P (X = xi ) und p+,j = P i pi,j = P (Y = yj ). Allgemein kann man die Nullhypothese, dass zwischen X– und Y –Werten kein echter Zusammenhang besteht, wie folgt beschreiben: Nullhypothese Ho : Die Originaldatenmatrix X1 X2 .. . Y1 Y2 .. . Xn Yn ist genauso verteilt wie X1 X2 .. . YΠ(1) YΠ(2) .. . . Xn YΠ(n) Dabei ist (Π(1), Π(2), . . . , Π(n)) eine rein zufällige und von den Daten Xi , Yj unabhängige Permutation von (1, 2, . . . , n). Für dieses Testproblem betrachten wir die χ2 –Teststatistik aus Abschnitt 2.4.1: T := K X K X L L 2 X X Hi,j (Hi,j − H̄i,j )2 = − n. H̄ H̄ i,j i,j i=1 j=1 i=1 j=1 Dabei ist Hi,j die Anzahl aller Beobachtungen mit (X, Y ) = (xi , yj ), H̄i,+ und H+,j sind die entsprechenden Zeilen– bzw. Spaltensummen der Kontingenztafel, und H̄i,j = Hi,+ H+,j /n. Man kann zeigen, dass diese Teststatistik unter der Nullhypothese und bei gegebenen Zeilen– und Spaltensummen approximativ nach χ2(K−1)(L−1) verteilt ist, wenn das Minimum der Hilfsgrößen H̄i,j hinreichend groß ist. Auch hier empfehlen wir Überprüfung der Faustregel, dass mini,j H̄i,j ≥ 5. Wir verwerfen also die Nullhypothese auf dem Niveau α, wenn T ≥ χ2(K−1)(L−1);1−α . Dies ist eine Verfeinerung der groben Faustregel, die bereits in Abschnitt 2.4.1 eingeführt wurde. Ein entsprechender (rechtsseitiger) P–Wert ist hier gegeben durch P–Wert := 1 − F(K−1)(L−1) (T ). Wenn die Faustregel nicht erfüllt ist, sollte man einen sogenannten “Permutationstest” durchführen (lassen). Zusammenhang und Confounding. Wenn der hier beschriebene Test die Nullhypothese verwirft, weiß man noch nichts über Art und Richtung des Zusammenhangs! Man kann den Daten auch nicht ansehen, ob sich X ursächlich auf Y auswirkt oder umgekehrt. Denkbar wäre beispielsweise, dass es ein drittes Merkmal gibt (z.B. Vorliegen/Nichtvorliegen eines bestimmten 6.4. BINOMIALTESTS 189 genetischen Faktors), welches sich sowohl auf X als auch auf Y auswirkt, wohingegen kein direkter Zusammenhang zwischen X– und Y –Werten besteht. Diese Abhängigkeit von einem latenten dritten Merkmal nennt man confounding, und das zusätzliche Merkmal ist ein confounder. Reduktion auf Vierfeldertafeln. Möchte man über Art und Richtung des Zusammenhang etwas herausfinden, so kann man beispielsweise die Kontingenztafel durch Zusammenfassen oder Streichen bestimmter Kategorien auf eine Vierfeldertafel reduzieren und dann Fishers exakten Test anwenden. Beispiel 2.10 (Herzerkrankungen und Schnarchen, Forts.) Dieses Datenbeispiel betrachteten wir bereits in Abschnitt 2.4.1. Wir erhielten den Wert T = 72.782, und das Minimum der Hilfsgrößen H̄i,j ist gleich 9.43, also größer als Fünf. Daher verwenden wir den χ2 –Test: Hier ist (K − 1)(L − 1) = (2 − 1) · (4 − 1) = 3, und für α = 0.01 ergibt sich der kritische Wert χ23;0.99 ≈ 11.345. Da der Wert unserer Teststatistik T größer ist als der kritische Wert, behaupten wir mit einer Sicherheit von 99%, dass es einen echten Zusammenhang zwischen Schnarchen und Herzerkrankungen gibt. Alternativ fassen wir für Y die beiden ersten Kategorien (‘nie’ und ‘manchmal’) zu einer Kategorie ‘selten’ und die letzten beiden Kategorien (‘oft’ und ‘immer’) zu einer Kategorie ‘regelmäßig’ zusammen. Dann ergibt sich die folgende Vierfeldertafel: Herzkrank? ja nein Schnarchen? selten regelm. 59 51 1958 416 2017 467 110 2374 2484 Nun testen wir mit Fishers exaktem Test (zweiseitig) auf dem Niveau α = 0.01. Der P–Wert ist 2 · min F2484,110,2017 (59), 1 − F2484,110,2017 (58) = 2 · min 1.2401 · 10−11 , 1.000 < 0.01. Wir behaupten also mit einer Sicherheit von 99%, dass es einen echten Zusammenhang zwischen Herzerkrankungen und Schnarchen gibt. Genauer gesagt, sind die stark Schnarchenden unter den Herzkranken stärker vertreten als unter den Gesunden. 6.4 Binomialtests Sei Y eine Zufallsvariable mit Verteilung Bin(n, p), wobei p ein unbekannter Parameter aus [0, 1] ist. Wir kennen bereits approximative Konfidenzintervalle für p. Im vorliegenden Abschnitt werden wir Tests von Nullhypothesen über p kennenlernen, die letztendlich zu exakten Konfidenzschranken führen. 190 KAPITEL 6. TESTS Tests von Ho : p ≤ po Beispiel 6.2 (Wahlprognosen) Eine politische Partei ABC möchte wissen, wie hoch ihr derzeitiger Wähleranteil ist. Sei also p der relative Anteil von (potentiellen) ABC–Wählern unter allen Wahlberechtigten. Um etwas über p zu erfahren, werden n Wahlberechtigte gefragt, ob sie derzeit Partei ABC wählen würden. Sei Y die Anzahl der befragten Personen, die diese Frage bejahen. Ein naheliegnder Schätzwert für p ist dann pb = Y /n, also der relative Anteil von ABC—Wählern in der Stichprobe. Für eine genauere Analyse unterstellen wir, dass Y binomialverteilt ist mit Parametern n und p. Das heißt, n k P [Y = k] = p (1 − p)n−k für k ∈ {0, 1, 2, . . . , n}. k Angenommen, die Partei möchte wissen, ob p größer ist als ein bestimmter Wert po . Konkrete Beispiele für po : • Das Ergebnis der letzten Wahl. Die Partei möchte wissen, ob sie in der Wählergunst stieg. • Fünf Prozent. Für kleine Parteien in Deutschland ist dieser Wert essentiell, denn ein Stimmenanteil von weniger als 5% wird nicht berücksichtigt. • Fünfzig Prozent. Eine sehr einflussreiche Partei möchte wissen, ob sie mit einer absoluten Mehrheit rechnen kann. Die Partei ABC hofft, dass p > po . Wenn die Umfrage gegen diese Arbeitshypothese spräche, würde sie vielleicht ihren Wahlkampf intensivieren, was aber mit höheren Kosten verbunden ist. Deshalb testet sie die Nullhypothese, dass p ≤ po , zu einem vorgegebenen Niveau α. Zurück zu den allgemeinen Betrachtungen. Wir möchten die Nullhypothese Ho : p ≤ po zu einem vorgegebenen Niveau α testen. Genauer gesagt, möchten wir die Nullhypothese verwerfen, falls Y > c, wobei c eine Zahl aus {0, 1, . . . , n − 1} ist, die wir noch bestimmen müssen. Mit anderen Worten, der kritische Bereich unseres Tests hat die Form K(α) = {c + 1, . . . , n}. Dass die Wahrscheinlichkeit für einen Fehler der ersten Art nicht größer ist als α (Forderung 6.1), ist gleichbedeutend mit: P [Y > c] ≤ α falls p ≤ po . (6.2) Nun betrachten wir die Verteilungsfunktion von Y . Sei c X n k Fn,p (c) = p (1 − p)n−k = P [Y ≤ c]. k k=0 Dann ist (6.2) äquivalent zu: Fn,p (c) ≥ 1 − α für alle p ≤ po . (6.3) Auf den ersten Blick sieht dies kompliziert aus, da unendlich viele Ungleichungen erfüllt sein müssen. Tatsächlich ist aber Fn,p (c) als Funktion von p monoton fallend: 6.4. BINOMIALTESTS 191 Lemma 6.3 Für jedes c ∈ {0, 1, . . . , n − 1} ist Fn,p (c) eine stetige und streng monoton fallende Funktion von p ∈ [0, 1]. Ihre Randwerte sind Fn,0 (c) = 1 und Fn,1 (c) = 0. Dieses Lemma impliziert, dass Forderung (6.3) äquivalent ist zu der einfachen Ungleichung Fn,po (c) ≥ 1 − α. (6.4) Wir wählen also o n c(α, n, po ) := min c : Fn,po (c) ≥ 1 − α und verwerfen die Nullhypothese Ho auf dem Niveau α, falls Y > c(α, n, po ). Der entsprechende rechtsseitige P-Wert ist rechtss. P-Wert := 1 − Fn,po (Y − 1). Beispiel 6.2 (Wahlprognosen, Forts.) Angenommen, die Partei ABC hofft, dass p > 0.2. Zu diesem Zweck lässt sie n = 500 Wahlberechtigte befragen und möchte die Nullhypothese Ho : p ≤ 0.2 auf dem Niveau α = 0.01 testen. Die folgende Tabelle zeigt einige Wertepaare (c, F500,0.2 (c)): c F500,0.2 (c) 118 0.979 119 0.984 120 0.988 121 0.991 122 0.993 123 0.995 Folglich ist c(0.01, 500, 0.2) gleich 121. Wenn also Y größer oder gleich 122 ist, dann kann man mit einer Sicherheit von 99% davon ausgehen, dass p größer ist als 20%. Beweis von Lemma 6.3. Die Formel für Fn,p (c) zeigt, dass es sich um ein Polynom in p handelt. Insbesondere ist es eine stetige Funktion von p. Dass Fn,0 (c) = 1 und Fn,1 (c) = 0, erkennt man einfach durch Einsetzen von p = 0 und p = 1. Zu zeigen bleibt, dass Fn,p (c) streng monoton fallend in p ∈ [0, 1] ist. Eine hinreichende Bedingung hierfür ist, dass d Fn,p (c) < 0 dp für 0 < p < 1. Zunächst ist d Fn,p (c) = dp = = = = c d X n k p (1 − p)n−k dp k k=0 c X n d pk (1 − p)n−k k dp k=0 c X n d k d p (1 − p)n−k + pk (1 − p)n−k k dp dp k=0 c X n kpk−1 (1 − p)n−k − (n − k)pk (1 − p)n−k−1 k k=0 c c X X n k−1 n k n−k k p (1 − p) − (n − k) p (1 − p)n−k−1 . k k k=1 k=0 192 KAPITEL 6. TESTS Dabei verwendeten wir im zweiten Schritt die Tatsache, dass man Summation und Ableitung vertauschen kann, und im dritten Schritt die Produktregel. Nun nutzen wir aus, dass n n−1 n n−1 k =n und (n − k) =n . k k−1 k k Hieraus ergibt sich, dass c c X X d n − 1 k−1 n−1 k n−k Fn,p (c) = n p (1 − p) −n p (1 − p)n−k−1 dp k−1 k k=1 k=0 [setze in der ersten Summe j = k − 1, also k = j + 1 :] c−1 c X X n−1 j n−1 k n−j−1 = n p (1 − p) −n p (1 − p)n−k−1 j k j=0 k=0 n−1 c = −n p (1 − p)n−c−1 c < 0. 2 Tests von Ho : p ≥ po In manchen Anwendungen möchte man eher nachweisen, dass der Parameter p eine bestimmte Schranke po unterschreitet. Wir betrachten dann die Nullhypothese Ho : p ≥ po . Diese verwerfen wir, wenn Y < c0 mit einem geeigneten kritischen Wert c0 ∈ {1, . . . , n}. Forderung (6.1), dass die Wahrscheinlichkeit für einen Fehler der ersten Art höchstens α beträgt, ist gleichbedeutend mit: P [Y < c0 ] ≤ α falls p ≥ po . Mit anderen Worten, Fn,p (c0 − 1) ≤ α für alle p ≥ po . (6.5) Aus Lemma 6.3 ergibt sich die äquivalente Forderung, dass Fn,po (c0 − 1) ≤ α. (6.6) Wir wählen daher den kritischen Wert n o c0 (α, n, po ) := max c : Fn,po (c − 1) ≤ α . Der entsprechende linksseitige P-Wert ist linkss. P-Wert := Fn,po (Y ). Beispiel 6.4 (Qualitätskontrolle) Eine Firma produziert einen Massenartikel und möchte regelmäßig prüfen, ob die Produktionsanlage zu viel Ausschuss liefert. Bei jedem produzierten Stück 6.4. BINOMIALTESTS 193 besteht eine gewisse Wahrscheinlichkeit, dass es fehlerhaft ist. Wir betrachten die von nun an produzierten Artikel und setzen 1 wenn der i–te Artikel fehlerhaft ist, Xi := 0 sonst. Wir nehmen an, dass diese Zufallsgrößen X1 , X2 , X3 , . . . stochastisch unabhängig sind mit unbekanntem und hoffentlich kleinem Parameter p := P [Xi = 1] = E(Xi ). Dieser ist also die Ausfallwahrscheinlichkeit für ein einzelnes Teil. Angenommen, die Kunden des Unternehmens verlangen eine Ausschussrate von höchstens po . Das heißt, eine Lieferung von m Artikeln soll im Mittel höchstens mpo defekte Teile enthalten. Die herstellende Firma geht davon aus, dass p deutlich geringer ist als po . Um dies zu verifizieren, überprüft sie hin und wieder n Teile. Sei Y die Anzahl defekter Teile bei einer solchen Prüfung. Nun testet man die Nullhypothese, dass p ≥ po auf einem vorgegebenen Niveau α. Wenn diese Nullhypothese verworfen wird, kann die Firma mit einer Sicherheit von 1 − α davon ausgehen, dass die Produktionsanlage die Qualitätsanforderung der Kunden übertrifft. Wenn die Anlage nicht in Ordnung ist, also p ≥ po , dann ist die Wahrscheinlichkeit, dass dies übersehen wird, höchstens gleich α. Zahlenbeispiel. Sei po = 0.08. Man überprüft n = 100 Teile und möchte auf dem Niveau α = 0.05 testen. Hier einige Werte von F100,0.08 (c): c F100,0.08 (c) 1 0.002 2 0.011 3 0.037 4 0.090 5 0.180 6 0.303 Also ist c0 (0.05, 100, 0.08) = 4. Wenn von 100 überprüften Teilen höchstens drei defekt sind, kann man mit einer Sicherheit von 95% davon ausgehen, dass p < 0.08. Wir werden dieses Beispiel im Zusammenhang mit Gütefunktionen noch genauer untersuchen. Normalapproximation der Binomialtests∗ Wie schon früher angemerkt wurde, ist die standardisierte Größe Y − np p np(1 − p) näherungsweise standardnormalverteilt, wenn np(1−p) “hinreichend groß” ist; sagen wir, np(1− p) ≥ 5. Dann ist h Y − np c + 1/2 − np c + 1/2 − np i P [Y ≤ c] = P p ≤ p ≈ Φ p . P [Y < c + 1] np(1 − p) np(1 − p) np(1 − p) Ein Näherungswert für c(α, n, po ) ist daher die kleinste ganze Zahl c, so dass c + 1/2 − np o Φ p ≥ 1 − α, npo (1 − po ) was gleichbedeutend ist mit p c ≥ npo + Φ−1 (1 − α) npo (1 − po ) − 1/2. 194 KAPITEL 6. TESTS Daraus ergibt sich der Näherungswert l m p cappr. (α, n, po ) = npo + Φ−1 (1 − α) npo (1 − po ) − 1/2 . Wenn man dagegen die Nullhypothese Ho : p ≥ po testet, dann ergibt sich (wegen Φ−1 (α) = −Φ−1 (1 − α)) der Näherungswert k j p c0appr. (α, n, po ) = npo − Φ−1 (1 − α) npo (1 − po ) + 1/2 = n − cappr. (α, n, 1 − po ). Beispiel 6.2 (Wahlprognosen, Forts.) Für n = 500, po = 0.2 und α = 0.01 ist Φ−1 (1 − α) = 2.326, also l m √ cappr. (0.01, 500, 0.2) = 100 + 2.326 80 − 1/2 = d120.308e = 121. Die Näherungsformel liefert also hier den gleichen kritischen Wert wie die exakte Methode. Beispiel 6.4 (Qualitätskontrolle, Forts.) Für n = 100, po = 0.08 und α = 0.05 ist Φ−1 (1 − α) = 1.645, also k j √ c0appr. (0.05, 100, 0.08) = 8 − 1.645 8 · 0.92 + 1/2 = b4.038c = 4. Auch hier liefert die Näherungsformel den gleichen kritischen Wert wie die exakte Methode. Güte des Binomialtests, Stichprobenplanung Bisher betrachteten wir nur den Fehler der ersten Art. Bei der Frage, wie groß der Stichprobenumfang n sein sollte, kommt es auf den Fehler der zweiten Art an. Hierzu betrachten wir die “Güte” unserer Tests: Güte(p) := P [Nullhypothese wird verworfen]. Tests der Nullhypothese, dass p ≤ po . Diese Nullhypothese verwerfen wir auf dem Niveau α, falls Y > c(α, n, po ). Daher ist Güte(p) = 1 − Fn,p (c(α, n, po )). Abbildung 6.2 zeigt für po = 0.2 und α = 0.05 die Gütefunktion für n = 50 mit c(0.05, 50, 0.2) = 15 sowie für n = 200 mit c(0.05, 200, 0.2) = 49. Um nun einen geeigneten Stichprobenumfang festzulegen, wählt man zusätzlich zu po und α einen Parameter p∗ ∈ (po , 1] und eine Schranke β ∈ (0, 1). Dann verlangt man, dass P [Fehler der 2. Art] ≤ β falls p ≥ p∗ . Dies ist äquivalent zu der Forderung, dass Fn,p∗ (c(α, n, po )) ≤ β. 6.4. BINOMIALTESTS 195 Abbildung 6.2: Gütefunktion zweier Binomialtests. Um also einen minimalen Stichprobenumfang n festzulegen, kann man wie folgt vorgehen (Pseudocode): n←1 c ← c(α, n, po ) while Fn,p∗ (c, n, p∗ ) > β do n←n+1 c ← c(α, n, po ) end while Beispiel 6.2 (Wahlprognosen, Forts.) Sei po = 0.2, α = 0.01, p∗ = 0.3 und β = 0.1. Für n = 100 ergibt sich c(α, n, po ) = 30, aber Fn,p∗ (30) = 0.5491 > β. Also benötigt man mehr als 100 Beobachtungen. Lässt man den Computer obigen Algorithmus ausführen, so ergibt sich der minimale Stichprobenumfang n = 253 mit c(α, n, po ) = 66 und Fn,po (66) = 0.9924, Fn,p∗ (66) = 0.0974. Tests der Nullhypothese, dass p ≥ po . Diese Nullhypothese verwerfen wir auf dem Niveau α, falls Y < c0 (α, n, po ). Daher ist Güte(p) = Fn,p (c0 (α, n, po ) − 1). Hier wählt man zusätzlich zu po und α einen Parameter p∗ ∈ [0, po ) und eine Schranke β ∈ (0, 1). Dann verlangt man, dass P [Fehler der 2. Art] ≤ β falls p ≤ p∗ , 196 KAPITEL 6. TESTS also Fn,p∗ (c0 (α, n, po ) − 1) ≥ 1 − β. Beispiel 6.4 (Qualitätskontrolle, Forts.) Sei po = 0.08, α = 0.05, p∗ = 0.04 und β = 0.2. Für n = 100 ergibt sich der kritische Wert c0 (α, n, po ) = 4 mit Fn,po (3) = 0.0367. Allerdings ist Fn,p∗ (3) = 0.430 < 1 − β; ein Stichprobenumfang von 100 ist also zu klein. Mit Hilfe eines entsprechenden Computerprogramms stellte sich heraus, dass man eine Stichprobe vom Umfang n = 224 benötigt, wobei dann c0 (α, n, po ) = 12 und Fn,po (11) = 0.0499, Fn,p∗ (11) = 0.8109. Abschätzung des Stichprobenumfangs∗ . Mit Hilfe der Normalapproximation kann man für die hier behandelten Binomialtests Näherungsformeln für minimal notwendige Stichprobenumfänge angeben. Diese sollen kein Ersatz für exakte Rechnungen sein, sondern eine ungefähre Größenp ordnung von n vermitteln. Auch hier verwenden wir die Tatsache, dass (Y − np)/ np(1 − p) näherungsweise standardnormalverteilt ist, wenn np(1 − p) hinreichend groß ist. Angenommen, wir testen die Nullhypothese, dass p ≤ po , auf dem Niveau α. Wir verwerfen die Nullhypothese, falls Y > c, wobei wir fordern, dass P [Y > c] ≤ α falls p = po , P [Y > c] ≥ 1 − β falls p = p∗ , wobei po < p∗ < 1. Nun ist aber P [Y > c] = 1 − P [Y ≤ c] h Y − np c + 1/2 − np i = 1−P p ≤ p np(1 − p) np(1 − p) c + 1/2 − np ≈ 1−Φ p . np(1 − p) Die rechte Seite ist p ≤α falls p = po und c ≥ npo + Φ−1 (1 −pα) npo (1 − po ) − 1/2 ≥ 1 − β falls p = p∗ und c ≤ np∗ + Φ−1 (β) np∗ (1 − p∗ ) − 1/2. Damit beide Ungleichungen auf der rechten Seite für ein geeignetes c erfüllt sind, muss gelten: npo + Φ−1 (1 − α) p p npo (1 − po ) ≤ np∗ + Φ−1 (β) np∗ (1 − p∗ ). Doch letztere Ungleichung ist äquivalent zu n ≥ !2 p p Φ−1 (1 − α) po (1 − po ) + Φ−1 (1 − β) p∗ (1 − p∗ ) . p∗ − po (6.7) Genau die gleiche Schranke (6.7) erhält man für Tests der Nullhypothese, dass p ≥ po , versus die Alternativhypothese, dass p ≤ p∗ , wobei nun 0 < p∗ < po < 1. 6.5. DER χ2 –ANPASSUNGSTEST 197 Beispiel 6.2 (Wahlprognosen, Forts.) Für po = 0.2, α = 0.01, p∗ = 0.3 und β = 0.1 ergibt sich mit Φ−1 (0.99) = 2.3263 und Φ−1 (0.9) = 1.2816 die Forderung, dass n größer oder gleich !2 √ √ 2.3263 0.2 · 0.8 + 1.2816 0.3 · 0.7 ≈ 230.38 0.1 ist. Beispiel 6.4 (Qualitätskontrolle, Forts.) Für po = 0.08, α = 0.05, p∗ = 0.04 und β = 0.05 ergibt sich mit Φ−1 (0.95) = 1.6449 und Φ−1 (0.8) = 0.8416 die Forderung, dass n größer oder gleich !2 √ √ 1.6449 0.08 · 0.92 + 0.8416 0.04 · 0.96 ≈ 233.45 0.04 ist. 6.5 Der χ2 –Anpassungstest Wir betrachten eine kategorielle Zufallsvariable X mit möglichen Ausprägungen x1 , x2 , . . . , xK , und es sei pj := P (X = xj ). Um etwas über diese unbekannten Parameter pj herauszufinden, besorgen wir uns eine Stichprobe von n stochastisch unabhängigen Zufallsvariablen X1 , X2 , . . . , Xn , die alle wie X verteilt sind. Naheliegende Schätzwerte für die pj sind die relativen Häufigkeiten pbj = Hj n mit Hj := #{i ≤ n : Xi = xj }. In manchen Anwendungen möchte man testen, ob die Parameter pj bestimmte vorgegebene Werte poj haben. Im Jargon statistischer Tests möchten wir folgende Nullhypothese überprüfen: Ho : pj = poj für j = 1, . . . , K. Hier drei Beispiele für diese Fragestellung: • Ein Spielzeughersteller produziert Würfel. Nun soll überprüft werden, ob mit einem neu produzierten Würfel alle sechs Zahlen gleiche Wahrscheinlichkeit haben. Hier ist K = 6, xj = j und poj = 1/6. • Der Roulettetisch einer Spielbank soll überprüft werden. Zu diesem Zweck erzeugt man mit ihm n Zufallszahlen Xi ∈ {0, 1, 2, . . . , 36} und überprüft die Nullhypothese, dass pj = poj := 1/37. • Bei der Befragung der Vorlesungsteilnehmenden wurden diese unter anderem dazu aufgefordert, eine “Zufallsziffer” aus {0, 1, . . . , 9} zu wählen. Es sei pj die Wahrscheinlichkeit, dass 198 KAPITEL 6. TESTS eine zufällig herausgegriffene Person aus der Grundgesamtheit aller Studierenden der Wirtschaftswissenschaften bei dieser Frage die Ziffer j wählt. Ähnliche Experimente in der Vergangenheit lassen vermuten, dass die pj teilweise deutlich von poj := 1/10 abweichen. Eine Besonderheit der beiden erstgenannten Beispiele ist, dass zumindest der Hersteller der Würfel bzw. der Spielbankbetreiber die Nullhypothese anstrebt. Kontrolleure des Herstellers bzw. der Spielbank möchten Abweichungen von der Nullhypothese nachweisen. Für diese ist ein statistischer Test geeignet. Aus Sicht des Herstellers oder Spielbankbetreibers wäre z.B. eine obere Konfidenzschranke für die maximale Abweichung der Wahrscheinlichkeiten pj von den idealen Werten poj von Interesse. Die Teststatistik. Man vergleicht jeden Wert pbj mit seinem hypothetischen Wert poj . Genauer gesagt bildet man die Summe K K X X (Hj − npoj )2 (b pj − poj )2 = . T := n poj npoj j=1 j=1 Dies ist Pearsons Chiquadrat–Teststatistik. Die speziellen Gewichtsfaktoren 1/poj sind so gewählt, dass T unter der Nullhypothese approximativ nach χ2K−1 verteilt ist, sofern alle Zahlen npoj hinreichend groß sind. Als Faustregel empfehlen wir, dass n · minj poj ≥ 5. Der approximative Test. Zu gegebenem Testniveau α ∈ (0, 1) bestimmt man mit Hilfe von Tabellen oder entsprechender Software das (1−α)–Quantil χ2K−1;1−α der Chiquadrat-Verteilung mit K − 1 Freiheitsgraden. Die Zahl der Freiheitsgrade ist also die Anzahl von möglichen Kategorien minus Eins. Im Falle von T ≥ χ2K−1;1−α verwirft man die Nullhypothese Ho auf dem (approximativen) Niveau α. Mit anderen Worten, in diesem Falle behauptet man mit einer Sicherheit von 1 − α, dass die Nullhypothese falsch ist. Eine äquivalente Formulierung über P–Werte: Mit der Verteilungsfunktion FK−1 von χ2K−1 sei P–Wert := 1 − FK−1 (T ). Dann ist T ≥ χ2K−1;1−α genau dann, wenn der P–Wert kleiner oder gleich α ist. Abbildung 6.3 zeigt die Dichtefunktion fK−1 und die Verteilungsfunktion FK−1 von χ2K−1 im Falle von K = 10. In beiden Teilplots wird dann der P–Wert für den Fall T = 12.1 als Flächeninhalt bzw. als Streckenlänge verdeutlicht. 6.5. DER χ2 –ANPASSUNGSTEST 199 Abbildung 6.3: Der approximative χ2 –Anpassungstest. Exakte Tests. Anstelle der gerade erwähnten χ2 –Approximation könnte man auch einen exakten Monte-Carlo-Test durchführen, was möglicherweise in einer späteren Vorlesung behandelt wird. Beispiel 6.5 (“Zufallsziffern”) Bei der Frage nach der “Zufallsziffer” ergaben sich folgende Resultate aus n = 262 Antworten (auf drei Nachkommastellen gerundet): xj Hj pbj 0 8 0.031 1 6 0.023 2 12 0.046 3 32 0.122 4 25 0.095 5 23 0.088 6 28 0.107 7 70 0.267 8 41 0.156 9 17 0.065 Nun wollen wir die Nullhypothese, dass alle pj gleich 0.1 sind, auf dem Niveau α = 0.05 testen. Die χ2 –Teststatistik ist gleich T = 262 10 X (b pj − 0.1)2 ≈ 122.580. 0.1 j=1 Der kritische Wert ist hier gleich χ2K−1;1−α = χ29;0.95 = 16.919. Da T strikt größer ist als diese Schranke, behaupten wir mit einer Sicherheit von 95%, dass nicht alle Wahrscheinlichkeiten pj gleich 0.1 sind. Der entsprechende P–Wert ist hier gleich 1 − FK−1 (T ) = 1 − F9 (122.580) < 10−4 . Ein erstes alternatives Verfahren. Wie schon gesagt wurde, gibt uns der obige Chiquadrat– Test keinen Aufschluss darüber, welche Parameter pj in welche Richtung von den entsprechenden 200 KAPITEL 6. TESTS Werten poj abweichen. Hinzu kommt, dass man in manchen Anwendungen nachweisen möchte, dass man von der Nullhypothese nicht weit entfernt ist. Eine mögliche Alternative zu statistischen Tests ist die Berechnung eines Konfidenzintervalls [b aj , bbj ] für pj , simultan für alle j = 1, . . . , K. Genauer gesagt, möchte man mit den gegebenen Daten Konfidenzschranken b aj , bbj berechnen, so dass für ein vorgebenes α gilt: P pj ∈ [b aj , bbj ] für j = 1, . . . , K ≥ 1 − α. Dann kann man mit einer Sicherheit von 1 − α davon ausgehen, dass jeder Parameter pj in dem entspechenden Intervall [b aj , bbj ] liegt. Insbesondere kann man dann prüfen, ob alle hypothetischen Parameter poj in dem entsprechenden Intervall [b aj , bbj ] liegen. Diese Sicherheit erreicht man, indem man für jeden einzelnen Parameter pj ein (1 − α/K)–Vertrauensintervall [b aj , bbj ] berechnet, also α durch α/K ersetzt. Denn dann ist P pj ∈ [b aj , bbj ] für j = 1, . . . , K = 1 − P pj 6∈ [b aj , bbj ] für mind. ein j aus {1, . . . , K} ≥ 1− K X P pj 6∈ [b aj , bbj ] j=1 ≥ 1− K X α/K j=1 = 1 − α. Der Vorteil dieser Methode ist klar: Möglicherweise kann man Aussagen über die Abweichung bestimmter Parameter pj von poj machen. Allerdings gibt es auch Datenbeispiele, bei denen der χ2 –Anpassungstest die Nullhypothese verwirft, obwohl poj ∈ [b aj , bbj ] für alle j = 1, . . . , K. Beispiel 6.5 (“Zufallsziffern”, Forts.) Für α = 0.05 berechnen wir nun Vertrauensintervalle für die 10 Parameter pj mit approximativem Konfidenzniveau (1 − α/10) = 0.995. Dabei verwenden √ √ wir die Methode von Wilson. Und zwar ist c := Φ−1 (1 − α/(2K))/ n = Φ−1 (0.9975)/ 262 ≈ 0.1734. Die Vertrauensintervalle " # p h i 2 /2 ± c p 2 /4 p b + c b (1 − p b ) + c j j j b aj , bbj = 1 + c2 sehen dann wie folgt aus: xj b aj bbj 0 0.012 0.077 1 0.008 0.066 2 0.021 0.097 3 0.076 0.190 4 0.056 0.159 5 0.050 0.150 6 0.064 0.172 7 0.198 0.350 8 0.104 0.229 9 0.034 0.122 Insbesondere kann man mit einer Sicherheit von ca. 95% behaupten, dass die Wahrscheinlichkeiten der Ziffern 0, 1, 2 kleiner und diejenigen der Ziffern 7, 8 größer sind als 0.1. 6.6. VERGLEICHE ZWEIER STICHPROBEN 201 Ein zweites alternatives Verfahren. Wie zu Anfang erwähnt, gibt es Situationen, in denen man untermauern möchte, dass die Parameter pj recht nahe an den vorgegebenen Parametern poj sind, selbst wenn es vielleicht kleine Abweichungen gibt. In dieser Situation könnte man ebenfalls das zuletzt beschriebene alternative Verfahren verwenden. Dieses lässt sich aber noch wie folgt verfeinern: Für 1 ≤ j ≤ K sei e aj = e aj (Daten) eine untere (1 − α/K)–Vertrauensschranke für e e pj , und bj = bj (Daten) sei eine obere (1 − α/K)–Vertrauensschranke für pj . Dann ist h i h i b aj , bbj := min(e aj , poj ), max(ebj , poj ) ein (1 − α/K)–Konfidenzintervall für pj . Durch diesen Trick spart man sich das sonst notwendige Halbieren von α bei der Kombination einer unteren und einer oberen Schranke; siehe auch die Übungen. Man erhält dabei ein Konfidenzintervall, welches den Wert poj garantiert enthält. 6.6 Vergleiche zweier Stichproben Gegeben sei ein Datensatz mit reellwertigen Daten X1 , X2 , . . . , Xm sowie Y1 , Y2 , . . . , Yn . Nun geht es um folgende Fragen: • Sind die X–Werte tendenziell größer als die Y –Werte? (Einseitige Fragestellung.) • Sind die X–Werte tendenziell kleiner als die Y –Werte? (Einseitige Fragestellung.) • Gibt es systematische Unterschiede zwischen den X– und Y –Werten? (Zweiseitige Fragestellung.) Dabei unterscheiden wir zwischen zwei Situationen, was die Modellierung unserer Daten anbelangt: • “Verbundene Stichproben (paired samples)”. • “Freie/unabhängige Stichproben (independent samples)”. (Diese Bezeichnungen sind historisch entstanden und rückblickend etwas ungeschickt gewählt.) 6.6.1 “Verbundene Stichproben” Gegeben ist ein Datensatz mit m = n Beobachtungen und zwei numerischen Variablen X und Y , die miteinander verwandt sind. Hier zwei typische Beispiele für diese Situation: • Für Versuchsperson Nr. i ist Xi ein physiologischer Parameter (z.B. Blutdruck, Gewicht, Pulsfrequenz, . . . ) vor einer bestimmten Behandlung (z.B. Medikament, Diät, Trainingseinheit, . . . ). Nach der Behandlung wird der Parameter erneut gemessen, und man erhält den Wert Yi für Person Nr. i. Die Frage ist, ob die Behandlung den Parameter nachweislich beeinflusste. • In einer Kohortenstudie mit n Haushalten seien Xi und Yi die Jahreseinkommen von Haushalt Nr. i im Jahre 2000 bzw. 2003 (inflationsbereinigt). Die Frage ist, ob sich die Einkommen in 202 KAPITEL 6. TESTS diesem Zeitraum nachweislich verändert haben. An Stelle der Jahreseinkommen sind mitunter auch die Ausgaben für bestimmte Konsumgüter von Interesse. Bei den nun beschriebenen Verfahren betrachten wir die Differenzen Zi := Xi − Yi . Konfidenzschranken für die mittlere Differenz∗ . Betrachtet man die Differenzen Zi als unabhängige und identisch verteilte Zufallsgrößen mit unbekanntem Mittelwert µ und unbekannter Standardabweichung σ, dann bieten sich Konfidenzschranken für den Mittelwert mit Hilfe der Student–Methode an. Je nach Fragestellung sollte man eine untere oder eine obere Schranke oder ein Vertrauensintervall für µ berechnen, also SZ SZ SZ Z̄ − √ tn−1;1−α , Z̄ + √ tn−1;1−α bzw. Z̄ ± √ tn−1;1−α/2 . n n n Wilcoxons Signed–Rank–Test. Dieser Test hat den Vorteil, dass er unter minimalen Modellannahmen anwendbar ist. Die Nullhypothese, dass es keine systematischen Unterschiede zwischen X– und Y –Werten bestehen, wird wie folgt beschrieben: Nullhypothese Ho : Seien ξ1 , ξ2 , . . . , ξn ∈ {−1, 1} rein zufällig und von den Daten unabhängig gewählte Vorzeichen. Dann ist der Differenzenvektor Z1 sign(Z1 )|Z1 | Z2 sign(Z2 )|Z2 | = .. .. . . sign(Zn )|Zn | Zn genauso verteilt wie der Zufallsvektor ξ1 |Z1 | ξ2 |Z2 | .. . . ξn |Zn | Als Testgröße für diese Nullhypothese berechnet man T := n X sign(Zi )Ri . i=1 Dabei sind R1 , R2 , . . . , Rn die Ränge der Zahlen |Z1 |, |Z2 |, . . . , |Zn |, wobei Beobachtungen mit Zi = 0 Rang Null erhalten. Unter der Nullhypothese ist T genauso verteilt wie Te := n X ξi Ri . i=1 Mit Hilfe geeigneter Software erhält man die folgenden P–Werte: links. P–Wert := P Te ≤ T Daten , rechts. P–Wert := P Te ≥ T Daten . 6.6. VERGLEICHE ZWEIER STICHPROBEN 203 Dabei bedeutet P(· | Daten), dass die Daten als feste Größen und nur die Vorzeichen ξi als zufällig betrachtet werden. Nicht alle Softwarepakete bieten diese P–Werte. Manche ersetzen Te durch N X e Te := ξi · i , i=1 wobei N die Anzahl der von Null verschiedenen Differenzen Zi ist. Schließlich kann man noch approximative P–Werte verwenden, die bei großen Zahlen N recht zuverlässig sind: Und zwar suggeriert v u n uX e e Ri2 E(T | Daten) = 0 und Std(T | Daten) = t i=1 die Approximationen v n .u uX Ri2 , links. P–Wert ≈ Φ T t i=1 v n .u uX Ri2 , rechts. P–Wert ≈ Φ −T t i=1 v n .u uX t zweis. P–Wert ≈ 2 · Φ −|T | Ri2 . i=1 Beispiel 6.6 (Vorlesungen als Beruhigungsmittel) In einer Biometrievorlesung ermittelten n = 18 Studierende ihre Pulsfrequenz zu Beginn (Xi ) und gegen Ende des Unterrichts (Yi ). Beide Werte sind die Anzahl von Pulsschlägen in einer Minute. Die Arbeitshypothese war, dass die X– Werte systematisch höher ausfallen würden als die Y –Werte (dass also die Vorlesung beruhigend wirkt). Die Nullhypothese, dass kein systematischer Unterschied zwischen X– und Y –Werten besteht, möchten wir auf dem Niveau von α = 0.05 testen. In Tabelle 6.1 sind die Datenpaare (Xi , Yi ) so angeordnet, dass die Werte |Zi | ansteigen. In der Spalte mit den Rängen sind in Klammern Ränge angegeben, die man ohne Mittelung verteilen würde. Hier ist T = 81. Der entsprechende P–Wert (z.B. ‘StatXact’) ist hier gleich 0.0171. Wir behaupten also mit einer Sicherheit von 95%, dass die Nullhypothese falsch ist (und die Vorlesung beruhigend wirkte). 6.6.2 “Freie/Unabhängige Stichproben” Nun betrachten wir die Situation, dass zwischen den Datenpunkten X1 , X2 , . . . , Xm und Y1 , Y2 , . . . , Yn keine natürliche Zuordnung besteht. Insbesondere müssen m und n nicht identisch sein. Zwei typische Beispiele für diese Situation sind: • Gegeben sei eine Zufallsstichprobe aus einer Population. Für jedes Individuum seien die Werte einer kategoriellen Variable C ∈ {c1 , c2 } (z.B. Geschlecht, Rechts– bzw. Linkshänder, Raucher 204 KAPITEL 6. TESTS Xi 66 78 54 76 80 94 68 64 76 80 64 66 70 80 82 102 74 90 Yi 66 78 56 78 78 90 74 70 70 74 72 58 62 72 72 92 62 78 Zi 0 0 –2 –2 2 4 –6 –6 6 6 –8 8 8 8 10 10 12 12 Ri 0 0 2 2 2 4 6.5 6.5 6.5 6.5 10.5 10.5 10.5 10.5 13.5 13.5 15.5 15.5 (0) (0) (1) (2) (3) (4) (5) (6) (7) (8) (9) (10) (11) (12) (13) (14) (15) (16) sign(Zi ) 0 0 –1 –1 +1 +1 –1 –1 +1 +1 –1 +1 +1 +1 +1 +1 +1 +1 Tabelle 6.1: Datenaufbereitung für Beispiel 6.6. bzw. Nichtraucher, . . . ) und einer numerischen Variable W gegeben. Die Frage ist nun, ob es einen Zusammenhang zwischen C und W gibt. Hier sind X1 , . . . , Xm die Stichpobenwerte von W in der Teilgruppe mit C = c1 , und Y1 , . . . , Yn sind die verbleibenden W –Werte. • Aus zwei verschiedenen Populationen (z.B. Bewohner der Westschweiz bzw. der Ostschweiz) wird jeweils eine Zufallsstichprobe vom Umfang m bzw. n gezogen. Nun interessiert man sich für die Verteilung eines numerischen Merkmals in diesen beiden Populationen. Wilcoxons Rangsummentest. Auch dieser Test ist unter minimalen Modellannahmen anwendbar. Die Nullhypothese, dass keine systematischen Unterschiede zwischen X– und Y –Werten bestehen, kann man formal wie folgt beschreiben: Nullhypothese Ho : Fasst man die m + n Werte Xi und Yj zu einem Tupel (Z1 , Z2 , . . . , Zm+n ) = (X1 , X2 , . . . , Xm , Y1 , Y2 , . . . , Yn ) zusammen (Gesamtstichprobe, pooled sample), dann ist dieses genauso verteilt wie (ZΠ(1) , ZΠ(2) , . . . , ZΠ(m+n) ). Dabei ist (Π(1), Π(2), . . . , Π(m + n)) eine rein zufällige und von den Daten Xi , Yj unabhängige Permutation von (1, 2, . . . , m + n). In Worten besagt diese Nullhypothese: Man könnte die X– und Y –Werte rein zufällig durchmischen und dann erneut in Teilstichproben von m beziehungsweise n Werten aufteilen. Dieser Datensatz wäre genauso verteilt wie der Originaldatensatz. 6.6. VERGLEICHE ZWEIER STICHPROBEN 205 Das Testverfahren. Um nun zu quantifizieren, inwiefern die X–Werte größer sind als die Y – Werte, kann man zunächst die Ränge R1 , R2 , . . . , Rm+n für die Gesamtstichprobe berechnen, und dann summiert man die ersten m Ränge, also die Ränge der X–Werte: T := m X Ri . i=1 Unter der Nullhypothese ist dies genauso verteilt wie Te := m X RΠ(i) , i=1 und E(Te) = m(m + n + 1)/2. Wenn alle Werte in der Gesamtstichprobe verschieden sind, ist Te genauso verteilt wie m X e Te := Π(i), i=1 und es ist p e mn(m + n + 1)/12. Std(Te) ≤ Std(Te) = Approximative P–Werte sind nun gegeben durch T + 0.5 − m(m + n + 1)/2 p links. P–Wertappr. = Φ , mn(m + n + 1)/12 m(m + n + 1)/2 + 0.5 − T p rechtss. P–Wertappr. = Φ , mn(m + n + 1)/12 sowie zweis. P–Wertappr. = 2 · min links. P–Wertappr. , rechtss. P–Wertappr. . Beispiel 6.7 (Vergleich zweier Trainingsmethoden) Eine neue Trainingsmethode für Crossläufer wurde entwickelt und soll nun getestet werden. Dazu teilt man 12 Läufer rein zufällig in zwei gleich große Gruppen ein. Die Läufer in Gruppe 1 absolvieren das herkömmliche Trainingsprogramm, diejenigen in Gruppe 2 das neue. Nach einer gewissen Zeit veranstaltet man ein Wettrennen über eine anspruchsvolle Geländestrecke und erhält folgende Zeiten (in min:sek, gerundet auf 10 sek): Gruppe 1 Gruppe 2 9:40 9:10 11:30 9:30 11:30 9:30 12:20 9:40 13:10 9:50 13:40 12:50 Um die Festlegung der Ränge zu illustrieren, führen wir nun eine zusätzliche Gruppenvariable Gi ∈ {1, 2} ein und sortieren die Werte der Gesamtstichprobe. Dann ergeben sich die Werte und Ränge in Tabelle 6.2. Der Wert der Wilcoxon-Rangsummenstatistik ist gleich der Summe aller R(i) mit G(i) = 1, also T = 51.5. Da wir damit rechnen, dass die neue Trainingsmethode tendenziell zu kürzeren Zeiten führt, berechnen wir nach der obigen Formel den approximativen rechtsseitigen P–Wert, um ihn mit dem Testniveau α = 0.05 zu vergleichen: T + 0.5 − 6 · 13/2 = Φ(−1.9215) = 0.0273. rechtss. P–Wertappr. = Φ − p 6 · 6 · 13/12 Da dies kleiner als α = 0.05 ist, behaupten wir mit einer Sicherheit von 95%, dass die neue Trainingsmethode den gewünschten Effekt hat. 206 KAPITEL 6. TESTS Z(i) 9:10 9:30 9:30 9:40 9:40 9:50 11:30 11:30 12:20 12:50 13:10 13:40 R(i) 1 2.5 2.5 4.5 4.5 6 7.5 7.5 9 10 11 12 (1) (2) (3) (4) (5) (6) (7) (8) (9) (10) (11) (12) G(i) 2 2 2 2 1 2 1 1 1 2 1 1 Tabelle 6.2: Datenaufbereitung für Beispiel 6.7. 6.7 Tests auf Korrelation Zuletzt betrachten wir einen Datensatz mit zwei numerischen oder ordinalen Variablen X und Y . Die Frage ist, ob es zwischen diesen beiden Variablen einen echten Zusammenhang gibt. Als Teststatistik verwenden wir den Rangkorrelationskoeffizienten nach Spearman: Pn 2 i=1 RXi RYi − n(n + 1) /4 T = r P ; Pn n 2 2 2 2 i=1 RXi − n(n + 1) /4 i=1 RYi − n(n + 1) /4 siehe Abschnitt 2.4.3. Die Nullhypothese, dass zwischen X– und Y –Werten kein echter Zusammenhang besteht, kann man genauso wie in Abschnitt Chi2-Test fuer Kontingenztafeln beschrei√ ben. Unter dieser Nullhypothese ist n − 1 T approximativ standardnormalverteilt. Hieraus ergeben sich die approximativen P–Werte rechtss. P–Wertappr. zweis. P–Wertappr. √ n − 1T , √ = Φ − n − 1T , √ = 2 · Φ − n − 1 |T | . links. P–Wertappr. = Φ Dies ist übrigens die nachträgliche Begründung für die grobe Faustregel, dass man im Falle von √ n − 1 |T | ≥ 2 mit einer Sicherheit von ca. 95% von einem echten Zusammenhang zwischen X– und Y –Werten ausgehen kann. Anhang A Tabellen Die Standardnormalverteilungsfunktion Φ(s + t) (auf 5 Nachkommastellen) t s 0.0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1.0 1.1 1.2 1.3 1.4 1.5 1.6 1.7 1.8 1.9 2.0 2.1 2.2 2.3 2.4 2.5 2.6 2.7 2.8 2.9 3.0 3.1 3.2 3.3 3.4 0.00 .50000 .53983 .57926 .61791 .65542 .69146 .72575 .75804 .78814 .81594 .84134 .86433 .88493 .90320 .91924 .93319 .94520 .95543 .96407 .97128 .97725 .98214 .98610 .98928 .99180 .99379 .99534 .99653 .99744 .99813 .99865 .99903 .99931 .99952 .99966 0.01 .50399 .54380 .58317 .62172 .65910 .69497 .72907 .76115 .79103 .81859 .84375 .86650 .88686 .90490 .92073 .93448 .94630 .95637 .96485 .97193 .97778 .98257 .98645 .98956 .99202 .99396 .99547 .99664 .99752 .99819 .99869 .99906 .99934 .99953 .99968 0.02 .50798 .54776 .58706 .62552 .66276 .69847 .73237 .76424 .79389 .82121 .84614 .86864 .88877 .90658 .92220 .93574 .94738 .95728 .96562 .97257 .97831 .98300 .98679 .98983 .99224 .99413 .99560 .99674 .99760 .99825 .99874 .99910 .99936 .99955 .99969 0.03 .51197 .55172 .59095 .62930 .66640 .70194 .73565 .76730 .79673 .82381 .84849 .87076 .89065 .90824 .92364 .93699 .94845 .95818 .96638 .97320 .97882 .98341 .98713 .99010 .99245 .99430 .99573 .99683 .99767 .99831 .99878 .99913 .99938 .99957 .99970 0.04 .51595 .55567 .59483 .63307 .67003 .70540 .73891 .77035 .79955 .82639 .85083 .87286 .89251 .90988 .92507 .93822 .94950 .95907 .96712 .97381 .97932 .98382 .98745 .99036 .99266 .99446 .99585 .99693 .99774 .99836 .99882 .99916 .99940 .99958 .99971 207 0.05 .51994 .55962 .59871 .63683 .67364 .70884 .74215 .77337 .80234 .82894 .85314 .87493 .89435 .91149 .92647 .93943 .95053 .95994 .96784 .97441 .97982 .98422 .98778 .99061 .99286 .99461 .99598 .99702 .99781 .99841 .99886 .99918 .99942 .99960 .99972 0.06 .52392 .56356 .60257 .64058 .67724 .71226 .74537 .77637 .80511 .83147 .85543 .87698 .89617 .91309 .92785 .94062 .95154 .96080 .96856 .97500 .98030 .98461 .98809 .99086 .99305 .99477 .99609 .99711 .99788 .99846 .99889 .99921 .99944 .99961 .99973 0.07 .52790 .56749 .60642 .64431 .68082 .71566 .74857 .77935 .80785 .83398 .85769 .87900 .89796 .91466 .92922 .94179 .95254 .96164 .96926 .97558 .98077 .98500 .98840 .99111 .99324 .99492 .99621 .99720 .99795 .99851 .99893 .99924 .99946 .99962 .99974 0.08 .53188 .57142 .61026 .64803 .68439 .71904 .75175 .78230 .81057 .83646 .85993 .88100 .89973 .91621 .93056 .94295 .95352 .96246 .96995 .97615 .98124 .98537 .98870 .99134 .99343 .99506 .99632 .99728 .99801 .99856 .99896 .99926 .99948 .99964 .99975 0.09 .53586 .57535 .61409 .65173 .68793 .72240 .75490 .78524 .81327 .83891 .86214 .88298 .90147 .91774 .93189 .94408 .95449 .96327 .97062 .97670 .98169 .98574 .98899 .99158 .99361 .99520 .99643 .99736 .99807 .99861 .99900 .99929 .99950 .99965 .99976 208 ANHANG A. TABELLEN Einige Student–Quantile (auf 4 Nachkommastellen aufgerundet) k tk;0.9 tk;0.95 tk;0.975 tk;0.99 tk;0.995 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 39 40 49 50 59 60 69 70 79 80 89 90 99 100 ∞ 1.8857 1.6378 1.5333 1.4759 1.4398 1.4150 1.3969 1.3831 1.3722 1.3635 1.3563 1.3502 1.3451 1.3407 1.3368 1.3334 1.3304 1.3278 1.3254 1.3232 1.3213 1.3195 1.3179 1.3164 1.3150 1.3138 1.3126 1.3115 1.3105 1.3037 1.3031 1.2991 1.2988 1.2961 1.2959 1.2940 1.2938 1.2924 1.2923 1.2912 1.2911 1.2902 1.2901 1.2816 2.9200 2.3534 2.1319 2.0151 1.9432 1.8946 1.8596 1.8332 1.8125 1.7959 1.7823 1.7710 1.7614 1.7531 1.7459 1.7397 1.7341 1.7292 1.7248 1.7208 1.7172 1.7139 1.7109 1.7082 1.7057 1.7033 1.7012 1.6992 1.6973 1.6849 1.6839 1.6766 1.6760 1.6711 1.6707 1.6673 1.6670 1.6644 1.6642 1.6622 1.6620 1.6604 1.6603 1.6449 4.3027 3.1825 2.7765 2.5706 2.4470 2.3647 2.3061 2.2622 2.2282 2.2010 2.1789 2.1604 2.1448 2.1315 2.1200 2.1099 2.1010 2.0931 2.0860 2.0797 2.0739 2.0687 2.0639 2.0596 2.0556 2.0519 2.0485 2.0453 2.0423 2.0227 2.0211 2.0096 2.0086 2.0010 2.0003 1.9950 1.9945 1.9905 1.9901 1.9870 1.9867 1.9843 1.9840 1.9600 6.9646 4.5408 3.7470 3.3650 3.1427 2.9980 2.8965 2.8215 2.7638 2.7181 2.6810 2.6504 2.6245 2.6025 2.5835 2.5670 2.5524 2.5395 2.5280 2.5177 2.5084 2.4999 2.4922 2.4852 2.4787 2.4727 2.4672 2.4621 2.4573 2.4259 2.4233 2.4049 2.4033 2.3913 2.3902 2.3817 2.3809 2.3745 2.3739 2.3690 2.3685 2.3647 2.3643 2.3264 9.9249 5.8410 4.6041 4.0322 3.7075 3.4995 3.3554 3.2499 3.1693 3.1059 3.0546 3.0123 2.9769 2.9468 2.9208 2.8983 2.8785 2.8610 2.8454 2.8314 2.8188 2.8074 2.7970 2.7875 2.7788 2.7707 2.7633 2.7564 2.7500 2.7080 2.7045 2.6800 2.6778 2.6618 2.6603 2.6490 2.6480 2.6396 2.6387 2.6323 2.6316 2.6265 2.6259 2.5759 209 Einige χ2 –Quantile (auf 3 Nachkommastellen gerundet) k χ2k;0.01 χ2k;0.025 χ2k;0.05 χ2k;0.1 χ2k;0.9 χ2k;0.95 χ2k;0.975 χ2k;0.99 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 39 40 49 50 59 60 69 70 79 80 89 90 99 100 0.000 0.020 0.114 0.297 0.554 0.872 1.239 1.646 2.087 2.558 3.053 3.570 4.106 4.660 5.229 5.812 6.407 7.014 7.632 8.260 8.897 9.542 10.195 10.856 11.523 12.198 12.878 13.564 14.256 14.953 21.426 22.164 28.940 29.706 36.698 37.484 44.639 45.441 52.724 53.540 60.928 61.754 69.229 70.064 0.000 0.050 0.215 0.484 0.831 1.237 1.689 2.179 2.700 3.246 3.815 4.403 5.008 5.628 6.262 6.907 7.564 8.230 8.906 9.590 10.282 10.982 11.688 12.401 13.119 13.843 14.573 15.307 16.047 16.790 23.654 24.433 31.554 32.357 39.661 40.481 47.924 48.757 56.308 57.153 64.793 65.646 73.361 74.221 0.003 0.102 0.351 0.710 1.145 1.635 2.167 2.732 3.325 3.940 4.574 5.226 5.891 6.570 7.260 7.961 8.671 9.390 10.117 10.850 11.591 12.338 13.090 13.848 14.611 15.379 16.151 16.927 17.708 18.492 25.695 26.509 33.930 34.764 42.339 43.187 50.879 51.739 59.522 60.391 68.249 69.126 77.046 77.929 0.015 0.210 0.584 1.063 1.610 2.204 2.833 3.489 4.168 4.865 5.577 6.303 7.041 7.789 8.546 9.312 10.085 10.864 11.650 12.442 13.239 14.041 14.847 15.658 16.473 17.291 18.113 18.939 19.767 20.599 28.195 29.050 36.818 37.688 45.576 46.458 54.438 55.328 63.379 64.277 72.387 73.291 81.449 82.358 2.706 4.606 6.252 7.780 9.237 10.645 12.018 13.362 14.684 15.988 17.276 18.550 19.812 21.065 22.308 23.542 24.770 25.990 27.204 28.412 29.616 30.814 32.007 33.197 34.382 35.564 36.742 37.916 39.088 40.257 50.660 51.806 62.038 63.168 73.279 74.398 84.418 85.528 95.477 96.579 106.469 107.566 117.407 118.499 3.842 5.992 7.815 9.488 11.071 12.592 14.068 15.508 16.919 18.308 19.676 21.027 22.363 23.685 24.996 26.297 27.588 28.870 30.144 31.411 32.671 33.925 35.173 36.416 37.653 38.886 40.114 41.338 42.557 43.773 54.573 55.759 66.339 67.505 77.931 79.082 89.392 90.532 100.749 101.880 112.022 113.146 123.226 124.343 5.024 7.378 9.349 11.144 12.833 14.450 16.013 17.535 19.023 20.484 21.921 23.337 24.736 26.119 27.489 28.846 30.192 31.527 32.853 34.170 35.479 36.781 38.076 39.365 40.647 41.924 43.195 44.461 45.723 46.980 58.121 59.342 70.223 71.421 82.118 83.298 93.857 95.024 105.473 106.629 116.990 118.136 128.422 129.562 6.635 9.211 11.345 13.277 15.087 16.812 18.476 20.091 21.666 23.210 24.725 26.217 27.689 29.142 30.578 32.000 33.409 34.806 36.191 37.567 38.933 40.290 41.639 42.980 44.315 45.642 46.963 48.279 49.588 50.893 62.429 63.691 74.920 76.154 87.166 88.380 99.228 100.426 111.145 112.329 122.943 124.117 134.642 135.807 λ λk exp(−λ) k! {0, 1, 2, . . .} Poiss(λ) (1 − p)k−1 p Geom(p) np nL N L N −L . N n k n−k n k p (1 − p)n−k k {1, 2, 3, . . .} {0, 1, . . . , n} Bin(n, p) E(X) P (X = k) 1 p {0, 1, . . . , n} Hyp(N, L, n) Verteilung von X Wertebereich von X Die wichtigsten diskreten Verteilungen s L n N λ 1−p p √ √ p np(1 − p) L N −n 1− N N −1 Std(X) 210