Statistik II für Wirtschaftswissenschaftler∗ Sommer 2012 Jörn Saß [email protected] FB Mathematik TU Kaiserslautern 20. Juli 2012 ∗ Basierend auf dem Skript von Prof. Dr. Franke Ziel dieses Skriptes ist es, den Verlauf der Vorlesung zu dokumentieren. Dazu werden knapp die wichtigsten Definitionen und Resultate wiedergegeben, wie sie in der Vorlesung präsentiert werden. Für Erklärungen und die zugrunde liegenden Rechnungen sei auf die Vorlesung verwiesen, teiweise auch auf das ausführliche Skript von Herrn Franke. Außerdem werden ausgewählte Grafiken zur Vorlesung zur Verfügung gestellt. Bei den Beispielen ist zu beachten, dass nur in einigen Fällen, zum Beispiel wenn die Beispiele als Aufgaben formuliert sind, auch die Lösungen knapp angegeben sind. Bitte beachten Sie, dass in den Übungen und Klausuren natürlich die ganze Argumentation inklusive aller rechnerischen Zwischenschritte angegeben werden müssen, um überhaupt Punkte auf die Lösung zu erhalten, wie es in Vorlesung und Übung besprochen und geübt wird. Für weitere Details sei auf das Skript von Herrn Franke verwiesen. Inhaltsverzeichnis 1 Numerische und graphische Zusammenfassung quantitativer Daten 1.1 Lageparameter . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1.2 Streuungsparameter . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1.3 Verschiebungs- und Skalierungseigenschaften . . . . . . . . . . . . . . . . 1.4 Box-Plot . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1.5 Histogramme . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1.6 Abhängigkeitsmaße . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1 1 1 2 2 3 4 2 Wahrscheinlichkeitstheoretische Grundlagen 2.1 Ereignisse, Wahrscheinlichkeit, Zufallsgrößen 2.2 Diskrete Verteilungen . . . . . . . . . . . . . . 2.3 Verteilungen mit Dichte . . . . . . . . . . . . . 2.4 Wichtige Verteilungen mit Dichte . . . . . . . 2.5 Verteilungsfunktion . . . . . . . . . . . . . . . 2.6 Quantile . . . . . . . . . . . . . . . . . . . . . . 2.7 Erwartungswert und Varianz . . . . . . . . . . 2.8 Näherungsformeln für Wahrscheinlichkeiten . 2.9 Korrelation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5 5 7 9 9 11 12 12 13 14 3 Schätzer für Verteilungsparameter 3.1 Punktschätzer . . . . . . . . . . . . . . . . 3.2 Vergleich verschiedener Schätzverfahren 3.3 Konfidenzintervalle . . . . . . . . . . . . . 3.4 Kovarianz und Korrelationsschätzer . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 15 16 16 17 19 . . . . . . . . . . . . 4 Lineare Regression 19 5 Statistische Entscheidungsverfahren (Tests) 5.1 Testen von Hypothesen: Grundlagen, Gauß-Test . . . . . . . . . 5.2 Einstichproben t-Test . . . . . . . . . . . . . . . . . . . . . . . . . 5.3 Vergleich des Mittelwertes zweier normalverteilter Stichproben 5.4 Test für die Varianz normalverteilter Daten . . . . . . . . . . . . ii . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 20 20 22 23 24 5.5 5.6 5.7 5.8 Tests auf Unabhängigkeit normalverteilter Daten . . . . Chi-Quadrat-Anpassungstest . . . . . . . . . . . . . . . . . Kontingenztafeln und Chi-Quadrat-Unabhängigkeitstest Binomial- und Vorzeichentests . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 25 26 29 30 Literatur [Bo] G. Bourier (2006): Wahrscheinlichkeitsrechnung und schließende Statistik: Eine praxisorientierte Einführung. 5. Aufl. Gabler Verlag. [Fr] J. Franke: Grundzüge der Statistik. Skript zu Statistik II für Wirtschaftsingenieure. [LW] J. Lehn, H. Wegmann (2006): Einführung in die Statistik. 5. Aufl. Teubner. [MM] S. Mittnik, M. Missong (2005): Induktive Statistik. Quantitative Wirtschaftsforschung. Schriftenreihe zu Statistik und Ökonometrie. Pro Business. [MS] K. Mosler, F. Schmid (2006, ): Wahrscheinlichkeitsrechnung und schließende Statistik. 2. Aufl. Springer. iii 1 Numerische und graphische Zusammenfassung quantitativer Daten Beobachtet werde ein Datensatz (Stichprobe) x1 , . . . , xN ∈ IR mit Stichprobenumfang N . Die Ordungsstatistiken x(1) ≤ x(2) ≤ . . . ≤ x(N ) sind die der Größe nach sortierten Daten. 1.1 Beispiel. Hauspreise (Stand 2009) in Kaiserslautern über 200 m2 und mit mindestens 7 Zimmern (in 1000 e): 300, 1.1 660, 269, 198, 349, 1600, 365, 950, 299, 298, 750. Lageparameter Ein Lageparameter gibt an, wo sich die Daten auf der reellen Zahlengeraden befinden. Wichtige Lageparameter sind: (i) Stichprobenmittel ( auch Mittelwert) xN = 1 1 N ∑ xi = (x1 + ⋯ + xN ). N i=1 N In Beispiel 1.1 ist x11 = 548.9. Lässt man den größten Wert (1600) weg, so ergibt sich nur x10 = 443.8. Beachte also, dass xN zwar gut zu berechnen ist, aber dass anfällig für Ausreißer ist. (i) Stichprobenmedian (auch mittlerer Wert) ẋN = { x(m+1) 1 (x(m) 2 , + x(m+1) ), falls falls N = 2m + 1 N = 2m Im Beispiel 1.1 ist ⋅x11 = 349. Lässt man den größten Wert (1600) weg, so ergibt ist ⋅x10 = 324.5. 1.2 Streuungsparameter Ein Streuungsparameter ist ein Maß für die Größe des Bereichs, über den die Daten verteilt sind. Wichtige Streuungsparameter sind. (i) Stichprobenstandardabweichung sN ¿ Á À =Á 1 N ∑(xi − xN )2 . N − 1 i=1 Das Quadrat der Stichprobenstandardabweichung, also s2N , heißt Stichprobenvarianz, beschreibt die mittlere quadratische Abweichung vom Stichprobenmittel, erfüllt aber nicht die gewünschten Eigenschaften für einen Streuungsparameter im folgenden Abschnitt. Daher betrachtet man die Stichprobenstandardabweichung sN , die die Streuung in der gleichen Skala wie die Daten misst. In Beispiel 1.1 ist s11 = 422.0. (ii) Die Spannweite ist dN = x(N ) − x(1) . In Beispiel 1.1 ist d11 = 1402. 1 o u (iii) Ein weiterer Streuungsparameter ist die Viertelweite dvN = vN − vN , gegeben durch u o unterer und oberer Viertelwert vN bzw. vN , die wie folgt berechnet werden können u vN ⎧ x(m) , ⎪ ⎪ ⎪ ⎪ 1 3 ⎪ ⎪ ⎪ x(m) + 4 x(m+1) , = ⎨ 41 ⎪ x + 12 x(m+1) , ⎪ 2 (m) ⎪ ⎪ ⎪ 3 1 ⎪ ⎪ ⎩ 4 x(m) + 4 x(m+1) , falls falls falls falls N + 1 = 4m N + 1 = 4m + 1 N + 1 = 4m + 2 N + 1 = 4m + 3 ⎧ x(3m) , falls N + 1 = 4m ⎪ ⎪ ⎪ ⎪ 1 3 ⎪ ⎪ ⎪ x(3m) + 4 x(3m+1) , falls N + 1 = 4m + 1 o = ⎨ 14 vN ⎪ x + 12 x(3m+2) , falls N + 1 = 4m + 2 ⎪ 2 (3m+1) ⎪ ⎪ ⎪ 3 1 ⎪ ⎪ ⎩ 4 x(3m+2) + 4 x(3m+3) , falls N + 1 = 4m + 3 o u Beachte, dass es für vN und vN und damit für dvN in der Literatur unterschiedliche Definitionen gibt, die alle ihre Berechtigung haben. Für unsere Definition sind in Beispiel u o 1.1 v11 = 298, v11 = 750 und damit dv11 = 452. 1.3 Verschiebungs- und Skalierungseigenschaften Für Daten x1 , . . . , xN , Lageparameter l aus 1.1 und Streuungsparameter s aus 1.2 sind • l + c und s Lage- bzw. Streuungsparameter für x1 + x, . . . , xN + c für c ∈ IR, • dl und ds Lage- bzw. Streuungsparameter für dx1 , . . . , dxN für d ≥ 0. Beachte, dass die Streuungsparameter in Einheit der Daten sind (die Sticprobenvarianz ist in diesem Sinne kein Streuungsparameter) und immer positiv sind. 1.4 Box-Plot 200 400 600 800 1000 1200 1400 1600 Boxplots dienen zur graphischen Veranschaulichung von Median, Viertel- und Spannweite. Als Ausreißer für die Zeichnung eines Boxplots definieren wir Datenwerte, die um mehr als 0 u 1, 5 dvN oberhalb von vN oder unterhalb von vN liegen. Zur Zeichnung eines Bpxplots siehe die Vorlesung. In Beispiel 1.1 sieht ein Boxplot wie folgt aus: 200 400 600 800 1000 1200 1400 1600 2 1.5 Histogramme Um außer Lage- und Streuungsparametern weitere Eigenschaften des Datensatzes optisch erkennen zu können, kann ma ein Histogramm zeichnen. Dabei unterscheidet man ein • Histogramm der Anzahlen HN (x) = Zn für x ∈ In , n ∈ ZZ, HN (x) = • Histogramm der relativen Häufigkeiten Zn N für x ∈ In , n ∈ ZZ, wobei für Startwert a und Intervallbreite b die Intervalle In definiert sind durch In = (a + (n − 1)b, a + nb] und Zn die Anzahl der Daten bezeichnet, die in Intervall In fallen. Faustregel: Wähle a und b so, dass ẋN etwa in einer Intervallmitte liegt, dass [x(1) , x(N ) ] von 5 bis 20 Intervallen überdeckt wird, und dass N mindestens das 5-fache der Anzahl der nicht-leeren Intervalle ist. Verteilungseigenschaften, die man an einem Histogramm gut erkennen kann, sind • Schiefe der Verteilung: Wir unterscheiden Rechtsschiefe, die typischerweise mit xN >> ẋN einhergeht und Linksschiefe, für die typischerweise xN << ẋN gilt. • Mehrgipfligkeit: Die Verteilung der Daten wird uni-, bi-, mulitmodal genannt, falls in ihr ein, zwei, oder mehr Gipfel beobachtet werden können. 1.2 Beispiel. Aufgabe: Die folgenden Zahlen beschreiben die prozentualen Änderungen des Jahresgewinns von 30 Unternehmen gegenüber dem Vorjahr: 18.2 -13.0 3.6 28.3 10.3 31.1 -34.8 15.1 53.4 -21.8 21.0 -1.6 15.1 -9.9 17.4 10.6 26.0 17.2 -1.5 -1.0 24.6 -13.8 10.3 20.9 6.1 41.0 2.7 20.4 -13.4 -3.2 (a) Berechnen Sie Stichprobenmittel, -median, -standardabweichung sowie Spann- und Viertelweite. (b) Zeichnen Sie einen Boxplot und ein Histogramm. u o = −2.0, vN = 20.93, dN = 88.2, dvN = 22.93. Ergebnis: (a) N = 30, xN = 9.31, ẋN = 10.45, vN (b) Boxplot: −20 0 20 Histogramme: 3 40 Histogram of sample 10 8 6 Frequency 6 0 0 2 2 4 4 Frequency 8 12 10 14 Histogram of sample −40 −20 0 20 40 60 −40 −20 sample 20 40 60 sample Gutes Histogramm: a = −40, b = 20 1.6 0 Schlechtes Histogramm: a = −50, b = 20 Abhängigkeitsmaße Messen wir an N Objekten jeweils zwei Merkmale, so erhalten wir zwei Datensätze x1 , . . . , xN und y1 , . . . , yN . Gute Abhängigkeitsmaße sind: (i) Stichprobenkovarianz ĉN = (ii) und Stichprobenkorrelation 1 N ∑(xi − xN )(yi − y N ) N − 1 i=1 ρ̂N = ĉN , sN,x sN,y wobei Stichprobenmittelwerte und -standardabweichungen sich wie oben berechnen, d.h. 1 N 1 N ∑ xi , y N = ∑ yi , N i=1 N i=1 ¿ ¿ Á 1 N Á 1 N Á À À sN,x = ∑(xi − xN )2 , sN,y = Á ∑(yi − y N )2 . N −1 i=1 N −1 i=1 xN = Beachte: • Man kannzeigen, dass ∣ĉN ∣ ≤ sN,x sN,y , also hat die Stichprobenkorrelation ρ̂N stets Werte zwischen -1 und 1. • Liegt ρ̂N dicht bei 1, so spricht man von postiver Korrelation der Daten. ρ̂N = 1 gilt genau dann, wenn yi = axi + b für alle i, für ein a > 0, b ∈ IR gilt. • Liegt ρ̂N dicht bei -1, so spricht man von negativer Korrelation. ρ̂N = −1 gilt genau dann, wenn yi = axi + b für alle i, für ein a < 0, b ∈ IR gilt. • Ist ρ̂N sehr dicht“ bei 0, so spricht man von unkorrelierten Daten. ” Die Korrelation zweier Datensätze kann gut durch Scatterplots veranschaulicht werden, bei denen in ein Koordinatensystem die Paare (xi , yi , i = 1, . . . , N eingetragen werden. Zum Beispiel zeigen die folgenden Scatterplots für zwei Datensätze mit Korrelation 0.2 (links) und mit Korrelation -0.9 (rechts): 4 y y 12 12 11 11 10 10 9 9 8 8 4 3 5 6 x 7 4 3 5 x 7 6 1.3 Beispiel. Aufgabe: Umsatz (xi , in Mrd e) und Beschäftigungszahl (yi , in Tausend) für die zehn umsatzstärksten Unternehmen Deutschlands ergaben sich 1995 zu i xi yi 1 2 3 4 5 6 7 8 9 10 52.94 311.0 45.38 373.0 45.06 242.4 37.00 125.2 33.49 135.1 26.67 161.6 25.25 106.6 23.59 115.8 22.79 142.9 21.44 83.8 (a) Bestimmen Sie Stichprobenkovarianz und -korrelation. (b) Wie ändern sich Stichprobenkovarianz und Stichprobenkorrelation, wenn der Umsatz in e angegeben wird? Wie würden sie sich ändern, wenn jedes Unternehmen 100 000 Beschäftigte mehr hätte? (c) Vertauschen Sie die Beschäftigtenzahlen jeweils so, dass sich eine Stichprobenkorrelation von nahezu -1, von nahezu 1, oder von ca. 0 ergibt. Ergebnis: (a) ĉN = 921.3, ρ̂N = 0.849. (b) ĉN = 921.3 ⋅ 109 , ρ̂N = 0.849 für Umsätze in e. Keine Änderung bei Erhöhung der Beschäftigtenzahl. (c) Viele Möglichkeiten, ausprobieren. 2 Wahrscheinlichkeitstheoretische Grundlagen 2.1 Ereignisse, Wahrscheinlichkeit, Zufallsgrößen Beispiele zufälliger Ereignisse“ sind Ergebnisse von Glücksspielen, Zusammensetzung von ” Stichproben, WEttervorhersagen, Aktienkurse und atomarer Zerfall. Bei einem Zufallsexperiment ist bekannt, welche Ergebnisse möglich sind, aber unbekannt, welche eintreten werden. Die Erfahrung zeigt, dass die relative Häufigkeit von Ereignissen sich bei mehrmaliger Beobachtung stabilisieren, z.B. beim Münzwurf. Bewährt hat sich, wie im Folgenden axiomatisch mit der Definition eines Wahrscheinlichkeitsraumes zu starten, der auch geeignete Rechenregeln für Wahrscheinlichkeiten umfasst. Die Erfahrung lehrt aber, dass es dann sinnvoll ist, dem Ergebnis Kopf“ eine Wahrscheinlichkeit 21 zuzuordnen. ” 2.1 Definition. Ein Wahrscheinlichkeitsraum (Ω, A, P ) besteht aus • Ergebnismenge Ω. Ein Element ω ∈ Ω wird als Ergebnis eines Zufallsexperiments interpretiert. Ω sollte alle Ergebnisse umfassen, die in dem Experiment möglich sind. • Menge von Ereignissen A. Ein Ereignis A ist geeignete Teilmenge von Ω, d.h. A ⊆ Ω. • Wahrscheinlichkeit P , die jedem Ereignis A seine Wahrscheinlichkeit zuordnet. 2.1 Bemerkung. Ist Ω endlich, so kann stets die Potenzmenge P(Ω) als Ereignissystem A gewählt werden. P(Ω) beinhaltet alle Teilmengen von Ω. Ist Ω nicht endlich (r.B. = IR), so muss man gewisse patholgische Mengen ausschließen (das führt in der Mathematik zum Begriff der σ-Algebra). Diese patholgischen Mengen sind aber nur schwer konstruierbar und werden uns in der Praxis nicht begegnen. 5 2.1 Beispiel. (a) Einfacher Münzwurf. (b) Einfacher Würfelwurf. (c) Zweifacher Würfelwurf. Ereignisse und ihre Verknüpfung Spezialfälle von Ereignissen sind: Elementarereignis {ω} für ω ∈ Ω, sicheres Ereignis Ω, unmögliches Ereignis ∅. Verknüpfungen von Ereignissen sind • A und B“: A ∩ B (Durchschnitt) ” • A oder B“: A ∪ B (Vereinigung) ” • A, aber nicht B“: A ∖ B (A ohne B) ” • Gegenereignis, nicht A“: Ac = Ω ∖ A (Komplement von A) ” • A, B schließen sich aus“: A ∩ B = ∅ (A und B sind disjunkt) ” Es gibt weitere Rechenregeln, wie z.B. die De-Morgan Gesetze: (A ∪ B)c = Ac ∩ B c , B)c = Ac ∪ B c . (A ∩ Wahrscheinlichkeit Die Wahrscheinlichkeit P ∶ A → [0, 1] ist eine Funktion, die jedem Ereignis A seine Wahrscheinlichkeit P (A) zuordnet. Es gelten für alle Ereignisse A, B, A1 , A2 , . . . die Rechenregeln • P (A) ≥ 0, P (∅) = 0, P (Ω) = 1 • P (A1 ∪ A2 ∪ . . .) = P (A1 ) + P (A2 ) + . . ., • P (A ∪ B) = P (A) + P (B) − P (A ∩ B) • P (Ac ) = 1 − P (A) falls Ai ∩ Aj = ∅ für alle i =/ j • P (A) ≤ P (B), falls A ⊆ B 2.2 Beispiel. Aufgabe: (a) Berechnen Sie die Wahrscheinlichkeit, dass in einer Gruppe von k zufällig ausgewählten Personen mindestens zwei am selben Tag Geburtstag haben (1 Jahr = 365 Tage, Geburtsjahre dürfen verschieden sein). (b) Wieviel Personen müssen mindestens gewählt werden, damit die Wahrscheinlichkeit in (a) größer als 50% ist? Ergebnis: (a) 1− 365⋅364⋅...⋅(365−k+1) 365k = 1 365! . 365k (365−k)! (b) 23. Zufallsgrößen Oft interessiert uns nicht so sehr, ob ein ganz spezielles Ergebins ω eingetreten ist (z.B. 6“ ” in Würfelwurf 1, 3, 4 von 6 Würfen), sondern nur, ob ein bestimmter WErt X(ω) vorliegt (z.B. drei 6“ in 6 Würfen). ” 2.2 Definition. (i) Eine Zufallsgröße X mit Werten in einer Menge X ist eine Abbildung X ∶ Ω → X. 6 (ii) Die Verteilung PX einer Zufallsgröße X gibt die Wahrscheinlichkeit dieser Ereignisse an und ist definiert durch PX (B) = P ({X ∈ B}) für alle geeigneten Teilmengen B ⊆ X (geeignet = nicht pathologisch, siehe oben). Dabei bezeichnet {X ∈ B} = {ω ∈ Ω ∶ X(ω) ∈ B}. Interpretation: Bei Beobachtung des Wertes (der Realisation) von X in einem Zufallsexperiment, kann entschieden werden, ob ein Ereignis der Form {X ∈ B} = {ω ∈ Ω ∶ X(ω) ∈ B} eingetreten ist. Weitere Notationen: Z.B. {X ≤ x} = {X ∈ (−∞, x]}; wir schreiben auch P (X ≤ x) für P ({X ≤ x}) und P (X ∈ B) für P ({X ∈ B}. 2.3 Beispiel. Augensumme bei zweifachem Würfelwurf als Zufallsgröße. Häufig genügt es, die Verteilung von X zu kennen, ohne sich auf den zugrundeliegenden Wahrscheinlichkeitsraum zu beziehen. 2.2 Diskrete Verteilungen (i) Binomialverteilung Eine Zufallsgröße X mit Werten in {0, 1, . . . , n} heißt binomialverteilt mit Erfolgswahrscheinlichkeit p ∈ [0, 1], falls n P (X = k) = ( )pk (1 − p)n−k , k k = 0, 1, . . . , n. Schreibweise: X ∼ B(n, p). Interpretation: n unabhängige Zufallsexperimente mit Ausgang Erfolg/Misserfolg, p Erfolgswahrscheinlichkeit in einem Experiment, X Anzahl der Erfolge. Anwendung z.B. Stichprobenziehung mit Zurücklegen: N Objekte, M davon mit MErkmal E, X Anzahl der gezogenen . Objekte mit Merkmal E, p = M N Dabei gilt für den Binomialkoeffizienten n n! n(n − 1) . . . 1 n(n − 1 . . . (n − k + 1) ( )= = = . k k! (n − k)! (k(k − 1) . . . 1)((n − k)(n − k − 1) . . . 1) k(k − 1) . . . 1 (nk) gibt die Anzahl der Möglichkeiten an, k Objekte aus n verschiedenartigen Objekten auszuwählen (oder k Einsen auf n Stellen zu verteilen). 2.4 Beispiel. Binomialmodell für Aktienkurse für n Perioden und Parameter u = eσ/ √ n für σ = 0.4 und a = 0.1. , d = u−1 , 7 p= a 1 (1 + √ ) 2 σ n 160 115 stock prices 120 140 110 105 100 stock prices 95 100 90 85 0.0 0.2 0.4 0.6 0.8 1.0 0.0 0.2 time 0.4 0.6 0.8 1.0 time Ein Kursverlauf im 6-Periodenmodell Ein Kursverlauf im 250-Periodenmodell (ii) Hypergeometrische Verteilung Für n, M ≤ N heißt eine Zufallsgröße X mit Werten in {0, 1, . . . , min{n, M }} hypergeometrisch verteilt, falls P (X = k) = Schreibweise: X ∼ H(n, M, N ). −M (M )(Nn−k ) k (N ) n k = 0, 1, . . . , min{n, M }. , Interpretation: N Objekte, M davon mit bestimmten Merkmal E, n Stichprobengröße, X Anzahl der gezogenen Objekte mit Merkmal E. (Stichprobe ohne Zurücklegen). Anwendung z.B. bei Qualitätskontrolle, Meinungsumfragen mit wenigen Personen (bei mehr Personen ist die Binomialverteilung eine gute Näherung, siehe unten). 2.5 Beispiel. Lottozahlen. (iii) Poissonverteilung Eine Zufallsgröße X mit Werten in {0, 1, 2, . . .} heißt Poisson-verteilt mit Parameter λ > 0, falls λk −λ P (X = k) = e , k = 0, 1, 2, . . . . k! Schreibweise: X ∼ P (λ) oder X ∼ P oi(λ). Interpretation: X Anzahl pro Zeitintervall eines in unregelmäßigen Abständen auftretenden Ereignisses, λ mittlere Häufigkeit des Ereignisses pro Zeitintervall. Anwendungen: Kunden im Geschäft (Warteschlange), Telefonanrufe pro Stunde bei Hotline. (iv) Gleichverteilung Eine Zufallsgröße X mit Werten in einer endlichen Menge X = {a1 , . . . , am } heißt gleichverteilt oder Laplace-verteilt, falls P (X = ai ) = Dann berechnen sich PX (B) = P (X ∈ B) = 1 , m ∣B∣ ∣X ∣ 8 i = 1, . . . , m. für B ⊆ X . (v) Allgemeine diskrete Verteilung Eine Zufallsgröße X heißt diskret (verteilt), falls X Werte in einer höchstens abzählbaren Menge X = {a1 , a2 , . . .} annimmt und für i = 1, 2, . . . gilt Dann gilt für B ⊆ X P (X = ai ) = pi , pi ≥ 0, wobei ∑ pi = 1. ∞ i=1 P (X ∈ B) = ∑ pi . i,ai ∈B Die bisher betrachteten Verteilungen (i) – (iv) sind diskret. 2.3 Verteilungen mit Dichte Für die Modellierung von z.B. Größe, Gewicht, Messfehler benötigen wir Zufallsgrößen XΩ → IR. 2.3 Definition. Eine Zufallsgröße X mit Werten in IR heißt verteilt mit (Wahrscheinlichkeits)Dichte p(x) (oder auch stetige Zufallsgröße), falls für alle nicht pathologischen B ⊆ IR gilt P (X ∈ B) = ∫ p(x)dx, B wobei p(x) ≥ 0, ∫ ∞ −∞ p(x)dx = 1. Insbesondere sind P (a < X < b) = P (a ≤ X ≤ b) = P (X ∈ [a, b]) = ∫a p(x)dx und P (X ≤ x) = x ∫−∞ p(x)dx, . . . . b Beachte, dass jeder Wert a ∈ IR die Wahrscheinlichkeit 0 hat, da P (X = a) = P (X ∈ [a, a]) = ∫ a a gilt. Also gelten auch Aber es gilt P (a ≤ X ≤ b) = P (a < X ≤ b), P (X ∈ [a, a + ∆]) = ∫ a daher die Bezeichnung von p als Dichte. p(x)dx = 0 P (X ≤ b) = P (X < b), a+∆ etc. p(x)dx ≈ p(a)∆, Zum Beispiel heißt X uniform verteilt (oder Rechteck-, gleichverteilt) in [a, b], falls p(x) = 2.4 1 für x ∈ [a, b] b−a und p(x) = 0 sonst.. Wichtige Verteilungen mit Dichte Normalverteilung X heißt normalverteilt mit Parametern µ, σ 2 (oder σ), falls X die Dichte (x−µ)2 1 e− 2σ2 . p(x) = ϕµ,σ2 (x) = √ 2πσ 2 besitzt. Bezeichnung: X ∼ N (µ, σ 2 ). Für µ = 0, σ 2 = 1 heißt X standardnormalverteilt, d.h. X ∼ N (0, 1). Es gelten 9 • Ist Z ∼ N (0, 1), so gilt X = µ + σZ ∼ N (µ, σ 2 ). • Ist X ∼ N (µ, σ 2 ), so gilt Z = X−µ σ ∼ N (0, 1), also Z standard-normalverteilt. Anwendungen sind die Messung von Größen, die von vielen (nichtdominanten) Faktoren abhängen; bei Daten, die symmetrisch um den Wert µ gestreut sind mit mehr Beobachtungen dicht bei µ. Z.B. Messung von Länge, Volumen Gewicht (trotz negativer Werte); Störungen bei der Signalübertragung (Rauschen); Approximation der Binomialverteilung. mu ist ein Lage- und σ ein Streuungsparameter (das sehen wir später genauer). In der folgenden Grafik ist links die Dichte der Normalverteilung N (1, 0.252 ) und rechts von N (1, 0.52 ) gezeichnet: pHxL pHxL 0.8 1.5 1.25 0.6 1 0.4 0.75 0.5 0.2 0.25 Μ-2Σ Μ-Σ Μ Μ+Σ Μ+2Σ 2 x Μ-Σ Μ Μ+Σ Μ+2Σ 2.5 x Die Dichten beider Normalverteilungen finden sich der folgende Grafik (links); auf der rechten Seite ist wieder die Dichte von N (1, 0.252 ) abgebildet (rot) sowie die Dichte einer lognormalverteilter Zufallsgröße (blau) mit etwa gleichem Mittelwert und gleicher Standardabweichung: pHxL pHxL 1.5 1.5 1.25 1.25 1 1 0.75 0.75 0.5 0.5 0.25 -0.5 0.25 0.5 1 1.5 2 2.5 3 x 1 0.5 1.5 2 2.5 3 x (ii) Lognormalverteilung X mit Werten in (0, ∞) heißt lognormalverteilt mit Parametern µ, σ 2 , falls ln(X) ∼ N (µ, σ 2 ). Dann gilt P (a < X ≤ b) = P (ln(a) < ln(X) ≤ ln(b)) = ∫ ln(b) ln(a) ϕµ,σ2 (x)dx. Anwendung: Ereignisse, die sich durch Multiplikation vieler gleichartiger positiver Ereignisse ergeben, z.B. Wachstum von Populationen, Aktienkurse. (iii) Exponentialverteilung X heißt exponentialverteilt mit Parameter λ > 0, falls p(x) = λe−λx für x ≥ 0 und p(x) = 0 für x < 0. Bezeichnung: X ∼ Exp(λ). Anwendung: Wartezeiten bis zum Eintreten eines Ereignisses, z.B. Lebensdauern, Wartezeiten am Schalter. λ ist ein Maß für die Dichte der Ereignisse. 10 (iv) Weibull X heißt Weibull verteilt mit Parametern λ > 0, β > 0, falls X β ∼ Exp(λ). Dann gilt P (a < X ≤ b) = ∫ bβ aβ λe−λx dx. Anwendung: Allgemeineres Modell für Wartezeiten, Verteilung vieler kleiner Schadensfälle. Verallgemeinerung von Exp(λ: • β = 1: Gleich Exp(λ), • β < 1: Ereignisse früher oder später als bei Exp(λ), • β > 1: Ereignisse häufen sich im mittleren Bereich (gut für Lebensdauern), ähnlich wie Lognormalverteilung. Dichten von Exponentialverteilung Exp(2) (links) und von Weibullverteilung mit Paramtern λ = 2 und β < 1 (blau), β = 1 (rot), β > 1 (grün): pHxL pHxL 2 4 1.5 3 1 2 0.5 1 0.5 2.5 1 1.5 2 x 0.5 1 1.5 2 x Verteilungsfunktion 2.4 Definition. Für eine Zufallsgröße X ∶ Ω → X mit Werten X ⊆ IR, heißt F (x) = P (X ≤ x), Verteilungsfunktion von X. x ∈ IR. Es gelten für diskrete X mit pi = P (X = ai ) F (x) = ∑ pi i,ai ≤x und für stetige X mit Dichte p F (x) = ∫ x p(y)dy. −∞ Rechenregeln: F (−∞) = limx→−∞ = 0, F (∞) = limx→∞ = 1, P (X > x) = 1 − F (x), P (a < X ≤ b) = F (b) − F (a). 2.6 Beispiel. (a) Verteilungsfunktion einer Exp(λ)-verteilten Zufallsgröße. (b) Verteilungsfunktion einer standardnormal-verteilten Zufallsgröße: Für X ∼ N (0, 1) schreibe Φ(x) = F (x). Die Werte sind tabelliert für x > 0, nutze Φ(−x) = 1 − Φ(x) für negative Werte. (c) Verteilungsfunktion einer normalverteilten Zufallsgröße: Ist X ∼ N (µ, σ 2 ), so ist Z = X−µ ∼ N (0, 1), also σ P (X ≤ x) = P (Z ≤ 11 x−µ x−µ ) = Φ( ). σ σ 2.6 Quantile 2.5 Definition. Zu gegebener Wahrscheinlichkeit α ∈ (0, 1) ist für stetiges X das α-Quantil qα eindeutig definiert durch α = F (qα ); und für diskretes X istt qα ein α-Quantil, falls P (X < qα ) ≤ α ≤ P (X ≤ qα ). Spezialfälle sind der Median Med(X) = q0,5 , der untere Viertelwert q0,25 und der obere Viertelwert q0,75 . Die Viertelweite ist dann Q(X) = q0,75 − q0,25 . 2.7 Beispiel. (a) Verteilungsfunktion von X ∼ B(2, 0.5). (b) Median einer normalverteilten Zufallsgröße. (c) Value at Risk. 2.8 Beispiel. Aufgabe: Sei X normalverteilt mit Mittelwert µ und Varianz σ 2 . (a) Bestimmen Sie das untere und obere Quartil und die Viertelweite Q(X) in Abhängigkeit von µ und σ. (b) Ab wann würden Realisationen (beobachtete Werte) von X als Ausreißer zählen, wenn wir Ausreißer so festlegten, wie wir es für die Boxplots getan haben? (c) Eine andere gebräuchliche Definition zählt als Ausreißer einer Verteilung jene Werte x, die einen Abstand von mehr als 3σ von µ haben. Macht das für N (µ, σ 2 )-verteiltes X einen großen Unterschied zur Definition in (b)? 2.7 Erwartungswert und Varianz 2.6 Definition. (i) Ist X diskret mit Werten in {a1 , a2 , . . .} und P (X = ai ) = pi , i = 1, 2, . . ., so heißt E(X) = ∑ pi ai ∞ i=1 Erwartungswert von X (auch Mittelwert). Ist X stetig mit Dichte p(x), so E(X) = ∫ ∞ p(x)x dx −∞ Erwartungswert von X (auch Mittelwert). (ii) Für eine Funktion f ∶ IR → IR ist f (X) wieder eine Zufallsgröße, deren Erwartungswert sich (falls er existiert) berechnet zu E(f (X)) = ∑ pi f (ai ) ∞ bzw. E(f (X)) = ∫ ∞ −∞ i=1 p(x)f (x) dx. (iii) Ist X diskret oder stetig, so werden die Varianz Var(X) und die Standardabweichung σ(X) von X definiert durch √ Var(X) = E ((X − E(X))2 ) bzw. σ(X) = Var(X). Rechenregeln und Eigenschaften: Für Zufallsgrößen X, Y und a, b ∈ IR gelten (i) E(aX + bY ) = aE(X) + bE(Y ), wegen E(1) = 1 insbesondere E(aX + b) = aE(X) + b. (ii) Var(aX + b) = a2 Var(X), σ(aX + b) = ∣a∣σ(X). (iii) Var(X) = E(X 2 ) − (E(X))2 . 12 (a) Für X ∼ B(n, p) gelten E(X) = np und Var(X) = n p(1 − p). 2.9 Beispiel. (b) Für X ∼ N (µ, σ) gelten E(X) = µ und Var(X) = σ 2 . Die Erwartungswerte und Varianzen für die bisher betrachteten Verteilungen sind: Verteilung von X E(X) Var(X) binomial B(n, p) np np(1 − p) nM N nM (N −M )(N −n) N 2 (N −1) hypergeometrisch H(n, M, N ) Poisson P (λ) λ uniform in [α, β] λ 1 (β 12 α+β 2 normal N (µ, σ 2 ) σ2 µ lognormal mit (µ, σ 2 ) eµ+ σ2 2 e2µ+ 1 λ exponential Exp(λ) λ− β Γ(1 + β1 ) Weibull mit (λ, β) − α)2 1 σ2 2 (eσ − 1) 2 1 λ2 λ− β (Γ(1 + β2 ) − (Γ(1 + β1 ))2 ) 2 Dabei bezeichnet Γ die Gamma-Funktion, eine Verallgemeinerung der Fakultät. Es gilt Γ(n+ 1) = n! für n = 0, 1, 2, . . .. Die Werte für Γ(x), x ≥ 0, können nachgeschlagen werden. 2.8 Näherungsformeln für Wahrscheinlichkeiten Es gelten ), falls M >> n und N − M >> n. (i) H(n, M, N ) ≈ B(n, M N (ii) B(n, p) ≈ P (np), falls np mittlere Größe, p klein. Faustregel: Gut, falls n ≥ 100, np ≤ 10; befriedigend, falls n ≥ 20, p ≤ 0, 05. (iii) B(n, p) ≈ N (np, np(1 − p)), falls n groß, p nicht zu dicht bei 0 oder 1. Faustregel: np ≥ 5 und n(1 − p) ≥ 5. p(x) 0.0 0.00 0.02 0.1 0.04 0.2 p(x) 0.06 0.3 0.08 0.4 0.10 Approximation einer B(100, 0.2)-verteilten Zufallsgröße (blaue Punkte) durch eine Normalverteilung (gut, links) und Approximation einer B(20, 0.05)-verteilten Zufallsgröße durch eine Normalverteilung (schlecht, rechts): 0 10 20 30 40 0 x 2 4 6 x 13 8 10 Verteilung einer P oi(1)-verteilten Zufallsgröße (links) und einer B(20, 0.05)-verteilten Zufallsgröße (rechts): pk pk 0.35 0.35 0.3 0.3 0.25 0.25 0.2 0.2 0.15 0.15 0.1 0.1 0.05 0.05 0 1 2 4 3 5 6 7 8 9 10 11 12 k 0 1 2 3 4 5 6 7 8 9 10 11 12 k Unabhängigkeit 2.7 Definition. falls (i) N Zufallsgrößen X1 , . . . , XN mit Werten in X heißen unabhängig, P (X1 ∈ A1 , . . . , XN ∈ AN ) = P (X1 ∈ A1 ) ⋅ . . . ⋅ P (XN ∈ AN ) für alle nicht-pathologischen Teilmengen A1 , . . . , AN ⊆ X gilt. (ii) X1 , . . . , XN heißen unabhängig identisch verteilt (u.i.v.), falls sie unabhängig sind und zusätzlich alle die gleiche Verteilung besitzen. Modellvorstellung in (ii): Unabhängige“, gleichartige Experimente. ” Rechenregeln: Sind X1 , . . . , XN unabhängige Zufallsgrößen mit Werten in IR und existierenden Erwartungswerten und Varianzen, so gelten E(X1 ⋅ . . . ⋅ XN ) = E(X1 ) ⋅ . . . ⋅ E(XN ) 2.10 Beispiel. N und Var(X1 + . . . + XN ) = ∑ Var(Xn ). n=1 (a) Summe unabhängiger identisch Bernoulli-verteilter Zufallsgrößen. (b) Summe unabhängiger normalverteilter Zufallsgrößen. (c) Für X1 , . . . , XN u.i.v., ∼ N (µ, σ 2 ), gelten E(X N ) = µ 2.9 und Man kann zeigrn X N ∼ N (µ, σ 2 /N ). Var(X N ) = σ2 . N Korrelation 2.8 Definition. Für zwei Zufallsgrößen X, Y mit Werten in IR und endlichen Varianzen heißt Cov(X, Y ) = E ((X − E(X))(Y − E(Y ))) die Kovarianz von X und Y und falls die Varianzen ungleich Null sind, Corr(X, Y ) = Cov(X, Y ) σ(X)σ(Y ) die Korrelation von X und Y . Ist Corr(X, Y ) = 0, so heißen X, Y unkorreliert. Eigenschaften und Rechenregeln: (i) Cov(X,Y) = E(XY) - E(X) E(Y), 14 (ii) Cov(X,Y+Z) = Cov(X,Y) +Cov(X,Z), (iii) Es gelten Cov(aX + c, bY + d) = abCov(X, Y ) und Corr(aX + c, bY + d) = Corr(X, Y ) für a, b > 0 und c, d ∈ IR, (iv) −1 ≤ Corr(X, Y ) ≤ 1, wobei Corr(X, Y ) = 1, falls Y = aX + b, und Corr(X, Y ) = −1, falls Y = −aX + b, jeweils für a > 0. (v) Sind X, Y unabhängig, so sind X und Y unkorreliert. Die Umkehrung vom letzten Punkt gilt im Spezialfall gemeinsam normalverteilter X, Y . Im Allgemeinen folgt aus der Unkorreliertheit aber nicht die Unabhängigkeit. 2.11 Beispiel. Seien X und Y diskrete Zufallsgrößen, deren gemeinsame Verteilung durch P (X = −1, Y = 0) = P (X = 0, Y = −1) = P (X = 0, Y = 1) = P (X = 1, Y = 0) = 1 4 gegeben sei. Dann sind X und Y unkorreliert aber nicht unabhängig. 3 Schätzer für Verteilungsparameter Mit Hilfe von Beobachtungen (Daten) sollen Informationen über einen oder mehrere Parameter ihrer Verteilung gewonnen werden, z.B. λ bei Exp(λ)-veteilten Daten oder µ und σ 2 bei N (µ, σ 2 )-verteilten Daten. 3.1 Beispiel. Schlusskurse yi , i = 1, . . . , 31 der BASF-Aktie vom 9. April bis 23. Mai 2012: 63.48 63.93 58.21 62.01 65.19 58.76 62.69 65.00 57.69 63.55 65.25 57.34 61.63 62.19 56.82 62.86 61.31 56.94 65.57 60.92 57.47 64.72 59.49 58.32 65.01 58.98 56.78 66.20 57.46 63.67 57.57 ), i = 1, . . . , 30 (Rechts ein Histogramm dieser Renditen) Diese ergeben Renditen xi = ln ( yyi+1 i -0.0234 -0.0130 -0.0029 -0.0086 -0.0061 0.0109 0.0045 0.0038 -0.0261 -0.0091 0.0136 0.0181 -0.0480 0.0019 0.0021 -0.0307 -0.0390 -0.0143 0.0111 0.0093 0.0198 0.0041 -0.0064 0.0094 0.0147 0.0422 0.0195 -0.0238 -0.0184 -0.0268 Diese ergeben eine mittlere Rendite xN = −0.0037 mit Stichprobenstandarabweichung sN = 0.0200. Die Beobachtungen x1 , ldotsxN werden als Realisierungen von Zufallsgrößen X1 , . . . , XN angesehen, Ein passables Modell ist, dass X1 , . . . , XN u.i.v, ∼ N (µ, σ 2 ) sind, siehe auch folgendes Histogramm. 6 4 2 0 Frequency 8 10 12 Histogram of BASFrend −0.04 −0.02 0.00 BASFrend 15 0.02 0.04 Es stellen sich dann die Fragen, ob xN und sN Schätzer“ für µ und σ sind, ob sie gut“ sind, ” ” ob sie mit hoher Wahrscheinlichkeit dicht“ bei µ und σ liegen, oder wieviele Beobachtungen ” wir dafür brauchen. 3.1 Punktschätzer Statistisches Modell: Beobachtet werden u.i.v. Zufallsgrößen X1 , . . . , XN , deren Verteilung Pϑ von einem unbekannten Parameter ϑ ∈ Θ ⊆ IRd abhängt, aber die ansonsten bekannt ist. Der Erwartungswert (die Varianz) bei Verteilung Pϑ wird mit Eϑ (bzw. mit Varϑ ) bezeichnet. Eine Schätzfunktion ist eine Abbildung T ∶ IRN → Θ und ϑ̂N = T (X1 , . . . , XN ) heißt Schätzer für ϑ. Bei beobachteten Werten x1 , . . . , xN (Realisierungen von X1 , . . . , XN ) sprechen wir auch vom Schätzwert T (x1 , . . . , xN ). Ein Schätzer ϑ̂N ist nur dann sinnvoll, wenn er konsistent ist, d.h. falls gilt Pϑ ( lim ϑ̂N = ϑ) = 1. N →∞ Solche Konvergenzaussagen können unter geeigneten Bedingungen mit dem starken Gesetz der großen Zahlen nachgewiesen werden, dass für X1 , X2 , . . . u.i.v. mit µ = E(Xi ) zeigt, dass P (limN →∞ X N = µ) = 1 gilt. So sind die Stichprobenkennzahlen X N , s2N konsistent für E(X1 ), Var(X1 ) (wenn diese existieren). Unter schwachen Bedingungen an die Verteilung sind auch ẊN und die Stichprobenquantile konsistente Schätzer für Med(X1 ) und die entsprechenden Quantile der Verteilung. Für eine stetige Funktion f sind f (X N ) konsistent für f (E(X1 )) und N1 ∑N i=1 f (Xi ) konsistent für E(f (X1 )). 3.2 Vergleich verschiedener Schätzverfahren Neben der Konsistenz ist die Erwartungstreue eine weitere wünschenswerte Eigenschaft eines Schätzers. Ein Schätzer ϑ̂N heißt erwartungstreu, falls Eϑ (ϑ̂N ) = ϑ. Die Stichprobenkennzahlen X N , s2N sind erwartungstreu für E(X1 ), Var(X1 ). Dies erklärt die Wahl des Faktors N1−1 in der Definition von s2N . Wäre µ = E(X1 ) bekannt, so könnte 2 man auch den Schätzer s̃2N = N1 ∑N i=1 (Xi − µ) wählen, der wiederum erwartungstreu für Var(X1 ) ist. In der Regel ist µ aber unbekannt und man wählt s2N . Erwartungstreue reicht aber nicht für einen Vergleich von Schätzern. Zum Beispiel sind für N (µ, σ 2 )-verteilte Daten sowohl X N als auch ẊN erwartungstreu für µ. Wegen Varµ (X N ) = σ2 π σ2 < = Varµ (ẊN ) N 2 N ist X N aber der bessere Schätzer. Wichtig bei der Wahl eines Schätzers ist, ob der Abstand zum wahren Wert schnell kleiner wird. Ein Maß dafür und damit ein Maß für die Güte des Schätzers ϑ̂N ist der mittlere quadratische Fehler (mean squared error) MSE(ϑ̂N ) = E ((ϑ̂N − ϑ)2 ) = Var(ϑ̂N ) + (E(ϑ̂N ) − ϑ) . 2 Dabei heißt E(ϑ̂N ) − ϑ der Bias vom Schätzer ϑ̂N . Man nennt Var(ϑ̂N ) auch den zufälligen Fehler und (E(ϑ̂N ) − ϑ) den systematischen Fehler. Für einen erwartungstreuen Schätzer ist also der Bias und damit der systematische Fehler gleich Null. 2 16 Ein nicht-erwartungstreuer Schätzer kann besser sein als ein erwartungstreuer, wenn die Varianz niedriger ist. Aber zumindest muss ein Schätzer immer asymptotisch erwartungstreu sein, d.h. limN →∞ Eϑ (ϑ̂N ) = ϑ. Ein guter Schätzer muss MSE(ϑ̂N ) → 0 für N → ∞ erfüllen. Eine Liste guter Schätzer für einige Verteilungsparameter liefert folgende Tabelle: Verteilung von X bekannt ϑ Schätzer X ∼ B(n, p) n p n, N M p̂ = X ∼ H(n, M, N ) X1 , . . . , XN u.i.v. P (λ) λ X1 , . . . , XN u.i.v. Exp(λ) X1 , . . . , XN u.i.v. N (µ, σ 2 ) λ σ2 µ X1 , . . . , XN u.i.v. N (µ, σ 2 ) (µ, σ 2 ) (µ, σ 2 ) X1 , . . . , XN u.i.v. lognormal mit (µ, σ 2 ) X n M̂ = XN n λ̂ = X N λ̂ = 1 XN µ̂ = X N µ̂ = X N σ̂ 2 = s2N µ̂ = 1 N σ̂ 2 = N ∑i=1 ln Xi und 1 N −1 ∑i=1 (ln(Xi ) − µ̂)2 N 3.2 Beispiel. Aufgabe: Zur Ermittlung des benötigten Größe eines Servers werden bei einem ähnlichen System in N Beobachtungen die Anzahl der Anfragen X1 , . . . , XN pro Sekunde ermittelt. Es werde angenommen, dass diese u.i.v. seien mit X1 ∼ P oi(λ) für ein λ > 0. Wählen Sie einen Schätzer für λ und beurteilen Sie die Qualität des Schätzers. λ , also gut. Ergebnis: Wähle λ̂ = X N . Dann gilt MSE(λ̂) = . . . = N1 Varλ (X1 ) = N 3.3 Konfidenzintervalle Konfidenzintervalle beschreiben zusätzlich zum Schätzwert die Genauigkeit durch Angabe eines zufälligen Intervalls um den Schätzwert, das den wahren Wert ϑ mit hoher Wahrscheinlichkeit enthält. 3.1 Definition. Ein Konfidenzintervall (Intervallschätzer, Vetrauensbereich) für ϑ zum Sicherheitsniveau 1 − α ist ein (zufälliges) Intervall [T1 , T2 ] mit Grenzen Ti = gi (X1 , . . . , XN ), i = 1, 2, so dass P (ϑ ∈ [T1 , T2 ]) ≥ 1 − α für alle ϑ ∈ Θ gilt. Bei Normalverteilung können die Konfidenzintervalle exakt bestimmt werden. Seien also X1 , . . . , XN u.i.v. N (µ, σ 2 ). Wir unterscheiden drei Fälle: (a) Xi ∼ N (µ, σ 2 ), µ unbekannt, σ 2 bekannt, schätze µ. Dann ist σ σ σ [T1 , T2 ] = X N ± √ q1−α/2 = [X N − √ q1−α/2 , X N + √ q1−α/2 ] N N N ein 1 − α Konfidenzintervall für µ. Dabei bezeichnet q1−α/2 das (1 − α/2)-Quantil der Standardnormalverteilung. Zur Herleitung wird benutzt, dass X N N (µ, σ 2 /N )-verteilt √ N −µ √ ist. Damit ist N X Nσ−µ = X standardnormal-verteilt und [T1 , T2 ] berchnet sich σ/ N unter Beachtung von qα/2 = −q1−α/2 durch Umformung der Grenzen in P (qα/2 ≤ √ XN − µ N ≤≤ q1−α/2 ) = 1 − α. σ 17 (b) Xi ∼ N (µ, σ 2 ), µ unbekannt, σ 2 unbekannt, schätze µ. Dann ist sN sN sN [T1 , T2 ] = X N ± √ tN −1,1−α/2 = [X N − √ tN −1,1−α/2 , X N + √ tN −1,1−α/2 ] N N N ein 1−α Konfidenzintervall für µ. Dabei bezeichnet tN −1,1−α/2 das (1−α/2)-Quantil der t-Verteilung mit N −1 Freiheitsgraden. Die t-Verteilung ist symmetrisch und die Werte √ der Quantile sind tabelliert. Zur Herleitung wird benutzt, dass N XsNN−µ t-verteilt mit N − 1 Freiheitsgraden ist. (c) Xi ∼ N (µ, σ 2 ), µ unbekannt, σ 2 unbekannt, schätze σ 2 . Dann ist ⎤ ⎡ ⎢ (N − 1)s2N (N − 1)s2N ⎥ ⎥ , [T1 , T2 ] = ⎢ ⎥ ⎢ χ2 ⎢ N −1,1−α/2 χ2N −1,α/2 ⎥ ⎦ ⎣ ein 1 − α Konfidenzintervall für σ 2 . Dabei bezeichnen χ2N −1,α/2 und χ2N −1,1−α/2 die α/2und (1−α/2)-Quantile der Chi-Quadrat (χ2 )-Verteilung mit N −1 Freiheitsgraden. Die Verteilung ist nicht symmetrisch! Die Werte der Quantile sind tabelliert. Zur Herleitung 2 wird benutzt, dass Nσ−1 2 sN Chi-Quadrat-verteilt ist mit N − 1 Freiheitsgraden. 3.3 Beispiel. Aufgabe: Ein Stahlwerk stellt Platten her. Die Plattendicke X kann als normalverteilt mit Mittelwert µ (in mm) und bekannter Standardabweichung σ = 0, 2 mm angenommen werden. Bei N = 20 Stichproben wurde ein Stichprobenmittelwert von xN = 10, 1 mm gemessen. (a) Geben Sie ein 95%- und ein 99%-Konfidenzintervall für µ an. (b) Nun werden die Angaben zur Standardabweichung angezweifelt und es wird eine Stichprobenstandardabweichung sN = 0.24 für diese Stichprobe ermittelt. Welche Konfidenzintervalle für µ ergeben sich jetzt? (c) Geben Sie bei Beobachtung von sN = 0.24 ein 95%-Konfidenzintervall für σ an. Ergebnis: (a) [10.012, 10.216] bzw. [9.984, 10.212], (b) [9.987, 10.212] bzw. [9.946, 10.254], (c) [0.033, 0.123] für σ 2 und damit [0.182, 0.351] für σ. Liegt keine Normalverteilung vor, so kann für X1 , . . . , XN u.i.v. mit µ = E(Xi ), σ 2 = Var(Xi ) mit Hilfe des zentralen Grenzwertsatzes ein approximatives (1 − α)-Konfidenzintervall be√ stimmt werden: Der zentrale Grenzwertsatz besagt in dieser Situation, dass N X Nσ−µ für große N ungefähr N (0, 1)-verteilt ist, genauer √ XN − µ P( N ≤ y) σ → Φ(y) (N → ∞). Man erhält daraus wie in (a) und (b) Konfidenzintervalle für µ = E(X1 ), die jetzt aber nur noch approximativ sind: (d) Approximatives Konfidenzintervall für µ bei bekanntem σ 2 : σ σ σ [T1 , T2 ] = X N ± √ q1−α/2 = [X N − √ q1−α/2 , X N + √ q1−α/2 ] N N N Dabei bezeichnet q1−α/2 das (1 − α/2)-Quantil der Standardnormalverteilung. 18 (e) Approximatives Konfidenzintervall für µ bei unbekanntem σ 2 : sN sN sN [T1 , T2 ] = X N ± √ tN −1,1−α/2 = [X N − √ tN −1,1−α/2 , X N + √ tN −1,1−α/2 ] N N N Dabei bezeichnet tN −1,1−α/2 das (1 − α/2)-Quantil der t-Verteilung mit N − 1 Freiheitsgraden. (f) Im Spezialfall der Binomialverteilung, d.h. X ∼ B(n, p) erhält man mit einem weiteren Approximationsargument ein approximatives (1 − α)-Konfidenzintervall für p: √ √ ⎡ ⎤ ⎢ p̂(1 − p̂) p̂(1 − p̂) ⎥ ⎢ ⎥, [T1 , T2 ] = ⎢p̂ − q1−α/2 , p̂ + q1−α/2 ⎥ n n ⎢ ⎥ ⎣ ⎦ p̂ = X . n 3.4 Beispiel. Aufgabe: In einer Untersuchung zeigt sich, dass auf einer bestimmten Flugroute von 10 000 Passagieren mit Reservierung nur 8 420 zum Abflug erschienen sind. Bestimmen Sie ein approximatives 99%-Konfidenzintervall für den Anteil p der Personen, die erscheinen. Dabei werde angenommen, dass die Personen unabhängig voneinander erscheinen. Ergebnis: [0.832, 0.852]. 3.4 Kovarianz und Korrelationsschätzer Die zweidimensionale Zufallsgrößen (X1 , Y1 ), . . . , (XN , YN ) seien u.i.v.. mit existierenden Varianzen ungleich 0. Dann sind die Stichprobenkovarianz ĉN und die Stichprobenkorrelation ρ̂N gute Schätzer für die Kovarianz Cov(Xi , Yi ) bzw. die Korrelation Corr(Xi , Yi ). Da die Verteilung von ρ̂N schief und auf [−1, 1] begrenzt ist, wird eine Transformation benutzt: 1 1 + ρ̂N ŵN = ln ( ). 2 1 − ρ̂N Dann ist ŵN ist für N ≥ 50, ∣ρ∣ << 1, ungefähr N (w, N1−3 )-verteilt mit w = ρ = Corr(Xi , Yi ). Ein approximatives (1 − α)-Konfidenzintervall für w ist q1−α/2 , [T1 , T2 ] = ŵN ± √ N −3 1 2 ln( 1+ρ ), wobei 1−ρ wobei q1−α/2 das (1 − α2 )-Quantil der Standardnormalverteilung ist. Aus den Grenzen ergibt sich durch Rücktransformation ρ = ρ zu 4 [R1 , R2 ] e2w −1 e2w +1 mit ein approximatives (1 − α)-Konfidenzintervall für Ri = e2Ti − 1 e2Ti + 1 für i = 1, 2. Lineare Regression Aufgabe der Regression ist eine genaue Beschreibung der Abhängigkeit zweier Merkmale X und Y . Wenn dies gelingt, kann man bei Kenntnis von X das Merkmal Y gut vorhersagen. Im Regressionsmodell werden unabhängige Datenpaare (X1 , Y1 ), . . . , (XN , YN ) beobachtet und es wird ein Zusammenhang Yi = g(Xi ) + εi , i = 1, . . . , N, angenommen mit Regressionsfunktion g und u.i.v. Messfehlern ε1 , . . . , εN mit E(εi ) = 0, Var(εi ) = σε2 . 19 Ein Ansatz ist die Methode der kleinsten Quadrate: Dabei wird g aus einer geeigneten Klasse von Funktionen so ausgewählt, dass N ∑(Yi − g(Xi )) 2 i=1 minimiert wird. Bei der linearen Regression werden Funktionen g der Form g(x) = b1 f1 (x) + b2 f2 (x) + . . . bd fd (x) betrachtet, wobei f1 , . . . fd bekannte vorgegebene Funktionen sind und b1 , . . . , bd durch die Methode der kleinsten Quadrate zu schätzen sind. Wichtige Spezialfälle sind: • Regressionsgerade g(x) = b1 + b2 x (Regression 1. Ordnung). In diesem Fall ergibt sich mit der Methode der kleinsten Quadrate b̂2 = b̂1 = Y N − b̂2 X N . ĉN , s2N,x • Regressionspolynom 2. Ordnung g(x) = b1 + b2 x + b3 x2 . 4.1 Beispiel. Eine Fast-Food-Kette hat im vergangenen Geschäftsjahr in neun verschiedenen Großstädten die Ausgaben für Werbung unterschiedlich stark angehoben. Nachträglich wird untersucht, wie sich dies auf den Absatz ausgewirkt hat: Anstieg Werbeausgaben in % Anstieg Absatz in % 0 2.1 1 3.0 3 6.1 5 6.9 6 3.5 6 8.4 7 7.9 9 7.4 12 8.0 Es ergeben sich xN = 5.44, y N = 5.92, s2N,x = 14.28, ĉN = 6.86. Bei linearer Regression mit Regressionsgerade ergibt sich b̂1 = 3.30 und b̂2 = 0.48, d.h. y = g(x) = 3.30 + 0.48x. Bei weiterer Steigerung der Werbungskosten wächst der Absatz vermutlich nicht mehr linear und eine Näherung an ein Polynom 2. Ordnung könnte sinnvoll sein. Es gibt Tests, um dies zu entscheiden. 5 Statistische Entscheidungsverfahren (Tests) 5.1 Testen von Hypothesen: Grundlagen, Gauß-Test Bei vielen Experimenten und Untersuchungen ist man nicht so sehr an genauen Schätzwerten interessiert, sondern am Nachweis qualitativer Aussagen, wie z.B. • Jungen sind bei Geburt schwerer als Mädchen. • Medikament A ist besser als Medikament B. • Das neue Schweinefutter führt zu einer höheren Gewichtszunahme. Man will also entscheiden, ob eine gewisse Hypothese gültig ist oder nicht. Ein Hypothesentest ist ein statistisches Verfahren, das auf Basis einer Stichprobe eine Entscheidung trifft. Bei einem Hypothesentest wird eine Hypothese H0 (Nullhypothese) gegen eine Alternative H1 (Alternativhypothese) getestet. Dabei können folgende Fehler auftreten: H0 wahr H0 falsch akzeptiere H0 richtig Fehler 2. Art 20 verwerfe H0 Fehler 1. Art richtig 5.1 Beispiel. In einem Schweinezuchtbetrieb wird derzeit Futter A verwendet mit einer durchschnittlichen Gewichtszunahme von 10 kg pro Woche. Soll auf das neue Futter B umgestellt werden? Teste Futter B an N Schweinen, beobachte die Gewichtszunahme X1 , . . . XN pro Woche und bestimme die mittlere Gewichtszunahme X N . Dabei werde angenommen, dass X1 , . . . XN u.i.v seien mit Xi ∼ N (µ, σ 2 ) bei bekanntem σ = 2.6 kg. Für µ0 = 10.0 betrachten wir dann • Hypothese H0 : µ = µ0 (µ ≤ µ0 ), • Alternative H1 : µ > µ0 . Beobachtet wird X N = 10.8 für N = 50. Ergebnis: Wenn wir uns ab 10.8 für H1 entscheiden, ist der Fehler 1. Art gleich 0.0146. Der Fehler 1. Art in Beispiel 5.1 ist unter der Hypothese µ = µ0 berechnt. Alle Werte µ < µ0 würden einen kleineren Fehler 1. Art ergeben. Daher können wir in Beispiel 5.1 auch die Hypothese ’H0 : µ ≤ µ0 ’ betrachten. Der Fehler 1. Art wäre dann durch den dort berechneten Fehler nach oben beschränkt. Dies motiviert das folgende Prinzip für eine Konstuktion von Tests: Bei einem statistischen Test wird auf Basis der Stichprobe eine Testgröße berechnet, anhand derer H0 abgelehnt oder beibehalten (besser: nicht abgelehnt) wird. Bei einem Signifikanztest zum Niveau α (Signifikanzniveau) wird das Kriterium so gewählt, dass im ungünstigsten Fall der Fehler 1. Art gleich α ist. Typische Werte für α sind 0.05, 0.01 oder 0.001. 5.2 Beispiel. Wir konstruieren in Beispiel 5.1 einen Test bei bekanntem σ (Gauß-Test). Ergebnis: Zu vorgegebenem Signifikanzniveau α = 0.05 und bei Beobachtung von X 50 = 10.8 wird H0 abgelehnt. Wünschenswert wäre natürlich, sowohl den Fehler 1. Art als auch den Fehler 2. Art sehr klein zu halten. Das geht aber nicht. Es können nicht gleichzeitig Fehler 1. Art und Fehler 2. Art kontrolliert werden. Der Fehler 2. Art ist auch oft nur schwer berechenbar. Daher wählt man beim Signifikanztest möglichst das, was gezeigt werden soll (das mit den schwerwiegenderen Konsequenzen) als Alternative: Wenn wir H0 ablehnen, d.h. uns für die gewünschte Alternative entscheiden, wissen wir, dass der Fehler höchstens α ist. 5.3 Beispiel. Fehler 2. Art in Beispiel 5.2. Gauß-Test In den Beispielen 5.1 bis 5.3 haben wir den Gauß-Test konstruiert. Die Konstruktion hat benutzt, dass √ X N − µ0 Z= N σ standardnormalverteilt ist. Der Gauß-Test ist von der folgenden Form: Voraussetzung: X1 , . . . , XN u.i.v., ∼ N (µ, σ 2 ) mit bekanntem σ. Vorgehen: 1. Wähle die zu testende Hypothese: (i) H0 ∶ µ = µ0 (oder µ ≤ µ0 ), (ii) H0 ∶ µ = µ0 (oder µ ≥ µ0 ), (iii) H0 ∶ µ = µ0 , H1 ∶ µ =/ µ0 H1 ∶ µ > µ 0 H1 ∶ µ < µ 0 2. Lege Signifikanzniveau α fest. 3. Beobachte X1 , . . . XN und berechne Testgröße Z = 21 √ X N −µ0 N σ . 4. Lehne H0 ab, falls in (i) Z > q1−α , in (ii) Z < qα , in (iii) Z < qα/2 oder Z > q1−α/2 , wobei qβ das β-Quantil der Standardnormalverteilung ist. 5.4 Beispiel. Es wird behauptet, dass eine neuer Lack in weniger als 20 min trocknet. Soll dieser gekauft werden? Es werde angenommen, dass die Trocknungszeiten X1 , . . . , XN u.i.v, ∼ N (µ, σ 2 ), seien bei bekanntem σ = 1.0. Getestet werden soll zum Signifikanzniveau α = 0.01. Beobachtet wird X 20 = 19.9. Ergebnis: Die Hypothese ’H0 : µ ≥ 20’ kann zum Niveau α nicht abgelehnt werden. 5.2 Einstichproben t-Test Sind X1 , . . . , XN u.i.v., ∼ N (µ, σ 2 ) mit unbekanntem σ, so wird benutzt, dass t= √ X N − µ0 N sN t-veteilt mit N − 1 Freiheitsgraden ist (vgl. die Konstruktion von Konfidenzintervallen). Der t-Test hat dann die gleiche Gestalt wie der Gauß-Test, nur dass Z durch t und q1−α , qα , . . . durch tN −1,1−α , tN −1,α , . . . zu ersetzen sind, also: Voraussetzung: X1 , . . . , XN u.i.v., ∼ N (µ, σ 2 ) mit unbekanntem σ. Vorgehen: 1. Wähle die zu testende Hypothese: (i) H0 ∶ µ = µ0 (oder µ ≤ µ0 ), (ii) H0 ∶ µ = µ0 (oder µ ≥ µ0 ), (iii) H0 ∶ µ = µ0 , H1 ∶ µ =/ µ0 H1 ∶ µ > µ 0 H1 ∶ µ < µ 0 2. Lege Signifikanzniveau α fest. 3. Beobachte X1 , . . . XN und berechne Testgröße t = 4. Lehne H0 ab, falls √ X N −µ0 N sN . in (i) t > tN −1,1−α , in (ii) t < tN −1,α , in (iii) t < tN −1,α/2 oder t > tN −1,1−α/2 , wobei tN −1,α das α-Quantil der t-Verteilung mit N − 1 Freiheitsgraden ist. 5.5 Beispiel. Beispiel 5.1 mit unbekannter Varianz. Niveau sei wieder α = 5%. Beobeachtet werden jetzt X N = 10.8 und sN = 2.6 für N = 30. Ergebnis: ’H0 : µ ≤ 10.0’ kann nicht zum Niveau α abgelehnt werden. 22 Anwendung auf Vergleich des Mittelwertes normalverteilter Paare Voraussetzung: Seien (X1 , Y1 ), . . . (XN , YN ) unabhängiger und identisch gemeinsam normalverteilte Paare mit unbekannten Parametern. Seien µ1 = E(Xi ), µ2 = E(Yi ). Die Differenzen Di = Xi − Yi , i = 1, . . . , N sind dann u.i.v. N (µ, σ 2 ) mit unbekanntem σ 2 und µ = µ1 − µ2 . Der Einstichproben-t-Test mit Alternative (i) µ > 0, (ii) µ < 0, (iii) µ =/ 0 kann verwendet werden, um auf (i) µ1 > µ2 , (ii) µ1 < µ2 , oder (iii) µ1 =/ µ2 zu testen. 5.6 Beispiel. Ändert das neue Fiebermedikament A den Blutdruck? Getestet werden soll zum Siginfikanzniveau α = 0.01. Gemessen wird bei N Personen der Blutdruck Xi vor der Medikamenteneinnahme und Yi nach der Medikamenteneinnahme, i = 1, . . . , N . Für N = 20 Personen ergibt sich aus der Messung D20 = 10.8 und s20 = 20.5. Ergebnis: ’H0 : µ1 = µ2 ’ kann nicht zum Niveau α = 0.01 abgelehnt werden. 5.3 Vergleich des Mittelwertes zweier normalverteilter Stichproben Sind X und Y unabhängige Zufallsgrößen mit X ∼ N (µx , σx2 ) und Y ∼ N (µy , σy2 ), so gilt X + Y ∼ N (µx + µy , σx2 + σy2 ). (5.1) Sind nun X1 , . . . , XN , Y1 , . . . , YM unabhängig mit X1 , . . . , XN u.i.v., ∼ N (µ1 , σ 2 ), und Y1 , . . . , YM u.i.v., ∼ N (µ2 , σ 2 ), so wissen wir X N ∼ N (µ1 , σ 2 /N ) und woraus mit (5.1) unter H0 ∶ µ1 = µ2 folgt Y M ∼ N (µ2 , σ 2 /M ) XN − Y M ∼ N (0, 1). √ 1 σ N1 + M Ist σ unbekannt, so kann man zeigen, dass XN − Y M , √ 1 sN,M N1 + M mit s2N,M = (N − 1)s2N,x + (M − 1)s2M,y N +M −2 t-verteilt mit N + M − 2 Freiheitsgraden ist. Daraus ergibt sich der folgende Test: Zweistichproben t-Test Voraussetzung: X1 , . . . , XN , Y1 , . . . , YM unabhängig mit X1 , . . . , XN u.i.v. N (µ1 , σ 2 ) und Y1 , . . . , YM u.i.v. N (µ2 , σ 2 ) mit unbekanntem σ. Vorgehen: 1. Wähle die zu testende Hypothese: (i) H0 ∶ µ1 ≤ µ2 , d H1 ∶ µ1 > µ2 , (ii) H0 ∶ µ1 ≥ µ2 , H1 ∶ µ1 < µ2 , oder (iii) H0 ∶ µ1 = µ2 , H1 ∶ µ1 =/ µ2 . 2. Lege Signifikanzniveau α fest. 3. Beobachte X1 , . . . XN , Y1 , . . . , YM und berechne Testgröße t= XN − Y M , √ 1 sN,M N1 + M wobei s2N,M = (N − 1)s2N,x + (M − 1)s2M,y N +M −2 . 4. Lehne H0 ab, falls in (i) t > tN +M −2,1−α , in (ii) t < tN +M −2,α , bzw. in (iii) t < tN +M −2,α/2 oder t > tN +M −2,1−α/2 , wobei tN +M −2,β das β-Quantil der t-Verteilung mit N + M − 2 Freiheitsgraden ist. 23 5.1 Bemerkung. (i) Falls Xi , Yi gemeinsam normalverteilt und nicht unabhängig sind und N = M gilt, benutzt man den Einstichproben-t-Test, um die Mittelwerte zu vergleichen. (ii) Die Annahme gleicher, wenn auch unbekannter, Varianz beim Zweistichproben-t-Test ist eine stake Annahme, die vorab zu klären ist. (iii) Falls Xi ∼ N (µ1 , σ12 )), yi ∼ N (µ2 , σ22 ), σ1 =/ σ2 , gibt es den Smith-Satterthwaite-Test für den Vergleich von µ1 und µ2 mit unbekannten σ1 , σ2 . 5.4 Test für die Varianz normalverteilter Daten Vergleich von Varianzen zweier Stichproben Sind X1 , . . . , XN , Y1 , . . . , YM unabhängig mit X1 , . . . , XN u.i.v., ∼ N (µ1 , σ12 ) und Y1 , . . . , YM u.i.v. ∼ N (µ2 , σ22 ), mit unbekannten σ1 , σ2 , so gilt unter der Hypothese H0 ∶ σ12 = σ22 , dass s2N,x s2M,y F -verteilt ist mit (N −1, M −1) Freiheitsgraden. Die β-Quantile fN −1,M −1,β der F -Verteilung mit (N −1, M −1) Freiheitsgraden sind tabelliert für β > 0, 5 und können für β < 0, 5 bestimmt werden aus fN −1,M −1,β = 1/fM −1,N −1,1−β . Der Test für den Vergleich von σ12 und σ22 hat dann die gleiche Struktur wie die bisherigen Tests: F-Test Voraussetzung: X1 , . . . , XN , Y1 , . . . , YM unabhängig mit X1 , . . . , XN u.i.v. N (µ1 , σ12 ) und Y1 , . . . , YM u.i.v. N (µ2 , σ22 ) mit unbekannten σ1 , σ2 . Vorgehen: 1. Wähle die zu testende Hypothese: (i) H0 ∶ σ12 ≤ σ22 , H1 ∶ σ12 > σ22 (ii) H0 ∶ σ12 ≥ σ22 , H1 ∶ σ12 < σ22 oder (iii) H0 ∶ σ12 = σ22 , H1 ∶ σ12 =/ σ22 . 2. Lege Signifikanzniveau α fest. 3. Beobachte X1 , . . . XN , Y1 , . . . , YM und berechne Testgröße F = s2N,x . s2M,y 4. Lehne H0 ab, falls in (i) F > fN −1,M −1,1−α , in (ii) F < fN −1,M −1,α , bzw. in (iii) F < fN −1,M −1,α/2 oder F > fN −1,M −1,1−α/2 , wobei fN −1,M −1,β das β-Quantil der F Verteilung mit (N − 1, M − 1) Freiheitsgraden ist. 5.7 Beispiel. Zur Untersuchung der Frage ob sich der Absatz von Statistikbüchern durch bunte Vierfarbcover steigern lässt, werden 20 Bücher in zwei Gruppen geteilt: Gruppe I: Vierfarbcover, Verkaufszahlen X1 , . . . , X9 Gruppe II: Altes Zweifarbencover Y1 , . . . , Y16 Annahme: X1 , . . . , X9 , Y1 , . . . , Y16 unabhängig, Xi ∼ N (µ1 , σ12 ), Yj ∼ N (µ2 , σ22 ). Ziel: Nachweis von µ1 > µ2 . An sich würde man hier den Smith-Satterthwaite-Test benutzen (siehe Bemerkung 5.1). Da wir diesen nicht behandelt haben, behelfen wir uns damit, erst zum Niveau 10% mit dem F -Test auf gleiche Varianzen zu testen und – falls die Hypothese gleicher Varianzen nicht abgelehnt wird – mit dem Zweistichproben-t-Test H0 ∶ µ1 ≤ µ2 gegen H1 ∶ µ1 > µ2 zum Niveau 5% unter der Annahme gleicher Varianzen zu testen. 24 Ergebnis: Bei Beobachtung von X N = 9254, Y N = 8167, sN,x = 2107, sN,y = 1681 ergeben sich Testgrößen F = 1.571 und t = 1.42, so dass sowohl die Hypothese σ12 = σ22 zum Niveau 10% nicht abgelehnt wird (gut), als auch im zweiten Test die Hypothese H0 ∶ µ1 ≤ µ2 nicht abgelehnt werden kann. Also scheinen die Vierfarbcover nicht signifikant besser zu sein. Test auf die Varianz bei einer Stichprobe Sind X1 , . . . , XN u.i.v., ∼ N (µ, σ 2 ) mit unbekanntem σ, so ist unter der Hypothes σ = σ0 s2 = (N − 1)s2N σ02 χ2 -verteilt mit N − 1 Freiheitsgraden (das haben wir auch bei den Konfidenzintervallen beutzt). Damit ergibt sich der folgende Test: χ2 -Test für die Varianz Voraussetzung: X1 , . . . , XN u.i.v. N (µ1 , σ 2 ) mit unbekanntem σ. Vorgehen: 1. Wähle die zu testende Hypothese: (i) H0 ∶ σ 2 ≤ σ02 , H1 ∶ σ 2 > σ02 , (ii) H0 ∶ σ 2 ≥ σ02 , H1 ∶ σ 2 < σ02 oder (iii) H0 ∶ σ 2 = σ02 , H1 ∶ σ 2 =/ σ02 . 2. Lege Signifikanzniveau α fest. 3. Beobachte X1 , . . . XN und berechne Testgröße S 2 = (N −1)s2N σ02 . 4. Lehne H0 ab, falls in (i) S 2 > χ2N −1,1−α , in (ii) S 2 < χ2N −1,α , bzw. in (iii) S 2 < χ2N −1,α/2 oder S 2 > χ2N −1,1−α/2 , wobei χ2N −1,β das β-Quantil der Chi-Quadrat-Verteilung mit N − 1 Freiheitsgraden ist. 5.5 Tests auf Unabhängigkeit normalverteilter Daten Korrelationstest (und Test auf Unabhängigkeit) für große Stichproben Sind (X1 , Y1 ), . . . , (XN , YN ) unabhängige, identisch gemeinsam normalverteilte Paare mit Korrelation ρ = Corr(Xi , Yi ), so haben wir in Abschnitt 3.4 gesehen, dass für N ≥ 50 und ∣ρ∣ nicht zu dicht bei 1, unter der Hypothese ρ = ρ0 ŵN − w0 = 1 + ρ̂N 1 1 + ρ0 1 1 ln ( ) − ln ( ) ungefähr N (0, ) − verteilt 2 1 − ρ̂N 2 1 − ρ0 N −3 ist und damit unter den Voraussetzungen √ Z = N − 3 (ŵN − w0 ) ungefähr N (0, 1) − verteilt ist. Dies ergibt den folgenden Test: Korrelationstest (und für ρ0 = 0 Test auf Unabhängigkeit) Voraussetzung: (X1 , Y1 ), . . . , (XN , YN ) unabhängige, identisch gemeinsam normalverteilte Paare mit Korrelation ρ = Corr(Xi , Yi ). Anwendbar, falls N ≥ 50 und ∣ρ∣ nicht zu dicht bei 1. Vorgehen: 1. Wähle die zu testende Hypothese: (i) H0 ∶ ρ ≤ ρ0 , H1 ∶ ρ > ρ0 , (ii) H0 ∶ ρ ≥ ρ0 , H1 ∶ ρ < ρ0 oder (iii) H0 ∶ ρ = ρ0 , H1 ∶ ρ =/ ρ0 . 2. Lege Signifikanzniveau α fest. 25 3. Beobachte (X1 , Y1 ), . . . , (XN , YN ) und berechne Testgröße Z= √ N − 3(ŵN − w0 ), wobei ŵN = 1 1 + ρ̂N ln ( ), 2 1 − ρ̂N w0 = 1 1 + ρ0 ln ( ). 2 1 − ρ0 4. Lehne H0 ab, falls in (i) Z > q1−α , in (ii) Z < qα , bzw. in (iii) Z < qα/2 oder Z > q1−α/2 , wobei qβ das β-Quantil der Standardnormalverteilung ist. Wird gegen ρ0 = 0 getestet, so ist dies auch ein Test auf Unabhängigkeit (und nicht nur auf Unkorreliertheit), da normalverteilte (Xi , Yi ) angenommen sind. Kleine Stichproben Ist N < 50 und soll auf Unabhängigkeit getestet werden, so kann benutzt werden, dass unter der Hypothese ρ = 0 √ ρ̂N R = N −2 √ 1 − ρ̂2N t-verteilt mit N − 2 Freiheitsgraden ist. Dies ergibt den folgenden Test: Test auf Unabhängigkeit (auf korreliert/unabhängig, auch für kleine N ) Voraussetzung: (X1 , Y1 ), . . . , (XN , YN ) unabhängige, identisch gemeinsam normalverteilte Paare mit Korrelation ρ = Corr(Xi , Yi ). Vorgehen: 1. Wähle die zu testende Hypothese: (i) H0 ∶ ρ ≤ 0, H1 ∶ ρ > 0, (ii) H0 ∶ ρ ≥ 0, H1 ∶ ρ < 0 oder (iii) H0 ∶ ρ = 0, H1 ∶ ρ =/ 0. 2. Lege Signifikanzniveau α fest. 3. Beobachte (X1 , Y1 ), . . . , (XN , YN ) und berechne Testgröße R = √ ρ̂N N −2 √ . 1−ρ̂2N 4. Lehne H0 ab, falls in (i) R > tN −2,1−α , in (ii) R < tN −2,α , bzw. in (iii) R < tN −2,α/2 oder R > tN −2,1−α/2 , wobei tN −2,β jeweils das β-Quantil der t-Verteilung mit N − 2 Freiheitsgraden bezeichnet. 5.6 Chi-Quadrat-Anpassungstest Ziel ist es, Aussagen wie . . . ist normalverteilt“, Wahrscheinlichkeit, dass . . . ist gleich . . .“ ” ” zu überprüfen. Der Chi-Quadrat-Anpassungstest erlaubt, bestimmte Verteilungsannahmen zu vorgegebenem Signifikanzniveau α zu prüfen. Modell: N Objekte fallen unabhängig voneinander in d Klassen A1 , . . . , Ad . Für i = 1, . . . , N werden Zufallsgrößen Yi definiert durch Yi = k, falls Objekt i in Ak fällt, k = 1, . . . , d. Es seien Y1 , . . . , YN u.i.v. mit pk = P (Yi = k), k = 1, . . . , d. Ferner sei Xk = Anzahl der i, für die Yi = k. Unter der vermuteten Verteilung sei p0k die Wahrscheinlichkeiten für Yi = k. k = 1, . . . , d. Ziel: Zum Niveau α die Hypothese H0 ∶ pk = p0k für alle k = 1, . . . , d“ bei vorgegebenen p0k ” gegen die Alternative zu testen, dass mindestens für ein k die Wahrscheinlichkeiten voneinander abweichen. 26 5.8 Beispiel. Die Diposition der Mensaleitung für die Verteilung der Studenten auf das Angebot lautet: 1. Menü 1 (Rindsbraten) von 20% der Gäste 2. Menü 2 (Schnitzel) von 50% der Gäste 3. Salatbüffet von 30 % der Gäste. Beobachtet werden an einem Tag der Kauf von 910 Rindsbraten, 2570 Schnitzel und 1520 Salaten. Sind die Daten mit der Annahme der Mensaleitung verträglich? Oder, sollte die Disposition für das nächste Mal überdacht werden? Idee: Unter der vermuteten Verteilung sind die Wahrscheinlichkeiten p0k für Yi = k und wir erwarten unter der Hypothese H0 ∶ pk = p0k für alle k“, dass Xk für jedes k nicht zu sehr ” von N p0k abweicht. Unter H0 sollten also die relativen quadrierten Abweichungen (Xk − N p0k )2 N p0k k=1 d D=∑ klein sein. Abweichungen seltener Ak werden dabei stärker gewichtet. Das ist sinnvoll, da weniger Abweichungen möglich sind. Die folgenden Tests werden die approximative Verteilung von D nutzen. Für eine gute Approximation benötigen wir die folgende Faustregel. Faustregel (FRD): N p0k ≥ 1 für alle k ∈ {1, . . . , d} und N p0k ≥ 5 für mindestens 80% der k ∈ {1, . . . , d}. Gilt die Faustregel nicht, so muss man kleine Klassen zusammenlegen, bis sie gilt. Es sollten aber nicht mehr Klassen als nötig zusammengelegt werden, da mit der Zusammenlegung der Fehler 2. Art steigt. Jetzt kann man auf die übliche Weise Tests konstruieren. Drei wichtige Spezialfälle sind: (a) Chi-Quadrat-Anpassungstest bei endlicher Verteilung Unter H0 , also bei vorgegebenen p01 , . . . , p0d , kann man zeigen, dass D unter (FRD) approximativ χ2 -verteilt mit d − 1 Freiheitsgraden ist. Voraussetzung: Wie im Modell oben. Es gelte (FRD). Vorgehen: 1. H0 ∶ pk = p0k für alle k = 1, . . . , d, 2. Wähle α. H1 ∶ pk =/ p0k für mind. ein k ∈ {1, . . . , d}. (Xk − N p0k )2 . N p0k k=1 d 3. Berechne Testgröße D = ∑ 4. H0 ablehnen, falls D > χ2d−1,1−α . 5.9 Beispiel. Fortsetzung von Beispiel 5.8. Ergebnis: Zum Niveau 1% muss die Disposition (Verteilungsannahme) abgelehnt werden. 27 (b) Chi-Quadrat-Anpassungstest für die Poissonverteilung Vermutet man eine Poissonverteilung, muss aber auch den Parameter λ schätzen, kann man wie folgt vorgehen, um zu testen, ob eine Poissonverteilung für einen beliebigen Parameter λ vorliegt. Voraussetzung: Y1 , . . . , YN u.i.v. mit Werten in {0, 1, 2, . . .}, Xk = Anzahl der i mit Yi = k Xm = Anzahl der i mit Yi ≥ m. für k = 0, . . . , m − 1, Schätze λ̂ = Y N und p̂k = λ̂k! e−λ̂ , k = 0, . . . , m − 1 sowie p̂m = 1 − p̂0 − . . . − p̂m−1 . Die Faustregel (FRD) gelte für p̂k , k = 0, . . . , m. Vorgehen: k 1. H0 ∶ Y1 , . . . , YN Poisson-verteilt, 2. Wähle α. H1 ∶ Y1 , . . . , YN nicht Poisson-verteilt. (Xk − N p̂k )2 . N p̂k k=0 m 3. Berechne Testgröße D = ∑ 4. Lehne H0 ab, falls D > χ2m−1,1−α . Dabei wurde benutzt, dass unter der Voraussetzung D approximativ χ2 -verteilt mit d − 2 = m − 1 Freiheitsgraden ist. 5.10 Beispiel (vgl. Übungsblatt 3, Aufgabe 5). Eine empirische Untersuchung behandelt die Anzahl der Soldaten preußischer Kavallerieregimenter, die pro Jahr an den Folgen eines Hufschlags starben. Für 10 Regimenter wurden die Hufschlagtoten pro Jahr über 20 Jahre gesammelt. Dies ergibt die folgenden jährlichen Todeszahlen pro Regiment: Todesfälle 0 1 2 3 4 Häufigkeit 109 65 22 3 1 Zum Niveau 5% wird die vermutete Poissonverteilung der Todesfälle nicht abgelehnt. (c) Chi-Quadrat-Anpassungstest für die Normalverteilung Möchte man auf das Vorliegen einer Normalverteilung für beliebige Parameter testen, kann man wie folgt vorgehen. Voraussetzung: Y1 , . . . , YN u.i.v. mit Werten in IR. Für Schätzer µ̂ = Y N , σ̂ 2 = NN−1 s2N , berechne zu Intervallen I1 = (−∞, s1 ], I2 = (s1 , s2 ], Id−1 = (sd−2 , sd−1 ], ..., Id = (sd−1 , ∞) die Wahrscheinlichkeiten p̂k = Φ( skσ̂−µ̂ ) − Φ( sk−1σ̂ −µ̂ ) für k = 2, . . . , d − 1 sowie p̂1 = Φ( s1σ̂−µ̂ ) und p̂d = 1 − Φ( sd−1σ̂ −µ̂ ). Die Faustregel (FRD) gelte für p̂k , k = 1, . . . , d. Xk sei die Anzahl der i mit Yi ∈ Ik für k = 1, . . . , d. Vorgehen: 1. H0 ∶ Y1 , . . . , YN normalverteilt, H1 ∶ Y1 , . . . , YN nicht normalverteilt. 2. Wähle α. (Xk − N p̂k )2 . N p̂k k=1 d 3. Berechne Testgröße D = ∑ 28 4. Lehne H0 ab, falls D > χ2d−3,1−α . 5.2 Bemerkung. (i) Soll auf eine P (λ) bzw. N (µ, σ 2 )-Verteilung zu vorgegebenen λ bzw. µ, σ 2 getestet werden, so sind wir nicht in der Situation von (b) oder (c), sondern in der Situation von (a), wo wir dann die p0k über die vorgegebene Verteilung berechnen und die Testgröße mit den Quantilen der Chi-Quadrat-Verteilung mit d − 1 Freiheitsgraden vergleichen. (ii) Die Struktur der Tests oben in (a), (b) und (c) ist immer gleich. Dabei ist (Xk − N p̂k )2 N p̂k k=1 d D=∑ jeweils χ2d−1−j -verteilt, wobei j die Anzahl der zu schätzenden Parameter bezeichnet. Entsprechend kann man den Test auf andere Verteilungen übertragen. Sind die Parameter der zu testenden Verteilung fix vorgegeben oder haben wir eine endliche Verteilung wie in (a), ist j = 0 und die p̂k können durch die exakt berechneten p0k ersetzt werden (siehe Teil (i) dieser Bemerkung). 5.7 Kontingenztafeln und Chi-Quadrat-Unabhängigkeitstest Die Fragestellung lautet, ob zwei Eigenschaften/Merkmale unabhängig voneinander sind oder sich beeinflussen. Sind die Merkmale qualitativ, so kann man nicht einen der Unabhängigkeitstests für Normalverteilung verwenden. Bei endlich vielen qualitativen Merkmalen, kann man ohne Einschränkung den einzelnen Ausprägungen der Merkmale Zahlen 1, . . . , m bzw. 1, . . . , n zuordnen. Modell: (X1 , Y1 ), . . . , (XN , YN ) seien u.i.v. mit Werten in {(k, l) ∶ k = 1, . . . , m; l = 1, . . . , n} und pkl = P (Xi = k, Yi = l). Es bezeichne Zkl die Anzahl der i für die (Xi , Yi ) = (k, l), sowie Z⋅,l = Z1l + . . . + Zml , Zk,⋅ = Zk1 + . . . + Zkn Die Zkl , Zk,⋅ , Z⋅,l können übersichtlich in einer Kontingenztafel zusammengestellt werden. Das Innere der Kontingenztafel (die Zij ) lässt sich im Allgemeinen nicht aus den Rändern (den Zk,⋅ , Z⋅,l bestimmen. Das geht unter der Hypothese H0 , dass Xi und Yi unabhängig sind. Unter H0 wäre pkl = P (Xi = k)P (Yi = l). Wir können P (Xi = k) und P (Yi = l) schätzen durch Zk,⋅ N also unter H0 ist ein guter Schätzer für pkl bzw. Z⋅,l , N p̂0kl = Zk,⋅ Z⋅,l N2 für alle k = 1, . . . , m, l = 1, . . . , n. Diesen vergleichen wir mit p̂kl = Zkl . N Es gelte die Faustregel N p̂0kl ≥ 1 für alle k, l und N p̂0kl ≥ 5 für mindestens 80% der Paare (k, l). Dies entspricht also der Faustregel (FRD). Unter der Faustregel ist m n (Z − N p̂0 )2 kl kl D= ∑∑ 0 N p̂ k=1 l=1 kl χ2 -verteilt mit (m − 1)(n − 1) Freiheitsgraden. Damit ergibt sich der Test: 29 1. H0 ∶ X1 , Y1 unabhängig, H1 ∶ X1 , Y1 nicht unabhängig. 2. Wähle Signifikanzniveau α. (Zkl − N p̂0kl )2 . N p̂0kl k=1 l=1 m n 3. Berechne Testgröße D = ∑ ∑ 4. Lehne H0 ab, falls D > χ2(m−1)(n−1),1−α . 5.11 Beispiel. Übungsblatt 7–11, Aufgabe 46. Ergebnis: Die Hypothese der Unabhängigkeit muss zum Niveau 1% abgelehnt werden, d.h. mit Fehlerwahrscheinlichkeit 1% besteht eine Abhängigkeit zwischen Verschmutzung und Erkrankung. 5.12 Beispiel. Übungsblatt 7–11, Aufgabe 47. Ergebnis: (a) Unabhängigkeit von Wahl der Arznei und Dauer der Grippe kann nicht zum Niveau 5% abgelehnt werden. (b) Zum Niveau 5% kann kein Einfluss des Medikaments nachgewiesen werden. 5.8 Binomial- und Vorzeichentests Approximativer und exakter Binomialtest Ist X ∼ B(n, p), so ist X unter der Hypothese ’H0 ∶ p = p0 ’ ungefähr N (np0 , np0 (1 − p0 ))verteilt, falls die Faustregel für die Approximation der Binomialverteilung durch die Normalverteilung erfüllt ist (siehe Abschnitt 2.8): Faustregel: np0 ≥ 5 und n(1 − p0 ) ≥ 5. Damit erhalten wir den approximativen Binomialtest. Vorgehen: 1. Wähle die zu testende Hypothese: (i) H0 ∶ p = p0 (oder p ≤ p0 ), H1 ∶ p > p0 , (ii) H0 ∶ p = p0 (oder p ≥ p0 ), H1 ∶ p < p0 oder (iii) H0 ∶ p = p0 , H1 ∶ p =/ p0 . 2. Lege Signifikanzniveau α fest. 3. Beobachte X und berechne Testgröße X − np0 Z=√ np0 (1 − p0 ) 4. Lehne H0 ab, falls in (i) Z > q1−α , in (ii) Z < qα , bzw. in (iii) Z < qα/2 oder Z > q1−α/2 , wobei qβ das β-Quantil der Standardnormalverteilung ist. Ist n klein oder gilt die Faustregel für die Approximation nicht, so kann man auch den exakten Binomialtest verwenden, der unter der Voraussetzung X ∼ B(n, p) die exakte Verteilung unter H0 benutzt, sich also nur in Schritt 3 und 4 vom letzten Test unterscheidet: 3. Beobachte X. 4. Lehne H0 ab, falls in (i) X > bn,p0 ,1−α , in (ii) X < bn,p0 ,α , bzw. in (iii) X < bn,p0 ,α1 oder X > bn,p0 ,1−α2 mit α1 , α2 ≈ α/2, α1 + α2 = α, wobei bn,p0 β ein β-Quantil der Binomialverteilung mit Paramtern n und p0 bezeichnet. Tabelliert sind Quantile bn,p0 ,β für verschieden Kombinationen von n und p0 . Sie können für kleine n aber auch selbst berechnet werden. Da B(n, p0 ) eine diskrete Verteilung ist, sind die Quantile aber nicht eindeutig bestimmt und müssen in (iii) sinnvoll gewählt werden. 5.13 Beispiel. Eine aufmerksame Besucherin eines Spielkasino vermutet, dass die Kugel seltener als mit der behaupteten Wahrscheinlichkeit p0 = 18/37 auf einem roten Feld liegenbleibt. Sie zählt bei 1000 Spielen, dass die Kugel 440 mal auf einem roten Feld liegengeblieben ist. Bestätigt das die Vermutung mit einer Fehlerwahrscheinlichkeit von höchsten 1%? Ergebnis: Die Vermutung wird bestätigt. 30 Vorzeichentest Beobachtet werden n1 Datenpaare (yi , zi ), die unabhängig voneinander erhoben wurden. Zum Beispiel kann ein Merkmal vor oder nach Gabe eines Medikaments gemessen werden oder es kann qualitativ bewertet werden (besser-schlechter oder auf einer vorgegebenen Skala). Interessiert sind wir daran zu testen, ob die ersten (alten) Datenwerte yi eher größer oder besser als die zi sind. Für gemeinsam normalverteilte Paare könnte hier der Einstichprobent-Test auf die Differenz angewendet werden. Diesen können wir aber für qualitative Daten nicht nutzen. Stattdessen können wir wie folgt vorgehen. Es werden alle Datenpaare mit yi = zi gestrichen. Die Anzahl der verbleibenden Paare sei n. Jetzt zählen wir die Anzahl der verbleibenden Paare, für die yi > zi ist. Die Anzahl X dieser Erfolge ist B(n, p)-verteilt. Gibt es eher keinen Unterschied, so wäre p = 12 und wir können die gewünschten Aussage für die Hypothese ’H0 ∶ p = p0 ’ mit p0 = 21 unter Benutzung des approximativen oder exakten Binomialtests testen. 5.14 Beispiel. Ausgewählte Haushalte werden am 1. Juni 2011 und am 1. Juni 2012 befragt, wie sie ihre wirtschaftliche Lage auf einer Skala von 1 (schlecht) bis 5 (sehr gut) einschätzen. Haushalt Juni 2011 Juni 2012 1 2 3 2 3 2 3 1 2 4 4 4 5 3 4 6 5 5 7 4 3 8 1 4 9 5 4 10 3 5 11 2 4 12 4 4 13 4 2 14 4 5 15 2 4 Untersuchen Sie, ob mit Fehlerwahrscheinlichkeit 5% behauptet werden kann, dass die Haushalte ihre wirtschaftliche Lage 2012 besser einschätzen. Ergebnis: Die Hypothese, dass keine Änderung festzustellen ist, kann nicht abgelehnt werden. Um auch die Größe der Differenzen in den Einschätzungen zu berücksichtigen, gibt es andere Tests wie z.B. den Wilcoxon-Test. Zweistichproben-Binomialtest Ziel: Wir wollen testen, ob der Anteil von Objekten in zwei verschiedenen, unabhängigen Stichproben mit dem gleichen Merkmal übereinstimmt oder nicht. Dazu muss nur das Vorkommen des Merkmals in den beiden Populationen gezählt werden. Modell: Beobachtet werden unabhängige X ∼ B(n, p1 ), Y ∼ B(m, p2 ) Schätzer für p1 und p2 sind dann p̂1 = X n bzw. p̂2 = Y . m Man kann zeigen, dass für große m und n unter ’H0 ∶ p1 = p2 ’ dann p̂1 − p̂2 ∆= √ p̂(1 − p̂) n+m nm für p̂ = X +M n+m ungefähr standardnormalverteilt ist. Dies ergibt den Zweistichproben-Binomialtest: 1. Wähle die zu testende Hypothese: (i) H0 ∶ p1 = p2 (oder p1 ≤ p2 ), H1 ∶ p1 > p2 , (ii) H0 ∶ p1 = p2 (oder p1 ≥ p2 ), H1 ∶ p1 < p2 oder (iii) H0 ∶ p1 = p2 , H1 ∶ p1 =/ p2 . 2. Lege Signifikanzniveau α fest. 3. Beobachte X und Y und berechne Testgröße ∆ wie oben. 4. Lehne H0 ab, falls in (i) ∆ > q1−α , in (ii) ∆ < qα , bzw. in (iii) ∆ < qα/2 oder ∆ > q1−α/2 , wobei qβ das β-Quantil der Standardnormalverteilung ist. 31