Zufällige Schwankungen Signifikante Abweichungen Testen von Hypothesen Weitere Beispiele Testen von Hypothesen Elke Warmuth Humboldt-Universität Berlin WS 2008/09 1 / 59 Zufällige Schwankungen Signifikante Abweichungen Testen von Hypothesen Weitere Beispiele 1 Zufällige Schwankungen 2 Signifikante Abweichungen 3 Testen von Hypothesen Tea tasting lady Gütefunktion Zusammenfassung 4 Weitere Beispiele Identifizieren von W-Z-Folgen Klassenarbeit Geschmackstest 2 / 59 Zufällige Schwankungen Signifikante Abweichungen Testen von Hypothesen Weitere Beispiele Zufällige Schwankungen erfassen – Voraussetzung für Testverständnis Beispiel: Der Anteil der A-Wähler in einer großen Wählerpopulation sei 0,3. Wie viele A-Wähler erwarten Sie a) in einer zufälligen Stichprobe vom Umfang 30 aus dieser Population, b) in einer zufälligen Stichprobe vom Umfang 300 aus dieser Population? Geben Sie jeweils ein möglichst kleines symmetrisches Intervall um den Erwartungswert an, das mindestens 95% Sicherheit besitzt. 3 / 59 Zufällige Schwankungen Signifikante Abweichungen Testen von Hypothesen Weitere Beispiele Modellierung zu a): X – Anzahl der A-Wähler in der Stichprobe Modell: X ∼ B(30; 0, 3), E (X ) = 9, Var (X ) = 6, 3, σX ≈ 2, 5 2σ-Intervall [4, 14], P(4 ≤ X ≤ 14) ≈ 0, 97 σX Länge 10 und ≈ 28% E (X ) 4 / 59 Zufällige Schwankungen Signifikante Abweichungen Testen von Hypothesen Weitere Beispiele Modellierung zu b): Y – Anzahl der A-Wähler in der Stichprobe Modell: Y ∼ B(300; 0, 3), E (Y ) = 90, Var (Y ) = 63, σX ≈ 8 2σ-Intervall [74, 106], P(74 ≤ Y ≤ 106) ≈ 0, 96 σY Länge 32 und ≈ 18% E (Y ) 5 / 59 Zufällige Schwankungen Signifikante Abweichungen Testen von Hypothesen Weitere Beispiele Achtung: Bei kleinen Stichproben neigt man dazu, die Schwankungen zu unterschätzen. 6 / 59 Zufällige Schwankungen Signifikante Abweichungen Testen von Hypothesen Weitere Beispiele Wahrscheinlichkeiten schätzen Beispiel: Stelle durch eine Überschlagsrechnung fest, welche der ” vorgeschlagenen Antworten zu den folgenden Fragen am besten paßt. Eine faire Münze wird 10-mal (100-mal bzw. 1000-mal) geworfen. Die Wahrscheinlichkeit, daß genau die Hälfte Köpfe sind, ist ungefähr 25%, 10%, 5% oder 1%?“ Quelle: H. Dinges, H. Rost: Prinzipien der Stochastik. Stuttgart: Teubner, 1982 Schätzen – eine wichtige, aber im Mathematikunterricht oft vernachlässigte Fähigkeit Aufgabenformat herausfordernd, ähnlich Känguru-Aufgaben Es muss nicht immer ein Anwendungskontext sein. 7 / 59 Zufällige Schwankungen Signifikante Abweichungen Testen von Hypothesen Weitere Beispiele An – Ereignis Genau n2 Wappen bei n Würfen“, pn = P(An ). ” Die Wahrscheinlichkeiten pn fallen mit wachsender Anzahl der Würfe. n = 10: Bei Gleichverteilung hätte jede Anzahl die 1 Wahrscheinlichkeit 11 . Die Binomialverteilung B(10; 0, 5) hat bei 5 ein deutliches Maximum, folglich P(X = 5) ≈ 0, 25. n = 100: Das 1 · σ-Intervall [45; 55] hat rund 68% Wahrscheinlichkeit. Das sind durchschnittlich mehr als 6% pro Wert. Der wahrscheinlichste Wert hat vermutlich rund 10% Wahrscheinlichkeit. 8 / 59 Zufällige Schwankungen Signifikante Abweichungen Testen von Hypothesen Weitere Beispiele √ n = 1000: Es ist σ = 250 ≈ 16. Das 1 · σ-Intervall [484; 516] hat rund 68% Wahrscheinlichkeit. Das sind durchschnittlich mehr als 2% pro Wert. Also passt 5% oder 1% Wahrscheinlichkeit. Mit Hilfe der Stirlingschen Formel kann man zeigen, dass P(X2n = n) ≈ √ 1 π·n ist, wenn X2n die Anzahl der Erfolge in einer Bernoulli-Kette der Länge 2n mit Erfolgswahrscheinlichkeit 0,5 bezeichnet. P(X1000 = 500) ≈ √ 1 π·500 ≈ 0, 025 9 / 59 Zufällige Schwankungen Signifikante Abweichungen Testen von Hypothesen Weitere Beispiele Signifikant, signifikant, signifikant, ... 10 / 59 Zufällige Schwankungen Signifikante Abweichungen Testen von Hypothesen Weitere Beispiele Signifikant, signifikant, signifikant, ... 11 / 59 Zufällige Schwankungen Signifikante Abweichungen Testen von Hypothesen Weitere Beispiele Wikipedia, die freie Enzyklopädie: Statistische Signifikanz: ” In der Statistik heißen Unterschiede oder Zusammenhänge signifikant, wenn die Wahrscheinlichkeit gering ist, dass sie durch Zufall zustande gekommen sind.“ 12 / 59 Zufällige Schwankungen Signifikante Abweichungen Testen von Hypothesen Weitere Beispiele Beispiel der tea tasting Lady historisch relevantes Beispiel Streit zwischen den bedeutenden Pionieren der Statistik, Sir Ronald A. Fisher (1890-1962) und Jerzy Neyman (1894-1981), um unterschiedliche Vorstellungen vom Testbegriff Lady behauptet, sie könne durch Kosten feststellen, ob zuerst der Tee oder zuerst die Milch in die Tasse gegossen wurden. Es wird jeweils umgerührt. vgl. z.B. U. Krengel: Einführung in die Wahrscheinlichkeitstheorie und Statistik. Braunschweig/Wiesbaden: Vieweg, 2000 13 / 59 Zufällige Schwankungen Signifikante Abweichungen Testen von Hypothesen Weitere Beispiele Versuchsanordnung: Lady bekommt 20-mal 2 Tassen – eine vom Typ 1, eine vom Typ 2, in zufälliger Reihenfolge, und soll sie klassifizieren. X sei die Anzahl der Erfolge der Lady. Die Versuchsdurchführung sei so, dass X ∼ B(20; p) gerechtfertigt ist. Wenn die Lady nur rät, dann p = 0, 5. Im Modell B(20; 0, 5) gilt E (X ) = 10 P(X ≥ 15) = 0, 02 P(X ≥ 14) = 0, 06 In der Statistik heißen Unterschiede oder Zusammenhänge ” signifikant, wenn die Wahrscheinlichkeit gering ist, dass sie durch Zufall zustande gekommen sind.“ 14 / 59 Zufällige Schwankungen Signifikante Abweichungen Testen von Hypothesen Weitere Beispiele Im Modell B(20; 0, 5) ist die Wahrscheinlichkeit, dass durch Zufall 15 oder mehr Erfolge eintreten, sehr gering. Sie beträgt 0,02. Diese Abweichung vom Erwartungswert (um mindestens 5) ist signifikant auf dem Signifikanzniveau 0,05, weil 0, 02 < 0, 05 ist. 15 / 59 Zufällige Schwankungen Signifikante Abweichungen Testen von Hypothesen Weitere Beispiele Mindestens 15 Erfolge sind nicht signifikant auf dem Signifikanzniveau 0,01, weil 0, 02 > 0, 01 ist. Auf diesem Signifikanzniveau wären 16 oder mehr Erfolge signifikant. 16 / 59 Zufällige Schwankungen Signifikante Abweichungen Testen von Hypothesen Weitere Beispiele Signifikant auf dem Niveau α Es sei 0 < α < 1. Im Rahmen eines Modells mit der Wahrscheinlichkeitsverteilung P ist eine Abweichung k einer Zufallsgröße X von ihrem Erwartungswert E (X ) eine signifikante Abweichung nach oben auf dem Signifikanzniveau α, wenn gilt P(X − E (X ) ≥ k) ≤ α Signifikant an sich gibt es nicht! Standardwerte für Signifikanzniveaus: 0, 05; 0, 02; 0, 01 Je nach Problemstellung: Abweichung nach oben, Abweichung nach unten, Abweichung dem Betrage nach 17 / 59 Zufällige Schwankungen Signifikante Abweichungen Testen von Hypothesen Weitere Beispiele Tea tasting lady Gütefunktion Zusammenfassung Beispiel Tea tasting lady Hypothese H: Lady rät, Alternative A: Lady besitzt Fähigkeit Hypothese und Alternative beschreiben konkurrierende Modelle. H: p = 0, 5, A: p > 0, 5 Testgröße: Anzahl X der Erfolge bei 20 Versuchen. Entscheidungsregel: Viele Erfolge sprechen gegen H und für A. Wie viele? Unter H sind 15 oder mehr Erfolge sehr unwahrscheinlich (Wahrscheinlichkeit 0,02). 18 / 59 Zufällige Schwankungen Signifikante Abweichungen Testen von Hypothesen Weitere Beispiele Tea tasting lady Gütefunktion Zusammenfassung Brücke zur Erfahrungswelt (Kolmogorow): Wenn P(A) sehr klein ist, dann kann man praktisch sicher sein, dass A bei einmaliger Beobachtung des Vorgangs nicht eintreten wird. Entscheidungsregel: Wenn X ≥ 15 beobachtet wird, lehne H ab. Wenn X < 15 beobachtet wird, behalte H bei. Das Ereignis K = {X ≥ 15} heißt kritischer Bereich oder Verwerfungsbereich des Tests. Eigenschaft dieser Entscheidungsregel: Ist H das richtige“ Modell, dann lehnen wir die Hypothese H ” mit einer Wahrscheinlichkeit von 0,02 fälschlicherweise ab. Fehler 1. Art 19 / 59 Zufällige Schwankungen Signifikante Abweichungen Testen von Hypothesen Weitere Beispiele Tea tasting lady Gütefunktion Zusammenfassung K beschreibt einen Signifikanztest zum Signifikanzniveau α ≥ 0, 02. Testen heißt also zunächst: eine Testgröße auf signifikante Abweichungen im Rahmen des durch H gegebenen Modells zu untersuchen. Das Signifikanzniveau wird vorher benannt. Der kritische Bereich richtet sich nach der Alternative A. Testen heißt auch: Die Konsequenzen der Entscheidung untersuchen. Fehler 2. Art: H fälschlicherweise beibehalten. Hat die Lady eine faire Chance? 20 / 59 Zufällige Schwankungen Signifikante Abweichungen Testen von Hypothesen Weitere Beispiele Tea tasting lady Gütefunktion Zusammenfassung Was ist, wenn z.B. p = 0, 7 das richtige“ Modell ist? ” Unter A mit p = 0, 7 gilt X ∼ B(20; 0, 7). P(X ≥ 15) = 0, 42 und P(X < 15) = 0, 58. Wenn p = 0, 7 gilt, dann entscheiden wir uns mit Wahrscheinlichkeit 0,42 richtig und begehen mit Wahrscheinlichkeit 0,58 einen Fehler, indem wir H beibehalten, weil die Lady zufällig zu wenige Tassen richtig klassifiziert hat. Fehler 2. Art: H beibehalten, obwohl A richtig. 21 / 59 Zufällige Schwankungen Signifikante Abweichungen Testen von Hypothesen Weitere Beispiele Tea tasting lady Gütefunktion Zusammenfassung Gütefunktion – Konsequenzen der Entscheidungsregel auf einen Blick β(p) = P(p) (X ≥ 15) – Ablehnungswahrscheinlichkeit von H in Abhängigkeit von der Erfolgswahrscheinlichkeit p. Funktionale Betrachtung. Das ist keine bedingte Wahrscheinlichkeit. 22 / 59 Zufällige Schwankungen Signifikante Abweichungen Testen von Hypothesen Weitere Beispiele Tea tasting lady Gütefunktion Zusammenfassung OC-Funktion oder Operationscharakteristik OC (p) = 1 − β(p) gibt für p > 0, 5 die Wahrscheinlichkeit des Fehlers 2. Art an. Fehler 2. Art: H fälschlicherweise beibehalten 23 / 59 Zufällige Schwankungen Signifikante Abweichungen Testen von Hypothesen Weitere Beispiele Tea tasting lady Gütefunktion Zusammenfassung Wahrscheinlichkeiten für Fehler 1. und 2. Art verhalten sich gegenläufig. 24 / 59 Zufällige Schwankungen Signifikante Abweichungen Testen von Hypothesen Weitere Beispiele Tea tasting lady Gütefunktion Zusammenfassung Wie kann die Lady eine faire Chance bekommen? Für p = 0, 7 soll β(p) = P(p) (X ≥ 15) mindestens 0,8 betragen. Das Signifikanzniveau soll weiterhin 0,05 betragen. Nur möglich mit größerem n. 25 / 59 Zufällige Schwankungen Signifikante Abweichungen Testen von Hypothesen Weitere Beispiele Tea tasting lady Gütefunktion Zusammenfassung Probieren mit Tabellenkalkulationsprogramm: n = 39, K = {X ≥ 25}, P(0,5) (X ≥ 25) = 0, 05, P(0,7) (X ≥ 25) = 0, 84 26 / 59 Zufällige Schwankungen Signifikante Abweichungen Testen von Hypothesen Weitere Beispiele Tea tasting lady Gütefunktion Zusammenfassung Testen von Hypothesen Aufgabe der beurteilenden Statistik Wahrscheinlichkeitstheorie stellt Modelle für reale Vorgänge bereit Gesucht sind Entscheidungen über Modellparameter (z. B. p in B(n, p)), Unabhängigkeit, Modelltyp (z. B. N(µ, σ 2 )), ... Hypothesen beschreiben konkurrierende Modelle Entscheidung für oder gegen ein Modell auf der Grundlage zufallsabhängiger Daten 27 / 59 Zufällige Schwankungen Signifikante Abweichungen Testen von Hypothesen Weitere Beispiele Tea tasting lady Gütefunktion Zusammenfassung Testgröße abhängig von Alternative, Problem: geeignete Testgröße Es gibt kein wahr oder falsch, keine sicheren Aussagen Ablehnung von H bedeutet nicht, dass H falsch ist Beibehalten von H bedeutet nicht, dass H richtig ist. Asymmetrie von H und A H beschreibt oft den gesicherten, konservativen“ ” Standpunkt, das etablierte Modell A beschreibt z.B. die Forschungshypothese P(H ist falsch) hat in unserer Sicht keinen Sinn. 28 / 59 Zufällige Schwankungen Signifikante Abweichungen Testen von Hypothesen Weitere Beispiele Tea tasting lady Gütefunktion Zusammenfassung Was bedeutet es, wenn eine Hypothese H auf dem Signifikanzniveau α abgelehnt wird? Die Testgröße ist in einen Bereich gefallen, dessen Wahrscheinlichkeit unter H höchstens α beträgt. Das durch H gegebene Modell bietet keine gute Erklärung für das beobachtete Ereignis. Es bedeutet nicht P(H ist falsch) ≤ α. 29 / 59 Zufällige Schwankungen Signifikante Abweichungen Testen von Hypothesen Weitere Beispiele Tea tasting lady Gütefunktion Zusammenfassung Was bedeutet es, wenn eine Hypothese H auf dem Signifikanzniveau α beibehalten wird? Die beobachteten Daten sind mit dem durch H gegebenen Modell verträglich“, sie bieten keinen hinreichenden Anlass, H zu ” verwerfen. Es bedeutet nicht P(H ist richtig) ≥ 1 − α. Wenn man H möglichst selten ablehnen will, wähle man ein sehr kleines α. Wenn man signifikante Ergebnisse melden will, wähle man ein großes α. Das beobachtete Signifikanzniveau: Die unter H berechnete Wahrscheinlichkeit für ein mindestens so extremes Ergebnis wie das beobachtete. 30 / 59 Zufällige Schwankungen Signifikante Abweichungen Testen von Hypothesen Weitere Beispiele Tea tasting lady Gütefunktion Zusammenfassung Quelle: Stochastik Grundkurs. Düsseldorf: Cornelsen, 1989. 20 Wissenschaftler haben zu einer Forschungshypothese geforscht und einen Signifikanztest zum Niveau 5% durchgeführt. Was ist passiert? 31 / 59 Zufällige Schwankungen Signifikante Abweichungen Testen von Hypothesen Weitere Beispiele Identifizieren von W-Z-Folgen Klassenarbeit Geschmackstest Folge A: ZWZW WZWW ZWZW WWZW ZWZW ZZWZ ZWWZ WZZW ZWZW WZZW WWWW WZZW ZWWW WWZZ WZZW ZWWZ ZWWZ ZWZZ WWZW ZWZZ ZWZW ZWZZ ZWZW WZWW WWZW WZWW WZWW ZWWZ WZZW ZZWZ ZWWZ ZWZW ZWZZ WZWZ ZZWZ WZWW ZZWZ WZWW ZWWW ZWWZ WWWZ WZZW ZWWZ WZZW ZZZW ZZWW WWZZ ZZWW ZZWW ZWZZ Folge B: WZZW WWWZ ZWZZ WZZW ZZWW ZZWW WWWW WWZW WWWW WZZZ ZZZZ WWWW WWZW ZZWW WWWZ WWZW ZZWZ ZZZW ZWZZ ZWZZ WZZW ZWZW ZZWW WWWW WWZZ ZWZW WWZZ ZWWW ZZZW ZZZZ ZWWZ ZZWW WZZW WZZZ ZWZZ WWZW ZZWZ WZWW WWZZ ZZZW ZZZZ ZWZZ ZZWW WWZZ WZZZ ZZZW ZZZW WZZW WWWZ WWWZ Welche ist echt? 32 / 59 Zufällige Schwankungen Signifikante Abweichungen Testen von Hypothesen Weitere Beispiele Identifizieren von W-Z-Folgen Klassenarbeit Geschmackstest Rahmen: p – Wahrscheinlichkeit für Wappen Testgröße: X – Anzahl der Wappen bei 200 Würfen Modellklasse: B(200, p) konkrete Modelle: H: p = 21 , A : p 6= 1 2 Signifikanzniveau: α = 0, 05 Kritischer Bereich: Gegen H sprechen sehr viele oder sehr wenige Erfolge Wegen α = 0, 05 wähle 2σ-Intervall (n ist groß genug) Ablehnungsbereich K = {X ≤ 85 oder X ≥ 115} 33 / 59 Zufällige Schwankungen Signifikante Abweichungen Testen von Hypothesen Weitere Beispiele Identifizieren von W-Z-Folgen Klassenarbeit Geschmackstest Entscheidungsregel: Wenn X ≤ 85 oder X ≥ 115 beobachtet wird, lehne H ab. Wenn 86 ≤ X ≤ 114 beobachtet wird, behalte H bei. Ist H das richtige“ Modell, dann lehnen wir H mit ” Wahrscheinlichkeit kleiner oder gleich 0,05 fälschlicherweise ab. Folge A: X = 104; Folge B: X = 96 In beiden Fällen H beibehalten. Den Test hätte auch die Folge WZWZWZ... bestanden. Haben wir etwas übersehen? 34 / 59 Zufällige Schwankungen Signifikante Abweichungen Testen von Hypothesen Weitere Beispiele Identifizieren von W-Z-Folgen Klassenarbeit Geschmackstest Modellklasse: X ∼ B(200, p) X zählt die Anzahl der Erfolge in einer Bernoulli-Kette, d.h. unabhängige Teilversuche Wie Unabhängigkeit erfassen? Run Ein Run ist eine Folge aufeinanderfolgender gleicher Symbole. Beispiel: Z W Z W W Z Z Z W hat 6 Runs. Eine echte Münzwurffolge hat weniger Runs, als man gewöhnlich denkt. 35 / 59 Zufällige Schwankungen Signifikante Abweichungen Testen von Hypothesen Weitere Beispiele Identifizieren von W-Z-Folgen Klassenarbeit Geschmackstest H: unabhängige Münzwürfe A: keine unabhängigen Münzwürfe Testgröße: Anzahl der Runs Rn Brauchen die Verteilung von Rn unter H Annahme: Münze symmetrisch Einfache Anwendung des Zählalgorithmus mit wenig überraschendem Ergebnis 36 / 59 Zufällige Schwankungen Signifikante Abweichungen Testen von Hypothesen Weitere Beispiele Identifizieren von W-Z-Folgen Klassenarbeit Geschmackstest Ergebnismenge Ω = {(w1 , w2 , . . . , wn ) : wi ∈ {W, Z} für alle i} |Ω| = 2n , gleichwahrscheinliche Ergebnisse k Runs ⇔ k − 1 Wechsel von W auf Z oder umgekehrt. Beispiel: Z W Z W W Z Z Z W Zählalgorithmus: 2 Möglichkeiten für w1 n−1 je Möglichkeiten für k − 1 Wechsel k −1 an den Stellen w2 , w3 , . . . , wn P(Rn = k) = 2 n−1 k−1 2n n−1 k−1 2n−1 = , k = 1, 2, . . . , n 37 / 59 Zufällige Schwankungen Signifikante Abweichungen Testen von Hypothesen Weitere Beispiele Identifizieren von W-Z-Folgen Klassenarbeit Geschmackstest geschickte Umformung: Yn = Rn − 1 P(Yn = k) = P(Rn = k + 1) n−1 k , k = 0, 2, . . . , n − 1 2n−1 k n−1−k n−1 1 1 = , k = 0, 1, . . . , n − 1 k 2 2 = folglich Yn ∼ B(n − 1, 21 ) 38 / 59 Zufällige Schwankungen Signifikante Abweichungen Testen von Hypothesen Weitere Beispiele Identifizieren von W-Z-Folgen Klassenarbeit Geschmackstest Yn ∼ B(n − 1, 12 ), Rn = Yn + 1 n+1 2 Var (Rn ) = Var (Yn + 1) = Var (Yn ) = (n − 1) 14 √ σYn = 21 n − 1 E (Rn ) = E (Yn ) + 1 = (n − 1) 12 + 1 = 2σ-Intervall: Für große n n+1 √ n+1 √ − n − 1 ≤ Rn ≤ + n − 1 ≈ 0, 95 P 2 2 liefert Annahmebereich für H für einen Signifikanztest auf dem Niveau 0,05. 39 / 59 Zufällige Schwankungen Signifikante Abweichungen Testen von Hypothesen Weitere Beispiele Identifizieren von W-Z-Folgen Klassenarbeit Geschmackstest n = 200: 2σ-Intervall für R200 : [87; 114] allgemeine Entscheidungsregel: 87 ≤ Rn ≤ 114 ⇒ H beibehalten Rn < 87 oder Rn > 114 ⇒ H ablehnen. konkrete Stichproben Folge A: R200 = 123 ⇒ H ablehnen Folge B: R200 = 92 ⇒ H beibehalten Wir halten B für die echte“ Münzwurffolge. ” Unser Schluss ist nicht sicher. Unter H ist E (R200 ) = 100, 5. Bei Folge A wurde R200 = 123 beobachtet. Das ist eine bemerkenswerte = signifikante Abweichung vom unter H erwarteten Wert, und zwar auf dem Signifikanzniveau 0,05. 40 / 59 Zufällige Schwankungen Signifikante Abweichungen Testen von Hypothesen Weitere Beispiele Identifizieren von W-Z-Folgen Klassenarbeit Geschmackstest Man hätte hier auch einseitig testen können. beobachtetes Signifikanzniveau bei einseitigem Test: P(R200 ≥ 123) = P(Y200 + 1 ≥ 123) = P(Y200 ≥ 122) = 0, 0011. Die beobachtete Anzahl von Runs in Folge A ist signifikant auf jedem Niveau α ≥ 0, 0011. 41 / 59 Zufällige Schwankungen Signifikante Abweichungen Testen von Hypothesen Weitere Beispiele Identifizieren von W-Z-Folgen Klassenarbeit Geschmackstest Klassenarbeit im Multiple-Choice-Format 20 Fragen, je drei Antworten, genau eine richtig Ab wie vielen richtigen Antworten soll man eine 4 bekommen? Simulationen: Wir würfeln die Antworten. Auswertung der Simulationen Was müsste bei einem, der nicht nur rät, anders sein? Wann würde ich das Modell p = 1 3 verwerfen? Vorschläge? X – Anzahl der Erfolge (richtigen Antworten) Annahmen: unabhängige Fragen konstante Erfolgswahrscheinlichkeit p 42 / 59 Zufällige Schwankungen Signifikante Abweichungen Testen von Hypothesen Weitere Beispiele Identifizieren von W-Z-Folgen Klassenarbeit Geschmackstest Modellverteilung B(20, 31 ) und Häufigkeitsverteilungen bei 30 Simulationen. 43 / 59 Zufällige Schwankungen Signifikante Abweichungen Testen von Hypothesen Weitere Beispiele Identifizieren von W-Z-Folgen Klassenarbeit Geschmackstest Modellverteilung B(20, 31 ) und Häufigkeitsverteilungen bei 30 Simulationen. 44 / 59 Zufällige Schwankungen Signifikante Abweichungen Testen von Hypothesen Weitere Beispiele Identifizieren von W-Z-Folgen Klassenarbeit Geschmackstest Verschiedene Testszenarien 1. H: p = 1 3 gegen A: p > 1 3 Standpunkt: Der Schüler muss mich überzeugen, dass er nicht nur rät. Fehler 1. Art: H ablehnen, obwohl richtig, d.h. Lehrer gibt 4, obwohl Schüler nur rät. Das will dieser Lehrer natürlich möglichst selten tun, deshalb P( 31 ) (X ≥ k) ≤ α Fixieren α = 0, 05. Es folgt k = 11, d.h. mindestens 11 richtige Antworten für Note 4. P( 13 ) (X ≥ 11) ≈ 0, 04 45 / 59 Zufällige Schwankungen Signifikante Abweichungen Testen von Hypothesen Weitere Beispiele Identifizieren von W-Z-Folgen Klassenarbeit Geschmackstest noch 1. Fehler 2. Art: H beibehalten, obwohl falsch, d.h. Lehrer gibt 5, obwohl Schüler etwas weiß. Gütefunktion: β(p) = P(p) (X ≥ 11) = 1 − P(p) (X ≤ 10) 46 / 59 Zufällige Schwankungen Signifikante Abweichungen Testen von Hypothesen Weitere Beispiele Identifizieren von W-Z-Folgen Klassenarbeit Geschmackstest noch 1. β(0, 6) = 0, 76, Wahrscheinlichkeit für Fehler 2. Art bei Erfolgswahrscheinlichkeit p = 0, 6 beträgt also 0,24. 2. H: p > 1 3 gegen A: p ≤ 1 3 Standpunkt: Der Schüler muss mich überzeugen, dass er nichts weiß. Fehler 1. Art: H ablehnen, obwohl richtig, d.h. Lehrer gibt 5, obwohl Schüler etwas weiß. Das will dieser Lehrer natürlich möglichst selten tun, deshalb P(p) (X ≤ k) ≤ α für alle p > 1 3 47 / 59 Zufällige Schwankungen Signifikante Abweichungen Testen von Hypothesen Weitere Beispiele Identifizieren von W-Z-Folgen Klassenarbeit Geschmackstest noch 2. Hypothese und Alternative zusammengesetzt Es reicht, die Signifikanzbedingung für p = 13 zu erfüllen. Fixieren α = 0, 06. Es folgt k = 3, d.h. mindestens 4 richtige Antworten für Note 4. 48 / 59 Zufällige Schwankungen Signifikante Abweichungen Testen von Hypothesen Weitere Beispiele Identifizieren von W-Z-Folgen Klassenarbeit Geschmackstest noch 2. Gütefunktion: β(p) = P(p) (X ≤ 3) β(0, 2) = 0, 41, Wahrscheinlichkeit für Fehler 2. Art bei Erfolgswahrscheinlichkeit p = 0, 2 beträgt also 0,59. Vorsicht mit Multiple-Choice-Tests. 49 / 59 Zufällige Schwankungen Signifikante Abweichungen Testen von Hypothesen Weitere Beispiele Identifizieren von W-Z-Folgen Klassenarbeit Geschmackstest Geschmackstest Quelle: Lambacher Schweizer. Mathematik Klasse 7 Gymnasium. Stuttgart: Klett, 2003. Koautor: Wolfgang Riemer, Lehrer, Lehrbuchautor spezifische interessante Beiträge zur Didaktik der Stochastik Erfinder der Riemer-Würfel 50 / 59 Zufällige Schwankungen Signifikante Abweichungen Testen von Hypothesen Weitere Beispiele Identifizieren von W-Z-Folgen Klassenarbeit Geschmackstest 51 / 59 Zufällige Schwankungen Signifikante Abweichungen Testen von Hypothesen Weitere Beispiele Identifizieren von W-Z-Folgen Klassenarbeit Geschmackstest 52 / 59 Zufällige Schwankungen Signifikante Abweichungen Testen von Hypothesen Weitere Beispiele Identifizieren von W-Z-Folgen Klassenarbeit Geschmackstest Wenn hohe Trefferzahlen (3 oder 4) sehr viel öfter auftreten, als ” nach den Wahrscheinlichkeiten zu erwarten wäre, kann zumindest ein größerer Teil der Testteilnehmer und -teilnehmerinnen die Milchsorten geschmacklich unterscheiden.“ Trefferzahl Wahrscheinlichkeit rel. Häufigkeit 0 6,25% 11% 1 25% 19% 2 37,5% 30% 3 25% 33% 4 6,25% 7% Was heißt sehr viel öfter“? ” 53 / 59 Zufällige Schwankungen Signifikante Abweichungen Testen von Hypothesen Weitere Beispiele Identifizieren von W-Z-Folgen Klassenarbeit Geschmackstest χ2 -Anpassungstest Karl Pearson (1857-1936), Vater von Egon S. Pearson Modellklasse: n unabhängige gleichartige Teilexperimente mit je s möglichen Ausgängen. Der Ausgang ak hat in jedem Teilexperiment die Wahrscheinlichkeit pk (Polynomialverteilung). Test, ob eine beobachtete Häufigkeitsverteilung mit einer gegebenen Modellverteilung verträglich ist. 54 / 59 Zufällige Schwankungen Signifikante Abweichungen Testen von Hypothesen Weitere Beispiele Identifizieren von W-Z-Folgen Klassenarbeit Geschmackstest Xk – Anzahl der Teilexperimente mit Ausgang ak Xk ∼ B(n, pk ) E (Xk ) = n · pk Zufallsgrößen X1 , . . . , Xs nicht unabhängig, denn X1 + . . . + Xs = n. Im Geschmackstest: Ausgänge: 0, 1, . . . , 4 Treffer unabhängige Teilexperimente: Schüler urteilen unabhängig konstante Wahrscheinlichkeiten pk : Schüler urteilen mit derselben Trefferwahrscheinlichkeit Raten: pk = k4 · 0, 54 55 / 59 Zufällige Schwankungen Signifikante Abweichungen Testen von Hypothesen Weitere Beispiele Trefferzahl pk 27 · pk xk H: P(k) = pk = 4 k A: P(k) 6= pk = 4 k 0 0,625 1,7 3 Identifizieren von W-Z-Folgen Klassenarbeit Geschmackstest 1 0,25 6,8 5 2 0,375 10,1 8 3 0,25 6,8 9 · 0, 54 für alle k · 0, 54 für mindestens ein k 4 0,625 1,7 2 Testgröße: χ2 = X (Xk − npk )2 npk k Große Werte von χ2 sprechen gegen H. 56 / 59 Zufällige Schwankungen Signifikante Abweichungen Testen von Hypothesen Weitere Beispiele Identifizieren von W-Z-Folgen Klassenarbeit Geschmackstest Signifikanztest zum Signifikanzniveau α : P(H) (χ2 ≥ k) ≤ α Verteilung von χ2 ? P (Xk − npk )2 P E ((Xk − npk )2 ) 2 = E (χ ) = E npk npk k k P P npk (1 − pk ) = (1 − pk ) = npk k k = s −1 K. Pearsons Entdeckung (1900): Für große n besitzt χ2 näherungsweise eine Verteilung, die nur von s abhängt, die χ2 -Verteilung mit s − 1 Freiheitsgraden. Verteilung ist tabelliert, kritische Werte können abgelesen werden. 57 / 59 Zufällige Schwankungen Signifikante Abweichungen Testen von Hypothesen Weitere Beispiele Identifizieren von W-Z-Folgen Klassenarbeit Geschmackstest Meist reicht Var (χ2 ) ≈ 2(s − 1) Faustregel: Für große n gilt P(χ2 ≥ s − 1 + 2 p 2(s − 1)) ≤ 0, 05 (2σ-Schranke) Faustregeln: npk ≥ 2(3, 4, 5) gegebenenfalls Ausgänge zusammenfassen 58 / 59 Zufällige Schwankungen Signifikante Abweichungen Testen von Hypothesen Weitere Beispiele Trefferzahl pk 27 · pk xk χ2 = Identifizieren von W-Z-Folgen Klassenarbeit Geschmackstest 0,1 2 3,4 5 16 6 16 5 16 8,4 8 10,1 8 8,4 11 (8, 4 − 8)2 (10, 1 − 8)2 (8, 4 − 11)2 + + ≈ 1, 3 8, 4 10, 1 8, 4 s = 3 und α = 0, 05 ergibt aus Tabelle kritischen Wert k = 6 Die Daten geben keinen hinreichenden Anlass, die Hypothese H zu verwerfen, d.h. die Schüler schmecken keinen Unterschied. Man beachte die Annahmen! 59 / 59