Testen von Hypothesen - Humboldt

Werbung
Zufällige Schwankungen
Signifikante Abweichungen
Testen von Hypothesen
Weitere Beispiele
Testen von Hypothesen
Elke Warmuth
Humboldt-Universität Berlin
WS 2008/09
1 / 59
Zufällige Schwankungen
Signifikante Abweichungen
Testen von Hypothesen
Weitere Beispiele
1
Zufällige Schwankungen
2
Signifikante Abweichungen
3
Testen von Hypothesen
Tea tasting lady
Gütefunktion
Zusammenfassung
4
Weitere Beispiele
Identifizieren von W-Z-Folgen
Klassenarbeit
Geschmackstest
2 / 59
Zufällige Schwankungen
Signifikante Abweichungen
Testen von Hypothesen
Weitere Beispiele
Zufällige Schwankungen erfassen – Voraussetzung für
Testverständnis
Beispiel: Der Anteil der A-Wähler in einer großen
Wählerpopulation sei 0,3.
Wie viele A-Wähler erwarten Sie
a) in einer zufälligen Stichprobe vom Umfang 30 aus dieser
Population,
b) in einer zufälligen Stichprobe vom Umfang 300 aus dieser
Population?
Geben Sie jeweils ein möglichst kleines symmetrisches Intervall um
den Erwartungswert an, das mindestens 95% Sicherheit besitzt.
3 / 59
Zufällige Schwankungen
Signifikante Abweichungen
Testen von Hypothesen
Weitere Beispiele
Modellierung zu a):
X – Anzahl der A-Wähler in der Stichprobe
Modell: X ∼ B(30; 0, 3), E (X ) = 9, Var (X ) = 6, 3, σX ≈ 2, 5
2σ-Intervall [4, 14], P(4 ≤ X ≤ 14) ≈ 0, 97
σX
Länge 10 und
≈ 28%
E (X )
4 / 59
Zufällige Schwankungen
Signifikante Abweichungen
Testen von Hypothesen
Weitere Beispiele
Modellierung zu b):
Y – Anzahl der A-Wähler in der Stichprobe
Modell: Y ∼ B(300; 0, 3), E (Y ) = 90, Var (Y ) = 63, σX ≈ 8
2σ-Intervall [74, 106], P(74 ≤ Y ≤ 106) ≈ 0, 96
σY
Länge 32 und
≈ 18%
E (Y )
5 / 59
Zufällige Schwankungen
Signifikante Abweichungen
Testen von Hypothesen
Weitere Beispiele
Achtung: Bei kleinen Stichproben neigt man dazu, die Schwankungen
zu unterschätzen.
6 / 59
Zufällige Schwankungen
Signifikante Abweichungen
Testen von Hypothesen
Weitere Beispiele
Wahrscheinlichkeiten schätzen
Beispiel: Stelle durch eine Überschlagsrechnung fest, welche der
”
vorgeschlagenen Antworten zu den folgenden Fragen am besten
paßt. Eine faire Münze wird 10-mal (100-mal bzw. 1000-mal)
geworfen. Die Wahrscheinlichkeit, daß genau die Hälfte Köpfe sind,
ist ungefähr 25%, 10%, 5% oder 1%?“
Quelle: H. Dinges, H. Rost: Prinzipien der Stochastik. Stuttgart: Teubner, 1982
Schätzen – eine wichtige, aber im Mathematikunterricht oft
vernachlässigte Fähigkeit
Aufgabenformat herausfordernd, ähnlich Känguru-Aufgaben
Es muss nicht immer ein Anwendungskontext sein.
7 / 59
Zufällige Schwankungen
Signifikante Abweichungen
Testen von Hypothesen
Weitere Beispiele
An – Ereignis Genau n2 Wappen bei n Würfen“, pn = P(An ).
”
Die Wahrscheinlichkeiten pn fallen mit wachsender Anzahl der
Würfe.
n = 10: Bei Gleichverteilung hätte jede Anzahl die
1
Wahrscheinlichkeit 11
. Die Binomialverteilung B(10; 0, 5) hat
bei 5 ein deutliches Maximum, folglich P(X = 5) ≈ 0, 25.
n = 100: Das 1 · σ-Intervall [45; 55] hat rund 68%
Wahrscheinlichkeit. Das sind durchschnittlich mehr als 6% pro
Wert. Der wahrscheinlichste Wert hat vermutlich rund 10%
Wahrscheinlichkeit.
8 / 59
Zufällige Schwankungen
Signifikante Abweichungen
Testen von Hypothesen
Weitere Beispiele
√
n = 1000: Es ist σ = 250 ≈ 16. Das 1 · σ-Intervall [484; 516]
hat rund 68% Wahrscheinlichkeit. Das sind durchschnittlich
mehr als 2% pro Wert. Also passt 5% oder 1%
Wahrscheinlichkeit.
Mit Hilfe der Stirlingschen Formel kann man zeigen, dass
P(X2n = n) ≈ √
1
π·n
ist, wenn X2n die Anzahl der Erfolge in einer Bernoulli-Kette
der Länge 2n mit Erfolgswahrscheinlichkeit 0,5 bezeichnet.
P(X1000 = 500) ≈
√ 1
π·500
≈ 0, 025
9 / 59
Zufällige Schwankungen
Signifikante Abweichungen
Testen von Hypothesen
Weitere Beispiele
Signifikant, signifikant, signifikant, ...
10 / 59
Zufällige Schwankungen
Signifikante Abweichungen
Testen von Hypothesen
Weitere Beispiele
Signifikant, signifikant, signifikant, ...
11 / 59
Zufällige Schwankungen
Signifikante Abweichungen
Testen von Hypothesen
Weitere Beispiele
Wikipedia, die freie Enzyklopädie:
Statistische Signifikanz:
”
In der Statistik heißen Unterschiede oder Zusammenhänge
signifikant, wenn die Wahrscheinlichkeit gering ist, dass sie durch
Zufall zustande gekommen sind.“
12 / 59
Zufällige Schwankungen
Signifikante Abweichungen
Testen von Hypothesen
Weitere Beispiele
Beispiel der tea tasting Lady
historisch relevantes Beispiel
Streit zwischen den bedeutenden Pionieren der Statistik, Sir
Ronald A. Fisher (1890-1962) und Jerzy Neyman (1894-1981),
um unterschiedliche Vorstellungen vom Testbegriff
Lady behauptet, sie könne durch Kosten feststellen, ob zuerst
der Tee oder zuerst die Milch in die Tasse gegossen wurden.
Es wird jeweils umgerührt.
vgl. z.B. U. Krengel: Einführung in die Wahrscheinlichkeitstheorie und Statistik. Braunschweig/Wiesbaden:
Vieweg, 2000
13 / 59
Zufällige Schwankungen
Signifikante Abweichungen
Testen von Hypothesen
Weitere Beispiele
Versuchsanordnung: Lady bekommt 20-mal 2 Tassen – eine
vom Typ 1, eine vom Typ 2, in zufälliger Reihenfolge, und soll
sie klassifizieren.
X sei die Anzahl der Erfolge der Lady.
Die Versuchsdurchführung sei so, dass X ∼ B(20; p)
gerechtfertigt ist.
Wenn die Lady nur rät, dann p = 0, 5.
Im Modell B(20; 0, 5) gilt
E (X ) = 10
P(X ≥ 15) = 0, 02
P(X ≥ 14) = 0, 06
In der Statistik heißen Unterschiede oder Zusammenhänge
”
signifikant, wenn die Wahrscheinlichkeit gering ist, dass sie durch
Zufall zustande gekommen sind.“
14 / 59
Zufällige Schwankungen
Signifikante Abweichungen
Testen von Hypothesen
Weitere Beispiele
Im Modell B(20; 0, 5) ist die Wahrscheinlichkeit, dass durch Zufall
15 oder mehr Erfolge eintreten, sehr gering. Sie beträgt 0,02.
Diese Abweichung vom Erwartungswert (um mindestens 5) ist
signifikant auf dem Signifikanzniveau 0,05, weil 0, 02 < 0, 05
ist.
15 / 59
Zufällige Schwankungen
Signifikante Abweichungen
Testen von Hypothesen
Weitere Beispiele
Mindestens 15 Erfolge sind nicht signifikant auf dem
Signifikanzniveau 0,01, weil 0, 02 > 0, 01 ist. Auf diesem
Signifikanzniveau wären 16 oder mehr Erfolge signifikant.
16 / 59
Zufällige Schwankungen
Signifikante Abweichungen
Testen von Hypothesen
Weitere Beispiele
Signifikant auf dem Niveau α
Es sei 0 < α < 1. Im Rahmen eines Modells mit der
Wahrscheinlichkeitsverteilung P ist eine Abweichung k einer
Zufallsgröße X von ihrem Erwartungswert E (X ) eine signifikante
Abweichung nach oben auf dem Signifikanzniveau α, wenn gilt
P(X − E (X ) ≥ k) ≤ α
Signifikant an sich gibt es nicht!
Standardwerte für Signifikanzniveaus: 0, 05; 0, 02; 0, 01
Je nach Problemstellung: Abweichung nach oben, Abweichung
nach unten, Abweichung dem Betrage nach
17 / 59
Zufällige Schwankungen
Signifikante Abweichungen
Testen von Hypothesen
Weitere Beispiele
Tea tasting lady
Gütefunktion
Zusammenfassung
Beispiel Tea tasting lady
Hypothese H: Lady rät, Alternative A: Lady besitzt Fähigkeit
Hypothese und Alternative beschreiben konkurrierende
Modelle.
H: p = 0, 5, A: p > 0, 5
Testgröße: Anzahl X der Erfolge bei 20 Versuchen.
Entscheidungsregel:
Viele Erfolge sprechen gegen H und für A. Wie viele?
Unter H sind 15 oder mehr Erfolge sehr unwahrscheinlich
(Wahrscheinlichkeit 0,02).
18 / 59
Zufällige Schwankungen
Signifikante Abweichungen
Testen von Hypothesen
Weitere Beispiele
Tea tasting lady
Gütefunktion
Zusammenfassung
Brücke zur Erfahrungswelt (Kolmogorow):
Wenn P(A) sehr klein ist, dann kann man praktisch sicher
sein, dass A bei einmaliger Beobachtung des Vorgangs nicht
eintreten wird.
Entscheidungsregel:
Wenn X ≥ 15 beobachtet wird, lehne H ab.
Wenn X < 15 beobachtet wird, behalte H bei.
Das Ereignis K = {X ≥ 15} heißt kritischer Bereich oder
Verwerfungsbereich des Tests.
Eigenschaft dieser Entscheidungsregel:
Ist H das richtige“ Modell, dann lehnen wir die Hypothese H
”
mit einer Wahrscheinlichkeit von 0,02 fälschlicherweise ab.
Fehler 1. Art
19 / 59
Zufällige Schwankungen
Signifikante Abweichungen
Testen von Hypothesen
Weitere Beispiele
Tea tasting lady
Gütefunktion
Zusammenfassung
K beschreibt einen Signifikanztest zum Signifikanzniveau
α ≥ 0, 02.
Testen heißt also zunächst:
eine Testgröße auf signifikante Abweichungen im Rahmen des
durch H gegebenen Modells zu untersuchen.
Das Signifikanzniveau wird vorher benannt.
Der kritische Bereich richtet sich nach der Alternative A.
Testen heißt auch:
Die Konsequenzen der Entscheidung untersuchen.
Fehler 2. Art: H fälschlicherweise beibehalten.
Hat die Lady eine faire Chance?
20 / 59
Zufällige Schwankungen
Signifikante Abweichungen
Testen von Hypothesen
Weitere Beispiele
Tea tasting lady
Gütefunktion
Zusammenfassung
Was ist, wenn z.B. p = 0, 7 das richtige“ Modell ist?
”
Unter A mit p = 0, 7 gilt X ∼ B(20; 0, 7).
P(X ≥ 15) = 0, 42 und P(X < 15) = 0, 58.
Wenn p = 0, 7 gilt, dann entscheiden wir uns mit
Wahrscheinlichkeit 0,42 richtig und begehen mit
Wahrscheinlichkeit 0,58 einen Fehler, indem wir H
beibehalten, weil die Lady zufällig zu wenige Tassen richtig
klassifiziert hat.
Fehler 2. Art: H beibehalten, obwohl A richtig.
21 / 59
Zufällige Schwankungen
Signifikante Abweichungen
Testen von Hypothesen
Weitere Beispiele
Tea tasting lady
Gütefunktion
Zusammenfassung
Gütefunktion – Konsequenzen der Entscheidungsregel auf
einen Blick
β(p) = P(p) (X ≥ 15) – Ablehnungswahrscheinlichkeit von H
in Abhängigkeit von der Erfolgswahrscheinlichkeit p.
Funktionale Betrachtung.
Das ist keine bedingte Wahrscheinlichkeit.
22 / 59
Zufällige Schwankungen
Signifikante Abweichungen
Testen von Hypothesen
Weitere Beispiele
Tea tasting lady
Gütefunktion
Zusammenfassung
OC-Funktion oder Operationscharakteristik OC (p) = 1 − β(p)
gibt für p > 0, 5 die Wahrscheinlichkeit des Fehlers 2. Art an.
Fehler 2. Art: H fälschlicherweise beibehalten
23 / 59
Zufällige Schwankungen
Signifikante Abweichungen
Testen von Hypothesen
Weitere Beispiele
Tea tasting lady
Gütefunktion
Zusammenfassung
Wahrscheinlichkeiten für Fehler 1. und 2. Art verhalten sich
gegenläufig.
24 / 59
Zufällige Schwankungen
Signifikante Abweichungen
Testen von Hypothesen
Weitere Beispiele
Tea tasting lady
Gütefunktion
Zusammenfassung
Wie kann die Lady eine faire Chance bekommen?
Für p = 0, 7 soll β(p) = P(p) (X ≥ 15) mindestens 0,8
betragen.
Das Signifikanzniveau soll weiterhin 0,05 betragen.
Nur möglich mit größerem n.
25 / 59
Zufällige Schwankungen
Signifikante Abweichungen
Testen von Hypothesen
Weitere Beispiele
Tea tasting lady
Gütefunktion
Zusammenfassung
Probieren mit Tabellenkalkulationsprogramm:
n = 39, K = {X ≥ 25}, P(0,5) (X ≥ 25) = 0, 05,
P(0,7) (X ≥ 25) = 0, 84
26 / 59
Zufällige Schwankungen
Signifikante Abweichungen
Testen von Hypothesen
Weitere Beispiele
Tea tasting lady
Gütefunktion
Zusammenfassung
Testen von Hypothesen
Aufgabe der beurteilenden Statistik
Wahrscheinlichkeitstheorie stellt Modelle für reale Vorgänge
bereit
Gesucht sind Entscheidungen über Modellparameter
(z. B. p in B(n, p)), Unabhängigkeit, Modelltyp
(z. B. N(µ, σ 2 )), ...
Hypothesen beschreiben konkurrierende Modelle
Entscheidung für oder gegen ein Modell auf der Grundlage
zufallsabhängiger Daten
27 / 59
Zufällige Schwankungen
Signifikante Abweichungen
Testen von Hypothesen
Weitere Beispiele
Tea tasting lady
Gütefunktion
Zusammenfassung
Testgröße abhängig von Alternative,
Problem: geeignete Testgröße
Es gibt kein wahr oder falsch, keine sicheren Aussagen
Ablehnung von H bedeutet nicht, dass H falsch ist
Beibehalten von H bedeutet nicht, dass H richtig ist.
Asymmetrie von H und A
H beschreibt oft den gesicherten, konservativen“
”
Standpunkt, das etablierte Modell
A beschreibt z.B. die Forschungshypothese
P(H ist falsch) hat in unserer Sicht keinen Sinn.
28 / 59
Zufällige Schwankungen
Signifikante Abweichungen
Testen von Hypothesen
Weitere Beispiele
Tea tasting lady
Gütefunktion
Zusammenfassung
Was bedeutet es, wenn eine Hypothese H auf dem
Signifikanzniveau α abgelehnt wird?
Die Testgröße ist in einen Bereich gefallen, dessen
Wahrscheinlichkeit unter H höchstens α beträgt.
Das durch H gegebene Modell bietet keine gute Erklärung
für das beobachtete Ereignis.
Es bedeutet nicht P(H ist falsch) ≤ α.
29 / 59
Zufällige Schwankungen
Signifikante Abweichungen
Testen von Hypothesen
Weitere Beispiele
Tea tasting lady
Gütefunktion
Zusammenfassung
Was bedeutet es, wenn eine Hypothese H auf dem
Signifikanzniveau α beibehalten wird?
Die beobachteten Daten sind mit dem durch H gegebenen Modell
verträglich“, sie bieten keinen hinreichenden Anlass, H zu
”
verwerfen.
Es bedeutet nicht P(H ist richtig) ≥ 1 − α.
Wenn man H möglichst selten ablehnen will, wähle man ein sehr
kleines α.
Wenn man signifikante Ergebnisse melden will, wähle man ein
großes α.
Das beobachtete Signifikanzniveau: Die unter H berechnete
Wahrscheinlichkeit für ein mindestens so extremes Ergebnis wie
das beobachtete.
30 / 59
Zufällige Schwankungen
Signifikante Abweichungen
Testen von Hypothesen
Weitere Beispiele
Tea tasting lady
Gütefunktion
Zusammenfassung
Quelle: Stochastik Grundkurs. Düsseldorf: Cornelsen, 1989.
20 Wissenschaftler haben zu einer Forschungshypothese geforscht
und einen Signifikanztest zum Niveau 5% durchgeführt.
Was ist passiert?
31 / 59
Zufällige Schwankungen
Signifikante Abweichungen
Testen von Hypothesen
Weitere Beispiele
Identifizieren von W-Z-Folgen
Klassenarbeit
Geschmackstest
Folge A:
ZWZW
WZWW
ZWZW
WWZW
ZWZW
ZZWZ
ZWWZ
WZZW
ZWZW
WZZW
WWWW
WZZW
ZWWW
WWZZ
WZZW
ZWWZ
ZWWZ
ZWZZ
WWZW
ZWZZ
ZWZW
ZWZZ
ZWZW
WZWW
WWZW
WZWW
WZWW
ZWWZ
WZZW
ZZWZ
ZWWZ
ZWZW
ZWZZ
WZWZ
ZZWZ
WZWW
ZZWZ
WZWW
ZWWW
ZWWZ
WWWZ
WZZW
ZWWZ
WZZW
ZZZW
ZZWW
WWZZ
ZZWW
ZZWW
ZWZZ
Folge B:
WZZW
WWWZ
ZWZZ
WZZW
ZZWW
ZZWW
WWWW
WWZW
WWWW
WZZZ
ZZZZ
WWWW
WWZW
ZZWW
WWWZ
WWZW
ZZWZ
ZZZW
ZWZZ
ZWZZ
WZZW
ZWZW
ZZWW
WWWW
WWZZ
ZWZW
WWZZ
ZWWW
ZZZW
ZZZZ
ZWWZ
ZZWW
WZZW
WZZZ
ZWZZ
WWZW
ZZWZ
WZWW
WWZZ
ZZZW
ZZZZ
ZWZZ
ZZWW
WWZZ
WZZZ
ZZZW
ZZZW
WZZW
WWWZ
WWWZ
Welche ist echt?
32 / 59
Zufällige Schwankungen
Signifikante Abweichungen
Testen von Hypothesen
Weitere Beispiele
Identifizieren von W-Z-Folgen
Klassenarbeit
Geschmackstest
Rahmen:
p – Wahrscheinlichkeit für Wappen
Testgröße: X – Anzahl der Wappen bei 200 Würfen
Modellklasse: B(200, p)
konkrete Modelle: H: p = 21 , A : p 6=
1
2
Signifikanzniveau: α = 0, 05
Kritischer Bereich: Gegen H sprechen sehr viele oder sehr
wenige Erfolge
Wegen α = 0, 05 wähle 2σ-Intervall (n ist groß genug)
Ablehnungsbereich K = {X ≤ 85 oder X ≥ 115}
33 / 59
Zufällige Schwankungen
Signifikante Abweichungen
Testen von Hypothesen
Weitere Beispiele
Identifizieren von W-Z-Folgen
Klassenarbeit
Geschmackstest
Entscheidungsregel:
Wenn X ≤ 85 oder X ≥ 115 beobachtet wird, lehne H ab.
Wenn 86 ≤ X ≤ 114 beobachtet wird, behalte H bei.
Ist H das richtige“ Modell, dann lehnen wir H mit
”
Wahrscheinlichkeit kleiner oder gleich 0,05 fälschlicherweise
ab.
Folge A: X = 104; Folge B: X = 96
In beiden Fällen H beibehalten.
Den Test hätte auch die Folge WZWZWZ... bestanden.
Haben wir etwas übersehen?
34 / 59
Zufällige Schwankungen
Signifikante Abweichungen
Testen von Hypothesen
Weitere Beispiele
Identifizieren von W-Z-Folgen
Klassenarbeit
Geschmackstest
Modellklasse: X ∼ B(200, p)
X zählt die Anzahl der Erfolge in einer Bernoulli-Kette,
d.h. unabhängige Teilversuche
Wie Unabhängigkeit erfassen?
Run
Ein Run ist eine Folge aufeinanderfolgender gleicher Symbole.
Beispiel: Z W Z W W Z Z Z W hat 6 Runs.
Eine echte Münzwurffolge hat weniger Runs, als man gewöhnlich
denkt.
35 / 59
Zufällige Schwankungen
Signifikante Abweichungen
Testen von Hypothesen
Weitere Beispiele
Identifizieren von W-Z-Folgen
Klassenarbeit
Geschmackstest
H: unabhängige Münzwürfe
A: keine unabhängigen Münzwürfe
Testgröße: Anzahl der Runs Rn
Brauchen die Verteilung von Rn unter H
Annahme: Münze symmetrisch
Einfache Anwendung des Zählalgorithmus mit wenig
überraschendem Ergebnis
36 / 59
Zufällige Schwankungen
Signifikante Abweichungen
Testen von Hypothesen
Weitere Beispiele
Identifizieren von W-Z-Folgen
Klassenarbeit
Geschmackstest
Ergebnismenge
Ω = {(w1 , w2 , . . . , wn ) : wi ∈ {W, Z} für alle i}
|Ω| = 2n , gleichwahrscheinliche Ergebnisse
k Runs ⇔ k − 1 Wechsel von W auf Z oder umgekehrt.
Beispiel: Z W Z W W Z Z Z W
Zählalgorithmus:
2 Möglichkeiten
für w1
n−1
je
Möglichkeiten für k − 1 Wechsel
k −1
an den Stellen w2 , w3 , . . . , wn
P(Rn = k) =
2
n−1
k−1
2n
n−1
k−1
2n−1
=
, k = 1, 2, . . . , n
37 / 59
Zufällige Schwankungen
Signifikante Abweichungen
Testen von Hypothesen
Weitere Beispiele
Identifizieren von W-Z-Folgen
Klassenarbeit
Geschmackstest
geschickte Umformung:
Yn = Rn − 1
P(Yn = k) = P(Rn = k + 1)
n−1
k
, k = 0, 2, . . . , n − 1
2n−1
k n−1−k
n−1
1
1
=
, k = 0, 1, . . . , n − 1
k
2
2
=
folglich Yn ∼ B(n − 1, 21 )
38 / 59
Zufällige Schwankungen
Signifikante Abweichungen
Testen von Hypothesen
Weitere Beispiele
Identifizieren von W-Z-Folgen
Klassenarbeit
Geschmackstest
Yn ∼ B(n − 1, 12 ), Rn = Yn + 1
n+1
2
Var (Rn ) = Var (Yn + 1) = Var (Yn ) = (n − 1) 14
√
σYn = 21 n − 1
E (Rn ) = E (Yn ) + 1 = (n − 1) 12 + 1 =
2σ-Intervall: Für große n
n+1 √
n+1 √
− n − 1 ≤ Rn ≤
+ n − 1 ≈ 0, 95
P
2
2
liefert Annahmebereich für H für einen Signifikanztest auf
dem Niveau 0,05.
39 / 59
Zufällige Schwankungen
Signifikante Abweichungen
Testen von Hypothesen
Weitere Beispiele
Identifizieren von W-Z-Folgen
Klassenarbeit
Geschmackstest
n = 200: 2σ-Intervall für R200 : [87; 114]
allgemeine Entscheidungsregel:
87 ≤ Rn ≤ 114 ⇒ H beibehalten
Rn < 87 oder Rn > 114 ⇒ H ablehnen.
konkrete Stichproben
Folge A: R200 = 123 ⇒ H ablehnen
Folge B: R200 = 92 ⇒ H beibehalten
Wir halten B für die echte“ Münzwurffolge.
”
Unser Schluss ist nicht sicher. Unter H ist E (R200 ) = 100, 5.
Bei Folge A wurde R200 = 123 beobachtet. Das ist eine
bemerkenswerte = signifikante Abweichung vom unter H
erwarteten Wert, und zwar auf dem Signifikanzniveau 0,05.
40 / 59
Zufällige Schwankungen
Signifikante Abweichungen
Testen von Hypothesen
Weitere Beispiele
Identifizieren von W-Z-Folgen
Klassenarbeit
Geschmackstest
Man hätte hier auch einseitig testen können.
beobachtetes Signifikanzniveau bei einseitigem Test:
P(R200 ≥ 123) = P(Y200 + 1 ≥ 123)
= P(Y200 ≥ 122)
= 0, 0011.
Die beobachtete Anzahl von Runs in Folge A ist signifikant
auf jedem Niveau α ≥ 0, 0011.
41 / 59
Zufällige Schwankungen
Signifikante Abweichungen
Testen von Hypothesen
Weitere Beispiele
Identifizieren von W-Z-Folgen
Klassenarbeit
Geschmackstest
Klassenarbeit im Multiple-Choice-Format
20 Fragen, je drei Antworten, genau eine richtig
Ab wie vielen richtigen Antworten soll man eine 4 bekommen?
Simulationen: Wir würfeln die Antworten.
Auswertung der Simulationen
Was müsste bei einem, der nicht nur rät, anders sein?
Wann würde ich das Modell p =
1
3
verwerfen? Vorschläge?
X – Anzahl der Erfolge (richtigen Antworten)
Annahmen:
unabhängige Fragen
konstante Erfolgswahrscheinlichkeit p
42 / 59
Zufällige Schwankungen
Signifikante Abweichungen
Testen von Hypothesen
Weitere Beispiele
Identifizieren von W-Z-Folgen
Klassenarbeit
Geschmackstest
Modellverteilung B(20, 31 ) und Häufigkeitsverteilungen
bei 30 Simulationen.
43 / 59
Zufällige Schwankungen
Signifikante Abweichungen
Testen von Hypothesen
Weitere Beispiele
Identifizieren von W-Z-Folgen
Klassenarbeit
Geschmackstest
Modellverteilung B(20, 31 ) und Häufigkeitsverteilungen
bei 30 Simulationen.
44 / 59
Zufällige Schwankungen
Signifikante Abweichungen
Testen von Hypothesen
Weitere Beispiele
Identifizieren von W-Z-Folgen
Klassenarbeit
Geschmackstest
Verschiedene Testszenarien
1.
H: p =
1
3
gegen A: p >
1
3
Standpunkt: Der Schüler muss mich überzeugen, dass er nicht
nur rät.
Fehler 1. Art: H ablehnen, obwohl richtig,
d.h. Lehrer gibt 4, obwohl Schüler nur rät.
Das will dieser Lehrer natürlich möglichst selten tun, deshalb
P( 31 ) (X ≥ k) ≤ α
Fixieren α = 0, 05. Es folgt k = 11, d.h. mindestens 11 richtige
Antworten für Note 4.
P( 13 ) (X ≥ 11) ≈ 0, 04
45 / 59
Zufällige Schwankungen
Signifikante Abweichungen
Testen von Hypothesen
Weitere Beispiele
Identifizieren von W-Z-Folgen
Klassenarbeit
Geschmackstest
noch 1.
Fehler 2. Art: H beibehalten, obwohl falsch,
d.h. Lehrer gibt 5, obwohl Schüler etwas weiß.
Gütefunktion: β(p) = P(p) (X ≥ 11) = 1 − P(p) (X ≤ 10)
46 / 59
Zufällige Schwankungen
Signifikante Abweichungen
Testen von Hypothesen
Weitere Beispiele
Identifizieren von W-Z-Folgen
Klassenarbeit
Geschmackstest
noch 1.
β(0, 6) = 0, 76, Wahrscheinlichkeit für Fehler 2. Art bei
Erfolgswahrscheinlichkeit p = 0, 6 beträgt also 0,24.
2.
H: p >
1
3
gegen A: p ≤
1
3
Standpunkt: Der Schüler muss mich überzeugen, dass er nichts
weiß.
Fehler 1. Art: H ablehnen, obwohl richtig,
d.h. Lehrer gibt 5, obwohl Schüler etwas weiß.
Das will dieser Lehrer natürlich möglichst selten tun, deshalb
P(p) (X ≤ k) ≤ α für alle p >
1
3
47 / 59
Zufällige Schwankungen
Signifikante Abweichungen
Testen von Hypothesen
Weitere Beispiele
Identifizieren von W-Z-Folgen
Klassenarbeit
Geschmackstest
noch 2.
Hypothese und Alternative zusammengesetzt
Es reicht, die Signifikanzbedingung für p = 13 zu erfüllen.
Fixieren α = 0, 06. Es folgt k = 3, d.h. mindestens 4 richtige
Antworten für Note 4.
48 / 59
Zufällige Schwankungen
Signifikante Abweichungen
Testen von Hypothesen
Weitere Beispiele
Identifizieren von W-Z-Folgen
Klassenarbeit
Geschmackstest
noch 2.
Gütefunktion: β(p) = P(p) (X ≤ 3)
β(0, 2) = 0, 41, Wahrscheinlichkeit für Fehler 2. Art bei
Erfolgswahrscheinlichkeit p = 0, 2 beträgt also 0,59.
Vorsicht mit Multiple-Choice-Tests.
49 / 59
Zufällige Schwankungen
Signifikante Abweichungen
Testen von Hypothesen
Weitere Beispiele
Identifizieren von W-Z-Folgen
Klassenarbeit
Geschmackstest
Geschmackstest
Quelle: Lambacher Schweizer. Mathematik Klasse 7
Gymnasium. Stuttgart: Klett, 2003.
Koautor: Wolfgang Riemer, Lehrer, Lehrbuchautor
spezifische interessante Beiträge zur Didaktik der Stochastik
Erfinder der Riemer-Würfel
50 / 59
Zufällige Schwankungen
Signifikante Abweichungen
Testen von Hypothesen
Weitere Beispiele
Identifizieren von W-Z-Folgen
Klassenarbeit
Geschmackstest
51 / 59
Zufällige Schwankungen
Signifikante Abweichungen
Testen von Hypothesen
Weitere Beispiele
Identifizieren von W-Z-Folgen
Klassenarbeit
Geschmackstest
52 / 59
Zufällige Schwankungen
Signifikante Abweichungen
Testen von Hypothesen
Weitere Beispiele
Identifizieren von W-Z-Folgen
Klassenarbeit
Geschmackstest
Wenn hohe Trefferzahlen (3 oder 4) sehr viel öfter auftreten, als
”
nach den Wahrscheinlichkeiten zu erwarten wäre, kann zumindest
ein größerer Teil der Testteilnehmer und -teilnehmerinnen die
Milchsorten geschmacklich unterscheiden.“
Trefferzahl
Wahrscheinlichkeit
rel. Häufigkeit
0
6,25%
11%
1
25%
19%
2
37,5%
30%
3
25%
33%
4
6,25%
7%
Was heißt sehr viel öfter“?
”
53 / 59
Zufällige Schwankungen
Signifikante Abweichungen
Testen von Hypothesen
Weitere Beispiele
Identifizieren von W-Z-Folgen
Klassenarbeit
Geschmackstest
χ2 -Anpassungstest
Karl Pearson (1857-1936), Vater von Egon S. Pearson
Modellklasse: n unabhängige gleichartige Teilexperimente mit
je s möglichen Ausgängen. Der Ausgang ak hat in jedem
Teilexperiment die Wahrscheinlichkeit pk
(Polynomialverteilung).
Test, ob eine beobachtete Häufigkeitsverteilung mit einer
gegebenen Modellverteilung verträglich ist.
54 / 59
Zufällige Schwankungen
Signifikante Abweichungen
Testen von Hypothesen
Weitere Beispiele
Identifizieren von W-Z-Folgen
Klassenarbeit
Geschmackstest
Xk – Anzahl der Teilexperimente mit Ausgang ak
Xk ∼ B(n, pk )
E (Xk ) = n · pk
Zufallsgrößen X1 , . . . , Xs nicht unabhängig, denn
X1 + . . . + Xs = n.
Im Geschmackstest:
Ausgänge: 0, 1, . . . , 4 Treffer
unabhängige Teilexperimente: Schüler urteilen unabhängig
konstante Wahrscheinlichkeiten pk : Schüler urteilen mit
derselben Trefferwahrscheinlichkeit
Raten: pk = k4 · 0, 54
55 / 59
Zufällige Schwankungen
Signifikante Abweichungen
Testen von Hypothesen
Weitere Beispiele
Trefferzahl
pk
27 · pk
xk
H: P(k) = pk =
4
k
A: P(k) 6= pk =
4
k
0
0,625
1,7
3
Identifizieren von W-Z-Folgen
Klassenarbeit
Geschmackstest
1
0,25
6,8
5
2
0,375
10,1
8
3
0,25
6,8
9
· 0, 54 für alle k
· 0, 54 für mindestens ein k
4
0,625
1,7
2
Testgröße:
χ2 =
X (Xk − npk )2
npk
k
Große Werte von
χ2
sprechen gegen H.
56 / 59
Zufällige Schwankungen
Signifikante Abweichungen
Testen von Hypothesen
Weitere Beispiele
Identifizieren von W-Z-Folgen
Klassenarbeit
Geschmackstest
Signifikanztest zum Signifikanzniveau α : P(H) (χ2 ≥ k) ≤ α
Verteilung von χ2 ?
P (Xk − npk )2
P E ((Xk − npk )2 )
2
=
E (χ ) = E
npk
npk
k
k
P
P npk (1 − pk )
=
(1 − pk )
=
npk
k
k
= s −1
K. Pearsons Entdeckung (1900): Für große n besitzt χ2
näherungsweise eine Verteilung, die nur von s abhängt, die
χ2 -Verteilung mit s − 1 Freiheitsgraden.
Verteilung ist tabelliert, kritische Werte können abgelesen werden.
57 / 59
Zufällige Schwankungen
Signifikante Abweichungen
Testen von Hypothesen
Weitere Beispiele
Identifizieren von W-Z-Folgen
Klassenarbeit
Geschmackstest
Meist reicht
Var (χ2 ) ≈ 2(s − 1)
Faustregel: Für große n gilt
P(χ2 ≥ s − 1 + 2
p
2(s − 1)) ≤ 0, 05
(2σ-Schranke)
Faustregeln: npk ≥ 2(3, 4, 5)
gegebenenfalls Ausgänge zusammenfassen
58 / 59
Zufällige Schwankungen
Signifikante Abweichungen
Testen von Hypothesen
Weitere Beispiele
Trefferzahl
pk
27 · pk
xk
χ2 =
Identifizieren von W-Z-Folgen
Klassenarbeit
Geschmackstest
0,1
2
3,4
5
16
6
16
5
16
8,4
8
10,1
8
8,4
11
(8, 4 − 8)2 (10, 1 − 8)2 (8, 4 − 11)2
+
+
≈ 1, 3
8, 4
10, 1
8, 4
s = 3 und α = 0, 05 ergibt aus Tabelle kritischen Wert k = 6
Die Daten geben keinen hinreichenden Anlass, die Hypothese H zu
verwerfen, d.h. die Schüler schmecken keinen Unterschied.
Man beachte die Annahmen!
59 / 59
Herunterladen