Grundprinzipchen statistischen Testens

Werbung
Fragestellungen beim Testen
1. Vergleiche
Unterscheidet sich die Stichprobenbeobachtung
von einer vorher spezifizierten Erwartung
(”Hypothese”) mit ausreichender Sicherheit?
GRUNDPRINZIPIEN
→ Empirisches Signifikanzniveau (p-Wert)
statistischen
2. Entscheide
Testens
Wie groß sind die Fehler, wenn man sich für oder
gegen bestimmte Hypothesen entscheidet?
→ Fehler 1. und 2. Art
Sommersemester 2008
Sommersemester 2008
Logik des statistischen Testens
Logik des statistischen Testens
Berechnen Sie die Wahrscheinlichkeit p für ein zufälliges Ergebnis
in der Stichprobe, mit einem gleichen oder noch größeren
Unterschied, unter der Annahme, dass kein wahrer Unterschied
vorliegt (d.h. falls die Nullhypothese gilt).
■ Beobachtet: Unterschied zwischen zwei Raten
pˆ A > pˆ B
?
p A > pB
■ Skeptiker:
Zufallsbefund !
■ Problem:
Wie argumentieren Sie gegen den Skeptiker, dass es
Statistischer Schluss
sich doch um einen realen Unterschied handeln könnte?
■ Ansatz:
2
Angenommen, der Skeptiker hätte Recht: “Kein
realer Unterschied (Nullhypothese)”: p = p
A
Je kleiner p, desto unplausibler
der Einwand des Skeptikers
B
¾
dann müsste die Beobachtung als bloßer
Nullhypothese verwerfen?
Zufallseffekt zu interpretieren sein.
Sommersemester 2008
3
Sommersemester 2008
4
Prüfgrößen
Logik des statistischen Testens
Erinnerung:
Frage: Zufallseffekt oder systematischer Effekt?
■ Beim Ziehen von Stichproben sind zusammengesetzte
Zielgrößen wie zB:
Skeptische Grundhaltung
■ Man glaubt (zunächst) nicht an einen systematischen Effekt
- Anzahl von Erfolgen
■ Sondern versucht die Beobachtungen allein durch einen
- Mittelwerte
selbst Zufallsvariable
Zufallseffekt zu erklären (Nullhypothese)
Grundidee des Testens
Wie wahrscheinlich ist eine solche
Man kann die Zufallsverteilungen solcher Größen unter
vorgegebenen Prüf-Hypothesen berechnen (genauer
Verteilungen von Prüfgrößen)
(oder noch extremere) Beobachtung, wenn
sie nur zufallsbedingt zustande käme?
und mit den Beobachtungen vergleichen
Sommersemester 2008
5
Sommersemester 2008
6
1
Hypothesen fixieren Prüfverteilungen
Beispiel
■ Eine Hypothese im statistischen Sinne ist eine Annahme
Forschungshypothese
Sportstudenten lernen aufgrund ihrer motorischen
Erfahrungen eine neue Sportart (bzw. neue Technik) in
geringerer Zeit als Studenten anderer Fachrichtungen
Beispiel: Tiefe Rollwende beim Kraulschwimmen
darüber, dass ein Zufallsprozess sich nach einer
bestimmten Zufallsverteilung der Prüfgröße verhält
Sprechweise
“Unter der Hypothese”
liegt die Verteilung der relevanten
zu prüfenden Zufallsgröße fest
(d.h. die Verteilung der Prüfgröße)
Nullhypothese H0:
mittlere Zeitdauer
bei Sportstudenten
Die Frage ist, wo nun der Prüfwert der
konkreten Stichprobe in Bezug zu dieser
Prüfverteilung unter der Nullhypothese (H0)
liegt?
Sommersemester 2008
μSportstudenten
mittlere Zeitdauer
bei Studenten anderer
Fachrichtungen
7
Sommersemester 2008
Statistische Hypothese
Nullhypothese H0:
mittlere Zeitdauer
bei Sportstudenten
=
8
Empirische Daten
=
mittlere Zeitdauer
bei Studenten anderer
Fachrichtungen
=
μ andere Studenten
Konkrete Daten
einer Stichprobe:
=01−02=−3 h
[
01=5h
]
02=8h
1 Sportstudenten, 2 Studenten andere Fachrichtungen
=
Frage: Ist die Differenz auf Zufallsschwankungen zurückzuführen ?
μ Sportstudenten
μ andere Studenten
Sommersemester 2008
9
Sommersemester 2008
10
t-Verteilung
Prüfgröße
•Theoretische Annahme (H0) ermöglicht die Konstruktion einer Prüfverteilung.
Diese zeigt alle möglichen Mittelwertsdifferenzen zweier Stichproben, wenn
diese aus Populationen mit identischem Mittelwert μ stammen würden.
N (0, 1)
fx
0,3
0,2
n = 40
n=4
s01-02
0
x1 − x2
-2,0
t=
x1 − x2
SE x1 − x2
t-verteilt
Sommersemester 2008
-1,0
0
1,0
2,0
x
▪ tn,α : symmetrisch zu Null
▪ für kleine n: breit und flach
▪ für n → ∞ →N (0, 1)
•Bestimmung der Wahrscheinlichkeit für die beobachtete Mittelwertsdifferenz.
•Standardisierung Ö Prüfgröße:
n=2
0,1
11
Sommersemester 2008
12
2
Hypothesentestung
Hypothesentestung
2. Die Stichprobe führt zu Beobachtungen, die mehr oder
weniger im Zentrum der Prüfverteilung liegen und mit
der Hypothese vereinbar sind
1. Die Hypothese legt eine Prüfverteilung fest
je nach Art der Prüfgröße
Prüfverteilung unter H0
Prüfverteilung unter H0
(d.h. Erwartung des Skeptikers)
(d.h. Erwartung des Skeptikers)
z.B.: t-verteilte
Prüfgröße
z.B.: t-verteilte Prüfgröße
●
●
2
1
Prüfgrößen der
Stichproben
Beobachtete
Prüfgrößen
aus Stichproben
Sommersemester 2008
13
Sommersemester 2008
14
Nullhypothese
Nullhypothese
2
Sir Fisher’s Antwort
1
• Stichprobe ist unter H0 nicht
extrem
• nicht als Indiz gegen H0
verwendbar
■ Wie wahrscheinlich ist es, unter der vorgegebenen Nullhypothese
noch extremere Stichproben zu erhalten, als diejenige, die man
beobachtet hat?
empirisches
Signifikanzniveau
p-Wert
• Stichprobe ist unter H0 ziemlich
extrem
• spricht eher gegen H0
• Hinweis für eine nicht zufällige,
d.h. systematische Abweichung
Wenn die Prüfverteilung festliegt (d.h. unter H0),
kann die Wahrscheinlichkeit berechnet werden,
ein noch extremeres Ergebnis zufällig zu erhalten,
als beobachtet.
2
1
Sommersemester 2008
15
Sommersemester 2008
Empirisches Signifikanzniveau
p - Wert
Überschreitungswahrscheinlichkeit
Das Empirische Signifikanzniveau
p-Wert
Empirisches
Nominelles
Beobachtetes
16
ist eines der wesentlichen Konzepte
in der angewandten Statistik
Signifikanzniveau
■ Der p-Wert ist die Wahrscheinlichkeit
"p-Wert"
-bei einer Wiederholung des Experimentes unter identischen Bedingungen
(frequentistisches Paradigma)
-unter Gültigkeit der Nullhypothese (und der aus ihr resultierenden
Wahrscheinlichkeitsverteilung)
■ Gibt an, mit welcher Wahrscheinlichkeit unter der
Annahme der Nullhypothese eine weitere Stichprobe
einen Prüfwert liefern würde, der noch extremer ist
als der bereits beobachtete.
Æ noch
extremere Ergebnisse zu erzielen, als in der
beobachteten Stichprobe
■ p-Werte sind eine Quantifizierung des Ausmaßes an Information
gegen des Skeptiker
- kleine p-Werte argumentieren gegen H0
Sommersemester 2008
17
Sommersemester 2008
18
3
Testentscheidung
Testentscheidungen
Testen als Entscheidung für oder gegen die Null-Hypothese
■ BISHER wurde keine Entscheidung getroffen, ob man die NullHypothese (d.h. Zufallseffekt als Erklärungsmodell) akzeptieren soll,
Dichte der
Prüfgröße
oder ob man seinen Standpunkt zugunsten eines systematischen
Effektes aufgeben soll.
α-Wert
Verschieden starke Skeptiker werden diese
Entscheidung vom Maß des p-Wertes
abhängig machen
p-Wert
●
Stichprobe
Annahmebereich der H0
Entscheidungsgrenze
Keine feste Regel !
Konventionen (historisch begründet Sir Fisher)
z.B. 0,05
z.B. 0,003
Prüfgröße
Ablehnbereich der H0
Signifikanzniveau (Irrtumswahrscheinlichkeit) α : 0,05 oder 0,01
Sommersemester 2008
19
Sommersemester 2008
Unterscheide:
20
Entscheidungsverfahren
■ Fällt die Realisierung der Stichprobe
Irrtumswahrscheinlichkeit α
(vorgegebenes
Signifikanzniveau α)
p-Wert
a) in den Annahmebereich, so wird die Nullhypothese nicht
verworfen, sondern beibehalten
(empirisches
Signifikanzniveau)
ƒ Festlegung a priori
unabhängig von Daten
ƒ Errechnet sich a posteriori
aus der konkreten Stichprobe
ƒ Vorgabe für die Testentscheidung bzgl. Annahme
/Ablehnung basierend auf
klinischen und ethischen
Abwägungen
ƒ Quantifizierung der Wahrscheinlichkeit, eine noch
extremere Stichprobe aus der
b) in den Ablehnbereich, so wird die Nullhypothese als
unzutreffend verworfen und [statt dessen die AlternativHypothese angenommen], d.h.
H0 ist falsifiziert
GG zu ziehen, wenn H0 gilt!
Erkenntnisgewinn
- Es gibt einen systematischen Effekt
-
ABER: Dieser Schluss ist mit Wahrscheinlichkeit α falsch !
Î „Irrtumswahrscheinlichkeit“
Sommersemester 2008
21
Sommersemester 2008
Typische Fehl-Schlussweise
Schlussweise statistischer Tests
■ Das Verwerfen der Nullhypothese entspricht der Erkenntnis, dass
ein Untersuchungsgang systematisch stärker von einem
vermuteten Ergebnis abweicht, als durch zufällige Effekte zu
erwarten war. Folglich liegt ein Erkenntnisgewinn vor.
■ Im Rahmen einer kontrollierten randomisierten Studie wurden
2 Trainingsmethoden geprüft.
■ Hingegen kann man derartiges nicht schlussfolgern, wenn H0
nicht abgelehnt wurde, denn
■ Also sind die beiden Trainingsmethoden äquivalent.
1.
Es kann sein, dass wirklich kein systematischer Effekt
vorliegt, oder —
2.
Er ist durch andere systematische oder zufällige Effekte
verdeckt. Das heißt: Es liegen nicht genug Informationen
vor (”weiß nicht”)
22
■ Ein statistischer Test ergab, dass die Nullhypothese (gleicher
Effekt) nicht verworfen werden konnte.
Diese Schlussfolgerung ist
Richtig
■ Aufgrund der in der Stichprobe vorliegenden Information
lässt sich kein ausreichend großer Unterschied nachweisen,
der erlauben würde, die Nullhypothese abzulehnen.
Gründe ● Stichprobe zu klein → Keine Information
● Effekt ist wirklich sehr klein → Schätzen!
Sommersemester 2008
23
Sommersemester 2008
24
4
Mögliche Fehlentscheidungen
Zwischenbilanz – statistisches Testen
Zum Beispiel:
Testentscheidung
aufgrund Stichprobe
1 Verteilung unter H0
H0 beibehalten
α⌃
= Fehler 1. Art
H0 verwerfen und
HA annehmen
(Irrtumswahrscheinlichkeit)
]
p<α
Prüfgröße
wahre Situation (Grundgesamtheit)
H0 richtig
richtig
1− α
falsch positiv
α
Fehler 1. Art
HA richtig
falsch negativ
β
Fehler 2. Art
richtig
1− β
(POWER)
■ Fehler 1. Art: Fälschliches Verwerfen der Nullhypothese
■ Fehler 2. Art: Fälschliches Beibehalten der Nullhypothese
Grenze
Sommersemester 2008
25
Wovon ist die POWER eines Tests abhängig?
Sommersemester 2008
26
Ablaufschema für statistische Tests
(1) Festlegung der Zielsetzung (Was will man wissen?)
ƒ Die POWER eines Tests
-
- d.h. die Fähigkeit zur korrekten Ablehnung der Null
Hypothese H0 steigt, wenn
1.
der Stichprobenumfang erhöht wird
2.
der aufzudeckende Unterschied größer
gewählt wird
(2) Stichproben (Versuchsplanung)
-
Anzahl
Auswahl (Randomisation)
Paarung
(3) Formulierung der Hypothesen H0 und HA
(4) Wahl des vorzugebenden Signifikanzniveaus α
(5) Auswahl der Prüfgröße (aus 2 - 4) und der dazugehörigen
Testverteilung
→ Wahl der Alternativ-Hypothese HA
-
das Irrtumsniveau α größer gewählt
3.
Zielgröße
Fragestellung
Durchführung der Studie
Datenerhebung
wird
Sommersemester 2008
27
Sommersemester 2008
28
Ablaufschema für statistische Tests (ff)
(6) Prüfung von Testvoraussetzungen
-
Verteilungsannahmen
Anwendbarkeit
ggf. Modifikation von (5)
[
]
●
(7) Ermittlung des Annahmebereiches
(8) Berechnung der Prüfgröße aus der Stichprobe
(9) Testentscheidung
Angabe des p-Wertes: Vergleich mit α
-
Vergleich der berechneten Prüfgröße mit dem
Quantil der Prüfverteilung
(10) Interpretation der Ergebnisse mit Angabe von p
Sommersemester 2008
29
5
Herunterladen