Fragestellungen beim Testen 1. Vergleiche Unterscheidet sich die Stichprobenbeobachtung von einer vorher spezifizierten Erwartung (”Hypothese”) mit ausreichender Sicherheit? GRUNDPRINZIPIEN → Empirisches Signifikanzniveau (p-Wert) statistischen 2. Entscheide Testens Wie groß sind die Fehler, wenn man sich für oder gegen bestimmte Hypothesen entscheidet? → Fehler 1. und 2. Art Sommersemester 2008 Sommersemester 2008 Logik des statistischen Testens Logik des statistischen Testens Berechnen Sie die Wahrscheinlichkeit p für ein zufälliges Ergebnis in der Stichprobe, mit einem gleichen oder noch größeren Unterschied, unter der Annahme, dass kein wahrer Unterschied vorliegt (d.h. falls die Nullhypothese gilt). ■ Beobachtet: Unterschied zwischen zwei Raten pˆ A > pˆ B ? p A > pB ■ Skeptiker: Zufallsbefund ! ■ Problem: Wie argumentieren Sie gegen den Skeptiker, dass es Statistischer Schluss sich doch um einen realen Unterschied handeln könnte? ■ Ansatz: 2 Angenommen, der Skeptiker hätte Recht: “Kein realer Unterschied (Nullhypothese)”: p = p A Je kleiner p, desto unplausibler der Einwand des Skeptikers B ¾ dann müsste die Beobachtung als bloßer Nullhypothese verwerfen? Zufallseffekt zu interpretieren sein. Sommersemester 2008 3 Sommersemester 2008 4 Prüfgrößen Logik des statistischen Testens Erinnerung: Frage: Zufallseffekt oder systematischer Effekt? ■ Beim Ziehen von Stichproben sind zusammengesetzte Zielgrößen wie zB: Skeptische Grundhaltung ■ Man glaubt (zunächst) nicht an einen systematischen Effekt - Anzahl von Erfolgen ■ Sondern versucht die Beobachtungen allein durch einen - Mittelwerte selbst Zufallsvariable Zufallseffekt zu erklären (Nullhypothese) Grundidee des Testens Wie wahrscheinlich ist eine solche Man kann die Zufallsverteilungen solcher Größen unter vorgegebenen Prüf-Hypothesen berechnen (genauer Verteilungen von Prüfgrößen) (oder noch extremere) Beobachtung, wenn sie nur zufallsbedingt zustande käme? und mit den Beobachtungen vergleichen Sommersemester 2008 5 Sommersemester 2008 6 1 Hypothesen fixieren Prüfverteilungen Beispiel ■ Eine Hypothese im statistischen Sinne ist eine Annahme Forschungshypothese Sportstudenten lernen aufgrund ihrer motorischen Erfahrungen eine neue Sportart (bzw. neue Technik) in geringerer Zeit als Studenten anderer Fachrichtungen Beispiel: Tiefe Rollwende beim Kraulschwimmen darüber, dass ein Zufallsprozess sich nach einer bestimmten Zufallsverteilung der Prüfgröße verhält Sprechweise “Unter der Hypothese” liegt die Verteilung der relevanten zu prüfenden Zufallsgröße fest (d.h. die Verteilung der Prüfgröße) Nullhypothese H0: mittlere Zeitdauer bei Sportstudenten Die Frage ist, wo nun der Prüfwert der konkreten Stichprobe in Bezug zu dieser Prüfverteilung unter der Nullhypothese (H0) liegt? Sommersemester 2008 μSportstudenten mittlere Zeitdauer bei Studenten anderer Fachrichtungen 7 Sommersemester 2008 Statistische Hypothese Nullhypothese H0: mittlere Zeitdauer bei Sportstudenten = 8 Empirische Daten = mittlere Zeitdauer bei Studenten anderer Fachrichtungen = μ andere Studenten Konkrete Daten einer Stichprobe: =01−02=−3 h [ 01=5h ] 02=8h 1 Sportstudenten, 2 Studenten andere Fachrichtungen = Frage: Ist die Differenz auf Zufallsschwankungen zurückzuführen ? μ Sportstudenten μ andere Studenten Sommersemester 2008 9 Sommersemester 2008 10 t-Verteilung Prüfgröße •Theoretische Annahme (H0) ermöglicht die Konstruktion einer Prüfverteilung. Diese zeigt alle möglichen Mittelwertsdifferenzen zweier Stichproben, wenn diese aus Populationen mit identischem Mittelwert μ stammen würden. N (0, 1) fx 0,3 0,2 n = 40 n=4 s01-02 0 x1 − x2 -2,0 t= x1 − x2 SE x1 − x2 t-verteilt Sommersemester 2008 -1,0 0 1,0 2,0 x ▪ tn,α : symmetrisch zu Null ▪ für kleine n: breit und flach ▪ für n → ∞ →N (0, 1) •Bestimmung der Wahrscheinlichkeit für die beobachtete Mittelwertsdifferenz. •Standardisierung Ö Prüfgröße: n=2 0,1 11 Sommersemester 2008 12 2 Hypothesentestung Hypothesentestung 2. Die Stichprobe führt zu Beobachtungen, die mehr oder weniger im Zentrum der Prüfverteilung liegen und mit der Hypothese vereinbar sind 1. Die Hypothese legt eine Prüfverteilung fest je nach Art der Prüfgröße Prüfverteilung unter H0 Prüfverteilung unter H0 (d.h. Erwartung des Skeptikers) (d.h. Erwartung des Skeptikers) z.B.: t-verteilte Prüfgröße z.B.: t-verteilte Prüfgröße ● ● 2 1 Prüfgrößen der Stichproben Beobachtete Prüfgrößen aus Stichproben Sommersemester 2008 13 Sommersemester 2008 14 Nullhypothese Nullhypothese 2 Sir Fisher’s Antwort 1 • Stichprobe ist unter H0 nicht extrem • nicht als Indiz gegen H0 verwendbar ■ Wie wahrscheinlich ist es, unter der vorgegebenen Nullhypothese noch extremere Stichproben zu erhalten, als diejenige, die man beobachtet hat? empirisches Signifikanzniveau p-Wert • Stichprobe ist unter H0 ziemlich extrem • spricht eher gegen H0 • Hinweis für eine nicht zufällige, d.h. systematische Abweichung Wenn die Prüfverteilung festliegt (d.h. unter H0), kann die Wahrscheinlichkeit berechnet werden, ein noch extremeres Ergebnis zufällig zu erhalten, als beobachtet. 2 1 Sommersemester 2008 15 Sommersemester 2008 Empirisches Signifikanzniveau p - Wert Überschreitungswahrscheinlichkeit Das Empirische Signifikanzniveau p-Wert Empirisches Nominelles Beobachtetes 16 ist eines der wesentlichen Konzepte in der angewandten Statistik Signifikanzniveau ■ Der p-Wert ist die Wahrscheinlichkeit "p-Wert" -bei einer Wiederholung des Experimentes unter identischen Bedingungen (frequentistisches Paradigma) -unter Gültigkeit der Nullhypothese (und der aus ihr resultierenden Wahrscheinlichkeitsverteilung) ■ Gibt an, mit welcher Wahrscheinlichkeit unter der Annahme der Nullhypothese eine weitere Stichprobe einen Prüfwert liefern würde, der noch extremer ist als der bereits beobachtete. Æ noch extremere Ergebnisse zu erzielen, als in der beobachteten Stichprobe ■ p-Werte sind eine Quantifizierung des Ausmaßes an Information gegen des Skeptiker - kleine p-Werte argumentieren gegen H0 Sommersemester 2008 17 Sommersemester 2008 18 3 Testentscheidung Testentscheidungen Testen als Entscheidung für oder gegen die Null-Hypothese ■ BISHER wurde keine Entscheidung getroffen, ob man die NullHypothese (d.h. Zufallseffekt als Erklärungsmodell) akzeptieren soll, Dichte der Prüfgröße oder ob man seinen Standpunkt zugunsten eines systematischen Effektes aufgeben soll. α-Wert Verschieden starke Skeptiker werden diese Entscheidung vom Maß des p-Wertes abhängig machen p-Wert ● Stichprobe Annahmebereich der H0 Entscheidungsgrenze Keine feste Regel ! Konventionen (historisch begründet Sir Fisher) z.B. 0,05 z.B. 0,003 Prüfgröße Ablehnbereich der H0 Signifikanzniveau (Irrtumswahrscheinlichkeit) α : 0,05 oder 0,01 Sommersemester 2008 19 Sommersemester 2008 Unterscheide: 20 Entscheidungsverfahren ■ Fällt die Realisierung der Stichprobe Irrtumswahrscheinlichkeit α (vorgegebenes Signifikanzniveau α) p-Wert a) in den Annahmebereich, so wird die Nullhypothese nicht verworfen, sondern beibehalten (empirisches Signifikanzniveau) Festlegung a priori unabhängig von Daten Errechnet sich a posteriori aus der konkreten Stichprobe Vorgabe für die Testentscheidung bzgl. Annahme /Ablehnung basierend auf klinischen und ethischen Abwägungen Quantifizierung der Wahrscheinlichkeit, eine noch extremere Stichprobe aus der b) in den Ablehnbereich, so wird die Nullhypothese als unzutreffend verworfen und [statt dessen die AlternativHypothese angenommen], d.h. H0 ist falsifiziert GG zu ziehen, wenn H0 gilt! Erkenntnisgewinn - Es gibt einen systematischen Effekt - ABER: Dieser Schluss ist mit Wahrscheinlichkeit α falsch ! Î „Irrtumswahrscheinlichkeit“ Sommersemester 2008 21 Sommersemester 2008 Typische Fehl-Schlussweise Schlussweise statistischer Tests ■ Das Verwerfen der Nullhypothese entspricht der Erkenntnis, dass ein Untersuchungsgang systematisch stärker von einem vermuteten Ergebnis abweicht, als durch zufällige Effekte zu erwarten war. Folglich liegt ein Erkenntnisgewinn vor. ■ Im Rahmen einer kontrollierten randomisierten Studie wurden 2 Trainingsmethoden geprüft. ■ Hingegen kann man derartiges nicht schlussfolgern, wenn H0 nicht abgelehnt wurde, denn ■ Also sind die beiden Trainingsmethoden äquivalent. 1. Es kann sein, dass wirklich kein systematischer Effekt vorliegt, oder — 2. Er ist durch andere systematische oder zufällige Effekte verdeckt. Das heißt: Es liegen nicht genug Informationen vor (”weiß nicht”) 22 ■ Ein statistischer Test ergab, dass die Nullhypothese (gleicher Effekt) nicht verworfen werden konnte. Diese Schlussfolgerung ist Richtig ■ Aufgrund der in der Stichprobe vorliegenden Information lässt sich kein ausreichend großer Unterschied nachweisen, der erlauben würde, die Nullhypothese abzulehnen. Gründe ● Stichprobe zu klein → Keine Information ● Effekt ist wirklich sehr klein → Schätzen! Sommersemester 2008 23 Sommersemester 2008 24 4 Mögliche Fehlentscheidungen Zwischenbilanz – statistisches Testen Zum Beispiel: Testentscheidung aufgrund Stichprobe 1 Verteilung unter H0 H0 beibehalten α⌃ = Fehler 1. Art H0 verwerfen und HA annehmen (Irrtumswahrscheinlichkeit) ] p<α Prüfgröße wahre Situation (Grundgesamtheit) H0 richtig richtig 1− α falsch positiv α Fehler 1. Art HA richtig falsch negativ β Fehler 2. Art richtig 1− β (POWER) ■ Fehler 1. Art: Fälschliches Verwerfen der Nullhypothese ■ Fehler 2. Art: Fälschliches Beibehalten der Nullhypothese Grenze Sommersemester 2008 25 Wovon ist die POWER eines Tests abhängig? Sommersemester 2008 26 Ablaufschema für statistische Tests (1) Festlegung der Zielsetzung (Was will man wissen?) Die POWER eines Tests - - d.h. die Fähigkeit zur korrekten Ablehnung der Null Hypothese H0 steigt, wenn 1. der Stichprobenumfang erhöht wird 2. der aufzudeckende Unterschied größer gewählt wird (2) Stichproben (Versuchsplanung) - Anzahl Auswahl (Randomisation) Paarung (3) Formulierung der Hypothesen H0 und HA (4) Wahl des vorzugebenden Signifikanzniveaus α (5) Auswahl der Prüfgröße (aus 2 - 4) und der dazugehörigen Testverteilung → Wahl der Alternativ-Hypothese HA - das Irrtumsniveau α größer gewählt 3. Zielgröße Fragestellung Durchführung der Studie Datenerhebung wird Sommersemester 2008 27 Sommersemester 2008 28 Ablaufschema für statistische Tests (ff) (6) Prüfung von Testvoraussetzungen - Verteilungsannahmen Anwendbarkeit ggf. Modifikation von (5) [ ] ● (7) Ermittlung des Annahmebereiches (8) Berechnung der Prüfgröße aus der Stichprobe (9) Testentscheidung Angabe des p-Wertes: Vergleich mit α - Vergleich der berechneten Prüfgröße mit dem Quantil der Prüfverteilung (10) Interpretation der Ergebnisse mit Angabe von p Sommersemester 2008 29 5