Statistisches Testen Grundlegendes Prinzip Erwartungswert Bekannte Varianz Unbekannte Varianz Differenzen Anteilswert Chi-Quadrat Tests Gleichheit von Varianzen Prinzip des Statistischen Tests Konfidenzintervall diente dazu, um Bereich festzulegen in dem ein Schätzer mit einer gewissen Wahrscheinlichkeit liegt. Testverfahren dienen dazu, um eine Entscheidung zu treffen. Typischerweise wählt man zwischen einer Nullhypothese H0 und einer Alternative H1, die beide präzise festgelegt werden müssen. Es kann zu zwei Fehlentscheidungen kommen: H0 ist richtig, man entscheidet sich jedoch für H1. H1 ist richtig, man entscheidet sich jedoch für H0. Allgemeines zum Testprinzip: Fehler erster und zweiter Art Testentscheidung H0 H1 tatsächlich gilt H0 H1 1-α β α 1-β Fehler erster Art (α) : Wahrscheinlichkeit die Nullhypothese fälschlicherweise zu verwerfen. Fehler zweiter Art (β) : Wahrscheinlichkeit die Nullhypothese fälschlicherweise nicht zu verwerfen. Allgemeines zum Testprinzip: Fehler erster und zweiter Art Testentscheidung H0 H1 tatsächlich gilt H0 H1 1-α β α 1-β Signifikanzniveau α wird “von vorne herein festgelegt” zB.: α = 0,05 Güte bzw. Power eines Tests (1−β) : Wahrscheinlichkeit für die korrekte Verwerfung der Nullhypothese. Allgemeines zum Testprinzip: Power eines statistischen Tests Signifikanzniveau α Stichprob enumfang (+) Power eines Tests (+) Ausmaß des tatsächlichen Effektes/Unterschiedes/Zusammenhanges Test für den Erwartungswert Man sucht nach Tests die bei gegebenem Signifikanzniveau α maximale Güte haben. Typischerweise wird ein Test derart durchgeführt, dass aus den Daten einer Stichprobe eine gewisse Teststatistik T berechnet wird, die mit einem zugehörigen Ablehnbereich verglichen wird Liegt T im Ablehnbereich wird die Nullhypothese verworfen und man entscheidet sich für H1. Liegt T nicht im Ablehnbereich muss man H0 beibehalten. Die Daten sind nicht stichhaltig genug, um sich für die Alternative zu entscheiden. Test für den Erwartungswert Annahme: Stichprobe der Größe n normalverteilt mit bekannter Varianz σ und fraglichem Mittelwert µ. H0: µ = µ0 Teststatistik: H1: µ ≠ µ0 n ( x − µ0 ) T= σ Testentscheidung für H1 : Ansonsten H0 beibehalten Einseitiges und zweiseitiges Testen Zweiseitiges Testen: H0: µ = µ0 H1: µ ≠ µ0 Testentscheidung für H1 : Einseitiges Testen: H0: µ = µ0 H1: µ > µ0 Testentscheidung für H1 : H0: µ = µ0 Testentscheidung für H1 : H1: µ < µ0 Test für Erwartungswert, σ unbekannt Stichprobe der Größe n, empirische Varianz s2 H0: µ = µ0 Teststatistik: H1: µ ≠ µ0 n ( x − µ0 ) T= s Testentscheidung für H1 : Ansonsten kann H1 nicht verworfen werden. Einseitige Tests analog zu Fall mit σ bekannt Beispiel 6-1 n = 30 Beutel Speisekartoffel, Sollwert 2 kg. Im Mittel 1.88 kg, Standardabweichung s = 0.25 kg Teste zum Niveau α = 0.05 ob Beutel korrekt abgefüllt, Alternative: nicht korrekt abgefüllt H0: µ = 2, H1: µ ≠ 2, 30 (1.88 − 2) T= = −2.63 0.25 Testentscheidung für H1: Die Stichprobe bekräftigt, dass die Säcke nicht korrekt abgefüllt wurden. Beispiel 6-1, Fortsetzung Berechne für das selbe Problem ein 95%-CI (µ – xα , µ + xα ) mit CI = [1.787, 1.973] Man erkennt, dass der Sollwert 2 nicht im Konfidenzintervall für den Erwartungswert liegt. Wir sehen hier den Zusammenhang zwischen Konfidenzintervallen und Testentscheidung: Ich entscheide mich im Test zum Niveau α genau dann für H1 wenn das zu testende µ0 nicht im (1- α) – Konfidenzintervall von µ liegt. Tests für Differenz zweier Mittelwerte Aufgrund von dem Zusammenhang zwischen Tests und Konfidenzintervallen ist nun klar, dass wir beim Vergleich von Mittelwerten wiederum folgende Fälle unterscheiden: 1. Verbundene Stichproben (Vorher-Nachher Vergleich): Bilde Differenzen und teste H0: µ = µ0 gegen H1: µ ≠ µ0 2. Zwei unabhängige Stichproben • Bekannte Varianzen • Unbekannte Varianzen, in beiden Gruppen gleich • Unbekannte Varianzen, in beiden Gruppen verschieden Unabhängige Stichproben (Größe n1,n2) , bekannte Varianzen σ12 , σ22 H0: µ1 = µ2 Teststatistik: H1: µ1 ≠ µ2 µD T= σD wobei und Testentscheidung für H1 : Die Gestalt der Teststatistik ist für T-Tests typisch! Unabhängige Stichproben (Größe n1,n2) ; unbekannte Varianzen, Ann: σ12 ≠ σ22 H0: µ1 = µ2 Teststatistik: H1: µ1 ≠ µ2 µD T= sD wobei Testentscheidung für H1 : mit wobei Unabhängige Stichproben (Größe n1,n2) ; unbekannte Varianzen, Ann: σ12 = σ22 H0: µ1 = µ2 Teststatistik: H1: µ1 ≠ µ2 µD T= sP mit Testentscheidung für H1 : Tests für den Anteilswert Wie schon bei der Berechnung vom α-Konfidenzintervall für Anteilswerte benutzen wir auch beim Testen die Normalverteilungs - Approximation: Stichprobe der Größe n, H0: p = p0 , H1: p ≠ p0 Teststatistik: T= n ( pˆ − p0 ) p0 (1 − p0 ) Testentscheidung für H1 : Beachte: Kleiner Unterschied zu den Konfidenzintervallen für Anteilswerte: Verwende für die Varianz p0! Test für Differenz zweier Anteilswerte Wie für den Anteilswert selbst NormalverteilungsApproximation (im Vergleich zum Konfidenzintervall wiederum Unterschied in der Formel für sD) Stichproben der Größe n1,n2, H0: p1 = p2 , H1: p1 ≠ p2 Teststatistik: mit und pˆ 1 − pˆ 2 T= sD Bsp. 6-12 Werbekampagne: 200 Personen vorher, davon 60 pos. 400 nachher befragt, davon 240 pos. Frage: Änderung des Bekanntheitsgrades? H0: p1 = p2 , H1: p1 ≠ p2 pˆ 1 = 0.3, pˆ 2 = 0.6 pˆ 1 − pˆ 2 = −6.928 Teststatistik: T = sD Bsp. 6-12 - Fortsetzung Teststatistik: pˆ 1 − pˆ 2 T= = −6.928 sD Entscheide mich für die Alternativhypothese: Der Bekanntheitsgrad hat sich geändert! Einseitiger Test: H0: p2 · p1 , H1: p2 > p1 Entscheide mich für die Alternativhypothese: Der Bekanntheitsgrad hat sich gesteigert! Tests für kategorielle Variablen Bisher behandelten wir Tests für Eigenschaften von metrischen Variablen. Wir möchten nun kategorielle Variablen behandeln (endlich viele Ausprägungen). Typischerweise folgen in diesem Zusammenhang die Teststatistiken einer χ2 – Verteilung. Die Quantile der χ2 - Verteilung findet man in Tabelle 4, Seite 320 Wir werden 3 Situationen besprechen: 1. Test auf Unabhängigkeit zweier Variablen 2. Test auf Homogenität einer Variable zwischen Gruppen 3. Anpassungstest (eine Variable) Klassischer χ2 - Test Dieser Test wird bei zwei verschiedenen Fragestellungen angewendet: 1) Besteht ein Zusammenhang zwischen zwei kategoriellen Variablen? 2) Hat eine kategorielle Variable in zwei oder mehr Gruppen die selbe Verteilung? Test wird in beiden Situationen identisch durchgeführt. Entscheidend ist das Berechnen der Teststatistik aus einer Kreuztabelle. χ2 – Test am Beispiel von 2× 2 Tafel Frage: Gibt es einen Zusammenhang zwischen dem Geschlecht und dem Wunsch nach Lokalanästhesie vor einer Zahnbehandlung? D.h., unterscheidet sich der Anteil der Männer, die Lokalanästhesie wünschen vom Anteil der Frauen? Nullhypothese, H0: Es besteht kein Zusammenhang zwischen Geschlecht und dem Wunsch nach Lokalanästhesie. (Die Anteile sind gleich) Alternativhypothese, H1: Es besteht ein Zusammenhang zwischen Geschlecht und dem Wunsch nach Lokalanästhesie. (Die Anteile unterscheiden sich) χ2 – Test am Beispiel von 2× 2 Tafel Daten der letzten beiden Tage aus einer Zahnarztpraxis: Lokalanästhesie gewünscht nicht gewünscht Summe Männer 11 9 20 Frauen 7 13 20 Summe 18 22 40 Anteil Lokalanästhesien bei Männern: 11/20 = 55% Anteil Lokalanästhesien bei Frauen: Anteil Lokalanästhesien gesamt: 7/20 = 35% 18/40 = 45% χ2 – Test am Beispiel von 2 × 2 Tafel Angenommen, der Wunsch nach Lokalanästhesie ist tatsächlich unabhängig vom Geschlecht (d.h. bei Männern und Frauen gleich ausgeprägt), welche „Zellenhäufigkeiten“ würden wir erwarten? Lokalanästhesie gewünscht nicht gewünscht Summe Männer ? ? 20 Frauen ? ? 20 Summe 18 22 40 Anteil Lokalanästhesien gesamt: 18/40 = 45% χ2 – Test am Beispiel von 2 × 2 Tafel Angenommen, der Wunsch nach Lokalanästhesie ist tatsächlich unabhängig vom Geschlecht (d.h. bei Männern und Frauen gleich ausgeprägt), welche „Zellenhäufigkeiten“ würden wir erwarten? Lokalanästhesie gewünscht nicht gewünscht Summe Männer 9 11 20 Frauen 9 11 20 Summe 18 22 40 zB: Zelle links oben: 20*18/40 = 9. χ2 – Test Gesucht: Teststatistik, die den Abstand zwischen der “beobachteten” und der unter H0 “erwarteten” Tabelle erfaßt. beobachtet LA ja Männer Frauen Summe 11 7 18 Berechne unter H0 erwartet LA nein Summe 9 13 22 20 20 40 LA ja Männer Frauen Summe (beobachtet - erwartet) 2 ∑ erwartet 9 9 18 LA nein Summe 11 11 22 über alle 4 Zellen (11 − 9 ) 2 (9 − 11) 2 ( 7 − 9 ) 2 (13 − 11) 2 T = + + + = 1 .616 9 11 9 11 20 20 40 LA ja Männer Frauen Summe 11 7 18 LA nein Summe 9 13 22 20 20 40 Frage: Wie wahrscheinlich ist es, dieses spezielle Resultat (T = 1 .616 ) oder ein “noch extremeres” zu beobachten, unter der Annahme, dass kein Zusammenhang besteht (H0)? LA ja „Noch extremer“ ?: LA nein Summe Männer Frauen Summe 18 22 20 20 40 LA ja Männer Frauen Summe 11 7 18 LA nein Summe 9 13 22 20 20 40 Frage: Wie wahrscheinlich ist es, dieses spezielle Resultat (T = 1 .616 ) oder ein “noch extremeres” zu beobachten, unter der Annahme, dass kein Zusammenhang besteht (H0)? LA ja „Noch extremer“ ?: Männer Frauen Summe 12 6 18 LA nein Summe 8 14 22 20 20 40 LA ja LA nein Summe Männer 9 11 20 Männer 14 6 20 Frauen 9 11 20 Frauen 4 16 20 Summe 18 22 40 Summe 18 22 40 Männer 10 10 20 Männer 15 5 20 Frauen 8 12 20 Frauen 3 17 20 Summe 18 22 40 Summe 18 22 40 Männer 11 9 20 Männer 16 4 20 Frauen 7 13 20 Frauen 2 18 20 Summe 18 22 40 Summe 18 22 40 Männer 12 8 20 Männer 17 3 20 Frauen 6 14 20 Frauen 1 19 20 Summe 18 22 40 Summe 18 22 40 Männer 13 7 20 Männer 18 2 20 Frauen 5 15 20 Frauen 0 20 20 Summe 18 22 40 Summe 18 22 40 LA ja 0 0,404 1,616 3,636 6,465 LA nein Summe Männer 9 11 20 Männer 14 6 20 Frauen 9 11 20 Frauen 4 16 20 Summe 18 22 40 Summe 18 22 40 Männer 10 10 20 Männer 15 5 20 Frauen 8 12 20 Frauen 3 17 20 Summe 18 22 40 Summe 18 22 40 Männer 11 9 20 Männer 16 4 20 Frauen 7 13 20 Frauen 2 18 20 Summe 18 22 40 Summe 18 22 40 Männer 12 8 20 Männer 17 3 20 Frauen 6 14 20 Frauen 1 19 20 Summe 18 22 40 Summe 18 22 40 Männer 13 7 20 Männer 18 2 20 Frauen 5 15 20 Frauen 0 20 20 Summe 18 22 40 Summe 18 22 40 10,10 14,55 19,80 25,86 32,73 Teststatistik χ2 – Test (allgemein) Kreuztabelle mit r Zeilen und s Spalten (hij − eij ) 2 T = ∑∑ eij i =1 j =1 r Teststatistik: hij s beobachtete Häufigkeiten pro Zelle eij = hi.· h.j/n erwartete Häufigkeiten pro Zelle Entscheidung: H0 wird abgelehnt falls Der p-Wert Bisher haben wir Testentscheidungen durchgeführt, indem wir die Teststatistik mit dem kritischen Wert verglichen haben. Alternativ kann man den entsprechenden p-Wert heranziehen. p-Wert: Wahrscheinlichkeit dass unter H0 die Teststatistik (betragsmäßig) größer ist als der berechnete Wert. Testentscheidung: H0 wird abgelehnt falls p-Wert < α H0 wird beibehalten falls p-Wert ≥ α χ2 – Test mittels Computer Frage: Wie wahrscheinlich ist es in obigem Besipiel, dieses spezielle Resultat (T = 1 .616 ) oder ein “noch extremeres” zu beobachten, wenn kein Zusammenhang besteht (H0)? Antwort: (mittels Computer) Gesuchte Wahrscheinlichkeit für T = 1.616 p = 0,2036 p-Wert > α = 0.05 Beide Ungleichungen sagen aus, dass H0 nicht verworfen werden kann! Durchführung des Tests mittels Computer 1) Formulieren von H0 und H1 Frequency | 1| 2| Total ---------|--------|--------|----------1 | 11 | 9 | 20 |--------|--------| 2 | 7 | 13 | 20 |--------|--------| Total | 18 | 22 | 40 2) Signifikanzniveau festlegen, z.B.: α = 0.05 3) Passenden Test auswählen und durchführen 4) p-Wert berechnen 5) p-Wert mit Signifikanzniveau vergleichen 6) Testentscheidung: Statistics for Table of geschl by Lokanae Statistic DF Value Prob ------------------------------------------Chi-Square 1 1.6162 0.2036 wenn p < α H0 verwerfen wenn p > α H0 nicht verwefen Anpassungstest Gegeben sei ein Merkmal mit m Ausprägungen. Aufgrund von n Beobachtungen sollen folgende Hypothesen getestet werden: H0: P(j-te Ausprägung) = pj H1: Mindestens eine Ausprägung hat nicht die vorgegebene Wahrscheinlichkeit pj Typisches Beispiel - Test auf Gleichverteilung: pj = 1/m Anpassungstest: Teststatistik (hi − ei ) T =∑ ei i =1 m Teststatistik: h1,…, hm, 2 beobachtete absolute Häufigkeiten ei = n · pi, erwartete absolute Häufigkeiten Entscheidung: H0 wird abgelehnt falls Die Quantile der χ2 - Verteilung findet man in Tabelle 4, Seite 320 Beispiel 6-13 Handelsvertreter besucht täglich 20 Kunden Abschlüsse 0 1 2 >2 Tage 30 34 21 5 Teste ob Kunden unabhängig voneinander mit p=0.05 ein Geschäft mit dem Vertreter abschließen (α = 0.01) Anzahl der täglichen Abschlüsse unter H0 binomialverteilt mit n=20 und p=0.05 Erwartete Tage mit k Abschlüssen: 90 P(X=k) Beispiel 6-13 Fortsetzung Abschlüsse 0 1 2 >2 Tage 30 34 21 5 32.2 33.9 17.0 6.8 Unter H0 erwartet Teststatistik: 2.2 2 0.12 4 2 1.82 + + + = 1.6 32.2 33.9 17.0 6.8 Aus Tabelle 4 entnimmt man H0 kann nicht verworfen werden. Test auf Gleichheit von Varianzen Die Verteilung des Quotienten zweier χ2 – verteilter Zufallsgrößen heißt F-Verteilung Betrachte H0: Die Verteilungen zweier unabhängige Stichproben der Größe n1 und n2 haben gleiche Varianz s12 T= 2 s2 ist F-verteilt H0: σ1 = σ2 , H1: σ1 ≠ σ2 H0 wird beibehalten falls Quantile der F-Verteilung Für n, m ≥ 1 und 0 < γ < 1 gilt Beachte die vertauschte Reihenfolge der Freiheitsgrade!