Prof. Dr. Roland Füss Statistik II SS 2008 5. Spezielle Testverfahren Zahlreiche parametrische und nichtparametrische Testverfahren, die nach Testverteilung (Binomial, t-Test etc.), Analyseziel (Anpassungs- und Unabhängigkeitstest) oder Konstruktion der Prüfgröße (Vorzeichentest) benannt sind. 5.1 Tests für Median und Quantile Nullhypothese: H 0 : xMed = x0 Liegt Median (Zentralwert) vor, sind in unabhängiger Zufallsstichprobe Hälfte der Werte größer als x0 und Hälfte kleiner. Ist Anzahl deutlich kleiner oder größer, muss H 0 verworfen werden. 1 Prof. Dr. Roland Füss Statistik II SS 2008 Einfacher Vorzeichentest Prüfstatistik = Anzahl Stichprobenwerte größer als Hypothesenwert V + = Anzahl der Werte X i > x0 Ist x0 der Median, dann ist Wahrscheinlichkeit in der Stichprobe ein größeres Element zu finden p = 0.5 und V + ist eine binomialverteilte Zufallsvariable mit n und p = 0.5 : H0 : p = 1 2 2 Prof. Dr. Roland Füss Statistik II SS 2008 Binomialtest: 1. einseitiger Test: H 0 : p ≥ 0.5 gegen H1 : p < 0.5 mit P(V + < b) ≤ α 2. oberseitiger Test: H 0 : p ≤ 0.5 gegen H1 : p > 0.5 mit P(V + < b) ≤ α 3. zweiseitiger Test: H 0 : p = 0.5 gegen H1 : p ≠ 0.5 mit P(V + < bunten ) ≤ α 2 und P(V + > boben ) ≤ α 2 3 Prof. Dr. Roland Füss Statistik II SS 2008 = verteilungsfreier Test; für n > 25 kann Normalverteilung herangezogen werden unter Berücksichtigung der Stetigkeitskorrektur (V + + 0.5) − n / 2 ≈ Z (annähernd standardnormalvert.) n/2 Test ist nicht nur für kardinale (metrische) Daten, sondern auch für ordinale Daten xi verwendbar! 4 Prof. Dr. Roland Füss Statistik II SS 2008 Test für Quantile Analog zu Median kann für andere Qunatile ebenfalls Vorzeichentest durchgeführt werden: H 0 : x[ q] = x0 d.h. 100 ⋅ q% der Werte kleiner und 100 ⋅ (1 − q )% größer als hypothetischer Wert x0 und es gilt die Nullhypothese: H 0 : p = (1 − q ) zu testen (mit krit. Werten für Testgröße V + aus Binomialverteilung ( n , 1 − q ) 5 Prof. Dr. Roland Füss Statistik II SS 2008 Für große n gilt (V + + 0.5) − n(1 − q ) ≈Z nq(1 − q ) 5.2 Anpassungstests Viele statistische Methoden setzen voraus, dass das interessierende Merkmal eine bestimmte Wahrscheinlichkeitsverteilung besitzt. Ob die beobachteten Daten mit einer bestimmten Verteilung der Zufallsvariablen vereinbar sind, kann man mit Hilfe eines Anpassungstests überprüfen. 6 Prof. Dr. Roland Füss Statistik II SS 2008 Der Anpassungstest vergleicht die gegebenen Daten mit einer hypothetischen Verteilung und entscheidet, ob die Beobachtungsdaten zu dieser Verteilung „passen“ oder nicht. χ 2 -Anpassungstest Bei diesem Test wird eine empirisch gewonnene Verteilung (oder eine Stichprobe) mit einer vorgegebenen theoretischen Verteilung F0 verglichen, um dann die Entscheidung zu treffen, ob die empirische Verteilung so stark von der theoretischen abweicht, dass die Nullhypothese ( H 0 : F = F0 ) verworfen werden muss. 7 Statistik II Prof. Dr. Roland Füss SS 2008 F : unbekannte Wahrscheinlichkeitsverteilung, aus der die Stichprobe stammt, also die Verteilung in der Grundgesamtheit. F0 : theoretische Verteilung (z.B. Normal-, Poisson-, Binomialverteilung usw.). H1 : F ( x ) ≠ F 0 ( x ) H0 : F ( x ) = F 0 ( x ) ; k T = ∑ i = 1 ( ni − ei ei )2 ni2 − n = ∑ i = 1 ei k Die Testgröße T ist χ 2 -verteilt mit ν = k − 1 Freiheitsgraden. 8 Statistik II Prof. Dr. Roland Füss SS 2008 i = 1,…, k = Merkmale bzw. Klassen ni = empirisch beobachtete Werte (absolute Häufigkeiten), ei = n ⋅ f ( xi ) = theoretisch erwartete Werte im diskreten Fall, ei = n ⋅ ∆Fi ( x ) = theoretisch erwartete Werte im stetigen Fall k k wobei: ∑ n = ∑ e =n i i=1 i i=1 5.3 Unabhängigkeitstest Test auf Übereinstimmung zwischen empirisch beobachteten Häufigkeiten. 9 Statistik II Prof. Dr. Roland Füss SS 2008 Gegeben seien zwei gemeinsam verteilte Zufallsvariablen X und Y . Es soll geprüft werden, ob X und Y stochastisch unabhängig sind. H 0 : X und Y sind unabhängig H 1 : X und Y sind abhängig k T=∑ i=1 l ( n ij − e ij ) j=1 e ij ∑ 2 nij ( i = 1,…, k ; j = 1,…, l ) und den theoretisch erwarteten Häufigkeiten eij , die eintreffen würden, wenn X und Y unabhängig wären. 10 Prof. Dr. Roland Füss Statistik II SS 2008 Unabhängigkeitsannahme: fij = fi i ⋅ f i j nij = empirisch beobachtete Häufigkeiten eij = n ⋅ fi i ⋅ f i j = 1 / n ⋅ ni i ⋅ ni j = theoretisch erwartete Häufigkeiten Die Testgröße T ist χ 2 -verteilt mit ν = ( k − 1)(l − 1) Freiheitsgraden. 11 Prof. Dr. Roland Füss Statistik II SS 2008 5.4 Homogenitätstest Mit Homogenitätstest werden die Hypothesen der Form H 0 : F1 = F2 = … = Fm H1 : Fi ≠ Fj für mindestens ein Paar (i, j ) Fragestellung: Können zwei oder mehr unabhängige empirische Stichproben eines Merkmals als Stichproben aus derselben Grundgesamtheit bzw. aus Grundgesamtheiten, welche dieselbe Verteilung haben, aufgefasst werden. 12 Prof. Dr. Roland Füss Statistik II SS 2008 Ausgangssituation: Kontingenztabelle mit entsprechenden Randverteilungen Die erwarteten Häufigkeiten ergeben sich analog zum Homogenitätstest: eij = 1 / n ⋅ ni i ⋅ ni j unter Verwendung der Stichprobeninformation und der Nullhypothese. Je mehr nij von eij abweichen, um so eher ist zu vermuten, dass H 0 nicht zutrifft. m k T = ∑∑ i=1 j=1 ( n ij − e ij ) e ij 2 > χ (2m −1)( k −1) [1 − α ] ⇒ H 0 verwerfen ! 13 Statistik II Prof. Dr. Roland Füss SS 2008 Hommogenitäts- und χ 2 -Test sind eng verwandt, da Hypothese der Unabhängigkeit besagt, dass bedingte Verteilungen alle gleich sind. Bei Homogenitätstest entsprechen die bedingten Verteilungen aber den einzelnen Verteilungen F1 = F2 = … = Fm in der Hypothese. 5.5 Test auf Korrelation Empirische Korrelationskoeffizient (Bravais-Pearson): r= sxy sx ⋅ s y mit −1 ≤ r ≤ +1 14 Prof. Dr. Roland Füss Statistik II SS 2008 Korrelationskoeffizient misst linearer statistischer Zusammenhang von metrischen Daten. Fragestellung: Ob von Korrelationskoeffizient aus einer Stichprobe r auf eine Korrelation ρ in Grundgesamtheit bzw. in der der Stichprobe zugrundeliegenden Wahrscheinlichkeitsverteilung geschlossen werden kann? H0 : ρ = 0 Der Korrelationskoeffizient r in einer Stichprobe ist eine Realisation einer Zufallsvariablen R . 15 Prof. Dr. Roland Füss Dabei ist die Größe R ⋅ Statistik II SS 2008 n−2 = Tn − 2 unter der H 0 t -verteilt mit n − 2 Freiheits1 − R2 graden, wenn X und Y gemeinsam normalverteilt sind. Entscheidungsregel bei zweiseitigem Test: r⋅ n−2 > tn − 2 [1 − α / 2] ⇒ H 0 verwerfen ! 2 1− r Die Entscheidung, ob der Korrelationskoeffizient in der Stichprobe groß genug ist, um auf Korrelation in der Grundgesamtheit schließen zu können, hängt von dem gewählten Signifikanzniveau und vom Stichprobenumfang ab. 16 Prof. Dr. Roland Füss Statistik II SS 2008 Rangkorrelationskoeffizient (nach Spearman) rs = 1 − 6 ⋅ ∑ di2 ( i 2 ) n n −1 mit di = Rg ( x ) − Rg ( y ) für ordinalskalierte Variablen. H 0 : ρ Sp = 0 17 Prof. Dr. Roland Füss Statistik II SS 2008 Die Zufallsvariable R Sp ist hinlänglich normalverteilt mit Erwartungswert Null und Varianz V ( R Sp ) = 1 / ( n − 1) . Die Testentscheidung lautet für einen zweiseitigen Test: r Sp ⋅ n − 1 > z[1 − α / 2] ⇒ H 0 verwerfen ! 5.6 Varianzanalyse (ANOVA) Anhand von m > 2 unabhängigen Zufallsstichproben soll geprüft werden, ob Verteilungen, aus denen sie entnommen sind, alle den gleichen Mittelwert haben oder nicht: 18 Prof. Dr. Roland Füss Statistik II SS 2008 H 0 : µ1 = µ2 = … = µm H1 : mindestens zwei der µi sind verschieden Gegeben: Stichproben n1,…, nm , Mittelwerte x1,…, xm und Varianzen s12 ,…, s22 sowie Zusammenfassung zur Gesamtstichprobe vom Umfang und Gesamtmittelwert: n = ∑ ni und xges = 1 ∑ ni xi n Die Varianz kann aus den m einzelnen Varianzen und den Mittelwerten als Summe von interner und externer Varianz berechnet werden: 19 Prof. Dr. Roland Füss Gesamtvarianz: s 2 ges Statistik II SS 2008 1 m 1 m 2 = ∑ ni si + ∑ ni ( xi − xges )2 n i =1 n i =1 1 m ni interne Varianz: s = ∑∑ ( xij − xi )2 n i =1 j =1 2 int 2 ext externe Varianz: s 1. 1 m = ∑ ni ( xi − xges )2 n i =1 interne Varianz = gewichtete Mittel aus Varianzen innerhalb der m Gruppen bzw. Stichproben. 2. externe Varianz = Varianz der Mittelwerte x , also die Varianz zwischen den Gruppen bzw. Stichproben 20 Statistik II Prof. Dr. Roland Füss SS 2008 Entscheidungsregel basiert auf Verhältnis von externer zu interner Varianz, d.h. H 0 wird verworfen, wenn Prüfgröße: 2 sext 1 2 sext 1 − m = > Fnm−−m1[1 − α ] 1 sint2 n−m Die Teststatistik ist bei Annahme der Normalverteilung und gleicher Varianz sowie der Nullhypothese gleicher Mittelwerte F-verteilt. 21