Formelsammlung zur Lehrveranstaltung Statistik für Betriebswirte 30. März 2016 Inhaltsverzeichnis 1 Beschreibende Statistik 1.1 Eindimensionale Daten . . . . . . . . . . . 1.1.1 Parameter . . . . . . . . . . . . . . 1.1.2 Graphiken . . . . . . . . . . . . . . 1.2 Zweidimensionale Daten . . . . . . . . . . 1.3 Konzentrationsmaße . . . . . . . . . . . . 1.4 Zeitreihen . . . . . . . . . . . . . . . . . . 1.5 Indizes . . . . . . . . . . . . . . . . . . . . 1.5.1 Indexzahlen . . . . . . . . . . . . . 1.5.2 Umbasierung einer Indexreihe . . . 1.5.3 Verknüpfung von zwei Indexreihen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1 1 1 2 4 7 8 10 10 10 10 2 Grundlagen der Wahrscheinlichkeitsrechnung 2.1 zufällige Ereignisse und Wahrscheinlichkeiten . . . . . . . . . . . . . . . 2.1.1 zufällige Ereignisse (A, B) . . . . . . . . . . . . . . . . . . . . . 2.1.2 Definition der Wahrscheinlichkeit . . . . . . . . . . . . . . . . . 2.1.3 Rechengesetze . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2.1.4 Bedingte Wahrscheinlichkeiten und stochastische Unabhängigkeit 2.1.5 Kombinatorische Formeln . . . . . . . . . . . . . . . . . . . . . 2.2 Zufallsgrößen und deren Charakteristika . . . . . . . . . . . . . . . . . 2.2.1 Diskret verteilte Zufallsgrößen . . . . . . . . . . . . . . . . . . . 2.2.2 Stetig verteilte Zufallsgrößen . . . . . . . . . . . . . . . . . . . . 2.2.3 Erwartungswert, Varianz, Standardabweichung und Kovarianz . 2.3 Wichtige Wahrscheinlichkeitsverteilungen . . . . . . . . . . . . . . . . 2.3.1 Diskrete Verteilungen . . . . . . . . . . . . . . . . . . . . . . . . 2.3.2 Stetige Verteilungen . . . . . . . . . . . . . . . . . . . . . . . . 11 11 11 11 12 12 13 14 15 16 17 18 18 22 3 Grundlagen des statistischen Schließens I (Schätzungen) 3.1 Stichproben . . . . . . . . . . . . . . . . . . 3.1.1 Stichprobenfunktionen . . . . . . . . 3.1.2 Stichprobenplanung, Datengewinnung 3.2 Parameterschätzungen . . . . . . . . . . . . 3.2.1 Punktschätzungen . . . . . . . . . . 3.2.2 Konfidenzschätzungen . . . . . . . . . . . . . . 32 32 32 33 36 36 37 . . . . . . . 40 40 40 42 43 49 51 51 4 Grundlagen des statistischen Schließens II 4.1 Signifikanztest für Verteilungsparameter . 4.1.1 Statistische Tests . . . . . . . . . . 4.1.2 p-value (p-Wert) . . . . . . . . . . 4.1.3 Parametertests . . . . . . . . . . . 4.1.4 Nichtparametrische Tests . . . . . . 4.2 Stichprobenpläne zur Qualitätskontrolle . . 4.2.1 (n, c)-Stichprobenplan . . . . . . . . . . . . . . . . . . . . . . . . . . . . . durch Stichproben . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . (Tests) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4.3 4.2.2 Approximative Berechnung eines (n, c)-Stichprobenplanes . . . . 4.2.3 Sequentielle Stichprobenpläne . . . . . . . . . . . . . . . . . . . Kontrollkarten . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5 Varianzanalyse 5.1 Einfache Klassifikation . . . . . . . . . 5.1.1 Test bei Normalverteilung . . . 5.1.2 Kruskal-Wallis-Test . . . . . . . 5.2 Zweifache Klassifikation . . . . . . . . 5.2.1 Schätzung der Modellparameter . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 52 52 53 55 55 55 56 56 58 6 Korrelationsanalyse 6.1 Zwei Merkmale . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 6.1.1 Gewöhnlicher Korrelationskoeffizient (Bravais-Pearsonscher Korrelationskoeffizient) . . . . . . . . . . . . . . . . . . . . . . . . . 6.1.2 Spearmansche Rangkorrelation . . . . . . . . . . . . . . . . . . 6.1.3 Kendallsche Rangkorrelation (Kendalls τ ) . . . . . . . . . . . . 6.2 p > 2 Merkmale . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 6.2.1 Partieller Korrelationskoeffizient . . . . . . . . . . . . . . . . . . 6.2.2 Multipler Korrelationskoeffizient . . . . . . . . . . . . . . . . . . 59 59 7 Regressionsanalyse 7.1 Lineare Regressionsanalyse . . . . . . . . . . . . 7.1.1 Einfache lineare Regression . . . . . . . 7.1.2 Multiple (parameter-) lineare Regression 7.2 Regression mit qualitativen Merkmalen . . . . . 7.2.1 Logit-Modell . . . . . . . . . . . . . . . 7.2.2 Probit-Modell . . . . . . . . . . . . . . . 64 64 64 68 70 70 70 8 Anhang . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 59 61 62 63 63 63 71 3 1 1.1 Beschreibende Statistik Eindimensionale Daten Stichprobe eines Merkmals X mit Stichprobenumfang n: x1 , x2 , . . . , xn . Geordnete Stichprobe: x(1) ≤ x(2) ≤ . . . ≤ x(n) . 1.1.1 Parameter Lageparameter empirischer Modalwert: Wert mit der größten Häufigkeit in der Stichprobe. empirisches α− Quantil: { falls n · α nicht ganzzahlig : k ist die auf n · α folgende ganze Zahl; x(k) , x̃α = 1 (x(k) + x(k+1) ), falls n · α ganzzahlig : k = n · α. 2 empirischer Median (α = 0.5): x̃ = x̃0.5 . unterer Viertelwert (unteres Quartil) (α = 0.25): Vu = x̃0.25 . oberer Viertelwert (oberes Quartil) (α = 0.75): Vo = x̃0.75 . arithmetisches Mittel: 1∑ x= xi . n i=1 n Streumaße empirische Varianz (Stichprobenstreuung): n n n 1 ∑ 1 [ ∑ 2 1 ( ∑ )2 ] (xi − x)2 = xi − xi . s2 = n − 1 i=1 n − 1 i=1 n i=1 empirische Standardabweichung: s= √ s2 . Quartilsabstand: d = Vo − Vu . empirischer Variationskoeffizient: v= s . x 1 1.1.2 Graphiken Die Häufigkeitsverteilung einer kategoriellen Variable X kann als Kreisdiagramm oder als Balkendiagramm dargestellt werden. Kreisdiagramm Balkendiagramm gruppiert: gestapelt: 2 Histogramm: Die Häufigkeitsverteilung eines metrischen Merkmals X kann durch ein Histogramm dargestellt werden. Ein Histogramm erfordert die Einteilung der Merkmalsachse in aneinandergrenzende Klassen. Die Fläche der Rechtecke über den Klassen ist proportional zur Häufigkeit des Merkmales in der Klasse. Das optische Bild eines Histogrammes ist stark abhängig von der gewählten Klasseneinteilung. Ein Histogramm kann als Schätzung der Wahrscheinlichkeitsdichte einer stetigen Zufallsvariable verwendet werden. (Es gibt allerdings wesentlich bessere Dichteschätzer.) Box-Plot untere Ausreißergrenze: Au = Vu − 1, 5 · d, obere Ausreißergrenze: Ao = Vo + 1, 5 · d. Die Ausreißergrenzen werden nicht mit dargestellt. Die Whisker gehen bis zum (kleinsten) größten Wert der geordneten Stichprobe innerhalb der Ausreißergrenzen. 3 1.2 Zweidimensionale Daten Zwei kategorielle Merkmale X (k Kategorien) und Y (l Kategorien) sind gekreuzt (jede Kategorie des Merkmals X kann mit jeder Kategorie des Merkmals Y vorkommen). Kontigenztafel (bzw. Kreuztabelle): X\Y 1 .. . 1 H11 .. . k Hk1 ... ... ... ... l H1l .. . Hij - Anzahl Merkmal X in Kategorie i und Y in j. Hkl Balkendiagramm: gruppiert: gestapelt: Mosaik-Diagramm Ein Zusammenhang bzw. eine Abhängigkeit zwischen den Merkmalen zeigt sich in den bedingten Häufigkeiten. Diese lassen sich in einem Mosaikplot darstellen. 4 Vergleich zweier (unverbundener) metrischer Merkmale X und Y . Stichprobe des Merkmals X mit Stichprobenumfang n: x1 , x2 , . . . , xn . Stichprobe des Merkmals Y mit Stichprobenumfang m: y1 , y2 , . . . , ym . Histogramme Box-Plots 5 Streudiagramm An n Objekten werden 2 metrische Merkmale X und Y beobachtet. D.h. Stichprobe eines 2-dimensionalen Merkmalsvektors (X, Y ) mit Stichprobenumfang n: (x1 , y1 ), (x2 , y2 ), . . . , (xn , yn ). r = 0.9375 empirischer Korrelationskoeffizient: n ∑ rx,y = (xi − x)(yi − y) √ ni=1 ∑ n ∑ (xi − x)2 (yi − y)2 i=1 i=1 6 . 1.3 Konzentrationsmaße X n - positives metrisches Merkmal - Objekte Die Merkmalsausprägungen werden der Größe nach geordnet: 0 ≤ x(1) ≤ x(2) ≤ . . . ≤ x(n) . i Anteil der ersten i Objekte an der Gesamtanzahl n, n i ∑ x(k) k=1 = ∑ Anteil der Merkmalssumme der ersten i Objekte an der Gesamtmerkmalssumme. n x(k) ui = vi k=1 Lorenzkurve: 1.0 Lorenzkurven 0.0 0.2 0.4 v 0.6 0.8 Nettoäquivalenzeinkommen (2005) Anteile am Einkommensteueraufkommen (2007) 0.0 0.2 0.4 0.6 0.8 1.0 u Gini-Koeffizient: n n 1∑ 1 2 ∑ G=1− (vi + vi−1 ) = 1 + − · vi n i=1 n n i=1 Minimale Konzentration: x1 = x2 = . . . = xn =⇒ G = 0. Maximale Konzentration: x1 = x2 = . . . = xn−1 = 0 und xn > 0 =⇒ G= n−1 . n Klassiertes Merkmal (m - Klassen) Hi hi Mi - Anzahl der Objekte in der i-ten Klasse - relative Anzahl der Objekte in der i-ten Klasse - Merkmalssumme in der i-ten Klasse ui = i ∑ k=1 i ∑ hk , vi = k=1 m ∑ Mk i = 1, . . . m Mk und G=1− m ∑ i=1 k=1 7 hi (vi + vi−1 ) . 1.4 Zeitreihen 3.9e+07 3.7e+07 3.8e+07 Erwerbstätige 4.0e+07 Zeitreihe 1995 2000 2005 2010 Jahr Additives Zeitreihenmodell mit Trendkomponente xt = gt + rt T xt gt rt ... ... ... ... t = 1, 2, . . . , T gleichabständige Zeitpunkte Entwicklung des Merkmales über die Zeit glatte Komponente (Trend) irreguläre Komponente (zufällig) Trenderkennung mittels Glättung (Smoothing): gleitende Durchschnitte (moving average): x∗t = ungerade Ordnung (2k + 1): 1 2k+1 k ∑ xt+j ( x∗t = gerade Ordnung (2k): ) j=−k 1 2k 1 x 2 t−k + k−1 ∑ j=−k+1 xt+j + 12 xt+k Zeitreihe 3.9e+07 3.8e+07 3.7e+07 Erwerbstätige 4.0e+07 Glättung (Ordnung 12) 1995 2000 Jahr 8 2005 2010 Additives Zeitreihenmodell mit Trend- und Saisonkomponente xt = gt + st + rt st ... t = 1, 2, . . . , T Saisonkomponente Die Saisonkomponente ist periodisch mit Periode p und schwankt um 0: p ∑ sj = 0. st = st+p und j=1 Schätzung der Saisonkomponente: Bilde die gleitenden Durchschnitte x∗t der Ordnung n · p (n natürliche Zahl, meist n = 1). Ist np = 2k gerade, so ist k = np . Bei ungerader Ordnung (2k + 1) ist k = np−1 . 2 2 Für j = 1, .., p sind mj : die kleinste ganze Zahl, so dass k + 1 ≤ j + mj · p ≤ T − k und nj : die größte ganze Zahl, so dass k + 1 ≤ j + (mj + nj ) · p ≤ T − k. ĝt = x∗t dt = xt − ĝt nj +mj 1 ∑ dj = dj+lp nj l=m Trendschätzung: trendbereinigte Zeitreihe: Phasenmittel: t = k + 1, . . . , T − k t = k + 1, . . . , T − k j = 1, . . . , p j 1∑ dj p j=1 p d = ŝj = dj − d geschätzte Saisonkomponente: j = 1, . . . , p 0e+00 −2e+05 −4e+05 Saisonkomponente 2e+05 4e+05 Saisonschätzung 2 4 6 Monat 9 8 10 12 1.5 1.5.1 Indizes Indexzahlen Ein Warenkorb“ enthalte n Güter. ” p0 (j) pt (j) q0 (j) qt (j) ... ... ... ... Preis des Gutes j zur Basiszeit 0 Preis des Gutes j zur Berichtszeit t, t = 1, . . . Menge des Gutes j zur Basiszeit 0 Menge des Gutes j zur Berichtszeit t, t = 1, . . . Preisindex nach Laspeyres: n ∑ P0tL = j=1 n ∑ j=1 nach Paasche: n ∑ pt (j)q0 (j) P0tP = p0 (j)q0 (j) j=1 Mengenindex nach Laspeyres: n ∑ QL0t = j=1 n ∑ j=1 1.5.2 j=1 n ∑ pt (j)qt (j) p0 (j)qt (j) Umsatzindex nach Paasche: n ∑ qt (j)p0 (j) QP0t = q0 (j)p0 (j) j=1 n ∑ j=1 n ∑ qt (j)pt (j) U0t = q0 (j)pt (j) j=1 n ∑ j=1 pt (j)qt (j) p0 (j)q0 (j) Umbasierung einer Indexreihe Die gegebene Indexreihe P01 , P02 , P03 . . . soll von der Basis 0 auf die Basis τ umgestellt werden: P0t Pτ∗t = t = . . . − 2, −1, 0, 1, 2, . . . P0τ 1.5.3 Verknüpfung von zwei Indexreihen Die Indexreihen P01 , P02 , . . . , P0t und Pτ t , Pτ,t+1 , . . . , Pτ,t+s sind auf eine gemeinsame Basis zu stellen. Fortführung des alten Index: ∗ = P0,t+i P0t Pτ,t+i Pτ t i = 1, . . . , s Rückrechnung des neuen Index: Pτ∗j = Pτ t P0j P0t j = 0, 1, . . . , t 10 2 Grundlagen der Wahrscheinlichkeitsrechnung 2.1 zufällige Ereignisse und Wahrscheinlichkeiten 2.1.1 zufällige Ereignisse (A, B) Komplementäres Ereignis: Regeln von de Morgan: 2.1.2 A = Ω\A. A∩B =A∪B und A ∪ B = A ∩ B. Definition der Wahrscheinlichkeit A zufälliges Ereignis P (A) Wahrscheinlichkeit des zufälligen Ereignisses A Klassische Definition: Voraussetzungen: – der betrachtete Versuch besitzt nur endlich viele alternative Versuchsausgänge (Elementarereignisse) – jedes Elementarereignis besitzt die gleichen Chancen aufzutreten P (A) = Anzahl der für A günstigen Elementarereignisse Anzahl aller möglichen Elementarereignisse Definition durch die relative Häufigkeit: (Statistische Definition) Hn (A) absolute Häufigkeit des Auftretens des Ereignisses A bei n unabhängigen Wiederholungen desselben zufälligen Versuches hn (A) = Hn (A) n relative Häufigkeit des Auftretens von A hn (A) −−−→ P (A) n→∞ Definition nach Kolmogoroff: (Axiome) Ω - sicheres Ereignis 1. 0 ≤ P (A) ≤ 1 2. P (Ω) = 1 3. a) Wenn A und B unvereinbare Ereignisse [A ∩ B = ∅] sind, dann gilt: P (A ∪ B) = P (A) + P (B). b) P (A1 ∪A2 ∪. . .) = P (A1 )+P (A2 )+. . . , falls paarweise Ai ∩Aj = ∅ (i ̸= j) 11 2.1.3 Rechengesetze Komplementäres Ereignis: P (A) = 1 − P (A) allgemeine Additionsregel: P (A ∪ B) = P (A) + P (B) − P (A ∩ B). allgemeine Multiplikationsregel: 2.1.4 P (A ∩ B) = P (A|B) · P (B) = P (B|A) · P (A). Bedingte Wahrscheinlichkeiten und stochastische Unabhängigkeit Voraussetzung: P (A|B) = P (B) > 0 bedingte Wahrscheinlichkeit für das Ereignis A unter der Bedingung, dass das Ereignis B eingetreten ist (Wkt. von A unter Bedingung B, Wkt. von A gegeben B) P (A∩B) P (B) Totale Wahrscheinlichkeit: Voraussetzung: Die Ai (i = 1, . . . , n) bilden eine Zerlegung von Ω, d.h. Ω, Ai ∩ Aj = ∅ für i ̸= j. P (B) = n ∑ P (B|Ai )P (Ai ) totale Wahrscheinlichkeit für B. i=1 BAYES’sche Formel: Voraussetzung: Die Ai (i = 1, . . . , n) bilden eine Zerlegung von Ω und P (B) > 0. P (Aj |B) = P (B|Aj )P (Aj ) P (B|Aj )P (Aj ) = ∑ , n P (B) P (B|Ai )P (Ai ) j = 1, . . . , n i=1 P (Ai ) P (Ai |B) a-priori Wahrscheinlichkeiten a-posteriori Wahrscheinlichkeiten Stochastische Unabhängigkeit: Wenn A und B (paarweise) unabhängig voneinander [P (A|B) = P (A) bzw. P (B|A) = P (B)], dann: P (A ∩ B) = P (A) · P (B). Wenn A1 , . . . , Ak in der Gesamtheit unabhängige zufällige Ereignisse sind, dann gelten 12 k ∏ P (A1 ∩ A2 ∩ . . . ∩ Ak ) = P (A1 ) · P (A2 ) · . . . · P (Ak ) = P (Ai ) und i=1 P (A1 ∪A2 ∪. . .∪Ak ) = 1−((1−P (A1 ))·(1−P (A2 ))·. . .·(1−P (Ak ))) = 1− k ∏ (1−P (Ai )). i=1 2.1.5 Kombinatorische Formeln Fakultät n! = 1 · 2 · . . . · n = n ∏ k (0! = 1) k=1 z.B.: 5! = 1 · 2 · 3 · 4 · 5 = 120 Binomialkoeffizient ( ) n n! n(n − 1) · · · (n − k + 1) = = k k!(n − k)! k! Anordnung n verschiedene Objekte sollen angeordnet werden. Dann ist die Anzahl der möglichen Reihenfolgen: n! (Permutation) n Objekte die in k unterschiedlichen Sorten bestehend jeweils aus ni (i = 1, .., k) nicht unterscheidbaren Objekten (2 ≤ k ≤ n und n1 + n2 + ... + nk = n) vorliegen, sollen angeordnet werden. Dann ist die Anzahl der möglichen Reihenfolgen: ( ) n! n = (Polynomialkoeffizient) n1 ! · n2 ! · · · nk ! n1 , n2 , . . . , nk Auswahl Aus n Objekten werden k ausgewählt. Anzahl der möglichen Stichproben vom Umfang k (aus {1, 2, . . . n}) ohne Beachtung der Reihenfolge (Kombination) mit Zurücklegen (mit Wiederholung) ohne Zurücklegen (ohne Wiederholung) (n+k−1) (n ) k k nk mit Beachtung der Reihenfolge (Variation) 13 (n ) k · k! 2.2 X Zufallsgrößen und deren Charakteristika - Zufallsgröße Verteilungsfunktion FX ist die Verteilungsfunktion der Zufallsgröße X: FX (t) = P (X < t) für alle reellen Zahlen t 0.0 0.2 0.4 FX(t) 0.6 0.8 1.0 Verteilungsfunktion einer disketen Zufallsgröße X 0 5 10 15 t Die Verteilungsfunktion ist monoton wachsend, und es gilt: lim FX (t) = 0 t→−∞ Weiter gilt für a, b ∈ R: und lim FX (t) = 1. t→∞ P (a ≤ X < b) = FX (b) − FX (a), P (a ≤ X) = 1 − FX (a), P (X < b) = FX (b). 14 2.2.1 Diskret verteilte Zufallsgrößen X kann endlich viele oder abzählbar unendlich viele mögliche Werte xi mit positiver Wahrscheinlichkeit annehmen: pi = P (X = xi ) (i = 1, 2, . . .) Einzelwahrscheinlichkeit Für die Einzelwahrscheinlichkeiten (Zähldichte) gilt: ∑ pi = 1 und pi ≥ 0. i Die Verteilungsfunktion ist damit: FX (t) = ∑ pi . xi <t Beispiel: P (X = 3) = P (X = 5) = 0.15, P (X = 7) = 0.5 und P (X = 11) = P (X = 13) = 0.1. 0.8 0.6 0.4 0.2 0.0 0.0 0.2 0.4 FX(t) P(X = t) 0.6 0.8 1.0 Verteilungsfunktion der disketen Zufallsgröße X 1.0 Diskete Einzelwahrscheinlichkeiten der Zufallsgröße X 0 5 10 15 0 t 5 10 15 t p-Quantil xp : (für reelle Zahlen p mit 0 < p < 1) Jede Lösung xp der Ungleichungen P (X ≤ xp ) ≥ p und P (X < xp ) ≤ p heißt p-Quantil der Zufallsgröße X. Median: x0.5 Erwartungswert EX: EX = ∑ xi · P (X = xi ) = i ∑ i ist). 15 xi · pi (falls dieser Wert endlich 2.2.2 Stetig verteilte Zufallsgrößen X kann jeden reellen Wert aus einem gewissen Intervall annehmen. Dabei ist die Wahrscheinlichkeit, dass X einen Wert im Intervall [a, b] annimmt, gleich: ∫ b P (X ∈ [a, b]) = P (a ≤ X ≤ b) = fX (t)dt. a Die Funktion fX ist die Dichtefunktion (Wahrscheinlichkeitsdichte) der Zufallsgröße X. Für die Dichtefunktion gilt: ∫∞ fX (t)dt = 1 fx (t) ≥ 0. und −∞ Die Verteilungsfunktion ist damit: FX (t) = ∫t −∞ fX (x)dx. Beispiel: X ist standardnormalverteilt, d.h. 1 2 1 fX (t) = √ e− 2 t . 2π Verteilungsfunktion der Zufallsgröße X 0.0 0.0 0.2 0.1 0.4 0.2 fX(t) FX(t) 0.6 0.3 0.8 0.4 1.0 Dichtefunktion der Zufallsgröße X −4 −2 0 2 4 −4 t −2 0 2 4 t p-Quantil xp : Jede Lösung xp der Gleichung FX (xp ) = p heißt p-Quantil der Zufallsgröße X. D.h. (−1) xp = FX (p). Median: x0.5 Erwartungswert EX: EX = ∫∞ −∞ tfX (t)dt (falls dieser Wert endlich ist). 16 2.2.3 Erwartungswert, Varianz, Standardabweichung und Kovarianz Erwartungswert der Zufallsgröße X (EX): ∑ xi · P (X = xi ) : X diskret i EX = ∫∞ : X stetig tfX (t)dt −∞ Varianz der Zufallsgröße X (VarX): VarX = E(X − EX)2 = EX 2 − (EX)2 . Standardabweichung der Zufallsgröße X : √ VarX. Variationskoeffizient der Zufallsgröße X : √ VarX V = . EX Kovarianz der Zufallsgrößen X und Y (Cov(X, Y )): Cov(X, Y ) = E(X−EX)(Y −EY ) = EXY −EX · EY. Die Zufallsgrößen X und Y heißen unkorreliert, falls Cov(X, Y ) = 0. Dabei gilt: X und Y sind unabhängig =⇒ EXY = EX · EY ⇐⇒ X und Y sind unkorreliert. Eigenschaften: Für Zufallsgrößen X und Y und reelle Zahlen a und b gilt: E(a + bX) = a + bEX E(X + Y ) = EX + EY Var(a + bX) = b2 VarX Var(X + Y ) = VarX + VarY + 2Cov(X, Y ) sind X und Y unkorreliert: Var(X + Y ) = VarX + VarY Standardisierung einer Zufallsgröße: Sei X eine Zufallsgröße, dann gilt für die standardisierte Zufallsgröße Y : X − EX Y = √ VarX EY = 0 und VarY = 1. 17 2.3 2.3.1 Wichtige Wahrscheinlichkeitsverteilungen Diskrete Verteilungen Diskrete Gleichverteilung Eine Menge M besteht aus n Elemente, die alle gleichwahrscheinlich sind. Einzelwahrscheinlichkeiten: 1 P (X = k) = für k ∈ M n Momente für X ∼ U({1, 2, . . . , n}): n+1 2 Anwendung: Laplace-Experiment EX = und (Bez. : X ∼ U(M)). VarX = n2 − 1 12 Hypergeometrische Verteilung Eine Menge besteht aus N Elementen. Dabei gibt es M von der Sorte 1 und N − M von der Sorte 2. Aus der Menge werden n Stück (durch einmaliges Ziehen oder durch Ziehen ohne Zurücklegen) gezogen. Die Zufallsgröße X ist die Anzahl der Stücke von Sorte 1 unter den Gezogenen. Einzelwahrscheinlichkeiten: (M ) (N −M ) · P (X = k) = k (N )n−k k = max(0, n−(N −M )), . . . , min(n, M ) (X ∼ Hyp(N, M, n)). n Momente: EX = n · M N und VarX = n · M N −M N −n · · N N N −1 Eigenschaften: Für N → ∞, M → ∞ und M = p Übergang in eine BinomialverteiN lung. Anwendung: Sichprobennahme ohne Zurücklegen, Qualitätskontrolle Beispiele: X ∼ U({1, 2, 3, 4}) X ∼ Hyp(100, 40, 12) 18 Bernoulli-Verteilung Bernoulli-Experiment: Experiment mit 2 möglichen Versuchsausgängen A oder A. Das Ereignis A tritt dabei mit einer Wahrscheinlichkeit p = P (A) ein. Tritt das Ereignis A ein, dann ist die Zufallgröße X gleich 1 und sonst gleich 0. Einzelwahrscheinlichkeiten: P (X = 1) = p und P (X = 0) = 1 − p (Bez. : X ∼ B(p)). Momente: EX = p und VarX = p · (1 − p) Eigenschaften: Die Summe unabhängiger und identisch bernoulliverteilter Zufallsn ∑ größen ist Binomialverteilt: Xi ∼ B(p) i = 1, . . . , n =⇒ Xi ∼ Bin(n, p). i=1 Binomialverteilung Es werden n unabhängige gleichartige Bernoulli-Experimente durchgeführt. Die Zufallsgröße X ist gleich der Anzahl des Eintretens des Ereignisses A. Einzelwahrscheinlichkeiten: ( ) n k P (X = k) = p (1 − p)n−k k k = 0, 1, . . . , n (Bez. : X ∼ Bin(n, p)). Momente: EX = n · p und VarX = n · p · (1 − p) Eigenschaften: Für n → ∞, p → 0 und n · p = λ Übergang in eine Poissonverteilung Anwendung: unabhängige Wiederholung von Versuchen, Stichprobennahme mit Zurücklegen, Qualitätskontrolle, Schadenzahlverteilung in der Versicherungsmathematik Beispiele: X ∼ Bin(12, 0.4) X ∼ Bin(100, 0.03) 19 Poissonverteilung Einzelwahrscheinlichkeiten: P (X = k) = λk −λ ·e k! (Bez. : X ∼ Poi(λ)). λ > 0, k = 0, 1, . . . Momente: EX = λ und VarX = λ Eigenschaften: Die Summe unabhängiger poissonverteilter Zufallsgrößen ist poissonm ∑ ∑ Xi ∼ Poi(λ) mit λ = m verteilt: Xi ∼ Poi(λi ) i = 1, . . . , m =⇒ i=1 λi . i=1 Anwendung: Verteilung seltener“ Ereignisse, Bedienungstheorie, Qualitätskontrolle, ” Schadenzahlverteilung in der Versicherungsmathematik Beispiele: X ∼ Poi(3) X ∼ Poi(0.7) 20 Negative Binomialverteilung Es werden unabhängige gleichartige Bernoulli-Experimente solange durchgeführt, bis zum r-ten Mal das Ereignis A eingetreten ist. Die Zufallsgöße X ist gleich der Anzahl der Versuche. Einzelwahrscheinlichkeiten: ( ) k−1 r p (1−p)k−r k = r, r+1 . . . (Bez. : X ∼ NegBin(r, p)). P (X = k) = r−1 Momente: r r(1 − p) und VarX = p p2 Anwendung: Schadenzahlverteilung in der Versicherungsmathematik EX = Alternative Definition: Die Zufallsgöße Y ist gleich der Anzahl der Versuchsausgänge A. Also ist P (Y = k) = P (X = k + r) k = 0, 1 . . . und damit EY = EX − r = r(1−p) . p Geometrische Verteilung Es werden unabhängige gleichartige Bernoulli-Experimente solange durchgeführt, bis zum ersten Mal das Ereignis A eingetreten ist. Die Zufallsgöße X ist gleich der Anzahl der Versuche. (Spezialfall der Negativ-Binomialverteilung mit r = 1.) Einzelwahrscheinlichkeiten: P (X = k) = p(1 − p)k−1 k = 1, . . . (Bez. : X ∼ Geo(p)). 1 1−p und VarX = p p2 Eigenschaften: Verteilung ohne Gedächtnis“ (P (X = n + k|X > n) = P (X = k)). ” Anwendung: Lauflänge bei Kontrollkarten (erwartete Lauflänge: ARL) Momente: EX = Beispiele: X ∼ NegBin(5, 0.4) X ∼ Geo(0.4) 21 2.3.2 Stetige Verteilungen Stetige Gleichverteilung auf [a, b] X ∼ U(a, b). Bezeichnung: Dichtefunktion: (a < b) { f (t) = Verteilungsfunktion: 1 b−a 0 0 F (t) = t−a b−a 1 :a≤t≤b : sonst :t<a :a≤t≤b :t>b Kenngrößen: Median(X) = EX = a+b 2 und VarX = (a − b)2 12 Eigenschaften: nichtinformative Verteilung Anwendung: • Grundlage für die Erzeugung von Zufallszahlen • In allen Teilintervalle von [a, b], mit gleicher Länge, liegt die gleichverteilte Zufallsvariable mit derselben Wahrscheinlichkeit. Beispiel: X ∼ U(2, 4) 22 Normalverteilung X ∼ N(µ, σ 2 ). Bezeichnung: Dichtefunktion: (σ > 0) 1 t−µ 2 1 f (t) = √ e− 2 ( σ ) σ 2π Kenngrößen: Median(X) = EX = µ und VarX = σ 2 Eigenschaften: • Die Summe unabhängiger normalverteilter Zufallsgrößen ist normalverteilt: Xi ∼ N(µi , σi2 ) i = 1, . . . , n =⇒ n ∑ Xi ∼ N(µ, σ 2 ) mit µ = n ∑ i=1 µi , σ 2 = i=1 n ∑ σi2 . i=1 • Die standardisierte Summe unabhängiger, identisch verteilter Zufallsgrößen X1 , X2 , . . . konvergiert in Verteilung gegen die Standardnormalverteilung (Zentraler Grenzwertsatz). Anwendungen: • Die Normalverteilung eine wichtige Näherungsverteilung (Zentraler Grenzwertsatz). • Zufällige Messfehler sind oft (zumindest näherungsweise) normalverteilt. • Die zufällige Abweichungen vom Sollmaß beim Fertigen von Werkstücken ist oft (zumindest näherungsweise) normalverteilt. • Viele Verfahren der Statistik basieren auf dieser Verteilung. Beispiele: X ∼ N(µ, σ 2 ) 1.0 Verteilungsfunktionen 0.7 Dichtefunktionen 0.8 0.4 0.3 f(t) F(t) 0.4 0.6 0.5 0.6 µ = 0, σ2 = 1 µ = 0, σ2 = 3 µ = − 2, σ2 = 1 µ = − 2, σ2 = 0.4 0.0 0.0 0.1 0.2 0.2 µ = 0, σ2 = 1 µ = 0, σ2 = 3 µ = − 2, σ2 = 1 µ = − 2, σ2 = 0.4 −6 −4 −2 0 2 4 6 −6 t −4 −2 0 t 23 2 4 6 Standardnormalverteilung Ist X normalverteilt mit Erwartungswert µ und Varianz σ 2 (X ∼ N(µ, σ 2 )) dann ist Y = X −µ σ standardnormalverteilt, d.h. normalverteilt mit Erwartungswert 0 und Varianz 1 (Y ∼ N(0, 1)). Verteilungsfunktion: Die Verteilungsfunktion der Standardnormalverteilung wird mit Φ bezeichnet und ist vertafelt. 24 Logarithmische Normalverteilung X ∼ LogN(µ, σ 2 ). Bezeichnung: Dichtefunktion: (σ > 0) { f (t) = 1 ln t−µ 2 1 √ e− 2 ( σ ) σt 2π :t>0 0 :t≤0 Kenngrößen: Median(X) = eµ , EX = eµ+ σ2 2 und VarX = e2µ+σ 2 ( ) 2 eσ − 1 ln X ∼ N(µ, σ 2 ). Eigenschaften: Anwendungen: • bei Zeitstudien und Lebendaueranalysen in ökonomoischen, technischen und biologischen Vorgängen; • Modellierung von Aktienkursen; • für zufällige nichtnegative Materialparameter, z.B. Permeabilitäten; • als Grenzverteilung für Produkte unabhängiger positiver Zufallsgrößen (unter bestimmten Bedingungen). Beispiel: X ∼ LogN(0, σ 2 ) Verteilungsfunktionen 3.0 1.0 Dichtefunktionen 0.8 0.6 F(t) 1.5 0.4 σ=3 σ = 1.5 σ=1 σ = 0.5 σ = 0.25 σ = 0.125 0.2 1.0 0.0 0.5 0.0 f(t) 2.0 2.5 σ=3 σ = 1.5 σ=1 σ = 0.5 σ = 0.25 σ = 0.125 0 1 2 3 4 5 0 t 1 2 3 t 25 4 5 Exponentialverteilung X ∼ Exp(λ). Bezeichnung: Dichtefunktion: (λ > 0) Verteilungsfunktion: { λ · e−λt f (t) = 0 :t≥0 :t<0 { 1 − e−λt F (t) = 0 :t≥0 :t<0 Kenngrößen: Median(X) = ln 2 , λ EX = 1 λ und VarX = 1 λ2 Eigenschaften: Verteilung ohne Gedächtnis“, d.h ” P (X ≥ x + t|X ≥ x) = P (X ≥ t) (Markov–Eigenschaft) Die Summe unabhängiger und identisch exponentialverteilter Zufallsgrößen ist gammaverteilt. Anwendungen: • Der Abstand zwischen zwei Ereignissen eines homogenen Poisson-Prozesses mit Intensität λ ist exponentialverteilt mit Parameter λ. Für diesen homogenen PoissonProzess ist die Anzahl der Ereignisse im Intervall [0, t] poissonverteilt mit Parameter λ · t (Nt ∼ Poi(λ · t)). Weiter sind, gegeben Nt = n, die Punkte des homogenen Poisson-Prozesses gleichverteilt auf [0, t]. • Anwendung findet die Exponentialverteilung als Lebensdauerverteilung (ohne Alterung), in der Zuverlässigkeitstheorie und in der Bedienungstheorie. Beispiele: X ∼ Exp(λ) Verteilungsfunktionen 1.0 0.6 Dichtefunktionen 0.8 F(t) 0.3 0.4 λ = 0.25 λ = 0.5 λ = 0.75 λ=2 0.2 0.2 0.0 0.1 0.0 f(t) 0.6 0.4 0.5 λ = 0.25 λ = 0.5 λ = 0.75 λ=2 0 1 2 3 4 5 6 0 t 1 2 3 t 26 4 5 6 Gammaverteilung X ∼ Gam(p, λ). Bezeichnung: Parameter: λ > 0 : Skalenparameter p > 0 : Formparameter { Dichtefunktion: f (t) = λp p−1 t Γ(p) exp (−λt) : t > 0 :t≤0 0 Mit Γ der Gammafunktion: ∫ ∞ exp(−t)tp−1 dt p > 0 Γ(p) = (damit ist Γ(1) = 1 und Γ(n) = (n−1)! für n ∈ N). 0 Momente: EX = p λ und VarX = p λ2 Eigenschaften: • X1 ∼ Gam(p1 , λ), X2 ∼ Gam(p2 , λ), unabhängig =⇒ X1 + X2 ∼ Gam(p1 + p2 , λ) • Xi ∼ Exp(λ), i = 1, . . . , n, unabhängig =⇒ n ∑ Xi ∼ Gam(n, λ) i=1 Spezialfall: Erlangverteilung falls p = n ∈ N. Anwendung: Lebensdauerverteilung. Beispiele: X ∼ Gam(p, λ) Verteilungsfunktionen 1.0 1.0 Dichtefunktionen 0.8 p = 0.5, λ = 1 p = 0.5, λ = 2 p = 1, λ = 1 p = 1, λ = 2 p = 2, λ = 1 p = 2, λ = 2 0.0 0.0 0.2 0.2 0.4 0.4 f(t) F(t) 0.6 0.6 0.8 p = 0.5, λ = 1 p = 0.5, λ = 2 p = 1, λ = 1 p = 1, λ = 2 p = 2, λ = 1 p = 2, λ = 2 0 1 2 3 4 5 0 t 1 2 3 t 27 4 5 Weibull-Verteilung X ∼ Wei(α, β, m). Bezeichnung: Parameter: α: Verschiebungsparameter (Lageparameter) β > 0 : Skalenparameter und m > 0 : Formparameter Bemerkung: Ist α = 0, so spricht man von der 2-parametrigen Weibullverteilung. ( ) m t−α m−1 Dichtefunktion: f (t) = β β 0 ( ) m exp −( t−α ) :t>α β :t≤α Verteilungsfunktion: F (t) = ) ( { t−α m :t>α 1 − exp −( β ) :t≤α 0 Kenngrößen: ( ) 1 Median(X) = α + β · (ln 2) und EX = α + β · Γ 1 + m ( ( ) ( ( ))2 ) 2 1 VarX = Γ 1 + − Γ 1+ β2 mit Γ der Gammafunktion. m m 1 m Anwendung: In der mechanischen Verfahrenstechnik findet die Weibull-Verteilung Anwendung als eine spezielle Partikelgrößenverteilung. Hier wird sie auch als RRSBVerteilung (nach Rosin, Rammler, Sperling und Bennet) bezeichnet. Eine Weibullverteilung kann als Grenzverteilung für das Minimum einer großen Zahl von unabhängigen Zufallsgrößen auftreten (Verteilung des schwächsten Kettengliedes), deshalb sind Lebensdauern von Sytemen oft weibullverteilt. Beispiele: X ∼ Wei(0, 1, m) 1.0 Verteilungsfunktionen 2.5 Dichtefunktionen 0.8 0.6 0.4 0.2 m = 0.5 m=1 m = 1.5 m=5 0.0 0.0 0.5 1.0 f(t) F(t) 1.5 2.0 m = 0.5 m=1 m = 1.5 m=5 0.0 0.5 1.0 1.5 2.0 2.5 0.0 t 0.5 1.0 1.5 t 28 2.0 2.5 3.0 Fréchet-Verteilung X ∼ Fre(α, β, m). Bezeichnung: Parameter: α: Verschiebungsparameter (Lageparameter) β > 0 : Skalenparameter m > 0 : Formparameter Dichtefunktion: ( )−(m+1) m t−α f (t) = β 0 β ( ) −m exp −( t−α ) :t>α β :t≤α Verteilungsfunktion: F (t) = ( ) { t−α −m exp −( β ) :t>α :t≤α 0 Kenngrößen: (mit Γ der Gammafunktion) { ( )1 α+β·Γ 1− 1 m und EX = Median(X) = α + β · ln 2 ∞ ) {( ( ) ( ( ))2 2 Γ 1 − m2 − Γ 1 − m1 β :m>2 VarX = ∞ : sonst ( 1 m ) :m>1 : sonst Anwendung: Als eine Extremwertverteilung ist sie eine wichtige Verteilung zur Bestimmung von Risiken in der Finanzstatistik. Beispiele: X ∼ Fre(0, β, m) 1.0 Verteilungsfunktionen 1.2 Dichtefunktionen 0.8 F(t) 0.6 0.4 β = 1, m = 1 β = 1, m = 2 β = 1, m = 3 β = 2, m = 1 β = 2, m = 2 β = 2, m = 3 0.2 0.4 0.0 0.2 0.0 f(t) 0.6 0.8 1.0 β = 1, m = 1 β = 1, m = 2 β = 1, m = 3 β = 2, m = 1 β = 2, m = 2 β = 2, m = 3 0 1 2 3 4 5 0 t 1 2 3 t 29 4 5 Gumbel-Verteilung X ∼ Gum(α, β). Bezeichnung: Parameter: α: Verschiebungsparameter (Lageparameter) β > 0 : Skalenparameter Dichtefunktion: f (t) = − t−α 1 − t−α β e β e−e β Verteilungsfunktion: F (t) = e−e − t−α β Kenngrößen: mit γ ≈ 0, 5772 der Euler-Mascheroni-Konstante. β 2π2 Median(X) = α − β ln(ln(2)) und VarX = 6 EX = α + βγ Anwendung: Als eine Extremwertverteilung z.B. in: - der Wasserwirtschaft (für extreme Ereignisse wie Hochwasser und Trockenzeiten), - der Verkehrsplanung, - der Meteorologie, - der Hydrologie. Beispiele: X ∼ Gum(α, β) Verteilungsfunktionen 0.6 1.0 Dichtefunktionen 0.8 0.4 0.2 0.2 α = 0, β = 0.7 α = 0, β = 1 α = 0, β = 2 α = 1.5, β = 1 0.0 0.1 0.0 f(t) 0.3 F(t) 0.4 0.6 0.5 α = 0, β = 0.7 α = 0, β = 1 α = 0, β = 2 α = 1.5, β = 1 −2 −2 −1 0 1 2 3 4 −1 0 1 t t 30 2 3 4 Logistische Verteilung Bezeichnung: Dichtefunktion: X ∼ Logi(α, β). (β > 0) ( ) exp − t−α β f (t) = ( ( ) )2 β 1 + exp − t−α β Verteilungsfunktion: F (t) = 1 ( 1 + exp − t−α β Momente: EX = α Eigenschaften: und VarX = ) β 2π2 3 f (t) = β1 F (t) · (1 − F (t)). Anwendung: im kategoriellen Regressionsmodell (Logit-Modell), Beispiel: X ∼ Logi(3, 0.6) 31 3 3.1 3.1.1 Grundlagen des statistischen Schließens I (Schätzungen) Stichproben Stichprobenfunktionen • mathematische Stichprobe: X1 , . . . , Xn . Xi : unabhängige und identisch verteilte Zufallsgrößen, i = 1, . . . , n. • geordnete mathematische Stichprobe: X(1) ≤ X(2) ≤ . . . ≤ X(n) . • Stichprobenmittelwert: (arithmetisches Mittel): 1∑ X= Xi n i=1 n • (gewichtetes arithmetisches Mittel): 1 Xg = ∑ m m ∑ gi gi Xi i=1 i=1 Spezialfall: gi = ni ni . . . absolute Häufigkeit der konkreten Messung xi Xi . . . Klassenrepräsentant bei vorliegender Klasseneinteilung einer Stichprobe • Stichprobenstreuung (empirische Varianz): 1 ∑ (Xi − X)2 n − 1 i=1 n S2 = • empirisches α-Quantil: X(k) e Xα = 1 (X(k) + X(k+1) ) 2 falls n · α nicht ganzzahlig: k ist die auf n · α folgende ganze Zahl falls n · α ganzzahlig: k = n · α • empirischer Median: • empirische Verteilungsfunktion: e =X e0,5 X F̂n (t) = Nt n Nt – Anzahl der Elemente der Stichprobe, für die Xi < t gilt. 32 3.1.2 Stichprobenplanung, Datengewinnung durch Stichproben X – zu untersuchendes Merkmal, Zufallsgöße X (Grundgesamtheit) mit EX = µ VarX = σ 2 . und N – Anzahl der Objekte der Grundgesamtheit Zufallsauswahl: Aus den N Objekten der Grundgesamtheit werden zufällig und unabhängig n Objekte nach einem Zufallsprozess (z.B. mit Hilfe von Zufallsziffern) ausgewählt. X1 , . . . , Xn – Stichprobe aus der Grundgesamtheit mit Stichprobenumfang n. Schätzung des Erwartungswertes µ und der Varianz σ 2 : 1∑ Xi µ̂ = X = n i=1 n 1 ∑ (Xi − X)2 . n − 1 i=1 n σˆ2 = S 2 = und Beide Schätzer sind erwartungstreu. Die Varianz der Schätzung für den Erwartungswert ist: VarX = σ2 . n Geschichtete Stichprobe: k – Anzahl der Schichten in der Grundgesamtheit Ni – Anzahl der Objekte in der Schicht i, i = 1, . . . , k Aus jeder der k Schichten werden ni Objekte zur Befragung zufällig ausgewählt. k ∑ ni (deterministisch) Stichprobenumfang: n = i=1 Xi – Ausprägung des Merkmals X in der Schicht i. EXi = µi pi = Ni N VarXi = σi2 und – Wahrscheinlichkeit dafür, dass bei zufälliger Auswahl eines Objektes aus der Grundgesamtheit ein Objekt der Schicht i ausgewählt wird. Erwartungswert (total) der Grundgesamtheit: µ= k ∑ pi · µ i i=1 Varianz der Grundgesamtheit: σ2 = k ∑ pi σi2 + k ∑ i=1 i=1 pi (µi − µ)2 ↓ ↘ Streuungszerlegung: Varianz in der = Varianz in den + Varianz zwischen den Grundgesamtheit Schichten Schichten 33 Xij - Ausprägung des Merkmals X in der Schicht i beim Objekt j (i = 1, . . . , k; j = 1, . . . , ni ) Schätzung für den Erwartungswert µ: µ̂ = k ∑ pi µ̂i ni 1 ∑ µ̂i = X i = Xij ni j=1 mit i=1 Varianz der Schätzung für den Erwartungswert: Varµ̂ = k ∑ p2i i=1 σi2 ni k ∑ ; ni = n i=1 Aufteilung des Stichprobenumfangs n: • proportional: ni = n · pi • optimal (bzgl. der Varianz): · pi σi , n ni = k ∑ i = 1, . . . , k pj σj j=1 σi – Standardabweichung der Merkmalsausprägung in der Schicht i • kostenoptimal: ni = c k ∑ √ · pj σj cj p i σi √ ci , i = 1, . . . , k j=1 c – gesamtes Kapital für die Erhebung ci – Kosten für eine Untersuchungseinheit in der Schicht i Für die exakt proportionale Schichtung, ni = n · p, ist die Varianz von µ̂ 1∑ Varµ̂ = pi σi2 . n i=1 k Der absolute Schichtungseffekt VarX − Varµ̂ wird damit 1∑ pi (µi − µ)2 n i=1 k und der relative Schichtungseffekt (unabhängig von n) k ∑ VarX − Varµ̂ = k ∑ VarX pi (µi − µ)2 i=1 pi σi2 i=1 34 + k ∑ i=1 . pi (µi − µ)2 Klumpenstichprobe: – die Grundgesamtheit vom Umfang N bestehe aus M Klumpen K1 , . . . , KM – aus diesen M Klumpen werden m Klumpen zur Untersuchung zufällig ausgewählt, Mi – Anzahl der Objekte im Klumpen i, i = 1, . . . M zufällige Auswahl von m Klumpen aus M vorhandenen mit einer Wahrscheinlichkeit i proportional zur Anzahl Mi der Objekte im Klumpen Ki : pi = M N Der Stichprobenumfang ist bei dieser Auswahl zufällig ! n= m ∑ Mhi j=1 µ̂(K) = Schätzung für den Erwartungswert µ: 1 m m ∑ µhi j=1 h1 , . . . , hm – Indizes der m ausgewählten Klumpen µhj – exakter Erwartungswert im Klumpen hj Klumpeneffekt für Mi = N M : VarX − Varµ̂(K) = 35 1 m [ 1 M M ∑ j=1 ( σj2 − 1 − M N ) ] σ2 3.2 3.2.1 Parameterschätzungen Punktschätzungen X1 , . . . , Xn - mathematische Stichprobe ϑ - Parameter der Verteilung von Xi ϑ̂ - Punktschätzung des Parameters ϑ (durch eine Stichprobenfunktion) z.B: - Schätzung des Erwartungswertes µ: - Schätzung der Varianz σ 2 : µ̂ = X = σˆ2 = S 2 = 1 n−1 n ∑ 1 n n ∑ Xi . i=1 (Xi − X)2 . i=1 Eigenschaften: - erwartungstreue Schätzung: Eϑ̂ = ϑ. 2 2 ˆ (µ̂ = X bzw. σ = S sind erwartungstreue Schätzer für µ = EX bzw. σ 2 = VarX.) Eϑ̂ −−−→ ϑ - asymptotisch erwartungstreue Schätzung: n→∞ - Ist ϑ̂ ein asymptotisch erwartungstreuer Schätzer für ϑ und gilt Varϑ̂ −−−→ 0, dann n→∞ ist ϑ̂ ein schwach konsistenter Schätzer, d.h. ϑ̂ −−−→ ϑ (in Wahrscheinlichkeit). n→∞ 2 ˆ (µ̂ bzw. σ sind schwach konsistente Schätzer für µ bzw. σ 2 .) Schätzung der Parameter von Verteilungen: • Bernoulli-Verteilung: p̂ = X. • Poissonverteilung: λ̂ = X. • Normalverteilung: µ̂ = X σˆ2 = S 2 . und • Gleichverteilung auf [0, a]: â = n+1 · Xmax n mit Xmax = X(n) . • Exponentialverteilung: λ̂ = 1 . X 36 3.2.2 Konfidenzschätzungen ϑ - fester und unbekannter Parameter I - zufälliges Intervall (Konfidenzintervall) P (ϑ ∈ I) ≥ 1 − α. Dabei heißt 1 − α das Konfidenzniveau. Zentrales Konfidenzintervall P (Gu ≤ ϑ ≤ Go ) ≥ 1 − α. I = [Gu , Go ]: Einseitige Konfidenzintervalle Obere Konfidenzgrenze Go : Untere Konfidenzgrenze Gu : Eine Stichprobe: P (ϑ ≤ Go ) ≥ 1 − α. P (Gu ≤ ϑ) ≥ 1 − α. X1 , .., Xn Normalverteilte Stichprobe: Xi ∼ N(µ, σ 2 ) i = 1, .., n. Zentrales Konfidenzintervall bei normalverteilter Stichprobe für • den Erwartungswert µ, falls die Varianz σ 2 bekannt ist: σ σ X − √ z1−α/2 ≤ µ ≤ X + √ z1−α/2 . n n Der notwendige Stichprobenumfang, um eine gegebene Länge l = 2d einzuhalten ist: (z ) 1−α/2 2 2 n≥ σ . d • den Erwartungswert µ, falls die Varianz σ 2 unbekannt ist: S S X − √ tn−1,1−α/2 ≤ µ ≤ X + √ tn−1,1−α/2 . n n • die Varianz σ 2 , falls der Erwartungswert µ bekannt ist: nS ∗2 χ2n,1−α/2 ≤ σ2 ≤ nS ∗2 . χ2n,α/2 • die Varianz σ 2 , falls der Erwartungswert µ unbekannt ist: (n − 1)S 2 (n − 1)S 2 2 ≤ σ ≤ . χ2n−1,1−α/2 χ2n−1,α/2 1∑ = (Xi −µ)2 die empirische Varianz, falls der Erwartungswert µ bekannt ist. n i=1 n Dabei ist S ∗2 37 Xi ∼ B(p) Bernoulliverteilte Stichprobe: i = 1, .., n. (Tritt das Ereignis A ein, dann ist die Zufallsgröße Xi gleich 1. P (A) = P (Xi = 1) = p.) Zentrales Konfidenzintervall für p (n groß, Faustregel: np̂ > 5 und n(1 − p̂) > 5) √ ] [ 1 1 2 X(n − X) 1 2 Gu,o = X + z ∓ z + z 1−α/2 2 n + z1−α/2 2 1−α/2 n 4 1−α/2 Dabei ist X = n ∑ Xi die absolute Häufigkeit von A und p̂ = X n die Punktschätzung für p. i=1 Der notwendige Stichprobenumfang, um eine gegebene Länge l = 2d einzuhalten ist: (z ) 1−α/2 2 n≥ p(1 − p). d Einseitige Konfidenzintervalle, d.h. nur obere bzw. nur untere Konfidenzgrenzen, erhält man, indem man bei den zentralen Konfidenzintervallen die jeweilige Grenze wählt und bei den Quantilen α/2 durch α ersetzt. Xi ∼ B(p) D.h. z.B. bei einer Bernoulliverteilten Stichprobe (n groß): [ 1 1 2 Gu = X+ z1−α −z1−α 2 n + z1−α 2 untere Konfidenzgrenze für p: [ 1 1 2 Go = X+ z1−α +z1−α 2 n + z1−α 2 obere Konfidenzgrenze für p: √ √ i = 1, .., n. X(n − X) 1 2 ] + z1−α . n 4 X(n − X) 1 2 ] + z1−α . n 4 Weitere ausgewählte Beispiele für einseitige Konfidenzintervalle. Normalverteilte Stichprobe: Parameter Xi ∼ N(µ, σ 2 ) Voraussetzungen i = 1, .., n. Konfidenzschätzungen untere Grenze: X − µ √S tn−1,1−α n σ unbekannt obere Grenze: µ ≤ X + untere Grenze: σ2 ≤µ 2 (n−1)S 2 χ2n−1,1−α √S tn−1,1−α n ≤ σ2 µ unbekannt obere Grenze: σ 2 ≤ 38 (n−1)S 2 χ2n−1,α Zwei unabhängige Stichproben : X11 , .., X1n1 und X21 , .., X2n2 Normalverteilte Stichproben: X1i ∼ N(µ1 , σ12 ) i = 1, .., n1 und X2i ∼ N(µ2 , σ22 ) i = 1, .., n2 . Zentrales Konfidenzintervall für • die Differenz der Erwartungswerte µ1 − µ2 , falls die Varianzen unbekannt, aber gleich sind σ12 = σ22 = σ 2 : √ √ n1 + n2 n1 + n2 X 1 −X 2 −Sg tn1 +n2 −2,1−α/2 ≤ µ1 −µ2 ≤ X 1 −X 2 +Sg tn1 +n2 −2,1−α/2 . n1 n2 n1 n2 [ ] 1 Dabei ist Sg2 = (n1 −1)S12 +(n2 −1)S22 die empirische (gemeinsame) Varianz. n1 + n2 − 2 S12 ist die empirische Varianz der ersten und S22 die der zweiten Stichprobe (vgl. S 2 ). σ2 • den Quotienten der Varianzen σ12 , falls die Erwartungswerte µ1 und µ2 unbekannt 2 sind: 2 S1 σ12 S12 Fn −1,n1 −1,α/2 ≤ 2 ≤ 2 Fn2 −1,n1 −1,1−α/2 . S22 2 σ2 S2 Einseitige Konfidenzintervalle erhält man (wie auf der vorangegangenen Seite beschrieben) durch Ersetzen von α/2 durch α in der jeweiligen Grenze. Beispiel: Einseitige Konfidenzgrenzen für • die Differenz der Erwartungswerte µ1 − µ2 , falls die Varianzen unbekannt, aber gleich sind σ12 = σ22 = σ 2 : √ n1 + n2 tn1 +n2 −2,1−α . untere Grenze: Gu = X 1 − X 2 − Sg n1 n2 √ n1 + n2 obere Grenze: Go = X 1 − X 2 + Sg tn1 +n2 −2,1−α . n1 n2 Bernoulliverteilte Stichproben: X1i ∼ B(p1 ) i = 1, .., n1 und X2i ∼ B(p2 ) i = 1, .., n2 . Zentrales Konfidenzintervall für die Differenz p1 − p2 (n1 und n2 groß): √ X1 X2 X1 (n1 − X1 ) X2 (n2 − X2 ) Gu,o = − ∓ z1−α/2 + . n1 n2 n31 n32 Dabei sind X1 = n1 ∑ i=1 X1i und X2 = n2 ∑ X2i . i=1 39 4 Grundlagen des statistischen Schließens II (Tests) 4.1 4.1.1 Signifikanztest für Verteilungsparameter Statistische Tests Die Durchführung eines statistischen Tests verlangt die nachfolgenden Schritte: 1. Formulierung der Hypothesen, d.h. einer Nullhypothese H0 und einer Alternativhypothese HA , aus der zu bearbeitenden Aufgabenstellung. (Ein statistischer Test ist ein einfaches statistisches Entscheidungsproblem. Aufgrund einer Stichprobe (oder auch mehrerer Stichproben) wird für eine der beiden Hypothesen entschieden. Entweder wird die Nullhypothese H0 angenommen oder sie wird abgelehnt, d.h. die Alternativhypothese HA wird angenommen.) 2. Vorgabe eines Signifikanzniveaus α entsprechend der durch die Aufgabenstellung geforderten Sicherheit für die Entscheidung. (Gilt die Nullhypothese, dann soll der Test diese möglichst annehmen und höchstens mit einer Wahrscheinlichkeit α (Signifikanzniveau) ablehnen.) 3. Auswahl einer Testgröße T . (Dabei muss T eine Stichprobenfunktion sein, deren Verteilung, falls die Nullhypothese H0 gilt ( unter H0“), bekannt ist. Die Testgröße wird also aufgrund der ” Nullhypothese ausgewählt.) 4. Festlegung des kritischen Bereiches K. (Der kritische Bereich ist der Ablehnungsbereich für H0 und wird aufgrund der Alternativhypothese HA festgelegt. Dabei soll immer gelten: H0 gilt: P (T ∈ K) ≤ α. (vgl. 2.)) 5. Berechnung einer Realisierung t der Testgröße T . (Die Testgröße T ist eine Funktion der Stichprobe X1 , . . . , Xn (vgl. 3.). Setzt man in diese Funktion die konkrete (beobachtete) Stichprobe x1 , . . . , xn (Realisierung der Stichprobe X1 , . . . , Xn ) ein, so erhält man t, die Realisierung von T .) 6. Testentscheidung: Falls t ∈ K Falls t ∈ ̸ K =⇒ =⇒ H0 wird abgelehnt, d.h. HA wird angenommen. H0 wird nicht abgelehnt, d.h H0 wird angenommen“. ” (Neben der formalen Testentscheidung (H0 wird abgelehnt bzw. H0 wird angenommen), sollte für die konkrete Fragestellung die Testentscheidung so formuliert werden, dass der Anwender diese versteht.) 40 Beispiel: Test für den Erwartungswert µ Normalverteilte Stichprobe X1 , .., Xn , Xi ∼ N(µ, σ 2 ) 1. H0 : µ = µ0 (µ0 ist der hypothetische Wert, z.B.: gegen (σ 2 ist unbekannt). HA : µ > µ 0 H0 : µ = 3 HA : µ > 3 (µ0 = 3)) α = 0, 05 2. (Gilt H0 , dann soll die Wahrscheinlichkeit der Ablehnung höchstens 0,05 sein.) 3. T = X − µ0 √ H0 n ∼ tn−1 S (Im Wesentlichen wird in T der Mittelwert X mit dem hypothetischen Wert µ0 verglichen. Falls H0 gilt, dann ist T t-verteilt mit n − 1 Freiheitsgraden) Student-t Verteilung FG 9 0,4 Dichte 0,3 0,2 0,1 0 -6 -4 -2 0 x 2 4 6 K = {t | t > tn−1,1−α } 4. (Da die Alternativhypothese HA : µ > µ0 ist, sollen sehr große Werte der Teststatistik zur Ablehnung der Nullhypothese H0 führen. Gilt H0 , so ist P (T ∈ K) = α (vgl. 2.). Für n = 10 und α = 0, 05 ist t9,0.95 = 1, 83.) Student-t Verteilung 0,4 FG 9 Dichte 0,3 0,2 0,1 alpha = 0,05 0 -6 -4 -2 0 2 1,83 4 6 5. x1 = 4, 01; x2 = 3, 38; x3 = 2, 72; x4 = 3, 19; x5 = 2, 92; x6 = 3, 51; x7 = 2, 53; x8 = 5, 08; x9 = 2, 45; x10 = 3, 16 =⇒ x = 3, 595 und s2 = 0, 617. 3, 595 − 3 √ 10 = 2, 40 t= √ 0, 617 41 6. t = 2, 40 > 1, 83 =⇒ t∈K =⇒ H0 wird ablehnt. Student-t Verteilung 0,4 FG 9 Dichte 0,3 0,2 0,1 0 -6 4.1.2 -4 -2 0 2 t=2,40 4 6 p-value (p-Wert) Die Statistik-Software (z.B. Statgraphics, SPSS, R, ...) berechnet aus der Realisierung t der Teststatistik T den p-value (p-Wert). Für die Testentscheidung wird dieser p-value mit dem Signifikanzniveau α verglichen. Falls Falls p≤α p>α =⇒ =⇒ H0 wird abgelehnt, d.h. HA wird angenommen. H0 wird nicht abgelehnt, d.h H0 wird angenommen“. ” (Ist also t die Realisierung der Testgröße, so ist der p-value das kleinste Signifikanzniveau α, für welches die Testentscheidung des Testes H0 wird abgelehnt“wäre.) ” Beispiel s.o.: Die Realisierung der Testgröße ist t = 2, 40. Da die Alternativhypothese HA : µ > 3 ist, errechnet man den p-value wie folgt: p = PH0 (T > t) = PH0 (T > 2, 40) = 0, 020 p = 0, 020 < 0, 05 = α =⇒ H0 wird ablehnt. Student-t Verteilung FG 9 0,4 Dichte 0,3 0,2 0,1 p = 0,020 0 -6 -4 -2 0 42 2 t=2,40 4 6 4.1.3 Parametertests Eine Stichprobe Normalverteilte Stichprobe Xi ∼ N(µ, σ 2 ) i = 1, .., n. • Test für den Erwartungswert µ, d.h. Test bezüglich der Lage: X − µ0 √ H (σ 2 bekannt) T = n T ∼0 N(0, 1) σ } { K = t | |t| ≥ z1− α2 K = {t | t ≥ z1−α } (H0 : µ ≤ µ0 ist hier auch möglich.) K = {t | t ≤ −z1−α } (H0 : µ ≥ µ0 ist hier auch möglich.) H0 : µ = µ0 HA : µ ̸= µ0 HA : µ > µ 0 HA : µ < µ 0 Der folgende Test wird auch als t-Test bezeichnet. (σ 2 unbekannt) T = } { K = t | |t| ≥ tn−1;1− α2 K = {t | t ≥ tn−1;1−α } K = {t | t ≤ −tn−1;1−α } H0 : µ = µ0 HA : µ ̸= µ0 HA : µ > µ 0 HA : µ < µ 0 X − µ0 √ n S H T ∼0 tn−1 (H0 : µ ≤ µ0 ist hier auch möglich.) (H0 : µ ≥ µ0 ist hier auch möglich.) • Test für die Varianz σ 2 , d.h. Test bezüglich der Streuung: nS ∗2 H (µ bekannt) T = 2 T ∼0 χ2n σ0 } { K = t | t ≥ χ2n;1− α oder t ≤ χ2n; α 2 2 { } 2 2 K = t | t ≥ χn;1−α (H0 : σ ≤ σ02 ist hier auch möglich.) { } K = t | t ≤ χ2n;α (H0 : σ 2 ≥ σ02 ist hier auch möglich.) H0 : σ 2 = σ02 HA : σ 2 ̸= σ02 HA : σ 2 > σ02 HA : σ 2 < σ02 Dabei ist S ∗2 = H0 : σ 2 = σ02 HA : σ 2 ̸= σ02 HA : σ 2 > σ02 HA : σ 2 < σ02 1 n n ∑ (Xi − µ)2 die empirische Varianz, falls der Erwartungswert µ bekannt ist. i=1 (n − 1)S 2 H (µ unbekannt) T = T ∼0 χ2n−1 2 σ0 { } 2 2 K = t | t ≥ χn−1;1− α oder t ≤ χn−1; α 2 2 { } 2 2 K = t | t ≥ χn−1;1−α (H0 : σ ≤ σ02 ist hier auch möglich.) { } K = t | t ≤ χ2n−1;α (H0 : σ 2 ≥ σ02 ist hier auch möglich.) 43 Xi ∼ B(p) i = 1, .., n. Bernoulliverteilte Stichprobe (Tritt das Ereignis A ein, dann ist die Zufallgröße Xi gleich 1. P (A) = P (Xi = 1) = p.) n groß, Faustregel: np0 (1 − p0 ) ≥ 9. Hypothese H0 HA p = p0 p ̸= p0 p ≤ p0 p > p0 p ≥ p0 T = Verteilung von T , falls p = p0 √ X−npo npo (1−po ) kritischer Bereich |t| ≥ z1−α/2 t ≥ z1−α N(0, 1) t ≤ −z1−α p < p0 X= Dabei ist Testgröße T n ∑ Xi die absolute Häufigkeit von A. i=1 Zwei unabhängige Stichproben Bernoulliverteilte Stichproben: X1i ∼ B(p1 ) i = 1, .., n1 X2i ∼ B(p2 ) und i = 1, .., n2 . n1 und n2 groß, Faustregel: n1 ≥ 50, n2 ≥ 50, np̂ > 5 und n(1 − p̂) > 5. Hypothese H0 HA p1 = p2 p1 ̸= p2 p1 ≤ p2 p1 > p 2 Testgröße T T = p̂1 −p̂2 ( √ ) kritischer Bereich |t| ≥ z1−α/2 t ≥ z1−α N(0, 1) 1 + n1 n1 2 p̂(1−p̂) p1 ≥ p2 Verteilung von T , falls p1 = p2 t ≤ −z1−α p1 < p 2 Dabei sind X1 = n1 ∑ i=1 2 ∑ X1 X2 X1 + X2 X1i , pˆ1 = und X2 = X2i , p̂2 = und p̂ = mit n = n1 + n2 . n1 n n 2 i=1 n Normalverteilte Stichproben: X1i ∼ N(µ1 , σ12 ) i = 1, .., n1 und X2i ∼ N(µ2 , σ22 ) i = 1, .., n2 . • Test für die Varianzen σ12 und σ22 , d.h. Test bezüglich der Streuungen: Hypothese H0 HA σ12 = σ22 σ12 ̸= σ22 σ12 ≤ σ22 σ12 ≥ σ22 σ12 > σ22 σ12 < σ22 Testgröße T T = S12 S22 44 Verteilung von T , falls σ12 = σ22 kritischer Bereich Fn1 −1,n2 −1 t ≥ Fn1 −1,n2 −1;1−α t ≤ Fn1 −1,n2 −1;α t ≥ Fn1 −1,n2 −1;1− α2 oder t ≤ Fn1 −1,n2 −1; α2 • Tests für die Erwartungsverte µ1 und µ2 (Lagevergleich): Doppelter-t-Test (Voraussetzung ist, dass die Varianz gleich ist, d.h. σ12 = σ22 ) Hypothese H0 HA µ1 = µ2 µ1 ̸= µ2 µ1 ≤ µ2 µ1 > µ2 µ1 ≥ µ2 µ1 < µ2 Dabei ist Sg2 = 1 n1 +n2 −2 [ Testgröße T T = X 1 −X 2 Sg √ Verteilung von T , falls µ1 = µ2 kritischer Bereich |t| ≥ tn1 +n2 −2,1−α/2 n1 n2 n1 +n2 t ≥ tn1 +n2 −2;1−α tn1 +n2 −2 t ≤ −tn1 +n2 −2;1−α ] (n1 − 1)S12 + (n2 − 1)S22 die geschätzte Gesamtvarianz. Welch-Test Hypothese H0 HA µ1 = µ2 µ1 ̸= µ2 Testgröße T µ1 ≤ µ2 µ1 > µ2 T = µ1 ≥ µ2 µ1 < µ2 Verteilung von T , falls µ1 = µ2 kritischer Bereich |t| ≥ tm,1−α/2 ( X 1 −X 2 √ 2 S2 S1 + n2 n1 2 2 n1 −1 )2 t ≥ tm;1−α t ≤ −tm;1−α ( )2 . S2 Der Freiheitsgrad ist m = ( 2) S1 n1 tm 2 S1 S2 + n2 n1 2 + 2 n2 n2 −1 int Dabei ist [x]int der ganzzahlige Anteil von x, z.B. [3, 78]int = 3. • Test zum Lagevergleich zweier unabhängiger Stichproben: Rangtest nach Wilcoxon (Wilcoxon-Mann-Whitney-Test) Der Wilcoxon-Rangsummentest dient zum Vergleich zweier unabhängiger Stichproben hinsichtlich ihrer zentralen Tendenz (ihrer Lage). Im Falle nicht gegebener Normalverteilung ersetzt der Wilcoxon-Rangsummentest also den doppelten-t-Test. X1 , .., Xn1 mit stetiger Verteilungsfunktion FX . Y1 , .., Yn2 mit stetiger Verteilungsfunktion FY . Es gibt eine Zahl a, so dass für alle Zahlen t gilt: FY (t) = FX (t + a) Daraus folgt z.B. EX = EY + a. 45 Verteilungsfunktionen Dichtefunktionen 1 1,2 F_Y F_X f_Y f_X 1 0,8 a=1 0,8 0,6 0,6 0,4 0,4 0,2 0,2 a=1 0 0 0 1 2 x 3 0 4 1 2 x 3 4 µ1 = EX und µ2 = EY Hypothese H0 HA µ1 = µ2 µ1 ̸= µ2 µ1 ≤ µ2 µ1 ≥ µ2 µ1 > µ2 µ1 < µ2 Testgröße T Verteilung von T , falls µ1 = µ2 T = R1 kritischer Bereich t ≥ wn1 ,n2 ;1− α2 oder t ≤ wn1 ,n2 ; α2 t ≥ wn1 ,n2 ;1−α t ≤ wn1 ,n2 ;α Wn1 ,n2 Die Tabellen für wn1 ,n2 ;α sind im Anhang zu finden. Dabei ist wn1 ,n2 ;1−α = n1 (n1 + n2 + 1) − wn1 ,n2 ;α . In der gemeinsamen Stichprobe (beide Stichproben zusammen) werden die Ränge bestimmt. Bildet man die Summe dieser Ränge in der ersten Stichprobe , so erhält man R1 . Approximativ (für grosse Stichproben, Faustregel: n1 ≥ 4, n2 ≥ 4, n1 + n2 ≥ 20) Hypothese H0 HA µ1 = µ2 µ1 ̸= µ2 µ1 ≤ µ2 µ1 > µ2 µ1 ≥ µ2 µ1 < µ2 Testgröße T Vert. von T , falls µ1 = µ2 kr. Bereich |t| ≥ z1−α/2 R1 − 21 ·n1 (n1 +n2 +1) 1 ·n ·n ·(n1 +n2 +1) 12 1 2 T =√ N(0, 1) t ≥ z1−α t ≤ −z1−α Oft wird der Test zum Vergleich der Lage zweier unabhängiger Stichproben verwendet, falls die Daten ein beliebiges metrisches oder auch nur ein ordinales Skalenniveau besitzen. 46 Zwei verbundene Stichproben Beobachtet man zwei Merkmale an ein- und demselben Objekt, so entsteht eine verbundene Stichprobe. (Beispiel: Die Anzahl der Bestellungen der Stammkunden vor (1. Stichprobe) und nach (2. Stichprobe) einer Werbeaktion werden erfasst.) Bei einer verbundenen Stichprobe gibt es damit zu jedem Merkmalswert in der ersten Stichprobe einen Merkmalswert in der zweiten Stichprobe. Die Stichprobenumfänge sind damit in beiden Stichproben gleich. Die Unabhängigkeit der beiden Stichproben kann nicht mehr vorausgesetzt werden, darum spricht man bei verbundenen Stichproben auch von abhängigen Stichproben. Nach wie vor werden die Werte innerhalb der 1. Stichprobe: X1 , X2 , . . . , Xn und innerhalb der 2. Stichprobe: Y1 , Y2 , . . . , Yn als unabhängige Zufallvariablen betrachtet. Verbundene Stichprobe: (X1 , Y1 ), (X2 , Y2 ), . . . (Xn , Yn ) Durch die Bildung der Differenz der beiden Stichproben erhält man eine Stichprobe Di = Xi − Yi i = 1, . . . , n. Je nach Fragestellung und weiteren Voraussetzungen an die verbundene Stichprobe kann man jetzt Tests für eine Stichprobe verwenden. Für die folgenden Tests wird erst einmal nur vorausgestzt, dass Di eine stetige Zufallsgröße ist. Normalverteilte Stichproben: Xi ∼ N(µ1 , σ12 ) i = 1, .., n und Yi ∼ N(µ2 , σ22 ) i = 1, .., n. • Tests für die Erwartungswerte µ1 und µ2 (Lagevergleich): t-Test für zwei verbundene Stichproben Verwende den t-Test für eine Stichprobe für D1 , . . . , Dn Di ∼ N(µd , σd ) i = 1, .., n. Dabei ist µd = µ1 − µ2 . • Weitere Tests zum Lagevergleich zweier verbundener Stichproben: Vorzeichentest Im Falle nicht gegebener Normalverteilung ersetzt der Vorzeichentest, oder mit stärkeren Voraussetzungen der Wilcoxon-Vorzeichentest, den t-Test für zwei verbundene Stichproben. { n ∑ 1 : Di > 0 (≡ Xi > Yi ) Zi = Z= Zi dann ist Z ∼ Bin(n, p) mit p = P (X > Y ). 0 : Di < 0 (≡ Xi < Yi ) i=1 Verwende Tests für die Wahrscheinlichkeit p. 47 Wilcoxon-Vorzeichentest Hier wird noch vorausgesetzt, dass die Differenzen Di stetig und symmetrisch um den Median M verteilt sind. Mögliche Hypothesen sind dann z.B.: M > 0, d.h. mehr positive Differenzen bzw. X ist größer“ als Y. ” M < 0, d.h. mehr negative Differenzen bzw. X ist kleiner“ als Y. ” Hypothese H0 HA M =0 M ̸= 0 M ≤0 M ≥0 M >0 Testgröße T T = n ∑ Verteilung von T , falls M = 0 + t ≥ wn;1− α oder 2 + t ≤ wn; α 2 Ri+ · Zi Wn+ i=1 t≥ + wn;1−α + t ≤ wn;α M <0 { Dabei sind kritischer Bereich Ri+ = Rang(|Di |) und Zi = 1 : Di > 0 . 0 : Di < 0 Man bestimmt also die Beträge der Differenzen Di und von diesen die Ränge. In der Testgröße T werden dann alle Ränge aufsummiert, bei welchen Di > 0, d.h. die Differenzen positiv sind. + Die Tabellen für wn;α sind im Anhang zu finden. Dabei ist + wn;1−α = n(n + 1) + − wn;α . 2 Approximativ (für große Stichproben, Faustregel: n ≥ 20) Hypothese H0 HA M =0 M ̸= 0 Testgröße T M ≥0 M >0 kritischer Bereich |t| ≥ z1−α/2 n ∑ M ≤0 Verteilung von T , falls M = 0 Ri+ ·Zi − 14 n(n+1) T = √1 i=1 24 n(n+1)(2n+1) N(0, 1) t ≥ z1−α t ≤ −z1−α M <0 48 4.1.4 Nichtparametrische Tests Tests auf Vorliegen einer bestimmten Verteilung Für eine Stichprobe X1 , . . . , Xn (identisch verteilte (d.h. FXi (t) = FX (t) i = 1, .., n) und unabhängige Zufallsgrößen) soll untersucht werden, welche Verteilung vorliegt. H0 : FX (t) = F0 (t) HA : FX (t) ̸= F0 (t) gegen Dabei ist F0 die Verteilungsfunktion der hypothetischen Verteilung. χ2 -Anpassungstest Voraussetzung: großer Stichprobenumfang Die Stichprobe X1 , . . . , Xn wird in k Klassen eingeteilt. Hi - absolute Häufigkeit der Stichprobenwerte in der Klasse i (i = 1, . . . , k) pi - Wahrscheinlichkeit unter H0 , dass eine Beobachtung in der Klasse i liegt Testgröße: Kritischer Bereich: T = { k ∑ (Hi − npi )2 npi i=1 K = t | t > χ2k−m−1;1−α } Dabei ist m die Anzahl der Parameter der hypothetischen Verteilung, die aus der Stichprobe geschätzt werden. Da der χ2 -Anpassungstest ein asymptotischer Tests ist, sollten die Stichproben als ganzes nicht zu klein sein. Auch sollte man die Klassen so wählen, dass die erwarteten Häufigkeiten (npi ) in jeder Klasse größer als 1 sind. Ist das nicht der Fall, dann lege man Klassen zusammen. Das Testergebnis hängt von der Klasseneinteilung ab. Kolmogorov-Smirnov-Test Voraussetzung: F0 muss stetig sein und darf keine unbekannten Parameter enthalten. Testgröße: T = sup |F̂n (t) − F0 (t)| t Dabei ist F̂n die empirische Verteilungsfunktion. Für die praktische Anwendung des K-S-Testes verwende man ein Statistik-Programm. Der K-S-Test ist (im Vergleich zum χ2 −Anpassungstest) auch für kleine Stichproben anwendbar und das Testergebnis hängt nicht von einer Klasseneinteilung ab. Auch kann man mit dem K-S-Test einseitige Fragestellungen testen. Es gibt Modifikationen des K-S-Tests, bei denen F0 noch unbekannte und damit aus der Stichprobe zu schätzende Parameter enthält (bei Normalverteilung z.B. Lilliefors-Test). Desweiteren kann man mit einer Version des K-S-Test testen, ob zwei Stichproben die gleiche Verteilung besitzen. 49 Shapiro-Wilk-Test (Test auf Vorliegen der Normalverteilung) Der Shapiro-Wilk-Test testet ausschließlich, ob bei der Stichprobe eine Normalverteilung vorliegt. Für diese Frage ist es der Test mit der höchsten Güte. Zur Durchführung des Tests wird eine Statistik-Software (z.B. Statgraphics, SPSS, R,.. ) benötigt, da dieser Test sehr rechenintensiv ist. Unabhängigkeitstest Kontingenztafel (p × q - Tafel) Der χ2 -Unabhängigkeitstest überprüft, ob zwei (beliebig skalierte) Merkmale X und Y stochastisch unabhängig sind. H0 : X und Y sind stochastisch unabhängig Merkmal X : p Klassen A1 , . . . , Ap Merkmal Y : q Klassen B1 , . . . , Bq Y X A1 ... Ap B1 ... Bq H11 H1q Hij Hp1 H•1 Hpg H•q ... H1• ... Hp• n Hij - absolute Häufigkeit der Realisierungen in der Klassenkombination Ai und Bj Hi• - Zeilensummen H•j - Spaltensummen ( Testgröße: ∑ ∑ Hij − p T = q )2 Hi• ·H•j n i=1 j=1 Kritischer Bereich: Hi• ·H•j n } { K = t | t > χ2(p−1)(q−1);1−α p . . . Anzahl der Zeilen q . . . Anzahl der Spalten Sind X und Y normalverteilt, dann verwendet man zum Testen der Unabhängigkeit den Pearson - Korrelationstest (Test auf Unkorreliertheit) (s. S. 52). 50 4.2 4.2.1 Stichprobenpläne zur Qualitätskontrolle (n, c)-Stichprobenplan n . . . Stichprobenumfang c . . . Annahmezahl X . . . (zufällige) Anzahl der Ausschussstücke in der Stichprobe p . . . (unbekannter) Anteil des Ausschusses an der Gesamtheit der Lieferung Für diesen unbekannten Ausschussanteil p sollen folgende Hypothesen getestet werden: H0 : p ≤ pα (Ausschussanteil p von höchstens pα =⇒ gute Lieferung.) HA : p ≥ pβ (Ausschussanteil von mindestens pβ =⇒ schlechte Lieferung.) (pα < pβ ) X≤c X>c Testentscheidung: =⇒ =⇒ H0 wird angenommen, H0 wird abgelehnt. L(p). . . OC-Funktion an der Stelle p. (Die OC-Funktion des Tests gibt an, mit welcher Wahrscheinlichkeit H0 angenommen wird.) 1.) Die Wahrscheinlichkeit der Ablehnung (H0 wird abgelehnt) einer guten Lieferung ist höchstens α (Produzentenrisiko): L(pα ) ≥ 1 − α. 2.) Die Wahrscheinlichkeit der Annahme (H0 wird angenommen) einer schlechten Lieferung ist höchstens β (Konsumentenrisiko): L(pβ ) ≤ β. Operationscharakteristik (OC-Kurve) n=1195, c=10 1 L(p_alpha) >0,95 0,8 L(p) 0,6 0,4 0,2 L(p_beta)<0,03 0 0 0,5 p_alpha=0,05 1 1,5 p_beta=1,5 51 2 2,5 3 p (in %) n und c müssen so bestimmt werden, dass die Forderungen 1.) und 2.) erfüllt sind. Dazu kann man z.B. das Statistik-Programm Statgraphics nutzen. Näherungsweise kann man auch eine der folgenden Approximationen verwenden. 4.2.2 Approximative Berechnung eines (n, c)-Stichprobenplanes Poisson-Approximation χ22(c+1);1−β 2pβ χ22(c+1);α ≤ n ≤ 2pα Normalverteilungs-Approximation npα + z1−α √ npα (1 − pα ) − 0, 5 ≤ c ≤ npβ − z1−β √ npβ (1 − pβ ) − 0, 5 Man erhält folgende untere Schranke für den Stichprobenumfang: [√ ]2 √ pα (1 − pα )z1−α + pβ (1 − pβ )z1−β n≥ pβ − pα 4.2.3 Sequentielle Stichprobenpläne Es werden die gleichen Hypothesen wie beim (n, c)-Stichprobenplan getestet. Aber jetzt gibt es noch eine dritte mögliche Testentscheidung, nämlich die Fortsetzung der Prüfung. k . . . Anzahl der geprüften Stücke Xk . . . (zufällige) Anzahl der Ausschussstücke unter den ersten k geprüften Testentscheidung: X k ≤ cs · k − a X k ≥ cs · k + b c s · k − a < Xk < c s · k + b =⇒ =⇒ =⇒ H0 wird angenommen, H0 wird abgelehnt. Prüfung wird fortgesetzt. Dabei sind (als Funktionen von k) cs ·k−a die Annahmegerade und cs ·k+b die Ablehnungsgerade. ( Mit d = ln pβ (1 − pα ) pα (1 − pβ ) ( ) ln sind a= 1−α β d ) , b= ln ( ( 1−β ) α d ln und cs = 1−pα 1−pβ ) d (Mit diesen Parametern werden die Forderungen L(pα ) ≥ 1 − α und L(pβ ) ≤ β näherungsweise erfüllt.) 52 . erwarteter Stichprobenumfang: EN = b−(a+b)·L(p) p−cs für p ̸= cs für p = cs ab cs (1−cs ) Entscheidungsgebiete in einem Beispiel: Sequentieller Test 5 Ablehnungsbereich 4 x_k 3 2 Fortsetzungsbereich 1 0 -1 Annahmebereich -2 0 10 20 30 40 50 k 4.3 Kontrollkarten Variablenprüfung mit der Mittelwertkarte Merkmal X sei normalverteilt mit X ∼ N(µ, σ 2 ) a : Sollwert für den Erwartungswert µ H0 : µ = a gegen HA : µ ̸= a Es wird zu verschiedenen Zeitpunkten getestet, ob der Sollwert eingehalten wird oder ob es Abweichungen vom Sollwert gibt. Der Stichprobenumfang n ist für jeden Entnahmezeitpunkt der Gleiche. Die Varianz σ 2 sei bekannt. X (j) : Mittelwert aus einer Stichprobennahme vom Umfang n zum Zeitpunkt tj , j = 1, . . . Die Hypothese H0 wird nicht abgelehnt (d.h. H0 wird angenommen), falls der Mittelwert (j) X innerhalb der Kontrollgrenzen liegt, d.h.: σ σ (j) a − z1− α2 √ < X < a + z1− α2 √ n n mit α = 0, 01 für den europäischen Bereich. Wählt man α = 0, 05, so erhält man die sogenannten Warngrenzen. 53 Mittelwertkarte 11,7 UCL = 9,69 CTR = 7,50 LCL = 5,31 Mittelwert 9,7 7,7 5,7 3,7 0 2 4 6 8 10 Eingriffskennlinie g(µ). . . Gütefunktion an der Stelle µ. (Die Gütefunktion des Testes gibt an, mit welcher Wahrscheinlichkeit H0 abgelehnt wird.) Die Gütefunktion wird hier Eingriffskennlinie genannt, da eingegriffen wird, falls H0 abgelehnt wird. ( √ ) ( √ ) µ−a g(µ) = g1 (δ) = Φ δ n − z1− α2 + Φ −δ n − z1− α2 mit δ = σ Eingriffskennlinie 1 g(mu) 0,8 0,6 0,4 0,2 alpha = 0,01 0 9 10 11 12 13 a = 12 14 15 mu Lauflänge N : Anzahl der Kontrollen bis zum ersten Eingriff p : Wahrscheinlichkeit des Eingriffs zu einem festen Zeitpunkt, p = g(µ) = g1 (δ) N genügt einer geometrischen Verteilung : P (N = k) = p(1 − p)k−1 . EN = 1 1 1 = = p g(µ) g1 (δ) 54 5 Varianzanalyse 5.1 Einfache Klassifikation Tests auf Lokationsunterschiede von p unabhängigen Stichproben. 1 - te Stichprobe: X11 , . . . , X1n1 .. . mit Erwartungswert µ1 , .. . p - te Stichprobe : Xp1 , . . . , Xpnp mit Erwartungswert µp . H0 : µ1 = µ2 = . . . = µp HA : µi = ̸ µj für mindestens zwei i und j mit i ̸= j 5.1.1 Test bei Normalverteilung Die Stichproben sind normalverteilt mit unbekannter und gleicher Varianz σ 2 . Xij ∼ N(µi , σ 2 ) ; i = 1, . . . , p ; j = 1, . . . , ni . ⇐⇒ Xij = µi + εij mit εij ∼ N(0, σ 2 ) ; i = 1, . . . , p ; j = 1, . . . , ni . ANOVA-Tafel: p N Quelle der Variation Streuung zwischen den Stufen Streuung innerhalb der Stufen (Rest) Freiheitsgrade Summe der Quadrate Mittlere Quadrate p−1 SSA M SA = SSA p−1 N −p SSR M SR = SSR N −p Gesamtstreuung N −1 SST . . . Anzahl der Stufen eines Faktors . . . Anzahl der Messwerte insgesamt, d.h. N = p ∑ ni i=1 kritischer Bereich: K = {t | t > Fp−1;N −p;1−α } 55 Testgröße T = M SA M SR 5.1.2 Kruskal-Wallis-Test Beim Test von Kruskal-Wallis reicht es, dass die Stichproben einer stetigen Verteilung entstammen. Die Normalverteilung wird nicht vorausgesetzt. p ni . . . Anzahl der Stufen . . . Anzahl der Messwerte in der Stufe i N . . . Anzahl der Messwerte insgesamt, d.h. N = p ∑ i = 1, . . . , p ni i=1 In der gemeinsamen Stichprobe (alle p Stichproben zusammen) werden die Ränge bestimmt. rij ri• . . . Rangzahl der j-ten Beobachtung in der i-ten Stufe . . . Summe der Ränge in der Stufe i Testgröße: 1 T = B mit [ 12 N (N + 1) ( p ∑ 1 2 r ni i• i=1 ) j = 1, . . . , ni ] − 3(N + 1) g ∑ 1 (t3h − th ) B =1− 3 · N − N h=1 g th . . . Anzahl der Bindungen . . . Anzahl der gleichen Messwerte in der h-ten Bindung h = 1, . . . , g kritischer Bereich: (approximativ, Faustregel: ni > 5 (für p = 3 sollte allerdings mindestens ein ni größer als 8 sein.)) { } K = t | t > χ2p−1;1−α Sind die p Stichproben nicht unabhängig, sondern verbunden, dann verwende man den Friedman-Test. 5.2 Zweifache Klassifikation Modell mit Wechselwirkung: Xijk = µ + αi + βj + γij + εijk ; µ ... αi . . . βj . . . γij . . . εijk . . . i = 1, . . . , p; j = 1, . . . , q; allg. Erwartungswert Effekte der Stufen von A Effekte der Stufen von B Effekt durch Wechselwirkung von A und B zufälliger und normalverteilter Fehler εijk ∼ N(0, σ 2 ) 56 k = 1, . . . nij Die folgenden Hypothesen sollen getestet werden: H0A : α1 = α2 = . . . = αp = 0 H0B : β1 = β2 = . . . = βq = 0 H0AB : γ11 = . . . = γpq = 0 Anova-Tabelle: gleiche Klassenbesetzung - balancierter Fall (d.h. nij = n) Insgesamt gibt es dann N = p · q · n Beobachtungen. Quelle der Variation Streuung zwischen den Stufen von A Streuung zwischen den Stufen von B Wechselwirkung zwischen A und B Rest Gesamtstreuung Freiheitsgrade Summe der Quadrate Mittlere Quadrate Testgröße p−1 SSA M SA T = M SA M SR q−1 SSB M SB T = M SB M SR (p − 1)(q − 1) SS(AB) M S(AB) T = M S(AB) M SR N − pq SSR M SR N −1 SST Die Testgröße T ist (unter H0 ) jeweils F-verteilt mit folgenden Freiheitsgraden: Der erste Freiheitsgrad ist der des Faktors und der zweite der des Restes. Damit sind die kritischen Bereiche: KA = {t | t > Fp−1,N −pq;1−α } KB = {t | t > Fq−1,N −pq;1−α } KAB = {t | t > F(p−1)(q−1),N −pq;1−α } Modell ohne Wechselwirkung: Xijk = µ + αi + βj + εijk ; i = 1, . . . , p; j = 1, . . . , q; k = 1, . . . nij (Erklärung der Modellparameter s. Modell mit Wechselwirkungen). Alles, was die Wechselwirkungen betrifft (Hypothese,..,kritischer Bereich) entfällt damit. Die einzige Änderung (in der Anova-Tabelle, im balancierten Fall) zum Modell mit Wechselwirkung ist die Zahl der Freiheitsgrade für Rest“: ” N − p − q + 1. Das Weitere ist analog zum Modell mit Wechselwirkungen. 57 5.2.1 Schätzung der Modellparameter Modell mit Wechselwirkung: gleiche Klassenbesetzung - balancierter Fall (d.h. nij = n) Xijk = µ + αi + βj + γij + εijk ; i = 1, . . . , p; Parameterschätzungen Gesamterwartungswert: j = 1, . . . , q; k = 1, . . . n µ̂ = X ··· Effekt vom Faktor A auf Stufe i: α̂i = X i·· − X ··· Effekt vom Faktor B auf Stufe j: β̂j = X ·j· − X ··· Wechselwirkungseffekt Faktor A auf Stufe i und Faktor B auf Stufe j: γ̂ij = X ij· − X i·· − X ·j· + X ··· Diese Schätzungen gelten auch im Modell ohne Wechselwirkung: Xijk = µ + αi + βj + εijk ; i = 1, . . . , p; j = 1, . . . , q; k = 1, . . . n In den Schätzungen werden folgende Mittelwerte verwendet. Gesamt-Mittelwert: p q n 1 ∑∑∑ X ··· = Xijk mit N = n · p · q N i=1 j=1 k=1 Mittelwerte der Stufen der Faktoren: X i·· 1 ∑∑ Xijk = np j=1 k=1 X ·j· p n 1 ∑∑ Xijk = nq i=1 k=1 q Faktor A: Faktor B: n Mittelwert in der i-ten Stufe des Faktors A und der j-ten Stufe des Faktors B: 1∑ Xijk = n k=1 n X ij· Es gelten, wie im Modell, die Reparametrisierungsbedingungen: p ∑ αi = i=1 q ∑ ∑ p i=1 γij = ∑ j=1 γij = ∑ i=1 58 α̂i = 0 i=1 q βj = j=1 p q p ∑ γ̂ij = ∑ β̂j = 0 j=1 q ∑ j=1 γ̂ij = 0 6 6.1 Korrelationsanalyse Zwei Merkmale 6.1.1 Gewöhnlicher Korrelationskoeffizient (Bravais-Pearsonscher Korrelationskoeffizient) (Maß für den linearen Zusammenhang zweier Zufallsgrößen X und Y .) Cov(X, Y ) E(X − EX)(Y − EY ) EXY − EX · EY √ = Corr(X, Y ) = √ = = √ VarX · VarY VarX · VarY VarX · VarY Ist ρX,Y = 0, dann heißen X und Y unkorreliert. ρX,Y Dabei gilt: X und Y sind unabhängig =⇒ X und Y sind unkorreliert. (Ist der Vektor Z = (X, Y )T 2-dimensional normalverteilt, dann ist für die normalverteilten Zufallsgrößen X und Y Unkorreliertheit gleich Unabhängigkeit.) Aus einer Stichprobe (X1 , Y1 ), . . . (Xn , Yn ) erfolgt die Schätzung von ρX,Y durch den empirischen Korrelationskoeffizienten rX,Y = ρ̂X,Y : n ∑ (Xi − X)(Yi − Y ) i=1 rX,Y = √ n n ∑ ∑ (Xi − X)2 (Yi − Y )2 i=1 i=1 Beispiel: Zwei unkorrelierte Merkmale X und Y , d.h. ρX,Y = 0. Realisierung einer Stichprobe vom Umfang 25: Streudiagramm 3,5 2,5 Y 1,5 0,5 -0,5 -1,5 -2,5 -2,1 -1,1 -0,1 X Aus dieser Realsierung erhält man rx,y = 0, 1633. 59 0,9 1,9 • Test auf Unkorreliertheit H0 : ρX,Y = 0 Es wird vorausgesetzt, dass der Vektor Z = (X, Y )T 2-dimensional normalverteilt ist. Dann ist H0 gleichbedeutend damit, dass X und Y unabhängig sind. Testgröße: T =√ rX,Y 2 1 − rX,Y √ n−2 H T ∼0 tn−2 Je nach Wahl der Alternativhypothese erhält man den kritischen Bereich (vgl. S. 40). Beispiel: (vgl. S. 6) rx,y = 0, 9375 (x-Alter und y-Blutdruck) • Test auf Größe von ρ. H0 : ρX,Y = ρ0 Voraussetzung: X und Y sind (zumindest näherungsweise) normalverteilt. Testgröße: T = (z − z0 ) · mit 1 z = ln 2 ( 1 + rX,Y 1 − rX,Y √ n−3 ) H0 T ≈ N(0, 1) 1 z0 = ln 2 und ( 1 + ρ0 1 − ρ0 ) + ρ0 . 2(n − 1) Je nach Wahl der Alternativhypothese erhält man den kritischen Bereich (vgl. S. 40). 60 6.1.2 Spearmansche Rangkorrelation Für eine Stichprobe (X1 , Y1 ), (X2 , Y2 ), . . . , (Xn , Yn ) ist die Spearmansche Rangkorrelation die gewöhnliche Korrelation (Bravais-Pearsonsche Korrelation) der Ränge: Ui = Rang(Xi ) und Vi = Rang(Yi ) i = 1, . . . , n. (S) ρX,Y = Corr(U, V ) = Corr(Rang(X), Rang(Y )) Liegen sowohl in der X-Stichprobe, als auch in der Y -Stichprobe keine Bindungen vor, so kann man die Spearmansche Rangkorrelation zwischen X und Y leicht schätzen: 6 (S) =1− rX,Y n ∑ (Rang(Xi ) − Rang(Yi ))2 i=1 n(n2 − 1) R(Xi ) . . . Rang von Xi in der X-Stichprobe R(Yi ) . . . Rang von Yi in der Y -Stichprobe Falls es Bindungen gibt: (S) rX,Y py px n ∑ ∑ ∑ n(n2 − 1) − 12 (t3j − tj ) − 12 (s3j − sj ) − 6 (Rang(Xi ) − Rang(Yi ))2 j=1 j=1 i=1 √ √ = py p x ∑ ∑ n(n2 − 1) − (t3j − tj ) n(n2 − 1) − (s3j − sj ) j=1 j=1 px . . . Anzahl der Bindungen in der X-Stichprobe tj . . . Anzahl der gleichen Messwerte in der j-ten Bindung der X-Stichprobe py sj . . . Anzahl der Bindungen in der Y -Stichprobe . . . Anzahl der gleichen Messwerte in der j-ten Bindung der Y -Stichprobe (S) Einfacher ist er allerdings, rX,Y als gewöhliche Korrelation der Rangzahlen zu bestimmen. • Test auf Unkorreliertheit der Ränge (Test auf Unabhängigkeit ordinaler Merkmale). =0 H0 : ρ(S) X,Y Der folgende Test ist nur approximativ (großer Stichprobenumfang, Faustregel: n ≥ 30). Testgröße: (S) T = rX,Y √ n−1 H0 T ≈ N(0, 1) Je nach Wahl der Alternativhypothese erhält man den kritischen Bereich (vgl. S. 40). Für kleine Stichprobenumfänge verwende man den exakten Test. (vgl. Hotelling-Pabst-Statistik) 61 6.1.3 Kendallsche Rangkorrelation (Kendalls τ ) Die Paare (Xi , Yi ) und (Xj , Yj ) heißen konkordant, falls (Xi − Xj )(Yi − Yj ) > 0 d.h. Xi < Xj =⇒ Yi < Yj oder Xi > Xj =⇒ Yi > Yj . und diskordant, falls (Xi − Xj )(Yi − Yj ) < 0 d.h. Xi < Xj =⇒ Yi > Yj oder Xi > Xj =⇒ Yi < Yj . Für eine Stichprobe (X1 , Y1 ), (Y2 , Y2 ), . . . , (Xn , Yn ) ist die Kendallsche Rangkorrelation: (K) ρX,Y = τ = P ((Xi − Xj )(Yi − Yj ) > 0) − P ((Xi − Xj )(Yi − Yj ) < 0) (i ̸= j) Aus der Stichprobe schätzt man die Kendallsche Rangkorrelation wie folgt: nk − nd (K) √ rX;Y =τ = √ py px (n ) 1 ∑ (n ) 1 ∑ − (t − 1)t − (sj − 1)sj j j 2 2 2 2 j=1 j=1 nk . . . die Anzahl der konkordanten Paare nd . . . die Anzahl der diskordanten Paare px . . . Anzahl der Bindungen in der X-Stichprobe tj . . . Anzahl der gleichen Messwerte in der j-ten Bindung der X-Stichprobe py . . . Anzahl der Bindungen in der Y -Stichprobe sj . . . Anzahl der gleichen Messwerte in der j-ten Bindung der Y -Stichprobe Liegen keine Bindungen vor, dann vereinfacht sich die Formel zu: nk − nd 4nd (K) (n ) = 1 − rX;Y =τ = n(n − 1) 2 Man ordne die Stichprobenpaare (X1 , Y1 ), . . . , (Xn , Yn ) so, dass X1 < X2 < . . . < Xn ist. qj . . . Anzahl der auf Yj folgenden Werte Yi (j < i), die kleiner sind als Yj (Yi < Yj ). Anzahl der diskordanten Paare: nd = n ∑ qj . j=1 • Test, ob Kendalls τ gleich 0 (Test auf Unabhängigkeit ordinaler Merkmale). H0 : ρ(K) =0 X,Y Der folgende Test ist nur approximativ (großer Stichprobenumfang, Faustregel: n ≥ 8). Testgröße: √ T = 9n(n − 1) ·τ 2(2n + 5) H0 T ≈ N(0, 1) Je nach Wahl der Alternativhypothese erhält man den kritischen Bereich (vgl. S. 40). 62 6.2 6.2.1 p > 2 Merkmale Partieller Korrelationskoeffizient Eine Korrelation zwischen zwei Zufallsgrößen X und Y kann möglicherweise auf einen gemeinsamen Einfluss einer dritten Zufallsgröße U zurückgeführt werden. Die partielle Korelation ist die Korrelation zwischen X und Y unter Ausschaltung des Einflusses (d.h. Konstanthaltung) von U . (empirischer) partieller Korrelationskoeffizient: r − rX,U rY,U rX,Y |U = √ X,Y 2 ) · (1 − r 2 ) (1 − rX,U Y,U • Test auf partielle Unkorreliertheit H0 : ρX,Y |U = 0 Es wird vorausgesetzt, dass X, Y und U normalverteilt sind. Testgröße: √ rX,Y |U T =√ n−3 2 1 − rX,Y |U H T ∼0 tn−3 Je nach Wahl der Alternativhypothese erhält man den kritischen Bereich (vgl. S. 40). 6.2.2 Multipler Korrelationskoeffizient Betragmäßig größte Korrelation zwischen einer Zufallsgröße Y und einer Linearkombination der restlichen Zufallsgrößen X1 , . . . , Xp . (empirischer) multipler Korrelationskoeffizient für p = 2: v u 2 2 u rY,X + rY,X − 2 · rY,X1 · rY,X2 · rX1 ,X2 1 2 rY |(X1 ,X2 ) = t 1 − rX2 ,X 1 2 • Test auf Unkorreliertheit zwischen Y und einer Linearkombination von X1 , . . . , Xp . H0 : ρY |(X1 ,...,Xp ) = 0 gegen HA : ρY |(X1 ,...,Xp ) > 0 Es wird vorausgesetzt, dass Y und X1 , . . . , Xp normalverteilt sind. Testgröße: T = rY2 |(X 1 ,...,Xp ) p · (1 − (n − 1 − p) r2 Y |(X1 ,...,Xp ) ) kritischer Bereich: K = {t | t > Fp,n−p−1;1−α } 63 H T ∼0 Fp,n−p−1 7 Regressionsanalyse 7.1 Lineare Regressionsanalyse 7.1.1 Einfache lineare Regression Modell Y = a + bx + ε Es gibt einen linearen Zusammenhang zwischen x und Y , welcher durch einen zufälligen Fehler ε überlagert wird. Y . . . abhängige Variable, Wirkungsgröße, Regressand x . . . unabhängige Variable, Einflussgröße, Regressor ε . . . zufälliger Fehler Für Tests und Konfidenzschätzung wird die Normalverteilung vorausgesetzt: ε ∼ N(0, σ 2 ). Bestimmung von Schätzwerten für a und b, aus der Stichprobe (Beobachtungswerte) ((x1 , y1 ), . . . , (xn , yn )), nach der Methode der kleinsten Quadrate : n ∑ (yi − a − bxi )2 ⇒ min a,b i=1 Lösung: n ∑ b̂ = (xi − x)(yi − y) i=1 n ∑ (xi − â = y − b̂x x)2 i=1 - geschätzte Regressionsgerade ( Ausgleichsgerade“) ” Beispiel (vgl. S. 6) (x1 , y1 ) = (47, 129), . . . , (x15 , y15 ) = (63, 157) Blutdruck = 77,3634 + 1,20645*Alter 160 150 Blutdruck ŷ(x) = â + b̂x 140 130 120 110 30 40 50 Alter 64 60 70 Streuungszerlegung: SST = SSE + SSR n ∑ SST = (yi − y)2 . . . Totalvarianz (der beobachteten Werte yi ) SSE = i=1 n ∑ (ŷi − y)2 . . . durch Regression erklärte Varianz (Varianz der geschätzten i=1 SSR = n ∑ Werte ŷi ) (yi − ŷi )2 . . . Restvarianz i=1 Schätzung der Fehlervarianz σ 2 (σ 2 = Var(ε)) σ̂ 2 = s2Rest = 1 SSR n−2 Bestimmtheitsmaß: SSE SSR =1− = rx2 y SST SST (Bei der einfachen linearen Regression ist das Bestimmtheitsmaß identisch mit dem Quadrat der Korrelation der beiden Merkmale.) B= Beispiel: Einfache Regression - Blutdruck gegen Alter Abhängige Variable: Blutdruck Unabhängige Variable: Alter Lineares Modell: Y = a + b*X Koeffizienten Kleinste Quadrate Parameter Schätzwert Abs.-Glied 77,3634 Anstieg 1,20645 Standard Fehler 5,97278 0,124208 Varianzanalyse Ursache Quadratsummen Modell 2256,06 Residuum 310,869 Total (Korr.) 2566,93 FG Mittl.Quadr. F-Quotient 1 2256,06 94,34 13 23,913 14 t Statistik 12,9527 9,71312 p-Wert 0,0000 0,0000 p-Wert 0,0000 Korrelationskoeffizient = 0,937494 R² = 87,8895 Prozent Standardfehler der Schätzung = 4,89009 SST = 2566, 93; SSE = 2256, 06 und SSR = 310, 869. σ̂ 2 = s2Rest = B= 2256,06 2566,93 1 310, 869 13 = 23, 913 =⇒ sRest = 4, 89. = 0, 87889 Tests (t-Tests) für die einzelnen Parameter: • H0 : a = 0 gegen HA : a ̸= 0 (im Bsp.: â = 77, 3634 und p = 0, 0000 < 0, 05 = α • H0 : b = 0 gegen =⇒ H0 wird abgelehnt.) =⇒ H0 wird abgelehnt.) HA : b ̸= 0 (im Bsp.: b̂ = 1, 20645 und p = 0, 0000 < 0, 05 = α 65 Test (F-Test) für das Modell (Varianzanalyse): • H0 : b = 0 gegen HA : b ̸= 0 (im Bsp.: p = 0, 0000 < 0, 05 = α =⇒ H0 wird abgelehnt.) • Konfidenzinterval für die Regressionsgerade an der Stelle x, d.h. für EY (x) = a + bx: v u (x − x)2 u1 [ŷ(x)−d; ŷ(x)+d] mit d = sRest ·tn−2;1− α2 u + ∑ (Konfidenzniveau:1−α). n tn 2 (xi − x) i=1 Beispiel: Blutdruck = 77,3634 + 1,20645*Alter (α = 0, 05) 160 Blutdruck 150 140 130 120 110 30 40 50 Alter 60 • Prognoseintervall für Y an der Stelle x, d.h. für Y (x) = a + bx + ε: v u 1 (x − x)2 u [ŷ(x) − d ; ŷ(x) + d] mit d = sRest · tn−2;1− α2 u1 + + ∑ n t n (xi − x)2 70 (Konfidenzniveau: 1 − α). i=1 Beispiel: (α = 0, 05) Blutdruck = 77,3634 + 1,20645*Alter 160 Blutdruck 150 140 130 120 110 30 40 50 Alter 66 60 70 Residuen: ε̂i = yi − ŷi i = 1, . . . , n. Residuen-Diagramm Blutdruck = 77,3634 + 1,20645*Alter 10 Residuen 6 2 -2 -6 -10 30 40 50 Alter 60 70 Studentisierte Residuen: Man bestimmt die Differenz zwischen yi und dem angepassten Wert, der sich ergibt, wenn man die i-te Beobachtung zur Schätzung der Regressionsfunktion nicht verwendet. Diese Differenz wird noch geeignet standardisiert, und man erhält das i-te studentisierte Residuum. Residuen-Diagramm Blutdruck = 77,3634 + 1,20645*Alter Studentisierte Residuen 2,5 1,5 0,5 -0,5 -1,5 -2,5 30 40 50 Alter 67 60 70 7.1.2 Multiple (parameter-) lineare Regression Modellierung der Abhängigkeit einer Wirkungsgröße Y von mehreren Einflussgrößen x1 , . . . , xk Modell Y (x) = a1 f1 (x) + a2 f2 (x) + . . . + ar fr (x) + ε Y x = (x1 , . . . , xk )T f1 , . . . , fr a1 , . . . , a r ε . . . Wirkungsgröße . . . Vektor der Einflussgrößen . . . r - (bekannte, d.h. im Modell vorgegebene) Funktion . . . r - unbekannte Parameter . . . zufälliger Fehler Für Tests und Konfidenzschätzung wird die Normalverteilung vorausgesetzt: ε ∼ N(0, σ 2 ). Die Schätzung der r unbekannten Parameter erfolgt nach der Methode der kleinsten Quadrate. â = (F T F )−1 F T y f1 (x1 ) .. Dabei sind a = (a1 , . . . , ar )T , y = (y1 , . . . , yn ) und F = . f1 (xn ) . . . fk (x1 ) .. .. . . . . . . fk (xn ) Damit ist die geschätzte Regressionsfunktion: ŷ(x) = â1 f1 (x) + . . . + âr fr (x) Das Modell der einfachen linearen Regression ist ein Spezialfall der multiplen parameterlinearen Regression (r = 2). Fast alles Weitere ist analog zur einfachen linearen Regression. Schätzung der Fehlervarianz σ 2 (σ 2 = Var(ε)) σ̂ 2 = s2Rest = 1 SSR n−r Für die Durchführung der Regressionsanalyse, und damit auch der folgenden möglichen Tests, nutze man ein Statistik-Software-Programm (z.B. Statgraphics, SPSS, R,. . . ). • Tests (t-Tests) für die einzelnen Parameter: H0 : ai = 0 Testgröße: âi H0 T =√ 2 ∼ tn−r sRest mi mit mi : i-tes Diagonal-Element von (F T F )−1 • Test (F-Test) für das Modell (Varianzanalyse): (Dabei sei f1 (x) = 1, d.h. a1 ist die Konstante im Modell). H0 : a2 = . . . = ar = 0 gegen HA : es gibt mindestens ein i > 1 mit ai ̸= 0 Testgröße: T = M SE H0 ∼ Fr−1,n−r M SR 68 • Test (F-Test) zur Modellüberprüfung: ( größeres“) Modell: rg Ansatzfunktion, d.h. rg Parameter, (Restquadratsumme SSRg ). ” Wählt man von den rg Ansatzfunktionen rk (rk < rg ) aus, so erhält man ein kleineres“Modell. ” kleineres“Modell: rk Ansatzfunktion, d.h. rk Parameter, (Restquadratsumme SSRk ). ” H0 : Kleineres Modell ist ausreichend.“ ” Testgröße: T = gegen HA : Kleineres Modell ist nicht ausreichend.“ ” n − rg SSRk − SSRg rk SSRg Kritische Bereich zum Niveau α: K = {t | t > Frk ,n−rg ;1−α } 69 7.2 Regression mit qualitativen Merkmalen Y . . . qualitative Wirkgröße (nimmt nur zwei Werte an: Y ∈ {0, 1}) x1 , . . . , xk . . . Einflussgrößen Aufgabenstellung: Wie groß ist die Wahrscheinlichkeit dafür, dass Y = 1 ist, in Abhängigkeit vom Wert der Einflussgrößen x1 , . . . , xk . Modelle für diese Wahrscheinlichkeit p(x) := P (Y = 1 | X = x) werden betrachtet. Modell p(x) = F (x) mit x= r ∑ aj fj (x) j=1 F . . . eine Verteilungsfunktion Die Parameter a1 ,. . . ,ar werden aus den Daten geschätzt. Damit erhält man: r ∑ p̂(x) = F âj fj (x) j=1 7.2.1 Logit-Modell Verteilungsfunktion der logistischen Verteilung (mit α = 0 und β = 1): F (x) = 7.2.2 1 . 1 + e−x Probit-Modell Verteilungsfunktion der Standardnormalverteilung: F (x) = Φ(x). Dichtefunktionen Verteilungsfunktionen 1 0,4 N(0,1) N(0,1) Logi(0,1) Logi(0,1) 0,8 0,3 0,6 0,2 0,4 0,1 0,2 0 0 -8 -6 -4 -2 0 x 2 4 6 8 -8 70 -4 0 x 4 8 Anhang Quantile \ 1 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 , ; , der Wilcoxon‐Rangsummen‐Teststatistik für 2 3 3 3 3 3 3 3 3 4 6 6 6 7 7 7 8 8 8 8 9 9 9 10 10 10 11 5 10 10 11 11 12 12 13 13 14 15 15 16 16 17 18 18 19 19 20 20 6 15 16 16 17 18 19 20 21 22 22 23 24 25 26 27 28 29 29 30 31 32 7 21 22 23 24 25 26 27 28 30 31 32 33 34 36 37 38 39 40 42 43 44 45 8 28 29 31 32 34 35 37 38 40 41 43 44 46 47 49 50 52 53 55 57 58 60 9 37 38 40 42 43 45 47 49 51 53 54 56 58 60 62 64 66 68 70 71 73 75 10 45 46 48 50 52 54 56 58 61 63 65 67 69 72 74 76 78 81 83 85 88 90 92 11 55 57 59 61 64 66 68 71 73 76 79 81 84 86 89 92 94 97 99 102 105 107 110 12 66 68 71 73 76 79 82 84 87 90 93 96 99 102 105 108 111 114 117 120 123 126 129 13 79 81 84 87 90 93 96 99 102 105 109 112 115 119 122 125 129 132 136 139 142 146 149 14 92 94 98 101 104 108 111 115 118 122 125 129 133 136 140 144 148 151 155 159 163 166 170 16 122 125 128 132 136 140 144 149 153 157 162 166 171 175 180 184 189 193 198 202 207 211 216 ; 15 106 109 112 116 120 123 127 131 135 139 143 147 151 155 159 163 168 172 176 180 184 188 192 , 17 138 141 145 149 154 158 163 167 172 177 181 186 191 196 201 206 210 215 220 225 230 235 240 18 155 159 163 168 172 177 182 187 192 197 202 207 213 218 223 228 234 239 244 249 255 260 265 19 173 177 182 187 192 197 202 208 213 218 224 229 235 241 246 252 258 263 269 275 280 286 292 20 190 193 197 202 207 212 218 223 229 235 241 247 253 259 264 271 277 283 289 295 301 307 313 319 21 210 213 218 223 228 234 240 246 252 258 264 270 277 283 289 296 302 309 315 322 328 335 341 348 , ; 22 231 234 239 245 250 256 263 269 275 282 289 295 302 309 315 322 329 336 343 349 356 363 370 377 23 253 257 262 267 274 280 287 293 300 307 314 321 328 335 342 349 357 364 371 378 386 393 400 408 24 276 280 285 291 298 305 311 319 326 333 340 348 355 363 370 378 385 393 401 408 416 424 431 439 25 300 304 310 316 323 330 337 345 352 360 368 375 383 391 399 407 415 423 431 439 447 455 464 472 325 330 335 342 349 357 364 372 380 388 396 404 412 421 429 437 446 454 463 471 480 488 497 505 Quantile \ 1 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 , ; 2 , der Wilcoxon‐Rangsummen‐Teststatistik für 3 4 6 6 6 6 7 7 7 7 7 5 10 10 10 11 11 11 12 12 13 13 13 14 14 14 15 15 6 15 16 16 17 17 18 18 19 20 20 21 22 22 23 23 24 25 25 7 21 22 23 24 25 25 26 27 28 29 30 31 32 33 33 34 35 36 37 8 28 29 30 31 33 34 35 36 37 38 39 41 42 43 44 46 47 48 49 50 9 36 37 38 40 41 42 44 45 47 48 50 51 53 54 56 57 59 60 62 63 65 10 46 47 48 50 52 53 55 57 59 60 62 64 66 68 70 71 73 75 77 79 81 11 55 56 58 60 61 63 65 67 69 72 74 76 78 80 82 84 87 89 91 93 95 98 12 66 68 70 72 74 76 78 81 83 86 88 90 93 95 98 100 103 106 108 111 113 116 13 78 80 82 85 87 90 92 95 98 101 103 106 109 112 115 118 120 123 126 129 132 135 14 92 94 96 99 102 105 108 111 114 117 120 123 126 129 133 136 139 142 145 149 152 155 , 15 106 108 111 114 117 120 124 127 130 134 137 141 144 148 151 155 159 162 166 169 173 177 16 121 124 127 130 134 137 141 144 148 152 156 160 163 167 171 175 179 183 187 191 195 199 ; 17 138 141 144 147 151 155 159 163 167 171 175 179 184 188 192 196 201 205 209 214 218 222 18 153 155 158 162 166 170 174 178 182 187 191 196 200 205 210 214 219 223 228 233 238 242 247 19 171 174 177 181 185 189 194 198 203 208 213 217 222 227 232 237 242 247 252 257 262 267 273 20 190 193 197 201 205 210 215 219 224 230 235 240 245 250 256 261 267 272 277 283 288 294 299 , 21 210 213 217 222 226 231 236 242 247 252 258 264 269 275 280 286 292 298 304 309 315 321 327 ; 22 232 235 239 243 249 254 259 265 271 276 282 288 294 300 306 312 318 325 331 337 343 349 356 23 254 257 261 266 272 277 283 289 295 301 307 314 320 326 333 339 346 352 359 365 372 379 385 24 277 280 285 290 296 302 308 314 321 327 334 340 347 354 361 367 374 381 388 395 402 409 416 25 301 305 310 315 321 327 334 340 347 354 361 368 375 382 389 396 404 411 418 426 433 440 448 326 330 335 341 347 354 361 368 375 382 389 397 404 411 419 427 434 442 450 457 465 473 480 Quantile \ 1 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 , ; , der Wilcoxon‐Rangsummen‐Teststatistik für 2 3 3 3 3 3 4 4 4 4 4 5 5 5 5 6 6 6 6 6 4 6 7 7 8 8 9 9 10 10 11 11 12 12 13 13 14 14 15 15 16 16 5 10 11 12 13 14 14 15 16 17 18 19 20 21 21 22 23 24 25 26 27 27 28 6 15 16 17 18 20 21 22 23 24 26 27 28 29 30 32 33 34 35 37 38 39 40 42 7 22 23 24 26 27 29 31 32 34 35 37 38 40 42 43 45 46 48 50 51 53 54 56 8 29 31 33 34 36 38 40 42 44 46 48 50 52 54 56 58 60 62 64 66 68 70 72 9 36 38 40 42 44 46 49 51 53 55 58 60 62 65 67 70 72 74 77 79 81 84 86 89 10 45 47 49 52 55 57 60 62 65 68 71 73 76 79 82 84 87 90 93 95 98 101 104 107 11 55 58 60 63 66 69 72 75 78 81 84 88 91 94 97 100 103 107 110 113 116 119 122 126 12 66 69 72 75 79 82 85 89 92 96 99 103 106 110 113 117 121 124 128 131 135 139 142 146 13 79 82 85 89 92 96 100 104 107 111 115 119 123 127 131 135 139 143 147 151 155 159 163 167 14 92 95 99 103 107 111 115 119 124 128 132 136 141 145 150 154 158 163 167 171 176 180 185 189 16 121 125 130 134 139 144 149 154 159 164 169 174 179 184 190 195 200 205 210 216 221 226 231 237 ; 15 106 110 114 118 122 127 131 136 141 145 150 155 160 164 169 174 179 183 188 193 198 203 207 212 , 17 137 142 147 151 157 162 167 173 178 183 189 195 200 206 211 217 222 228 234 239 245 251 256 262 18 155 159 164 170 175 181 187 192 198 204 210 216 222 228 234 240 246 252 258 264 270 276 282 288 19 173 178 183 189 195 201 207 213 219 226 232 238 245 251 257 264 270 277 283 290 296 303 309 316 20 192 197 203 209 215 222 228 235 242 248 255 262 268 275 282 289 296 303 309 316 323 330 337 344 21 212 218 224 230 237 244 251 258 265 272 279 286 293 300 308 315 322 329 337 344 351 359 366 373 , ; 22 234 239 246 253 260 267 274 281 289 296 304 311 319 327 334 342 350 357 365 373 381 388 396 404 23 256 262 269 276 283 291 298 306 314 322 330 338 346 354 362 370 378 386 394 403 411 419 427 435 24 279 285 293 300 308 316 324 332 340 349 357 365 374 382 391 399 408 416 425 433 442 451 459 468 25 303 310 317 325 333 342 350 359 367 376 385 394 402 411 420 429 438 447 456 465 474 483 492 501 328 335 343 352 360 369 378 387 396 405 414 423 432 442 451 460 470 479 488 498 507 517 526 536 Quantile \ 1 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 1 21 1 22 1 23 1 24 1 25 1 , ; , der Wilcoxon‐Rangsummen‐Teststatistik für 2 3 3 3 3 4 4 4 4 5 5 5 6 6 6 7 7 7 8 8 8 9 9 4 6 7 8 8 9 9 10 11 11 12 13 13 14 15 15 16 17 17 18 19 19 20 5 10 11 12 13 14 15 16 17 18 19 20 21 22 24 25 26 27 28 29 30 31 32 33 6 15 16 17 19 20 21 23 24 26 27 28 30 31 33 34 35 37 38 40 41 43 44 45 47 7 21 23 24 26 28 29 31 33 35 37 38 40 42 44 46 47 49 51 53 55 57 58 60 62 8 28 30 32 34 36 39 41 43 45 47 49 52 54 56 58 61 63 65 67 69 72 74 76 78 9 37 39 41 44 46 49 51 54 56 59 62 64 67 69 72 75 77 80 83 85 88 90 93 96 10 46 48 51 54 57 60 63 66 69 72 75 78 81 84 87 90 93 96 99 102 105 108 111 114 11 56 59 62 66 69 72 75 79 82 86 89 92 96 99 103 106 110 113 117 120 123 127 130 134 12 67 71 74 78 82 85 89 93 97 100 104 108 112 116 120 123 127 131 135 139 143 147 151 155 13 80 83 87 91 95 99 104 108 112 116 120 125 129 133 138 142 146 150 155 159 163 168 172 176 14 93 97 101 106 110 115 119 124 128 133 138 142 147 152 156 161 166 171 175 180 185 189 194 199 , 15 107 112 116 121 126 131 136 141 146 151 156 161 166 171 176 182 187 192 197 202 207 212 218 223 ; 16 123 127 132 138 143 148 153 159 164 170 175 181 186 192 197 203 208 214 220 225 231 236 242 248 17 139 144 150 155 161 166 172 178 184 190 196 201 207 213 219 225 231 237 243 249 255 261 267 273 18 156 162 168 173 179 186 192 198 204 210 217 223 230 236 242 249 255 262 268 274 281 287 294 300 19 175 180 187 193 199 206 212 219 226 232 239 246 253 259 266 273 280 287 294 301 307 314 321 328 194 200 207 213 220 227 234 241 248 255 262 270 277 284 291 299 306 313 320 328 335 342 350 357 20 210 214 221 228 235 242 249 257 264 272 279 287 294 302 310 317 325 333 340 348 356 364 371 379 387 , 21 231 236 242 250 257 265 272 280 288 296 304 312 320 328 336 344 352 361 369 377 385 393 401 410 418 ; 22 253 258 265 273 281 289 297 305 313 321 330 338 347 355 364 372 381 389 398 407 415 424 432 441 450 23 276 281 289 297 305 313 322 330 339 348 357 366 374 383 392 401 410 419 428 437 446 455 465 474 483 24 300 306 313 322 330 339 348 357 366 375 385 394 403 413 422 431 441 450 460 469 479 488 498 507 517 25 325 331 339 348 357 366 375 385 394 404 414 423 433 443 453 462 472 482 492 502 512 522 532 542 552 Quantile \ 1 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 , ; , der Wilcoxon‐Rangsummen‐Teststatistik für 2 3 3 3 3 3 3 3 4 4 4 4 4 4 4 4 6 6 7 7 7 8 8 8 9 9 10 10 10 11 11 11 12 12 13 5 10 11 11 12 13 13 14 15 15 16 17 17 18 19 19 20 21 21 22 23 23 6 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 7 22 23 24 25 27 28 29 30 32 33 34 36 37 39 40 41 43 44 45 47 48 50 8 28 29 31 32 34 35 37 39 40 42 44 45 47 49 51 52 54 56 58 59 61 63 64 9 36 38 40 42 43 45 47 49 51 53 56 58 60 62 64 66 68 70 72 74 76 78 81 10 46 48 50 52 54 56 59 61 63 66 68 71 73 76 78 81 83 85 88 90 93 95 98 11 56 58 61 63 66 68 71 74 77 79 82 85 88 91 93 96 99 102 105 108 110 113 116 12 67 70 73 75 78 81 84 88 91 94 97 100 103 107 110 113 116 119 123 126 129 132 136 13 80 83 86 89 92 95 99 102 106 109 113 116 120 124 127 131 134 138 142 145 149 153 156 14 91 93 96 100 103 107 111 114 118 122 126 130 134 138 142 146 150 154 158 162 166 170 174 178 , 15 105 107 111 115 118 122 127 131 135 139 143 148 152 156 161 165 170 174 178 183 187 192 196 200 16 120 123 127 131 135 139 144 148 153 157 162 167 171 176 181 186 190 195 200 205 210 214 219 224 ; 17 136 139 143 148 152 157 162 167 172 177 182 187 192 197 202 207 212 218 223 228 233 238 244 249 18 153 157 161 166 171 176 181 186 191 197 202 208 213 219 224 230 235 241 246 252 258 263 269 275 19 171 175 180 185 190 195 201 207 212 218 224 230 236 241 247 253 259 265 271 277 283 289 295 301 20 191 194 199 205 210 216 222 228 234 240 246 253 259 265 272 278 284 291 297 303 310 316 323 329 ; 21 211 215 220 226 232 238 244 250 257 263 270 277 283 290 297 303 310 317 324 331 337 344 351 358 , 22 232 236 242 248 254 261 267 274 281 288 295 302 309 316 323 330 337 344 352 359 366 373 381 388 23 254 258 264 271 277 284 291 298 306 313 320 328 335 343 350 358 365 373 380 388 396 403 411 419 24 277 282 288 295 302 309 316 324 331 339 347 355 363 370 378 386 394 402 410 418 426 434 443 451 25 301 306 313 320 327 335 342 350 358 366 375 383 391 399 408 416 424 433 441 450 458 467 475 484 326 332 338 346 354 361 370 378 386 395 403 412 420 429 438 447 455 464 473 482 491 500 509 517 Quantile ; der Wilcoxon‐Vorzeichen‐Rangstatistik / ; n\ 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 0,005 0 1 3 5 7 9 12 15 19 23 27 32 37 0,01 0 1 3 5 7 9 12 15 19 23 27 32 37 43 0,025 0 2 3 5 8 10 13 17 21 25 29 34 40 46 52 0,05 0 2 3 5 8 10 13 17 21 25 30 35 41 47 53 60 0,1 0 2 3 5 8 10 14 17 21 26 31 36 42 48 55 62 69 ; Tabelle zur Verteilungsfunktion der Standardnormalverteilung Die folgende Tabelle enthält Werte der Verteilungsfunktion 1 Φ(x) = √ 2π Zx e− z2 2 dz −∞ der Standardnormalverteilung für Argumente x = 0.00, 0.01, . . . , 3.49. Werte von Φ für entsprechende negative Argumente erhält man über die Beziehung Φ(−x) = 1 − Φ(x). Zum Beispiel gilt (näherungsweise) Φ(1.96) = 0.9750 und entsprechend Φ(−1.96) = 1 − 0.9750 = 0.0250. Zur Bestimmung eines Quantils Φ−1 (p) suche man den gegebenen Wert p der Verteilungsfunktion Φ (bzw. einen möglichst naheliegenden) im Tabellenkörper und bestimme das zugehörige Argument x. Zum Beispiel ist das 99%-Quantil Φ−1 (0.99) ungefähr Φ−1 (0.9901) = 2.33. 0.0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1.0 1.1 1.2 1.3 1.4 1.5 1.6 1.7 1.8 1.9 2.0 2.1 2.2 2.3 2.4 2.5 2.6 2.7 2.8 2.9 3.0 3.1 3.2 3.3 3.4 0.00 0.01 0.02 0.03 0.04 0.05 0.06 0.07 0.08 0.09 0.5000 0.5398 0.5793 0.6179 0.6554 0.6915 0.7257 0.7580 0.7881 0.8159 0.8413 0.8643 0.8849 0.9032 0.9192 0.9332 0.9452 0.9554 0.9641 0.9713 0.9772 0.9821 0.9861 0.9893 0.9918 0.9938 0.9953 0.9965 0.9974 0.9981 0.9987 0.9990 0.9993 0.9995 0.9997 0.5040 0.5438 0.5832 0.6217 0.6591 0.6950 0.7291 0.7611 0.7910 0.8186 0.8438 0.8665 0.8869 0.9049 0.9207 0.9345 0.9463 0.9564 0.9649 0.9719 0.9778 0.9826 0.9864 0.9896 0.9920 0.9940 0.9955 0.9966 0.9975 0.9982 0.9987 0.9991 0.9993 0.9995 0.9997 0.5080 0.5478 0.5871 0.6255 0.6628 0.6985 0.7324 0.7642 0.7939 0.8212 0.8461 0.8686 0.8888 0.9066 0.9222 0.9357 0.9474 0.9573 0.9656 0.9726 0.9783 0.9830 0.9868 0.9898 0.9922 0.9941 0.9956 0.9967 0.9976 0.9982 0.9987 0.9991 0.9994 0.9995 0.9997 0.5120 0.5517 0.5910 0.6293 0.6664 0.7019 0.7357 0.7673 0.7967 0.8238 0.8485 0.8708 0.8907 0.9082 0.9236 0.9370 0.9484 0.9582 0.9664 0.9732 0.9788 0.9834 0.9871 0.9901 0.9925 0.9943 0.9957 0.9968 0.9977 0.9983 0.9988 0.9991 0.9994 0.9996 0.9997 0.5160 0.5557 0.5948 0.6331 0.6700 0.7054 0.7389 0.7704 0.7995 0.8264 0.8508 0.8729 0.8925 0.9099 0.9251 0.9382 0.9495 0.9591 0.9671 0.9738 0.9793 0.9838 0.9875 0.9904 0.9927 0.9945 0.9959 0.9969 0.9977 0.9984 0.9988 0.9992 0.9994 0.9996 0.9997 0.5199 0.5596 0.5987 0.6368 0.6736 0.7088 0.7422 0.7734 0.8023 0.8289 0.8531 0.8749 0.8944 0.9115 0.9265 0.9394 0.9505 0.9599 0.9678 0.9744 0.9798 0.9842 0.9878 0.9906 0.9929 0.9946 0.9960 0.9970 0.9978 0.9984 0.9989 0.9992 0.9994 0.9996 0.9997 0.5239 0.5636 0.6026 0.6406 0.6772 0.7123 0.7454 0.7764 0.8051 0.8315 0.8554 0.8770 0.8962 0.9131 0.9279 0.9406 0.9515 0.9608 0.9686 0.9750 0.9803 0.9846 0.9881 0.9909 0.9931 0.9948 0.9961 0.9971 0.9979 0.9985 0.9989 0.9992 0.9994 0.9996 0.9997 0.5279 0.5675 0.6064 0.6443 0.6808 0.7157 0.7486 0.7794 0.8078 0.8340 0.8577 0.8790 0.8980 0.9147 0.9292 0.9418 0.9525 0.9616 0.9693 0.9756 0.9808 0.9850 0.9884 0.9911 0.9932 0.9949 0.9962 0.9972 0.9979 0.9985 0.9989 0.9992 0.9995 0.9996 0.9997 0.5319 0.5714 0.6103 0.6480 0.6844 0.7190 0.7517 0.7823 0.8106 0.8365 0.8599 0.8810 0.8997 0.9162 0.9306 0.9429 0.9535 0.9625 0.9699 0.9761 0.9812 0.9854 0.9887 0.9913 0.9934 0.9951 0.9963 0.9973 0.9980 0.9986 0.9990 0.9993 0.9995 0.9996 0.9997 0.5359 0.5753 0.6141 0.6517 0.6879 0.7224 0.7549 0.7852 0.8133 0.8389 0.8621 0.8830 0.9015 0.9177 0.9319 0.9441 0.9545 0.9633 0.9706 0.9767 0.9817 0.9857 0.9890 0.9916 0.9936 0.9952 0.9964 0.9974 0.9981 0.9986 0.9990 0.9993 0.9995 0.9997 0.9998 Quantile zp der Standardnormalverteilung N (0, 1) Hier gilt zp = −z1−p , so ist z.B. z0.05 = −z0.95 = −1.6449. p zp p zp p zp p zp 0.50 0.51 0.52 0.53 0.54 0.55 0.56 0.57 0.58 0.59 0.0000 0.0251 0.0502 0.0753 0.1004 0.1257 0.1510 0.1764 0.2019 0.2275 0.780 0.785 0.790 0.795 0.800 0.805 0.810 0.815 0.820 0.825 0.7722 0.7892 0.8064 0.8239 0.8416 0.8596 0.8779 0.8965 0.9154 0.9346 0.9760 0.9765 0.9770 0.9775 0.9780 0.9785 0.9790 0.9795 0.9800 0.9805 1.9774 1.9863 1.9954 2.0047 2.0141 2.0237 2.0335 2.0435 2.0537 2.0642 0.9960 0.9961 0.9962 0.9963 0.9964 0.9965 0.9966 0.9967 0.9968 0.9969 2.6521 2.6606 2.6693 2.6783 2.6874 2.6968 2.7065 2.7164 2.7266 2.7370 0.60 0.61 0.62 0.63 0.64 0.65 0.66 0.67 0.68 0.69 0.2533 0.2793 0.3055 0.3319 0.3585 0.3853 0.4125 0.4399 0.4677 0.4959 0.830 0.835 0.840 0.845 0.850 0.855 0.860 0.865 0.870 0.875 0.9542 0.9741 0.9945 1.0152 1.0364 1.0581 1.0803 1.1031 1.1264 1.1503 0.9810 0.9815 0.9820 0.9825 0.9830 0.9835 0.9840 0.9845 0.9850 0.9855 2.0749 2.0858 2.0969 2.1084 2.1201 2.1321 2.1444 2.1571 2.1701 2.1835 0.9970 0.9971 0.9972 0.9973 0.9974 0.9975 0.9976 0.9977 0.9978 0.9979 2.7478 2.7589 2.7703 2.7822 2.7944 2.8070 2.8202 2.8338 2.8480 2.8627 0.70 0.71 0.72 0.73 0.74 0.75 0.76 0.77 0.5244 0.5534 0.5828 0.6128 0.6433 0.6745 0.7063 0.7388 0.880 0.885 0.890 0.895 0.900 0.905 0.910 0.915 0.920 0.925 1.1750 1.2004 1.2265 1.2536 1.2816 1.3106 1.3408 1.3722 1.4051 1.4395 0.9860 0.9865 0.9870 0.9875 0.9880 0.9885 0.9890 0.9895 0.9900 0.9905 2.1973 2.2115 2.2262 2.2414 2.2571 2.2734 2.2904 2.3080 2.3263 2.3455 0.9980 0.9981 0.9982 0.9983 0.9984 0.9985 0.9986 0.9987 0.9988 0.9989 2.8782 2.8943 2.9112 2.9290 2.9478 2.9677 2.9889 3.0115 3.0357 3.0618 0.930 0.935 0.940 0.945 0.950 0.955 0.960 0.965 0.970 0.975 1.4758 1.5141 1.5548 1.5982 1.6449 1.6954 1.7507 1.8119 1.8808 1.9600 0.9910 0.9915 0.9920 0.9925 0.9930 0.9935 0.9940 0.9945 0.9950 0.9955 2.3656 2.3867 2.4089 2.4324 2.4573 2.4838 2.5121 2.5427 2.5758 2.6121 0.9990 0.9991 0.9992 0.9993 0.9994 0.9995 0.9996 0.9997 0.9998 0.9999 3.0902 3.1214 3.1559 3.1947 3.2389 3.2905 3.3528 3.4316 3.5401 3.7190 Quantile tm,p der Studentschen t-Verteilung Hier gilt tm,p = −tm,1−p , so ist z.B. t10,0.05 = −t10,0.95 = −1.81. m p = 0.90 0.95 0.975 0.990 0.995 0.999 0.9995 1 2 3 4 5 3.08 1.89 1.64 1.53 1.48 6.31 2.92 2.35 2.13 2.02 12.71 4.30 3.18 2.78 2.57 31.82 6.96 4.54 3.75 3.36 63.66 9.92 5.84 4.60 4.03 318.31 22.33 10.21 7.17 5.89 636.62 31.60 12.92 8.61 6.87 6 7 8 9 10 1.44 1.41 1.40 1.38 1.37 1.94 1.89 1.86 1.83 1.81 2.45 2.36 2.31 2.26 2.23 3.14 3.00 2.90 2.82 2.76 3.71 3.50 3.36 3.25 3.17 5.21 4.79 4.50 4.30 4.14 5.96 5.41 5.04 4.78 4.59 11 12 13 14 15 1.36 1.36 1.35 1.35 1.34 1.80 1.78 1.77 1.76 1.75 2.20 2.18 2.16 2.14 2.13 2.72 2.68 2.65 2.62 2.60 3.11 3.05 3.01 2.98 2.95 4.02 3.93 3.85 3.79 3.73 4.44 4.32 4.22 4.14 4.07 16 17 18 19 20 1.34 1.33 1.33 1.33 1.33 1.75 1.74 1.73 1.73 1.72 2.12 2.11 2.10 2.09 2.09 2.58 2.57 2.55 2.54 2.53 2.92 2.90 2.88 2.86 2.85 3.69 3.65 3.61 3.58 3.55 4.01 3.97 3.92 3.88 3.85 21 22 23 24 25 1.32 1.32 1.32 1.32 1.32 1.72 1.72 1.71 1.71 1.71 2.08 2.07 2.07 2.06 2.06 2.52 2.51 2.50 2.49 2.49 2.83 2.82 2.81 2.80 2.79 3.53 3.50 3.48 3.47 3.45 3.82 3.79 3.77 3.75 3.73 26 27 28 29 30 1.31 1.31 1.31 1.31 1.31 1.71 1.70 1.70 1.70 1.70 2.06 2.05 2.05 2.05 2.04 2.48 2.47 2.47 2.46 2.46 2.78 2.77 2.76 2.76 2.75 3.43 3.42 3.41 3.40 3.39 3.71 3.69 3.67 3.66 3.65 40 50 60 70 80 1.30 1.30 1.30 1.29 1.29 1.68 1.68 1.67 1.67 1.66 2.02 2.01 2.00 1.99 1.99 2.42 2.40 2.39 2.38 2.37 2.70 2.68 2.66 2.65 2.64 3.31 3.26 3.23 3.21 3.20 3.55 3.50 3.46 3.44 3.42 90 100 120 ∞ 1.29 1.29 1.29 1.28 1.66 1.66 1.66 1.64 1.99 1.98 1.98 1.96 2.37 2.36 2.36 2.33 2.63 2.63 2.62 2.58 3.18 3.17 3.16 3.09 3.40 3.39 3.37 3.29 Quantile χ2m,p der χ2 -Verteilung m p = 0.005 0.01 0.025 0.1 0.9 0.95 0.975 0.99 0.995 1 2 3 4 5 6 7 8 9 10 0.00004 0.0100 0.0717 0.207 0.412 0.676 0.989 1.34 1.73 2.16 0.0039 0.0158 0.103 0.21 0.352 0.58 0.711 1.06 1.15 1.61 1.64 2.20 2.17 2.83 2.73 3.49 3.33 4.17 3.94 4.87 2.71 4.61 6.25 7.78 9.24 10.64 12.02 13.36 14.68 15.99 3.84 5.99 7.81 9.49 11.07 12.59 14.07 15.51 16.92 18.31 5.02 7.38 9.35 11.14 12.83 14.45 16.01 17.53 19.02 20.48 6.63 9.21 11.34 13.28 15.09 16.81 18.48 20.09 21.67 23.21 7.88 10.60 12.84 14.86 16.75 18.55 20.28 21.95 23.59 25.19 11 12 13 14 15 16 17 18 19 20 2.60 3.07 3.57 4.07 4.60 5.14 5.70 6.26 6.84 7.43 3.05 3.57 4.11 4.66 5.23 5.81 6.41 7.01 7.63 8.26 3.82 4.40 5.01 5.63 6.26 6.91 7.56 8.23 8.91 9.59 4.57 5.23 5.89 6.57 7.26 7.96 8.67 9.39 10.12 10.85 5.58 6.30 7.04 7.79 8.55 9.31 10.09 10.86 11.65 12.44 17.28 18.55 19.81 21.06 22.31 23.54 24.77 25.99 27.20 28.41 19.68 21.03 22.36 23.68 25.00 26.30 27.59 28.87 30.14 31.41 21.92 23.34 24.74 26.12 27.49 28.85 30.19 31.53 32.85 34.17 24.72 26.22 27.69 29.14 30.58 32.00 33.41 34.81 36.19 37.57 26.76 28.30 29.82 31.32 32.80 34.27 35.72 37.16 38.58 40.00 21 22 23 24 25 26 27 28 29 30 8.03 8.64 9.26 9.89 10.52 11.16 11.81 12.46 13.12 13.79 8.90 9.54 10.20 10.86 11.52 12.20 12.88 13.56 14.26 14.95 10.28 10.98 11.69 12.40 13.12 13.84 14.57 15.31 16.05 16.79 11.59 12.34 13.09 13.85 14.61 15.38 16.15 16.93 17.71 18.49 13.24 14.04 14.85 15.66 16.47 17.29 18.11 18.94 19.77 20.60 29.62 30.81 32.01 33.20 34.38 35.56 36.74 37.92 39.09 40.26 32.67 33.92 35.17 36.42 37.65 38.89 40.11 41.34 42.56 43.77 35.48 36.78 38.08 39.36 40.65 41.92 43.19 44.46 45.72 46.98 38.93 40.29 41.64 42.98 44.31 45.64 46.96 48.28 49.59 50.89 41.40 42.80 44.18 45.56 46.93 48.29 49.64 50.99 52.34 53.67 40 50 60 70 80 90 100 20.71 27.99 35.53 43.28 51.17 59.20 67.33 22.16 29.71 37.48 45.44 53.54 61.75 70.06 24.43 32.36 40.48 48.76 57.15 65.65 74.22 26.51 34.76 43.19 51.74 60.39 69.13 77.93 29.05 37.69 46.46 55.33 64.28 73.29 82.36 51.81 55.76 63.17 67.50 74.40 79.08 85.53 90.53 96.58 101.88 107.57 113.15 118.50 124.34 59.34 63.69 71.42 76.15 83.30 88.38 95.02 100.43 106.63 112.33 118.14 124.12 129.56 135.81 66.77 79.49 91.95 104.21 116.32 128.30 140.17 150 200 250 300 400 109.14 152.24 196.16 240.66 330.90 112.67 156.43 200.94 245.97 337.16 117.98 162.73 208.10 253.91 346.48 122.69 168.28 214.39 260.88 354.64 128.28 174.84 221.81 269.07 364.21 172.58 226.02 279.05 331.79 436.65 185.80 241.06 295.69 349.87 457.31 198.36 255.26 311.35 366.84 476.61 0.00016 0.00098 0.020 0.051 0.115 0.216 0.297 0.484 0.554 0.831 0.872 1.24 1.24 1.69 1.65 2.18 2.09 2.70 2.56 3.25 0.05 179.58 233.99 287.88 341.40 447.63 193.21 249.45 304.94 359.91 468.72 Quantile Fm1 ,m2 ,p der F -Verteilung mit p = 0.95 (Teil 1) Hier gilt Fm1 ,m2 ,p = 1 Fm2 ,m1 ,1−p , so ist z.B. F10,2,0.05 = 5 6 1 F2,10,0.95 7 = 1 = 0.244. 4.10 m1 = 1 2 3 4 8 m2 = 1 2 3 4 5 6 7 8 9 10 161.4 18.51 10.13 7.71 6.61 5.99 5.59 5.32 5.12 4.96 199.5 19.00 9.55 6.94 5.79 5.14 4.74 4.46 4.26 4.10 215.7 19.16 9.28 6.59 5.41 4.76 4.35 4.07 3.86 3.71 224.6 19.25 9.12 6.39 5.19 4.53 4.12 3.84 3.63 3.48 11 12 13 14 15 16 17 18 19 20 4.84 4.75 4.67 4.60 4.54 4.49 4.45 4.41 4.38 4.35 3.98 3.89 3.81 3.74 3.68 3.63 3.59 3.55 3.52 3.49 3.59 3.49 3.41 3.34 3.29 3.24 3.20 3.16 3.13 3.10 3.36 3.26 3.18 3.11 3.06 3.01 2.96 2.93 2.90 2.87 3.20 3.11 3.03 2.96 2.90 2.85 2.81 2.77 2.74 2.71 3.09 3.00 2.92 2.85 2.79 2.74 2.70 2.66 2.63 2.60 3.01 2.91 2.83 2.76 2.71 2.66 2.61 2.58 2.54 2.51 2.95 2.85 2.77 2.70 2.64 2.59 2.55 2.51 2.48 2.45 2.90 2.80 2.71 2.65 2.59 2.54 2.49 2.46 2.42 2.39 2.85 2.75 2.67 2.60 2.54 2.49 2.45 2.41 2.38 2.35 21 22 23 24 25 26 27 28 29 30 4.32 4.30 4.28 4.26 4.24 4.23 4.21 4.20 4.18 4.17 3.47 3.44 3.42 3.40 3.39 3.37 3.35 3.34 3.33 3.32 3.07 3.05 3.03 3.01 2.99 2.98 2.96 2.95 2.93 2.92 2.84 2.82 2.80 2.78 2.76 2.74 2.73 2.71 2.70 2.69 2.68 2.66 2.64 2.62 2.60 2.59 2.57 2.56 2.55 2.53 2.57 2.55 2.53 2.51 2.49 2.47 2.46 2.45 2.43 2.42 2.49 2.46 2.44 2.42 2.40 2.39 2.37 2.36 2.35 2.33 2.42 2.40 2.37 2.36 2.34 2.32 2.31 2.29 2.28 2.27 2.37 2.34 2.32 2.30 2.28 2.27 2.25 2.24 2.22 2.21 2.32 2.30 2.27 2.25 2.24 2.22 2.20 2.19 2.18 2.16 40 50 60 70 80 90 100 200 1000 ∞ 4.08 4.03 4.00 3.98 3.96 3.95 3.94 3.89 3.85 3.84 3.23 3.18 3.15 3.13 3.11 3.10 3.09 3.04 3.00 3.00 2.84 2.79 2.76 2.74 2.72 2.71 2.70 2.65 2.61 2.60 2.61 2.56 2.53 2.50 2.49 2.47 2.46 2.42 2.38 2.37 2.45 2.40 2.37 2.35 2.33 2.32 2.31 2.26 2.22 2.21 2.34 2.29 2.25 2.23 2.21 2.20 2.19 2.14 2.11 2.10 2.25 2.20 2.17 2.14 2.13 2.11 2.10 2.06 2.02 2.01 2.18 2.13 2.10 2.07 2.06 2.04 2.03 1.98 1.95 1.94 2.12 2.07 2.04 2.02 2.00 1.99 1.97 1.93 1.89 1.88 2.08 2.03 1.99 1.97 1.95 1.94 1.93 1.88 1.84 1.83 230.2 234.0 236.8 238.9 19.30 19.33 19.35 19.37 9.01 8.94 8.89 8.85 6.26 6.16 6.09 6.04 5.05 4.95 4.88 4.82 4.39 4.28 4.21 4.15 3.97 3.87 3.79 3.73 3.69 3.58 3.50 3.44 3.48 3.37 3.29 3.23 3.33 3.22 3.14 3.07 9 10 240.5 241.9 19.38 19.40 8.81 8.79 6.00 5.96 4.77 4.74 4.10 4.06 3.68 3.64 3.39 3.35 3.18 3.14 3.02 2.98 Quantile Fm1 ,m2 ,p der F -Verteilung mit p = 0.95 (Teil 2) Hier gilt Fm1 ,m2 ,p = 1 Fm2 ,m1 ,1−p , so ist z.B. F10,12,0.05 = 20 30 1 F12,10,0.95 1 = 0.34. 2.91 75 14 16 18 m2 = 1 2 3 4 5 6 7 8 9 10 244 19.41 8.74 5.91 4.68 4.00 3.57 3.28 3.07 2.91 245 19.42 8.71 5.87 4.64 3.96 3.53 3.24 3.03 2.86 246 19.43 8.69 5.84 4.60 3.92 3.49 3.20 2.99 2.83 247 19.44 8.67 5.82 4.58 3.90 3.47 3.17 2.96 2.80 11 12 13 14 15 16 17 18 19 20 2.79 2.69 2.60 2.53 2.48 2.42 2.38 2.34 2.31 2.28 2.74 2.64 2.55 2.48 2.42 2.37 2.33 2.29 2.26 2.22 2.70 2.60 2.51 2.44 2.38 2.33 2.29 2.25 2.21 2.18 2.67 2.57 2.48 2.41 2.35 2.30 2.26 2.22 2.18 2.15 2.65 2.54 2.46 2.39 2.33 2.28 2.23 2.19 2.16 2.12 2.57 2.47 2.38 2.31 2.25 2.19 2.15 2.11 2.07 2.04 2.51 2.40 2.31 2.24 2.18 2.12 2.08 2.04 2.00 1.97 2.47 2.37 2.28 2.21 2.14 2.09 2.04 2.00 1.96 1.93 2.46 2.35 2.26 2.19 2.12 2.07 2.02 1.98 1.94 1.91 2.40 2.30 2.21 2.13 2.07 2.01 1.96 1.92 1.88 1.84 21 22 23 24 25 26 27 28 29 30 2.25 2.23 2.20 2.18 2.16 2.15 2.13 2.12 2.10 2.09 2.20 2.17 2.15 2.13 2.11 2.09 2.08 2.06 2.05 2.04 2.16 2.13 2.11 2.09 2.07 2.05 2.04 2.02 2.01 1.99 2.12 2.10 2.08 2.05 2.04 2.02 2.00 1.99 1.97 1.96 2.10 2.07 2.05 2.03 2.01 1.99 1.97 1.96 1.94 1.93 2.01 1.98 1.96 1.94 1.92 1.90 1.88 1.87 1.85 1.84 1.94 1.91 1.88 1.86 1.84 1.82 1.81 1.79 1.77 1.76 1.90 1.87 1.84 1.82 1.80 1.78 1.76 1.75 1.73 1.72 1.88 1.85 1.82 1.80 1.78 1.76 1.74 1.73 1.71 1.70 1.81 1.78 1.76 1.73 1.71 1.69 1.67 1.65 1.64 1.62 40 50 60 70 80 90 100 200 1000 ∞ 2.00 1.95 1.92 1.89 1.88 1.86 1.85 1.80 1.76 1.75 1.95 1.89 1.86 1.84 1.82 1.80 1.79 1.74 1.70 1.69 1.90 1.85 1.82 1.79 1.77 1.76 1.75 1.69 1.65 1.64 1.87 1.81 1.78 1.75 1.73 1.72 1.71 1.66 1.61 1.60 1.84 1.78 1.75 1.72 1.70 1.69 1.68 1.62 1.58 1.57 1.74 1.69 1.65 1.62 1.60 1.59 1.57 1.52 1.47 1.46 1.66 1.60 1.56 1.53 1.51 1.49 1.48 1.41 1.36 1.35 1.61 1.55 1.51 1.48 1.45 1.44 1.42 1.35 1.30 1.28 1.59 1.52 1.48 1.45 1.43 1.41 1.39 1.32 1.26 1.24 1.51 1.44 1.39 1.35 1.32 1.30 1.28 1.19 1.08 1.00 252 253 19.48 19.48 8.58 8.56 5.70 5.68 4.44 4.42 3.75 3.73 3.32 3.29 3.02 2.99 2.80 2.77 2.64 2.60 100 ∞ m1 = 12 248 250 19.45 19.46 8.66 8.62 5.80 5.75 4.56 4.50 3.87 3.81 3.44 3.38 3.15 3.08 2.94 2.86 2.77 2.70 50 = 253 254 19.49 19.50 8.55 8.53 5.66 5.63 4.41 4.36 3.71 3.67 3.27 3.23 2.97 2.93 2.76 2.71 2.59 2.54 Quantile Fm1 ,m2 ,p der F -Verteilung mit p = 0.975 (Teil 1) Hier gilt Fm1 ,m2 ,p = m1 = 1 m2 = 1 2 3 4 5 6 7 8 9 10 1 Fm2 ,m1 ,1−p , so ist z.B. F10,2,0.025 = 2 3 4 648 799 38.51 39.00 17.44 16.04 12.22 10.65 10.01 8.43 8.81 7.26 8.07 6.54 7.57 6.06 7.21 5.71 6.94 5.46 864 39.17 15.44 9.98 7.76 6.60 5.89 5.42 5.08 4.83 900 39.25 15.10 9.60 7.39 6.23 5.52 5.05 4.72 4.47 5 6 1 F2,10,0.975 7 = 1 = 0.183. 5.46 8 9 10 922 937 948 957 963 969 39.30 39.33 39.36 39.37 39.39 39.40 14.88 14.73 14.62 14.54 14.47 14.42 9.36 9.20 9.07 8.98 8.90 8.84 7.15 6.98 6.85 6.76 6.68 6.62 5.99 5.82 5.70 5.60 5.52 5.46 5.29 5.12 4.99 4.90 4.82 4.76 4.82 4.65 4.53 4.43 4.36 4.30 4.48 4.32 4.20 4.10 4.03 3.96 4.24 4.07 3.95 3.85 3.78 3.72 11 12 13 14 15 16 17 18 19 20 6.72 6.55 6.41 6.30 6.20 6.12 6.04 5.98 5.92 5.87 5.26 5.10 4.97 4.86 4.77 4.69 4.62 4.56 4.51 4.46 4.63 4.47 4.35 4.24 4.15 4.08 4.01 3.95 3.90 3.86 4.28 4.12 4.00 3.89 3.80 3.73 3.66 3.61 3.56 3.51 4.04 3.89 3.77 3.66 3.58 3.50 3.44 3.38 3.33 3.29 3.88 3.73 3.60 3.50 3.41 3.34 3.28 3.22 3.17 3.13 3.76 3.61 3.48 3.38 3.29 3.22 3.16 3.10 3.05 3.01 3.66 3.51 3.39 3.29 3.20 3.12 3.06 3.01 2.96 2.91 3.59 3.44 3.31 3.21 3.12 3.05 2.98 2.93 2.88 2.84 3.53 3.37 3.25 3.15 3.06 2.99 2.92 2.87 2.82 2.77 21 22 23 24 25 26 27 28 29 30 5.83 5.79 5.75 5.72 5.69 5.66 5.63 5.61 5.59 5.57 4.42 4.38 4.35 4.32 4.29 4.27 4.24 4.22 4.20 4.18 3.82 3.78 3.75 3.72 3.69 3.67 3.65 3.63 3.61 3.59 3.48 3.44 3.41 3.38 3.35 3.33 3.31 3.29 3.27 3.25 3.25 3.22 3.18 3.15 3.13 3.10 3.08 3.06 3.04 3.03 3.09 3.05 3.02 2.99 2.97 2.94 2.92 2.90 2.88 2.87 2.97 2.93 2.90 2.87 2.85 2.82 2.80 2.78 2.76 2.75 2.87 2.84 2.81 2.78 2.75 2.73 2.71 2.69 2.67 2.65 2.80 2.76 2.73 2.70 2.68 2.65 2.63 2.61 2.59 2.57 2.73 2.70 2.67 2.64 2.61 2.59 2.57 2.55 2.53 2.51 40 50 60 70 80 90 100 200 1000 ∞ 5.42 5.34 5.29 5.25 5.22 5.20 5.18 5.10 5.04 5.02 4.05 3.97 3.93 3.89 3.86 3.84 3.83 3.76 3.70 3.69 3.46 3.39 3.34 3.31 3.28 3.26 3.25 3.18 3.13 3.12 3.13 3.05 3.01 2.97 2.95 2.93 2.92 2.85 2.80 2.79 2.90 2.83 2.79 2.75 2.73 2.71 2.70 2.63 2.58 2.57 2.74 2.67 2.63 2.59 2.57 2.55 2.54 2.47 2.42 2.41 2.62 2.55 2.51 2.47 2.45 2.43 2.42 2.35 2.30 2.29 2.53 2.46 2.41 2.38 2.35 2.34 2.32 2.26 2.20 2.19 2.45 2.38 2.33 2.30 2.28 2.26 2.24 2.18 2.13 2.11 2.39 2.32 2.27 2.24 2.21 2.19 2.18 2.11 2.06 2.05 Quantile Fm1 ,m2 ,p der F -Verteilung mit p = 0.975 (Teil 2) Hier gilt Fm1 ,m2 ,p = 1 Fm2 ,m1 ,1−p , so ist z.B. F10,12,0.025 = 20 30 1 F12,10,0.975 50 = 1 = 0.276. 3.62 75 100 ∞ m1 = 12 14 16 18 m2 = 1 2 3 4 5 6 7 8 9 10 977 39.41 14.34 8.75 6.52 5.37 4.67 4.20 3.87 3.62 983 39.43 14.28 8.68 6.46 5.30 4.60 4.13 3.80 3.55 987 39.44 14.23 8.63 6.40 5.24 4.54 4.08 3.74 3.50 990 39.44 14.20 8.59 6.36 5.20 4.50 4.03 3.70 3.45 11 12 13 14 15 16 17 18 19 20 3.43 3.28 3.15 3.05 2.96 2.89 2.82 2.77 2.72 2.68 3.36 3.21 3.08 2.98 2.89 2.82 2.75 2.70 2.65 2.60 3.30 3.15 3.03 2.92 2.84 2.76 2.70 2.64 2.59 2.55 3.26 3.11 2.98 2.88 2.79 2.72 2.65 2.60 2.55 2.50 3.23 3.07 2.95 2.84 2.76 2.68 2.62 2.56 2.51 2.46 3.12 2.96 2.84 2.73 2.64 2.57 2.50 2.44 2.39 2.35 3.03 2.87 2.74 2.64 2.55 2.47 2.41 2.35 2.30 2.25 2.98 2.82 2.70 2.59 2.50 2.42 2.35 2.30 2.24 2.20 2.96 2.80 2.67 2.56 2.47 2.40 2.33 2.27 2.22 2.17 2.88 2.72 2.60 2.49 2.40 2.32 2.25 2.19 2.13 2.09 21 22 23 24 25 26 27 28 29 30 2.64 2.60 2.57 2.54 2.51 2.49 2.47 2.45 2.43 2.41 2.56 2.53 2.50 2.47 2.44 2.42 2.39 2.37 2.36 2.34 2.51 2.47 2.44 2.41 2.38 2.36 2.34 2.32 2.30 2.28 2.46 2.43 2.39 2.36 2.34 2.31 2.29 2.27 2.25 2.23 2.42 2.39 2.36 2.33 2.30 2.28 2.25 2.23 2.21 2.20 2.31 2.27 2.24 2.21 2.18 2.16 2.13 2.11 2.09 2.07 2.21 2.17 2.14 2.11 2.08 2.05 2.03 2.01 1.99 1.97 2.16 2.12 2.08 2.05 2.02 2.00 1.97 1.95 1.93 1.91 2.13 2.09 2.06 2.02 2.00 1.97 1.94 1.92 1.90 1.88 2.04 2.00 1.97 1.94 1.91 1.88 1.85 1.83 1.81 1.79 40 50 60 70 80 90 100 200 1000 ∞ 2.29 2.22 2.17 2.14 2.11 2.09 2.08 2.01 1.96 1.94 2.21 2.14 2.09 2.06 2.03 2.02 2.00 1.93 1.88 1.87 2.15 2.08 2.03 2.00 1.97 1.95 1.94 1.87 1.82 1.80 2.11 2.03 1.98 1.95 1.92 1.91 1.89 1.82 1.77 1.75 2.07 1.99 1.94 1.91 1.88 1.86 1.85 1.78 1.72 1.71 1.94 1.87 1.82 1.78 1.75 1.73 1.71 1.64 1.58 1.57 1.83 1.75 1.70 1.66 1.63 1.61 1.59 1.51 1.45 1.43 1.77 1.69 1.63 1.59 1.56 1.54 1.52 1.44 1.36 1.34 1.74 1.66 1.60 1.56 1.53 1.50 1.48 1.39 1.32 1.30 1.64 1.55 1.48 1.44 1.40 1.37 1.35 1.23 1.09 1.00 993 1001 1008 1011 1013 1018 39.45 39.46 39.48 39.48 39.49 39.50 14.17 14.08 14.01 13.97 13.96 13.90 8.56 8.46 8.38 8.34 8.32 8.26 6.33 6.23 6.14 6.10 6.08 6.02 5.17 5.07 4.98 4.94 4.92 4.85 4.47 4.36 4.28 4.23 4.21 4.14 4.00 3.89 3.81 3.76 3.74 3.67 3.67 3.56 3.47 3.43 3.40 3.33 3.42 3.31 3.22 3.18 3.15 3.08 Quantile Fm1 ,m2 ,p der F -Verteilung mit p = 0.99 (Teil 1) Hier gilt Fm1 ,m2 ,p = 1 Fm2 ,m1 ,1−p , so ist z.B. F10,2,0.01 = 1 F2,10,0.99 = 1 = 0.132. 7.56 m1 = 1 2 3 4 5 6 7 8 9 10 m2 = 1 2 3 4 5 6 7 8 9 10 4052 98.50 34.12 21.20 16.26 13.75 12.25 11.26 10.56 10.04 4999 99.00 30.82 18.00 13.27 10.92 9.55 8.65 8.02 7.56 5403 99.17 29.46 16.69 12.06 9.78 8.45 7.59 6.99 6.55 5625 99.25 28.71 15.98 11.39 9.15 7.85 7.01 6.42 5.99 5764 99.30 28.24 15.52 10.97 8.75 7.46 6.63 6.06 5.64 5859 99.33 27.91 15.21 10.67 8.47 7.19 6.37 5.80 5.39 5928 99.36 27.67 14.98 10.46 8.26 6.99 6.18 5.61 5.20 5981 99.37 27.49 14.80 10.29 8.10 6.84 6.03 5.47 5.06 6022 99.39 27.35 14.66 10.16 7.98 6.72 5.91 5.35 4.94 6056 99.40 27.23 14.55 10.05 7.87 6.62 5.81 5.26 4.85 11 12 13 14 15 16 17 18 19 20 9.65 9.33 9.07 8.86 8.68 8.53 8.40 8.29 8.18 8.10 7.21 6.93 6.70 6.51 6.36 6.23 6.11 6.01 5.93 5.85 6.22 5.95 5.74 5.56 5.42 5.29 5.18 5.09 5.01 4.94 5.67 5.41 5.21 5.04 4.89 4.77 4.67 4.58 4.50 4.43 5.32 5.06 4.86 4.69 4.56 4.44 4.34 4.25 4.17 4.10 5.07 4.82 4.62 4.46 4.32 4.20 4.10 4.01 3.94 3.87 4.89 4.64 4.44 4.28 4.14 4.03 3.93 3.84 3.77 3.70 4.74 4.50 4.30 4.14 4.00 3.89 3.79 3.71 3.63 3.56 4.63 4.39 4.19 4.03 3.89 3.78 3.68 3.60 3.52 3.46 4.54 4.30 4.10 3.94 3.80 3.69 3.59 3.51 3.43 3.37 21 22 23 24 25 26 27 28 29 30 8.02 7.95 7.88 7.82 7.77 7.72 7.68 7.64 7.60 7.56 5.78 5.72 5.66 5.61 5.57 5.53 5.49 5.45 5.42 5.39 4.87 4.82 4.76 4.72 4.68 4.64 4.60 4.57 4.54 4.51 4.37 4.31 4.26 4.22 4.18 4.14 4.11 4.07 4.04 4.02 4.04 3.99 3.94 3.90 3.85 3.82 3.78 3.75 3.73 3.70 3.81 3.76 3.71 3.67 3.63 3.59 3.56 3.53 3.50 3.47 3.64 3.59 3.54 3.50 3.46 3.42 3.39 3.36 3.33 3.30 3.51 3.45 3.41 3.36 3.32 3.29 3.26 3.23 3.20 3.17 3.40 3.35 3.30 3.26 3.22 3.18 3.15 3.12 3.09 3.07 3.31 3.26 3.21 3.17 3.13 3.09 3.06 3.03 3.00 2.98 40 50 60 70 80 90 100 200 1000 ∞ 7.31 7.17 7.08 7.01 6.96 6.93 6.90 6.76 6.66 6.63 5.18 5.06 4.98 4.92 4.88 4.85 4.82 4.71 4.63 4.61 4.31 4.20 4.13 4.07 4.04 4.01 3.98 3.88 3.80 3.78 3.83 3.72 3.65 3.60 3.56 3.53 3.51 3.41 3.34 3.32 3.51 3.41 3.34 3.29 3.26 3.23 3.21 3.11 3.04 3.02 3.29 3.19 3.12 3.07 3.04 3.01 2.99 2.89 2.82 2.80 3.12 3.02 2.95 2.91 2.87 2.84 2.82 2.73 2.66 2.64 2.99 2.89 2.82 2.78 2.74 2.72 2.69 2.60 2.53 2.51 2.89 2.78 2.72 2.67 2.64 2.61 2.59 2.50 2.43 2.41 2.80 2.70 2.63 2.59 2.55 2.52 2.50 2.41 2.34 2.32 Quantile Fm1 ,m2 ,p der F -Verteilung mit p = 0.99 (Teil 2) Hier gilt Fm1 ,m2 ,p = 1 Fm2 ,m1 ,1−p , so ist z.B. F10,12,0.01 = 20 30 1 F12,10,0.99 1 = 0.212. 4.71 75 14 16 18 m2 = 1 2 3 4 5 6 7 8 9 10 6106 99.42 27.05 14.37 9.89 7.72 6.47 5.67 5.11 4.71 6143 99.43 26.92 14.25 9.77 7.60 6.36 5.56 5.01 4.60 6170 99.44 26.83 14.15 9.68 7.52 6.28 5.48 4.92 4.52 6192 99.44 26.75 14.08 9.61 7.45 6.21 5.41 4.86 4.46 11 12 13 14 15 16 17 18 19 20 4.40 4.16 3.96 3.80 3.67 3.55 3.46 3.37 3.30 3.23 4.29 4.05 3.86 3.70 3.56 3.45 3.35 3.27 3.19 3.13 4.21 3.97 3.78 3.62 3.49 3.37 3.27 3.19 3.12 3.05 4.15 3.91 3.72 3.56 3.42 3.31 3.21 3.13 3.05 2.99 4.10 3.86 3.66 3.51 3.37 3.26 3.16 3.08 3.00 2.94 3.94 3.70 3.51 3.35 3.21 3.10 3.00 2.92 2.84 2.78 3.81 3.57 3.38 3.22 3.08 2.97 2.87 2.78 2.71 2.64 3.74 3.50 3.31 3.15 3.01 2.90 2.80 2.71 2.64 2.57 3.71 3.47 3.27 3.11 2.98 2.86 2.76 2.68 2.60 2.54 3.60 3.36 3.17 3.00 2.87 2.75 2.65 2.57 2.49 2.42 21 22 23 24 25 26 27 28 29 30 3.17 3.12 3.07 3.03 2.99 2.96 2.93 2.90 2.87 2.84 3.07 3.02 2.97 2.93 2.89 2.86 2.82 2.79 2.77 2.74 2.99 2.94 2.89 2.85 2.81 2.78 2.75 2.72 2.69 2.66 2.93 2.88 2.83 2.79 2.75 2.72 2.68 2.65 2.63 2.60 2.88 2.83 2.78 2.74 2.70 2.66 2.63 2.60 2.57 2.55 2.72 2.67 2.62 2.58 2.54 2.50 2.47 2.44 2.41 2.39 2.58 2.53 2.48 2.44 2.40 2.36 2.33 2.30 2.27 2.25 2.51 2.46 2.41 2.37 2.33 2.29 2.26 2.23 2.20 2.17 2.48 2.42 2.37 2.33 2.29 2.25 2.22 2.19 2.16 2.13 2.36 2.31 2.26 2.21 2.17 2.13 2.10 2.06 2.03 2.01 40 50 60 70 80 90 100 200 1000 ∞ 2.66 2.56 2.50 2.45 2.42 2.39 2.37 2.27 2.20 2.18 2.56 2.46 2.39 2.35 2.31 2.29 2.27 2.17 2.10 2.08 2.48 2.38 2.31 2.27 2.23 2.21 2.19 2.09 2.02 2.00 2.42 2.32 2.25 2.20 2.17 2.14 2.12 2.03 1.95 1.93 2.37 2.27 2.20 2.15 2.12 2.09 2.07 1.97 1.90 1.88 2.20 2.10 2.03 1.98 1.94 1.92 1.89 1.79 1.72 1.70 2.06 1.95 1.88 1.83 1.79 1.76 1.74 1.63 1.54 1.52 1.98 1.87 1.79 1.74 1.70 1.67 1.65 1.53 1.44 1.42 1.94 1.82 1.75 1.70 1.65 1.62 1.60 1.48 1.38 1.36 1.80 1.68 1.60 1.54 1.49 1.46 1.43 1.28 1.11 1.00 6303 6324 99.48 99.49 26.35 26.28 13.69 13.61 9.24 9.17 7.09 7.02 5.86 5.79 5.07 5.00 4.52 4.45 4.12 4.05 100 ∞ m1 = 12 6209 6261 99.45 99.47 26.69 26.50 14.02 13.84 9.55 9.38 7.40 7.23 6.16 5.99 5.36 5.20 4.81 4.65 4.41 4.25 50 = 6334 6366 99.49 99.50 26.24 26.13 13.58 13.46 9.13 9.02 6.99 6.88 5.75 5.65 4.96 4.86 4.41 4.31 4.01 3.91