Name: Matrikelnummer: Formelsammlung zur Vorlesung Statistik II für Studierende der Soziologie Dr. Carolin Strobl SoSe 2009 1 Wahrscheinlichkeitsrechnung 1.1 Mengen und elementare Mengenoperationen Definition: Eine Menge ist eine Zusammenfassung verschiedener Objekte zu einem Ganzen. Die einzelnen Objekte einer Menge werden Elemente genannt. Standardmengen: N = {1, 2, 3, . . .} : Menge der natürlichen Zahlen, N0 = {0, 1, 2, 3, . . .} : Menge der natürlichen Zahlen inklusive 0, Z = {0, ±1, ±2, . . .} : Menge der ganzen Zahlen, R = (−∞, ∞) : Menge der reellen Zahlen, ∅ : leere Menge. • Elementeigenschaft: x ist Element der Menge A: x∈A x ist nicht Element der Menge A: x ∈ /A • Teilmengen: A ist Teilmenge von B, in Zeichen A ⊂ B, wenn jedes Element von A auch in B ist. • Schnittmenge: Die Schnittmenge A ∩ B ist die Menge aller Elemente, die sowohl 1. Wahrscheinlichkeitsrechnung 2 in A als auch in B enthalten sind: A ∩ B = {x|x ∈ A und x ∈ B} • Zwei Mengen A und B mit A ∩ B = ∅, d.h. zwei Mengen, die kein gemeinsames Element haben, heißen disjunkt. • Vereinigungsmenge: Die Vereinigungsmenge A ∪ B ist die Menge aller Elemente, die in A oder B enthalten sind: A ∪ B = {x|x ∈ A oder x ∈ B} • Differenzmenge: Die Differenzmenge A \ B ist die Menge aller Elemente, die in A, aber nicht in B enthalten sind: A \ B = {x|x ∈ A aber x ∈ / B} • Komplementärmenge: Die Komplementärmenge Ā bezüglich einer Grundmenge Ω ist die Menge aller Elemente von Ω, die nicht in A sind: Ā = {x ∈ Ω|x ∈ / A} = {x : x ∈ / A} • Potenzmenge: Die Potenzmenge P(A) ist die Menge aller Teilmengen von A: P(A) = {M |M ⊂ A}. • Mächtigkeit: Die Mächtigkeit |A| einer Menge A ist die Anzahl der Elemente von A Rechenregeln für Mengen 1. Kommutativgesetze (Vertauschung): A ∩ B = B ∩ A, A ∪ B = B ∪ A. 2. Assoziativgesetze (Zusammenfassen): (A ∩ B) ∩ C = A ∩ (B ∩ C). (A ∪ B) ∪ C = A ∪ (B ∪ C). 3. Distributivgesetze (Ausklammern/Ausmultiplizieren): (A ∪ B) ∩ C = (A ∩ C) ∪ (B ∩ C). (A ∩ B) ∪ C = (A ∪ C) ∩ (B ∪ C). 4. De Morgansche Regeln: (A ∪ B) = Ā ∩ B̄ (A ∩ B) = Ā ∪ B̄ 1. Wahrscheinlichkeitsrechnung 3 5. Für die Potenzmenge gilt |P(A)| = 2|A| . Das kartesische Produkt Das kartesische Produkt zweier Mengen A = {a1 , a2 , a3 , . . . , ak } B = {b1 , b2 , b3 , . . . , bm } ist die Menge n o A × B := (ai , bj ) i = 1, . . . , k, j = 1, . . . , m besteht also aus allen möglichen Kombinationen, so dass A × B = (a1 , b1 ), (a1 , b2 ), (a1 , b3 ), . . . , (a1 , bm ), (a2 , b1 ), (a2 , b2 ), (a2 , b3 ), . . . , (a2 , bm ), .. . (ak , b1 ), (ak , b2 ), (ak , b3 ), . . . , (ak , bm ) 1.2 1.2.1 Wahrscheinlichkeitsbegriffe Zufallsvorgänge Ein Zufallsvorgang führt zu einem von mehreren, sich gegenseitig ausschließenden Ergebnissen. Zur Beschreibung eines Zufallsvorganges benötigt man a) Einen Ergebnisraum (Grundraum, Stichprobenraum) Ω, der die möglichen Ergebnisse ω enthält. Teilmengen A von Ω bezeichnet man als Ereignisse, Ereignisse sind also bestimmte Mengen von Ergebnissen. Die einelementigen Teilmengen (also die Ergebnisse ω) werden als Elementarereignisse bezeichnet. b) Eine Wahrscheinlichkeitsbewertung, die jedem Ereignis seine Wahrscheinlichkeit zuordnet. 1.2.2 Laplace-Wahrscheinlichkeiten Laplace-Wahrscheinlichkeit: In einem Laplace-Experiment gilt für P (A) mit |A| = M und |Ω| = N : |A| M P (A) = = . |Ω| N Abzählregel: P (A) = Anzahl der für A günstigen Ergebnisse Anzahl aller möglichen Ergebnisse 1. Wahrscheinlichkeitsrechnung 4 Urnenmodell: Ziehen mit Zurücklegen • Grundgesamtheit mit N Zahlen G = {1, . . . , N }. • Ziehe Stichprobe vom Umfang n mit Zurücklegen. • Ω = {(ω1 , . . . , ωn ) : ωj ∈ {1, . . . , N }} • |Ω| = N · . . . · N} = N n , d.h. N n mögliche Stichproben vom Umfang n. | · N {z n-mal Urnenmodell: Ziehen ohne Zurücklegen • Grundgesamtheit mit N Zahlen G = {1, . . . , N }. • Ziehe Stichprobe vom Umfang n ohne Zurücklegen. • Ω = {(ω1 , . . . , ωn ) : ωj ∈ {1, . . . , N }, ωj 6= ωi für i 6= j} • Anzahl der Stichproben: |Ω| = N · (N − 1) · . . . · N − n + 1 = N! (N − n)! Fakultät Die Fakultät einer natürlichen Zahl k ist definiert als k! = k · (k − 1) · (k − 2) · . . . · 2 · 1 wobei 1! = 1, 0! = 1. Urnenmodell: Ziehen ohne Zurücklegen ohne Berücksichtigung der Reihenfolge • Ziehe n Kugeln aus einer Urne mit N nummerierten Kugeln. Die Reihenfolge der Ziehungen spielt keine Rolle. • Ω = {{ω1 , . . . , ωn } : ωj ∈ {1, . . . , N }, ωj 6= ωi für j 6= i} • Anzahl der Stichproben: N! |Ω| = = (N − n)!n! N n Binomialkoeffizient Der Binomialkoeffizient N n ist definiert als N N! . = n (N − n)! · n! Es gilt: N N N = 1, = N, = 1, 0 1 N N = 0, falls N < n . n 1. Wahrscheinlichkeitsrechnung 1.2.3 5 Das Axiomensystem von Kolmogoroff Definition (Axiome von Kolmogorov, 1933) Eine Funktion P (P steht für Probability), die Ereignissen aus Ω (reelle) Zahlen zuordnet, heißt Wahrscheinlichkeit, wenn gilt (K1) P (A) ≥0 (K2) P (Ω) = 1. für alle Ereignisse A ⊂ Ω. (K3) Falls A ∩ B = ∅, dann gilt P (A ∪ B) = P (A) + P (B) Rechenregeln für Wahrscheinlichkeiten • P (Ā) = 1 − P (A) • Für nicht notwendigerweise disjunkte Mengen A, B gilt P (A ∪ B) = P (A) + P (B) − P (A ∩ B) • Falls A1 , A2 , . . . , An paarweise disjunkt sind, also Ai ∩ Aj = ∅ für i 6= j, dann gilt: ! n [ P = P (A1 ∪ A2 ∪ . . . ∪ An ) Ai i=1 = P (A1 ) + P (A2 ) + . . . + P (An ) Vollständige Zerlegung: Ist A1 , A2 , . . . , An eine vollständige Zerlegung von Ω, d.h. gilt n [ Ai = Ω und Ai ∩ Aj = ∅ für i 6= j, i=1 so gilt für jedes Ereignis B: P (B) = n X P (B ∩ Ai ) i=1 1.2.4 Weitere Wahrscheinlichkeitsbegriffe • Häufigkeitsinterpretation. • Natürliche Häufigkeiten. • Subjektivistisch. 1.3 Stochastische Unabhängigkeit und bedingte Wahrscheinlichkeiten Stochastische Unabhängigkeit: Zwei Ereignisse A und B heißen (stochastisch) unabhängig wenn gilt P (A ∩ B) = P (A) · P (B) 1. Wahrscheinlichkeitsrechnung 6 andernfalls heißen sie stochastisch abhängig. Die (stochastische) Unabhängigkeit ist eine symmetrische Beziehung in dem Sinne, dass A und B genau dann unabhängig sind, wenn B und A unabhängig sind. Genauer gilt die Äquivalenz folgender Aussagen: A A Ā Ā und und und und B B̄ B B̄ sind stochastisch unabhängig ” ” ” Stochastische Unabhängigkeit mehrerer Ereignisse: Ereignisse A1 , A2 , . . . , An heißen (vollständig) stochastisch unabhängig, wenn gilt P (A1 ∩ A2 ∩ . . . ∩ An ) = P (A1 ) · P (A2 ) · . . . · P (An ). Aus der paarweisen Unabhängigkeit P (Ai ∩ Aj ) = P (Ai )P (Aj ) für alle i, j folgt nicht die vollständige Unabhängigkeit. Bedingte Wahrscheinlichkeiten: Gegeben seien zwei Ereignisse A und B mit P (B) > 0. Dann heißt: P (A ∩ B) P (A|B) := P (B) bedingte Wahrscheinlichkeit von A gegeben B oder bedingte Wahrscheinlichkeit von A unter der Bedingung B. Es ergibt sich auch eine analoge Charakterisierung der stochastischen Unabhängigkeit über bedingte Wahrscheinlichkeiten: Sind P (A) und P (B) > 0, so sind äquivalent: i) A und B sind stochastisch unabhängig ii) P (A|B) = P (A) iii) P (B|A) = P (B) iv) P (A|B̄) = P (A) v) P (A|B) = P (A|B̄) usw. Unabhängige Koppelung: Gegeben sei eine Menge von Zufallsexperimenten, beschrieben durch die Ergebnisräume Ωi , i = 1, . . . , n und die Wahrscheinlichkeitsbewertungen Pi , i = 1, . . . , n. Fasst man die Experimente zusammen, so ergibt sich der Ergebnisraum Ω := Ω1 × Ω2 × . . . × Ωn , und die Elemente ω := (ω1 , ω2 , . . . , ωn ) . Sind die Experimente unabhängig, so setzt man für beliebige Ai ⊂ Ωi , i = 1, . . . , n P (A1 ∩ A2 ∩ . . . ∩ An ) = P1 (A1 ) · P2 (A2 ) · . . . · Pn (An ). 1. Wahrscheinlichkeitsrechnung 7 Dies beschreibt ein Wahrscheinlichkeitsmaß auf Ω, bei dem – per Konstruktion – beliebige Ereignisse aus den einzelnen Ωi voneinander unabhängig sind. Satz von der totalen Wahrscheinlichkeit: Gegeben sei eine vollständige Zerlegung A1 , A2 , . . . , Ak . Dann gilt für jedes Ereignis B P (B) = k X P (B|Aj ) · P (Aj ) = j=1 k X P (B ∩ Aj ). j=1 Koppelung abhängiger Experimente: Gegeben seien n Experimente, beschrieben durch die Grundräume Ωi = {ai1 , . . . , aiki } und die Wahrscheinlichkeitsbewertungen Pi , i = 1, . . . , n. Bezeichnet man für beliebiges i = 1, . . . , n und j = 1, . . . , ki , mit Aij jeweils das zu aij gehörige Elementarereignis (also das Ereignis aij tritt ein“), so gilt: ” P (A1j1 ∩ A2j2 ∩ . . . ∩ Anjn ) = P1 (A1j1 ) · P2 (A2j2 |A1j1 ) · P3 (A3j3 |A1j1 ∩ A2j2 ) · . . . · Pn Anjn |A1j1 ∩ A2j2 ∩ . . . ∩ An−1jn−1 Häufig werden die Indizes bei P weggelassen. Markovmodelle: Gilt in der Kopplung abhängiger Experiment Ω1 = Ω2 = . . . = Ωn = {a1 , . . . , ak } und sind alle bedingten Wahrscheinlichkeiten nur vom jeweils unmittelbar vorhergehenden Zeitpunkt abhängig, d.h. gilt P (Ai+1,ji+1 |A1j1 ∩ A2j2 ∩ . . . ∩ Aiji ) = P (Ai+1,ji+1 |Aiji ), (1) so spricht man von einem Markovmodell mit den Zuständen a1 , . . . , ak . Sind die sogenannten Übergangswahrscheinlichkeiten in (1) unabhängig von der Zeit, gilt also P (Ai+1,j |Ail ) ≡ pjl für alle i, j, l, so heißt das Markovmodell homogen. Theorem von Bayes: Sei A1 , . . . Ak eine vollständige Zerlegung von Ω (wobei P (Ai ) > 0, P (B|Ai ) > 0, i = 1, . . . k und P (B) > 0 erfüllt seien.) Dann gilt P (Aj |B) = P (B|Aj ) · P (Aj ) k X . P (B|Ai ) · P (Ai ) i=1 1.4 1.4.1 Zufallsvariablen und ihre Verteilung Diskrete Zufallsvariablen Definition: Gegeben seien ein diskreter, d.h. höchstens abzählbarer, Ergebnisraum Ω und die Wahrscheinlichkeit P auf Ω. Jede Abbildung X:Ω → 7 ΩX ω → 7 X(ω) heißt Zufallselement. Setzt man für jede Realisation x ∈ ΩX PX ({x}) := P ({X = x}) := P ({ω|X(ω) = x}) 1. Wahrscheinlichkeitsrechnung 8 so erhält man eine Wahrscheinlichkeit auf ΩX . (Oft wird auch P (X = x) statt P ({X = x}) geschrieben.) Ist ΩX = R, so bezeichnet man das Zufallselement X als Zufallsvariable. Definition: Gegeben sei eine diskrete Zufallsvariable X mit der Wahrscheinlichkeitsverteilung P . Die Menge X := {x ∈ R|P ({x}) > 0} heißt Träger von X. Definition: Die Wahrscheinlichkeitsfunktion f (x) einer diskreten Zufallsvariable X ist für x ∈ R definiert durch P (X = xi ) = pi , x = xi ∈ {x1 , x2 , . . . , xk , . . .} f (x) = 0, sonst. 1.4.2 Verteilungsfunktion Satz: Die Wahrscheinlichkeitsverteilung einer (diskreten) Zufallsvariablen X kann man durch die Verteilungsfunktion F (x) := P (X ≤ x) eineindeutig erklären. Die Wahrscheinlichkeit anderer Ereignisse ergibt sich aus dem dritten Kolmogorovschen Axiom. Es gilt zum Beispiel P (a < X ≤ b) = F (b) − F (a). 1.4.3 Stetige Zufallsvariablen Die Wahrscheinlichkeitsverteilung einer stetigen Zufallsvariablen ist durch die Verteilungsfunktion F (x) = P (X ≤ x) eindeutig festgelegt. Allgemeiner als zuvor gilt hier P (a < X ≤ b) = P (a ≤ X ≤ b) = P (a < X < b) = F (b) − F (a) da P (X = A) = P (X = b) = 0. Definition: Gegeben sei eine stetige Zufallsvariable X mit differenzierbarer Verteilungsfunktion FX (x). Dann heißt die Ableitung von F (x) nach x, also f (x) = Dichte der Zufallsvariablen X. dF (x) dx 1. Wahrscheinlichkeitsrechnung 9 Satz: Zx F (x) = f (u) du −∞ und damit für beliebige reelle Zahlen a und b mit a < b P (a ≤ X ≤ b) = P (a < X ≤ b) = P (a < X < b) = P (a ≤ X < b) Zb = f (x) dx. a 1.4.4 Lebensdauern; Hazardrate und Survivorfunktion Satz: Die Verteilung einer nicht negativen, stetigen Zufallsvariable X wird eineindeutig durch die Überlebensfunktion (Survivorfunktion) S(x) := P (X ≥ x) = 1 − F (x) und durch die Hazardrate P (x ≤ X ≤ x + h|X ≥ x) h→0 h λ(x) := lim beschrieben. Es gelten folgende Zusammenhänge Zx S(x) = exp(− λ(u)du) 0 Zx F (x) = 1 − exp(− λ(u)du) 0 f (x) = λ(x) · S(x) 1.4.5 Unabhängigkeit von Zufallsvariablen Definition: Zwei Zufallsvariablen X und Y mit den Verteilungsfunktionen FX und FY heißen stochastisch unabhängig, falls für alle x und y gilt P ({X ≤ x} ∩ {Y ≤ y}) = P ({X ≤ x}) · P ({Y ≤ y}) = FX (x) · FY (y), andernfalls heißen sie stochastisch abhängig. Für diskrete Zufallsvariablen kann man alternativ fordern, dass P (X = x, Y = y) = P (X = x) · P (Y = y) für alle x und y gilt. 1. Wahrscheinlichkeitsrechnung 1.5 1.5.1 10 Erwartungswert und Varianz Diskrete Zufallsvariablen Definition: Gegeben sei eine diskrete Zufallsvariable X mit Träger X . Dann heißt X E X := E(X) := x · P (X = x) x∈X Erwartungswert von X, Var X := Var(X) := V(X) := E((X − E(X))2 ) X = (x − E(X))2 · P (X = x) x∈X Varianz von X und σX := p Var(X) Standardabweichung von X. Zur Berechnung der Varianz ist der sogenannte Verschiebungssatz sehr praktisch: Var(X) = E(X 2 ) − (E X)2 1.5.2 Stetige Zufallsvariablen Definition: Sei X eine stetige Zufallsvariable mit Dichte f (x). Dann heißt Z ∞ E X := E(X) := x · f (x) dx −∞ Erwartungswert von X, Var X := Var(X) := V(X) := E((X − E(X))2 Z ∞ = (x − E(X))2 · f (x) dx −∞ Varianz von X und σX := p Var(X) Standardabweichung von X. 1.5.3 Allgemeine Rechenregeln für Erwartungswert und Varianz Satz: Seien X und Y diskrete oder stetige Zufallsvariablen (mit existierenden Erwartungswerten und Varianzen). Dann gilt: a) E(aX + bY ) = a · E(X) + b · E(Y ) und insbesondere auch E(a) = a, E(aX) = a · E(X) E(X + Y ) = E(X) + E(Y ) 1. Wahrscheinlichkeitsrechnung 11 b) Var(aX + b) = a2 · Var(X). Sind X und Y zusätzlich unabhängig, so gilt E(X · Y ) = E(X) · E(Y ) Var(X + Y ) = Var(X) + Var(Y ) Definition: Die Zufallsvariable X − E(X) Z := p Var(X) heißt standardisierte Zufallsvariable. Es gilt E(Z) = 0 und Var(Z) = 1. 1.6 Wichtige Verteilungsmodelle 1.6.1 Binomialverteilung Konstruktionsprinzip: • Ein Zufallsexperiment wird n mal unabhängig durchgeführt. • Wir interessieren uns jeweils nur, ob ein bestimmtes Ereignis A eintritt oder nicht. • X = Häufigkeit, mit der Ereignis A bei n unabhängigen Versuchen eintritt“. ” • Träger von X: X = {0, 1, 2, . . . , n}. Definition: Eine Zufallsvariable heißt binomialverteilt mit den Parametern n und π, kurz X ∼ B(n, π), wenn sie die Wahrscheinlichkeitsfunktion ( n π x (1 − π)n−x , x = 0, 1, . . . , n x f (x) = 0, sonst besitzt. Die B(1, π)-Verteilung heißt auch Bernoulliverteilung. Erwartungswert und Varianz: • Zur Berechnung von Erwartungswert und Varianz der Binomialverteilung ist folgende Darstellung hilfreich: X = X1 + . . . + Xn mit den binären Variablen ( 1 falls A beim i-ten Versuch eintritt, Xi = 0 sonst. • Erwartungswert der Binomialverteilung: E(X) = E(X1 + . . . + Xn ) = E(X1 ) + . . . + E(Xn ) = nπ 1. Wahrscheinlichkeitsrechnung 12 • Varianz der Binomialverteilung: Var(X) = Var(X1 + . . . + Xn ) = Var(X1 ) + . . . + Var(Xn ) = nπ(1 − π) 1.6.2 Normalverteilung Definition: Eine stetige Zufallsvariable X heißt normalverteilt mit den Parametern µ und σ 2 , in Zeichen X ∼ N (µ, σ 2 ), wenn für ihre Dichte gilt: 1 1 2 f (x) = √ exp − 2 (x − µ) , x ∈ R (2) 2σ 2π · σ und standardnormalverteilt, in Zeichen X ∼ N (0; 1), falls µ = 0 und σ 2 = 1 gilt. Grundlegende Eigenschaften: a) Die Dichte der Standardnormalverteilung wird oft mit ϕ(x) bezeichnet, also 1 1 2 ϕ(x) = √ exp − x 2 2π und die zugehörige Verteilungsfunktion mit Z x Φ(x) = ϕ(u)du −∞ b) µ und σ 2 sind genau der Erwartungswert und die Varianz, also, wenn X ∼ N µ, σ 2 ), dann E(X) = µ und Var(X) = σ 2 . c) Die Dichte ist symmetrisch um µ, d.h. f (µ − x) = f (µ + x) . Grundlegendes zum Rechnen mit Normalverteilungen: • Es gilt: Φ(−x) = 1 − Φ(x). • Gilt X ∼ N (µ, σ 2 ), so ist die zugehörige standardisierte Zufallsvariable Z= X −µ σ standardnormalverteilt. • Tabelliert sind die Werte der Verteilungsfunktion Φ(z) = P (Z ≤ z) für z ≥ 0. Ablesebeispiel: Φ(1.75) = 0.9599 • Funktionswerte für negative Argumente: Φ(−z) = 1 − Φ(z) 1. Wahrscheinlichkeitsrechnung 1.7 1.7.1 13 Grenzwertsätze und Approximationen Das i.i.d.-Modell Betrachtet werden diskrete oder stetige Zufallsvariablen X1 , . . . , Xn , die i.i.d. (independently, identically distributed) sind, d.h. die 1) unabhängig sind und 2) die gleiche Verteilung besitzen. Ferner sollen der Erwartungswert µ und die Varianz σ 2 existieren. Die Verteilungsfunktion werde mit F bezeichnet. 1.7.2 Das schwache Gesetz der großen Zahlen Theorem von Bernoulli: Seien X1 , . . . , Xn , i.i.d. mit Xi ∈ {0, 1} und P (Xi = 1) = π. Dann gilt für n 1X Xi Hn = n i=1 (relative Häufigkeit der Einsen“) und beliebig kleines > 0 ” lim P (|Hn − π| ≤ ) = 1 n→∞ Schwaches Gesetz der großen Zahl: Gegeben seien X1 , . . . , Xn i.i.d. Zufallsvariablen mit (existierendem) Erwartungswert µ und (existierender) Varianz σ 2 . Dann gilt für n 1X X̄n := Xi n i=1 und beliebiges > 0: lim P (|X̄n − µ| ≤ ) = 1 n→∞ Schreibweise: P X̄n −→ µ ( Stochastische Konvergenz“, X̄n konvergiert in Wahrscheinlichkeit gegen µ“.) ” ” 1.7.3 Der Hauptsatz der Statistik Hauptsatz der Statistik: Seien X1 , . . . , Xn i.i.d. mit Verteilungsfunktion F und sei Fn (x) die empirische Verteilungsfunktion der ersten n Beobachtungen. Mit Dn := sup |Fn (x) − F (x)|, x gilt für jedes c > 0 lim P (Dn > c) = 0. n→∞ 1. Wahrscheinlichkeitsrechnung 1.7.4 14 Der zentrale Grenzwertsatz Zentraler Grenzwertsatz: Seien X1 , . . . , Xn i.i.d. mit E(Xi ) = µ und Var(Xi ) = σ 2 > 0 sowie n 1 X Xi − µ . Zn = √ σ n i=1 a Dann gilt: Zn ist asymptotisch standardnormalverteilt, in Zeichen: Zn ∼ N (0; 1), d.h. es gilt für jedes z lim P (Zn ≤ z) = Φ(z). n→∞ Aus dem zentralen Grenzwertsatz folgt: σ2 X̄n ∼ N µ, . n a Approximation der Binomialverteilung Sei X ∼ B(n, π). Es gilt P (X ≤ x) ≈ Φ x−n·π p ! n · π(1 − π) falls n groß genug. Stetigkeitskorrektur: ! x + 0.5 − nπ P (X ≤ x) ≈ Φ p nπ(1 − π) ! ! x − 0.5 − nπ x + 0.5 − nπ P (X = x) ≈ Φ p −Φ p nπ(1 − π) nπ(1 − π) 1.8 Mehrdimensionale Zufallsvariablen Definition: Betrachtet werden zwei eindimensionale Zufallselemente X und Y (zu demselben Zufallsexperiment). Die Wahrscheinlichkeit P (X = xi , Y = yj ) := P ({X = xi } ∩ {Y = yj }) in Abhängigkeit von xi und yj heißt gemeinsame Verteilung der mehrdimensionalen Zufallsvariable X und der Variablen X und Y . Y Randwahrscheinlichkeiten: pi· = P (X = xi ) = m X P (X = xi , Y = yj ) j=1 p·j = P (Y = yj ) = k X i=1 P (X = xi , Y = yj ) 1. Wahrscheinlichkeitsrechnung 15 Bedingte Verteilungen: P (X = xi , Y = yj ) P (Y = yj ) P (X = xi , Y = yj ) P (Y = yj |X = xi ) = P (X = xi ) P (X = xi |Y = yj ) = Definition: Seien X und Y zwei Zufallsvariablen. Dann heißt σX,Y := Cov(X, Y ) = E((X − E(X))(Y − E(Y ))) Kovarianz von X und Y . Rechenregeln: • Cov(X, X) = Var(X) • Cov(X, Y ) = E(XY ) − E(X) · E(Y ) • Cov(X, Y ) = Cov(Y, X) • Mit X̃ = aX X + bX und Ỹ = aY Y + bY ist Cov(X̃, Ỹ ) = aX · aY · Cov(X, Y ) • Var(X + Y ) = Var(X) + Var(Y ) + 2 · Cov(X, Y ) Definition: Zwei Zufallsvariablen X und Y mit Cov(X, Y ) = 0 heißen unkorreliert. Satz: Stochastisch unabhängige Zufallsvariablen sind unkorreliert. Die Umkehrung gilt jedoch im allgemeinen nicht. Definition: Gegeben seien zwei Zufallsvariablen X und Y . Dann heißt ρ(X, Y ) = p Cov(X, Y ) p Var(X) Var(Y ) Korrelationskoeffizient von X und Y . Eigenschaften des Korrelationskoeffizienten: • Mit X̃ = aX X + bX und Ỹ = aY Y + bY ist |ρ(X̃, Ỹ )| = |ρ(X, Y )|. • −1 ≤ ρ(X, Y ) ≤ 1. • |ρ(X, Y )| = 1 ⇐⇒ Y = aX + b • Sind Var(X) > 0 und Var(Y ) > 0, so gilt ρ(X, Y ) = 0 genau dann, wenn Cov(X, Y ) = 0. 2. Induktive Statistik 2 16 Induktive Statistik 2.1 Grundprinzipien der induktiven Statistik 2.2 Punkschätzung 2.2.1 Schätzfunktionen Definition: Sei X1 , . . . , Xn i.i.d. Stichprobe. Eine Funktion T = g(X1 , . . . , Xn ) heißt Schätzer oder Schätzfunktion. Andere Notation in der Literatur: ϑ̂ Schätzer für ϑ. 2.2.2 Gütekriterien Erwartungstreue, Bias: Gegeben sei eine Stichprobe X1 , . . . , Xn und eine Schätzfunktion T = g(X1 , . . . , Xn ) (mit existierendem Erwartungswert). • T heißt erwartungstreu für den Parameter ϑ, falls gilt Eϑ (T ) = ϑ für alle ϑ. • Die Größe Biasϑ (T ) = Eϑ (T ) − ϑ heißt Bias (oder Verzerrung) der Schätzfunktion. Erwartungstreue Schätzfunktionen haben per Definition einen Bias von 0. Asymptotische Erwartungstreue Eine Schätzfunktion heißt asymptotisch erwartungstreu, falls lim E(θ̂) = θ. n→∞ bzw. lim Bias(θ̂) = 0. n→∞ gelten. 2.2.3 Effizienz Effizienz: 2. Induktive Statistik 17 • Gegeben seien zwei erwartungstreue Schätzfunktionen T1 und T2 für einen Parameter ϑ. Gilt Varϑ (T1 ) ≤ Varϑ (T2 ) für alle ϑ und Varϑ∗ (T1 ) < Varϑ∗ (T2 ) für mindestens ein ϑ∗ so heißt T1 effizienter als T2 . • Eine für ϑ erwartungstreue Schätzfunktion T heißt UMVU-Schätzfunktion für ϑ (uniformly minimum v ariance unbiased), falls Varϑ (T ) ≤ Varϑ (T ∗ ) für alle ϑ und für alle erwartungstreuen Schätzfunktionen T ∗ . Bei nicht erwartungstreuen Schätzfunktionen zieht man den sogenannten Mean Squared Error MSEϑ (T ) := Eϑ (T − ϑ)2 zur Beurteilung heran. Es gilt MSEϑ (T ) = Varϑ (T ) + (Biasϑ (T ))2 . Konsistenz Ein Schätzer heißt MSE-konsistent, wenn gilt lim (MSE(T )) = 0. n→∞ Ein Schätzer heißt konsistent, wenn gilt lim (Var(T )) = 0. n→∞ 2.2.4 Konstruktionsprinzipien guter Schätzer Die Methode der kleinsten Quadrate Das Maximum-Likelihood-Prinzip Gegeben sei die Realisation x1 , . . . , xn einer i.i.d. Stichprobe. Die Funktion in ϑ Y n Pϑ (Xi = xi ) falls Xi diskret L(ϑ) = i=1 n Y fϑ (xi ) falls Xi stetig. i=1 heißt Likelihood des Parameters ϑ bei der Beobachtung x1 , . . . , xn . Derjenige Wert ϑ̂ = ϑ̂(x1 , . . . , xn ), der L(ϑ) maximiert, heißt Maximum-Likelihood-Schätzwert; die zugehörige Schätzfunktion T (X1 , . . . , Xn ) Maximum-Likelihood-Schätzer. 2. Induktive Statistik 18 Für die praktische Berechnung maximiert man statt der Likelihood typischerweise die Log-Likelihood l(ϑ) = ln(L(ϑ)) = ln n Y Pϑ (Xi = xi ) = i=1 bzw. l(ϑ) = ln n Y n X ln Pϑ (Xi = xi ) i=1 fϑ (xi ) = n X i=1 ln fϑ (xi ). i=1 Einige allgemeine Eigenschaften von ML-Schätzern • ML-Schätzer θ̂ sind im Allgemeinen nicht erwartungstreu. • ML-Schätzer θ̂ sind asymptotisch erwartungstreu. • ML-Schätzer θ̂ sind konsistent. 2.3 Intervallschätzung 2.3.1 Motivation und Hinführung 2.3.2 Definition von Konfidenzintervallen Gegeben sei eine i.i.d. Stichprobe X1 , . . . , Xn zur Schätzung eines Parameters ϑ und eine Zahl γ ∈ (0; 1). Ein zufälliges Intervall C(X1 , . . . , Xn ) heißt Konfidenzintervall zum Sicherheitsgrad γ (Konfidenzniveau γ), falls für jedes ϑ gilt: Pϑ (ϑ ∈ 2.3.3 C(X , . . . , Xn ) ) ≥ γ. } | 1 {z zufälliges Intervall Konstruktion von Konfidenzintervallen Für die Konstruktion praktische Vorgehensweise: Suche Zufallsvariable Z, die • den gesuchten Parameter ϑ enthält und • deren Verteilung aber nicht mehr von dem Parameter abhängt, ( Pivotgröße“, dt. ” Angelpunkt). • Dann wähle den Bereich CZ so, dass Pϑ (Z ∈ CZ ) = γ und • löse nach ϑ auf. Konfidenzintervall für den Mittelwert eines normalverteilten Merkmals bei bekannter Varianz: z 1+γ · σ z 1+γ · σ z 1+γ · σ 2 2 2 X̄ − √ , X̄ + √ = X̄ ± √ n n n 2. Induktive Statistik 19 Konfidenzintervall für den Mittelwert eines normalverteilten Merkmals bei unbekannter Varianz: # " t 1+γ (n − 1) · S X̄ ± 2 √ n t-Verteilung: Gegeben sei eine i.i.d. Stichprobe X1 , . . . , Xn mit Xi ∼ N (µ, σ 2 ). Dann heißt die Verteilung von X̄ − µ √ Z= · n S t-Verteilung (oder Student-Verteilung) mit ν = n − 1 Freiheitsgraden. In Zeichen: Z ∼ t(ν). Approximative Konfidenzintervalle: Ist der Stichprobenumfang groß genug, so kann wegen des zentralen Grenzwertsatzes das Normalverteilungs-Konfidenzintervall auf den Erwartungswert beliebiger Merkmale (mit existierender Varianz) angewendet werden und man erhält approximative Konfidenzintervalle. Konfidenzintervall für den Anteil π: Seien X1 , . . . , Xn i.i.d. mit ( 1 Xi = , P (Xi = 1) = π. 0 Dann gilt approximativ für großes n X̄ − π q ∼ N (0, 1) π·(1−π) n und damit das Konfidenzintervall " r X̄ ± z 1+γ · 2 X̄(1 − X̄) n # 2. Induktive Statistik 2.4 2.4.1 20 Hypothesentests Grundprinzipien statistischer Hypothesentests Kardinalfrage der Testtheorie: Weichen die tatsächlichen Daten von der bei Gültigkeit der Nullhypothese zu erwartenden Situation überzufällig“ stark ab, d.h. so stark, dass man die Abweichung nicht mehr nur ” der Zufallsstreuung zuschreiben kann? 2.4.2 Konstruktion eines parametrischen statistischen Tests 1. Aufstellen der substanzwissenschaftlichen Hypothese / inhaltliche Fragestellung 2. Formulieren eines geeigneten statistischen Modells 3. Formulierung der statistischen Hypothesen. Bei parametrischen Fragestellungen: a) Einseitige Testprobleme: H0 : ϑ ≤ ϑ0 gegen H1 : ϑ > ϑ0 (Fall 1) H0 : ϑ ≥ ϑ0 gegen H1 : ϑ < ϑ0 (Fall 2) b) Zweiseitiges Testproblem: H0 : ϑ = ϑ0 gegen H1 : ϑ 6= ϑ0 (Fall 3) 4. Festlegung des Signifikanzniveaus α Typische Werte: α = 0.1, α = 0.05, α = 0.01 marginal sig.“ signifikant“ hoch signifikant“ ” ” ” 5. Festlegen einer Testgröße und einer kritischen Region Damit der Fehler 1. Art durch α beschränkt bleibt muss die kritische Region KR also so gewählt werden, dass P (T ∈ KR|H0 ) ≤ α gilt, d.h. die Wahrscheinlichkeit, dass T in der kritischen Region liegt und damit zur Ablehnung von H0 führt darf höchstens α sein, wenn H0 stimmt. 6. Auswerten der Stichprobe Berechnung der Realisation t der Testgröße T basierend auf der konkret vorliegenden Stichprobe. 7. Testentscheidung 2. Induktive Statistik 21 Beim Testen sind folgende Entscheidungen möglich: H0 : ablehnen oder H0 : beibehalten Damit sind zwei verschiedene Arten von Fehlern möglich: H0 wahr H0 falsch 2.4.3 H0 beibehalten √ Fehler 2. Art H0 ablehnen Fehler 1.Art √ Typische Tests I: Tests auf Lageparameter Gauss-Test Fall 1: H0 : µ ≤ µ0 H1 : µ > µ0 Fall 2: H0 : µ ≥ µ0 H1 : µ < µ0 Fall 3: H0 : µ = µ0 H1 : µ 6= µ0 Testgröße: X̄ − µ0 √ n σ Falls µ = µ0 (falls also die Nullhypothese zutrifft) gilt T := T = X̄ − µ0 √ n ∼ N (0, 1). σ Kritische Regionen: H0 abzulehnen, im Fall 1, falls σ X̄ ∈ µ0 + z1−α · √ ; ∞ n H0 ablehnen im Fall 2, falls σ X̄ ∈ −∞; µ0 − z1−α √ n bzw. T ≥ z1−α bzw. T ≤ −z1−α H0 ablehnen im Fall 3, falls |T | ≥ z1− α2 . 2. Induktive Statistik 22 t-Test Situation wie beim Gauß-Test, aber mit unbekannter Varianz σ 2 : X1 , . . . , Xn i.i.d. Stichprobe, wobei Xi jeweils normalverteilt sei mit unbekanntem Mittelwert µ und unbekannter Varianz σ 2 . Fall 1: H0 : µ ≤ µ0 H1 : µ > µ0 Fall 2: H0 : µ ≥ µ0 H1 : µ < µ0 Fall 3: H0 : µ = µ0 H1 : µ 6= µ0 Testgröße: X̄ − µ0 √ n S T ist für µ = µ0 t-verteilt mit n − 1 Freiheitsgraden. T = Kritische Regionen: H0 ablehnen, falls Fall 1 Fall 2 Fall 3 T ≥ t1−α (n − 1) T ≤ −t1−α (n − 1) T ≤ −t1− α2 (n − 1) oder T ≥ t1− α2 (n − 1) Approximative Tests für Hypothesen über Anteilswerte Statistische Hypothesen: Fall 1 H0 : π ≤ π0 H1 : π > π0 Fall 2 H0 : π ≥ π0 H1 : π < π0 Fall 3 H0 : π = π0 H1 : π 6= π0 Testgröße: X̄ − π0 T =q ∼ N (0, 1) π0 (1−π0 ) n Kritischen Regionen: Fall 1 H0 ablehnen, falls T ≥ z1−α Fall 2 H0 ablehnen, falls T ≤ −z1−α Fall 3 H0 ablehnen, falls T ≤ −z1− α2 oder T ≥ z1− α2 2. Induktive Statistik 2.4.4 23 Typische Tests II: Lagevergleiche aus unabhängigen Stichproben Zwei-Stichproben-Gauss-Test X1 , . . . , Xn i.i.d. Stichprobe aus Gruppe A, Y1 , . . . , Yn i.i.d. Stichprobe aus Gruppe B 2 Xi ∼ N (µX ; σX ) Yi ∼ N (µY ; σY2 ). 2 Die Varianzen sind σX und σY2 als bekannt angenommen. Statistische Hypothesen: Fall 1 H0 : µX ≤ µY Fall 2 H0 : µX ≥ µY Fall 3 H0 : µX = µY H1 : µX > µY H1 : µX < µY H1 : µX = 6 µY Testgröße: X̄ − Ȳ T =q 2 σX σ2 + mY n Falls µX = µY ist, gilt T ∼ N (0, 1) Kritische Region: Fall 1: H0 ablehnen, falls T ≥ z1−α Fall 2: H0 ablehnen, falls T ≤ −z1−α Fall 3: H0 ablehnen, falls |T | > z1− α2 . Zwei-Stichproben-t-Test 2 Xi ∼ N (µX , σX ) , i = 1, . . . , n 2 Yi ∼ N (µY , σY ) , i = 1, . . . , m 2 wobei jetzt die Varianzen σX , σY2 unbekannt seien. Fall 1 H0 : µX ≤ µY Fall 2 H0 : µX ≥ µY Fall 3 H0 : µX = µY H1 : µX > µY H1 : µX < µY H1 : µX = 6 µY 2 Variante a): Ist bekannt, dass die Varianzen gleich sind, so schätzt man sie mittels SX und SY2 und betrachtet X̄ − Ȳ T =q 2 +(m−1)S 2 (n−1)SX 1 Y + m1 n n+m−2 Falls µX = µY gehorcht T einer t-Verteilung mit (n + m − 2) Freiheitsgraden. 2. Induktive Statistik 24 Fall 1 Fall 2 H0 ablehnen, falls Fall 3 T ≥ t1−α T ≤ −t1−α T ≤ −t1− α2 oder T ≥ t1− α2 , also |T | ≥ t1− α2 Variante b) Sind die Varianzen unbekannt und können nicht als gleich angenommen werden, so kann man für großes n und großes m mit X̄ − Ȳ T =q 2 SX SY2 + n m rechnen. T ist für µX = µY approximativ standardnormalverteilt und kann auch angewendet werden, wenn keine Normalverteilung vorliegt. 2.4.5 Gauss-Test und t-Test für verbundene Stichproben Verbundene Stichproben: Vergleich zweier Merkmale X und Y , die jetzt an denselben Personen erhoben werden. X1 , . . . , X n Y1 , . . . , Y n 2 ) i.i.d. N (µX , σX 2 i.i.d. N (µY , σY ) Zum Testen von Hypothesen der Form 1 H0 : µX ≤ µY 2 H0 : µX ≥ µY 3 H0 : µX = µY gegen H1 : µX > µY gegen H1 : µX < µY gegen H1 : µX 6= µY betrachtet man die Differenz Di = Xi − Yi . Für den Erwartungswert µD gilt E µD = E(Di ) = E(Xi − Yi ) = E(Xi ) − E(Yi ) = µX − µY 2 und für die Varianz σD 2 σD := Var(Xi − Yi ) = Var(Xi + (−1) · Yi ) = Var(Xi ) + (−1)2 · Var(Yi ) − 2 · Cov(Xi , Yi ), also 2 2 + σY2 − 2σXY σD = σX mit σXY = Cov(X, Y ) 2 2 Ist Di normalverteilt, so sind wegen Di ∼ N (µD , σD ) mit µD = µX − µY und σD = 2 2 σX + σY − 2σXY obige Hypothesen äquivalent zu den Hypothesen 1’ H0 : µD ≤ 0 gegen H1 : µD > 0 2’ H0 : µD ≥ 0 gegen H1 : µD < 0 3’ H0 : µD = 0 gegen H1 : µD 6= 0 und man kann unmittelbar die Tests aus 2.4.3 anwenden. 2. Induktive Statistik 2.4.6 25 χ2 -Test χ2 -Unabhängigkeitstest: (X1 , Y1 ), . . . , (Xn , Yn ) i.i.d. Stichprobe des zwei-dimensionalen Merkmals (X, Y ). Statistische Hypothesen: H0 : H1 : d.h. Es herrscht Unabhängigkeit Es herrscht keine Unabhängigkeit H0 : P (X = xi , Y = yi ) = P (X = xi ) · P (Y = yi ) gegen H1 : P (X = xi , Y = yi ) 6= P (X = xi ) · P (Y = yi ) für alle Paare i, j für mindestens ein Paar i, j Teststatistik: T = k X m X hij − k X m X i=1 j=1 2 hi• h•j n i=1 j=1 = hi• h•j n n· = k X m X n· i=1 j=1 hj n − hi• h•j n2 2 hi• h•j n2 (fij − fi• f•j )2 fi• f•j Unter H0 gehorcht T approximativ einer sogenannten χ2 Verteilung mit (k − 1) · (m − 1) Freiheitsgraden. Kritische Region: H0 ablehnen, falls T > χ21−α ((k − 1) · (m − 1)), wobei χ21−α ((k − 1) · (m − 1)) das (1 − α)Quantil der χ2 Verteilung mit (k − 1) · (m − 1) Freiheitsgraden bezeichnet. 2.4.7 Zur praktischen Anwendung statistischer Tests Testentscheidungen und Statistik-Software Statistik-Software berechnet meist den p-Wert, also die Wahrscheinlichkeit unter H0 mindestens einen so stark für die Alternative sprechenden Wert zu erhalten, wie den tatsächlich beobachteten Wert der Teststatistik. Dies ist die Wahrscheinlichkeit für den Fehler 1. Art, man kann also sagen: H0 kann genau dann abgelehnt werden, wenn der p-Wert kleiner gleich dem vorgegebenen Signifikanzniveaus ist. Dualitätsprinzip von Test und Konfidenzintervall: Gegeben eine Pivotgröße T , besteht ein Konfidenzintervall zum Vertrauensgrad γ genau aus all jenen Werten ϑ0 eines Parameters ϑ, bei denen die Hypothese H0 : ϑ = ϑ0 zum Signifikanzniveau α = 1 − γ nicht abgelehnt wurde. 2. Induktive Statistik 2.5 26 Lineare Regressionsmodelle 2.5.1 Wiederholung aus Statistik I 2.5.2 Lineare Einfachregression Statistische Sichtweise: • Wahres Modell yi = β0 + β1 xi • Man beobachtet Datenpaare, (Xi , Yi ), i = 1, . . . , n mit Yi = β0 + β1 Xi + i wobei i ∼ N (0, σ 2 ) σ 2 für alle i gleich i1 , i2 stochastisch unabhängig für i1 6= i2 In dieser Situation gilt: 1. Die Maximum Likelihood Schätzer lauten: P (X − X̄)(Yi − Ȳ ) Pni , β̂1 = 2 i=1 (Xi − X̄) β̂0 = Ȳ − β̂1 X̄, n 1 X 2 2 σ̂ = ε̂ n − 2 i=1 i mit den geschätzten Residuen ε̂i = Yi − βˆ0 − βˆ1 Xi . 2. Mit σ̂β̂0 pPn X2 σ̂ := p Pn i=1 i n i=1 (Xi − X̄)2 gilt β̂0 − β0 ∼ t(n − 2) σ̂βˆ0 und analog mit σ̂β̂1 := pPn σ̂ i=1 (Xi − X̄)2 gilt β̂1 − β1 ∼ t(n − 2). σ̂βˆ1 2. Induktive Statistik 27 Konfidenzintervalle zum Sicherheitsgrad γ: für β0 : [β̂0 ± σ̂β̂0 · t 1+γ (n − 2)] für β1 : [β̂1 ± σ̂β̂1 · t 1+γ (n − 2)] 2 2 Mit der Teststatistik Tβ1∗ = β̂1 − β1∗ σ̂βˆ1 ergibt sich Hypothesen I. H0 : β1 ≤ β1∗ gegen β1 > β1∗ II. H0 : β1 ≥ β1∗ gegen β1 < β1∗ III. H0 : β1 = β1∗ gegen β1 6= β1∗ kritische Region T ≥ t1−α (n − 2) T ≤ t1−α (n − 2) |T | ≥ t1− α2 (n − 2) (analog für β̂0 ). Typischer SPSS-Output Koeffizientena Konstante Unabhängige Variable a β β̂0 β̂1 Standardfehler σ̂β̂0 σ̂β̂1 Standardisierte Koeffizienten Beta 5) 6) abhängige Variable 1) Wert der Teststatistik Tβ0∗ = β̂0 . σ̂β̂0 zum Testen von H0 : β0 = 0 gegen H1 : β0 6= 0. 2) Analog: Wert von Tβ1∗ = β̂1 σ̂β̂1 zum Testen von H0 : β1 = 0 gegen H1 : β1 6= 0. 3) p-Wert zu 1) 4) p-Wert zu 2) 5), 6) hier nicht von Interesse. T 1) 2) Signifikanz 3) 4) 2. Induktive Statistik 2.5.3 28 Multiple lineare Regression Modellierungsansatz: Yi = β0 + β1 Xi1 + β2 Xi2 + . . . + βp Xip + i Es gilt für jedes j = 0, . . . , p β̂j − βj ∼ t(n − p − 1) σ̂β̂j und man erhält wieder Konfidenzintervalle für βj : [β̂j ± σ̂β̂j · t 1+γ (n − p − 1)] 2 sowie entsprechende Tests. 2.5.4 Varianzanalyse Beobachtungen: Yij j = 1, . . . , J i = 1, . . . , nj Faktorstufen Personenindex in der j-ten Faktorstufe Zwei äquivalente Modellformulierungen: a) Modell in Mittelwertdarstellung: Yij = µj + ij j = 1, . . . , J, i = 1, . . . , nj , mit µj ij ij faktorspezifischer Mittelwert zufällige Störgröße ∼ N (0, σ 2 ), 11 , 12 , . . . , JnJ unabhängig. Testproblem: H0 : µ1 = µ2 = . . . µJ gegen H1 : µl 6= µq für mindestens ein Paar (l, q) b) Modell in Effektdarstellung: Yij = µ + αj + ij wobei αj so, dass J X nj αj = 0. j=1 µ αj globaler Erwartungswert Effekt in der j-ten Faktorstufe, systematische Abweichung von µ 2. Induktive Statistik 29 Testproblem: H0 : α1 = α2 = . . . αJ = 0 gegen H1 : αj 6= 0 für mindestens ein j Die beiden Modelle sind äquivalent: setze µj := µ + αj . Streuungszerlegung Mittelwerte: Ȳ•• Ȳ•j Gesamtmittelwert in der Stichprobe Mittelwert in der j-ten Faktorstufe Es gilt nj J X X j=1 j=1 2 (Yij − Ȳ•• ) = J X j=1 2 nj (Ȳ•j − Ȳ•• ) + | {z } nj J X X (Yij − Ȳ•j )2 j=1 i=1 | {z } Die Testgröße F = SQE/(J − 1) SQR/(n − J) ist geeignet zum Testen der Hypothesen H0 : µ1 = µ2 = . . . µJ gegen H1 : µl 6= µq für mindestens ein Paar (l, q) beziehungsweise H0 : α1 = α2 = . . . αJ = 0 gegen H1 : αj 6= 0 für mindestens ein j Sie besitzt eine sog. F -Verteilung mit (J − 1) und (n − J) Freiheitsgraden. H0 ablehnen falls T > F1−α (J − 1, n − J), mit dem entsprechenden (1 − α)-Quantil der F -Verteilung mit (J − 1) und (n − J) Freiheitsgraden. 2. Induktive Statistik 30 Verteilungstabellen Standardnormalverteilung Tabelliert sind die Werte der Verteilungsfunktion Φ(z) = P (Z ≤ z) für z ≥ 0. Ablesebeispiel: Φ(1.75) = 0.9599 Funktionswerte für negative Argumente: Φ(−z) = 1 − Φ(z) Die z-Quantile ergeben sich über die Umkehrfunktion. Beispielsweise ist z0.9599 = 1.75 und z0.9750 = 1.96. 0.00 0.01 0.02 0.03 0.04 0.05 0.06 0.07 0.08 0.0 0.5000 0.5040 0.5080 0.5120 0.5160 0.5199 0.5239 0.5279 0.5319 0.1 0.5398 0.5438 0.5478 0.5517 0.5557 0.5596 0.5636 0.5675 0.5714 0.2 0.5793 0.5832 0.5871 0.5910 0.5948 0.5987 0.6026 0.6064 0.6103 0.3 0.6179 0.6217 0.6255 0.6293 0.6331 0.6368 0.6406 0.6443 0.6480 0.4 0.6554 0.6591 0.6628 0.6664 0.6700 0.6736 0.6772 0.6808 0.6844 0.5 0.6915 0.6950 0.6985 0.7019 0.7054 0.7088 0.7123 0.7157 0.7190 0.6 0.7257 0.7291 0.7324 0.7357 0.7389 0.7422 0.7454 0.7486 0.7517 0.7 0.7580 0.7611 0.7642 0.7673 0.7704 0.7734 0.7764 0.7794 0.7823 0.8 0.7881 0.7910 0.7939 0.7967 0.7995 0.8023 0.8051 0.8078 0.8106 0.9 0.8159 0.8186 0.8212 0.8238 0.8264 0.8289 0.8315 0.8340 0.8365 1.0 0.8413 0.8438 0.8461 0.8485 0.8508 0.8531 0.8554 0.8577 0.8599 1.1 0.8643 0.8665 0.8686 0.8708 0.8729 0.8749 0.8770 0.8790 0.8810 1.2 0.8849 0.8869 0.8888 0.8907 0.8925 0.8944 0.8962 0.8980 0.8997 1.3 0.9032 0.9049 0.9066 0.9082 0.9099 0.9115 0.9131 0.9147 0.9162 1.4 0.9192 0.9207 0.9222 0.9236 0.9251 0.9265 0.9279 0.9292 0.9306 1.5 0.9332 0.9345 0.9357 0.9370 0.9382 0.9394 0.9406 0.9418 0.9429 1.6 0.9452 0.9463 0.9474 0.9484 0.9495 0.9505 0.9515 0.9525 0.9535 1.7 0.9554 0.9564 0.9573 0.9582 0.9591 0.9599 0.9608 0.9616 0.9625 1.8 0.9641 0.9649 0.9656 0.9664 0.9671 0.9678 0.9686 0.9693 0.9699 1.9 0.9713 0.9719 0.9726 0.9732 0.9738 0.9744 0.9750 0.9756 0.9761 2.0 0.9772 0.9778 0.9783 0.9788 0.9793 0.9798 0.9803 0.9808 0.9812 2.1 0.9821 0.9826 0.9830 0.9834 0.9838 0.9842 0.9846 0.9850 0.9854 2.2 0.9861 0.9864 0.9868 0.9871 0.9875 0.9878 0.9881 0.9884 0.9887 2.3 0.9893 0.9896 0.9898 0.9901 0.9904 0.9906 0.9909 0.9911 0.9913 2.4 0.9918 0.9920 0.9922 0.9925 0.9927 0.9929 0.9931 0.9932 0.9934 2.5 0.9938 0.9940 0.9941 0.9943 0.9945 0.9946 0.9948 0.9949 0.9951 2.6 0.9953 0.9955 0.9956 0.9957 0.9959 0.9960 0.9961 0.9962 0.9963 2.7 0.9965 0.9966 0.9967 0.9968 0.9969 0.9970 0.9971 0.9972 0.9973 2.8 0.9974 0.9975 0.9976 0.9977 0.9977 0.9978 0.9979 0.9979 0.9980 2.9 0.9981 0.9982 0.9982 0.9983 0.9984 0.9984 0.9985 0.9985 0.9986 3.0 0.9987 0.9987 0.9987 0.9988 0.9988 0.9989 0.9989 0.9989 0.9990 3.1 0.9990 0.9991 0.9991 0.9991 0.9992 0.9992 0.9992 0.9992 0.9993 3.2 0.9993 0.9993 0.9994 0.9994 0.9994 0.9994 0.9994 0.9995 0.9995 3.3 0.9995 0.9995 0.9995 0.9996 0.9996 0.9996 0.9996 0.9996 0.9996 3.4 0.9997 0.9997 0.9997 0.9997 0.9997 0.9997 0.9997 0.9997 0.9997 3.5 0.9998 0.9998 0.9998 0.9998 0.9998 0.9998 0.9998 0.9998 0.9998 0.09 0.5359 0.5753 0.6141 0.6517 0.6879 0.7224 0.7549 0.7852 0.8133 0.8389 0.8621 0.8830 0.9015 0.9177 0.9319 0.9441 0.9545 0.9633 0.9706 0.9767 0.9817 0.9857 0.9890 0.9916 0.9936 0.9952 0.9964 0.9974 0.9981 0.9986 0.9990 0.9993 0.9995 0.9997 0.9998 0.9998 2. Induktive Statistik 31 Students t-Verteilung Tabelliert sind die Quantile für n Freiheitsgrade. Für das Quantil t1−α (n) gilt F (t1−α (n)) = 1 − α. Links vom Quantil t1−α (n) liegt die Wahrscheinlichkeitsmasse 1 − α. Ablesebeispiel: t0.99 (20) = 2.528 Die Quantile für 0 < 1 − α < 0.5 erhält man aus tα (n) = −t1−α (n) Approximation für n > 30: tα (n) ≈ zα (zα ist das (α)-Quantil der Standardnormalverteilung) n 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 0.6 0.3249 0.2887 0.2767 0.2707 0.2672 0.2648 0.2632 0.2619 0.2610 0.2602 0.2596 0.2590 0.2586 0.2582 0.2579 0.2576 0.2573 0.2571 0.2569 0.2567 0.2566 0.2564 0.2563 0.2562 0.2561 0.2560 0.2559 0.2558 0.2557 0.2556 0.8 1.3764 1.0607 0.9785 0.9410 0.9195 0.9057 0.8960 0.8889 0.8834 0.8791 0.8755 0.8726 0.8702 0.8681 0.8662 0.8647 0.8633 0.8620 0.8610 0.8600 0.8591 0.8583 0.8575 0.8569 0.8562 0.8557 0.8551 0.8546 0.8542 0.8538 0.9 3.0777 1.8856 1.6377 1.5332 1.4759 1.4398 1.4149 1.3968 1.3830 1.3722 1.3634 1.3562 1.3502 1.3450 1.3406 1.3368 1.3334 1.3304 1.3277 1.3253 1.3232 1.3212 1.3195 1.3178 1.3163 1.3150 1.3137 1.3125 1.3114 1.3104 0.95 6.3138 2.9200 2.3534 2.1318 2.0150 1.9432 1.8946 1.8595 1.8331 1.8125 1.7959 1.7823 1.7709 1.7613 1.7531 1.7459 1.7396 1.7341 1.7291 1.7247 1.7207 1.7171 1.7139 1.7109 1.7081 1.7056 1.7033 1.7011 1.6991 1.6973 0.975 12.706 4.3027 3.1824 2.7764 2.5706 2.4469 2.3646 2.3060 2.2622 2.2281 2.2010 2.1788 2.1604 2.1448 2.1314 2.1199 2.1098 2.1009 2.0930 2.0860 2.0796 2.0739 2.0687 2.0639 2.0595 2.0555 2.0518 2.0484 2.0452 2.0423 0.99 31.821 6.9646 4.5407 3.7469 3.3649 3.1427 2.9980 2.8965 2.8214 2.7638 2.7181 2.6810 2.6503 2.6245 2.6025 2.5835 2.5669 2.5524 2.5395 2.5280 2.5176 2.5083 2.4999 2.4922 2.4851 2.4786 2.4727 2.4671 2.4620 2.4573 0.995 63.657 9.9248 5.8409 4.6041 4.0321 3.7074 3.4995 3.3554 3.2498 3.1693 3.1058 3.0545 3.0123 2.9768 2.9467 2.9208 2.8982 2.8784 2.8609 2.8453 2.8314 2.8188 2.8073 2.7969 2.7874 2.7787 2.7707 2.7633 2.7564 2.7500 0.999 318.31 22.327 10.215 7.1732 5.8934 5.2076 4.7853 4.5008 4.2968 4.1437 4.0247 3.9296 3.8520 3.7874 3.7328 3.6862 3.6458 3.6105 3.5794 3.5518 3.5272 3.5050 3.4850 3.4668 3.4502 3.4350 3.4210 3.4082 3.3962 3.3852 0.9995 636.62 31.599 12.924 8.6103 6.8688 5.9588 5.4079 5.0413 4.7809 4.5869 4.4370 4.3178 4.2208 4.1405 4.0728 4.0150 3.9651 3.9216 3.8834 3.8495 3.8193 3.7921 3.7676 3.7454 3.7251 3.7066 3.6896 3.6739 3.6594 3.6460 ∞ 0.2533 0.8416 1.2816 1.6449 1.9600 2.3263 2.5758 3.0903 3.2906 2. Induktive Statistik 32 χ2-Verteilung Tabelliert sind die Quantile für n Freiheitsgrade. Für das Quantil χ21−α,n gilt F (χ21−α,n ) = 1 − α . Links vom Quantil χ21−α,n liegt die Wahrscheinlichkeitsmasse 1 − α. Ablesebeispiel: χ20.95,10 = 18.307 Approximation für n > 30: √ 1 χ2α (n) ≈ (zα + 2n − 1)2 2 n 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 0.01 0.0002 0.0201 0.1148 0.2971 0.5543 0.8721 1.2390 1.6465 2.0879 2.5582 3.0535 3.5706 4.1069 4.6604 5.2293 5.8122 6.4078 7.0149 7.6327 8.2604 8.8972 9.5425 10.196 10.856 11.524 12.198 12.879 13.565 14.256 14.953 0.025 0.0010 0.0506 0.2158 0.4844 0.8312 1.2373 1.6899 2.1797 2.7004 3.2470 3.8157 4.4038 5.0088 5.6287 6.2621 6.9077 7.5642 8.2307 8.9065 9.5908 10.283 10.982 11.689 12.401 13.120 13.844 14.573 15.308 16.047 16.791 (zα ist das 1 − α-Quantil der Standardnormalverteilung) 0.05 0.0039 0.1026 0.3518 0.7107 1.1455 1.6354 2.1674 2.7326 3.3251 3.9403 4.5748 5.2260 5.8919 6.5706 7.2609 7.9616 8.6718 9.3905 10.117 10.851 11.591 12.338 13.091 13.848 14.611 15.379 16.151 16.928 17.708 18.493 0.1 0.0158 0.2107 0.5844 1.0636 1.6103 2.2041 2.8331 3.4895 4.1682 4.8652 5.5778 6.3038 7.0415 7.7895 8.5468 9.3122 10.085 10.865 11.651 12.443 13.240 14.041 14.848 15.659 16.473 17.292 18.114 18.939 19.768 20.599 0.5 0.4549 1.3863 2.3660 3.3567 4.3515 5.3481 6.3458 7.3441 8.3428 9.3418 10.341 11.340 12.340 13.339 14.339 15.338 16.338 17.338 18.338 19.337 20.337 21.337 22.337 23.337 24.337 25.336 26.336 27.336 28.336 29.336 0.9 2.7055 4.6052 6.2514 7.7794 9.2364 10.645 12.017 13.362 14.684 15.987 17.275 18.549 19.812 21.064 22.307 23.542 24.769 25.989 27.204 28.412 29.615 30.813 32.007 33.196 34.382 35.563 36.741 37.916 39.087 40.256 0.95 3.8415 5.9915 7.8147 9.4877 11.070 12.592 14.067 15.507 16.919 18.307 19.675 21.026 22.362 23.685 24.996 26.296 27.587 28.869 30.144 31.410 32.671 33.924 35.172 36.415 37.652 38.885 40.113 41.337 42.557 43.773 0.975 5.0239 7.3778 9.3484 11.143 12.833 14.449 16.013 17.535 19.023 20.483 21.920 23.337 24.736 26.119 27.488 28.845 30.191 31.526 32.852 34.170 35.479 36.781 38.076 39.364 40.646 41.923 43.195 44.461 45.722 46.979 0.99 6.6349 9.2103 11.345 13.277 15.086 16.812 18.475 20.090 21.666 23.209 24.725 26.217 27.688 29.141 30.578 32.000 33.409 34.805 36.191 37.566 38.932 40.289 41.638 42.980 44.314 45.642 46.963 48.278 49.588 50.892