Name: Matrikelnummer: Formelsammlung zur Vorlesung Statistik II für Studierende der Soziologie Dr. Carolin Strobl SoSe 2009 1 Wahrscheinlichkeitsrechnung 1.1 Mengen und elementare Mengenoperationen Definition: Eine Menge ist eine Zusammenfassung verschiedener Objekte zu einem Ganzen. Die einzelnen Objekte einer Menge werden Elemente genannt. Standardmengen: N N0 Z R ∅ = {1, 2, 3, . . .} = {0, 1, 2, 3, . . .} = {0, ±1, ±2, . . .} = (−∞, ∞) : Menge der natürlichen Zahlen, : Menge der natürlichen Zahlen inklusive 0, : Menge der ganzen Zahlen, : Menge der reellen Zahlen, : leere Menge. • Elementeigenschaft: x ist Element der Menge A: x∈A x ist nicht Element der Menge A: x ∈ /A • Teilmengen: A ist Teilmenge von B, in Zeichen A ⊂ B, wenn jedes Element von A auch in B ist. • Schnittmenge: Die Schnittmenge A ∩ B ist die Menge aller Elemente, die sowohl 1 1. Wahrscheinlichkeitsrechnung 2 in A als auch in B enthalten sind: A ∩ B = {x|x ∈ A und x ∈ B} • Zwei Mengen A und B mit A ∩ B = ∅, d.h. zwei Mengen, die kein gemeinsames Element haben, heißen disjunkt. • Vereinigungsmenge: Die Vereinigungsmenge A ∪ B ist die Menge aller Elemente, die in A oder B enthalten sind: A ∪ B = {x|x ∈ A oder x ∈ B} • Differenzmenge: Die Differenzmenge A \ B ist die Menge aller Elemente, die in A, aber nicht in B enthalten sind: A \ B = {x|x ∈ A aber x ∈ / B} • Komplementärmenge: Die Komplementärmenge Ā bezüglich einer Grundmenge Ω ist die Menge aller Elemente von Ω, die nicht in A sind: Ā = {x ∈ Ω|x ∈ / A} = {x : x ∈ / A} • Potenzmenge: Die Potenzmenge P(A) ist die Menge aller Teilmengen von A: P(A) = {M |M ⊂ A}. • Mächtigkeit: Die Mächtigkeit |A| einer Menge A ist die Anzahl der Elemente von A Rechenregeln für Mengen 1. Kommutativgesetze (Vertauschung): A ∩ B = B ∩ A, A ∪ B = B ∪ A. 2. Assoziativgesetze (Zusammenfassen): (A ∩ B) ∩ C = A ∩ (B ∩ C). (A ∪ B) ∪ C = A ∪ (B ∪ C). 3. Distributivgesetze (Ausklammern/Ausmultiplizieren): (A ∪ B) ∩ C = (A ∩ C) ∪ (B ∩ C). (A ∩ B) ∪ C = (A ∪ C) ∩ (B ∪ C). 4. De Morgansche Regeln: (A ∪ B) = Ā ∩ B̄ (A ∩ B) = Ā ∪ B̄ 1. Wahrscheinlichkeitsrechnung 3 5. Für die Potenzmenge gilt |P(A)| = 2|A| . Das kartesische Produkt Das kartesische Produkt zweier Mengen A = {a1 , a2 , a3 , . . . , ak } B = {b1 , b2 , b3 , . . . , bm } ist die Menge o n ¯ A × B := (ai , bj ) ¯ i = 1, . . . , k, j = 1, . . . , m besteht also aus allen möglichen Kombinationen, so dass © A × B = (a1 , b1 ), (a1 , b2 ), (a1 , b3 ), . . . , (a1 , bm ), (a2 , b1 ), (a2 , b2 ), (a2 , b3 ), . . . , (a2 , bm ), .. . ª (ak , b1 ), (ak , b2 ), (ak , b3 ), . . . , (ak , bm ) 1.2 1.2.1 Wahrscheinlichkeitsbegriffe Zufallsvorgänge Ein Zufallsvorgang führt zu einem von mehreren, sich gegenseitig ausschließenden Ergebnissen. Zur Beschreibung eines Zufallsvorganges benötigt man a) Einen Ergebnisraum (Grundraum, Stichprobenraum) Ω, der die möglichen Ergebnisse ω enthält. Teilmengen A von Ω bezeichnet man als Ereignisse, Ereignisse sind also bestimmte Mengen von Ergebnissen. Die einelementigen Teilmengen (also die Ergebnisse ω) werden als Elementarereignisse bezeichnet. b) Eine Wahrscheinlichkeitsbewertung, die jedem Ereignis seine Wahrscheinlichkeit zuordnet. 1.2.2 Laplace-Wahrscheinlichkeiten Laplace-Wahrscheinlichkeit: In einem Laplace-Experiment gilt für P (A) mit |A| = M und |Ω| = N : |A| M P (A) = = . |Ω| N Abzählregel: P (A) = Anzahl der für A günstigen Ergebnisse Anzahl aller möglichen Ergebnisse 1. Wahrscheinlichkeitsrechnung 4 Urnenmodell: Ziehen mit Zurücklegen • Grundgesamtheit mit N Zahlen G = {1, . . . , N }. • Ziehe Stichprobe vom Umfang n mit Zurücklegen. • Ω = {(ω1 , . . . , ωn ) : ωj ∈ {1, . . . , N }} • |Ω| = N · . . . · N} = N n , d.h. N n mögliche Stichproben vom Umfang n. | · N {z n-mal Urnenmodell: Ziehen ohne Zurücklegen • Grundgesamtheit mit N Zahlen G = {1, . . . , N }. • Ziehe Stichprobe vom Umfang n ohne Zurücklegen. • Ω = {(ω1 , . . . , ωn ) : ωj ∈ {1, . . . , N }, ωj 6= ωi für i 6= j} • Anzahl der Stichproben: |Ω| = N · (N − 1) · . . . · N − n + 1 = N! (N − n)! Fakultät Die Fakultät einer natürlichen Zahl k ist definiert als k! = k · (k − 1) · (k − 2) · . . . · 2 · 1 wobei 1! = 1, 0! = 1. Urnenmodell: Ziehen ohne Zurücklegen ohne Berücksichtigung der Reihenfolge • Ziehe n Kugeln aus einer Urne mit N nummerierten Kugeln. Die Reihenfolge der Ziehungen spielt keine Rolle. • Ω = {{ω1 , . . . , ωn } : ωj ∈ {1, . . . , N }, ωj 6= ωi für j 6= i} • Anzahl der Stichproben: N! |Ω| = = (N − n)!n! Binomialkoeffizient Der Binomialkoeffizient Es gilt: ¡N ¢ n µ ¶ N n ist definiert als µ ¶ N N! . = (N − n)! · n! n µ ¶ µ ¶ µ ¶ N N N = 1, = N, = 1, 0 1 N µ ¶ N = 0, falls N < n . n 1. Wahrscheinlichkeitsrechnung 1.2.3 5 Das Axiomensystem von Kolmogoroff Definition (Axiome von Kolmogorov, 1933) Eine Funktion P (P steht für Probability), die Ereignissen aus Ω (reelle) Zahlen zuordnet, heißt Wahrscheinlichkeit, wenn gilt (K1) P (A) ≥0 (K2) P (Ω) = 1. für alle Ereignisse A ⊂ Ω. (K3) Falls A ∩ B = ∅, dann gilt P (A ∪ B) = P (A) + P (B) Rechenregeln für Wahrscheinlichkeiten • P (Ā) = 1 − P (A) • Für nicht notwendigerweise disjunkte Mengen A, B gilt P (A ∪ B) = P (A) + P (B) − P (A ∩ B) • Falls A1 , A2 , . . . , An paarweise disjunkt sind, also Ai ∩ Aj = ∅ für i 6= j, dann gilt: Ãn ! [ P Ai = P (A1 ∪ A2 ∪ . . . ∪ An ) i=1 = P (A1 ) + P (A2 ) + . . . + P (An ) Vollständige Zerlegung: Ist A1 , A2 , . . . , An eine vollständige Zerlegung von Ω, d.h. gilt n [ i=1 Ai = Ω und Ai ∩ Aj = ∅ für i 6= j, so gilt für jedes Ereignis B: P (B) = n X i=1 1.2.4 P (B ∩ Ai ) Weitere Wahrscheinlichkeitsbegriffe • Häufigkeitsinterpretation. • Natürliche Häufigkeiten. • Subjektivistisch. 1.3 Stochastische Unabhängigkeit und bedingte Wahrscheinlichkeiten Stochastische Unabhängigkeit: Zwei Ereignisse A und B heißen (stochastisch) unabhängig wenn gilt P (A ∩ B) = P (A) · P (B) 1. Wahrscheinlichkeitsrechnung 6 andernfalls heißen sie stochastisch abhängig. Die (stochastische) Unabhängigkeit ist eine symmetrische Beziehung in dem Sinne, dass A und B genau dann unabhängig sind, wenn B und A unabhängig sind. Genauer gilt die Äquivalenz folgender Aussagen: A A Ā Ā und und und und B B̄ B B̄ sind stochastisch unabhängig ” ” ” Stochastische Unabhängigkeit mehrerer Ereignisse: Ereignisse A1 , A2 , . . . , An heißen (vollständig) stochastisch unabhängig, wenn gilt P (A1 ∩ A2 ∩ . . . ∩ An ) = P (A1 ) · P (A2 ) · . . . · P (An ). Aus der paarweisen Unabhängigkeit P (Ai ∩ Aj ) = P (Ai )P (Aj ) für alle i, j folgt nicht die vollständige Unabhängigkeit. Bedingte Wahrscheinlichkeiten: Gegeben seien zwei Ereignisse A und B mit P (B) > 0. Dann heißt: P (A ∩ B) P (A|B) := P (B) bedingte Wahrscheinlichkeit von A gegeben B oder bedingte Wahrscheinlichkeit von A unter der Bedingung B. Es ergibt sich auch eine analoge Charakterisierung der stochastischen Unabhängigkeit über bedingte Wahrscheinlichkeiten: Sind P (A) und P (B) > 0, so sind äquivalent: i) A und B sind stochastisch unabhängig ii) P (A|B) = P (A) iii) P (B|A) = P (B) iv) P (A|B̄) = P (A) v) P (A|B) = P (A|B̄) usw. Unabhängige Koppelung: Gegeben sei eine Menge von Zufallsexperimenten, beschrieben durch die Ergebnisräume Ωi , i = 1, . . . , n und die Wahrscheinlichkeitsbewertungen Pi , i = 1, . . . , n. Fasst man die Experimente zusammen, so ergibt sich der Ergebnisraum Ω := Ω1 × Ω2 × . . . × Ωn , und die Elemente ω := (ω1 , ω2 , . . . , ωn ) . Sind die Experimente unabhängig, so setzt man für beliebige Ai ⊂ Ωi , i = 1, . . . , n P (A1 ∩ A2 ∩ . . . ∩ An ) = P1 (A1 ) · P2 (A2 ) · . . . · Pn (An ). 1. Wahrscheinlichkeitsrechnung 7 Dies beschreibt ein Wahrscheinlichkeitsmaß auf Ω, bei dem – per Konstruktion – beliebige Ereignisse aus den einzelnen Ωi voneinander unabhängig sind. Satz von der totalen Wahrscheinlichkeit: Gegeben sei eine vollständige Zerlegung A1 , A2 , . . . , Ak . Dann gilt für jedes Ereignis B P (B) = k X j=1 P (B|Aj ) · P (Aj ) = k X j=1 P (B ∩ Aj ). Koppelung abhängiger Experimente: Gegeben seien n Experimente, beschrieben durch die Grundräume Ωi = {ai1 , . . . , aiki } und die Wahrscheinlichkeitsbewertungen Pi , i = 1, . . . , n. Bezeichnet man für beliebiges i = 1, . . . , n und j = 1, . . . , ki , mit Aij jeweils das zu aij gehörige Elementarereignis (also das Ereignis aij tritt ein“), so gilt: ” P (A1j1 ∩ A2j2 ∩ . . . ∩ Anjn ) = P1 (A1j1 ) · P2 (A2j2 |A1j1 ) · P3 (A3j3 |A1j1 ∩ A2j2 ) ¡ ¢ · . . . · Pn Anjn |A1j1 ∩ A2j2 ∩ . . . ∩ An−1jn−1 Häufig werden die Indizes bei P weggelassen. Markovmodelle: Gilt in der Kopplung abhängiger Experiment Ω1 = Ω2 = . . . = Ωn = {a1 , . . . , ak } und sind alle bedingten Wahrscheinlichkeiten nur vom jeweils unmittelbar vorhergehenden Zeitpunkt abhängig, d.h. gilt P (Ai+1,ji+1 |A1j1 ∩ A2j2 ∩ . . . ∩ Aiji ) = P (Ai+1,ji+1 |Aiji ), (1) so spricht man von einem Markovmodell mit den Zuständen a1 , . . . , ak . Sind die sogenannten Übergangswahrscheinlichkeiten in (1) unabhängig von der Zeit, gilt also P (Ai+1,j |Ail ) ≡ pjl für alle i, j, l, so heißt das Markovmodell homogen. Theorem von Bayes: Sei A1 , . . . Ak eine vollständige Zerlegung von Ω (wobei P (Ai ) > 0, P (B|Ai ) > 0, i = 1, . . . k und P (B) > 0 erfüllt seien.) Dann gilt P (Aj |B) = P (B|Aj ) · P (Aj ) k X i=1 1.4 1.4.1 . P (B|Ai ) · P (Ai ) Zufallsvariablen und ihre Verteilung Diskrete Zufallsvariablen Definition: Gegeben seien ein diskreter, d.h. höchstens abzählbarer, Ergebnisraum Ω und die Wahrscheinlichkeit P auf Ω. Jede Abbildung X:Ω ω 7→ 7→ ΩX X(ω) heißt Zufallselement. Setzt man für jede Realisation x ∈ ΩX PX ({x}) := P ({X = x}) := P ({ω|X(ω) = x}) 1. Wahrscheinlichkeitsrechnung 8 so erhält man eine Wahrscheinlichkeit auf ΩX . (Oft wird auch P (X = x) statt P ({X = x}) geschrieben.) Ist ΩX = R, so bezeichnet man das Zufallselement X als Zufallsvariable. Definition: Gegeben sei eine diskrete Zufallsvariable X mit der Wahrscheinlichkeitsverteilung P . Die Menge X := {x ∈ R|P ({x}) > 0} heißt Träger von X. Definition: Die Wahrscheinlichkeitsfunktion f (x) einer diskreten Zufallsvariable X ist für x ∈ R definiert durch ½ P (X = xi ) = pi , x = xi ∈ {x1 , x2 , . . . , xk , . . .} f (x) = 0, sonst. 1.4.2 Verteilungsfunktion Satz: Die Wahrscheinlichkeitsverteilung einer (diskreten) Zufallsvariablen X kann man durch die Verteilungsfunktion F (x) := P (X ≤ x) eineindeutig erklären. Die Wahrscheinlichkeit anderer Ereignisse ergibt sich aus dem dritten Kolmogorovschen Axiom. Es gilt zum Beispiel P (a < X ≤ b) = F (b) − F (a). 1.4.3 Stetige Zufallsvariablen Die Wahrscheinlichkeitsverteilung einer stetigen Zufallsvariablen ist durch die Verteilungsfunktion F (x) = P (X ≤ x) eindeutig festgelegt. Allgemeiner als zuvor gilt hier P (a < X ≤ b) = P (a ≤ X ≤ b) = P (a < X < b) = F (b) − F (a) da P (X = A) = P (X = b) = 0. Definition: Gegeben sei eine stetige Zufallsvariable X mit differenzierbarer Verteilungsfunktion FX (x). Dann heißt die Ableitung von F (x) nach x, also f (x) = Dichte der Zufallsvariablen X. dF (x) dx 1. Wahrscheinlichkeitsrechnung 9 Satz: F (x) = Zx f (u) du −∞ und damit für beliebige reelle Zahlen a und b mit a < b P (a ≤ X ≤ b) = P (a < X ≤ b) = P (a < X < b) = P (a ≤ X < b) Zb = f (x) dx. a 1.4.4 Lebensdauern; Hazardrate und Survivorfunktion Satz: Die Verteilung einer nicht negativen, stetigen Zufallsvariable X wird eineindeutig durch die Überlebensfunktion (Survivorfunktion) S(x) := P (X ≥ x) = 1 − F (x) und durch die Hazardrate P (x ≤ X ≤ x + h|X ≥ x) h→0 h λ(x) := lim beschrieben. Es gelten folgende Zusammenhänge S(x) = exp(− Zx λ(u)du) 0 F (x) = 1 − exp(− Zx λ(u)du) 0 f (x) = λ(x) · S(x) 1.4.5 Unabhängigkeit von Zufallsvariablen Definition: Zwei Zufallsvariablen X und Y mit den Verteilungsfunktionen FX und FY heißen stochastisch unabhängig, falls für alle x und y gilt P ({X ≤ x} ∩ {Y ≤ y}) = P ({X ≤ x}) · P ({Y ≤ y}) = FX (x) · FY (y), andernfalls heißen sie stochastisch abhängig. Für diskrete Zufallsvariablen kann man alternativ fordern, dass P (X = x, Y = y) = P (X = x) · P (Y = y) für alle x und y gilt. 1. Wahrscheinlichkeitsrechnung 1.5 1.5.1 10 Erwartungswert und Varianz Diskrete Zufallsvariablen Definition: Gegeben sei eine diskrete Zufallsvariable X mit Träger X . Dann heißt X E X := E(X) := x · P (X = x) x∈X Erwartungswert von X, Var X := Var(X) := V(X) := E((X − E(X))2 ) X = (x − E(X))2 · P (X = x) x∈X Varianz von X und σX := Standardabweichung von X. p Var(X) Zur Berechnung der Varianz ist der sogenannte Verschiebungssatz sehr praktisch: Var(X) = E(X 2 ) − (E X)2 1.5.2 Stetige Zufallsvariablen Definition: Sei X eine stetige Zufallsvariable mit Dichte f (x). Dann heißt Z ∞ E X := E(X) := x · f (x) dx −∞ Erwartungswert von X, Var X := Var(X) := V(X) := E((X − E(X))2 Z ∞ = (x − E(X))2 · f (x) dx −∞ Varianz von X und σX := Standardabweichung von X. 1.5.3 p Var(X) Allgemeine Rechenregeln für Erwartungswert und Varianz Satz: Seien X und Y diskrete oder stetige Zufallsvariablen (mit existierenden Erwartungswerten und Varianzen). Dann gilt: a) E(aX + bY ) = a · E(X) + b · E(Y ) und insbesondere auch E(a) = a, E(aX) = a · E(X) E(X + Y ) = E(X) + E(Y ) 1. Wahrscheinlichkeitsrechnung 11 b) Var(aX + b) = a2 · Var(X). Sind X und Y zusätzlich unabhängig, so gilt E(X · Y ) = E(X) · E(Y ) Var(X + Y ) = Var(X) + Var(Y ) Definition: Die Zufallsvariable X − E(X) Z := p Var(X) heißt standardisierte Zufallsvariable. Es gilt E(Z) = 0 und Var(Z) = 1. 1.6 Wichtige Verteilungsmodelle 1.6.1 Binomialverteilung Konstruktionsprinzip: • Ein Zufallsexperiment wird n mal unabhängig durchgeführt. • Wir interessieren uns jeweils nur, ob ein bestimmtes Ereignis A eintritt oder nicht. • X = Häufigkeit, mit der Ereignis A bei n unabhängigen Versuchen eintritt“. ” • Träger von X: X = {0, 1, 2, . . . , n}. Definition: Eine Zufallsvariable heißt binomialverteilt mit den Parametern n und π, kurz X ∼ B(n, π), wenn sie die Wahrscheinlichkeitsfunktion (¡ ¢ n π x (1 − π)n−x , x = 0, 1, . . . , n x f (x) = 0, sonst besitzt. Die B(1, π)-Verteilung heißt auch Bernoulliverteilung. Erwartungswert und Varianz: • Zur Berechnung von Erwartungswert und Varianz der Binomialverteilung ist folgende Darstellung hilfreich: X = X1 + . . . + Xn mit den binären Variablen ( 1 falls A beim i-ten Versuch eintritt, Xi = 0 sonst. • Erwartungswert der Binomialverteilung: E(X) = E(X1 + . . . + Xn ) = E(X1 ) + . . . + E(Xn ) = nπ 1. Wahrscheinlichkeitsrechnung 12 • Varianz der Binomialverteilung: Var(X) = Var(X1 + . . . + Xn ) = Var(X1 ) + . . . + Var(Xn ) = nπ(1 − π) 1.6.2 Normalverteilung Definition: Eine stetige Zufallsvariable X heißt normalverteilt mit den Parametern µ und σ 2 , in Zeichen X ∼ N (µ, σ 2 ), wenn für ihre Dichte gilt: µ ¶ 1 1 2 f (x) = √ exp − 2 (x − µ) , x ∈ R (2) 2σ 2π · σ und standardnormalverteilt, in Zeichen X ∼ N (0; 1), falls µ = 0 und σ 2 = 1 gilt. Grundlegende Eigenschaften: a) Die Dichte der Standardnormalverteilung wird oft mit ϕ(x) bezeichnet, also µ ¶ 1 1 2 √ ϕ(x) = exp − x 2 2π und die zugehörige Verteilungsfunktion mit Z x ϕ(u)du Φ(x) = −∞ b) µ und σ 2 sind genau der Erwartungswert und die Varianz, also, wenn X ∼ N µ, σ 2 ), dann E(X) = µ und Var(X) = σ 2 . c) Die Dichte ist symmetrisch um µ, d.h. f (µ − x) = f (µ + x) . Grundlegendes zum Rechnen mit Normalverteilungen: • Es gilt: Φ(−x) = 1 − Φ(x). • Gilt X ∼ N (µ, σ 2 ), so ist die zugehörige standardisierte Zufallsvariable Z= X −µ σ standardnormalverteilt. • Tabelliert sind die Werte der Verteilungsfunktion Φ(z) = P (Z ≤ z) für z ≥ 0. Ablesebeispiel: Φ(1.75) = 0.9599 • Funktionswerte für negative Argumente: Φ(−z) = 1 − Φ(z) 1. Wahrscheinlichkeitsrechnung 1.7 1.7.1 13 Grenzwertsätze und Approximationen Das i.i.d.-Modell Betrachtet werden diskrete oder stetige Zufallsvariablen X1 , . . . , Xn , die i.i.d. (independently, identically distributed) sind, d.h. die 1) unabhängig sind und 2) die gleiche Verteilung besitzen. Ferner sollen der Erwartungswert µ und die Varianz σ 2 existieren. Die Verteilungsfunktion werde mit F bezeichnet. 1.7.2 Das schwache Gesetz der großen Zahlen Theorem von Bernoulli: Seien X1 , . . . , Xn , i.i.d. mit Xi ∈ {0, 1} und P (Xi = 1) = π. Dann gilt für n 1X Hn = Xi n i=1 (relative Häufigkeit der Einsen“) und beliebig kleines ² > 0 ” lim P (|Hn − π| ≤ ²) = 1 n→∞ Schwaches Gesetz der großen Zahl: Gegeben seien X1 , . . . , Xn i.i.d. Zufallsvariablen mit (existierendem) Erwartungswert µ und (existierender) Varianz σ 2 . Dann gilt für n 1X X̄n := Xi n i=1 und beliebiges ² > 0: lim P (|X̄n − µ| ≤ ²) = 1 n→∞ Schreibweise: P X̄n −→ µ ( Stochastische Konvergenz“, X̄n konvergiert in Wahrscheinlichkeit gegen µ“.) ” ” 1.7.3 Der Hauptsatz der Statistik Hauptsatz der Statistik: Seien X1 , . . . , Xn i.i.d. mit Verteilungsfunktion F und sei Fn (x) die empirische Verteilungsfunktion der ersten n Beobachtungen. Mit Dn := sup |Fn (x) − F (x)|, x gilt für jedes c > 0 lim P (Dn > c) = 0. n→∞ 1. Wahrscheinlichkeitsrechnung 1.7.4 14 Der zentrale Grenzwertsatz Zentraler Grenzwertsatz: Seien X1 , . . . , Xn i.i.d. mit E(Xi ) = µ und Var(Xi ) = σ 2 > 0 sowie ¶ n µ 1 X Xi − µ Zn = √ . σ n i=1 a Dann gilt: Zn ist asymptotisch standardnormalverteilt, in Zeichen: Zn ∼ N (0; 1), d.h. es gilt für jedes z lim P (Zn ≤ z) = Φ(z). n→∞ Aus dem zentralen Grenzwertsatz folgt: ¶ µ σ2 . X̄n ∼ N µ, n a Approximation der Binomialverteilung Sei X ∼ B(n, π). Es gilt P (X ≤ x) ≈ Φ Ã falls n groß genug. Stetigkeitskorrektur: p x−n·π n · π(1 − π) ! ! x + 0.5 − nπ P (X ≤ x) ≈ Φ p nπ(1 − π) à ! à ! x + 0.5 − nπ x − 0.5 − nπ P (X = x) ≈ Φ p −Φ p nπ(1 − π) nπ(1 − π) 1.8 à Mehrdimensionale Zufallsvariablen Definition: Betrachtet werden zwei eindimensionale Zufallselemente X und Y (zu demselben Zufallsexperiment). Die Wahrscheinlichkeit P (X = xi , Y = yj ) := P ({X = xi } ∩ {Y = yj }) in Abhängigkeit ¡X ¢ von xi und yj heißt gemeinsame Verteilung der mehrdimensionalen Zufallsvariable Y und der Variablen X und Y . Randwahrscheinlichkeiten: pi· = P (X = xi ) = m X P (X = xi , Y = yj ) j=1 p·j = P (Y = yj ) = k X i=1 P (X = xi , Y = yj ) 1. Wahrscheinlichkeitsrechnung 15 Bedingte Verteilungen: P (X = xi , Y = yj ) P (Y = yj ) P (X = xi , Y = yj ) P (Y = yj |X = xi ) = P (X = xi ) P (X = xi |Y = yj ) = Definition: Seien X und Y zwei Zufallsvariablen. Dann heißt σX,Y := Cov(X, Y ) = E((X − E(X))(Y − E(Y ))) Kovarianz von X und Y . Rechenregeln: • Cov(X, X) = Var(X) • Cov(X, Y ) = E(XY ) − E(X) · E(Y ) • Cov(X, Y ) = Cov(Y, X) • Mit X̃ = aX X + bX und Ỹ = aY Y + bY ist Cov(X̃, Ỹ ) = aX · aY · Cov(X, Y ) • Var(X + Y ) = Var(X) + Var(Y ) + 2 · Cov(X, Y ) Definition: Zwei Zufallsvariablen X und Y mit Cov(X, Y ) = 0 heißen unkorreliert. Satz: Stochastisch unabhängige Zufallsvariablen sind unkorreliert. Die Umkehrung gilt jedoch im allgemeinen nicht. Definition: Gegeben seien zwei Zufallsvariablen X und Y . Dann heißt Cov(X, Y ) p Var(X) Var(Y ) ρ(X, Y ) = p Korrelationskoeffizient von X und Y . Eigenschaften des Korrelationskoeffizienten: • Mit X̃ = aX X + bX und Ỹ = aY Y + bY ist |ρ(X̃, Ỹ )| = |ρ(X, Y )|. • −1 ≤ ρ(X, Y ) ≤ 1. • |ρ(X, Y )| = 1 ⇐⇒ Y = aX + b • Sind Var(X) > 0 und Var(Y ) > 0, so gilt ρ(X, Y ) = 0 genau dann, wenn Cov(X, Y ) = 0. 2. Induktive Statistik 2 16 Induktive Statistik 2.1 Grundprinzipien der induktiven Statistik 2.2 Punkschätzung 2.2.1 Schätzfunktionen Definition: Sei X1 , . . . , Xn i.i.d. Stichprobe. Eine Funktion T = g(X1 , . . . , Xn ) heißt Schätzer oder Schätzfunktion. Andere Notation in der Literatur: ϑ̂ Schätzer für ϑ. 2.2.2 Gütekriterien Erwartungstreue, Bias: Gegeben sei eine Stichprobe X1 , . . . , Xn und eine Schätzfunktion T = g(X1 , . . . , Xn ) (mit existierendem Erwartungswert). • T heißt erwartungstreu für den Parameter ϑ, falls gilt Eϑ (T ) = ϑ für alle ϑ. • Die Größe Biasϑ (T ) = Eϑ (T ) − ϑ heißt Bias (oder Verzerrung) der Schätzfunktion. Erwartungstreue Schätzfunktionen haben per Definition einen Bias von 0. Asymptotische Erwartungstreue Eine Schätzfunktion heißt asymptotisch erwartungstreu, falls lim E(θ̂) = θ. n→∞ bzw. lim Bias(θ̂) = 0. n→∞ gelten. 2.2.3 Effizienz Effizienz: 2. Induktive Statistik 17 • Gegeben seien zwei erwartungstreue Schätzfunktionen T1 und T2 für einen Parameter ϑ. Gilt Varϑ (T1 ) ≤ Varϑ (T2 ) für alle ϑ und Varϑ∗ (T1 ) < Varϑ∗ (T2 ) für mindestens ein ϑ∗ so heißt T1 effizienter als T2 . • Eine für ϑ erwartungstreue Schätzfunktion T heißt UMVU-Schätzfunktion für ϑ (uniformly minimum v ariance unbiased), falls Varϑ (T ) ≤ Varϑ (T ∗ ) für alle ϑ und für alle erwartungstreuen Schätzfunktionen T ∗ . Bei nicht erwartungstreuen Schätzfunktionen zieht man den sogenannten Mean Squared Error MSEϑ (T ) := Eϑ (T − ϑ)2 zur Beurteilung heran. Es gilt MSEϑ (T ) = Varϑ (T ) + (Biasϑ (T ))2 . Konsistenz Ein Schätzer heißt MSE-konsistent, wenn gilt lim (MSE(T )) = 0. n→∞ Ein Schätzer heißt konsistent, wenn gilt lim (Var(T )) = 0. n→∞ 2.2.4 Konstruktionsprinzipien guter Schätzer Die Methode der kleinsten Quadrate Das Maximum-Likelihood-Prinzip Gegeben sei die Realisation x1 , . . . , xn einer i.i.d. Stichprobe. Die Funktion in ϑ Y n Pϑ (Xi = xi ) falls Xi diskret L(ϑ) = i=1 n Y fϑ (xi ) falls Xi stetig. i=1 heißt Likelihood des Parameters ϑ bei der Beobachtung x1 , . . . , xn . Derjenige Wert ϑ̂ = ϑ̂(x1 , . . . , xn ), der L(ϑ) maximiert, heißt Maximum-Likelihood-Schätzwert; die zugehörige Schätzfunktion T (X1 , . . . , Xn ) Maximum-Likelihood-Schätzer. 2. Induktive Statistik 18 Für die praktische Berechnung maximiert man statt der Likelihood typischerweise die Log-Likelihood l(ϑ) = ln(L(ϑ)) = ln n Y Pϑ (Xi = xi ) = i=1 bzw. l(ϑ) = ln n Y n X ln Pϑ (Xi = xi ) i=1 fϑ (xi ) = i=1 n X ln fϑ (xi ). i=1 Einige allgemeine Eigenschaften von ML-Schätzern • ML-Schätzer θ̂ sind im Allgemeinen nicht erwartungstreu. • ML-Schätzer θ̂ sind asymptotisch erwartungstreu. • ML-Schätzer θ̂ sind konsistent. 2.3 Intervallschätzung 2.3.1 Motivation und Hinführung 2.3.2 Definition von Konfidenzintervallen Gegeben sei eine i.i.d. Stichprobe X1 , . . . , Xn zur Schätzung eines Parameters ϑ und eine Zahl γ ∈ (0; 1). Ein zufälliges Intervall C(X1 , . . . , Xn ) heißt Konfidenzintervall zum Sicherheitsgrad γ (Konfidenzniveau γ), falls für jedes ϑ gilt: Pϑ (ϑ ∈ 2.3.3 C(X1 , . . . , Xn ) ) ≥ γ. {z } | zufälliges Intervall Konstruktion von Konfidenzintervallen Für die Konstruktion praktische Vorgehensweise: Suche Zufallsvariable Z, die • den gesuchten Parameter ϑ enthält und • deren Verteilung aber nicht mehr von dem Parameter abhängt, ( Pivotgröße“, dt. ” Angelpunkt). • Dann wähle den Bereich CZ so, dass Pϑ (Z ∈ CZ ) = γ und • löse nach ϑ auf. Konfidenzintervall für den Mittelwert eines normalverteilten Merkmals bei bekannter Varianz: · z 1+γ · σ ¸ · z 1+γ · σ ¸ z 1+γ · σ 2 2 2 , X̄ + √ = X̄ ± √ X̄ − √ n n n 2. Induktive Statistik 19 Konfidenzintervall für den Mittelwert eines normalverteilten Merkmals bei unbekannter Varianz: " # t 1+γ (n − 1) · S X̄ ± 2 √ n t-Verteilung: Gegeben sei eine i.i.d. Stichprobe X1 , . . . , Xn mit Xi ∼ N (µ, σ 2 ). Dann heißt die Verteilung von X̄ − µ √ Z= · n S t-Verteilung (oder Student-Verteilung) mit ν = n − 1 Freiheitsgraden. In Zeichen: Z ∼ t(ν). Approximative Konfidenzintervalle: Ist der Stichprobenumfang groß genug, so kann wegen des zentralen Grenzwertsatzes das Normalverteilungs-Konfidenzintervall auf den Erwartungswert beliebiger Merkmale (mit existierender Varianz) angewendet werden und man erhält approximative Konfidenzintervalle. Konfidenzintervall für den Anteil π: Seien X1 , . . . , Xn i.i.d. mit ( 1 Xi = , P (Xi = 1) = π. 0 Dann gilt approximativ für großes n X̄ − π q ∼ N (0, 1) π·(1−π) n und damit das Konfidenzintervall " X̄ ± z 1+γ · 2 r X̄(1 − X̄) n # 2. Induktive Statistik 29 Verteilungstabellen Standardnormalverteilung Tabelliert sind die Werte der Verteilungsfunktion Φ(z) = P (Z ≤ z) für z ≥ 0. Ablesebeispiel: Φ(1.75) = 0.9599 Funktionswerte für negative Argumente: Φ(−z) = 1 − Φ(z) Die z-Quantile ergeben sich über die Umkehrfunktion. Beispielsweise ist z0.9599 = 1.75 und z0.9750 = 1.96. 0.00 0.01 0.02 0.03 0.04 0.05 0.06 0.07 0.08 0.0 0.5000 0.5040 0.5080 0.5120 0.5160 0.5199 0.5239 0.5279 0.5319 0.1 0.5398 0.5438 0.5478 0.5517 0.5557 0.5596 0.5636 0.5675 0.5714 0.2 0.5793 0.5832 0.5871 0.5910 0.5948 0.5987 0.6026 0.6064 0.6103 0.3 0.6179 0.6217 0.6255 0.6293 0.6331 0.6368 0.6406 0.6443 0.6480 0.4 0.6554 0.6591 0.6628 0.6664 0.6700 0.6736 0.6772 0.6808 0.6844 0.5 0.6915 0.6950 0.6985 0.7019 0.7054 0.7088 0.7123 0.7157 0.7190 0.6 0.7257 0.7291 0.7324 0.7357 0.7389 0.7422 0.7454 0.7486 0.7517 0.7 0.7580 0.7611 0.7642 0.7673 0.7704 0.7734 0.7764 0.7794 0.7823 0.8 0.7881 0.7910 0.7939 0.7967 0.7995 0.8023 0.8051 0.8078 0.8106 0.9 0.8159 0.8186 0.8212 0.8238 0.8264 0.8289 0.8315 0.8340 0.8365 1.0 0.8413 0.8438 0.8461 0.8485 0.8508 0.8531 0.8554 0.8577 0.8599 1.1 0.8643 0.8665 0.8686 0.8708 0.8729 0.8749 0.8770 0.8790 0.8810 1.2 0.8849 0.8869 0.8888 0.8907 0.8925 0.8944 0.8962 0.8980 0.8997 1.3 0.9032 0.9049 0.9066 0.9082 0.9099 0.9115 0.9131 0.9147 0.9162 1.4 0.9192 0.9207 0.9222 0.9236 0.9251 0.9265 0.9279 0.9292 0.9306 1.5 0.9332 0.9345 0.9357 0.9370 0.9382 0.9394 0.9406 0.9418 0.9429 1.6 0.9452 0.9463 0.9474 0.9484 0.9495 0.9505 0.9515 0.9525 0.9535 1.7 0.9554 0.9564 0.9573 0.9582 0.9591 0.9599 0.9608 0.9616 0.9625 1.8 0.9641 0.9649 0.9656 0.9664 0.9671 0.9678 0.9686 0.9693 0.9699 1.9 0.9713 0.9719 0.9726 0.9732 0.9738 0.9744 0.9750 0.9756 0.9761 2.0 0.9772 0.9778 0.9783 0.9788 0.9793 0.9798 0.9803 0.9808 0.9812 2.1 0.9821 0.9826 0.9830 0.9834 0.9838 0.9842 0.9846 0.9850 0.9854 2.2 0.9861 0.9864 0.9868 0.9871 0.9875 0.9878 0.9881 0.9884 0.9887 2.3 0.9893 0.9896 0.9898 0.9901 0.9904 0.9906 0.9909 0.9911 0.9913 2.4 0.9918 0.9920 0.9922 0.9925 0.9927 0.9929 0.9931 0.9932 0.9934 2.5 0.9938 0.9940 0.9941 0.9943 0.9945 0.9946 0.9948 0.9949 0.9951 2.6 0.9953 0.9955 0.9956 0.9957 0.9959 0.9960 0.9961 0.9962 0.9963 2.7 0.9965 0.9966 0.9967 0.9968 0.9969 0.9970 0.9971 0.9972 0.9973 2.8 0.9974 0.9975 0.9976 0.9977 0.9977 0.9978 0.9979 0.9979 0.9980 2.9 0.9981 0.9982 0.9982 0.9983 0.9984 0.9984 0.9985 0.9985 0.9986 3.0 0.9987 0.9987 0.9987 0.9988 0.9988 0.9989 0.9989 0.9989 0.9990 3.1 0.9990 0.9991 0.9991 0.9991 0.9992 0.9992 0.9992 0.9992 0.9993 3.2 0.9993 0.9993 0.9994 0.9994 0.9994 0.9994 0.9994 0.9995 0.9995 3.3 0.9995 0.9995 0.9995 0.9996 0.9996 0.9996 0.9996 0.9996 0.9996 3.4 0.9997 0.9997 0.9997 0.9997 0.9997 0.9997 0.9997 0.9997 0.9997 3.5 0.9998 0.9998 0.9998 0.9998 0.9998 0.9998 0.9998 0.9998 0.9998 0.09 0.5359 0.5753 0.6141 0.6517 0.6879 0.7224 0.7549 0.7852 0.8133 0.8389 0.8621 0.8830 0.9015 0.9177 0.9319 0.9441 0.9545 0.9633 0.9706 0.9767 0.9817 0.9857 0.9890 0.9916 0.9936 0.9952 0.9964 0.9974 0.9981 0.9986 0.9990 0.9993 0.9995 0.9997 0.9998 0.9998 2. Induktive Statistik 30 Students t-Verteilung Tabelliert sind die Quantile für n Freiheitsgrade. Für das Quantil t1−α (n) gilt F (t1−α (n)) = 1 − α. Links vom Quantil t1−α (n) liegt die Wahrscheinlichkeitsmasse 1 − α. Ablesebeispiel: t0.99 (20) = 2.528 Die Quantile für 0 < 1 − α < 0.5 erhält man aus tα (n) = −t1−α (n) Approximation für n > 30: tα (n) ≈ zα (zα ist das (α)-Quantil der Standardnormalverteilung) n 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 0.6 0.3249 0.2887 0.2767 0.2707 0.2672 0.2648 0.2632 0.2619 0.2610 0.2602 0.2596 0.2590 0.2586 0.2582 0.2579 0.2576 0.2573 0.2571 0.2569 0.2567 0.2566 0.2564 0.2563 0.2562 0.2561 0.2560 0.2559 0.2558 0.2557 0.2556 0.8 1.3764 1.0607 0.9785 0.9410 0.9195 0.9057 0.8960 0.8889 0.8834 0.8791 0.8755 0.8726 0.8702 0.8681 0.8662 0.8647 0.8633 0.8620 0.8610 0.8600 0.8591 0.8583 0.8575 0.8569 0.8562 0.8557 0.8551 0.8546 0.8542 0.8538 0.9 3.0777 1.8856 1.6377 1.5332 1.4759 1.4398 1.4149 1.3968 1.3830 1.3722 1.3634 1.3562 1.3502 1.3450 1.3406 1.3368 1.3334 1.3304 1.3277 1.3253 1.3232 1.3212 1.3195 1.3178 1.3163 1.3150 1.3137 1.3125 1.3114 1.3104 0.95 6.3138 2.9200 2.3534 2.1318 2.0150 1.9432 1.8946 1.8595 1.8331 1.8125 1.7959 1.7823 1.7709 1.7613 1.7531 1.7459 1.7396 1.7341 1.7291 1.7247 1.7207 1.7171 1.7139 1.7109 1.7081 1.7056 1.7033 1.7011 1.6991 1.6973 0.975 12.706 4.3027 3.1824 2.7764 2.5706 2.4469 2.3646 2.3060 2.2622 2.2281 2.2010 2.1788 2.1604 2.1448 2.1314 2.1199 2.1098 2.1009 2.0930 2.0860 2.0796 2.0739 2.0687 2.0639 2.0595 2.0555 2.0518 2.0484 2.0452 2.0423 0.99 31.821 6.9646 4.5407 3.7469 3.3649 3.1427 2.9980 2.8965 2.8214 2.7638 2.7181 2.6810 2.6503 2.6245 2.6025 2.5835 2.5669 2.5524 2.5395 2.5280 2.5176 2.5083 2.4999 2.4922 2.4851 2.4786 2.4727 2.4671 2.4620 2.4573 0.995 63.657 9.9248 5.8409 4.6041 4.0321 3.7074 3.4995 3.3554 3.2498 3.1693 3.1058 3.0545 3.0123 2.9768 2.9467 2.9208 2.8982 2.8784 2.8609 2.8453 2.8314 2.8188 2.8073 2.7969 2.7874 2.7787 2.7707 2.7633 2.7564 2.7500 0.999 318.31 22.327 10.215 7.1732 5.8934 5.2076 4.7853 4.5008 4.2968 4.1437 4.0247 3.9296 3.8520 3.7874 3.7328 3.6862 3.6458 3.6105 3.5794 3.5518 3.5272 3.5050 3.4850 3.4668 3.4502 3.4350 3.4210 3.4082 3.3962 3.3852 0.9995 636.62 31.599 12.924 8.6103 6.8688 5.9588 5.4079 5.0413 4.7809 4.5869 4.4370 4.3178 4.2208 4.1405 4.0728 4.0150 3.9651 3.9216 3.8834 3.8495 3.8193 3.7921 3.7676 3.7454 3.7251 3.7066 3.6896 3.6739 3.6594 3.6460 ∞ 0.2533 0.8416 1.2816 1.6449 1.9600 2.3263 2.5758 3.0903 3.2906 2. Induktive Statistik 31 χ2-Verteilung Tabelliert sind die Quantile für n Freiheitsgrade. Für das Quantil χ21−α,n gilt F (χ21−α,n ) = 1 − α . Links vom Quantil χ21−α,n liegt die Wahrscheinlichkeitsmasse 1 − α. Ablesebeispiel: χ20.95,10 = 18.307 Approximation für n > 30: √ 1 χ2α (n) ≈ (zα + 2n − 1)2 2 n 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 0.01 0.0002 0.0201 0.1148 0.2971 0.5543 0.8721 1.2390 1.6465 2.0879 2.5582 3.0535 3.5706 4.1069 4.6604 5.2293 5.8122 6.4078 7.0149 7.6327 8.2604 8.8972 9.5425 10.196 10.856 11.524 12.198 12.879 13.565 14.256 14.953 0.025 0.0010 0.0506 0.2158 0.4844 0.8312 1.2373 1.6899 2.1797 2.7004 3.2470 3.8157 4.4038 5.0088 5.6287 6.2621 6.9077 7.5642 8.2307 8.9065 9.5908 10.283 10.982 11.689 12.401 13.120 13.844 14.573 15.308 16.047 16.791 (zα ist das 1 − α-Quantil der Standardnormalverteilung) 0.05 0.0039 0.1026 0.3518 0.7107 1.1455 1.6354 2.1674 2.7326 3.3251 3.9403 4.5748 5.2260 5.8919 6.5706 7.2609 7.9616 8.6718 9.3905 10.117 10.851 11.591 12.338 13.091 13.848 14.611 15.379 16.151 16.928 17.708 18.493 0.1 0.0158 0.2107 0.5844 1.0636 1.6103 2.2041 2.8331 3.4895 4.1682 4.8652 5.5778 6.3038 7.0415 7.7895 8.5468 9.3122 10.085 10.865 11.651 12.443 13.240 14.041 14.848 15.659 16.473 17.292 18.114 18.939 19.768 20.599 0.5 0.4549 1.3863 2.3660 3.3567 4.3515 5.3481 6.3458 7.3441 8.3428 9.3418 10.341 11.340 12.340 13.339 14.339 15.338 16.338 17.338 18.338 19.337 20.337 21.337 22.337 23.337 24.337 25.336 26.336 27.336 28.336 29.336 0.9 2.7055 4.6052 6.2514 7.7794 9.2364 10.645 12.017 13.362 14.684 15.987 17.275 18.549 19.812 21.064 22.307 23.542 24.769 25.989 27.204 28.412 29.615 30.813 32.007 33.196 34.382 35.563 36.741 37.916 39.087 40.256 0.95 3.8415 5.9915 7.8147 9.4877 11.070 12.592 14.067 15.507 16.919 18.307 19.675 21.026 22.362 23.685 24.996 26.296 27.587 28.869 30.144 31.410 32.671 33.924 35.172 36.415 37.652 38.885 40.113 41.337 42.557 43.773 0.975 5.0239 7.3778 9.3484 11.143 12.833 14.449 16.013 17.535 19.023 20.483 21.920 23.337 24.736 26.119 27.488 28.845 30.191 31.526 32.852 34.170 35.479 36.781 38.076 39.364 40.646 41.923 43.195 44.461 45.722 46.979 0.99 6.6349 9.2103 11.345 13.277 15.086 16.812 18.475 20.090 21.666 23.209 24.725 26.217 27.688 29.141 30.578 32.000 33.409 34.805 36.191 37.566 38.932 40.289 41.638 42.980 44.314 45.642 46.963 48.278 49.588 50.892