Statistik für SozialwissenschaftlerInnen II Henning Best [email protected] Universität zu Köln Forschungsinstitut für Soziologie Statistik für SozialwissenschaftlerInnen II – p.1 Wahrscheinlichkeitsfunktionen und theoretische Verteilungen Statistik für SozialwissenschaftlerInnen II – p.61 Zufallsvariablen • Ergebnis von Zufallsexperimenten: Zufallsvariable • Ausprägung der Zufallsvariable: Realisation des Experimentes • Zusammensetzung der Stichprobe und Realisationen hängen von Zufall ab • Frage: Mit welcher Wahrscheinlichkeit treten einzelne Realisationen einer Zufallsvariablen auf? Statistik für SozialwissenschaftlerInnen II – p.62 Diskrete und stetige Variablen • Diskrete Variable: Endlicher / Abzählbarer Ereignisraum (Bsp: Einkommen, Wüfeln) Als endlich wird ein Ereignisraum bezeichnet, wenn man jedem einzelnen Ereignis eine natürliche Zahl zuordnen kann. Selbst, wenn die Ereignisse unendlich groß werden können (Einkommen, Anzahl der Planeten im Universum) • Stetige Variable: Nicht abzählbar, kann im Bereich der reellen Zahlen (oder einem Teilbereich) jeden beliebigen Zahlenwert annehmen (Beispiel: Alter, Größe, etc.) Auch wenn diese Variablen in der Praxis diskret gemessen werden, sind sie konzeptionell stetig – man wird beispielsweise keinen Menschen finden können, der exakt zum gleichen Zeitpunkt geboren ist wie man selbst. Statistik für SozialwissenschaftlerInnen II – p.63 Diskrete Wahrscheinlichkeitsfunktion • Gibt Auskunft über die Wahrscheinlichkeit des Auftretens jeder Ausprägung einer diskreten Zufallsvariablen: f (xi ) = p(X = xi ) • Für jede Wahrscheinlichkeitsfunktion gilt: X f (xi ) ≥ 0 und f (xi ) = 1 i • Die Wahrscheinlichkeitsfunktion kann auch angeben, wie groß die Wahrscheinlichkeit ist, dass die Variable einen Wert aus dem Intervall [a, b] annimmt: p(a ≤ X ≤ b) = b X i=a p(X = x1 ) = b X f (xi ) i=a Statistik für SozialwissenschaftlerInnen II – p.64 Beispiel: Diskrete Whkt-funktion Beispiel: Wie lautet die Wahrscheinlichkeitsfunktion der Zufallsvariablen X : Auftreten von Wappen“ bei dreimaligem ” Münzwurf? xi ei p(ei ) p(X = xi ) = f (xi ) x1 = 0 e1 = (Z, Z, Z) p(e1 ) = 0, 125 f (x1 ) = 0, 125 x2 = 1 e2 = (Z, Z, W ) p(e2 ) = 0, 125 f (x2 ) = 0, 375 e3 = (Z, W, Z) p(e3 ) = 0, 125 e4 = (W, Z, Z) p(e4 ) = 0, 125 e5 = (Z, W, W ) p(e5 ) = 0, 125 e6 = (W, Z, W ) p(e6 ) = 0, 125 e7 = (W, W, Z) p(e7 ) = 0, 125 e8 = (W, W, W ) p(e8 ) = 0, 125 x3 = 2 x4 = 3 f (x3 ) = 0, 375 f (x4 ) = 0, 125 Statistik für SozialwissenschaftlerInnen II – p.65 Beispiel: Diskrete Whkt-funktion für xi = 1 für xi = 2 für xi = 3 sonst 0.125 0.250 für xi = 0 0.000 f(x) 0.375 0, 125 0, 375 f (X) = 0, 375 0, 125 0 0 1 2 3 Anzahl der Wappen Statistik für SozialwissenschaftlerInnen II – p.66 Diskrete Verteilungsfunktion • Die Verteilungsfunktion gibt die Wahrscheinlichkeit an, dass die Zufallsvariable X höchstens den Wert xi annnimmt • Sie ist die Kumulation der Wahrscheinlichkeitsfunktion: X F (X) = p(X ≤ xi ) = f (xi ) xi ≤X • Beispiel: Anzahl Wappen“ bei 3-maligem Münzwurf: ” xi F (X) = p(X ≤ xi ) 0 0,125 1 0,500 2 0,875 3 1,000 Statistik für SozialwissenschaftlerInnen II – p.67 Beispiel: Diskrete Vtl-Funktion 0.625 0.500 0.375 0.250 0.125 F(x) 0.750 0.875 1.000 Grafische Darstellung der Verteilungsfunktion von X 0 1 2 3 Anzahl der Wappen Statistik für SozialwissenschaftlerInnen II – p.68 (Wahrscheinlichkeits-)Dichtefunktion Die Funktion f (X) wird bei stetigen Variablen nicht als Wahrscheinlichkeitsfunktion, sondern als Dichtefunktion bezeichnet. • Bei stetigen Zufallsvariablen besteht der Ereignisraum aus unendlich vielen Elemantarereignissen, die Wahrscheinlichkeit eines einzelnen Ereignisses ist gleich 0 • Wahrscheinlichkeiten stetiger Variablen werden daher immer für ein Intervall ∆X berechnet. Es gilt: Z +∞ f (X)dX = 1 −∞ p(a < X < b) = Z b f (X)dX a Statistik für SozialwissenschaftlerInnen II – p.69 Beispiel: Stetige Funktionen Die stetige Zufallsvariable X sei die Verspätung der Straßenbahn an der Haltestelle Universität“ (in Minuten) und ” habe folgende Dichtefunktion: f (x) = 0, 5 − 0, 125x für 0 ≤ x ≤ 4 0.5 1 f(x) F(x) 0.45 0.4 0.8 0.35 0.3 0.6 0.25 0.2 0.4 0.15 0.1 0.2 0.05 0 0 0 0.5 1 1.5 2 2.5 3 3.5 (a) Dichtefunktion f (x) 4 0 0.5 1 1.5 2 2.5 3 3.5 4 (b) Verteilungsfunktion F (x) Statistik für SozialwissenschaftlerInnen II – p.70 Beispiel: Stetige Funktionen Will man nun berechnen, wie groß z.B. die Wahrscheinlichkeit ist, dass die Straßenbahn zwischen einer und zwei Minuten Verspätung hat, muss man die Dichtefunktion integrieren und die Integralsgrenzen auf 1 und 2 setzen: Z 2 p(1 < X < 2) = f (x)dx 1 = Z · 2 1 (0, 5 − 0, 125x)dx ¸2 0, 125 2 = 0, 5x − x 2 1 = 0, 75 − 0, 4375 = 0, 3125 Statistik für SozialwissenschaftlerInnen II – p.71 Erwartungswert & Varianz (diskret) Im Gegensatz empirischen Verteilungen, bei denen Mittelwert und Varianz mit x̄ und s2 bezeichnet, spricht man bei Zufallsvariablen von µ (Erwartungswert) und σ 2 (Varianz). Berechnung bei diskreten Zufallsvariablen: µ = N X xi pi N X pi ∗ (xi − µ)2 i=1 σ2 = i=1 Statistik für SozialwissenschaftlerInnen II – p.72 Erwartungswert & Varianz (stetig) Da stetige Zufallsvariablen nicht wie diskrete Variablen aufsummiert werden können, werden µ und σ 2 hier anders berechnet: µ = σ2 = Z +∞ −∞ Z +∞ −∞ x ∗ f (x)dx (x − µ)2 ∗ f (x)dx Statistik für SozialwissenschaftlerInnen II – p.73 Theoretische Verteilungen • Bilden eine wichtige Grundlage der schließenden Statistik • Wichtige Verteilungen: • Binomialverteilung (diskret) • Normalverteilung (stetig) • χ2 , T- und F-Verteilung Statistik für SozialwissenschaftlerInnen II – p.74 Binomialverteilung • Wahrscheinlichkeitsverteilung der Häufigkeit eines binären Merkmals bei einfacher Zufallsauswahl mit zurücklegen • Beispiel: Werfen einer Münze • Allgemeine mathematische Darstellung dieser Experimente • Parameter: Zahl der Versuche, Eintrittswahrscheinlichkeit Statistik für SozialwissenschaftlerInnen II – p.75 Binomialverteilung Wahrscheinlichkeitsfunktion: µ ¶ n ∗pk ∗q n−k f (X = k|n) = k Verteilungsfunktion: F (X ≤ k|n) = k µ ¶ X n j=0 j ∗pj ∗q n−j mit n= Zahl der Versuche, k=Eintrittshäufigkeit p=Eintrittswahrscheinlichkeit q=Gegenwahrscheinlichkeit Statistik für SozialwissenschaftlerInnen II – p.76 Normalverteilung Die Normalverteilung ist die wichtigste theoretische Verteilung in der sozialwissenschaftlichen Statistik • Normalverteilung als empirische Verteilung • N. als Verteilungsmodell für statistische Kennwerte • N. als mathematische Basisverteilung • N. in der statistischen Fehlertheorie Statistik für SozialwissenschaftlerInnen II – p.77 Normalverteilung • • • • • Stetige Verteilung Glockenförmiger Verlauf (Eingipflig) Symmetrisch Erwartungswert, Median und Modalwert fallen zusammen Verteilung nähert sich asymptotisch der X-Achse Statistik für SozialwissenschaftlerInnen II – p.78 Normalverteilung Verlauf der Normalverteilung wird bestimmt durch • Erwartungswert µ Varianz σ 2 Wahrscheinlichkeitsdichtefunktion: • 1 f (x) = √ ∗e 2 2πσ −(x−µ)2 2σ 2 mit π ≈ 3, 14 e ≈ 2, 72 Statistik für SozialwissenschaftlerInnen II – p.79 Standardnormalverteilung • • • • • Besondere Normalverteilung: Standardnormalverteilung Parameter: µ = 0, σ = 1 Flächenanteile unter der Standardnormalverteilung liegen in Tabellenform vor Alle Normalverteilungen sind durch eine Z-Transformation in eine Standardnornalverteilung zu überführen: xi − µ zi = σ Die Dichtefunktion vereinfacht sich durch µ = 0 und σ = 1 zu: −z 2 1 f (z) = √ ∗ e 2 2π Statistik für SozialwissenschaftlerInnen II – p.80 Standardnormalverteilung: Flächenanteile Die Flächenanteile dienen zur Bestimmung von Wahrscheinlichkeiten von normalverteilten Zufallsvariablen: • −1 bis +1: 68,27% • −1, 96 bis +1, 96: 95% • −2 bis +2: 95,45% • −3 bis +3: 99,73% Statistik für SozialwissenschaftlerInnen II – p.81 t-Verteilung • Parameter: Freiheitsgrade ν • nähert sich mit ν ≥ 30 der Normalverteilung an • wichtig für Konfidenzintervalle / Mittelwertstests bei kleinen Stichproben Statistik für SozialwissenschaftlerInnen II – p.82 2 Chi -Verteilung • Parameter: Freiheitsgrade ν • nähert sich mit großem ν langsam der Normalverteilung an • wichtig für χ2 -Tests, Konfidenzintervalle von Varianzen Statistik für SozialwissenschaftlerInnen II – p.83 F-Verteilung • Parameter: Zähler-Freiheitsgrade, Nenner-Freiheitsgrade • Wichtig für varianzanalytische Methoden / Varianzverhältnisse Statistik für SozialwissenschaftlerInnen II – p.84