Statistik für SozialwissenschaftlerInnen II

Werbung
Statistik für
SozialwissenschaftlerInnen II
Henning Best
[email protected]
Universität zu Köln
Forschungsinstitut für Soziologie
Statistik für SozialwissenschaftlerInnen II – p.1
Wahrscheinlichkeitsfunktionen
und theoretische Verteilungen
Statistik für SozialwissenschaftlerInnen II – p.61
Zufallsvariablen
•
Ergebnis von Zufallsexperimenten: Zufallsvariable
• Ausprägung der Zufallsvariable: Realisation des
Experimentes
• Zusammensetzung der Stichprobe und Realisationen
hängen von Zufall ab
• Frage: Mit welcher Wahrscheinlichkeit treten einzelne
Realisationen einer Zufallsvariablen auf?
Statistik für SozialwissenschaftlerInnen II – p.62
Diskrete und stetige Variablen
•
Diskrete Variable: Endlicher / Abzählbarer Ereignisraum
(Bsp: Einkommen, Wüfeln)
Als endlich wird ein Ereignisraum bezeichnet, wenn man
jedem einzelnen Ereignis eine natürliche Zahl zuordnen
kann. Selbst, wenn die Ereignisse unendlich groß werden
können (Einkommen, Anzahl der Planeten im
Universum)
• Stetige Variable: Nicht abzählbar, kann im Bereich der
reellen Zahlen (oder einem Teilbereich) jeden beliebigen
Zahlenwert annehmen (Beispiel: Alter, Größe, etc.)
Auch wenn diese Variablen in der Praxis diskret
gemessen werden, sind sie konzeptionell stetig – man
wird beispielsweise keinen Menschen finden können, der
exakt zum gleichen Zeitpunkt geboren ist wie man
selbst.
Statistik für SozialwissenschaftlerInnen II – p.63
Diskrete Wahrscheinlichkeitsfunktion
•
Gibt Auskunft über die Wahrscheinlichkeit des Auftretens
jeder Ausprägung einer diskreten Zufallsvariablen:
f (xi ) = p(X = xi )
•
Für jede Wahrscheinlichkeitsfunktion gilt:
X
f (xi ) ≥ 0 und
f (xi ) = 1
i
•
Die Wahrscheinlichkeitsfunktion kann auch angeben, wie
groß die Wahrscheinlichkeit ist, dass die Variable einen
Wert aus dem Intervall [a, b] annimmt:
p(a ≤ X ≤ b) =
b
X
i=a
p(X = x1 ) =
b
X
f (xi )
i=a
Statistik für SozialwissenschaftlerInnen II – p.64
Beispiel: Diskrete Whkt-funktion
Beispiel: Wie lautet die Wahrscheinlichkeitsfunktion der
Zufallsvariablen X : Auftreten von Wappen“ bei dreimaligem
”
Münzwurf?
xi
ei
p(ei )
p(X = xi ) = f (xi )
x1 = 0
e1 = (Z, Z, Z)
p(e1 ) = 0, 125
f (x1 ) = 0, 125
x2 = 1
e2 = (Z, Z, W )
p(e2 ) = 0, 125
f (x2 ) = 0, 375
e3 = (Z, W, Z)
p(e3 ) = 0, 125
e4 = (W, Z, Z)
p(e4 ) = 0, 125
e5 = (Z, W, W )
p(e5 ) = 0, 125
e6 = (W, Z, W )
p(e6 ) = 0, 125
e7 = (W, W, Z)
p(e7 ) = 0, 125
e8 = (W, W, W )
p(e8 ) = 0, 125
x3 = 2
x4 = 3
f (x3 ) = 0, 375
f (x4 ) = 0, 125
Statistik für SozialwissenschaftlerInnen II – p.65
Beispiel: Diskrete Whkt-funktion
für xi = 1
für xi = 2
für xi = 3
sonst
0.125
0.250
für xi = 0
0.000
f(x)
0.375

0, 125







0, 375
f (X) = 0, 375




0, 125




0
0
1
2
3
Anzahl der Wappen
Statistik für SozialwissenschaftlerInnen II – p.66
Diskrete Verteilungsfunktion
•
Die Verteilungsfunktion gibt die Wahrscheinlichkeit an,
dass die Zufallsvariable X höchstens den Wert xi
annnimmt
• Sie ist die Kumulation der Wahrscheinlichkeitsfunktion:
X
F (X) = p(X ≤ xi ) =
f (xi )
xi ≤X
•
Beispiel: Anzahl Wappen“ bei 3-maligem Münzwurf:
”
xi
F (X) = p(X ≤ xi )
0
0,125
1
0,500
2
0,875
3
1,000
Statistik für SozialwissenschaftlerInnen II – p.67
Beispiel: Diskrete Vtl-Funktion
0.625
0.500
0.375
0.250
0.125
F(x)
0.750
0.875
1.000
Grafische Darstellung der Verteilungsfunktion von X
0
1
2
3
Anzahl der Wappen
Statistik für SozialwissenschaftlerInnen II – p.68
(Wahrscheinlichkeits-)Dichtefunktion
Die Funktion f (X) wird bei stetigen Variablen nicht als
Wahrscheinlichkeitsfunktion, sondern als Dichtefunktion
bezeichnet.
• Bei stetigen Zufallsvariablen besteht der Ereignisraum
aus unendlich vielen Elemantarereignissen, die
Wahrscheinlichkeit eines einzelnen Ereignisses ist gleich 0
• Wahrscheinlichkeiten stetiger Variablen werden daher
immer für ein Intervall ∆X berechnet. Es gilt:
Z
+∞
f (X)dX = 1
−∞
p(a < X < b) =
Z
b
f (X)dX
a
Statistik für SozialwissenschaftlerInnen II – p.69
Beispiel: Stetige Funktionen
Die stetige Zufallsvariable X sei die Verspätung der
Straßenbahn an der Haltestelle Universität“ (in Minuten) und
”
habe folgende Dichtefunktion:
f (x) = 0, 5 − 0, 125x für 0 ≤ x ≤ 4
0.5
1
f(x)
F(x)
0.45
0.4
0.8
0.35
0.3
0.6
0.25
0.2
0.4
0.15
0.1
0.2
0.05
0
0
0
0.5
1
1.5
2
2.5
3
3.5
(a) Dichtefunktion f (x)
4
0
0.5
1
1.5
2
2.5
3
3.5
4
(b) Verteilungsfunktion F (x)
Statistik für SozialwissenschaftlerInnen II – p.70
Beispiel: Stetige Funktionen
Will man nun berechnen, wie groß z.B. die Wahrscheinlichkeit
ist, dass die Straßenbahn zwischen einer und zwei Minuten
Verspätung hat, muss man die Dichtefunktion integrieren und
die Integralsgrenzen auf 1 und 2 setzen:
Z 2
p(1 < X < 2) =
f (x)dx
1
=
Z
·
2
1
(0, 5 − 0, 125x)dx
¸2
0, 125 2
= 0, 5x −
x
2
1
= 0, 75 − 0, 4375 = 0, 3125
Statistik für SozialwissenschaftlerInnen II – p.71
Erwartungswert & Varianz (diskret)
Im Gegensatz empirischen Verteilungen, bei denen Mittelwert
und Varianz mit x̄ und s2 bezeichnet, spricht man bei
Zufallsvariablen von µ (Erwartungswert) und σ 2 (Varianz).
Berechnung bei diskreten Zufallsvariablen:
µ =
N
X
xi pi
N
X
pi ∗ (xi − µ)2
i=1
σ2 =
i=1
Statistik für SozialwissenschaftlerInnen II – p.72
Erwartungswert & Varianz (stetig)
Da stetige Zufallsvariablen nicht wie diskrete Variablen
aufsummiert werden können, werden µ und σ 2 hier anders
berechnet:
µ =
σ2 =
Z
+∞
−∞
Z +∞
−∞
x ∗ f (x)dx
(x − µ)2 ∗ f (x)dx
Statistik für SozialwissenschaftlerInnen II – p.73
Theoretische Verteilungen
•
Bilden eine wichtige Grundlage der schließenden Statistik
• Wichtige Verteilungen:
• Binomialverteilung (diskret)
• Normalverteilung (stetig)
• χ2 , T- und F-Verteilung
Statistik für SozialwissenschaftlerInnen II – p.74
Binomialverteilung
•
Wahrscheinlichkeitsverteilung der Häufigkeit eines
binären Merkmals bei einfacher Zufallsauswahl mit
zurücklegen
• Beispiel: Werfen einer Münze
• Allgemeine mathematische Darstellung dieser
Experimente
• Parameter: Zahl der Versuche, Eintrittswahrscheinlichkeit
Statistik für SozialwissenschaftlerInnen II – p.75
Binomialverteilung
Wahrscheinlichkeitsfunktion:
µ ¶
n
∗pk ∗q n−k
f (X = k|n) =
k
Verteilungsfunktion:
F (X ≤ k|n) =
k µ ¶
X
n
j=0
j
∗pj ∗q n−j
mit n= Zahl der Versuche,
k=Eintrittshäufigkeit
p=Eintrittswahrscheinlichkeit
q=Gegenwahrscheinlichkeit
Statistik für SozialwissenschaftlerInnen II – p.76
Normalverteilung
Die Normalverteilung ist die wichtigste theoretische
Verteilung in der sozialwissenschaftlichen Statistik
• Normalverteilung als empirische Verteilung
• N. als Verteilungsmodell für statistische Kennwerte
• N. als mathematische Basisverteilung
• N. in der statistischen Fehlertheorie
Statistik für SozialwissenschaftlerInnen II – p.77
Normalverteilung
•
•
•
•
•
Stetige Verteilung
Glockenförmiger Verlauf
(Eingipflig)
Symmetrisch
Erwartungswert, Median
und Modalwert fallen
zusammen
Verteilung nähert sich
asymptotisch der
X-Achse
Statistik für SozialwissenschaftlerInnen II – p.78
Normalverteilung
Verlauf der Normalverteilung
wird bestimmt durch
• Erwartungswert µ
Varianz σ 2
Wahrscheinlichkeitsdichtefunktion:
•
1
f (x) = √
∗e
2
2πσ
−(x−µ)2
2σ 2
mit π ≈ 3, 14 e ≈ 2, 72
Statistik für SozialwissenschaftlerInnen II – p.79
Standardnormalverteilung
•
•
•
•
•
Besondere Normalverteilung: Standardnormalverteilung
Parameter: µ = 0, σ = 1
Flächenanteile unter der Standardnormalverteilung liegen
in Tabellenform vor
Alle Normalverteilungen sind durch eine
Z-Transformation in eine Standardnornalverteilung zu
überführen:
xi − µ
zi =
σ
Die Dichtefunktion vereinfacht sich durch
µ = 0 und σ = 1 zu:
−z 2
1
f (z) = √ ∗ e 2
2π
Statistik für SozialwissenschaftlerInnen II – p.80
Standardnormalverteilung: Flächenanteile
Die Flächenanteile dienen zur
Bestimmung von
Wahrscheinlichkeiten von
normalverteilten
Zufallsvariablen:
• −1 bis +1: 68,27%
• −1, 96 bis +1, 96: 95%
• −2 bis +2: 95,45%
• −3 bis +3: 99,73%
Statistik für SozialwissenschaftlerInnen II – p.81
t-Verteilung
•
Parameter:
Freiheitsgrade ν
• nähert sich mit ν ≥ 30
der Normalverteilung an
• wichtig für
Konfidenzintervalle /
Mittelwertstests bei
kleinen Stichproben
Statistik für SozialwissenschaftlerInnen II – p.82
2
Chi -Verteilung
•
Parameter:
Freiheitsgrade ν
• nähert sich mit großem
ν langsam der
Normalverteilung an
•
wichtig für χ2 -Tests,
Konfidenzintervalle von
Varianzen
Statistik für SozialwissenschaftlerInnen II – p.83
F-Verteilung
•
Parameter:
Zähler-Freiheitsgrade,
Nenner-Freiheitsgrade
• Wichtig für
varianzanalytische
Methoden /
Varianzverhältnisse
Statistik für SozialwissenschaftlerInnen II – p.84
Herunterladen