Zufallsvariablen und ihre Verteilung

Werbung
FB 1
Grundlagen/
Wiederholung
Zufallsvorgänge
Verteilungen von
Zufallsvariablen
Punkt- und Intervallschätzung
Signifikanztests
t-Test
Varianzanalyse
Verteilungsfreie
Verfahren
Korrelation und
Regression
W. Ludwig-Mayerhofer
Statistik II – Zufallsvariablen
Herzlich willkommen zur
Vorlesung
Zufallsvariablen
und ihre Verteilung
1
FB 1
Grundlagen/
Wiederholung
Zufallsvorgänge
Verteilungen von
Zufallsvariablen
Definitionen
Diskrete Verteilungen
Normalverteilung
Zentraler Grenzwertsatz
Verwandte der
Normalverteilung
Punkt- und Intervallschätzung
Signifikanztests
t-Test
Varianzanalyse
Verteilungsfreie
Verfahren
Korrelation und
Regression
W. Ludwig-Mayerhofer
Statistik II – Zufallsvariablen
Zufallsvariable und
Wahrscheinlichkeitsverteilungen
Stichproben können als Zufallsvorgänge mit
verschiedenen Ergebnissen aufgefasst werden
(Münzwurf: unterschiedliche Anteile von Kopf bzw.
Zahl; sozialwissenschaftliche Stichprobe:
unterschiedliche Anteile von Arbeitslosen,
unterschiedliche Mittelwerte von Einkommen etc.).
Die verschiedenen Ergebnisse stellen deshalb eine
Zufallsvariable dar.
2
FB 1
Grundlagen/
Wiederholung
Zufallsvorgänge
Verteilungen von
Zufallsvariablen
Definitionen
Diskrete Verteilungen
Normalverteilung
Zentraler Grenzwertsatz
Verwandte der
Normalverteilung
Punkt- und Intervallschätzung
Signifikanztests
t-Test
Varianzanalyse
Verteilungsfreie
Verfahren
Korrelation und
Regression
W. Ludwig-Mayerhofer
Statistik II – Zufallsvariablen
Zwei Arten von Zufallsvariablen
Wie bei empirischen Merkmalen können wir auch bei
Zufallsvariablen unterscheiden zwischen
•
diskreten Zufallsvariablen: Nehmen nur angebbare
Werte an; die Wahrscheinlichkeiten der einzelnen
Werte lassen sich berechnen.
Beispiele: Binomialverteilung, Hypergeometrische
Verteilung
•
stetigen/kontinuierlichen Variablen: Jeder Wert ist
möglich, Wahrscheinlichkeit lässt sich nur für
Wertebereiche angeben.
Beispiel: Normalverteilung
3
FB 1
Grundlagen/
Wiederholung
Zufallsvorgänge
Verteilungen von
Zufallsvariablen
Definitionen
Diskrete Verteilungen
Normalverteilung
Zentraler Grenzwertsatz
Verwandte der
Normalverteilung
Punkt- und Intervallschätzung
Signifikanztests
t-Test
Varianzanalyse
Verteilungsfreie
Verfahren
Korrelation und
Regression
W. Ludwig-Mayerhofer
Statistik II – Zufallsvariablen
Zufallsvariable und
Wahrscheinlichkeitsverteilungen
(Beispiel: diskrete Zufallsvariable)
Variablen können beschrieben werden anhand ihrer
Wahrscheinlichkeitsfunktion und ihrer
Verteilungsfunktion, d.h. der kumulierten
Wahrscheinlichkeiten.
Diese lassen sich verstehen in Analogie zu den relativen
(kumulierten) Häufigkeiten einer empirischen
Verteilung Æ Æ Æ
4
FB 1
Grundlagen/
Wiederholung
Zufallsvorgänge
Verteilungen von
Zufallsvariablen
W. Ludwig-Mayerhofer
Statistik II – Zufallsvariablen
5
Empirische Verteilung: Beispiel
Definitionen
Diskrete Verteilungen
Normalverteilung
Zentraler Grenzwertsatz
Verwandte der
Normalverteilung
Punkt- und Intervallschätzung
Signifikanztests
t-Test
Varianzanalyse
Verteilungsfreie
Verfahren
Korrelation und
Regression
Prozente = Wahrscheinlichkeitsfunktion
Kumulierte Prozente = Verteilungsfunktion:
Soundsoviel Prozent haben einen Wert nicht größer als
1, soundsoviel Prozent haben einen Wert nicht größer
als 2, usw.
FB 1
Grundlagen/
Wiederholung
Zufallsvorgänge
Verteilungen von
Zufallsvariablen
Definitionen
Diskrete Verteilungen
Normalverteilung
Zentraler Grenzwertsatz
Verwandte der
Normalverteilung
Punkt- und Intervallschätzung
Signifikanztests
t-Test
Varianzanalyse
Verteilungsfreie
Verfahren
Korrelation und
Regression
W. Ludwig-Mayerhofer
Statistik II – Zufallsvariablen
Diskrete Zufallsvariablen I
Wahrscheinlichkeitsfunktion:
⎧ P(X = x i ) = pi , x = x i ∈ {x1 ,x 2 ,… x k ,…}
f (x) = ⎨
0, sonst
⎩
Verteilungsfunktion:
F(x) = P(X ≤ x) =
∑ f (x )
i:x i ≤ x
i
6
FB 1
Grundlagen/
Wiederholung
Zufallsvorgänge
Verteilungen von
Zufallsvariablen
Definitionen
Diskrete Verteilungen
Normalverteilung
Zentraler Grenzwertsatz
Verwandte der
Normalverteilung
Punkt- und Intervallschätzung
Signifikanztests
t-Test
Varianzanalyse
Verteilungsfreie
Verfahren
Korrelation und
Regression
W. Ludwig-Mayerhofer
Statistik II – Zufallsvariablen
7
Diskrete Zufallsvariablen II
Erwartungswert E(X) oder μ:
n
E(X) = x1p1 + ... + x k p k + ... = ∑ x i pi
i ≥1
Varianz:
σ 2 = Var(X) = (x1 − μ )2 p1 + …(x k − μ )2 p k + … = ∑ (x i − μ )2 pi
i ≥1
Alternativ kann man berechnen:
Var(X) = E(X 2 ) − (E(X))2 = E(X 2 ) − μ 2
FB 1
Grundlagen/
Wiederholung
Zufallsvorgänge
Verteilungen von
Zufallsvariablen
Definitionen
Diskrete Verteilungen
Normalverteilung
Zentraler Grenzwertsatz
Verwandte der
Normalverteilung
Punkt- und Intervallschätzung
Signifikanztests
t-Test
Varianzanalyse
Verteilungsfreie
Verfahren
Korrelation und
Regression
W. Ludwig-Mayerhofer
Statistik II – Zufallsvariablen
8
Verteilung einer diskreten, binären
Zufallsvariablen: Bernoulli-Vorgang
Ein Bernoulli-Experiment oder Bernoulli-Vorgang ist ein
einmal durchgeführter Zufallsvorgang mit Ergebnis 0 oder 1
(Nein/Ja).
Es gilt:
P(X = 1) = π
P(X = 0) = 1 − π
Anders formuliert:
p(x) = πx ⋅ (1 − π)1− x ,
so dass
p(0) = P(X = 0) = π0 ⋅ (1 − π)1−0 = 1 − π
p(1) = P(X = 1) = π1 ⋅ (1 − π)1−1 = π
FB 1
Grundlagen/
Wiederholung
Zufallsvorgänge
Verteilungen von
Zufallsvariablen
Definitionen
Diskrete Verteilungen
Normalverteilung
Zentraler Grenzwertsatz
Verwandte der
Normalverteilung
Punkt- und Intervallschätzung
Signifikanztests
t-Test
Varianzanalyse
Verteilungsfreie
Verfahren
Korrelation und
Regression
W. Ludwig-Mayerhofer
Statistik II – Zufallsvariablen
9
Vom Bernoulli-Vorgang zur
Binomialverteilung
Wird ein Bernoulli-Vorgang (mehrfach) wiederholt,
interessieren wir uns für die Häufigkeit, mit der Ereignis „1“
auftritt.
Zunächst gilt: Die Wahrscheinlichkeit für eine bestimmte
Stichprobenrealisierung (z.B. 1x Ja, 2x Nein) wird berechnet
als (Multiplikationstheorem!):
π n1 ⋅ (1 − π) n − n1
mit
π = Wahrscheinlichkeit von Ereignis „1“
n1 = Häufigkeit von „1“ in Stichprobe
n = Größe der Stichprobe (=Zahl der Bernoulli-Experimente)
FB 1
Grundlagen/
Wiederholung
Zufallsvorgänge
Verteilungen von
Zufallsvariablen
Definitionen
Diskrete Verteilungen
Normalverteilung
Zentraler Grenzwertsatz
Verwandte der
Normalverteilung
Punkt- und Intervallschätzung
Signifikanztests
t-Test
Varianzanalyse
Verteilungsfreie
Verfahren
Korrelation und
Regression
W. Ludwig-Mayerhofer
Statistik II – Zufallsvariablen
Auf dem Weg zur Binomialverteilung
π n1 ⋅ (1 − π) n − n1
Beispiel 1: Zwei Würfe mit Münze
(0,0): 0,50 • 0,52 = 0,25
(1,0): 0,51 • 0,51 = 0,25
(0,1): 0,51 • 0,51 = 0,25
(1,1): 0,52 • 0,50 = 0,25
Beispiel 2: Ziehen von As aus Kartenstapel (mit Zurückl.)
(0,0): 1/130 • 12/132 = 1 • 0,852 = 0,852
(1,0): 1/131 • 12/131 = 0,077 • 0,923 = 0,071
(0,1): 1/131 • 12/131 = 0,077 • 0,923 = 0,071
(1,1): 1/132 • 12/130 = 0,006 • 1 = 0,006
10
FB 1
Grundlagen/
Wiederholung
Zufallsvorgänge
Verteilungen von
Zufallsvariablen
Definitionen
Diskrete Verteilungen
Normalverteilung
Zentraler Grenzwertsatz
Verwandte der
Normalverteilung
Punkt- und Intervallschätzung
Signifikanztests
t-Test
Varianzanalyse
Verteilungsfreie
Verfahren
Korrelation und
Regression
W. Ludwig-Mayerhofer
Statistik II – Zufallsvariablen
Binomialverteilung
Die Reihenfolge der Ziehung der Elemente ist (für unsere
Zwecke) irrelevant.
Die Wahrscheinlichkeit eines Wertes n1 (Häufigkeit der
‚günstigen‘ Ereignisse) in Stichprobe mit Umfang n kann
berechnet werden nach
⎛n ⎞
n1
n − n1
P(X = n1 ) = ⎜ ⎟ ⋅ ( π ) ⋅ (1 − π )
⎝ n1 ⎠
⎛
⎞
n!
n1
n − n1
=⎜
⎟ ⋅ ( π ) ⋅ (1 − π )
⎝ (n − n1 )!⋅ n1 ! ⎠
Bezeichnung: „Eine Variable ist B(n,π)-verteilt“, kurz
X ∼ B(n, π)
11
FB 1
Grundlagen/
Wiederholung
Zufallsvorgänge
Verteilungen von
Zufallsvariablen
Definitionen
Diskrete Verteilungen
Normalverteilung
Zentraler Grenzwertsatz
Verwandte der
Normalverteilung
Punkt- und Intervallschätzung
Signifikanztests
t-Test
Varianzanalyse
Verteilungsfreie
Verfahren
Korrelation und
Regression
W. Ludwig-Mayerhofer
Statistik II – Zufallsvariablen
Binomialverteilung (π1=0,5, n=4)
⎛
⎞
n!
n1
n − n1
⋅
π
⋅
−
π
P(X = n1 )= ⎜
1
)
⎟ ( ) (
⎝ (n − n1 )!⋅ n1 ! ⎠
⎛ 4 ⋅ 3 ⋅ 2 ⋅1 ⎞
0
4
(
)
(
)
P ( X = 0)= ⎜
⋅
0
,
5
⋅
0
,
5
= 0,0625
⎟
⎝ 4 ⋅ 3 ⋅ 2 ⋅1 ⎠
⎛ 4 ⋅ 3 ⋅ 2 ⋅1 ⎞
1
3
P( X = 1)= ⎜
⎟ ⋅ (0,5) ⋅ (0,5) = 0,25
⎝ 3 ⋅ 2 ⋅1 ⎠
⎛ 4 ⋅ 3 ⋅ 2 ⋅1 ⎞
2
2
P ( X = 2)= ⎜
⎟ ⋅ (0,5) ⋅ (0,5) = 0,375
⎝ 2 ⋅1 ⋅ 2 ⋅1 ⎠
12
FB 1
Grundlagen/
Wiederholung
Zufallsvorgänge
Verteilungen von
Zufallsvariablen
Definitionen
Diskrete Verteilungen
Normalverteilung
Zentraler Grenzwertsatz
Verwandte der
Normalverteilung
Punkt- und Intervallschätzung
Signifikanztests
t-Test
Varianzanalyse
Verteilungsfreie
Verfahren
Korrelation und
Regression
W. Ludwig-Mayerhofer
Statistik II – Zufallsvariablen
Binomialverteilung:
Verteilungsfunktion für Kopf bei 4
Würfen
Pi
0 mal
1 mal
2 mal
3 mal
4 mal
0,0625
0,25
0,375
0,25
0,0625
Fi
0,0625
0,3125
0,6875
0,9375
1,0000
13
FB 1
Grundlagen/
Wiederholung
Zufallsvorgänge
Verteilungen von
Zufallsvariablen
Definitionen
Diskrete Verteilungen
Normalverteilung
Zentraler Grenzwertsatz
Verwandte der
Normalverteilung
Punkt- und Intervallschätzung
Signifikanztests
t-Test
Varianzanalyse
Verteilungsfreie
Verfahren
Korrelation und
Regression
W. Ludwig-Mayerhofer
Statistik II – Zufallsvariablen
Binomialverteilung
Wahrscheinlichkeitsverteilung für Ereignis „1“ bei 12maligem Ziehen, π=0,3
f(x)
0 mal
1 mal
2 mal
3 mal
4 mal
5 mal
6 mal
7 mal
8 mal
9 mal
10 mal
11 mal
12 mal
0,0138413
0,0711838
0,1677903
0,2397004
0,2311397
0,1584958
0,0792479
0,0291115
0,0077977
0,0014853
0,0001910
1,48803E-05
5,31441E-07
F(X)
0,0138413
0,0850251
0,2528154
0,4925158
0,7236555
0,8821514
0,9905106
0,9983083
0,9997936
0,9997936
0,9999848
0,9999996
1
14
FB 1
Grundlagen/
Wiederholung
Zufallsvorgänge
Verteilungen von
Zufallsvariablen
Definitionen
Diskrete Verteilungen
Normalverteilung
Zentraler Grenzwertsatz
Verwandte der
Normalverteilung
Punkt- und Intervallschätzung
Signifikanztests
t-Test
Varianzanalyse
Verteilungsfreie
Verfahren
Korrelation und
Regression
W. Ludwig-Mayerhofer
Statistik II – Zufallsvariablen
15
Binomialverteilung: E(X) und Var(X)
Ist
X ∼ B(n, π), so gilt:
⎛n⎞ x
E(X) = ∑ x ⎜ ⎟ π (1 − π) n −x
x =0 ⎝ x ⎠
E(X) = n ⋅ π
n
oder einfacher
Var(X) = n ⋅ π ⋅ (1 − π)
Beispiel Münzwurf (4x) von oben
4
E(X) = ∑ x i πi = (0 ⋅ 0,0625) + (1 ⋅ 0,25) + (2 ⋅ 0,375) + (3 ⋅ 0,25) + (0 ⋅ 0,0625)
i =0
= 0 + 0,25 + 0,75 + 0,75 + 0,25 = 2
Oder einfach 4*0,5=2.
FB 1
Grundlagen/
Wiederholung
Zufallsvorgänge
Verteilungen von
Zufallsvariablen
Definitionen
Diskrete Verteilungen
Normalverteilung
Zentraler Grenzwertsatz
Verwandte der
Normalverteilung
Punkt- und Intervallschätzung
Signifikanztests
t-Test
Varianzanalyse
Verteilungsfreie
Verfahren
Korrelation und
Regression
W. Ludwig-Mayerhofer
Statistik II – Zufallsvariablen
Hypergeometrische Verteilung
Für Stichproben ohne Zurücklegen und mit binären
Merkmalen verwenden wir die hypergeometrische
Verteilung; X ∼ H(n, N1 , N)
⎛ N1 ⎞ ⎛ N − N1 ⎞
⎜n ⎟⋅⎜n − n ⎟
1 ⎠
f (x) = Pr(X = n1 ) = ⎝ 1 ⎠ ⎝
⎛N⎞
⎜n ⎟
⎝ ⎠
N=Gesamtzahl der Kugeln, N1=Gesamtzahl der Kugeln mit
gesuchter Merkmalsausprägung
n=Gesamtumfang der Stichprobe, n1=Teilstichprobe mit
Ausprägung 1,
16
FB 1
Grundlagen/
Wiederholung
Zufallsvorgänge
Verteilungen von
Zufallsvariablen
Definitionen
Diskrete Verteilungen
Normalverteilung
Zentraler Grenzwertsatz
Verwandte der
Normalverteilung
Punkt- und Intervallschätzung
Signifikanztests
t-Test
Varianzanalyse
Verteilungsfreie
Verfahren
Korrelation und
Regression
W. Ludwig-Mayerhofer
Statistik II – Zufallsvariablen
Hypergeometrische Verteilung: E(X)
und Var(X)
Ist X ∼ H(n, N1 , N 0 ) , dann gilt:
N1
E(X) = n ⋅
N
N ⎛ N ⎞ N−n
Var(X) = n ⋅ 1 ⋅ ⎜ 1 − 1 ⎟ ⋅
N ⎝
N ⎠ N −1
E(X) entspricht also dem Erwartungswert einer B(n, π)verteilten Zufallsvariablen, die Varianz ist aber um den
Faktor (N-n)/(N-1) kleiner. Das liegt auch nahe, da durch
das Zurücklegen die Variabilität verringert wird. – Ist n/N
klein, tendiert (N-n)/(N-1) gegen 1.
17
FB 1
Grundlagen/
Wiederholung
Zufallsvorgänge
Verteilungen von
Zufallsvariablen
Definitionen
Diskrete Verteilungen
Normalverteilung
Zentraler Grenzwertsatz
Verwandte der
Normalverteilung
Punkt- und Intervallschätzung
Signifikanztests
t-Test
Varianzanalyse
Verteilungsfreie
Verfahren
Korrelation und
Regression
W. Ludwig-Mayerhofer
Statistik II – Zufallsvariablen
Fazit zur diskreten Verteilungen
Wir haben uns hier ausschließlich mit einfachen
Fällen befasst, die für unsere Zwecke ausreichen.
Es gibt beispielsweise diskrete Verteilungen für
• Mehrstufige nominalskalierte Variablen,
insbesondere die Multinomialverteilung
• metrische Variablen, etwa die geometrische
oder die Poisson-Verteilung.
Dazu findet man in unterschiedlichen Lehrbüchern
unterschiedlich detailliert Auskunft.
18
Herunterladen