FB 1 Grundlagen/ Wiederholung Zufallsvorgänge Verteilungen von Zufallsvariablen Punkt- und Intervallschätzung Signifikanztests t-Test Varianzanalyse Verteilungsfreie Verfahren Korrelation und Regression W. Ludwig-Mayerhofer Statistik II – Zufallsvariablen Herzlich willkommen zur Vorlesung Zufallsvariablen und ihre Verteilung 1 FB 1 Grundlagen/ Wiederholung Zufallsvorgänge Verteilungen von Zufallsvariablen Definitionen Diskrete Verteilungen Normalverteilung Zentraler Grenzwertsatz Verwandte der Normalverteilung Punkt- und Intervallschätzung Signifikanztests t-Test Varianzanalyse Verteilungsfreie Verfahren Korrelation und Regression W. Ludwig-Mayerhofer Statistik II – Zufallsvariablen Zufallsvariable und Wahrscheinlichkeitsverteilungen Stichproben können als Zufallsvorgänge mit verschiedenen Ergebnissen aufgefasst werden (Münzwurf: unterschiedliche Anteile von Kopf bzw. Zahl; sozialwissenschaftliche Stichprobe: unterschiedliche Anteile von Arbeitslosen, unterschiedliche Mittelwerte von Einkommen etc.). Die verschiedenen Ergebnisse stellen deshalb eine Zufallsvariable dar. 2 FB 1 Grundlagen/ Wiederholung Zufallsvorgänge Verteilungen von Zufallsvariablen Definitionen Diskrete Verteilungen Normalverteilung Zentraler Grenzwertsatz Verwandte der Normalverteilung Punkt- und Intervallschätzung Signifikanztests t-Test Varianzanalyse Verteilungsfreie Verfahren Korrelation und Regression W. Ludwig-Mayerhofer Statistik II – Zufallsvariablen Zwei Arten von Zufallsvariablen Wie bei empirischen Merkmalen können wir auch bei Zufallsvariablen unterscheiden zwischen • diskreten Zufallsvariablen: Nehmen nur angebbare Werte an; die Wahrscheinlichkeiten der einzelnen Werte lassen sich berechnen. Beispiele: Binomialverteilung, Hypergeometrische Verteilung • stetigen/kontinuierlichen Variablen: Jeder Wert ist möglich, Wahrscheinlichkeit lässt sich nur für Wertebereiche angeben. Beispiel: Normalverteilung 3 FB 1 Grundlagen/ Wiederholung Zufallsvorgänge Verteilungen von Zufallsvariablen Definitionen Diskrete Verteilungen Normalverteilung Zentraler Grenzwertsatz Verwandte der Normalverteilung Punkt- und Intervallschätzung Signifikanztests t-Test Varianzanalyse Verteilungsfreie Verfahren Korrelation und Regression W. Ludwig-Mayerhofer Statistik II – Zufallsvariablen Zufallsvariable und Wahrscheinlichkeitsverteilungen (Beispiel: diskrete Zufallsvariable) Variablen können beschrieben werden anhand ihrer Wahrscheinlichkeitsfunktion und ihrer Verteilungsfunktion, d.h. der kumulierten Wahrscheinlichkeiten. Diese lassen sich verstehen in Analogie zu den relativen (kumulierten) Häufigkeiten einer empirischen Verteilung Æ Æ Æ 4 FB 1 Grundlagen/ Wiederholung Zufallsvorgänge Verteilungen von Zufallsvariablen W. Ludwig-Mayerhofer Statistik II – Zufallsvariablen 5 Empirische Verteilung: Beispiel Definitionen Diskrete Verteilungen Normalverteilung Zentraler Grenzwertsatz Verwandte der Normalverteilung Punkt- und Intervallschätzung Signifikanztests t-Test Varianzanalyse Verteilungsfreie Verfahren Korrelation und Regression Prozente = Wahrscheinlichkeitsfunktion Kumulierte Prozente = Verteilungsfunktion: Soundsoviel Prozent haben einen Wert nicht größer als 1, soundsoviel Prozent haben einen Wert nicht größer als 2, usw. FB 1 Grundlagen/ Wiederholung Zufallsvorgänge Verteilungen von Zufallsvariablen Definitionen Diskrete Verteilungen Normalverteilung Zentraler Grenzwertsatz Verwandte der Normalverteilung Punkt- und Intervallschätzung Signifikanztests t-Test Varianzanalyse Verteilungsfreie Verfahren Korrelation und Regression W. Ludwig-Mayerhofer Statistik II – Zufallsvariablen Diskrete Zufallsvariablen I Wahrscheinlichkeitsfunktion: ⎧ P(X = x i ) = pi , x = x i ∈ {x1 ,x 2 ,… x k ,…} f (x) = ⎨ 0, sonst ⎩ Verteilungsfunktion: F(x) = P(X ≤ x) = ∑ f (x ) i:x i ≤ x i 6 FB 1 Grundlagen/ Wiederholung Zufallsvorgänge Verteilungen von Zufallsvariablen Definitionen Diskrete Verteilungen Normalverteilung Zentraler Grenzwertsatz Verwandte der Normalverteilung Punkt- und Intervallschätzung Signifikanztests t-Test Varianzanalyse Verteilungsfreie Verfahren Korrelation und Regression W. Ludwig-Mayerhofer Statistik II – Zufallsvariablen 7 Diskrete Zufallsvariablen II Erwartungswert E(X) oder μ: n E(X) = x1p1 + ... + x k p k + ... = ∑ x i pi i ≥1 Varianz: σ 2 = Var(X) = (x1 − μ )2 p1 + …(x k − μ )2 p k + … = ∑ (x i − μ )2 pi i ≥1 Alternativ kann man berechnen: Var(X) = E(X 2 ) − (E(X))2 = E(X 2 ) − μ 2 FB 1 Grundlagen/ Wiederholung Zufallsvorgänge Verteilungen von Zufallsvariablen Definitionen Diskrete Verteilungen Normalverteilung Zentraler Grenzwertsatz Verwandte der Normalverteilung Punkt- und Intervallschätzung Signifikanztests t-Test Varianzanalyse Verteilungsfreie Verfahren Korrelation und Regression W. Ludwig-Mayerhofer Statistik II – Zufallsvariablen 8 Verteilung einer diskreten, binären Zufallsvariablen: Bernoulli-Vorgang Ein Bernoulli-Experiment oder Bernoulli-Vorgang ist ein einmal durchgeführter Zufallsvorgang mit Ergebnis 0 oder 1 (Nein/Ja). Es gilt: P(X = 1) = π P(X = 0) = 1 − π Anders formuliert: p(x) = πx ⋅ (1 − π)1− x , so dass p(0) = P(X = 0) = π0 ⋅ (1 − π)1−0 = 1 − π p(1) = P(X = 1) = π1 ⋅ (1 − π)1−1 = π FB 1 Grundlagen/ Wiederholung Zufallsvorgänge Verteilungen von Zufallsvariablen Definitionen Diskrete Verteilungen Normalverteilung Zentraler Grenzwertsatz Verwandte der Normalverteilung Punkt- und Intervallschätzung Signifikanztests t-Test Varianzanalyse Verteilungsfreie Verfahren Korrelation und Regression W. Ludwig-Mayerhofer Statistik II – Zufallsvariablen 9 Vom Bernoulli-Vorgang zur Binomialverteilung Wird ein Bernoulli-Vorgang (mehrfach) wiederholt, interessieren wir uns für die Häufigkeit, mit der Ereignis „1“ auftritt. Zunächst gilt: Die Wahrscheinlichkeit für eine bestimmte Stichprobenrealisierung (z.B. 1x Ja, 2x Nein) wird berechnet als (Multiplikationstheorem!): π n1 ⋅ (1 − π) n − n1 mit π = Wahrscheinlichkeit von Ereignis „1“ n1 = Häufigkeit von „1“ in Stichprobe n = Größe der Stichprobe (=Zahl der Bernoulli-Experimente) FB 1 Grundlagen/ Wiederholung Zufallsvorgänge Verteilungen von Zufallsvariablen Definitionen Diskrete Verteilungen Normalverteilung Zentraler Grenzwertsatz Verwandte der Normalverteilung Punkt- und Intervallschätzung Signifikanztests t-Test Varianzanalyse Verteilungsfreie Verfahren Korrelation und Regression W. Ludwig-Mayerhofer Statistik II – Zufallsvariablen Auf dem Weg zur Binomialverteilung π n1 ⋅ (1 − π) n − n1 Beispiel 1: Zwei Würfe mit Münze (0,0): 0,50 • 0,52 = 0,25 (1,0): 0,51 • 0,51 = 0,25 (0,1): 0,51 • 0,51 = 0,25 (1,1): 0,52 • 0,50 = 0,25 Beispiel 2: Ziehen von As aus Kartenstapel (mit Zurückl.) (0,0): 1/130 • 12/132 = 1 • 0,852 = 0,852 (1,0): 1/131 • 12/131 = 0,077 • 0,923 = 0,071 (0,1): 1/131 • 12/131 = 0,077 • 0,923 = 0,071 (1,1): 1/132 • 12/130 = 0,006 • 1 = 0,006 10 FB 1 Grundlagen/ Wiederholung Zufallsvorgänge Verteilungen von Zufallsvariablen Definitionen Diskrete Verteilungen Normalverteilung Zentraler Grenzwertsatz Verwandte der Normalverteilung Punkt- und Intervallschätzung Signifikanztests t-Test Varianzanalyse Verteilungsfreie Verfahren Korrelation und Regression W. Ludwig-Mayerhofer Statistik II – Zufallsvariablen Binomialverteilung Die Reihenfolge der Ziehung der Elemente ist (für unsere Zwecke) irrelevant. Die Wahrscheinlichkeit eines Wertes n1 (Häufigkeit der ‚günstigen‘ Ereignisse) in Stichprobe mit Umfang n kann berechnet werden nach ⎛n ⎞ n1 n − n1 P(X = n1 ) = ⎜ ⎟ ⋅ ( π ) ⋅ (1 − π ) ⎝ n1 ⎠ ⎛ ⎞ n! n1 n − n1 =⎜ ⎟ ⋅ ( π ) ⋅ (1 − π ) ⎝ (n − n1 )!⋅ n1 ! ⎠ Bezeichnung: „Eine Variable ist B(n,π)-verteilt“, kurz X ∼ B(n, π) 11 FB 1 Grundlagen/ Wiederholung Zufallsvorgänge Verteilungen von Zufallsvariablen Definitionen Diskrete Verteilungen Normalverteilung Zentraler Grenzwertsatz Verwandte der Normalverteilung Punkt- und Intervallschätzung Signifikanztests t-Test Varianzanalyse Verteilungsfreie Verfahren Korrelation und Regression W. Ludwig-Mayerhofer Statistik II – Zufallsvariablen Binomialverteilung (π1=0,5, n=4) ⎛ ⎞ n! n1 n − n1 ⋅ π ⋅ − π P(X = n1 )= ⎜ 1 ) ⎟ ( ) ( ⎝ (n − n1 )!⋅ n1 ! ⎠ ⎛ 4 ⋅ 3 ⋅ 2 ⋅1 ⎞ 0 4 ( ) ( ) P ( X = 0)= ⎜ ⋅ 0 , 5 ⋅ 0 , 5 = 0,0625 ⎟ ⎝ 4 ⋅ 3 ⋅ 2 ⋅1 ⎠ ⎛ 4 ⋅ 3 ⋅ 2 ⋅1 ⎞ 1 3 P( X = 1)= ⎜ ⎟ ⋅ (0,5) ⋅ (0,5) = 0,25 ⎝ 3 ⋅ 2 ⋅1 ⎠ ⎛ 4 ⋅ 3 ⋅ 2 ⋅1 ⎞ 2 2 P ( X = 2)= ⎜ ⎟ ⋅ (0,5) ⋅ (0,5) = 0,375 ⎝ 2 ⋅1 ⋅ 2 ⋅1 ⎠ 12 FB 1 Grundlagen/ Wiederholung Zufallsvorgänge Verteilungen von Zufallsvariablen Definitionen Diskrete Verteilungen Normalverteilung Zentraler Grenzwertsatz Verwandte der Normalverteilung Punkt- und Intervallschätzung Signifikanztests t-Test Varianzanalyse Verteilungsfreie Verfahren Korrelation und Regression W. Ludwig-Mayerhofer Statistik II – Zufallsvariablen Binomialverteilung: Verteilungsfunktion für Kopf bei 4 Würfen Pi 0 mal 1 mal 2 mal 3 mal 4 mal 0,0625 0,25 0,375 0,25 0,0625 Fi 0,0625 0,3125 0,6875 0,9375 1,0000 13 FB 1 Grundlagen/ Wiederholung Zufallsvorgänge Verteilungen von Zufallsvariablen Definitionen Diskrete Verteilungen Normalverteilung Zentraler Grenzwertsatz Verwandte der Normalverteilung Punkt- und Intervallschätzung Signifikanztests t-Test Varianzanalyse Verteilungsfreie Verfahren Korrelation und Regression W. Ludwig-Mayerhofer Statistik II – Zufallsvariablen Binomialverteilung Wahrscheinlichkeitsverteilung für Ereignis „1“ bei 12maligem Ziehen, π=0,3 f(x) 0 mal 1 mal 2 mal 3 mal 4 mal 5 mal 6 mal 7 mal 8 mal 9 mal 10 mal 11 mal 12 mal 0,0138413 0,0711838 0,1677903 0,2397004 0,2311397 0,1584958 0,0792479 0,0291115 0,0077977 0,0014853 0,0001910 1,48803E-05 5,31441E-07 F(X) 0,0138413 0,0850251 0,2528154 0,4925158 0,7236555 0,8821514 0,9905106 0,9983083 0,9997936 0,9997936 0,9999848 0,9999996 1 14 FB 1 Grundlagen/ Wiederholung Zufallsvorgänge Verteilungen von Zufallsvariablen Definitionen Diskrete Verteilungen Normalverteilung Zentraler Grenzwertsatz Verwandte der Normalverteilung Punkt- und Intervallschätzung Signifikanztests t-Test Varianzanalyse Verteilungsfreie Verfahren Korrelation und Regression W. Ludwig-Mayerhofer Statistik II – Zufallsvariablen 15 Binomialverteilung: E(X) und Var(X) Ist X ∼ B(n, π), so gilt: ⎛n⎞ x E(X) = ∑ x ⎜ ⎟ π (1 − π) n −x x =0 ⎝ x ⎠ E(X) = n ⋅ π n oder einfacher Var(X) = n ⋅ π ⋅ (1 − π) Beispiel Münzwurf (4x) von oben 4 E(X) = ∑ x i πi = (0 ⋅ 0,0625) + (1 ⋅ 0,25) + (2 ⋅ 0,375) + (3 ⋅ 0,25) + (0 ⋅ 0,0625) i =0 = 0 + 0,25 + 0,75 + 0,75 + 0,25 = 2 Oder einfach 4*0,5=2. FB 1 Grundlagen/ Wiederholung Zufallsvorgänge Verteilungen von Zufallsvariablen Definitionen Diskrete Verteilungen Normalverteilung Zentraler Grenzwertsatz Verwandte der Normalverteilung Punkt- und Intervallschätzung Signifikanztests t-Test Varianzanalyse Verteilungsfreie Verfahren Korrelation und Regression W. Ludwig-Mayerhofer Statistik II – Zufallsvariablen Hypergeometrische Verteilung Für Stichproben ohne Zurücklegen und mit binären Merkmalen verwenden wir die hypergeometrische Verteilung; X ∼ H(n, N1 , N) ⎛ N1 ⎞ ⎛ N − N1 ⎞ ⎜n ⎟⋅⎜n − n ⎟ 1 ⎠ f (x) = Pr(X = n1 ) = ⎝ 1 ⎠ ⎝ ⎛N⎞ ⎜n ⎟ ⎝ ⎠ N=Gesamtzahl der Kugeln, N1=Gesamtzahl der Kugeln mit gesuchter Merkmalsausprägung n=Gesamtumfang der Stichprobe, n1=Teilstichprobe mit Ausprägung 1, 16 FB 1 Grundlagen/ Wiederholung Zufallsvorgänge Verteilungen von Zufallsvariablen Definitionen Diskrete Verteilungen Normalverteilung Zentraler Grenzwertsatz Verwandte der Normalverteilung Punkt- und Intervallschätzung Signifikanztests t-Test Varianzanalyse Verteilungsfreie Verfahren Korrelation und Regression W. Ludwig-Mayerhofer Statistik II – Zufallsvariablen Hypergeometrische Verteilung: E(X) und Var(X) Ist X ∼ H(n, N1 , N 0 ) , dann gilt: N1 E(X) = n ⋅ N N ⎛ N ⎞ N−n Var(X) = n ⋅ 1 ⋅ ⎜ 1 − 1 ⎟ ⋅ N ⎝ N ⎠ N −1 E(X) entspricht also dem Erwartungswert einer B(n, π)verteilten Zufallsvariablen, die Varianz ist aber um den Faktor (N-n)/(N-1) kleiner. Das liegt auch nahe, da durch das Zurücklegen die Variabilität verringert wird. – Ist n/N klein, tendiert (N-n)/(N-1) gegen 1. 17 FB 1 Grundlagen/ Wiederholung Zufallsvorgänge Verteilungen von Zufallsvariablen Definitionen Diskrete Verteilungen Normalverteilung Zentraler Grenzwertsatz Verwandte der Normalverteilung Punkt- und Intervallschätzung Signifikanztests t-Test Varianzanalyse Verteilungsfreie Verfahren Korrelation und Regression W. Ludwig-Mayerhofer Statistik II – Zufallsvariablen Fazit zur diskreten Verteilungen Wir haben uns hier ausschließlich mit einfachen Fällen befasst, die für unsere Zwecke ausreichen. Es gibt beispielsweise diskrete Verteilungen für • Mehrstufige nominalskalierte Variablen, insbesondere die Multinomialverteilung • metrische Variablen, etwa die geometrische oder die Poisson-Verteilung. Dazu findet man in unterschiedlichen Lehrbüchern unterschiedlich detailliert Auskunft. 18