Wahrscheinlichkeitsrechnung Diskrete Variablen und deren Verteilungen Stetige Variablen und deren Verteilungen Wahrscheinlichkeitsverteilungen Jost Reinecke Universität Bielefeld 3. Mai 2005 Jost Reinecke Wahrscheinlichkeitsverteilungen Wahrscheinlichkeitsrechnung Diskrete Variablen und deren Verteilungen Stetige Variablen und deren Verteilungen Wahrscheinlichkeitsrechnung Diskrete Variablen und deren Verteilungen Stetige Variablen und deren Verteilungen Jost Reinecke Wahrscheinlichkeitsverteilungen Wahrscheinlichkeitsrechnung Diskrete Variablen und deren Verteilungen Stetige Variablen und deren Verteilungen Wahrscheinlichkeitsrechnung I Das Ziehen einer Stichprobe ist die Realisierung eines Zufallsexperimentes. I Die Wahrscheinlichkeitsrechnung betrachtet Zufallsexperimente und die daraus resultierenden Ereignisse. Wie wahrscheinlich ist es, daß bestimmte Ereignisse A eintreten (z. B. Würfeln einer bestimmten Augenzahl)? Die Wahrscheinlichkeit eines Ereignisses p(A) läßt sich über die relative Häufigkeit H(A) schätzen: H(A) = p(A) = nA n nA = Anzahl der günstigen Ereignisse A n = Anzahl der möglichen Ereignisse Jost Reinecke Wahrscheinlichkeitsverteilungen (1) Wahrscheinlichkeitsrechnung Diskrete Variablen und deren Verteilungen Stetige Variablen und deren Verteilungen Bernoulli-Theorem: Die Wahrscheinlichkeit π(A) für ein Ereignis A wird durch die relative Häufigkeit p(A) = na /n geschätzt. Die Schätzung fällt umso genauer aus, je größer n ist. ¯ ³¯ n ´ ¯ A ¯ p ¯ − π(A)¯ ≥ e → 0 n (2) Gleichung 2 gilt für n → ∞. Wenn ein Ereignis mit der Wahrscheinlichkeit π(A) auftritt und n voneinander unabhängige, gleichartige Zufallsexperimente durchgeführt werden, dann geht die Wahrscheinlichkeit für eine Differenz e zwischen relativer Häufigkeit nnA und Wahrscheinlichkeit π(A) gegen Null. Beispiel: Die Wahrscheinlichkeit, eine bestimmte Augenzahl zu würfeln, beträgt 0.16̄. Jost Reinecke Wahrscheinlichkeitsverteilungen Wahrscheinlichkeitsrechnung Diskrete Variablen und deren Verteilungen Stetige Variablen und deren Verteilungen Simulation des Werfens eines Würfels Anzahl der Würfe A π(A) 10 50 100 1000 10000 100000 1000000 1 0.16̄ 0.2000 0.1400 0.1800 0.1780 0.1674 0.1668 0.1666 2 0.16̄ 0.2000 0.1600 0.1500 0.1670 0.1676 0.1651 0.1666 3 0.16̄ 0.2000 0.2200 0.1900 0.1530 0.1637 0.1673 0.1660 4 0.16̄ 0.0000 0.1800 0.1600 0.1590 0.1680 0.1672 0.1669 5 0.16̄ 0.1000 0.1000 0.1300 0.1540 0.1656 0.1683 0.1673 6 0.16̄ 0.3000 0.2000 0.1900 0.1890 0.1677 0.1652 0.1666 I I Anzahl der Würfe ≡ Größe einer Stichprobe Wahrscheinlichkeit eines Ereignisses ≡ Anteilswert in der Grundgesamtheit Jost Reinecke Wahrscheinlichkeitsverteilungen Wahrscheinlichkeitsrechnung Diskrete Variablen und deren Verteilungen Stetige Variablen und deren Verteilungen 0.3 0.25 0.2 0.15 0.1 0.05 0 1 2 3 4 5 6 relative Häufigkeit relative Häufigkeit Simulation des Werfens eines Würfels 10 Würfe 0.3 0.25 0.2 0.15 0.1 0.05 0 100Würfe 1 2 0.3 0.25 0.2 0.15 0.1 0.05 0 1 2 3 4 4 5 6 5 6 Augenzahl 1000 Würfe 5 6 relative Häufigkeit relative Häufigkeit Augenzahl 3 Augenzahl 0.3 0.25 0.2 0.15 0.1 0.05 0 1000000 Würfe 1 2 3 4 Augenzahl Jost Reinecke Wahrscheinlichkeitsverteilungen Wahrscheinlichkeitsrechnung Diskrete Variablen und deren Verteilungen Stetige Variablen und deren Verteilungen Anteilswerte der Zahl 6 bei 100 Würfen und 10 Wiederholungen Versuch Nr. Anteil in % 1 20 2 19 3 20 4 20 5 20 6 15 7 17 8 13 9 13 10 18 Bernoulli-Experiment: I Wahrscheinlichkeit für das Werfen der Zahl 6: 0.16̄ I Wahrscheinlichkeit für das Werfen einer anderen Zahl: 0.83̄ I Nur der Anteil in Versuch Nr. 7 kommt dem Erwartungswert von 0.16̄ nahe. I Alle anderen Werte weichen mehr oder weniger von dem erwarteten Anteilswert ab. Die Abweichung zwischen empirischen und erwarteten Anteilswert läßt sich über eine Wahrscheinlichkeitsfuktion genau angeben. Jost Reinecke Wahrscheinlichkeitsverteilungen Wahrscheinlichkeitsrechnung Diskrete Variablen und deren Verteilungen Stetige Variablen und deren Verteilungen Diskrete Variablen und deren Verteilungen I Die Versuchsreihe wird von auf 10 auf 1000 erweitert: Es wird wiederum die Häufigkeit notiert, mit der bei jeweils 100 Würfen die Zahl 6 fällt. I Theoretisch kann die Zahl 6 bei jedem dieser 1000 Experimente zwischen 0 und 100mal fallen. I Das Experiment entspricht dem Ziehen von 1000 Stichproben des Umfangs 100. I Anteilswerte, die weit vom Erwartungswert (0.16̄) liegen, kommen selten oder gar nicht vor. I Anteilswerte, die nah am Erwartungswert (0.16̄) liegen, kommen häufig vor. I 51% der Anteilswerte liegen unter der Häufigkeit von 17%, 49% der Anteilswerte liegen über der Häufigkeit von 17%. Jost Reinecke Wahrscheinlichkeitsverteilungen Wahrscheinlichkeitsrechnung Diskrete Variablen und deren Verteilungen Stetige Variablen und deren Verteilungen Anteilswerte der Zahl 6 bei 100 Würfen und 1.000 Wiederholungen Anteil 6% 7% 8% 9% 10% 11% 12% 13% 14% 15% 16% 17% 18% 19% 20% 21% 22% 23% 24% 25% 26% 27% 29% Häufigkeit absolut in % 4 0.4 4 0.4 2 0.2 18 1.8 24 2.4 33 3.3 67 6.7 72 7.2 98 9.8 90 9.0 98 9.8 106 10.6 99 9.9 74 7.4 72 7.2 45 4.5 43 4.3 19 1.9 14 1.4 12 1.2 4 0.4 1 0.1 1 0.1 kum. Häufigkeit absolut in % 4 0.4 8 0.8 10 1.0 28 2.8 52 5.2 85 8.5 152 15.2 224 22.4 322 32.2 412 41.2 510 51.0 616 61.6 715 71.5 789 78.9 861 86.1 906 90.6 949 94.9 968 96.8 982 98.2 994 99.4 998 99.8 999 99.9 1000 100.0 Jost Reinecke Wahrscheinlichkeitsverteilungen Wahrscheinlichkeitsrechnung Diskrete Variablen und deren Verteilungen Stetige Variablen und deren Verteilungen Anteilswerte der Zahl 6 bei 100 Würfen und 1.000 Wiederholungen 12 11 10 Häufigkeit in % 9 8 7 6 5 4 3 2 1 0 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 Anteilswert in % Jost Reinecke Wahrscheinlichkeitsverteilungen Wahrscheinlichkeitsrechnung Diskrete Variablen und deren Verteilungen Stetige Variablen und deren Verteilungen Wahrscheinlichkeitsfunktion der Binomialverteilung: µ ¶ n fB (x|n; p) = · p x · (1 − p)n−x , x für x = 0, 1, 2, . . . , n. (3) I n ist die Anzahl der Wiederholungen in einem Experiment. I p ist die Wahrscheinlichkeit, daß ein Experiment auftritt. I x ist die Ausprägung der Zufallsvariablen. I fB (x|n; p) ist die Wahrscheinlichkeit x unter der Bedingung, daß n und p zutrifft. I p ist die Wahrscheinlichkeit, daß ein Experiment auftritt. Jost Reinecke Wahrscheinlichkeitsverteilungen Wahrscheinlichkeitsrechnung Diskrete Variablen und deren Verteilungen Stetige Variablen und deren Verteilungen Exkurs: Anzahl der Kombinationen, die für x Objekte aus insgesamt n Objekten möglich sind: µ ¶ n n! = x x! · (n − x)! Die Anzahl der Möglichkeiten 6 Zahlen aus insgesamt 49 Zahlen zu ziehen, beträgt: µ ¶ 49 49! = = 13983816 6 6! · (49 − 6)! Jost Reinecke Wahrscheinlichkeitsverteilungen Wahrscheinlichkeitsrechnung Diskrete Variablen und deren Verteilungen Stetige Variablen und deren Verteilungen Beispiel: Wie wahrscheinlich ist es, daß bei einer Durchführung des Experiments (100mal würfeln) die 6 mit einem Anteil von 20% (x = 20) auftritt: µ ¶ 100 fB (20|100; 0,16̄) = · 0.16̄20 · (1 − 0.16̄)100−20 20 = 100! · 2.735 · 10−16 · 4.629 · 10−7 20! · (100 − 20)! = 5.359833704038 · 1020 · 1.266 · 10−22 = 0.0679 I Der theoretisch zu erwartende Wert beträgt demnach 6.79%. I Bei 1000 Experimenten trat die Augenzahl 6 mit einer Wahrscheinlichkeit von 7.2% 20mal auf. Jost Reinecke Wahrscheinlichkeitsverteilungen Wahrscheinlichkeitsrechnung Diskrete Variablen und deren Verteilungen Stetige Variablen und deren Verteilungen Wahrscheinlichkeitsverteilungen von Zufallsvariablen lassen sich durch Parameter beschreiben: 1. Erwartungswert: Der Erwartungswert einer diskreten Variablen X ist der Wert, der bei unendlich vielen Wiederholungen des Experiments zu erwarten ist. Bei einer Binomialverteilung lautet dieser: E (X ) = n · p (4) 2. Varianz: Die Varianz einer diskreten Variablen X informiert darüber, wie stark die einzelnen Werte um den Erwartungswert. Bei einer Binomialverteilung lautet diese: Var (X ) = n · p · q; Jost Reinecke q =1−p Wahrscheinlichkeitsverteilungen (5) Wahrscheinlichkeitsrechnung Diskrete Variablen und deren Verteilungen Stetige Variablen und deren Verteilungen Beispiel: Wie hoch ist der Erwartungswert und die Varianz, bei 100 Würfen eine Augenzahl von 6 zu erhalten? E (X ) = n · p = 100 · 0.16̄ = 16.6̄ Var (X ) = n · p · q = 100 · 0.16̄ · 0.83̄ = 13.8̄ Jost Reinecke Wahrscheinlichkeitsverteilungen Wahrscheinlichkeitsrechnung Diskrete Variablen und deren Verteilungen Stetige Variablen und deren Verteilungen Stetige Variablen und deren Verteilungen I I I I Von einer stetigen Variablen wird dann gesprochen, wenn die Werte einer Variablen sich nicht nur nach diskreten Merkmalen unterscheiden (beim Würfel sind dies Werte von 1 bis 6), sondern auch Werte dazwischen erreichen können. Eine stetige Variable hat einen kontinuierlichen Merkmalsraum. Für eine stetige Variable gilt die Wahrscheinlichkeitsfunktion der Normalverteilung. Beispiel für eine stetige Variable ist das in einer Stichprobe erhobene Alter. Bei dem folgenden Beispiel werden 1000 Stichprobe mit einer Größe von N=1000 Personen gezogen. Der Altersmittelwert der Grundgesamtheit beträgt 37,268 Jahre. In der folgenden Abbildung ist die Verteilung der Stichprobenmittelwerte (Altersdurchschnitte) dargestellt. Jost Reinecke Wahrscheinlichkeitsverteilungen Wahrscheinlichkeitsrechnung Diskrete Variablen und deren Verteilungen Stetige Variablen und deren Verteilungen Altersdurchschnitte bei 1.000 Stichproben der Größe 1.000 8 7 Häufigkeit in % 6 5 4 3 2 1 0 34.5 35 35.5 36 36.5 37 37.5 38 38.5 39 39.5 Stichprobenmittelwert Jost Reinecke Wahrscheinlichkeitsverteilungen 40 Wahrscheinlichkeitsrechnung Diskrete Variablen und deren Verteilungen Stetige Variablen und deren Verteilungen Die Formel der Normalverteilungsfunktion lautet: fN (x|x̄; s 2 ) = s· 1 √ 1 x−x̄ 2 ) s 2π e− 2 ( Zwei Parameter kennzeichnen die Funktion: 1. Das arithmetische Mittel der Verteilung: x̄ 2. Die Varianz der Verteilung: s 2 Eigenschaften der Normalverteilung: I Symmetrische Verteilung mit einem Gipfel: 50% der Fläche liegen jeweils links und rechts von x̄. I Sie nähert sich asymptotisch der x-Achse und dem Funktionswert 0 wenn x gegen +∞ oder −∞ strebt. Jost Reinecke Wahrscheinlichkeitsverteilungen (6) Wahrscheinlichkeitsrechnung Diskrete Variablen und deren Verteilungen Stetige Variablen und deren Verteilungen Normalverteilungen mit verschiedenen Parametern x̄ und s 2 0.8 0.7 −x=0; s²=0,25 ƒ(x) 0.6 0.5 0.4 0.3 −x=0; s²=1 −x=2; s²=1 0.2 −x=0; s²=4 0.1 0 -5 -4 -3 -2 -1 0 1 2 3 4 x Jost Reinecke Wahrscheinlichkeitsverteilungen 5 Wahrscheinlichkeitsrechnung Diskrete Variablen und deren Verteilungen Stetige Variablen und deren Verteilungen I Die Fläche unterhalb der Normalverteilung gibt an, wie viele x-Werte sich in einem bestimmten Bereich der Verteilung befinden. I Um von der Basis einer Stichprobe Aussagen über die Grundgesamtheit treffen zu können, müssen Flächen unterhalb der Normalverteilung berechnet werden können. I Die Flächenbestimmung kann über die Standardnormalverteilung vorgenommen werden: x2 1 f (x) = √ e − 2 2π Jost Reinecke Wahrscheinlichkeitsverteilungen (7) Wahrscheinlichkeitsrechnung Diskrete Variablen und deren Verteilungen Stetige Variablen und deren Verteilungen I Die Standardnormalverteilung ist die Normalverteilung, deren Mittelwert Null (x = 0) und deren Varianz Eins (s 2 = 1) ist. I Die Werte der Standardnormalverteilung werden als z-Werte bezeichnet. I Die Flächen der Standardnormalverteilung werden in den meisten Lehrbüchern der Statistik in Tabellenform abgedruckt (z. B. im Lehrbuch von Gehring/Weins als z-Verteilung im Anhang A). Jost Reinecke Wahrscheinlichkeitsverteilungen Wahrscheinlichkeitsrechnung Diskrete Variablen und deren Verteilungen Stetige Variablen und deren Verteilungen Flächen unter der Standardormalverteilung a) z = 2,5; Φ(z) = 0,9938 b) z = -0,95; Φ(z) = 0,1711 0.4 0.4 0.3 0.3 0.2 0.2 0.1 0.1 0 0 -4 -3 -2 -1 0 1 2 3 4 -4 c) z = 1,49; Φ(z) = 0,0681 -3 -2 -1 0 1 2 3 4 d) z(a)=-1,03; z(b)=2; Φ(∆z)=0,8257 0.4 0.4 0.3 0.3 0.2 0.2 0.1 0.1 0 0 -4 -3 -2 -1 0 1 2 3 4 Jost Reinecke -4 -3 -2 -1 0 1 2 3 Wahrscheinlichkeitsverteilungen 4 Wahrscheinlichkeitsrechnung Diskrete Variablen und deren Verteilungen Stetige Variablen und deren Verteilungen Flächenberechnung: I Fläche links vom z-Wert: Bei z = 2.5 ergibt sich eine Fläche Φ(z) = 0.9938 I Fläche rechts vom z-Wert: Bei z = 1.49 ergibt sich eine Fläche 1 − Φ(z) = 0.0681 I Flächenberechnung zwischen zwei Werten za und zb : Bei za = −1.03 und zb =2.0 ergibt sich eine Fläche von: Φzb − Φza = 0.9772 − 0.1515 = 0.8257 Jost Reinecke Wahrscheinlichkeitsverteilungen Wahrscheinlichkeitsrechnung Diskrete Variablen und deren Verteilungen Stetige Variablen und deren Verteilungen Für die Intervalle um den Mittelwert (-1;1), (-2;2) und (-3;3) ergeben sich folgende Flächen: 1. Zwischen −1 und +1 liegen 68,27% der Fläche bzw. der z-Werte. 2. Zwischen −2 und +2 liegen 95,45% der Fläche bzw. der z-Werte. 3. Zwischen −3 und +3 liegen 99,73% der Fläche bzw. der z-Werte. Jost Reinecke Wahrscheinlichkeitsverteilungen Wahrscheinlichkeitsrechnung Diskrete Variablen und deren Verteilungen Stetige Variablen und deren Verteilungen Normalverteilung → Standardnormalverteilung: Jede beliebige Normalverteilung kann durch eine z-Transformation in eine Standardnormalverteilung überführt werden: xi − x̄ (8) s Aus der Standardnormalverteilung läßt sich auch umgekehrt jede beliebige Verteilung mit dem Mittelwert x̄ und der Standardabweichung s konstruieren: z= xi = x̄ + z · s (9) Um festzustellen, wieviel Prozent der Fläche zwischen zwei x-Werten liegt, standardisiert man die beiden x-Werte, um die Flächen aus der Tabelle abzulesen: Φ(∆x) = Φxb − Φxa = Φx2 −x̄ /s − Φx1 −x̄ /s = Φ zb − Φ za Jost Reinecke Wahrscheinlichkeitsverteilungen (10) Wahrscheinlichkeitsrechnung Diskrete Variablen und deren Verteilungen Stetige Variablen und deren Verteilungen Beispiel: Gegeben ist eine Normalverteilung mit folgenden Parametern: 1. x̄ = 3 2. s = 4 Berechnet werden soll die Fläche zwischen den Werten x1 = 2 und x2 = 5: Φ(∆x) = = = = = Φ 5 − Φ2 Φ5−3 /4 − Φ2−3 /4 Φ0.5 − Φ0.25 0.6915 − 0.4013 0.2902 29.02% der Werte liegen zwischen den beiden Werten x1 = 2 und x2 = 5. Jost Reinecke Wahrscheinlichkeitsverteilungen Wahrscheinlichkeitsrechnung Diskrete Variablen und deren Verteilungen Stetige Variablen und deren Verteilungen Verteilung der Stichprobenmittelwerte: I I I I Die Verteilung der Stichprobenmittelwerte läßt sich auch durch ihren Mittelwert und ihre Varianz beschreiben (→ siehe Abbildung Altersdurchschnitte bei 1.000 Stichproben der Größe 1.000) Der Mittelwert der Stichprobenmittelwerte entspricht dem wahren Mittelwert der in der Grundgesamtheit. Der wahre Mittelwert wird mit dem griechischen Buchstaben µ bezeichnet. Die Varianz der Stichprobenmittelwerte ist von der Streuung des Merkmals in der Grundgesamtheit abhängig. Diese Streuung wird mit σ 2 bezeichnet. Die Varianz der Stichprobenmittelwerte ist auch von der Stichprobengröße abhängig: Je größer der Umfang der gezogenen Stichproben, desto kleiner ist die Abweichung von wahren Mittelwert der Grundgesamtheit. Jost Reinecke Wahrscheinlichkeitsverteilungen Wahrscheinlichkeitsrechnung Diskrete Variablen und deren Verteilungen Stetige Variablen und deren Verteilungen Die Varianz der Stichprobenmittelwerte entspricht dem Verhältnis zwischen Streuung des Merkmals und Umfang der Stichprobe: σx̄2 = σ2 n (11) Die Standardabweichung der Stichprobenmittelwerte wird auch als Standardfehler des Mittelwerts bezeichnet: r q σ2 σ 2 =√ σx̄ = σx̄ = (12) n n Werden die Parameter µ und σx̄ in die allgemeine Formel der Normalverteilungsfunktion eingesetzt, dann erhält man die Gleichung der Stichprobenmittelwerteverteilung: fN (x̄|µ; σx̄2 ) = 1 − 1 ( x̄−µ )2 √ e 2 σx̄ σx̄ · 2π Jost Reinecke Wahrscheinlichkeitsverteilungen (13) Wahrscheinlichkeitsrechnung Diskrete Variablen und deren Verteilungen Stetige Variablen und deren Verteilungen Beispiel: Gegeben ist die Altersverteilung in der Grundgesamtheit mit folgenden Parametern: 1. µ = 37.268 2. σ 2 = 504.4516 3. σx̄ = 504.4516 1000 = 0.71025 Werden die Parameter in die Gleichung der Stichprobenmittelwerteverteilung eingetragen, dann erhält man die Wahrscheinlichkeitsdichte: fN (37,2|37.268; 0.710252 ) = 1 37.2−37.268 2 1 √ e − 2 ( 0.71025 ) 0.71025 · 2π = 0.5617 · e −0.00458 = 0.5591 Jost Reinecke Wahrscheinlichkeitsverteilungen Wahrscheinlichkeitsrechnung Diskrete Variablen und deren Verteilungen Stetige Variablen und deren Verteilungen Der Wert der Wahrscheinlichkeitsdichte wird mit der gewählten Intervallbreite von 0.1 multipliziert: 0.5591 · 0.1 = 0.05591 ≈ 6% Etwa 6% der 1000 simulierten Stichproben haben einen Altersdurchschnitt von 37.2 Jahren. Bernoulli-Theorem: Mit zunehmender Zahl an Stichproben wird sich der empirische Wert dem theoretischen Wert annähern. Die empirische Verteilung nähert sich damit immer mehr der Normalverteilung. Jost Reinecke Wahrscheinlichkeitsverteilungen Wahrscheinlichkeitsrechnung Diskrete Variablen und deren Verteilungen Stetige Variablen und deren Verteilungen Die Flächenberechnung der Stichprobenmittelwerteverteilung erfolgt über die Tabelle der z-Verteilung. Die x̄-Werte werden in z-Werte transformiert: z= x̄ − µ σx̄ (14) Die Umkehrung der Gleichung lautet: x̄ = µ + z · σx̄ (15) x̄ ist bei einer Stichprobenmittelwerteverteilung ein beliebiger Wert der Verteilung und nicht wie bei der Normalverteilung das arithmetische Mittel. Jost Reinecke Wahrscheinlichkeitsverteilungen Wahrscheinlichkeitsrechnung Diskrete Variablen und deren Verteilungen Stetige Variablen und deren Verteilungen Für die Flächenberechnung der Stichprobenmittelwerte gilt: 1. Zwischen µ − 1 · σx̄ und µ + 1 · σx̄ liegen 68,27% der Stichprobenmittelwerte. 2. Zwischen µ − 2 · σx̄ und µ + 2 · σx̄ liegen 95,45% der Stichprobenmittelwerte. 3. Zwischen µ − 3 · σx̄ und µ + 3 · σx̄ liegen 99,73% der Stichprobenmittelwerte. Zentraler Grenzwertsatz: Mittelwerte aus beliebigen Verteilungen folgen mit zunehmendem Stichprobenumfang einer Normalverteilung. Jost Reinecke Wahrscheinlichkeitsverteilungen