Verteilungen eindimensionaler stetiger Zufallsvariablen • Stetige Verteilungen ¾Chi-Quadrat-Verteilung ¾Studentverteilung ¾Fisher-Verteilung • Typisierung der stetigen theoretischen Verteilungen Prof. Kück / S. Winterfeldt Lehrstuhl Statistik 1 Zufallsvariablen V Bibliografie: ¾ Prof. Dr. Kück Universität Rostock Statistik, Vorlesungsskript, Abschnitt 5.3 ¾ Bleymüller / Gehlert Verlag Vahlen 2003 Statistische Formeln, Tabellen und Programme ¾ Bleymüller / Gehlert / Gülicher Verlag Vahlen 2004 Statistik für Wirtschaftswissenschaftler ¾ Hartung Oldenbourg Verlag 2002 Statistik Prof. Kück / S. Winterfeldt Lehrstuhl Statistik 2 Zufallsvariablen V 1 Chi-Quadrat-Verteilung Sind Z1, Z2, ..., Zν unabhängig standardnormalverteilte Zufallsvariable, d.h. E(Zi)=0 und Var(Zi)=1, so ist die Quadratsumme U=Z1²+Z2²+...+Zν² Chi-Quadratverteilt (χ²-verteilt) mit ν Freiheitsgraden. Es lässt sich zeigen, dass E(U)=ν und Var(U)=2ν sind. Für die Dichte und Verteilungsfunktion ist die GammaFunktion von Bedeutung: 0 für u < 0 ⎧ u ⎪ 1 FCh (u) = ⎨ e−(ν / 2) ⋅ ν (ν / 2)−1dν für u ≥ 0 ν/2 ∫ ν ⎪⎩ 2 ⋅ Γ( 2 ) 0 Bestimmte Werte der Verteilungsfunktion sind in Abhängigkeit von der Anzahl der Freiheitsgrade ν in Tabellen zu finden. Prof. Kück / S. Winterfeldt Lehrstuhl Statistik 3 Zufallsvariablen V Chi-Quadrat-Verteilung f(x) 0,16 fCh(x|5) 0,14 fCh(x|9) 0,12 0,1 fCh(x|13) 0,08 fCh(x|17) 0,06 0,04 0,02 0 0 4 8 12 16 20 24 x 28 Die Dichtefunktion der Chi-Quadrat-Verteilung ist unsymmetrisch und nähert sich mit wachsendem ν der Glockenform der Normalverteilung. Prof. Kück / S. Winterfeldt Lehrstuhl Statistik 4 Zufallsvariablen V 2 Chi-Quadrat-Verteilung Für große ν ist die Zufallsvariable Z∗ = U−ν 2⋅ν näherungsweise standardnormalverteilt. Die Verteilung von √2·U passt sich noch besser der Normalverteilung mit µ=√2·ν–1 und σ²=1 an. Die Zufallsvariable Z∗∗ = 2 ⋅ U − 2 ⋅ ν − 1 ist somit annähernd standardnormalverteilt. Für ν≥30 liefert diese näherungsweise Berechnung gute Resultate. Prof. Kück / S. Winterfeldt Lehrstuhl Statistik 5 Zufallsvariablen V Chi-Quadrat-Verteilung In der folgenden Tabelle sind für ν=40 einige Quantile und ihre Approximationen angegeben: χ²-Quantil 0,05 26,51 0,95 55,76 Approximation durch Z* 25,29 54,71 Approximation durch Z** 26,23 55,47 An der Bildungsvorschrift für U ist schon erkennbar, dass diese Verteilung für die Charakterisierung der Stichprobenvarianzen wichtig ist. Wir werden im Abschnitt 7.1 darauf zurückkommen. Prof. Kück / S. Winterfeldt Lehrstuhl Statistik 6 Zufallsvariablen V 3 Chi-Quadrat-Verteilung Sind die Xi unabhängig und identisch normalverteilt mit den Parametern µ und σ², so ist n n ∑Z = ∑ 2 i i =1 (X i − µ )2 i =1 σ2 eine χ²-verteilte Zufallsgröße mit ν=n Freiheitsgraden. Es lässt sich sogar zeigen, dass (X − X) = (n − 1) ⋅ S U=∑ n 2 i i =1 σ2 σ2 χ²-verteilt ist mit ν=n–1 Freiheitsgraden. Prof. Kück / S. Winterfeldt Lehrstuhl Statistik 7 Zufallsvariablen V Chi-Quadrat-Verteilung Grafische Darstellungen: Verteilungsfunktion (Ny=5 Freiheitsgrade) Dichtefunktion (Ny=5 Freiheitsgrade) f(x) F(x) 1 0,16 0,14 0,12 0,1 0,08 0,06 0,04 0,02 0 0,8 0,6 0,4 0,2 0 0 2 4 6 8 10 x Prof. Kück / S. Winterfeldt Lehrstuhl Statistik 0 2 4 6 8 10 x 8 Zufallsvariablen V 4 Chi-Quadrat-Verteilung Beispiel: Aus einer normalverteilten Grundgesamtheit mit unbekannten Parametern µ und σ² wird eine Stichprobe im Umfang von n=40 gezogen. Daraus wird eine Stichprobenvarianz von s²=100 ermittelt. a) Mit welcher Wahrscheinlichkeit überschreitet die Varianz der Grundgesamtheit die der Stichprobe um mehr als 20 Prozent? b) Wo liegen die Grenzen eines Intervalls, das mit einer Wahrscheinlichkeit von 0,9 die Varianz der Grundgesamtheit überdeckt? (Man halbiere die Restwahrscheinlichkeit am unteren und oberen Intervallende.) Prof. Kück / S. Winterfeldt Lehrstuhl Statistik 9 Zufallsvariablen V Chi-Quadrat-Verteilung Lösung: Es ist U = (n–1)·S²/σ². a) W(σ²>1,2·S²) = W((n–1)/1,2>(n–1)·S²/σ²) = W(32,5>U) U ist χ²-verteilt mit ν=n–1=39 Freiheitsgraden. Tabelliert: FChi(32,737|39)=0,25 ⇒ FChi(32,5|39) = W(32,5>U) ≈ 0,25 Mit einer Wahrscheinlichkeit von 0,25 überschreitet die Varianz der Grundgesamtheit die Varianz der Stichprobe um mehr als 20 Prozent. Anmerkung: Eine um 20 % höhere Varianz σ² entspricht einer um 9,5% höheren Standardabweichung σ: σ²>1,200·S² => σ²>1,095²·S² => σ>1,095·S Prof. Kück / S. Winterfeldt Lehrstuhl Statistik 10 Zufallsvariablen V 5 Chi-Quadrat-Verteilung Lösung (Fortsetzung): b) Zunächst bestimmen wir das 0,05- und das 0,95-Quantil der Chi-Quadrat-Verteilung mit 39 Freiheitsgraden: W(U<u1)=0,05 => U1=25,695 und W(U<u2)=0,95 => U2=54,572 0,05=W(U<u1)=W((n–1)·S²/σ²<u1)=W((n–1)·S²/u1<σ²) ⇒ (n–1)·S²/u1= 39·100/25,695 ≈ 151,8 0,95=W(U<u2)=W((n–1)·S²/σ²<u2)=W((n–1)·S²/u2<σ²) ⇒ (n–1)·S²/u2= 39·100/54,572 ≈ 71,5 Das gesuchte Intervall ist [71,5; 151,8]. Prof. Kück / S. Winterfeldt Lehrstuhl Statistik 11 Zufallsvariablen V Student-Verteilung Die Student- oder t-Verteilung wurde 1908 vom englischen Statistiker W.S. Gosset, der unter dem Pseudonym „Student“ publizierte, im Zusammenhang mit Untersuchungen zur Verteilungsfunktion des arithmetischen Mittelwertes im Falle kleiner Stichproben (n<30) und unbekannter Varianz einer normalverteilten Grundgesamtheit abgeleitet. Bei bekannter Varianz der normalverteilten Grundgesamtheit mit E(X)=µ und Var(X)=σ² gilt, dass die Zufallsgröße X normalverteilt ist mit E(X)=µ. Prof. Kück / S. Winterfeldt Lehrstuhl Statistik 12 Zufallsvariablen V 6 Student-Verteilung Die Varianz von X ist abhängig von der Stichprobenentnahmetechnik: σ2 Var( X) = n Ziehen mit Zurücklegen: σ2 N − n Var( X) = ⋅ n N −1 Ziehen ohne Zurücklegen: Das Bilden einer standardnormalverteilten Zufallsvariablen ist somit beim Ziehen mit Zurücklegen leicht möglich: Z = Prof. Kück / S. Winterfeldt Lehrstuhl Statistik X −µ σ n 13 Zufallsvariablen V Student-Verteilung Ist hingegen die Varianz der Grundgesamtheit unbekannt, so kann dafür die Stichprobenvarianz als Schätzwert benutzt werden. Die Qualität der Schätzung hängt vom Stichprobenumfang ab und führt zur Berücksichtigung von Freiheitsgraden. Die Verteilung der Stichprobenvarianz steht in enger Beziehung zur χ²-Verteilung. Es sei Z eine standardnormalverteilte und U eine χ²-verteilte Zufallsvariable mit ν Freiheitsgraden (Z und U seien voneinander unabhängig). Dann gehorcht die Zufallsgröße T T = Z U ν einer Studentverteilung mit ν Freiheitsgraden. Prof. Kück / S. Winterfeldt Lehrstuhl Statistik 14 Zufallsvariablen V 7 Student-Verteilung In der Dichte- und der Verteilungsfunktion der Studentverteilung taucht wieder die Gammafunktion auf: ⎛ ν +1⎞ Γ⎜ ⎟ 1 2 ⎠ ⎝ ⋅ fS (t ) = (ν +1 ) / 2 2 ⎛ν⎞ νπ ⋅ Γ⎜ ⎟ ⎛⎜ 1 + t ⎞⎟ ⎝ 2 ⎠ ⎜⎝ ν ⎟⎠ mit : −∞ < t < ∞ t FS (t ) = ∫ f S (ν )dν −∞ Prof. Kück / S. Winterfeldt Lehrstuhl Statistik 15 Zufallsvariablen V Student-Verteilung Aufgrund der symmetrischen Form der Dichtefunktion gilt: FS(-t) = 1–FS(t) Erwartungswert und Varianz: E(T) = 0 und Var(T) = ν für ν > 2 ν−2 Für ν=1 existiert kein Erwartungswert und für ν≤2 keine Varianz. Prof. Kück / S. Winterfeldt Lehrstuhl Statistik 16 Zufallsvariablen V 8 Student-Verteilung f(x) 0,4 0,35 fS(x|10) 0,3 fS(x|5) 0,25 fS(x|3) 0,2 fN(x|0|1) 0,15 0,1 0,05 0 -5 -4 -3 -2 -1 0 1 2 3 4 5 x Die Dichtefunktion ist symmetrisch und glockenförmig (flacher als die Gaußkurve). Mit wachsendem ν (genaugenommen für ν→∞) geht die tVerteilung in die Standardnormalverteilung über. In der Praxis wird für ν≥30 bereits mit der Standardnormalverteilung gerechnet. Prof. Kück / S. Winterfeldt Lehrstuhl Statistik 17 Zufallsvariablen V Student-Verteilung Wir betrachten jetzt Zufallsvariablen X1, ..., Xn, die unabhängig und identisch normalverteilt sind mit den Parametern µ und σ². Dann ist die Zufallsgröße Z= U ∗ X−µ σ n ( n − 1) ⋅ S 2 = σ2 standardnormalverteilt und ist χ²-verteilt mit ν=n–1 Freiheitsgraden, so dass die nach obiger Vorschrift gebildete Zufallsvariable T= X−µ S n Prof. Kück / S. Winterfeldt Lehrstuhl Statistik t-verteilt ist mit ν=n–1 Freiheitsgraden. 18 Zufallsvariablen V 9 Student-Verteilung Grafische Darstellungen: Dichtefunktion (Ny=10 Freiheitsgrade) f(x) Verteilungsfunktion (Ny=10 Freiheitsgrade) 0,5 1,2 0,4 F(x) 1 0,8 0,3 0,6 0,2 0,4 0,1 0,2 0 0 -5 -4 -3 -2 -1 0 1 2 3 4 5 -5 -4 -3 -2 -1 0 1 2 3 4 5 x Prof. Kück / S. Winterfeldt Lehrstuhl Statistik x 19 Zufallsvariablen V Student-Verteilung Beispiel: Das Gewicht von Kaffeepäckchen wird als normalverteilt bei unbekannter Varianz σ² angesehen. Der Grundgesamtheit werden zufällig 30 Kaffeepakete entnommen. Als mittleres Gewicht werden 495 g bestimmt. Die mittlere quadratische Abweichung vom Stichprobenmittelwert ergibt die Stichprobenvarianz von 121 g². a) Mit welcher Wahrscheinlichkeit liegt das mittlere Gewicht der Grundgesamtheit unter 490 g? b) Mit welcher Wahrscheinlichkeit liegt das mittlere Gewicht über 510 g? c) Geben Sie ein symmetrisch zum Stichprobenmittelwert gelegenes Intervall an, in dem der Mittelwert der Grundgesamtheit mit einer Wahrscheinlichkeit von 90 % liegt. Prof. Kück / S. Winterfeldt Lehrstuhl Statistik 20 Zufallsvariablen V 10 Student-Verteilung Lösung: ⎛ 495 − µ 495 − 490 ⎞ a) W(µ<490) = W(-µ>-490) = W ⎜⎜ 121 30 > 121 30 ⎟⎟ ⎝ ⎠ = W(T>2,49) = 1–W(T≤2,49) = 1–FS(2,49) ≈ 1–0,99 = 0,01 [W(T≤2,462)=0,99 für ν=n-1=29] ⎛ 495 − µ 495 − 510 ⎞⎟ ⎟ ⎠ b) W(µ>510) = W(-µ<-510) = W⎜⎜ 121 30 < 121 30 ⎝ = W(T<-7,47) = FS(-7,47) = 1–FS(7,47) ≈ 1–1 = 0 [W(T≤3,396)=0,999 für ν=n-1=29] Prof. Kück / S. Winterfeldt Lehrstuhl Statistik 21 Zufallsvariablen V Student-Verteilung Lösung (Fortsetzung): c) W(495-x<µ<495+x) = W(-x<µ-495<x) =W(-x<495-µ<x) = 0,9 ⎞ −x 495 − µ x ⎟ < < ⎟ 121 30 121 30 121 / 30 ⎠ ⎝ ⎛ = W⎜⎜ ⎛ ⎞ −x x ⎟ <T< ⎟ 121 30 121 30 ⎝ ⎠ = W ⎜⎜ = 0,9 ⇒ W(T>x·(121/30)-0,5) = W(T<-x·(121/30)-0,5) = 0,05 ⇒ W(T< x·(121/30)-0,5) = FS(x·(121/30)-0,5) = 0,95 ⇒ x·(121/30)-0,5 = 1,699 [für ν=n-1=29 Freiheitsgrade] ⇒ x = 1,699·2,008 = 3,41 495–3,41 = 491,59 495+3,41 = 498,41 Die gesuchten Intervallgrenzen sind 491,59 (untere) und 498,41 (obere). Daraus folgt, dass sich das vom Kunden erhoffte mittlere Gewicht von mindestens 500 g nicht im berechneten Intervall befindet. Prof. Kück / S. Winterfeldt Lehrstuhl Statistik 22 Zufallsvariablen V 11 Fisher-Verteilung Die nach dem Amerikaner R.A. Fisher benannte Verteilung spielt eine Rolle, wenn der Quotient von Varianzen untersucht werden soll. Ausgehend von der Tatsache, dass die für eine normalverteilte Grundgesamtheit mit der Varianz σ² gebildete Zufallsvariable U= (n − 1) ⋅ S 2 σ2 einer χ²-Verteilung mit ν=n-1 Freiheitsgraden gehorcht, sollen nun zwei normalverteilte Grundgesamtheiten mit den Varianzen σ1² und σ2² betrachtet werden. Die χ²-verteilten Zufallsvariablen U1 = (n1 − 1) ⋅ S12 σ12 und U2 = (n 2 − 1) ⋅ S 22 σ 22 mit den Freiheitsgraden ν1=n1–1 bzw. ν2=n2–1 sollen unabhängig voneinander sein. Prof. Kück / S. Winterfeldt Lehrstuhl Statistik 23 Zufallsvariablen V Fisher-Verteilung U1 Dann ist der Quotient F= U2 ν1 ν2 = S1 2 S2 2 σ1 2 σ2 2 eine F-verteilte Zufallsgröße mit den Freiheitsgraden ν1=n1–1 für den Zähler und ν2=n2–1 für den Nenner. ν2 Für ν2>2 ist der Erwartungswert: E(F ) = ν2 − 2 Für ν2≤2 existiert kein Erwartungswert. E(F) hängt also nur von ν2 ab und nähert sich mit wachsendem ν2 dem Wert 1. Prof. Kück / S. Winterfeldt Lehrstuhl Statistik 24 Zufallsvariablen V 12 Fisher-Verteilung Für ν2>4 ist die Varianz: 2 ⋅ ν 2 ⋅ (ν 1 + ν 2 − 2) 2 Var(F ) = ν 1 ⋅ (ν 2 − 2) ⋅ (ν 2 − 4) 2 Für ν2≤4 existiert keine Varianz. Die Varianz nimmt mit wachsenden ν1 und ν2 ab. Die Argumente der Verteilungsfunktionen der F-Verteilung sind in der Formelsammlung für die kritischen Werte (Quantile) FC=0,95 und FC=0,99 zu ausgewählten Freiheitsgraden ν1 und ν2 tabelliert (Bleymüller/Gehlert, Formelsammlung). Wegen Fα;ν1;ν2 = 1/F1-α;ν2;ν1 erhöht sich die Anzahl der Werte, die aus den Tabellen gewonnen werden können. Prof. Kück / S. Winterfeldt Lehrstuhl Statistik 25 Zufallsvariablen V Fisher-Verteilung Grafische Darstellungen: Dichtefunktion (ν1=20 und ν2=20) f(x) Verteilungsfunktion (ν1=20 und ν2=20) 1 F(x) 1 0,8 0,8 0,6 0,6 0,4 0,4 0,2 0,2 0 0 0 1 2 3 x 4 0 1 2 3 4 x Prof. Kück / S. Winterfeldt Lehrstuhl Statistik 26 Zufallsvariablen V 13 Typisierung der stetigen theoretischen Verteilungen Verteilung Parameter Erwartungswert Grundmodell [Varianz] Gleichverteilung -∞<a<b<∞ (a+b)/2 [(b–a)²/12] Jeder Wert aus dem endlichen Intervall von a bis b ist gleichmöglich. Exponentialverteilung λ>0 1/λ [ λ–2] Exponentiell abklingende Dichtefunktion für Werte aus dem Intervall von o bis +∞. Normalverteilung -∞<µ<∞ σ>0 µ [σ²] Glockenförmige symmetrische Dichtefunktion mit Maximum bei µ und Wendepunkten bei µ±σ. Chi-QuadratVerteilung ν = 1, 2, ... ν [2· ν] Verteilung für Quadratsummen von ν standardnormalverteilten Variablen, SP-Verteilung für Aussagen über Varianz der GG, unsymmetrische Dichte. Prof. Kück / S. Winterfeldt Lehrstuhl Statistik 27 Zufallsvariablen V Typisierung der stetigen theoretischen Verteilungen Verteilung Parameter Erwartungswert [Varianz] Grundmodell Studentverteilung ν = 1, 2, ... 0 für ν > 1 [ν/(ν-2) für ν>2] Verteilung für Quotienten aus standardnormal- und χ²verteilten Größen, SPVerteilung für Aussagen über das arithmetische Mittel, symmetrische Dichte. Fisherverteilung ν1= 1, 2, ... ν2= 1, 2, ... ν2/(ν2-2) für ν2>2 Verteilung für Quotienten aus χ²-verteilten Größen mit ν1 bzw. ν2 Freiheitsgraden im Zähler bzw. Nenner, unsymmetrische Dichte. ⎡ 2ν 22 (ν 1 + ν 2 − 2) ⎤ ⎢ ⎥ ⎣ ν 1 (ν 2 − 2)(ν 2 − 4) ⎦ für ν2>4 Prof. Kück / S. Winterfeldt Lehrstuhl Statistik 28 Zufallsvariablen V 14 Sommerpause!!! Optimale Prüfungsvorbereitung Freudiges Ergebnis Fort von der Uni Mit Fahrrad …Bahn … Auto Ab in die Sonne! …Schiff Prof. Kück / S. Winterfeldt Lehrstuhl Statistik 29 Zufallsvariablen V 15