3 Stetige Zufallsvariablen Eine Zufallsvariable heißt stetig, falls zu je zwei Werten a < b auch jeder Zwischenwert im Intervall [a, b] möglich ist Beispiele: X = „Alter“, X = „Körpergröße“, X = „Temperatur“, X = „Intelligenzquotient“ In der Praxis kommen häufig Variablen vor, die als quasistetig aufzufassen sind. Quasistetig bedeutet, dass eine Zufallsvariable extrem viele Ausprägungen besitzt und die Wahrscheinlichkeit eines einzelnen möglichen Wertes vernachlässigbar klein ist. Solche Merkmale werden in der Statistik wie stetige Zufallsvariablen behandelt. Beispiele: X = „Einkommen“, X = „Vermögen“, X = „Umsatz einer Firma“, Statistik_II@finasto 3–1 3.1 Wahrscheinlichkeitsverteilungen Modellierung von stetigen Zufallsvariablen: • P [X = x] = 0 für einen einzelnen möglichen Wert x • Ansatz: Man betrachtet Intervalle und zugehörige Wahrscheinlichkeiten P [X ∈ [a, b]] Wahrscheinlichkeiten stetiger blen Für stetige Zufallsvariablen X gilt P [a ≤ X ≤ b] = Zufallsvaria- P [a < X ≤ b] = P [a ≤ X < b] = P [a < X < b] und P [X = x] = 0 Statistik_II@finasto für jedes x ∈ R 3–2 Die Verteilung einer stetigen Zufallsvariablen lässt sich durch die zugehörige Dichtefunktion charakterisieren. Wahrscheinlichkeiten ergeben sich als Flächen unter der Dichtefunktion. Analogie (Statistik I): Histogramm eines stetigen Merkmals • Gruppierung anhand von Klassen benachbarter Intervalle [c0 , c1 ), [c1 , c2 ), . . . , [ck−1 , ck ) der gleichen Klassenbreite δ • Berechnung der relativen Häufigkeit fj für jede Klasse [cj−1 , cj ) • Histogrammwerte innerhalb jeder Klasse: fj /δ • Fläche des Histogramms über [cj−1 , cj ) = fj Verhalten für großes n: • fj nahe an P [cj−1 ≤ X < cj ] • Falls n → ∞ und gleichzeitig δ → 0, so konvergiert das Histogramm gegen eine Funktion f (x) ≥ 0 (=Dichtefunktion) P [a ≤ X ≤ b] = Fläche von f (x) über [a, b] ∫ b = f (x)dx a Statistik_II@finasto 3–3 Stetige Zufallsvariable 0 Histogramm 0.2 0.4 n=50 0 Histogramm 0.2 0.4 n=500 0 Histogramm 0.2 0.4 n=5000 0 0.2 Dichte 0.4 Model Statistik_II@finasto 3–4 Flächen und Integrale: Für eine positive Funktion f (x) ≥ 0 gilt ∫ b f (x)dx = Fläche von f (x) über [a, b] a Man betrachte eine allgemeine Funktion g(x) mit positiven und negativen Werten. • positiver Teil von g(x): g+ (x) = max{0, g(x)} • negativer Teil von g(x): g− (x) = min{0, g(x)} ∫ b ⇒ g(x)dx = Fläche von g+ (x) über [a, b] a − Fläche von g− (x) über [a, b] Statistik_II@finasto 3–5 Stetige Zufallsvariablen und Dichten X stetige Zufallsvariable: Es existiert eine Funktion f (x), so dass für jedes Intervall [a, b] ∫ b P [a ≤ X ≤ b] = f (x)dx a f heißt (Wahrscheinlichkeits-) Dichte von X Eigenschaften von Dichten: • Positivität: f (x) ≥ 0 • Normierung: Die Gesamtfläche zwischen x-Achse und f (x) ist gleich 1, ∫ ∞ P [−∞ < X < ∞] = f (x)dx = 1 −∞ Verteilungsfunktion einer stetigen Zufallsvariablen ∫ F (x) = P [X ≤ x] = Statistik_II@finasto x f (t)dt −∞ 3–6 Wahrscheinlichkeitsdichte: Z 1 f (x) 0; f (x)dx = 1: + 1 Verteilungsfunktion: F F (x) monoton wachsend ( 1) = 0 ; F 1) = 1 (+ 1 Verteilungsfunktion 1 Dichtefunktion : 0.8 0.6 F(x) f(x) 0.6 0.8 F(x) 0.4 0.4 f(x) 0.2 0.2 F(b) F(b) b 0 b -3 -2 -1 0 x Statistik_II@finasto 1 2 3 -3 -2 -1 0 1 2 3 x 3–7 Die Verteilungsfunktion ist ein zentrales Werkzeug zur Berechnung von Wahrscheinlichkeiten. Die Verteilungsfunktion einer stetigen Zufallsvariable besitzt folgende Eigenschaften: • F (x) ist eine stetige, monoton wachsende Funktion, 0 ≤ F (x) ≤ 1. • F (a) = P [X < a] • P [X ≥ a] = P [X > a] = 1 − F (a) • P [a ≤ X ≤ b] = P [a < X < b] = F (b) − F (a) Interpretation von Dichten: • f (x) groß für alle Werte in einem Intervall [a, b]: Es besteht eine relativ hohe Wahrscheinlichkeit, dass X einen Wert in [a, b] annimmt • f (x) sehr klein für alle Werte in einem Intervall [c, d]: Es besteht eine sehr geringe Wahrscheinlichkeit, dass X einen Wert in [c, d] annimmt Statistik_II@finasto 3–8 Klassifikation von Verteilungen symmetrisch, unimodal 0.4 0.3 0.2 0.1 0.0 -3 -2 -1 0 1 2 3 rechtssteil linkssteil 0.6 0.6 0.4 0.4 0.2 0.2 0.0 0.0 0 1 2 3 -4 4 -3 bimodal -2 -1 multimodal 1.0 4 0.8 3 0.6 2 0.4 1 0.2 0.0 0 -3 -2 -1 Statistik_II@finasto 0 1 2 3 -2.5 -2.0 -1.5 -1.0 -0.5 0.0 0.5 1.0 1.5 2.0 2.5 3–9 3.0 Spezialfall: Stetige Gleichverteilung Stetige Gleichverteilung Eine stetige Zufallsvariable mit Ausprägungen in einem Intervall [a, b] heißt gleichverteilt, falls für jedes Teilintervall [c, d] ⊂ [a, b] gilt d−c P [c ≤ X ≤ d] = b−a Man schreibt: X ∼ U (a, b) Wahrscheinlichkeitsdichte fU (x) = 1 b−a FU (x) = Statistik_II@finasto für a ≤ x ≤ b 0 sonst 0 für x < a Verteilungsfunktion x−a b−a für a ≤ x ≤ b 1 für x > b 3–10 Stetige Gleichverteilung auf [1, 6] 0.15 0.05 0.1 f(x) 0.2 0.25 Dichtefunktion (stetige Gleichverteilung) 1 2 3 4 x 5 6 0.5 0 f(x) 1 Verteilungsfunktion (stetige Gleichverteilung) 0 Statistik_II@finasto 1 2 3 x 4 5 6 7 3–11 Beispiel: Wartezeit auf eine Straßenbahn • Ideale Welt: An einer bestimmten Haltestelle hält jeweils genau alle 20 Minuten eine Straßenbahn • Eine Person kommt ohne Kenntnis des Fahrplans zu einer zufälligen Zeit an die Haltestelle X = „Wartezeit (in Minuten) auf die nächste Straßenbahn“ ⇒ X ∼ U (0, 20) P [0 ≤ X ≤ 20] = 1 10 = 0, 5 20 10 P [X ≥ 10] = 1 − = 0, 5 20 10 5 P [5 ≤ X ≤ 10] = − = 0, 25 20 20 P [X ≤ 10] = Statistik_II@finasto 3–12 3.2 Verteilungsparameter Erwartungswert Diskrete Zufallsvariable: µ = E(X) = ∑ xi f (xi ) i≥1 Stetige Zufallsvariable: ∫ ∞ µ = E(X) = −∞ x · f (x)dx Rechenregeln: • Y = aX + b, a, b beliebig E(Y ) = E(aX + b) = aE(X) + b • Für zwei Zufallsvariablen X und Y E(X + Y ) = E(X) + E(Y ) Beispiel: X ∼ U (a, b) → E(X) = Statistik_II@finasto a+b 2 3–13 Beispiele: Zwei Verteilungen mit ∫ x E(X) = x · f (x)dx = 0 −∞ y 0.3 0 0 0.1 0.1 0.2 0.2 y 0.3 0.4 0.5 Wahrscheinlichkeitsdichte f(x) 0.4 Wahrscheinlichkeitsdichte f(x) -5 0 x 5 -3 -2 -1 1 2 3 1 2 3 x f(x) 0 -0.5 -0.2 -0.1 0 y y 0.1 0.2 0.5 x f(x) 0 x -5 E(X) = 0 Statistik_II@finasto 0 x 5 -3 -2 -1 0 x E(X) = 0 3–14 Beispiele mit E(X) = 0 und E(X) > 0 0 0.1 0.2 y 0.3 0.4 Wahrscheinlichkeitsdichte f(x) -5 0 x 5 -0.2 -0.1 0 y 0.1 0.2 x f(x) -5 0 x 5 E(X) = 0 0 0.1 0.2 y 0.3 0.4 Wahrscheinlichkeitsdichte f(x) -5 0 x 5 0 0.2 y 0.4 x f(x) -5 0 x 5 E(X) = 1 0 0.1 0.2 y 0.3 0.4 Wahrscheinlichkeitsdichte f(x) -5 0 x 5 0 0.2 0.4 y 0.6 0.8 x f(x) -5 0 x 5 E(X) = 2 Statistik_II@finasto 3–15 Varianz Diskrete Zufallsvariable: 2 σ = Var(X) = ∑ (xi − µ)2 f (xi ) i≥1 Stetige Zufallsvariable: ∫ σ 2 = Var(X) = ∞ −∞ (x − µ)2 · f (x)dx √ σ = Var(X) heißt Standardabweichung Rechenregeln: • Var(X) = E(X − µ)2 = E(X 2 ) − µ2 • Y = aX + b, a, b beliebig Var(Y ) = Var(aX + b) = a2 · Var(X) • Für unabhängige Zufallsvariablen X und Y Var(X + Y ) = Var(X) + Var(Y ) Beispiel: X ∼ U (a, b) ⇒ Var(X) = Statistik_II@finasto (b−a)2 12 3–16 • Der Erwartungswert µ = E(X) ist ein Lageparameter, der Aufschluss über das Zentrum der Verteilung gibt. • Die Standardabweichung ist ein Maß für die Dispersion Ungleichung von Tschebyscheff: 1 P [|X − µ| > kσ] ≤ 2 k für alle k > 0 1 k2 [µ − kσ, µ + kσ] heißt zentrales Schwankungsintervall ⇒ P [µ − kσ ≤ X ≤ µ + kσ] ≥ 1 − k P [µ − kσ ≤ X ≤ µ + kσ] 2 ≥1− 3 ≥1− 4 ≥1− 1 4 = 0, 75 1 9 ≈ 0, 89 1 16 = 0, 9375 Achtung: Die Ungleichung gibt nur eine untere Schranke für die Wahrscheinlichkeit. Genauere Berechnungen auf der Basis spezieller Verteilungsmodelle. Statistik_II@finasto 3–17 Beispiel: X EX Zufallsvariable mit ( ) = 0, (Dichte = Glockenkurve) V ar(X ) = 1 Y 0 0.2 0.4 k=1: P(-1<X<1) = 0.6827 -4 -2 0 X 2 4 Y 0 0.2 0.4 k=2: P(-2<X<2) = 0.9545 -4 -2 0 X 2 4 Y 0 0.2 0.4 k=3: P(-3<X<3) = 0.9973 -4 -2 0 X 2 4 Y 0 0.2 0.4 k=4: P(-4<X<4) = 0.9999 -4 Statistik_II@finasto -2 0 X 2 4 3–18 Beispiel: X EX Zufallsvariable mit ( ) = 0, (Dichte = schiefe Dichte) V ar(X ) = 1 0 Y 0.2 k=1: P(-1<X<1) = 0.5443 -3 -2 -1 0 1 2 X 3 4 5 6 7 6 7 6 7 6 7 0 Y 0.2 k=2: P(-2<X<2) = 0.9089 -3 -2 -1 0 1 2 X 3 4 5 0 Y 0.2 k=3: P(-3<X<3) = 0.9579 -3 -2 -1 0 1 2 X 3 4 5 0 Y 0.2 k=4: P(-4<X<4) = 0.9808 -3 Statistik_II@finasto -2 -1 0 1 2 X 3 4 5 3–19 Weitere Verteilungsparameter einer stetigen Zufallsvariable X Modus: xmod ist ein Wert, für den die Dichtefunktion f (x) maximal wird. Median: xmed ist der Wert, für den gilt: F (xmed ) = P [X ≤ xmed ] = P [X ≥ xmed ] = 1−F (xmed ) = Quantile: Für 0 < p < 1 ist das p-Quantil xp der Wert, für den F (xp ) = P [X ≤ xp ] = p und 1 − F (xp ) = P [X ≥ xp ] = 1 − p gilt. Median und Quantile sind eindeutig bestimmt, wenn die Verteilungsfunktion F streng monoton ist. Statistik_II@finasto 3–20 1 2 Illustration: Quantil xp Verteilungsfunktion: P [X ≤ xp ] = F (xp ) = p 1.0 F(x) 0.8 p 0.6 0.4 0.2 0.0 -3 -2 -1 0 1 xp 2 3 Dichte: Das Quantil xp teilt die Gesamtfläche von f über der x-Achse in zwei Teile der Größen p = P [X ≤ xp ] und 1 − p = P [X ≥ xp ] auf. 0.4 0.3 0.2 0.1 p 1-p 0.0 -3 Statistik_II@finasto -2 -1 0 xp 1 2 3 3–21 Lageregeln Symmetrische Verteilung: xmod = xmed = µ xmod = xmed = µ Linkssteile Verteilung: xmod ≤ xmed ≤ µ xmod xmed µ Rechtssteile Verteilung: µ ≤ xmed ≤ xmod µ Statistik_II@finasto xmed xmod 3–22 3.3 Die Exponentialverteilung Exponentialverteilung Eine stetige Zufallsvariable X mit nichtnegativen Werten heißt exponentialverteilt mit Parameter λ > 0, kurz X ∼ Ex(λ), wenn sie die Dichte λe−λx für x ≥ 0 fEx (x) = 0 sonst besitzt. Es gilt: E(X) = λ1 , Var(X) = 1 λ2 Dichten der Exponentialverteilung 1.0 λ=1 0.8 0.6 0.4 λ=0,5 0.2 0.0 0 2 Statistik_II@finasto 4 6 8 10 3–23 Verteilungsfunktion 1 − e−λx für x ≥ 0 FEx (x) = 0 für x < 0 Zusammenhang mit der Poisson-Verteilung: Anzahl des Auftretens eines Ereignisses Y = „A“ in einem festen Zeitintervall [0, 1] Yt = Anzahl des Auftretens des Ereignisses „A“ in dem Zeitintervall [0, t] Y ∼ P o(λ) ⇒ Yt ∼ P o(λt) Für X = Wartezeit bis zum ersten Auftreten des Ereignisses „A“ gilt dann X ∼ Ex(λ), denn P [X ≤ t] = 1 − P [Yt = 0] = 1 − e−λt Statistik_II@finasto 3–24 3.4 Die Normalverteilung (Gauß-Verteilung) Normalverteilung Eine Zufallsvariable X heißt normalverteilt mit Parametern µ ∈ R und σ 2 > 0, kurz X ∼ N (µ, σ 2 ), wenn sie die Dichte ( ) 2 1 (x − µ) f (x) = √ exp − für x ∈ R 2 2σ 2πσ besitzt. Es gilt: E(X) = µ, Var(X) = σ 2 • Die Normalverteilung wird auch als Gauß-Verteilung und die Dichte als Gauß-Kurve bezeichnet • Die Normalverteilung spielt eine zentrale Rolle in der induktiven Statistik. Bei sehr vielen Zufallsphänomenen wird angenommen, dass sie zumindest approximativ normalverteilt sind. • Normalverteilungen sind unimodal und symmetrisch un ihren Mittelwert µ Statistik_II@finasto 3–25 Gauß-Kurven mit µ = 0 und σ 2 = 0.25, 1, 4 N(0,0.25) 0.8 0.6 0.4 N(0,1) 0.2 N(0,2) 0.0 -4 -2 0 2 4 Gauß-Kurven mit µ = −1, 0, 2 und σ 2 = 1 N(0,1) 0.4 N(2,1) N(-1,1) 0.3 0.2 0.1 0.0 -4 -2 0 2 4 Gauß-Kurven mit verschiedenen µ und σ 2 N(2,0.16) 1.0 0.8 0.6 N(0,1) 0.4 N(-1,2.25) 0.2 0.0 -4 Statistik_II@finasto -2 0 2 4 3–26 Spezialfall mit µ = 0, σ 2 = 1: Standardnormalverteilung N (0, 1) Dichte der Standardnormalverteilung N (0, 1): ( 2) 1 x ϕ(x) = √ exp − für x ∈ R 2 2π Verteilungsfunktion: ∫ Φ(x) = ∫ x x ϕ(t)dt = −∞ −∞ ( 2) 1 t √ exp − dt 2 2π • Die Standardnormalverteilung ist symmetrisch zum Nullpunkt, Φ(−x) = 1 − Φ(x) • Die Werte von Φ(z) sind tabelliert. Statistik_II@finasto 3–27 Die Quantile der Standardnormalverteilung Die Quantile der Standardnormalverteilung sind durch Φ(zp ) = p bestimmt. Wegen der Symmetrie gilt zp = −z1−p p 50% 75% 90% 95% 97,5% 99% zp 0 = xmed 0,675 1,282 1,645 1,960 2,326 0.4 φ(x) 0.3 0.2 0.1 1-p 1-p 0.0 -3 Statistik_II@finasto -2 -zp -1 0 1 zp 2 3 3–28 Rückführung einer allgemeinen N (µ, σ 2 )-Verteilung auf die Standardnormalverteilung: Standardisierung: Ist X ∼ N (µ, σ 2 ), so ist die standardisierte Zufallsvariable X −µ Z= σ standardnormalverteilt, d.h. Z ∼ N (0, 1) Für die Verteilungsfunktion F von X gilt: ( ) x−µ x−µ F (x) = Φ = Φ(z) mit z = σ σ Quantile: Für 0 < p < 1 berechnet sich das pQuantil xp der N (µ, σ)-Verteilung durch zp = xp − µ bzw xp = µ + σzp σ ⇒ P [a ≤ X ≤ b] = F (b) − F (a) ( ) ( ) b−µ a−µ =Φ −Φ σ σ Statistik_II@finasto 3–29 Beispiel: Füllmenge von Bier In einer Abfüllanlage werden Flaschen mit nominal 50 cl Bier gefüllt. Die Anlage arbeitet jedoch nicht vollständig exakt. Im Mittel werden tatsächlich 50 cl eingefüllt, die Standardabweichung beträgt jedoch 1,2 cl. Modell: X = „Füllmenge“ ∼ N (50, 1.44) ( ) 52 − 50 P [X ≤ 52] = F (52) = P Z ≤ 1, 2 = P [Z ≤ 1, 67] = Φ(1, 67) = 0, 953 P [X ≥ 49] = 1 − F (49) ( ) 49 − 50 = 1 − Φ(−0, 833) =1−Φ 1, 2 = 1 − (1 − Φ(0, 833)) = 0, 797 Statistik_II@finasto 3–30 Zentrale Schwankungsintervalle Ist X ∼ N (µ, σ 2 ), so gilt für α > 0 P [µ − z1−α/2 σ ≤ X ≤ µ + z1−α/2 σ] = 1 − α Für z1−α/2 = k erhält man die Bereiche P [µ − σ ≤ X ≤ µ + σ] = 0, 6827 k=1: k=2: P [µ − 2σ ≤ X ≤ µ + 2σ] = 0, 9545 k=3: P [µ − 3σ ≤ X ≤ µ + 3σ] = 0, 9973 1−α α/2 µ−z1-α/2 σ Statistik_II@finasto α/2 µ µ+z1-α/2 σ 3–31 Beispiel: Füllmenge von Bier X = „Füllmenge“ ∼ N (50, 1.44) Frage: Zwischen welchen Werten liegt die tatsächliche Füllmenge mit einer Wahrscheinlichkeit von 95%? 0, 95 = 1 − α ⇒ α = 0, 05, z1−α/2 = z0,975 = 1, 96 ⇒ P [µ − 1, 96σ ≤ X ≤ µ + 1, 96σ] = 1 − α = 0, 95 Anwendung auf Füllmenge: P [47, 65 ≤ X ≤ 52, 35] = 0, 95 95% 2,5% 2,5% µ−1.96σ Statistik_II@finasto µ µ+1.96σ 3–32 Eigenschaften der Normalverteilung: Lineare Transformation Für X ∼ N (µ, σ 2 ) ist die linear transformierte Variable Y = aX + b wieder normalverteilt mit Y ∼ N (aµ + b, a2 σ 2 ) Addition 2 Sind X ∼ N (µX , σX ) und Y ∼ N (µY , σY2 ) normalverteilt und unabhängig, so gilt 2 X + Y ∼ N (µX + µY , σX + σY2 ) Verallgemeinerung: Sind Xi ∼ N (µi , σi2 ) unabhängig, so ist jede Linearkombination Y = a1 X1 + . . . + an Xn normalverteilt mit Y ∼ N (a1 µ1 + . . . + an µn , a21 σ12 + . . . + a2n σn2 ) Statistik_II@finasto 3–33 Der zentrale Grenzwertsatz Zufallsvariable X (diskret oder stetig) Beispiele: X =”Geschlecht einer zufällig ausgewählten Person” (0/1 falls weiblich/männlich); X =”Einkommen einer zufällig ausgewählten Person”, Einfache Zufallsstichprobe des Umfangs n (bzw. nmalige unabhängige Wiederholung des Zufallsexperiments): • Folge X1 , . . . , Xn von Zufallsvariablen, die jeweils eine einzelne Ziehung (Wiederholung) beschreiben • Alle Xi haben die gleiche Verteilung wie X und X1 , . . . , Xn sind voneinander unabhängig, µ = E(X) = E(Xi ), σ 2 = Var(X) = Var(Xi ) X1 , . . . , Xn - unabhängig und identisch verteilte Zufallsvariablen (mit Mittelwert µ und Varianz σ 2 ) Statistik_II@finasto 3–34 Man betrachte nun den Mittelwert: n ∑ 1 • X̄ = n Xi (Zufallsvariable!!) i=1 • x̄ = 1 n n ∑ xi tatsächlich beobachteter (realisierter) i=1 numerischer Wert (z.B. x̄ = 0, 0456) Zentraler Grenwertsatz Seien X1 , . . . , Xn unabhängig und identisch verteilte Zufallsvariablen mit Mittelwert µ und Varianz σ 2 . Dann gilt ( ) X̄ − µ √ ≤ z → Φ(z) für n → ∞ P σ/ n Mit anderen Worten: Für großes n gilt approximativ ( ) 2 σ X̄ ∼ N µ, n Folgerung für Summen von Zufallsvariablen: n groß, so gilt approximativ n ∑ Xi ∼ N (nµ, nσ 2 ) i=1 Anmerkung: Die asymptotische Normalität von X̄ gilt unabhängig von der Struktur der Verteilung der Xi (diese Verteilung ist natürlich für alle Stichprobenumfänge n die gleiche (z:B. Exponentialverteilung, Bernoulli, etc.) Statistik_II@finasto 3–35 Beispiel: N = 7 Kugeln: 10, 11, 11, 12, 12, 12, 16 X: „Zahl auf einer zufällig gezogenen Kugel“ x 10 11 12 16 f (x) 1/7 2/7 3/7 1/7 µ = E(X) = 12, σ 2 = Var(X) = 22/7 = 3.143 Einfache Zufallsstichprobe (n = 2): Unabhängig und identisch verteilte Zufallsvariablen X1 und X2 X1 : „Zahl auf der 1. gezogenen Kugel“ X2 : „Zahl auf der 2. gezogenen Kugel“ Mögliche Realisationen: 2.Kugel 1.Kugel 10 11 11 12 12 12 16 10 (10;10) 10;11 10;11 10;12 10;12 10;12 10;16 11 11;10 (11;11) 11;11 11;12 11;12 11;12 11;16 11 11;10 11;11 (11;11) 11;12 11;12 11;12 11;16 12 12;10 12;11 12;11 (12;12) 12;12 12;12 12;16 12 12;10 12;11 12;11 12;12 (12;12) 12;12 12;16 12 12;10 12;11 12;11 12;12 12;12 (12;12) 12;16 16 16;10 16;11 16;11 16;12 16;12 16;12 (16;16) Statistik_II@finasto 3–36 Mögliche Stichprobenmittelwerte x̄ 2. Kugel 1. Kugel 10 11 11 12 12 12 16 10 (10) 10,5 10,5 11 11 11 13 11 10,5 (11) 11 11,5 11,5 11,5 13,5 11 10,5 11 (11) 11,5 11,5 11,5 13,5 12 11 11,5 11,5 (12) 12 12 14 12 11 11,5 11,5 12 (12) 12 14 12 11 11,5 11,5 12 12 (12) 14 16 13 13,5 13,5 14 14 14 (16) Wahrscheinlichkeitsverteilung von X̄ x 10 10.5 11 11.5 12 13 13,5 14 16 f (x) 1 49 4 49 10 49 12 49 9 49 2 49 4 49 6 49 1 49 E(X) = 12 = µ, Var(X) = 22/14 = σ 2 /2 Für wachsendes n gibt es immer mehr mögliche Werte von X ⇒ Übergang zu einer quasistetigen Verteilung, die sich für genügend großes n durch eine Normalverteilung approximieren lässt ( ) 22/7 X̄ ∼ N 12, n Statistik_II@finasto 3–37 Verteilungen der Zufallsvariablen Xi E(X) E(X) Zugehörige Verteilungen des Mittelwertes X̄ = E(X) E(X) E(X) E(X) E(X) 1 n ∑n i=1 E(X) n=2 E(X) E(X) E(X) E(X) E(X) E(X) n=4 E(X) E(X) n = 30 Statistik_II@finasto 3–38 Xi Verhalten von X̄ für n → ∞: σ σ √ √ P [µ − z1−α/2 ≤ X̄ ≤ µ + z1−α/2 ]≈1−α n n Die Länge 2z1−α/2 √σn dieser zentralen Schwankungsintervalle wird für steigendes n immer kleiner. n=1600 n=100 α/2 1−α 1−α α/2 α/2 µ Beispiel: σ = 1, α = 0, 05 ⇒ z1−α/2 √σn = α/2 µ 1,96 √ n n = 100 P [µ − 0, 196 ≤ X̄ ≤ µ + 0, 196] ≈ 0, 95 n = 1600 P [µ − 0, 049 ≤ X̄ ≤ µ + 0, 049] ≈ 0, 95 ⇒ Für großes n ist zu erwarten, dass der beobachtete Mittelwert x̄ sehr nahe am Erwartungswert µ der Zufallsvariablen liegt (Gesetz der großen Zahlen) Statistik_II@finasto 3–39 Anwendung des zentralen Grenzwertsatzes: Approximation der Binomialverteilung Zentraler Grenzwertsatz Sei X ∼ B(n, p). Für großes n gilt approximativ X − np Z=√ ∼ N (0, 1) np(1 − p) bzw. X ∼ N (np, np(1 − p)) Faustregeln: np ≥ 5, n(1 − p) ≥ 5 Anwendung (mit Stetigkeitskorrektur): ( ) x − 0, 5 − np P [X < x] ≈ Φ √ np(1 − p) ) ( x + 0, 5 − np P [X ≤ x] ≈ Φ √ np(1 − p) ⇒ P [x1 ≤ X ≤ x2 ] ) ) ( ( x2 + 0, 5 − np x1 − 0, 5 − np √ √ ≈Φ −Φ np(1 − p) np(1 − p) Statistik_II@finasto 3–40 3.5 Spezielle Verteilungsmodelle χ2 -Verteilung Seien X1 , . . . , Xn unabhängige und identisch N (0, 1)-verteilte Zufallsvariablen. Dann heißt die Verteilung von χ2 = X12 + · · · + Xn2 Chi-Quadrat-Verteilung mit n Freiheitsgraden, kurz χ2 ∼ χ2 (n). Es gilt: E(χ2 ) = n, Var(χ2 ) = 2n Dichten der χ2-Verteilung 0.5 n=2 0.4 0.3 0.2 n=5 0.1 n=10 0.0 0 Statistik_II@finasto 5 10 15 20 3–41 • Die Dichten der χ2 -Verteilung sind linkssteil, nähern sich jedoch für große n der Gauß-Kurve an (zentraler Grenzwertsatz) • n > 30: χ2 (n) ≈ N (n, 2n) • Wichtige Quantile der χ2 (n)-Verteilung sind tabelliert. Für n > 30 benutzt man eine Normalverteilungsapproximation χ2p;n √ 1 = (zp + 2n − 1)2 2 Anwendungsbereich: Verfahren der inferentiellen Statistik (Anpassungstests, Tests im Zusammenhang mit Varianzen); spezielle Lebensdauermodelle Statistik_II@finasto 3–42 t-Verteilung, Student-Verteilung Seien X ∼ N (0, 1) und Y ∼ χ2n unabhängig. Dann heißt die Verteilung von X √ T = Y /n t-Verteilung mit n Freiheitsgraden, kurz T ∼ t(n). Es gilt: E(T ) = 0, (n > 1), n , (n > 2) Var(T ) = n−2 Dichten der Student-Verteilung 0.4 n=10 0.3 0.2 0.1 n=1 0.0 -4 Statistik_II@finasto -2 0 2 4 3–43 • Die Dichten der t-Verteilung sind symmetrisch um 0. Im Vergleich zu ϕ besitzen sie für kleine n größere Enden, d.h. die Flächen unter den Dichtekurven für kleine und große Werte x sind größer. • n groß (n > 30): t(n) ≈ N (0, 1) • Wichtige Quantile der t(n)-Verteilung sind tabelliert. Für n > 30 benutzt man eine Normalverteilungsapproximation tp;n ≈ zp Anwendungsbereich: Verfahren der inferentiellen Statistik (Tests im Zusammenhang mit Mittelwerten); robuste Statistik (Modellierung von Daten mit einem hohen Anteil extremer Werte) Statistik_II@finasto 3–44 Fisher-Verteilung Seien X ∼ χ2 (m) und Y ∼ χ2 (n) unabhängig. Dann heißt die Verteilung von X/m F = Y /n Fisher- oder F -Verteilung mit den Freiheitsgraden m und n, kurz F ∼ F (m, n). n Es gilt: E(F ) = n−2 (für n > 2) Anwendungsbereich: Quantile der F -verteilung (tabelliert) werden bei Testverfahren in der Regressions- und Varianzanalyse benötigt Dichten der F-Verteilung F(50,50) 1.2 F(2,10) 0.8 F(10,3) 0.4 0.0 0 Statistik_II@finasto 1 2 3 4 3–45