2.4 Stetige Zufallsvariable Beispiel. Abfüllung von 500–Gramm–Packungen einer bestimmten Ware auf einer automatischen Abfüllanlage. Die Zufallsvariable X beschreibe die Füllmenge einer zufällig ausgewählten Packung in g. X kann jeden Wert (in der Nähe von 500 g) annehmen. Bei beliebig genauer Messung wird i.a. jeder konkrete Wert nur mit Wkt. Null auftreten: P (X = 500) = 0 , aber P (495 < X < 505) wird i.a. positiv sein, und diese Wahrscheinlichkeit beschreibt den Anteil der Packungen mit einer Füllmenge zwischen 495 g und 505 g unter allen abgefüllten Packungen. Nun: Betrachtung von ’immer feineren’ Histogrammen für eine Stichprobe mit sehr vielen kontrollierten Packungen siehe nächste Seite Bei beliebiger Verfeinerung (und immer größeren Stichprobenumfängen) wird eine Funktion erkennbar. Die Verteilungsdichte fX modelliert das Histogramm der relativen Häufigkeiten der Füllmengen aller abgefüllten Pakete, beziehungsweise das ’Abfüllverhalten’ der Maschine, wenn diese Werte in immer feinere Intervalle einsortiert werden. In jedem Teilintervall entspricht die Fläche unter fX der Wkt., dass die ZV Werte in diesem Intervall annimmt. 1 4000 2000 Anzahl Anzahl 3000 2000 1500 1000 1000 500 0 490,00 500,00 490,00 510,00 500,00 510,00 Füllmenge Füllmenge 750 1250 1000 Anzahl Anzahl 500 750 500 250 250 0 490,00 500,00 510,00 490,00 Füllmenge 500,00 Füllmenge 600 500 400 300 200 100 Mean = 500,0029 Std. Dev. = 3,96016 N = 10.000 0 485,00 490,00 495,00 500,00 505,00 Füllmenge 510,00 515,00 510,00 Definition: Eine Zufallsvariable, deren Werte alle reellen Zahlen in einem bestimmten (endlichen oder unendlichen) Intervall annehmen können, und für die eine Funktion fX ≥ 0 existiert, so dass Z b P (a < X < b) = fX (x)dx a gilt, heißt stetige Zufallsvariable. Die Funktion fX heißt Dichtefunktion der ZV X. pqqpqqpqqqpqqpqqqpqqpqqqpqqpqqqp pqqppqqppqp qqppp ppp ppp ppp ppp ppp ppp ppp ppp pppqqpppqqqppqqqp qqpq q q p p q q q qqp p p p p p p p p p p p p p p p p p p qpqq qqpppqqpppqp pppp pppp pppp pppp pppp pppp pppp pppp pppp pppp pppp pppp pppp pppp pppp pppp pppp pppp pppp pppp qppppqqqppp qqppqqqp q X q q q p p p p p p p p p p p p p p p p p p p p p p p p p pq qqqqq ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp qqqqqqqqq q q q pp pp pp pp pp pp pp pp pp pp pp pp pp pp pp pp pp pp pp pp pp pp pp pp pp pp qqqqq qqqqq qqqqqq pp pp pp pp pp pp pp pp pp pp pp pp pp pp pp pp pp pp pp pp pp pp pp pp pp pp qqqqqq qqqqqqq pp pp pp pp pp pp pp pp pp pp pp pp pp pp pp pp pp pp pp pp pp pp pp pp pp pp q q q q q q q qqqqqqqq p p p p p p p p p p p p p p p p p p p p p p p p p p q q pp pp pp pp pp pp pp pp pp pp pp pp pp pp pp pp pp pp pp pp pp pp pp pp pp pp qqqqq qqqqqqqqqqqqq q q q q q q q q p p p p p p p p p p p p p p p p p p p p p p p p p p q q q qqqqqq pppppppppppppppppppppppppp qqqqqqqq f a b > Verteilungsfunktion FX der Zufallsvariablen X Z x FX (x) = P (X ≤ x) = fX (y)dy . −∞ qqqq qqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqq qqqqqqqqqqqqqqqqqq q q q q q q q q q q q q qq qqqqqqqqqqq X qqqqqqqqqq 6 q q q q q q q q q q q q q q qqqqqq qqqqqqqqq ? qqqqqqqqqqqqqqqqqqq qqqqqqqqq qqqqqqqqqqqqqqqq q q q q q q q q q q q q q q q q q q q q q q q q q qq F P (a < X < b) a b > Im Beispiel ist also F (495) die Wahrscheinlichkeit, dass ein zufällig ausgewähltes Paket eine Füllmenge von höchstens 495 g aufweist und modelliert den Anteil aller solcher Pakete an der Gesamtproduktion dieser Maschine. Außerdem gilt P (495 < X < 505) = FX (505) − FX (495). 2 Häufig interessieren Wktn. der Form (X stetige ZV): P (a ≤ X ≤ b) . . . zweiseitiger Toleranzbereich P (X ≤ b) . . . einseitiger - linksseitiger - Toleranzbereich P (a ≤ X) . . . einseitiger - rechtsseitiger - Toleranzbereich Es gilt: P (a < X ≤ b) = FX (b) − FX (a) P (X ≤ b) = FX (b) P (a < X) = 1 − FX (a) Diese Formeln gelten auch für diskrete ZV, dort ist es aber häufig einfacher, mit den Einzelwahrscheinlichkeiten zu rechnen. Hinweis: Da für jeden Wert x gilt: P (X = x) = 0, braucht man bei stetigen ZV nicht zwischen P (a < X < b), P (a < X ≤ b), P (a ≤ X < b) und P (a ≤ X ≤ b) (u.s.w.) zu unterscheiden! 3 Erwartungswert einer stetigen Zufallsvariablen X: Z ∞ E(X) = x fX (x) dx −∞ Rechenregeln: X Zufallsvariable, dann auch a · X + b, a, b ∈ R E(aX + b) = a E(X) + b Beispiel: Stetige gleichmäßige Verteilung über dem Intervall [a,b] aus R: ( fX (x) = 1 b−a , x ∈ [a, b] 0 sonst ”Rechteckverteilung”; jedes Teilintervall von [a,b] gleicher Länge hat die gleiche Wahrscheinlichkeit 0 ,x < a x−a , x ∈ [a, b] FX (x) = b − a 1 ,x > b Z E(X) = b x· a 1 a+b dx = b−a 2 4 Streuung (Varianz) 2 var (X) = D2X = σX = E(X − E(X))2 Z ∞ = (x − E(X))2 fX (x) dx −∞ ! Zahl = E(X 2) − (E(X))2 Z ∞ ↑ x2fX (x)dx −∞ Beispiel: Stetige gleichmäßige Verteilung über [a,b] (b − a)2 var (X) = 12 Rechenregel: var (a · X + b) = a2 var (X) 5 (a, b ∈ R) Die Normalverteilung 1. wichtigste stetige Verteilung 2. viele (physikalische und biologische) Größen sind (näherungsweise!) normalverteilt Gauß −→ Beschreibung von Messfehlern 3. Bedeutung folgt aus sogenannten Grenzwertsätzen Summen sehr vieler kleiner (unabhängiger) Summanden −→ NV Dichtefunktion der NV: Gaußsche Glockenkurve (x−µ)2 1 − f (x) = √ · e 2σ2 , σ 2π NV mit dem Parameter µ und σ X ∼ N (µ, σ 2) µ: Zentrum σ: Form E(X) = µ, var (X) = σ 2 6 −∞ < x < ∞ linke Kurve: Dichtefunktion einer N(0,1)-verteilten ZV rechte Kurve: Dichtefunktion einer N(3,1)-verteilten ZV linke Kurve: Dichtefunktion einer N(0,1)-verteilten ZV rechte Kurve: Dichtefunktion einer N(3,4)-verteilten ZV Es gilt: Ist X ∼ N (µ, σ 2), dann ist Z= X −µ σ standard-normalverteilt: Z ∼ N (0, 1) mit Dichtefunktion: 2 1 − x2 ϕ(x) = √ · e 2π und Verteilungsfunktion: 1 Φ(x) = √ 2π Z x e 2 − t2 dt −∞ (Gaußsche Fehlerfunktion, Erfc) Begriff: Standardisieren Hinweis: Die Verteilungsfunktion einer Normalverteilung (z.B. Φ(x)) ist keine mit einer Formel darstellbare elementare Funktion. Man verwendet deshalb Tafeln für Φ(x) ! Bestimmung von Wahrscheinlichkeiten aus Tafeln !!! Tafeln existieren nur für die Werte der Verteilungsfunktion Φ(x) der N(0,1)-Verteilung für positive Werte x 7 Ablesebeispiele: Φ(1) = 0, 841345 Φ(1, 1) = 0, 864334 Φ(1, 11) = 0, 866500 Es gilt Φ(x) = 1 − Φ(−x) also z.B. Φ(−1) = 1 − Φ(1) = 1 − 0, 841345 = 0, 158655 X ∼ N (µ, σ 2), dann ¶ a−µ P (X < a) = Φ σ µ ¶ µ ¶ b−µ a−µ P (a < X < b) = Φ − Φ σ σ ¶ µ b−µ P (X > b) = 1 − Φ σ µ Achtung: Division durch σ, nicht durch σ 2 Beispiel: X ∼ N (8, 9), Gesucht P (X < 10) ¶ µ ¶ µ 2 10 − 8 = Φ = 0, 747 P (X < 10) = Φ 3 3 8 Quantile der (standardisierten) Normalverteilung Φ(zq ) = q zq . . . Quantil der Ordnung q z0,95 = 1, 645 Andere Bezeichnung möglich! Zusammenhang mit sogenannten kritischen Werten: z1−α , Φ(z1−α ) = 1 − α (”einseitige Fragestellung”): rrrrrrrrrrrrrrrrrrrrrrrrrr rrrrrrrr rrrrr r r r r rrrrr rrrr r rrrr r rr rrrr r r r rrr r rr rrrr r r rrr r r r rrrr r rrr rrrr r r r r rrrr r r r r rrrrr r rr r r rrrrr r r r r r rrrrrr r rrrr r r pprrrpprrprrr¡ r r r r r r r r rr pp pp¡ pp pprrrpprrrpprrrprrrprrrrrrrr ª rrrrrrrrrrrrrrr ϕ Fläche = α 0 z1−α z1−α/2 , Φ(z1−α/2) = 1 − α/2 (”zweiseitige Fragestellung”): rrrr rrrrrrrrrrr rrrrrrrrrrrrrrrr rrrrr rrrrr r r r r rrrr rrr r r rrrr r rrr rrrr r r r r rrrr r rr rrrr r r r rrr r rr rrrr r r r rrrr r r r r rrrr α r rrr rrrrr r r r r rrrrr r r 2 rrrrrr rrrrrrr @ rrrrrrrrr rrrrprrrr ¡ r r r r r r r p p p p p pp ¡ pprrrpp rrpprrrpprrrprrrp rrrp r r r @ ¡ r r r r @ R ª r r r r rrp p p p p p p p ϕ Fläche = −z1− α2 Fläche = 0 9 z1− α2 α 2 ”k · σ Grenzen” für die Normalverteilung: Für X ∼ N (µ, σ 2) gilt P (|X − µ| ≤ kσ) = 2Φ(k) − 1 und für k = 1, 2, 3 ergibt sich 1 · σ Grenze: 0,6826 , 2 · σ Grenze: 0,9546 , 3 · σ Grenze: 0,9974 . rrrrrrrrrrrrrrrrrrrrrrrrr rrrrrrr rrrrr r r r rrrrr rr rrrr rrrr r r r rrrr r rr rrr X r r r rrrr r r r r rrr r r r r r rrrr rrr rrrr rrrr rrrr r r r r rrrrr r r r r r rrrrr r rrrr rrrrrr r r r r r r rrrrrrrr r r r rrrr r rrrrrrrrrrr r r r r r r r r r rrrrrrrr rrrrrrrrrrr f µ−3σ µ−2σ µ−σ µ µ+σ µ+2σ µ+3σ Hinweis: Im Zusammenhang mit der Behandlung von Aufgaben der schließenden Statistik benötigt man verschiedene weitere stetige Verteilungen und deren Tafeln. 10 Des Weiteren hat man die gemeinsame Verteilung von Zufallsvariablen und den Begriff der Unabhängigkeit von Zufallsvariablen zu definieren. Aus Zeitgründen soll der Begriff der Unabhängigkeit nur ”naiv” eingeführt werden. Beispiel • Die Milchleistungen von zwei zufällig aus einer Herde ausgewählten Kühen können durch zwei unabhängige normalverteilte Zufallsvariablen modelliert werden. • Die Milchleistung und der Fettgehalt der Milch einer zufällig aus einer Herde ausgewählten Kuh sollten durch zwei abhängige normalverteilte Zufallsvariablen modelliert werden. Es gilt • Sind X und Y unabhängig und normalverteilt, 2 X ∼ N (µX ; σX ) und Y ∼ N (µY ; σY2 ), so ist auch X + Y normalverteilt: 2 X + Y ∼ N (µX + µY ; σX + σY2 ) allgemeiner gilt mit a , b ∈ IR: 2 aX + bY ∼ N (aµX + bµY ; a2σX + b2σY2 ) insbesondere also z.B.: 2 X − Y ∼ N (µX − µY ; σX + σY2 ) 11