Kapitel 1 Wahrscheinlichkeitsräume und Zufallsvariablen 1.1 Modellierung von Zufallsexperimenten Der Begriff Zufallsexperiment steht hier für jeden realen Vorgang, der vom Zufall beeinflusst wird. Typischerweise liefert ein Zufallsexperiment ein Ergebnis, das “zufällig” (zumindest teilweise) ist. Beispiele für Zufallsexperimente: • Glücksspiele (z.B. Münzwurf, Würfeln, Lotto) • 0-1-Experimente (Bernoulli-Experimente), wobei z.B. “1” für Erfolg und “0” für Misserfolg steht (z.B. Therapie, Platzierung, Schießen). Das betrachtete Zufallsexperiment kann die einmalige Durchführung eines 0-1-Experimentes sein oder auch eine mehrmalige (z.B. die 10-malige) “unabhängige” Durchführung eines 0-1-Experimentes. • Zufällige Anzahlen (z.B. Anzahl von Kunden oder Aufträgen, Anzahl von Verkehrsunfällen, Anzahl radioaktiver Zerfälle) • Lebensdauern / Ausfallzeitpunkte (z.B. von technischen Bauteilen, von Lebewesen) • Industrielle Fertigung: Quantitative Charakteristika gefertigter Produkte (z.B. elektr. Widerstände, Festigkeit von Materialien, geometrische Abmessungen von techn. Bauteilen) Mathematisches Modell eines Zufallsexperiments: Ein W-Raum (M, A, P ) , wobei die Bestandteile diese Tripels folgende Bedeutung haben. • M ist die Menge aller möglichen Ergebnisse des Zufallsexperiments. Die Festlegung der Ergebnismenge M kann ruhig auch ‘Redundanzen’ beinhalten, d.h. Elemente x als ‘mögliche Ergebnisse’ einbeziehen, die praktisch gar nicht möglich sind. • A ist ein System von “Ereignissen”, denen jeweils eine Wahrscheinlichkeit zugeordnet werden kann; ein “Ereignis” A ist eine Teilmenge von M und steht für das Ereignis, dass das Ergebnis x des Zufallsexperiments in A liegt (x ∈ A). • P ist eine W-Verteilung, die jedem Ereignis A ∈ A eine W’keit P (A) ∈ [ 0 , 1 ] zuordnet. Die W-Verteilung P ist geeignet festzulegen (“Verteilungsannahme”) entsprechend dem konkret zu beschreibenden Zufallsexperiment. Im diskreten Fall, d.h. wenn die Ergebnismenge M abzählbar ist (z.B. endlich ist), definiert man eine W-Verteilung P einfach durch Festlegung der W’keiten P (x) für jedes mögliche Ergebnis x ∈ M (Elementarereignis); das Ereignissystem A ist die gesamte Potenzmenge von M und die W’keiten für beliebige Ereignisse ergeben sich dann durch X P (A) = P (x) ∀A⊆M. x∈A 1 Norbert Gaffke: Vorlesung “Einführung in die Wahrscheinlichkeitstheorie und Statistik”, Wintersemester 2012/13 Kapitel 1: Wahrscheinlichkeitsräume und Zufallsvariablen 2 In nicht-diskreten Fällen (z.B. M = R) ist das komplizierter; hier können wir uns i.A. nicht auf Elementarereignisse zurückziehen; auch kann i,A. das Ereignissystem A nicht als die gesamte Potenzmenge P(M ) gewählt werden. Beispiele: Modelle für einige einfache Zufallsexperimente (1) Würfeln (einmal). M = {1, 2, 3, 4, 5, 6} , . P (x) = 1/6 ∀ x = 1, 2, . . . , 6 . (2) Würfeln (zweimal, unabhängig voneinander). Ein Würfel wird zweimal geworfen (erster Wurf und zweiter Wurf), oder es werden zwei ‘unterscheidbare’ Würfel (Würfel Nr. 1 und Würfel Nr. 2) gleichzeitig geworfen. © ª M = x = (x1 , x2 ) : x1 , x2 ∈ {1, 2, 3, 4, 5, 6} , P (x) = 1/36 ∀ x = (x1 , x2 ) ∈ M . (3) Lotto-Ziehung ‘6 aus 49’ ohne Zusatzzahl. © ª M = x = (x1 , x2 , . . . , x6 ) : 1 ≤ x1 < x2 < . . . < x6 ≤ 49 , xi ∈ N (1 ≤ i ≤ 6) , ±¡ ¢ P (x) = 1 49 ∀x∈M. 6 (4) 0-1-Experiment (einmalige Durchführung). ½ M = {0, 1} , P (x) = p , falls x = 1 1 − p , falls x = 0 , wobei p ∈ [ 0 , 1 ] gegeben ist (die ‘Erfolgswahrscheinlichkeit’). Interessanter sind mehrmalige unabhängige Durchführungen des 0-1-Experiments: (5) 0-1-Experiment (n-malige unabhängige Durchführung). © ª M = {0, 1}n = x = (x1 , x2 , . . . , xn ) : xi ∈ {0, 1} ∀ i = 1, . . . , n , P (x) = pS(x) (1 − p)n−S(x) ∀ x = (x1 , . . . , xn ) ∈ M , wobei S(x) = n P i=1 xi . (6) Eine zufällige Anzahl: Binomial-Modell. Zufallsexperiment: Ein 0-1-Experiment (mit Erfolgswahrscheinlichkeit p ∈ [ 0 , 1 ] ) wird n-mal unabhängig durchgeführt, und als Ergebnis wird lediglich die Anzahl der erzielten Erfolge festgehalten. Modell: µ ¶ n x M = { 0, 1, 2, . . . , n } , P (x) = p (1 − p)n−x ∀ x = 0, 1, . . . , n . x (6) Eine zufällige Anzahl: Poisson-Modell. Z.B.: Die Anzahl der Ankünfte von Kunden oder Aufträgen in einer Service-Station in einem definierten Zeitraum; die Anzahl von Verkehrsunfällen in einer definierten Region in einem definierten Zeitraum; die Anzahl verkaufter Produkte in einem definierten Zeitraum; die Anzahl registrierter Impulse in der Umgebung einer radioaktiven Substanz in einem definierten Zeitraum. Ein oft verwendetes Modell: M = N0 , mit einem geeigneten λ ∈ ( 0 , ∞). P (x) = e−λ λx x! ∀ x ∈ N0 , Norbert Gaffke: Vorlesung “Einführung in die Wahrscheinlichkeitstheorie und Statistik”, Wintersemester 2012/13 Kapitel 1: Wahrscheinlichkeitsräume und Zufallsvariablen 1.2 Sigma-Algebra, W-Verteilung und W-Raum Definition 1.1 (Sigma-Algebra) Seien M eine nicht-leere Menge und A ⊆ P(M ) (Potenzmenge von M ). Das Mengensystem A heißt eine Sigma-Algebra in M , wenn es die folgenden drei Bedingungen erfüllt. (i) M ∈ A . (ii) Wenn A ∈ A, dann Ac ∈ A (wobei Ac = M \ A). (iii) Wenn An ∈ A für alle n ∈ N, dann ∞ S n=1 An ∈ A . Wenn A eine Sigma-Algebra in M ist, dann heißt das Paar (M, A) ein Messraum oder ein messbarer Raum. Folgerung: Man zeigt leicht, dass eine Sigma-Algebra A in M auch folgende Eigenschaften hat: Wenn A, B ∈ A, dann A ∪ B ∈ T A , A ∩ B ∈ A und A \ B ∈ A ; wenn An ∈ A ∀ n ∈ N , dann ∞ n=1 An ∈ A . Insbesondere für überabzählbare Mengen M (wie M = R oder M = Rk ) wird die folgende implizite Definition von interessanten Sigma-Algebren wichtig. Lemma 1.2 (Erzeugte Sigma-Algebra) Seien M eine nicht-leere Menge und E ⊆ P(M ) . Dann: Es existiert genau eine Sigma-Algebra A0 in M , die die beiden folgenden Bedingungen (1) und (2) erfüllt. (1) E ⊆ A0 . (2) Für jede Sigma-Algebra A in M mit E ⊆ A gilt A0 ⊆ A . Die Sigma-Algebra A0 heißt die von E erzeugte Sigma-Algebra in M ; abkürzende Schreibweise: A0 = σ(E) Definition 1.3 (W-Verteilung) Seien (M, A) ein Messraum und P : A −→ [ 0 , 1 ] . Die Funktion P heißt eine W-Verteilung auf (M, A), wenn P die folgenden beiden Bedingungen erfüllt. (i) P (∅) = 0 und P (M ) = 1 . (ii) Wenn An ∈ A (n ∈ N) eine Folge paarweise disjunkter Mengen ist, dann P ³S ∞ n=1 ´ An = ∞ X ¡ ¢ P An . n=1 (Diese Bedingung nennt man die Sigma-Additivität von P ). Wenn P eine W-Verteilung auf (M, A) ist, dann heißt das Tripel (M, A, P ) ein W-Raum. 3 Norbert Gaffke: Vorlesung “Einführung in die Wahrscheinlichkeitstheorie und Statistik”, Wintersemester 2012/13 Kapitel 1: Wahrscheinlichkeitsräume und Zufallsvariablen 4 Bemerkung Eine W-Verteilung P hat insbesondere die Eigenschaft der Additivität : Wenn A, B ∈ A und A ∩ B = ∅, dann P (A ∪ B) = P (A) + P (B) . Desweiteren implizieren Bedingungen (i), (ii) von Definition 1.3 weitere Eigenschaften: Lemma 1.4 (Weitere Eigenschaften einer W-Verteilung) Sei (M, A, P ) ein W-Raum. Dann gilt: (1) Wenn A, B ∈ A und A ⊆ B, dann P (A) ≤ P (B) und P (B \ A) = P (B) − P (A) . ¡ ¢ Insbesondere: P Ac = 1 − P (A) ∀ A ∈ A . (2) Wenn An ∈ A für alle n ∈ N , dann P ³S ∞ n=1 ´ ∞ ¡ ¢ P P An . An ≤ n=1 (3) Wenn An ∈ A (n ∈ N) eine isotone Mengenfolge ist (d.h. An ⊆ An+1 ∀ n ∈ N) , ³S ´ ∞ dann: P An = lim P (An ) . (Stetigkeit von unten) n→∞ n=1 Wenn Bn ∈ A (n ∈ N) eine antitone Mengenfolge ist (d.h. Bn+1 ⊆ Bn ∀ n ∈ N) , ³T ´ ∞ dann: P Bn = lim P (Bn ) . (Stetigkeit von oben) n→∞ n=1 Für Situationen, in denen eine Sigma-Algebra nur “implizit” durch einen Erzeuger definiert ist, ist das folgende “Eindeutigkeitsresultat” für W-Verteilungen bisweilen nützlich. Lemma 1.5 (Durchschnitt-stabiler Erzeuger / Eindeutigkeitsresultat) Sei E ⊆ P(M ) ein durchschnitt-stabiles Mengensystem, d.h.: Wenn E, F ∈ E, dann E ∩ F ∈ E . Sei A = σ(E) , und seien P1 und P2 zwei W-Verteilungen auf (M, A) , die auf E übereinstimmen: P1 (E) = P2 (E) ∀ E ∈ E . Dann folgt: P1 = P2 , d.h. P1 (A) = P2 (A) ∀ A ∈ A . 1.3 Diskrete W-Räume Kleiner Exkurs: Abzählbare Summation nicht-negativer erweitert-reeller Zahlen Seien I eine abzählbare Menge und ai ∈ [ 0 , ∞] = [ 0 , ∞) ∪{∞} ∀ i ∈ I . Dann wird X i∈I wie folgt (in Schritten (0) - (3)) definiert. Zunächst sei vorausgesetzt: ai < ∞ ∀ i ∈ I . X (0) Im Fall I = ∅ : ai := 0 . i∈∅ (1) Wenn I 6= ∅ und I endlich ist, |I| = r und I = {i1 , . . . , ir } , dann r X X ai := ain . i∈I n=1 ai ∈ [ 0 , ∞] Norbert Gaffke: Vorlesung “Einführung in die Wahrscheinlichkeitstheorie und Statistik”, Wintersemester 2012/13 Kapitel 1: Wahrscheinlichkeitsräume und Zufallsvariablen 5 (2) Wenn I unendlich ist, dann sei eine bijektive Abbildung σ : N −→ I gewählt, und ∞ ∞ X X X ai := aσ(n) , wobei im Fall der (bestimmten) Divergenz der Reihe: aσ(n) := ∞ . n=1 i∈I n=1 Anmerkung: Nach dem Umordnungssatz für absolut konvergente Reihen ist damit X ai wohldefiniert, i∈I d.h. unabhängig von der speziellen Wahl der Abzählung σ. (3) Im X Fall, dass nicht alle ai endlich sind, also ein i0 ∈ I mit ai0 = ∞ existiert, wird definiert: ai ; = ∞ . i∈I Zwei Folgerungen: X nX o ai = sup ai : E ⊆ I , E endlich . i∈I i∈E (Das Supremum einer nicht-leeren Teilmenge S ⊆ [ 0 , ∞] ist das kleinste c ∈ [ 0 , ∞] mit s ≤ c ∀ s ∈ S ; außerdem wird hier definiert: sup ∅ := 0). Sei eine disjunkte Zerlegung von I in abzählbar viele Teilmengen gegeben: S I = k∈K Ik , wobei K abzählbar und Ik ⊆ I , (k ∈ K) , paarweise disjunkt . X X ³X ´ ai . ai = i∈I Dann: k∈K i∈Ik Lemma 1.6 (Diskrete W-Verteilung und Zähldichte) Sei M eine nicht-leere abzählbare Menge, und A = P(M ) (die Potenzmenge von M ). ¡ ¢ (a) Sei P eine W-Verteilung auf M, P(M ) ; betrachte die reelle Funktion auf M : ¡ ¢ M 3 x 7−→ P (x) := P {x} (die Zähldichte von P ). Diese Funktion erfüllt die Bedingung P (x) ≥ 0 ∀ x ∈ M und X P (x) = 1 , (∗) x∈M und es gilt P (A) = X P (x) ∀ A ⊆ M . x∈A (b) Sei umgekehrt eine reelle Funktion M 3 x 7−→ P (x) gegeben, die die Bedingung (∗) erfüllt; dann ist durch X P (A) := P (x) ∀ A ⊆ M x∈A ¡ ¢ eine W-Verteilung auf M, P(M ) definiert. Bemerkung: ¡ ¢ Wenn M abzählbar und P eine W-Verteilung auf M, P(M ) sind, dann nennen wir (M, P(M ), P ) einen diskreten W-Raum, für den wir auch einfach (M, P ) schreiben. Definition 1.7 (Spezielle diskrete W-Verteilungen) In den nachfolgend genannten Fällen (1) – (6) wird jeweils eine¡ abzählbare ¢ Menge M spezifiziert und durch Angabe einer Zähldichte P (x) eine W-Verteilung P auf M, P(M ) definiert. Norbert Gaffke: Vorlesung “Einführung in die Wahrscheinlichkeitstheorie und Statistik”, Wintersemester 2012/13 Kapitel 1: Wahrscheinlichkeitsräume und Zufallsvariablen (1) Sei M irgendeine nicht-leere endliche Menge. Die Gleichverteilung auf M , Abk.: P = U(M ) , ist durch die konstante Zähldichte definiert: 1 P (x) = für alle x ∈ M . |M | (2) Sei M = { 0, 1, . . . , n } für ein gegebenes n ∈ N, und sei noch p ∈ [ 0 , 1 ] gegeben. Die Binomialverteilung zu den Parameterwerten n und p, Abk.: P = Bi(n, p), ist durch die Zähldichte definiert: µ ¶ n x P (x) = p (1 − p)n−x für alle x = 0, 1, . . . , n . x (3) Sei M = { 0, 1, . . . , n } für ein gegebenes n ∈ N, und seien noch N ∈ N, s ∈ N0 mit N ≥ s und N ≥ n gegeben. Die hypergeometrische Verteilung zu den Parameterwerten N , s und n, Abk.: P = Hyp(N, s, n) , ist durch die Zähldichte definiert: ¡ s ¢ ¡N −s¢ P (x) = x ¡Nn−x ¢ für alle x = 0, 1, . . . , n . n (4) Seien M = N0 und λ eine gegebene positive reelle Zahl. Die Poisson-Verteilung zum Parameterwert λ, Abk.: P = Poi(λ) , ist durch die Zähldichte definiert: P (x) = e−λ · λx x! für alle x ∈ N0 . © ª (5) Seien M = x ∈ N : x ≥ r mit einem gegebenen r ∈ N, und sei noch p ∈ ( 0 , 1) gegeben. Die negative Binomialverteilung zu den Parameterwerten r und p, Abk.: P = NegBi(r, p) , ist durch die Zähldichte definiert: µ ¶ r x−1 P (x) = p (1 − p)x−r für alle x = r, r + 1, r + 2, . . . . r−1 Im Fall r = 1, d.h. M = N und P (x) = p (1 − p)x−1 für alle x ∈ N , heißt NegBi(r, p) auch die geometrische Verteilung zum Parameterwert p, Abk.: Geo(p) . o n P (6) Sei M = x = (x1 , x2 , . . . , xk ) ∈ Nk0 : kj=1 xj = n , für gegebene k ∈ N, k ≥ 2, und n ∈ N, Pk und seien noch p1 , p2 , . . . , pk ∈ [ 0 , 1 ] mit j=1 pj = 1 gegeben. Die Multinomialverteilung zu den Parameterwerten n und p1 , p2 , . . . , pk , Abk.: P = Mu(n; p1 , p2 , . . . , pk ) , ist durch die Zähldichte definiert: n! P (x) = px1 px2 · · · pxk k ∀ x = (x1 , x2 , . . . , xk ) ∈ M . x1 ! x2 ! · · · xk ! 1 2 Diskrete Verteilungen von Definition 1.7 : Typische Zufallsexperimente (1) Gleichverteilung Ein Objekt wird “rein ¡zufällig” aus ¢ einer endlichen Grundgesamtheit M gezogen. Modell: Der W-Raum M, U(M ) . (2) Binomialverteilung n-malige unabhängige Durchführung eines 0-1-Experiments mit Wahrscheinlichkeit p für “1” und 1 − p für “0”, und als Ergebnis des (Gesamt-)Experiments ¡ ¢wird die Anzahl der erzielten “1”-en festgehalten. Modell: Der W-Raum {0, 1, . . . , n}, Bi(n, p) . 6 Norbert Gaffke: Vorlesung “Einführung in die Wahrscheinlichkeitstheorie und Statistik”, Wintersemester 2012/13 Kapitel 1: Wahrscheinlichkeitsräume und Zufallsvariablen 7 (3) Hypergeometrische Verteilung Gegeben eine Grundgesamtheit mit N Objekten; jedes Objekt trägt einen binären (0-1-wertigen) Merkmalswert (z.B. gut/schlecht); insgesamt haben genau s Objekte den Merkmalswert “1”. Zufallsexperiment: Es wird eine Zufallsstichprobe vom Umfang n aus der Grundgesamtheit gezogen (Ziehen ohne Zurücklegen), und als Ergebnis wird die ¡Anzahl aller Objekte der Stichprobe ¢ mit Merkmalswert “1” festgehalten. Modell: Der W-Raum {0, 1, . . . , n} , Hyp(N, s, n) . (4) Poisson-Verteilung Eine zufällige Anzahl, die nicht von vorne herein nach oben beschränkt ist (im ¡ Unterschied ¢ zu (2) und (3)), kann oft näherungsweise modelliert werden durch den W-Raum N0 , Poi(λ) (mit einem geeigneten λ > 0). Konkretere Beispiele etwa: Anzahl von Kunden, die innerhalb eines definierten Zeitraumes eine bestimmte Service-Station besuchen; Anzahl der zerfallenen Teilchen einer radioaktiven Substanz in einem definierten Zeitraum. (5) Negative Binomialverteilung, insbes. Geometrische Verteilung Ein 0-1-Experiment mit Wahrscheinlichkeit p für “1” und 1 − p für “0” wird so oft unabhängig durchgeführt, bis “1” r-mal aufgetreten ist (z.B. “warten auf den r-ten Erfolg”). Die Anzahl der benötigten Durchführungen ist das Ergebnis des (Gesamt-)Zufallsexperiments. Modell: Der ¡ ¢ W-Raum {r, r + 1, r + 2, . . .} , NegBi(r, p) . (6) Multinomialverteilung Das Zufallsexperiment bestehe in der n-maligen unabhängigen Durchführung eines Einzelexperiments, das k mögliche verschiedene Ergebnisse a1 , a2 , . . . , ak hervorbringen kann, und zwar mit den jeweiligen W’keiten p1 , p2 , . . . , pk . Als Ergebnis des (Gesamt-)Experiments werde nur festgehalten x = (x1 , x2 , . . . , xk ) mit xj = Anzahl des Auftretens von aj ¡ ¢ Modell: Der W-Raum M , Mu(n; p1 , p2 , . . . , pk ) mit M = (1 ≤ j ≤ k) . n o k P x = (x1 , x2 , . . . , xk ) ∈ Nk0 : xj = n . j=1 1.4 W-Verteilungen auf der Zahlengeraden Hier beschäftigen wir uns mit W-Verteilungen im Fall M = R . Zunächst ist eine geignete SigmaAlgebra zu definieren. Definition 1.8 (Borelsche Sigma-Algebra in R) Bezeichne I 1 das System aller links offenen und rechts abgeschlossenen Intervalle endlicher Länge: n o I 1 = (a , b ] : a, b ∈ R , a ≤ b . Die von I 1 in R erzeugte Sigma-Algebra heißt die Borelsche Sigma-Algebra in R, und wir bezeichnen sie mit B1 Bemerkung:. Andere Erzeuger der Borelschen Sigma-Algebra Es lassen sich viele andere Mengensysteme in R finden, die ebenfalls Erzeuger von B1 sind, z.B. die links unbeschränkten und rechts abgeschlossenen Intervalle: n o (−∞ , b ] : b ∈ R . Norbert Gaffke: Vorlesung “Einführung in die Wahrscheinlichkeitstheorie und Statistik”, Wintersemester 2012/13 Kapitel 1: Wahrscheinlichkeitsräume und Zufallsvariablen 8 W-Verteilungen auf (R, B 1 ) können wir nicht elementar direkt definieren, zumindest nicht die ”stetigen” W-Verteilungen (s.unten). Elementar definierbar sind¢ jedoch diskrete W-Verteilungen auf (R, B 1 ) : ¡ Dies sind effektiv diskrete W-Verteilungen auf M, P(M ) wie in Abschnitt 1.3 , wobei M eine abzählbare Teilmenge von R ist, z.B. M = {0, 1 . . . , n} für ein gegebenes n ∈ N , oder M = N0 . Es gilt nämlich: Lemma 1.9 (Diskrete W-verteilungen auf (R, B1 )) ¡ ¢ Sei M eine nicht-leere, abzählbare Teilmenge von R , und sei P eine W-Verteilung auf M, P(M ) . Dann können wir P zu einer W-Verteilung auf (R, B 1 ) machen: P (A) := P (A ∩ M ) ∀ A ∈ B 1 . ¯ Anmerkung: Dies ist eine triviale Fortsetzung der W-Verteilung P ; es gilt offensichtlich: P ¯P(M ) = P , und P (R \ M ) = 0 . Im Wesentlichen sind P und P dasselbe, aber formal verschieden. Ein wichtiges Hilfsmittel zur Beschreibung beliebiger W-Verteilungen auf (R, B1 ) erweist sich der Begriff der Verteilungsfunktion. Definition 1.10 (Verteilungsfunktion einer W-Verteilung auf (R, B 1 )) Sei P eine W-Verteilung auf (R, B 1 ). Die Verteilungsfunktion von P ist die Funktion ¡ ¢ FP : R −→ [ 0 , 1 ] , FP (b) := P (−∞ , b ] ∀ b ∈ R. Lemma 1.11 (Eigenschaften einer Verteilungsfunktion) Für die Verteilungsfunktion FP einer W-Verteilung P auf (R, B 1 ) gilt: (i) FP ist isoton; (ii) FP ist rechtsseitig stetig; (iii) lim F (b) = 0 b→−∞ und lim F (b) = 1 . b→∞ Weiterhin gilt: ¡ ¢ P (a , b ] = FP (b) − FP (a) ∀ a, b ∈ R , a ≤ b ; ¡ ¢ P {c} = FP (c) − FP (c -) ∀ c ∈ R, wobei FP (c -) := lim x→c, x<c FP (x) . Bemerkung: Stetige W-Verteilung Wenn P eine W-Verteilung auf (R, B1 ) ist, deren Verteilungsfunktion FP stetig ist, dann nennen wir P eine stetige W-Verteilung ¡ ¢ (im Kontrast zu einer diskreten W-Verteilung). Nach Lemma 1.11 ist P genau dann stetig, wenn P {c} = 0 ∀ c ∈ R. Das entscheidende Resultat über Verteilungsfunktionen ist nun, dass eine “Eins-zu Eins-Korrespondenz” zwischen Verteilungsfunktionen und W-Verteilungen auf (R, B1 ) besteht. Dabei heiße jetzt jede Funktion F : R −→ [ 0 , 1 ] , die die Bedingungen (i), (ii) und (iii) von Lemma 1.11 (mit F statt FP ) erfüllt, Norbert Gaffke: Vorlesung “Einführung in die Wahrscheinlichkeitstheorie und Statistik”, Wintersemester 2012/13 Kapitel 1: Wahrscheinlichkeitsräume und Zufallsvariablen 9 eine Verteilungsfunktion auf R, wobei nicht gesagt ist, dass F tatsächlich die Verteilungsfunktion einer W-Verteilung auf (R, B1 ) ist. Dem ist aber so, wie das folgende Hauptresultat zeigt. Theorem 1.12 (Korrespondenz: W-Verteilung ←→ Verteilungsfunktion) Bezeichne V(R) die Menge aller Verteilungsfunktionen auf R und W(R, B 1 ) die Menge aller WVerteilungen auf (R, B1 ). Dann ist durch P 7−→ FP eine bijektive Abbildung von W(R, B1 ) auf V(R) gegeben. Die für uns wichtigen stetigen W-Verteilungen sind sogar Lebesgue-stetig, d.h. sie besitzen eine LebesgueDichte im Sinne des nachfolgenden Lemmas. Lemma 1.13 (W-Verteilung mit Lebesgue-Dichte) Z ∞ Sei f : R −→ [ 0 , ∞) eine über R integrierbare Funktion mit Z Dann ist durch f (x) dx = 1 . −∞ b F (b) := f (x) dx ∀ b ∈ R −∞ eine (stetige) Verteilungsfunktion auf R gegeben und damit eine W-Verteilung P auf (R, B1 ). Man sagt: P besitzt die Lebesgue-Dichte f . Bemerkung: W’keiten als Integrale der Lebesgue-Dichte Die W-Verteilung P besitze die Lebesgue-Dichte f . Dann: Z b Z ¡ ¢ ¡ ¢ P [a, b] = f (x) dx ∀ a, b ∈ R , a ≤ b ; P [ a , ∞) = a ∞ f (x) dx ∀ a ∈ R . a Darüber hinaus, wenn wir die allgemeinere Theorie des Lebesgue-Integrals einbeziehen: Z P (A) = f dµ ∀ A ∈ B 1 . A Definition 1.14 (Spezielle Lebesgue-stetige W-Verteilungen) In den nachfolgenden Fällen (1)–(6) wird jeweils eine W-Verteilung P auf (R, B 1 ) durch eine LebesgueDichte f definiert. (1) Seien β ∈ R und σ ∈ ( 0 , ∞) gegeben. Die Normalverteilung zu den Parameterwerten β und σ 2 , Abk.: P = N(β, σ 2 ) , ist definiert durch die Lebesgue-Dichte: µ ¶ 1 1 ³ x − β ´2 √ f (x) = exp − ∀ x ∈ R. 2 σ σ 2π (2) Seien c, d ∈ R mit c < d gegeben. Die Rechteck-Verteilung oder die Gleichverteilung auf dem Intervall ( c , d ) , Abk.: P = R(c, d) , ist definiert durch die Lebesgue-Dichte: ½ 1/(d − c) , falls c < x < d f (x) = ∀ x ∈ R. 0 , sonst (3) Sei λ ∈ ( 0 , ∞) gegeben. Die Exponentialverteilung zum Parameterwert λ, Abk.: P = Exp(λ) , ist definiert durch die Lebesgue-Dichte: ¡ ¢ ½ λ exp −λ x , falls x > 0 f (x) = ∀ x ∈ R. 0 , sonst Norbert Gaffke: Vorlesung “Einführung in die Wahrscheinlichkeitstheorie und Statistik”, Wintersemester 2012/13 Kapitel 1: Wahrscheinlichkeitsräume und Zufallsvariablen 10 (4) Seien c, λ ∈ ( 0 , ∞) gegeben. Die Weibull-Verteilung zu den Parameterwerten c und λ, Abk.: P = Wei(c, λ) , ist definiert durch die Lebesgue-Dichte: ³ ´ ( c λc xc−1 exp −(λx)c , falls x > 0 f (x) = ∀ x ∈ R. 0 , sonst (5) Seien c, λ ∈ ( 0 , ∞) gegeben. Die Gamma-Verteilung zu den Parameterwerten c und λ, Abk.: P = Ga(c, λ) , ist definiert durch die Lebesgue-Dichte: ( c ¡ ¢ λ xc−1 exp −λx , falls x > 0 Γ(c) f (x) = ∀ x ∈ R, 0 , sonst wobei Γ die Gamma-Funktion bezeichnet, d.h. Z ∞ Γ(c) = tc−1 exp( −t ) dt . 0 (6) Seien β ∈ R und σ ∈ ( 0 , ∞) gegeben. Die Log-Normalverteilung zu den Parameterwerten β und σ 2 , Abk.: P = LogN(β, σ 2 ) , ist definiert durch die Lebesgue-Dichte: µ ¶ 1 1 1 ³ ln(x) − β ´2 f (x) = √ exp − ∀ x ∈ ( 0 , ∞) ; f (x) = 0 ∀ x ≤ 0 . 2 σ σ 2π x Bemerkung: Modellierung Exponential- und Weibull-Verteilungen werden insbesondere zur Modellierung zufälliger Lebensdauern verwendet. Beispiele zur Verwendung von Normalverteilungen und Log-Normalverteilungen: Charakteristik eines gefertigten Produkts (z.B. Dicke eines Bleches, Länge eines Stiftes, Widerstand eines elektrischen Bauteils). Insbesondere Normalverteilungen werden in vielen weiteren Situationen zur Modellierung verwendet. 1.5 W-Verteilungen im euklidischen Raum Wir betrachten den k-dimensionalen euklidischen Raum Rk , (k ∈ N gegeben). In Verallgemeinerung von Definition 1.8 definiert man die Borelsche Sigma-Algebra in Rk wie folgt. Definition 1.15 (Borelsche Sigma-Algebra in Rk ) Bezeichne I k das System aller ”links offenen und rechts abgeschlossenen” achsen-parallelen Quader : n o I k = ( a , b ] : a, b ∈ Rk , a ≤ b , wobei für a = (a1 , . . . , ak ) ∈ Rk und b = (b1 , . . . , bk ) ∈ Rk definiert sei: a ≤ b : ⇐⇒ ai ≤ bi ∀ i = 1, . . . , k ; a < b : ⇐⇒ ai < bi ∀ i = 1, . . . , k ; © ª k und für a, b ∈ Rk mit a ≤ b : ( a , b ] := x ∈ Rk : a < x ≤ b = × ( ai , bi ] . i=1 Die von I k in Rk erzeugte Sigma-Algebra heißt die Borelsche Sigma-Algebra in Rk , und wir bezeichnen sie mit Bk Bemerkung: Andere Erzeuger von B k Es ist nicht schwer zu zeigen, dass jedes der folgenden Mengensysteme ebenfalls ein Erzeuger der Borelschen Sigma-Algebra B k ist. Norbert Gaffke: Vorlesung “Einführung in die Wahrscheinlichkeitstheorie und Statistik”, Wintersemester 2012/13 Kapitel 1: Wahrscheinlichkeitsräume und Zufallsvariablen 11 (i) © Das System aller abgeschlossenen nicht-degenerierten achsen-parallelen Quader: ª © ª [ a , b ] : a, b ∈ Rk , a < b , wobei [ a , b ] : x ∈ Rk : a ≤ x ≤ b ; n k o (ii) das System × (−∞ , bi ] : b = (b1 , . . . , bk ) ∈ Rk ; i=1 n (iii) das System k × Ai : Ai ∈ B 1 ∀ i = 1, . . . , k o i=1 ; (iv) das System aller offenen Teilmengen von Rk ; (v) das System aller abgeschlossenen Teilmengen von Rk ; (vi) das System aller kompakten Teilmengen von Rk . Bemerkung:. Lebesgue-messbare Mengen (im Sinne der Analysis) Das System der Lebesgue-messbaren Teilmengen von Rk , das in der Analysis eingeführt wurde, steht mit der Borelschen Sigma-Algebra in folgendem Zusammenhang (was aber nicht leicht zu sehen ist). (a) Wenn A ⊆ Rk eine Lebesgue-messbare Menge (im Sinne der Analysis) ist, dann gibt es eine Borelsche Menge B ∈ B k und eine Lebesgue-Nullmenge N ⊆ Rk , so dass A = B ∪ N . (b) Jede Borelsche Menge B ∈ B k mit endlichem äußeren Lebesgueschen Maß ist eine Lebesguemessbare Menge. Analog zum Fall der Dimension k = 1 lassen sich diskrete W-Verteilungen auf (Rk , B k ) auf simple Weise gewinnen: Lemma 1.16 (Diskrete W-Verteilungen auf (Rk , B k )) ¡ ¢ Sei M eine nicht-leere, abzählbare Teilmenge von Rk , und sei P eine W-Verteilung auf M, P(M ) . Dann können wir P zu einer W-Verteilung P auf (Rk , B k ) fortsetzen: P (A) := P (A ∩ M ) ∀ A ∈ B k . Beispiel: Multinomial-Verteilung (s. Definition 1.7, Punkt (6)). Die Korrespondenz zwischen W-Verteilungen und Verteilungsfunktionen im Fall k = 1 (Theorem 1.12) lässt sich auf beliebige Dimension k ≥ 1 verallgemeinern, was hier aber nicht dargestellt werden soll (weil recht aufwändig). Als “stetige” W-Verteilungen auf (Rk , B k ) seien hier nur die Lebesgue-stetigen W-Verteilungen genannt, die also eine Lebesgue-Dichte besitzen. Hier wird der Begriff des LebesgueIntegrals der Analysis verwendet. Lemma 1.17 (W-Verteilung auf (Rk , Bk ) mit Lebesgue-Dichte) Z k Sei f : R −→ [ 0 , ∞) eine Lebesgue-integrierbare Funktion mit f dµ = 1 . Rk Z Z Dann ist durch P (A) := f dµ := f 1 A dµ ∀ A ∈ Bk A Rk eine W-Verteilung P auf (Rk , Bk ) gegeben. Man sagt: P besitzt die Lebesgue-Dichte f . Dabei bezeichnet 1 A die Indikatorfunkttion von A ⊆ Rk , d.h. ½ 1 , falls x ∈ A 1 A (x) = 0 , falls x ∈ Ac , ∀ x ∈ Rk . Norbert Gaffke: Vorlesung “Einführung in die Wahrscheinlichkeitstheorie und Statistik”, Wintersemester 2012/13 Kapitel 1: Wahrscheinlichkeitsräume und Zufallsvariablen 12 Von besonderem Interesse sind Lebesgue-Dichten, die aus k “eindimensionalen” Lebesgue-Dichten durch eine Produkt gewonnen werden: Lemma 1.18 (Produkt von k Lebesgue-stetigen W-Verteilungen auf (R, B1 )) Z ∞ Seien f1 , . . . , fk mit fi : R −→ [ 0 , ∞) und fi (x) dx = 1 , für alle i = 1, . . . , k. −∞ Bezeichne Pi die W-Verteilung auf (R, B 1 ) mit Lebesgue-Dichte fi (s. Lemma 1.13), i = 1, . . . , k. Definiere: k Y f : Rk −→ [ 0 , ∞) , f (x) = fi (xi ) ∀ x = (x1 , . . . , xk ) ∈ Rk . i=1 Dann erfüllt f die Bedingungen von Lemma 1.17; die W-Verteilung P auf (Rk , B k ) mit der Lebesguek Dichte f heißt das Produkt der W-Verteilungen P1 , . . . , Pk , Abk.: P = ⊗ Pi . i=1 Beispiel: Produkt von Normalverteilungen Seien Pi = N(βi , σi2 ) mit βi ∈ R, σi ∈ ( 0 , ∞) , i = 1, . . . , k. Dann ist die Lebesgue-Dichte von k P = ⊗ N(βi , σi2 ) gemäß Lemma 1.18 gegeben durch: i=1 f (x) = k µ Y i=1 µ ¶ k k ³ (x − β )2 ´ ¶ ³Y ´−1/2 X 1 (xi − βi )2 i i −k/2 2 1 √ exp − = (2π) σi exp − 2 . 2σi2 σi2 σi 2π i=1 i=1 Unter Verwendung von etwas Matrix-Formalismus, wenn x als Spaltenvektor ¡geschrieben¢ ist und wir den (Spalten-)Vektor β = (β1 , . . . , βk )t und die Diagonalmatrix D = diag σ12 , . . . , σk2 einführen, können wir die Dichte f auch so schreiben: ´ ³ ¡ ¢−1/2 f (x) = (2π)−k/2 det(D) exp − 12 (x − β)t D −1 (x − β) . Allgemeiner definiert man eine k-dimensionale Normalverteilung (die nicht Produnkt von ein-dimensionalen Normalverteilungen sein muss) wie folgt. Definition 1.19 (k-dimensionale Normalverteilung) Seien β = (β1 , . . . , βk )t ∈ Rk und V eine positiv definite (reelle) k × k Matrix (also V symmetrisch und at V a > 0 für alle (Spalten-)Vektoren a ∈ Rk \{0} ). Die Normalverteilung N(β, V ) ist die W-Verteilung auf (Rk , B k ) mit der Lebesgue-Dichte ³ ´ ¡ ¢−1/2 f (x) = (2π)−k/2 det(V ) exp − 12 (x − β)t V −1 (x − β) , x ∈ Rk . Norbert Gaffke: Vorlesung “Einführung in die Wahrscheinlichkeitstheorie und Statistik”, Wintersemester 2012/13 Kapitel 1: Wahrscheinlichkeitsräume und Zufallsvariablen 1.6 Zufallsvariablen In diesem Abschnitt gehen wir von einem W-Raum (Ω, C, P) und einem Messraum (M, A) aus. Definition 1.20 (Messbare Abbildung / Zufallsvariable) Eine Abbildung X : Ω −→ M heißt messbar (bezgl. der Sigma-Algebren C und A), wenn gilt: X −1 (A) ∈ C ∀A∈A. Dabei bezeichnet X −1 (A) für A ⊆ M das Urbild von A unter der Abbildung X, d.h. © ª X −1 (A) = ω ∈ Ω : X(ω) ∈ A . Statt X −1 (A) schreiben wir auch {X ∈ A} . Eine messbare Abbildung X : Ω −→ M , (wobei (Ω, C, P) ein W-Raum und (M, A) ein Messraum sind), heißt eine Zufallsvariable (auf Ω mit Werten in M ). Lemma 1.21 (Verteilung einer Zufallsvariablen) Sei X : Ω −→ M eine Zufallsvariable. Definiere PX : A −→ [ 0 , 1 ] durch: ¡ ¢ PX (A) := P X −1 (A) ∀ A ∈ A. Dann ist PX eine W-Verteilung auf (M, A) ; sie heißt die Verteilung von X . Anmerkung: Andere gebräuchliche Bezeichnungen für PX sind X(P) und PX . Spezialfall: Diskrete Zufallsvariable Wenn M abzählbar ist und A = P(M ) , dann nennen wir eine Zufallsvariable X : Ω −→ M eine diskrete Zufallsvariable. Ihre Verteilung ist durch ihre Zähldichte vollständig beschrieben: PX (x) = P(X = x) ∀x∈M, © ª ¡ ¢ wobei {X = x} = ω ∈ Ω : X(ω) = x und P(X = x) = P {X = x} . Bemerkung: Zufallsexperiment: Modellformulierung mit Zufallsvariablen Der W-Raum (M, A, P ) sei das Modell für ein Zufallsexperiment. Eine virtuell andere (aber äquivalente) Modellformulierung ist die folgende. Gegeben sei ein W-Raum (Ω, C, P) (der meistens nicht konkretisiert wird) und eine Zufallsvariable X : Ω −→ M (die ebenfalls meistens nicht näher spezifiziert wird, außer ihrer Verteilung, s. unten). Ein Ergebnis x ∈ M des Zufallsexperiments wird als Wert der Zufallsvariablen X aufgefasst, (der Zufall wählt ein Element ω ∈ Ω und das Ergebnis des Zufallsexperiments ist dann x = X(ω)). Die Verteilung PX der Zufallsvariablen X ist geeignet festzulegen: PX = P . Effektiv ist wiederum der W-Raum (M, A, P ) das Modell für das Zufallsexperiment. 13 Norbert Gaffke: Vorlesung “Einführung in die Wahrscheinlichkeitstheorie und Statistik”, Wintersemester 2012/13 Kapitel 1: Wahrscheinlichkeitsräume und Zufallsvariablen 14 Lemma 1.22 (Komposition messbarer Abbildungen) Seien (Ω, C, P) ein W-Raum , (M, A) und (N, B) zwei Messräume und X : Ω −→ M eine Zufallsvariable und T : M −→ N eine messbare Abbildung (bezgl. der Sigma-Algebren A und B). Betrachte die Komposition ¡ ¢ T ◦ X : Ω −→ N , (T ◦ X)(ω) = T X(ω) ∀ ω ∈ Ω . Dann ist T ◦ X eine Zufallsvariable (auf Ω mit Werten in N ) , und für ihre Verteilung gilt: PT ◦X = ¡ X ¢T P . Definition 1.23 (Produkt-Sigma-Algebra) Seien n ≥ 2 Messräume (Mi , Ai ) , i = 1, . . . , n, gegeben. Betrachte das cartesische Produkt n n i=1 i=1 M := × Mi . Die Produkt-Sigma-Algebra A = ⊗ Ai ist die Sigma-Algebra in M , die erzeugt wird vom Mengensystem n E := o n × Ai : Ai ∈ Ai , i = 1, . . . , n . i=1 Beispiel: Diskrete Messräume Seien Mi abzählbare Mengen und Ai = P(Mi ) , i = 1, . . . , n. Man zeigt leicht: n n i=1 i=1 ⊗ P(Mi ) = P(M ) , wobei M = × Mi (ebenfalls eine abzählbare Menge). Beispiel: Borelsche Sigma-Algebren Seien (Mi , Ai ) = (R, B1 ) , i = 1, . . . , n. Man zeigt leicht: n ⊗ B1 = Bn . i=1 Lemma 1.24 (Mehrere Zufallsvariablen, gemeinsame Verteilung) Seien (Ω, C, P) ein W-Raum , (Mi , Ai ) (i = 1, . . . , n) Messräume und Xi : Ω −→ Mi (i = 1, . . . , n) Zufallsvariablen. Betrachte die Abbildung n (X1 , . . . , Xn ) : Ω −→ M := × Mi , i=1 ¡ ¢ (X1 , . . . , Xn )(ω) := X1 (ω), . . . , Xn (ω) ∀ ω ∈ Ω . n Dann ist (X1 , . . . , Xn ) eine Zufallsvariable, d.h. messbar bezgl. der Sigma-Algebren C und A := ⊗ Ai . i=1 Die Verteilung P(X1 ,...,Xn ) von (X1 , . . . , Xn ) wird die gemeinsame Verteilung der Zufallsvariablen X1 , . . . , Xn genannt. Bemerkung: Gemeinsame Verteilung und “Randverteilungen” Der gemeinsame Verteilung P(X1 ,...,Xn ) bestimmt die Verteilungen PXi (i = 1, . . . , n) der einzelnen Zufallsvariablen (sog. Randverteilungen) eindeutig, denn: Betrachte die Projektionsabbildungen Πi : M −→ Mi , Πi (x1 , . . . , xn ) := xi ∀ (x1 , . . . , xn ) ∈ M , (i = 1, . . . , n). Man sieht leicht, dass Πi messbar ist (bezgl. der Sigma-Algebren A und Ai . Wegen Xi = Πi ◦ (X1 , . . . , Xn ) gilt nach Lemma 1.22 : ³ ´Πi PXi = PΠi ◦(X1 ,...,Xn ) = P(X1 ,...,Xn ) , i = 1, . . . , n. Norbert Gaffke: Vorlesung “Einführung in die Wahrscheinlichkeitstheorie und Statistik”, Wintersemester 2012/13 Kapitel 1: Wahrscheinlichkeitsräume und Zufallsvariablen 15 Das lässt sich auch einfacher sehen, z.B. für i = 1 haben wir für jedes A1 ∈ A1 : ¡ ¢ ¡ ¢ PX1 (A1 ) = P(X1 ∈ A1 ) = P (X1 , . . . , Xn ) ∈ A1 × M2 × . . . × Mn = P(X1 ,...,Xn ) A1 × M2 × . . . × Mn . Umgekehrt aber bestimmen die Randverteilungen P Xi (i = 1, . . . , n) i.A. nicht die gemeinsame Verteilung P (X1 ,...,Xn ) . Wichtige Ausnahme: Der Fall, dass die Zufallsvariablen X1 , . . . , Xn stochastisch unabhängig sind, (s. Kap. 2). Spezialfall: Diskrete Zufallsvariablen Seien X1 , . . . , Xn diskrete Zufallsvariablen, d.h. Mi ist abzählbar und Ai = P(Mi ) für alle i = 1, . . . , n. n Dann ist (X1 , . . . , Xn ) ebenfalls eine diskrete Zufallsvariable (da M = × Mi abzählbar und A = i=1 n ⊗ P(Mi ) = P(M ) ). Die gemeinsame Verteilung P(X1 ,...,Xn ) ist durch ihre Zähldichte vollständig i=1 beschrieben: ¡ ¢ P(X1 ,...,Xn ) (x1 , . . . , xn ) = P X1 = x1 , X2 = x2 , . . . , Xn = xn ∀ (x1 , . . . , xn ) ∈ M , © ª wobei {X1 = x1 , X2 = x2 , . . . , Xn = xn } = ω ∈ Ω : Xi (ω) = xi ∀ i = 1, . . . , n . Die Zähldichten der Randverteilungen PXi erhält man durch die entsprechenden “Randsummen” der “gemeinsamen” Zähldichte, z.B. für i = 1 : X PX1 (x1 ) = P(X1 ,X2 ,...,Xn ) (x1 , x2 , . . . , xn ) ∀ x1 ∈ M1 . x2 ∈M2 , ..., xn ∈Mn