Eine Auswahl wichtiger Definitionen und Aussagen zur Vorlesung »Stochastik für Informatiker und Regelschullehrer« Werner Linde WS 2008/09 Inhaltsverzeichnis 1 Wahrscheinlichkeiten 1.1 Wahrscheinlichkeitsräume . . . . . . . . . . . . . . . . . . 1.2 Typen von Wahrscheinlichkeitsmaßen . . . . . . . . . . . 1.3 Die wichtigsten diskreten Wahrscheinlichkeitsverteilungen 1.4 Die wichtigsten stetigen Wahrscheinlichkeitsverteilungen . 1.5 Verteilungsfunktion . . . . . . . . . . . . . . . . . . . . . . 1.6 Bedingte Verteilungen . . . . . . . . . . . . . . . . . . . . 1.7 Unabhängigkeit von Ereignissen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2 . 2 . 3 . 5 . 7 . 8 . 10 . 11 2 Zufallsvariable 2.1 Definition und Verteilungsgesetz . . . . . . . . . . . . . . 2.2 Zufällige Vektoren und Unabhängigkeit zufälliger Größen 2.3 Rechnen mit zufälligen Größen . . . . . . . . . . . . . . . 2.4 Erwartungswert . . . . . . . . . . . . . . . . . . . . . . . . 2.5 Varianz und Kovarianz . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Nutzungsbedingungen 12 12 14 17 19 21 25 1 1 Wahrscheinlichkeiten 1 Wahrscheinlichkeiten 1.1 Wahrscheinlichkeitsräume 1.1.1 Grundraum Der Grundraum (meist mit Ω bezeichnet) ist eine Menge, die mindestens alle bei einem stochastischen Versuch oder Vorgang auftretenden Ergebnisse enthält. Die Teilmengen von Ω heißen Ereignisse, die einpunktigen Teilmengen nennt man Elementarereignisse. 1.1.2 Eintreten eines Ereignisses Ein Ereignis A ⊆ Ω tritt ein, wenn das beim Versuch oder dem Vorgang beobachtete zufällige Ergebnis in der Menge A liegt. 1.1.3 σ-Algebra Auf dem Grundraum Ω wird ein System A ⊆ P(Ω) von Ereignissen ausgezeichnet, denen man in sinnvoller Weise die Wahrscheinlichkeit ihres Eintretens zuordnen kann. Aus naheliegenden Gründen fordert man, dass A eine σ-Algebra bildet, d. h. A erfüllt folgende Eigenschaften: (i) ∅ ∈ A. (ii) Aus A ∈ A folgt Ac ∈ A. (iii) A1 , A2 , . . . ∈ A impliziert S∞ j=1 Aj ∈ A. Ist Ω höchstens abzählbar unendlich, so kann man als σ-Algebra stets die Potenzmenge P(Ω) von Ω nehmen. 1.1.4 Wahrscheinlichkeitsmaß Ein Wahrscheinlichkeitsmaß (oder eine Wahrscheinlichkeitsverteilung) P ist eine Abbildung von A nach [0,1], die jedem Ereignis A ∈ A die Wahrscheinlichkeit seines Eintretens zuordnet und folgende Eigenschaften besitzt: (i) Es gilt P(∅) = 0 und P(Ω) = 1. (ii) P ist σ-additiv, d. h. für disjunkte Aj ∈ A folgt P ∞ [ j=1 2 Aj = ∞ X j=1 P(Aj ) . 1.2 Typen von Wahrscheinlichkeitsmaßen 1.1.5 Wahrscheinlichkeitsraum Das Tripel (Ω, A, P) heißt Wahrscheinlichkeitsraum. Zufällige Experimente werden durch geeignete Wahrscheinlichkeitsräume beschrieben. 1.1.6 Eigenschaften von Wahrscheinlichkeitsmaßen (i) Jedes Wahrscheinlichkeitsmaß ist auch endlich additiv, d. h. sind A1 , . . . , An aus A disjunkt, so folgt n [ Aj = P j=1 n X P(Aj ) . j=1 (ii) Wahrscheinlichkeitsmaße sind monoton, d. h. gilt für A, B ∈ A die Inklusion A ⊆ B, so impliziert dies P(A) ≤ P(B). (iii) Für A, B ∈ A mit A ⊆ B folgt P(B \ A) = P(B) − P(A). Insbesondere ergibt sich hieraus P(Ac ) = P(Ω \ A) = 1 − P(A) für A ∈ A. (iv) Wahrscheinlichkeitsmaße sind stetig von oben, d. h. gilt für Aj ∈ A die Aussage A1 ⊇ A2 ⊇ · · ·, so folgt P ∞ \ Aj = lim P(Aj ) . j→∞ j=1 (v) Wahrscheinlichkeitsmaße sind auch stetig von unten, d. h. gilt für Aj ∈ A die Aussage A1 ⊆ A2 ⊆ · · ·, so folgt P ∞ [ Aj = lim P(Aj ) . j=1 j→∞ 1.2 Typen von Wahrscheinlichkeitsmaßen 1.2.1 Wahrscheinlichkeitsmaße auf höchstens abzählbar unendlichen Grundräumen Bei einem Experiment seien höchstens abzählbar unendlich viele Versuchsergebnisse möglich. Dann kann man entweder Ω = {ω1 , . . . , ωN } oder aber Ω = {ω1 , ω2 , . . . } wählen. Als σ-Algebra nimmt man in diesen Fällen stets die Potenzmenge P(Ω). Setzt man pi := P({ωi }) , 1≤i≤N bzw. i = 1,2, . . . , (1) dann erhält man Zahlen mit den Eigenschaften (i) pi ≥ 0 und 3 1 Wahrscheinlichkeiten (ii) PN i=1 pi = 1 bzw. P∞ i=1 pi = 1. Für eine Menge A ⊆ Ω folgt dann P(A) := X pi . (2) {i : ωi ∈A} Umgekehrt, gibt man eine Folge (pi )i≥1 reeller Zahlen mit Punkt (i) und Punkt (ii) vor, so wird durch Gleichung 2 ein Wahrscheinlichkeitsmaß P auf P(Ω) definiert. Für endliche oder abzählbar unendliche Grundräume Ω hat man also folgende Äquivalenz: {P : P Wahrscheinlichkeitsmaß auf P(Ω)} ⇐⇒ {(pi )i≥1 : (pi )i≥1 erfüllen ((i)) und ((ii))} Die Zuordnung erfolgt über Gleichung 1 bzw. Gleichung 2. 1.2.2 Diskrete Wahrscheinlichkeitsmaße Sei nunmehr Ω ein beliebiger Grundraum (nicht notwendig endlich oder abzählbar unendlich). Ein Wahrscheinlichkeitsmaß P auf (Ω, P(Ω)) heißt diskret, wenn es eine höchstens abzählbar unendliche Teilmenge D ⊆ Ω mit P(D) = 1 gibt. Mit D = {ω1 , ω2 , . . . } gilt dann für A ⊆ Ω wie zuvor P(A) := X pi , {i : ωi ∈A} wobei pi := P({ωi }). Auf höchstens abzählbar unendlichen Grundräumen ist somit jedes Wahrscheinlichkeitsmaß diskret. 1.2.3 Wahrscheinlichkeitsdichten Eine stückweise stetige Funktion p : R 7→ R heißt Wahrscheinlichkeitsdichte, wenn (i) p(x) ≥ 0 für x ∈ R und (ii) R∞ −∞ p(x) dx =1 gelten. 1.2.4 Borel-σ-Algebra Mit B(R) bezeichnet man die kleinste σ-Algebra von Mengen aus R, die die halboffenen Intervalle enthält. Man nennt B(R) die σ-Algebra der Borelmengen. Elemente von B(R) sind z. B. alle offenen oder abgeschlossenen Mengen, deren abzählbaren Vereinigungen und Durchschnitte usw. 4 1.3 Die wichtigsten diskreten Wahrscheinlichkeitsverteilungen 1.2.5 Stetige Wahrscheinlichkeitsmaße Gegeben sei eine Wahrscheinlichkeitsdichte p. Dann existiert ein eindeutig bestimmtes Wahrscheinlichkeitsmaß P : B(R) 7→ [0,1] mit Zβ P([α, β]) = P((α, β]) = p(x) dx α für alle reelle Zahlen α < β. Das so erzeugte Wahrscheinlichkeitsmaß P heißt stetig und p nennt man die Dichte von P. Stetige Wahrscheinlichkeitsmaße beschreiben Vorgänge, bei denen überabzählbar viele reelle Zahlen als Ergebnis auftreten können (z. B. Lebenszeiten, Messwerte etc.). 1.3 Die wichtigsten diskreten Wahrscheinlichkeitsverteilungen 1.3.1 Einpunktverteilung Gegeben sei ein ω0 ∈ Ω, fest aber beliebig. Dann wird durch ( δω0 (A) := 1 0 : ω0 ∈ A : ω0 ∈ /A die Einpunktverteilung in ω0 (oder das Diracsche δ-Maß in ω0 ) definiert. Der Wahrscheinlichkeitsraum (Ω, P(Ω), δω0 ) beschreibt Vorgänge, bei denen mit Wahrscheinlichkeit 1 genau ω0 eintritt (deterministische Vorgänge). 1.3.2 Gleichverteilung auf N Punkten Gegeben seien N Punkte ω1 , . . . , ωN ∈ Ω. Das Maß P auf P(Ω) mit P := N 1 X δω N i=1 i heißt Gleichverteilung auf {ω1 , . . . , ωN }. Für ein Ereignis A gilt dann P(A) = card{i ≤ N : ωi ∈ A} Anzahl der günstigen Fälle für A = . N Anzahl der möglichen Fälle 5 1 Wahrscheinlichkeiten 1.3.3 Binomialverteilung Sei Ω = {0, . . . , n} und sei p ∈ [0,1] vorgegeben. Dann wird durch ! Bn,p ({k}) := n k p (1 − p)n−k , k k = 0, . . . , n , ein Wahrscheinlichkeitsmaß Bn,p auf P(Ω) definiert. Man nennt Bn,p Binomialverteilung mit den Parametern n und p. Die Zahl Bn,p ({k}) gibt die Wahrscheinlichkeit an, dass man bei n unabhängigen Versuchen genau k-mal Erfolg hat. Dabei ist die Erfolgswahrscheinlichkeit in jedem einzelnen Versuch p, die für Misserfolg 1 − p. 1.3.4 Hypergeometrische Verteilung Gegeben seien Zahlen M, N, n ∈ N0 mit M, n ≤ N . Dann wird durch HN,M,n ({m}) := M N −M m n−m N n ein Wahrscheinlichkeitsmaß HN,M,n auf P({0, . . . , n}) definiert. Man nennt HN,M,n hypergeometrische Verteilung mit den Parametern N, M und n. Sind in einer Lieferung von N Geräten M Stück defekt, so beschreibt HN,M,n ({m}) die Wahrscheinlichkeit, dass man in einer zufällig entnommenen Stichprobe vom Umfang n genau m defekte Geräte beobachtet. 1.3.5 Poissonverteilung Es sei Ω = N0 = {0,1,2, . . . }. Für eine Zahl λ > 0 definiert man die Poissonverteilung mit Parameter λ durch Pλ ({k}) := λk −λ e k! für k ∈ N0 . Die Bedeutung der Poissonverteilung ergibt sich aus folgendem Satz: Satz 1.1 Gegeben sei eine Zahl λ > 0. Für n ∈ N setze man pn := λ/n. Dann folgt für alle k ∈ N0 stets lim Bn,pn ({k}) = Pλ ({k}) . n→∞ Inhaltlich bedeutet dies: Führt man sehr viele unabhängige Versuche durch (n Stück), bei denen jeweils nur mit sehr kleiner Wahrscheinlichkeit p Erfolg eintreten kann, so ist die Anzahl der insgesamt beobachteten Erfolge approximativ gemäß Pλ verteilt, wobei λ = n · p. 6 1.4 Die wichtigsten stetigen Wahrscheinlichkeitsverteilungen 1.3.6 Geometrische Verteilung Bei einem einzelnen Versuch trete Erfolg wieder mit Wahrscheinlichkeit p und Misserfolg mit Wahrscheinlichkeit 1 − p auf. Man führt nun so lange unabhängige Versuche durch, bis man erstmals Erfolg beobachtet. Die Wahrscheinlichkeit, dass dies im (k + 1)-ten Versuch mit k ∈ N0 geschieht, wird durch die geometrische Verteilung mit Parameter p ∈ (0,1] beschrieben: P({k}) := p · (1 − p)k , k ∈ N0 . 1.4 Die wichtigsten stetigen Wahrscheinlichkeitsverteilungen 1.4.1 Gleichverteilung auf einem Intervall Es sei [a, b] ein endliches Intervall. Durch ( p(x) := 1 b−a 0 : x ∈ [a, b] :x∈ / [a, b] wird eine Wahrscheinlichkeitsdichte auf R definiert. Damit berechnet sich die Wahrscheinlichkeit eines Intervalls [α, β] durch Zβ P([α, β]) = p(x) dx = α Länge von ([α, β] ∩ [a, b]) . b−a (3) Insbesondere ergibt sich im Fall [α, β] ⊆ [a, b] die Formel β−α , b−a d. h. die Wahrscheinlichkeit des Eintretens von [α, β] ⊆ [a, b] hängt nur von seiner Länge, nicht aber von seiner speziellen Lage innerhalb [a, b], ab. Das durch Gleichung 3 erzeugte Wahrscheinlichkeitsmaß heißt Gleichverteilung auf dem Intervall [a, b]. P([α, β]) = 1.4.2 Exponentialverteilung Gegeben sei eine Zahl λ > 0. Man definiert die Exponentialverteilung Eλ mit Parameter λ > 0 durch ihre Dichte ( p(x) := λ e−λx 0 :x>0 . :x≤0 Für ein Intervall [α, β] ⊆ [0, ∞) berechnet sich damit die Wahrscheinlichkeit seines Eintretens durch Zβ Eλ ([α, β]) = λ e−λx dx = e−λα − e−λβ . α 7 1 Wahrscheinlichkeiten 1.4.3 Normalverteilung Gegeben seien Zahlen µ ∈ R und σ > 0. Die Funktion pµ,σ2 (x) := √ 1 (x−µ)2/2σ 2 e− , 2πσ x∈R, erzeugt ein Wahrscheinlichkeitsmaß N (µ, σ 2 ), das man Normalverteilung mit Mittelwert µ und Varianz σ 2 nennt. Es gilt dann 1 N (µ, σ )([α, β]) = √ 2πσ 2 Zβ (x−µ)2/2σ 2 e− dx . α Im Fall µ = 0 und σ = 1 erhält man die Standardnormalverteilung N (0,1). Wahrscheinlichkeiten des Eintretens von Intervallen berechnen sich in diesem Fall durch 1 N (0,1)([α, β]) = √ 2π Zβ x2/2 e− dx . α 1.4.4 Gleichverteilung auf einer Menge im Rn Es sei E ⊆ Rn eine beschränkte und abgeschlossene Teilmenge, deren n-dimensionales Volumen voln (E) man berechnen kann. Man definiert die Gleichverteilung auf E durch den Ansatz P(A) = voln (A ∩ E) . voln (E) Insbesondere ergibt sich für A ⊆ E die Aussage P(A) = voln (A) , voln (E) d. h., wie im eindimensionalen Fall hängt die Wahrscheinlichkeit des Eintretens einer Menge A ⊆ E nur von deren Volumen ab, nicht aber von deren Lage innerhalb E noch von ihrer Gestalt. 1.5 Verteilungsfunktion 1.5.1 Definition Für ein Wahrscheinlichkeitsmaß P auf (R, B(R)) wird die Verteilungsfunktion F : R 7→ R durch F (t) := P((−∞, t]) , 8 t∈R, (4) 1.5 Verteilungsfunktion definiert. Hinweis: Ist P ein diskretes Wahrscheinlichkeitsmaß auf (Ω, P(Ω)) mit Ω ⊆ R, so modifiziert sich die Definition zu F (t) := P((−∞, t] ∩ Ω) , t∈R. 1.5.2 Eigenschaften der Verteilungsfunktion Satz 1.2 Die Verteilungsfunktion F eines Wahrscheinlichkeitsmaßes besitzt folgende Eigenschaften: (i) limt→−∞ F (t) = 0 und limt→∞ F (t) = 1, (ii) die Funktion F ist nichtfallend und (iii) die Funktion F ist rechtsseitig stetig. 1.5.3 Weitere Eigenschaften von Verteilungsfunktionen (a) Für jedes halboffene Intervall (α, β] gilt P((α, β]) = F (α) − F (β) . (b) Die Funktion F besitzt in einem Punkt t0 ∈ R genau dann einen Sprung der Höhe h > 0 (man hat F (t0 ) − F (t0 − 0) = h), wenn P({t0 }) = h gilt. Insbesondere hat die Verteilungsfunktion eines diskreten Maßes Sprünge in den Punkten, wo die Masse des Maßes konzentriert ist. Dazwischen ist sie konstant. (c) Ist F Verteilungsfunktion eines stetigen Wahrscheinlichkeitsmaßes P mit Dichte p, so berechnet sich F aus Zt F (t) = p(x) dx , t∈R. −∞ Insbesondere gilt für alle t ∈ R, in denen p stetig ist, die Gleichung 0 F (t) = dF dt (t) = p(t) . 9 1 Wahrscheinlichkeiten 1.6 Bedingte Verteilungen 1.6.1 Definition Es sei (Ω, A, P) ein Wahrscheinlichkeitsraum. Dann wird für B ∈ A mit P(B) > 0 die bedingte Wahrscheinlichkeit P( · |B) (oder die Wahrscheinlichkeit von A unter der Bedingung B) durch P(A|B) := P(A ∩ B) P(B) für A ∈ A (5) definiert. Sie gibt die Wahrscheinlichkeit dafür an, dass A eintritt, unter der Bedingung, dass B bereits eingetreten ist. Häufig verwendet man Gleichung 5 auch in der Form P(A ∩ B) = P(B) P(A|B) . 1.6.2 Eigenschaften Satz 1.3 Die Abbildung A 7→ P(A|B) von A nach [0,1] ist ein Wahrscheinlichkeitsmaß mit den zusätzlichen Eigenschaften P(B|B) = 1 und P(B c |B) = 0 . 1.6.3 Formel über die totale Wahrscheinlichkeit Satz 1.4 Gegeben seien disjunkte Mengen B1 , . . . , Bn in A mit P(Bj ) > 0. Dann gilt S für A ∈ A mit A ⊆ nj=1 Bj die Aussage P(A) = n X P(Bj ) · P(A|Bj ) . j=1 Bemerkung: Insbesondere gilt der Satz im Fall Sn j=1 Bj = Ω für alle A ∈ A. 1.6.4 Formel von Bayes Zur Berechnung von a posteriori Wahrscheinlichkeiten ist die Formel von Bayes wichtig. Sie besagt das folgende: Satz 1.5 Unter den Voraussetzungen aus Satz 1.4 an B1 , . . . , Bn und A folgt für P(A) > 0 die Identität P(Bk ) · P(A|Bk ) P(Bk |A) = Pn für k = 1, . . . , n . (6) j=1 P(Bj ) · P(A|Bj ) Bemerkung: Den Nenner in Gleichung 6 kann man (falls bekannt) durch P(A) ersetzen. 10 1.7 Unabhängigkeit von Ereignissen 1.7 Unabhängigkeit von Ereignissen 1.7.1 Unabhängigkeit von zwei Ereignissen Gegeben seien zwei Ereignisse A, B aus einem Wahrscheinlichkeitsraum (Ω, A, P). Dann heißen A und B (stochastisch) unabhängig, wenn P(A ∩ B) = P(A) P(B) gilt. 1.7.2 Eigenschaften Die ∅ und Ω sind von jeder Menge A ∈ A unahängig. Sind A und B unahängig, dann gilt dies auch für die Paare A und B c bzw. Ac und B c . 1.7.3 Unabhängigkeit von n Ereignissen Die Ereignisse A1 , . . . , An aus A heißen (stochastisch) unabhängig, wenn für alle Teilmengen I ⊆ {1, . . . , n} stets P \ i∈I Ai = Y P(Ai ) (7) i∈I gilt. Man kann dies auch wie folgt formulieren: Für alle m ≥ 2 und alle 1 ≤ i1 < · · · < im ≤ n hat man P(Ai1 ∩ · · · ∩ Aim ) = P(Ai1 ) · · · P(Aim ) . (8) Die Ereignisse A1 , . . . , An aus A heißen paarweise unabhängig, wenn jeweils zwei Ereignisse aus A1 , . . . , An unabhängig sind, d. h. Gleichung 7 muss nur für card(I) = 2 bzw. Gleichung 8 nur für m = 2 erfüllt sein. 1.7.4 Eigenschaften Unabhängige Mengen A1 , . . . , An sind auch paarweise unabhängig. Die Umkehrung ist i. a. falsch. Ebenso falsch ist, dass aus P(A1 ∩ · · · ∩ An ) = P(A1 ) · · · P(An ) stets die Unabhängigkeit der Aj folgt. Sind A1 , . . . , An unabhängig, so gilt dies auch für (Aj )j∈J mit J ⊆ {1, . . . , n}. 11 2 Zufallsvariable 2 Zufallsvariable 2.1 Definition und Verteilungsgesetz 2.1.1 Das vollständige Urbild Für eine Abbildung X : Ω 7→ R und eine Teilmenge B ⊆ R wird das vollständige Urbild von B unter X durch X −1 (B) := {ω ∈ Ω : X(ω) ∈ B} definiert. Verkürzend schreibt man auch X −1 (B) = {X ∈ B}. 2.1.2 Zufällige Größen Sei Ω eine Menge, die mit einer σ-Algebra A versehen ist. Eine Abbildung X : Ω 7→ R heißt zufällige Größe oder reellwertige Zufallsvariable oder zufällige reelle Zahl, wenn für jedes t ∈ R die Menge {ω ∈ Ω : X(ω) ≤ t} zur σ-Algebra A gehört. Bemerkung: In diesem Fall gilt dann auch X −1 (B) ∈ A für jede Borelmenge B ⊆ R. 2.1.3 Verteilungsgesetz einer zufälligen Größe Sei (Ω, A, P) ein Wahrscheinlichkeitsraum. Für eine zufällige Größe X : Ω 7→ R ist die Abbildung PX : B(R) 7→ [0,1] mit PX (B) = P X −1 (B) = P{ω ∈ Ω : X(ω) ∈ B} = P({X ∈ B}) = P(X ∈ B) sinnvoll definiert. Satz 2.1 Die Abbildung PX ist ein Wahrscheinlichkeitsmaß auf (R, B(R)). Man nennt PX das Verteilungsgesetz von X (bzgl. P). 2.1.4 Typen von zufälligen Größen Eine zufällige Größe X heißt diskret, wenn PX ein diskretes Wahrscheinlichkeitsmaß ist. Damit hat PX die Gestalt PX (B) = X {i : xi ∈B} 12 pi 2.1 Definition und Verteilungsgesetz mit geeigneten xi ∈ R und pi ≥ 0. Die xi sind die möglichen Werte von X, d. h. es gilt P(X ∈ {x1 , x2 , . . . }) = 1, und pi = P{ω ∈ Ω : X(ω) = xi } . Eine zufällige Größe X heißt stetig, falls PX ein stetiges Wahrscheinlichkeitsmaß ist. Das gilt genau dann, wenn mit einer Wahrscheinlichkeitsdichte p für alle α < β die Gleichung PX ([α, β]) = P{ω ∈ Ω : α ≤ X(ω) ≤ β} = Zβ p(x) dx α erfüllt ist. Die Funktion p nennt man auch Verteilungsdichte (oder einfach Dichte) von X. 2.1.5 Speziell verteilte diskrete zufällige Größen Eine zufällige Größe X heißt gleichverteilt auf einer endlichen Menge oder binomialverteilt oder Poissonverteilt etc., wenn PX von diesem Typ ist. In allen diesen Fällen ist X diskret. Zum Beispiel ist X gemäß Bn,p verteilt (man schreibt auch X ∼ Bn,p ), falls für 0 ≤ k ≤ n stets ! n k p (1 − p)n−k k PX ({k}) = P{ω ∈ Ω : X(ω) = k} = gilt. Analog ist X gemäß Pλ verteilt, sofern für k ∈ N0 PX ({k}) = P{ω ∈ Ω : X(ω) = k} = λk −λ e . k! 2.1.6 Speziell verteilte stetige zufällige Größen Eine zufällige Größe X heißt gleichverteilt auf einem Intervall, oder exponentialverteilt oder normalverteilt etc., wenn PX von diesem Typ ist. Alle diese zufälligen Größen sind stetig. Zum Beispiel ist X gleichverteilt auf [a, b], falls für alle α < β stets PX ([α, β]) = P{ω ∈ Ω : α ≤ X(ω) ≤ β} = Länge von ([α, β] ∩ [a, b]) b−a gilt. Oder X ist N (µ, σ 2 )-verteilt (man schreibt X ∼ N (µ, σ 2 )), sofern 1 PX ([α, β]) = P{ω ∈ Ω : α ≤ X(ω) ≤ β} = √ 2πσ Zβ (x−µ)2/2σ 2 e− dx . α 13 2 Zufallsvariable 2.1.7 Identisch verteilte zufällige Größen Zwei zufällige Größen X und Y sind identisch verteilt, wenn PX = PY gilt, d. h. für alle B ∈ B(R) hat man P{ω ∈ Ω : X(ω) ∈ B} = P{ω ∈ Ω : Y (ω) ∈ B} . d Man schreibt dann X = Y . 2.1.8 Verteilungsfunktion einer zufälligen Größe Die Verteilungsfunktion FX einer zufälligen Größe ist die Verteilungsfunktion ihres Verteilungsgesetzes, d. h., es gilt FX (t) = PX (−∞, t] = P{ω ∈ Ω : X(ω) ≤ t} , t∈R. d Für zwei zufällige Größen X und Y gilt genau dann X = Y , wenn man FX = FY hat. Die Funktion FX besitzt die Eigenschaften aus Satz 1.2. 2.2 Zufällige Vektoren und Unabhängigkeit zufälliger Größen 2.2.1 Zufällige Vektoren ~ : Ω 7→ Rn heißt (n-dimensioSei Ω eine Menge mit einer σ-Algebra A. Eine Abbildung X naler) zufälliger Vektor, wenn seine Koordinatenabbildungen Xj : Ω 7→ R alle zufällige Größen sind. Dabei sind wie üblich die Xj durch ~ X(ω) = (X1 (ω), . . . , Xn (ω)) , ω ∈Ω, definiert. 2.2.2 Gemeinsames Verteilungsgesetz Sei (Ω, A, P) ein Wahrscheinlichkeitsraum. Dann definiert man wie im eindimensionalen ~ durch Fall das Verteilungsgesetz PX~ von X ~ −1 (B) = P{ω ∈ Ω : (X1 (ω), . . . , Xn (ω)) ∈ B} . PX~ (B) := P X Im Spezialfall B = B1 × · · · × Bn für Borelmengen Bj ⊆ R folgt PX~ (B) = P(X1 ∈ B1 , . . . , Xn ∈ Bn ) . Deshalb nennt man PX~ auch gemeinsames Verteilungsgesetz der zufälligen Größen X1 , . . . , Xn . 14 2.2 Zufällige Vektoren und Unabhängigkeit zufälliger Größen 2.2.3 Randverteilungen ~ nennt man die Verteilungsgesetze PX , 1 ≤ j ≤ n, Für einen zufälligen Vektor X j ~ Hierbei sind wie zuvor die zufälligen Größen Xj die die Randverteilungen von X. zugehörigen Koordinatenabbildungen. Satz 2.2 Die Randverteilungen berechnen sich aus der gemeinsamen Verteilung durch PXj (B) = PX~ (R × · · · × B × · · · × R) , B ∈ B(R) . ↑ j-te Stelle Damit bestimmt die gemeinsame Verteilung die zugehörigen Randverteilungen. Bemerkung: Die Umkehrung der obigen Aussage ist i. a. falsch, d. h. es existieren zufällige ~ = (X1 , . . . , Xn ) und Y ~ = (Y1 , . . . , Yn ) mit PX = PY , 1 ≤ j ≤ n, aber mit Vektoren X j j PX~ 6= PY~ . 2.2.4 Randverteilungen diskreter Vektoren Wir betrachten hier nur den Fall n = 2. Ein zufälliger 2-dimensionaler Vektor hat die Gestalt (X, Y ) mit vorgegebenen zufälligen Größen X und Y . Weiterhin seien X und Y diskret und die Folgen (xi )i≥1 bzw. (yj )j≥1 von reellen Zahlen bezeichnen die möglichen Werte von X bzw. Y . Dann nimmt der Vektor (X, Y ) die Werte (xi , yj )i,j≥1 an und für das Verteilungsgesetz von P(X,Y ) , d. h. die gemeinsame Verteilung von X und Y , gilt X P(X,Y ) (B) = B ∈ P(R2 ) , pij , {(i,j) : (xi ,yj )∈B} wobei pij = P(X,Y ) ({(xi , yj )}) = P(X = xi , Y = yj ) . Für die Randverteilungen ergibt sich dann PX (B) = X qi und X PY (B) = {i : xi ∈B} rj , B ∈ P(R) , {j : yj ∈B} mit qi = ∞ X j=1 pij und rj = ∞ X pij . i=1 15 2 Zufallsvariable 2.2.5 Randverteilungen stetiger Vektoren Zur besseren Übersichtlichkeit betrachten wir auch hier nur den Fall n = 2. Der 2dimensionale Vektor (X, Y ) sei wie oben definiert. Diesmal nehmen wir aber an, dass P(X,Y ) eine Dichte hat, es also eine Funktion p : R2 7→ R gibt, so dass für alle α < β und γ < δ stets P(X,Y ) [α, β] × [γ, δ] = P{ω ∈ Ω : α ≤ X(ω) ≤ β, γ ≤ Y (ω) ≤ δ} = Zβ Zδ p(x, y) dy dx α γ gilt. Dann haben X bzw. Y Verteilungsdichten q und r mit Z∞ q(x) := Z∞ p(x, y) dy und −∞ r(y) := p(x, y) dx . −∞ 2.2.6 Unabhängigkeit von zufälligen Größen Gegeben seien n zufällige Größen X1 , . . . , Xn auf (Ω, A, P). Gilt für beliebige Borelmengen B1 , . . . , Bn ∈ B(R) stets P(X1 ∈ B1 , . . . , Xn ∈ Bn ) = P(X1 ∈ B1 ) · · · P(Xn ∈ Bn ) , (9) so heißen X1 , . . . , Xn unabhängig. Bemerkung 1: Die Unabhängigkeit der Xj ist äquivalent zu folgender Aussage: Für n −1 beliebige Borelmengen Bj ∈ B(R) sind die Ereignisse Xj (Bj ) unabhängig. Das j=1 folgt aus der Tatsache, dass man in Gleichung 9 für gewisse vorgegebene Bj auch die reellen Zahlen R einsetzen kann. Bemerkung 2: Es reicht aus, wenn Gleichung 9 mit Intervallen Bj der Form (−∞, tj ] für alle tj ∈ R gilt. Die zufälligen Größen X1 , . . . , Xn sind also dann und nur dann unabhängig, wenn für alle tj ∈ R stets P(X1 ≤ t1 , . . . , Xn ≤ tn ) = P(X1 ≤ t1 ) · · · P(Xn ≤ tn ) folgt. Bemerkung 3: Aufgrund von Gleichung 9 ist die gemeinsame Verteilung von X1 , . . . , Xn im Fall der Unabhängigkeit eindeutig durch ihre Randverteilungen PXj , 1 ≤ j ≤ n, bestimmt. 16 2.3 Rechnen mit zufälligen Größen 2.2.7 Spezialfälle Besitzen X und Y die Eigenschaften aus Abschnitt 2.2.4, so sind X und Y dann und nur dann unabhängig, wenn pij = qi · rj , 1 ≤ i, j < ∞ . Im stetigen Fall (Abschnitt 2.2.5) sind X und Y genau dann unabhängig, wenn p(x, y) = q(x) · r(y) , x, y ∈ R . 2.3 Rechnen mit zufälligen Größen 2.3.1 Transformationen Eine Abbildung f : R 7→ R heißt messbar, wenn für jedes t ∈ R die Menge {x ∈ R : f (x) ≤ t} eine Borelmenge ist. Stetige Funktionen, Grenzwerte stetiger Funktionen oder auch monotone Funktionen besitzen diese Eigenschaft. Satz 2.3 Sei X eine zufällige Größe und sei f : R 7→ R messbar. Dann ist Y := f (X) ebenfalls eine zufällige Größe. Allgemeine Aufgabe: Man bestimme PY mit Hilfe von PX und f . Folgendes Beispiel illustriere die Situation: Sei U gleichverteilt auf [0,1], so ist mit f (s) := 1 − s auch Y := f (U ) = 1 − U gleichverteilt auf [0,1]. 2.3.2 Simulation stetiger zufälliger Größen Sei X eine stetige zufällige Größe mit Verteilungsfunktion FX . Wir nehmen an, dass mit zwei Zahlen −∞ ≤ a < b ≤ ∞ die Verteilungsfunktion FX (a) = 0, FX (b) = 1 erfülle und auf (a, b) streng wachsend sei. Dann existiert die inverse Funktion von FX , die mit FX−1 bezeichnet wird, und es gilt FX−1 : (0,1) 7→ (a, b). Satz 2.4 Sei U eine auf [0,1] gleichverteilte zufällige Größe. Unter den obigen Vorausd setzungen gilt dann für Y := FX−1 (U ) die Aussage X = Y . Anwendung: Sind u1 , . . . , un unabhängig erzeugte reelle Zahlen, die gemäß der Gleichverteilung aus [0,1] gewählt wurden, so sind die Zahlen xj := FX−1 (uj ) ebenfalls unabhängig und gemäß PX verteilt. 17 2 Zufallsvariable 2.3.3 Lineare Transformationen Für reelle Zahlen a 6= 0 und b ∈ R betrachte man die lineare Transformation Y := a X + b einer zufälligen Größe X. Satz 2.5 Im Fall a > 0 folgt FY (t) = FX t−b a . Ist a < 0, so ergibt sich t−b FY (t) = 1 − P X < a , also FY (t) = 1 − FX t−b a im Fall stetiger X. Folgerung: Besitzt X die Verteilungsdichte p, so hat Y = a X + b eine Dichte q, die sich aus p durch t−b 1 p |a| a q(t) = , t ∈ R, ergibt. 2.3.4 Addition zufälliger Größen Für zwei zufällige Größen X und Y wird ihre Summe X + Y durch (X + Y )(ω) := X(ω) + Y (ω) , ω ∈Ω, definiert. Satz 2.6 Sind X und Y zufällige Größen, so gilt dies auch für X + Y . Das Verteilungsgesetz der Summe X + Y kann man für unabhängige zufällige Größen in einigen Fällen in einfacher Form angeben. Satz 2.7 Es seien X und Y unabhängige zufällige Größen. 18 2.4 Erwartungswert 1. Nehmen X und Y Werte in den ganzen Zahlen Z an, so folgt P(X + Y = k) = ∞ X P(X = i) P(Y = k − i) , k∈Z. i=−∞ 2. Besitzen X und Y Werte in N0 , so ergibt sich P(X + Y = k) = k X P(X = i) P(Y = k − i) , k ∈ N0 . i=0 Im Fall stetiger zufälliger Größen gilt folgender Satz: Satz 2.8 Seien X und Y unabhängig mit Verteilungsdichten p und q. Dann besitzt X +Y die Verteilungsdichte r mit Z∞ r(x) = p(x − y) q(y) dy = −∞ Z∞ p(y) q(x − y) dy . −∞ Man nennt r die Faltung von p und q und schreibt r = p ∗ q. 2.3.5 Addition speziell verteilter zufälliger Größen Satz 2.9 Im folgenden seien X und Y stets als unabhängig vorausgesetzt. Dann gilt: (a) Aus X ∼ Bn,p und Y ∼ Bm,p folgt X + Y ∼ Bn+m,p . (b) Aus X ∼ Pλ und Y ∼ Pµ erhält man X + Y ∼ Pλ+µ . (c) Aus X ∼ N (µ1 , σ12 ) und Y ∼ N (µ2 , σ22 ) folgt X + Y ∼ N (µ1 + µ2 , σ12 + σ22 ). 2.4 Erwartungswert 2.4.1 Erwartungswert diskreter zufälliger Größen Eine zufällige Größe X nehme Werte x1 , x2 , . . . aus [0, ∞) an. Dann definiert man den Erwartungswert von X durch EX := ∞ X xi P(X = xi ) . i=1 Es gilt dann 0 ≤ EX ≤ ∞. 19 2 Zufallsvariable Sind nunmehr die Werte von X beliebige reelle Zahlen (nicht notwendig ≥ 0), so sagt man, dass X einen Erwartungswert besitzt, wenn ∞ X |xi | P(X = xi ) < ∞ . i=1 In diesem Fall ist der Erwartungswert von X mit EX := ∞ X xi P(X = xi ) i=1 eine wohldefinierte reelle Zahl. 2.4.2 Erwartungswert stetiger zufälliger Größen Sei p die Verteilungsdichte einer zufälligen Größe X. Dann besitzt X einen Erwartungswert, wenn Z∞ |x| p(x) dx < ∞ , −∞ und man definiert den Erwartungswert von X durch Z∞ x p(x) dx . EX := −∞ 2.4.3 Beispiele zur Berechnung von Erwartungswerten Verteilung X X X X X X X 20 gleichverteilt auf x1 , . . . , xN ∼ Bn,p ∼ Pλ geometrisch verteilt mit Parameter p gleichverteilt auf [a, b] ∼ Eλ ∼ N (µ, σ 2 ) Erwartungswert EX EX EX EX EX EX EX PN = N1 = np =λ = 1−p p = a+b 2 = λ1 =µ i=1 xi 2.5 Varianz und Kovarianz 2.4.4 Eigenschaften des Erwartungswertes Satz 2.10 Der Erwartungswert einer zufälligen Größe hat folgende Eigenschaften: 1. Der Erwartungswert ist linear, d. h. für alle a, b ∈ R und zufällige Größen X und Y gilt E(aX + bY ) = a EX + b EY . 2. Sei X diskret mit möglichen Werten x1 , x2 , . . . aus R. Dann existiert für eine Funktion f : R 7→ R der Erwartungswert Ef (X) genau dann, wenn ∞ X |f (xi )| P(X = xi ) < ∞ , i=1 und es gilt Ef (X) = ∞ X f (xi ) P(X = xi ) . i=1 3. Ist X stetig mit Verteilungsdichte p, so existiert für eine messbare Abbildung f : R 7→ R genau dann der Erwartungswert von f (X), wenn Z∞ |f (x)| p(x) dx < ∞ , −∞ und man hat Z∞ f (x) p(x) dx . Ef (X) = −∞ 4. Sind X und Y unabhängige zufällige Größen deren Erwartungswert existiert, so existiert auch der Erwartungswert von X · Y , und es gilt E(X · Y ) = EX · EY . 2.5 Varianz und Kovarianz 2.5.1 Momente Sei n ∈ N. Eine zufällige Größe X besitzt ein n-tes Moment, wenn E|X|n < ∞. Im diskreten Fall bedeutet dies ∞ X |xi |n P(X = xi ) < ∞ i=1 21 2 Zufallsvariable und im stetigen Z∞ |x|n p(x) dx < ∞ . −∞ Insbesondere hat X ein erstes Moment, genau dann, wenn EX existiert. Satz 2.11 Sei 1 ≤ m ≤ n. Hat eine zufällige Größe X ein n-tes Moment, so besitzt sie auch ein m-tes Moment. Insbesondere hat jede zufällige Größe mit zweitem Moment einen Erwartungswert. 2.5.2 Varianz Es sei X eine zufällige Größe mit zweitem Moment. Sei a := EX. Dann definiert man die Varianz (oder Streuung) von X durch VX := E(X − a)2 . Die Varianz gibt den mittleren quadratischen Abstand einer zufälligen Größe X von ihrem Erwartungswert an. Sie ist ein Maß dafür, wie sehr die Werte von X um EX schwanken. 2.5.3 Eigenschaften der Varianz Satz 2.12 Im folgenden seien X und Y zufällige Größen mit zweiten Momenten. Dann gelten die folgenden Aussagen: 1. Mit a := EX berechnet sich die Varianz für diskrete zufällige Größen in der Form VX = ∞ X (xi − a)2 P(X = xi ) , i=1 und im stetigen Fall hat man Z∞ VX = (x − a)2 p(x) dx . −∞ 2. Es besteht die Identität VX = EX 2 − (EX)2 . 3. Für eine konstante zufällige Größe X folgt VX = 0. 22 2.5 Varianz und Kovarianz 4. Für α ∈ R erhält man V(α X) = α2 VX . 5. Sind X und Y unabhängig, dann gilt V(X + Y ) = VX + VY . 2.5.4 Beispiele zur Berechnung von Varianzen Verteilung X X X X Varianz gleichverteilt auf x1 , . . . , xN ∼ Bn,p ∼ Pλ geometrisch verteilt mit Parameter p VX VX VX VX 2 = N1 N i=1 (xi − EX) = n p (1 − p) =λ = 1−p p2 P VX = (b−a) 12 VX = λ12 VX = σ 2 X gleichverteilt auf [a, b] X ∼ Eλ X ∼ N (µ, σ 2 ) 2 2.5.5 Kovarianz Gegeben seien zwei zufällige Größen X und Y mit zweiten Momenten. Seien a := EX und b := EY . Dann wird die Kovarianz von X und Y durch cov(X, Y ) := E(X − a)(Y − b) definiert. Eigenschaften: 1. Sind X und Y diskret mit möglichen Werten x1 , x2 , . . . bzw. y1 , y2 , . . . aus R, so berechnet sich die Kovarianz aus der Formel cov(X, Y ) = ∞ X (xi − a)(yj − b) pij i,j=1 wobei pij = P(X = xi , Y = yj ) . 23 2 Zufallsvariable 2. Hat die Verteilung des zufälligen Vektors (X, Y ) eine Dichte p : R2 7→ R, so ergibt sich die Kovarianz von X und Y aus Z∞ Z∞ cov(X, Y ) = (x − a)(y − b) p(x, y) dx dy . −∞ −∞ 3. Sind X und Y unabhängig, so impliziert dies cov(X, Y ) = 0, d. h. X und Y sind unkorreliert. Man beachte, dass aus der Unkorreliertheit i. a. nicht die Unabhängigkeit folgt. 4. Man hat |cov(X, Y )| ≤ (VX) /2 (VY ) /2 . 1 1 (10) 2.5.6 Korrelationskoeffizient Für zwei zufällige Größen X und Y mit zweiten Momenten definiert man ihren Korrelationskoeffizienten durch ρ(X, Y ) := cov(X, Y ) . (VX)1/2 (VY )1/2 Aus Gleichung 10 folgt −1 ≤ ρ(X, Y ) ≤ 1 . Für unkorrelierte zufällige Größen gilt ρ(X, Y ) = 0. Der Korrelationskoeffizient ist ein Maß für den Grad der Abhängigkeit von X und Y . Je näher ρ(X, Y ) an 1 oder −1 liegt, desto größer ist die Abhängigkeit zwischen X und Y . Im stärksten Fall der Abhängigkeit von X und Y , nämlich Y = X bzw. Y = −X, hat man ρ(X, X) = 1 bzw. ρ(X, −X) = −1. 24 Nutzungsbedingungen Dieses Dokument wurde für die auf der Titelseite genannte Vorlesung erstellt und wird jetzt im Rahmen des Projekts »Vorlesungsskripte der Fakultät für Mathematik und Informatik« weiter betreut. Das Dokument wurde nach bestem Wissen und Gewissen angefertigt. Dennoch garantiert weder der auf der Titelseite genannte Dozent, die Personen, die an dem Dokument mitgewirkt haben, noch die Mitglieder des Projekts für dessen Fehlerfreiheit. Für etwaige Fehler und dessen Folgen wird von keiner der genannten Personen eine Haftung übernommen. Es steht jeder Person frei, dieses Dokument zu lesen, zu verändern oder auf anderen Medien verfügbar zu machen, solange ein Verweis auf die Internetadresse des Projekts http: // uni-skripte. lug-jena. de/ enthalten ist. Diese Ausgabe trägt die Versionsnummer 1889 und ist vom 15. November 2008. Eine neue Ausgabe könnte auf der Webseite des Projekts verfügbar sein. Jeder ist dazu aufgerufen, Verbesserungen, Erweiterungen und Fehlerkorrekturen für das Skript einzureichen bzw. zu melden oder diese selbst einzupflegen – einfach eine E-Mail an die Mailingliste <uni-skripte@ lug-jena. de> senden. Weitere Informationen sind unter der oben genannten Internetadresse verfügbar. Hiermit möchten wir allen Personen, die an diesem Skript mitgewirkt haben, vielmals danken: • Prof. Werner Linde (2008/09) 25 Index B besitzt Erwartungswert, 20 binomialverteilt, 13 Binomialverteilung, 6 Borelmenge, 4 D Dichte, 5, 13 Diracsche δ-Maß, 5 diskret, 4, 12 E Einpunktverteilung, 5 Elementarereignis, 2 endlich additiv, 3 Ereignis, 2 Erwartungswert, 19, 20 exponentialverteilt, 13 Exponentialverteilung, 7 F Faltung, 19 G gleichverteilt, 13 Gleichverteilung, 5, 7 auf E, 8 Grundraum, 2 K Korrelationskoeffizient, 24 Kovarianz, 23 M messbar, 17 monoton, 3 N normalverteilt, 13 26 Normalverteilung, 8 n-tes Moment, 21 P Poissonverteilt, 13 Poissonverteilung, 6 R Randverteilung, 15 S σ-Algebra, 2 Standardnormalverteilung, 8 stetig, 5, 13 von oben, 3 von unten, 3 Streuung, 22 T tritt ein, 2 U unabhängig, 11, 16 paarweise, 11 unkorreliert, 24 Urbild vollständiges, 12 V Varianz, 22 verteilt identisch, 14 Verteilung geometrische, 7 hypergeometrische, 6 Verteilungsdichte, 13 Verteilungsfunktion, 8, 14 Verteilungsgesetz, 12 gemeinsames, 14 Index W Wahrscheinlichkeit bedingte, 10 Wahrscheinlichkeitsdichte, 4 Wahrscheinlichkeitsmaß, 2 Wahrscheinlichkeitsraum, 3 Wahrscheinlichkeitsverteilung, 2 Z Zufallsvariable reellwertige, 12 zufällige Größe, 12 reelle Zahl, 12 -r Vektor, 14 27