Stochastik für Informatiker, Prof. Dr. Hans M. Dietz, Zusammenfassung von Florian Schoppmann Das Copyright für die dieser Zusammenfassung zugrunde liegenden Vorlesungsunterlagen (Skripte, Folien, etc.) liegt beim Dozenten. Darüber hinaus bin ich, Florian Schoppmann, alleiniger Autor dieses Dokuments und der genannte Dozent ist in keiner Weise verantwortlich. Etwaige Inkorrektheiten sind mit sehr großer Wahrscheinlichkeit erst durch meine Zusammenfassung/Interpretation entstanden. 1. P (A) ≥ 0 ∀A ∈ F 2. P (Ω) = 1 3. P (A∪B) = P (A)+P (B) ∀A, B ∈ F, A∩B = ∅ Zusammenfassung Stochastik §1 Einfache kombinatorische Modelle Satz: Sei M Ereignismenge der Einzelexperimente ( elem. Versuchsausgänge“), Ω Menge al” ler Versuchsausgänge bei k Wiederholungen des Einzelexperiments. Für die Kardinalität |Ω| gilt dann, abhängig des Versuchsaufbaus: • Geordnet, mit Zurücklegen: |Ω| = |M |k • Geordnet, ohne Zurücklegen: |Ω| = (|M |)k • Ungeordnet, mit Zurücklegen: |+k−1 |Ω| = |Mk−1 (Idee: Codierung des Versuchsausgang als |M | + k − 1 bit-Binärwort.) • Ungeordnet, ohne Zurücklegen: |M | |Ω| = k Anwendungsbeispiel: • Lotto: (6)(43) P ((genau) 3 aus 49 richtig) = 3 49 3 (6) ,→ MultiHyg • Kartenspiel: Wkt., beim Skat (10 Karten pro Spieler, insg. 32), genau 2 Buben und genau 2 Asse4 zu erhalten: (2)(42)(24 10) p= (32 10) • Allgemein: Anzahl der Möglichkeiten, eine Menge mit n Elementen auf m Einzelmengen mit jeweils n1 , n2 , ..., nm Elementen aufzuteilen: n n−n1 · . . . · nnm = n1 !·n2n! n1 · !·...·nm ! n2 m §2 Axiomatik Definition: Sei Ω 6= ∅. F ⊂ P(Ω) heißt Algebra in Ω, wenn gilt: 1. Ω ∈ F 2. A ∈ F =⇒ A ∈ F 3. A, B ∈ F =⇒ A ∪ B ∈ F Gilt sogar S für jede beliebige Folge (An ) ⊂ F, dass n∈N An ∈ F, dann heißt F auch σ-Algebra in Ω. Definition: Sei F σ-Algebra in Ω 6= ∅. Dann nennt man (Ω, F) einen messbaren Raum. Ferner heißt eine reelle Funktion P : F −→ Wahrscheinlichkeit(smaß), wenn gilt: R Anwendungsbeispiel: • LaPlace“-Raum: Ω ist endlich, d.h. |Ω| = ” N, N ∈ , daher F ebenfalls. Es gilt ∀ ω ∈ Ω: P ({ω}) = N −1 . • F ist bzgl. aller mengentheoretischen Operationen (Differenz, Durchschnitt, etc.) abgeschlossen (Beweis z.B. mit DeMorgan). Dies gilt ebenfalls, wenn F σ-Algebra ist. N Satz: Sei (Ω, F, P ) W-Raum. Dann gilt: A ⊆ B =⇒ P (A) ≤ (B) ∀ A, B, ∈ F (Monotonie). Satz: Sei (Ω, F, P ) W-Raum, B ∈ F, P (B) > 0. Dann ist auch P (?|B) : F −→ , A −→ P (A|B) ein W-Maß. R Definition: Bedingte Wkt.: P (A|B) := P (A∩B) P (B) Satz: Formel der totalen Wkt: Sei (Ai )i∈I ⊆ F, Ai paarweise disjunkt, S mit I ⊆ , I 6= ∅, P (Ai ) > 0 ∀i ∈ I und Ω = Ai . Dann gilt: P P (F ) = i∈I P (F |Ai ) · P (Ai ) ∀F ∈ F. N Satz: Bayes-Formel: i )·P (Ai ) P (Ai |F ) = P P (FP|A (F |Aj )·P (Aj ) j∈I T Satz: P ( ni=1 Ai ) = P (A1 ) · P (A2 |A1 ) · . . . · P (An |A1 ∩ . . . ∩ An−1 ) Satz: Sei (Ω, F, P ) W-Raum, I 6= ∅ beliebige Indexmenge. A := (Ai )i∈I ⊆ F. Die Familie A (bzw. die Ereignisse Ai , i ∈ I) heißen (vollständig) unabhängig, wenn für jede endliche Teilfamilie (AiT )i∈J , mit J Q⊆ I endlich, gilt: P ( i∈J Ai ) = i∈J P (Ai ) Bemerkungen: • Aus vollst. Unabhängigkeit folgt paarweise Unabhängigkeit (direkt aus der Definition), umgekehrt gilt das jedoch nicht. • ⊥ ⊥ ist keine transitive Relation. • (Ai )i∈I ⊥ =⇒ (Ãi )i∈I vollst. ⊥ ⊥, mit vollst. ⊥ Ai für gewisse i Ãi = Ai für die übrigen i 1 Stochastik für Informatiker, Prof. Dr. Hans M. Dietz, Zusammenfassung von Florian Schoppmann Das Copyright für die dieser Zusammenfassung zugrunde liegenden Vorlesungsunterlagen (Skripte, Folien, etc.) liegt beim Dozenten. Darüber hinaus bin ich, Florian Schoppmann, alleiniger Autor dieses Dokuments und der genannte Dozent ist in keiner Weise verantwortlich. Etwaige Inkorrektheiten sind mit sehr großer Wahrscheinlichkeit erst durch meine Zusammenfassung/Interpretation entstanden. Definition: Eine σ-Algebra F heißt diskret, wenn es eine Familie (Ai )i∈I von Teilmenge von Ω gibt mit S ∅ 6= I ⊆ , Ai ∩ Aj = ∅ ∀i 6= j und Ω = i∈I Ai , so dass sich jedes Element A ∈ F als Vereinigung gewisser der Ai darstellen lässt. N Satz: Sei ∅ 6= Ω, F diskrete σ-Algebra in Ω mit erzeugender Zerlegung (Ai )i∈I . i) Ist ein W-Maß P auf (Ω, F) gegeben, so bildet (P (Ai ))i∈I einen stochastischen Vektor (= b eine stochastische Folge). ii) Gibt man einen stochastischen Vektor (qi )i∈I vor, so existiert dazu genau ein W-Maß Q mit Q(Ai ) =P qi ∀i ∈ I. Es gilt zudem: Q(A) = i∈I,Ai ⊆A qi Beispiele für diskrete Verteilungen: • 2-Punkt-Verteilung • Geometrische Verteilung • Binomialverteilung, Approximation unter gewissen Vor. durch Poissonverteilung – siehe folgenden Satz • Hypergeometrische Verteilung ( Lottovertei” lung“), wird für große Zahlen“ durch die Bi” nomialverteilung approximiert • Multinomialverteilung • Multi-Hypergeometrische Verteilung • Poissonverteilung Satz: Sei (pN )N ∈N ⊂ [0, 1] eine Folge derart, dass limN →∞ N · PN =: λ > 0 existiert. Dann gilt für alle k ∈ 0 : k limN →∞ Bi(N, pN )k = Pois(λ)k = λk! e−λ N Satz: Der Durchschnitt beliebig vieler σ-Algebren in einer Menge Ω ist wiederum σ-Algebra in Ω. Definition: Der Durchschnitt aller σ-Algebren in , die alle halboffenen Intervalle (a, b], a, b ∈ enthalten, heißt borelsche σ-Algebra B. Die zu B gehörigen Mengen heißen borelsche Mengen. Bemerkungen: B enthält alle Einpunktmengen, alle Intervalle und alle offenen, abgeschlossenen, kompakten Mengen. R R R R Definition: Eine Funktion F : −→ , F monoton wachsend, rechtsseitig stetig und limx→−∞ = 0, limx→∞ = 1, heißt Verteilungsfunktion. Bemerkungen: Durch die Verteilungsfunktion 2 F wird eindeutig ein W-Maß Q auf B gegeben: Q((a, b]) = F (b) − F (a) ∀a, b ∈ , a < b. R Satz: Jede Verteilungsfunktion hat höchstens abzählbar viele Sprungstellen. Beweis: Die Sprünge sind nach absteigende Höhe nummerierbar: Es gibt max. 1 der Höhe > 21 , max. 3 mit Höhe ∈ ( 14 , 12 ], etc. R R Definition:PDie Funktionen F d , F c : −→ , d c d F (x) := := F − F heißen s≤x ∆F (s), F diskreter Anteil bzw. stetiger Anteil von F . Eine Verteilungsfunktion heißt diskret, wenn gilt: Fd = F. Sie heißt absolutstetig, wenn F = F c gilt und zusätzlich eine Funktion Rf : −→ existiert x mit f ≥ 0 und F (x) = −∞ f (u)du, x ∈ . In diesem Fall heißt jede derartige Funktion f eine Dichte von F . R R R §3 Zufallsgrößen Definition: Sei (Ω, F, P ) W-Raum und X : Ω −→ eine (messbare) Abbildung. Dann heißt X Zufallsgröße. R R Definition: Sei X : Ω −→ eine Zufallsgröße mit Verteilungsfunktion F . X Setze SX := P r · P (X = r) im diskreten Fall bzw. r∈X(Ω) R 0 SX := r∈X(Ω) r · FX (r)dr im stetigen Fall. Falls SX < ∞ heißt E(X) := SX Erwartungswert von X, andernfalls existiert der Erwartungswert ” nicht“. R Satz: Sei c ∈ bel. aber fest, X, Y Zufallsgrößen. Dann gelten folgende Rechenregeln: i) E(c) = c ii) E(c · X) = c · E(X) iii) E(X + Y ) = E(X) + E(Y ) iv) E(X · Y ) = E(X) · E(Y ), falls X ⊥ ⊥Y 2 2 v) E((X − E(X)) ) = E(X − 2X · E(X) + E(X)2 ) = E(X 2 ) − 2 · E(x) · E(X) + E(X)2 = E(X 2 ) − E(X)2 Anwendungsbeispiel: Erwartungswert der geom. Verteilung (p ist Einzelerfolgswahrscheinlichtkeit): E(X) = ∞ X k=0 k−1 k(1 − p) p=p ∞ X k=0 k(1 − p)k−1 | {z } d =− dp (1−p)k Stochastik für Informatiker, Prof. Dr. Hans M. Dietz, Zusammenfassung von Florian Schoppmann Das Copyright für die dieser Zusammenfassung zugrunde liegenden Vorlesungsunterlagen (Skripte, Folien, etc.) liegt beim Dozenten. Darüber hinaus bin ich, Florian Schoppmann, alleiniger Autor dieses Dokuments und der genannte Dozent ist in keiner Weise verantwortlich. Etwaige Inkorrektheiten sind mit sehr großer Wahrscheinlichkeit erst durch meine Zusammenfassung/Interpretation entstanden. ∞ = −p d X 1 d (1 − p)k = −p dp dp 1 − (1 − p) k=0 = −p(− 1 1 )= 2 p p Definition: Der Modalwert einer Zufallsgröße ist definiert als die Stelle des größten Sprunges der Verteilungsfunktion im diskreten Fall bzw. des Maximums der Dichte im stetigen Fall. Definition: Sei X Zufalsgröße mit Verteilungsfunktion FX und α ∈ (0, 1). Dann heißt Qα (X) := {x ∈ | FX (x−) ≤ α ≤ FX (x+)} Menge der αQuantile von X bzw. FX . R Definition: Sofern E(X) existiert, heißt Var(X) := D2 (X) = E(X − E(X))2 Streuung oder Varianz von X. Satz: Zu den Zufallsgrößen X, Y existieren die Streuungen. Dann gelten folgende Rechenregeln: i) D2 (c · X) = c2 · D2 (X) ii) D2 (X) = 0 ⇐⇒ P (X = E(X)) = 1 iii) D2 (X + a) = D2 (X) ∀a ∈ iv) D2 (X + Y ) = D2 (X) + D2 (Y ) + 2 · E[(X − E(X))(Y − E(Y ))] R Definition: Seien X, Y Zufallsgrößen mit E(X), E(Y ) < ∞. Dann ist die Kovarianz von X, Y definiert als: CoV(X, Y ) := E[(X − E(X))(Y − E(Y ))] = E(XY ) − E(X) · E(Y ) Es ist offensichtlich, dass CoV(X, Y ) = 0, falls X⊥ ⊥Y. Definition: n Zufallsgrößen X1 , . . . , Xn heißen (vollständig) unabhängig, wenn für jede beliebige Auswahl von Borel-Mengen B1 , . . . , Bn die Ereignisse [X1 ∈ B1 ], . . . , [Xn ∈ Bn ] (vollständig) unabhängig sind. Satz: Sind X, Y ⊥ ⊥, so gilt: D2 (X+Y ) = D2 (X)+ 2 D (Y ). Satz: Sind X, Y stetig verteilt, so gilt: X ⊥ ⊥ Y ⇐⇒ Man kann f(X,Y ) (x, y) = fX (x) · fY (y) wählen. Definition: Zwei Zufallsgrößen X, Y heißen identisch verteilt, wenn FX = FY gilt. Bsp.: X = b Anz. Wappen, Y = b Anz. Zahlen bei 5 Würfen. Es gilt: X ∼ Bi(5, 12 ), Y ∼ Bi(5, 21 ) =⇒ d X = Y . Dennoch natürlich X 6= Y , da P (X 6= Y ) = 1. §4 Zentraler Grenzwertsatz Definition: Sei X1 , X2 , . . . eine Familie unabhängiger, identisch verteilte P Zufallsgrößen mit 0 < D2 X1 < ∞. Für Sn = nk=1 Xk gilt: 1) limn→∞ P ( S√n −n·E(X ≤ x) = Φ0,1 (x). 2 n·D (X1 ) (Levy-Lindeberg) §5 Schätz- und verwandte Probleme Satz: Ungleichung von Čebyšev: 2 P (|X − E(X)| ≥ ) ≤ D (X) ∀ > 0, E(X) < ∞ 2 Satz: Das schwache Gesetz der großen Zahl: Seien X1 , . . . , Xn unabhängige, identisch verteile P Zufallsgrößen mit 0 < D2 X1 < ∞. Sei X̄n = n 1 i=1 Xi die ”Mittelwert“-Variable. Für jedes n > 0 gilt: 2 n→∞ 1) P (|X̄n − E(X1 )| ≥ ) ≤ D (X ( −→ 0). Letzte2n res ist Aussage des Kolmogorov’schen“ starken ” GdgZ. Anwendungsbeispiel: Für eine unfaire Münze soll p := P ( Kopf“) durch empirische Mes” sung bestimmt werden. Bei Beibehaltung obiger Notation bezeichnet X̄n den Quotienten Anzahl Kopf“ Anzahl der” Versuche . Das GdgZ liefert für > 0: P (|X̄n − p| < ) ≥ 1 − p(1−p) 2 n p(1−p)≤ 14 ≥ 1− 1 4n2 Sei nun bei 1000 Würfen 600 mal Kopf“ ein” getreten, also das Ereignis X̄n = 0, 6. Wähle 1 bspw. = 10 . Es folgt: P (|p − 0,6| < 0,1) ≥ 1 1 − 4·1000·(1/10)2 = 0,975. Also kann nach dem Experiment mit mindestens 97,5 %-iger Sicherheit gesagt werden, dass p im Intervall (0,5; 0,7) liegt. §6 Zufällige Vektoren und Folgen Definition: Seien X1 , X2 , . . . Zufallsgrößen auf (Ω, F, P ). Dann nennt man (X1 , . . . , Xn ), (n ∈ ) zufälligen Vektor und (Xn )n∈N zufällige Folge oder zufälligen stochastischen Prozess. N 3 Stochastik für Informatiker, Prof. Dr. Hans M. Dietz, Zusammenfassung von Florian Schoppmann Das Copyright für die dieser Zusammenfassung zugrunde liegenden Vorlesungsunterlagen (Skripte, Folien, etc.) liegt beim Dozenten. Darüber hinaus bin ich, Florian Schoppmann, alleiniger Autor dieses Dokuments und der genannte Dozent ist in keiner Weise verantwortlich. Etwaige Inkorrektheiten sind mit sehr großer Wahrscheinlichkeit erst durch meine Zusammenfassung/Interpretation entstanden. Satz: Seien X1 , X2 unabhängige Zufallsgrößen auf (Ω, F, P ). Für die Randverteilungen eines zufälligen Vektors (X1 , X2 ) gilt dann: Im diskreten Fall: P P (X1 = a) = k∈X2 (Ω) P (X1 = a, X2 = k) (für X2 analog). Im stetigen Fall: P (X = limb→∞ FX1 ,X2 ((a, b)) R a1 ≤R a) ∞ = −∞ −∞ fX1 ,X2 (t1 , t2 )dt2 dt1 Ra = −∞ fX1 (t1 )dt1 = FX1 (a) Definition: Seien X, Y Zufallsgrößen mit 0 < D2 (X), D2 (Y ) < ∞. Dann definiert man den Korrelationskoeffizient: ) ρ(X, Y ) := √ CoV(X,Y . 2 2 D (X)·D (Y ) Satz: Es gelten folgende Eigenschaften des Korrelationskoeffizienten: i) X ⊥ ⊥ Y =⇒ ρ(X, Y ) = 0 ii) |ρ(X, Y )| ≤ 1 iii) |ρ(X, Y )| = 1 ⇐⇒ X und Y sind affin-linear abhängig, d.h. Y = aX+b für geeignete a, b ∈ . R 4