Wahrscheinlichkeitstheorie für Informatikstudien Lukas Prokop October 26, 2013 1 Basisdefinitionen Angenommen A und B seien zwei Ereignisse (A, B ∈ A). Die Wahrscheinlichkeit, dass eines der beiden Ereignisse eintritt, ist: Ω Grundmenge (mögliche Ausgänge) A Ereignisraum P (A ∪ B) = P (A) + P (B) (Ω, A) Stichprobenraum Die Wahrscheinlichkeit, dass beide Ereignisse eintreten sind: {wi } Elementarereignisse (Ausgänge eines Zufallsexperiments) P (A ∩ B) = P (A) · P (B) A(∈ A) Ereignis Statistische Regularität Gesetz Zahlen Bedingte Wahrscheinlichkeit (von A unter B): der großen PB (A) := P (A|B) := Population, Grundgesamtheit mögliche Ereignisse und ihre Wahrscheinlichkeit In LAPLACE Wahrscheinlichkeitsräumen (alle Ereignisse treten mit der selben Wahrscheinlichkeit ein) reduziert sich die Berechnung der günstigen Fälle mit ihrer Wahrscheinlichkeit auf kombinatorische Zählprobleme. Stichproben Teilmengen der Population Wahrscheinlichkeitsraum {Ω, A, P }, A ← P (A), A(∈ A) ⊆ Ω n n! = k (n − k)! · k! σ-Algebra A ⊆ P (Ω) Ω ∈ A, A ∈SA ⇒ Ā ∈ A ∞ An ∈ A ⇒ n=1 An ∈ A . . . ist σ-Algebra bei Ω 6= ∅ 3 0≤k≤n Totale Wahrscheinlichkeit Die Wahrscheinlichkeit, dass Ereignis B eintritt ist gleich dem Aufsummieren aller Ereignisse A unter B als Bedingung. Dies entspricht am Wahrscheinlichkeitsbaum: Die Wahrscheinlichkeit eines Knoten ist gleich der Summe aller darunterliegenden Knoten. C Combination V Variation A ∩ B Durchschnitt (”intersection”) A ∪ B Vereinigungsmenge (”union”) Hk ∩ Ht = ∅, k 6= l, 2 P (A ∩ B) P (B) n [ Hi = Ω i=1 Basismodell ⇒ ∀b ∈ B : P (b) = günstig Maß(A) ⇒ möglich Maß(Ω) n X i=1 1 P (Hi ) · P (b|Hi ) 4 n X Systeme i=1 Seriell (eine Komponente muss ausfallen): ! n \ P (RS ) = P Ri ≤ min P (Ri ) n X 5 1 2 2 n (n + 1) 2n2 + 2n − 1 12 n X Parallel (alle Komponenten müssen ausfallen): ! n [ P (RS ) = P Ri ≥ max P (Ri ) i=0 ki = i=1 6 (a, b) = ]a, b[ = {x ∈ R | a < x < b} (1) n X [a, b) = [a, b[ = {x ∈ R | a ≤ x < b} (2) i=1 (a, b] = ]a, b] = {x ∈ R | a < x ≤ b} (3) = {x ∈ R | a ≤ x ≤ b} (4) Summenformeln n X c=n·c i=1 n X c = (n − m + 1) · c i=m n X c · ai = c · i=m n X i=m n X ai + i=m n X i=1 i= i=m ai i=m (ai + bi ) = n X n X i= n X bi i=m n(n + 1) 2 (n + m)(n − m + 1) 2 n X (2i − 1) = n2 i=1 n X i2 = i=1 n X i=1 3 i = n(n + 1)(2n + 1) 6 n(n + 1) 2 2 = n2 (n + 1)2 4 2 k n+1 − 1 k−1 1 1−k n X Intervalle [a, b] ki = i=0 ∞ X i i=1 n(n + 1)(2n + 1)(3n2 + 3n − 1) 30 i5 = i=1 i i=1 i4 = ki = mit |k| < 1 k n+1 − k k−1 k −i = 1 − k −n k−1 7 Kombinatorik Dabei ist Unterscheidbarkeit für die Ursprungsmenge A das, was Wiederholung für die Abbildungsmenge B ist. Die einzige Begründung für die Unterscheidung dieser Begriffe (und fehlende Verallgemeinerung) ist, dass Unterscheidbarkeit die Probleme wesentlich komplexer macht und die allgemeinen Formeln nicht bekannt sind. Die Formeln für Unterscheidbarkeit können wir damit nicht betrachten; wir nehmen Unterscheidbarkeit in allen Formel an. Wir werden aber vereinzelt Formeln für unterschiedliche Kardinalitäten betrachten. Der Spezialfall ”alle Elemente sind ununterscheidbar” fällt mit dem Begriff ”mit Wiederholung” zusammen. Wir können wir den Begriff der ”Reihenfolge” direkt in zwei Begriffe der Kombinatorik umsetzen: Variation (V, ”Reihenfolge relevant”) und Kombination (C, ”Reihenfolge irrelevant”). Eine rVariation bezeichnet, dass die erzeugten Tupel aus A r-elementig sind (|ti | = r). n bezeichnet die Kardinalität der Ursprungsmenge A. In der Kombinatorik können wir vom Basisfall ausgehen, welcher eine Funktion definiert: f :A→B A = (a1 , a2 , . . . , ak ) B = {t1 , t2 , . . . , tl } ti = (w1 , w2 , . . . , wr ) Dabei sieht unser Modell so aus, dass die Beziehung zwischen ai und wi beliebig sein kann. Die Tupel in B sind jedoch homogen (|wi | = |wj |). Es wird aus einem gegebenen Tupel A eine Menge an Tupel B generiert. Bezüglich dieser Generation sind 3 Basisfragen zu stellen: • Ist die Reihenfolge der erzeugten Tupelelemente w1...r relevant? • Darf ein Element wiederholt im Tupel ti vorkommen? 8 • Unterscheiden sich die Kardinalitäten (Größen) von A und Tupel in B? Permutation Unter Permutation versteht man die Annahme, dass aus einem bereits erzeugten Tupel ti alle möglichen Variationen erzeugt. Dies entspricht mit Wiederholung genauso der Abbildung f , wenn man die Basisfra”mit WH”, ”mit Zurücklegen”, ”mehrfach gen wie folgt beantwortet: vorkommen” • Die Reihenfolge ist relevant. wi = wi+n n > 0 • Eine Wiederholung ist nicht möglich (alle Elegegenteilig auch ”ohne Wiederholung” mente der Ursprungsmenge müssen genau einmal wiederverwendet werden). Damit ist n = r. Reihenfolge relevant ”Reihenfolge wichtig”, ”geordnet” • Die Ursprungsmenge ist gleich der Abbildungsmenge. Damit ist die Kardinalität ident. (w , w , w ) 6= (w , w , w ) Zuerst definieren wir die Begriffe: 1 2 3 1 3 2 gegenteilig auch ”Reihenfolge irrelevant” Damit ist die Permutation ein Spezialfall der Variation ohne Wiederholung. Mögliche Permutationen einer Menge {A, B, C} sind: Unterschiedlichkeit |A| = 6 |B1 | {(A, B, C) , (A, C, B) , (B, A, C) , (B, C, A) , (C, A, B) , (C, B, A)} Unterscheidbarkeit ”Unterscheidbarkeit der Elemente” ∈ / ai 6= ai+n Dabei kann die Größe aller Permutationen mittels der Formel n! berechnet werden (3! = 6). Herleitung: n>0 3 9 Anwendung der Formeln n! V (n, n) = = n! (n − n)! Q: Wählen Sie für das Lottospiel 6 aus 49 Zahlen (”49 über 6”). 49 Die folgende Frage erfragt eine modifizierte Ver- A: C(n, r) = 6 = 13983816 sion der Permutationsformel; man spricht auch von der ”Permutation mit Wiederholung”, wobei hier Q: Aus n Elementen wir r-mal mit Zurücklegen gezogen ”Wiederholung” anders verwendet wird): Gegeben sei ein Tupel von Elementen. Dabei A: Vw (n, r) sind x der n Elemente nicht voneinander unterQ: Gegeben sei eine Menge {A, B, C}. Wieviele scheidbar (siehe Mississippi-Beispiel unten): Möglichkeiten gibt es diese Menge anzuordnen? A: 3! = 6 n! Pw (n; k1 , . . . , km ) = Q: Gegeben sei ein Anordnungsproblem: r nicht k1 ! · k2 ! · . . . · km ! unterscheidbare Bälle werden in n numerierte wobei k die Anzahl aller eindeutigen Elemente ist Zellen gelegt und ki für die Anzahl der identen Elemente ihrer A: Cw (n, r) Art ist. Q: Wieviele Varianten gibt es x Plätze in y Gruppen zu teilen? A: x+1 8.1 Beispiel für n = | {1, 2, 3} |, r = 2 y+1 V C mit WH (1, 1) (1, 2) (1, 3) (2, 1) (2, 2) (2, 3) (3, 1) (3, 2) (3, 3) Vw (n, r) = nr (1, 1) (1, 2) (1, 3) (2, 2) (2, 3) (3, 3) Cw (n, r) = n+r−1 r ohne WH Q: Wieviele Permutationen des Worts MISSIS(1, 2) (1, 3) (2, 1) SIPPI gibt es? (2, 3) (3, 1) (3, 2) A: n! n = 11!11 mit der Permutationsformel k1 !·...·kn ! = 4!·4!·2! = 34650 V (n, r) = nr r! Q: Wieviele Kleinbuchstabenwörter mit der Länge (1, 2) (1, 3) (2, 3) 5 gibt es? C(n, r) = nr A: Vw (30, 5) = 305 = 24300000 Q: 6 verschiedenfarbige Kästchen mit jeweils 1 gleichfarbigen Kugel. Wieviele Möglichkeiten gibt es die Kugeln in andersfarbige Kästchen zu verteilen? A: Subfakultät !n =!6 = 265 Wir lösen Binomialkoeffizienten auf: V mit WH nr C (n−1+r)! (n−1)!r! ohne WH n! (n−r)! n! r!(n−r)! Q: Wieviele Möglichkeiten gibt es 5 Objekte in 3 Schachteln zu legen, wobei Schachtel 1 3 Objekte besitzen soll und die anderen 1? n 5 A: Multinomialkoeffizient k1 ,...,k = = 20 3,1,1 r In der Programmiersprache python: r-Variation mit WH itertools.product(n, peat=r) re- Permutation itertools.permutations(n, r) r-Kombination ohne WH itertools.combinations(n, r) 4 10 Verteilungsmodelle Z fX (x) dx a Wir können für die meisten Aufgabenstellungen unser Problem in ein Verteilungsmodell geben, welches uns dann gefragte Parameter leichter errechnen lässt. Wir unterscheiden dabei zwischen diskreten und stetigen Modellen. Als erstes Werkzeug definieren wir eine Zufallsvariable X über eine Funktion X : Ω → R. PX nennt sich die Verteilung von X. Dabei ist x = X(w), w ∈ Ω die Realisation von X. 11 11.1 Kenngrößen Steiner’scher schiebungssatz Ver- Var (X) = E(X 2 ) − E2 (X) 11.2 P (Ω, A) → PX (R, B) Erwartungswert E(g(X)) := Die Funktion FX : R → [0, 1] R∞ g(x)f (x) dx −∞ P ∞ i=0 g(i)pi für X stetige ZV für X diskrete ZV µk = E(X k ) ⇒ µ = E(X) FX (x) = P (X ≤ x)∀x ∈ R ist die Verteilungsfunktion der Zufallsvariablen X. Für diskrete Modelle gilt: Es können endlich oder abzählbar unendlich viele Werte angenommen werden. pi := P (X = i) b P (a ≤ X ≤ b) = 11.3 Varianz σ 2 = Var(X) = E((X − µ)2 ) 11.4 Standardabweichung σ= i = 0, 1, 2, . . . Für stetige Modelle gilt: fX ≥ 0 und fX heißt Dichtefunktion von X. Z x FX (x) = fX (t) dt 11.5 p Var(X) Schiefe γ1 = E((X − µ)3 ) (Var(X))3/2 −∞ γ1 (X) = 0 γ1 (X) < 0 γ1 (X) > 0 Wir möchten jetzt wissen, wie sich das Modell verhält, wenn X einen bestimmten Wert annimmt oder in einem bestimmen Intervall liegt. Durch die Zuordnung können wir Techniken der Analysis für die Wahrscheinlichkeitstheorie verwenden. 10.1 11.6 Kurtosis / Exzess γ2 (X) = Modellanwendung P (a < X ≤ b) = FX (b) − FX (a) , a < b 12 P (−∞ < X ≤ b) = FX (b) symmetrisch linksschief rechtsschief E((X − µ)4 ) −3 (Var(X))2 Binomialverteilung • Diskret, Bernoulli-Experimente P (a < X < ∞) = 1 − FX (a) • Analog zu Ziehen mit Zurücklegen P (X = b) = FX (b) − lim FX (b − ) ↓0 F (x) = bxc X • Das Experiment wird n mal durchgeführt und jede Wiederholung ist unabhängig und führt mit p zu Erfolg. ⇒ Parameter n und p. q = 1 − p. ,,X ist binomialverteilt mit n und p”: pi i=0 ∞ X pi = 1 X ∼ B(n, p) i=0 5 14 n k B(k; n, p) = P (X = k) = p (1 − p)n−k k k = 0, 1, . . . , n Hypergeometrische Verteilung • Diskret 0<p<1 • Analog zu Urnenmodell ohne Zurücklegen Wir nehmen ein Modell an, in dem nur Erfolge und Misserfolge möglich sind. Solche Prozesse nennen sich Bernoulli-Prozesse. Dabei sind die einzelnen Erfolge gleichartig und unabhängig voneinander. Dabei ist n ist Anzahl der Versuche und p ∈ [0, 1] die Erfolgswahrscheinlichkeit. • X = #(Rote Kugeln) • Anzahl der gezogenen Kugeln n, Anzahl aller Kugeln N , Anzahl roter Kugeln M . X ist hypergeometrisch verteilt: X ∼ H(N, M, n) • E(X) = n · p • Var(X) = n · p · q • γ1 (X) = 1−2p √ npq • γ2 (X) = 1−6pq npq • P (a ≤ X ≤ b) = 13 h(N, M, n) := P (X = k) = M k N −M n−k N n max(0, n − (N − M )) ≤ k ≤ min(M, n) Pb n k=a k pk q n−k • E(X) = n M N • Var(X) = n M N 1− Geometrische Verteilung (1−2 M N • γ1 (X) = √ • Diskret, Bernoulli-Experimente M N n )(1−2 N 2 Var(X)(1− N N −n N −1 ) ) • X = #(Anzahl der Fehlversuche bis ersten Erfolg) 15 • Wahrscheinlichkeit p Poisson-Verteilung • Diskret, Bernoulli-Experimente X ∼ G(p) • Y = X + 1 = #(Anzahl der Versuche) • Anzahl der Versuche n sehr groß, Erfolgswahrscheinlichkeit p sehr klein • E(X) = pq , E(Y ) = • Binomialverteilung kann approximiert werden (nur mehr 1 Parameter λ). • Var(X) = q p2 , Var(Y • γ1 (X) = γ1 (Y ) = • P (X = k) = pq k 1 p )= q p2 X ∼ P (λ) λ = np 1+q √ q λk −λ e k! λ > 0, k = 0, 1, 2, . . . 0 < p < 1, k = 0, 1, . . . pk := P (X = k) = • E(X) = λ • Var(X) = λ 6 • γ1 (X) = √1 λ • γ2 (X) = 1 λ 16 Gleichverteilung 18 Normalverteilung • Stetig • Stetig • Zufällige Auswahl eines Teilintervalls (alle mit gleicher Wahrscheinlichkeit) der Länge δx in einem Intervall (a, b). • Gauß’sche Glockenkurve • X ist gleichverteilt: X ∼ U (a, b) • Lokalisationsparameter µ, Skalierungsparameter σ • Im Intervall der Abweichung ±2σ sind 95% der Werte zu finden • X ist normalverteilt: X ∼ N (µ, σ) 1 b−a a<x<b a, b ∈ R, a < b 0 sonst x<a 0 x−a a≤x<b FX (x) = b−a 1 x≥b fX (x) = • E(X) = 1 x−µ 2 1 e− 2 ( σ ) 2πσ −∞ < x < ∞, µ ∈ R, σ > 0 Z x 1 t−µ 2 1 x−µ FX (x) = √ e− 2 ( σ ) dt = Φ σ 2πσ −∞ fX (x) = √ a+b 2 Φ(x) ist die Verteilungsfunktion von N (0, 1): Z x 1 2 1 Φ(x) = √ e− 2 t dt 2π −∞ (b−a)2 12 • Var(X) = • γ1 (X) = 0 • γ(X) = −1.2 17 • N (0, 1) : E(X) = 0, N (µ, σ 2 ) : E(Y ) = µ • Var(X) = σ 2 Exponentialverteilung 19 • Stetig • Werte können nicht 0 werden. dauer. zB Lebens- Gammaverteilung • Stetig • Lebensdauer von Industriegütern • Standardform der Exponentialverteilung ist E(1) • Gestaltparameter a und Skalierungsparam. λ • Standardform: Z = λX ⇒ γ(a, 1) • X ist exponentialverteilt X ∼ Exp(λ) mit dem Skalierungsparameter λ. • X ist gammaverteilt: X ∼ γ(a, λ) λe−λx x > 0, λ > 0 0 sonst. Z x FX (x) = λe−λt dt ( fX (x) = ⇒ FX (x) = 1 − e • E(X) = Γ(a) := , x>0 0 • E(X) = 1 λ • Var(X) = 0 Z 0 −λx λa xa−1 −λx Γ(a) e fX (x) = a λ • Var(X) = 1 λ2 • γ1 (X) = 2 • γ2 (X) = 6 7 a λ2 • γ1 (X) = √2 a • γ2 (X) = 6 a x > 0, a > 0, λ > 0 sonst ∞ xa−1 e−x dx 20 Erzeugende Funktion 22.2 Diskreter Zufallsvektor (X, Y ). stochastisch unabhängig, wenn Die Erzeugende Funktion ist durch die Verteilung von X eindeutig festgelegt. GX (s) = E(sX ) = ∞ X ∞ X Stetiger Zufallsvektor (X, Y ). stochastisch unahängig, wenn 22.3 Skriptum Z FX,Y (x, y) := P (X ≤ x, Y ≤ y) ∀x, y ∈ R X X FX,Y (x, y) = pij diskret i≤bxc j≤byc x ∞y−∞ fX,Y (u, v) dv du stetig −∞ Randverteilungen Diskreter Zufallsvektor (X, Y ): P (X = i, Y = j) W-Funktion von X P (X = i, Y = j) W-Funktion von Y j=0 P (Y = j) = i=0 Stetiger Zufallsvektor (X, Y ): Z ∞ fX (x) = fX,Y (x, y) dy Randdichte von X −∞ Z ∞ fY (y) = fX,Y (x, y) dy g(i, j)pij diskret Z ∞ g(x, y)fX,Y (x, y) dx dy −∞ (X, Y ) : (Ω, A) −→ (R2 , B 2 ) ∞ X ∞ E(g(X, Y )) = Wir erweitern den Wahrscheinlichkeitsraum auf weitere Dimensionen (hier: auf eine zweite). ∞ X ∞ X ∞ X i=0 j=0 Zufallsvektoren P (X = i) = Erwartungswert E(g(X, Y )) = Approximationen S. 74 Approximation H zu B S. 50 Normalverteilung Wertetabelle S. 68 22.1 sind fX,Y (x, y) = fX (x)fY (y) E(X) = G0X (1) FX,Y (x, y) = X, Y P (X = i) = 1 i=0 Z sind P (X = i, Y = j) = P (X = i)P (Y = j) ∀i, j ⇒ GX (0) = P (X = 0) GX (1) = 22 X, Y P (X = i)si i=0 21 Unabhängigkeit Randdichte von Y −∞ 8 −∞ stetig 23 Ableitung 0 (a) = 0 (a · f )0 = a · f 0 0 (g ± h) = g 0 ± h0 (g · h)0 = g 0 · h + g · h0 g 0 g 0 · h − g · h0 = h h2 0 (xn ) = nxn−1 (g ◦ h)0 (x) = (g(h(x)))0 = g 0 (h(x)) · h0 (x) g 0 (x) f (x) = g(x)h(x) ⇒ f 0 (x) = h0 (x) ln(g(x)) + h(x) g(x)h(x) g(x) n X n (k) (n−k) (n) (f g) = f g k k=0 (ln u)0 = u0 u √ 1 1 1 ( x)0 = (x 2 )0 = x− 2 2 (sin x)0 = cos x 1 x 1 1 0 ( ) =− 2 x x (ln x)0 = 24 Integrale Z Z eax = eax +c a λe−λt dt = −eλ(−t) + c 9