Einführung in die Wahrscheinlichkeitsrechnung Egon Vock und Josef F. Bürgler Hochschule Luzern, Technik & Architektur (HSLU T&A) Zufallsexperimente Ereignisalgebra Die Wahrscheinlichkeitsrechnung stellt Modelle zur Beschreibung von Zufallsexperimenten bereit. Ein Zufallsexperiment ist ein Experiment, dessen Ausgang unvorhersagbar ist und lediglich vom Zufall abhängt. Die Zuweisung von Wahrscheinlichkeiten beruht auf Annahmen, auf Modellen und Spekulationen. Man kann sich die Wahrscheinlichkeiten als Flächeninhalt in einem Mengendiagramm vorstellen. Mathematisch müssen die Wahrscheinlichkeiten folgende Axiome von Kolmogorov erfüllen. Doppelwurf: zwei Würfel werden geworfen. Messungen: Messen einer Spannung. Umfragen: Befragung zufällig ausgewählter Personen. Ω = {(1, 1) , (1, 2) , (1, 3) , . . . , (6, 6)} . 2. Messungen: Das Ergebnis einer Messung liegt normalerweise in einem Intervall reeller Zahlen. Der Stichprobenraum ist kontinuierlich, beispielsweise Ω = [0, ∞]. 3. Umfrage: Bei einer Umfrage mit einer Stichprobe von n Personen ist der Ergebnisraum diskret Ω = {0, 1, 2, . . . , n} Ein Ereignis E ist eine Teilmenge des Ergebnisraumes, E ⊂ Ω und kann kein, eines oder mehrere Ergebnisse enthalten. Bei einem Zufallsversuch tritt E genau dann ein, wenn das Ergebnis des Zufallsversuchs ωi in E liegt, ωi ∈ E. 1. Doppelwurf zweier Würfel: das Ereignis E = “Die Summe der Würfelaugen beträgt 4” ist gleich der Menge E = {( , ) , ( , ) , ( , )} = {(1, 3), (2, 2), (3, 1)} 2. Messung einer Spannung: Ein mögliches Ereignis ist E2: “Der Messwert liegt im Bereich [21.5, 22.0]” 99 100 2 100 und p(E|K) = liefert die Formel von Bayes: 99 100 · 99 100 5 1000 5 · 1000 495 = ≈ 0.2 2 995 2485 + 100 · 1000 Fazit: Die Wahrscheinlichkeit die Krankheit zu haben, falls der Test positiv ist, ist somit 20%. Ω Mehrstufige Zufallsexperimente Ergebnisse und Ereignisse Ω = {( , ) , ( , ) , ( , ) , . . . , ( , ) , ( , ),( , ),( , ),...,( , ), ... ( , ) , ( , ) , ( , ) , . . . , ( , )} • Sei E die Menge der Personen mit (positiver) Testreaktion: 5 2 |K|; weiter hat man: p(K) = N1 · 1000 ·N = |E ∩ K| ≈ 100 • Wegen p(E|K) = 995 1000 N 99 dann gilt |E ∩ K| ≈ 100 |K| und 5 995 995 und p(K) = N1 · 1000 · N = 1000 1000 N sowie Menge aller Gesunden: K mit |K| ≈ p(E ∩ K) p(E|K)p(K) = p(K|E) = = p(E) p(E|K)p(K) + p(E|K)p(K) A 2. Für den Ergebnisraum Ω gilt P (Ω) = 1 1. Doppelwurf zweier Würfel: der Ergebnisraum Ω ist diskret, er besteht aus 36 Wurfbildern. Statt der bildlichen Darstellung rechts schreiben wir in Zukunft auch 5 1000 • Menge aller Kranken: K mit |K| ≈ Ω 1. Für jedes Ereignis A ⊂ Ω gilt P (A) ≥ 0 Die Menge aller Ergebnisse ω1, ω2, . . . , ωn des Versuchs bilden den Ergebnisraum Ω = {ω1, ω2, . . . , ωn}. Der Ergebnisraum ist eine endliche (oder unendliche) Menge. Grippe-Test: Eine Krankheit, z.B. die Grippe, komme bei 0.5% der Bevölkerung (Ω = {1, 2, . . . , N }) vor. Ein Test zur Auffindung der Krankheit führt bei 99% der Kranken zu einer (positiven) Reaktion, aber auch bei 2% der Gesunden. Wie gross ist die Wahrscheinlichkeit, dass eine (zufällig ausgewählte) Person, bei der die Testreaktion auftritt, die Krankheit wirklich hat? Bei einem mehrstufigen Zufallsexperiment kann das Ergebnis schrittweise durch zwei oder mehrere Zufallsexperimente bestimmt werden. A B P (a ≤ X ≤ b) = Für das Gegenereignis A = Ω \ A des Ereignisses A gilt: P (A) = 1 − P (A) P Ω A Für jede Teilmenge B ⊂ A von A ⊂ Ω gilt: P Ω A P (B) ≤ P (A) P( G) 5 = 2 4 r P (R ∩ r) = P (r|R)P (R) = 24 · 35 = 0.3 g P (R ∩ g) = P (g|R)P (R) = 24 · 53 = 0.3 R 3 = (R ) = (r |R ) P (g |R )= 2 4 = 3 4 ) P (r |G 2 5 1 4 2 5 1 4 2 5 Dichtefunktion f (x) G P (g |G B )= Für zwei beliebige Teilmengen A, B ∈ Ω gilt: Ω P (A ∪ B) = P (A) + P (B) − P (A ∩ B) A F (x) = x • 1. Pfadregel: z.B. P (R ∩ g) = P (g|R)P (R) • 2. Pfadregel: z.B. P (R) = P (R ∩ r) + P (R ∩ g) B µ−3σ µ−2σ µ−σ W’keit für E = “ ” bei n Würfen p = 61 0.2 0.1 1 µ+σ µ+2σ µ+3σ x µ−3σ µ−2σ µ−σ µ −∞ f (u) du x µ+σ µ+2σ µ+3σ 20 40 60 80 n 100 100 Die relative Häufigkeit hn(E) zeigt bei häufiger Wiederholung des Versuches eine auffallende Stabilität (siehe Abbildung oben). Doppelwurf zweier Würfel bei Gleichverteilung Annahme: Alle Ergebnisse ω1 = ( , ), ω2 = ( , ), . . . , ω36 = ( , ) treten mit gleicher Wahrscheinlichkeit (relativer Häufigkeit) auf P ( , ) = P ( , ) = ... = P ( , ) = ... = P ( , ) Die Summe der relativen Häufigkeiten (Wahrscheinlichkeiten) über alle 36 Ereignisse muss den Wert 1 ergeben. Somit treten alle Ergebnisse ωk mit der Wahrscheinlichkeit 1 1 1 P (ωk ) = = = auf. Anzahl Ereignisse |Ω| 36 Nochmals Doppelwurf zweier Würfel bei Gleichverteilung Gleiche Annahme wie oben. Gesucht ist die Wahrscheinlichkeit für das Ereignis “Augensumme gleich 4” E1 = {( , ) , ( , ) , ( , )} Die gesuchte Wahrscheinlichkeit P (E1) ist gleich der Summe über alle Ergebnisse ω im Ereignis E1 1 1 1 3 1 + + = = P (E1) = P ( , ) + P ( , ) + P ( , ) = 36 36 36 36 12 Alternative Berechnung |E1| Anzahl günstiger Ergebnisse 3 1 P (E1) = = = = |Ω| Anzahl mögliche Ergebnisse 36 12 Doppelwurf zweier Würfel: Gesucht ist die Wahrscheinlichkeit “vier Augen” zu werfen E = {( , ) , ( , ) , ( , )}. Bekannt sei, dass der weisse Würfel drei Augen zeigt, d.h. dass das Ereignis A = {( , ) , ( , ) , . . . , ( , )} eingetreten ist. Das Ereignis E tritt unter dieser Bedingung nur ein, wenn das Ereignis A ∩ E = {( , )} eingetreten ist. Es sei P (A) 6= 0: Der Anteil von |A ∩ E| im Vergleich zu |A| beträgt A∩E A E Ω P (A ∩ E) 1/36 1 = = P (A) 6/36 6 P (A ∩ E) = P (E|A)P (A) Es sei A1, A2, . . ., An eine disjunkte Zerlegung von Ω, d.h. es gilt Ω A4 B ∩A4 B ∩A1 A1 Eine Zufallsvariable (Beobachtungsgrösse) X ordnet jedem Ergebnis ωk eines Zufallsversuches eine Zahl zu: X : ωk → X(ωk ) = xk ∈ R Die Zufallsvariable heisst diskret, wenn sie nur endlich (oder abzählbar unendlich) viele Werte annimmt, andernfalls heisst sie stetig. Jeder Wert xk einer diskreten Zufallsvariablen tritt mit einer gewissen Wahrscheinlichkeit pk auf. Man schreibt P (X = xk ) = pk . Doppelwurf von Würfeln: Die Zufallsvariable P (E|A) heisst bedingte Wahrscheinlichkeit von E under der Voraussetzung, dass A eingetreten ist. Es gilt A1 ∪ A2 ∪ . . . ∪ An = Ω Aj ∩ Ak = ∅ für j 6= k P (a ≤ X ≤ b) = F (b) − F (a). Zufallsvariablen Bedingte Wahrscheinlichkeit P (E|A) = PA(E) = 0.3 0 µ x Zx Die Wahrscheinlichkeit, dass X ins Intervall [a, b] fällt, beträgt Jedem Ereignis E ∈ Ω wird die Wahrscheinlichkeit P (E) ∈ [0, 1] zugeordnet. Diese gibt die zu erwartende relative Häufigkeit des Ereignisses an, wenn der Versuch oft wiederholt wird. Die Zuweisung von Wahrscheinlichkeiten beruht letztlich immer auf einer Modellannahme respektive einer Spekulation. Tritt ein Ereignis E bei n Versuchen Hn(E) mal auf, so definiert man die Wahrscheinlichkeit von E durch n→∞ 1 veranschaulicht die bekannten Formeln: Wahrscheinlichkeiten Hn(E) P (E) = lim n→∞ n = lim hn(E) Verteilungsfunktion F (x) 1 √ σ 2π P (G ∩ g) = P (g|G)P (G) = · = 0.1 g 1 4 a −∞ P (G ∩ r) = P (g|G)P (G) = · = 0.1 r f (x) dx. Für die Berechnung der Wahrscheinlichkeit ist die Verteilungsfunktion hilfreich. Die Verteilungsfunktion F (x) für die Zufallsvariable X gibt die Wahrscheinlichkeit an, dass das Ergebnis eines Zufallsversuches kleiner/gleich x ist F (x) = P (X ≤ x). Ist f (x) die Dichtefunktion der Zufallsvariablen X, so definiert man die Verteilungsfunktion durch Z x f (u) du. F (x) = P (X ≤ x) = Die Baumdarstellung Folgerungen aus den Axiomen von Kolmogorov Stetige Zufallsvariablen nehmen kontinuierliche Werte in R an. Beispiel ist die Zufallsvariable X = “Körpergewicht”. Die Dichtefunktion f (x) ist für stetige Variablen das Pendant zur Wahrscheinlichkeitsfunktion bei diskreten Variablen. Die Dichtefunktion veranschaulicht, in welche Bereiche die Ergebnisse wahrscheinlicher fallen als in andere. Aus der Dichtefunktion f (x) lässt sich 4 · 10−2 die Wahrscheinlichkeit für einen x3 · 10−2 f (x) Wert jedoch nicht unmittelbar ablesen. 2 · 10−2 Die Wahrscheinlichkeit für einen bestimmten x-Wert ist immer Null. Nur 1 · 10−2 für Bereiche a ≤ x ≤ b lassen sich x 35 40 45 50 x 60 65 a b Wahrscheinlichkeiten angeben. Die Wahrscheinlichkeit, dass der Messwert der Zufallsvariablen X im Intervall [a, b] liegt, beträgt Z b Urnenmodell: Aus einer Urne mit drei roten und zwei grünen Kugeln wird mit einem Griff ein Kugelpaar gezogen. Der Zufallsversuch wird zerlegt in einen ersten Zug mit den Ergebnissen R = “rot im ersten Zug” und G = “grün im ersten Zug” und in einen zweiten Zug (ohne zurücklegen) mit den Ergebnissen r = “rot im zweiten Zug” und g = “grün im zweiten Zug”. Ω 3. Für je zwei disjunkte Teilmengen A, B ⊂ Ω gilt: P (A ∪ B) = P (A) + P (B) Disjunkt (elementfremd) bedeutet A ∩ B = ∅ Dichte- und Verteilungsfunktion B B ∩A2 X = “Summe der Augen” ordnet dem Ergebnis E = {( , )} die Zahl x = 4 zu. Mit welcher Wahrscheinlichkeit tritt der Wert x = 4 auf? Zum Wert 4 führen genau die Ereignisse {( , )}, {( , )}, {( , )}. Diese Ereignisse treten mit der folgende Wahrscheinlichkeit auf: 3 1 P (X = 4) = P ({( , ) , ( , ) , ( , )}) = = 36 12 B ∩A3 A2 A3 Mit der Zerlegung von Ω wird jede Menge B ebenfalls in disjunkte Mengen zerlegt: B = (B ∩ A1) ∪ (B ∩ A2) ∪ . . . ∪ (B ∩ An) und P (B) = P (B ∩ A1) + P (B ∩ A2) + . . . + P (B ∩ An) Damit folgt der Satz von der totalen Wahrscheinlichkeit P (B) = P (A1)P (B|A1) + P (A2)P (B|A2) + . . . + P (An)P (B|An) . P (Ak ∩ B) Weiter folgt mit P (Ak |B) = die Formel von Bayes P (B) P (B|Ak )P (Ak ) P (B|Ak )P (Ak ) P P (Ak |B) = . = n P (B) k=1 P (Ak )P (B|Ak ) Wahrscheinlichkeitsfunktion Sei X ein diskrete Zufallsvariable mit den Funktionswerten x1, x2, x3, . . .. Die Wahrscheinlichkeitsfunktion weist jedem Funktionswert xk die entsprechende Wahrscheinlichkeit pk zu: f : xk → P (X = xk ) = pk Die Binomialverteilung Ein Bernoulliversuch ist ein Zufallsversuch mit nur zwei möglichen Ergebnissen (Erfolg und Misserfolg). Die Erfolgswahrscheinlichkeit ist p, die Wahrscheinlichkeit für Misserfolg q = 1 − p. Wird ein Bernoulliversuch n Mal wiederholt, so beträgt die Wahrscheinlichkeit für x Erfolge (x ganzzahlig) n x P (X = x) = B(x; n, p) = p (1 − p)n−x x Die Funktion f (x) := P (X = x) heisst Binomialverteilung. Umfrage: Nur 48 % der Bevölkerung unterstützen eine Initiative. 100 Personen werden befragt. Mit welcher Wahrscheinlichkeit “zeigt” die Befragung, dass die Mehrheit für die Initiative ist? Antwort: Personen stimmen bei einer Befragung mit einer Wahrscheinlichkeit p = 0.48 zu. Die Wahrscheinlichkeit, dass die Mehrheit von 100, d.h. 51, 52, 53, . . . zustimmen, beträgt: 100 100 X X 100 x P = p (1 − p)100−x = B(x; 100, 0.48) ≈ 0.31 x x=51 x=51 Bei diesem Vorgehen wären fast ein Drittel der Umfrageergebnisse falsch. Man müsste wesentlich mehr als 100 Personen befragen. Wie sieht das Resultat aus mit 1000 Personen? Doppelwurf von Würfeln: Die Zufallsvariable sei wieder X = “Summe der Augen” Die Wahrscheinlichkeitsfunktion f (x) von X in Tabellenform lautet: xk 2 3 4 5 6 7 8 9 10 11 12 P (X = xk ) 1 36 2 36 3 36 4 36 5 36 6 36 5 36 4 36 3 36 2 36 1 36 Die Wahrscheinlichkeitsfunktion von X als Stabdiagramm sieht man rechts. P (X = x) 5 36 Geschichte 3 36 Die Wahrscheinlichkeitstheorie war das zweite wichtige Forschungsgebiet von PIERRE-SIMON LAPLACE (1749-1827): er definierte beispielsweise den Begriff Wahrscheinlichkeit. Die axiomatische Begründung der Wahrscheinlichkeitstheorie wurde in den 1930er Jahren von ANDREI KOLMOGOROW (1903-1987) entwickelt (Abb. rechts). 1 36 2 3 4 5 6 7 8 9 10 11 12 x