Wahrscheinlichkeitsrechnung M. Kresken 1 Wahrscheinlichkeit und relative Häufigkeit M. Kresken 2 Wahrscheinlichkeit, relative Häufigkeit • • • • • • Ergebnisse medizinischer Behandlungen sind als „zufällige“ Ergebnisse zu verstehen. Die Angaben von Wahrscheinlichkeiten zielt dabei auf die Quantifizierung des Zufalls. Ein fehlendes oder falsches Verständnis des Wahrscheinlichkeitsbegriffes führt zu Fehlinterpretationen (Beispiel Lebenserwartung von Tumorpatienten). In der Praxis sind Wahrscheinlichkeiten nicht unmittelbar zugänglich. Stattdessen beobachten wir lediglich Häufungen von Ereignissen. Diese beschreiben wir mit absoluten und relativen Häufigkeiten. M. Kresken 3 Häufigkeiten für männliche und weibliche Neugeborene in 7 Kliniken männlich Klinik Anzahl kum. Anzahl abs. Hfk. rel. Hfk. [%] A 8 8 5 62,5 weiblich abs. Summenhfk. rel. Summenhfk. 5 62,5 abs. Hfk. rel. Hfk. [%] abs. Summenhfk. rel. Summenhfk. 3 37,5 3 37,5 B C D E F G M. Kresken 4 Häufigkeiten für männliche und weibliche Neugeborene in 7 Kliniken männlich weiblich abs. Summenhfk. rel. Summenhfk. abs. Hfk. rel. Hfk. [%] abs. Summenhfk. rel. Summenhfk. Klinik Anzahl kum. Anzahl abs. Hfk. rel. Hfk. [%] A 8 8 5 62,5 5 62,5 3 37,5 3 37,5 B 13 21 4 30,8 9 42,9 9 69,2 12 57,1 C D E F G M. Kresken 5 Häufigkeiten für männliche und weibliche Neugeborene in 7 Kliniken männlich weiblich abs. Summenhfk. rel. Summenhfk. abs. Hfk. rel. Hfk. [%] abs. Summenhfk. rel. Summenhfk. Klinik Anzahl kum. Anzahl abs. Hfk. rel. Hfk. [%] A 8 8 5 62,5 5 62,5 3 37,5 3 37,5 B 13 21 4 30,8 9 42,9 9 69,2 12 57,1 C 18 39 11 61,1 20 51,3 7 38,9 19 48,7 D E F G M. Kresken 6 Häufigkeiten für männliche und weibliche Neugeborene in 7 Kliniken männlich weiblich abs. Summenhfk. rel. Summenhfk. abs. Hfk. rel. Hfk. [%] abs. Summenhfk. rel. Summenhfk. Klinik Anzahl kum. Anzahl abs. Hfk. rel. Hfk. [%] A 8 8 5 62,5 5 62,5 3 37,5 3 37,5 B 13 21 4 30,8 9 42,9 9 69,2 12 57,1 C 18 39 11 61,1 20 51,3 7 38,9 19 48,7 D 19 58 6 31,6 26 44,8 13 68,4 32 55,2 E 24 82 13 54,2 39 47,6 11 45,8 43 52,4 F 16 98 5 31,3 44 44,9 11 68,8 54 55,1 G 14 112 13 92,9 57 50,9 1 7,1 55 49,1 M. Kresken 7 Relative Häufigkeiten und Summenhäufigkeiten der männlichen Neugeborenen in 7 Kliniken % 100 90 80 70 60 50 40 30 20 10 0 Relative Summenhäufigkeit Relative Häufigkeit A B C D E F G Klinik M. Kresken 8 Wahrscheinlichkeit, relative Häufigkeit • • • • • Das Beispiel verdeutlicht, dass die „Schätzung“ der Wahrscheinlichkeit eines Ereignisses durch die relative Häufigkeit bzw. die relative Summenhäufigkeit immer genauer wird, je größer die Versuchsreihe wird (long run). Dieser Zusammenhang wird das Gesetz der großen Zahlen genannt. Im Beispiel geht man davon aus, dass Jungen mit der gleichen Wahrscheinlichkeit geboren werden wie Mädchen. In diesem Fall wäre die Wahrscheinlichkeit 0,5. Der Wert von 0,5 sollte sich idealerweise als relative Häufigkeit in „sehr großen“ Beobachtungsreihen ergeben. M. Kresken 9 Wahrscheinlichkeit, relative Häufigkeit • • • Diese implizite Definition der „Wahrscheinlichkeit“ führt dazu, dass sich für Wahrscheinlichkeiten Eigenschaften anlog zu denen der relativen Häufigkeiten formulieren lassen. Offensichtlich ordnen wir Wahrscheinlichkeiten Zahlen im Bereich von 0 bis 1 bzw. 0% bis 100% zu. Unwahrscheinlichen Ereignissen wird dabei eine Wahrscheinlichkeit nahe bei Null zugeordnet; das „sichere“ Ergebnis erhält die Wahrscheinlichkeit 1. M. Kresken 10 Additionsansatz • Beispiel: Wahrscheinlichkeit für ein nicht normalgewichtiges Neugeborenes: - Die Wahrscheinlichkeit lässt sich durch die Summe der Wahrscheinlichkeit für ein Neugeborenes unter 2.500 g plus der Wahrscheinlichkeit für ein Neugeborenes über 4.500 g berechnen. - Das gelingt, weil ein Kind nicht gleichzeitig unter 2.500 g und über 4.500 g schwer sein kann. - Man spricht von „unvereinbaren“ (disjunkten) Ereignissen. - Die obige additive Eigenschaft der Wahrscheinlichkeit beschreibt der Additionssatz: Wenn zwei Ereignisse disjunkt sind, so ergibt sich die Wahrscheinlichkeit für das Gesamtereignis als Summe der Wahrscheinlichkeiten der Einzelereignisse. M. Kresken 11 Multiplikationsansatz • Eine andere Eigenschaft der Wahrscheinlichkeit bezieht sich auf unabhängige Ereignisse. • Man nennt zwei Ereignisse unabhängig, wenn die Wahrscheinlichkeit für das gemeinsame Auftreten der Ergebnisse gleich dem Produkt der Wahrscheinlichkeit für die Einzelergebnisse ist. M. Kresken 12 Multiplikationsansatz • Beispiel: Wahrscheinlichkeit dafür, dass das ältere Kind einer Familie mit zwei Kindern ein Mädchen und das jüngere Kind ein Junge ist: - Für die Berechnung wird von einer Wahrscheinlichkeit von 0,5 für die Geburt eines Mädchens ausgegangen. - Betrachtung von 400 Familien (ohne Zwillinge) - Man darf erwarten, dass bei 200 Familien das erste Kind ein Mädchen ist. - Da das Geschlecht des ersten Kindes von dem des zweiten unabhängig ist, wird bei den 200 Familien, bei denen das ältere Kind ein Mädchen ist, in 50% (100 Familien) das jüngere Kind ein Junge sein. - Das gesuchte Geschwisterpaar (älteres Kind ein Mädchen, jüngeres Kind ein Junge) hat somit einen Anteil von 100 zu 400 oder eine Wahrscheinlichkeit von ¼. - Das entspricht aber auch der Wahrscheinlichkeit für einen Jungen multipliziert mit der Wahrscheinlichkeit für ein Mädchen: ½ • ½. - Die Menge der möglichen Ereignisse besteht nicht mehr aus dem Geschlecht „Junge“ oder „Mädchen“, sondern aus der Menge aller Zweier-Kombinationen „Junge – Mädchen“, wobei aufgrund der Reihenfolge – älteres und jüngeres Kind - die Kombinationen (Junge, Mädchen) und (Mädchen, Junge) unterschiedliche Ergebnisse darstellen. M. Kresken 13 Laplace-Experimente • Von besonderer Bedeutung sind Laplace-Experimente. • Wenn man annimmt, dass nur endlich viele Elementarereignisse möglich und alle gleichberechtigt sind, d. h. mit der gleichen Wahrscheinlichkeit eintreten (wie zum Beispiel beim Werfen einer idealen Münze, wo {Kopf} und {Zahl} jeweils die Wahrscheinlichkeit 0,5 besitzen), so spricht man von einem Laplace-Experiment. • Die Wahrscheinlichkeit eines Ereignisses wird durch den Quotienten aus der Anzahl der „günstigen“ und der Anzahl der „möglichen“ Ergebnisse bestimmen. M. Kresken Das Ereignis H = Hohe Augenzahl (5 oder 6) hat die Wahrscheinlichkeit 1/3. 14 Laplace-Experimente • Laplace-Experimente haben eine besondere Bedeutung bei der Stichprobenauswahl im Rahmen der Studienplanung. • Sollen beispielsweise im Rahmen einer epidemiologischen Studie Beobachtungen zu einer bestimmten Fragestellung auf Basis einer „repräsentativen“ Stichprobe gewonnen werden, so wählt man eine „Zufallsstichprobe“, bei der jede Person aus der zu betrachtenden Gesamtheit die gleiche Wahrscheinlichkeit hat, in die Stichprobe aufgenommen zu werden. M. Kresken 15 Wahrscheinlichkeitsbaum • Graphisch lässt sich im Falle endlich vieler möglicher Ergebnisse (Merkmalsausprägungen) das Wahrscheinlichkeitsmodell, das dem Experiment zugrunde liegt, durch eine Baumstruktur veranschaulichen. • Die Äste der Baumstruktur repräsentieren dabei die Übergangswahrscheinlichkeiten von einem Knoten zum anderen. Die Knoten repräsentieren Ereignisse. • Beispiel: Wahrscheinlichkeiten für die möglichen Kombinationen von Blutgruppen bei zwei Personen (Blutspender – Blutempfänger) M. Kresken 16 Wahrscheinlichkeitsbaum • Die Blutgruppen des AB0-Systems kommen in Mitteleuropa mit folgenden Wahrscheinlichkeiten vor (näherungsweise): P(A) = 9/20; P(0) = 8/20; P(B) = 2/20; P(AB) = 1/20 P(A) = 45/100; P(0) = 40/100; P(B) = 10/100; P(AB) = 5/100 P(A) = 0,45; P(0) = 0,4; P(B) = 0,1; P(AB) = 0,05 • Übung: Wahrscheinlichkeitsbaum für die möglichen Kombinationen von Blutgruppen bei einem Blutspender und einem Blutempfänger zeichnen und die Wahrscheinlichkeiten berechnen M. Kresken 17 Wahrscheinlichkeitsbaum • Für eine Blutbank ist das Ereignis - Empfänger und Spender haben die gleiche Blutgruppe - von Interesse. • „0“ ist Universalspender und „AB“ ist Universalempfänger. • Das Ereignis „verträgliche Blutgruppen“ liegt vor, wenn ein Spender Blutgruppe „0“, ein Empfänger Blutgruppe „AB“ oder Empfänger und Spender identische Blutgruppen aufweisen. • Übung: 1. Wahrscheinlichkeitsbaum für die möglichen Kombinationen von Blutgruppen bei einem Blutspender und einem Blutempfänger zeichnen. 2. Wahrscheinlichkeiten berechnen, z. B. Spender Blutgruppe „0“ und Empfänger Blutgruppe „AB“ usw. 3. Berechnung der Wahrscheinlichkeit, dass Spender und Empfänger verträgliche Blutgruppen haben. M. Kresken 18 Wahrscheinlichkeitsbaum 4 Spendergruppen 2 Knoten 42 = 16 Enden Übereinstimmende Blutgruppen P() = 0,6425 M. Kresken 19 Binominalverteilung M. Kresken 20 Binominalverteilung • Spenden 10 Personen Blut, so könnte die Frage interessieren, wie groß die Wahrscheinlichkeit für mindestens vier Universalspender ist. • Der Wahrscheinlichkeitsbaum hätte 2 Äste und (Universalspender mit der Wahrscheinlichkeit p = 8/20 bzw. kein Universalspender mit der Wahrscheinlichkeit 1-p = 12/20) und 10 Knoten hat, d.h. 210 = 1024 Enden. 21 M. Kresken 22 23 24 25 26 27 28 29 210 21 Binominalverteilung • Beispiel: Wahrscheinlichkeit für k = 4 Universalblutspender unter 5 Blutspendern • Annahme 1: Die ersten vier Spender der Stichprobe sind Universalspender und der letzte nicht (1,1,1,1,0) • Die Wahrscheinlichkeit für eine solche Konstellation ist (Unabhängigkeit zwischen den Individuen vorausgesetzt): p4 (1 – p)1 p4 (1 – p)1 = 0,44 (1 – 0,4)1 p4 (1 – p)1 = 0,44 (1 – 0,4)1 = 0,0154 • Beachte: Die Summe der Exponenten entspricht der Anzahl der Erfolge (Universalspender) bzw. Misserfolge (kein Universalspender) in der Stichprobe. M. Kresken 22 Binominalverteilung • Beispiel: Wahrscheinlichkeit für k = 4 Universalblutspender unter 5 Blutspendern • Annahme 2: Es gibt ganz allgemein 4 Universalspender (Erfolge) unter 5 Spendern • (1,1,1,1,0); (1,1,1,0,1); (1,1,0,1,1); (1,0,1,1,1); (0,1,1,1,1) • Bildet man die Summe der „1“ in jeder Abfolge, so ergibt sich die Anzahl k = 4 • Da die 5 Abfolgen alle mit der gleichen Wahrscheinlichkeit von p4 (1 – p)1 auftreten, gilt (Additionssatz für disjunkte Ereignisse): p (genau 4 Universalspender) = 5 • 0,44 (1 – 0,4)1 = 0,0768 M. Kresken 23 Binominalverteilung • Allgemeine Berechnung der Wahrscheinlichkeit für den Eintritt von Erfolgen: • Es wird davon ausgegangen, dass als Ergebnis jedes einzelnen Versuches ein Erfolg (Eintrittswahrscheinlichkeit p) oder ein Misserfolg (Eintrittswahrscheinlichkeit 1 – p) beobachtet wird. • Die Wahrscheinlichkeit für eine bestimmte Abfolge von k Erfolgen unter n Experimenten beträgt: pk (1 – p)n-k Vorausgesetzt, die Annahme der unabhängigen Versuchsgänge für die n Experimente ist gerechtfertigt, so treten in k der n Experimente Erfolge mit der Eintrittswahrscheinlichkeit p und in den restlichen n – k Experimenten Misserfolge mit den Eintrittswahrscheinlichkeiten 1- p auf. M. Kresken 24 Binominalverteilung • Die Zahl der möglichen Abfolgen berechnet man mit Hilfe der Binominalkoeffizienten. • Sind von n Experimenten genau k erfolgreich verlaufen, so gibt n es dafür ( k ) (sprich „n über k“) verschiedene (disjunkte) Versuchsserien, die jeweils mit einer Wahrscheinlichkeit von pk (1 – p)n-k auftreten. n • Dabei ist ( k ) definiert durch n k ( )= M. Kresken n! n • (n – 1) • …. • (n – k + 1) = k! (n – k)! 1 • 2 • …. • k 25 Binominalverteilung • Beispiel: Berechnung des Binominalkoeffizienten für n = 5 und k=4 5 4 () 5•4•3•2 = =5 1•2•3•4 • Damit ist die Wahrscheinlichkeit für genau k Erfolge bei der Durchführung von n unabhängigen Experimenten: n k () pk (1 – p)n-k , wenn die Wahrscheinlichkeit für einen Erfolg in einem Einzelexperiment p beträgt. M. Kresken 26 Binominalverteilung Es gelten n 0 n n ( )=( )= 1 n n (k) = (n - k ) n+1 n n (k + 1 ) = ( k ) + (k + 1 ) M. Kresken 27 Binominalverteilung • Aufgabe: Berechnung der Wahrscheinlichkeiten für genau 0, 1, 2, 3, 4 und 5 Universalspender (Erfolge) unter 5 Spendern M. Kresken 28 Binominalverteilung • Aufgabe: Berechnung der Wahrscheinlichkeit für genau 0 Universalspender unter 5 Spendern n pk (1 – p)n-k k 5 0,40 (0,6)5 = 1 • 1 • 0,07776 = 0,07776 0 () () M. Kresken 29 Binominalverteilung • Aufgabe: Berechnung der Wahrscheinlichkeit für genau 1 Universalspender unter 5 Spendern n pk (1 – p)n-k k 5 0,41 (0,6)4 = 5 • 0,4 • 0,1296 = 0,2592 1 1 () () M. Kresken 30 Binominalverteilung • Aufgabe: Berechnung der Wahrscheinlichkeit für genau 2 Universalspender unter 5 Spendern n pk (1 – p)n-k k 5 0,42 (0,6)3 = 5 • 4 • 0,16 • 0,216 = 2 1•2 () () = 10 • 0,16 • 0,216 = 0,3456 M. Kresken 31 Binominalverteilung • Aufgabe: Berechnung der Wahrscheinlichkeit für genau 3 Universalspender unter 5 Spendern n pk (1 – p)n-k k 5 0,43 (0,6)2 = 5 • 4 • 3 • 0,064 • 0,36 = 3 1•2•3 () () = 10 • 0,064 • 0,36 = 0,2304 M. Kresken 32 Binominalverteilung • Aufgabe: Berechnung der Wahrscheinlichkeit für genau 4 Universalspender unter 5 Spendern n pk (1 – p)n-k k 5 0,44 (0,6)1 = 5 • 4 • 3 • 2 • 0,0256 • 0,6 = 4 1•2•3•4 () () = 5 • 0,0256 • 0,6 = 0,0768 M. Kresken 33 Binominalverteilung • Aufgabe: Berechnung der Wahrscheinlichkeit für genau 5 Universalspender unter 5 Spendern n pk (1 – p)n-k k 5 0,45 (0,6)0 = 5 • 4 • 3 • 2 • 1 • 0,01024 • 1 = 5 1•2•3•4•5 () () = 1 • 0,01024 • 1 = 0,01024 M. Kresken 34 Binominalverteilung • Die Gesamtzahl der Erfolge variiert zwischen 0 und 1. • In der deskriptiven Statistik wurde das entsprechende Merkmal „Gesamtzahl der Erfolge“ als diskret bezeichnet. • Um zum Ausdruck zu bringen, dass den Ausprägungen des Merkmals Wahrscheinlichkeiten zuzuordnen sind, nennt man das diskrete Merkmal diskrete Zufallsvariable. • Die Wahrscheinlichkeiten der diskreten Zufallsvariablen können wie in der beschreibenden Statistik die relativen Häufigkeiten des diskreten Merkmals an Hand eines Stabdiagramms visualisiert werden. • Die entsprechende Darstellung heißt Wahrscheinlichkeitsfunktion. • Im vorangehenden Spezialfall nennt man die diskrete Zufallsvariable, die als Werte die Zahl der Erfolge k bei der nfachen Wiederholung unabhängiger Experimente mit Erfolgswahrscheinlichkeit p aufweist, binomialverteilt nach (n, p). M. Kresken 35 Wahrscheinlichkeitsfunktion ( (5,0,4)) der Zahl der Universalspenderin einer Stichprobe vom Umfang n = 5 0,35 Wahrscheinlichkeit 0,30 0,25 0,20 0,15 0,10 0,05 0,00 0 Wahrscheinlichkeit 0,07776 M. Kresken 1 2 3 4 0,25920 0,34560 0,23040 0,07680 Zahl der Universalspender (k ) 5 0,01024 36 Binominalverteilung • Hausaufgabe: Erstellen der Wahrscheinlichkeitsfunktionen - (10, 0,2) - (10, 0,5) - (10, 0,8) M. Kresken 37