Vorlesung (HS-2013): Urteilsfehler Anhang: Elemente der Wahrscheinlichkeitstheorie Vollständig Autor: Siegfried Macho Datum der letzten Änderung: Donnerstag, 12. September 2013 i Inhaltsverzeichnis Inhaltsverzeichnis Anhang: Elemente der Wahrscheinlichkeitstheorie 2 1. Unterschiedliche Konzepte von Wahrscheinlichkeit 2 1.1 Die Axiomatische Konzeption 2 1.2 Wahrscheinlichkeitskonzepte und Realität 5 1.2.1 Die frequentistische Konzeption der Wahrscheinlichkeit 1.2.1.1 Kritik der frequentistischen Wahrscheinlichkeitsbegriffs 1.2.2 Die subjektivistische Konzeption der Wahrscheinlichkeit 5 7 8 1.2.2.1 Kritik des subjektivistischen Wahrscheinlichkeitsbegriffs 12 1.2.3 Zusammenfassung der Diskussion zu den unterschiedlichen Konzeptionen von Wahrscheinlichkeit 13 2. Schlussfolgern mit Wahrscheinlichkeiten 2.1 Arten von Wahrscheinlichkeiten 13 14 2.1.1 Verbundwahrscheinlichkeit 2.1.2 Marginale Wahrscheinlichkeit (Randwahrscheinlichkeit) 2.1.3 Bedingte Wahrscheinlichkeit 16 19 20 2.1.3.1 Das Konzept der stochastischen Unabhängigkeit 22 2.2 Wahrscheinlichkeitsalgebra: Die zentralen Operationen 25 2.2.1 Kombination von Wahrscheinlichkeitsinformation 2.2.2 Marginalisierung der Verbundverteilung 2.2.3 Konditionierung auf bestimmte Ereignisse 26 27 27 2.3 Das Grundschema des probabilistischen Schlussfolgerns 28 2.3.1 Konditionale Wahrscheinlichkeitsschlüsse 2.3.2 Illustration von Wahrscheinlichkeitsschlüssen 2.4 Zusammenfassung 29 30 40 3. Übungen 42 4. Literatur 44 2 Anhang Anhang: Elemente der Wahrscheinlichkeitstheorie In diesem Anhang werden elementare Konzepte und Methoden der Wahrscheinlichkeitstheorie zusammengefasst. 1. Unterschiedliche Konzepte von Wahrscheinlichkeit Das Konzept der Wahrscheinlichkeit spielt in den Natur- und Sozialwissenschaften eine zentrale Rolle. Dennoch gibt es bis zum heutigen Zeitpunkt keine Einigkeit bezüglich dieses Konzepts. Wir werden im Folgenden die wichtigsten Konzepte kurz besprechen. 1.1 Die Axiomatische Konzeption Gemäss dieser Konzeption ist Wahrscheinlichkeit ein normiertes Maß. Normiert, weil die Wahrscheinlichkeit nur Werte im Bereich [0, 1] annehmen kann. Der Begriff Maß ist eine Verallgemeinerung von verschiedenen Eigenschaften, die ausgedehnten Körpern zukommen, wie Länge, Fläche, Volumen und Gewicht. Die axiomatische Theorie versucht nun jenen Eigenschaften zu erfassen, welche allen diese verschiedenen Typen von Maßen gemeinsam ist. Konzept 1-1: Axiomatische Konzeption von Wahrscheinlichkeit (Kolmogorov, 1933) Gegeben: E, E1, E2, Ei etc. seien Ereignisse, konzipiert als Mengen. S sei das universelle Ereignis, die universelle Menge, so dass alle anderen betrachteten Ereignisse E Teilmengen darstellen. Eine Maßfunktion P(E), welche jedem Ereignis E einen Wert aus dem Bereich [0, 1] zuordnet. Die Funktion P muss (um als Maßfunktion zu gelten) die folgenden Eigenschaften aufweisen: 1. P(E) 0, für alle Ereignisse E. 2. P(S) = 1 3. Falls Ei und Ej disjunkte Ereignisse darstellen (d.h. die Schnittmenge entspricht der leeren Menge: Ei E j ), so gilt: P Ei E j PEi PE j . Hierbei bezeichnet Ei E j die Vereinigungsmenge der beiden Ereignisse. Anhang 3 Einige Erläuterungen: (i) Der Begriff disjunkt besagt, dass sich die beiden Ereignisse ausschliessen. Daher ist die Wahrscheinlichkeit ihres gemeinsamen Auftretens gleich 0: P Ei E j P 0 Das Symbol bezeichnet die leere Menge. (ii) Die Ereignisse sind als Mengen konzipiert um ihnen einen extensionalen (ausgedehnten) Charakter zu verleihen. Nur Dinge mit dieser Eigenschaft gelten – gemäss dieser Theorie – als messbar. (iii) Man beachte, dass die Maßfunktion P(E) als Längenfunktion, welche jedem (ausgedehntem) Objekt E eine Länge zuordnet oder als Volumen- und Gewichtsfunktion interpretiert werden kann, mit der zusätzlichen Eigenschaft der Normierung auf 1. Letzteres bedeutet, dass die Gesamtlänge (Volumen bzw. Gewicht) aller Objekte zusammen den Wert 1.0 besitzt. (iv) Es sollte klar sein, dass jede Längen-, Volumen-, oder Gewichtsfunktion die von den Axiomen spezifizierten Eigenschaften aufweisen sollte, um sinnvoll zu sein. (v) Da die Wahrscheinlichkeitsfunktion P(E) die gleichen Eigenschaften hat wie die (normierte) Flächenfunktion, ist die Verwendung von so genannten Venn-Diagrammen sinnvoll. Die axiomatische Konzeption der Wahrscheinlichkeit betrachtet also Wahrscheinlichkeit als ein normiertes Maß, ähnlich wie Länge und Fläche, welche nur ausgedehnten Objekten zukommen kann. Die Theorie spezifiziert sehr allgemeine Eigenschaften, welche allen Arten von Maßen zukommt. Da der Begriff des Maßes sehr abstrakt gefasst ist, so dass er die Eigenschaften aller möglichen Maße umfasst, werden nur sehr wenige Eigenschaften spezifiziert. Bemerkung: Betrachtet man die elementaren Axiome der Wahrscheinlichkeitstheorie, so erscheinen diese als relativ einfach. Dennoch benötigte die Entwicklung dieser Konzeption einen gewaltigen Aufwand an geistiger Kapazität (vgl. Shafer & Vovk, 2005). Die Sinnhaftigkeit der axiomatischen Spezifikation des Maßes ist für Längen und Gewichte etc. sofort einsichtig: Legt man z.B. zwei verschiedene Stäbe (= disjunkte Stäbe) aneinander, so sollte die Gesamtlänge der Summe der beiden Längen entsprechen. Ähnliches gilt für Gewichte, Flächen und Volumina. Hieraus sieht man, dass das 3. Maßaxiom unserer Intuition diese konkreten Maße betreffend korrekt wi- 4 Anhang derspiegelt. Bezüglich Wahrscheinlichkeiten ist dies weniger offensichtlich und es stellt sich daher die folgende Frage: Frage: Warum sollten Wahrscheinlichkeiten den Maßaxiomen gehorchen? Die Antwort auf diese Frage hängt davon ab, welche Annahmen darüber gemacht werden, was Wahrscheinlichkeiten in der realen Welt repräsentieren (Siehe Abschnitt 1.2). Vertritt man eine frequentistische Konzeption, d.h. Wahrscheinlichkeiten repräsentieren relative Häufigkeiten, so ist – wie Kolmogorov (1933) zeigt – die Gültigkeit der Axiome sehr einfach zu demonstrieren. Wir zeigen dies am Beispiel des Werfens eines Würfels. Bsp.1-1: Gültigkeit der Wahrscheinlichkeitsaxiome für relative Häufigkeiten: Gegeben: Werfen eines Würfels Die relative Häufigkeit definiert sich als die Anzahl positiver Fälle durch die Gesamtanzahl von Versuchen. Damit ist das erste Axiom, wonach relative Häufigkeiten 0 sein müssen trivialer Weise erfüllt. S = {1, 2, 3, 4, 5, 6} ist Menge aller möglichen Ergebnisse eines Wurfes. Da in jedem Wurf eines der Ereignisse eintritt, muss die relative Häufigkeit h(S) von S gleich 1 sein. Seien E1 und E2 zwei Ereignisse, die einander ausschliessen, z.B. E1 = {3} und E2 = {4} (d.h. E1 ist das Ereignis, dass eine 3 und E2 ist das Ereignis, dass eine 4 gewürfelt wird). Offensichtlich entspricht die relative Häufigkeit des Ereignisses E1 E2 = {3, 4}, dass entweder eine 3 oder eine 4 gewürfelt wird ist, exakt der Summe der relativen Häufigkeiten, dass eine 3 gewürfelt wurde plus der relativen Häufigkeit, dass eine 4 gewürfelt wurde: hE1 E2 hE1 hE2 Bsp.1-1 demonstriert die Gültigkeit der Maßaxiome für relative Häufigkeiten. Das Problem liegt nun darin, dass relative Häufigkeiten, die sich aus den Ergebnissen eines Zufallsprozesses ergeben, nicht identisch mit Wahrscheinlichkeiten sind. Führt man z.B. 600 Würfe mit einem »fairen« Würfel durch (d.h. jede Augenzahl tritt mit der Wahrscheinlichkeit 1/6 auf), so muss die relativen Häufigkeit des Auftretens eine bestimmten Zahl – sagen wir der Zahl 3 – nicht notwendigerweise genau 1/6 sein (sondern z.B. 101/600). 5 Anhang Es stellt sich daher die Frage, was Wahrscheinlichkeiten in der realen Welt repräsentieren bzw. um welche Entitäten es sich bei Wahrscheinlichkeiten handelt. 1.2 Wahrscheinlichkeitskonzepte und Realität Die Axiome der Wahrscheinlichkeitstheorie stellen eine Idealisierung dar, ähnlich wie die Euklidischen Axiome eine idealisierte Charakterisierung von geometrischen Objekten im dreidimensionalen Raum darstellen. Falls es in der realen Welt keine Objekte gibt, welche dieser Charakterisierung zumindest annähernd genügen, so handelt es sich um eine »reine Spielerei« ohne jeden praktischen Zweck. Bezüglich der Frage nach der Natur von Wahrscheinlichkeiten und worauf sich diese in der realen Welt beziehen, gibt es bis heute keine Konzeption, die allgemein akzeptiert ist. Es haben sich mehrere Positionen heraus gebildet, von denen zwei im Folgenden behandelt werden. 1.2.1 Die frequentistische Konzeption der Wahrscheinlichkeit Wir beginnen mit einer formalen Definition des Konzepts: Konzept 1-2: Frequentistischer Wahrscheinlichkeitsbegriff (von Mises, 1928): Gegeben: Ein Zufallsprozess, der verschieden Ereignisse produziert. Die Wahrscheinlichkeit eines Ereignisses E entspricht der relativen Häufigkeit, mit der ein Ereignis innerhalb einer unendlichen Sequenz von Ereignissen, welche durch den Zufallsprozess erzeugt werden, auftritt: PE lim NE N N (1-1) Die Symbole haben hierbei folgende Bedeutung: N E = Anzahl der Fälle, in denen Ereignis E auftritt. N = Gesamtanzahl der durchgeführten Läufe des Zufallsprozesses. lim = Grenzwert, wenn die Anzahl der durchgeführten Läufe N gegen unendlich geht (und damit die Sequenz unendlich lang wird). Bemerkung zur frequentistischen Konzeption der Wahrscheinlichkeit: Auch bei der frequentistischen Charakterisierung der Wahrscheinlichkeit handelt es sich um eine Idealisierung, da es in der realen Welt keine unendlichen Sequenzen gibt. 6 Anhang Allerdings lässt sich die Wahrscheinlichkeit annähernd bestimmen, indem man die Sequenz möglichst lang macht und die relative Häufigkeit des gesuchten Ereignisses berechnet. Die so ermittelte relative Häufigkeit bietet nicht nur eine gute Schätzung der wahren Wahrscheinlichkeit, sondern es lässt sich auch abschätzen, wie gross der zu erwartende Fehler ist. Die frequentistische Wahrscheinlichkeitskonzeption ist die älteste und steht in direktem Zusammenhang mit dem Ursprung der Wahrscheinlichkeitsrechnung, nämlich mit der Ermittlung von Gewinnwahrscheinlichkeiten bei Glückspielen. Exkurs 1-1: Entwicklung der Wahrscheinlichkeitsrechnung: Die Wahrscheinlichkeitsrechnung wurde bekanntlich von Blaise Pascal (1623-1662) entwickelt. Die Legende besagt, dass er durch einen Freund Antoine Gombaud, Chevalier de Méré (1607-1684) angeregt wurde. Dieser soll sich eines Tages bei Pascal beklagt haben, dass die Mathematik praktisch zu nichts zu gebrauchen sei. Nach seinen Berechnungen sollte nämlich die beiden folgenden Ereignisse die gleiche Wahrscheinlichkeit haben: Das Auftreten einer 6 in 4 Würfen mit einem Würfel; Das Auftreten einer Doppelsechs in 24 Würfen mit 2 Würfeln; Er hatte aber beobachtet, dass ersteres Ereignis häufiger auftrat. Pascal löste das Problem: 4 5 PEine Sechs in 4 Würfen mit einem Würfel 1 0.518 6 24 35 PEine Doppelsechs in 24 Würfen mit zwei Würfeln 1 0.491 36 Die Beobachtung des Chevaliers spiegelte also die korrekten Wahrscheinlichkeiten wider. Pascal wendet hier einen nützlichen Trick an, welcher innerhalb der Wahrscheinlichkeitsrechung des Öfteren eine Anwendung findet z.B. beim bekannten Geburtstagsproblem. Tipp 1-1: Der »Inversionstrick« Gesucht: Die Wahrscheinlichkeit dass von mehreren möglichen Ereignissen mindestens eines eintritt. Der Inversionstrick besteht darin, dass man die umgekehrte Wahrscheinlichkeit berechet, nämlich, dass keines der Ereignisse eintritt. Die so gefundene Wahrscheinlichkeit wird dann von 1 subtrahiert. 7 Anhang Angewendet auf das obige Beispiel ergibt sich die Lösung wie folgt: Die Wahrscheinlichkeit, dass in einem Wurf (mit einem Würfel) keine 6 geworfen wird ist 5/6. Da die einzelnen Würfel unabhängig sind, können die Wahrscheinlichkeiten aus den einzelnen Würfen multipliziert werden (siehe unten: Kombination von Wahrscheinlichkeiten). So beträgt z.B. die Wahrscheinlichkeit, dass im ersten Wurf keine 6 erscheint und im zweiten Wurf keine 6 erscheint: (5/6)·(5/6) = 25/36 = 0.694. Die Wahrscheinlichkeit, dass in allen 4 Durchgängen keine 6 erscheint, beträgt dann (5/6)·(5/6)·(5/6)·(5/6) = (5/6)4. Zieht man diesen Wert von 1 ab, so erhält man die Wahrscheinlichkeit von mindestens einer 6 in 4 Würfen. Analog berechnet man die zweite Wahrscheinlichkeit. 1.2.1.1 KRITIK DER FREQUENTISTISCHEN WAHRSCHEINLICHKEITSBE- GRIFFS Die von Mises’sche Konzeption von Wahrscheinlichkeit als Grenzwert einer relativen Häufigkeit (Gleichung 1-1) wurde von Popper (1935) einer fundamentalen Kritik unterzogen. Der Hauptkritikpunkt besteht darin, dass der in Gleichung (1-1) verwendete Grenzwertbegriff nicht dem mathematischen Grenzwertbegriff entspricht. In der Mathematik zeichnet sich der Grenzwert einer Zahlenfolge dadurch aus, dass die Folge sich dem Grenzwert beliebig nähert. Formal wird dies bewiesen, indem man zeigt, dass fast alle Folgeglieder (d.h. all bis auf endlich viele) innerhalb einer so genannten -Umgebung liegen. Hierbei handelt es sich um eine beliebigen vorgegebenen Wert und es wird gezeigt, dass alle Glieder der Folge ab einem gewissen Glied in der durch den Wert von vorgegebenen Umgebung liegen. So gilt zum Beispiel: 1 lim 0 n 1,2,3, n n Wird nun irgendein kleiner Wert von vorgegeben, sagen wir = 10-10 (0.0000000001), so liegen alle Glieder der Folge ab dem Wert n > 1010 innerhalb der vorgegebenen Umgebung. Dies bedeutet, dass »nur« die ersten 1010 Glieder der Folge ausserhalb der Umgebung liegen, während die restlichen unendlich vielen Glieder sich innerhalb der Umgebung befinden. Es ist auch klar, dass dies gilt, gleichgültig wie klein auch immer gewählt wird. Der Grenzwert in Gleichung (1-1) erfüllt diese Eigenschaft nicht, denn es gibt keinen zwingenden Grund, dass die Folge der relativen Häufigkeiten auf die wahre Wahrscheinlichkeit konvergiert. Um dies zu sehen, betrachten wir einen Zufallsprozess mit der Ereignismenge {0, 1} und mit P(0) = P(1) = 1/2 (Dies lässt sich mittels einer »fairen« Münze realisieren mit 0 = Kopf und 1 = Zahl [oder umgekehrt]). Gemäss Gleichung (1-1) sollte die unendliche Sequenz von Ergebnissen aus dem Zufallsprozess gleich viele 1 und 0 enthalten. Es gibt jedoch Anhang 8 unendlich viele Sequenzen, für die dies nicht gilt, z.B. die Menge aller Sequenzen, welche 1, 2, 3, … die 1 und sonst nur die 0 enthalten. Konkret: Die Menge der Sequenzen mit einer 1 sind: 10000… 01000… 00100… 00010… … Klarerweise gibt es unendlich viele derartige Sequenzen, da die 1 auf unendlich vielen Positionen auftauchen kann. Analog sieht die Sequenz mit 2 Einsen aus: 11000… 10100… 10010… 10001… … 01100… 01010… 01001… … Man sieht also, dass die Verwendung des Grenzwertes in Gleichung (11) nicht dem in der Mathematik etablierten Konzept des Grenzwertes folgt. Daher ist völlig unklar, um welche Art von Grenzwert es sich handelt. Damit ist jedoch die gegebene Definition der Wahrscheinlichkeit höchst problematisch. Betrachten wir nun eine weitere Konzeption von Wahrscheinlichkeit. 1.2.2 Die subjektivistische Konzeption der Wahrscheinlichkeit Die frequentistischen Wahrscheinlichkeitskonzeption unterliegt – neben der oben erwähnten Problematik – der folgenden Einschränkung: Da es sich bei Wahrscheinlichkeiten letztendlich um relative Häufigkeiten von Ereignissen innerhalb einer Klasse von Ereignissen handelt, muss es eine potentielle Ereignissequenz geben, bezüglich welcher die relative Häufigkeit berechnet werden kann. Die Eigenschaft frequentistischer Wahrscheinlichkeiten verunmöglicht daher die Zuordnung von Wahrscheinlichkeiten zu singulären Ereignissen, für die es keine Ereignissequenzen gibt, bezüglich welcher die relative Häufigkeit berechnet werden kann. Hier einige Beispiele: Wie wahrscheinlich ist es, dass China in den nächsten 20 Jahren zur Weltmacht Nummer 1 aufsteigt? Wie wahrscheinlich ist es, dass O. J. Simpson seine Frau umgebracht hat? Wie wahrscheinlich ist es, dass ich nächsten Donnerstag diese Vorlesung abhalten werde? 9 Anhang In allen diesen Fällen gibt es keine zugehörige Referenzklasse, bezüglich welcher die Wahrscheinlichkeit der Ereignisse sinnvoll als definiert werden kann. Aufgrund der dargestellten Einschränkung wurde eine subjektive Konzeption von Wahrscheinlichkeit vorgeschlagen. Konzept 1-3: Subjektivistischer Wahrscheinlichkeitsbegriff: Gemäss der subjektivistischen Konzeption der Wahrscheinlichkeit bezieht sich Wahrscheinlichkeit auf die subjektive Gewissheit einer Person bezüglich des Auftretens eines Ereignisses. Eine Zuordnung von Wahrscheinlichkeiten zu objektiven Gegebenheiten macht für einen radikalen Subjektivisten wenig Sinn. Im Zusammenhang mit der subjektivistischen Konzeption stellen sich sofort die folgenden beiden Fragen: Fragen: Wie lassen sich die Wahrscheinlichkeitsaxiome mit der subjektiven Konzeption in Einklang bringen? Öffnet die subjektivistische Konzeption nicht einem völligen Relativismus Tor und Tür? Bezüglich der Verträglichkeit mit dem axiomatischen Ansatz ist zu bemerken, dass aufgrund der Tatsache, dass subjektive Wissenszustände keine extensionalen Gegebenheiten darstellen, die maßtheoretischen Axiome nicht direkt anwendbar sind. Im Rahmen einer subjektivistischen Konzeption wird daher ein anderer Weg beschritten, um den Bezug zu den Wahrscheinlichkeitsaxiomen herzustellen. Dieser Ansatz nennt sich das Dutchbook-Argument. Konzept 1-4: Dutchbook-Argument: Das Dutchbook-Argument besagt, dass bei Verletzung eines Wahrscheinlichkeitsaxioms ein System von Wetten konstruiert werden kann (=Dutchbook), so dass jede einzelne Wette für sich genommen fair ist und daher akzeptiert werden muss. Das Gesamtsystem von Wetten führt jedoch zu einem sicheren Verlust (vgl. Hacking, 2001). Eine rationale Person muss daher ihre subjektiven Wahrscheinlichkeiten so wählen, dass sie konsistent sind, d.h. den Wahrscheinlichkeitsaxiomen entsprechen. Andernfalls wird sie zu einer »Geldpumpe« (vgl. Kapitel 1). Die Antwort auf die erste Frage zeigt schon, dass die subjektiven Wahrscheinlichkeiten nicht einfach beliebig gewählt werden können. Daher gibt es auch keine reine Beliebigkeit der Zuordnung von Wahrscheinlichkeiten zu mentalen Inhalten. Es gibt jedoch noch eine weitere Anhang 10 Beschränkung: Die subjektiven Wahrscheinlichkeiten sollten kompatibel sein mit dem Wissen über die Struktur oder Ergebnisse des Zufallsmechanismus. Wenn man z.B. eine Münze mit den möglichen Ergebnissen {Kopf, Zahl} vor sich und man keinen Grund zur Annahme hat, dass die Münze nicht fair ist, so ist ein subjektiver Wahrscheinlichkeitswert von 1/2 – gemäss dem Prinzip vom unzureichenden Grund (vgl. Prinzip 1-1) – die beste Option. Ebenso wird man bei Vorliegen von Daten zu einem zufallsgesteuerten Phänomen seine subjektiven Wahrscheinlichkeiten entsprechend der gewonnen Evidenz (unter Verwendung des Bayes-Theorems) anpassen. Prinzip 1-1: Prinzip vom unzureichenden Grund (Indifferenzprinzip): Gegeben: Eine Menge (n > 1) von (sich ausschliessenden) Ergebnissen eines Zufallsprozesses mit nicht unterscheidbaren Ereignismöglichkeiten. Prinzip: Ohne weitere Information ist von einer Gleichverteilung der Ergebnisse auszugehen. Begründung: Das Prinzip beruht auf Symmetrieüberlegungen: Da die Ereignismöglichkeiten nicht zu unterscheiden sind, sind die Ereignisse bezüglich der vermuteten Wahrscheinlichkeit völlig austauschbar. Es gibt daher keinen Grund, irgendein Ereignis als wahrscheinlicher (oder weniger wahrscheinlich) zu betrachten als ein anderes. Aus der Perspektive der subjektiven Wahrscheinlichkeitskonzeption besteht die Zuordnung von subjektiven Wahrscheinlichkeiten zu Ereignissen im Wesentlich aus drei Schritten: 1. In einem ersten Schritt werden den grundlegenden Ereignissen subjektive a priori Wahrscheinlichkeiten zugeordnet, wobei gewissen Prinzipien (wie jenem vom unzureichenden Grund) Folge geleistet wird. Obwohl dieser Prozess von Prinzipien geleitet ist, bleibt dennoch ein rein subjektiver Rest und es ist durchaus möglich, dass zwei Personen mit gleichem Wissen einem Ereignis unterschiedliche a priori Wahrscheinlichkeiten zuordnen. 2. Aufgrund der Wahrscheinlichkeitsaxiome und mit Hilfe der Regeln der Wahrscheinlichkeitsrechnung werden unter Verwendung der in Schritt 1 vergebenen a priori Wahrscheinlichkeiten anderen komplexeren Ereignissen Wahrscheinlichkeiten zugeordnet. 3. Die a priori Wahrscheinlichkeiten werden aufgrund von neuer Evidenz neu berechnet (sie werden dann zu a posteriori Wahrscheinlichkeiten). Anhang 11 Dieser Prozess des Updatens der Wahrscheinlichkeitsinformation findet iterativ statt, indem bei Erhalt weiterer Evidenz ein weiteres Update erfolgt. Den Hauptmechanismus für die Neuberechnung der Information ist das Bayes-Theorem. Man beachte, dass die Neuberechnung der Wahrscheinlichkeit eines bestimmten Ereignisses zu einer Neuberechnung der Wahrscheinlichkeitsverteilung über den gesamten Wissensraums führen kann. Falls dieses Schema der Neuberechnung von Wahrscheinlichkeiten aufgrund von neuer Information und der Berechnung der Wahrscheinlichkeiten komplexer Ereignisse aufgrund der bereits vorliegenden Wahrscheinlichkeiten konsequent eingehalten wird, so sollten die subjektiven Wahrscheinlichkeiten verschiedener Personen, welche identische Evidenz-Informationen bezüglich des Auftretens bestimmter Ereignisse erhalten, trotz unterschiedlicher a priori Wahrscheinlichkeiten in zunehmendem Maß auf die gleichen Werte konvergieren. Der Grund für diese Konvergenz besteht darin, dass im Zuge des Updates von Wahrscheinlichkeiten aufgrund neuer Evidenz, die a priori Annahmen immer mehr an Gewicht verlieren und daher immer weniger die Wahrscheinlichkeiten beeinflussen. Ein System – sei es eine Person oder eine Maschine –, welche dem beschriebenen Schema folgt, nennt man einen (subjektiven) Bayesianer. Ein derartiges System gilt als (unbeschränkt) rational. Es errechnet die optimale Wahrscheinlichkeitsverteilung über alle bekannten Ergebnisse, bei gegebener a priori Verteilung und vorliegender Evidenz. Bemerkung zur Begrifflichkeit: In der obigen Passage wurde davon gesprochen, dass eine Wahrscheinlichkeitsverteilung über alle relevanten Ergebnisse berechnet wird. Eine derartige Wahrscheinlichkeitsverteilung enthält die gesamte Wahrscheinlichkeitsinformation bezüglich der Menge der vorliegenden Ereignisse. Sie ermöglicht es, alle gewünschten bedingten und unbedingten Wahrscheinlichkeiten von beliebigen Ereignissen oder Ereigniskombinationen zu berechnen. Wie eine derartige Wahrscheinlichkeitsverteilung konkret »aussieht« und wie man aufgrund dieser Verteilung alle beliebigen Wahrscheinlichkeiten errechnen kann, wird in den folgenden Abschnitten im Detail expliziert. 12 Anhang Bemerkung zu Wahrscheinlichkeitsberechnungen und Komplexität: Ein subjektiver Bayesianer ist in der Praxis aufgrund der Komplexität der Neuberechnung der Wahrscheinlichkeitsverteilung über dem gesamten Wissensraum für Systeme mit einer einigermassen reichhaltigen Wissensbasis nicht realisierbar. Dies erklärt, warum die Berechnungen in Expertensystemen, welche Expertenwissen von nur einem bestimmten Wissensbereich repräsentieren, bereits extrem komplex sein können. Lauritzen und Spiegelhalter (1988) entwickelten eine neue Berechnungsmethode, welche es ermöglicht, die gewünschten Wahrscheinlichkeiten auch in sehr umfangreichen Expertensystemen effizient zu berechnen (Neapolitan, 1990, 2004). 1.2.2.1 KRITIK DES SUBJEKTIVISTISCHEN WAHRSCHEINLICHKEITSBE- GRIFFS Die subjektivistische Konzeption der Wahrscheinlichkeit wurde von den klassischen Theoretikern der Statistik, wie Ronald Fisher (1890 – 1962) und Jerzy Neyman (1894 – 1981) abgelehnt. Dies hat folgenden Grund: Gemäss der subjektiven Konzeption ist es möglich, subjektive Wahrscheinlichkeitsverteilungen über Werte von Populationsparameter zu spezifizieren. Diese repräsentieren dann die subjektive Ungewissheit bezüglich eines Parameters. In der Realität hat jedoch ein Populationsparameter einen bestimmten fixen Wert: Zum Beispiel hat die durchschnittliche Grösse der Schweizer Bevölkerung einen bestimmten Wert (auch wenn man diesen nicht kennt). Damit gibt es zur subjektiven Wahrscheinlichkeitsverteilung eines Parameters kein reales Gegenstück. Eine subjektive Verteilung von Populationsparametern hat daher eine gewisse Ähnlichkeit mit dem Glauben an Geister. Man beachte, dass sich dieses Problem für jede Art von Wahrscheinlichkeiten für singuläre Ereignisse ergibt. Nehmen wir an, jemand äussert folgenden Satz: Mit 90%-iger Wahrscheinlichkeit komme ich morgen in deine Vorlesung. Dies mag seiner subjektiven Gewissheit entsprechen, aber was bedeutet es? Es gibt ja keine objektive Realität, die dieser Wahrscheinlichkeit entspricht, denn entweder taucht die Person in die Vorlesung auf oder sie kommt nicht. Und was bedeutet es, wenn die Person nicht erscheint. Hat sie dann zu 90% gelogen? Als weitere Verschärfung des Problems kommt hinzu, dass man im Gegensatz zum frequentistischen Fall keine Messung anstellen kann. Wenn jemand behauptet, die Wahrscheinlichkeit einer Sechs bei einem vorgegebenen Würfel sei 1/6, so lässt sich dies statistisch prüfen, indem gewürfelt und gezählt wird, wie oft die Sechs in einer Serie von Würfen auftaucht. Die Wahrscheinlichkeit der Häufigkeit des Auftretens der 13 Anhang Zahl Sechs unter der Annahme, dass P(Sechs) = 1/6 lässt sich berechnen. Nichts Vergleichbares lässt sich im Einzelfall durchführen. 1.2.3 Zusammenfassung der Diskussion zu den unterschiedlichen Konzeptionen von Wahrscheinlichkeit Das Konzept der Wahrscheinlichkeit ist eine Idealisierung, der in der realen Welt nichts exakt entspricht. Dennoch ist die Wahrscheinlichkeitstheorie eine eminent anwendungsorientierte Disziplin, was vor allem für die Statistik in den unterschiedlichsten Anwendungsgebieten gilt: Versicherungsstatistik, Epidemiologie, Evaluationsforschung, oder statistischer Mechanik, um nur einige Anwendungen zu nennen. In allen diesen Fällen wird der Wahrscheinlichkeitsbegriff im frequentistischen Sinne verwendet, d.h. Wahrscheinlichkeit im Sinne von relativer Häufigkeit. Im Kontext des subjektivistischen Wahrscheinlichkeitsbegriffs liegt der Schwerpunkt auf der Konsistenz von Schlussfolgerungen bzw. von Wissens- und Glaubenselementen. Die Verwendung des Wahrscheinlichkeitskalküls garantiert diese Konsistenz. Eine intersubjektive Übereinstimmung ist jedoch nur in Bereichen möglich, wo die subjektiven Wahrscheinlichkeiten durch vorliegende Daten bestimmt sind. Aufgrund dieser Überlegungen ergibt sich, dass die Verwendung des Wahrscheinlichkeitsbegriffes vor allem dann fruchtbar ist, wenn Klassen von Ereignissen und nicht Einzelereignisse betroffen sind. Ein wichtiger Aspekt des Umgangs mit Wahrscheinlichkeiten betrifft des Rechnen (oder Schlussfolgern) mit Wahrscheinlichkeiten. Dieser Aspekt ist völlig unumstritten und für die Anhänger der verschiedenen Konzeptionen von Wahrscheinlichkeit gleichermassen bedeutsam. Diesem Aspekt wenden wir uns als nächstes zu. 2. Schlussfolgern mit Wahrscheinlichkeiten Das Schlussfolgern (Rechnen) mit Wahrscheinlichkeiten umfasst die folgenden drei grundlegenden Operationen (In den Klammern sind die arithmetischen Operationen aufgeführt, welche zur Durchführung der relevanten Operationen eingesetzt werden): 1. Vereinigung von Wahrscheinlichkeitsinformation (Multiplikation). 2. Konditionierung auf bestimmte Ereignisse (Division). 3. Marginalisierung über Ereignisse (Addition, Integration). Jede Art von Wahrscheinlichkeitsschluss setzt sich aus einer Folge derartiger Operationen zusammen. Um die volle Bedeutung dieser Operationen und ihrer Anwendung zu verstehen, sind drei Arten von Wahrscheinlichkeiten zu unterscheiden. 14 Anhang 2.1 Arten von Wahrscheinlichkeiten Grundsätzlich wird zwischen den folgenden drei Arten von Wahrscheinlichkeiten bzw. Wahrscheinlichkeitsverteilungen unterschieden: 1. Verbundwahrscheinlichkeiten (Verbundverteilung); 2. Bedingte Wahrscheinlichkeiten (Bedingte Verteilung); 3. Marginale Wahrscheinlichkeiten (Marginalverteilung). Konzept 2-1: Wahrscheinlichkeitsverteilung Eine Wahrscheinlichkeitsverteilung ist eine Repräsentation der Wahrscheinlichkeitsinformation für alle zulässigen Ereignisse. Diese Repräsentation der Wahrscheinlichkeitsinformation besteht entweder in einer Auflistung der Wahrscheinlichkeiten für jedes der zulässigen Ereignisse oder in einer Vorschrift, aufgrund welcher die Wahrscheinlichkeiten für alle zulässigen Ereignisse ermittelt werden können. Im Falle der Vorschrift handelt es sich – einerseits – entweder um eine Wahrscheinlichkeitsfunktion (diskreter Fall) oder Dichtefunktion, oder – andererseits – um eine (kumulative) Verteilungsfunktion. Hier einige Beispiele zur Verdeutlichung des Konzepts: Bsp.2-1: Wahrscheinlichkeitsverteilungen: 1. Auflistung der Wahrscheinlichkeiten: Werfen einer fairen Münze: Mögliche Ereignisse: K = Kopf, Z = Zahl; Wahrscheinlichkeitsverteilung: P(K) = 1/2, P(Z) = 1/2. Zweimaliges Werfen einer fairen Münze: Mögliche Ereignisse: KK, KZ, ZK, ZZ; Wahrscheinlichkeitsverteilung: P(KK) = P(KZ) = P(ZK) = P(ZZ) = 1/4. 2. Diskrete Wahrscheinlichkeitsfunktion: Geometrische Verteilung: Mögliche Ereignisse: Anzahl X (X = 0, 1, 2, 3, …) der erfolgreichen Durchgänge in einem Zufallsexperiment mit zwei möglichen Ergebnissen (Erfolg vs. Misserfolg), mit Erfolgswahrscheinlichkeit pro Durchgang und Abbruch nach dem ersten Misserfolg. Wahrscheinlichkeitsfunktion: P X X 1 Anhang 15 Binomialverteilung: Mögliche Ereignisse: Anzahl X (X = 0, 1, 2, 3, …) der erfolgreichen Durchgänge in einem Zufallsexperiment mit zwei möglichen Ergebnissen (Erfolg vs. Misserfolg), mit Erfolgswahrscheinlichkeit pro Durchgang, wobei des Experiment N mal durchgeführt wird. Wahrscheinlichkeitsfunktion: N N X P X X 1 X 3. Dichtefunktion: Univariate Normalverteilung: Mögliche Ereignisse: Alle möglichen reellen Werte x im Bereich (-,): x 2 1 , Dichtefunktion: x exp 2 2 2 Das Symbol bezeichnet den Erwartungswert und 2 die Varianz der Verteilung. Hierbei handelt es sich um so genannte Kennwerte oder Parameter der Verteilung. Bemerkung: Die Werte von Dichtefunktionen sind keine Wahrscheinlichkeiten. 4. Verteilungsfunktion: Verteilungsfunktion der univariaten Normalverteilung: Mögliche Ereignisse: Alle möglichen reellen Intervalle im Bereich (-,). Verteilungsfunktion: x 2 1 dx . x exp 2 2 2 Bemerkung: Die Verteilungsfunktion (das Integral) lässt sich nicht als eine analytische Funktion repräsentieren. Wir wollen im Folgenden diese 3 Arten von Wahrscheinlichkeitsverteilungen etwas näher betrachten. Hierbei beschränken wir uns auf Fälle, in denen die Wahrscheinlichkeitsverteilung in der Auflistung der Einzelwahrscheinlichkeiten besteht. Einige Hinweise zur Notation: In der nachfolgende Darstellung wird die folgende Notationskonvention zur Bezeichnung von Ereignisklassen und Einzelereignissen verwendet: 16 Anhang 1. Grossbuchstaben (kursiv), wie A, B, X, Y, E1, E2, …, En bezeichnen Variablen, welche für Ereignisklassen mit mehreren möglichen Ereignissen stehen. 2. Kleinbuchstaben (kursiv), wie a, b, x, y, e1, e2, … bezeichnen konkrete Ereignisse aus einer Ereignisklasse, d.h. konkrete Werte der Variablen. Ausnahme: In einigen Fällen wird A und A , verwendet, um das Auftreten bzw. die Abwesenheit des Ereignisses A zu bezeichnen. In diesem Fall steht der Grossbuchstabe A für ein Ereignis und nicht für eine Klasse von Ereignissen. 3. Symbole wie A = a oder E = e2 zeigen an, dass die Variablen konkrete Werte angenommen haben. 2.1.1 Verbundwahrscheinlichkeit Konzept 2-2: Verbundverteilung Die Verbundverteilung repräsentiert für jede Kombination von Werten der involvierten Ereignisklassen (Zufallsvariablen) den Wahrscheinlichkeitswert. Notationskonvention: 1. PE1 , E2 ,, En repräsentiert die Verbundverteilung über die Ereignisklassen (Zufallsvariablen) E1 , E2 , , En . Es handelt sich hierbei um die Tabelle von Wahrscheinlichkeiten für jede Kombination der Werte von E1 , E2 , , En . Falls z.B. jedes der Ei i 1,2, , n nur zwei Ausprägungen hat: das Ereignis Ei ist entweder vorhanden oder abwesend, so enthält die Tabelle 2n Einträge, für die 2n möglichen Kombinationen der Anwesen- bzw. Abwesenheit der n Ereignisse. 2. Die Bezeichnung PE1 e11 , E2 e23 ,, En en 4 repräsentiert eine Verbundwahrscheinlichkeit aus dieser Tabelle der Verbundverteilung, nämlich die Wahrscheinlichkeit, dass E1 die Ausprägung e11, E2 die Ausprägung e23, … und En die Ausprägung en4 aufweist. 3. Anstelle von PE1 e11 , E2 e23 ,, En en 4 schreibt man oft auch kürzer: Pe11 , e23 , , en 4 . 17 Anhang Bsp.2-2: Verbundverteilung I: Gegeben: Die folgenden beiden Variablen: 1. Ökonomischer Status der Eltern: A (hoch), B, C, D, E (SÖS) (gering) 2. Gesundheitszustand: gut, (GZ) schwache Symptome, mittlere Symptome, schlecht Bei Vorliegen von 2 kategoriellen Variablen verwendet man meist eine Kreuztabelle, wobei die Zeile die Ausprägungen der ersten und die Spalten die Werte der zweiten Variablen repräsentieren. Die einzelnen Einträge beinhalten dann die Wahrscheinlichkeiten der Kombinationen (vgl. Tab. 2-1) Gesundheitszustand (GZ) SÖS der Eltern Gut Schwache Symptome Mittlere Symptome Schlecht A B C D E F 0.039 0.034 0.034 0.043 0.022 0.013 0.057 0.057 0.063 0.085 0.058 0.043 0.035 0.033 0.039 0.046 0.033 0.033 0.028 0.024 0.036 0.057 0.047 0.043 0.158 0.148 0.173 0.231 0.160 0.131 0.185 0.363 0.218 0.234 1.000 Tab. 2-1: Kreuztabelle zur Repräsentation der Verbundverteilung der Variablen SÖS der Eltern und Gesundheitszustand. So repräsentiert z.B. Der Eintrag in Zeile C und in Spalte Gut die Verbundwahrscheinlichkeit: P(SÖS = C, GZ = Gut) = 0.034. Die gesamte Tabelle wird mit P(SÖS, GZ) bezeichnet. Bsp.2-3: Verbundverteilung II: Gegeben: Die folgenden 5 Variablen: 1. Geschlecht: Mann vs. Frau 2. Wohnort: Land, Kleinstadt, Grossstadt 3. IQ: hoch vs. gering 4. SÖS: hoch vs. gering 5. Beruflicher Ehrgeiz: hoch vs. gering. 18 Anhang Geschlecht Mann Wohnort Land IQ hoch gering Kleinstadt hoch gering Grossstadt hoch gering Frau Land hoch gering Kleinstadt hoch gering Grossstadt hoch gering SÖS hoch gering hoch gering hoch gering hoch gering hoch gering hoch gering hoch gering hoch gering hoch gering hoch gering hoch gering hoch gering Beruflicher Ehrgeiz hoch gering 0.026 0.010 0.012 0.019 0.006 0.017 0.007 0.058 0.078 0.018 0.016 0.019 0.016 0.027 0.007 0.059 0.033 0.007 0.006 0.005 0.007 0.006 0.003 0.012 0.023 0.015 0.012 0.026 0.007 0.016 0.006 0.077 0.075 0.021 0.010 0.022 0.017 0.024 0.005 0.076 0.033 0.008 0.004 0.009 0.005 0.010 0.001 0.026 Tab. 2-2: Tabelle zur Repräsentation der Verbundverteilung über die 5 Variablen: Geschlecht, Wohnort, IQ, SÖS und beruflicher Ehrgeiz. In diesem Falle könnte die Kreuztabelle mit den Wahrscheinlichkeiten der einzelnen Kombinationen von Ausprägungen die Form von Tab. 2-2 annehmen. Das folgende Prinzip ist nun von zentraler Bedeutung: Prinzip 2-1: Verbundverteilung und Wahrscheinlichkeitsinformation: Die Verbundverteilung enthält die gesamte Wahrscheinlichkeitsinformation über die zugrunde liegenden Ereignisklassen. Dies bedeutet, dass jede Frage die Wahrscheinlichkeiten diese Ereignisklassen bzw. Zufallsvariablen betreffend, unter Bezugnahme auf die Verbundverteilung beantwortet werden kann. 19 Anhang Aufgrund der Eigenschaft der Vollständigkeit scheint die Verbundverteilung die optimale Repräsentation von Wahrscheinlichkeitsinformation zu sein. Dies ist aus zwei Gründen leider nicht der Fall: 1. Bei Vorliegen vieler Ereignisklassen wird die Verbundverteilung extrem komplex. Nehmen wir z.B. an, wir haben 100 Ereignisklassen mit jeweils zwei möglichen Ausprägungen: Ein Ereignis ist entweder vorhanden oder nicht. In diesem Fall umfasst die Verbundverteilung 2100 = 1.27 1030. (Zum Vergleich: Ein Gigabyte (GB) bezeichnet die Zahl 1020. Es werden daher mehr als 1000 GB benötigt, um diese Tabelle zu speichern). 2. Die Verbundverteilung enthüllt wichtige Information nicht. So kann man aus der Verbundverteilung nicht direkt ablesen, ob zwei Ereignisse stochastisch abhängig (vgl. Abschnitt 2.1.3.1) sind oder nicht. Trotz dieser Probleme ist die Verbundverteilung extrem wichtig. Vor allem für unsere Berechnungen, in denen selten mehr als 5 Zufallsvariablen inkludiert sind, ist sie von zentraler Bedeutung. Bemerkung zur verwendeten Begrifflichkeit: Im letzten Abschnitt wurden die Begriffe Ereignisklassen und Zufallsvariablen synonym verwendet, da es sich bei beidem um Variablen handelt, deren Ausprägungen zufallsabhängig sind. Im Folgenden wird vermehrt der gebräuchliche Begriff der Zufallsvariable verwendet, ohne im Detail zu erklären, wie sich dieser Begriff exakt definieren lässt. Es reicht die ungefähre Spezifikation, wonach eine Zufallsvariable eine Variable ist, über deren Menge von Ausprägungen eine Wahrscheinlichkeitsverteilung spezifiziert ist. Wenden uns nun einer zweiten wichtigen Art von Verteilung zu. 2.1.2 Marginale Wahrscheinlichkeit (Randwahrscheinlichkeit) Konzept 2-3: Marginalverteilung (Randverteilung) Gegeben: Eine Verbundverteilung PE1 , E2 ,, En über die Menge der Zufallsvariablen) E1 , E2 , , En . Jede Wahrscheinlichkeitsverteilung über eine beliebige echte Teilmenge der Variablen ist eine Marginalverteilung. So sind z.B. die Verteilungen im aktuellen Fall: P E1 , PE2 , …, PEn oder P E1 , E2 Marginalverteilungen. 20 Anhang Bemerkung zur verwendeten Begrifflichkeit: Häufig spricht man von Marginalverteilungen nur, wenn diese über eine einzige Zufallsvariable definiert ist, während für Randverteilungen mit mehreren Variablen auch der Begriff marginale Verbundverteilung verwendet wird. Bsp.2-4: Randverteilungen: Im Bsp.2-2 befindet sich die Randverteilung P(SÖS) in der äusserst rechten Spalte und die Randverteilung P(GZ) befindet sich in der letzten Zeile. Tab. 2-3 enthält die Randverteilung über die Variablen Geschlecht und Wohnort aus Bsp.2-3. Wohnort Geschlecht Land Kleinstadt Grossstadt Mann Frau 0.156 0.183 0.238 0.250 0.078 0.095 0.473 0.527 0.339 0.488 0.173 1.000 Tab. 2-3: Randverteilung über die Variablen Wohnort und Geschlecht, welche aus der Verbundverteilung von Tab. 2-2 gebildet wurde. Die äussert rechten Spalte von Tab. 2-3 enthält die Randwahrscheinlichkeiten für die Variable Geschlecht und die letzte Zeile enthält die Randverteilung der Variablen Wohnort. 2.1.3 Bedingte Wahrscheinlichkeit Eine weitere wichtige Form von Wahrscheinlichkeiten bilden die bedingten Wahrscheinlichkeiten. Konzept 2-4: Bedingte Verteilung: Gegeben: 1. Eine Verbundverteilung PE1 , E2 ,, En über die Menge der Zufallsvariablen E1 , E2 ,, En . 2. Eine Randverteilung über eine Teilmenge, bestehend aus den »letzten« n – k Variablen: Ek 1 , Ek 2 ,, En . Die bedingte Verteilung der ersten k Variablen E1 , E2 ,, Ek , gegeben die letzten n – k Variablen: Ek 1 , Ek 2 ,, En ergibt sich durch: PE1 , E2 ,, En PE1 , E2 , , Ek Ek 1 , Ek 2 , , En PEk 1 , Ek 2 ,, En 21 Anhang wobei für alle Einträge der Randverteilung angenommen wird, dass gilt: PEk 1 , Ek 2 ,, En 0 . Bsp.2-5: Bedingte Verteilungen: Tab. 2-4 zeigt die bedingte Verteilung PGZ SÖS für das Bsp.2-2: Gesundheitszustand (GZ) SÖS der Eltern Gut Schwache Symptome Mittlere Symptome Schlecht A B C D E F 0.244 0.233 0.199 0.188 0.136 0.097 0.359 0.384 0.366 0.367 0.366 0.327 0.221 0.220 0.226 0.201 0.204 0.249 0.176 0.163 0.209 0.245 0.294 0.327 1.000 1.000 1.000 1.000 1.000 1.000 Tab. 2-4: Bedingte Verteilung PGZ SÖS unter Verwendung der Daten von Bsp.2-2. Beachte: Genau genommen handelt es sich bei den Daten um 6 Verteilungen, je nachdem auf welchen Wert konditioniert wurde. So befinden sich z.B. die Wahrscheinlichkeiten der bedingten Verteilung PGZ SÖS A in der ersten Zeile von Tab. 2-4. Die Wahrscheinlichkeiten dieser Verteilung summieren sich auf 1.0. Analoges gilt für die anderen 5 Verteilungen P GZ SÖS B , P GZ SÖS C etc., welche sich in den folgenden Zeilen be- finden. Tab. 2-5 zeigt die bedingte Verteilung P SÖS GZ . In diesem Fall enthalten die Spalten die bedingten Verteilungen bei Konditionierung auf die verschiedenen Ausprägungen der Variable GZ: Die erste Spalte enthält die Wahrscheinlichkeiten der bedingten Verteilung P SÖS GZ gut und analog für die anderen Spalten. Die Wahrscheinlichkeiten in alle Spalten müssen sich zu 1.0 summieren. 22 Anhang Gesundheitszustand SÖS der Eltern Gut Schwache Symptome Mittlere Symptome Schlecht A B C D E F 0.208 0.186 0.186 0.235 0.117 0.068 0.156 0.156 0.174 0.234 0.161 0.118 0.160 0.149 0.180 0.213 0.149 0.149 0.118 0.103 0.154 0.242 0.201 0.183 1.000 1.000 1.000 1.000 Tab. 2-5: Bedingte Verteilung P SÖS GZ unter Verwendung der Daten von Bsp.2-2. Die bedingten Wahrscheinlichkeiten sind von grosser Bedeutung, da sie meist zur Definition des Konzepts der stochastischen Unabhängigkeit verwendet werden. Diesem Konzept wenden wir nun kurz unsere Aufmerksamkeit zu. 2.1.3.1 DAS KONZEPT DER STOCHASTISCHEN UNABHÄNGIGKEIT Konzept 2-5: Stochastische (statistische) Unabhängigkeit: Gegeben: Zwei Zufallsvariablen X und Y. Die Zufallsvariablen X und Y sind stochastisch unabhängig, genau dann wenn (gdw.) die bedingte Verteilung von X gegeben Y der marginalen Verteilung von X entspricht, in Symbolen: PX Y P X (2-1) oder äquivalent: P Y X P Y (2-2) Dem entspricht die völlig äquivalente Formulierung: X und Y sind stochastisch unabhängig, gdw. die Verbundverteilung von X und Y ist identisch dem Produkt der marginalen Verteilungen von X und Y, in Symbolen: P X , Y P X PY (2-3) Man sagt auch: Die Verbundverteilung lässt sich faktorisieren. Die gegebene Definition bedarf einiger Erläuterungen: 1. Die Ausdrücke (2-1) und (2-2) bedeuten, dass sich die Verteilung von X (bzw. Y) nicht ändert, gleichgültig, welche Werte die jeweils andere Variable annimmt, also: 23 Anhang PX Y P X bedeutet: P X Y y P X , für alle Werte y, welche die Variable Y annehmen kann. 2. Gleichung (2-3) ergibt sich unmittelbar aus der Definition der bedingten Wahrscheinlichkeit: PX Y P X , Y P X . Hieraus folgt durch Umformung: P X , Y PX Y P X Setzt man nun die rechte Seite von P X Y P X ein, so ergibt sich Gleichung (2-3). 3. Falls X von Y stochastisch unabhängig ist, so ist auch Y von X stochastisch unabhängig. Dies ersieht man direkt aus Gleichung (2-3), wo beide Variablen völlig symmetrische Rollen haben (siehe hierzu auch Übung 3-2). Die gegebene Definition wirft nun sofort die folgende Frage auf: Frage: Inwieweit deckt sich das Konzept der stochastischen Unabhängigkeit mit der informellen Idee von Unabhängigkeit zwischen zwei Grössen? Die Antwort auf diese Frage ist sehr einfach: Das Konzept der stochastischen Unabhängigkeit realisiert die Idee, wonach zwei Variablen unabhängig sind, falls die Kenntnis des Wertes der einen Variablen Y keinerlei Information über den Wert der anderen Variablen X liefert. Da im Falle stochastischer Unabhängigkeit die Verteilung von X immer gleich ist, unabhängig davon, welchen Wert Y annimmt, kann Y keine Information über den Wert von X liefern (und umgekehrt). Ändert sich jedoch die Verteilung von X mit den Werten von Y, so liefert die Kenntnis des Wertes von Y Information über X. Bsp.2-6: Stochastische Abhängigkeiten: Typische Beispiele für Abhängigkeiten zwischen Variablen sind: Geschlecht und Körpergrösse Alter und Krankheit Intelligenz und Studienerfolg Soziale Kompetenz und Berufserfolg 24 Anhang In jedem dieser Fälle ändert sich die Verteilung der einen Grösse mit dem Wert auf der anderen. Die Kenntnis des Geschlechts gibt mir z.B. Aufschluss darüber, ob eher mit einer grösseren Person (>1.75) oder eher mit einer kleineren Person zu rechnen ist (<1.75). Bemerkung: Das Konzept der stochastischen Unabhängigkeit, wie es in Konzept 2-5 spezifiziert wurde, bildet die Grundlage des 2 Tests in Kreuztabellen. Neben dem Konzept der stochastischen Abhängigkeit existiert ein weiteres Konzept, welches von ähnlich grosser Bedeutung ist: Konzept 2-6: Bedingte Stochastische (statistische) Unabhängigkeit: Gegeben: Drei Zufallsvariablen X, Y und Z. Die Zufallsvariablen X und Y, sind bedingt stochastisch unabhängig gegeben Z, genau dann wenn (gdw.) die bedingte Verteilung von X gegeben Y und Z der bedingten Verteilung von X gegeben Z entspricht, in Symbolen: PX Y , Z PX Z (2-4) oder äquivalent: P Y X , Z P Y Z (2-5) Dem entspricht die völlig äquivalente Formulierung: X und Y sind stochastisch unabhängig, gdw. die Verbundverteilung von X und Y, gegeben Z dem Produkt der marginalen Verteilungen von X gegeben Z und Y und gegeben Z entspricht, in Symbolen (vgl. Übung 3-3): P X , Y Z P X Z P Y Z (2-6) Inhaltlich lässt sich die bedingte stochastische Unabhängigkeit von X und Y gegeben Z wie folgt interpretieren: Wird Variable Z auf irgendeinen Wert Z z fixiert, So ist die Kenntnis des Wertes von X irrelevant für die Vorhersage des Wertes von Y und umgekehrt. Bedingte stochastische Unabhängigkeit ist für die Beurteilung kausaler Effekte von grosser Bedeutung. Bsp.2-7: Bedingte stochastische Unabhängigkeit in verschiedenen Kausalstrukturen: Gegeben: Kausalstruktur der Kette (Mediationsmodell) und der Gabel (Gemeinsame Ursache) [Abb. 2-1] 25 Anhang In der Kettenstruktur X Z Y wirkt eine Ausgangsvariable X auf eine Mediatorvariable Z und diese wiederum auf eine Ergebnisvariable Y. In der Gabelstruktur X Z Y übt die Ursachenvariable Z einen kausalen Einfluss sowohl auf X als auch auf Z aus. Z X Z Y X Kette (Mediator-Struktur) Y Gabel (Common-Cause-Struktur) Abb. 2-1: Zwei grundlegende Kausalstrukturen: Kette und Gabel. Begründung der bedingten stochastischen Unabhängigkeit: In der Kettenstruktur kann X auf Y nur einen Einfluss ausüben, indem es Z beeinflusst. Wird der Wert von Z kontrolliert, so verschwindet der Einfluss von X auf Z und damit auch auf Y. In der Gabelstruktur beeinflusst Z sowohl X als auch Y. Die Abhängigkeit in den Werten zwischen X und Y liegt daher nur in der Tatsache begründet, dass durch den kausalen Einfluss, bestimmte Wertekombinationen von X und Y gehäuft auftreten, Wird X kontrolliert, so entfällt diese Einflussnahme und damit auch die Induzierung bestimmter Kombinationen von Ausprägungen in X und Y. Beachte: In beiden Strukturen sind X und Y jedoch im Allgemeinen unbedingt abhängig, d.h. es gilt: PX Y P X Nach diesen umfangreichen Ausführungen zu den unterschiedlichen Arten von Wahrscheinlichkeit wenden wir uns den Operationen, auf denen das Rechnen mit Wahrscheinlichkeiten basiert, zu. 2.2 Wahrscheinlichkeitsalgebra: Die zentralen Operationen Die Operationen, auf denen die Wahrscheinlichkeitsrechnung beruht, dienen dazu, die verschiedenen Arten von Wahrscheinlichkeiten ineinander zu überführen. Wir unterscheiden 3 basale Operationen: 26 Anhang Kombination von Wahrscheinlichkeiten, Konditionierung und Marginalisierung. 2.2.1 Kombination von Wahrscheinlichkeitsinformation Das Ziel der Kombination von Wahrscheinlichkeitsinformation besteht in der Bildung der Verbundverteilung. Zentral ist hierbei die oben beschriebene Gleichung der bedingten Wahrscheinlichkeit, die hier – der Bequemlichkeit halber – wiederholt wird. PE1 , E2 , , Ek Ek 1 , Ek 2 , , En PE1 , E2 ,, En PEk 1 , Ek 2 ,, En (2-7) Multipliziert man beide Seiten mit dem Nenner des Bruches auf der rechten Seite, so ergibt sich (unter Vertauschung der beiden Seiten): P E1 , E2 , , En P E1 , E2 , , Ek Ek 1 , Ek 2 , , En PEk 1 , Ek 2 , , En (2-8) Mit nur zwei Variablen A und B, ergibt sich die geläufige Gleichung: P A, B P A B PB (2-9) Wir wenden nun diese Methode an, um die häufig benutzte Kettenregel herzuleiten. Wir beschränken uns hierbei auf 4 Zufallsvariablen. Die Verallgemeinerung auf beliebig viele Variablen ist trivial. Bsp.2-8: Kettenregel Gegeben: Die Kettenregel für vier Zufallsvariablen A, B, C und D: P A, B, C , D P A B, C , D P B C , D PC D PD Die Herleitung ergibt sich durch wiederholte Anwendung von Gleichung (2-7): P A, B, C , D P A B, C , D PB, C , D PB, C , D P B C , D PC , D P C , D PC D P D Setzt man nun die die rechten Seiten der Gleichungen sukzessiv ein, so ergibt sich die Kettenregel. Wir wenden nun die Kettenregel auf ein konkretes Beispiel an: Bsp.2-9: Verbundverteilung der Variablen für die Kausalstrukturen der Kette und Gabel Gegeben: Die Kausalstrukturen der Kette und Gabel von Abb. 2-1. Gemäss Kettenregel ergibt sich die Verbundverteilung für beide Strukturen durch: 27 Anhang P X , Y , Z P Y Z , X P Z X P X Aufgrund der oben besprochenen Tatsache der bedingten Unabhängigkeit P Y Z , X P Y Z ergibt sich die Vereinfachung: P X , Y , Z P Y Z PZ X P X Anstelle der dreidimensionalen Tabelle P Y Z , X benötigt man daher nur die zweidimensionale Tabelle P Y Z . Kommen wir zur zweiten Operation. 2.2.2 Marginalisierung der Verbundverteilung Die Operation der Marginalisierung besteht in der Summation der Verbundverteilung über alle Kombinationen jener Variablen, welche in der marginalen Verteilung nicht mehr auftreten, formal: PE1 , E2 , , Ek P E , E , , E , E 1 alle Kombinationen ek 1 ,ek 2 ,,en 2 k k 1 , Ek 2 , , En (2-10) Das Summenzeichen in Gleichung (2-10) läuft über alle Wertekombinationen ek 1 ,ek 2 ,,en der Variablen Ek 1 , Ek 2 , , En . Notationskonvention: Im folgenden wird wir die Operation des Marginalisierens wie folgt notiert: PE1 , E2 , , Ek P E , E , , E , E 1 2 k k 1 Ek 1 , Ek 2 ,, En , Ek 2 , , En Diese Schreibweise macht klar, dass über die Variablen: Ek 1 , Ek 2 , , En hinweg addiert (marginalisiert) wird. Damit ist gemeint, dass über alle Wertekombinationen der Variablen summiert wird. 2.2.3 Konditionierung auf bestimmte Ereignisse Aufgrund der Verbundverteilung und der hieraus berechneten Marginalverteilung lässt sich unter Verwendung der Definition der bedingten Wahrscheinlichkeit: PE1 , E2 ,, En PE1 , E2 , , Ek Ek 1 , Ek 2 , , En (2-7) PEk 1 , Ek 2 ,, En die Operation der Konditionierung durchführen, indem die Verbundverteilung durch die Marginalverteilung jener Ereignisse, auf die konditioniert werden soll, dividiert wird. 28 Anhang In den meisten Fällen handelt es sich um konkrete Ereignisse, auf die konditioniert wird und nicht – wie in Gleichung (2-7) – um Ereignisklassen. In diesem Fall vereinfacht sich Gleichung (2-7) zu: PE1 , E2 ,, Ek ek 1 , ek 2 ,, en PE1 , E2 ,, En Pek 1 , ek 2 ,, en (2-11) Frage: Warum ist Gleichung (2-11) einfacher als Gleichung (27)? Hier die Antwort: PEk 1 , Ek 2 ,, En repräsentiert eine Tabelle von Wahrscheinlichkeiten, mit allen möglichen Kombinationen der Werte der involvierten Variablen Ek 1 , Ek 2 , , En . Pek 1 , ek 2 , , en hingegen repräsentiert nur einen einzigen Wahrscheinlichkeitswert, nämlich die Wahrscheinlichkeit der Ereigniskombination Ek 1 ek 1 , Ek 2 ek 2 ,, En en . Die resultierende Tabelle der Wahrscheinlichkeiten in (2-11): P E1 , E2 , , Ek ek 1 , ek 2 , , en hat daher »nur« k Dimensionen, während die Tabelle der Wahrscheinlichkeiten in (2-7): P E1 , E2 , , Ek Ek 1 , Ek 2 , , En n Dimensionen aufweist (n > k). Nachdem wir nun die zentralen Wahrscheinlichkeitskonzepte und die Basisoperationen kennen gelernt haben, können wir das Ganze zum Grundschema des probabilistischen Schlussfolgerns zusammenfassen. 2.3 Das Grundschema des probabilistischen Schlussfolgerns Abb. 2-2 illustriert das Schema des probabilistischen Schliessens. In einem ersten Schritt werden die diversen Informationseinheiten, welche in bedingten und marginalen Wahrscheinlichkeiten bestehen zur Verbundverteilung kombiniert, indem die einzelnen Wahrscheinlichkeiten multipliziert werden. Aufgrund der Verbundverteilung kann man nun in einem zweiten Schritt die gewünschten marginalen Verteilungen bilden. In einem dritten Schritt werden die Verbundverteilung und die berechnete Marginalverteilung verwendet, um die bedingte Verteilung zu ermitteln. Bemerkung: Im Kontext der Behandlung der Verbundverteilung wurde betont, dass diese die gesamte Wahrscheinlichkeitsinformation enthält (vgl. Prinzip 2-1). 29 Anhang Dies zeigt sich nun auch im aktuellen Kontext: Aus der Verbundverteilung ergibt sich die Marginalverteilung und aus dieser zusammen mit der Verbundverteilung die bedingte Verteilung. Die Verbundverteilung ist also der Dreh- und Angelpunkt des Schlussfolgerns mit Wahrscheinlichkeiten. Bedingte Wahrscheinlichkeiten: P A, B C , D , P C D Marginale Wahrscheinlichkeiten: P D Verbund Wahrscheinlichkeiten: P A, B, C , D Bedingte Wahrscheinlichkeiten: PC , D A, B Marginal Wahrscheinlichkeiten: P A, B Abb. 2-2: Grundschema des probabilistischen Schlussfolgerns. 2.3.1 Konditionale Wahrscheinlichkeitsschlüsse Die meisten Wahrscheinlichkeitsschlüsse (bzw. alle Wahrscheinlichkeitsschlüsse, wenn man den Bayesianern glauben darf) erfolgen vor einem Hintergrund von gesicherten Fakten oder anderer Art von Hintergrundwissen, das als wahr angenommen wird. Es handelt sich also um konditionale Schlüsse, gegeben das Hintergrundwissen, bzw. die Fakten. Diese Tatsache ändert jedoch nichts am grundlegenden Schema. Es verkompliziert nur die Notation, indem das Hintergrundwissen als zusätzliches bedingendes Ereignis einbezogen wird. So ergibt sich z.B. anstelle von: P A, B, C , D P A, B C , D PC D PD die Gleichung: (2-12) 30 Anhang P A, B, C , D W P A, B C , D, W PC D, W P D W . (2-13) verwendet wird, wobei W das Hintergrundwissen bezeichnet. Aus Gleichung (2-13) folgt sofort, die Gleichung: P A, B C , D,W P A, B, C , D W . PC , D W (2-14) Dies bedeutet: Auch die Operation des Konditionierens ändert sich nicht, wenn sie konditional auf W durchgeführt wird. Ebenso wenig wird die Operation des Marginalisierens durch das Konditionieren auf W verändert. Es gilt daher z.B. PC , D W P A, B, C , D W . (2-15) A, B Bemerkung zur Notation: Manchmal wird das Hintergrundwissen W nicht als zusätzliche konditionierende Variable in der Liste der konditionierenden Variablen angefügt, sondern als Subindex für die Wahrscheinlichkeitsfunktion. Gleichung (2-13) sieht dann wie folgt aus: PW A, B, C , D PW A, B C , D PW C D PW D . (2-16) Das Symbol PW drückt aus, dass es sich um eine bedingte Wahrscheinlichkeit, gegeben W, handelt. Im Folgenden wird auf die zusätzliche Komplikation in der Notation, welche sich durch den expliziten Bezug auf ein Hintergrundwissen ergibt, verzichtet. Wir nehmen aber an, dass alle Schlüsse immer vor einem Hintergrund von akzeptierten Sachverhalten stattfinden. 2.3.2 Illustration von Wahrscheinlichkeitsschlüssen Die unterschiedlichen Arten von Wahrscheinlichkeiten scheinen leicht verstehbar. Ebenso sind die besprochenen Operationen sehr einfach. Dennoch könnte es aufgrund der abstrakten Notation mit Symbolen, die sich nicht auf Einzelwahrscheinlichkeiten sondern auf Wahrscheinlichkeitsverteilungen beziehen, Unklarheiten bezüglich der konkreten Durchführung probabilistischer Schlüsse geben. Bemerkung: Zur Durchführung komplexerer Schlüsse mit mehr als 2 oder 3 Zufallsvariablen, ist sinnvoll ein Programm zu verwenden, welches die Manipulation ganzer Tabellen bzw. Matrizen ermöglicht. Das ideale Programm hierfür ist das frei erhältliche Statistikprogramm R. Anhang 31 Auch das Programm Excel erlaubt die Manipulation von Matrizen. In diesem Abschnitt werden nun einige Beispiele zur Illustration probabilistischer Schlussfolgerungen behandelt. Wir beginnen hierbei mit einem einfachen, aber klassischen Problem aus dem Bereich des so genannten Bayes’schen Schlussfolgerns. Dies bedeutet, dass sich im konkreten Fall durch Anwendung des Bayes-Theorems aufgrund der gegebenen Wahrscheinlichkeitsinformation die gesuchte Wahrscheinlichkeit ermitteln lässt. Das Bayes-Theorem implementiert die Operationen der Kombination, Marginalisierung und Konditionierung. Dies soll uns jedoch vorerst nicht kümmern. Wir wenden ganz »stur« das in Abb. 2-2 dargestellte Schema an. Hier nun das Problem: Bsp.2-10: Mammographiebeispiel (Eddy, 1982) Gegeben: Die Wahrscheinlichkeit, dass eine Frau mit 40 Brustkrebs hat beträgt 1/1000. Eine Mammographie gibt in allen Fällen mit Brustkrebs ein positives Ergebnis. Bei Frauen ohne Brustkrebs gibt die Mammographie in 5% der Fälle ein positives Ergebnis. Wie gross ist die Wahrscheinlichkeit, dass eine zufällig ausgewählte Frau mit einem positiven Mammogramm wirklich Brustkrebs hat? Schritt 1: Identifikation der relevanten Ereignisse und deren Wahrscheinlichkeiten: Dieser erste Schritt hat mit dem eigentlichen Schlossfolgern nichts zu tun. Er ist aber notwendig, um überhaupt einen probabilistischen Schluss machen zu können. Im aktuellen Beispiel gibt es zwei Ereignisklassen mit je zwei Ausprägungen: Kr = {K, K } K bedeutet hierbei die Anwesenheit von Krebs und K die Abwesenheit. M ={+, –} + bedeutet ein positives Mammogramm und – ein negatives. Nun können wir die Wahrscheinlichkeitsverteilungen spezifizieren: K 1 / 1000 PKr K 999 / 1000 Hier handelt es sich um die (marginale) Wahrscheinlichkeitsverteilung, welche die Wahrscheinlichkeit von Krebs in der Population der 40-jährigen Frauen angibt. 32 Anhang K K PM Kr 1.00 0.05 0.00 0.95 Dies ist die bedingte Wahrscheinlichkeitsverteilung einer positiven oder negativen Mammographie, gegeben das Vorliegen bzw. die Abwesenheit der Krankheit. Man beachte, dass sich die beiden Spalten jeweils auf 1 summieren. Es liegen also zwei separate Verteilungen vor, einmal die Verteilung von +/– bei Vorliegen der Krankheit und einmal die Verteilung von +/– bei Abwesenheit der Krankheit. Es fehlt nun noch ein Bestimmungsstück bevor wir eine Schlussfolgerung durchführen können, nämlich die gesuchte Wahrscheinlichkeit. Hierbei handelt es sich offensichtlich um die Wahrscheinlichkeit P Kr K M Schritt 2: Planung der einzelnen Schritte zur Ermittlung der gewünschten Wahrscheinlichkeit Wir werden im Folgenden die gesamte Tabelle P Kr M berechnen und nicht nur die gesuchte Punktwahrscheinlichkeit P Kr K M . Letztere entnehmen wir dann aus der Ta- belle mit der Verteilung P Kr M . Wir gehen nun wie folgt vor: 1. Berechnung der Verbundverteilung: PM , Kr P M Kr PKr 2. Berechnung der Marginalverteilung: PM PM , Kr Kr 3. Berechnung der gewünschten bedingten Verteilung: PM , Kr PKr M P M Abb. 2-3 zeigt das Excel-Tabellenblatt, auf dem die Berechnung erfolgte. Im Zellenbereich B10:B11 befindet sich die marginale Verteilung: P Kr . Im Zellenbereich B16:C17 befindet sich die bedingte Verteilung: P M Kr Im Zellenbereich B24:C25 befindet sich die Verbundverteilung: PM , Kr . Diese Verteilung wurde mit Hilfe der Berechnungsformel: {=B16:C17*TRANSPOSE(B10:B11)} 33 Anhang welche sich im angehängten Kästchen befindet, berechnet. In allen Zellen befindet sich die gleiche Formel. {=B16:C17*TRANSPOSE(B10:B11)} {=B24:B25+C24:C25} {=B24:C25/B30:B31} Abb. 2-3: Ausschnitt aus dem Excel-Tabellenblatt zur Berechnung der gesuchten Wahrscheinlichkeit für das Mammographiebeispiel. Der Zellenbereich B30:B31 enthält die Marginalverteilung PM . Diese wurde mit Hilfe der Matrizenformeln: {=B24:B25+C24:C25} berechnet. Der Zellenbereich B36:C37 enthält schliesslich die gesuchte bedingte Verteilung P M Kr . Diese wurde mit Hilfe der Formel: {=B24:C25/B30:B31} berechnet. Zum Verständnis der dargestellten Berechnungen benötigt man die Kenntnis von zwei wichtigen Funktionalitäten von Excel: 34 Anhang (1) Die Möglichkeit der Verwendung von Matrizenfunktionen, welche es erlauben, Matrizen – d.h. rechteckiger Bereiche beliebiger Grösse – als Ganzes zu manipulieren. (2) Der automatische Expansionsmechanismus zur Anpassung von Matrizen unterschiedlichen Formats. Excelberechnungen 1: Matrizenfunktionen Matrizenfunktionen ermöglichen die Verarbeitung von Matrizen – d.h. beliebiger rechteckiger Zellenbereiche – als Einheiten. Letzteres impliziert, dass keine Zelle einer berechneten Matrix einzeln verändert werden kann. Matrizenfunktionen werden wie folgt spezifiziert: 1. Markierung des Zielbereichs für die zu berechnende Matrix: Bsp.: Markierung des Bereichs B24:C25 in Abb. 2-3. 2. Eingabe der Berechnungsformel: Bsp.: Eingabe der Formel: =B16:C17*TRANSPOSE(B10:B11) in Abb. 2-3. Die Formel bewirkt eine punktweise Multiplikation der Matrix im Bereich B16:C17 mit dem transponierten Vektor, der sich in B10:B11 befindet. Die Funktion TRANSPOSE() [Dt. MTRANS()] transponiert eine Matrix, d.h. Zeilen und Spalten werden vertauscht. 3. Die Eingabe wird mit der Tastenkombination: CTRL-SHIFT-ENTER [alle 3 Tasten gleichzeitig gedrückt] abgeschlossen. [Macintosh: COMMAND-ENTER] 4. Das Programm fügt geschwungene Klammern hinzu, um kenntlich zu machen, dass es sich um eine Matrizenformel handelt. Excelberechnungen 2: Automatische Expansion von Vektoren zu Matrizen Excel ermöglicht die automatische Erweiterung von Vektoren (d.h. Matrizen mit entweder einer Zeile oder einer Spalte) oder eines einzelnen Wertes zu einer Matrix. Hierbei werden Kopien des Vektors zu einer Matrix zusammen gefügt, welche die Dimensionen der Zielmatrix besitzt. Bsp.: In der Berechnungsformel: =B16:C17*TRANSPOSE(B10:B11) ist der erste Faktor die 2 2-Matrix: 35 Anhang 1.00 0.05 0.00 0.95 Der zweite Faktor repräsentiert hingegen den Zeilenvektor: 0.001 0.999 Eine Multiplikation, in der die Einträge punktweise multipliziert werden, ist aufgrund des unterschiedlichen Formats nicht möglich. Excel expandiert nun intern vor Durchführung der Multiplikation den Vektor zur Matrix: 0.001 0.999 0.001 0.999 D.h. der Zeilenvektor wird zu einer Matrix mit identischen Zeilen expandiert. Diese besitzt das Format der Zielmatrix. Der beschriebene Expansionsmechanismus funktioniert auch bei Spaltenvektoren oder bei einzelnen Werten: Im Falle von Spaltenvektoren wird die Spalte zu einer Matrix mit identischen Spalten expandiert und im Falle eines einzelnen Wertes liefert die Expansion eine Matrix, in der alle Einträge den gleichen Wert besitzen. Beachte: Das Verfahren funktioniert für Vektoren nur, wenn die Länge des Vektors identisch mit einer Dimension der Matrix ist. In Bsp.2-10 wurden die gesamten Tabellen berechnet, was bei Verwendung von Excel kein Problem darstellt. Da wir nur an der bedingten Wahrscheinlichkeitsverteilung von Brustkrebs gegeben ein positives Mammogramm interessiert sind, könnte man die Berechnungen konditional auf die Bedingung, dass das Mammogramm positiv ist, durchführen. Dies bedeutet, man berechnet anstelle der gesamten Tabelle nur die Teiltabelle: P Kr M . Entsprechend werden auch die anderen Berechnungen nur unter Einbeziehung des relevanten Teils der Wahrscheinlichkeitsverteilungen durchgeführt. 1. Berechnung der Verbundverteilung: P M , Kr P M Kr PKr 2. Berechnung der Marginalverteilung: PM PM , Kr Kr 3. Berechnung der gewünschten bedingten Verteilung: PM , Kr PKr M P M 36 Anhang Bsp.2-11: Mammographiebeispiel (Fortsetzung von Bsp.2-10) Gegeben: Die Wahrscheinlichkeit von Brustkrebs, gegeben ein positives Mammogramm PKr M .02 , wie sich aufgrund der Berechnungen von Bsp.2-10 ergeben hat. Wir nehmen an, die betreffende Person lässt nun eine zweite Mammographie durchführen, welche die gleiche diagnostische Qualität – repräsentiert durch die bedingte Wahrscheinlichkeit PM Kr – aufweist, wie die erste. Gesucht sei die Wahrscheinlichkeit des Vorliegens von Krebs, wenn beide Mammographien ein positives Ergebnis liefern: P Kr M 2 , M 1 Zur Berechnung dieser Wahrscheinlichkeit wird einfach die Berechnung von Bsp.2-10 wiederholt, wobei jedoch anstelle des Vektors der Priorverteilung P Kr der Vektor der Posteriorverteilung: K 0.0196 PKr M 1 K 0.9804 verwendet wird. Aufgrund der Annahme, dass sich die diagnostischen Eigenschaften des Tests nicht verändern, gilt: K K PM 2 Kr , M 1 PM Kr 1.00 0.05 0.00 0.95 Hier handelt es sich wiederum um einen bedingten Wahrscheinlichkeitsschluss, der das Ereignis M 1 voraussetzt. Somit ergibt sich die bedingte Verbundverteilung durch: PKr , M 2 M 1 PM 2 Kr , M 1 P Kr M 1 Die bedingte Marginalverteilung ist dann: PM 2 M 1 PKr , M 2 M 1 . Kr Und hieraus ergibt sich dann die neue (gewünschte) Posteriorverteilung: PKr , M 2 M 1 PKr M 2 , M 1 PM 2 M 1 37 Anhang Dieser Prozess der wiederholten Aktualisierung der Posteriorverteilung kann natürlich beliebig oft wiederholt werden, wobei sich auch die Diagnostizität des Tests verändern kann. In diesem Fall muss eine neue Matrix, welche die veränderte Sensitivität bzw. Spezifität des Tests repräsentiert, bereitgestellt werden. Man beachte jedoch, dass bei einem negativen Ausgang der Mammographie für die oben gegebene Matrix P M Kr die Wahrscheinlichkeit des Vorliegens eines Krebses gleich 0 ist, gleichgültig, wie oft zuvor eine positive Mammographie beobachtet wurde. Dies ergibt sich aus der Tatsache, dass die Wahrscheinlichkeit des Auftretens einer positiven Mammographie bei Vorliegen von Brustkrebs gleich 0 ist. Bemerkung: Anstelle der wiederholten Aktualisierung der Posteriorverteilung kann man jeden Test als eigene Variable betrachten und die Berechnung durchführen, indem die Verbundverteilung über die Variable Kr und die n Tests M 1 , M 2 , , M n : PKr , M 1 , M 2 , , M n gebildet wird, mit nachfolgender Berechnung der Marginalverteilung PM 1 , M 2 ,, M n , sowie der bedingten Verteilung: P Kr M 1 , M 2 , , M n . Dies führt zum gleichen Ergebnis wie die wiederholte Aktualisierung der Posteriorverteilung (siehe Übung 3-6). Im nächsten Beispiel ist die Zielverteilung nicht eine bedingte sondern eine Marginalverteilung. Bsp.2-12: Total evidence design (Shafer & Tversky, 1985) Gegeben: Wir befinden uns im Endspurt des Schwimmwettbewerbs über 200m Freistil. In Führung liegt Kurt, dicht gefolgt von Franz. Max der Buchmacher berechnet für sich, wie wahrscheinlich es ist, dass Kurt das Rennen gewinnen wird. Hierzu hat er folgende Hypothesen bezüglich der Leistung der beiden: Hypothesen über Kurts Leistung: 38 Anhang 0.85 0.03 PK 0.07 0.05 K1 : Kurt hält seine derzeitige Geschwindigkeit K 2 : Kurt verringert seine Geschwindigkeit um weniger als 3% K 3 : Kurt verringert seine Geschwindigkeit um mehr als 3% K 4 : Kurt kollabiert am Ende Hypothesen über Franzens Leistung: 0.1 F1 : Franz erhöht Geschwindigkeit signifkant P F 0.7 F2 : Franz hält seine Geschwindigkeit 0.2 F3 : Franz kann die Geschwindigkeit nicht halten Weiters hat er die folgend bedingte Wahrscheinlichkeitsverteilung, dass Kurt gewinnt, gegeben die in den beiden Hypothesen gegebene Möglichkeiten: F1 F3 F3 K1 0.5 1.0 1.0 PKurt gewinnt K , F K 2 0.2 1.0 1.0 K 3 0.2 0.7 0.8 K 4 0.0 0.0 0.5 Bemerkung: Die Wahrscheinlichkeitsverteilung P Franz gewinnt K , F ergibt sich aus P Kurt gewinnt K , F , indem jeder Eintrag dieser Matrix jeweils von 1.0 subtrahiert werden. Die Wahrscheinlichkeitsverteilung P Franz gewinnt K , F wird jedoch zur Berechnung der Wahrscheinlichkeit, dass Kurt gewinnt nicht benötigt. Max berechnet nun zuerst die Verbundverteilung: P Kurt gewinnt , K , F P Kurt gewinnt K , F PK PF Beachte: Er nimmt hierbei an, dass die Leistungen von Kurt und Franz voneinander unabhängig sind, d.h. P K , F P K P F Hieraus ermittelt er durch Marginalisieren: PKurt gewinnt PKurt gewinnt , K , F K ,F die Wahrscheinlichkeit: P Kurt gewinnt 0.887 . Bemerkung: In diesem Beispiel wurden nur die Operation der Kombination und der Marginalisierung angewendet. Die Operation der Konditionierung wurde nicht benötigt. 39 Anhang Im abschliessenden Beispiel ist eine Verbundverteilung gegeben. Daher wird die Operation der Kombination nicht benötigt. Es wurde jedoch bereits im Abschnitt 2.1.1 darauf hingewiesen, dass die Verbundverteilung oft nicht direkt Aufschluss über bestimmte Zusammenhänge gibt, auch wenn sie die gesamte Wahrscheinlichkeitsinformation enthält. Bsp.2-13: Scheidung bei ausserehelichem Sex von Männern und Frauen (Agresti, 1990) Gegeben: Die Verbundverteilung der folgenden Variablen (Tab. 2-6): G: Geschlecht VX: Vorehelicher Sex AX: Ausserehelicher Sex S: Scheidung Scheidung (S) Geschlecht Vorehelicher Ausserehelicher (G) Sex (VX) Sex (AX) Frau Ja Nein Mann Ja Nein Ja Nein Ja Nein Ja Nein Ja Nein Ja Nein 0.016 0.052 0.035 0.207 0.027 0.058 0.016 0.066 0.004 0.024 0.004 0.311 0.011 0.041 0.004 0.125 Tab. 2-6: Verbundverteilung der Variablen Geschlecht, Vorehelicher Sex, Ausserehelicher Sex und Scheidung (nach Agresti, 1990, Seite 219). Uns interessiert die Frage, ob Frauen und Männer bei Vorliegen von ausserehelichem Sex unterschiedliche Tendenzen zur Scheidung der Ehe aufweisen. Mit Hilfe der Verbundverteilung ist diese Frage nicht direkt zu beantworten. Geeignet zur Beantwortung der Frage ist die bedingte Verteilung: P S AX ja, G . Bildet man die bedingte Verteilung PS AX , G , so kann man die relevanten Wahrscheinlichkeiten dieser Tabelle entnehmen. Diese Verteilung PS AX , G lässt sich in drei Schritten berechnen: 40 Anhang 1. Bildung der Marginalverteilung: PS , AX , G PS ,VX , AX , G . VX 2. Bildung der Marginalverteilung: P AX , G PS , AX , G . S 3. Bildung der bedingen Verteilung: PS , AX , G PS AX , G P AX , G Aus dieser Verteilung lässt sich nun in einfacher Weise die gewünschte bedingte Verteilung P S G, AX ja ablesen (vgl. Tab. 2-7). Scheidung (S) Geschlecht (G) Ja Nein Frau Mann 0.869 0.750 0.131 0.250 Tab. 2-7: Bedingte Verteilung P S G, AX ja . Tab. 2-7 macht deutlich dass die Scheidungsrate bei Vorliegen von ausserehelichem Sex bei Frauen höher ist als bei Männern. Dies wird auch durch den hohen Wert von Yules Q (0.377) bestätigt. Damit beenden wir unsere Ausführungen über die Grundlagen der Wahrscheinlichkeitsrechnung. 2.4 Zusammenfassung Die folgenden Konzepte und Operationen wurden in diesem Anhang behandelt: Gemäss der maßtheoretischen Konzeption der Wahrscheinlichkeit handelt es sich beim Konzept der Wahrscheinlichkeit um ein normiertes, additives Maß, ähnlich wie die Konzepte Länge oder Fläche. Die frequentistische Konzeption von Wahrscheinlichkeit betrachtet diese als eine relative Häufigkeit in unendlich langen Zufallssequenzen. Gemäss der subjektivistischen Konzeption betreffen Wahrscheinlichkeiten subjektive Gewissheiten, die der Konsistenz wegen den Regeln der Wahrscheinlichkeitsrechnung gehorchen müssen. Es lassen sich drei Arten von Wahrscheinlichkeitsverteilungen unterscheiden: (a) die Verbundverteilung, (b) die Marginalverteilung und (c) die bedingte Verteilung. Anhang 41 Die Verbundverteilung gibt für jede Kombination von Werten deren Wahrscheinlichkeit. Sie enthält die gesamte Wahrscheinlichkeitsinformation. Die Marginalverteilung basiert gegenüber der vollen Verbundverteilung nur noch auf einem Teil der Variablen, deren (marginale) Verbundverteilung sie repräsentiert. Die bedingte Verteilung repräsentiert die Verteilung einer Gruppe von Variablen, gegeben eine andere Gruppe von Variablen. Zwei Variablen X und Y sind stochastisch unabhängig, falls die bedingte Verteilung von X gegeben Y der Marginalverteilung von X entspricht oder – äquivalent – falls die Verbundverteilung von X und Y dem Produkt der Marginalverteilungen entspricht. Zur Überführung der verschiedenen Arten von Verteilungen existieren drei Operationen: (a) Die Kombination von Wahrscheinlichkeitsinformation, (b) die Marginalisierung und (c) die Konditionierung. Alle Wahrscheinlichkeitsschlüsse bestehen in einer Abfolge dieser drei Operationen. Die Operationen der Kombination und Konditionierung ergeben sich aufgrund der Definition der bedingten Wahrscheinlichkeit, während die Operation der Marginalisierung direkt aus der dritten Maßaxiom (Additivität von Wahrscheinlichkeiten disjunkter Mengen) folgt. 42 Anhang 3. Übungen Übung 3-1: Wahrscheinlichkeiten I: Ein Flugzeug besitze 1000 kritische Teile, d.h. es stürzt ab, falls mindestens einer dieser Teile ausfällt. Die Wahrscheinlichkeit, dass ein Teil ausfällt, betrage p = 1/1000 (identisch für alle Teile). Wie gross ist die Wahrscheinlichkeit, dass das Flugzeug abstürzt, weil mindestens ein Teil ausfiel? Übung 3-2: Wahrscheinlichkeiten II: Beweise: P A B P A P B A P B In Worten: A ist von B unabhängig gdw. (genau dann wenn) B ist von A unabhängig. Es wird vorausgesetzt, dass P A 0 und PB 0 . Übung 3-3: Wahrscheinlichkeiten III: Zeige, dass die Gleichung: P X , Y Z P X Z P Y Z (2-6) Aus der Definition der bedingten stochastischen Unabhängigkeit: PX Y , Z PX Z (2-4) folgt. Übung 3-4: Wahrscheinlichkeiten IV: Zeige die Gültigkeit der folgenden Gleichung: P A, B C P A B, C P B C Übung 3-5: Wahrscheinlichkeiten V: Verwende die Daten von Tab. 2-6 (Bsp.2-13) zur Beantwortung der beiden folgenden Fragen: (i) Unterscheiden sich Männer und Frauen bezüglich der Scheidungsraten? Gesucht ist also die bedingte Verteilung: P S G . (ii) Ist die Scheidungsrate bei Vorliegen von ausserehelichem Sex abhängig von der Variable vorehelicher Sex? Gesucht ist also die bedingte Verteilung: P S VX , AX ja . 43 Anhang Übung 3-6: Wahrscheinlichkeiten VI: Verwende die Daten von Bsp.2-10 und berechne die bedingte Verteilung PKr M 1 , M 2 , d.h. der Wahrscheinlichkeit des Vorliegens einer Krankheit bei 2-maliger Durchführung der Mammographie. Nimm hierbei an, dass die beiden Tests unabhängig sind, d.h. P M 1 , M 2 Kr P M 1 Kr PM 2 Kr . Hinweis: Bei den Tabellen der bedingten Verteilungen P M 1 , M 2 Kr und der Verbundverteilung P M 1 , M 2 , Kr handelt es sich um 4 2 Tabellen, mit den Kombinationen der Ergebnisse der Mammographie {++, +, +, } als Zeilen und dem Vorliegen bzw. der Abwesenheit der Krankheit als Spalten. Die Marginaltabelle PM 1 , M 2 ist folglich ein 4 1 Spaltenvektor. 44 Anhang 4. Literatur Agresti, A. (1990). Categorical data analysis. New York: Wiley. Eddy, D. M. (1982). Probabilistic reasoning in clinical medicine: Problems and opportunities. In D. Kahneman, P. Slovic, & A. Tversky (Eds.), Judgement under uncertainty: Heuristics and biases (pp. 249-267). Cambridge, England: Cambridge University Press. Kolmogorov, A. N. (1933). Grundbegriffe der Wahrscheinlichkeitsrechnung. Berlin: Springer, Berlin, 1933. Lauritzen, S. L., & Spiegelhalter, D. J. (1988). Local computation with probabilities on graphical structures and their applications to expert systems (with discussion). Journal of the Royal Statistical Society, Series B, 50, 157-224. Neapolitan, R. E. (1990). Probabilistic reasoning in expert systems: Theory and algorithms. New York: Wiley. Neapolitan, R. E. (2004). Learning in Bayesian Networks. Upper Saddle River, NJ: Prentice Hall. Popper, K. R. (1989). Die Logik der Forschung (9. Auflage). Tübingen: Mohr (Erste Auflage 1935). Shafer, G., & Tversky, A. (1985). Languages and designs for probability judgments. Cognitive Science, 9, 309-339. Shafer, G., & Vovk, V. (2005). The origins and legacy of Kolmogorov's Grundbegriffe. Available from: http://www.probabilityandfinance.com/articles/04.pdf Von Mises, R. (1972). Wahrscheinlichkeit, Statistik und Wahrheit (4. Auflage). Wien: Springer. (Erste Auflage 1928).