Vorlesung (HS-2013): Urteilsfehler

Vorlesung (HS-2013):
Urteilsfehler
Anhang: Elemente der
Wahrscheinlichkeitstheorie
Vollständig
Autor: Siegfried Macho
Datum der letzten Änderung: Donnerstag, 12. September 2013
i
Inhaltsverzeichnis
Inhaltsverzeichnis
Anhang: Elemente der Wahrscheinlichkeitstheorie
2
1. Unterschiedliche Konzepte von Wahrscheinlichkeit
2
1.1 Die Axiomatische Konzeption
2
1.2 Wahrscheinlichkeitskonzepte und Realität
5
1.2.1 Die frequentistische Konzeption der Wahrscheinlichkeit
1.2.1.1 Kritik der frequentistischen Wahrscheinlichkeitsbegriffs
1.2.2 Die subjektivistische Konzeption der Wahrscheinlichkeit
5
7
8
1.2.2.1 Kritik des subjektivistischen Wahrscheinlichkeitsbegriffs 12
1.2.3 Zusammenfassung der Diskussion zu den unterschiedlichen
Konzeptionen von Wahrscheinlichkeit
13
2. Schlussfolgern mit Wahrscheinlichkeiten
2.1 Arten von Wahrscheinlichkeiten
13
14
2.1.1 Verbundwahrscheinlichkeit
2.1.2 Marginale Wahrscheinlichkeit (Randwahrscheinlichkeit)
2.1.3 Bedingte Wahrscheinlichkeit
16
19
20
2.1.3.1 Das Konzept der stochastischen Unabhängigkeit
22
2.2 Wahrscheinlichkeitsalgebra: Die zentralen Operationen
25
2.2.1 Kombination von Wahrscheinlichkeitsinformation
2.2.2 Marginalisierung der Verbundverteilung
2.2.3 Konditionierung auf bestimmte Ereignisse
26
27
27
2.3 Das Grundschema des probabilistischen Schlussfolgerns
28
2.3.1 Konditionale Wahrscheinlichkeitsschlüsse
2.3.2 Illustration von Wahrscheinlichkeitsschlüssen
2.4 Zusammenfassung
29
30
40
3. Übungen
42
4. Literatur
44
2
Anhang
Anhang: Elemente der Wahrscheinlichkeitstheorie
In diesem Anhang werden elementare Konzepte und Methoden der
Wahrscheinlichkeitstheorie zusammengefasst.
1. Unterschiedliche Konzepte von Wahrscheinlichkeit
Das Konzept der Wahrscheinlichkeit spielt in den Natur- und Sozialwissenschaften eine zentrale Rolle. Dennoch gibt es bis zum heutigen
Zeitpunkt keine Einigkeit bezüglich dieses Konzepts. Wir werden im
Folgenden die wichtigsten Konzepte kurz besprechen.
1.1 Die Axiomatische Konzeption
Gemäss dieser Konzeption ist Wahrscheinlichkeit ein normiertes Maß.
Normiert, weil die Wahrscheinlichkeit nur Werte im Bereich [0, 1] annehmen kann. Der Begriff Maß ist eine Verallgemeinerung von verschiedenen Eigenschaften, die ausgedehnten Körpern zukommen, wie
Länge, Fläche, Volumen und Gewicht.
Die axiomatische Theorie versucht nun jenen Eigenschaften zu erfassen, welche allen diese verschiedenen Typen von Maßen gemeinsam ist.
Konzept 1-1: Axiomatische Konzeption von Wahrscheinlichkeit (Kolmogorov, 1933)
Gegeben:
 E, E1, E2, Ei etc. seien Ereignisse, konzipiert als Mengen.
 S sei das universelle Ereignis, die universelle Menge, so
dass alle anderen betrachteten Ereignisse E Teilmengen
darstellen.
 Eine Maßfunktion P(E), welche jedem Ereignis E einen
Wert aus dem Bereich [0, 1] zuordnet.
Die Funktion P muss (um als Maßfunktion zu gelten) die folgenden Eigenschaften aufweisen:
1. P(E)  0, für alle Ereignisse E.
2. P(S) = 1
3. Falls Ei und Ej disjunkte Ereignisse darstellen (d.h. die
Schnittmenge entspricht der leeren Menge: Ei  E j   ),
so gilt:
P Ei  E j   PEi   PE j  .
Hierbei bezeichnet Ei  E j  die Vereinigungsmenge der
beiden Ereignisse.
Anhang
3
Einige Erläuterungen:
(i) Der Begriff disjunkt besagt, dass sich die beiden Ereignisse ausschliessen. Daher ist die Wahrscheinlichkeit
ihres gemeinsamen Auftretens gleich 0:
P Ei  E j   P  0
Das Symbol  bezeichnet die leere Menge.
(ii) Die Ereignisse sind als Mengen konzipiert um ihnen
einen extensionalen (ausgedehnten) Charakter zu verleihen. Nur Dinge mit dieser Eigenschaft gelten – gemäss
dieser Theorie – als messbar.
(iii) Man beachte, dass die Maßfunktion P(E) als Längenfunktion, welche jedem (ausgedehntem) Objekt E eine
Länge zuordnet oder als Volumen- und Gewichtsfunktion interpretiert werden kann, mit der zusätzlichen
Eigenschaft der Normierung auf 1. Letzteres bedeutet,
dass die Gesamtlänge (Volumen bzw. Gewicht) aller
Objekte zusammen den Wert 1.0 besitzt.
(iv) Es sollte klar sein, dass jede Längen-, Volumen-, oder
Gewichtsfunktion die von den Axiomen spezifizierten
Eigenschaften aufweisen sollte, um sinnvoll zu sein.
(v) Da die Wahrscheinlichkeitsfunktion P(E) die gleichen
Eigenschaften hat wie die (normierte) Flächenfunktion,
ist die Verwendung von so genannten Venn-Diagrammen sinnvoll.
Die axiomatische Konzeption der Wahrscheinlichkeit betrachtet also
Wahrscheinlichkeit als ein normiertes Maß, ähnlich wie Länge und
Fläche, welche nur ausgedehnten Objekten zukommen kann. Die Theorie spezifiziert sehr allgemeine Eigenschaften, welche allen Arten von
Maßen zukommt. Da der Begriff des Maßes sehr abstrakt gefasst ist, so
dass er die Eigenschaften aller möglichen Maße umfasst, werden nur
sehr wenige Eigenschaften spezifiziert.
Bemerkung:
Betrachtet man die elementaren Axiome der Wahrscheinlichkeitstheorie, so erscheinen diese als relativ einfach. Dennoch
benötigte die Entwicklung dieser Konzeption einen gewaltigen Aufwand an geistiger Kapazität (vgl. Shafer & Vovk,
2005).
Die Sinnhaftigkeit der axiomatischen Spezifikation des Maßes ist für
Längen und Gewichte etc. sofort einsichtig: Legt man z.B. zwei verschiedene Stäbe (= disjunkte Stäbe) aneinander, so sollte die Gesamtlänge der Summe der beiden Längen entsprechen. Ähnliches gilt für
Gewichte, Flächen und Volumina. Hieraus sieht man, dass das 3. Maßaxiom unserer Intuition diese konkreten Maße betreffend korrekt wi-
4
Anhang
derspiegelt. Bezüglich Wahrscheinlichkeiten ist dies weniger offensichtlich und es stellt sich daher die folgende Frage:
Frage:
Warum sollten Wahrscheinlichkeiten den Maßaxiomen
gehorchen?
Die Antwort auf diese Frage hängt davon ab, welche Annahmen darüber gemacht werden, was Wahrscheinlichkeiten in der realen Welt
repräsentieren (Siehe Abschnitt 1.2). Vertritt man eine frequentistische
Konzeption, d.h. Wahrscheinlichkeiten repräsentieren relative Häufigkeiten, so ist – wie Kolmogorov (1933) zeigt – die Gültigkeit der Axiome sehr einfach zu demonstrieren. Wir zeigen dies am Beispiel des
Werfens eines Würfels.
Bsp.1-1: Gültigkeit der Wahrscheinlichkeitsaxiome für relative Häufigkeiten:
Gegeben: Werfen eines Würfels
 Die relative Häufigkeit definiert sich als die Anzahl positiver Fälle durch die Gesamtanzahl von Versuchen. Damit
ist das erste Axiom, wonach relative Häufigkeiten 0 sein
müssen trivialer Weise erfüllt.
 S = {1, 2, 3, 4, 5, 6} ist Menge aller möglichen Ergebnisse
eines Wurfes. Da in jedem Wurf eines der Ereignisse eintritt, muss die relative Häufigkeit h(S) von S gleich 1 sein.
 Seien E1 und E2 zwei Ereignisse, die einander ausschliessen, z.B. E1 = {3} und E2 = {4} (d.h. E1 ist das Ereignis,
dass eine 3 und E2 ist das Ereignis, dass eine 4 gewürfelt
wird).
Offensichtlich entspricht die relative Häufigkeit des Ereignisses E1  E2 = {3, 4}, dass entweder eine 3 oder eine 4
gewürfelt wird ist, exakt der Summe der relativen Häufigkeiten, dass eine 3 gewürfelt wurde plus der relativen
Häufigkeit, dass eine 4 gewürfelt wurde:
hE1  E2   hE1   hE2 
Bsp.1-1 demonstriert die Gültigkeit der Maßaxiome für relative Häufigkeiten. Das Problem liegt nun darin, dass relative Häufigkeiten, die
sich aus den Ergebnissen eines Zufallsprozesses ergeben, nicht identisch mit Wahrscheinlichkeiten sind. Führt man z.B. 600 Würfe mit einem »fairen« Würfel durch (d.h. jede Augenzahl tritt mit der Wahrscheinlichkeit 1/6 auf), so muss die relativen Häufigkeit des Auftretens
eine bestimmten Zahl – sagen wir der Zahl 3 – nicht notwendigerweise
genau 1/6 sein (sondern z.B. 101/600).
5
Anhang
Es stellt sich daher die Frage, was Wahrscheinlichkeiten in der realen
Welt repräsentieren bzw. um welche Entitäten es sich bei Wahrscheinlichkeiten handelt.
1.2 Wahrscheinlichkeitskonzepte und Realität
Die Axiome der Wahrscheinlichkeitstheorie stellen eine Idealisierung
dar, ähnlich wie die Euklidischen Axiome eine idealisierte Charakterisierung von geometrischen Objekten im dreidimensionalen Raum darstellen. Falls es in der realen Welt keine Objekte gibt, welche dieser
Charakterisierung zumindest annähernd genügen, so handelt es sich um
eine »reine Spielerei« ohne jeden praktischen Zweck.
Bezüglich der Frage nach der Natur von Wahrscheinlichkeiten und
worauf sich diese in der realen Welt beziehen, gibt es bis heute keine
Konzeption, die allgemein akzeptiert ist. Es haben sich mehrere Positionen heraus gebildet, von denen zwei im Folgenden behandelt werden.
1.2.1 Die frequentistische Konzeption der Wahrscheinlichkeit
Wir beginnen mit einer formalen Definition des Konzepts:
Konzept 1-2: Frequentistischer Wahrscheinlichkeitsbegriff
(von Mises, 1928):
Gegeben:
Ein Zufallsprozess, der verschieden Ereignisse produziert.
Die Wahrscheinlichkeit eines Ereignisses E entspricht der relativen Häufigkeit, mit der ein Ereignis innerhalb einer unendlichen Sequenz von Ereignissen, welche durch den Zufallsprozess erzeugt werden, auftritt:
PE   lim
NE
N  N
(1-1)
Die Symbole haben hierbei folgende Bedeutung:
N E = Anzahl der Fälle, in denen Ereignis E auftritt.
N = Gesamtanzahl der durchgeführten Läufe des Zufallsprozesses.
lim = Grenzwert, wenn die Anzahl der durchgeführten Läufe
N 
gegen unendlich geht (und damit die Sequenz unendlich lang wird).
Bemerkung zur frequentistischen Konzeption der Wahrscheinlichkeit:
Auch bei der frequentistischen Charakterisierung der Wahrscheinlichkeit handelt es sich um eine Idealisierung, da es in
der realen Welt keine unendlichen Sequenzen gibt.
6
Anhang
Allerdings lässt sich die Wahrscheinlichkeit annähernd bestimmen, indem man die Sequenz möglichst lang macht und
die relative Häufigkeit des gesuchten Ereignisses berechnet.
Die so ermittelte relative Häufigkeit bietet nicht nur eine gute
Schätzung der wahren Wahrscheinlichkeit, sondern es lässt
sich auch abschätzen, wie gross der zu erwartende Fehler ist.
Die frequentistische Wahrscheinlichkeitskonzeption ist die älteste und
steht in direktem Zusammenhang mit dem Ursprung der Wahrscheinlichkeitsrechnung, nämlich mit der Ermittlung von Gewinnwahrscheinlichkeiten bei Glückspielen.
Exkurs 1-1: Entwicklung der Wahrscheinlichkeitsrechnung:
Die Wahrscheinlichkeitsrechnung wurde bekanntlich von
Blaise Pascal (1623-1662) entwickelt. Die Legende besagt,
dass er durch einen Freund Antoine Gombaud, Chevalier de
Méré (1607-1684) angeregt wurde.
Dieser soll sich eines Tages bei Pascal beklagt haben, dass
die Mathematik praktisch zu nichts zu gebrauchen sei. Nach
seinen Berechnungen sollte nämlich die beiden folgenden
Ereignisse die gleiche Wahrscheinlichkeit haben:
 Das Auftreten einer 6 in 4 Würfen mit einem Würfel;
 Das Auftreten einer Doppelsechs in 24 Würfen mit 2
Würfeln;
Er hatte aber beobachtet, dass ersteres Ereignis häufiger auftrat.
Pascal löste das Problem:
4
5
PEine Sechs in 4 Würfen mit einem Würfel  1     0.518
6
24
 35 
PEine Doppelsechs in 24 Würfen mit zwei Würfeln  1     0.491
 36 
Die Beobachtung des Chevaliers spiegelte also die korrekten
Wahrscheinlichkeiten wider.
Pascal wendet hier einen nützlichen Trick an, welcher innerhalb der
Wahrscheinlichkeitsrechung des Öfteren eine Anwendung findet z.B.
beim bekannten Geburtstagsproblem.
Tipp 1-1: Der »Inversionstrick«
Gesucht: Die Wahrscheinlichkeit dass von mehreren möglichen Ereignissen mindestens eines eintritt.
Der Inversionstrick besteht darin, dass man die umgekehrte
Wahrscheinlichkeit berechet, nämlich, dass keines der Ereignisse eintritt. Die so gefundene Wahrscheinlichkeit wird dann
von 1 subtrahiert.
7
Anhang
Angewendet auf das obige Beispiel ergibt sich die Lösung wie folgt:
Die Wahrscheinlichkeit, dass in einem Wurf (mit einem Würfel) keine 6
geworfen wird ist 5/6. Da die einzelnen Würfel unabhängig sind,
können die Wahrscheinlichkeiten aus den einzelnen Würfen multipliziert werden (siehe unten: Kombination von Wahrscheinlichkeiten). So
beträgt z.B. die Wahrscheinlichkeit, dass im ersten Wurf keine 6
erscheint und im zweiten Wurf keine 6 erscheint: (5/6)·(5/6) = 25/36 =
0.694. Die Wahrscheinlichkeit, dass in allen 4 Durchgängen keine 6
erscheint, beträgt dann (5/6)·(5/6)·(5/6)·(5/6) = (5/6)4. Zieht man diesen
Wert von 1 ab, so erhält man die Wahrscheinlichkeit von mindestens
einer 6 in 4 Würfen. Analog berechnet man die zweite Wahrscheinlichkeit.
1.2.1.1 KRITIK
DER FREQUENTISTISCHEN
WAHRSCHEINLICHKEITSBE-
GRIFFS
Die von Mises’sche Konzeption von Wahrscheinlichkeit als Grenzwert
einer relativen Häufigkeit (Gleichung 1-1) wurde von Popper (1935)
einer fundamentalen Kritik unterzogen. Der Hauptkritikpunkt besteht
darin, dass der in Gleichung (1-1) verwendete Grenzwertbegriff nicht
dem mathematischen Grenzwertbegriff entspricht.
In der Mathematik zeichnet sich der Grenzwert einer Zahlenfolge dadurch aus, dass die Folge sich dem Grenzwert beliebig nähert. Formal
wird dies bewiesen, indem man zeigt, dass fast alle Folgeglieder (d.h.
all bis auf endlich viele) innerhalb einer so genannten -Umgebung
liegen. Hierbei handelt es sich um eine beliebigen vorgegebenen Wert
und es wird gezeigt, dass alle Glieder der Folge ab einem gewissen
Glied in der durch den Wert von  vorgegebenen Umgebung liegen.
So gilt zum Beispiel:
1
lim  0 n  1,2,3,
n n
Wird nun irgendein kleiner Wert von  vorgegeben, sagen wir  = 10-10
(0.0000000001), so liegen alle Glieder der Folge ab dem Wert n > 1010
innerhalb der vorgegebenen Umgebung. Dies bedeutet, dass »nur« die
ersten 1010 Glieder der Folge ausserhalb der Umgebung liegen, während
die restlichen unendlich vielen Glieder sich innerhalb der Umgebung
befinden. Es ist auch klar, dass dies gilt, gleichgültig wie klein auch 
immer gewählt wird.
Der Grenzwert in Gleichung (1-1) erfüllt diese Eigenschaft nicht, denn
es gibt keinen zwingenden Grund, dass die Folge der relativen Häufigkeiten auf die wahre Wahrscheinlichkeit konvergiert. Um dies zu sehen,
betrachten wir einen Zufallsprozess mit der Ereignismenge {0, 1} und
mit P(0) = P(1) = 1/2 (Dies lässt sich mittels einer »fairen« Münze
realisieren mit 0 = Kopf und 1 = Zahl [oder umgekehrt]).
Gemäss Gleichung (1-1) sollte die unendliche Sequenz von Ergebnissen
aus dem Zufallsprozess gleich viele 1 und 0 enthalten. Es gibt jedoch
Anhang
8
unendlich viele Sequenzen, für die dies nicht gilt, z.B. die Menge aller
Sequenzen, welche 1, 2, 3, … die 1 und sonst nur die 0 enthalten.
Konkret: Die Menge der Sequenzen mit einer 1 sind:
10000…
01000…
00100…
00010…
…
Klarerweise gibt es unendlich viele derartige Sequenzen, da die 1 auf
unendlich vielen Positionen auftauchen kann. Analog sieht die Sequenz
mit 2 Einsen aus:
11000…
10100…
10010…
10001…
…
01100…
01010…
01001…
…
Man sieht also, dass die Verwendung des Grenzwertes in Gleichung (11) nicht dem in der Mathematik etablierten Konzept des Grenzwertes
folgt. Daher ist völlig unklar, um welche Art von Grenzwert es sich
handelt. Damit ist jedoch die gegebene Definition der Wahrscheinlichkeit höchst problematisch.
Betrachten wir nun eine weitere Konzeption von Wahrscheinlichkeit.
1.2.2 Die subjektivistische Konzeption der Wahrscheinlichkeit
Die frequentistischen Wahrscheinlichkeitskonzeption unterliegt – neben
der oben erwähnten Problematik – der folgenden Einschränkung:
Da es sich bei Wahrscheinlichkeiten letztendlich um relative
Häufigkeiten von Ereignissen innerhalb einer Klasse von Ereignissen handelt, muss es eine potentielle Ereignissequenz geben, bezüglich welcher die relative Häufigkeit berechnet werden
kann.
Die Eigenschaft frequentistischer Wahrscheinlichkeiten verunmöglicht
daher die Zuordnung von Wahrscheinlichkeiten zu singulären Ereignissen, für die es keine Ereignissequenzen gibt, bezüglich welcher die
relative Häufigkeit berechnet werden kann. Hier einige Beispiele:
Wie wahrscheinlich ist es, dass China in den nächsten 20 Jahren zur
Weltmacht Nummer 1 aufsteigt? Wie wahrscheinlich ist es, dass O. J.
Simpson seine Frau umgebracht hat? Wie wahrscheinlich ist es, dass
ich nächsten Donnerstag diese Vorlesung abhalten werde?
9
Anhang
In allen diesen Fällen gibt es keine zugehörige Referenzklasse, bezüglich welcher die Wahrscheinlichkeit der Ereignisse sinnvoll als definiert werden kann.
Aufgrund der dargestellten Einschränkung wurde eine subjektive Konzeption von Wahrscheinlichkeit vorgeschlagen.
Konzept 1-3: Subjektivistischer Wahrscheinlichkeitsbegriff:
Gemäss der subjektivistischen Konzeption der Wahrscheinlichkeit bezieht sich Wahrscheinlichkeit auf die subjektive Gewissheit einer Person bezüglich des Auftretens eines Ereignisses.
Eine Zuordnung von Wahrscheinlichkeiten zu objektiven Gegebenheiten macht für einen radikalen Subjektivisten wenig
Sinn.
Im Zusammenhang mit der subjektivistischen Konzeption stellen sich
sofort die folgenden beiden Fragen:
Fragen:
 Wie lassen sich die Wahrscheinlichkeitsaxiome mit
der subjektiven Konzeption in Einklang bringen?
 Öffnet die subjektivistische Konzeption nicht einem
völligen Relativismus Tor und Tür?
Bezüglich der Verträglichkeit mit dem axiomatischen Ansatz ist zu bemerken, dass aufgrund der Tatsache, dass subjektive Wissenszustände
keine extensionalen Gegebenheiten darstellen, die maßtheoretischen
Axiome nicht direkt anwendbar sind.
Im Rahmen einer subjektivistischen Konzeption wird daher ein anderer
Weg beschritten, um den Bezug zu den Wahrscheinlichkeitsaxiomen
herzustellen. Dieser Ansatz nennt sich das Dutchbook-Argument.
Konzept 1-4: Dutchbook-Argument:
Das Dutchbook-Argument besagt, dass bei Verletzung eines
Wahrscheinlichkeitsaxioms ein System von Wetten konstruiert werden kann (=Dutchbook), so dass jede einzelne Wette
für sich genommen fair ist und daher akzeptiert werden muss.
Das Gesamtsystem von Wetten führt jedoch zu einem sicheren
Verlust (vgl. Hacking, 2001).
Eine rationale Person muss daher ihre subjektiven Wahrscheinlichkeiten so wählen, dass sie konsistent sind, d.h. den
Wahrscheinlichkeitsaxiomen entsprechen. Andernfalls wird
sie zu einer »Geldpumpe« (vgl. Kapitel 1).
Die Antwort auf die erste Frage zeigt schon, dass die subjektiven
Wahrscheinlichkeiten nicht einfach beliebig gewählt werden können.
Daher gibt es auch keine reine Beliebigkeit der Zuordnung von Wahrscheinlichkeiten zu mentalen Inhalten. Es gibt jedoch noch eine weitere
Anhang
10
Beschränkung: Die subjektiven Wahrscheinlichkeiten sollten kompatibel sein mit dem Wissen über die Struktur oder Ergebnisse des
Zufallsmechanismus. Wenn man z.B. eine Münze mit den möglichen
Ergebnissen {Kopf, Zahl} vor sich und man keinen Grund zur Annahme hat, dass die Münze nicht fair ist, so ist ein subjektiver Wahrscheinlichkeitswert von 1/2 – gemäss dem Prinzip vom unzureichenden
Grund (vgl. Prinzip 1-1) – die beste Option. Ebenso wird man bei
Vorliegen von Daten zu einem zufallsgesteuerten Phänomen seine
subjektiven Wahrscheinlichkeiten entsprechend der gewonnen Evidenz
(unter Verwendung des Bayes-Theorems) anpassen.
Prinzip 1-1: Prinzip vom unzureichenden Grund (Indifferenzprinzip):
Gegeben:
Eine Menge (n > 1) von (sich ausschliessenden) Ergebnissen
eines Zufallsprozesses mit nicht unterscheidbaren Ereignismöglichkeiten.
Prinzip:
Ohne weitere Information ist von einer Gleichverteilung der
Ergebnisse auszugehen.
Begründung:
Das Prinzip beruht auf Symmetrieüberlegungen: Da die Ereignismöglichkeiten nicht zu unterscheiden sind, sind die Ereignisse bezüglich der vermuteten Wahrscheinlichkeit völlig austauschbar. Es gibt daher keinen Grund, irgendein Ereignis als
wahrscheinlicher (oder weniger wahrscheinlich) zu betrachten
als ein anderes.
Aus der Perspektive der subjektiven Wahrscheinlichkeitskonzeption
besteht die Zuordnung von subjektiven Wahrscheinlichkeiten zu Ereignissen im Wesentlich aus drei Schritten:
1. In einem ersten Schritt werden den grundlegenden Ereignissen subjektive a priori Wahrscheinlichkeiten zugeordnet, wobei gewissen
Prinzipien (wie jenem vom unzureichenden Grund) Folge geleistet
wird.
Obwohl dieser Prozess von Prinzipien geleitet ist, bleibt dennoch ein
rein subjektiver Rest und es ist durchaus möglich, dass zwei
Personen mit gleichem Wissen einem Ereignis unterschiedliche a
priori Wahrscheinlichkeiten zuordnen.
2. Aufgrund der Wahrscheinlichkeitsaxiome und mit Hilfe der Regeln
der Wahrscheinlichkeitsrechnung werden unter Verwendung der in
Schritt 1 vergebenen a priori Wahrscheinlichkeiten anderen komplexeren Ereignissen Wahrscheinlichkeiten zugeordnet.
3. Die a priori Wahrscheinlichkeiten werden aufgrund von neuer Evidenz neu berechnet (sie werden dann zu a posteriori Wahrscheinlichkeiten).
Anhang
11
Dieser Prozess des Updatens der Wahrscheinlichkeitsinformation
findet iterativ statt, indem bei Erhalt weiterer Evidenz ein weiteres
Update erfolgt. Den Hauptmechanismus für die Neuberechnung der
Information ist das Bayes-Theorem.
Man beachte, dass die Neuberechnung der Wahrscheinlichkeit eines
bestimmten Ereignisses zu einer Neuberechnung der Wahrscheinlichkeitsverteilung über den gesamten Wissensraums führen kann.
Falls dieses Schema der Neuberechnung von Wahrscheinlichkeiten
aufgrund von neuer Information und der Berechnung der Wahrscheinlichkeiten komplexer Ereignisse aufgrund der bereits vorliegenden
Wahrscheinlichkeiten konsequent eingehalten wird, so sollten die subjektiven Wahrscheinlichkeiten verschiedener Personen, welche identische Evidenz-Informationen bezüglich des Auftretens bestimmter Ereignisse erhalten, trotz unterschiedlicher a priori Wahrscheinlichkeiten
in zunehmendem Maß auf die gleichen Werte konvergieren.
Der Grund für diese Konvergenz besteht darin, dass im Zuge des Updates von Wahrscheinlichkeiten aufgrund neuer Evidenz, die a priori
Annahmen immer mehr an Gewicht verlieren und daher immer weniger
die Wahrscheinlichkeiten beeinflussen.
Ein System – sei es eine Person oder eine Maschine –, welche dem beschriebenen Schema folgt, nennt man einen (subjektiven) Bayesianer.
Ein derartiges System gilt als (unbeschränkt) rational. Es errechnet die
optimale Wahrscheinlichkeitsverteilung über alle bekannten Ergebnisse,
bei gegebener a priori Verteilung und vorliegender Evidenz.
Bemerkung zur Begrifflichkeit:
In der obigen Passage wurde davon gesprochen, dass eine
Wahrscheinlichkeitsverteilung über alle relevanten Ergebnisse
berechnet wird.
Eine derartige Wahrscheinlichkeitsverteilung enthält die gesamte Wahrscheinlichkeitsinformation bezüglich der Menge
der vorliegenden Ereignisse. Sie ermöglicht es, alle gewünschten bedingten und unbedingten Wahrscheinlichkeiten von
beliebigen Ereignissen oder Ereigniskombinationen zu berechnen.
Wie eine derartige Wahrscheinlichkeitsverteilung konkret
»aussieht« und wie man aufgrund dieser Verteilung alle
beliebigen Wahrscheinlichkeiten errechnen kann, wird in den
folgenden Abschnitten im Detail expliziert.
12
Anhang
Bemerkung zu Wahrscheinlichkeitsberechnungen und Komplexität:
Ein subjektiver Bayesianer ist in der Praxis aufgrund der
Komplexität der Neuberechnung der Wahrscheinlichkeitsverteilung über dem gesamten Wissensraum für Systeme mit einer einigermassen reichhaltigen Wissensbasis nicht realisierbar.
Dies erklärt, warum die Berechnungen in Expertensystemen,
welche Expertenwissen von nur einem bestimmten Wissensbereich repräsentieren, bereits extrem komplex sein können.
Lauritzen und Spiegelhalter (1988) entwickelten eine neue
Berechnungsmethode, welche es ermöglicht, die gewünschten
Wahrscheinlichkeiten auch in sehr umfangreichen Expertensystemen effizient zu berechnen (Neapolitan, 1990, 2004).
1.2.2.1 KRITIK
DES SUBJEKTIVISTISCHEN
WAHRSCHEINLICHKEITSBE-
GRIFFS
Die subjektivistische Konzeption der Wahrscheinlichkeit wurde von
den klassischen Theoretikern der Statistik, wie Ronald Fisher (1890 –
1962) und Jerzy Neyman (1894 – 1981) abgelehnt.
Dies hat folgenden Grund: Gemäss der subjektiven Konzeption ist es
möglich, subjektive Wahrscheinlichkeitsverteilungen über Werte von
Populationsparameter zu spezifizieren. Diese repräsentieren dann die
subjektive Ungewissheit bezüglich eines Parameters. In der Realität hat
jedoch ein Populationsparameter einen bestimmten fixen Wert: Zum
Beispiel hat die durchschnittliche Grösse der Schweizer Bevölkerung
einen bestimmten Wert (auch wenn man diesen nicht kennt). Damit gibt
es zur subjektiven Wahrscheinlichkeitsverteilung eines Parameters kein
reales Gegenstück. Eine subjektive Verteilung von Populationsparametern hat daher eine gewisse Ähnlichkeit mit dem Glauben
an Geister.
Man beachte, dass sich dieses Problem für jede Art von Wahrscheinlichkeiten für singuläre Ereignisse ergibt. Nehmen wir an, jemand äussert folgenden Satz: Mit 90%-iger Wahrscheinlichkeit komme ich morgen in deine Vorlesung. Dies mag seiner subjektiven Gewissheit entsprechen, aber was bedeutet es? Es gibt ja keine objektive Realität, die
dieser Wahrscheinlichkeit entspricht, denn entweder taucht die Person
in die Vorlesung auf oder sie kommt nicht. Und was bedeutet es, wenn
die Person nicht erscheint. Hat sie dann zu 90% gelogen?
Als weitere Verschärfung des Problems kommt hinzu, dass man im
Gegensatz zum frequentistischen Fall keine Messung anstellen kann.
Wenn jemand behauptet, die Wahrscheinlichkeit einer Sechs bei einem
vorgegebenen Würfel sei 1/6, so lässt sich dies statistisch prüfen, indem
gewürfelt und gezählt wird, wie oft die Sechs in einer Serie von Würfen
auftaucht. Die Wahrscheinlichkeit der Häufigkeit des Auftretens der
13
Anhang
Zahl Sechs unter der Annahme, dass P(Sechs) = 1/6 lässt sich
berechnen. Nichts Vergleichbares lässt sich im Einzelfall durchführen.
1.2.3 Zusammenfassung der Diskussion zu den unterschiedlichen
Konzeptionen von Wahrscheinlichkeit
Das Konzept der Wahrscheinlichkeit ist eine Idealisierung, der in der
realen Welt nichts exakt entspricht. Dennoch ist die Wahrscheinlichkeitstheorie eine eminent anwendungsorientierte Disziplin, was vor allem für die Statistik in den unterschiedlichsten Anwendungsgebieten
gilt: Versicherungsstatistik, Epidemiologie, Evaluationsforschung, oder
statistischer Mechanik, um nur einige Anwendungen zu nennen.
In allen diesen Fällen wird der Wahrscheinlichkeitsbegriff im frequentistischen Sinne verwendet, d.h. Wahrscheinlichkeit im Sinne von relativer Häufigkeit.
Im Kontext des subjektivistischen Wahrscheinlichkeitsbegriffs liegt der
Schwerpunkt auf der Konsistenz von Schlussfolgerungen bzw. von
Wissens- und Glaubenselementen. Die Verwendung des Wahrscheinlichkeitskalküls garantiert diese Konsistenz. Eine intersubjektive Übereinstimmung ist jedoch nur in Bereichen möglich, wo die subjektiven
Wahrscheinlichkeiten durch vorliegende Daten bestimmt sind.
Aufgrund dieser Überlegungen ergibt sich, dass die Verwendung des
Wahrscheinlichkeitsbegriffes vor allem dann fruchtbar ist, wenn Klassen von Ereignissen und nicht Einzelereignisse betroffen sind.
Ein wichtiger Aspekt des Umgangs mit Wahrscheinlichkeiten betrifft
des Rechnen (oder Schlussfolgern) mit Wahrscheinlichkeiten. Dieser
Aspekt ist völlig unumstritten und für die Anhänger der verschiedenen
Konzeptionen von Wahrscheinlichkeit gleichermassen bedeutsam.
Diesem Aspekt wenden wir uns als nächstes zu.
2. Schlussfolgern mit Wahrscheinlichkeiten
Das Schlussfolgern (Rechnen) mit Wahrscheinlichkeiten umfasst die
folgenden drei grundlegenden Operationen (In den Klammern sind die
arithmetischen Operationen aufgeführt, welche zur Durchführung der
relevanten Operationen eingesetzt werden):
1. Vereinigung von Wahrscheinlichkeitsinformation (Multiplikation).
2. Konditionierung auf bestimmte Ereignisse (Division).
3. Marginalisierung über Ereignisse (Addition, Integration).
Jede Art von Wahrscheinlichkeitsschluss setzt sich aus einer Folge
derartiger Operationen zusammen. Um die volle Bedeutung dieser
Operationen und ihrer Anwendung zu verstehen, sind drei Arten von
Wahrscheinlichkeiten zu unterscheiden.
14
Anhang
2.1 Arten von Wahrscheinlichkeiten
Grundsätzlich wird zwischen den folgenden drei Arten von Wahrscheinlichkeiten bzw. Wahrscheinlichkeitsverteilungen unterschieden:
1. Verbundwahrscheinlichkeiten (Verbundverteilung);
2. Bedingte Wahrscheinlichkeiten (Bedingte Verteilung);
3. Marginale Wahrscheinlichkeiten (Marginalverteilung).
Konzept 2-1: Wahrscheinlichkeitsverteilung
Eine Wahrscheinlichkeitsverteilung ist eine Repräsentation der
Wahrscheinlichkeitsinformation für alle zulässigen Ereignisse.
Diese Repräsentation der Wahrscheinlichkeitsinformation besteht entweder in einer Auflistung der Wahrscheinlichkeiten
für jedes der zulässigen Ereignisse oder in einer Vorschrift,
aufgrund welcher die Wahrscheinlichkeiten für alle zulässigen
Ereignisse ermittelt werden können.
Im Falle der Vorschrift handelt es sich – einerseits – entweder
um eine Wahrscheinlichkeitsfunktion (diskreter Fall) oder
Dichtefunktion, oder – andererseits – um eine (kumulative)
Verteilungsfunktion.
Hier einige Beispiele zur Verdeutlichung des Konzepts:
Bsp.2-1: Wahrscheinlichkeitsverteilungen:
1. Auflistung der Wahrscheinlichkeiten:
 Werfen einer fairen Münze:
Mögliche Ereignisse: K = Kopf, Z = Zahl;
Wahrscheinlichkeitsverteilung: P(K) = 1/2, P(Z) = 1/2.
 Zweimaliges Werfen einer fairen Münze:
Mögliche Ereignisse: KK, KZ, ZK, ZZ;
Wahrscheinlichkeitsverteilung:
P(KK) = P(KZ) = P(ZK) = P(ZZ) = 1/4.
2. Diskrete Wahrscheinlichkeitsfunktion:
 Geometrische Verteilung:
Mögliche Ereignisse: Anzahl X (X = 0, 1, 2, 3, …) der
erfolgreichen Durchgänge in einem Zufallsexperiment
mit zwei möglichen Ergebnissen (Erfolg vs. Misserfolg), mit Erfolgswahrscheinlichkeit  pro Durchgang
und Abbruch nach dem ersten Misserfolg.
Wahrscheinlichkeitsfunktion: P X    X  1   
Anhang
15
 Binomialverteilung:
Mögliche Ereignisse: Anzahl X (X = 0, 1, 2, 3, …) der
erfolgreichen Durchgänge in einem Zufallsexperiment
mit zwei möglichen Ergebnissen (Erfolg vs. Misserfolg), mit Erfolgswahrscheinlichkeit  pro Durchgang,
wobei des Experiment N mal durchgeführt wird.
Wahrscheinlichkeitsfunktion:
N
N X
P X      X  1  
X 
3. Dichtefunktion:
Univariate Normalverteilung:
Mögliche Ereignisse: Alle möglichen reellen Werte x im
Bereich (-,):
  x   2 
1
,
Dichtefunktion:  x  
 exp 
2 
2 
 2 
Das Symbol  bezeichnet den Erwartungswert und  2
die Varianz der Verteilung. Hierbei handelt es sich um so
genannte Kennwerte oder Parameter der Verteilung.
Bemerkung:
Die Werte von Dichtefunktionen sind keine Wahrscheinlichkeiten.
4. Verteilungsfunktion:
Verteilungsfunktion der univariaten Normalverteilung:
Mögliche Ereignisse: Alle möglichen reellen Intervalle im
Bereich (-,).
Verteilungsfunktion:

  x   2 
1
 dx .
x   
 exp 
2 
2


2







Bemerkung:
Die Verteilungsfunktion (das Integral) lässt sich nicht als
eine analytische Funktion repräsentieren.
Wir wollen im Folgenden diese 3 Arten von Wahrscheinlichkeitsverteilungen etwas näher betrachten. Hierbei beschränken wir uns auf
Fälle, in denen die Wahrscheinlichkeitsverteilung in der Auflistung der
Einzelwahrscheinlichkeiten besteht.
Einige Hinweise zur Notation:
In der nachfolgende Darstellung wird die folgende Notationskonvention zur Bezeichnung von Ereignisklassen und Einzelereignissen verwendet:
16
Anhang
1. Grossbuchstaben (kursiv), wie A, B, X, Y, E1, E2, …, En
bezeichnen Variablen, welche für Ereignisklassen mit
mehreren möglichen Ereignissen stehen.
2. Kleinbuchstaben (kursiv), wie a, b, x, y, e1, e2, … bezeichnen konkrete Ereignisse aus einer Ereignisklasse, d.h.
konkrete Werte der Variablen.
Ausnahme:
In einigen Fällen wird A und A , verwendet, um das Auftreten bzw. die Abwesenheit des Ereignisses A zu bezeichnen. In diesem Fall steht der Grossbuchstabe A für ein
Ereignis und nicht für eine Klasse von Ereignissen.
3. Symbole wie A = a oder E = e2 zeigen an, dass die Variablen konkrete Werte angenommen haben.
2.1.1 Verbundwahrscheinlichkeit
Konzept 2-2: Verbundverteilung
Die Verbundverteilung repräsentiert für jede Kombination von
Werten der involvierten Ereignisklassen (Zufallsvariablen)
den Wahrscheinlichkeitswert.
Notationskonvention:
1. PE1 , E2 ,, En  repräsentiert die Verbundverteilung über
die Ereignisklassen (Zufallsvariablen) E1 , E2 , , En . Es
handelt sich hierbei um die Tabelle von Wahrscheinlichkeiten für jede Kombination der Werte von E1 , E2 , , En .
Falls z.B. jedes der Ei i  1,2, , n  nur zwei Ausprägungen hat: das Ereignis Ei ist entweder vorhanden oder abwesend, so enthält die Tabelle 2n Einträge, für die 2n möglichen Kombinationen der Anwesen- bzw. Abwesenheit
der n Ereignisse.
2. Die Bezeichnung PE1  e11 , E2  e23 ,, En  en 4  repräsentiert eine Verbundwahrscheinlichkeit aus dieser Tabelle
der Verbundverteilung, nämlich die Wahrscheinlichkeit,
dass E1 die Ausprägung e11, E2 die Ausprägung e23, … und
En die Ausprägung en4 aufweist.
3. Anstelle von PE1  e11 , E2  e23 ,, En  en 4  schreibt man
oft auch kürzer: Pe11 , e23 , , en 4  .
17
Anhang
Bsp.2-2: Verbundverteilung I:
Gegeben: Die folgenden beiden Variablen:
1. Ökonomischer Status der Eltern: A (hoch), B, C, D, E
(SÖS)
(gering)
2. Gesundheitszustand:
gut,
(GZ)
schwache Symptome,
mittlere Symptome,
schlecht
Bei Vorliegen von 2 kategoriellen Variablen verwendet man
meist eine Kreuztabelle, wobei die Zeile die Ausprägungen
der ersten und die Spalten die Werte der zweiten Variablen
repräsentieren. Die einzelnen Einträge beinhalten dann die
Wahrscheinlichkeiten der Kombinationen (vgl. Tab. 2-1)
Gesundheitszustand (GZ)
SÖS der
Eltern
Gut
Schwache
Symptome
Mittlere
Symptome
Schlecht

A
B
C
D
E
F
0.039
0.034
0.034
0.043
0.022
0.013
0.057
0.057
0.063
0.085
0.058
0.043
0.035
0.033
0.039
0.046
0.033
0.033
0.028
0.024
0.036
0.057
0.047
0.043
0.158
0.148
0.173
0.231
0.160
0.131

0.185
0.363
0.218
0.234
1.000
Tab. 2-1: Kreuztabelle zur Repräsentation der Verbundverteilung
der Variablen SÖS der Eltern und Gesundheitszustand.
So repräsentiert z.B. Der Eintrag in Zeile C und in Spalte Gut
die Verbundwahrscheinlichkeit:
P(SÖS = C, GZ = Gut) = 0.034.
Die gesamte Tabelle wird mit P(SÖS, GZ) bezeichnet.
Bsp.2-3: Verbundverteilung II:
Gegeben: Die folgenden 5 Variablen:
1. Geschlecht:
Mann vs. Frau
2. Wohnort:
Land, Kleinstadt, Grossstadt
3. IQ:
hoch vs. gering
4. SÖS:
hoch vs. gering
5. Beruflicher Ehrgeiz: hoch vs. gering.
18
Anhang
Geschlecht
Mann
Wohnort
Land
IQ
hoch
gering
Kleinstadt
hoch
gering
Grossstadt
hoch
gering
Frau
Land
hoch
gering
Kleinstadt
hoch
gering
Grossstadt
hoch
gering
SÖS
hoch
gering
hoch
gering
hoch
gering
hoch
gering
hoch
gering
hoch
gering
hoch
gering
hoch
gering
hoch
gering
hoch
gering
hoch
gering
hoch
gering
Beruflicher Ehrgeiz
hoch
gering
0.026
0.010
0.012
0.019
0.006
0.017
0.007
0.058
0.078
0.018
0.016
0.019
0.016
0.027
0.007
0.059
0.033
0.007
0.006
0.005
0.007
0.006
0.003
0.012
0.023
0.015
0.012
0.026
0.007
0.016
0.006
0.077
0.075
0.021
0.010
0.022
0.017
0.024
0.005
0.076
0.033
0.008
0.004
0.009
0.005
0.010
0.001
0.026
Tab. 2-2: Tabelle zur Repräsentation der Verbundverteilung über
die 5 Variablen: Geschlecht, Wohnort, IQ, SÖS und beruflicher Ehrgeiz.
In diesem Falle könnte die Kreuztabelle mit den Wahrscheinlichkeiten der einzelnen Kombinationen von Ausprägungen
die Form von Tab. 2-2 annehmen.
Das folgende Prinzip ist nun von zentraler Bedeutung:
Prinzip 2-1: Verbundverteilung und Wahrscheinlichkeitsinformation:
Die Verbundverteilung enthält die gesamte Wahrscheinlichkeitsinformation über die zugrunde liegenden Ereignisklassen.
Dies bedeutet, dass jede Frage die Wahrscheinlichkeiten diese
Ereignisklassen bzw. Zufallsvariablen betreffend, unter Bezugnahme auf die Verbundverteilung beantwortet werden
kann.
19
Anhang
Aufgrund der Eigenschaft der Vollständigkeit scheint die Verbundverteilung die optimale Repräsentation von Wahrscheinlichkeitsinformation zu sein. Dies ist aus zwei Gründen leider nicht der Fall:
1. Bei Vorliegen vieler Ereignisklassen wird die Verbundverteilung
extrem komplex. Nehmen wir z.B. an, wir haben 100 Ereignisklassen mit jeweils zwei möglichen Ausprägungen: Ein Ereignis ist
entweder vorhanden oder nicht. In diesem Fall umfasst die Verbundverteilung 2100 = 1.27  1030. (Zum Vergleich: Ein Gigabyte
(GB) bezeichnet die Zahl 1020. Es werden daher mehr als 1000 GB
benötigt, um diese Tabelle zu speichern).
2. Die Verbundverteilung enthüllt wichtige Information nicht. So kann
man aus der Verbundverteilung nicht direkt ablesen, ob zwei
Ereignisse stochastisch abhängig (vgl. Abschnitt 2.1.3.1) sind oder
nicht.
Trotz dieser Probleme ist die Verbundverteilung extrem wichtig. Vor
allem für unsere Berechnungen, in denen selten mehr als 5 Zufallsvariablen inkludiert sind, ist sie von zentraler Bedeutung.
Bemerkung zur verwendeten Begrifflichkeit:
Im letzten Abschnitt wurden die Begriffe Ereignisklassen und
Zufallsvariablen synonym verwendet, da es sich bei beidem
um Variablen handelt, deren Ausprägungen zufallsabhängig
sind.
Im Folgenden wird vermehrt der gebräuchliche Begriff der
Zufallsvariable verwendet, ohne im Detail zu erklären, wie
sich dieser Begriff exakt definieren lässt. Es reicht die ungefähre Spezifikation, wonach eine Zufallsvariable eine Variable ist, über deren Menge von Ausprägungen eine Wahrscheinlichkeitsverteilung spezifiziert ist.
Wenden uns nun einer zweiten wichtigen Art von Verteilung zu.
2.1.2 Marginale Wahrscheinlichkeit (Randwahrscheinlichkeit)
Konzept 2-3: Marginalverteilung (Randverteilung)
Gegeben:
Eine Verbundverteilung PE1 , E2 ,, En  über die Menge der
Zufallsvariablen) E1 , E2 , , En .
Jede Wahrscheinlichkeitsverteilung über eine beliebige echte
Teilmenge der Variablen ist eine Marginalverteilung.
So sind z.B. die Verteilungen im aktuellen Fall: P E1  , PE2 
, …, PEn  oder P E1 , E2  Marginalverteilungen.
20
Anhang
Bemerkung zur verwendeten Begrifflichkeit:
Häufig spricht man von Marginalverteilungen nur, wenn diese
über eine einzige Zufallsvariable definiert ist, während für
Randverteilungen mit mehreren Variablen auch der Begriff
marginale Verbundverteilung verwendet wird.
Bsp.2-4: Randverteilungen:
Im Bsp.2-2 befindet sich die Randverteilung P(SÖS) in der
äusserst rechten Spalte und die Randverteilung P(GZ) befindet sich in der letzten Zeile.
Tab. 2-3 enthält die Randverteilung über die Variablen Geschlecht und Wohnort aus Bsp.2-3.
Wohnort
Geschlecht Land
Kleinstadt
Grossstadt

Mann
Frau
0.156
0.183
0.238
0.250
0.078
0.095
0.473
0.527

0.339
0.488
0.173
1.000
Tab. 2-3: Randverteilung über die Variablen Wohnort und
Geschlecht, welche aus der Verbundverteilung von
Tab. 2-2 gebildet wurde.
Die äussert rechten Spalte von Tab. 2-3 enthält die Randwahrscheinlichkeiten für die Variable Geschlecht und die letzte Zeile enthält die Randverteilung der Variablen Wohnort.
2.1.3 Bedingte Wahrscheinlichkeit
Eine weitere wichtige Form von Wahrscheinlichkeiten bilden die bedingten Wahrscheinlichkeiten.
Konzept 2-4: Bedingte Verteilung:
Gegeben:
1. Eine Verbundverteilung PE1 , E2 ,, En  über die Menge
der Zufallsvariablen E1 , E2 ,, En .
2. Eine Randverteilung über eine Teilmenge, bestehend aus
den »letzten« n – k Variablen: Ek 1 , Ek 2 ,, En .
Die bedingte Verteilung der ersten k Variablen E1 , E2 ,, Ek ,
gegeben die letzten n – k Variablen: Ek 1 , Ek 2 ,, En ergibt
sich durch:
PE1 , E2 ,, En 
PE1 , E2 , , Ek Ek 1 , Ek 2 , , En  
PEk 1 , Ek 2 ,, En 
21
Anhang
wobei für alle Einträge der Randverteilung angenommen wird,
dass gilt: PEk 1 , Ek 2 ,, En   0 .
Bsp.2-5: Bedingte Verteilungen:
Tab. 2-4 zeigt die bedingte Verteilung PGZ SÖS  für das
Bsp.2-2:
Gesundheitszustand (GZ)
SÖS der
Eltern
Gut
Schwache
Symptome
Mittlere
Symptome
Schlecht

A
B
C
D
E
F
0.244
0.233
0.199
0.188
0.136
0.097
0.359
0.384
0.366
0.367
0.366
0.327
0.221
0.220
0.226
0.201
0.204
0.249
0.176
0.163
0.209
0.245
0.294
0.327
1.000
1.000
1.000
1.000
1.000
1.000
Tab. 2-4: Bedingte Verteilung PGZ SÖS  unter Verwendung
der Daten von Bsp.2-2.
Beachte:
Genau genommen handelt es sich bei den Daten um 6 Verteilungen, je nachdem auf welchen Wert konditioniert wurde.
So befinden sich z.B. die Wahrscheinlichkeiten der bedingten
Verteilung PGZ SÖS  A in der ersten Zeile von Tab. 2-4.
Die Wahrscheinlichkeiten dieser Verteilung summieren sich
auf 1.0.
Analoges gilt für die anderen 5 Verteilungen P GZ SÖS  B  ,
P GZ SÖS  C  etc., welche sich in den folgenden Zeilen be-
finden.
Tab. 2-5 zeigt die bedingte Verteilung P SÖS GZ  .
In diesem Fall enthalten die Spalten die bedingten Verteilungen bei Konditionierung auf die verschiedenen Ausprägungen der Variable GZ: Die erste Spalte enthält die Wahrscheinlichkeiten der bedingten Verteilung P SÖS GZ  gut 
und analog für die anderen Spalten.
Die Wahrscheinlichkeiten in alle Spalten müssen sich zu 1.0
summieren.
22
Anhang
Gesundheitszustand
SÖS der
Eltern
Gut
Schwache
Symptome
Mittlere
Symptome
Schlecht
A
B
C
D
E
F
0.208
0.186
0.186
0.235
0.117
0.068
0.156
0.156
0.174
0.234
0.161
0.118
0.160
0.149
0.180
0.213
0.149
0.149
0.118
0.103
0.154
0.242
0.201
0.183

1.000
1.000
1.000
1.000
Tab. 2-5: Bedingte Verteilung P SÖS GZ  unter Verwendung
der Daten von Bsp.2-2.
Die bedingten Wahrscheinlichkeiten sind von grosser Bedeutung, da sie
meist zur Definition des Konzepts der stochastischen Unabhängigkeit
verwendet werden. Diesem Konzept wenden wir nun kurz unsere
Aufmerksamkeit zu.
2.1.3.1 DAS KONZEPT DER STOCHASTISCHEN UNABHÄNGIGKEIT
Konzept 2-5: Stochastische (statistische) Unabhängigkeit:
Gegeben: Zwei Zufallsvariablen X und Y.
Die Zufallsvariablen X und Y sind stochastisch unabhängig,
genau dann wenn (gdw.) die bedingte Verteilung von X gegeben Y der marginalen Verteilung von X entspricht, in Symbolen:
PX Y   P X 
(2-1)
oder äquivalent:
P Y X   P Y 
(2-2)
Dem entspricht die völlig äquivalente Formulierung:
X und Y sind stochastisch unabhängig, gdw. die Verbundverteilung von X und Y ist identisch dem Produkt der marginalen
Verteilungen von X und Y, in Symbolen:
P  X , Y   P  X   PY 
(2-3)
Man sagt auch: Die Verbundverteilung lässt sich faktorisieren.
Die gegebene Definition bedarf einiger Erläuterungen:
1. Die Ausdrücke (2-1) und (2-2) bedeuten, dass sich die Verteilung
von X (bzw. Y) nicht ändert, gleichgültig, welche Werte die jeweils
andere Variable annimmt, also:
23
Anhang
PX Y   P X 
bedeutet:
P X Y  y   P X  , für alle Werte y, welche die Variable Y
annehmen kann.
2. Gleichung (2-3) ergibt sich unmittelbar aus der Definition der bedingten Wahrscheinlichkeit:
PX Y   P X , Y  P X  .
Hieraus folgt durch Umformung:
P X , Y   PX Y  P X 
Setzt man nun die rechte Seite von P  X Y   P  X  ein, so ergibt sich
Gleichung (2-3).
3. Falls X von Y stochastisch unabhängig ist, so ist auch Y von X stochastisch unabhängig. Dies ersieht man direkt aus Gleichung (2-3),
wo beide Variablen völlig symmetrische Rollen haben (siehe hierzu
auch Übung 3-2).
Die gegebene Definition wirft nun sofort die folgende Frage auf:
Frage:
Inwieweit deckt sich das Konzept der stochastischen Unabhängigkeit mit der informellen Idee von Unabhängigkeit zwischen zwei Grössen?
Die Antwort auf diese Frage ist sehr einfach:
Das Konzept der stochastischen Unabhängigkeit realisiert die
Idee, wonach zwei Variablen unabhängig sind, falls die Kenntnis
des Wertes der einen Variablen Y keinerlei Information über den
Wert der anderen Variablen X liefert.
Da im Falle stochastischer Unabhängigkeit die Verteilung von X
immer gleich ist, unabhängig davon, welchen Wert Y annimmt,
kann Y keine Information über den Wert von X liefern (und
umgekehrt).
Ändert sich jedoch die Verteilung von X mit den Werten von Y, so
liefert die Kenntnis des Wertes von Y Information über X.
Bsp.2-6: Stochastische Abhängigkeiten:
Typische Beispiele für Abhängigkeiten zwischen Variablen
sind:
 Geschlecht und Körpergrösse
 Alter und Krankheit
 Intelligenz und Studienerfolg
 Soziale Kompetenz und Berufserfolg
24
Anhang
In jedem dieser Fälle ändert sich die Verteilung der einen
Grösse mit dem Wert auf der anderen. Die Kenntnis des Geschlechts gibt mir z.B. Aufschluss darüber, ob eher mit einer
grösseren Person (>1.75) oder eher mit einer kleineren Person
zu rechnen ist (<1.75).
Bemerkung:
Das Konzept der stochastischen Unabhängigkeit, wie es in
Konzept 2-5 spezifiziert wurde, bildet die Grundlage des  2 Tests in Kreuztabellen.
Neben dem Konzept der stochastischen Abhängigkeit existiert ein weiteres Konzept, welches von ähnlich grosser Bedeutung ist:
Konzept 2-6: Bedingte Stochastische (statistische) Unabhängigkeit:
Gegeben: Drei Zufallsvariablen X, Y und Z.
Die Zufallsvariablen X und Y, sind bedingt stochastisch unabhängig gegeben Z, genau dann wenn (gdw.) die bedingte
Verteilung von X gegeben Y und Z der bedingten Verteilung
von X gegeben Z entspricht, in Symbolen:
PX Y , Z   PX Z 
(2-4)
oder äquivalent:
P Y X , Z   P Y Z 
(2-5)
Dem entspricht die völlig äquivalente Formulierung:
X und Y sind stochastisch unabhängig, gdw. die Verbundverteilung von X und Y, gegeben Z dem Produkt der marginalen
Verteilungen von X gegeben Z und Y und gegeben Z entspricht, in Symbolen (vgl. Übung 3-3):
P  X , Y Z   P  X Z   P Y Z 
(2-6)
Inhaltlich lässt sich die bedingte stochastische Unabhängigkeit von X und Y gegeben Z wie folgt interpretieren:
Wird Variable Z auf irgendeinen Wert Z  z fixiert, So ist die
Kenntnis des Wertes von X irrelevant für die Vorhersage des
Wertes von Y und umgekehrt.
Bedingte stochastische Unabhängigkeit ist für die Beurteilung kausaler
Effekte von grosser Bedeutung.
Bsp.2-7: Bedingte stochastische Unabhängigkeit in verschiedenen Kausalstrukturen:
Gegeben: Kausalstruktur der Kette (Mediationsmodell) und
der Gabel (Gemeinsame Ursache) [Abb. 2-1]
25
Anhang
In der Kettenstruktur X  Z  Y wirkt eine Ausgangsvariable
X auf eine Mediatorvariable Z und diese wiederum auf eine
Ergebnisvariable Y.
In der Gabelstruktur X  Z  Y übt die Ursachenvariable Z
einen kausalen Einfluss sowohl auf X als auch auf Z aus.
Z
X
Z
Y
X
Kette
(Mediator-Struktur)
Y
Gabel
(Common-Cause-Struktur)
Abb. 2-1: Zwei grundlegende Kausalstrukturen: Kette und Gabel.
Begründung der bedingten stochastischen Unabhängigkeit:
 In der Kettenstruktur kann X auf Y nur einen Einfluss ausüben, indem es Z beeinflusst. Wird der Wert von Z kontrolliert, so verschwindet der Einfluss von X auf Z und damit auch auf Y.
 In der Gabelstruktur beeinflusst Z sowohl X als auch Y.
Die Abhängigkeit in den Werten zwischen X und Y liegt
daher nur in der Tatsache begründet, dass durch den kausalen Einfluss, bestimmte Wertekombinationen von X und
Y gehäuft auftreten,
Wird X kontrolliert, so entfällt diese Einflussnahme und
damit auch die Induzierung bestimmter Kombinationen
von Ausprägungen in X und Y.
Beachte:
In beiden Strukturen sind X und Y jedoch im Allgemeinen unbedingt abhängig, d.h. es gilt:
PX Y   P X 
Nach diesen umfangreichen Ausführungen zu den unterschiedlichen
Arten von Wahrscheinlichkeit wenden wir uns den Operationen, auf
denen das Rechnen mit Wahrscheinlichkeiten basiert, zu.
2.2 Wahrscheinlichkeitsalgebra: Die zentralen Operationen
Die Operationen, auf denen die Wahrscheinlichkeitsrechnung beruht,
dienen dazu, die verschiedenen Arten von Wahrscheinlichkeiten ineinander zu überführen. Wir unterscheiden 3 basale Operationen:
26
Anhang
Kombination von Wahrscheinlichkeiten, Konditionierung und Marginalisierung.
2.2.1 Kombination von Wahrscheinlichkeitsinformation
Das Ziel der Kombination von Wahrscheinlichkeitsinformation besteht
in der Bildung der Verbundverteilung. Zentral ist hierbei die oben beschriebene Gleichung der bedingten Wahrscheinlichkeit, die hier – der
Bequemlichkeit halber – wiederholt wird.
PE1 , E2 , , Ek Ek 1 , Ek 2 , , En  
PE1 , E2 ,, En 
PEk 1 , Ek 2 ,, En 
(2-7)
Multipliziert man beide Seiten mit dem Nenner des Bruches auf der
rechten Seite, so ergibt sich (unter Vertauschung der beiden Seiten):
P E1 , E2 ,  , En   P E1 , E2 ,  , Ek Ek 1 , Ek 2 ,  , En   PEk 1 , Ek 2 ,  , En 
(2-8)
Mit nur zwei Variablen A und B, ergibt sich die geläufige Gleichung:
P A, B   P  A B   PB 
(2-9)
Wir wenden nun diese Methode an, um die häufig benutzte Kettenregel
herzuleiten. Wir beschränken uns hierbei auf 4 Zufallsvariablen. Die
Verallgemeinerung auf beliebig viele Variablen ist trivial.
Bsp.2-8: Kettenregel
Gegeben: Die Kettenregel für vier Zufallsvariablen A, B, C
und D:
P  A, B, C , D   P  A B, C , D   P B C , D   PC D   PD 
Die Herleitung ergibt sich durch wiederholte Anwendung von
Gleichung (2-7):
P  A, B, C , D   P A B, C , D   PB, C , D 
PB, C , D   P B C , D   PC , D 
P C , D   PC D   P D 
Setzt man nun die die rechten Seiten der Gleichungen sukzessiv ein, so ergibt sich die Kettenregel.
Wir wenden nun die Kettenregel auf ein konkretes Beispiel an:
Bsp.2-9: Verbundverteilung der Variablen für die
Kausalstrukturen der Kette und Gabel
Gegeben: Die Kausalstrukturen der Kette und Gabel von
Abb. 2-1.
Gemäss Kettenregel ergibt sich die Verbundverteilung für beide Strukturen durch:
27
Anhang
P  X , Y , Z   P Y Z , X   P Z X   P X 
Aufgrund der oben besprochenen Tatsache der bedingten
Unabhängigkeit P Y Z , X   P Y Z  ergibt sich die Vereinfachung:
P X , Y , Z   P Y Z   PZ X   P X 
Anstelle der dreidimensionalen Tabelle P Y Z , X  benötigt
man daher nur die zweidimensionale Tabelle P Y Z  .
Kommen wir zur zweiten Operation.
2.2.2 Marginalisierung der Verbundverteilung
Die Operation der Marginalisierung besteht in der Summation der Verbundverteilung über alle Kombinationen jener Variablen, welche in der
marginalen Verteilung nicht mehr auftreten, formal:
PE1 , E2 , , Ek  
 P E , E ,  , E , E
1
alle Kombinationen
ek 1 ,ek  2 ,,en 
2
k
k 1
, Ek  2 ,  , En 
(2-10)
Das Summenzeichen in Gleichung (2-10) läuft über alle Wertekombinationen ek 1 ,ek 2 ,,en  der Variablen Ek 1 , Ek  2 , , En .
Notationskonvention:
Im folgenden wird wir die Operation des Marginalisierens wie
folgt notiert:
PE1 , E2 , , Ek  
 P E , E ,  , E , E
1
2
k
k 1
Ek 1 , Ek  2 ,, En
, Ek  2 ,  , En 
Diese Schreibweise macht klar, dass über die Variablen:
Ek 1 , Ek  2 , , En
hinweg addiert (marginalisiert) wird. Damit ist gemeint, dass
über alle Wertekombinationen der Variablen summiert wird.
2.2.3 Konditionierung auf bestimmte Ereignisse
Aufgrund der Verbundverteilung und der hieraus berechneten Marginalverteilung lässt sich unter Verwendung der Definition der bedingten
Wahrscheinlichkeit:
PE1 , E2 ,, En 
PE1 , E2 , , Ek Ek 1 , Ek 2 , , En  
(2-7)
PEk 1 , Ek 2 ,, En 
die Operation der Konditionierung durchführen, indem die Verbundverteilung durch die Marginalverteilung jener Ereignisse, auf die konditioniert werden soll, dividiert wird.
28
Anhang
In den meisten Fällen handelt es sich um konkrete Ereignisse, auf die
konditioniert wird und nicht – wie in Gleichung (2-7) – um Ereignisklassen. In diesem Fall vereinfacht sich Gleichung (2-7) zu:
PE1 , E2 ,, Ek ek 1 , ek 2 ,, en  
PE1 , E2 ,, En 
Pek 1 , ek 2 ,, en 
(2-11)
Frage:
Warum ist Gleichung (2-11) einfacher als Gleichung (27)?
Hier die Antwort:
PEk 1 , Ek 2 ,, En  repräsentiert eine Tabelle von Wahrscheinlichkeiten, mit allen möglichen Kombinationen der Werte der involvierten
Variablen Ek 1 , Ek  2 , , En . Pek 1 , ek 2 , , en  hingegen repräsentiert
nur einen einzigen Wahrscheinlichkeitswert, nämlich die Wahrscheinlichkeit der Ereigniskombination Ek 1  ek 1 , Ek 2  ek 2 ,, En  en .
Die resultierende Tabelle der Wahrscheinlichkeiten in (2-11):
P E1 , E2 ,  , Ek ek 1 , ek  2 ,  , en 
hat daher »nur« k Dimensionen, während die Tabelle der Wahrscheinlichkeiten in (2-7):
P E1 , E2 ,  , Ek Ek 1 , Ek 2 , , En 
n Dimensionen aufweist (n > k).
Nachdem wir nun die zentralen Wahrscheinlichkeitskonzepte und die
Basisoperationen kennen gelernt haben, können wir das Ganze zum
Grundschema des probabilistischen Schlussfolgerns zusammenfassen.
2.3 Das Grundschema des probabilistischen Schlussfolgerns
Abb. 2-2 illustriert das Schema des probabilistischen Schliessens.
In einem ersten Schritt werden die diversen Informationseinheiten,
welche in bedingten und marginalen Wahrscheinlichkeiten bestehen zur
Verbundverteilung kombiniert, indem die einzelnen Wahrscheinlichkeiten multipliziert werden.
Aufgrund der Verbundverteilung kann man nun in einem zweiten
Schritt die gewünschten marginalen Verteilungen bilden.
In einem dritten Schritt werden die Verbundverteilung und die berechnete Marginalverteilung verwendet, um die bedingte Verteilung zu ermitteln.
Bemerkung:
Im Kontext der Behandlung der Verbundverteilung wurde betont, dass diese die gesamte Wahrscheinlichkeitsinformation
enthält (vgl. Prinzip 2-1).
29
Anhang
Dies zeigt sich nun auch im aktuellen Kontext: Aus der Verbundverteilung ergibt sich die Marginalverteilung und aus
dieser zusammen mit der Verbundverteilung die bedingte Verteilung.
Die Verbundverteilung ist also der Dreh- und Angelpunkt des
Schlussfolgerns mit Wahrscheinlichkeiten.
Bedingte
Wahrscheinlichkeiten:
P  A, B C , D  , P C D 
Marginale
Wahrscheinlichkeiten:
P D 
Verbund
Wahrscheinlichkeiten:
P  A, B, C , D 
Bedingte
Wahrscheinlichkeiten:
PC , D A, B 
Marginal
Wahrscheinlichkeiten:
P  A, B 
Abb. 2-2: Grundschema des probabilistischen Schlussfolgerns.
2.3.1 Konditionale Wahrscheinlichkeitsschlüsse
Die meisten Wahrscheinlichkeitsschlüsse (bzw. alle Wahrscheinlichkeitsschlüsse, wenn man den Bayesianern glauben darf) erfolgen vor
einem Hintergrund von gesicherten Fakten oder anderer Art von Hintergrundwissen, das als wahr angenommen wird. Es handelt sich also um
konditionale Schlüsse, gegeben das Hintergrundwissen, bzw. die Fakten. Diese Tatsache ändert jedoch nichts am grundlegenden Schema. Es
verkompliziert nur die Notation, indem das Hintergrundwissen als zusätzliches bedingendes Ereignis einbezogen wird. So ergibt sich z.B.
anstelle von:
P  A, B, C , D   P A, B C , D   PC D   PD 
die Gleichung:
(2-12)
30
Anhang
P  A, B, C , D W   P A, B C , D, W   PC D, W   P D W  .
(2-13)
verwendet wird, wobei W das Hintergrundwissen bezeichnet. Aus Gleichung (2-13) folgt sofort, die Gleichung:
P A, B C , D,W  
P A, B, C , D W 
.
PC , D W 
(2-14)
Dies bedeutet: Auch die Operation des Konditionierens ändert sich
nicht, wenn sie konditional auf W durchgeführt wird.
Ebenso wenig wird die Operation des Marginalisierens durch das Konditionieren auf W verändert. Es gilt daher z.B.
PC , D W    P A, B, C , D W  .
(2-15)
A, B
Bemerkung zur Notation:
Manchmal wird das Hintergrundwissen W nicht als zusätzliche konditionierende Variable in der Liste der konditionierenden Variablen angefügt, sondern als Subindex für die Wahrscheinlichkeitsfunktion. Gleichung (2-13) sieht dann wie folgt
aus:
PW  A, B, C , D   PW  A, B C , D   PW C D   PW D  .
(2-16)
Das Symbol PW   drückt aus, dass es sich um eine bedingte
Wahrscheinlichkeit, gegeben W, handelt.
Im Folgenden wird auf die zusätzliche Komplikation in der Notation,
welche sich durch den expliziten Bezug auf ein Hintergrundwissen ergibt, verzichtet. Wir nehmen aber an, dass alle Schlüsse immer vor
einem Hintergrund von akzeptierten Sachverhalten stattfinden.
2.3.2 Illustration von Wahrscheinlichkeitsschlüssen
Die unterschiedlichen Arten von Wahrscheinlichkeiten scheinen leicht
verstehbar. Ebenso sind die besprochenen Operationen sehr einfach.
Dennoch könnte es aufgrund der abstrakten Notation mit Symbolen, die
sich nicht auf Einzelwahrscheinlichkeiten sondern auf Wahrscheinlichkeitsverteilungen beziehen, Unklarheiten bezüglich der konkreten
Durchführung probabilistischer Schlüsse geben.
Bemerkung:
Zur Durchführung komplexerer Schlüsse mit mehr als 2 oder
3 Zufallsvariablen, ist sinnvoll ein Programm zu verwenden,
welches die Manipulation ganzer Tabellen bzw. Matrizen ermöglicht.
Das ideale Programm hierfür ist das frei erhältliche Statistikprogramm R.
Anhang
31
Auch das Programm Excel erlaubt die Manipulation von Matrizen.
In diesem Abschnitt werden nun einige Beispiele zur Illustration probabilistischer Schlussfolgerungen behandelt. Wir beginnen hierbei mit
einem einfachen, aber klassischen Problem aus dem Bereich des so
genannten Bayes’schen Schlussfolgerns. Dies bedeutet, dass sich im
konkreten Fall durch Anwendung des Bayes-Theorems aufgrund der
gegebenen Wahrscheinlichkeitsinformation die gesuchte Wahrscheinlichkeit ermitteln lässt.
Das Bayes-Theorem implementiert die Operationen der Kombination,
Marginalisierung und Konditionierung. Dies soll uns jedoch vorerst
nicht kümmern. Wir wenden ganz »stur« das in Abb. 2-2 dargestellte
Schema an.
Hier nun das Problem:
Bsp.2-10: Mammographiebeispiel (Eddy, 1982)
Gegeben:
Die Wahrscheinlichkeit, dass eine Frau mit 40 Brustkrebs hat
beträgt 1/1000.
Eine Mammographie gibt in allen Fällen mit Brustkrebs ein
positives Ergebnis.
Bei Frauen ohne Brustkrebs gibt die Mammographie in 5%
der Fälle ein positives Ergebnis.
Wie gross ist die Wahrscheinlichkeit, dass eine zufällig ausgewählte Frau mit einem positiven Mammogramm wirklich
Brustkrebs hat?
Schritt 1: Identifikation der relevanten Ereignisse und deren
Wahrscheinlichkeiten:
Dieser erste Schritt hat mit dem eigentlichen Schlossfolgern
nichts zu tun. Er ist aber notwendig, um überhaupt einen probabilistischen Schluss machen zu können.
Im aktuellen Beispiel gibt es zwei Ereignisklassen mit je zwei
Ausprägungen:
Kr = {K, K } K bedeutet hierbei die Anwesenheit von Krebs
und K die Abwesenheit.
M ={+, –} + bedeutet ein positives Mammogramm und –
ein negatives.
Nun können wir die Wahrscheinlichkeitsverteilungen spezifizieren:
K  1 / 1000 
PKr  
K 999 / 1000
Hier handelt es sich um die (marginale) Wahrscheinlichkeitsverteilung, welche die Wahrscheinlichkeit von Krebs in der
Population der 40-jährigen Frauen angibt.
32
Anhang
K
K
PM Kr    1.00 0.05
 0.00 0.95
Dies ist die bedingte Wahrscheinlichkeitsverteilung einer positiven oder negativen Mammographie, gegeben das Vorliegen bzw. die Abwesenheit der Krankheit.
Man beachte, dass sich die beiden Spalten jeweils auf 1 summieren. Es liegen also zwei separate Verteilungen vor, einmal
die Verteilung von +/– bei Vorliegen der Krankheit und einmal die Verteilung von +/– bei Abwesenheit der Krankheit.
Es fehlt nun noch ein Bestimmungsstück bevor wir eine
Schlussfolgerung durchführen können, nämlich die gesuchte
Wahrscheinlichkeit.
Hierbei handelt es sich offensichtlich um die Wahrscheinlichkeit P Kr  K M   
Schritt 2: Planung der einzelnen Schritte zur Ermittlung der
gewünschten Wahrscheinlichkeit
Wir werden im Folgenden die gesamte Tabelle P Kr M  berechnen und nicht nur die gesuchte Punktwahrscheinlichkeit
P Kr  K M    . Letztere entnehmen wir dann aus der Ta-
belle mit der Verteilung P Kr M  .
Wir gehen nun wie folgt vor:
1. Berechnung der Verbundverteilung:
PM , Kr   P M Kr   PKr 
2. Berechnung der Marginalverteilung:
PM    PM , Kr 
Kr
3. Berechnung der gewünschten bedingten Verteilung:
PM , Kr 
PKr M  
P M 
Abb. 2-3 zeigt das Excel-Tabellenblatt, auf dem die Berechnung erfolgte.
 Im Zellenbereich B10:B11 befindet sich die marginale Verteilung:
P Kr  .
 Im Zellenbereich B16:C17 befindet sich die bedingte Verteilung:
P M Kr 
 Im Zellenbereich B24:C25 befindet sich die Verbundverteilung:
PM , Kr  . Diese Verteilung wurde mit Hilfe der Berechnungsformel:
{=B16:C17*TRANSPOSE(B10:B11)}
33
Anhang
welche sich im angehängten Kästchen befindet, berechnet. In allen
Zellen befindet sich die gleiche Formel.
{=B16:C17*TRANSPOSE(B10:B11)}
{=B24:B25+C24:C25}
{=B24:C25/B30:B31}
Abb. 2-3: Ausschnitt aus dem Excel-Tabellenblatt zur Berechnung der
gesuchten Wahrscheinlichkeit für das Mammographiebeispiel.
 Der Zellenbereich B30:B31 enthält die Marginalverteilung PM  .
Diese wurde mit Hilfe der Matrizenformeln:
{=B24:B25+C24:C25}
berechnet.
 Der Zellenbereich B36:C37 enthält schliesslich die gesuchte bedingte Verteilung P M Kr  . Diese wurde mit Hilfe der Formel:
{=B24:C25/B30:B31}
berechnet.
Zum Verständnis der dargestellten Berechnungen benötigt man die
Kenntnis von zwei wichtigen Funktionalitäten von Excel:
34
Anhang
(1) Die Möglichkeit der Verwendung von Matrizenfunktionen, welche
es erlauben, Matrizen – d.h. rechteckiger Bereiche beliebiger Grösse – als Ganzes zu manipulieren.
(2) Der automatische Expansionsmechanismus zur Anpassung von
Matrizen unterschiedlichen Formats.
Excelberechnungen 1: Matrizenfunktionen
Matrizenfunktionen ermöglichen die Verarbeitung von Matrizen – d.h. beliebiger rechteckiger Zellenbereiche – als Einheiten. Letzteres impliziert, dass keine Zelle einer berechneten
Matrix einzeln verändert werden kann.
Matrizenfunktionen werden wie folgt spezifiziert:
1. Markierung des Zielbereichs für die zu berechnende Matrix:
Bsp.: Markierung des Bereichs B24:C25 in Abb. 2-3.
2. Eingabe der Berechnungsformel:
Bsp.: Eingabe der Formel:
=B16:C17*TRANSPOSE(B10:B11)
in Abb. 2-3. Die Formel bewirkt eine punktweise Multiplikation der Matrix im Bereich B16:C17 mit dem
transponierten Vektor, der sich in B10:B11 befindet.
Die Funktion TRANSPOSE() [Dt. MTRANS()] transponiert eine Matrix, d.h. Zeilen und Spalten werden
vertauscht.
3. Die Eingabe wird mit der Tastenkombination:
CTRL-SHIFT-ENTER [alle 3 Tasten gleichzeitig gedrückt]
abgeschlossen.
[Macintosh: COMMAND-ENTER]
4. Das Programm fügt geschwungene Klammern hinzu, um
kenntlich zu machen, dass es sich um eine Matrizenformel
handelt.
Excelberechnungen 2: Automatische Expansion von Vektoren
zu Matrizen
Excel ermöglicht die automatische Erweiterung von Vektoren
(d.h. Matrizen mit entweder einer Zeile oder einer Spalte) oder
eines einzelnen Wertes zu einer Matrix.
Hierbei werden Kopien des Vektors zu einer Matrix zusammen
gefügt, welche die Dimensionen der Zielmatrix besitzt.
Bsp.: In der Berechnungsformel:
=B16:C17*TRANSPOSE(B10:B11)
ist der erste Faktor die 2  2-Matrix:
35
Anhang
1.00
0.05
0.00
0.95
Der zweite Faktor repräsentiert hingegen den Zeilenvektor:
0.001 0.999
Eine Multiplikation, in der die Einträge punktweise multipliziert werden, ist aufgrund des unterschiedlichen Formats nicht
möglich.
Excel expandiert nun intern vor Durchführung der Multiplikation den Vektor zur Matrix:
0.001 0.999
0.001 0.999
D.h. der Zeilenvektor wird zu einer Matrix mit identischen
Zeilen expandiert. Diese besitzt das Format der Zielmatrix.
Der beschriebene Expansionsmechanismus funktioniert auch
bei Spaltenvektoren oder bei einzelnen Werten:
Im Falle von Spaltenvektoren wird die Spalte zu einer Matrix
mit identischen Spalten expandiert und im Falle eines einzelnen Wertes liefert die Expansion eine Matrix, in der alle Einträge den gleichen Wert besitzen.
Beachte:
Das Verfahren funktioniert für Vektoren nur, wenn die Länge
des Vektors identisch mit einer Dimension der Matrix ist.
In Bsp.2-10 wurden die gesamten Tabellen berechnet, was bei Verwendung von Excel kein Problem darstellt. Da wir nur an der bedingten
Wahrscheinlichkeitsverteilung von Brustkrebs gegeben ein positives
Mammogramm interessiert sind, könnte man die Berechnungen konditional auf die Bedingung, dass das Mammogramm positiv ist, durchführen.
Dies bedeutet, man berechnet anstelle der gesamten Tabelle nur die
Teiltabelle: P Kr M    .
Entsprechend werden auch die anderen Berechnungen nur unter Einbeziehung des relevanten Teils der Wahrscheinlichkeitsverteilungen
durchgeführt.
1. Berechnung der Verbundverteilung:
P M  , Kr   P M   Kr   PKr 
2. Berechnung der Marginalverteilung:
PM      PM  , Kr 
Kr
3. Berechnung der gewünschten bedingten Verteilung:
PM  , Kr 
PKr M    
P M   
36
Anhang
Bsp.2-11: Mammographiebeispiel (Fortsetzung von Bsp.2-10)
Gegeben:
Die Wahrscheinlichkeit von Brustkrebs, gegeben ein positives
Mammogramm PKr M     .02 , wie sich aufgrund der Berechnungen von Bsp.2-10 ergeben hat.
Wir nehmen an, die betreffende Person lässt nun eine zweite
Mammographie durchführen, welche die gleiche diagnostische Qualität – repräsentiert durch die bedingte Wahrscheinlichkeit PM Kr  – aufweist, wie die erste.
Gesucht sei die Wahrscheinlichkeit des Vorliegens von Krebs,
wenn beide Mammographien ein positives Ergebnis liefern:
P Kr M 2  , M 1   
Zur Berechnung dieser Wahrscheinlichkeit wird einfach die
Berechnung von Bsp.2-10 wiederholt, wobei jedoch anstelle
des Vektors der Priorverteilung P Kr  der Vektor der Posteriorverteilung:
K 0.0196
PKr M 1    
K 0.9804
verwendet wird.
Aufgrund der Annahme, dass sich die diagnostischen Eigenschaften des Tests nicht verändern, gilt:
K
K
PM 2 Kr , M 1     PM Kr    1.00 0.05
 0.00 0.95
Hier handelt es sich wiederum um einen bedingten Wahrscheinlichkeitsschluss, der das Ereignis M 1   voraussetzt.
Somit ergibt sich die bedingte Verbundverteilung durch:
PKr , M 2 M 1     PM 2 Kr , M 1     P Kr M 1   
Die bedingte Marginalverteilung ist dann:
PM 2 M 1      PKr , M 2 M 1    .
Kr
Und hieraus ergibt sich dann die neue (gewünschte) Posteriorverteilung:
PKr , M 2 M 1   
PKr M 2  , M 1    
PM 2 M 1   
37
Anhang
Dieser Prozess der wiederholten Aktualisierung der Posteriorverteilung kann natürlich beliebig oft wiederholt werden, wobei sich auch die Diagnostizität des Tests verändern kann. In
diesem Fall muss eine neue Matrix, welche die veränderte
Sensitivität bzw. Spezifität des Tests repräsentiert, bereitgestellt werden.
Man beachte jedoch, dass bei einem negativen Ausgang der
Mammographie für die oben gegebene Matrix P M Kr  die
Wahrscheinlichkeit des Vorliegens eines Krebses gleich 0 ist,
gleichgültig, wie oft zuvor eine positive Mammographie beobachtet wurde. Dies ergibt sich aus der Tatsache, dass die
Wahrscheinlichkeit des Auftretens einer positiven Mammographie bei Vorliegen von Brustkrebs gleich 0 ist.
Bemerkung:
Anstelle der wiederholten Aktualisierung der Posteriorverteilung kann man jeden Test als eigene Variable betrachten und
die Berechnung durchführen, indem die Verbundverteilung
über die Variable Kr und die n Tests M 1 , M 2 , , M n :
PKr , M 1 , M 2 , , M n 
gebildet wird, mit nachfolgender Berechnung der Marginalverteilung
PM 1 , M 2 ,, M n  ,
sowie der bedingten Verteilung:
P Kr M 1 , M 2 ,  , M n  .
Dies führt zum gleichen Ergebnis wie die wiederholte Aktualisierung der Posteriorverteilung (siehe Übung 3-6).
Im nächsten Beispiel ist die Zielverteilung nicht eine bedingte sondern
eine Marginalverteilung.
Bsp.2-12: Total evidence design (Shafer & Tversky, 1985)
Gegeben:
Wir befinden uns im Endspurt des Schwimmwettbewerbs
über 200m Freistil. In Führung liegt Kurt, dicht gefolgt von
Franz.
Max der Buchmacher berechnet für sich, wie wahrscheinlich
es ist, dass Kurt das Rennen gewinnen wird. Hierzu hat er folgende Hypothesen bezüglich der Leistung der beiden:
 Hypothesen über Kurts Leistung:
38
Anhang
0.85
0.03

PK   
0.07


0.05
K1 : Kurt hält seine derzeitige Geschwindigkeit
K 2 : Kurt verringert seine Geschwindigkeit um weniger als 3%
K 3 : Kurt verringert seine Geschwindigkeit um mehr als 3%
K 4 : Kurt kollabiert am Ende
 Hypothesen über Franzens Leistung:
 0.1 F1 : Franz erhöht Geschwindigkeit signifkant
P F   0.7  F2 : Franz hält seine Geschwindigkeit
0.2  F3 : Franz kann die Geschwindigkeit nicht halten
Weiters hat er die folgend bedingte Wahrscheinlichkeitsverteilung, dass Kurt gewinnt, gegeben die in den beiden Hypothesen gegebene Möglichkeiten:
F1 F3 F3
K1 0.5 1.0 1.0 


PKurt gewinnt K , F   K 2 0.2 1.0 1.0 
K 3 0.2 0.7 0.8


K 4 0.0 0.0 0.5
Bemerkung:
Die Wahrscheinlichkeitsverteilung P Franz gewinnt K , F 
ergibt sich aus P Kurt gewinnt K , F  , indem jeder Eintrag
dieser Matrix jeweils von 1.0 subtrahiert werden. Die Wahrscheinlichkeitsverteilung P Franz gewinnt K , F  wird jedoch
zur Berechnung der Wahrscheinlichkeit, dass Kurt gewinnt
nicht benötigt.
Max berechnet nun zuerst die Verbundverteilung:
P Kurt gewinnt , K , F   P Kurt gewinnt K , F   PK   PF 
Beachte:
Er nimmt hierbei an, dass die Leistungen von Kurt und Franz
voneinander unabhängig sind, d.h.
P K , F   P K   P  F 
Hieraus ermittelt er durch Marginalisieren:
PKurt gewinnt    PKurt gewinnt , K , F 
K ,F
die Wahrscheinlichkeit: P Kurt gewinnt   0.887 .
Bemerkung:
In diesem Beispiel wurden nur die Operation der Kombination
und der Marginalisierung angewendet. Die Operation der
Konditionierung wurde nicht benötigt.
39
Anhang
Im abschliessenden Beispiel ist eine Verbundverteilung gegeben. Daher
wird die Operation der Kombination nicht benötigt. Es wurde jedoch
bereits im Abschnitt 2.1.1 darauf hingewiesen, dass die Verbundverteilung oft nicht direkt Aufschluss über bestimmte Zusammenhänge gibt,
auch wenn sie die gesamte Wahrscheinlichkeitsinformation enthält.
Bsp.2-13: Scheidung bei ausserehelichem Sex von Männern
und Frauen (Agresti, 1990)
Gegeben:
Die Verbundverteilung der folgenden Variablen (Tab. 2-6):
G: Geschlecht
VX: Vorehelicher Sex
AX: Ausserehelicher Sex
S: Scheidung
Scheidung (S)
Geschlecht Vorehelicher Ausserehelicher
(G)
Sex (VX)
Sex (AX)
Frau
Ja
Nein
Mann
Ja
Nein
Ja
Nein
Ja
Nein
Ja
Nein
Ja
Nein
Ja
Nein
0.016
0.052
0.035
0.207
0.027
0.058
0.016
0.066
0.004
0.024
0.004
0.311
0.011
0.041
0.004
0.125
Tab. 2-6: Verbundverteilung der Variablen Geschlecht, Vorehelicher Sex, Ausserehelicher Sex und Scheidung
(nach Agresti, 1990, Seite 219).
Uns interessiert die Frage, ob Frauen und Männer bei Vorliegen von ausserehelichem Sex unterschiedliche Tendenzen zur
Scheidung der Ehe aufweisen.
Mit Hilfe der Verbundverteilung ist diese Frage nicht direkt
zu beantworten. Geeignet zur Beantwortung der Frage ist die
bedingte Verteilung: P S AX  ja, G  .
Bildet man die bedingte Verteilung PS AX , G  , so kann man
die relevanten Wahrscheinlichkeiten dieser Tabelle entnehmen.
Diese Verteilung PS AX , G  lässt sich in drei Schritten berechnen:
40
Anhang
1. Bildung der Marginalverteilung:
PS , AX , G    PS ,VX , AX , G  .
VX
2. Bildung der Marginalverteilung:
P AX , G    PS , AX , G  .
S
3. Bildung der bedingen Verteilung:
PS , AX , G 
PS AX , G  
P AX , G 
Aus dieser Verteilung lässt sich nun in einfacher Weise die
gewünschte bedingte Verteilung P S G, AX  ja  ablesen
(vgl. Tab. 2-7).
Scheidung (S)
Geschlecht (G)
Ja
Nein
Frau
Mann
0.869
0.750
0.131
0.250
Tab. 2-7: Bedingte Verteilung P S G, AX  ja  .
Tab. 2-7 macht deutlich dass die Scheidungsrate bei Vorliegen von ausserehelichem Sex bei Frauen höher ist als bei
Männern.
Dies wird auch durch den hohen Wert von Yules Q (0.377)
bestätigt.
Damit beenden wir unsere Ausführungen über die Grundlagen der
Wahrscheinlichkeitsrechnung.
2.4 Zusammenfassung
Die folgenden Konzepte und Operationen wurden in diesem Anhang
behandelt:
 Gemäss der maßtheoretischen Konzeption der Wahrscheinlichkeit
handelt es sich beim Konzept der Wahrscheinlichkeit um ein normiertes, additives Maß, ähnlich wie die Konzepte Länge oder Fläche.
 Die frequentistische Konzeption von Wahrscheinlichkeit betrachtet
diese als eine relative Häufigkeit in unendlich langen Zufallssequenzen.
 Gemäss der subjektivistischen Konzeption betreffen Wahrscheinlichkeiten subjektive Gewissheiten, die der Konsistenz wegen den
Regeln der Wahrscheinlichkeitsrechnung gehorchen müssen.
 Es lassen sich drei Arten von Wahrscheinlichkeitsverteilungen unterscheiden: (a) die Verbundverteilung, (b) die Marginalverteilung
und (c) die bedingte Verteilung.
Anhang
41
 Die Verbundverteilung gibt für jede Kombination von Werten deren
Wahrscheinlichkeit. Sie enthält die gesamte Wahrscheinlichkeitsinformation.
 Die Marginalverteilung basiert gegenüber der vollen Verbundverteilung nur noch auf einem Teil der Variablen, deren (marginale)
Verbundverteilung sie repräsentiert.
 Die bedingte Verteilung repräsentiert die Verteilung einer Gruppe
von Variablen, gegeben eine andere Gruppe von Variablen.
 Zwei Variablen X und Y sind stochastisch unabhängig, falls die
bedingte Verteilung von X gegeben Y der Marginalverteilung von X
entspricht oder – äquivalent – falls die Verbundverteilung von X und
Y dem Produkt der Marginalverteilungen entspricht.
 Zur Überführung der verschiedenen Arten von Verteilungen existieren drei Operationen: (a) Die Kombination von Wahrscheinlichkeitsinformation, (b) die Marginalisierung und (c) die Konditionierung. Alle Wahrscheinlichkeitsschlüsse bestehen in einer Abfolge
dieser drei Operationen.
 Die Operationen der Kombination und Konditionierung ergeben
sich aufgrund der Definition der bedingten Wahrscheinlichkeit,
während die Operation der Marginalisierung direkt aus der dritten
Maßaxiom (Additivität von Wahrscheinlichkeiten disjunkter Mengen) folgt.
42
Anhang
3. Übungen
Übung 3-1: Wahrscheinlichkeiten I:
Ein Flugzeug besitze 1000 kritische Teile, d.h. es stürzt ab,
falls mindestens einer dieser Teile ausfällt.
Die Wahrscheinlichkeit, dass ein Teil ausfällt, betrage p =
1/1000 (identisch für alle Teile).
Wie gross ist die Wahrscheinlichkeit, dass das Flugzeug
abstürzt, weil mindestens ein Teil ausfiel?
Übung 3-2: Wahrscheinlichkeiten II:
Beweise: P  A B   P  A  P B A  P B 
In Worten: A ist von B unabhängig gdw. (genau dann wenn) B
ist von A unabhängig.
Es wird vorausgesetzt, dass P  A  0 und PB   0 .
Übung 3-3: Wahrscheinlichkeiten III:
Zeige, dass die Gleichung:
P  X , Y Z   P  X Z   P Y Z 
(2-6)
Aus der Definition der bedingten stochastischen Unabhängigkeit:
PX Y , Z   PX Z 
(2-4)
folgt.
Übung 3-4: Wahrscheinlichkeiten IV:
Zeige die Gültigkeit der folgenden Gleichung:
P  A, B C   P A B, C   P B C 
Übung 3-5: Wahrscheinlichkeiten V:
Verwende die Daten von Tab. 2-6 (Bsp.2-13) zur Beantwortung der beiden folgenden Fragen:
(i) Unterscheiden sich Männer und Frauen bezüglich der
Scheidungsraten?
Gesucht ist also die bedingte Verteilung: P S G .
(ii) Ist die Scheidungsrate bei Vorliegen von ausserehelichem
Sex abhängig von der Variable vorehelicher Sex?
Gesucht ist also die bedingte Verteilung:
P S VX , AX  ja  .
43
Anhang
Übung 3-6: Wahrscheinlichkeiten VI:
Verwende die Daten von Bsp.2-10 und berechne die bedingte
Verteilung PKr M 1 , M 2  , d.h. der Wahrscheinlichkeit des
Vorliegens einer Krankheit bei 2-maliger Durchführung der
Mammographie.
Nimm hierbei an, dass die beiden Tests unabhängig sind, d.h.
P M 1 , M 2 Kr   P M 1 Kr  PM 2 Kr  .
Hinweis:
Bei den Tabellen der bedingten Verteilungen P M 1 , M 2 Kr 
und der Verbundverteilung P M 1 , M 2 , Kr  handelt es sich um
4  2 Tabellen, mit den Kombinationen der Ergebnisse der
Mammographie {++, +, +, } als Zeilen und dem
Vorliegen bzw. der Abwesenheit der Krankheit als Spalten.
Die Marginaltabelle PM 1 , M 2  ist folglich ein 4  1 Spaltenvektor.
44
Anhang
4. Literatur
Agresti, A. (1990). Categorical data analysis. New York: Wiley.
Eddy, D. M. (1982). Probabilistic reasoning in clinical medicine:
Problems and opportunities. In D. Kahneman, P. Slovic, & A.
Tversky (Eds.), Judgement under uncertainty: Heuristics and
biases (pp. 249-267). Cambridge, England: Cambridge
University Press.
Kolmogorov, A. N. (1933). Grundbegriffe der Wahrscheinlichkeitsrechnung. Berlin: Springer, Berlin, 1933.
Lauritzen, S. L., & Spiegelhalter, D. J. (1988). Local computation with
probabilities on graphical structures and their applications to
expert systems (with discussion). Journal of the Royal
Statistical Society, Series B, 50, 157-224.
Neapolitan, R. E. (1990). Probabilistic reasoning in expert systems:
Theory and algorithms. New York: Wiley.
Neapolitan, R. E. (2004). Learning in Bayesian Networks. Upper
Saddle River, NJ: Prentice Hall.
Popper, K. R. (1989). Die Logik der Forschung (9. Auflage).
Tübingen: Mohr (Erste Auflage 1935).
Shafer, G., & Tversky, A. (1985). Languages and designs for
probability judgments. Cognitive Science, 9, 309-339.
Shafer, G., & Vovk, V. (2005). The origins and legacy of Kolmogorov's Grundbegriffe. Available from:
http://www.probabilityandfinance.com/articles/04.pdf
Von Mises, R. (1972). Wahrscheinlichkeit, Statistik und Wahrheit (4.
Auflage). Wien: Springer. (Erste Auflage 1928).