Seminararbeit

Werbung
Technische Universität Wien
Seminar Finanz- und Versicherungsmathematik
Seminararbeit
Philosophische Theorien der Wahrscheinlichkeit
Wintersemester 2013/2014
eingereicht von:
Stephanie Schmid
(1125764)
eingereicht am:
26. Februar 2014
Betreuer:
Herr Dipl.-Ing. Dr.techn. Stefan Gerhold
Inhaltsverzeichnis
1 Einleitung
1.1 Überblick über die Philosophien . . . . . . . . . . . . . . . . . . . . . . . . . .
1.2 Geschichtlicher Hintergrund . . . . . . . . . . . . . . . . . . . . . . . . . . . .
3
3
4
2 Klassische Theorie
5
3 Logische Theorie
3.1 Wahrscheinlichkeit als logische Relation
3.2 Das Indifferenzprinzip . . . . . . . . . .
3.3 Paradoxon . . . . . . . . . . . . . . . . .
3.4 Änderung und Weiterentwicklung . . . .
.
.
.
.
6
7
8
9
10
.
.
.
.
.
10
11
11
13
14
15
.
.
.
.
.
17
17
18
18
19
20
6 Propensitätstheorie
6.1 Poppers Vorstellung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
6.2 Objektive Wahrscheinlichkeiten für einzigartige Ereignisse . . . . . . . . . . .
21
21
22
7 Schlussworte
24
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
4 Subjektive Theorie
4.1 Ramseys Kritik an Keynes . . . . . . . . . . . . . . . . . .
4.2 Subjektive Grundlagen . . . . . . . . . . . . . . . . . . . .
4.3 Vergleich mit der logischen Theorie . . . . . . . . . . . . .
4.4 Objektive Wahrscheinlichkeiten in der subjektiven Theorie
4.5 Kritik, Vergleich und das Rot-Blau-Spiel . . . . . . . . . .
5 Frequenztheorie
5.1 Wahrscheinlichkeitstheorie als Wissenschaft . . . . .
5.2 Empirische Wahrscheinlichkeitsgesetze . . . . . . . .
5.3 Definition der Wahrscheinlichkeit als Grenzfrequenz
5.4 Das Zufallsproblem . . . . . . . . . . . . . . . . . . .
5.5 Verbindung der Axiome . . . . . . . . . . . . . . . .
2
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
1
Einleitung
Es gibt einen bemerkenswerten Unterschied zwischen den verschiedenen philosophischen Theorien der Wahrscheinlichkeit. In dieser Seminararbeit möchte ich vier verschiedene Theorien
erklären und ihre Unterschiede aufzeigen. Obwohl sie im mathematischen Sinne meist übereinstimmen, so ist die Auffassung, was denn Wahrscheinlichkeit ist, eine unterschiedliche.
1.1
Überblick über die Philosophien
1. Logische Theorie
Diese Theorie identifiziert Wahrscheinlichkeit mit dem Grad rationalen, vernünftigen
Glaubens. Unter dem gleichen Vorwissen werden alle logisch denkenden Menschen die
gleiche Wahrscheinlichkeit schätzen.
2. Subjektive Theorie
In diesem Falle wird nicht angenommen, dass alle Menschen die gleichen Ansichten
über Wahrscheinlichkeit haben. Wahrscheinlichkeit definiert sich durch den Glauben
eines jeden einzelnen Menschen. Unterschiedliche Meinungen über dieselbe Sachlage
sind erlaubt.
3. Häufigkeitstheorie
Wahrscheinlichkeit ist die Grenzhäufigkeit, mit der ein Ausgang in einer langen Folge
von gleichen Ereignissen auftritt.
4. Propensitätstheorie
Verwendet Wahrscheinlichkeit als die einem Satz von wiederholbaren Ereignissen innewohnende Neigung. Sagt man, die Wahrscheinlichkeit eines Ausganges ist p, dann hat
eine Menge von wiederholbaren Ereignissen, bei oftmalige Wiederholung der Ereignisse,
die Tendenz eine Häufigkeit des Ausgangs nahe bei p zu haben.
Die meisten Philosophen stimmen darin überein, dass man die verschiedenen Interpretationen in zwei größere Gruppen teilen kann. Die eine wird oft als epistemologisch, also
wissenschaftlich und erkenntnistheoretisch, bezeichnet, während die andere objektiv, also
sachgerecht oder zielorientiert, genannt wird. Der Unterschied zwischen diesen Gruppen ist
folgender: Die epistemologische Interpretation setzt Wahrscheinlichkeit in Verbindung mit
dem Wissen des Menschen. Mit diesem Zugang ist Wahrscheinlichkeit also eine Art Messung
des Wissensstandes oder des rationalen Glaubens in eine Sache. In diese Kategorie fallen die
logische und die subjektive Theorie. Im Gegensatz dazu begreift die objektive Interpretation Wahrscheinlichkeit als eine Eigenschaft der realen, materiellen Welt, die nichts mit dem
Wissen oder Glauben des Menschen zu tun hat. Man sieht, dass die Häufigkeit- und die Propensitätstheorie objektive Theorien sind. Um diese Unterschiede zu verdeutlichen, möchte ich
ein Beispiel anführen:
Beispiel
Ein in der Literatur oft genanntes Beispiel ist die Wahrscheinlichkeit des Zerfalles eines bestimmten Uraniumisotops in einem Jahr. Diese Wahrscheinlichkeit existiert unabhängig vom
3
Wissen des Menschen, der von ihr weiß oder eben nicht. Sie existiert also als objektive Eigenschaft der physikalischen Welt. In der Tat gab es diese Wahrscheinlichkeit schon bevor
der Mensch die Welt überhaupt betrat. In der epistemologische Erklärung gehört nun Wahrscheinlichkeit zum Menschen und seinem Glauben oder Wissen. Die objektive Interpretation
trennt dies, löst Wahrscheinlichkeit vom menschlichen Wissen und nimmt sie als Eigenschaft
der materiellen Welt an.
1.2
Geschichtlicher Hintergrund
17. Jahrhundert
Die Anfänge der mathematischen Wahrscheinlichkeitsrechnung werden im Allgemeinen mit
dem Briefwechsel zwischen Pascal und Fermat im Jahre 1654 datiert. Es hatte zuvor zwar
schon Überlegungen über verschiedene Spielwahrscheinlichkeiten gegeben, zum Beispiel von
Galileo oder Cardano, diese wurden aber immer nur als Spezialfälle betrachtet. Erst dieser
Briefwechsel setzt den Startpunkt zum systematischen Studium und der Entwicklung der
Wahrscheinlichkeitstheorie.
Teilungsproblem
Um einen Einblick zu verschaffen, mit welchen Problemen sich Pascal und Fermat beschäftigt
haben, möchte ich ein berühmtes, von Pascal gestelltes Problem aufgreifen: das Teilungsproblem. Hierbei sollen drei Spieler um einen gewissen Einsatz spielen. Derjenige, der als erster
eine bestimmte Anzahl von Spielen gewonnen hat, soll den gesamten Einsatz erhalten. Aus
irgendeinem Grund muss das Spiel jedoch unterbrochen werden, wenn der erste Spieler noch
ein Spiel und der zweite und dritte noch zwei Spiele gewinnen müssen, um den gesamten
Einsatz zu erhalten. Dieses Problem lässt sich nun sehr einfach mit Fermats Kombinationsmethode lösen. Schreibt man die Buchstaben a, b und c für einen Gewinn des ersten, zweiten
beziehungsweise dritten Spielers, so muss man nur alle 27 Kombinationsmöglichkeiten der
drei Buchstaben aufschreiben. Sucht man dann diejenigen Spiele heraus, bei denen der erste,
zweite oder dritte Spieler gewinnt, erhält man deren Anteile. Pascal fing bei diesem Problem
richtig an, bekam jedoch durch eine gewisse Verwirrung die Lösung 16 : 51/2 : 51/2. In seiner Antwort korrigiert Fermat Pascals Fehler indem er ihn darauf hinweist, dass beim Sieg
eines der Spieler die nachfolgenden Spiele nicht zu zählen sind. Dadurch kommt man auf ein
Ergebnis von 17 : 5 : 5.
Antikes Griechenland
Die Entwicklung der Wahrscheinlichkeitstheorie im 17. Jahrhundert lässt die Frage offen,
warum sich nicht schon die antiken Griechen mit dem Thema beschäftigt haben. Ich möchte
diese Frage nun in zwei Punkten erläutern:
1. Mathematik
2. regelmäßige Würfel
Zum ersten Punkt, der Mathematik, ist zu sagen, dass die Griechen sicherlich hervorragende Mathematiker waren mit Spezialisierung in die Geometrie. Wahrscheinlichkeitstheorie
benötigt aber Arithmetik und Algebra - genau diejenigen Gebiete, die die Griechen vernachlässigten. Die Griechen hatten außerdem ein schlechtes System um Zahlen darzustellen
4
und um arithmetische Rechenoperationen durchzuführen. Die Mathematiker im 17. Jahrhundert hatten bereits das moderne arabisch/indische Dezimalsystem. Die Griechen waren
sowohl leidenschaftliche Spieler als auch ausgezeichnete Mathematiker, ihre Mathematik war
aber nicht dafür geeignet, Spielausgänge zu errechnen.
Ein weiterer wichtiger Faktor der gegen die Entwicklung der Wahrscheinlichkeitstheorie
arbeitete, war der Würfel selbst. Die ersten Problemstellungen in der Wahrscheinlichkeitstheorie rührten vom Spiel mit regelmäßigen Würfeln her. Die Annahme, dass alle Würfelseiten
gleich wahrscheinlich sind, war ausschlaggebend für die Kombinationsmethode, die daraus
besteht alle favorisierten Ausgänge durch alle möglichen Ausgänge zu dividieren. Diese Methode konnte nicht auf einen irregulären Würfel angewendet werden. Die Spiele in der antiken
Welt wurden jedoch nicht mit einem Würfel im modernen Sinne gespielt, sondern mit Tierknochen. Diese machten es unmöglich von einer Gleichverteilung der Wahrscheinlichkeiten
zu sprechen. Das führte dazu, dass man weder die Kombinationsmethode anwenden konnte,
noch irgendeine andere Theorie zur Wahrscheinlichkeit aufstellen konnte.
Man kann argumentieren, dass sowohl die Griechen, als auch die Römer Münzen hatten,
mit denen man allgemeine Wahrscheinlichkeitsrechnung hätte starten und betreiben können.
Allerdings wurden bis ins siebzehnte Jahrhundert sämtliche frühen Wahrscheinlichkeitsrechnungen mit dem Würfeln in Verbindung gebracht. Dies geschah ohne Zweifel deswegen, weil
bekannte Glücksspiele mit Würfeln gespielt wurden.
2
Klassische Theorie
Wenn es wirklich richtig ist, dass die Unregelmäßigkeit der Würfel die Entwicklung der
Wahrscheinlichkeitstheorie verhinderte, so gibt dies eine historische Begründung für die erste hier vorgestellte Theorie: die klassische Theorie der Wahrscheinlichkeit. In dieser Theorie
basiert Wahrscheinlichkeit auf der Annahme der gleich wahrscheinlichen Ausgänge.
Die klassische Theorie war ein Produkt der Aufklärung und beinhaltet die in jener Zeit
entstandene Newtonsche Mechanik und in deren Folge den Glauben an den universellen Determinismus. In ≫Philosophical Essay on Probabilities≪ von 1814 veröffentlicht Laplace eine
berühmte Beschreibung über den universellen Determinismus: den Laplaceschen Dämon. Die
Idee dahinter ist, dass ein intelligentes Wesen durch die Newtonsche Mechanik die zukünftigen
Wege von Planeten und Kometen errechnen kann. In Erweiterung dieses Erfolges, war es nur
natürlich, ein Wesen mit genügend großer Intelligenz anzunehmen, welches den Verlauf des
gesamten Universums errechnen kann.
In einem vollkommen deterministischen System kann Wahrscheinlichkeit nicht in der objektiven Natur liegen, sondern ist relativ zur menschlichen Ignoranz oder Unwissenheit. Angenommen in einer bestimmten Situation gibt es drei mögliche Ausgänge, nennen wir sie A,
B und C, dann muss durch den universellen Determinismus einer dieser drei Ausgänge, sagen
wir zum Beispiel A, eintreffen. Wenn wir Menschen jedoch nicht genug über Naturgesetze
oder bestimmte Umstände, oder beides, wissen, dann ist es uns nicht möglich zu entscheiden,
welche der drei Möglichkeiten eintreffen wird.
Angenommen es gäbe n solcher Situationen und m von diesen sind unser favorisierter
Ausgang A. Dann gilt für die Wahrscheinlichkeit von A:
P(A) = m/n.
Dies ist die klassische Definition der Wahrscheinlichkeit, basierend auf der Annahme,
5
dass die einzelnen Ausgänge gleich wahrscheinlich sind. Problematisch wird es, sobald wir es
mit verfälschten, also unfairen Münzen oder Würfel zu tun haben. Tatsächlich scheint es in
der klassischen Theorie keine Möglichkeit zu geben, mit einer unfairen Münze umzugehen.
Dennoch möchte man diese Möglichkeit nicht ausschließen. Laplace, einer der Gründer und
Verfechter der klassischen Theorie, verwendet für die Situation eines verfälschten Münzwurfs
für Kopf die Wahrscheinlichkeit (1+λ)/2 und für Zahl (1−λ)/2 und rechnet mit diesen Werten.
Eigenartigerweise folgt daraus die Existenz einer objektiven, möglicherweise unbekannten,
Wahrscheinlichkeit mit einer bestimmten Münze Kopf zu bekommen. Dies steht aber im
Widerspruch zu Laplaces eigener Sicht von Wahrscheinlichkeit, die besagt Wahrscheinlichkeit
sei ein Maß menschlicher Unwissenheit.
Daraus entwickelte sich die subjektive Theorie, die Wahrscheinlichkeit als Grad des Glaubens interpretiert und die logische Theorie, die Wahrscheinlichkeit als Grad rationalen Glaubens sieht. Da aber zu diesem Zeitpunkt alle Wahrscheinlichkeitstheoretiker in irgendeiner
Weise an den universellen Determinismus glaubten, ist es schwer, Wahrscheinlichkeit als etwas anderes zu sehen als menschliche Ignoranz.
Beispielsweise kann eine Person, die über die Verfälschung, nicht aber über die Neigung
einer Münze informiert ist, gefragt werden, welche Wahrscheinlichkeit wohl Kopf hat. Falls
sie den epistemologischen Ansatz für den richtigen hält, so wird sie P(Kopf ) =½ antworten,
weil sie die Schieflage einfach ignoriert. Ist ihre Ansicht jedoch objektiver Natur, so antwortet
sie P(Kopf ) = p, wobei 0 = p = 1 und p sonst unbekannt ist, bis auf die Tatsache, dass p 6=½.
Wie man sieht, ist die Behandlung von Fällen mit ungleichen Wahrscheinlichkeiten nicht
befriedigend gelöst. Solange Wahrscheinlichkeitstheorie nur mit regelmäßigen Würfeln, fairen
Münzen und gut gemischten Karten zu tun hatte, war die klassische Theorie eine ideale Basis.
Von der Mitte des 19. Jahrhunderts an wurde Wahrscheinlichkeitstheorie jedoch immer mehr
auch in Naturwissenschaften, wie der Biologie oder der Physik, oder der Wirtschaft angewandt. Dort sind die alten Annahmen der gleichen Wahrscheinlichkeit nicht mehr gegeben.
Im folgenden Kapitel werde ich nun die erste der im 20. Jahrhundert eingeführten Ansicht
über Wahrscheinlichkeitstheorie erklären: die logische Theorie. Sie ist der klassischen Theorie
am ähnlichsten.
3
Logische Theorie
In den ersten Jahrzehnten des 20. Jahrhunderts entwickelte sich die logische Theorie der
Wahrscheinlichkeit hauptsächlich in Cambridge. Zwei bekannte Vertreter dieser Theorie waren Keynes und Russell. Sie und natürlich auch andere Philosophen versuchten die Mathematik zu reduzieren, bis nur mehr Logik und die von ihr genutzten formalen Axiome als
eine Art selbstevidentes System entstünde. Mit diesem System wäre es möglich, sämtliche
mathematischen Sätze zu beweisen. Ein wichtiges Theorem in der logischen Theorie ist das
Indifferenzprinzip, das ich später in diesem Kapitel näher erörtern werde. Um eine Ahnung
davon zu bekommen, was dieses Prinzip erreichen möchte, gebe ich hier ein kleines Beispiel:
Beispiel
Nehmen wir an, wir müssen uns zwischen der Durchführung zweier Aktionen A und B entscheiden. Wir können uns sicher sein, dass innerhalb kurzer Zeit der von A produzierte Nutzen
größer sein wird als jener von B. Auf längere Sicht gesehen haben wir allerdings keine Gewissheit über die Produktivität von A und B. Damit sind folgende Möglichkeiten möglich: (a) der
6
von A produzierte Nutzen wird größer sein als jener von B oder (b) der von B produzierte
Nutzen wird, auf lange Sicht gesehen, den von A übersteigen. Wenn dies gegeben ist, können
wir den Ausgängen (a) und (b) die gleiche Wahrscheinlichkeit zuordnen. Unser Wunsch, den
erwarteten Nutzen zu maximieren, führte uns zu Aktion A. Die allgemeine Lösung ist, dass
wir Aktionen durchführen sollten, die uns den größten Nutzen in kurzer Zeit bringen, auch
wenn es gegen moralische Konventionen verstößt.
3.1
Wahrscheinlichkeit als logische Relation
Im Falle der folgernden Logik, der Deduktion, ist die Lösung nur durch Prämissen festgelegt.
Ist zum Beispiel unsere Prämisse, dass alle Raben schwarz sind und Hannes ein Rabe ist, so
folgt unweigerlich, dass auch Hannes schwarz ist. Betrachten wir aber nun einen eher induktiven als schlussfolgernden Fall: Angenommen unsere Voraussetzung ist die Beobachtung einiger
Tausend Raben, die ergab, dass diese Raben schwarz sind. Dann ist unser Hypothese, dass alle
Raben schwarz sind und wir erstellen die Prognose, dass der nächste zu sehende Rabe schwarz
sein wird. Aus der modernen Logik folgt, dass weder die Hypothese noch die Prognose zwingend aus der Voraussetzung folgen. Die Frage lautet jetzt jedoch, ob wir sagen können, dass
die Voraussetzungen zumindest teilweise die Prognose und Hypothese unterstützen. Dieser
Gedanke suggeriert, dass es eine logische Theorie einer teilweisen Folgerung gibt, die eine verallgemeinerte Theorie der vollständigen Schlussfolgerung, wie sie in der Deduktion gefunden
wird, darstellt.
Dies ist der Punkt an dem Keynes beginnt, sich mit der Wahrscheinlichkeitstheorie zu
beschäftigen. Für ihn gibt es eine Verbindung zwischen einem Satz von Voraussetzung und
einem anderen Satz von Folgerungen. (Man verstehe hier den Ausdruck ”Satz”nicht als mathematische Aussage, sondern eher als ein Bündel von Objekten.) Dieser Zusammenhang
wird durch die Stichhaltigkeit der Begründung gewichtet. Man kann dies als eine Wahrscheinlichkeitsbeziehung bezeichnen. Also ist hier Wahrscheinlichkeit ein Grad der partiellen
Abhängigkeit. Zu Beginn scheint es einen Konflikt mit unserem gewöhnlich gebrauchten Konzept der Wahrscheinlichkeitstheorie zu geben, bei dem wir oft nur über die Wahrscheinlichkeit
verschiedener Ausgänge sprechen. In den Fällen, wo dies möglich ist, verwendet Keynes auch
die normale Wahrscheinlichkeitstheorie.
Bis jetzt ist die Wahrscheinlichkeitsrelation also als ”Grad der Teilfolgerung”beschreiben.
Keynes gibt aber noch eine andere Darstellung:
Wenn unsere Prämissen aus einem Satz von Behauptungen B bestehen, unsere Folgerungen
aus Aussagen A und falls ein Wissen W den Glauben an A mit einem Grad α rechtfertigt, so
gibt es eine Wahrscheinlichkeitsrelation zwischen B und A mit dem Grad α.
Hier folgt, dass, wenn B A teilweise induziert und zwar mit einem Grad von α, dann ist es
bei gegebenem B vernünftig mit einem Grad α an A zu glauben. Das identifiziert den Grad
der teilweisen Folgerung mit dem Grad rationalen Glaubens.
Dieser Zusammenhang scheint anfangs plausibel, wird aber unter anderem von Popper in
Frage gestellt. Eines seiner Argumente dabei ist folgendes: Nehmen wir an, wir haben eine
begrenzte Anzahl von Belegen und eine Verallgemeinerung die auf eine vielleicht unendliche
Anzahl von Aussagen führt. (Man veranschauliche sich dies wieder mit dem oben angeführten
Beispiel der Raben.) Nun kann B, bildlich gesprochen, im Vergleich zu A infinitesimal werden
und damit auch der Grad, in dem A aus B teilweise gefolgert werden kann. Popper argumentiert weiter, dass, obwohl der Grad, mit dem eine endliche Anzahl von Behauptungen
auf eine generelle Verallgemeinerung führt, gleich null ist, es sehr wohl möglich ist, einen
7
Grad rationalem Glaubens ungleich Null an eine allgemeine Behauptung bei nur endlichen
Beobachtungen zu haben.
Um dieses Problem zu lösen, geht Popper einen anderen Weg um die Theorien zu verbinden: Er identifiziert den Grad rationalen Glaubens mit dem von ihm sogenannten ”Grad der
Bekräftigung” oder ”Grad der Bestätigung”. Kurz gesagt meint dies, dass, obwohl wir immer
mehr über allgemeine Gesetzmäßigkeiten wissen, ihre Wahrscheinlichkeit nicht zunimmt. Man
kann einige davon testen, bestätigen und damit den ”Grad der Bestätigung” erhöhen, ohne
ihre Wahrscheinlichkeit zu verändern, die bei Null bleibt.
Ich möchte hier nicht näher auf Poppers Argumentationen eingehen, sondern mich weiter
mit Keynes’ Ansatz beschäftigen. Es stellt sich nämlich die Frage, wie wir Wissen über diese logischen Relation erlangen und wie die Wahrscheinlichkeitsaxiome unter diesem Ansatz
eingeführt werden können. Hier schließt sich Keynes den Ansichten Russells an. Für diesen
ist ein gewisses Wissen sofort vorhanden oder uns vertraut. Seine Ansichten darüber, was
wir so wissen können, variieren, beinhalten jedoch immer unsere unmittelbare Sinneswahrnehmung. Der Rest unseres Wissens ist das Wissen durch Beschreibung, das wiederum auf
bekanntem Wissen basiert. Also wissen wir zumindest ein wenig über die Wahrscheinlichkeitsrelation durch bekanntes Wissen und unserer daraus resultierenden logischen Intuition. Wir
gelangen somit durch unser Wissen von B zum Wissen über A durch Nutzung der logischen
Verbindung, die zwischen ihnen besteht.
Doch für Keynes ist der Grad rationalen Glaubens nicht nur ein Grad des Glaubens.
Er beschreibt Wahrscheinlichkeit im Sinne der Logik, nicht subjektiv. Sie hängt sozusagen
nicht von der menschlichen Willkür ab. Eine Aussage ist nicht wahrscheinlich, nur weil wir
das denken. Wenn die Fakten, die unser Wissen festlegen, einmal sachlich fixiert sind, dann
hängt es nicht mehr von unserer Meinung ab, was wahrscheinlich oder unwahrscheinlich ist.
Die Wahrscheinlichkeitstheorie, so Keynes, ist logisch. Dies wird damit begründet, dass sie
in Verbindung mit dem Grad rationalen Glaubens in gegebenen Umständen steht und nicht
mit dem Glauben eines bestimmten Individuums, der nicht zwingendermaßen rational sein
muss. Man darf in Keynes Erklärung den Ausdruck ”objektiv ”nicht in dem Sinne verstehen,
dass er sich auf die materielle Welt bezöge. Er meint Objektivität im Platonischen Sinne,
bezugnehmend auf etwas in einer vermuteten Platonischen Welt von abstrakten Ideen.
Gehen wir nun im nächsten Abschnitt noch einmal darauf ein, wie man Wahrscheinlichkeit
als Grad rationalen Glaubens messen kann.
3.2
Messbare und nicht messbare Wahrscheinlichkeiten:
das Indifferenzprinzip
In der üblichen mathematischen Behandlung von Wahrscheinlichkeit haben alle Wahrscheinlichkeiten einen numerischen Wert im Intervall [0, 1]. Keynes seinerseits denkt nicht, dass
sämtliche Wahrscheinlichkeiten einen numerischen Wert haben. Im Gegenteil: Einige Wahrscheinlichkeiten sind nicht einmal vergleichbar. Haben wir also zwei Wahrscheinlichkeiten,
so können verschiedene Situationen auftreten. Im ersten Fall haben beide einen numerischen
Wert. Es kann auch passieren, dass, obwohl es uns vielleicht nicht möglich ist, beiden Wahrscheinlichkeiten einen numerischen Wert zuzuweisen, wir im Stande sind, zu sagen, dass die
eine größer ist als die andere. In anderen Fällen könnte uns das nicht möglich sein. Also sind
Wahrscheinlichkeiten nicht linear geordnet. Es gibt jedoch eine spezielle Art von Teilordnung
die in Abbildung 1 illustriert ist.
O repräsentiert Unmöglichkeit, I Gewissheit und A eine numerisch messbare Wahrschein8
Abbildung 1: Partielle Ordnung der Wahrscheinlichkeiten
lichkeit zwischen O und I. U, V, W, X, Y, Z seien nicht-numerische Wahrscheinlichkeiten,
wobei V kleiner als die numerische Wahrscheinlichkeit A und auch kleiner als W, X und Y
ist. X und Y sind beide größer als W und auch größer als V, sind aber nicht miteinander oder
mit A vergleichbar. Auch V und Z sind nicht miteinander vergleichbar, beide jedoch kleiner
als W, X und Y. U ist quantitativ nicht vergleichbar mit V, W, X, Y, Z.
Wie man sieht ist Keynes’ Position zur Wahrscheinlichkeit nicht für die Entstehung einer mathematischen Wahrscheinlichkeitstheorie geeignet. Außerdem passt sie kaum mit der
intuitiven Idee von Wahrscheinlichkeit zusammen.
Doch beschränken wir uns nun auf jene Fälle, in denen man Wahrscheinlichkeit numerisch
messen kann. Dafür muss man fähig sein, zu beurteilen, ob die möglichen Ausgänge gleich
wahrscheinlich sind. Um dies zu können, braucht man wiederum das sogenannte Indifferenzprinzip. Dieses wurde schon von Bernoulli und Laplace verwendet. Es wird auch das Prinzip
des unzureichenden Grundes genannt.
Anschaulich besagt das Indifferenzprinzip, dass es ohne bekannten Grund für die Bevorzugung einer Aussage zu ihren Alternativen, und wenn es keine andere Begründung dagegen
gibt, somit alle Alternativen gleich wahrscheinlich sind.
Das Indifferenzprinzip führt aber zu einer Reihe von Paradoxien.
3.3
Paradoxon des Indifferenzprinzips und mögliche Lösung
In diesem Abschnitt möchte ich ein weniger bekanntes, einfaches Paradoxon vorstellen und
einen Lösungsvorschlag bringen.
Es handelt sich dabei um das sogenannte Buch-Paradoxon. Man stelle sich ein Buch in
einem festgelegten Platz in einer Bibliothek vor. Weiters nehmen wir an, die Bibliothek, das
Buch und auch keine Kopie davon, je besucht bzw. gesehen zu haben. Also haben wir keine
Anhaltspunkte über die Farbe des Buches. Unter diesen Umständen haben wir nicht mehr
Grund anzunehmen das Buch sei rot, als es sei nicht rot. Damit haben wir mithilfe des
Indifferenzprinzips P (rot)=½. Analog sind P(blau), P(grün) und P(gelb) ebenfalls alle ½, was
aber gegen das Axiom widerspricht, dass die Summe alle Wahrscheinlichkeiten kleiner oder
kleiner gleich 1 ist.
9
Bei diesem Problem ist unsere Annahme in höchstem Maße anzuzweifeln. Die Alternative
nicht-rot kann weiter aufgeteilt werden in blau und nicht-(blau oder rot) und so weiter. Also
ist das Indifferenzprinzip nicht auf die Alternativen rot und nicht-rot anwendbar. Außerdem
scheint die Möglichkeit nicht-rot wahrscheinlicher zu sein als rot. Verallgemeinert kann man
sagen, dass das Indifferenzprinzip nur auf Fälle anwendbar ist, bei denen die Alternativen
endlich und unteilbar sind. Damit ist es nicht anwendbar, wenn eine der Alternativen, hier
zum Beispiel nicht-rot, in Unter-Alternativen derselben Form wie die andere, hier rot, teilbar
ist.
3.4
Änderung und Weiterentwicklung
Keynes ändert also sein Indifferenzprinzip insofern ab, als dass er es auf endliche, unteilbare
Alternativen einschränkt. Darauf folgt die Frage, was passiert, wenn es sich um einen kontinuierlichen Fall mit einem Parameter θ, der beliebig in einem Intervall [a, b] liegt, handelt. In
so einem Fall wird entweder angenommen, θ habe eine infinite Anzahl von Werten oder, wenn
wir die Intervalle in eine endliche Anzahl Teilintervalle zerlegen, so können diese Teilintervalle
immer weiter geteilt werden. Keynes hatte damit also leider keinen Erfolg, alle Paradoxien
des Indifferenzprinzips aufzulösen.
Ein anderer Ansatz Paradoxien zu vermeiden, wurde von Jaynes vorgenommen. Dieser
sagt, alle geometrischen Paradoxien, können vermieden werden, wenn wir von den Lösungen
fordern, rotations-, skalen- und translations-invariant zu sein. Trotzdem können invariante
Prinzipien auch nicht alle Paradoxien lösen, besonders nicht jene, die keine geometrische
Interpretation besitzen.
Jaynes Ansatz kommt von der Anwendung des Indifferenzprinzips in der Physik. Es
stimmt, dass das Prinzip erfolgreich in der Physik angewendet wird. Dies zeigt allerdings
die Anwendbarkeit des Indifferenzprinzip als heuristisches Prinzip und nicht als logisches.
Für die logische Interpretation von Wahrscheinlichkeit müsste das Indifferenzprinzip aber ein
logisches Prinzip sein. Nur wenn es vom Charakter her ein logisches Prinzip ist, kann die
logische Wahrscheinlichkeitstheorie numerische Werte für Wahrscheinlichkeit erlauben. Ohne
numerische Werte kann man jedoch kaum behaupten, die logische Theorie sei adäquat um
die mathematischen Rechnungen zu interpretieren. Es ist jedoch fatal, keine befriedigende
Lösung zu allen Paradoxien des Indifferenzprinzips erhalten zu haben.
Es gibt keine klar formulierte Modifikation des Indifferenzprinzips, das alle Paradoxien
löst und zu keinen weiteren führt. Zusammengefasst scheint es derzeit kaum Hoffnung für die
erfolgreiche Rehabilitation des Indifferenzprinzips als logisches Prinzip zu geben. Die Schwierigkeiten, die die logische Interpretation bis in die 1920er Jahre hatte, führten dazu, dass man
eine neue Interpretation der Wahrscheinlichkeit entwickelte. Eine neue Theorie, die subjektive
Theorie der Wahrscheinlichkeit entstand.
4
Subjektive Theorie
Die subjektive Wahrscheinlichkeitstheorie wurde in etwa derselben Zeit von Frank Ramsey
in Cambridge und von Bruno de Finetti in Italien unabhängig von einander entdeckt. Solche
gleichzeitigen Entdeckungen sind nicht ungewöhnlich in der Wissenschaft. In diesem Fall war
sie aber nicht einmal überraschend. Wir haben im vergangenen Kapitel gesehen, dass es
bis in die 1920er Jahre ernste Probleme mit der logischen Theorie gab und man eine neue
10
Wahrscheinlichkeitsinterpretation brauchte. Dies erreichten Ramsey und de Finetti mit ihrer
subjektiven Annäherung an die Wahrscheinlichkeit.
Ramseys Verbindung zur alten, logischen Theorie ist klar, da er seine neue subjektive
einführt, indem er Keynes’ Ansichten kritisiert. De Finetti hingegen scheint in der Entwicklung
seiner Theorie nicht von Keynes beeinflusst worden zu sein. Ich werde hier Ramseys Zugang
zur Theorie erörtern.
4.1
Ramseys Kritik an Keynes
Laut Keynes gibt es eine logische Verbindung zwischen Paaren von Aussagen. Wissen darüber
kann in irgendeiner Weise erhalten werden. Ramsey kritisiert, dass er diese Verbindung nicht
einfach a priori sieht oder Wissen über sie erhält. Dies ist eine interessante Argumentationsart,
da sie von der Stärke zeugt, mit der Ramsey an seine Intelligenz glaubt. Hätte ein weniger
von sich überzeugter Logiker, als Ramsey es war, ein solches Argument gebracht, wäre das
vielleicht ein Zeichen logischer Inkompetenz gewesen. Keynes verurteilt Ramsey aber nicht, da
dieser ein brillanter Mathematiker aus Cambridge war und sie beide Mitglieder der Cambridge
Apostles, einem renommierten Geheimbund, waren.
Ramsey argumentiert weiter, dass der logischen Intuition, von der Keynes spricht, in
schlussfolgernden Fällen nicht unbedingt und schon gar nicht in induktiven Fällen vertraut
werden kann. Für ihn ist die sogenannte logische Intuition nichts weiter als eine psychologische
Illusion, hervorgerufen durch Vertrautheit. Vielleicht sind die Axiome der Wahrscheinlichkeitstheorie nur intuitiv durch das jahrelange Studium der Mathematik klar.
Zusammengefasst ist für Ramsey die logische Intuition keine adäquate Basis um die Theorie der teilweisen Abhängigkeit zu beweisen oder zu zeigen, dass sie den gewöhnlichen Wahrscheinlichkeitsaxiome unterliegt. Wie diese Angelegenheiten in der subjektiven Theorie behandelt werden, zeigt der folgende Absatz.
4.2
Subjektive Grundlagen für mathematische Wahrscheinlichkeit:
das Ramsey-DeFinetti Theorem
In der logischen Interpretation ist die Wahrscheinlichkeit von A bei gegebenem W identifiziert
mit dem Grad mit dem jemand mit Wissen W rational an A glaubt. Dieser Grad, so wird
angenommen, ist für alle rationalen Individuen gleich.
Die subjektive Wahrscheinlichkeitsinterpretation verabschiedet sich von der Annahme,
Rationalität führe zu übereinstimmenden Meinungen. Folgt man der subjektiven Theorie, so
können verschiedene Individuen, Herr K, Frau L und Fräulein M zum Beispiel, zu unterschiedlichem Grad an die Aussage A glauben. Damit ist Wahrscheinlichkeit definiert als Grad
des Glaubens eines bestimmten Individuums, sodass wir nicht von der Wahrscheinlichkeit
sprechen können, sondern eher von Herrn Ks Wahrscheinlichkeit, Frau Ls Wahrscheinlichkeit
und Fräulein Ms Wahrscheinlichkeit.
Nun verwendet die mathematische Wahrscheinlichkeitstheorie Wahrscheinlichkeiten als
Zahlen im Intervall [0, 1]. Wenn also die subjektive Theorie eine adäquate Interpretation der
mathematischen Rechnung sein soll, muss ein Weg gefunden werden, den rationalen Glauben
einer Person an ein Ereignis zu messen.
Ramseys Versuch dies zu tun, beginnt mit der Annahme es gäbe ein Instrument, das den
Grad des Glaubens messen kann: einen Psychogalvanometer. Dieses Instrument stelle man
sich als besseren Lügendetektor vor. Wir würden also Herrn Ks Kopf mit Elektroden versehen
11
und die Maschine würde seinen Glaubensgrad in eine Behauptung messen. Es ist überflüssig
zu sagen, dass selbst wenn wir eine solche Apparatur erfinden könnten, denn es gibt sie nicht,
können wir unser Problem, den Wahrscheinlichkeitsgrad zu messen, damit nicht lösen.
Der nächste Ansatz war der altbewährte: die Wette. Um zu messen wie stark eine Person
an etwas glaubt, kann man eine Wette abschließen und die niedrigste Quote betrachten die sie
abzuschließen bereit ist. Dies ist auch de Finettis Weg. Es ist klar, dass Herr K die Wettquote
so richten wird, sodass die Wette kohärent ist. Das führt zum sogenannten Ramsey-De Finetti
Theorem das besagt, dass die Wettquoten dann und nur dann kohärent sind, wenn sie die
Wahrscheinlichkeitsaxiome erfüllen.
Definition der Wettquote und des Wettquotienten
Nehmen wir an Frau L möchte den Grad messen, mit dem Herr K an ein Ereignis E glaubt.
Um dies zu tun bringt sie Herrn K dazu, mit ihr mit folgenden Bedingungen auf E zu wetten:
Herr K musst eine Zahl q wählen (seinen Wettquotienten auf E) und Frau L wählt den
Einsatz S. Herr K zahlt an Frau L qS falls E eintrifft. S kann positiv oder negativ sein, muss
betragsmäßig jedoch klein sein im Vergleich zu Herrn Ks Gunst p. Unter diesen Umständen
ist q ein Maß für Herrn Ks Glauben an E.
Zu dieser Definition sind einige Bemerkungen zu machen:
• Wenn Herr K q wählt, darf er nicht wissen, ob der Einsatz S positiv oder negativ sein
wird.
• Für de Finetti war, zumindest in seinen frühen Veröffentlichungen, der Einsatz S ein
Geldbetrag. Ramsey hingegen entwickelte dafür eine eigene Nutzentheorie und verwendet als Einsatz die von ihm definierten Nützlichkeiten.
Das Problem, wenn man mit Geld wettet, ist offensichtlich, dass Geldbeträge, bei unterschiedlichem Gesamtvermögen, verschiedene Auswirkungen haben. (500€ Einsatz bei
Gesamtvermögen 1000€ ist wesentlich höher gewichtet als 500€ bei einem Millionär.)
Es gab zwar verschiedene Lösungsversuche, diese schienen die Philosophen aber nicht
zufriedenzustellen. Wir verwenden der Einfachheit halber Wetten um Geld mit angemessenen Geldeinsätzen.
• Es sollte auch erwähnt werden, dass dieses Wettschema nur eine ungenaue Schätzung
und kaum genaue numerische Werte für Wahrscheinlichkeiten produziert. De Finetti
beantwortet diesen Punkt damit, dass exakte numerische Glaubensgrade tatsächlich ein
Produkt der Fiktion oder der Idealisierung wäre. Diese Idealisierung nütze aber, um die
mathematischen Rechnungen zu vereinfachen.
Zusammengefasst halten wir fest, dass wir das Wettschema mit passend gewähltem Geldeinsatz verwenden können und dass dies eine geeignete Methode ist, um den Grad des Glaubens in vielen Situationen zu messen. Erwähnenswert ist außerdem, dass dieser Weg, Wahrscheinlichkeit einzuführen, der Philosophie des Operationalismus entspricht.
Gehen wir nun weiter zu einem anderen Problem der subjektiven Wahrscheinlichkeitstheorie. Wenn die subjektive Theorie eine Interpretation der mathematischen Theorie darstellt,
sollte sie auch die Standardaxiome der Wahrscheinlichkeit erfüllen. Es stellt sich die Frage,
warum sie dies tun sollte. Es ist leicht, sich ein Individuum vorzustellen, dessen Glaubensgrad arbitragebehaftet ist und dadurch auch nicht die Wahrscheinlichkeitsaxiome erfüllt. Die
Subjektivisten lösen dieses Problem mit der Einführung der Kohärenz.
12
Kohärenz
Wenn Herr K auf eine Anzahl von Ereignissen E1 , . . . , En wettet, so sind seine Wettquotienten kohärent genau dann, wenn Frau K keine Einsätze S1 , . . . , Sn wählen kann, sodass sie auf
jeden Fall gewinnt. Es wird angenommen, dass Herr K eine kohärente Wette abschließen, also
die Wahrscheinlichkeit immer zu verlieren vermeiden möchte. Überraschenderweise ist dieser
Umstand notwendig und hinreichend, damit die Wettquotienten die Wahrscheinlichkeitsaxiomen erfüllen.
Das Ramsey-De Finetti Theorem
Ein Satz von Wettquotienten ist kohärent genau dann, wenn sie die Wahrscheinlichkeitsaxiome
erfüllen.
Wahrscheinlichkeitsaxiome
Seien E, F, . . . , E1 , . . . Ereignisse an deren zukünftiges oder vergangenes Eintreffen wir zu
einem gewissen Grad glauben. Sei Ω ein bestimmtes Ereignis, das eintreffen muss. Dann gibt
es folgende Wahrscheinlichkeitsaxiome:
1. 0 6 P(E) 6 1 ∀ E
∧ P(Ω) = 1
2. Additionsgesetz: Seien alle E1 , . . . , En so, dass nicht zwei gleichzeitig auftreten können
und eines auftreten muss, dann folgt:
P(E1 ) + . . . + P(En ) = 1
3. ∀ Ereignisse E, F : P(E ∧ F ) = P(E|F )P(F )
Zum Beweis des Ramsey-De Finetti Theorems vergleiche man mit Gillies, Seite 60 ff..
4.3
Vergleich mit der logischen Theorie
Das Theorem der Kohärenz ist insofern eine bemerkenswerte Errungenschaft, als dass es die
Überlegenheit der subjektiven über die logische Theorie zeigt. Wo die logische Theorie die
Wahrscheinlichkeitsaxiome nur durch vage Intuition zu erklären vermag, können sie in der
subjektiven Theorie rigoros von der sofort plausiblen Annahme der Kohärenz weg bewiesen werden. Die subjektive Theorie löst die Paradoxien des Indifferenzprinzips, indem es das
Prinzip unnötig macht. In der logischen Theorie war das Prinzip nötig, um den als einzigartig angenommenen a priori Grad rationalen Glaubens zu erhalten. Der subjektiven Theorie
folgend, gibt es jedoch keine solchen a priori Wahrscheinlichkeiten. Verschiedene Individuen können ihre eigene a priori Wahrscheinlichkeit auf unterschiedliche Weise wählen, immer
unter der Voraussetzung, diese ist kohärent.
Es bleibt jedoch ein weiteres Problem der subjektiven Theorie zu lösen. Dies ist die Frage,
wie Wahrscheinlichkeiten, die objektiv erscheinen, wie zum Beispiel die Wahrscheinlichkeit des
Zerfalls eines bestimmten Uraniumisotopes innerhalb eines Jahres, in dieser Theorie erklärt
werden sollen. De Finetti behandelt dieses Problem mit der Einführung des Konzepts der
Austauschbarkeit.
13
4.4
Objektive Wahrscheinlichkeiten in der subjektiven Theorie
In Fällen wie der Regenwahrscheinlichkeit am kommenden Tag oder der Wahrscheinlichkeit
eines Pferdes, ein Rennen zu gewinnen, ist die subjektive Interpretation sehr plausibel oder
die Situationen haben zumindest subjektive Komponenten. Doch wie steht es mit dem Zerfall
eines Uraniumisotopes? Wie geht ein Anhänger der subjektiven Theorie mit diesen Fällen
um?
Es gibt hier zwei mögliche Ansätze. Der erste erklärt Fälle wie den obigen für objektiv.
Als Konsequenz gibt es mindestens zwei verschiedene Wahrscheinlichkeitskonzepte, die bei
unterschiedlichen Umständen angewandt werden. Diese Erklärung verwendet Ramsey.
Der zweite Ansatz, dem auch de Finetti zustimmt, nimmt an, dass alle Wahrscheinlichkeiten subjektiv sind und auch wenn sie objektiv erscheinen, können sie als Grade subjektiven
Glaubens beschrieben werden.
Vergleich Objektivist und Subjektivist an einem Beispiel
Angenommen wir haben eine Münze von der bekannt ist, dass sie unfair ist, aber in unbekanntem Ausmaß. Ein Objektivist würde sagen es gibt eine sichere, jedoch unbekannte,
Wahrscheinlichkeit p für Kopf und dass wir diese mit n Würfen für große n messen können,
in dem wir sehen, dass mit der Anzahl r für das Auftreten von Kopf gilt: p ≈ r/n. Der genaue
Zusammenhang zwischen p und r/n hängt dann von der jeweiligen angenommenen objektiven
Theorie ab.
Ein Subjektivist wie de Finetti ginge von einer Folge von Würfen mit gegebenen Resultaten
E1 , E2 , . . . , En , . . . aus, in der die Ei entweder Kopf (Hi für head) oder Zahl (Ti für tail) sind.
So bedeutet zum Beispiel Hn+1 , dass im n + 1-ten Wurf Kopf auftritt. Sei weiters e eine Folge
mit n Einträgen, die die Information über die ersten n Würfe speichert. Angenommen Kopf
tritt r mal in n Würfen auf, dann ist die Methode des Subjektivisten, P(Hn+1 |e) auszurechnen
und zu zeigen, dass unter gewissen Annahmen P(Hn+1 |e) für große n gegen r/n konvergiert.
All dies passiert unter der Annahme, dass unterschiedliche Individuen die selbe subjektiven
Wahrscheinlichkeit für große Zahlenwerte n annehmen.
Nach Axiom 3 gilt für P(Ei ) 6= 0 ∀ i, sodass auch P(e) 6= 0 :
P(Hn+1 |e) =
P(Hn+1 ∧ e)
P(e)
(1)
Um fortzufahren, führen wir die Bedingung der Austauschbarkeit ein.
Nehmen wir an, Herr K schließt eine a priori Wette über die Ereignisse Ei1 , Ei2 , . . . , Ein
ab. In den letzten n Würfen soll die Münze r mal Kopf gezeigt haben. Herr Ks Wettquotienten heißen austauschbar, wenn er jedem n-Tupel in dem r mal Kopf kam den gleichen
Wettquotienten zuordnet. Hier können n und
r beide frei gewählt werden, solange beide kleiner unendlich und r 6 n. Es gibt dann nr verschiedene Möglichkeiten wie r mal Kopf in
n Würfen vorkommen kann. Diese Möglichkeiten haben durch die Austauschbarkeit diesel(n)
be Wahrscheinlichkeit. Sei Herrn Ks vorherige Wahrscheinlichkeit ωr , so hat jedes dieser
n-Tupel die gleiche Wahrscheinlichkeit, nämlich
(n+1)
P(Ei1 , Ei2 , . . . , Ein ) =
14
ωr
n
r
= P(e).
Nun ist (Hn+1 ∧ e) ein (n + 1)-Tupel in dem Kopf r + 1 mal vorkommt. Analog zu oben
erhalten wir, in dem wir in Gleichung (1) einsetzen:
(n+1)
P(Hn+1 ∧ e) =
=⇒ P(Hn+1 |e) =
ωr+1
(2)
n+1
r+1
(n+1)
n
ωr+1
r
n+1
(n)
ωr
r+1
(n+1)
r + 1 ωr+1
=
n + 1 ωr(n)
(n+1)
(n)
Die letzte Gleichung gibt uns, für die plausible Annahme von ωr+1 /ωr → 1 für n → ∞,
das gesuchte Ergebnis. Wir können also die a priori Wahrscheinlichkeit wählen wie wir wollen
und kommen für n → ∞ zu dem Ergebnis P(Hn+1 |e) → r/n.
In n Würfen können wir 0, 1, 2, . . . , oder n mal Kopf erhalten. Wegen der Kohärenz muss
also gelten:
(n)
(n)
(n)
ω0 + ω1 + ω2 + . . . + ωr(n) + . . . + ωn(n) = 1
(3)
(n)
In der subjektiven Theorie können wir ωr frei wählen, solange (3) gilt. Obwohl nicht
zwingend notwendig, können wir sie wie im Indifferenzprinzip alle gleichsetzen, sodass:
(n)
ω0
(n)
= ω1
(n)
= ω2
= . . . = ωr(n) = . . . = ωn(n) = 1/(n + 1)
(4)
Setzen wir dies in die Gleichung (2) ein, erhalten wir die sogenannte Laplacesche Regel
für Nachfolger:
r+1
(5)
n+1
De Finetti interpretiert die mathematischen Ergebnisse so, dass wir die Begriffe der objektiven Wahrscheinlichkeit und der Unabhängigkeit durch die subjektive Wahrscheinlichkeit und
Austauschbarkeit auswechseln können. Alternativ dazu können wir das auch als Reduktion
betrachten.
P(Hn+1 |e) =
4.5
Kritik, Vergleich und das Rot-Blau-Spiel
Es ist offensichtlich, dass wir das Prinzip der Austauschbarkeit nur in objektiv unabhängigen
Situationen verwenden können.
Damit die Austauschbarkeit nicht zu fehlerhaften Ergebnissen führt, müssen wir uns sicher
sein, dass es sich um eine objektiv unabhängige Situation handelt. Also vermuten wir Unabhängigkeit und beweisen sie rigoros. Wenn unsere Vermutung dem Test standhält, können
wir Austauschbarkeit anwenden ohne weit daneben zu liegen. Wir müssen es aber gar nicht,
da wir bei unabhängigen Fällen den üblichen Weg mit objektiven Wahrscheinlichkeiten gehen
können. In diesem Fall ist also die Austauschbarkeit unnötig.
Ist andererseits unsere Situation dem Unabhängigkeitstest nicht gewachsen, ist also keine
mit unabhängigen Wahrscheinlichkeiten, dann führt die Austauschbarkeit zu irreführenden
Resultaten und sollte vermieden werden. Also gibt es auch hier keinen Grund, Austauschbarkeit zu verwenden.
15
Rot-Blau-Spiel
Um dieses Argument zu veranschaulichen, können wir eine Folge von Ereignissen betrachten,
die eher abhängig als unabhängig sind. Ein sehr einfaches Beispiel ist hierbei das Rot-BlauSpiel. In diesem Spiel gibt es eine Zahl s, die sich bei jedem Durchlauf ändert und von den
vergangenen Werten abhängt. Eine faire Münze wird geworfen. Ist das Ergebnis Kopf, so
ändern wir s in s′ = s + 1 und bei Zahl in s′ = s − 1. Ist nun s′ > 0, so sagen wir, das
Ergebnis des Wurfes ist rot, bei s′ ≤ 0 blau. Obwohl das Spiel auf voneinander unabhängigen
Münzwürfen basiert, sind die Ergebnisse nicht Kopf oder Zahl sondern rot oder blau und letztere sind stark voneinander abhängig. Starten wir bei s = 0, so ist die Wahrscheinlichkeit von
blau ein klein wenig höher. Um dies zu vermeiden lassen wir einen Münzwurf den Startpunkt
entscheiden: Bei Kopf setzen wir s gleich 0, bei Zahl gleich −1. Dadurch werden rot und blau
exakt symmetrisch, sodass die Grenzwahrscheinlichkeiten von beiden Möglichkeiten gleich ½
sind. Deshalb ist es überraschend, dass bei einer sehr großen Anzahl von Wiederholungen die
Wahrscheinlichkeit einer Farbe wesentlich höher ist als die der anderen.
Bitten wir nun zwei Wahrscheinlichkeitstheoretiker, eine Objektivistin, (nennen wir sie
Frau O) und einen Subjektivisten (Herr S), eine Folge zu analysieren, deren Elemente nur
zwei verschiedene Werte annehmen. Die beiden wissen nicht, dass die Sequenz, die sie sehen,
durch das Rot-Blau-Spiel generiert wird.
Die Objektivistin Frau O sieht, dass die Folge einen zufälligen Charakter hat. Sie wird
die bekannteste und einfache Annahme treffen, dass die Ereignisse unabhängig voneinander
sind. Durch einige statistische Tests beweist sie diese Vermutung rigoros. Es wird allerdings
nicht lange dauern, bis sie ihre anfängliche Vermutung verwirft und andere Hypothesen mit
abhängigen Ereignissen aufstellt. Falls sie eine talentierte Wissenschaftlerin ist, wird sie bald
auf den rot-blau-Mechanismus stoßen und diesen durch statistische Tests zeigen können.
Betrachten wir nun die Vorgehensweise von Herrn S, dem Subjektivisten. Entsprechend der
Anfangsannahme der Unabhängigkeit von Frau O, wird er Austauschbarkeit vermuten. Um die
(n)
Überlegung zu vereinfachen nehmen wir an, er gäbe den ωr eine uniforme a priori Verteilung.
Bei anderen Verteilungen käme man mit mehr Rechenaufwand auf gleiche Ergebnisse.
Nehmen wir an, es gab schon 700 mal blau, gefolgt von zwei mal rot. Herr S wird die
Wahrscheinlichkeit, blau im nächsten Lauf zu bekommen, mit Gleichung (5) errechnen, wobei
n = 702 und r = 700. Dies ergibt eine Wahrscheinlichkeit von 701 /704 = 0.996, auf drei Stellen
gerundet.
Da wir den Mechanismus des Spieles kennen, können wir die wahre Wahrscheinlichkeit
von blau im nächsten Lauf errechnen. Durchgang 700 ergab blau, Durchgang 701 rot. Das
ist nur möglich, wenn im Durchgang 700 s = 0 war und dann Zahl geworfen, s also auf −1
gesetzt wurde. Der nächste Wurf muss auch Zahl ergeben haben, sonst wäre das Ergebnis
im Durchgang 702 wieder blau geworden. Damit muss s vor dem Wurf 703 gleich −2 sein.
Deswegen ist die Wahrscheinlichkeit für blau in diesem Lauf gleich null.
Wir sehen, dass Herrn Ss Rechnungen unter Verwendung der Austauschbarkeit zu Ergebnissen führen, die sehr stark von der wahren Situation abweichen. Außerdem wird er
wahrscheinlich bald merken, dass es viel zu lange Sequenzen einer Farbe oder der anderen
gibt, als dass die Annahme der Austauschbarkeit plausibel wäre.
Wir haben im vergangenen Kapitel die subjektive Wahrscheinlichkeitstheorie eingeführt
und ihre Vorteile gegenüber der logischen Theorie erörtert. Jedoch fanden wir auch hier einige
Probleme, die zu lösen wir nicht imstande waren. Im neunzehnten Jahrhundert entwickelte
16
sich in Cambridge noch eine weitere Theorie der Wahrscheinlichkeit, die ich im nun folgenden
Kapitel erklären werde.
5
Frequenztheorie
Die Frequenz- oder Häufigkeitstheorie wurde erstmals im Cambridge des neunzehnten Jahrhunderts von Ellis und Venn entwickelt. Sie kann als, auf empirischen Methoden basierende,
Reaktion auf den Rationalismus des europäischen Festlandes gesehen werden.
5.1
Wahrscheinlichkeitstheorie als Wissenschaft
Der logische Ansatz sah Wahrscheinlichkeitstheorie als Erweiterung der folgernden Logik in
induktiven Fällen. Im subjektiven Ansatz wurde sie mit dem Grad des Glaubens eines bestimmten Individuums in Verbindung gebracht. Im Gegensatz zu diesen beiden betrachtet die
Frequenztheorie Wahrscheinlichkeit als eine mathematische Wissenschaft, wie etwa Mechanik,
allerdings mit einem weitaus größeren Anwendungsbereich.
Womit beschäftigt sich also die Häufigkeitstheorie? Für den Mathematiker Von Mises
befasst sich Wahrscheinlichkeitstheorie mit Massenphänomenen und sich wiederholenden Ereignissen.
Wahrscheinlichkeitstheorie ist in dieser Theorie also eine mathematische Wissenschaft wie
Mechanik. Doch anstatt mit der Bewegungen und den Gleichgewichtszuständen von Körpern
und den auf sie wirkenden Kräften, behandelt Wahrscheinlichkeitstheorie Probleme, bei denen entweder dasselbe Ereignis sich immer wieder wiederholt oder eine große Anzahl von
gleichartigen Ereignissen gleichzeitig vorkommen. Dieser Schwerpunkt auf Ansammlungen
ist ein großer Unterschied zur subjektiven Theorie, in der die Wahrscheinlichkeit von einem
einzelnen Individuum zu jedem speziellen Ereignis bestimmt wird. In der Häufigkeitstheorie
steht Wahrscheinlichkeit in Verbindung mit einer Ansammlung von Ereignissen oder anderen
Elementen. Sie wird als objektiv und als vom schätzenden Individuum unabhängig aufgefasst.
Von Mises gibt einige Beispiele zu den von ihm beschriebenen sich wiederholenden Ereignissen. Diese können in drei Kategorien eingeteilt werden. In der ersten sind die Zufallsspiele,
in denen wir es zum Beispiel mit einer langen Folge von Münzwürfen zu tun haben. Die biologischen Statistiken sind in der zweiten Kategorie zusammengefasst. Hier behandeln wir unter
anderem eine Gruppe von Männern, die im Jahre 2013 68 Jahre alt sind und die Wahrscheinlichkeit, mit der alle ihren 69 Geburtstag überleben. Zuletzt gibt es noch eine große Anzahl
von Beispielen aus der Physik. Ein Beispiel hierfür ist die Betrachtung der Moleküle in einer
bestimmten Gasprobe und die Frage, ob sie eine gewisse Geschwindigkeit haben.
In Verbindung zu jedem Wiederholungsereignis oder Massenphänomen haben wir eine
Anzahl von Merkmalen, die wir als a priori möglich betrachten. Diese spannen den, von Von
Mises so genannten, Merkmalsraum auf.
Der Merkmalsraum, meist mit Ω bezeichnet, ist ein von Von Mises eingeführtes Konzept,
das in den meisten Büchern über Wahrscheinlichkeitstheorie übernommen wurde. Der Begriff
Merkmalsraum wurde später allerdings in den heutzutage geläufigeren Stichproben- oder Ereignisraum umbenannt. Des Weiteren ist erwähnenswert, dass Ω nur aus allen elementaren
Merkmalen bestehen soll, da jede Teilmenge von Ω wieder ein Merkmal ist.
Von Mises führte auch den Begriff des Kollektivs ein um ein sich wiederholendes Ereignis oder ein Massenphänomen zu beschreiben. Ein Kollektiv wird durch Sequenzen von
17
gleichartigen Ereignissen oder Ergebnissen bestimmt, die sich durch ein Merkmal, wie Farbe oder Zahl, unterscheiden. Beim Würfelwurf ist zum Beispiel Ω = {1, 2, . . . , 6} die Menge
der möglichen Ausgänge und eine Teilmenge von Ω ist A = {2, 4, 6}. A beschreibt die Menge möglichen Ausgänge mit der nicht elementaren Eigenschaft ”gerade Augenzahl”. Es ist
oft nützlich zwischen einem empirischen Kollektiv und einem mathematischen Kollektiv zu
unterscheiden. Ersteres existiert in der realen Welt und kann beobachtet werden. Ein mathematisches Kollektiv andererseits besteht aus einer unendlichen Folge {ω1 , ω2 , . . . , ωn , . . .},
wobei ωn ∈ Ω ∀ n.
Diskutieren wir nun die Frage, ob eine Repräsentation eines endlichen empirischen Kollektivs durch ein infinites mathematisches Kollektiv möglich ist. Für Von Mises ist diese Frage
mit ”ja” zu beantworten, da dies in der Physik ständig vorkommt. In der Mechanik beispielsweise benutzen wir Punktmengen um Körper darzustellen und infinitesimal dünne Linien
repräsentieren Linien mit finiten Ausmaßen. Von Mises argumentiert damit, dass er Wahrscheinlichkeit als eine mathematische Wissenschaft wie Mechanik betrachtet und damit jede
Begründung fehle, warum Wahrscheinlichkeitstheorie genauer sein sollte als eben Mechanik.
Wenn es uns in der Mechanik also ausreicht, finite Objekte durch infinite darzustellen, so
muss es auch in der Wahrscheinlichkeitstheorie erlaubt sein.
Unser Ziel ist es jetzt, Von Mises’ Ansichten zu verfolgen, wie mathematische Wissenschaft
mit der empirischen Materie zusammenhängt. Dies ist dann auch die Verbindung zwischen
dem empirischen und dem mathematischen Kollektiv.
Da Von Mises ein Empirist war, startet er immer vom beobachtbaren Phänomen, wie
einem empirischen Kollektiv. Um damit umgehen zu können, brauchen wir dann ein, durch
Abstraktion oder Idealisierung erhaltenes, mathematischen Konzept, wie in diesem Falle das
Konzept des mathematischen Kollektivs.
5.2
Empirische Wahrscheinlichkeitsgesetze
Laut Von Mises gibt es zwei empirische Gesetze, die von empirischen Kollektiven eingehalten
werden: das Urphänomen und das Gesetz der speziellen Spielsysteme. Das erste beschreibt die
wachsende Stabilität der relativen Häufigkeit verschiedener Ausgangsmöglichkeiten für steigende Beobachtungszahl. Von Mises nennt dieses Gesetz ”Urphänomen”, eigentlich ist es aber
ein Stabilitätsgesetz für statistische Häufigkeiten. Man kann dieses Gesetz in allen Zufallsspielen (wie Würfel, Münze, Roulette), aber auch in Versicherungsunternehmen und biologischen
Statistiken, beobachten. Dieses erste Gesetz war auch schon vor Von Mises bekannt. Das
Gesetz der speziellen Spielsysteme stammt jedoch von ihm.
Von Mises’ Idee war, Zufall mit dem Fehler von Spielsystemen in Verbindung zu bringen.
Ein Spielsystem bei Roulette könnte sein, immer einmal auf Rot und dreimal auf Schwarz zu
setzen oder nur jede siebte Runde zu spielen. Laut dem Gesetz der speziellen Spielsysteme
kann aber kein System die Gewinnchancen des Spielers vergrößern. Also konvergiert nicht
nur die relativ Häufigkeit gegen gewissen Werte, sondern diese Werte bleiben auch konstant,
wenn wir, einem Spielsystem folgend, auf eine bestimmte Art wetten.
5.3
Definition der Wahrscheinlichkeit als Grenzfrequenz
Wir haben nun mit dem Urphänomen und dem Gesetz der speziellen Spielsysteme zwei empirische, anschaulich richtige Gesetze eingeführt. Der nächste Schritt auf Von Mises’ Weg ist
die Idealisierung oder Abstraktion dieser Gesetze, um die mathematischen Axiome (vgl. 4.2
18
Wahrscheinlichkeitsaxiome) zu erhalten. Diese Axiome werden naturgemäß auf ein Kollektiv
der Form C = {ω1 , ω2 , . . . , ωn , . . .} mit ωn ∈ Ω ∀ n angewendet.
Das erste Axiom ist leicht aus dem Urphänomen herzuleiten und kann wie folgt geschrieben
werden:
Konvergenzaxiom:
Sei A ein elementares Merkmal des Kollektivs C welches in den ersten m Stellen von
Cm(A)− mal vorkommt ⇒ ∃ lim m(A)
n
n→∞
Wir definieren jetzt die Wahrscheinlichkeit von A in C als P(A|C) = lim m(a)/n. Dies
n→∞
nennt man die Grenzfrequenzdefinition der Wahrscheinlichkeit. Man sieht, dass durch diese
Definition alle Wahrscheinlichkeiten bedingte Wahrscheinlichkeiten werden.
Nachdem wir Wahrscheinlichkeit definiert haben, werden wir nun kurz Kritik daran üben.
Einer der Hauptkritikpunkte ist die Beengtheit der Theorie. Es gibt nämlich einige wichtige
Situationen in denen wir Wahrscheinlichkeit nutzen wollen, in denen aber kein empirisches
Kollektiv definiert werden kann. Auf diesen Punkt antwortet Keynes damit, dass wir Wahrscheinlichkeit nur dort in einem mathematischen oder quantitativen Sinne einführen sollen,
wo es auch eine Reihe von gleichartigen Ereignissen gibt. Die Mathematiker, die der Frequenztheorie trotz dieser Kritik folgten, taten dies vor allem deswegen, weil es keine befriedigendere
Lösung gab. Abgesehen von beobachtbarer Häufigkeit gab es nur Theorien, die das Indifferenzprinzip verwendeten, und dieses führt ja bekanntlich zu einigen Paradoxien.
5.4
Das Zufallsproblem
Das empirische Gesetz der speziellen Spielsysteme sagt, dass es unmöglich ist, jemandes Gewinnchancen durch Verwendung eines Spielsystems zu erhöhen. Unsere Aufgabe ist jetzt, eine
Version des Gesetzes für mathematische Kollektive zu formulieren. Dies wird dann das zweite
Axiom der mathematischen Theorie: das Zufallsaxiom.
Wählen wir unser originales Kollektiv {a1 , a2 , . . . , an , . . .}, sodass an gleich 0 oder 1 ∀ n ist.
Wir können auch ein Spielsystem darstellen als infinite Folge {c1 , c2 , . . . , cn , . . .} mit Einträgen
0 und 1 so, dass cn = 1 die Wahl von an und cn = 0 die Verwerfung von an bedeutet. Wir
sagen, {c1 , c2 , . . . , cn , . . .} sei ein rekursives Spielsystem, wenn cn = φ(bn ) wobei
1. b1 = 1, bn+1 = 2bn + an
2. φ ist eine rekursive Funktion in N, sodass für unendliche viele n gilt: cn = 1
Damit definieren wir unser
Zufallsaxiom:
Sei C ein Kollektiv, das das Konvergenzaxiom erfüllt, A eine beliebige Eigenschaft in
C, für die gilt: P(A|C) = lim m(A)/n = p und C ′ eine rekursiv durch ein Spielsystem
n→∞
bestimmte Teilsequenz von C. Dann existiert in C ′ lim m(A)/n und ist gleich p.
n→∞
Man kann zeigen, dass es ohne der Einschränkung auf die abzählbaren, rekursiven Spielsysteme zu einigen Problemen bezüglich dem Konvergenzaxiom kommt und sich Zufallsaxiom
und Konvergenzaxiom ausschließen würden. (vgl. Gillies S. 105 - 109)
19
5.5
Verbindung zwischen Von Mises’ Axiome und Kolmogorovs Axiome
Wie in der subjektiven Theorie müssen wir nun untersuchen, wie die von Von Mises eingeführten Axiome mit den Kolmogorovschen Axiomen, die innerhalb der Mathematik Standard sind, in Verbindung stehen. Die ersten Kolmogorovschen Axiome (vgl. 4.2 Wahrscheinlichkeitsaxiome) können vom Konvergenzaxiom abgeleitet werden.
Um die Axiome aus dem vorigen Kapitel anzugeben, werden wir die Ereignisse E, F, . . .
durch die Eigenschaften A, B, . . . ersetzen. Außerdem wechseln wir vom bestimmten Ereignis
zum Merkmalsraum. Mit diesen Modifikationen schreiben wir die ersten zwei Axiome von
Kolmogorov wie folgt:
1. 0 6 P(A) 6 1 ∀ A
∧ P(Ω) = 1
Das Konvergenzaxiom annehmend gilt: P(A) = lim m(A)/n. Es gilt: 0 6 m(A)/n 6 1.
n→∞
Verwenden wir den Grenzwert, so gilt: 0 6 P(A) 6 1. m(Ω)/n = n/n = 1, also gilt auch
P(Ω) = 1.
2. Additionsgesetz: Seien A und B zwei sich ausschließende Eigenschaften, dann folgt:
P(A) + P(B) = P(A ∨ B)
Sind A und B sich ausschließende Eigenschaften, dann gilt: m(A)/n + m(B)/n = m(A∨
B)/n. Verwenden wir wie oben den Grenzwert, so ergibt sich: P(A) + P(B) = P(A ∨ B).
Dies zeigt das Additionsgesetz im Falle von endlicher Additivität. Wie bei der subjektiven
Theorie stellen wir uns die Frage, ob das Additionsgesetz zu abzählbarer Additivität erweitert
werden kann. Dies folgt nämlich nicht aus Von Mises’ Axiomen. Um die Frage zu beantworten,
stellen wir uns zuerst einem sofort auftretenden Problem: jedes empirische Kollektiv hat einen
endlich Merkmalsraum. Von Mises war sich dieses Problems bewusst und versuchte es, durch
die Einführung eines weiteren Axioms zu lösen. Durch diese Einführung löst er zwar die Frage
der abzählbaren Additivität, untergräbt aber seine eigene philosophische Rechtfertigung für
die Axiome. Ihm zufolge soll ja jedes Axiom die mathematische Abstraktion und Idealisierung
eines empirischen Gesetzes sein. Dies ist zwar der Fall beim Konvergenzaxiom und beim
Zufallsaxiom, jedoch nicht bei seinem neuen Axiom zur abzählbaren Additivität.
Das dritte Axiom kann mit obiger Notation folgendermaßen umgeschrieben werden:
3. ∀A, B : P(A ∧ B) = P(A|B)P(B)
Wir haben schon gesehen, dass die Wahrscheinlichkeit von jeder Eigenschaft A immer
bedingt auf ein gewisses Kollektiv C ist, wir also immer P(A|C) schreiben sollten. Nun steht
aber im dritten Axiom P(A|B), was die Bedingtheit nicht auf ein Kollektiv, sondern auf eine
Eigenschaft B bedeutet. Da wir noch keine Bedeutung für den Ausdruck P(A|B) definiert
haben, müssen wir dies tun, bevor wir uns überhaupt mit dem dritten Axiom beschäftigen
können. Tatsächlich ist P(A|B) definiert als P(A|B ∧ C). B ∧ C ist dabei ein Kollektiv, bei
dem wir aus C diejenigen Elemente wählen, in denen B auftritt. Zu zeigen, dass dies wirklich
ein Kollektiv nach unserem Sinne ist, wird Teil des Beweises, dass das Axiom 3 anwendbar
ist, sein. Wir nehmen zu Anfang an, dass B nur endlich oft in C vorkommt. Dann hat B ∧ C
nur endliche Sequenzen inne. Wir brauchen weiter die Bedingung, dass die Wahrscheinlichkeit
von B ungleich 0 ist, also P(B|C) 6= 0. Wir wählen n beliebig und nehmen an, dass in den
ersten n Stellen von C B n(B)-oft vorkommt. Da P(B|C) 6= 0 ⇒ n(B) → ∞ für n → ∞. In
20
den ersten n(B) Stellen von B ∧ C soll nun A m(A) mal eintreten. Wir müssen zeigen, dass
der Limes lim m(A)/n(B) existiert. Wenn nun A ∨ B in den ersten n Stellen von C genau
n→∞
n(A ∨ B) oft vorkommt, dann ist n(A ∨ B) = m(A). Damit und mit dem Konvergenzaxiom
angewandt auf C existieren die folgenden Grenzwerte und es gilt:
m(A)
P(A ∧ B)
n(A ∨ B)
n(A ∨ B)/n
= lim
= lim
=
n(B)
n(B)/n
P(B)
n(B)→∞ n(B)
n(B)→∞
n(B)→∞
lim
Die Grenzwerte hängen nicht von der gewählten rekursiven Spielstrategie ab.
Wir haben nun gezeigt, dass die Kolmogorovschen Axiome Von Mises’ Theorie folgen,
wenn wir uns erstens auf nur endliche Additivität beschränken und wir zweitens das dritte
Axiom nur für Fälle mit P(B) 6= 0 betrachten.
Damit wurde im vergangenen Kapitel die Frequenztheorie eingeführt, ihre Ansicht über
Wahrscheinlichkeit erklärt und Gesetze definiert. Wir haben einige Probleme gefunden und
diskutiert, aber auch gezeigt, dass die aufscheinenden Axiome mit Einschränkungen in die
mathematische Struktur passen. Gehen wir nun noch kurz weiter zur letzten in dieser Arbeit
vorgestellten Wahrscheinlichkeitstheorie.
6
Propensitätstheorie
Die Propensitätstheorie wurde von Popper eingeführt. Er verteidigte zwar die Frequenztheorie, sah aber ihre Schwächen ein. Deswegen wollte er eine neue, objektive Interpretation
der Wahrscheinlichkeit finden. Der größte Fehler der Frequenztheorie war laut Popper, dass
sie bei objektiven Wahrscheinlichkeiten für einzeln auftretende Ereignisse versagt. Poppers
Vorschlag für eine Propensitätstheorie wurde von mehreren Wissenschaftstheoretikern aufgegriffen. Jeder dieser Philosophen entwickelte seine Idee auf unterschiedliche Weise. Deswegen
gibt es eigentlich mehrere verschiedene Propensitätstheorien. In den Wahrscheinlichkeitstheorien, die wir bis jetzt betrachtet haben (klassische, logische, subjektive und Frequenztheorie),
gab es jeweils eine allgemein anerkannte Version. Dies ist nicht der Fall bei der Propensitätstheorie. Ich werde mich hier darauf beschränken, einen allgemeinen Überblick über die
Propensitätstheorie zu schaffen, um nicht eine der Versionen zu bevorzugen.
6.1
Poppers Vorstellung
Die Frage, die sich als erste stellt, ist die, ob es möglich ist, Wahrscheinlichkeiten für alleinstehende Ereignisse, oder einzigartige Wahrscheinlichkeiten wie Popper sie nannte, zu definieren.
Ein von ihm betrachtetes Beispiel war die Todeswahrscheinlichkeit. Wir können die Wahrscheinlichkeit, mit 41 Jahren zu sterben anhand einer Menge von 40-jährigen Österreichern
herausfinden. Es ist die Grenzfrequenz derjenigen in der Menge, die vor dem Alter von 41
Jahren sterben. Wir können aber nicht die Wahrscheinlichkeit eines einzelnen Mannes, mit
40 zu sterben, herausfinden.
In der subjektiven Theorie war es einfach, Wahrscheinlichkeiten für einzeln auftretende
Ereignisse einzuführen. Wir können alle Freunde unseres Österreichers darauf wetten lassen,
ob er stirbt bevor er 41 wird. Klarerweise stellt ein solches Vorgehen einen Objektivisten
wie Popper nicht zufrieden. Die Schlüsselfrage ist damit folgende: Ist es überhaupt möglich,
objektive Wahrscheinlichkeiten für einzigartige Ereignisse einzuführen?
21
Da Popper von der Frequenztheorie ausging um Propensitätstheorien einzuführen, wollte
er diese zuerst leicht verändern. Er verwendete statt den Sequenzen in der Frequenztheorie solche, die entweder virtuell sein mussten oder aber durch verschiedene, generierende Umstände
verursacht wurden. Diese Umstände würden bei wiederholter Realisierung die Elemente der
Sequenz produzieren. In dieser Interpretation sind die generierenden Umstände also mit der
Neigung ausgestattet, die beobachtbaren Häufigkeiten zu produzieren. Anders erklärt bedeutet dies, wir müssen uns die Umstände als mit einer Tendenz, Neigung oder Propensität
ausgestattet vorstellen, die Sequenzen erzeugen, die wiederum gleich zu den Wahrscheinlichkeiten sind. Dies ist genau der Punkt, der die Propensitätstheorie ausmacht. Also hängen
die Wahrscheinlichkeiten von der experimentellen Umgebung ab, in der sie gemessen werden
sollen. Sie charakterisieren somit eigentlich die Verschiebung oder die Propensität des experimentellen Arrangements hinsichtlich eines Ereignisses, wenn es oft wiederholt wird. Hier muss
noch angemerkt werden, dass Experimente, die oft wiederholt werden, nur endliche Sequenzen
erzeugen können.
Poppers Ansicht war also, dass Wahrscheinlichkeiten eher in Relation gebracht werden
sollen mit dem Ausgang von wiederholbaren Ereignissen als mit Kollektiven. Es war eine
Folge von Von Mises’ Überlegungen, dass wir Wahrscheinlichkeiten nur in physikalischen Situationen einführen, in denen wir empirische Kollektive haben. Wenn wir nun aber Poppers
Propensitätstheorie verfolgen, wird es überaus legitim, Wahrscheinlichkeiten für verschiedene
Umstände einzuführen, obwohl das Ereignis nicht in großer Zahl wiederholt wurde. Obwohl
damit eine wohldefinierte Erweiterung von Von Mises’ Frequenztheorie erzeugt wurde, stellt
sich immer noch die Frage, ob diese Version bei der Einführung der objektiven Wahrscheinlichkeit für einzelne Ereignisse hilft.
6.2
Objektive Wahrscheinlichkeiten für einzigartige Ereignisse
Unser Problem in diesem Absatz ist folgendes: Wenn wir versuchen einem einzelnen Ereignis
eine Wahrscheinlichkeit zuzuordnen, dann wird diese mit den umgebenden Umständen variieren, die wir selbst vorgeben. Wir müssen Wahrscheinlichkeit also immer mit den gegebenen
Voraussetzungen in Verbindung bringen, die wir beschreiben.
Um dies zu veranschaulichen kommen wir noch einmal zurück zu unserem Beispiel eines
bestimmten 40-jährigen Mannes und seiner Wahrscheinlichkeit bis zum Alter von 41 Jahren zu
überleben. Intuitiv wird diese Wahrscheinlichkeit variieren, je nachdem, ob wir das Individuum
eher als Mann oder als Österreicher betrachten, da die Überlebenswahrscheinlichkeit in diesem
Alter für einen Österreicher höher ist als für die gesamte Menschheit. Analog verändert sich
die Wahrscheinlichkeit mit der Überlegung, ob wir den Menschen als 40-jährigen Österreicher
betrachten oder als 40-jährigen Österreicher, der täglich zwei Packungen Zigaretten raucht.
Diese Überlegung lässt sich noch einige Zeit weiter führen und veranschaulicht gut, wie Wahrscheinlichkeiten eher abhängig von den beschreibenden Eigenschaften als vom Ereignis selbst
sind.
Es ist im Kontext der Propensitätstheorie nur natürlich, unser Problem als eines der
beschriebenen Umstände zu betrachten. Wir können allerdings gleichermaßen dies zusammenfassen und das Ereignis in Referenzklassen einordnen. Anstatt zu fragen, ob wir unseren
40-jährigen Mann als Österreicher oder als Österreicher der täglich zwei Packungen Zigaretten
raucht betrachten sollen, können wir ihn auch in die Referenzklasse aller 40-Jährigen, aller
40-jährigen Österreicher oder aller 40-jährigen Österreicher die zwei Packungen Zigaretten
täglich rauchen, einordnen.
22
Schauen wir nun auf bestimmte Beispiele dieses generellen Prinzips. Nehmen wir an,
ein bestimmtes Ereignis E kann beschrieben werden als Teil einer Serie von Eigenschaften
S, S ′ , S ′′ , . . ., wo der Satz an Eigenschaften S eine Obermenge dessen von S ′ ist und dieser
wiederum eine Obermenge von S ′′ und so weiter. Wir nehmen weiters an, dass statistische
Daten uns zu einer guten Einschätzung über die objektive Wahrscheinlichkeit vom Auftreten
des Ereignisses E führen, nennen wir sie p, p′ , p′′ , . . .. Verständlicherweise werden wir eher
die Wahrscheinlichkeit p′ annehmen als p, p′′ eher als p′ und so weiter. Diese Vorgehensweise
nennt man auch Prinzip der engsten Referenzklasse.
Illustrieren wir dies wieder mit unserem Beispiel. Unser einzigartiger Mann kann nun
in folgende Referenzklassen gesteckt werden: die Klasse aller 40-jährigen Männer, die Klasse aller 40-jährigen Österreicher und die jener, die 2 Packungen Zigaretten am Tag rauchen. Wenn wir nun annehmen, dass wir ausreichen statistische Daten über diese drei Klassen haben, können wir nach dem Prinzip der engsten Referenzklasse annehmen, dass die
Überlebenswahrscheinlichkeit unseres Mannes auf der dritten unserer Klassen basiert.
Das Prinzip der engsten Referenzklasse scheint ein anschaulich gutes zu sein, jedoch gibt
es damit auch Probleme. Erstens könnte es für die Referenzklasse keine ausreichenden statistischen Daten geben oder zweitens kann es auch keine eindeutige engste Klasse geben. Nehmen
wir zum Beispiel an, dass unser Mann nicht nur zwei Packungen Zigaretten am Tag raucht,
sondern auch sehr sportlich ist. Es kann dann genug statistische Daten geben bezüglich der
Überlebenswahrscheinlichkeit von Rauchern als auch von Sportlern, aber nicht von sportlichen Rauchern. Damit haben wir nicht nur eine, sondern zwei engste Referenzklassen und
lassen unsere Wahrscheinlichkeitsüberlegungen auf den Daten (sagen wir p und p′ ) dieser zwei
Klassen basieren. Diese könnten jedoch unterschiedlich sein.
Zusätzlich ist es auch möglich, dass es keine engste Referenzklasse gibt. Es kann sein,
dass wir etwas über das Ereignis wissen, das in den statistischen Daten nicht aufscheint und
uns trotz dessen einen guten Grund gibt, unsere Wahrscheinlichkeit zu verändern. Wenn wir
solche qualitativen Begebenheiten negieren und nur quantitative zu Rate ziehen, kann dies
uns auf ein völlig falsches Ergebnis führen.
Eine Veranschaulichung hierfür ist, wenn wir wieder unseren 40-jährigen, rauchenden
Mann betrachten. Im Folgenden soll er nicht mehr sportlich sein. Wir schätzen die Überlebenswahrscheinlichkeit dieses Mannes im folgenden Jahr als die Häufigkeit r aller sich in der
gleichen Referenzklasse befindlichen 40-jährigen Männer die zwei Packungen Zigaretten am
Tag rauchen. Lernen wir nun diesen Mann besser kennen. Wir erfahren, dass er aus einer
Familie kommt, in der alle Erwachsenen zwei Packungen Zigaretten am Tag rauchen und
dennoch keines der Familienmitglieder jemals an Lungenkrebs oder an einer anderen, mit
dem Konsum von Zigaretten in Verbindung zu bringenden Krankheit oder überhaupt vor
ihrem 80 Lebensjahr gestorben ist. Es gibt keine statistischen Daten zu Individuen, die aus
solch ungewöhnlichen Familien stammen. Dennoch ist es mit diesen zusätzlichen Informationen begründbar, wenn wir unsere Wahrscheinlichkeit erhöhen möchten auf einen Wert größer
als r.
Der allgemeine Weg um Wahrscheinlichkeiten für bestimmte Ereignisse zu bestimmen ist
damit folgender: Zuerst finden wir, falls vorhanden, die engste Referenzklasse zu der genug
statistische Daten zur Verfügung stehen und berechnen die relative Häufigkeit, sagen wir r, mit
der das Ereignis in der Referenzklasse auftritt. Dann betrachten wir zusätzliche Informationen,
die keinen statistischen Charakter haben und dennoch relevant für den Fall sind und verändern
r je nach Information.
Dies ist sicher eine gut begründete und praktische Vorgangsweise. Sie involviert jedoch
23
einige subjektive Elemente und ist damit nicht sehr dafür geeignet, objektive, einzigartige
Wahrscheinlichkeiten zu erzeugen.
An diesem Punkt möchte ich meine Überlegungen über die Propensitätstheorie beschließen. Obwohl wir nicht zu einer zufriedenstellenden Lösung gekommen sind, haben wir doch
einen Überblick über die Vorgangsweise der Wahrscheinlichkeitstheoretiker gewonnen. Derzeit
wird noch an einer zufriedenstellenden Lösung von objektiven Wahrscheinlichkeiten, die nicht
mit der Frequenztheorie zusammenhängt, gearbeitet. Jedoch treten bei den meisten Probleme
auf, deren Lösungen nur in Grundzügen zufriedenstellende sind.
7
Schlussworte
Mit dieser Seminararbeit wollte ich einen Einblick in die philosophischen Theorien der Wahrscheinlichkeit geben. Probleme sind bei jeder einzelnen aufgetreten, weswegen an diesem Thema auch noch heute geforscht wird. Für weitere Vertiefung empfehle ich die angeführte Literatur. Besonders [4] wurde in dieser Arbeit als Hauptquelle verwendet. Ich hoffe, dass mit
dieser Arbeit Interesse geweckt wurde, sich weiter mit der Philosophie der Wahrscheinlichkeit
im Speziellen und Philosophie der Mathematik im Allgemeinen zu beschäftigen.
24
Literatur
[1] Popper: The Propensity Interpretation of Probability.
http://www.lophisc.org/wpcontent/uploads/2011/05/Popper 1959 Propensity BJPS.pdf, 1959.
[2] Pierre de Fermat, Blaise Pascal: Briefwechsel zum Teilungsproblem (1654).
https://www.uni-due.de/imperia/md/content/didmath/ag jahnke/briefe fp.pdf, 1988.
[3] Seminar Logik III: Wahrscheinlichkeit und unsicheres Schließen. http://www.phil-fak.uniduesseldorf.de/fileadmin/Redaktion/Institute/Philosophie/Theoretische Philosophie/
Schurz/scripts/WahrscheinlichkeitSkriptum.pdf, 2005.
[4] D. Gillies. Philosophical Theories of Probability. Routledge, 2000.
[5] P. S. Laplace. A philosophical essay on probabilities. Dover Publ., 1995.
[6] B. Prosenbauer.
Die Geschichte der Wahrscheinlichkeitsrechnung und deren
Berücksichtigung im Unterricht. Technische Universität Wien, 2013.
25
Herunterladen