Wahrscheinlichkeit

Werbung
1
Aufbau-SE Logik III: Wahrscheinlichkeit (G. Schurz, Ws 2016-17, Mi 10:3012:00, 23.31, U1.46)
Zeitplan:
19.10. Objektive (statistische) vs. subjektive (epistemische) Wahrscheinlichkeit
(Carnap, Reichenbach)
26.10. Mathematische Gesetze der Wahrscheinlichkeit (Kolmogoroff)
02.11. entfällt (Konferenzreise)
09.11. Probabilistische Rechtfertigung von Schlussarten (Suppes, Adams)
16.11. Philosophische Probleme der objektiv-statistischen Wahrscheinlichkeit (von
Mises, Reichenbach, Salmon, Kutschera) - Determinismus und stat. W.
23.11. Philosophische Probleme der subjektiv-epistemischen Wahrscheinlichkeit
(Ramsey, de Finetti, Carnap, Skyrms, Earman, Howson-Urbach)
30.11. Verbindungen von objektiver und subjektiver Wahrscheinlichkeit
(Reichenbach, Carnap, de Finetti, Lewis, Strevens, eigener Ansatz)
07.12. Überprüfung statistischer Hypothesen (Fisher, Neyman)
14.12. Likelihood-Intuition und ihre bayesianische Rechtfertigung (Earman, Gillies)
21.12. Objektiver und subjektiver Bayesianismus (Howson-Urbach, Laplace,
Williamson)
11.01. Induktionsproblem I: No free lunch Theorem (Wolpert)
18.01. Induktionsproblem II: Algorithmische Komplexität (Solomonoff)
25.01. Induktionsproblem III: Metainduktion (eigener Ansatz)
01.02. Zeitpuffer / Wiederholung
08.02. Klausur/BN
1
2
2
Literatur: Das Aufbau-Seminar stützt sich auf mein Buch:
Gerhard Schurz: Wahrscheinlichkeit, De Gruyter, Berlin/Boston 2015
(25 Euro). Siehe:
https://www.amazon.de/Wahrscheinlichkeit-Grundthemen-Philosophie-GerhardSchurz/dp/3110425505)
Weitere Literatur:
Adams, E.W. (1998): A Primer of Probability Logic, CSLI Publications, Stanford.
Bortz, J. (1985): Lehrbuch der Statistik, 2. Aufl., Springer, Berlin (Neuaufl. als
Statistik für Human- u. Sozialwissenschaflter, 6. überarb. Aufl. 2005).
Carnap, R. (1959): Induktive Logik und Wahrscheinlichkeit. Bearbeitet von W.
Stegmüller, Springer, Wien.
Carnap, R. und Jeffrey, R. (1971): Studies in Inductive Logic and Probability, Univ.
of California Press, Berkeley.
Gillies, D. (2000): Philosophical Theories of Probability, Routledge, London.
Earman, J. (1992): Bayes or Bust?, MIT Press, Cambridge/Mass
Howson, C. und Urbach, P. (1996): Scientific Reasoning: The Bayesian Approach,
Open Court, Chicago (2. Aufl.).
Stegmüller, W. (1973b), Probleme und Resultate der Wissenschaftstheorie und
Analytischen Philosophie. Band IV: Personelle und Statistische Wahrscheinlichkeit,
Springer, Berlin.
3
1. Objektive (statistische) vs. subjektive (epistemische) Wahrscheinlichkeit
Geschichte: Theorie der Wahrscheinlichkeit entstand im 16. und 17. Jahrhundert, im
Kontext von Glücksspielen: Galilei, 1654 Briefwechsel Pascal-Fermat, 1657 Huygens, 1713 Bernoulli (Binomialverteilung, Gesetz der großen Zahlen), 1763 Theorem
von Bayes, 1814 Laplace, 1933 axiomatische Fundierung durch Kolmogorov.
Intuitive Begriff der Wahrscheinlichkeit involviert etwas Objektives („wahr-“) und
etwas Subjektives („-scheinlich“).
Erst im 20. Jahrhundert wurde die unterschiedliche Natur der beiden Wahrscheinlichkeitsbegriffe herausgearbeitet.
Frühen Begründer hatten dies nur unzureichend bemerkt.
Laplace (1814) unterschied das subjektive „Gleichverteilungsprinzip“ nicht von der
objektiven Gleichwahrscheinlichkeit der Wurfresultate eines regulären Würfels; erst
von Mises (1928, 69) machte den Unterschied deutlich.
Gegenwärtige Wahrscheinlichkeitstheorie durch eine anhaltende Lagertrennung
gekennzeichnet (vgl. auch Gillies 2000):
 in den empirischen Wissenschaften objektiv-statistische Wahrscheinlichkeit
(Begründer von Mises 1964, Reichenbach 1935, 1949, und Fisher 1956; Einführungsliteratur Bortz 1985; Spezialvariante "objektive Einzelfallwahrscheinlichkeit").

in
Philosophie
und
kognitiver
Wissenschaft
subjektiv-epistemische
Wahrscheinlichkeit im Sinn von rationalen Glaubensgraden (Begründer Ramsey
1926 und de Finetti 1934/70; Einführungsliteratur Earman 1992, Howson/Urbach
1996); Spezialvarianten "objektiver Bayesianismus", "logische Wahrscheinlichkeit"
Carnap 1959).
3
4
4
 in Mathematik wird Interpretationskonflikt systematisch ignoriert.
Objektive Wahrscheinlichkeit  drückt eine subjektunabhängige Eigenschaft der
Realität aus.
Subjektive Wahrscheinlichkeit  drückt
Glaubensgrad eines (aktualen oder
hypothetischen) rationalen Subjekts aus.
Wenn es sich dabei um intersubjektive Glaubensgrade handelt, spricht man auch von
„epistemischer“ Wahrscheinlichkeit.
Zur Unterscheidung beider verwenden wir die prädikatenlogische Schreibweise:
"Fx" für "x ist ein F" und „Fa“ für "a ist ein F".
"F" ist ein Prädikat, das wiederholbares (binäres) Merkmal / Ereignistyp F
bezeichnet,
z.B.
"rothaarig
zu
sein".
„x“
Individuenvariable
und
„a“
Individuenkonstante.
(In Mathematik unterscheidet man das nicht formal, schreibt für beides eine binäre
mathematische 'Zufallsvariable' Xï)
Die
statistische
(objektive)
Wahrscheinlichkeit
eines
Merkmals
oder
wiederholbaren Ereignistyps, z.B. Fx, ist die relative Häufigkeit seines Eintretens
bzw. der Grenzwert seiner relativen Häufigkeit auf lange Sicht.
Formal kleines p(): p(Fx) =
Häufigkeit bzw. Häufigkeitsgrenzwert, mit der
beliebige Individuen x eines gegebenen Bereichs die Eigenschaft F besitzen.
Beispiel: Die Häufigkeit von Sonnentagen in Düsseldorf.
Die epistemische (subjektive) Wahrscheinlichkeit eines bestimmten Ereignisses
bzw. Sachverhaltes, z.B. Fa, ist der rationale Glaubensgrad, in dem ein
(oder
mehrere gegebene) Subjekt(e) an das Eintreten des Ereignisses glauben.
Formal großes P(): P(Fa) = der subjektive Glaubensgrad dafür, dass das Individuum
a die Eigenschaft F besitzt.
5
Beispiel: Unser Glaubensgrad, dass der morgige Tag in Düsseldorf ein Sonnentag
sein wird.
Für endlichen Individuenbereich (Population, Grundgesamtheit) D ist die statistische
Wahrscheinlichkeit gleich der relativen Häufigkeit eines Ereignistyps Fx in D:
h(Fx) = Anzahl aller Fs in D geteilt durch die Anzahl aller Individuen in D.
Problem: Endliche Häufigkeiten sind Zufallschwankungen unterworfen; sie geben
nicht direkt die Wahrscheinlichkeitsdispositionen wieder (Beispiel: Münzwurf)
Für unendlichen Individuenbereich D ist die relative Häufigkeit undefiniert.
Man bezieht sich auf eine zufällige Anordnung der Individuen in D in Form einer
(unendlichen) Zufallsfolge (a1,a2,), produziert durch ein "Zufallsexperiment".
Statistische Wahrscheinlichkeit p(Fx) =def limn hn(Fx) = Grenzwert der relativen
Häufigkeiten hn(Fx) von Fs in den n-gliedrigen Anfangsabschnitten einer
Zufallsfolge, für n gegen unendlich.
p(Fx) = 0,6 heißt per definitionen: für jedes noch so kleines >0 gibt es eine
Stellenzahl n, sodass für alle m  n die relative Häufigkeit hm(Fx) vom Grenzwert 0,6
um weniger als  abweicht
(je kleiner , desto größer n)
hn(Fx)
limnhn(Fx)=0,6
n
5
6
6
Konvergenz der relativen Häufigkeiten eines Ereignisses mit Häufigkeitsgrenzwert
p(Fx) = 0.6 in zwei Zufallsfolgen (programmiert in Visual Basic).
 Häufigkeitsgrenzwerte sind theoretische Idealisierungen  p(Fx) = 0.6 bedeutet:
Zufallsexperiment hat gewisse Disposition, Ergebnis Fx mit einer auf lange Sicht
nach 0.6 konvergierenden Häufigkeit zu produzieren („generische Propensität“).
 Auch zufälliges Ziehen eines Individuums aus Individuenbereich D ist
Zufallsexperiment.
Zusammenhang: Statistischen Wahrscheinlichkeit, zufällig ein F-Individuum aus D
zu ziehen = endliche Häufigkeit von Fx in D gdw. jedes Individuum in D dieselbe
statistische Chance besitzt gezogen zu werden. (Ziehen mit Zurücklegen)
Zur Interpretation von Eins- und Nullwahrscheinlichkeiten:
Im epistemischen Fall bedeutet die Aussage P(A) = 1, dass sich Subjekt hinsichtlich
der Aussage A sicher ist.
Im statistischen Fall komplizierter:
Nur bei endlichem Individuenbereichs ist p(Fx) = 1 gleichbedeutend mit
ausnahmslosen Allsatz xFx (Alle Individuen sind F), bzw. p(Fx) = 0 mit xFx.
Bei unendlichem Individuenbereichs ist p(Fx) = 1 schwächer als xFx, bedeutet nur,
dass die Häufigkeiten hn(Fx) gegen eins konvergieren.
Beispiel: Sei Zufallsfolge (1, 2,3) und Fx das Prädikat „x ist eine ganzzahlige
Potenz von 2“. Dann gibt unter den natürlichen Zahlen unendlich viele ganzzahlige
2er-Potenzen; dennoch gilt limk p(Fx) = limk(k/2k) = 0.
Grundlegender Unterschied: Statistische Wahrscheinlichkeit p(Fx) bezieht sich
immer auf wiederholbaren Ereignistyp (Sachverhaltstyp) ausgedrückt durch Prädikat
bzw. offene Formel Fx; der Operator "p" bindet die freie Individuenvariable ("px").
7
Subjektive Wahrscheinlichkeit p(Fa) bezieht sich auf
bestimmtes Ereignis
(Sachverhalt) ausgedrückt in einem Satz bzw. einer geschlossenen Formel Fa.
Bekannteste
Prinzip,
um
statistische
Wahrscheinlichkeiten
auf
subjektive
Einzelfallwahrscheinlichkeiten zu übertragen (Reichenbach 1949, §72):
Prinzip der engsten Referenzklasse: Die subjektive Wahrscheinlichkeit P(Fa) eines
Einzelereignisses wird bestimmt als die (geschätzte)
bedingte statistische
Wahrscheinlichkeit p(Fx|Rx) des entsprechenden Ereignistyps Fx in der engsten
(nomologischen) Bezugsklasse bzw. Referenzklasse R, von der das zugrundeliegende
Subjekt 'weiß' bzw. mit Sicherheit glaubt, dass a in ihr liegt (also Ra gilt).
Anwendung in Alltag und Wissenschaft:
 Subjektive Wahrscheinlichkeit dafür, dass gegebene Person Autounfall hat
(Versicherungsstatistik): engste bekannte Referenzklasse, die nicht unter Datenschutz
fällt.
 Wahrscheinlichkeit dafür, dass es morgen in NRW regnet: engste Referenzklasse =
die vom Meteorologen berücksichtigte vorausgehende Wetterentwicklung.
Bezug zum induktiven Spezialisierungsschluss (Carnap 1950; "direct inference" nach
Levi 1977):
Generelle Prämisse 1: r % aller Fs sind Gs
Singuläre Prämisse 2: Dies ist ein F
===================== [mit r % Glaubenswahrscheinlichkeit]
Konklusion: Dies ist ein G
Prinzip der Gesamtevidenz: die singuläre Prämisse muss die gesamte für die
Konklusion relevante Evidenz enthalten.
 Mit Prinzip der engsten Referenzklasse kann nur subjektive Wahrscheinlichkeit
von Singulärsätzen durch statistische Wahrscheinlichkeiten bestimmt werden, nicht
7
8
subjektive W.keit von generellen Hypothesen (Problem des Bayesianismus).
8
9
2. Mathematische Gesetze der Wahrscheinlichkeit
Statistische und der epistemische Wahrscheinlichkeitsbegriff gehorchen denselben
Grundgesetzen (Kolmogorov 1933)
 Kolmogorov benutzt die mathematisch übliche mengenalgebraische Darstellung:
Möglichkeitsraum  = {e1,e2,.}
Elemente ei von  = {e1,e2,}: mögliche (maximal bestimmte) Ergebnisse eines
Zufallsexperimentes.
"Ereignisse" = Teilmengen von , als Disjunktionen aufgefaßt.
Beispiel Würfelwurf:
 = {1,2,3,4,5,6} Ergebnis z.B. "1" Ereignis z.B. "gerade Zahl" = {2,4,6}.
Anderes Beispiel: Ziehen eines Individuums aus dem Individuenbereich:  = D.

 Wir verwenden sprachliche Darstellung (zwecks Unterscheidung von p und P):
Im statistischen Fall:
 = Menge möglicher Ergebnistypen eines (wiederholten) Zufallsexperimentes,
dargestellt durch maximal starke offene Formeln der Sprache:
Ei(x)(binäre Zufallsvariable) oder f(x) = ei (mehrstufige Zufallsvariable)
Ereignisse (Teilmengen) dargestellt durch offene Formel (entsprechen Disjunktio
nen maximal starker Formeln, z.B. "Gerade(x)" = "x=2  x=4  x=6".
Im epistemischen Fall:

=
Menge
möglicher
Ergebnisse
eine
einzelnen
Durchführung
des
Zufallsexperimentes, dargestellt durch maximal starke geschlossene Formeln der
Sprache:
Ei(aj)(binäre Zufallsvariable) oder f(aj) = ei (mehrstufige Zufallsvariable).
Teilmengen dargestellt durch geschlossene Formel.
9
10
10
11
Axiome der Wahrscheinlichkeit:
Im folgenden bezeichnen A, B,
offene Formeln im statistischen Wahrscheinlichkeitsaufbau,
geschlossene Formeln im epistemischen Aufbau,
 -Teilmengen im mathematischen Aufbau.
Dass A und B disjunkt sind, bedeutet
 dass die Extension von AB faktisch (im gegebenen Modell) leer ist ist im
statistischen Aufbau.
 dass AB in allen (logisch, epistemisch) möglichen Modellen der Sprache
unerfüllbar ist im epistemischen Aufbau.
dass AB leer istim mathematischen Aufbau.
Zur Erinnerung:  entspricht ,  entspricht  , A entspricht A.
Grundaxiome der Wahrscheinlichkeit
Für alle A, B, , wobei statt „p“ auch „P“ stehen kann:
(A1) p(A)  0
(Nicht-Negativität)
In Worten: Wahrscheinlichkeiten sind immer größer-gleich null.
(A2) p(AA) = 1
(Normierung auf 1)
In Worten: die Wahrscheinlichkeit des gesamten Möglichkeitsraumes ist 1.
(A3) Wenn A, B disjunkt sind: p(AB) = p(A) + p(B)
(endliche Additivität)
In Worten: für disjunkte Ereignis(typen) addieren sich die Wahrscheinlichkeiten.
11
12
12
Dass A exhaustiv ist bedeutet dass
 A von allen Individuen erfüllt wird im statistischen Aufbau,
 A von allen möglichen Modellen wahr gemacht wird im epistemischen Aufbau,
 A =  gilt im mathematischen Aufbau.
Eine Partition von  ist eine Menge {A1,,An} vom wechselseitig disjunkten und
zusammen exhaustiven Ereignissen Ai.
Theoreme unbedingter Wahrscheinlichkeit
(T1) p(A) = 1p(A) (Komplementärwahrscheinlichkeit)
In Worten: Die Wahrscheinlichkeit der Negation eines Ereignisses ist 1 minus jener
des Ereignisses.
(T2) p(A)  1 (obere Schranke)
In Worten: Die Wahrscheinlichkeit jedes Ereignisses ist kleiner-gleich 1.
(T3) p(AA) = 0 (Kontradiktion).
In Worten: Ein Widerspruch besitzt die Wahrscheinlichkeit Null.
(T4) Für jede Partition A1,,An: 1in p(Ai) = 1 und p(B) = 1in p(BAi).
In Worten: Die Summe der Wahrscheinlichkeiten der Ereignisse einerPartition {Ai:
1in} von addiert sich zu 1, und die Ereignisse {AiB: 1in} bilden eine
Partition von B, deren Wahrscheinlichkeiten sich zu p(B) aufaddieren..
(T5) p(A1A2) = p(A1) + p(A2)  p(A1A2) (allgem. Additionsgesetz)
(T6) Wenn A1A2 =def A1A2 exhaustiv ist, dann gilt p(A1)  p(A2) (Monotonie)
In
Worten:
Wenn
A1
mit
Notwendigkeit
A2
impliziert,
Wahrscheinlichkeitn von A1 kleiner-gleich der von A2.
(T7) Ist A1A2 exhaustiv, dann gilt p(A1) = p(A2) (Äquivalenz)
dann
ist
die
13
Die Wahrscheinlichkeit von A unter der Annahme, dass B vorliegt, nennt man die
bedingte Wahrscheinlichkeit von A gegeben B, p(A|B) bzw. P(A|B):
(Def. 3-2) Bedingte Wahrscheinlichkeit: p(A|B) =def
p(A  B)
, sofern p(B) > 0.
p(B)
(Analog für „P“ anstelle von „p“.)
B = bedingende Ereignis oder Antecedens; B = bedingte Ereignis oder Konsequens.
Im endlich-statistischen Fall ist p(A|B) die relative Häufigkeit von A-Individuen in
der Menge B  siehe Abbildung.
A
8
p(Bx|Ax) = 12/20 = 3/5
12
B
4
p(Ax|Bx) = 12/16 = 3/4
|D| = 24, p(Ax) = 20/24 = 5/6
p(Bx) = 16/24 = 2/3
Im unendlich-statistischen Fall ist p(A|B) der Häufigkeitsgrenzwert von As in einer
Zufallsfolge von B-Individuen.
Im subjektiv-epistemischen Fall ist P(A|B) der hypothetische Glaubensgrad an A,
unter der hypothetischen Annahme, dass B sicher wäre.
Wird B tatsächlich mit Sicherheit geglaubt, gilt P(B) = 1 woraus P(A) = P(A|B) folgt.
 Subjektive Sicherheit bzgl. A impliziert nicht, dass A wahr ist: subjektiver Glaube
ist fallibel und Glaubensfunktion P ist unabhängig von Wahrheitswertfunktion v.
Hinweis: Gewöhnliche Definition von p(A|B) hat Nachteil, dass p(A|B) für ein 0wahrscheinliches Ereignis B undefiniert.
Carnap 1971, Popper 1935: direkte Axiomatisierung bedingter Wahrscheinlichkeit.
13
14
14
Zwei (binäre) Ereignisse A, B heißen probabilistisch unabhängig voneinander,
abgekürzt AB, g.d.w. p(AB) = p(A)p(B).
Es gilt: AB g.d.w. p(A|B) = p(A) oderp(B) = 0
in Worten: g.d.w. die Annahme von B A‘s Wahrscheinlichkeit nicht ver
ändert, oder Null beträgt.
Ergo: Zwei nicht-nullwahrscheinliche Ereignisse sind probabilistisch abhängig g.d.w.
p(A|B)  p(A) gilt.
A und B sind
 positiv abhängig, wenn p(A|B) > p(A) (bzw. p(AB) > p(A)p(B))
 negativ abhängig, wenn p(A|B) < p(A) (bzw. p(AB) < p(A)p(B)) gilt.
Wichtig ist die Nichtmonotonie bedingter Wahrscheinlichkeiten:
ein hoher Wert von p(A|B) impliziert nicht einen hohen Wert von p(A|BC);
vielmehr kann zugleich p(A|BC) = 0 gelten.
Beispiel:
A
B
BC
C
p(A|B) ist hoch, aber p(A|BC) beträgt Null.
Anderes Beispiel: Die meisten Einwohner Deutschlands essen Schweinefleisch, aber
nicht: Die meisten islamischen Einwohner Deutschlands essen Schweinefleisch.
15
Theoreme bedingter Wahrscheinlichkeit (sofern p(A|B) definiert):
(TB1): Für die auf B konditionalisierte Wahrscheinlichkeitsfunktion
pB(A) =def p(A|B) gelten alle Gesetze der unbedingten Wahrscheinlichkeit.
(TB2:) WennAB exhaustiv ist, dann gilt p(B|A) = 1. Die Umkehrung gilt nicht.
(TB3) p(AB) = p(A|B)p(B)
(TB4) Für jede Partition B1,,Bn giltp(A) = 1in p(ABi)  p(Bi)
(allg.
Multiplikationsprinzip). Speziell folgt: p(A) = p(A|B)p(B) + p(A|B)(1p(B))
(TB5) p(A|B) = p(B|A)  p(A) / p(B) (Bayes-Theorem, 1. Version)
(TB6) Für jede Partition A1,,An giltp(Ai|B) = p(B|Ai)p(Ai) / 1in p(BAi)p(Ai)
(Bayes-Theorem, 2. Version)
(TB7) Symmetrie der probabilistischen Abhängigkeit (sofern 1 > p(B), p(A) > 0):
p(A|B) > p(A) g.d.w. p(B|A) > p(B) g.d.w. p(A|B) > p(A|B) (analog für )
(TB7)  Symmetrie probabilistischer Abhängigkeiten
(TB5), (TB6)  Bedeutung bayesscher Theoreme liegt in Situationen, in denen man
an P(Ai|B) interessiert ist, aber nur inverse Wahrscheinlichkeit P(B|Ai) zugänglich ist.
Beispiel 1: Ai um rivalisierende Hypothesen, B ein empirisches Resultat
Beispiel 2: Diagnoseprobleme, B Indikator für eine zu diagnistizierenden Zustand A.
Z.B.: B positiver Krebstestbefund, A Krebskrankheit.
Einfach messbar ist nur p(BA).
p(B|A) die Sensitivität und p(B|A) die Spezifität des Indikators B für A.
p(A|B) Reliabilität und p(A|B) Effizienz des Indikators als Prognoseinstrument
Base rate fallacy: p(A|B) = p(B|A)p(A) / ( p(B|A)p(A) + p(B|A)p(A) )
= 0,950,01 / ( 0,950,01 + 0,950,99) = nur 0,01 !
15
16
16
Statistische Unabhängigkeit, Binomialverteilung und Gesetz der großen Zahl
Unabhängige Wiederholungen desselben (identischen) Zufallsexperiments:
Beispiel: Ergebnisse von n Münzwürfen (x1,,xn), mit xi  {Zahl, Kopf}
Sprachlich dargestellt: Fx1Fxn
("F" für "Zahl", "F" für "Kopf")
Vereinbarung: i.te Variable der Formel, von links nach rechts angeordnet,
entspricht i.ter Durchführung des Zufallsexperimentes.
Unabhängigkeit bedeutet physikalisch, dass das Zufallsexperiment im Verlaufe
wiederholter Durchführungen seine Dispositionen nicht ändert (sonst: "MarkovKette").
Statistisches Unabhängigkeitsgesetz für Ereigniskombinationen:
Fx1Gx2, d.h. p(Fx1Gx2) = p(Fx)p(Gx) (Produktgesetz)
In Worten: Statistische Wahrscheinlichkeit, in zwei Durchführungen einmal F und
dann G zu erzielen = Produkt der Wahrscheinlichkeiten, in einmaliger Durchführung
F respektive G zu erzielen.
Mathematische Notation: p(F1,G2) = p(F1)p(G2)
Daraus folgt: p(Gx2|Fx1) = p(Gx2) und p(Fx1|Gx2) = p(Fx1).
Beispiel: Wahrscheinlichkeit, in zwei Würfen einmal eine Sechs und ein anderes Mal
eine gerade Zahl zu würfeln = (1/6)(1/2) = (1/12).
 Für subjektiven Wahrscheinlichkeiten kombinierter Ereignisse gilt das
Unabhängigkeitsgesetz im allgemeinen nicht.
Im Gegenteil: sobald das epistemische Wahrscheinlichkeitsmaß induktiv ist, wächst
unser Glaubensgrad dafür, dass das nächste Individuum ein F ist, mit der Häufigkeit
von bisher beobachteten F-Individuen an:
17
Es gilt also P(Fa|Fb) > P(Fa) und somit P(FaFb) > P(Fa)P(Fb).
Erklärung dieses Unterschieds:
 In subjektiver Wahrscheinlichkeitstheorie geht man davon aus, dass man
statistische Wahrscheinlichkeit nicht mit Sicherheit kennt.
Ist gegebenen Münze symmetrisch (p = 1/2) oder asymmetrische Münze mit Bias?
Dann induktiv sinnvoll, aus gehäuften Eintreten von Kopf zu schließen, dass die
Münze eher Kopf als Zahl ergibt.
 In der statistischen Wahrscheinlichkeitstheorie spricht man nicht über
Glaubensgrade, sondern über statistische Wahrscheinlichkeit selbst und nimmt diese
als gegeben bzw. "bekannt" an.
Für diese gilt aufgrund physikalischen Unabhängigkeitsannahme das Produktgesetz.
D.h. wenn die Münze mit Häufigkeitsgrenzwert r auf Kopf landet, so tut sie dies
unabhängig von vorausliegenden Münzwürfen.
tiefliegende Unterschiede zwischen obj. und subj. W.keit)
Aus statistischen Produktgesetz folgt Binomialgesetz (oder Bernoulli Gesetz) für nfache-Durchführung eines Zufallsexperimentes, bzw. Ziehen von n-elementigen
Zufallsstichproben:
Sei p = p(Fx), hn(Fx) = relative Häufigkeit von Fx in n-elementiger Zufallsstichprobe:
 
Binomialformel: p( hn(Fx) = kn ) =  nk   pk (1p)nk .
 
n
n!
 k  („n über k“) =
= Anzahl der Möglichkeiten, aus n Individuen k
k! (n - k)
 
auszuwählen.
17
18
18
p(hn) ( = Wahrscheinlichkeit einer Stichprobe mit F-Häufigkeit hn)
n = 1000
n = 100
n = 10
x
x
x
x
x
0
x
x
x
Drei Binomialverteilungen
Normalverteilungen).
x
p(hn=k/n)
hn= kn (Stichprobenhäufigkeit von F)
für
p=1/2
(approximiert
durch
Für zunehmende Stichprobengrößen n immer steilgipfeliger ( = p (1 - p)/n ) .
Daraus ergeben sich:
Gesetze der großen Zahlen:
Schwaches Gesetz der großen Zahlen: Für jede noch so kleine positive Zahl  strebt
die Wahrscheinlichkeit dafür, dass hn(F) von p(F) um weniger als  abweicht, für n
gegen unendlich gegen 1.
(3-4.2) Starkes Gesetz der großen Zahlen: Die Wahrscheinlichkeit dafür, dass der
Häufigkeitsgrenzwert
von
F
in
einer
unendlichen
Zufallsfolge
mit
der
Wahrscheinlichkeit von F übereinstimmt, beträgt 1. (benötigt -Addditivität)
Intuition: Gesetze der großen Zahlen "Bestätigung" statistischer W.keitstheorie.
Doch nur formale Theoreme; die für W.keit in jeder Interpetation gelten.
Erkennt man daran dass die Konvergenz der Häufigkeiten nur mit W.keit behauptet
wird  was je nachdem, wie „W,keit“ interpretiert wird, unterschiedliches bedeutet.
19
Interpretiert man Wahrscheinlichkeiten subjektiv, so besagt starkes Gesetz:
Mit subjektiver Sicherheit (P = 1) wird geglaubt, dass Häufigkeitsgrenzwert in einer
unendlichen Folge von gleichwahrscheinlichen und voneinander unabhängigen
Ereignissen mit der Glaubenswahrscheinlichkeit der Ereignisse übereinstimmt.
Für und Wider
Sigma-Additivität (unendnliche Additivität): P/p heißt -additiv g.d.w.:
die Wahrscheinlichkeit der Vereinigung von unendlich vielen paarweise disjunkten
Ereignissen = unendliche Summe ihrer Wahrscheinlichkeiten.
 Problem: Unendliche Summe iN p({i}) kann nur dann den Wert 1 (bzw. irgend
einen Wert größer als Null und kleiner als Unendlich) annehmen, wenn die Folge der
Wahrscheinlichkeiten p({i}) hinreichend schnell gegen Null strebt::
p=1
p=0
|N
-additive Wahrscheinlichkeitsmaße über |N.
Annahme zwingt jeder Wahrscheinlichkeitsverteilung über einem abzählbar
unendlichen Möglichkeitsraumeinen Bias auf; ist daher nicht generall adäquates
Axiom.
Kelly (1996): -Additivität von subjektiven Wahrscheinlichkeiten impliziert
schwache induktive Annahme:
19
20
20
Für universelle Hypothese xFx über unendlichen Bereich D muss W.keit, dass das
n.te Individuum die erste falsifizierende Instanz von xA(x) ist, mit zunehmenden n
schnell gegen Null gehen.
Weiters: P(xFx) = limn P(Fa1Fan)
Humescher Induktionsskeptiker würde nicht zustimmen:
nach jeder noch so großen endlichen Anzahl bestätigender Beobachtungen Fa1,,Fan
verbleiben unendlich viele unbeobachtete Individuen, die Allyypothese falsifizieren
können, weshalb für Induktionsskeptiker W.keit nicht gesunken ist.
Nicht--additive W.keitsmaße: Bhaskara Rao & Rao (1983), Schurz & Leitgeb
(2008). Erfüllen schwächerer Gesetze, z.B. p(ip({i}))  iN p({i}).
Herunterladen