Wahrscheinlichkeitstheorie Auszug aus dem Skript zur

Werbung
Wahrscheinlichkeitstheorie
Auszug aus dem Skript
zur Prüfungsvorbereitung
Georg Huhs
Graz, am 14. September 2004
1
Vorbemerkungen
Dieses Mini-Skript ist eine Zusammenfassung des Stoffs für die mündliche
Prüfung in Wahrscheinlichkeitstheorie. In diesem Sinne ist es jedoch nicht
vollständig. Dies äußert sich vor allem im öfters anzutreffenden Hinweis Sie”
he Skript“. An all diesen Stellen ist mir keine sinnvolle Zusammenfassung
oder Umformulierung des im Originalskriptum enthaltenen Textes eingefallen, weshalb die Aufnahme jener Passagen in dieses Dokument eine reine
Abschreibarbeit gewesen wäre (und natürlich auch, bis auf ein einfacheres
Handling, keinen Vorteil beim Lernen bringen würde).
Durch eine kleine Fehlauffassung des zu lernenden Stoffes meinerseits fehlen
des weiteren noch ein paar wichtige Dinge (was mir allerdings erst bei der
Prüfung auffiel):
• Formeln für Erwartungswert und Varianz bei den Verteilungen in Kap.
9.4
• Grafische Darstellungen der Wahrscheinlichkeitsdichten der selben Verteilungen
Außerdem ist mir noch nicht klar, ob das Kapitel 20.4 zum Prüfungsstoff
gehört.
Als Vorlage diente das Skriptum der Herrn Prüll und Prof. Von der Linden, Version vom 10.12.2002. Alle angegebenen Seitenzahlen beziehen sich
ebenfalls auf diese Ausgabe.
Sollte jemand einen der zweifellos enthaltenen Fehler finden, oder gewillt
sein diese Zusammenfassung zu komplettieren oder zu erweitern, so würde
es mich sehr freuen, das überarbeitete Dokument zu erhalten. Ich schicke
natürlich jedem gerne das tex-File und werde mich bemühen stets eine aktuelle Version zur Verfügung zu stellen.
Ich bin unter [email protected] erreichbar.
Ich hoffe, dass dieses Mini-Skript nicht nur mir bei der Prüfungsvorbereitung
hilft, und wünsche noch allen die herzflatternd (oder auch nicht) vor der Tür
zum Prüfungsraum stehen Alles Gute!
Mit freundlichen Grüßen - Georg
2
INHALTSVERZEICHNIS
Inhaltsverzeichnis
I
Einführung
7
1 Statistische und klassische Definition von Wahrscheinlichkeit
7
1.1 Klassische Definition . . . . . . . . . . . . . . . . . . . . . . .
7
1.2 Bertrand Paradoxon . . . . . . . . . . . . . . . . . . . . . . .
8
1.3 Statistische Definition . . . . . . . . . . . . . . . . . . . . . .
8
2 Definition von Mittelwert, Momenten und marginaler Verteilung
9
2.1 Verteilung einer diskreten Zufallsvariablen . . . . . . . . . . .
9
2.2 Verteilung mehrerer diskreter Zufallsvariablen . . . . . . . . . 10
3 Einführung in die Kombinatorik
3.1 Vorbemerkungen . . . . . . . . . . . . . . . . . . . . . . . .
3.2 Geordnete Stichproben . . . . . . . . . . . . . . . . . . . . .
3.2.1 Beispiele . . . . . . . . . . . . . . . . . . . . . . . . .
3.3 Unterpopulationen und Partitionierungen . . . . . . . . . .
3.3.1 Vollständige Paarungen einer Population . . . . . . .
3.3.2 Beispiel: der Random Walk . . . . . . . . . . . . . .
3.3.3 Beispiel: Korrektur bei der Informationsübertragung
3.4 Anwendung auf Besetzungszahlprobleme . . . . . . . . . . .
3.5 Geometrische und Hypergeometrische Verteilung . . . . . .
3.5.1 Fragestellung 1 ohne Zurücklegen . . . . . . . . . . .
3.5.2 Fragestellung 1 mit Zurücklegen . . . . . . . . . . .
3.5.3 Fragestellung 2 ohne Zurücklegen . . . . . . . . . . .
3.5.4 Fragestellung 2 mit Zurücklegen . . . . . . . . . . .
.
.
.
.
.
.
.
.
.
.
.
.
.
10
10
10
11
11
12
12
13
13
14
14
14
14
15
4 Grenzwertsätze
4.1 Stirlingsche Formel . . . . . . . . . .
4.2 Lokaler Grenzwertsatz (de Moivre) .
4.3 Integralsatz von de Moivre . . . . . .
4.4 Bernoullis Gesetz der großen Zahlen
4.5 Der Satz von Poisson . . . . . . . . .
.
.
.
.
.
15
15
15
15
16
16
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
5 Begriffsdefinitionen und Diskussion
16
5.1 Das Schätzexperiment mit drei Urnen . . . . . . . . . . . . . 16
5.2 Orthodoxe Statistik versus Bayessche Wahrscheinlichkeitstheorie . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 17
5.2.1 Orthodoxe Statistik . . . . . . . . . . . . . . . . . . . 17
5.2.2 Signifikanz-Test . . . . . . . . . . . . . . . . . . . . . . 17
5.2.3 Bayessche Wahrscheinlichkeitstheorie . . . . . . . . . . 18
3
INHALTSVERZEICHNIS
6 Boolsche Algebren und Borel-Körper
18
7 Axiomatische Wahrscheinlichkeitstheorie
18
8 Bayessche Wahrscheinlichkeitstheorie
8.1 Was ist Wahrscheinlichkeit . . . . . . . . . . . . . .
8.2 Das Universalgesetz der Wahrscheinlichkeitstheorie
8.3 Aussagenlogik . . . . . . . . . . . . . . . . . . . . .
8.4 Herleitung der Wahrscheinlichkeitsrechnung . . . .
8.5 Spezielle Propositionen . . . . . . . . . . . . . . . .
8.5.1 Indizierte Propositionen . . . . . . . . . . .
8.5.2 Kontinuierliche Propositionen . . . . . . . .
8.6 Einfache Beispiele . . . . . . . . . . . . . . . . . .
8.6.1 Propagatoren . . . . . . . . . . . . . . . . .
8.6.2 Das 3 Türen Problem . . . . . . . . . . . .
8.6.3 Detektor für seltene Teilchen . . . . . . . .
8.6.4 Ist die Münze symmetrisch . . . . . . . . .
8.6.5 Produktionsrate eines Mitbewerbers . . . .
8.6.6 Anzahl der Fische . . . . . . . . . . . . . .
8.6.7 Beste Auswahl aus N Vorschlägen . . . . .
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
18
18
18
19
19
19
19
19
19
19
20
20
20
21
21
21
9 Kontinuierliche Variablen
21
9.1 Verteilungsfunktion und Dichtefunktion . . . . . . . . . . . . 21
9.1.1 Beispiel eines kontinuierlichen Problems . . . . . . . . 22
9.1.2 Beispiel eines diskreten Problems . . . . . . . . . . . . 22
9.2 Weitere Definitionen . . . . . . . . . . . . . . . . . . . . . . . 22
9.2.1 Definition von Mittelwert, Momenten und marginaler
Verteilung . . . . . . . . . . . . . . . . . . . . . . . . . 22
9.2.2 Definition einer Stichprobe . . . . . . . . . . . . . . . 22
9.3 Ordnungs-Statistik . . . . . . . . . . . . . . . . . . . . . . . . 22
9.3.1 Wahrscheinlichkeitsverteilung von Maximalwerten . . 23
9.4 Gängige Wahrscheinlichkeitsverteilungen . . . . . . . . . . . . 23
9.4.1 Gleich-Verteilung . . . . . . . . . . . . . . . . . . . . . 23
9.4.2 β-Verteilung . . . . . . . . . . . . . . . . . . . . . . . 23
9.4.3 Γ-Verteilung, χ2 -Verteilung . . . . . . . . . . . . . . . 23
9.4.4 Exponential-Verteilung . . . . . . . . . . . . . . . . . . 23
9.4.5 Normal-Verteilung . . . . . . . . . . . . . . . . . . . . 23
9.4.6 Student-t-Verteilung, Cauchy-Verteilung . . . . . . . . 24
9.4.7 Multivariante Normal-Verteilung . . . . . . . . . . . . 24
9.5 Transformationseigenschaften . . . . . . . . . . . . . . . . . . 24
9.5.1 Beispiele mit einer Variablen . . . . . . . . . . . . . . 24
9.5.2 Beispiele mit zwei Variablen . . . . . . . . . . . . . . . 24
9.6 Aufenthaltswahrscheinlichkeit des harmonischen Oszillators . 24
4
INHALTSVERZEICHNIS
10 Der zentrale Grenzwertsatz
25
11 Laser-Speckle
25
II
25
Poisson
12 Poisson-Prozess, Poisson-Punkte und Wartezeiten
12.1 Stochastische Prozesse . . . . . . . . . . . . . . . . . . . . . .
12.2 Poisson Punkte . . . . . . . . . . . . . . . . . . . . . . . . . .
12.3 Intervall-Verteilung der Poisson-Punkte . . . . . . . . . . . .
12.3.1 Alternative Sicht der Poisson-Punkte . . . . . . . . . .
12.4 Wartezeiten-Paradoxon . . . . . . . . . . . . . . . . . . . . .
12.4.1 Verteilung der Intervall-Längen eines zufällig ausgewählten Intervalls . . . . . . . . . . . . . . . . . . . . . . .
12.5 Poisson-Prozess . . . . . . . . . . . . . . . . . . . . . . . . . .
12.6 Ordnungsstatistik des Poisson-Prozesses . . . . . . . . . . . .
12.7 Alternative Herleitung des Poisson-Prozesses . . . . . . . . .
12.8 Shot-Noise . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
12.9 Die Hartnäckigkeit des Pechs . . . . . . . . . . . . . . . . . .
12.10Schätzen der Halbwertszeit aus einer Stichprobe . . . . . . . .
26
26
26
26
26
26
III
28
Zuweisen von Wahrscheinlichkeiten
13 Vorbemerkungen
27
27
27
27
27
27
28
28
14 Uninformative Prioren für Parameter
28
14.1 Jeffrey’s Prior für Skalen-Variablen . . . . . . . . . . . . . . . 28
14.2 Prior für die Parameter einer Geraden . . . . . . . . . . . . . 29
15 Der
15.1
15.2
15.3
15.4
15.5
15.6
15.7
15.8
15.9
entropische Prior für diskrete Probleme
Shannon-Entropie: Informationsgehalt bei binären Fragen
Eigenschaften der Shannon-Entropie . . . . . . . . . . . .
Axiomatische Ableitung der Shannon-Entropie . . . . . .
Eigenschaften der Entropie . . . . . . . . . . . . . . . . .
Maxent-Prinzip . . . . . . . . . . . . . . . . . . . . . . . .
Maxwell-Boltzmann-Verteilung . . . . . . . . . . . . . . .
Bose-Einstein-Verteilung . . . . . . . . . . . . . . . . . . .
Fermi-Dirac-Verteilung . . . . . . . . . . . . . . . . . . . .
Vergleich mit Zufallsexperiment . . . . . . . . . . . . . . .
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
29
29
30
30
30
30
31
31
31
32
16 Maxent bei kontinuierlichen Variablen
32
17 Das invariante Rieman-Maß
32
5
INHALTSVERZEICHNIS
18 Fehlerbehaftete überprüfbare Information
33
IV
33
Parameterschätzen
19 Entscheidungstheorie
33
20 Parameter-Schätzen
20.1 Unverzerrte Schätzwerte . . . . . . . . . . . . . . . . . . . . .
20.2 Maximum-Likelihood Schätzwert . . . . . . . . . . . . . . . .
20.3 Cramer-Rao Untergrenze des Schätzwertes . . . . . . . . . . .
20.4 Parameter-Schätzen im Rahmen der Wahrscheinlichkeitstheorie
20.5 Lineare Regression . . . . . . . . . . . . . . . . . . . . . . . .
20.5.1 Schätzen einer Konstanten . . . . . . . . . . . . . . .
20.5.2 Schätzen der Parameter einer Geraden . . . . . . . . .
20.5.3 Vorhersagen bei einem linearen Modell . . . . . . . . .
20.5.4 Zahl der Datenpunkte innerhalb des Fehlerbandes . .
20.6 Parameter-Schätzen von nichtlinearen Modellen . . . . . . . .
20.7 Fehler in Abszisse und Ordinate . . . . . . . . . . . . . . . . .
20.8 Ausreißer-tolerante Parameter-Schätzung . . . . . . . . . . .
33
33
33
33
33
34
34
34
34
34
34
34
35
V
35
Hypothesentests
21 Stichproben-Verteilungen
35
22 Orthdoxe Hypothesen Tests
35
23 Wahrscheinlichkeitstheoretische Hypothesen Tests
35
24 Modell-Vergleich
35
6
Teil I
Einführung
1
Statistische und klassische Definition von Wahrscheinlichkeit
1.1
Klassische Definition
Klassische Def. von Wahrscheinlichkeit
g
P =
m
g = Anzahl günstige Fälle
m = Anzahl mögliche Fälle
Regeln
P (A ∨ B)
=
P (N )
=
nA + nB − nA∧B
= P (A) + P (B) − P (A ∧ B)
N
0
P (E)
=
1
0 ≤ P (A) ≤ 1
nA∧B
P (A ∧ B)
P (A|B)
=
=
nB
P (B)
Ereignisse sind komplementär, wenn
Ā ∨ A = E; und Ā ∧ A = N
Vereinfachte Summenregel und Wahrscheinlichkeiten für kompl. Ereignisse
P (A ∨ B) = P (A) + P (B)
P (Ā) = 1 − P (A)
Die Zahlen m und g sind jedoch nicht immer eindeutig festlegbar, daher
Präzisierte Def. der klassischen Wahrscheinlichkeit: Wahrscheinlichkeit ist das Verhältnis g/m, vorausgesetzt alle Ergebnisse sind gleich wahrscheinlich.
Diese löst jedoch nicht alle Probleme:
• Ringschluss in der Definition
• Gleich-Wahrscheinlichkeit ist nicht eindeutig
• Nur bei Gleich-Wahrscheinlichkeit anwendbar
7
1.2 Bertrand Paradoxon
1.2
Bertrand Paradoxon
Über einen Kreis werden zufällig Geraden gezeichnet. Wie groß ist die Wahrscheinlichkeit, dass der Abstand vom Zentrum kleiner als der halbe Radius
ist. Viele plausibel erscheinende Lösungen, hier 3 davon:
• Abstand vom Zentrum gleichverteilt ⇒ P = 1/2
• Winkel zwischen Gerade und Tangente gleichverteilt ⇒ P = 1/3
• Fläche des Kreises, der innerhalb“ der Geraden liegt, gleichverteilt
”
⇒ P = 1/4
Dies entsteht durch die Unwissenheit bei kontinuierlichen Freiheitsgraden.
Verteilung wurde durch konstante Wahrscheinlichkeitsdichte beschrieben,
was aber nicht korrekt ist.
Die klassische Def. wird aber noch immer angewendet, v.a. bei KombinatorikProblemen.
1.3
Statistische Definition
Wahrscheinlichkeit ist definiert durch die relative Häufigkeit
n
N →∞ N
P (A) = lim
(N Versuche; Ereignis tritt n mal auf)
Man muss keine Prior-Wahrscheinlichkeiten angeben, aber Wahrscheinlichkeit kann nur durch eine unendlich große Stichprobe ermittelt werden. Dieser
Wahrscheinlichkeitsbegriff bildet die Grundlage der orthodoxen Statistik“.
”
Nachteile des statistischen Wahrscheinlichkeitsbegriffs
• Oft gibt es keine Häufigkeitsverteilung
• Selten ist N ≫ 1
• Limes N → ∞ ist in der Praxis nicht möglich
• Interpretationsprobleme
Mit dieser Wahrscheinlichkeitsdefinition können nur wenige Probleme behandelt werden, aber sie führt zu den selben Rechenregeln wie die klassische
Definition.
8
2
2.1
Definition von Mittelwert, Momenten und marginaler Verteilung
Verteilung einer diskreten Zufallsvariablen
G . . . abzählbare Menge von Elementarereignissen
ω ∈ G . . . Elementarereignis, tritt mit Wahrscheinlichkeit Pω auf
X . . . Zufallsvariable
x . . . Realisierung von X
R . . . Menge der möglichen x, heißt Wertebereich
Def. Zufallsvariable: ist ein Funktional, das jedem Ereignis ω eine reelle
Zahl x = X(ω) zuordnet.
Mittelwert einer diskreten Zufallsvariablen
X
hXi =
X(ω) Pω
ω∈G
Der Mittelwert (oft Erwartungswert genannt) ist keine Zufallsvariable. Die
Mittelwertbildung ist eine lineare Operation.
Für eine Funktion f (X) ergibt sich:
hf (X)i = hf i =
X
f (n) Pn
n∈M
i-tes Moment einer Zufallsvariablen
­ ®
mi := ni
Es gilt: m0 = 1 und m1 = hni
i-tes zentrales Moment einer Zufallsvariablen
­
® ­
®
µi := (∆n)i = (n − hni)i
Das zweite Moment heißt Varianz:
­
® ­
® ­ ®
var(n) := σ 2 := (∆n)2 = (n − hni)2 = n2 − hni2
Standardabweichung (ist ein lineares Maß):
p
std(x) := σ := var(x)
Standardfehler einer Stichprobe vom Umfang N:
σ
Standardfehler = √
N
9
2.2 Verteilung mehrerer diskreter Zufallsvariablen
2.2
Verteilung mehrerer diskreter Zufallsvariablen
Siehe Skript (Seite 25)
Schlagworte:
• Marginale Verteilung
• Mittelwert
• Moment der Ordnung i1 , i2 , . . . , iN
• Zentrales Moment der Ordnung i1 , i2 , . . . , iN
• Kovarianz
• Unabhängige Zufallsvariablen
3
Einführung in die Kombinatorik
3.1
Vorbemerkungen
Anzahl der Paare / Multipletts
NP = n · m
Y
NM =
ni
Ein Beispiel ist das Aufteilen von r Teilchen auf n Zellen.
Die Wahrscheinlichkeit, dass eine Zelle leer bleibt, ist
¶
µ
1
r
r
n−1 r
−2
= er ln (1− n ) = e− n +O(n ) ≈ e− n
P (Zelle i leer) =
n
3.2
Geordnete Stichproben
Aus einer Menge von n Elementen (Population) werden geordnete Stichproben vom Umfang r ausgewählt. Dabei gibt es 2 Möglichkeiten:
1. Auswählen mit Zurücklegen (aus der Population kopieren)
mz
Nop
= nr
2. Auswählen ohne Zurücklegen ⇒ Variation von n Elementen zur r-ten
Klasse
n!
oz
Nop
=
(n − r)!
Spezialfall: r = n Zahl der Permutationen:
Nperm = n!
10
3.3 Unterpopulationen und Partitionierungen
3.2.1
Beispiele
Ziehen ohne Zurücklegen; gesucht ist die Wahrscheinlichkeit dafür, dass kein
Element doppelt vorkommt.
Lösungsidee: Dieses Ergebnis hätte auch ohne zurücklegen zustande kommen
können. Damit: Anzahl günstige Fälle ist die Anzahl der Möglichkeiten ohne
zurücklegen, die Anzahl der möglichen mit zurücklegen.
µ ¶r
n!
1
⇒ P =
(n − r)! n
Interpretationen des Ergebnisses
1. Zufälligkeit der letzten Ziffern in Tabellenwerken
2. n Kugeln auf n Zellen so aufteilen, dass in jeder Zelle eine Kugel ist
⇒ P = n!/nn , z.B. bei Würfeln 1.5%
3.3
Unterpopulationen und Partitionierungen
Bei Unterpopulationen ist die Reihenfolge nicht wichtig. Zahl der Unterpopulationen der Größe r einer Population der Größe n:
µ ¶
n
n!
=
ohne Zurücklegen
N (r|n) =
r
r!(n − r)!
¶
µ
n+r−1
(n + r − 1)!
=
mit Zurücklegen
N mz =
r
r!(n − 1)!
¡n¢
r heißt Binomialkoeffizient und es gilt:
µ ¶ µ
¶
n
n
=
r
n−r
Definitionen:
µ ¶
µ ¶
n
n
= 1 0! = 1 und
= 0 für r > n
0
r
Binomscher Satz
n
(a + b) =
n µ ¶
X
n
r=0
r
ar bn−r
Beim Ausmultiplizieren entstehen Sequenzen fester Länge mit a’s und b’s;
Anzahl der mathematisch äquivalenten Sequenzen = Binomialkoeffizient.
Bernoulli-Versuch:
Zufallsexperiment mit nur zwei möglichen Ausgängen wird wiederholt. Die
11
3.3 Unterpopulationen und Partitionierungen
Wahrscheinlichkeiten für die beiden Alternativen seien p und q.
Wahrscheinlichkeit für r Vorkommnisse der ersten Alternative bei n Versuchen ist:
1. Unter Berücksichtigung der Reihenfolge: pr q n−r
2. Ohne Berücksichtigung der Reihenfolge: Binomialverteilung
µ ¶
n r
p (1 − p)n−r
P (r|n, p) =
r
hri = n p
var(r) = n p (1 − p)
Bei mehr als 2 Ausgängen ist die Zahl der möglichen Partitionierungen der
Multinomialkoeffizient:
µ
¶
n
n!
N ({ni } |n, k) =
= Qk
{ni }
i=1 ni !
Multinomialverteilung
P ({ni } |n, k) =
3.3.1
¶Y
k
n
pni i
{ni }
µ
i=1
Vollständige Paarungen einer Population
Anzahl bei N = 2m Elementen:
Nk = (N − 1)!!
3.3.2
Beispiel: der Random Walk
Versuch: Schief gestelltes Brett mit Nägeln in regelmäßiger Anordnung. Kugel wird von oben reingerollt.
Da es hier bei jedem Nagel eine Entscheidung mit zwei Ausgängen gibt,
wird die Wahrscheinlichkeit für die Position der Kugel nach n Schritten
durch die Binomialverteilung beschrieben. Die Kugel muss, um zum Platz i
zu kommen, vorher auf i + 1 oder i − 1 gewesen sein. Baut man so iterativ
eine Struktur auf, entsteht das Pascalsche Dreieck.
Durch diverse Verkomplizierungen entstehen Probleme, welche PfadintegralBehandlungen von Vielteilchen-Problemen ähneln.
Der Schwerpunkt driftet mit der Geschwindigkeit“ v = p − q, die Breite
”
nimmt durch Diffusion, die mit steigendem v abnimmt, zu.
12
3.4 Anwendung auf Besetzungszahlprobleme
3.3.3
Beispiel: Korrektur bei der Informationsübertragung
Situation: Die Übertragung von Bits ist fehlerbehaftet. Um diese zu korrigieren, wird die Übertragung n-mal (n ungerade) wiederholt und die Majoritätsregel (als richtig gilt der häufigere Wert) verwendet.
Lösung: mit Marginalisierungsregel kommt Binomialverteilung ins Spiel, Annäherung mit de-Moivrescher Integralformel.
Ergebnis: Je größer die Wahrscheinlichkeit für korrekte Übertragung eines
Bits ist, um so schneller konvergiert Wahrscheinlichkeit für korrekte Gesamtübertragung gegen 1.
3.4
Anwendung auf Besetzungszahlprobleme
1. Verteilen von identischen Teilchen auf Zellen.
Gesamtzahl der Teilchen ist N .
Zahl der unterscheidbaren Verteilungen auf k Zellen:
¶
¶ µ
µ
N +k−1
N +k−1
=
AN,k =
k−1
N
Beweis: Graphische Darstellung der Teilchen und Begrenzungen. Es
werden N Teilchen oder k − 1 Begrenzungen auf N + k − 1 Plätze
verteilt.
2. Multinomialverteilung bei gleichwahrscheinlichen (pα = 1/k) Ereignissen heißt Boltzmann-Verteilung
µ
¶
N
PB ({ni } |n, k) =
k −N
{ni }
N
hni i =
k µ
¶
1
1
1−
var(ni ) = N
k
k
µ
¶
1
1
cov(ni , nj ) = N
δij −
k
k
Da die k N Möglichkeiten (für unterscheidbare Teilchen) nicht gleich
wahrscheinlich sind, stimmt die Boltzmann-Verteilung für identische
Teilchen nicht.
Bei Bosonen ist die Anzahl der unterscheidbaren Verteilungen: An,k ,
jede Konfiguration hat die Wahrscheinlichkeit 1/An,k
P =
N !(k − 1)!
(N + k − 1)!
13
3.5 Geometrische und Hypergeometrische Verteilung
¡ ¢
Bei Fermionen gibt es Nk Möglichkeiten die N Teilchen zu verteilen.
¡ ¢
Wahrscheinlichkeit für eine bestimmte Verteilung hier: 1/ Nk
P =
3.5
N !(k − N )!
k!
Geometrische und Hypergeometrische Verteilung
Behandelt werden Populationen der Größe n, die nur zwei Arten von Elementen beinhalten (nI und nII Stück). Beim Ziehen mit oder ohne Zurücklegen einer geordneten Stichprobe werden zwei Fragen gestellt:
1. Unter Berücksichtigung der Reihenfolge: Wahrscheinlichkeit, dass erst
beim k-ten Zug ein Element vom Typ II gezogen wird.
2. Wie groß ist die Wahrscheinlichkeit, dass kI Elemente vom ersten Typ
enthalten sind.
3.5.1
Fragestellung 1 ohne Zurücklegen
Anzahl der günstigen Ereignisse ist die Zahl der geordneten Stichproben der
Größe k − 1 aus nI Elementen, multipliziert mit nII Möglichkeiten beim kten Zug. Die Anzahl der möglichen Ergebnisse ist die Anzahl der geordneten
Stichproben vom Umfang k aus n Elementen.
nI ! nII
(n − k)!
(nI − (k − 1))!
n!
3.5.2
Fragestellung 1 mit Zurücklegen
Berechnung ist wie in 3.5.1, nur andere Stichprobenanzahlen-Formeln. Andere Art der Herleitung: man führt pI und pII ein.
Dies führt auf die Geometrische Verteilung.
P (kI |pI ) = pkI I (1 − pI )
3.5.3
Fragestellung 2 ohne Zurücklegen
Die Anzahl der günstigen Fälle setzt sich aus den Anzahlen kα aus nα Elementen zu ziehen zusammen. Die möglichen Fälle ist die Anzahl k aus n
Elementen zu ziehen. Dis ist die Hypergeometrische Verteilung
¡nI ¢¡nII ¢
P (kI |k = kI + kII , nI , nII ) =
14
kI
¡n¢kII
k
3.5.4
Fragestellung 2 mit Zurücklegen
Man beachtet, dass es im Ergebnis nicht auf die Reihenfolge ankommt, und
kommt auf die Binomialverteilung.
4
4.1
Grenzwertsätze
Stirlingsche Formel
Gammafunktion:
Γ(x) =
Z
∞
tx−1 e−t dt
0
Es gilt:
Γ(n + 1) = n!
Γ(x + 1) = xΓ(x)
√ ©
ª
1
Γ(x) = xx− 2 e−x 2π 1 + O(x−1 )
Die letzte Gleichung ist die asymptotische Darstellung für große |x|. Setzt
man diese für n! ein, erhält man die stirlingsche Formel für n! und ln(n!).
Der relative Fehler dieser Näherung verschwindet mit 1/n.
4.2
Lokaler Grenzwertsatz (de Moivre)
Die Binomialverteilung kann für große np(1 − p) durch eine Gauß-Funktion
approximiert werden. Allerdings ist diese Näherung auf ein Intervall beschränkt und auch nicht sehr genau (am ehesten noch in der Nähe des Maximums), weshalb sie in der praktischen Anwendung nicht sehr wichtig ist.
Allerdings ist sie für analytische Auswertungen praktisch.
4.3
Integralsatz von de Moivre
Es geht um Fragen, bei denen nicht nach genau k Ereignissen, sondern nach
höchstens k Ereignissen bei n Versuchen gefragt wird.
Der Integralsatz sagt aus, dass die aufgretende Summe von Wahrscheinlichkeiten durch ein Integral angenähert werden kann, und im Limes n → ∞
gleich diesem ist.
Wichtige Funktion: (ungerade Funkion mit Bildbereich (0,1) )
Z x
1
2
Φ(x) = √
e−t /2 dt
2π −∞
Damit ist das oben genannte Integral Φ(b) − Φ(a)
15
4.4 Bernoullis Gesetz der großen Zahlen
Fehlerfunktion erf(x)
2
erf(x) = √
π
4.4
Z
x
2
e−t dt
0
Bernoullis Gesetz der großen Zahlen
Die Wahrscheinlichkeit, dass bei einem Bernoulli-Versuch mit n Wiederholungen ein Ereignis (mit Wahrscheinlichkeit p) k = np mal auftritt (Mittelwert) wird durch die de-Moivre-Laplace-Näherung beschrieben. Diese geht
jedoch im Limes n → ∞ gegen 0. Die Wahrscheinlichkeit ein k im σ - Bereich zu finden ist erf( √12 ) ≈ 32 .
√
Für den 2σ - Bereich: erf( 2) ≈ 95%
Bernoullis Gesetz der großen Zahlen sagt aus, dass mit n → ∞ die intrinsische Wahrscheinlichkeit p gleich der relativen Häufigkeit nk wird.
4.5
Der Satz von Poisson
Satz von Poisson
Bernoulli-Versuch mit np = µ = const
³
µk
µ´
= e−µ
=: P (k|µ)
lim P k|n, p =
n→∞
n
k!
Dies ist die Poisson-Verteilung.
Die Bedingung kann auf zwei Arten verstanden werden.
1. p ≪ 1 und np nicht zu groß: Poisson-Verteilung ist Näherung für die
Binomial-Verteilung
2. Zeitintervall, in dem im Mittel µ Ereignisse auftreten. Dieses wird in
n Teilintervalle aufgeteilt. Die Wahrscheinlichkeit für ein Ereignis in
einem Teilintervall ist p = nµ .
Für µ ≫ 1 geht die Poisson-Verteilung sehr gut in eine Gauß-Verteilung
über. Erwartungswert und Varianz sind beide µ.
Zählexperimente unterliegen generell der Poisson-Statistik! So erhält
√ man
aus der Zählrate N einen Schätzwert für den wahren Wert µ = N ± N
5
5.1
Begriffsdefinitionen und Diskussion
Das Schätzexperiment mit drei Urnen
Siehe Skript (Seite 67)
16
5.2 Orthodoxe Statistik versus Bayessche Wahrscheinlichkeitstheorie
Enthaltene Definitionen: Bedingungskomplex, Versuch/Experiment, Zufallsversuch, Grundgesamtheit, Elementarereignisse, Bernoulli-Versuche, Stichprobe, Ereignis, Propositionen, Hypothesen, Vorwärts-/Rückwärtsrechnung
5.2
Orthodoxe Statistik versus Bayessche Wahrscheinlichkeitstheorie
Dies sind zwei kontroverse Sichtweisen bei Problemen der induktiven Logik.
5.2.1
Orthodoxe Statistik
Siehe Skript (Seite 71)
5.2.2
Signifikanz-Test
Mit einem Signifikanz-Test wird überprüft, ob Daten zu einer Hypothese passen. Falls nicht, nennt man das Experiment signifikant. Signifikante Daten
erkennt man daran, dass sie in den Ausläufern der durch die Hypothese gegebenen Wahrscheinlichkeitsverteilung liegen. Wenn die Wahrscheinlichkeit
(Fläche unter der Hypothesen-Verteilung) für das Auftreten einer Abweichung vom Hypothesen-Mittelwert, die größer als die im Experiment beobachtete Abweichung ∆n∗ ist, kleiner ist als das festgelegte SignifikanzNiveau ps , dann verwirft man die Hypothese.
Statistischer Fehler erster Art: Eine richtige Hypothese wird verworfen.
Die Wahrscheinlichkeit dafür heißt Irrtumswahrscheinlchkeit.
Statistischer Fehler zweiter Art: Eine falsche Hypothese wird akzeptiert.
Beim Signifikanz-Test macht man mit der Wahrscheinlchkeit ps einen Fehler
erster Art, was man unterdrücken kann, wenn man ps niedriger ansetzt. Dadurch wird aber die Wahrscheinlichkeit für einen Fehler zweiter Art drastisch
erhöht.
Nachteile:
• Ad hoc
• Nur Verteilungen mit nur einem Gipfel (unimodal) geeignet
• Es wird immer nur eine Hypthese betrachtet, Alternativen gehen nicht
ein
• Wahl des Signifikanz-Niveaus
17
5.2.3
Bayessche Wahrscheinlichkeitstheorie
Unterschiede zur orthodoxen:
1. Wahrscheinlichkeitsbegriff : Wahrscheinlichkeit ist ein Maß dafür,
dass eine Proposition wahr ist.
2. Zufälligkeit: nicht intrinsisch, sondern entsteht durch Unwissenheit,
durch die der Ausgang eines Experiments nicht berechenbar ist.
Die BWT ist die einzige konsistente Theorie mit der Teilwahrheiten beschrieben werden können.
Prior-Wahrscheinlichkeit: Ist die Wahrscheinlichkeit P (X|B) für X wenn
nur der Bedingungskomplex (und keine Daten) vorliegt.
Posterior-(Rückwärts-)Wahrscheinlichkeit: Ist die Wahrscheinlichkeit
P (X|D, B) wenn auch noch Daten D vorliegen.
Likelihood-Funktion (Vorwärts-Wahrscheinlichkeit): Die Wahrscheinlichkeit P (D|X, B) die Daten D zu messen wenn die Proposition X wahr
ist. Nicht normiert!
6
Boolsche Algebren und Borel-Körper
Nicht Prüfungsstoff
7
Axiomatische Wahrscheinlichkeitstheorie
Nicht Prüfungsstoff
8
8.1
Bayessche Wahrscheinlichkeitstheorie
Was ist Wahrscheinlichkeit
Wahrscheinlichkeit ist ein Maß für den Wahrheitsgehalt einer Proposition.
Es gibt keine Absoluten Wahrscheinlichkeiten, da es immer einen Bedingungskomplex gibt.
Man kann Wahrscheinlichkeiten auch als Implikationsmaß sehen.
8.2
Das Universalgesetz der Wahrscheinlichkeitstheorie
Die Regeln der Wahrscheinlichkeitsrechnung lassen sich aus der Regel für
das NAND P (A ↑ B|B) ableiten.
18
8.3 Aussagenlogik
8.3
Aussagenlogik
Siehe Skriptum (Seite 94)
8.4
Herleitung der Wahrscheinlichkeitsrechnung
Nicht Prüfungsstoff
8.5
8.5.1
Spezielle Propositionen
Indizierte Propositionen
Siehe Skriptum (Seite 102)
Schlagworte: Paarweise disjunkte Propositionen, Partitionierung (disjunkt
und vollständig), Summenregel für diskrete Freiheitsgrade (Normierung und
Marginalisierungsregel:)
X
P (B|B) =
P (B|Ai , B) P (Ai |B)
i
8.5.2
Kontinuierliche Propositionen
Siehe Skriptum (Seite 103)
Marginalisierungsregel:
P (B|B) =
Z
P (B|x, B) P (x|B) dx
Bayessches Theorem:
P (H|D, B) =
P (D|H, B) P (H|B)
P (D|B)
(D sind die Daten, H ist Hypothese. . . )
8.6
8.6.1
Einfache Beispiele
Propagatoren
Ein Partygast propagiert an N Bars vorbei (oder hinein) nach Hause. Dabei
gibt es folgende Wahrscheinlichkeiten / Propositionen:
PB Wahrscheinlichkeit für das Einkehren
PR Wahrscheinlichkeit dass er wieder herauskommt
En Prop. er kehrt in n Bars ein
H Prop. er kommt zu Hause an
19
8.6 Einfache Beispiele
Mit Marginalisierungsregel:
P (H|N, B) =
N
X
n=0
P (H|En , N, B) P (En |N, B)
Die Entscheidungen für das Einkehren sind unkorreliert → Bernoulli-Versuch.
µ ¶
N
PBn (1 − PB )N −n
P (En |N, B) =
n
Wahrscheinlichkeit dass er aus allen Bars herauskommt: P (H|En , N, B) =
PRn
Damit (einsetzen, . . . ):
P (H|N, B) = (1 − PB (1 − PR ))n
Wichtig: Bezug zur Physik: Dämpfung (N ist zurückgelegter Weg, Wahrscheinlichkeit von einer Bar absorbiert zu werden entspricht Dämpfungskonstante)
8.6.2
Das 3 Türen Problem
Siehe Skript (Seite 106)
8.6.3
Detektor für seltene Teilchen
Propositionen:
T /T̄ Teilchen vorhanden / nicht vorhanden
D Detektor spricht an.
Gesucht: Wahrscheinlichkeit dafür, dass ein Teilchen vorhanden ist wenn der
Detektor anspricht.
Mit Bayesschem Theorem und Marginalisierungsregel (im Nenner):
P (T |D, B) =
P (D|T, B) P (T |B)
¡
¢ ¡
¢
P (D|T, B) P (T |B) + P D|T̄ , B P T̄ |B
Dies kann auch auf medizinische Untersuchungen übertragen werden.
Für Zahlenbeispiele siehe Skript (Seite 107).
8.6.4
Ist die Münze symmetrisch
Wichtig: Odds-Ratio
o=
P (H|D, B)
¡
¢
P H̄|D, B
20
H ist Hypothese
D sind Daten
Damit muss man den Normierungsnenner beim Anwenden des Bayesschen
Theorems auf Zähler und Nenner nicht berechnen.
Weiteres (Bayessches Theorem anwenden, Prior-Odds = 1, marginale Likelihood mit Marginalisierungsregel aus Likelihood, Likelihood ist Binomialverteilung, dann alles rückeinsetzen) siehe Skript (Seite 108).
8.6.5
Produktionsrate eines Mitbewerbers
Aus einer Produktion von N Stück wird eine Stichprobe (L Stück) gezogen.
Dabei sind ni die Seriennummern. Gesucht ist die Größe der Produktion,
wenn man nur die Stichprobe kennt:
P (N |n1 , n2 , . . . nL , L, B)
Lösungsansatz: Bayessches Theorem anwenden, die vielen ni mit Produktregel vereinfachen, Nmax einführen (für Prior-Wahrsch., die als Gleichverteilung angesetzt wird) und am Ende der Rechnung gegen unendlich gehen
lassen.
8.6.6
Anzahl der Fische
Siehe Skript (Seite 113)
8.6.7
Beste Auswahl aus N Vorschlägen
Siehe Skript (Seite 115)
9
9.1
Kontinuierliche Variablen
Verteilungsfunktion und Dichtefunktion
Verteilungsfunktion, auch kummulative Wahrscheinlichkeit:
F (x) = P (x ≤ x|B)
Wahrscheinlichkeitsdichte
p(x) =
d
F (x)
dx
Dies kann auch für diskrete Probleme definiert werden. Darstellung dann
über Summen und δ-Peaks.
21
9.2 Weitere Definitionen
9.1.1
Beispiel eines kontinuierlichen Problems
Schießen auf Kreis - Siehe Skript (Seite 122)
9.1.2
Beispiel eines diskreten Problems
Bernoulli-Experiment mit 6 Wiederholungen - Siehe Skript (Seite 123)
9.2
9.2.1
Weitere Definitionen
Definition von Mittelwert, Momenten und marginaler Verteilung
Mittelwert:
hXi =
Z
∞
x p(x) dx
−∞
Alle weiteren Definitionen werden aus Kap. 2 (Seite 9) übernommen, wobei
Summen durch Integrale ersetzt werden.
9.2.2
Definition einer Stichprobe
Eine Stichprobe ist eine Menge unabhängige Feststellungen (Messungen) der
Zufallsvariable.
9.3
Ordnungs-Statistik
Gegeben sei eine nach aufsteigenden Werten sortierte Stichprobe (s1 ≤ s2 ≤
s3 · · · ≤ sL ) einer Verteilung (F (x), Dichte ρ(x)).
Gesucht: P (sk ∈ (x, s + dx)|L, ρ, B)
Es müssen 3 Propositionen erfüllt sein:
1. k − 1 Elemente ≤ x
2. L − k Elemente ≥ x
3. ein Element im Intervall (x, x + dx)
Somit entspricht das Problem dem Aufteilen von L Elementen auf drei Boxen
⇒ Multinomialverteilung:
P (sk ∈ (x, x + dx)|L, ρ, B) =
L!
F (x)k−1 (1 − F (x))L−k ρ(x) dx
{z
} | {z }
(k − 1)!(L − k)! | {z } |
p1
22
p2
p3
9.4 Gängige Wahrscheinlichkeitsverteilungen
9.3.1
Wahrscheinlichkeitsverteilung von Maximalwerten
Gesucht: Wahrscheinlichkeitsdichte der Maximalwerte p (ξ|L, B) (also dass
ξ der Maximalwert ist).
Dies ist die Ordnungsstatistik für k = L.
Es folgt die Maxima-Statistik:
p (ξ|L, B) = L F (ξ)k−1 ρ(ξ)
9.4
9.4.1
Gängige Wahrscheinlichkeitsverteilungen
Gleich-Verteilung
Definiert: x ∈ [a, b]
9.4.2
pg (x|a, b) =
β-Verteilung
Definiert: x ∈ [0, 1]
pβ (x|α, ρ) =
9.4.3
1
b−a
1
xα (1 − x)ρ−1
B(α, ρ)
Γ-Verteilung, χ2 -Verteilung
Γ-Verteilung Definiert: x ∈ [0, ∞)
pΓ (x|α, β) =
β α α−1 −βx
x
e
Γ(α)
χ2 -Verteilung Ist Spezialfall der Γ-Verteilung mit α = n/2 und β = 1/2
n
pχ2 (x|n) =
9.4.4
2− 2 n −1 − 1 x
x2 e 2
Γ( n2 )
Exponential-Verteilung
Definiert: x ∈ [0, ∞) Ist Spezialfall der Γ-Verteilung mit α = 1 und β = λ
pe (x|λ) = λ e−λx
9.4.5
Normal-Verteilung
Definiert: x ∈ (−∞, ∞)
p(x|x0 , σ) = √
1
2πσ 2
23
e−
(x−x0 )2
2σ 2
9.5 Transformationseigenschaften
9.4.6
Student-t-Verteilung, Cauchy-Verteilung
Student-t-Verteilung Definiert: x ∈ (−∞, ∞))
1
pt (t|ν) = √
νB( 21 , ν2 )
µ
t2
1+
ν
¶− 21 (ν+1)
Sie entsteht wenn man aus der Dichte der Normal-Verteilung σ als unbekannt
ausintegriert. Cauchy-Verteilung Ist Spezialfall der Student-t-Verteilung
mit ν = 1
1
pC (x) =
π(1 + x2 )
9.4.7
Multivariante Normal-Verteilung
x ist nun ein Vektor, und die Rolle von σ 2 übernimmt die Kovarianzmatrix
(bzw deren Determinante).
9.5
Transformationseigenschaften
Variablentransformation:
¯
¯
¯ ∂xi ¯
¯
py (y) = px (x) ¯¯
∂yj ¯
Die Jakobi-Determinante beschreibt die Änderung der Volumina.
9.5.1
Beispiele mit einer Variablen
1. Gleichverteilung auf dem Einheitsintervall, Übergang zu y = − ln x
2. Uneigentliche Gleich-Verteilung, Transformation σ = ex
Es resultiert ein 1/σ Verhalten, welches Skaleninvariant ist.
9.5.2
Beispiele mit zwei Variablen
Übergang in Kreiskoordinaten.
9.6
Aufenthaltswahrscheinlichkeit des harmonischen Oszillators
Auslenkung:
x = A cos(ωt + ϕ)
24
Gesucht: p (x|A, ω, φ, B) Einschieben“ der Zeit mit Marginalisierungsregel,
”
dann p (x|t, A, ω, φ, B) = δ(x − A cos(ωt + ϕ)), δ-Funktion und t transformieren. Problem mit dem Prior, wenn man ihn konstant ansetzt (nicht
normierbar), deshalb σ einführen und gegen Unendlich gehen lassen. Damit
geht die Nullstellensumme in ein Integral über, welches 1 ergibt.
Die Lösung ist nur von A und x abhängig.
10
Der zentrale Grenzwertsatz
Es wird die charakteristische Funktion definiert, deren Bildung einer
nicht symmetrisch definierten Fouriertransformation entspricht.
Der Zentrale Grenzwertsatz sagt aus, dass die Summe (S) von gewichteten Zufallszahlen (xn ) normalverteilt ist.
S=
N
X
cn xn
n=1
Mit Mittelwert µ und Varianz σx2
Voraussetzung:
N
1 X ν
lim
cn = aν = konst, ν ∈ Z
N →∞ N
n=1
Dann gilt
lim p (S|N, B) = N (S| hSi , var(S))
N →∞
hSi = µ
var(S) =
N
X
cn
n=1
N
X
cn2
σx2
n=1
Der zentrale Grenzwertsatz bildet die Grundlage der Monte-Carlo-Integration.
11
Laser-Speckle
Nicht Prüfungsstoff
25
Teil II
Poisson
12
12.1
Poisson-Prozess, Poisson-Punkte und Wartezeiten
Stochastische Prozesse
f (x|λ) (x kontinuierlich) ist ein stochastischer Prozess, wenn die Parameter
λ Zufallsvariablen sind.
Es gelten alle Regeln der Wahrscheinlichkeitstheorie, es sind nur die Ergebnisse (für die Zufallsvariablen) von x abhängig.
12.2
Poisson Punkte
Es werden zufällig N Punkte (werden Poisson-Punkte genannt) in einem
Intervall der Länge L erzeugt. Die Wahrscheinlichkeit, dass n Teilchen im
Teilintervall der Länge x sind, ist die Binomialverteilung P (n|N, p = x/L)
und die mittlere Zahl der Teilchen im Teilintervall ist µ = x ρ (ρ ist Punktdichte N/L).
Erhöht man bei konstanter Punktdichte und Intervalllänge x die Größen
L und N , wird die Wahrscheinlichkeit im Limes N → ∞ zur PoissonVerteilung
(ρx)n
P (n|x, ρ, B) := e−ρx
n!
12.3
Intervall-Verteilung der Poisson-Punkte
Lösung ist Exponentialverteilung.
Siehe Skriptum.
12.3.1
Alternative Sicht der Poisson-Punkte
Man kann die Poisson-Punkte auch konstruieren, indem man an einem Punkt
anfängt und aus der Exponentialverteilung aus 12.3 den Abstand zum nächsten Punkt ermittelt.
12.4
Wartezeiten-Paradoxon
Annahme: das Eintreffen von Bussen an der Haltestelle ist ein PoissonProzess. Gesucht: mittlere Wartezeit auf einen Bus, bei zufälligem Eintreffen
an der Haltestelle p (∆t|t ∈ L, B).
26
12.5 Poisson-Prozess
Lösungsweg: Über Marginalisierungsregel die Intervalllänge L einführen,
erste“ Wahrscheinlichkeit ist dann die Gleichverteilung von ∆t in (0, L),
”
die zweite wird dem Bayesschen Theorem umgeformt. Der Normierungsnenner und unbekannte Faktoren werden zusammengefasst und über die
Normierung bestimmt.
Ergebnis: Exponentialverteilung
12.4.1
Verteilung der Intervall-Längen eines zufällig ausgewählten Intervalls
Gesucht: p (L|x ∈ I, B)
Lösen wie in 12.4 (entspricht zweiter Wahrsch.), mit Bayesschem Theorem.
12.5
Poisson-Prozess
N (t) ist die Anzahl der Poisson-Punkte, die bis t aufgetreten sind.
12.6
Ordnungsstatistik des Poisson-Prozesses
Gesucht: Wahrscheinlichkeitsdichte für: Der n-te Punkt hat die Koordinate
x.
Dafür müssen n−1 Punkte bis x aufgetreten sein, und einer liegt im Intervall
(x, x + dx).
Daraus folgt die Erlang-Verteilung
p (xn = x|ρ, B) = e−ρx
12.7
(ρx)n−1
· ρ
(n − 1)!
Alternative Herleitung des Poisson-Prozesses
Gesucht: Wahrscheinlichkeit, dass bis t n Poisson-Punkte aufgetreten sind.
Lösungsweg: Betrachten der Wahrsch. zur Zeit t+dt, Marginalisierungsregel,
in Summe bleiben nur zwei Summanden übrig, Umformen und man erhält
eine Differentialgleichung. Diese kann man mit elementaren Methoden oder
mit erzeugenden Funktionen lösen.
12.8
Shot-Noise
Anwendungen sind nicht Prüfungsstoff.
12.9
Die Hartnäckigkeit des Pechs
Anwendungen sind nicht Prüfungsstoff.
27
12.10 Schätzen der Halbwertszeit aus einer Stichprobe
12.10
Schätzen der Halbwertszeit aus einer Stichprobe
Anwendungen sind nicht Prüfungsstoff.
Teil III
Zuweisen von Wahrscheinlichkeiten
13
Vorbemerkungen
Beim Anwenden des Bayeschen Theorems oder wenn Parameter in einer
Likelihood-Funktion nicht bekannt sind treten oft unbekannte Prioren auf.
Es gilt nun Methoden zum Angeben solcher Prioren zu finden.
Man unterscheidet drei Fälle:
• Uninformative Prioren
• Exakte, überprüfbare Information testable information
• Fehlerbehaftete, überprüfbare Information
14
Uninformative Prioren für Parameter
Wenn man nichts über die Ausgangswahrscheinlichkeiten weiß, kann man
bei diskreten Problemen das Laplacesche Prinzip (gleiche Wahrscheinlichkeiten) anwenden, welches jedoch für kontinuierliche Probleme unbrauchbar
ist.
Transformations-Invarianz-Prinzip TIP: Eine Transformation, die die
Aufgabenstellung nicht ändert, darf die Wahrscheinlichkeitsdichte nicht verändern.
Damit folgt eine Bestimmungsgleichung für die Wahrscheinlichkeitsdichte,
wenn man eine Transformation anwendet. Wendet man infinitesimale Transformationen an und leitet nach dem infinitesimalen Parameter ǫi ab, erhält
man die TIP-Gleichung
¯¸
¯
·
¯ ∂Tǫ (x) ¯
∂
¯
¯
p(Tǫ (x)) ¯
∂ǫi
∂x ¯
ǫ=0
Weiß man nun, dass eine Transformation invariant ist, kann man diese mit
der TIP-Gleichung zur Bestimmung des Priors heranziehen.
14.1
Jeffrey’s Prior für Skalen-Variablen
Skalen-Variablen sind Variablen, bei denen Skalieren (z.B. wechseln auf andere Einheiten) und Potenzieren invariante Transformationen sind. Jeffrey’s
28
14.2 Prior für die Parameter einer Geraden
Prior:
1
x
Da dieser nicht normierbar ist, werden Cutoffs eingeführt, die man am Ende
der Rechnungen gegen unendlich gehen lässt.
p(x) =
14.2
Prior für die Parameter einer Geraden
Gesucht ist die Prior-Wahrscheinlichkeit für die Parameter (der Geradengleichung) einer Geraden in der Ebene. Die Invarianzen sind: Drehung und
Verschiebung.
Über den Weg der Darstellung mit der Normalengleichung folgt aus der
TIP-Gleichung: pΦ,d = const, nach der Rücktransformation erhält man den
uneigentlichen (in b nicht normierbar) Prior:
3
p(a, b) = (1 + a2 )− 2
15
Der entropische Prior für diskrete Probleme
Es soll exakte, überprüfbare Information (Nebenbedingungen) vorliegen.
Dies ist der Fall, wenn man feststellen kann, ob gegebene Verteilungen diese
Nebenbedingungen erfüllen oder nicht.
Gesucht wird stets jene Verteilung, die mit den Nebenbedingungen verträglich ist, und die am wenigsten Information beinhaltet (man will
sich möglichst wenig festlegen).
Nun wird ein Maß für den Informationsgehalt benötigt.
15.1
Shannon-Entropie: Informationsgehalt bei binären Fragen
Um einen aus N möglichen Gegenständen mit Binärfragen zu identifizieren
braucht man log2 N (diese Anzahl U (Q, B) ist ein Maß für die Ungewissheit)
Fragen. Aufgrund der Additivität ist dies auch der Fall, wenn man die Menge
in gleich große Gruppen aufteilt. Teilt man sie in verschieden große Gruppen
auf (nicht mehr alle Gleich-Wahrscheinlich), dann ist die Anzahl der Fragen
abhängig von der Gruppe, in der sich der gesuchte Gegenstand befindet,
jedoch niemals größer als wenn man keine Gruppen hätte. Die Additivität
gilt nicht mehr allgemein, jedoch wird die Additivität im Mittel gefordert.
Shannon-Entropie
S({pi }) = −
m
X
i=1
29
pi ln(pi )
15.2 Eigenschaften der Shannon-Entropie
pi : Wahrscheinlichkeit für: Objekt ist in Gruppe i
Sie ist ein Maß für die Ungewissheit.
15.2
Eigenschaften der Shannon-Entropie
• S≥0
• liegt nur die Normierungsbedingung vor, ist die maximale Entropie
1
gegeben
stets mit pi = m
15.3
Axiomatische Ableitung der Shannon-Entropie
Das Maß der Ungewissheit H soll folgende Axiome erfüllen:
• Eindeutigkeit
• Stetigkeit
ª
©
• Monotonie H( L1 , L1 , . . . ) wächst mit L monoton
• Additivität (wie in 15.1)
Jenes Funktional H, welches diese Axiome erfüllt, ist proportional zur ShannonEntropie. Da nur das Maximum davon gesucht wird, ist der Proportionalitätsfaktor irrellevant.
15.4
Eigenschaften der Entropie
Siehe Skriptum (Seite 217)
15.5
Maxent-Prinzip
Aus der Entropie, den Normierungsbedingungen und den gegebenen Nebenbedingungen (die letzten beiden mit Lagrange-Parametern) wird die
Lagrange-Funktion zusammengesetzt. Die Maxent-Lösung erhält man aus
der Nullstelle der Funktionalableitungen nach den Prior-Wahrscheinlichkeiten.
Die Lagrange-Funktion ist global konvex, weshalb die Lösung eindeutig ist.
Maxent-Lösung:
Pi =
1 P µ λµ ∂P∂ ϕµ {Pj }
i
e
Z
Z = Zustandssumme
30
15.6 Maxwell-Boltzmann-Verteilung
Maxent-Lösung bei linearen Nebenbedingungen:
Pi =
1 P µ λµ Kµj
e
Z
Kµj . . . Koeffizienten in den Nebenbedingungen
15.6
Maxwell-Boltzmann-Verteilung
Es sei nur eine zusätzliche Nebenbedingung gegeben:
X
hEi =
Pj Ej
j
Es ergibt sich die Maxwell-Boltzmann-Verteilung
Pi =
1 −β Ei
e
Z
β wird aus − ∂ ln(Z)
= hEi und der Nebenbedingung (hEi ist ja gegeben)
∂β
berechnet.
15.7
Bose-Einstein-Verteilung
Die mittlere Energie ist wieder
hinzu kommt die Kenntnis der
P bekannt,
P
mittleren Teilchenzahl hN i = j ∞
n
P
jn .
n=0
Unbekannt ist, wie viele Teilchen sich in einem bestimmten Volumen und
bestimmten Zustand befinden.
Besetzungszahlen der Bose-Einstein-Verteilung
ni =
15.8
1
eβ(Ei −µ)
−1
Fermi-Dirac-Verteilung
Wie Bose-Einstein, jedoch können nur 0 oder 1 Teilchen zugleich in einem
Zustand sein.
Die Berechnung läuft analog, lediglich die Zustandssumme ergibt etwas anderes.
Besetzungszahlen der Fermi-Dirac-Verteilung
ni =
1
eβ(Ei −µ) + 1
31
15.9 Vergleich mit Zufallsexperiment
15.9
Vergleich mit Zufallsexperiment
Maxent
Eine Zufallsvariable soll bestimmte Werte annehmen können. Zusätzlich sind
Nebenbedingungen gegeben. Daraus liefert die Maxent-Lösung eine Wahrscheinlichkeitsverteilung, die angibt wie wahrscheinlich das Auftreten eines
Wertes ist.
Zufallsexperiment
Die Werte der Zufallsvariable (Stichprobe) werden in einem Zufallsexperiment ermittelt. Gefragt wird nach der wahrscheinlichsten Häufigkeitsverteilung in zukünftigen Experimenten. Diese entspricht genau der MaxentLösung.
Je größer der Stichprobenumfang, um so genauer passt die aus der Stichprobe errechnete Verteilung zur Maxent-Lösung (Entropie-KonzentrationsTheorem: die Entropien der Verteilungen konzentrieren sich immer mehr
um das Maximum).
16
Maxent bei kontinuierlichen Variablen
Wenn der Summationsindex i eine kontinuierliche Variable x werden soll,
geht Pj in P (∆xj ) = p(xj ) ∆xj über.
∆xj ist der Abstand der Punkte, der mit steigendem N gegen 0 geht.
Generell geht man so vor, dass man N gegen unendlich gehen lässt und als
(invariantes) Maß die Zustandsdichte (Zustände pro Länge) m(x) verwendet.
Die Entropie wird nun als Grenzwert N → ∞ der diskreten definiert. Es
ergibt sich:
µ
¶
Z
p(x)
S C = − p(x) ln
dx
m(x)
Zum Auffinden der Maxent-Lösung wird wieder die Methode der LagrangeFunktion verwendet. Maxent-Lösung bei linearen Nebenbedingungen:
P
1
p(x) =
m(x) e µ λµ Kµ (x)
Z
Kennt man die untersten beiden Momente (Mittelwert und Standardabweichung) einer Verteilung, so ist die Maxent-Lösung die Gauß-Verteilung
17
Das invariante Rieman-Maß
Nicht Prüfungsstoff
32
18
Fehlerbehaftete überprüfbare Information
Nicht Prüfungsstoff
Teil IV
Parameterschätzen
19
Entscheidungstheorie
Nicht Prüfungsstoff
20
20.1
Parameter-Schätzen
Unverzerrte Schätzwerte
Siehe Skriptum (Seite 271)
20.2
Maximum-Likelihood Schätzwert
Der Maximum-Likelihood Schätzwert ist jener Parameter(satz), welcher die
Likelihood p (y, a) maximiert.
Die Lösung wird bestimmt, indem man die (bekannte) Log-Likelihood nach
den Parametern ableitet:
∂ ln(p (y, a))
= 0;
∂ai
Maximieren der Log-Likelihood ist äquivalent zum Minimieren der gewichteten, mittleren, quadratischen Abweichung. Eine Anwendung davon ist der
Least-Squares-Fit.
20.3
Cramer-Rao Untergrenze des Schätzwertes
Nicht Prüfungsstoff
20.4
Parameter-Schätzen im Rahmen der Wahrscheinlichkeitstheorie
???
33
20.5 Lineare Regression
20.5
Lineare Regression
Es geht um Modelle, die linear in den Parametern a sind. Die Daten, die man
beim öfteren Durchführen eines Experiments erhält, kann man in VektorNotation einfach anschreiben:
y=Xa
y ist der Vektor der Ergebnisse, in den Zeilen von X stehen die Steuergrößen
und a ist der Parametersatz.
Lösung siehe Skriptum (Seite 292)
Dabei wird eine Transformation mit C −1/2 angewendet (Fehler unkorreliert,
Standardabw. = 1).
20.5.1
Schätzen einer Konstanten
Siehe Skriptum (Seite 295)
20.5.2
Schätzen der Parameter einer Geraden
Siehe Skriptum (Seite 296)
20.5.3
Vorhersagen bei einem linearen Modell
Es wird nach der Verteilung des Ergebnisses y für neue Steuergrößen x
gefragt.
Diese Ergebnisse sind normalverteilt um die durch den Fit bestimmte Gerade, und deren Streuung nimmt zu, je weiter die Steuerparameter vom
Zentrum der Daten entfernt sind.
20.5.4
Zahl der Datenpunkte innerhalb des Fehlerbandes
Siehe Skriptum (Seite 302)
20.6
Parameter-Schätzen von nichtlinearen Modellen
Nicht Prüfungsstoff
20.7
Fehler in Abszisse und Ordinate
Nicht Prüfungsstoff
34
20.8 Ausreißer-tolerante Parameter-Schätzung
20.8
Ausreißer-tolerante Parameter-Schätzung
Nicht Prüfungsstoff
Teil V
Hypothesentests
21
Stichproben-Verteilungen
Nicht Prüfungsstoff
22
Orthdoxe Hypothesen Tests
Eigentlich gleiches Prinzip wie bei den Signifikanz-Tests (Kap. 5.2.2), jedoch
ist hier die Herangehensweise folgendermaßen:
Man hat nur Stichproben zur Verfügung, und vergleicht diese. Die Hypothese, dass bei beiden eine Größe (z.B. Mittelwert) den selben Wert hat, ist
eine Null-Hypothese. In Tests (z.B. z-Test) wird eine neue Größe eingeführt,
die stets eine Differenz beinhaltet, und damit eine Verteilung um 0. Mit
dieser Verteilung wird ein Signifikanz-Test durchgeführt, mit den üblichen
Signifikanz-Niveaus 1% und 5%.
23
Wahrscheinlichkeitstheoretische Hypothesen Tests
Nicht Prüfungsstoff
24
Modell-Vergleich
Nicht Prüfungsstoff
35
Herunterladen