Wahrscheinlichkeitstheorie Auszug aus dem Skript zur Prüfungsvorbereitung Georg Huhs Graz, am 14. September 2004 1 Vorbemerkungen Dieses Mini-Skript ist eine Zusammenfassung des Stoffs für die mündliche Prüfung in Wahrscheinlichkeitstheorie. In diesem Sinne ist es jedoch nicht vollständig. Dies äußert sich vor allem im öfters anzutreffenden Hinweis Sie” he Skript“. An all diesen Stellen ist mir keine sinnvolle Zusammenfassung oder Umformulierung des im Originalskriptum enthaltenen Textes eingefallen, weshalb die Aufnahme jener Passagen in dieses Dokument eine reine Abschreibarbeit gewesen wäre (und natürlich auch, bis auf ein einfacheres Handling, keinen Vorteil beim Lernen bringen würde). Durch eine kleine Fehlauffassung des zu lernenden Stoffes meinerseits fehlen des weiteren noch ein paar wichtige Dinge (was mir allerdings erst bei der Prüfung auffiel): • Formeln für Erwartungswert und Varianz bei den Verteilungen in Kap. 9.4 • Grafische Darstellungen der Wahrscheinlichkeitsdichten der selben Verteilungen Außerdem ist mir noch nicht klar, ob das Kapitel 20.4 zum Prüfungsstoff gehört. Als Vorlage diente das Skriptum der Herrn Prüll und Prof. Von der Linden, Version vom 10.12.2002. Alle angegebenen Seitenzahlen beziehen sich ebenfalls auf diese Ausgabe. Sollte jemand einen der zweifellos enthaltenen Fehler finden, oder gewillt sein diese Zusammenfassung zu komplettieren oder zu erweitern, so würde es mich sehr freuen, das überarbeitete Dokument zu erhalten. Ich schicke natürlich jedem gerne das tex-File und werde mich bemühen stets eine aktuelle Version zur Verfügung zu stellen. Ich bin unter [email protected] erreichbar. Ich hoffe, dass dieses Mini-Skript nicht nur mir bei der Prüfungsvorbereitung hilft, und wünsche noch allen die herzflatternd (oder auch nicht) vor der Tür zum Prüfungsraum stehen Alles Gute! Mit freundlichen Grüßen - Georg 2 INHALTSVERZEICHNIS Inhaltsverzeichnis I Einführung 7 1 Statistische und klassische Definition von Wahrscheinlichkeit 7 1.1 Klassische Definition . . . . . . . . . . . . . . . . . . . . . . . 7 1.2 Bertrand Paradoxon . . . . . . . . . . . . . . . . . . . . . . . 8 1.3 Statistische Definition . . . . . . . . . . . . . . . . . . . . . . 8 2 Definition von Mittelwert, Momenten und marginaler Verteilung 9 2.1 Verteilung einer diskreten Zufallsvariablen . . . . . . . . . . . 9 2.2 Verteilung mehrerer diskreter Zufallsvariablen . . . . . . . . . 10 3 Einführung in die Kombinatorik 3.1 Vorbemerkungen . . . . . . . . . . . . . . . . . . . . . . . . 3.2 Geordnete Stichproben . . . . . . . . . . . . . . . . . . . . . 3.2.1 Beispiele . . . . . . . . . . . . . . . . . . . . . . . . . 3.3 Unterpopulationen und Partitionierungen . . . . . . . . . . 3.3.1 Vollständige Paarungen einer Population . . . . . . . 3.3.2 Beispiel: der Random Walk . . . . . . . . . . . . . . 3.3.3 Beispiel: Korrektur bei der Informationsübertragung 3.4 Anwendung auf Besetzungszahlprobleme . . . . . . . . . . . 3.5 Geometrische und Hypergeometrische Verteilung . . . . . . 3.5.1 Fragestellung 1 ohne Zurücklegen . . . . . . . . . . . 3.5.2 Fragestellung 1 mit Zurücklegen . . . . . . . . . . . 3.5.3 Fragestellung 2 ohne Zurücklegen . . . . . . . . . . . 3.5.4 Fragestellung 2 mit Zurücklegen . . . . . . . . . . . . . . . . . . . . . . . . 10 10 10 11 11 12 12 13 13 14 14 14 14 15 4 Grenzwertsätze 4.1 Stirlingsche Formel . . . . . . . . . . 4.2 Lokaler Grenzwertsatz (de Moivre) . 4.3 Integralsatz von de Moivre . . . . . . 4.4 Bernoullis Gesetz der großen Zahlen 4.5 Der Satz von Poisson . . . . . . . . . . . . . . 15 15 15 15 16 16 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5 Begriffsdefinitionen und Diskussion 16 5.1 Das Schätzexperiment mit drei Urnen . . . . . . . . . . . . . 16 5.2 Orthodoxe Statistik versus Bayessche Wahrscheinlichkeitstheorie . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 17 5.2.1 Orthodoxe Statistik . . . . . . . . . . . . . . . . . . . 17 5.2.2 Signifikanz-Test . . . . . . . . . . . . . . . . . . . . . . 17 5.2.3 Bayessche Wahrscheinlichkeitstheorie . . . . . . . . . . 18 3 INHALTSVERZEICHNIS 6 Boolsche Algebren und Borel-Körper 18 7 Axiomatische Wahrscheinlichkeitstheorie 18 8 Bayessche Wahrscheinlichkeitstheorie 8.1 Was ist Wahrscheinlichkeit . . . . . . . . . . . . . . 8.2 Das Universalgesetz der Wahrscheinlichkeitstheorie 8.3 Aussagenlogik . . . . . . . . . . . . . . . . . . . . . 8.4 Herleitung der Wahrscheinlichkeitsrechnung . . . . 8.5 Spezielle Propositionen . . . . . . . . . . . . . . . . 8.5.1 Indizierte Propositionen . . . . . . . . . . . 8.5.2 Kontinuierliche Propositionen . . . . . . . . 8.6 Einfache Beispiele . . . . . . . . . . . . . . . . . . 8.6.1 Propagatoren . . . . . . . . . . . . . . . . . 8.6.2 Das 3 Türen Problem . . . . . . . . . . . . 8.6.3 Detektor für seltene Teilchen . . . . . . . . 8.6.4 Ist die Münze symmetrisch . . . . . . . . . 8.6.5 Produktionsrate eines Mitbewerbers . . . . 8.6.6 Anzahl der Fische . . . . . . . . . . . . . . 8.6.7 Beste Auswahl aus N Vorschlägen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 18 18 18 19 19 19 19 19 19 19 20 20 20 21 21 21 9 Kontinuierliche Variablen 21 9.1 Verteilungsfunktion und Dichtefunktion . . . . . . . . . . . . 21 9.1.1 Beispiel eines kontinuierlichen Problems . . . . . . . . 22 9.1.2 Beispiel eines diskreten Problems . . . . . . . . . . . . 22 9.2 Weitere Definitionen . . . . . . . . . . . . . . . . . . . . . . . 22 9.2.1 Definition von Mittelwert, Momenten und marginaler Verteilung . . . . . . . . . . . . . . . . . . . . . . . . . 22 9.2.2 Definition einer Stichprobe . . . . . . . . . . . . . . . 22 9.3 Ordnungs-Statistik . . . . . . . . . . . . . . . . . . . . . . . . 22 9.3.1 Wahrscheinlichkeitsverteilung von Maximalwerten . . 23 9.4 Gängige Wahrscheinlichkeitsverteilungen . . . . . . . . . . . . 23 9.4.1 Gleich-Verteilung . . . . . . . . . . . . . . . . . . . . . 23 9.4.2 β-Verteilung . . . . . . . . . . . . . . . . . . . . . . . 23 9.4.3 Γ-Verteilung, χ2 -Verteilung . . . . . . . . . . . . . . . 23 9.4.4 Exponential-Verteilung . . . . . . . . . . . . . . . . . . 23 9.4.5 Normal-Verteilung . . . . . . . . . . . . . . . . . . . . 23 9.4.6 Student-t-Verteilung, Cauchy-Verteilung . . . . . . . . 24 9.4.7 Multivariante Normal-Verteilung . . . . . . . . . . . . 24 9.5 Transformationseigenschaften . . . . . . . . . . . . . . . . . . 24 9.5.1 Beispiele mit einer Variablen . . . . . . . . . . . . . . 24 9.5.2 Beispiele mit zwei Variablen . . . . . . . . . . . . . . . 24 9.6 Aufenthaltswahrscheinlichkeit des harmonischen Oszillators . 24 4 INHALTSVERZEICHNIS 10 Der zentrale Grenzwertsatz 25 11 Laser-Speckle 25 II 25 Poisson 12 Poisson-Prozess, Poisson-Punkte und Wartezeiten 12.1 Stochastische Prozesse . . . . . . . . . . . . . . . . . . . . . . 12.2 Poisson Punkte . . . . . . . . . . . . . . . . . . . . . . . . . . 12.3 Intervall-Verteilung der Poisson-Punkte . . . . . . . . . . . . 12.3.1 Alternative Sicht der Poisson-Punkte . . . . . . . . . . 12.4 Wartezeiten-Paradoxon . . . . . . . . . . . . . . . . . . . . . 12.4.1 Verteilung der Intervall-Längen eines zufällig ausgewählten Intervalls . . . . . . . . . . . . . . . . . . . . . . . 12.5 Poisson-Prozess . . . . . . . . . . . . . . . . . . . . . . . . . . 12.6 Ordnungsstatistik des Poisson-Prozesses . . . . . . . . . . . . 12.7 Alternative Herleitung des Poisson-Prozesses . . . . . . . . . 12.8 Shot-Noise . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 12.9 Die Hartnäckigkeit des Pechs . . . . . . . . . . . . . . . . . . 12.10Schätzen der Halbwertszeit aus einer Stichprobe . . . . . . . . 26 26 26 26 26 26 III 28 Zuweisen von Wahrscheinlichkeiten 13 Vorbemerkungen 27 27 27 27 27 27 28 28 14 Uninformative Prioren für Parameter 28 14.1 Jeffrey’s Prior für Skalen-Variablen . . . . . . . . . . . . . . . 28 14.2 Prior für die Parameter einer Geraden . . . . . . . . . . . . . 29 15 Der 15.1 15.2 15.3 15.4 15.5 15.6 15.7 15.8 15.9 entropische Prior für diskrete Probleme Shannon-Entropie: Informationsgehalt bei binären Fragen Eigenschaften der Shannon-Entropie . . . . . . . . . . . . Axiomatische Ableitung der Shannon-Entropie . . . . . . Eigenschaften der Entropie . . . . . . . . . . . . . . . . . Maxent-Prinzip . . . . . . . . . . . . . . . . . . . . . . . . Maxwell-Boltzmann-Verteilung . . . . . . . . . . . . . . . Bose-Einstein-Verteilung . . . . . . . . . . . . . . . . . . . Fermi-Dirac-Verteilung . . . . . . . . . . . . . . . . . . . . Vergleich mit Zufallsexperiment . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 29 29 30 30 30 30 31 31 31 32 16 Maxent bei kontinuierlichen Variablen 32 17 Das invariante Rieman-Maß 32 5 INHALTSVERZEICHNIS 18 Fehlerbehaftete überprüfbare Information 33 IV 33 Parameterschätzen 19 Entscheidungstheorie 33 20 Parameter-Schätzen 20.1 Unverzerrte Schätzwerte . . . . . . . . . . . . . . . . . . . . . 20.2 Maximum-Likelihood Schätzwert . . . . . . . . . . . . . . . . 20.3 Cramer-Rao Untergrenze des Schätzwertes . . . . . . . . . . . 20.4 Parameter-Schätzen im Rahmen der Wahrscheinlichkeitstheorie 20.5 Lineare Regression . . . . . . . . . . . . . . . . . . . . . . . . 20.5.1 Schätzen einer Konstanten . . . . . . . . . . . . . . . 20.5.2 Schätzen der Parameter einer Geraden . . . . . . . . . 20.5.3 Vorhersagen bei einem linearen Modell . . . . . . . . . 20.5.4 Zahl der Datenpunkte innerhalb des Fehlerbandes . . 20.6 Parameter-Schätzen von nichtlinearen Modellen . . . . . . . . 20.7 Fehler in Abszisse und Ordinate . . . . . . . . . . . . . . . . . 20.8 Ausreißer-tolerante Parameter-Schätzung . . . . . . . . . . . 33 33 33 33 33 34 34 34 34 34 34 34 35 V 35 Hypothesentests 21 Stichproben-Verteilungen 35 22 Orthdoxe Hypothesen Tests 35 23 Wahrscheinlichkeitstheoretische Hypothesen Tests 35 24 Modell-Vergleich 35 6 Teil I Einführung 1 Statistische und klassische Definition von Wahrscheinlichkeit 1.1 Klassische Definition Klassische Def. von Wahrscheinlichkeit g P = m g = Anzahl günstige Fälle m = Anzahl mögliche Fälle Regeln P (A ∨ B) = P (N ) = nA + nB − nA∧B = P (A) + P (B) − P (A ∧ B) N 0 P (E) = 1 0 ≤ P (A) ≤ 1 nA∧B P (A ∧ B) P (A|B) = = nB P (B) Ereignisse sind komplementär, wenn Ā ∨ A = E; und Ā ∧ A = N Vereinfachte Summenregel und Wahrscheinlichkeiten für kompl. Ereignisse P (A ∨ B) = P (A) + P (B) P (Ā) = 1 − P (A) Die Zahlen m und g sind jedoch nicht immer eindeutig festlegbar, daher Präzisierte Def. der klassischen Wahrscheinlichkeit: Wahrscheinlichkeit ist das Verhältnis g/m, vorausgesetzt alle Ergebnisse sind gleich wahrscheinlich. Diese löst jedoch nicht alle Probleme: • Ringschluss in der Definition • Gleich-Wahrscheinlichkeit ist nicht eindeutig • Nur bei Gleich-Wahrscheinlichkeit anwendbar 7 1.2 Bertrand Paradoxon 1.2 Bertrand Paradoxon Über einen Kreis werden zufällig Geraden gezeichnet. Wie groß ist die Wahrscheinlichkeit, dass der Abstand vom Zentrum kleiner als der halbe Radius ist. Viele plausibel erscheinende Lösungen, hier 3 davon: • Abstand vom Zentrum gleichverteilt ⇒ P = 1/2 • Winkel zwischen Gerade und Tangente gleichverteilt ⇒ P = 1/3 • Fläche des Kreises, der innerhalb“ der Geraden liegt, gleichverteilt ” ⇒ P = 1/4 Dies entsteht durch die Unwissenheit bei kontinuierlichen Freiheitsgraden. Verteilung wurde durch konstante Wahrscheinlichkeitsdichte beschrieben, was aber nicht korrekt ist. Die klassische Def. wird aber noch immer angewendet, v.a. bei KombinatorikProblemen. 1.3 Statistische Definition Wahrscheinlichkeit ist definiert durch die relative Häufigkeit n N →∞ N P (A) = lim (N Versuche; Ereignis tritt n mal auf) Man muss keine Prior-Wahrscheinlichkeiten angeben, aber Wahrscheinlichkeit kann nur durch eine unendlich große Stichprobe ermittelt werden. Dieser Wahrscheinlichkeitsbegriff bildet die Grundlage der orthodoxen Statistik“. ” Nachteile des statistischen Wahrscheinlichkeitsbegriffs • Oft gibt es keine Häufigkeitsverteilung • Selten ist N ≫ 1 • Limes N → ∞ ist in der Praxis nicht möglich • Interpretationsprobleme Mit dieser Wahrscheinlichkeitsdefinition können nur wenige Probleme behandelt werden, aber sie führt zu den selben Rechenregeln wie die klassische Definition. 8 2 2.1 Definition von Mittelwert, Momenten und marginaler Verteilung Verteilung einer diskreten Zufallsvariablen G . . . abzählbare Menge von Elementarereignissen ω ∈ G . . . Elementarereignis, tritt mit Wahrscheinlichkeit Pω auf X . . . Zufallsvariable x . . . Realisierung von X R . . . Menge der möglichen x, heißt Wertebereich Def. Zufallsvariable: ist ein Funktional, das jedem Ereignis ω eine reelle Zahl x = X(ω) zuordnet. Mittelwert einer diskreten Zufallsvariablen X hXi = X(ω) Pω ω∈G Der Mittelwert (oft Erwartungswert genannt) ist keine Zufallsvariable. Die Mittelwertbildung ist eine lineare Operation. Für eine Funktion f (X) ergibt sich: hf (X)i = hf i = X f (n) Pn n∈M i-tes Moment einer Zufallsvariablen ­ ® mi := ni Es gilt: m0 = 1 und m1 = hni i-tes zentrales Moment einer Zufallsvariablen ­ ® ­ ® µi := (∆n)i = (n − hni)i Das zweite Moment heißt Varianz: ­ ® ­ ® ­ ® var(n) := σ 2 := (∆n)2 = (n − hni)2 = n2 − hni2 Standardabweichung (ist ein lineares Maß): p std(x) := σ := var(x) Standardfehler einer Stichprobe vom Umfang N: σ Standardfehler = √ N 9 2.2 Verteilung mehrerer diskreter Zufallsvariablen 2.2 Verteilung mehrerer diskreter Zufallsvariablen Siehe Skript (Seite 25) Schlagworte: • Marginale Verteilung • Mittelwert • Moment der Ordnung i1 , i2 , . . . , iN • Zentrales Moment der Ordnung i1 , i2 , . . . , iN • Kovarianz • Unabhängige Zufallsvariablen 3 Einführung in die Kombinatorik 3.1 Vorbemerkungen Anzahl der Paare / Multipletts NP = n · m Y NM = ni Ein Beispiel ist das Aufteilen von r Teilchen auf n Zellen. Die Wahrscheinlichkeit, dass eine Zelle leer bleibt, ist ¶ µ 1 r r n−1 r −2 = er ln (1− n ) = e− n +O(n ) ≈ e− n P (Zelle i leer) = n 3.2 Geordnete Stichproben Aus einer Menge von n Elementen (Population) werden geordnete Stichproben vom Umfang r ausgewählt. Dabei gibt es 2 Möglichkeiten: 1. Auswählen mit Zurücklegen (aus der Population kopieren) mz Nop = nr 2. Auswählen ohne Zurücklegen ⇒ Variation von n Elementen zur r-ten Klasse n! oz Nop = (n − r)! Spezialfall: r = n Zahl der Permutationen: Nperm = n! 10 3.3 Unterpopulationen und Partitionierungen 3.2.1 Beispiele Ziehen ohne Zurücklegen; gesucht ist die Wahrscheinlichkeit dafür, dass kein Element doppelt vorkommt. Lösungsidee: Dieses Ergebnis hätte auch ohne zurücklegen zustande kommen können. Damit: Anzahl günstige Fälle ist die Anzahl der Möglichkeiten ohne zurücklegen, die Anzahl der möglichen mit zurücklegen. µ ¶r n! 1 ⇒ P = (n − r)! n Interpretationen des Ergebnisses 1. Zufälligkeit der letzten Ziffern in Tabellenwerken 2. n Kugeln auf n Zellen so aufteilen, dass in jeder Zelle eine Kugel ist ⇒ P = n!/nn , z.B. bei Würfeln 1.5% 3.3 Unterpopulationen und Partitionierungen Bei Unterpopulationen ist die Reihenfolge nicht wichtig. Zahl der Unterpopulationen der Größe r einer Population der Größe n: µ ¶ n n! = ohne Zurücklegen N (r|n) = r r!(n − r)! ¶ µ n+r−1 (n + r − 1)! = mit Zurücklegen N mz = r r!(n − 1)! ¡n¢ r heißt Binomialkoeffizient und es gilt: µ ¶ µ ¶ n n = r n−r Definitionen: µ ¶ µ ¶ n n = 1 0! = 1 und = 0 für r > n 0 r Binomscher Satz n (a + b) = n µ ¶ X n r=0 r ar bn−r Beim Ausmultiplizieren entstehen Sequenzen fester Länge mit a’s und b’s; Anzahl der mathematisch äquivalenten Sequenzen = Binomialkoeffizient. Bernoulli-Versuch: Zufallsexperiment mit nur zwei möglichen Ausgängen wird wiederholt. Die 11 3.3 Unterpopulationen und Partitionierungen Wahrscheinlichkeiten für die beiden Alternativen seien p und q. Wahrscheinlichkeit für r Vorkommnisse der ersten Alternative bei n Versuchen ist: 1. Unter Berücksichtigung der Reihenfolge: pr q n−r 2. Ohne Berücksichtigung der Reihenfolge: Binomialverteilung µ ¶ n r p (1 − p)n−r P (r|n, p) = r hri = n p var(r) = n p (1 − p) Bei mehr als 2 Ausgängen ist die Zahl der möglichen Partitionierungen der Multinomialkoeffizient: µ ¶ n n! N ({ni } |n, k) = = Qk {ni } i=1 ni ! Multinomialverteilung P ({ni } |n, k) = 3.3.1 ¶Y k n pni i {ni } µ i=1 Vollständige Paarungen einer Population Anzahl bei N = 2m Elementen: Nk = (N − 1)!! 3.3.2 Beispiel: der Random Walk Versuch: Schief gestelltes Brett mit Nägeln in regelmäßiger Anordnung. Kugel wird von oben reingerollt. Da es hier bei jedem Nagel eine Entscheidung mit zwei Ausgängen gibt, wird die Wahrscheinlichkeit für die Position der Kugel nach n Schritten durch die Binomialverteilung beschrieben. Die Kugel muss, um zum Platz i zu kommen, vorher auf i + 1 oder i − 1 gewesen sein. Baut man so iterativ eine Struktur auf, entsteht das Pascalsche Dreieck. Durch diverse Verkomplizierungen entstehen Probleme, welche PfadintegralBehandlungen von Vielteilchen-Problemen ähneln. Der Schwerpunkt driftet mit der Geschwindigkeit“ v = p − q, die Breite ” nimmt durch Diffusion, die mit steigendem v abnimmt, zu. 12 3.4 Anwendung auf Besetzungszahlprobleme 3.3.3 Beispiel: Korrektur bei der Informationsübertragung Situation: Die Übertragung von Bits ist fehlerbehaftet. Um diese zu korrigieren, wird die Übertragung n-mal (n ungerade) wiederholt und die Majoritätsregel (als richtig gilt der häufigere Wert) verwendet. Lösung: mit Marginalisierungsregel kommt Binomialverteilung ins Spiel, Annäherung mit de-Moivrescher Integralformel. Ergebnis: Je größer die Wahrscheinlichkeit für korrekte Übertragung eines Bits ist, um so schneller konvergiert Wahrscheinlichkeit für korrekte Gesamtübertragung gegen 1. 3.4 Anwendung auf Besetzungszahlprobleme 1. Verteilen von identischen Teilchen auf Zellen. Gesamtzahl der Teilchen ist N . Zahl der unterscheidbaren Verteilungen auf k Zellen: ¶ ¶ µ µ N +k−1 N +k−1 = AN,k = k−1 N Beweis: Graphische Darstellung der Teilchen und Begrenzungen. Es werden N Teilchen oder k − 1 Begrenzungen auf N + k − 1 Plätze verteilt. 2. Multinomialverteilung bei gleichwahrscheinlichen (pα = 1/k) Ereignissen heißt Boltzmann-Verteilung µ ¶ N PB ({ni } |n, k) = k −N {ni } N hni i = k µ ¶ 1 1 1− var(ni ) = N k k µ ¶ 1 1 cov(ni , nj ) = N δij − k k Da die k N Möglichkeiten (für unterscheidbare Teilchen) nicht gleich wahrscheinlich sind, stimmt die Boltzmann-Verteilung für identische Teilchen nicht. Bei Bosonen ist die Anzahl der unterscheidbaren Verteilungen: An,k , jede Konfiguration hat die Wahrscheinlichkeit 1/An,k P = N !(k − 1)! (N + k − 1)! 13 3.5 Geometrische und Hypergeometrische Verteilung ¡ ¢ Bei Fermionen gibt es Nk Möglichkeiten die N Teilchen zu verteilen. ¡ ¢ Wahrscheinlichkeit für eine bestimmte Verteilung hier: 1/ Nk P = 3.5 N !(k − N )! k! Geometrische und Hypergeometrische Verteilung Behandelt werden Populationen der Größe n, die nur zwei Arten von Elementen beinhalten (nI und nII Stück). Beim Ziehen mit oder ohne Zurücklegen einer geordneten Stichprobe werden zwei Fragen gestellt: 1. Unter Berücksichtigung der Reihenfolge: Wahrscheinlichkeit, dass erst beim k-ten Zug ein Element vom Typ II gezogen wird. 2. Wie groß ist die Wahrscheinlichkeit, dass kI Elemente vom ersten Typ enthalten sind. 3.5.1 Fragestellung 1 ohne Zurücklegen Anzahl der günstigen Ereignisse ist die Zahl der geordneten Stichproben der Größe k − 1 aus nI Elementen, multipliziert mit nII Möglichkeiten beim kten Zug. Die Anzahl der möglichen Ergebnisse ist die Anzahl der geordneten Stichproben vom Umfang k aus n Elementen. nI ! nII (n − k)! (nI − (k − 1))! n! 3.5.2 Fragestellung 1 mit Zurücklegen Berechnung ist wie in 3.5.1, nur andere Stichprobenanzahlen-Formeln. Andere Art der Herleitung: man führt pI und pII ein. Dies führt auf die Geometrische Verteilung. P (kI |pI ) = pkI I (1 − pI ) 3.5.3 Fragestellung 2 ohne Zurücklegen Die Anzahl der günstigen Fälle setzt sich aus den Anzahlen kα aus nα Elementen zu ziehen zusammen. Die möglichen Fälle ist die Anzahl k aus n Elementen zu ziehen. Dis ist die Hypergeometrische Verteilung ¡nI ¢¡nII ¢ P (kI |k = kI + kII , nI , nII ) = 14 kI ¡n¢kII k 3.5.4 Fragestellung 2 mit Zurücklegen Man beachtet, dass es im Ergebnis nicht auf die Reihenfolge ankommt, und kommt auf die Binomialverteilung. 4 4.1 Grenzwertsätze Stirlingsche Formel Gammafunktion: Γ(x) = Z ∞ tx−1 e−t dt 0 Es gilt: Γ(n + 1) = n! Γ(x + 1) = xΓ(x) √ © ª 1 Γ(x) = xx− 2 e−x 2π 1 + O(x−1 ) Die letzte Gleichung ist die asymptotische Darstellung für große |x|. Setzt man diese für n! ein, erhält man die stirlingsche Formel für n! und ln(n!). Der relative Fehler dieser Näherung verschwindet mit 1/n. 4.2 Lokaler Grenzwertsatz (de Moivre) Die Binomialverteilung kann für große np(1 − p) durch eine Gauß-Funktion approximiert werden. Allerdings ist diese Näherung auf ein Intervall beschränkt und auch nicht sehr genau (am ehesten noch in der Nähe des Maximums), weshalb sie in der praktischen Anwendung nicht sehr wichtig ist. Allerdings ist sie für analytische Auswertungen praktisch. 4.3 Integralsatz von de Moivre Es geht um Fragen, bei denen nicht nach genau k Ereignissen, sondern nach höchstens k Ereignissen bei n Versuchen gefragt wird. Der Integralsatz sagt aus, dass die aufgretende Summe von Wahrscheinlichkeiten durch ein Integral angenähert werden kann, und im Limes n → ∞ gleich diesem ist. Wichtige Funktion: (ungerade Funkion mit Bildbereich (0,1) ) Z x 1 2 Φ(x) = √ e−t /2 dt 2π −∞ Damit ist das oben genannte Integral Φ(b) − Φ(a) 15 4.4 Bernoullis Gesetz der großen Zahlen Fehlerfunktion erf(x) 2 erf(x) = √ π 4.4 Z x 2 e−t dt 0 Bernoullis Gesetz der großen Zahlen Die Wahrscheinlichkeit, dass bei einem Bernoulli-Versuch mit n Wiederholungen ein Ereignis (mit Wahrscheinlichkeit p) k = np mal auftritt (Mittelwert) wird durch die de-Moivre-Laplace-Näherung beschrieben. Diese geht jedoch im Limes n → ∞ gegen 0. Die Wahrscheinlichkeit ein k im σ - Bereich zu finden ist erf( √12 ) ≈ 32 . √ Für den 2σ - Bereich: erf( 2) ≈ 95% Bernoullis Gesetz der großen Zahlen sagt aus, dass mit n → ∞ die intrinsische Wahrscheinlichkeit p gleich der relativen Häufigkeit nk wird. 4.5 Der Satz von Poisson Satz von Poisson Bernoulli-Versuch mit np = µ = const ³ µk µ´ = e−µ =: P (k|µ) lim P k|n, p = n→∞ n k! Dies ist die Poisson-Verteilung. Die Bedingung kann auf zwei Arten verstanden werden. 1. p ≪ 1 und np nicht zu groß: Poisson-Verteilung ist Näherung für die Binomial-Verteilung 2. Zeitintervall, in dem im Mittel µ Ereignisse auftreten. Dieses wird in n Teilintervalle aufgeteilt. Die Wahrscheinlichkeit für ein Ereignis in einem Teilintervall ist p = nµ . Für µ ≫ 1 geht die Poisson-Verteilung sehr gut in eine Gauß-Verteilung über. Erwartungswert und Varianz sind beide µ. Zählexperimente unterliegen generell der Poisson-Statistik! So erhält √ man aus der Zählrate N einen Schätzwert für den wahren Wert µ = N ± N 5 5.1 Begriffsdefinitionen und Diskussion Das Schätzexperiment mit drei Urnen Siehe Skript (Seite 67) 16 5.2 Orthodoxe Statistik versus Bayessche Wahrscheinlichkeitstheorie Enthaltene Definitionen: Bedingungskomplex, Versuch/Experiment, Zufallsversuch, Grundgesamtheit, Elementarereignisse, Bernoulli-Versuche, Stichprobe, Ereignis, Propositionen, Hypothesen, Vorwärts-/Rückwärtsrechnung 5.2 Orthodoxe Statistik versus Bayessche Wahrscheinlichkeitstheorie Dies sind zwei kontroverse Sichtweisen bei Problemen der induktiven Logik. 5.2.1 Orthodoxe Statistik Siehe Skript (Seite 71) 5.2.2 Signifikanz-Test Mit einem Signifikanz-Test wird überprüft, ob Daten zu einer Hypothese passen. Falls nicht, nennt man das Experiment signifikant. Signifikante Daten erkennt man daran, dass sie in den Ausläufern der durch die Hypothese gegebenen Wahrscheinlichkeitsverteilung liegen. Wenn die Wahrscheinlichkeit (Fläche unter der Hypothesen-Verteilung) für das Auftreten einer Abweichung vom Hypothesen-Mittelwert, die größer als die im Experiment beobachtete Abweichung ∆n∗ ist, kleiner ist als das festgelegte SignifikanzNiveau ps , dann verwirft man die Hypothese. Statistischer Fehler erster Art: Eine richtige Hypothese wird verworfen. Die Wahrscheinlichkeit dafür heißt Irrtumswahrscheinlchkeit. Statistischer Fehler zweiter Art: Eine falsche Hypothese wird akzeptiert. Beim Signifikanz-Test macht man mit der Wahrscheinlchkeit ps einen Fehler erster Art, was man unterdrücken kann, wenn man ps niedriger ansetzt. Dadurch wird aber die Wahrscheinlichkeit für einen Fehler zweiter Art drastisch erhöht. Nachteile: • Ad hoc • Nur Verteilungen mit nur einem Gipfel (unimodal) geeignet • Es wird immer nur eine Hypthese betrachtet, Alternativen gehen nicht ein • Wahl des Signifikanz-Niveaus 17 5.2.3 Bayessche Wahrscheinlichkeitstheorie Unterschiede zur orthodoxen: 1. Wahrscheinlichkeitsbegriff : Wahrscheinlichkeit ist ein Maß dafür, dass eine Proposition wahr ist. 2. Zufälligkeit: nicht intrinsisch, sondern entsteht durch Unwissenheit, durch die der Ausgang eines Experiments nicht berechenbar ist. Die BWT ist die einzige konsistente Theorie mit der Teilwahrheiten beschrieben werden können. Prior-Wahrscheinlichkeit: Ist die Wahrscheinlichkeit P (X|B) für X wenn nur der Bedingungskomplex (und keine Daten) vorliegt. Posterior-(Rückwärts-)Wahrscheinlichkeit: Ist die Wahrscheinlichkeit P (X|D, B) wenn auch noch Daten D vorliegen. Likelihood-Funktion (Vorwärts-Wahrscheinlichkeit): Die Wahrscheinlichkeit P (D|X, B) die Daten D zu messen wenn die Proposition X wahr ist. Nicht normiert! 6 Boolsche Algebren und Borel-Körper Nicht Prüfungsstoff 7 Axiomatische Wahrscheinlichkeitstheorie Nicht Prüfungsstoff 8 8.1 Bayessche Wahrscheinlichkeitstheorie Was ist Wahrscheinlichkeit Wahrscheinlichkeit ist ein Maß für den Wahrheitsgehalt einer Proposition. Es gibt keine Absoluten Wahrscheinlichkeiten, da es immer einen Bedingungskomplex gibt. Man kann Wahrscheinlichkeiten auch als Implikationsmaß sehen. 8.2 Das Universalgesetz der Wahrscheinlichkeitstheorie Die Regeln der Wahrscheinlichkeitsrechnung lassen sich aus der Regel für das NAND P (A ↑ B|B) ableiten. 18 8.3 Aussagenlogik 8.3 Aussagenlogik Siehe Skriptum (Seite 94) 8.4 Herleitung der Wahrscheinlichkeitsrechnung Nicht Prüfungsstoff 8.5 8.5.1 Spezielle Propositionen Indizierte Propositionen Siehe Skriptum (Seite 102) Schlagworte: Paarweise disjunkte Propositionen, Partitionierung (disjunkt und vollständig), Summenregel für diskrete Freiheitsgrade (Normierung und Marginalisierungsregel:) X P (B|B) = P (B|Ai , B) P (Ai |B) i 8.5.2 Kontinuierliche Propositionen Siehe Skriptum (Seite 103) Marginalisierungsregel: P (B|B) = Z P (B|x, B) P (x|B) dx Bayessches Theorem: P (H|D, B) = P (D|H, B) P (H|B) P (D|B) (D sind die Daten, H ist Hypothese. . . ) 8.6 8.6.1 Einfache Beispiele Propagatoren Ein Partygast propagiert an N Bars vorbei (oder hinein) nach Hause. Dabei gibt es folgende Wahrscheinlichkeiten / Propositionen: PB Wahrscheinlichkeit für das Einkehren PR Wahrscheinlichkeit dass er wieder herauskommt En Prop. er kehrt in n Bars ein H Prop. er kommt zu Hause an 19 8.6 Einfache Beispiele Mit Marginalisierungsregel: P (H|N, B) = N X n=0 P (H|En , N, B) P (En |N, B) Die Entscheidungen für das Einkehren sind unkorreliert → Bernoulli-Versuch. µ ¶ N PBn (1 − PB )N −n P (En |N, B) = n Wahrscheinlichkeit dass er aus allen Bars herauskommt: P (H|En , N, B) = PRn Damit (einsetzen, . . . ): P (H|N, B) = (1 − PB (1 − PR ))n Wichtig: Bezug zur Physik: Dämpfung (N ist zurückgelegter Weg, Wahrscheinlichkeit von einer Bar absorbiert zu werden entspricht Dämpfungskonstante) 8.6.2 Das 3 Türen Problem Siehe Skript (Seite 106) 8.6.3 Detektor für seltene Teilchen Propositionen: T /T̄ Teilchen vorhanden / nicht vorhanden D Detektor spricht an. Gesucht: Wahrscheinlichkeit dafür, dass ein Teilchen vorhanden ist wenn der Detektor anspricht. Mit Bayesschem Theorem und Marginalisierungsregel (im Nenner): P (T |D, B) = P (D|T, B) P (T |B) ¡ ¢ ¡ ¢ P (D|T, B) P (T |B) + P D|T̄ , B P T̄ |B Dies kann auch auf medizinische Untersuchungen übertragen werden. Für Zahlenbeispiele siehe Skript (Seite 107). 8.6.4 Ist die Münze symmetrisch Wichtig: Odds-Ratio o= P (H|D, B) ¡ ¢ P H̄|D, B 20 H ist Hypothese D sind Daten Damit muss man den Normierungsnenner beim Anwenden des Bayesschen Theorems auf Zähler und Nenner nicht berechnen. Weiteres (Bayessches Theorem anwenden, Prior-Odds = 1, marginale Likelihood mit Marginalisierungsregel aus Likelihood, Likelihood ist Binomialverteilung, dann alles rückeinsetzen) siehe Skript (Seite 108). 8.6.5 Produktionsrate eines Mitbewerbers Aus einer Produktion von N Stück wird eine Stichprobe (L Stück) gezogen. Dabei sind ni die Seriennummern. Gesucht ist die Größe der Produktion, wenn man nur die Stichprobe kennt: P (N |n1 , n2 , . . . nL , L, B) Lösungsansatz: Bayessches Theorem anwenden, die vielen ni mit Produktregel vereinfachen, Nmax einführen (für Prior-Wahrsch., die als Gleichverteilung angesetzt wird) und am Ende der Rechnung gegen unendlich gehen lassen. 8.6.6 Anzahl der Fische Siehe Skript (Seite 113) 8.6.7 Beste Auswahl aus N Vorschlägen Siehe Skript (Seite 115) 9 9.1 Kontinuierliche Variablen Verteilungsfunktion und Dichtefunktion Verteilungsfunktion, auch kummulative Wahrscheinlichkeit: F (x) = P (x ≤ x|B) Wahrscheinlichkeitsdichte p(x) = d F (x) dx Dies kann auch für diskrete Probleme definiert werden. Darstellung dann über Summen und δ-Peaks. 21 9.2 Weitere Definitionen 9.1.1 Beispiel eines kontinuierlichen Problems Schießen auf Kreis - Siehe Skript (Seite 122) 9.1.2 Beispiel eines diskreten Problems Bernoulli-Experiment mit 6 Wiederholungen - Siehe Skript (Seite 123) 9.2 9.2.1 Weitere Definitionen Definition von Mittelwert, Momenten und marginaler Verteilung Mittelwert: hXi = Z ∞ x p(x) dx −∞ Alle weiteren Definitionen werden aus Kap. 2 (Seite 9) übernommen, wobei Summen durch Integrale ersetzt werden. 9.2.2 Definition einer Stichprobe Eine Stichprobe ist eine Menge unabhängige Feststellungen (Messungen) der Zufallsvariable. 9.3 Ordnungs-Statistik Gegeben sei eine nach aufsteigenden Werten sortierte Stichprobe (s1 ≤ s2 ≤ s3 · · · ≤ sL ) einer Verteilung (F (x), Dichte ρ(x)). Gesucht: P (sk ∈ (x, s + dx)|L, ρ, B) Es müssen 3 Propositionen erfüllt sein: 1. k − 1 Elemente ≤ x 2. L − k Elemente ≥ x 3. ein Element im Intervall (x, x + dx) Somit entspricht das Problem dem Aufteilen von L Elementen auf drei Boxen ⇒ Multinomialverteilung: P (sk ∈ (x, x + dx)|L, ρ, B) = L! F (x)k−1 (1 − F (x))L−k ρ(x) dx {z } | {z } (k − 1)!(L − k)! | {z } | p1 22 p2 p3 9.4 Gängige Wahrscheinlichkeitsverteilungen 9.3.1 Wahrscheinlichkeitsverteilung von Maximalwerten Gesucht: Wahrscheinlichkeitsdichte der Maximalwerte p (ξ|L, B) (also dass ξ der Maximalwert ist). Dies ist die Ordnungsstatistik für k = L. Es folgt die Maxima-Statistik: p (ξ|L, B) = L F (ξ)k−1 ρ(ξ) 9.4 9.4.1 Gängige Wahrscheinlichkeitsverteilungen Gleich-Verteilung Definiert: x ∈ [a, b] 9.4.2 pg (x|a, b) = β-Verteilung Definiert: x ∈ [0, 1] pβ (x|α, ρ) = 9.4.3 1 b−a 1 xα (1 − x)ρ−1 B(α, ρ) Γ-Verteilung, χ2 -Verteilung Γ-Verteilung Definiert: x ∈ [0, ∞) pΓ (x|α, β) = β α α−1 −βx x e Γ(α) χ2 -Verteilung Ist Spezialfall der Γ-Verteilung mit α = n/2 und β = 1/2 n pχ2 (x|n) = 9.4.4 2− 2 n −1 − 1 x x2 e 2 Γ( n2 ) Exponential-Verteilung Definiert: x ∈ [0, ∞) Ist Spezialfall der Γ-Verteilung mit α = 1 und β = λ pe (x|λ) = λ e−λx 9.4.5 Normal-Verteilung Definiert: x ∈ (−∞, ∞) p(x|x0 , σ) = √ 1 2πσ 2 23 e− (x−x0 )2 2σ 2 9.5 Transformationseigenschaften 9.4.6 Student-t-Verteilung, Cauchy-Verteilung Student-t-Verteilung Definiert: x ∈ (−∞, ∞)) 1 pt (t|ν) = √ νB( 21 , ν2 ) µ t2 1+ ν ¶− 21 (ν+1) Sie entsteht wenn man aus der Dichte der Normal-Verteilung σ als unbekannt ausintegriert. Cauchy-Verteilung Ist Spezialfall der Student-t-Verteilung mit ν = 1 1 pC (x) = π(1 + x2 ) 9.4.7 Multivariante Normal-Verteilung x ist nun ein Vektor, und die Rolle von σ 2 übernimmt die Kovarianzmatrix (bzw deren Determinante). 9.5 Transformationseigenschaften Variablentransformation: ¯ ¯ ¯ ∂xi ¯ ¯ py (y) = px (x) ¯¯ ∂yj ¯ Die Jakobi-Determinante beschreibt die Änderung der Volumina. 9.5.1 Beispiele mit einer Variablen 1. Gleichverteilung auf dem Einheitsintervall, Übergang zu y = − ln x 2. Uneigentliche Gleich-Verteilung, Transformation σ = ex Es resultiert ein 1/σ Verhalten, welches Skaleninvariant ist. 9.5.2 Beispiele mit zwei Variablen Übergang in Kreiskoordinaten. 9.6 Aufenthaltswahrscheinlichkeit des harmonischen Oszillators Auslenkung: x = A cos(ωt + ϕ) 24 Gesucht: p (x|A, ω, φ, B) Einschieben“ der Zeit mit Marginalisierungsregel, ” dann p (x|t, A, ω, φ, B) = δ(x − A cos(ωt + ϕ)), δ-Funktion und t transformieren. Problem mit dem Prior, wenn man ihn konstant ansetzt (nicht normierbar), deshalb σ einführen und gegen Unendlich gehen lassen. Damit geht die Nullstellensumme in ein Integral über, welches 1 ergibt. Die Lösung ist nur von A und x abhängig. 10 Der zentrale Grenzwertsatz Es wird die charakteristische Funktion definiert, deren Bildung einer nicht symmetrisch definierten Fouriertransformation entspricht. Der Zentrale Grenzwertsatz sagt aus, dass die Summe (S) von gewichteten Zufallszahlen (xn ) normalverteilt ist. S= N X cn xn n=1 Mit Mittelwert µ und Varianz σx2 Voraussetzung: N 1 X ν lim cn = aν = konst, ν ∈ Z N →∞ N n=1 Dann gilt lim p (S|N, B) = N (S| hSi , var(S)) N →∞ hSi = µ var(S) = N X cn n=1 N X cn2 σx2 n=1 Der zentrale Grenzwertsatz bildet die Grundlage der Monte-Carlo-Integration. 11 Laser-Speckle Nicht Prüfungsstoff 25 Teil II Poisson 12 12.1 Poisson-Prozess, Poisson-Punkte und Wartezeiten Stochastische Prozesse f (x|λ) (x kontinuierlich) ist ein stochastischer Prozess, wenn die Parameter λ Zufallsvariablen sind. Es gelten alle Regeln der Wahrscheinlichkeitstheorie, es sind nur die Ergebnisse (für die Zufallsvariablen) von x abhängig. 12.2 Poisson Punkte Es werden zufällig N Punkte (werden Poisson-Punkte genannt) in einem Intervall der Länge L erzeugt. Die Wahrscheinlichkeit, dass n Teilchen im Teilintervall der Länge x sind, ist die Binomialverteilung P (n|N, p = x/L) und die mittlere Zahl der Teilchen im Teilintervall ist µ = x ρ (ρ ist Punktdichte N/L). Erhöht man bei konstanter Punktdichte und Intervalllänge x die Größen L und N , wird die Wahrscheinlichkeit im Limes N → ∞ zur PoissonVerteilung (ρx)n P (n|x, ρ, B) := e−ρx n! 12.3 Intervall-Verteilung der Poisson-Punkte Lösung ist Exponentialverteilung. Siehe Skriptum. 12.3.1 Alternative Sicht der Poisson-Punkte Man kann die Poisson-Punkte auch konstruieren, indem man an einem Punkt anfängt und aus der Exponentialverteilung aus 12.3 den Abstand zum nächsten Punkt ermittelt. 12.4 Wartezeiten-Paradoxon Annahme: das Eintreffen von Bussen an der Haltestelle ist ein PoissonProzess. Gesucht: mittlere Wartezeit auf einen Bus, bei zufälligem Eintreffen an der Haltestelle p (∆t|t ∈ L, B). 26 12.5 Poisson-Prozess Lösungsweg: Über Marginalisierungsregel die Intervalllänge L einführen, erste“ Wahrscheinlichkeit ist dann die Gleichverteilung von ∆t in (0, L), ” die zweite wird dem Bayesschen Theorem umgeformt. Der Normierungsnenner und unbekannte Faktoren werden zusammengefasst und über die Normierung bestimmt. Ergebnis: Exponentialverteilung 12.4.1 Verteilung der Intervall-Längen eines zufällig ausgewählten Intervalls Gesucht: p (L|x ∈ I, B) Lösen wie in 12.4 (entspricht zweiter Wahrsch.), mit Bayesschem Theorem. 12.5 Poisson-Prozess N (t) ist die Anzahl der Poisson-Punkte, die bis t aufgetreten sind. 12.6 Ordnungsstatistik des Poisson-Prozesses Gesucht: Wahrscheinlichkeitsdichte für: Der n-te Punkt hat die Koordinate x. Dafür müssen n−1 Punkte bis x aufgetreten sein, und einer liegt im Intervall (x, x + dx). Daraus folgt die Erlang-Verteilung p (xn = x|ρ, B) = e−ρx 12.7 (ρx)n−1 · ρ (n − 1)! Alternative Herleitung des Poisson-Prozesses Gesucht: Wahrscheinlichkeit, dass bis t n Poisson-Punkte aufgetreten sind. Lösungsweg: Betrachten der Wahrsch. zur Zeit t+dt, Marginalisierungsregel, in Summe bleiben nur zwei Summanden übrig, Umformen und man erhält eine Differentialgleichung. Diese kann man mit elementaren Methoden oder mit erzeugenden Funktionen lösen. 12.8 Shot-Noise Anwendungen sind nicht Prüfungsstoff. 12.9 Die Hartnäckigkeit des Pechs Anwendungen sind nicht Prüfungsstoff. 27 12.10 Schätzen der Halbwertszeit aus einer Stichprobe 12.10 Schätzen der Halbwertszeit aus einer Stichprobe Anwendungen sind nicht Prüfungsstoff. Teil III Zuweisen von Wahrscheinlichkeiten 13 Vorbemerkungen Beim Anwenden des Bayeschen Theorems oder wenn Parameter in einer Likelihood-Funktion nicht bekannt sind treten oft unbekannte Prioren auf. Es gilt nun Methoden zum Angeben solcher Prioren zu finden. Man unterscheidet drei Fälle: • Uninformative Prioren • Exakte, überprüfbare Information testable information • Fehlerbehaftete, überprüfbare Information 14 Uninformative Prioren für Parameter Wenn man nichts über die Ausgangswahrscheinlichkeiten weiß, kann man bei diskreten Problemen das Laplacesche Prinzip (gleiche Wahrscheinlichkeiten) anwenden, welches jedoch für kontinuierliche Probleme unbrauchbar ist. Transformations-Invarianz-Prinzip TIP: Eine Transformation, die die Aufgabenstellung nicht ändert, darf die Wahrscheinlichkeitsdichte nicht verändern. Damit folgt eine Bestimmungsgleichung für die Wahrscheinlichkeitsdichte, wenn man eine Transformation anwendet. Wendet man infinitesimale Transformationen an und leitet nach dem infinitesimalen Parameter ǫi ab, erhält man die TIP-Gleichung ¯¸ ¯ · ¯ ∂Tǫ (x) ¯ ∂ ¯ ¯ p(Tǫ (x)) ¯ ∂ǫi ∂x ¯ ǫ=0 Weiß man nun, dass eine Transformation invariant ist, kann man diese mit der TIP-Gleichung zur Bestimmung des Priors heranziehen. 14.1 Jeffrey’s Prior für Skalen-Variablen Skalen-Variablen sind Variablen, bei denen Skalieren (z.B. wechseln auf andere Einheiten) und Potenzieren invariante Transformationen sind. Jeffrey’s 28 14.2 Prior für die Parameter einer Geraden Prior: 1 x Da dieser nicht normierbar ist, werden Cutoffs eingeführt, die man am Ende der Rechnungen gegen unendlich gehen lässt. p(x) = 14.2 Prior für die Parameter einer Geraden Gesucht ist die Prior-Wahrscheinlichkeit für die Parameter (der Geradengleichung) einer Geraden in der Ebene. Die Invarianzen sind: Drehung und Verschiebung. Über den Weg der Darstellung mit der Normalengleichung folgt aus der TIP-Gleichung: pΦ,d = const, nach der Rücktransformation erhält man den uneigentlichen (in b nicht normierbar) Prior: 3 p(a, b) = (1 + a2 )− 2 15 Der entropische Prior für diskrete Probleme Es soll exakte, überprüfbare Information (Nebenbedingungen) vorliegen. Dies ist der Fall, wenn man feststellen kann, ob gegebene Verteilungen diese Nebenbedingungen erfüllen oder nicht. Gesucht wird stets jene Verteilung, die mit den Nebenbedingungen verträglich ist, und die am wenigsten Information beinhaltet (man will sich möglichst wenig festlegen). Nun wird ein Maß für den Informationsgehalt benötigt. 15.1 Shannon-Entropie: Informationsgehalt bei binären Fragen Um einen aus N möglichen Gegenständen mit Binärfragen zu identifizieren braucht man log2 N (diese Anzahl U (Q, B) ist ein Maß für die Ungewissheit) Fragen. Aufgrund der Additivität ist dies auch der Fall, wenn man die Menge in gleich große Gruppen aufteilt. Teilt man sie in verschieden große Gruppen auf (nicht mehr alle Gleich-Wahrscheinlich), dann ist die Anzahl der Fragen abhängig von der Gruppe, in der sich der gesuchte Gegenstand befindet, jedoch niemals größer als wenn man keine Gruppen hätte. Die Additivität gilt nicht mehr allgemein, jedoch wird die Additivität im Mittel gefordert. Shannon-Entropie S({pi }) = − m X i=1 29 pi ln(pi ) 15.2 Eigenschaften der Shannon-Entropie pi : Wahrscheinlichkeit für: Objekt ist in Gruppe i Sie ist ein Maß für die Ungewissheit. 15.2 Eigenschaften der Shannon-Entropie • S≥0 • liegt nur die Normierungsbedingung vor, ist die maximale Entropie 1 gegeben stets mit pi = m 15.3 Axiomatische Ableitung der Shannon-Entropie Das Maß der Ungewissheit H soll folgende Axiome erfüllen: • Eindeutigkeit • Stetigkeit ª © • Monotonie H( L1 , L1 , . . . ) wächst mit L monoton • Additivität (wie in 15.1) Jenes Funktional H, welches diese Axiome erfüllt, ist proportional zur ShannonEntropie. Da nur das Maximum davon gesucht wird, ist der Proportionalitätsfaktor irrellevant. 15.4 Eigenschaften der Entropie Siehe Skriptum (Seite 217) 15.5 Maxent-Prinzip Aus der Entropie, den Normierungsbedingungen und den gegebenen Nebenbedingungen (die letzten beiden mit Lagrange-Parametern) wird die Lagrange-Funktion zusammengesetzt. Die Maxent-Lösung erhält man aus der Nullstelle der Funktionalableitungen nach den Prior-Wahrscheinlichkeiten. Die Lagrange-Funktion ist global konvex, weshalb die Lösung eindeutig ist. Maxent-Lösung: Pi = 1 P µ λµ ∂P∂ ϕµ {Pj } i e Z Z = Zustandssumme 30 15.6 Maxwell-Boltzmann-Verteilung Maxent-Lösung bei linearen Nebenbedingungen: Pi = 1 P µ λµ Kµj e Z Kµj . . . Koeffizienten in den Nebenbedingungen 15.6 Maxwell-Boltzmann-Verteilung Es sei nur eine zusätzliche Nebenbedingung gegeben: X hEi = Pj Ej j Es ergibt sich die Maxwell-Boltzmann-Verteilung Pi = 1 −β Ei e Z β wird aus − ∂ ln(Z) = hEi und der Nebenbedingung (hEi ist ja gegeben) ∂β berechnet. 15.7 Bose-Einstein-Verteilung Die mittlere Energie ist wieder hinzu kommt die Kenntnis der P bekannt, P mittleren Teilchenzahl hN i = j ∞ n P jn . n=0 Unbekannt ist, wie viele Teilchen sich in einem bestimmten Volumen und bestimmten Zustand befinden. Besetzungszahlen der Bose-Einstein-Verteilung ni = 15.8 1 eβ(Ei −µ) −1 Fermi-Dirac-Verteilung Wie Bose-Einstein, jedoch können nur 0 oder 1 Teilchen zugleich in einem Zustand sein. Die Berechnung läuft analog, lediglich die Zustandssumme ergibt etwas anderes. Besetzungszahlen der Fermi-Dirac-Verteilung ni = 1 eβ(Ei −µ) + 1 31 15.9 Vergleich mit Zufallsexperiment 15.9 Vergleich mit Zufallsexperiment Maxent Eine Zufallsvariable soll bestimmte Werte annehmen können. Zusätzlich sind Nebenbedingungen gegeben. Daraus liefert die Maxent-Lösung eine Wahrscheinlichkeitsverteilung, die angibt wie wahrscheinlich das Auftreten eines Wertes ist. Zufallsexperiment Die Werte der Zufallsvariable (Stichprobe) werden in einem Zufallsexperiment ermittelt. Gefragt wird nach der wahrscheinlichsten Häufigkeitsverteilung in zukünftigen Experimenten. Diese entspricht genau der MaxentLösung. Je größer der Stichprobenumfang, um so genauer passt die aus der Stichprobe errechnete Verteilung zur Maxent-Lösung (Entropie-KonzentrationsTheorem: die Entropien der Verteilungen konzentrieren sich immer mehr um das Maximum). 16 Maxent bei kontinuierlichen Variablen Wenn der Summationsindex i eine kontinuierliche Variable x werden soll, geht Pj in P (∆xj ) = p(xj ) ∆xj über. ∆xj ist der Abstand der Punkte, der mit steigendem N gegen 0 geht. Generell geht man so vor, dass man N gegen unendlich gehen lässt und als (invariantes) Maß die Zustandsdichte (Zustände pro Länge) m(x) verwendet. Die Entropie wird nun als Grenzwert N → ∞ der diskreten definiert. Es ergibt sich: µ ¶ Z p(x) S C = − p(x) ln dx m(x) Zum Auffinden der Maxent-Lösung wird wieder die Methode der LagrangeFunktion verwendet. Maxent-Lösung bei linearen Nebenbedingungen: P 1 p(x) = m(x) e µ λµ Kµ (x) Z Kennt man die untersten beiden Momente (Mittelwert und Standardabweichung) einer Verteilung, so ist die Maxent-Lösung die Gauß-Verteilung 17 Das invariante Rieman-Maß Nicht Prüfungsstoff 32 18 Fehlerbehaftete überprüfbare Information Nicht Prüfungsstoff Teil IV Parameterschätzen 19 Entscheidungstheorie Nicht Prüfungsstoff 20 20.1 Parameter-Schätzen Unverzerrte Schätzwerte Siehe Skriptum (Seite 271) 20.2 Maximum-Likelihood Schätzwert Der Maximum-Likelihood Schätzwert ist jener Parameter(satz), welcher die Likelihood p (y, a) maximiert. Die Lösung wird bestimmt, indem man die (bekannte) Log-Likelihood nach den Parametern ableitet: ∂ ln(p (y, a)) = 0; ∂ai Maximieren der Log-Likelihood ist äquivalent zum Minimieren der gewichteten, mittleren, quadratischen Abweichung. Eine Anwendung davon ist der Least-Squares-Fit. 20.3 Cramer-Rao Untergrenze des Schätzwertes Nicht Prüfungsstoff 20.4 Parameter-Schätzen im Rahmen der Wahrscheinlichkeitstheorie ??? 33 20.5 Lineare Regression 20.5 Lineare Regression Es geht um Modelle, die linear in den Parametern a sind. Die Daten, die man beim öfteren Durchführen eines Experiments erhält, kann man in VektorNotation einfach anschreiben: y=Xa y ist der Vektor der Ergebnisse, in den Zeilen von X stehen die Steuergrößen und a ist der Parametersatz. Lösung siehe Skriptum (Seite 292) Dabei wird eine Transformation mit C −1/2 angewendet (Fehler unkorreliert, Standardabw. = 1). 20.5.1 Schätzen einer Konstanten Siehe Skriptum (Seite 295) 20.5.2 Schätzen der Parameter einer Geraden Siehe Skriptum (Seite 296) 20.5.3 Vorhersagen bei einem linearen Modell Es wird nach der Verteilung des Ergebnisses y für neue Steuergrößen x gefragt. Diese Ergebnisse sind normalverteilt um die durch den Fit bestimmte Gerade, und deren Streuung nimmt zu, je weiter die Steuerparameter vom Zentrum der Daten entfernt sind. 20.5.4 Zahl der Datenpunkte innerhalb des Fehlerbandes Siehe Skriptum (Seite 302) 20.6 Parameter-Schätzen von nichtlinearen Modellen Nicht Prüfungsstoff 20.7 Fehler in Abszisse und Ordinate Nicht Prüfungsstoff 34 20.8 Ausreißer-tolerante Parameter-Schätzung 20.8 Ausreißer-tolerante Parameter-Schätzung Nicht Prüfungsstoff Teil V Hypothesentests 21 Stichproben-Verteilungen Nicht Prüfungsstoff 22 Orthdoxe Hypothesen Tests Eigentlich gleiches Prinzip wie bei den Signifikanz-Tests (Kap. 5.2.2), jedoch ist hier die Herangehensweise folgendermaßen: Man hat nur Stichproben zur Verfügung, und vergleicht diese. Die Hypothese, dass bei beiden eine Größe (z.B. Mittelwert) den selben Wert hat, ist eine Null-Hypothese. In Tests (z.B. z-Test) wird eine neue Größe eingeführt, die stets eine Differenz beinhaltet, und damit eine Verteilung um 0. Mit dieser Verteilung wird ein Signifikanz-Test durchgeführt, mit den üblichen Signifikanz-Niveaus 1% und 5%. 23 Wahrscheinlichkeitstheoretische Hypothesen Tests Nicht Prüfungsstoff 24 Modell-Vergleich Nicht Prüfungsstoff 35