Statistische Methoden der Datenverarbeitung in der Physik von Prof. Dr. Martin Erdmann, Sebastian Gabel, Dr. Steen Kappler, Lotte Wilke RWTH-Aachen Sommersemester 2005 Vorbemerkung Diese Vorlesung ist als Einführung in die Datenanalyse in der Physik konzipiert. Sie wird an der RWTH-Aachen im 2.Semester des Physikstudiums (vor Beginn des Anfängerpraktikums) zusammen mit einem intensiven Übungsbetrieb durchgeführt, der Arbeiten am Computer mit einschlieÿt. Inhaltlich orientiert sich die Vorlesung an dem hervorragenden Buch von V.Blobel und E.Lohrmann, Statistische und numerische Methoden der Datenanalyse (Teubner Verlag) [1] und ebenso an dem C++-Kurs von Rob Miller, David Clark und William Knottenbelt An Introduction to the Imperative Part of C++ (Imperial College London, WEB-Angebot) [2] . Dem unermüdlichen Einsatz mehrerer erfahrener Personen und vieler engagierter Teilnehmer ist das Gelingen der Veranstaltung und nicht zuletzt dieses Skriptum zu verdanken. Besonderer Dank geht an Dr. Steen Kappler für die Gestaltung des Übungsbetriebs, an Dr. Thomas Kress für die aktive Unterstützung im Cip-Pool, an Lotte Wilke, die das Skriptum federführend mit Sebastian Gabel erstellt hat, an Lisa Wilke für die Figurengestaltung und an Matthias Kirsch, Daniel Klöckner, Gero Müller und Lotte Wilke, die sich für die Betreuung von 200 Kurs-Teilnehmern am Computer engagierten. Aachen im Sommersemester 2005, Martin Erdmann Inhaltsverzeichnis 1 2 3 Einleitung 1.1 Experiment 1.2 Mittelwert, Varianz, Standardabweichung, Fehler 1.3 Ablauf und Ziel des Kurses . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1 . . . . . . . . . . . . . . . 2 . . . . . . . . . . . . . . . . . . . . . . . . . . . 3 Wahrscheinlichkeit 5 2.1 Wahrscheinlichkeitsbegri . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5 2.2 Kombination von Wahrscheinlichkeiten . . . . . . . . . . . . . . . . . . . . . 6 2.3 Theorem von Bayes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 8 1-dimensionale Wahrscheinlichkeitsverteilungen 11 3.1 Zufallsvariable . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11 3.1.1 Diskrete Zufallsvariable . . . . . . . . . . . . . . . . . . . . . . . . . 11 3.1.2 3.2 3.3 3.4 3.5 4 1 Kontinuierliche Zufallsvariable . . . . . . . . . . . . . . . . . . . . . . 12 Erwartungswerte, algebraische und zentrale Momente . . . . . . . . . . . . . 13 3.2.1 Mittelwert . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 13 3.2.2 Root-Mean-Square . . . . . . . . . . . . . . . . . . . . . . . . . . . . 14 3.2.3 Varianz . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 14 Weitere Lokalisierungs- und Dispersionsparameter . . . . . . . . . . . . . . . 14 3.3.1 Wahrscheinlichster Wert . . . . . . . . . . . . . . . . . . . . . . . . . 15 3.3.2 Median . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 15 3.3.3 Getrimmter Mittelwert . . . . . . . . . . . . . . . . . . . . . . . . . . 15 3.3.4 Full-Width-Half-Maximum . . . . . . . . . . . . . . . . . . . . . . . . 16 Problemstellungen und Verteilungen mit diskreter Variable . . . . . . . . . . 17 3.4.1 Kombinatorik . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 17 3.4.2 Binomialtheorem . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 18 3.4.3 Binomialverteilung . . . . . . . . . . . . . . . . . . . . . . . . . . . . 18 3.4.4 Poissonverteilung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 20 Wahrscheinlichkeitsdichten für kontinuierliche Variable . . . . . . . . . . . . 22 3.5.1 Gauÿ-Verteilung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 22 3.5.2 Gleichverteilung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 26 Kombination von Wahrscheinlichkeitsdichten 29 4.1 Faltung von Wahrscheinlichkeitsdichten . . . . . . . . . . . . . . . . . . . . 29 4.2 Der zentrale Grenzwertsatz . . . . . . . . . . . . . . . . . . . . . . . . . . . 29 4.3 Interpretation von Messwerten . . . . . . . . . . . . . . . . . . . . . . . . . 31 iii Inhaltsverzeichnis 5 6 4.4 Charakteristische Funktion 4.5 Faltung von zwei Gauÿ-Verteilungen 5.1 Mittelwert, Varianz, Kovarianz, Korrelation . . . . . . . . . . . . . . . . . . 36 5.2 2-dimensionale Gauÿ-Verteilung . . . . . . . . . . . . . . . . . . . . . . . . . 36 Fehlerbestimmung 39 Statistische Fehler . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 39 6.1.1 Fehler von Mittelwert und Standardabweichung . . . . . . . . . . . . 39 6.1.2 Transformation von Wahrscheinlichkeitsdichten . . . . . . . . . . . . 40 6.1.3 Fehlerfortpanzungsgesetz in einer Dimension . . . . . . . . . . . . . 40 6.1.4 Fehlerfortpanzungsgesetz in Dimensionen . . . . . . . . . . . . . . 42 6.1.5 n Anwendung: Zusammengesetzte Messgröÿen . . . . . . . . . . . . . . 43 Systematische Fehler . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 45 6.2.1 Unkorrelierte systematische Fehlerquellen . . . . . . . . . . . . . . . 46 6.2.2 Korrelierte systematische Fehlerquellen . . . . . . . . . . . . . . . . . 46 Parameterschätzung: Maximum-Likelihood-Methode 47 7.1 Verfahren für 1 Parameter . . . . . . . . . . . . . . . . . . . . . . . . . . . . 47 7.1.1 Negative Log-Likelihood-Funktion . . . . . . . . . . . . . . . . . . . 47 7.1.2 Fehlerbestimmung . . . . . . . . . . . . . . . . . . . . . . . . . . . . 48 7.1.3 Gewichteter Mittelwert . . . . . . . . . . . . . . . . . . . . . . . . . . 50 7.1.4 Anwendung: Histogramme . . . . . . . . . . . . . . . . . . . . . . . . 52 7.2 Verfahren für m Parameter . . . . . . . . . . . . . . . . . . . . . . . . . . . 53 Parameterschätzung: Methode der kleinsten Quadrate 55 8.1 Messungen mit gleichen Meÿfehlern . . . . . . . . . . . . . . . . . . . . . . . 55 8.1.1 Lineare kleinste Quadrate . . . . . . . . . . . . . . . . . . . . . . . . 56 8.1.2 Berechnung der Fehler . . . . . . . . . . . . . . . . . . . . . . . . . . 58 8.1.3 Geradenanpassung . . . . . . . . . . . . . . . . . . . . . . . . . . . . 58 Berücksichtigung individueller Meÿfehler . . . . . . . . . . . . . . . . . . . . 63 8.2.1 Lösung mit Gewichtsmatrix . . . . . . . . . . . . . . . . . . . . . . . 63 8.2.2 Grasche Darstellung für 1 Parameter . . . . . . . . . . . . . . . . . 64 8.2.3 Geradenanpassung . . . . . . . . . . . . . . . . . . . . . . . . . . . . 65 8.2 9 33 35 6.2 8 . . . . . . . . . . . . . . . . . . . . . . 32 Multi-dimensionale Wahrscheinlichkeitsverteilungen 6.1 7 . . . . . . . . . . . . . . . . . . . . . . . . . . . Prüfung von Hypothesen 67 9.1 Vergleiche von Messungen und theoretischen Vorhersagen . . . . . . . . . . 67 9.2 Kondenzniveau, Kondenzgrenzen . . . . . . . . . . . . . . . . . . . . . . . 68 9.3 69 9.4 χ2 -Verteilung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . χ2 -Test . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9.5 Student'scher t-Test 71 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 10 Klassizierungsmethoden 10.1 Fisher'sche Diskriminanten-Methode 70 75 . . . . . . . . . . . . . . . . . . . . . . 75 10.2 Neuronale Netzwerke . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 77 Kapitel 1 Einleitung Statistische Verfahren werden in vielen unterschiedlichen Bereichen benötigt. In den experimentellen Naturwissenschaften werden sie in eingesetzt, um die Reproduzierbarkeit von Experimenten zu bestimmen, d. h. um die Meÿfehler zu quantizieren. Beispiele sind die Elementarteilchenphysik sowie die Astrophysik. Weiterhin werden sie in der Medizin, der Psychologie, der Wirtschaft, Banken, der Wettervorhersage, Geheimdiensten und anderem benötigt. Weltweit werden sehr viele Daten genommen und es werden dringend Experten gebraucht, die die Bedeutung der Daten benennen können. 1.1 Experiment Zeit für Informationsübertragung Hierbei wurde achtmal die Zeit gemessen, die für den Wurf benötigt wird: t 10−2 s : 110 98 122 101 105 85 99 Gesucht sind eine Schätzung des wahren Wertes aus der Meÿreihe 103 und eine Aussage über die Reproduzierbarkeit des Experiments. 1 KAPITEL 1. EINLEITUNG 1.2 Mittelwert, Varianz, Standardabweichung, Fehler Der Mittelwert dieser Messung beträgt: n t̄ = 1X ti , n = 8 n (1.1) i=1 823 · 10−2 s 8 ≈ 103 · 10−2 s = ← Schätzung des wahren Werts Die Streuung der Meÿwerte wird über die quadratische Abweichung der Messung vom wahren Wert berechnet: 2 s = n X 1 n−1 (ti − t̄)2 . (1.2) i=1 t̄ nur der Schätzwert für den wahren Wert ist, wird hierbei durch n − 1 und nicht durch n dividiert. s2 hat die Bedeutung einer Varianz. Da Daraus ergibt sich die Standardabweichung für die Einzelmessung, die wir √ σ = n X s2 ← Fehler Fehler der Einzelmessung nennen: (1.3) (ti − t̄)2 = 72 + 52 + 192 + 22 + 22 + 182 + 42 + 02 i=1 = 783 1 = 7 √ σ = s2 1 n−1 ⇒ σ r = 783 7 10 · 10−2 s. ≈ ist ein Maÿ für die Reproduzierbarkeit einer Messung. Die Wahrscheinlichkeit, daÿ der nächste Meÿwert im Intervall zwischen t̄ − σ und t̄ + σ liegt, beträgt 68%. Zeit N Zeit Entries 8 Mean 1.029 RMS 0.09892 3 2 1 0 0.8 1 1.2 1.4 t [s] 2 KAPITEL 1. EINLEITUNG Das Meÿergebnis ist also: t = 1, 03 ± 0.10 s Bei einer erneuten Messung ergab sich ein Ergebnis von: t = 1, 15 s Es liegt in der Nähe von t̄ + σ und ist wegen der ca 68% Wahrscheinlichkeit ein wahrschein- licher Wert. Das Experiment könnte durch die Korrektur der Anfangsparameter wie Abwurfhöhe, Abwurfwinkel und Abwurfgeschwindigkeit viel genauer werden. Aber: Nicht alle Einüsse auf das Experiment sind kontrollierbar. Prinzipiell hat jedes Experiment eine Ungenauigkeit, die gemeinsam mit der experimentellen Fragestellung bestimmt werden muÿ. Oft ist es für die Berechung von n X 2 (ti − t̄) s2 = i=1 einfacher, wie folgt umzuformen: n X t2i + t̄2 − 2t̄ti i=1 = n X i=1 = ⇒ s2 = P n t2i 2 t i=1 i −2 + n n n P 2 ti i=1 n !2 n X 1 t2i − ti n i=1 i=1 !2 n n X X 1 1 t2i − ti n−1 n n X i=1 (1.4) (1.5) i=1 1.3 Ablauf und Ziel des Kurses Im folgenden werden wir einen Schnellkurs in der Verwendung des Computers mit der Programmiersprache C++ durchführen, damit Sie in der Lage sind, statistische Fragestellungen ezient zu beantworten. Dieser Kurs ist im Skript von Rob Miller dokumentiert. Danach werden wir die Hintergründe für das Vorgehen bei der Auswertung unseres kleinen Experimentes genau beleuchten. Unser Ziel ist, die Bedeutung des Wahrscheinlichkeitsbegris für die experimentelle Physik zu verstehen und mit Hilfe von Wahrscheinlichkeisverteilungen quantitative Aussagen über Experimente und zugehörige theoretische Modelle zu machen. 3 KAPITEL 1. EINLEITUNG Diskret: Wahrscheinlichkeit P (r), genau r Ereig- nisse zu erhalten Binominial: n p r n−r p (1 − p) µ = np σ 2 = np(1 − p) @ @ @ Poisson: n groÿ p klein µr e−µ r! r = µ = np σ2 = µ - n groÿ @ r groÿ µ groÿ @ R @ Kontinuierlich: Wahrscheinlichkeitsdichten f (ξ) Gauÿ: √ 1 2π σ e− (x−µ)2 2σ 2 @ @ x2 @ < x >@ @ @ @ @ R @ 2 n P x2 i=1 n/2−1 −χ2 /2 1 2 χ /2 e 2 Γ (n/2) 2 < χ >= n = Freiheitsgrade χ = σ 2 = 2n 4 x̄ − µ t= p σ 2 /n 1 Γ ( n+1 2 ) √ n nπ Γ ( 2 ) 2 1+ t n !− n+1 2 Kapitel 2 Wahrscheinlichkeit 2.1 Wahrscheinlichkeitsbegri 1. Ansatz: Bei Fragestellungen mit Symmetrie-Eigenschaften (z. B. Würfel). n verschiedene und gleich-wahrscheinliche Arten ein, wovon k die A haben, so ist die Wahrscheinlichkeit für das Auftreten von A gegeben durch: Tritt ein Ereignis auf Eigenschaft P (A) = k n . (2.1) Beispiel: Würfel A = ⇒ P (eine Beispiel: eine 5 würfeln , k = 1 (Eine Seite des Würfels hat die 5) n = 6 (= Anzahl der Würfel-Seiten) 5 würfeln) , , 1 . 6 = Söhne und Töchter Frau sagt : Ich habe zwei Kinder. Frage : Haben sie eine Tochter? Frau : Ja. Aufgabe : Wahrscheinlichkeit bestimmen, daÿ die Frau zwei Töchter hat. Lösung : Es gibt vier gleich wahrscheinliche Fälle: 1.Kind: 2.Kind: | Tochter Sohn Tochter Tochter Sohn Tochter {z n = 3Möglichkeiten ⇒ P (2 Töchter) Sohn Sohn | {z } } Ausgeschlossen, da Frau Tochter hat = 1 3. 5 KAPITEL 2. WAHRSCHEINLICHKEIT 2. Ansatz: Bei Fragestellungen ohne Symmetrie-Argumente. Hier kann man empirisch Vorgehen und Beobachtungen unter gleichen Bedingungen durchführen, wobei die Beobachtungen Eigenschaft A k -mal unabhängig Der Fehler von Beispiel: voneinander sein müssen. Wenn die auftritt, ist ist die Wahrscheinlichkeit für das Auftreten von P (A) = P (A) ist durch n n-mal k n→∞ n . lim A: (2.2) justierbar (wird später quantitativ erklärt). Fälscherbande von Würfeln entlarven... 2.2 Kombination von Wahrscheinlichkeiten Gibt es zwei Arten von Ereignissen Auftreten der einzelnen Ereignisse entweder Ereignis A oder B A und B und sind die Wahrscheinlichkeiten für das P (A) und P (B), so ist die Wahrscheinlichkeit, daÿ eintritt gegeben durch: P (A ∨ B) = P (A) + P (B) − P (A ∧ B) P (A ∧ B) ist hier die Wahrscheinlichkeit, daÿ A und B Falls sich die Ereignisse gegenseitig ausschlieÿen, so gilt . (2.3) gleichzeitig eintreten. P (A ∧ B) = 0. Beispiel: Münzwurf Die Wahrscheinlichkeit das Kopf und Zahl gleichzeitig auftreten ist P (Kopf ∧ Zahl) = 0. Daraus ergibt sich für die Wahrscheinlichkeit das Kopf oder Zahl auftreten: P (Kopf ∨ Zahl) = P (Kopf) + P (Zahl). Ein häuger Spezialfall ist, wenn das Ereignis B dem Nichtauftreten von B ≡ Ā A entspricht: (2.4) ⇒ P (A ∨ B) = P (A ∨ Ā) (2.5) = P (A) + P (Ā) = 1. Beispiel: triviale Wettervorhersage Die Wahrscheinlichkeit, daÿ das Wetter sich ändert oder daÿ es bleibt wie es ist, ist eins. Leider kann man daraus keine Schlüsse auf die einzelnen Wahrscheinlichkeiten ziehen. Die Wahrscheinlichkeit, daÿ zwei Arten von Ereignissen A und B zusammen auftreten ist allgemein gegeben durch: P (A ∧ B) = P (A) · P (B|A) 6 . (2.6) KAPITEL 2. WAHRSCHEINLICHKEIT P (B|A) die bedingte Wahrscheinlichkeit, daÿ B auftritt wenn auch A aufgetreten einfachsten Fall sind die Ereignisse A und B unabhängig voneinander. In diesem Hierbei ist ist. Im Fall gilt: P (B|A) = P (B) (2.7) ⇒ P (A ∧ B) = P (A) · P (B). Beispiele: a) Tod in den Bergen Die Wahrscheinlichkeit, bei einer Expedition auf einen Achttausender umzukommen beträgt: P (A) = 3, 4% Daraus ergibt sich für die Überlebenswahrscheinlichkeit: P (Ā) = 1 − P (A) = 96, 6% = 0, 966. Die Wahrscheinlichkeit, eine zweite Expedition zu überleben, ist dann ebenfalls: P (B̄) = 0, 966 ⇒ P (Ā ∧ B̄) = 0, 966 · 0, 966 = 0, 933. Die Wahrscheinlichkeit, 29 Expeditionen zu überleben, ist demzufolge: P (29Ā) = (0, 966)29 = 0, 367. Die Wahrscheinlichkeit, bei 29 Expeditionen auf Achttausender umzukommen, ergibt sich also zu P (29A) = 1 − P (29Ā) = 0, 633. b) Ziegenproblem Quiz-Sendung: 7 KAPITEL 2. WAHRSCHEINLICHKEIT Die Wahrscheinlichkeit, das Auto zu gewinnen, wenn man einmal rät, ist: P0 (Auto) = 1 . 3 Bevor nun die von der Kandidatin gewählte Tür geönet wird, zeigt der Quizmaster ihr eine Ziege hinter einer anderen Tür. Soll die Kandidatin nun ihre Meinung ändern? 1.) Kandidatin wählt zunächst Tür 1 Quizmaster önet Tür 2 Kandidatin ändert Wahl auf Tür 3 ⇒ P1 (Auto) = 1 2.) Kandidatin wählt zunächst Tür 2 Quizmaster önet Tür 1 Kandidatin ändert Wahl auf Tür 3 ⇒ P2 (Auto) = 1 3.) Kandidatin wählt zunächst Tür 3 Quizmaster önet Tür 1 Kandidatin ändert Wahl auf Tür 2 ⇒ P3 (Auto) = 0 Daraus folgt für die Wahrscheinlichkeit, anfangs eine bestimmte Tür zu wählen (P0 1/3) und = ein Auto zu gewinnen: P = P 0 · P 1 + P0 · P2 + P 0 · P 3 1 1 1 = ·1 + ·1 + ·0 3 3 3 2 = . 3 Also sind die Chancen, das Auto zu gewinnen, besser, wenn die Kandidatin ihre Meinung ändert. 2.3 Theorem von Bayes Die Wahrscheinlichkeit für das gemeinsame Auftreten der Ereignisse bzw. genauso P (B ∧ A). A und B ist P (A ∧ B) Nach Gleichung 2.6 ist demnach:: P (A ∧ B) = P (B ∧ A) P (A) · P (B|A) = P (B) · P (A|B) Daraus ergibt sich Bayes Theorem : P (A|B) = P (B|A) · P (A) P (B) (2.8) Bayes Theorem spielt eine wichtige Rolle bei Aussagen über einen wahren Wert, der aus fehlerbehafteten Messungen bestimmt wurde. 8 KAPITEL 2. WAHRSCHEINLICHKEIT Die allgemeine Formulierung des Theorems bei Ai , i = 1, 2, .., n n Ereignisklassen mit den Eigenschaften lautet: P (Ai |B) = P (B|Ai ) · P (Ai ) n P . (2.9) P (B|Ai ) · P (Ai ) i=1 Beispiel: HIV-Test Angenommen, eine Person unter 1000 ist HIV positiv. Das bedeutet die Wahrscheinlichkeit HIV positiv zu sein, ist: 1 = 1000 HIV) = 0, 999 . P (HIV) ≈ P (kein 0, 001 Die Verläÿlichkeit eines HIV-Tests ist gegeben durch: P (+|HIV) = 0, 98 P (+|kein HIV) = 0, 03 richtige Bestimmung einer Person mit HIV falsch diagnostiziertes HIV Daraus ergibt sich die Wahrscheinlichkeit, daÿ eine HIV-diagnostizierte Person auch wirklich HIV positiv ist: P (HIV|+) = P (+|HIV) · P (HIV) P (+|HIV) · P (HIV) + P (+|kein HIV) · P (kein HIV) 0, 98 · 0, 001 0, 98 · 0, 001 + 0, 03 · 0, 999 ≈ 0, 032 = Die HIV positiv diagnostizierte Person ist also nur mit 3,2% Wahrscheinlichkeit wirklich HIV positiv. 9 Kapitel 3 1-dimensionale Wahrscheinlichkeitsverteilungen 3.1 Zufallsvariable Eine Zufallsvariable kann auf Grund statistisch unkontrollierter Einüsse verschiedene Werte annehmen. Diese können wie z. B. beim Würfel diskret oder wie z. B. bei einer Temperaturmessung kontinuierlich sein. 3.1.1 Diskrete Zufallsvariable ri , i = a, ...b ∈ Z annehmen, Wert ri auftritt P (ri ): Kann die Zufallsvariable ausschlieÿlich diskrete Werte die Wahrscheinlichkeit, daÿ bei einer Messung der 0 < P (ri ) < 1 so ist (3.1) Die Wahrscheinlichkeit aller möglicher Fälle ist: b X P (ri ) = 1 (3.2) i=a 11 KAPITEL 3. 1-DIMENSIONALE WAHRSCHEINLICHKEITSVERTEILUNGEN P(r) diskrete Verteilung 0.3 0.2 0.1 0 0 1 2 3 4 5 6 7 8 r Der Mittelwert der diskreten Zufallsvariablen ist gegeben durch: <r> = Z. B. beim Würfel mit P (ri ) = <r> = Pb i=a ri · P (ri ) (3.3) 1 : 6 1+2+3+4+5+6 = 6 21 = 3, 5 6 3.1.2 Kontinuierliche Zufallsvariable Kann eine Zufallsvariable kontinuierliche Werte lichkeit, daÿ der Wert x zwischen a und b x∈R annehmen, so ist die Wahrschein- liegt, gegeben durch: P (a ≤ x ≤ b) = Rb a f (x) dx (3.4) f(x) kontinuierliche Verteilung 10 P(6<x<10) = Flaeche = 0.1 ∫ f(x) dx 6 0.05 0 wobei f (x) die 0 5 10 Wahrscheinlichkeitsdichte Z x 20 x ist, für die gilt: f (x) ≥ 0 (3.5) f (x) dx = 1 (3.6) ∞ −∞ 12 der Variablen 15 KAPITEL 3. 1-DIMENSIONALE WAHRSCHEINLICHKEITSVERTEILUNGEN Die Wahrscheinlichkeitsverteilung Wahrscheinlichkeitsfunktion bzw. ist das Integral der Wahrscheinlichkeitsdichte: Z x0 F (x0 ) = f (x) dx (3.7) −∞ ⇒ F (−∞) = 0 (3.8) F (∞) = 1. Also gibt F (x0 ) die Wahrscheinlichkeit an, daÿ (3.9) x ≤ x0 . Der Mittelwert einer kontinuierlichen Verteilung ist gegeben durch: <x> = R∞ −∞ x f (x) dx . (3.10) 3.2 Erwartungswerte, algebraische und zentrale Momente Allgemeine Formulierung: Der Erwartungswert einer Funktion h(x) ist gegeben durch: R∞ −∞ h(x) · f (x) E[h] = Erwartungswerte einfacher Polynomfunktionen von E[xn ] E[(x− < x >)n ] : : n-tes n-tes x dx . (3.11) werden Momente genannt: algebraisches Moment zentrales Moment Bei den ersten und zweiten Momenten treten einige schon bekannte Spezialfälle auf. 3.2.1 Mittelwert Der Mittelwert ist das 1. algebraische Moment: Z ∞ x · f (x) dx E[x] = (3.12) −∞ = <x> . (3.13) Daraus ergibt sich für das 1. zentrale Moment: Z ∞ (x− < x >) · f (x) dx E[x− < x >] = Z−∞ ∞ (3.14) Z ∞ x · f (x) dx − < x > · = −∞ f (x) dx (3.15) −∞ = < x > − < x > ·1 (3.16) = 0 (3.17) 13 KAPITEL 3. 1-DIMENSIONALE WAHRSCHEINLICHKEITSVERTEILUNGEN 3.2.2 Root-Mean-Square Die Wurzel des 2. algebraischen Moments wird Root-Mean-Square (RMS) oder auch quadratischer Mittelwert genannt xRMS = p E[x2 ] Z∞ = h (2. 1/2 Algebraisches Moment) i 1/2 x2 f (x) dx (3.18) −∞ (3.19) 3.2.3 Varianz 2 ∞ Z (x− < x >)2 · f (x)dx E[(x− < x >) ] = (3.20) −∞ ← Varianz = V [x] = σ Hier ist σ (3.21) 2 (3.22) die Standardabweichung, also das Maÿ für die Gröÿe der statistischen Schwan- kungen der Zufallsvariablen x um den Mittelwert. Dies wird auch als Fehler bezeichnet. Das RMS und die Varianz haben folgenden Zusammenhang: V [x] = E[(x− < x >)2 ] = E[x2 − 2x < x > + < x >2 ] Z∞ = E[x2 ] + < x >2 −2 < x > x f (x) dx −∞ | Für < x >= 0 xRMS = E[x2 ] − < x >2 p = V [x] + < x >2 xRM S = {z =<x> } (3.23) (3.24) ist p V [x] = σ ← Standardabweichung (3.25) N.B.: Vorsicht beim Programmpaket für Histogramme ROOT, dort heiÿt es RMS, aber berechnet wird: σ = p V [x] = E[x2 ] − < x >2 . (3.26) 3.3 Weitere Lokalisierungs- und Dispersionsparameter Wahscheinlichkeitsdichten können durch verschiedene Typen von Parametern charakterisiert werden: 14 KAPITEL 3. 1-DIMENSIONALE WAHRSCHEINLICHKEITSVERTEILUNGEN 1) Lokalisierungsparater z.B. Mittelwert 2) Dispersionsparameter z.B. Standardabweichung, Im folgenden werden einige wichtige solcher Parameter aufgefürt. 3.3.1 Wahrscheinlichster Wert Der Wahrscheinlichste Wert ist das Maximum der Wahrscheinlichkeitsdichtefunktion. 3.3.2 Median Ein zufällig gewählter Wert liegt mit gleicher Wahrscheinlichkeit oberhalb bzw. unterhalb des Medians: R∞ f (x) dx = 0, 5 (3.27) −∞ Der Median ist oft nützlich für Verteilungen mit langen Ausläufern, so daÿ der Mittelwert weit vom Maximum entfernt liegt 3.3.3 Getrimmter Mittelwert Beispiel: Sport: Weglassen der besten und der schlechtesten Schiedsrichterwertung Allgemein: Bei n Messpunkten werden die folgenden Werte unberücksichtigt gelassen: n 2 n (1 − 2r) 2 (1 − 2r) kleinsten Werte (3.28) gröÿten Werte Der Mittelwert wird mit den verbleibenden N n 2 = n (1 − (1 − 2r)) = n − 2 (1 − 2r) = 2rn (3.29) Werten gebildet. Für Für r = 0, 5 ist N = 2 · 0, 5n = n und der getrimmte Mittelwert r → ∞ gilt N → 0 und der getrimmte Mittelwert ist gleich Empfehlung: r = 0, 23 gleich dem Mittelwert. dem Median. (3.30) Typische Wahrscheinlichkeitsdichten im Vergleich, Kompromiss für Mittelwertbestimmung. 15 KAPITEL 3. 1-DIMENSIONALE WAHRSCHEINLICHKEITSVERTEILUNGEN 3.3.4 Full-Width-Half-Maximum Eine weitere nützliche Gröÿe ist das Full-Width-Half-Maximum (FWHM), also die volle Breite auf halber Höhe einer Verteilung. Beispiel: Maxwellsche Geschwindigkeitsverteilung eines idealen Gases Die Wahrscheinlichkeitsdichte des Betrags der Geschwindigkeit Gases bei einer Temperatur T (in Kelvin) ist gegeben durch: f (v) = N · Der Wahrscheinlichste Wert für v m 2πkT !2 3 mv 2 · 4πv · exp − 2kT ! 2 beträgt: 2kT m vmax = Dieser ist v der Moleküle eines ideales !1 2 nicht identisch mit dem Mittelwert. Dieser beträgt: 8kT πm <v> = !1 2 = 1.128 · vmax Der Median der Maxwellverteilung ist v0,5 = 1, 098 · vmax Der RMS liegt bei vRMS = 3kt m !1/2 = 1, 225 · vmax Maxwellsche Geschwindigkeitsverteilung f(v/vmax) 1.2 v0,5vRMS vmax<v> 1 0.8 0.6 FWHM 0.4 0.2 0 16 0 0.5 1 1.5 2 2.5 v/vmax3 KAPITEL 3. 1-DIMENSIONALE WAHRSCHEINLICHKEITSVERTEILUNGEN 3.4 Problemstellungen und Verteilungen mit diskreter Variable 3.4.1 Kombinatorik Kombinatorik ist oft ein nützliches Instrument, um Wahrscheinlichkeitsberechnungen durchzuführen. Möchte man r verschiedene Objekte in einer Reihe anordnen, so beträgt die Anzahl der verschiedenen Möglichkeiten: N Beispiel: Sollen aus = r! (3.31) r = 3: r! = 3 · 2 · 1 = 6 n verschiedenen Objekten abc bca cab acb bac cba r ausgewählt werden, wobei die Reihenfolge wichtig ist, so beträgt die Anzahl der verschiedenen Möglichkeiten: N = n(n − 1)(n − 2)...(n − r + 1) = Beispiel: n = 4, r = 2: N = n! . (n − r)! (3.32) (3.33) 4! = 4 · 3 = 12 2! abcd: ab ac ad ba bc bd ca cb cd da db dc Ist die Reihenfolge unwichtig, so muÿ durch die Anzahl der Anordnungsmöglichkeiten dividiert werden. N n! r!(n − r)! n ≡ ← Binominialkoezient r = = Beispiel: n n−1 n−r+1 · ... r r−1 1 n = 4, r =: N = ← für numerische Rechnungen (3.34) (3.35) (3.36) 4! =6 2!2! abcd: ab ac ad bc bd cd 17 KAPITEL 3. 1-DIMENSIONALE WAHRSCHEINLICHKEITSVERTEILUNGEN 3.4.2 Binomialtheorem n (p + q) = n X n r=0 r · pr · q n−r (3.37) Beispiel: 2 (a + b) 2 X 2 = r=0 r · ar · b2−r 2 2 2 0 2 1 1 = ·a ·b + ·a ·b + · a2 · b0 0 1 2 2! 2 2! 2! 2 ·b + ab + a 0!2! 1!1! 2!0! = b2 + a b + a2 = 3.4.3 Binomialverteilung Die Wahrscheinlichkeit für das Auftreten eines Ereignisses sei bei n Versuchen bei den ersten r p. Soll dieses Ereignis nun auftreten und nicht bei den letzten n − r, ist die Wahr- scheinlichkeit dafür: pr · (1 − p)n−r . (3.38) Spielt die Reihenfolge keine Rolle, ist die Anzahl von Möglichkeiten, daÿ in mal das Ereignis auftritt in n Versuchen genau P Diese Verteilung wird r = n r · pr · (1 − p)n−r Binominialverteilung , r = 0, 1, 2, 3, ..., n . (3.39) genannt. P(r) 0.15 0.1 0.05 18 r mal auftritt: 0.2 0 Versuchen Binomial-Verteilung mit n=20 und p=0,2 0 n n r . Daraus ergibt sich die Wahrscheinlichkeit, daÿ das Ereignis 2 4 6 8 10 r KAPITEL 3. 1-DIMENSIONALE WAHRSCHEINLICHKEITSVERTEILUNGEN Beispiel: Mit sechs Würfen keinmal die sechs würfeln. 1 6 6 P (0) = · 0 !0 !6 5 6 · 6! 56 ·1· 6 0!6! 6 = 33, 5% = Die Binomialverteilung ist bereits auf eins normiert, wie man durch Einsetzen des Binomialtheorems Gleichung 3.37 sofort sieht: n X n X n P (r) = r=0 r r=0 · pr · (1 − p)n−r = (p + (1 − p))n = 1. (3.40) Der Mittelwert der Binominialverteilung ist gegeben durch: < r > = E[r] n X = r · P (r) r=0 < r > = np , (3.41) die Varianz durch: σ 2 = V [r] n X = (r− < r >)2 · P (r) r=0 σ 2 = n p (1 − p) Beweis: wir führen die Variable . (3.42) t ein und dierenzieren einmal nach t für den Mittelwert: f (t) = (p t + q)n n X n · pr · tr · q n−r = r (3.43) r=0 ⇒ ∂f ∂t = n · p · (p t + q)n−1 (3.44) andererseits gilt auch: ∂f ∂t = n X n r=0 r · pr · r · tr−1 · q n−r . t = 1 und q = 1 − p, so erhält n X n r p · (1 − p)n−r · r n p (p · 1 + (1 − p))n−1 = | {z } r r=0 | {z } 1 Wählt man nun in Gleichung 3.44 und 3.45 (3.45) man mit 3.3 P (r) np = n X P (r) · r r=0 = <r> . (3.46) 19 KAPITEL 3. 1-DIMENSIONALE WAHRSCHEINLICHKEITSVERTEILUNGEN Ähnlich kann man mit der 2. Ableitung den Beweis für die Varianz führen (siehe [1]). Beispiel: Glühbirnen-Hersteller Es wird eine Ausschussrate p = 2% über viele Produktionen gemessen. In einer Stichpro- be von 100 Birnen werden 4 kaputte Birnen festgestellt. Die Wahrscheinlichkeit hierfür beträgt: P (4) = 100 · 0, 024 · (1 − 0, 02)100−4 4 100! · 0, 024 · 0, 9896 4! · (100 − 4)! = 0, 09 = = 9% Es ist also nicht unwahrscheinlich, daÿ dies passiert. Bei der Binomialverteilung kann folgendes Problem auftreten: Ist n groÿ, so treten sehr groÿe Zahlen auf, was zu numerischen Unsicherheiten führt. Hier wäre es praktisch, eine gute Näherung zu nden. 3.4.4 Poissonverteilung Die Poissonverteilung gibt die Wahrscheinlichkeit an, genau r Ereignisse zu erhalten, wenn zum einen die Zahl der Versuche n sehr groÿ ist und zum anderen die Wahrscheinlichkeit für ein Ereignis bei nur einem Versuch sehr klein ist. Hierbei gilt für den Mittelwert: < r > = n·p ≡ µ < ∞ Die Wahrscheinlichkeit für r ist durch nur einen Parameter . µ (3.47) charakterisiert und gegeben durch: P (r) = µr · e−µ r! r = 0, 1, 2, . . . , n . (3.48) P(r) Poisson-Verteilung mit µ=4 0.2 0.15 0.1 0.05 0 20 0 2 4 6 8 10 r KAPITEL 3. 1-DIMENSIONALE WAHRSCHEINLICHKEITSVERTEILUNGEN Die Varianz der Poissonverteilung ist gegeben durch: = σ2 = µ V . (3.49) Beispiel: Glühbirnen Hersteller Bei einer Ausschuÿrate von 2% und 100 Birnen, ergibt sich ein Mittelwert von: µ = n · p = 100 · 0.02 = 2 . Die Wahrscheinlichkeit, daÿ vier von 100 Birnen defekt sind, ist nach Poissonverteilung: P (4) = = 24 · e−2 µ4 · e−µ = 4! 24 0.09 = 9% . Das ist einfacher zu berechnen im Vergleich zur Binomialverteilung. Die Poissonverteilung kann aus der Binomialverteilung hergeleitet werden. Wie oben schon erwähnt, gilt: < r > = np = µ ⇒ p = µ . n (3.50) Dies kann man nun in die Binomialverteilung einsetzten: n P (r) = · pr · (1 − p)n−r r !r !n−r µ µ n! · 1− = r!(n − r)! n n = = = Da µ = n · p = const. !n−r µr n · (n − 1) · . . . · (n − r + 1) µ · · 1− r! nr r " !n−r # µr n n−1 n−r+1 µ · · · ... · · 1− r! n n n n !n µ ! ! 1− n r−1 µr 1 !r · 1· 1 − · ... · 1 − · . r! n n µ 1− n und n sehr groÿ, gilt ! 1 lim 1 − = 1, n→∞ n !r µ = 1. lim 1 − n→∞ n 21 KAPITEL 3. 1-DIMENSIONALE WAHRSCHEINLICHKEITSVERTEILUNGEN Sowie: lim n→∞ !n µ = e−µ , 1− n da: lim n→∞ 1 1+ n !n = e. Also ergibt sich: P (r) = µr −µ e . r! 3.5 Wahrscheinlichkeitsdichten für kontinuierliche Variable 3.5.1 Gauÿ-Verteilung Die Gauÿ'sche Wahrscheinlichkeitsdichte wird häug auch Gauÿ-Verteilung genannt: f (x) = √ 1 2π σ (x − µ)2 2σ 2 ·e − . (3.51) Mittelwert und Varianz der Gauÿ-Verteilung ergeben sich zu: <x> = µ V = σ2 (3.52) f(x) Gauss-Verteilung mit µ=4 und σ=2 0.2 0.15 0.1 0.05 0 Die Standardisierte Gauÿ-Verteilung Breite von 22 0 σ = 1. 5 ist symmetrisch um 10 x x = 0 (→ µ = 0) und hat eine KAPITEL 3. 1-DIMENSIONALE WAHRSCHEINLICHKEITSVERTEILUNGEN f(x) Gauss-Verteilung mit µ=0 und σ=1 0.4 0.3 0.2 0.1 0 -4 -2 0 Die Gauÿ-Verteilung fällt in der Entfernung σ 2 auf den 4 x √ 1/ e-ten Teil ab: (x−µ)2 e−1/2 = e 2σ2 (x − µ)2 1 = σ2 σ = |x − µ| (3.53) Integrieren über die Gauÿ-Verteilung ergibt: √ 1 2π σ 2 Zσ e (x−µ)2 2σ 2 dx = 68, 26% (3.54) −σ Dies ergibt die Wahrscheinlichkeit, eine Zufallsvariable im Intervall µ−σ ≤ x ≤ µ+σ zu nden. D.h. in 1/3 der Fälle (z.B. bei Messungen) liegt (3.55) x auÿerhalb des Innerhalb des Intervalls ist Wahrscheinlichkeit |x − µ| < σ |x − µ| < 2σ |x − µ| < 3σ 68,26 % ±1σ Bereiches. 95,45 % 99,73 % Die Gauÿ-Verteilung kann als Spezialfall aus Binomial- sowie Poisson-Verteilung hergeleitet werden: • Ist die Anzahl n der Versuche sowie die Anzahl r der Ereignisse groÿ, so kann die Gauÿ-Verteilung aus der Binomialverteilung hergeleitet werden. • Ist der Mittelwert µ = np in der Poissonverteilung groÿ, so geht daraus ebenfalls die Gauÿ-Verteilung hervor. 23 KAPITEL 3. 1-DIMENSIONALE WAHRSCHEINLICHKEITSVERTEILUNGEN Vergleich zwischen Gauss-. Poisson- und Binominial-Verteilung P(x) 0.25 Gauss-Verteilung 0.2 Poisson-Verteilung Binominial-Verteilung 0.15 0.1 0.05 0 0 2 4 6 8 10 x Um die Gauÿ-Verteilung aus der Binomialverteilung herzuleiten, entwickelt man den Logarithmus der Binominialverteilung für groÿe n um das Maximum: n r n−r ln P (r) = ln ·p ·q r n! r!(n − r)! = r · ln p + (n − r) ln q + ln n! − ln r! − ln(n − r)! . = r ln p + (n − r) ln q + ln Dazu bestimmt man zuerst das Maximum: ∂ ∂ ∂ ! ln P (r) = ln p − ln q − ln r! − ln(n − r)! = 0 . ∂r ∂r ∂r Hierzu wird die Stirlingsche Formel für Fakultäten groÿer Werte verwendet: ⇒ ! 1 1 · ln(n − r) − (n − r) + ln(2π) ln(n − r)! ≈ n−r+ 2 2 ! −1 ∂ 1 ln(n − r)! = − ln(n − r) + n − r + · +1 ∂r 2 n−r | {z } (3.56) ≈−1 ≈ − ln(n − r) (3.57) und ln r! ≈ ⇒ ! 1 1 r+ · ln r − r + · ln(2 · π) 2 2 (3.58) 1 r+ ∂ 2 −1 ln r! = ln r + ∂r r | {z } ≈1 ≈ ln r . Daraus ergibt sich: ∂ ! ln P (r) = ln p − ln q − ln r + ln(n − r) = 0 ∂r 24 (3.59) KAPITEL 3. 1-DIMENSIONALE WAHRSCHEINLICHKEITSVERTEILUNGEN Also: ln n−r q = ln r p ⇒ q n = 1+ r p ⇒ r = = rmax = n · p ⇒ Nun die Entwicklung um n 1+ q p n·p p+q = <r> (3.60) rmax =< r >= n p: ln P (r) = ln P (< r >) ∂ ln P (r)r=<r> · (r− < r >) ∂r 1 ∂2 + ln P (r)r=<r> · (r− < r >)2 + · · · 2 2! ∂r + Die 1. Ableitung im Maximum ist null. Die 2. Ableitung ist: ∂2 ln P (r) = ∂r2 ⇒ ∂ (− ln r + ln(n − r)) ∂r 1 −1 = − + r n−r ! 1 1 1 = − + 2 < r > n − n·p ! 1 1 1 = − + 2 n·p n − n·p 1 ∂2 ln P (r)r=<r> 2 2! ∂r 1 1−p+p = − · 2 n · p · (1 − p) 1 1 ln P (r) ≈ ln P (< r >) − · · (r− < r >)2 2 n · p · (1 − p) ! (r− < r >)2 . ⇒ P (r) = P (< r >) · exp − 2 · n · p · (1 − p) ⇒ Es ergibt sich also eine Gauÿ-Verteilung mit: Mittelwert: Varianz: µ = <r> , V = n p (1 − p) = σ 2 . Häug wird das FWHM einer Gauÿ-Verteilung angegeben. Das Maximum der GauÿVerteilung liegt bei: fmax (x = µ) = √ 1 2π σ (3.61) 25 KAPITEL 3. 1-DIMENSIONALE WAHRSCHEINLICHKEITSVERTEILUNGEN Daraus ergibt sich für das FWHM: 1 1 ·√ = 2 2π σ √ 1 e− (x−µ)2 2σ 2 2π σ (x − µ)2 1 = − ln 2 2σ 2 2 2σ ln 2 = (x − µ)2 √ x − µ = ±σ 2 ln 2 ⇒ FWHM √ = 2σ 2 ln 2 ≈ 2, 355σ (3.62) 3.5.2 Gleichverteilung Hier ist die Wahrscheinlichkeitsdichte konstant zwischen x=a und x = b: f(x) Gleichverteilung mit a=3 und b=8 0.2 0.15 0.1 0.05 0 0 2 4 6 8 1 a≤x≤b f (x) = b−a 0 auÿerhalb a+b <x> = 2 (b − a)2 V = 12 Oft ist 26 a=0 und b=1 10 x (3.63) KAPITEL 3. 1-DIMENSIONALE WAHRSCHEINLICHKEITSVERTEILUNGEN f(x) Gleichverteilung mit a=0 und b=1 1 0.8 0.6 0.4 0.2 0 0 0.5 1 1.5 x Hier gilt: <x> = σ = 1 2 √ V = 1 √ 12 27 Kapitel 4 Kombination von Wahrscheinlichkeitsdichten 4.1 Faltung von Wahrscheinlichkeitsdichten x, y mit den zugehörigen Wahrscheinlichkeitsdichten fx (x) und fy (y) aus. Die Summe w = x + y ist wieder eine Zufallsvariable mit der Wahrscheinlichkeitsdichte fw (w). ZZ fw (w) = fx (x) · fy (y) · δ(w − x − y) dx dy Z = fx (x) · fy (w − x) dx Z = fy (y) · fx (w − y) dy . (4.1) Wir gehen von zwei Zufallsvariablen Dieses Verfahren heiÿt Faltung. Die δ -Funktion gewährleistet, daÿ w = x+y für alle Werte, und hat die folgende Eigenschaft: Z∞ h(x) δ(x − a) dx = h(a) . (4.2) −∞ 4.2 Der zentrale Grenzwertsatz Der Zentrale Grenzwertsatz spielt eine entscheidende Rolle für die Interpretation von Meÿdaten. Seine wesentliche Aussage ist, daÿ sich bei der Addition einer groÿen Anzahl von Zufallszahlen immer eine Gauÿ-Verteilung ergibt. Die mathematische Formulierung des Zentralen Grenzwertsatzes lautet: Die Wahrscheinlichkeitsdichte der Summe w = n X xi (4.3) i=1 29 KAPITEL 4. KOMBINATION VON WAHRSCHEINLICHKEITSDICHTEN einer Stichprobe aus n xi unabhängigen Zufallsvariablen keitsdichte mit dem Mittelwert < x > mit beliebiger Wahrscheinlich- σ2 und der Varianz geht für n → ∞ gegen eine Gauÿ-Wahrscheinlichkeitsdichte mit dem Mittelwert <w> = n <x> (4.4) und der Varianz V [w] = n σ 2 . (4.5) Beispiel: Überlagerung von Zufallszahlen Es werden 10 zwischen 0 und 1 gleichverteilte Zufallszahlen addiert, im ersten Bild sieht man die Verteilung der ersten Zufallszahl, im zweiten die Verteilung der Summe der ersten beiden Zufallszahlen (Dreiecksform) und im dritten die Summe aller zehn Zufallszahlen. Man kann deutlich die Gauÿ-Form erkennen. Zufallszahl x1 Zufallszahlen x1 + ... + x10 Zufallszahlen x 1 + x2 Entries 10000 120 Entries Entries 10000 200 Mean RMS 100 0.5001 Mean 0.2882 RMS 1 0.4037 10000 Mean 5.007 RMS 0.9103 χ2 / ndf 400 92.34 / 60 Prob 0.004626 439.4 ± 5.3 Constant 5.004 ± 0.009 Mean 150 0.9001 ± 0.0060 Sigma 80 300 60 100 200 40 50 100 20 0 0 0 0.2 0.4 0.6 0.8 1 1.2 0 0 0.5 1 1.5 2 0 2 4 6 8 10 < w >= 10 · 0, 5 = 5 10 und eine Varianz von V [w] = 10 · √ 2 = 12 = 0, 83 und daraus eine Breite von σw = 0, 91. 12 Cross-Check: für n = 10 ergibt sich ein erwarteter Mittelwert von 1 Herleitung zum Mittelwert: E[W ] = < w > n X = E[ xi ] i=1 = n X E[xi ] i=1 = n· < x > . 30 KAPITEL 4. KOMBINATION VON WAHRSCHEINLICHKEITSDICHTEN Herleitung zur Varianz: V [W ] = E[(w− < w >)2 ] !2 n n X X xi − < xi > = E i=1 n X = E i=1 !2 (xi − < xi >) i=1 " = E n X (xi − < xi >) · i=1 n X # (xk − < xk >) i=1 n n X X 2 (xi − < xi >) · (xk − < xk >) = E (xi − < xi >) + i=1 i=1 | {z } =0, da xi und xk unkorreliert sind " = E n X # (xi − < xi >)2 i=1 = n · V [x] . 4.3 Interpretation von Messwerten Jede einzelne Messung wird von vielen Fehlerquellen beeinuÿt, die den wahren Wert zum Zeitpunkt der Messung verändern. Viele Fehlerquellen, die unabhängig voneinander auftreten und den Meÿwert zufällig in die ein oder andere Richtung ziehen, folgen gemeinsam einer Gauÿ-Wahrscheinlichkeitsdichte aufgefaÿt werden, die Die Schätzung x̄ f (x) f (x). Die Meÿdaten xi können als Zufallsvariablen entnommen wurden (Stichprobe). für den wahren Mittelwert von x̄ = f (x) (Stichprobenmittelwert) lautet: n 1X xi . n (4.6) i=1 Und die Schätzung der Varianz σ2 für die wahre Varianz V = σ2 von f (x) (Stichproben- varianz) lautet: s2 = n 1 X (xi − x̄)2 . n−1 (4.7) i=1 Beispiel: Versuch aus der ersten Vorlesung Die Zeit für Informationsübertragung wurde acht mal gemessen. Aus den berechneten Schätzwerten für den Mittelwert <t> und Standardabweichung σ ergibt sich das Meÿer- gebnis: t̄ ± s . D. h. 68 % der Messungen liegen innerhalb von (4.8) t̄ − s < t < t̄ + s Zum Test der Reproduzierbarkeit wurde eine neunte zusätzliche Messung gemacht und t ≈ t̄ + s gemessen. Dies ist also ein wahrscheinlicher Wert. 31 KAPITEL 4. KOMBINATION VON WAHRSCHEINLICHKEITSDICHTEN Entries Mean RMS χ2 / ndf 8 1.029 0.09892 0.816 / 2 Prob 0.665 Constant 2.709 ± 1.192 Mean 1.037 ± 0.042 Sigma 0.1181 ± 0.0317 N Zeitmessung mit Gauss-Fit 4 3 2 1 0 0.8 1 1.2 1.4 t [s] Nebenbemerkung: Dieser statistische Fehler berücksichtigt nur zufällige Fehler, nicht aber systematische Fehler, wie beispielsweise eine fehlerhafte Eichung des Uhrwerks. Letztere müssen separat ermittelt und angegeben werden werden. Das vollständige Meÿergebnis lautet dann: Meÿwert ± statistischer | ± systematischer . {z } (4.9) Fehler 4.4 Charakteristische Funktion Vorausgesetzt wird eine Zufallsvariable itx heiÿt Der Erwartungswert von e x mit einer Wahrscheinlichkeitsdichte f (x). Charakteristische Funktion φ(t) = E[eitx ] Z∞ = eitx f (x) dx . (4.10) −∞ Die inverse Operation lautet: f (x) = 1 2π Z∞ e−itx φ(t) dt . (4.11) −∞ Die Normierung für t=0 lautet: φ(0) = R∞ −∞ 32 f (x) dx = 1 (4.12) KAPITEL 4. KOMBINATION VON WAHRSCHEINLICHKEITSDICHTEN 4.5 Faltung von zwei Gauÿ-Verteilungen µ=0 Für eine Gauÿ-Wahrscheinlichkeitsdichte mit ergibt sich als charakteristische Funk- tion √ f (x) = √ φ(t) = √ = 1 “ 2π σ e ” −x2 2σ 2 Z∞ 1 2π σ 1 2π σ “ itx e −∞ Z∞ “ e e ” −x2 2σ 2 i2σ 2 tx − x2 2σ 2 dx ” dx . (4.13) −∞ Das Argument der Exponentialfunktion kann wie folgt umgeformt werden: − i 1 h 1 2 2 2 2 2 2 x − i2σ tx = − x − itσ − itσ 2σ 2 2σ 2 2! 2! (itσ2 ) Z∞ − (x − itσ2 ) 1 2σ 2 2σ 2 ⇒ φ(t) = √ e dx e 2π σ (4.14) −∞ “ − = e t2 2/σ 2 ” √ | Z∞ 1 2π σ e− (x − itσ 2 )2 2σ 2 dx . (4.15) −∞ {z =1 für jeden Wert von t } Die Charakteristische Funktion der Gauÿ-Verteilung ist also selbst wieder eine GauÿVerteilung in t mit Varianz 1/σ 2 . Möchte man nun zwei Gauÿ-Verteilungen falten, so kann man dies mit Hilfe der Charakteristischen Funktion tun. fx (x) = fy (y) = Charakteristische Funktionen mit N √ √ „ 1 e 2π σx „ 1 e 2π σy −x2 2 2σx « −y 2 2 2σy « (4.16) (4.17) als Normierung: − φx (t) = Nx · e t2 2 1/σx 2 − t 2 1/σy φy (t) = Ny · e (4.18) (4.19) Faltung: ZZ fw (w) = fx (x) · fy (y) · δ(w − x − y) dx dy . (4.20) 33 KAPITEL 4. KOMBINATION VON WAHRSCHEINLICHKEITSDICHTEN Charakteristische Funktion: ZZZ φw (t) = eiwt fx (x), fy (y) δ(w − x − y) dx dy dw ZZ ei(x+y)t fx (x), fy (y) dx dy Z Z ixt = e fx (x)dx · eiyt fy (y)dy = = φx (t) · φy (t) 2 2 2 = N · N · e−(t /2 · (σx +σy )) x (4.21) y Die Rücktransformation ergibt sich aus einer Rechung analog zu 4.15 fw (w) = Z∞ 1 · Nx · Ny 2π 2 /2 e−itw · e−(t · (σx2 +σy2 )) dt −∞ . . . − fw (w) = Nw · e w 2 +σ 2 ) 2(σx y Es ergibt sich also eine Gauÿ-Verteilung in 34 w = x+y (4.22) mit einer Varianz von 2 = σ2 + σ2. σw x y Kapitel 5 Multi-dimensionale Wahrscheinlichkeitsverteilungen Gegeben ist eine Zufallsvariable in zwei Dimensionen, also eine Wahrscheinlichkeitsdichte f (x, y). Gesucht ist nun die Wahrscheinlichkeit im Intervall a ≤ x < b ∧ c ≤ y < d. Dazu muÿ das folgende Doppelintegral gelöst werden: P (a ≤ x < b, c ≤ y < d) = R dR b c a f (x, y) dx dy . (5.1) Auch hier ist die Wahrscheinlichkeitsdichte normiert: Z ∞Z ∞ f (x, y) dx dy = 1 (5.2) −∞ −∞ y 2D-Konturplot, Kurven fuer f(x,y) = const. 8 7 6 5 0 0.5 1 1.5 2 x 35 KAPITEL 5. MULTI-DIMENSIONALE WAHRSCHEINLICHKEITSVERTEILUNGEN 5.1 Mittelwert, Varianz, Kovarianz, Korrelation Intuitiv bekannt sind bereits Mittelwert und Varianz: <x> <y> σx2 σy2 = = = = R∞ R∞ = −∞ −∞ x · f (x, y) dx dy R∞ R∞ = −∞ −∞ y · f (x, y) dx dy R∞ R∞ = −∞ −∞ (x− < x >)2 · f (x, y) dx dy R∞ R∞ = −∞ −∞ (y− < y >)2 · f (x, y) dx dy . E[x] E[y] V [x] V [y] Neu bei mehrdimensionalen Verteilung ist die 2 = σxy Oft ist auch der R∞ R∞ −∞ −∞ (x− Kovarianz zwischen x und < x >) · (y− < y >) · f (x, y) dx dy (5.3) y: . (5.4) Korrelationskoezient ρ gebräuchlich, für den gilt: σxy = ρxy · q σx2 · σy2 , −1 < ρxy < 1 . (5.5) Man kann nun die Kovarianzmatrix aufstellen: V = σx2 σxy σyx σy2 ! σx2 σxy σxy σy2 = ! . (5.6) 5.2 2-dimensionale Gauÿ-Verteilung Die zweidimensionale Gauÿ-Verteilung hat folgendes Aussehen: f (x, y) = 2πσx σy 1 p exp − 1 − ρ2 · x−ξ 1 2 2(1 − ρ ) σx !2 − 2ρ (x − ξ) (y − η) · + σx σy ! y−η ,(5.7) σy mit: ρ = ρxy σxy q , (5.8) σx2 · σy2 <x> = ζ, (5.9) <y> = η, (5.10) V [x] = V [y] = 36 = σx2 σy2 , (5.11) . (5.12) y KAPITEL 5. MULTI-DIMENSIONALE WAHRSCHEINLICHKEITSVERTEILUNGEN 2D Gauss-Verteilung mit ξ=9, η=6, σx=2, σy=1, σxy =0,5 9 8 7 6 5 4 3 4 6 8 10 12 14 x Bei der 1-dimensionalen Gauÿ-Verteilung fällt die Wahrscheinlichkeitsdichte auf den √ 1/ e- ten Teil ab bei: − 21 e ⇒ (x − µ)2 = exp − 2σ e (5.13) x − µ = ±σ . (5.14) Bei der 2-dimensionalen Gauÿ-Verteilung geschieht dies mit − 12 ! ! 1 x 2 = exp − + 2 σx | {z ! y σy ξ=η=ρ=0 !2 , } bei: (5.15) =1 !2 !2 x y wobei + = 1 einer Ellipse entspricht. σx σy Für ρ 6= 0 wird die Ellipse lediglich gedreht und die Bedingung für eine gedrehte Ellipse ist erfüllt: x2 x·y y2 − 2ρ + = 1 − ρ2 . σx2 σx · σy σy2 (5.16) 37 Kapitel 6 Fehlerbestimmung 6.1 Statistische Fehler Bei statistischen Fehlern handelt es sich um zufällig verteilte Fehler. Sie sind im Rahmen von Wahrscheinlichkeits-Überlegungen berechenbar. 6.1.1 Fehler von Mittelwert und Standardabweichung x̄ und s2 sind selbst Zufallsvariablen, da sie aus Zufallsvariablen berechnet werden. Die Genauigkeit des Mittelwerts beträgt nach dem Zentralen Grenzwertsatz:: " 1 X V [x̄] = V · xi n " # W = V n = = = 1 · V [W ] n2 1 · n · V [W ] n2 s2 n σ(x̄) = Demnach wird x̄ mit √ n # (6.1) s √ n (6.2) genauer. Entsprechend kann man zeigen, daÿ auch die Standardabweichung mir σ(s) = s p 2(n − 1 √ n genauer wird: (6.3) 39 KAPITEL 6. FEHLERBESTIMMUNG 6.1.2 Transformation von Wahrscheinlichkeitsdichten fx (x) und einer Transformationsvorschrift y = fy (y) in der neuen Variable y gesucht: Bei gegebener Wahrscheinlichkeitsdichte y(x) ist die Wahrscheinlichkeitsdichte y y(x) 111111 000000 000000 111111 000000 111111 000000 111111 000000 111111 000000 111111 000000 111111 000000 111111 000000 111111 000000 111111 000000 111111 1111 0000 0000 1111 0000 1111 0000 1111 0000 1111 0000 1111 0000 1111 0000 1111 0000 1111 0000 1111 0000 1111 0000 1111 0000 1111 0000 1111 f(y) x f(x) Da die Wahrscheinlichkeit im Intervall [y, y + dy] [x, x + dx] bei einer Transformation ins Intervall erhalten ist, müssen die Flächen unter den Wahrscheinlichkeitsdichten gleich sein: fx (x)dx = fy (y) dy ⇒ wobei x(y) dx fy (y) = fx (x(y)) , dy die inverse Funktion von (6.4) (6.5) y(x)ist. 6.1.3 Fehlerfortpanzungsgesetz in einer Dimension Die Transformation von Mittelwert und Varianz erhält man durch Taylorentwicklung: y(x) = y(< x >) + dy · (x− < x >) dx x=<x> 1 d2 y · (x− < x >)2 + · · · + 2 dx2 x=<x> 40 KAPITEL 6. FEHLERBESTIMMUNG Der Erwartungswert der Variablen ergibt sich also zu: E[y] = < y > Z ∞ dy · (x− < x >)f dx f dx + dx x=<x> −∞ −∞ | | {z } {z } Z = y(< x >) · ∞ =1 =0 1 d2 y · E[(x− < x >)2 ] + 2 dx2 x=<x> 1 d2 y = y(< x >) + · V [x] . 2 dx2 x=<x> x ± σ , welcher in die Transformation 2 mit σ dann oft weggelassen: Bei Messungen hat x schon einen Fehler wird. Hier wird der Term 2. Ordnung < y > ≈ y(< x >) . eingebracht (6.6) Für die Varianz erhält man aus der Taylorentwicklung: V [y] = E[(y− < y >)2 ] dy ≈ E[ y(< x >) + (x− < x >) − < y > | {z } dx x=<x> !2 ] ≈y(<x>) !2 dy ≈ E[ (x− < x >) ] dx x=<x> !2 dy E[(x− < x >)2 ] = dx x=<x> !2 dy = V [x] . dx x=<x> Daraus ergibt sich das Gesetz der Fehlerfortpanzung: dy V [y] = Beispiel: Linearer Zusammenhang !2 dx . V [x] (6.7) y = ax + b: < y > = a · < x > +b und V [y] = d dy !2 (a · x + b) · V [x] = a2 · V [x] 41 KAPITEL 6. FEHLERBESTIMMUNG 6.1.4 Fehlerfortpanzungsgesetz in n Dimensionen Wir starten bei einer linearen Transformation von n Variablen x1 , x2 . . . xn auf m Variablen y1 , y 2 . . . y m : y1 B11 . . . B1n y2 . . .. . = . .. . . . . Bm1 . . . Bmn ym ⇔ ~y = B Die Bik = riablen xk ∂yi ∂xk x1 x2 · . .. xn · ~x . geben die Richtungsableitung der neuen Variablen yi (6.8) nach den Originalva- an. Für den Mittelwert gilt: < x1 > < x2 > < ~x > = . . . < xn > (6.9) B · ~x] ⇒ < ~y > = E[B Z ∂y1 ⇒ < y1 > = xi f (x1 , . . . , xn ) dx1 · · · dxn + · · · ∂x |{z}1 (6.10) = const. ∂y1 · < x~1 > + . . . ∂x1 ⇒ < ~y > = B < ~x > . = (6.11) (6.12) Für die Varianz gilt: V [~y ] = E (~y − < ~y >)2 B · ~x − B · < ~x >)2 = E (B h i B · (~x− < ~x >))2 = E (B h i B · (~x− < ~x >)) · (B B · (~x− < ~x >))T = E (B B · (~x− < ~x >)) · (~x− < ~x >)T · B T = E (B = B · V [~x] · B T wobei das T (6.13) angibt, daÿ es sich um eine transponierte Matrix handelt, also Zeilen und Spalten vertauscht sind. Gleichung 6.13 ist das Fehlerfortpanzungsgestz: V [~y ] = B · V [~x] · B T . (6.14) Der allgemeine Fall nichtlinearer Transformationen ist analog, bei der Bestimmung von aus den Ableitungen muÿ jedoch der Mittelwert von Bik = 42 ∂yi . ∂xk xk =<xk > ~x B eingesetzt werden: (6.15) KAPITEL 6. FEHLERBESTIMMUNG 6.1.5 Anwendung: Zusammengesetzte Messgröÿen y = y(x1 , x2 ) . (6.16) Für die Varianz gilt V [y] = B · V [~x] · B T ∂y ∂y mit B = ∂x1 ∂x2 ! σ12 σ12 und V [~ x] = σ12 σ22 ∂y ∂x σ12 σ12 1 · 2 ∂y σ12 σ2 ∂x2 ∂y ∂y 2 σ1 · ∂x + σ12 · ∂x 1 2 ∂y ∂y σ12 · + σ22 ∂x1 ∂x2 ∂y ∂y 2 σ1 · ∂x + σ12 · ∂x ∂y ∂y 1 2 · ∂y ∂y ∂x1 ∂x2 2 + σ2 · σ12 · ∂x1 ∂x2 !2 ∂y ∂y ∂y ∂y ∂y σ12 + · σ12 + · σ12 + ∂x1 ∂x1 ∂x2 ∂x1 ∂x2 ! ⇒ V [~x] · B T = = ⇒ B · V [~x] · B T = = ⇒ V [y] = = Sind x1 und x2 ∂y ∂x1 !2 σ12 ∂y ∂y +2 · σ12 + ∂x1 ∂x2 ∂y ∂x2 ∂y ∂x2 !2 σ22 !2 σ22 . (6.17) σy2 unkorreliert, dann gilt wegen σ2 = P2 i=1 σ12 = 0: ∂y ∂xi !2 σi2 . (6.18) Beispiele: a) Längenmessung Die Meÿgröÿe ist hier y = x1 − x2 , (6.19) 43 KAPITEL 6. FEHLERBESTIMMUNG und es gilt: 2 X V [y] = i=1 ∂y ∂x1 = ∂y ∂xi ! ! · V [xi ] ∂y ∂x2 2 · σx1 + ! 2 · σx2 2 2 = (+1)2 · σx1 + (−1)2 · σx2 2 2 σy2 = σx1 + σx2 σy = p Bei Summen und Dierenzen werden die σx1 = σx2 2 + σ2 σx1 x2 . absoluten Fehler (6.20) quadriert und addiert. Falls folgt daraus direkt: √ σy = 2 · σ xi . (6.21) b) Kugelvolumenmessung Die Meÿgröÿe ist hier das Volumen 4 V = πr3 , 3 oder im allgemeinen Fall: y = a · xn mit n=3 , (6.22) für das Kugelvolumen. Hier gilt: dy dx V [y] = σy2 = !2 · σx2 n · a · xn−1 2 σx2 σx σy = n · a · xn} | {z x = y ⇒ Wobei σy y der relative Fehler σy σx = n· y x . (6.23) ist, der oft prozentual angegeben wird. Man erkennt direkt, daÿ im Falle eines relativen Fehlers von 1 % auf den Radius, der relative Fehler des Volumens 3 % beträgt. c) Zylindervolumen Die Meÿgröÿe ist hier das Volumen V = π · h · r2 , oder im allgemeinen Fall das Produkt y = a · x1 · x2 44 (6.24) KAPITEL 6. FEHLERBESTIMMUNG Hier gilt: dy dx1 V [y] = ! dy dx2 2 · σx1 + ! 2 · σx2 2 2 σy2 = a2 · x22 · σx1 + a2 · x21 · σx2 !2 σ 1 = a2 · x21 · x22 · + x1 | {z } σ2 x2 !2 = y2 σy y ! = σ1 x1 Bei Multiplikation oder Division werden die !2 σ2 x2 + !2 . relativen Fehler (6.25) quadratisch addiert. !2 !2 σh σr 2 + = r2 h v ! !2 ! u u σr 2 2 σ σV h = t ‘ + V r2 h ! σV V Mit Gleichung 6.23 ergibt sich: σV V ! v ! u u σr 2 t 2 = + r σh h !2 ‘ Der absolute Fehler ist demnach: σV v u u = V · t2 σr r !2 + σ2 h !2 . 6.2 Systematische Fehler Beispiel: fehlerhaftes Gerät, falsche Eichung, falsche Auswertungsmethode, zeitliche än- derung der Meÿbedingungen, ... Allgemeine Regeln: Gibt es nicht. Bewährt haben sich: • Abschätzung der Eichgenauigkeit von verwendeten Geräten und anderer Konstanten, die die Messung beeinussen. • Dieselbe Gröÿe mit verschiedenen Methoden zu verschiedenen Zeiten messen, Reihenfolge der Messungen ändern. • Manchmal Anwendung von Erhaltungssätzen (z.B. Impulserhaltung) möglich. 45 KAPITEL 6. FEHLERBESTIMMUNG 6.2.1 Unkorrelierte systematische Fehlerquellen Falls systematische Fehlerquellen unabhängig voneinander sind, kann man sie wegen des Zentralen Grenzwertsatzes quadratisch addieren: 2 σsys = σ12 + σ22 + . . . + σn2 . (6.26) 6.2.2 Korrelierte systematische Fehlerquellen Falls systematische Fehler korreliert sind, kann man den gesamten systematischen Fehler konservativ abschätzen durch: σsys = σ1 + σ2 + . . . + σn Motivation für zwei korrelierte Fehlerquellen f x1 , x2 , . die den Meÿwert = x1 + x2 . (6.27) f linear verschieben (6.28) Die Kovarianzmatrix der systematischen Fehler: V = σ12 σ12 σ12 σ22 ! (6.29) Nach Fehlerfortpanzung ergibt sich: σf2 = σ12 + σ22 + 2σ12 Mit Hilfe des Korrelationskoezienten σ12 = ρ −1 ≤ ρ ≤ 1 ergibt sich: p σ12 σ22 ≤ Also ergibt sich als konservative Schätzung von (6.30) p σ12 σ22 . (6.31) σf : q σf2 ≤ σ12 + σ22 + 2 σ12 σ22 ⇒ σf ≤ (σ1 + σ2 ) ⇒ σf ≈ σ1 + σ2 (6.32) Ein Meÿresultat mit statistischem und systematischem Fehler wird dann wie im folgenden Beispiel angegeben: x = 10, 0 ± 1, 2(stat.) ± 1, 0(sys.) m (6.33) Das getrennte Auühren von statistischen und systematischen Fehlern ist gebräuchlich. Da statistische und systematische Feheler unabhängig sind, kann man sie ebenfalls quadratisch addieren. x = 10, 0 ± 1, 6 m 46 (6.34) Kapitel 7 Parameterschätzung: Maximum-Likelihood-Methode 7.1 Verfahren für 1 Parameter Die Maximum Likelihood-Methode ist eine grundlegende Methode zur Schätzung von Parametern. Sie vertieft z. B. das Verständnis der Wahl von Mittelwertbestimmungen. 7.1.1 Negative Log-Likelihood-Funktion n Wir gehen von Messungen einer Zufallsvariablen x aus (x1 , x2 , . . . , xn ). Die zugrundelie- f (x|a), die vom Parameter a abhängt, soll bereits bekannt sein. Ziel ist nun die beste Schätzung des Parameters a. Die Schätzung nennen wir â. Dazu gende Wahrscheinlichkeitsdichte wird zuerst die Likelihood-Funktion gebildet: L(a) = f (x1 |a) · f (x2 |a) · . . . · f (xn |a) n Y = f (xi |a) (7.1) i=1 Dies reektiert die Wahrscheinlichkeit, bei gegebener Wahl von a diese Meÿwerte zu er- L ist keine welcher L zu einem halten. Wahrscheinlichkeitsdichte für f Die beste Schätzung â ist der Wert, Maximum macht. L(â) = Da es sich bei a! Maximum : ∂L = 0 ∂a a=â (7.2) um eine Wahrscheinlichkeitsdichte handelt, muÿ darauf geachtet werden, daÿ die Normierung für alle Werte von a gegeben ist: Z∞ f (x|a) dx = 1 für alle Werte von a (7.3) −∞ 47 KAPITEL 7. PARAMETERSCHÄTZUNG: MAXIMUM-LIKELIHOOD-METHODE In der Praxis ist es einfacher, mit Summen statt mit Produkten zu rechnen. Dies wird durch Anwenden des Logarithmus auf die Likelihood-Funktion erreicht: n Y ln L(a) = ln f (xi |a) (7.4) i=1 n X = ln (f (xi |a)) (7.5) i=1 Auÿerdem wird noch das Vorzeichen geändert. Gesucht ist also das Minimum der Log-Likelihood-Funktion : F (a) = − n P ln (f (xi |a)) negativen (7.6) i=1 also muÿ folgendes gelöst werden: ∂F ∂a = 0 (7.7) 7.1.2 Fehlerbestimmung Taylor-Entwicklung um das Minimum â =Schätzwert. dF 1 d2 F 2 F (a) = f (â) + (a − â) + (a − â) + . . . |{z} |d{z | {z } a â} 2 da2 â | {z } (1) In der Nähe von â (2) gilt häug =0 L(a) ∼ L(a) ≈ − ln L ≈ (7.8) (3) Gauÿfunktion, dann − const. · e const.' (a−â)2 2σ 2 (7.9) (a−â)2 − 2σ 2 − ln e (7.10) 11 − ln L = const.' + (a − â)2 | {z } 2 | {z } 2 σ {z } | (2) (1) (7.11) (3) F da2 d (3) ⇒ ⇒ Die Fehlergrenzen 2 1σ, 2σ, 3σ = σ = 1 σ2 (7.12) 2 F da2 d !− 1 = const. > 0 (7.13) können analog zur Gauÿ-Verteilung einfach abgelesen werden: F (a) = F (â) + 48 2 1 1 (a − â)2 2 σ2 (7.14) F(a) - F(a) KAPITEL 7. PARAMETERSCHÄTZUNG: MAXIMUM-LIKELIHOOD-METHODE 2.5 2 1.5 1 0.5 0 a - 2σ ∆F a-σ a a+σ a + 2σ a = F (â + nσ) 11 (â + nσ − â)2 2 2σ 1 2 n 2 = = (7.15) Die negative Log-Likelihood Funktion nimmt also in Schritten vom Fehler quadratisch zu. n·σ 1σ 2σ 3σ 4σ 5σ ∆F 1/2 2 9/2 8 12, 5 Häug ist die Parabel nicht symmetrisch, rechts- und linksseitige Standardabweichungen sind unterschiedlich. Hier bekommt man zwei Parabelzweige mit unterschiedlicher Önung. F(a) - F(a) Beispiel 2.5 2 1.5 1 0.5 0 a - 2σ a-σ a a+σ a + 2σ a 49 KAPITEL 7. PARAMETERSCHÄTZUNG: MAXIMUM-LIKELIHOOD-METHODE Ergebnis ist hier R â+σ −σL 7.1.3 Gewichteter Mittelwert Bisher habe wir Meÿwerte kombiniert, die gleiche Fehler hatten, und Stichproben-Mittelwert und -Varianz gebildet: x̄ = n 1X xi , n (7.16) n 1 X (xi − x̄)2 n−1 (7.17) i=1 s2 = i=1 Die Varianz des Mittelwerts ist s2 V [x] = . n Jetzt werden wir Kombinationen von Messungen mit bekannten, verschiedenen Standardabweichungen σi durchführen. Beispiel: 2 Arbeitsgruppen haben mit unterschiedlichen Methoden die Masse des Top- Quarks bestimmt [3] → Weltmittelwert und -Standardabweichung Mass of the Top Quark (*Preliminary) 2 Measurement Mtop [GeV/c ] CDF-I di-l 167.4 ± 11.4 D∅-I 168.4 ± 12.8 di-l CDF-II di-l* 165.3 ± 7.3 CDF-I l+j 176.1 ± 7.3 D∅-I 180.1 ± 5.3 l+j 173.5 ± 4.1 CDF-II l+j* l+j* 169.5 ± 4.7 CDF-I all-j 186.0 ± 11.5 D∅-II χ / dof = 6.5 / 7 2 172.7 ± 2.9 Tevatron Run-I/II* 150 170 2 Mtop [GeV/c ] 190 Die verschiedenen Meÿgenauigkeiten können durch wi = 1 Gewichte ← Gewichte wi xi n xi P 2 i=1 σi σi2 berücksichtigt werden: (7.18) Daraus ergibt sich der Mittelwert wie folgt: n P x̄ = i=1 n P i=1 50 = wi n 1 P 2 i=1 σi (7.19) KAPITEL 7. PARAMETERSCHÄTZUNG: MAXIMUM-LIKELIHOOD-METHODE Die Varianz des Mittelwerts ist gegeben durch: 1 V [x̄] = n P 1 = i=1 Als Test setzen wir gleiche σi = σ (7.20) n 1 P 2 i=1 σi wi ein: n P xi i=1 x̄ = , n 1 1 · = 2 1/σ n V [x̄] = σ2 . n Mit Hilfe der Maximum-Likelihood-Methode können wir begründen, daÿ für Gauÿ-Verteilungen die beste Schätzung des Mittelwerts das gewichtete Mittel aller Werte f (xi |a) = √ 1 − (xi −a)2 2σ 2 i e 2π σi ! n (x −a)2 X 1 − i 2 F (a) = − ln √ e 2σi 2π σ i i=1 n n X X 1 (xi − a)2 − − = − ln √ 2σi2 2π σ i i=1 i=1 | {z } const. für = ist. (7.21) a n (xi − a)2 1X + 2 σi2 const. xi (7.22) i=1 ∂F ∂a ⇒ ⇒ = n − 2(xi − a) 1X 2 σi2 0 = − a = i=1 n X xi i=1 σi2 n xi P 2 i=1 σi n 1 P 2 i=1 σi +a = 0 (Minimum) n X 1 i=1 σi2 (7.23) 51 KAPITEL 7. PARAMETERSCHÄTZUNG: MAXIMUM-LIKELIHOOD-METHODE 7.1.4 Anwendung: Histogramme Daten im Vergleich zu Gaussverteilungen mit unterschiedlichem Mittelwert 0.3 histogrammierte Daten f(x|a_1) f(x|a_2) f(x|a_3) f(x|a_4) 0.25 0.2 0.15 0.1 0.05 0 2 4 6 x 8 F(a) 0 3 2 1 0 a1 a2 a3 a Die Wahrscheinlichkeitsdichte f (x|a) j. a soll an die Daten angepaÿt werden, die in einem Hi- stogramm eingetragen sind. Es gibt insgesamt im Intervall a4 J Intervalle im Histogramm und nj Einträge Die Gesamtzahl der Messungen beträgt n = J X nj . (7.24) j=1 Die Erwartungswerte µj nj für die werden aus der Wahrscheinlichkeitsdichte gewonnen: Z µj = n f (x|a) dx Intervall = n · f (xc |a) · ∆x , wobei nj xc die Intervallmitte und ∆x (7.25) j (7.26) die Intervallbreite ist. sind Zufallsvariablen, die poissonverteilt sind: n P (nj |µj ) = 52 µj j e−µj µj ! (7.27) KAPITEL 7. PARAMETERSCHÄTZUNG: MAXIMUM-LIKELIHOOD-METHODE Die negative Log-Likelihood-Funktion ist hier F (a) = − J X n µj j e−µj ln J X = − n ln µj j − j=1 J X −µj ln e + j=1 J X = − (7.28) µj ! j=1 nj ln µj + j=1 J X J X ln µj ! j=1 µj + j=1 J X ln µj ! (7.29) j=1 | {z } const. bzgl. a dF da = − J X nj j=1 J X 1 dµj dµj + µj da da = 0 (7.30) j=1 Das Minimum und die Fehler kann man wie zuvor gezeigt durch Histogrammieren bekommen. 7.2 Verfahren für m Parameter Die Likelihood Funktion hat für m Parameter L(a1 , a2 , . . . , am ) = L(~a) = aj n Y i=1 n Y folgendes Aussehen: f (xi |a1 , a2 , . . . , am ) (7.31) f (xi |~a) (7.32) i=1 Entwickelt man L um ~â, so ergibt sich F (~a) = F (~â) n X ∂F + (ai − âi )) ∂ai ~â + i=1 n X n X 1 2 i=1 k=1 ⇐ im Minimum ∂ 2 F (ai − âi ) (ak − âk ) ∂ai ∂ak ~â + ... Für groÿe n (7.33) wird die Likelihood Funktion 4.8.4). Die Kovarianz des Vektors =0 ~a L(~a) zu einer Gauÿ-Funktion (siehe [1] Kap. ist gegeben durch V [~a] = G −1 mit Gik = ∂2F ∂ai ∂ak (7.34) (7.35) 53 KAPITEL 7. PARAMETERSCHÄTZUNG: MAXIMUM-LIKELIHOOD-METHODE Ergebnis für n=2 ist ein Schnitt durch einen Paraboloid: a2 a1 54 Kapitel 8 Parameterschätzung: Methode der kleinsten Quadrate 8.1 Messungen mit gleichen Meÿfehlern In diesem Kapitel wird erläutert, wie man m Parameter aj aus n Messungen yi mit der Methode der kleinsten Quadrate abschätzt. Dazu wird angenommen, daÿ es ein Modell für die wahren Werte von yi gibt. Die für diese Methode benötigten Residuen sind wie folgt deniert: Residuen: ∆yi = y(Modell) − yi . (8.1) y f(x,a) = a1+ a2x 1 0 1 0 yi 01 ∆yi 1 0 0 1 1 0 0 1 1 0 1 0 1 0 0 1 1 0 0 1 1 0 1 0 1 0 0 1 1 0 1 0 1 0 0 1 1 0 0 1 1 0 0 1 1 0 0 1 1 0 0 1 1 0 0 1 1 0 0 1 0 1 xi x Die Summe aus den Quadraten der Residuen soll nun minimal werden. Für Daten mit σi = σ unkorrelierte ergibt dies: S = Pn 2 i=1 ∆yi = Minimum . (8.2) 55 KAPITEL 8. PARAMETERSCHÄTZUNG: METHODE DER KLEINSTEN QUADRATE 8.1.1 Lineare kleinste Quadrate Hier gehen die Parameter aj (zusammengefaÿt als ~a) linear in das Modell ein: f (x, ~a) = a1 f1 (x) + a2 f2 (x) + . . . + am fm (x) . (8.3) Beispiel: Strommessung bei verschiedenen Spannungen 1 · Ui R I(Ui ) = a1 = 1/R Hier hat das Modell einen freien Parameter mit f1 = U = x. Für die Residuen gilt ∆yi = f (xi , ~a) − yi (xi ) , wobei die f (xi , ~a) Pn S = yi die Erwartungswerte der i=1 ∆yi = (8.4) sind. Daraus ergibt sich: Pn i=1 (a1 f1 (xi ) + . . . + am fm (xi ) − yi (xi ))2 Um das Minimum zu nden, müssen die partiellen Ableitungen ∂S ∂a1 = 2· Pn ∂S ∂aj verschwinden, also + . . . + am fm (xi ) − yi (xi )) · f1 (xi ) i=1 (a1 f1 (xi ) . . . (8.5) = . . . 0 . . . (8.6) ∂S P = 2 · ni=1 (a1 f1 (xi ) + . . . + am fm (xi ) − yi (xi )) · fm (xi ) = 0 . ∂am Dies kann in die sogenannten a1 a1 Pn 2 i=1 f1 (xi ) Normalengleichungen + . . . + am Pm . . . Pn i=1 fm (xi ) · f1 (xi ) i1 umgeschrieben werden f1 (xi ) · fm (xi ) = Pn i=1 yi f1 (xi ) . . . + . . . + am Pm 2 i1 fm (xi ) = Pn i=1 yi fm (xi ) Die Darstellung der Gleichungen vereinfacht sich wesentlich durch Meÿwerte: ~y = y1 . . . (8.7) . Matrixschreibweise mit , (8.8) yn Parameter: ~a = a1 . . . , (8.9) am Funktionen: A = f1 (x1 ) f2 (x1 ) · · · fm (x1 ) . . . . . . .. . . . . f1 (xn ) f2 (xn ) · · · fm (xn ) 56 . (8.10) KAPITEL 8. PARAMETERSCHÄTZUNG: METHODE DER KLEINSTEN QUADRATE Die Erwartungswerte ergeben sich hier zu f1 (x1 ) · · · fm (x1 ) . . . A ~a = .. . . . . a1 · . . . f1 (xn ) · · · fm (xn ) am a1 f1 (x1 ) + · · · + am fm (x1 ) . . . = . (8.11) a1 f1 (xn ) + · · · + am fm (xn ) Desweiteren gilt f1 (x1 ) ··· f1 (xn ) . . . .. . . . · AT A = . f1 (x1 ) · · · fm (x1 ) . . . .. . . . . (8.12) f1 (xn ) · · · fm (xn ) fm (x1 ) · · · fm (xn ) Pn P Pn n 2 i=1 f1 (xi ) i=1 f1 (xi ) f2 (xi ) · · · i=1 f1 (xi ) fm (xi ) P . . n . . . f22 (xi ) ··· . i=1 = . . . . . . .. . . . . Pn Pn 2 f (x ) f (x ) · · · · · · f i=1 1 i m i i=1 m (xi ) Pn 2 i=1 f1 (xi ) A T A ~a = . . . .. Pn i=1 f1 (xi ) fm (xi ) P a1 ni=1 f12 (xi ) = a1 Pn ··· i=1 f1 (xi ) fm (xi ) . . . . Pn + · · · + am · . . . + ··· + (8.13) am Pn i=1 f1 (xi ) fm (xi ) . . . i=1 f1 (xi ) fm (xi ) a1 2 i=1 fm (xi ) ··· Pn am Pn (8.14) 2 i=1 fm (xi ) Sowie AT ~y = f1 (x1 ) ··· f1 (xn ) y1 . . . .. . . . · . . . . fm (x1 ) · · · fm (xn ) Pn i=1 yi f1 (xi ) . . = . Pn i=1 yi fm (xi ) yn (8.15) Durch Vergleich mit Gleichung 8.7 ergeben sich aus Gleichung 8.14 und Gleichung 8.15 als Normalengleichung : A T A ~a = A T ~y . (8.16) Mit der Lösung: ~a = −1 T AT A A ~y . (8.17) Die Lösung ist also eine lineare Transformation aus den Messungen. 57 KAPITEL 8. PARAMETERSCHÄTZUNG: METHODE DER KLEINSTEN QUADRATE 8.1.2 Berechnung der Fehler V [~y ] Die Kovarianzmatrix der Meÿwerte hat für unkorrelierte Meÿwerte yi mit σi = σ das folgende Aussehen: σ2 0 · · · 0 σ2 · · · V [~y ] = . .. .. . . . . 0 0 ··· 1 ··· 0 . 2 .. . . . = σ . . . 0 0 . . . σ2 0 ··· 1 = σ2 · 1 Wobei 1 (8.18) die Einheitsmatrix ist. Das Fehlerfortpanzungsgesetz für ~a = C ~y lautet: V [~a] = C V [~y ] C T −1 T 2 h T −1 T iT = AT A A σ 1 A A A h −1 −1 iT = σ2 · AT A AT A · AT A | {z } {z } | 1 (ohne (8.19) T da symmetrische Matrix) −1 V [~a] = σ 2 A T A σ 2 der Daten ist jedoch häug P n 1 2 s2 = n−1 i=1 (xi − x̄) bestimmt: Die Varianz zu s2 = wobei n die Anzahl der Meÿwerte, m (8.20) nicht bekannt, in diesem Fall wird sie analog 1 S, n−m (8.21) die Anzahl der Parameter und S die Summe der Residuenquadrate sind. ⇒ s2 = n 1 X ∆yi2 . n−m (8.22) i=1 Für groÿe Werte von n−m ist dies eine gute Schätzung für σ2. 8.1.3 Geradenanpassung Als Modell wird hier eine Gerade angenommen: f (x, a1 , a2 ) = a1 + a2 x 58 (8.23) KAPITEL 8. PARAMETERSCHÄTZUNG: METHODE DER KLEINSTEN QUADRATE Die Meÿwerte yi sind an genau benannten Punkten haben den gleichen Fehler xi gemessen, sind unkorreliert und σi = σ . Zur Vereinfachung der Rechnung werden die xi transformiert: ξi = xi − x̄ (8.24) n 1X xi n (8.25) mit x̄ = i=1 und n X ξi = 0 , (8.26) i=1 Es gilt: ~y = y1 . . . , ~a = yn a1 a2 ! , A = 1 ξ1 . . . . . . (8.27) 1 ξn 1 1 1 ξ1 AT A = . . . . . . · . . . ξ1 ξn . . . 1 ξn ! Pn ξ i Pni=1 2 i=1 ξi ! = n Pn = n 0 Pn 2 0 i=1 ξi i=1 ξi (8.28) Um die inverse Matrix zu erhalten, bestimmen wir zuerst die Determinante: n 0 Pn 2 D = 0 i=1 ξi = n n X ξi2 (8.29) i=1 ⇒ −1 AT A = A T ~y = = 1 D Pn 2 0 i=1 ξi 0 n 1 ··· 1 ξ1 · · · ξn ! ! (8.30) · ! Pn yi i=1 Pn . i=1 (ξi · yi ) y1 . . . yn (8.31) 59 KAPITEL 8. PARAMETERSCHÄTZUNG: METHODE DER KLEINSTEN QUADRATE Die Lösung ist also: −1 T AT A A ~y ! Pn 2 1 ξ 0 i=1 i P · n ni=1 ξi2 0 n ~a = = ⇒ n X 1 a1 = P n ni=1 ξi2 Pn i=1 yi n = n X ξi2 i=1 ! Pn y i Pn i=1 i=1 (ξi · yi ) yi i=1 a1 = ȳ a2 = (8.32) (8.33) n X 1 ξi · yi 2n i=1 ξi i=1 Pn n Pn i=1 (ξi · yi ) P n 2 i=1 ξi a2 = (8.34) Der Fehler der Geradenanpassung ist: V [~a] = σ 2 n 1 n P i=1 σa21 = σ2 n 1 n P i=1 = σa22 1 n P i=1 i=1 0 n X ξi2 n P σ12 = 0 (8.35) n ξi2 i=1 ·n ξi2 (8.37) ξi2 Durch Transformation ξi = xi − x̄ σ12 6= 0 erreicht, im Allgemeinen (8.38) ist gegeben durch: s2 = n 1 X ((a1 + a2 ξi ) − yi )2 n−2 i=1 60 0 σ2 i=1 σ2 ξi2 ξi2 (8.36) n Die Schätzung der Varianz n P σ2 n = σ2 = (8.39) KAPITEL 8. PARAMETERSCHÄTZUNG: METHODE DER KLEINSTEN QUADRATE Werden die Meÿwerte yi (xi ) durch eine Gerade angepaÿt, so ist das Resultat für f (x) = a1 + a2 (x − x̄): s a1 = s2 n | {z } ± ȳ |{z} Mittelwert der Meÿwerte (8.40) Fehler des Mittelwerts n P a2 = v ξi yi u 2 u s i=1 u n ± n tP 2 P 2 ξi ξi i=1 (8.41) i=1 a1 der Stützpunkt der Geraden an der Stelle x = x̄. Die Genauigkeit des Wertes y(x = x̄) ist durch σa1 gegeben. Für einen Wert y(x 6= x̄) panzen wir die Fehler entsprechend Gleichung 6.18 fort. Da σ12 = 0, ist die Varianz von y(x) Hier ist σy2 = = = 2 X i=1 σa21 σ2 n ∂y ∂ai !2 σa2i + (x − x̄)2 σa22 σ2 n P ξi2 + (x − x̄)2 i=1 n P = σ2 i=1 ξi2 + (x − x̄)2 · n n· n P i=1 z.B. der Achsenabschnitt (8.42) ξi2 y(x = 0)-Fehler: v uP u n ξ 2 + x̄2 · n u i u σy (0) = σ u i=1 n P 2 t ξi (8.43) i=1 Will man ohne Transformation die Messdaten (x, y) an die Gerade passen und damit als Stützpunkt den Achsenabschnitt bei x = 0 f (x) = a1 + a2 x an- nehmen, bleiben die Nebendiagonalelemente in Gleichung 8.28 stehen: AT A = n Pn i=1 xi ! Pn x i Pni=1 2 i=1 xi (8.44) 61 KAPITEL 8. PARAMETERSCHÄTZUNG: METHODE DER KLEINSTEN QUADRATE Matrixinversion, zunächst die Determinante: n P xi i=1 n P 2 xi i=1 n D = P n i=1 xi = n· n X x2i n X − −1 A A = xi (8.45) i=1 i=1 T !2 ! Pn Pn 2 x − x i i=1 i i=1 P − ni=1 xi n ! y1 1 ··· 1 · ... x1 · · · xn yn n P yi i=1 n P xi yi 1 · D A T ~y = = (8.46) (8.47) i=1 ⇒ ~a = P Pn 2 − ni=1 xi i=1 xi P − ni=1 xi n 1 · D ! n P yi i=1 · P n xi yi (8.48) i=1 (8.49) n P a1 = n P yi i=1 n n a2 = n P i=1 n P i=1 n n P i=1 xi i=1 n P x2i − ( xi yi − i=1 n P x2i − n P i=1 n P x2i − ( xi yi i=1 xi )2 i=1 xi n P n P (8.50) yi i=1 xi )2 i=1 Die Kovarianzmatrix ist σa21 σ12 V [~a] = σ12 σa22 −1 = σ2 AT A 62 ! (8.51) (8.52) KAPITEL 8. PARAMETERSCHÄTZUNG: METHODE DER KLEINSTEN QUADRATE mit v u n P u x2i u u i=1 σa1 (y = 0) = σ · u n n P t P 2 n xi − ( xi )2 i=1 v i=1 u n u σ a2 = σ · u n n t P 2 P n xi − ( xi )2 i=1 n P − (8.53) i=1 xi i=1 σ12 = σ 2 n n P i=1 x2i − ( n P xi )2 i=1 Die Schätzung der Varianz wird hier durch s2 = n 1 X [(a1 + a2 x) − yi ]2 n−2 (8.54) i=1 bestimmt. 8.2 Berücksichtigung individueller Meÿfehler 8.2.1 Lösung mit Gewichtsmatrix Wir gehen von n statistisch unabhängigen Messungen yi mit verschiedenen Varianzen σi aus. Die Kovarianzmatrix hat dann folgendes Aussehen: σ12 0 · · · 0 0 σ22 · · · 0 V [~y ] = . . .. .. . . . . . . 0 · · · · · · σn2 . (8.55) Die Summe der Residuenquadrate wird für unterschiedliche Gewichte modiziert: S = n 1 P 2 = 2 ∆yi i=1 σi In Matrixschreibweise kann man auch die Gewichtsmatrix verwenden: W (~y ) = V [~y ]−1 (8.56) Minimum 1/σ12 0 ··· 0 2 1/σ2 · · · 0 0 = . . .. .. . . . . . . 0 · · · · · · 1/σn2 (8.57) Die Residuen sind nach Gleichung 8.8 und 8.11 ~r = A ~a |{z} Erwartungswert − ~y |{z} (8.58) Meÿwerte 63 KAPITEL 8. PARAMETERSCHÄTZUNG: METHODE DER KLEINSTEN QUADRATE Für σi = σ ergab sich laut Gleichung 8.56 S = ~rT · ~r Mit unterschiedlichen σi (Skalarprodukt) . (8.59) ergibt sich nun S = ~rT · W (~y ) · ~r A ~a − ~y )T · W · (A A ~a − ~y ) = (A A ~a)T W A ~a + ~y T W ~y − (A A ~a)T W ~y − ~y T W A ~a = (A = ~aT A T W A ~a + ~y T W ~y − ~aT A T W ~y − ~y T W A ~a = ~aT A T W A ~a + ~y T W ~y − 2 ~aT A T W ~y Für das Minimum von S müssen die partiellen Ableitungen verschwinden ( (8.60) ∂S = 0) ∂aj ~0 = 2 A T W A ~a − 2 A T W ~y ⇒ A T W A ~a = A T W ~y (8.61) Die Lösung ist eine Modikation von Gleichung 8.22 und 8.20 durch die Gewichtsmatrix. ~a = V [~a] = Die σi2 −1 T AT W A A W ~y −1 T A WA (8.62) stecken hier in der Gewichtsmatrix und werden durch die Matrixinversion aus dem Nenner (siehe Gleichung 8.57 ) in den Zähler geholt. 8.2.2 Grasche Darstellung für 1 Parameter Aus Gleichung 7.22 F (a) = const. + 12 S(a) und ebenso F (â) = const. + 12 S(â) im Minumum ergibt sich der Bezug zwischen der Maximum-Likelihood-Methode und der Methode der kleinsten Quadrate: ∆F = 1 ∆S 2 (8.63) Damit ist eine graphische Interpretation genauso möglich, wie bei der Maximum-Likelihood- ∆S nimmt in Schritten von σ ebenso quadratisch zu, aber also ∆F . S wie in Gleichung 8.56 deniert wird auch oft mit Methode (siehe Abschnitt 7.1.2). um einen Faktor 2 schneller χ2 bezeichnet. n·σ 1σ 2σ 3σ 4σ 5σ 64 ∆F 1/2 2 9/2 8 12, 5 ∆S, ∆χ2 1 4 9 16 25 KAPITEL 8. PARAMETERSCHÄTZUNG: METHODE DER KLEINSTEN QUADRATE 8.2.3 Geradenanpassung Hier soll an die Meÿwerte mit unterschiedlichen Fehlern eine Gerade angepaÿt werden. f (x, a1 , a2 ) = a1 + a2 x Die Meÿwerte yi an den Positionen ~y = y1 . . . xi haben die Fehler a1 a2 , ~a = yn σi (8.64) in ! yi . , A = 1 x1 . . . . . . . (8.65) 1 xn Es ergibt sich hier: 1 ··· 1 x1 · · · xn AT W A = 1 ··· 1 x1 · · · xn = = n 1 P 2 i=1 σi n xi P 2 i=1 σi Analoge Rechnungen wie bei 1/σ12 ··· 0 1 x1 . . . .. . . . · . . . 0 ! · 1/σ12 . . . Sxx AT W A −1 . . . 1 xn 1/σn2 xn /σn2 (8.66) (siehe Abschnitt 8.1.3) führen auf: = Sx . · · · 1/σn2 x1 /σ12 . . . n 1 P = 2 , Sy i=1 σi n xi P = 2 , Sxy = i=1 σi n x2 P i = 2 . i=1 σi S1 Die Determinante bei · n xi P 2 i=1 σi 2 n x P i 2 i=1 σi σi = σ ! n yi P 2 , i=1 σi n xi yi P i=1 σi2 , (8.67) lautet: D = S1 Sxx − Sx2 a1 = a2 = V [~a] = 1 (Sxx Sy − Sx Sxy ) D 1 (−Sx Sy + S1 Sxy ) D ! 1 Sxx −Sx D −Sx S1 (8.68) (8.69) (8.70) (8.71) 65 Kapitel 9 Prüfung von Hypothesen 9.1 Vergleiche von Messungen und theoretischen Vorhersagen Bisher: Soll eine wahre Gröÿe (z. B. die Gravitationskonstante) mit einer Meÿapparatur mit dem Gauÿschen Fehler xw σ bestimmt werden, so kann man aus über den Mittelwert s2 = 1 n−1 n P (xi − x̄)2 x̄ = 1 n n P xi i=1 schätzen (σ ∝ n Messungen den wahren Wert und den Fehler der Meÿaparatur über die Varianz √ s2 ). i=1 Durch viele Messungen wird die statistische Genauigkeit der Schätzwerte besser (siehe Gleichung 6.2 und 6.3): s x̄ ± √ s2 ± s2 n (9.1) s p 2(n − 1) (9.2) Fragestellung: Ist eine Menge von Meÿdaten (Stichprobe) statistisch vereinbar mit einer Annahme (Hypothese)? positive Antwort ⇒ Messungen kompatibel mit Hypothese, aber negative Antwort Die Verträglichkeit kann durch ⇒ kein Beweis für Hypothese Hypothese verwerfen Kondenzniveaus (Kondenz) und Kondenzgrenzen quan- tiziert werden. Die Wahrscheinlichkeit wird bestimmt, daÿ die gemessene Abweichung von der Erwartung durch eine statistische Fluktuation verursacht wurde. 67 KAPITEL 9. PRÜFUNG VON HYPOTHESEN 9.2 Kondenzniveau, Kondenzgrenzen Die Meÿapparatur hat einen bekannten Fehler xw und liefert den Meÿwert xm . Was kann aussagen? f(x) man über den wahren Wert σ Flaeche vorgegeben σ xu Die Wahrscheinlichkeit αu , daÿ man xm x xm oder einen gröÿeren Wert miÿt, wird vorgegeben, d. h. die Fläche in obiger Abbildung . Daraus folgt der Mittelwert √ αu = (9.3) Z∞ 1 2π σ e− (x−xu )2 2σ 2 dx xu , . da σ bekannt ist. (9.4) xm xu ist die untere Grenze für das Kondenzniveau 1 − αu . xm noch kleiner ist als xu , ist kleiner als αu . D. h. die Wahrscheinlichkeit, daÿ Typische (übliche) Werte sind für Kondenzniveaus: Gauÿ bevorzugt ⇒ P P P = 68% (1σ) = 95% (1, 96σ) = 99% (2, 58σ) (9.5) f(x) Genauso: obere Grenze: σ xm 68 xo x (9.6) KAPITEL 9. PRÜFUNG VON HYPOTHESEN √ αo = Zxm 1 2π σ e− (x−xu )2 2σ 2 dx . (9.7) −∞ Für die Aussage, daÿ der wahre Wert mit 95% Wahrscheinlichkeit im Bereich liegt, ist 9.3 Die αo = αu xu < xw < xo 1 − (αo + αu ) = 0.95. und χ2 -Verteilung χ2 -Verteilung hat eine groÿe Bedeutung bei der Bestimmung der Qualität einer Über- einstimmung zwischen Daten und Modell. Die unabhängigen Zufallsvariablen mit µ=0 und x1 , x2 , . . . , xn folgen alle einer Gauÿ-Wahrscheinlichkeitsdichte σ = 1. Die Summe der Quadrate heiÿt: χ2 = n X x2i . (9.8) i=1 Um die Wahrscheinlichkeitsdichte zu erhalten, müssen also die Quadrate der gauÿverteilten Zufallsvariablen gefaltet werden. Das Ergebnis ist die fn (χ2 ) = wobei n die Zahl der Freiheitsgrade Die Gamma-Funktion Γ ist für 1 2 χ2 2 n −1 2 χ2 -Verteilung e− χ2 2 , (9.9) Γ ( n2 ) angibt. n∈N Γ (n + 1) = n! . (9.10) Die allgemeine Erweiterung der Fakultät lautet: Γ (x) = k! k x−1 k→∞ x(x + 1)(x + 2) · · · (x + k − 1) lim (9.11) f(x) χ2-Verteilung n=1 n=2 n=3 n=4 n=5 n=6 0.4 0.2 0 0 5 10 15 x 69 KAPITEL 9. PRÜFUNG VON HYPOTHESEN χ2 -Verteilung Mittelwert, Varianz und Maximum der lauten: < χ2 > = n V [χ2 ] = 2n χ2max = n − 2 (9.12) Der zugehörige Beweis läuft über die Faltung der quadrierten Verteilungen. Beispiel: Mit den modizierte Residuen lassen sich Gröÿen bilden, die mit σ = 1 µ = 0 und 2 der Standardisierten Gauÿ-Verteilung folgen und gemeinsam einer χ -Verteilung folgen: (yModell − yi )2 x2i = 9.4 (9.13) 2 σModell χ2 -Test Hat man n Meÿwerte y1 , y 2 , . . . , y n , die von genau bekannten Werten gig sind, so stellt sich die Frage, ob diese n x1 , x2 , . . . xn abhän- Meÿwerte mit einer gegebenen theoretischen Wahrscheinlichkeitsdichte (Modell) vereinbar sind. Die theoretische Vorhersage ist yt = yt (x) (9.14) mit der Varianz der theoretischen Verteilung 2 σt,i = V [yt (xi )] , (9.15) dies kann z. B. die bekannte Meÿgenauigkeit einer Apparatur sein. Die Testgröÿe ist in diesem Fall: χ2 = !2 yi (xi ) − < yt (xi ) > σt,i (xi ) n P i=1 Falls die yi (9.16) gauÿverteilt sind und die Datenmenge eine Stichprobe der theoretischen Ver- teilung ist, gehorcht χ2 einer χ2 -Verteilung mit n Freiheitsgraden. Häuger Spezialfall yi yt sind die Anzahlen von Ereignissen ki sind die vorhergesagten mittleren Anzahlen der Ereignisse < kt,i > Falls die Gesamtzahl der Versuche groÿ ist und die Wahrscheinlichkeit für das Eintreten des Ereignisses klein, so sollten die Messungen einer Poisson-Verteilung mit 2 =< k > σt,i t,i folgen. Die Testgröÿe χ2 = 70 n (ki − < kt,i >)2 P < kt,i > i=1 (9.17) KAPITEL 9. PRÜFUNG VON HYPOTHESEN folgt einer χ2 -Verteilung, falls die Anzahlen < kt,i > groÿ genug sind (> 10), damit die Näherung der Gauÿ-Verteilung für die Poisson-Verteilung gerechtfertigt ist. Dies kann genutzt werden um z. B. einen Zufallsgenerator zu testen, der eine Gleichverteilung produzieren soll. gleichverteilte Zufallszahl mit Fit Entries 10000 Mean 0.5003 RMS 0.2894 χ2 / ndf 106 / 99 Prob 0.2972 p0 98.94 ± 0.99 120 100 80 60 40 20 0 0 0.2 0.4 0.6 0.8 1 1.2 9.5 Student'scher t-Test Der Studentsche t-Test wird verwendet, um die Vereinbarkeit von Mittelwerten zu unter- suchen. Hat man n Meÿwerte y1 , y 2 , . . . , y n mit dem Mittelwert ȳ = 1 n n P yi , so ist der Fehler des i=1 Mittelwerts im Fall einer Gauÿ-Verteilung s σȳ = V [yi ] = n σ yi √ . n (9.18) Falls der Fehler nicht vorher bekannt ist, kann er aus der Messung selbst geschätzt werden s2 = n 1 X (yi − ȳ)2 n−1 (9.19) s √ n (9.20) i=1 σȳ = Der theoretisch erwartete Mittelwert ist yt . Die Testgröÿe t = folgt einer t-Verteilung mit ȳ − yt √ s/ n (9.21) n − 1 Freiheitsgraden. Diese Wahrscheinlichkeitsdichte für Mit- telwerte ist gegeben durch fn (t) = 1 Γ √ · nπ Γ n+1 2 n 2 · t2 1+ n !− n+1 2 (9.22) 71 KAPITEL 9. PRÜFUNG VON HYPOTHESEN f(t) Vergleich zwischen Gauss-. und Student-t-Verteilung 0.5 Gauss-Verteilung Student-t Verteilung mit n=1 0.4 Student-t-Verteilung mit n=5 0.3 0.2 0.1 0 -4 -2 Das Integral der Student-t-Verteilung 0 Rt f (t)dt 2 4 t hat folgendes Aussehen: −∞ f(t) Vergleich der Integrale von Gauss-. und Student-t-Verteilung Integral Gauss-Verteilung 1 Integral Student-t Verteilung mit n=1 0.8 Integral Student-t-Verteilung mit n=5 0.6 0.4 0.2 0 -4 -2 0 2 4 t Beispiel: a) Vergleich eines theoretischen Wertes mit einem durch Experimente bestimmten Wertes Mittelwert: yi ȳ Varianz: s2 theoretischer Wert: yt Meÿwerte: = −1, 0, 1 = 0 1 = (12 + 02 + 12 ) = n−1 = −1 Die Testgröÿe ist t = 72 ȳ − yt √ = s/ n √ 0 − (−1) √ 3 = 1/ 3 2 = 1 2 KAPITEL 9. PRÜFUNG VON HYPOTHESEN Es gibt 3−1=2 Freiheitsgrade. Die Wahrscheinlichkeit, ȳ = 0 oder einen gröÿeren Wert zu erhalten, ist Z∞ P P (t = √ = f2 (t) dt t 3) = 0, 11 = 11% Gemessener und theoretischer Wert sind also miteinander verträglich. b) Vergleich zweier durch Experimente bestimmte Mittelwerte Meÿwerte: Experiment 1 : n Werte Experiment 2 : m Werte x1 , x2 , . . . xn y 1 , y 2 , . . . ym Sind die Mittelwerte miteinander vereinbar? √ x̄ ± sx / n √ ȳ ± sy / m mit mit x̄ = 1 n ȳ = 1 m n P i=1 m P xi , s2x = yi , s2y = i=1 1 n−1 1 m−1 n P (xi − x̄)2 i=1 m P (yi − ȳ)2 i=1 Die Testgröÿe t = folgt einer t-Verteilung mit n+m−2 x̄ − ȳ s s2y s2x + n m Freiheitsgraden. xi = 3, 5, 7 ȳ = 5 8 1 Varianz: s2 = (22 + 02 + 22 = = 4 n−1 2 √ √ 5−0 5 3 = √ t = s = 15 ≈ 4 5 1 4 + 3 3 Meÿwerte: Mittelwert: Es gibt n+m−2=3+3−2=4 Freiheitsgrade. Die Wahrscheinlichkeit, bei 4 Freiheitsgraden |t| ≥ 4 zu messen ist Z∞ 2 f4 (t) dt ≈ 1% t=4 Die gemessenen Mittelwerte sind also an der Grenze der Verträglichkeit. 73 Kapitel 10 Klassizierungsmethoden Mit allgemeinen Klassizierungsmethoden möchte man Dinge mit bestimmten Eigenschaften in Klassen einsortieren. Z. B. möchte man Gesichtern Namen zuordnen oder Tiere einer Art zuordnen. 10.1 Fisher'sche Diskriminanten-Methode Die Fischer'sche Diskriminantenmethode soll hier an einem Beispiel veranschaulicht werden. Man möchte einem Tier die Eigenschaft Hase oder Kaninchen zuordnen, dabei kennt man zwei Eigenschaften der Tiere: Eigenschaften: ~x Gewicht des Tieres: x1 = m · g l x2 = √ 3 mg Normierte Ohrenlänge: 5 N Hasen und M Kaninchen Hasen ! (10.1) Kaninchen durchgeführt Anzahl Anzahl Die Messung wurde an = x1 x2 6 4 4 3 2 2 1 0 0 Normierte Ohrenlaenge 75 KAPITEL 10. KLASSIFIZIERUNGSMETHODEN Besser: 1. Kombination der Messungen Normierte Ohrenlänge 2. dann trennen Hasen Kaninchen Gewicht Die Mittelwerte und die Kovarianzmatrix für die Hasen (und analog für die Kaninchen) haben folgendes Aussehen: ~xH N 1X ~xH j N = (10.2) j=1 H Vk,m N H 1 X H xH xm,j − x̄H m k,j − x̄k N = mit k, m = 1, 2 (10.3) i,j=1 Nun bildet man die mittlere Kovarianzmatrix V k,m = und invertiert sie: V k,m −1 1 H K Vk,m + Vk,m 2 (10.4) . Nun verwendet man folgende Testgröÿe (aus Fischers Algo- rithmus) t = 2 X V k,m −1 K x̄H m − x̄m xk (+ const.) (10.5) k,m=1 xk die Eigenschaft tc = const. gewählt. wobei des unbekannten Tieres ist. Als Schwelle für eine Entscheidung wird Dann ist tc = ⇒ 76 P2 x2 = − k=1 ak xk tc a1 x1 − a2 a2 = a1 x1 + a2 x2 (10.6) (10.7) KAPITEL 10. KLASSIFIZIERUNGSMETHODEN eine Gerade. Falls die Kovarianzelemente klein sind, also V ⇒ V −1 ! ≈ σ12 0 0 σ22 = 1/σ12 0 0 1/σ22 (10.8) ! (10.9) Dann ist die Testgröÿe eine gewichtete Summe: t = K x̄H 1 − x̄1 | σ12 {z Gewicht · x1 + K x̄H 2 − x̄2 σ22 · x2 (10.10) } Man erhält eine bessere Trennschärfe für groÿe Dierenzen der Mittelwerte und kleine Va- ⇒ Verstärkung. Anzahl rianzen 5 Kaninchen Hasen 4 3 2 1 0 t Das Verfahren ist optimal, falls die einzelnen Variablen Gauÿ-Verteilt sind. 10.2 Neuronale Netzwerke Neuronale Netze werden heute für sehr komplexe Klassizierungsfragen eingesetzt. Ein Beispiel ist das Studium von Haftpichtversicherungssummen für einen bestimmten PKW in Verbindung mit persönlichen Daten des Versicherungsnehmers (Alter, Geschlecht, eigene Kinder etc.) 77 KAPITEL 10. KLASSIFIZIERUNGSMETHODEN x2 6 H H Messwert H H H ξ2 u H H H H H H H H H H H H H H H H H - H H H ξ1 x1 Ähnlich wie bei der Fisher-Diskriminantenmethode ist die Fragestellung zunächst: Liegt der Meÿpunkt unterhalb/oberhalb der Geraden? x2 = ax1 + b ? (10.11) Bzw. eine allgemeinere Formulierung: B1 x1 + B2 x2 − β = 0 n=2 X Bi xi − β = 0 (10.12) (10.13) i=1 wobei die Bi die Gewichte und β die Schwelle sind. Die Testgrösse hier hat folgendes aussehen: t = n X Bi ξi − β (10.14) i=1 Dazu kommt noch ein Entscheidungsfunktion: ( g(t) = 1 0 für für t>0 t≤0 (10.15) Bildliche Darstellung: x1 eXX x2 e XXX ze X : Y = g(t) Mehr Einschränkungsmöglichkeiten ergeben sich durch eine x1 x2 x3 eX ZXXXX h1 z X Z : eXXX Z XX > z X eX X Z :e Z XX ~ e Z X z X : h2 e H 78 verborgene Schicht : Y = g(t) KAPITEL 10. KLASSIFIZIERUNGSMETHODEN Bei drei Variablen ergibt sich eine Trennebene, wobei ein Meÿpunkt ober- oder unterhalb liegen kann. x 63 H HH H H H x2 HH H H H H H H H x1 H HH Durch eine verborgene Schicht H ergeben sich zwei Trennebenen. 2 X ~ = g Y (ξ) 3 X Aj g ! Bij ξi − βj ! −α (10.16) i1 j=1 | {z } Meÿpunkt im Vergleich mit Trennebene j {z | Für einen Meÿpunkt ξ~ mit ξ3 = 0 Kombination der 2 Trennebenen } ergibt sich dann folgendes Bild: x2 6 Q Q erlaubter Schnittgerade Bereich Trennebene2 Q Q Q Q Q Q Q Q Q Q Q Q Q Schnittgerade - x1 Trennebene1 Die Gewichte Aj , Bjk und der Schwellen α, βj werden mit Minimierungsverfahren bestimmt (Training). Dem Netz wird eine Menge von Mustern gegeben, deren Klassizierung bekannt ist. Z. B. Hasen bzw. Kaninchen. Das gewünschte Ergebnis ist OH = 1 , OK = −1 (10.17) Dazu wird folgender Ausdruck minimiert: N X 2 X Yi (ξ~n ) − Oi 2 (10.18) n=1 i=1 wobei N die Anzahl der Testhasen und Testkaninchen ist. 79 Literaturverzeichnis [1] V Blobel and E. Lohrmann. Statistische und numerische Methoden der Datenanalyse. Teubner Studienbücher, 1998. [2] Rob Miller, David Clark, and William Knottenbelt. An Introduction to the Imperative Part of C++. http://www.hep.ph.rhbnc.ac.uk/~cowan/stat_course.html. [3] The Tevatron Electroweak Working Group. Combination of CDF and DØ results on the top-quark mass. 2005. HEP-EX 0507091. 81 82 Literaturverzeichnis