Praktische Datenanalyse in der Experimentalphysik (Vorlesungsnummer 2563) Modulcode: PHY232, Kreditpunkte 2 Dozenten: Frank Lehner und Christian Regenfus Art und Ort der Veranstaltung: Vorlesung mit Übungen (Mittwoch 14-17h, 36J23) Zielgruppe: Studierende ab 3. Semester Physik Einordnung: Die Vorlesung soll die Grundlagen auf dem Gebiet der statistischen Behandlung und Interpretation von Datenmengen legen und einen Ausblick auf aktuelle statistische Methoden der Datenanalyse in der Teilchenphysik geben. Die Übungen werden mit Matlab behandelt und dienen zur Vertiefung. Der vorgehende Besuch der Datenanalyse Vorlesung (PHY231) im Sommersemester ist empfehlenswert, aber nicht Bedingung. Grundkenntnisse: Mathematische Grundkenntnisse wie sie in den ersten Semestern des Grundstudiums erworben werden. Dazu gehören Vektor- und Matrizenrechnungen, Differential- und Integralrechnung. Eine Erfahrung im Umgang mit Computern und insbesondere mit Matlab ist erwünschenswert. Leistungsnachweis: Beteiligung an Präsenzübungen sowie 50% erreichte Punktzahl bei der Klausur. Literatur: • R. Barlow: ”Statistics: A Guide to the Use of Statistical Methods in the Physical Science” Wiley Verlag. • B. Roe: ”Probability and Statistics in Experimental Physics.” Springer Verlag. • V. Blobel und E. Lohrmann: ”Statistische und numerische Methoden in der Datenanalyse.”, Teubner Verlag. • H. Pruys: http://www.physik.unizh.ch/people/pruys/Datenanalyse.html 1 Contents 1 Grundlegende Konzepte der Wahrscheinlichkeit 1.1 Zufälligkeit . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1.2 Wahrscheinlichkeit . . . . . . . . . . . . . . . . . . . . . . . . 1.2.1 Definition über Häufigkeiten (Frequentistendefinition) 1.2.2 Mathematische Definition . . . . . . . . . . . . . . . . 1.2.3 Definition der Bayesianer . . . . . . . . . . . . . . . . 1.3 A priori Wahrscheinlichkeit . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1 1 1 2 2 3 3 2 Definitionen und Datenbeschreibung 2.1 Ereignisraum und Datentypen . . . . . . . . . . . . . . . . . 2.2 Weitere Definitionen . . . . . . . . . . . . . . . . . . . . . . 2.2.1 Die Verteilungsfunktion . . . . . . . . . . . . . . . . 2.2.2 Die diskrete Wahrscheinlichkeit . . . . . . . . . . . . 2.2.3 Die Wahrscheinlichkeitsdichtefunktion . . . . . . . . 2.3 Kombination von Wahrscheinlichkeiten und Bayes’ Theorem 2.4 Histogramme . . . . . . . . . . . . . . . . . . . . . . . . . . 2.5 Mittel- und Erwartungswerte . . . . . . . . . . . . . . . . . 2.6 Die Varianz und Standardabweichung . . . . . . . . . . . . 2.7 Höhere Momente . . . . . . . . . . . . . . . . . . . . . . . . 2.8 Kovarianzen . . . . . . . . . . . . . . . . . . . . . . . . . . . 2.9 Nützliche Ungleichungen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4 4 4 4 4 4 4 6 7 8 10 11 12 3 Wahrscheinlichkeitsverteilungen 3.1 Diskrete Verteilungen . . . . . . . . . . . . . 3.1.1 Kombinatorik . . . . . . . . . . . . . . 3.1.2 Bernoulli und die Binomial-Verteilung 3.1.3 Multinomialverteilung . . . . . . . . . 3.1.4 Poisson-Verteilung . . . . . . . . . . . 3.2 Kontinuierliche Verteilungen . . . . . . . . . . 3.2.1 Gauss- oder Normalverteilung . . . . . 3.2.2 χ2 -Verteilung . . . . . . . . . . . . . . 3.2.3 Log-Normal-Verteilung . . . . . . . . . 3.2.4 Gamma-Verteilung . . . . . . . . . . . 3.2.5 Student-Verteilung . . . . . . . . . . . 3.2.6 F-Verteilung . . . . . . . . . . . . . . 3.2.7 Weibull-Verteilung . . . . . . . . . . . 3.2.8 Cauchy-Verteilung . . . . . . . . . . . 3.2.9 Uniforme Verteilung . . . . . . . . . . 3.3 Charakteristische Funktion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 14 14 14 14 15 17 19 19 21 21 22 22 22 23 23 23 24 4 Fehler 4.1 Der zentrale Grenzwertsatz . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4.2 Arbeiten mit Fehlern . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4.2.1 Averaging is good for you . . . . . . . . . . . . . . . . . . . . . . . . . 26 26 27 27 i . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4.3 4.2.2 Mittelwertbildung durch Gewichtung . . . 4.2.3 Fehlerfortpflanzung . . . . . . . . . . . . . 4.2.4 Funktionen einer Veränderlichen . . . . . 4.2.5 Funktionen mit meherern Veränderlichen Systematische Fehler . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5 Monte-Carlo Methoden 27 28 28 28 30 32 6 Stichproben und Schätzungen 6.1 Eigenschaften von Schätzungen . . . . . . . . . . . . . . . . . . . . 6.2 Stichprobenfunktionen für kontinuierliche Verteilungen . . . . . . . 6.2.1 Schätzung des Mittelwerts . . . . . . . . . . . . . . . . . . . 6.2.2 Schätzung der Varianz . . . . . . . . . . . . . . . . . . . . . 6.2.3 Schätzung der Kovarianz . . . . . . . . . . . . . . . . . . . 6.3 Die Maximum-Likelihood Methode . . . . . . . . . . . . . . . . . . 6.3.1 Die Likelihood-Funktion . . . . . . . . . . . . . . . . . . . . 6.3.2 Einfache Anwendungen der Maximum-Likelihood Methode 6.3.3 Eigenschaften der Maximum Likelihood Methode . . . . . . 6.3.4 Fehlerberechnung bei der ML Methode . . . . . . . . . . . . 6.3.5 Erweiterte Maximum-Likelihood-Methode . . . . . . . . . . 6.3.6 Binned Maximum Likelihood . . . . . . . . . . . . . . . . . 6.3.7 Kombination von Messungen mit der ML Methode . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 33 33 33 33 34 34 34 34 35 37 38 40 41 41 7 Methode der kleinsten Quadrate - Least Square 43 8 Vertrauensintervalle 44 9 Hypothesentests 45 10 Blindstudien 46 11 Parametrisierung von Daten 11.1 Orthogonale Polynome . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11.2 Splines . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 47 47 47 12 Entfaltung 48 ii 1 Grundlegende Konzepte der Wahrscheinlichkeit There are three lies: lies, damned lies and statistics. (Benjamin Disraeli) Drei grundlegende Konzepte, die für die Statistik wichtig sind, sollen erläutert werden: • Zufälligkeit • Wahrscheinlichkeit • a priori Wahrsscheinlichkeit 1.1 Zufälligkeit Ein guter Überblicksartikel über Zufälligkeit in klassischen System ist in J. Fords Artikel “How random is a coin toss?” in der Zeitschrift Physics Today 40, April 1983 gegeben. Ich halte mich mit den folgenden Überlegungen eng an seiner Argumentation. Das klassische Beispiel für Zufälligkeit ist der Münzwurf mit dem Ereignisausgang Kopf oder Zahl. Da es ein klassisches mechanisches System ist können wir den Ereignisausgang theoretisch mit Bewegungsgleichungen beschreiben. Wir kann aber der Aspekt der Zufälligkeit aus einem im Prinzip deterministischen System enstehen? Stellen wir uns daher ein Computerprogramm vor, das die Ereignisfolgen eines Münzwurfes berechnen soll. Die Gesetze des Wurfes werden in Bewegungsgleichungen beschrieben, die gewisse Anfangsbedingungen benötigen. Je mehr Münzwürfe wir vorhersagen wollen, um so genauer müssen die Anfangsbedingungen festgelegt werden, obwohl die Diffferentialgleichungen eigentlich dieselben bleiben. Daher wird ab einer bestimmten Genauigkeit die Länge des Programms durch die Anzahl der bits der Anfangsbedingungen bestimmt. Wenn aber die Anzahl der bits in den Anfangsbedingungen die Zahl der Ausgabebits übersteigt, wird das Computerprogramm unbrauchbar, um zukünftige Ergebnisse vorhersagen zu können. Wir verlangen daher, um eine vernünftige Vorhersagekraft zu erhalten, dass die Anzahl der bits im Computerprogramm geringer ist, als die Anzahl der bits in der Ausgabe. Tatsächlich verlaufen viele physikalische Phänomene nach exponentiellen Gesetzen. Wenn es also einen exponentiellen Anstieg in der Lösung unseres Problems gibt, müssen die Anfangsbedingungen extrem genau spezifiziert werden, so dass sehr schnell die Anzahl der bits in den Anfangsbedingunen die Ausgabebits für die vorhergesagte Ereignisfolge Kopf oder Zahl übersteigt. Typischerweise steigt die bit-Anzahl in den Anfangsbedingungen mit n, während die Länge der vorhergesagten Ausgabe des Ereignisses nur mit log n wächst. Aus diesem Grund kann ein Zufallsprozess aus einem klassischen deterministischen System entstehen. 1.2 Wahrscheinlichkeit Es gibt mehrere Definitionen der Wahrscheinlichkeit. Am formal strengsten ist natürlich die mathematische Definition, die prinzipiell aber nur Regeln zur Manipulationen mit Wahrscheinlichkeiten beinhaltet. Über die eigentliche Herleitung und Interpretation von Wahrscheinlichkeitsaussagen aus Daten (statistical interference) gibt es zwei prinzipiell unterschiedliche Auffassungen, die sich in der Interpretation des Wahrscheinlichkeitsbegriffs unterscheiden: 1 die Frequentisten und Bayesianer1 . Wir werden also lernen, dass Wahrscheinlichkeitsrechnungen im streng formalen Sinn Mathematik sind, ihre Anwendungen und Interpretationen hingegen eher den empirischen Wissenschaften zuzuordnen sind. 1.2.1 Definition über Häufigkeiten (Frequentistendefinition) Die populärste Definition ist empirischer Natur und basiert auf dem Häufigkeitsbegriff, bzw. auf dem Grenzwert von relativen Häufigkeiten. Wenn wir N identische Versuche machen, bei denen das Ereignis E auftreten kann, und dabei n mal das Ereignis E tatsächlich auftritt, ordnet man dem Ereignis E die Wahrscheinlichkeit p(E) durch die relative Häufigkeit des Auftretens zu: n N →∞ N Dieses Konzept ist unglaublich nützlich in der Praxis, hat aber einige Probleme: p(E) = lim (1.1) 1. Der Grenzwert existiert im strengen mathematischen Sinne nicht. Das liegt daran, dass es keine deterministische Regel gibt die den Ausgang des Versuches n and den Ausgang des Versuches n + 1 knüpft. Die Zufälligkeit der Versuche ist doch gerade unsere Bedingung und ein Grenzwert kann daher im strengen Sinne nicht abgeleitet werden. 2. Wie erhalten wir N identische Versuche? Langt es, wenn sie nur ähnlich sind? Nach jedem Münzwurf nutzt sich die Münze etwas ab und sie ist beim i + 1-ten Wurf nicht mehr identisch zum vorherigen Wurf i. 3. Niemand kann unendlich viele Versuchen durchführen. Wann konvergiert die Serie zum Grenzwert? 1.2.2 Mathematische Definition Sei S = E1 , E2 , E3 , . . . ein Satz möglicher Ereignisse eines Zufallsexperiments. Die Ereignisse sind exklusiv, wenn sie nicht gleichzeitig als Resultat eines Zufallsexperimentes auftreten können. Für jedes Ereignis Ei gibt es eine reelle Wahrscheinlichkeit p(Ei ), die folgende Axiome2 (Kolmogorov) erfüllt: • p(Ei ) ≥ 0 • p(Ei or Ej ) = p(Ei ) + p(Ej ), wenn Ei und Ej exklusiv sind • P p(Ei ) = 1, wobei die Summe über alle möglichen exklusiven Ereignisse läuft. Daraus kann sofort gefolgert werden, dass p(Ei ) ≤ 1. Diese axiomatische Definition ist zwar schön aber leider in der Praxis bedeutungslos. Die Axiome sagen uns nicht worum es bei Wahrscheinlichkeiten geht, was die Zahl p bedeutet und welche Interpretationen damit einhergehen. 1 Thomas Bayes, Britischer Geistlicher, 1702-1761. Nach ihm ist das sogenannte Bayes’ Theorem benannt. die Axiome sind in der einen oder anderen Form in vielen Mathematikbüchern zu finden. Wir begnügen uns hier mit einer vereinfachten Version. 2 2 1.2.3 Definition der Bayesianer In der Schule der Bayesianer ist die Wahrscheinlichkeit definiert als eine Zahl, die die Plausabilität oder Glaubwürdigkeit einer Feststellung bzw. den Grad der Überzeugtheit von dieser Feststellung misst. Es macht daher für die Bayesianer Sinn, nach einer Wahrscheinlichkeit einer Hypothese zu fragen, was im Gegensatz zur Frequentisten-Definition der Wahrscheinlichkeit eigentlich keine Bedeutung hat. Die Bayes-Schule benutzt dieselben kombinatorischen Regeln im Umgang mit Wahrscheinlichkeitswerten an wie die Frequentisten-Schule. Der grosse Unterschied liegt darin, dass die Frequentisten Wahrscheinlichkeit als einen Zustand der Natur interpretieren, während die Bayesianer Wahrscheinlichkeit als einen Zustand unseres Wissens ansehen, so dass Wahrscheinlichkeiten auch unvermeidbar subjektiv werden. Demnach ist die Wahrscheinlchkeit eines Ereignisses p(E) von der dem Beobachter verfügbaren Information I über das Ereignis abhängig. Die Funktion p(E) ist also keine echte intrinsische Funktion des Ereignisses, sondern hängt auch vom Wissen und der Information des Beobachters ab. Erst wenn alle Beobachter dieselbe Information zur Verfügung haben, kann man von einer objektiven Wahrscheinlichkeit sprechen. Um die Begriffswelt im Bayesianer besser zu verstehen, folgen wir dem Beispiel aus G. D’Agostini: A Bayesian Primer: Was ist die Wahrscheinlichkeit, dass ein Stickstoffmolekül bei Raumtemperatur eine Geschwindigkeit zwischen 400 und 500 m/s hat? Die Antwort ist einfach: Wir nehmen die Maxwell-Boltzmann Verteilung und integrieren, um eine Zahl zu bekommen. Was ist aber, wenn wir fragen: Ich gebe Euch einen Behälter, eine Flasche mit Stickstoff sowie einen Detektor, der Geschwindigkeiten messen kann. Ihr müsst aber den Versuch selber aufbauen. Was ist jetzt die Wahrscheinlichkeit, dass das erste Molekül, welches vom Detektor gemessen wird, seine Geschwindigkeit zwischen 400 und 500 m/s hat? Jeder, der auch nur minimale Experimentiererfahrung hat, würde mit einer Antwort zögern. Man würde am Experiment erst einmal kleinere Studien und Überprüfungen durchführen. Danach würde man vielleicht eine Antwort präsentieren. Und nachdem 10 Messungen durchgeführt wurden, könnte die Antwort auf die Frage nach der Wahrscheinlichkeit vielleicht anders lauten. Die Grundidee ist also, dass die Wahrscheinlichkeit einer Hypothese ein Mass für die subjektive Überzeugtheit oder für den degree of belief ist. Dieses Überzeugtheitsmass kann durch spätere experimentelle Messungen verändert werden. 1.3 A priori Wahrscheinlichkeit Die a priori Wahrscheinlichkeit ist die Wahrscheinlichkeit eines experimentellen Ereignisses, die vor dem eigentlichen Experimentieren bestimmt oder abgeschätzt wird. Zum Beispiel wäre 1/6 eine gute a priori Wahrscheinlichkeit für ein Würfelexperiment, dass die Augenzahl 4 auftaucht. Die a priori Wahrscheinlichkeit wird vor allem im Kontext der Bayes-Schule benötigt, da aus dieser Annahme und vorhandenen Messdaten eine so genannte a posteriori Wahrscheinlichkeit bestimmt werden kann. 3 2 Definitionen und Datenbeschreibung Nachfolgend einige Definitionen, die zum allgemeinen Sprachgebrauch der Statistik gehören. 2.1 Ereignisraum und Datentypen Der Ereignisraum ist die Menge aller möglichen Ausgänge eines Experimentes. Eine Variable, die theoretisch jeden beliebigen Wert zwischen zwei gegebenen Werten im Ereignisraum annehmen kann, wird stetige oder kontinuierliche Variable genannt. Andernfalls wird sie diskrete Variable genannt. Beispiel: Die Anzahl der Medaillen, die ein Land bei den olympischen Spielen holt, ist eine diskrete Variable. Die Weite beim Speerwerfen ist natürlich eine kontinuierliche Variable. Die Daten, die durch diskrete oder stetige Variablen beschrieben werden können, heissen diskrete bzw stetige Daten. 2.2 2.2.1 Weitere Definitionen Die Verteilungsfunktion Wir definieren sie zuerst im eindimensionalen Raum, d.h. x sei der 1-dimensionale Ereignisraum. Die Verteilungsfunktion F (x0 ) ist die Wahrscheinlichkeit, dass bei einer Messung von x ihr Wert kleiner oder gleich x0 ist. Ferner gilt natürlich F (−∞) = 0 und F (+∞) = 1. Die Funktion F ist eine nicht-abfallende Funktion von x. Sie darf stetig oder unstetig sein, muss aber glatt im Grenzwert ±∞ verlaufen. 2.2.2 Die diskrete Wahrscheinlichkeit Für einen diskrete Ereignisraum definieren wir eine Wahrscheinlichkeit Pr , so dass der AusP gang des Ereignisses r die Wahrscheinlichkeit Pr besitzt. Natürlich ist r Pr = 1. 2.2.3 Die Wahrscheinlichkeitsdichtefunktion Die Wahrscheinlichkeitsdichtefunktion f ist einfach f (x) = dF (x)/dx. Die Angabe f (x0 )dx0 gibt somit die Wahrscheinlichkeit an, dass x sich im Intervall zwischen x0 und x0 +dx0 befindet. R +∞ Natürlich muss −∞ f (x0 )dx0 = 1 sein. Die Funktion F ist dimensionslos, die Funktion f jedoch hat die Dimension 1/x. Ferner soll darauf hingewiesen werden, dass f (x) keine Wahrscheinlichkeit darstellt, sondern nur f (x)dx. p(x1 ≤ x ≤ x2 ) = Z x2 f (x0 )dx0 = F (x2 ) − F (x1 ) (2.1) x1 Zum Zusammenhang zwischen f und F verweisen wir auf Figur 2.1. 2.3 Kombination von Wahrscheinlichkeiten und Bayes’ Theorem Gegeben sind zwei Arten von Ereignissen A und B. Die Wahrscheinlichkeit für das Auftreten von A ist P (A) und die entsprechende Wahrscheinlichkeit von B ist P (B). Dann ist die 4 KAPITEL 1. GRUNDLAGEN DER ST f(x) x1 F(x) x2 x 1 0 x 1 x2 x Figure 2.1: Eine Dichtefunktion f (x) sowie deren Verteilungsfuntion F (x) dergestalt, dass f (x) = dF (x)/dx ist. .2: Wahrscheinlichkeitsdichte (oben) und dazugehörige Verteilungsfunktio 5 Wahrscheinlichkeit, dass A oder B auftritt gegeben durch: P (A oder B) = P (A) + P (B) − P (A und B) (2.2) Hierbei ist P (A und B) die Wahrscheinlichkeit, dass A und B zusammen auftreten. Falls die Ereignisse A und B exklusiv sind, d.h. nicht zusammen auftreten können, gilt natürlich P (A und B) = 0. Ferner gilt allgemein P (A und B) = P (A) · P (B|A) = P (B) · P (A|B). Man nennt P (B|A) die bedingte Wahrscheinlichkeit, dass das Ereignis B auftritt, vorausgesetzt, dass das Ereignis A ist eingetreten. Bei unabhängigen Ereignissen gilt P (B|A) = P (B), d.h. das Auftreten von B hängt nicht von A ab, was auch durch P (A und B) = P (A) · P (B) beschrieben wird. Das Bayes’ Theorem erhält man nun aus P (A und B) = P (A) · P (B|A) = P (B) · P (A|B): P (A|B) = P (B|A) · P (A) P (B) (2.3) Im allgemeinen Fall von n-Ereignis-Klassen mit den Eigenschaften Ai lautet das Theorem: P (B|Ai )P (Ai ) i P (B|Ai ) · P (Ai ) P (Ai |B) = P 2.4 (2.4) Histogramme Eine Häufigkeitsverteilung ist die tabellarische Anordnung von Daten sowie deren jeweilige Häufigkeit in bestimmten Klassen oder Kategorien. Table 2.1: Die erste Häufigkeitsverteilung in der Vorlesung: Das Körpergewicht einer Personengruppe. Ganz allgemein: Ist das Körpergewicht von beliebigen Menschengruppen so wie die Körpergrösse eigentlich Gauss-verteilt? Gewicht (kg) 62-64 64-66 66-68 68-70 70-72 72-74 74-76 76-78 78-80 Anzahl der Personen 5 12 33 13 10 9 8 4 3 Im Beispiel der Tabelle 2.1 ist die Häufigkeitsverteilung oder Häufigkeitstabelle von Personen nach ihrem Gewicht gezeigt. Die Einteilung der Daten nach Gewicht geschieht in Klassenintervallen oder in sogenannten bins. Ein Histogramm ist dann die Darstellung der Häufigkeitsverteilung. 6 2.5 Mittel- und Erwartungswerte Das arithmetisches Mittel Das arithmetische Mittel x̄ ist der Mittelwert einer Menge von N Zahlen Xi : x̄ = N X Xi /N (2.5) i=1 In vielen Fällen ist der arithmetische Mittelwert die sinnvollste Grösse, die man bilden kann, wenn man mit nur einer einzigen Zahl eine Datenmege beschreiben möchte. Völlig analog kann man einen Mittelwert von Funktionen bilden: f¯ = N X f (Xi )/N (2.6) i=1 Sind die N Datenpunkte durch eine Häufigkeitsverteilung in m Intervallen klassifiziert und entspricht nj die Anzahl der Einträge im Intervall j, so gilt: x̄ = m 1 X nj X j N j=1 (2.7) Erwartungswert einer Variablen Ein wichtiger Parameter, der eine Wahrscheinlichkeitsdichte charakterisiert, ist der Erwartungsoder Mittelwert einer Variablen. Er ist für kontinuierliche Variablen x definiert als Z ∞ < x >= x0 f (x0 )dx0 (2.8) −∞ und für diskrete Variablen r als < r >= X ri P (ri ) definiert. Erwartungswerte für Funktionen h(x) sind durch < h >= definiert. Der Erwartungswert ist ein linearer Operator, d.h. es gilt: < a · g(x) + b · h(x) >= a < g(x) > + b < h(x) > (2.9) R h(x0 )f (x0 )dx0 (2.10) Im allgemeinen ist aber < f g >6=< f >< g >. Die Gleichheitszeichen gilt nur dann, wenn f und g unabhängig sind. Es gibt natürlich eine Parallele zwischen dem Mittel- oder Erwartungswert < x > und dem (arithmetischen) Mittelwert x̄ einer Datenmenge. Ersterer ist eine Summe (oder Integral) über eine theoretische Wahrscheinlichkeitsdichte und letzterer ist eine Summe über eine reale Datenmenge. Die Verbindung kann nun über die Frequentisten-Definition der Wahrscheinlichkeit geknüpft werden, die aussagt, dass im Falle von N → ∞ die wahre Wahrscheinlichkeitsverteilung durch die relativen Häufigkeiten bestimmt werden kann. Oder anders formuliert: Wenn eine Datenmenge durch eine theoretische Verteilung beschrieben wird, dann wird für N → ∞: x̄ =< x >. Der Median Der Median xmedian ist der Wert einer Häufigkeitsverteilung, der die Verteilung in zwei gleich 7 grosse Hälften teilt. Der Median ist oft ein nützlicher Parameter um Verteilungen zu charakterisieren. So werden z.B. Einkommensverteilungen am besten durch den Median beschreiben, wie Figur 2.2 demonstriert. Z xmedian f (x0 )dx0 = 0.5 (2.11) −∞ Der Modus Der Modus ist der Wert, der am häufigsten vorkommt, d.h. bei dem die Wahrscheinlichkeitsdichte f (x) ihr Maximum hat. Der Modus braucht natürlich nicht eindeutig sein. Eine empirische Beziehung/Faustformel Eine manchmal nützliche Beziehung (für unimodale, mässig schiefe Verteilungen), um einen der drei Parameter Median, Modus und Mittelwert abzuschätzen, wenn die beiden anderen bekannt sind, ist Mittelwert − M odus = 3 × (M ittelwert − M edian). (2.12) Das harmonische Mittel 1/H = 1/N X (1/X) (2.13) Das harmonische Mittel ist niemals grösser als das arithmetische Mittel. Es kann zur Mittelwertbildung benutzt werden, wenn es um die Mittelung von Raten geht. Beispielsweise sei die Geschwindigkeit einer Reise von A nach B x km/h und auf der Rückreise y km/h. Die Durchschnittsgeschwindigkeit beträgt dann z = 2xy/(x + y). Das Quartil Wird die Datenmenge in zwei gleich grosse Teile geteilt, ist der Wert in der Mitte der Median. Teilt man die Menge in vier gleich grosse Teile nennt man die jeweiligen vier Werte Quartile Q1, Q2, Q3 und Q4. Der Wert Q2 entspricht dabei dem Median. Entsprechend kann auch in zehn gleiche Teile (Dekantil) und hundert gleiche Teile (Zentil) geteilt werden. 2.6 Die Varianz und Standardabweichung Die Erwartungswerte von xn und von (x− < x >)n werden n-te algebraische Momente µn und n-te zentrale Momente µ0n genannt. Das erste algebraische Moment µ1 ist gleich dem Erwartungswert < x >. Es wird oft einfach als µ bezeichnet. Das zweite zentrale Moment (das erste ist natürlich Null) ist ein Mass für die Breite der Wahrscheinlichkeitsdichte und wird als Varianz V (x) bezeichnet. Die Grösse σ nennt man Standardabweichung. V (x) =< (x− < x >)2 >=< x2 > − < x >2 = σ 2 (2.14) Es ist hierbei wichtig zu verstehen, dass wir die Grösse der Varianz bzw. der Standardabweichung über Erwartungswerte definieren. Dies ist die fundamentalere Definition der Varianz. Sie kann aber nur dann bestimmt werden, wenn die ’wahre’ zugrundeliegende Wahrscheinlichkeitsdichte der Grundgesamtheit bekannt ist. Da wir uns aber häufig mit einer beschränkten Menge an Daten beschäftigen, die nur eine Teilmenge (Stichprobe) der Grundgesamtheit repräsentiert, von der weder der Erwartungswert noch die Varianz genau 8 Figure 2.2: Das Einkommensverteilung von Amerikanern um das Jahr 1950. Die Bedeutung von Mittelwert, Median und Modus wird ersichtlich. Welche der drei Grössen gibt wohl die wichtigste Information an? 9 bekannt ist, ist es nützlich die Varianz s2 einer Datenmenge, die sogenannte StichprobenVarianz, zu definieren: 1 X 1 X 2 1 s2 = (xi − x̄)2 = xi − N −1 i N −1 N i X !2 xi (2.15) i Der Wert s2 kann als beste Abschätzung der ’wahren’ Varianz der Grundgesamthwit verstanden werden. Der Faktor N 1−1 anstatt des sonst üblichen N1 mag vielleicht etwas verwirren. Wir werden diese Konfusion aber im Verlaufe der Vorlesung klären. Zur numerischen Berechnung der Stichproben-Varianz wollen wir einige Anmerkungen machen. Man kann die Varianz im Prinzip in zwei Schleifen über die Daten berechnen. In P der ersten Schleife wird die Summe Rx = i xi berechnet und dann das Stichprobenmittel P x̄. Dieses Mittel wird dann in der zweiten Schleife benutzt um die Summe Rxx = i (xi − x̄)2 zu bestimmen, woraus s2 = 1/(N − 1)Rxx folgt. Alternativ kann s2 auch in einer Schleife P P über die Daten berechnet werden, wenn die Summen Sx = i xi und Sxx = i x2i gleichzeitig gebildet werden und dann s2 = N 1−1 (Sxx − n12 Sx2 ) berechnet wird. Diese Methode hat sicherlich Vorteile, wenn es auf Rechengeschwindigkeit ankommt. Es ist allerdings Vorsicht geboten, da die Differenz zweier grossen Zahlen gebildet wird, was dann leicht zu Rundungsfehlern führen kann. In diesem Fall ist es besser eine erste grobe Näherung xe für den Mittelwert einzuführen, wie z.B. den ersten Wert x1 des Datensamples, um dann folgende Grössen zu berechnen: Tx = X (xi − xe ) i Txx = X (xi − xe )2 i Die Grössen x̄ und s2 werden dann wie folgt bestimmt: x̄ = xe + s2 = 2.7 1 Tx n 1 1 Txx − Tx2 n−1 n Höhere Momente Manchmal werden auch höhere Momente µn und µ0n benutzt, um Verteilungen zu kategorisieren. Die Schiefe γ oder skewness is normalerweise definiert als γ1 = µ03 /σ 3 = 1 1 < x− < x >>3 = 3 (< x3 > −3 < x >< x2 > +2 < x >3 ). 3 σ σ (2.16) Die Grösse γ ist dimensionslos und charakterisiert die Schiefe. Sie beträgt null für symmetrische Verteilungen bzw. ist positiv oder negativ für unsymmetrische Verteilungen. Bei der Schiefe muss man aufpassen, da es noch alternative Arten gibt, sie zu definieren. Manchmal wird die sogenannte Pearson’s skew als Schiefe bezeichnet, die gegeben ist durch: P earson0 s skew = 10 mean − modus σ (2.17) Ferner gibt es noch die Kurtosis γ2 = µ04 /σ 4 − 3, die ein Mass für die Art der Verteilung an den Rändern im Bezug zum Maximum ist. Die Kurtosis ist dimensionslos aufgrund der vierten Potenz im Nenner. Für eine Gauss-Verteilung ist sie null aufgrund des Terms mit der Zahl 3, der deswegen extra eingeführt ist. Positive γ2 bedeuten ein grösseres Maximum und weitere Ausläufer als eine Gauss-Verteilung mit denselben Werten für Mittelwert und Varianz. Einige der oben diskutierten Grössen sind in Tabelle 2.2 für die Maxwellsche Geschwindigkeitsverteilung angegeben. Die Wahrscheinlichkeitsdichte des Betrags der Geschwindigkeit v der Moleküle in einem idealen Gas bei der absoluten Temperatur T ist durch 3 f (v) = N · (m/2πkT ) 2 exp(−mv 2 /2kT ) · 4πv 2 (2.18) gegeben. Dabei ist m die Molekülmasse und k die Boltzmannkonstante. Übung: BerechTable 2.2: Maxwellsche Geschwindigkeitsverteilung Grösse Modus (wahrscheinlichster Wert) vm Mittelwert < v > Median RMS-Geschwindigkeit vrms Wert (2kT /m)1/2 (8kT /πm)1/2 vmedian = 1.098 · vm (3kT /m)1/2 nen Sie aus den gegebenen Daten die Varianz σv2 . Zeichnen Sie die Verteilung für Stickstoff bei T = 300K. Die Grössen sind k = 1.38 · 10−23 J/K, m = 4.65 · 10−26 kg. 2.8 Kovarianzen Unabhängigkeit Zwei Variablen sind unabhängig, genau dann wenn folgende Bedingung für die Verteilungsfunktion erfüllt ist: F (x1 , x2 ) = F (x1 ) · F (x2 ) (2.19) Man sagt, dass diese Variablen dann unkorreliert sind. Wenn diese Bedingung nicht erfüllt ist, sind die Variablen abhängig und normalerweise miteinander korreliert. Kovarianz Die Kovarianz cov(x1 , x2 ) zwischen zwei Variablen ist definiert als cov(x1 , x2 ) =< (x1 − < x1 >) · (x2 − < x2 >) >=< x1 x2 > − < x1 >< x2 > (2.20) Ferner gilt V (x1 + x2 ) = V (x1 ) + V (x2 ) + 2 × cov(x1 , x2 ) (2.21) Die Kovarianz kann durch den sogenannten Korrelationskoeffizienten ρx1 x2 ausgedrückt werden: cov(x1 , x2 ) = ρx1 x2 11 q V (x1 )V (x2 ) (2.22) Beispiel: Figure 2.3: Beispiel für Korrelationskoeffizienten. Der Korrelationskoeffizient liegt zwischen +1 und -1. Wenn zwei Variablen voneinander unabhängig sind, folgt ρx1 x2 = 0. Das Umgekehrte folgt aber nicht notwendigerweise. D.h., wir können ρx1 x2 = 0 haben und trotzdem sind x1 und x2 abhängig. Als Beispiel3 wollen wir zwei Würfel betrachten. Die folgenden drei Zufallsvariablen seien definiert als: • r sei 1, wenn Würfel 1 eine ungerade Augenzahl hat. Andererseits sei r = 0 • s sei 1, wenn Würfel 2 eine ungerade Augenzahl hat. Andererseits sei s = 0 • t sei 1, wenn die Summe der beiden Augenzahlen ungerade ist. Anderersets sei t = 0 Wir können zeigen, dass die Ereignisse paarweise unabhängig sind. Überraschenderweise sind jedoch nicht die drei Variablen unabhängig. Wenn sowohl r = 1 als auch s = 1 eintritt, folgt daraus zwingend t = 0. Für Unabhängigkeit muss aber Prst = Pr Ps Pt gelten. 2.9 Nützliche Ungleichungen In diesem Unterkapitel wollen wir zwei nützliche Ungleichungen diskutieren, um obere Schranken für Wahrscheinlichkeiten anzugeben, wenn die zugrundeliegende Verteilung nicht bekannt ist. 3 W. Feller, Probabiltiy Theory and Applications, Vol. I, Wiley and Sons, NY (1950) 12 Markov-Ungleichung: Es sei x eine positive Zufallsvariable ist, dann gilt: P (x ≥ a) ≤ <x> a (2.23) Diese Ungleichung gibt uns einen Maximalwert an, um eine obere Grenze für die Wahrscheinlichkeit von Zufallsereignissen zu bekommen, die in den Ausläufern der Verteilung sitzen. Tschebyscheff-Ungleichung: σ2 (2.24) k2 Die Wahrscheinlichkeit, dass ein Resultat um mehr als drei Standardabweichungen vom Erwartungswert abweicht, ist weniger als 1/9, und zwar unabhängig von der zugrundeliegenden Wahrscheinlichkeitsverteilung. Die Ungleichung gilt in allgemeiner Form, wenn die Standardabweichung bekannt ist. Sie ist allerdings sehr schwach und nur nützlich für theoretische Überlegungen, wenn die Form der Verteilung unbekannt ist. P ( |x− < x > | ≥ k) ≤ 13 3 3.1 3.1.1 Wahrscheinlichkeitsverteilungen Diskrete Verteilungen Kombinatorik Für r verschiedene Objekte gibt es 1·2·3 · · · (r−1)·r = r! verschiedene Möglichkeiten, die Objekte in einer Reihe anzuordnen. Die Zahl der Möglichkeiten, r Objekte aus n verschiedenen Objekten auszuwählen, wobei es auf die Reihenfolge der Auswahl ankommt, ist Pnr = n · (n − 1) · (n − 2) · · · (n − r + 1) = n! (n − r)! (3.1) Falls es auf die Reihenfolge der Auswahl nicht ankommt, muss die obenstehende Zahl durch r! dividiert werde, und man erhält Cnr Pr = n = r! n r ! = n! r!(n − r)! (3.2) Diese Zahlen sind die sogenannten Binomialkoeffizienten, die im Binomialtheorem auftauchen: (p + q)n = n X n r=0 r ! pr · q n−r (3.3) Einige Rechenhilfen Für grosse n kann n! durch die Stirlingsche Formel angenähert werden: √ ln n! ≈ (n + 1/2) ln n − n + ln 2π n √ n n! ≈ 2πn e (3.4) (3.5) Der erste Term (n/e)n wird nullte Näherung genannt, der gesamte Term in der obigen Gleichung ist die sogenannte erste Näherung. Die Fakultät n! kann auf nicht-ganzzahlige Argumente x durch die Gammafunktion Γ(x) erweitert werden: Z x! = ∞ ux e−u du = Γ(x + 1) (3.6) 0 Γ(x + 1) = xΓ(x) 3.1.2 (3.7) Bernoulli und die Binomial-Verteilung Ein Bernoulli-Experiment sind wiederholt durchgeführte unabhängige Versuche, von denen jeder zwei mögliche Ausgänge hat. Die Wahrscheinlichkeit des Ereignisausgangs soll dabei konstant bleiben. Beispiele hierfür sind der Münzwurf oder der Zerfall von K + in entweder µ+ ν oder einen anderen Zerfallsmodus. Das Resultat eines Bernoulli-Experiments wollen wir als success (S) oder als failure (F) beschreiben. 14 Ist die Wahrscheinlichkeit p eines Auftretens eines Ereignisses S (oder F) gegeben, so beschreibt ! n r p (1 − p)n−r r P (r) = (3.8) die Wahrscheinlichkeit, dass bei n Versuchen S (oder F) genau r mal auftritt. Die dzugehörige Verteilung nennt man Binomialverteilung. Die Gleichung 3.8 kann folgendermassen erklärt werden: Die Wahrscheinlchkeit, dass das Ereignis S in den ersten r Versuchen auftritt und nicht in den letzten n − r ist gegeben durch pr · (1 − p)n−r ; diese Reihenfolge ist aber nur eine n mögliche von insgesamt r möglichen. Die Eigenschaften der Binomialverteilung: • Sie ist auf 1 normiert, d.h. Pn r=0 P (r) • Der Mittelwert von r ist < r >= = 1. Pn r=0 r · P (r) = np. • Die Varianz von r ist V (r) = np(1 − p). • < r > /σ = √ q p n 1−p . Der letzte Punkt bedeutet insbesondere, dass bei grossen n die Verteilung eine schmalle und scharfe Spitze aufweisen wird. Beispiel: Wie gross ist die Wahrscheinlichkeit in 10 Münzwürfen genau dreimal Kopf zu 10 10! 0.53 · 0.57 = 0.12 werfen? Antwort: P (3) = 3 0.53 · (1 − 0.5)10−3 = 3!7! Übung: Ein vierlagiger Detektor zum Teilchennachweis hat pro Detektorlage eine Einzeleffizienz von 88%. Um eine komplette Teilchenspur zu rekonstruieren, werden mindestens drei Spuren benötigt. Wie gross ist damit die Wahrscheinlichkeit eine Spur zu rekonstruieren? 3.1.3 Multinomialverteilung Nun können wir unsere Überlegungen zur Binomialverteilung direkt auf folgendes Problem verallgemeinern: Angenommen es gebe n Objekte mit k unterschiedlichen Typen und ni sei die Anzahl der Objekte des Typs ki . Die Anzahl der unterscheidbaren Anordnungen ist n! dann durch n1!n2!···n gegeben. Wenn wir nun zufällig r Objekte auswählen (mit jeweiligem k! Zurücklegen), dann ist die Wahrscheinlichkeit einer bestimmten Auswahl, die ri Objekte des Types ki besitzt, gegeben durch pr11 · pr22 · · · prkk . Hierbei ist pi = ni /n. Die Gesamtwahrscheinlichkeit ist daher die Wahrscheinlichkeit der Auswahl multipliziert mit der Anzahl der möglichen unterscheidbaren Anordnungen. P = r! pr1 · pr22 · · · prkk r1 !r2 !r3 ! · · · rk ! 1 Diese Verteilung heisst Multinomialverteilung. 15 (3.9) Figure 3.1: Die Binomialverteilung für ein festes p = 0.4 und verschiedene Werte für n. 16 Todesfälle pro Korps und Jahr 0 1 2 3 4 Tatsächlich gemeldete Fälle 109 65 22 3 1 Poissonstatistik 108.7 Table 3.1: Die Gesamtstatistik der zu Tode getrampelten preussischen Kavalleriesoldaten 3.1.4 Poisson-Verteilung Die Poissonverteilung entsteht als Grenzfall der Binomialverteilung, falls die Anzahl n der Versuche gross wird und die Wahrscheinlichkeit für das Auftreten eines Ereignisses p in einem einzigen Versuch sehr klein ist, wobei pn = λ eine (kleine) endliche Konstante ergeben soll. Ein typisches Beispiel für diesen Grenzwert ist die Zahl der Zerfälle pro Sekunde einer radioaktiven Quelle, die z.B. eine mittlere Lebensdauer von einem Jahr hat. Hierbei ist n ∼ 1023 , p ∼ 1 Sekunde/Lebensdauer ∼ 3 · 10−8 und r ist die Anzahl der Zerfälle in einer Sekunde, was ungefähr von der Grösse pn ∼ 3 · 1015 ist. Die Poissonverteilung hat nur einen Parameter, nämlich den Mittelwert λ = np. P (r) = λr e−λ r! (3.10) Eigenschaften der Poissonverteilung • sie ist korrekt auf 1 normiert: P∞ r=0 P (r) • Der Mittelwert < r > ist λ: < r >= P∞ = e−λ r=0 r · λr r=0 r! P∞ e−λ λr r! = e−λ e+λ = 1 =λ • Die Varianz ist V (r) = λ Das klassische (historische) Beispiel für eine Anwendung der Poissonstatistik ist die Zahl der durch Pferde zu Tode getrampelten preussischen Kavalleriesoldaten. In zehn verschiedenen Kavalleriekorps wurden die Todesfälle über zwanzig Jahre lang registriert. Es gab insgesamt 122 Todesfälle, so dass der Erwartungswert pro Korps und Jahr sich zu λ = 122/200 = 0.61 ergibt. Die Wahrscheinlichkeit, dass kein Soldat pro Jahr und pro Korps zu Tode getrampelt wird, beträgt P (0; 0.61) = e−0.61 · 0.610 /0! = 0.5434. Um die Gesamtzahl der Ereignisse (kein Unfall) in einem Jahr und pro Korps zu erhalten, wird mit der Anzahl der berücksichtigten Fälle (200) multipliziert, also 200 · 0.5434 = 108.7. In der Tat gab es 109 Fälle, was eine sehr gute Übereinstimmung ist. Die Gesamtstatistik der preussischen Kavallerie ist in Tabelle 3.1 verzeichnet. Übung: Berechnen Sie die fehlenden Werte aus Tabelle 3.1. Die Poissonverteilung tritt in vielen Fällen auf, in denen man Dinge oder Ereignisse zählt. Typische Anwendungen der Poissonverteilung sind: • Anzahl der Teilchen, die von einem Detektor in einer Zeit t erfasst werden, wenn der Teilchenfluss Φ und die Detektoreffizienz unabhängig von der Zeit sind und die Detektortotzeit τ hinreichend klein ist, so dass φτ << 1 ist. 17 Figure 3.2: Die Poissonverteilung für einige Werte für λ. • Anzahl der Wechselwirkungen die durch einen intensiven Teilchenstrahl enstehen, der durch eine dünne Scheibe tritt. • Anzahl der Eintrg̈e in einem bin eines Histogrammes, wenn die Daten über ein bestimmtes Zeitintervall gesammelt werden. • Anzahl der Reifenpannen innerhalb einer zurückgelegten Strecke, wenn der Erwartungswert Reifenpanne/Strecke konstant ist. Beispiele, bei denen die Poissonverteilung keine Anwendung findet sind: • Der Zerfall einer kleinen Menge radioaktiven Materials über eine bestimmte Zeit, die signifikant ist im Vergleich zur Halbswertzeit. • Die Anzahl der Wechselwirkungen eines Strahls von wenigen Teilchen, der durch eine dicke Scheibe tritt. In den beiden letzten Beispielen nimmt die Ereignisrate mit der Zeit ab. Daher kann die Poissonverteilung nicht angewandt werden. Das Bild 3.2 zeigt die Poissonverteilung für einige Werte für λ. Wenn der Erwartungsert λ kleiner als 1.0 ist, wird der Modus, d.h. der wahrscheinlichste Wert null. Bei grösseren Werten 18 von λ entwickelt sich eine Maximum ungleich null, was aber unterhalb von λ liegt. In der Tat ist die Wahrscheinlichkeit für ein beliebiges ganzzahliges λ ein Ereignis mit r = λ und r = λ−1 zu haben, gleich. Die Poissonverteilung ist immer etwas breiter als die Binomialverteilung bei gleichem Erwartungswert. Die Varianz der Poissonverteilung ist gleich dem Erwartungswert, während sie bei der Binomialverteilung np(1 − p) ist, also kleiner als der Erwartungswert np. Die Versuche in einem Bernoulliprozess haben immer ein oberes Limit, da r n nicht überschreiten kann, während die Poissonprozesse nach oben nicht beschränkt sind und daher einen langen Ausläufer haben können. Bereits ab λ = 5 kann die Poissonverteilung relativ gut durch die Gaussverteilung angenähert werden. 3.2 3.2.1 Kontinuierliche Verteilungen Gauss- oder Normalverteilung Die Gauss4 - oder Normalverteilung ist die wohl wichtigste und nützlichste Verteilung, die wir kennen. Sie hat grosse Bedeutung in der Praxis5 . Ihre Wahrscheinlichkeitsdichte ist f (x) = √ (x−µ)2 1 e− 2σ2 2πσ (3.11) Die Gaussverteilung wird durch zwei Parameter bestimmt: Durch den Erwartungwsert µ und die Varianz σ 2 , wobei σ die Standardabweichung ist. Durch die Substitution z = (x−µ)/σ erhält man die sogenannte standardisierte Gauss- oder Normalverteilung: 1 2 N (0, 1) = √ e−z /2 2π (3.12) Sie hat den Erwartungwsert null und die Standardabweichnung 1. Die Eigenschaften der Gaussverteilung sind: • sie ist natürlich auf 1 normiert: R +∞ −∞ P (x; µ, σ)dx = 1 • µ ist der Erwartungswert der Verteilung: Modus und Median R +∞ −∞ xP (x; µ, σ)dx = µ und zugleich ihr • σ ist die Standardabweichung und die Varianz ist σ 2 : R +∞ −∞ (x − µ)2 P (x; µ, σ)dx = σ 2 Nützliche Integrale, die häufig bei der Benutzung der Gaussfunktion auftauchen: Z +∞ −ax2 e Z Z −∞ +∞ 0 +∞ −∞ dx = 2 xe−ax dx = 2 x2 e−ax dx = q π/a 1 2a 1q π/a 2a 4 C.F. Gauss hat sie nicht allein entdeckt. Unabhängig von Gauss kannten Laplace und de Moivre (ein Engländer) die Verteilung. 5 Der Legende nach hat Gauss damit wohl die Grösse von Brotlaibern der Bäckerinnung in der Stadt Königsberg beschrieben. 19 Normalverteilung, CDF 1 0.8 0.6 0.4 0.2 0 −5 −4 −3 −2 −1 0 1 2 3 4 5 2 3 4 5 Normaldichte, PDF 0.4 0.3 0.2 0.1 0 −5 −4 −3 −2 −1 0 1 Figure 3.3: Die standardisierte Gaussverteilung. Oben die kumulative Verteilungsfunktion und unten die Wahrscheinlichkeitsdichtefunktion. Z +∞ 2 x2n+1 e−ax dx = 0 Z +∞ n! 2an+1 2 x2n+1 e−ax dx = 0, für alle ungeraden Werte von n −∞ Einige Zahlen für die integrierte Gaussverteilung: • 68.27% der Fläche liegt innerhalb von ±σ um den Mittelwert µ • 95.45% liegt innerhalb von ±2σ • 99.73% liegt innerhalb von ±3σ • 90% der Fläche liegt innerhalb von ±1.645σ • 95% liegt innerhalb von ±1.960σ • 99% liegt innerhalb von ±2.576σ • 99.9% liegt innerhalb von ±3.290σ Oft wird vergessen, dass im Mittel rund 32% der Fälle ausserhalb einer Standardabweichnung liegen müssen. Die integrierte Funktion Φ(x) der Gaussverteilung kann auch durch die sogenannte Fehlerfunktion erf (x) ausgedrückt werden: Φ(x) = erf (x) = => Φ(x) = x 1 2 2 e−(t−µ) /2σ dt 2πσ −∞ Z x 2 2 √ e−t dt π 0 1 x−µ 1 + erf ( √ ) 2 2σ Z √ 20 Ferner ist der Begriff der vollen Breite auf halber Höhe (FWHM - Full width half maximum) nützlich, um auf einfache Weise die Standardabweichung einer Gausskurve zu schätzen. Die Beziehung ist durch √ F W HM = 2σ 2ln2 = 2.355σ (3.13) gegeben. Übung: Approximation der Poissonverteilung durch eine Gaussverteilung: Der Mittelwert eines Poissonprozesses sei λ = 5.3. Wie gross ist die Wahrscheinlichkeit von zwei oder weniger Ereignissen? Wie gross wäre sie, wenn die Wahrscheinlichkeit aus der Gaussverteilung abgeleitet wird? Übung: Approximation der Binomialverteilung durch die Gaussverteilung: Vergleichen Sie die exakte Berechnung der Wahrscheinlichkeit beim Münzwurf 20-mal Kopf in 30 Würfen zu erhalten, mit der angenäherten Lösung einer Gaussverteilung. So wie die Poissonverteilung sich einer Gaussverteilung annähert, wird die Binomialverteilung p zu einer Gaussverteilung mit µ = np und σ = np(1 − p), wenn n gross wird. Im Prinzip tendiert fast alles zu einer Gaussverteilung, wenn die Anzahl n gross wird. Dies ist eine Konsequenz des Zentralen Grenzwertsatzes, der im nächsten Kapitel diskutiert wird. 3.2.2 χ2 -Verteilung Falls x1 , x2 , · · · , xn unabhängige Zufallsvariablen sind, die alle einer (standardisierten) Gaussverteilung mit Mittelwert 0 und Varianz 1 gehorchen, so folgt die Summe u = χ2 der n Quadrate u = χ2 = n X x2i (3.14) i=1 einer χ2 -Verteilung fn (u) = fn (χ2 ) mit n Freiheitsgraden. Die Wahrscheinlichkeitsdichte ist durch ( u )n/2−1 e−u/2 fn (u) = 2 (3.15) 2Γ(n/2) 2 gegeben. Sie hat ein Maximum bei (n − 2). Der √ Mittelwert der χ -Verteilung ist n und die 2 Varianz ist 2n. Für n → ∞ geht (χ − n)/ 2n in eine standardisierte Normalverteilung mit Erwartungswert null und Varianz 1 über. In der Praxis ist bereits bei n ≥ 30 die Approximation durch eine Normalverteilung sehr genau. Die χ2 -Verteilung spielt eine grosse Rolle bei statistischen Tests. 3.2.3 Log-Normal-Verteilung In dieser Wahrscheinlichkeitsdichte ist ln x normalverteilt. f (x) = √ 1 2πσ 2 1 (− ln x−µ)2 /2σ2 e x (3.16) Der Faktor 1/x taucht auf, da d(ln x) = dx/x ist. Der Erwartungswert und die Varianz sind aber nicht einfach µ und σ 2 , sondern gegeben durch: < x > = e(µ+(1/2)σ 2 2) 2 V ar(x) = e(2µ+σ ) (eσ − 1) 21 Die Log-Normal-Verteilung wird dann angewandt, wenn beispielsweise die Auflösung eines Messintruments sich aus vielen unterschiedlichen Quellen zusammensetzt, die jeweils einen kleinen (multiplikativen) Beitrag zur Gesamtauflösung bilden. Als Beispiel soll das Signal eines Photomultipliers dienen, welcher schwache Lichtsignale in elektrische Signale über den Photoeffekt umwandelt. Der Photomultiplier ist ein Sekundärelektronenvervielfacher, der in mehreren Stufen Elektronen beschleunigt. Pro Stufe werden dabei Sekundärelektronen erzeugt, die das Ladungssignal vervielfachen. Wenn die Verstärkung pro Stufe ai beträgt, dann ist die Anzahl der Elektronen nach der k-ten Stufe nk = Πki=0 ai ungefähr log-normal verteilt. 3.2.4 Gamma-Verteilung Die Gamma-Verteilung ist gegeben durch: f (x; k, µ) = xk−1 µk e−µx Γ(k) (3.17) Sie gibt die Verteilung der Waretezeit t = x vom ersten bis zum k-ten Ereignis in einem Poisson-Prozess mit Mittelwert µ an. Der Parameter k beeinflusst die Form der Verteilung, w”ahrend µ nur ein Skalenparameter ist. Der Erwartungswert der Gamma-Verteilung ist < x >= k/µ und seine Varianz σ 2 = k/µ2 . 3.2.5 Student-Verteilung Die Student6 oder t-Verteilung tritt bei Tests der statistischen Verträglichkeit eines StichprobenMittelwertes x̄ mit einem vorgegebenen Mittelwert µ auf. Sie wird auch bei Tests der Verträglichkeit zweier Stichproben Mittelwerte angewandt. Die Wahrscheinlichkeitsdichte der Student-Verteilung ist gegeben durch: 1 Γ((n + 1)/2) t2 fn (x) = √ 1+ nπ Γ(n/2) n !−(n+1)/2 (3.18) Die Student- oder t-Verteilung ist symmetrisch um null; für n = 1 entspricht sie der CauchyVerteilung (siehe weiter unten). Für grosse n geht sie gegen die Gaussverteilung. Anwendungen der Student-Verteilung werden wir im Kapitel Hypothesentests finden. 3.2.6 F-Verteilung Falls n1 Stichprobenwerte einer Zufallsvariablen x und n2 Stichprobenwerte derselben Zufallszahl gegeben sind und die beste Schätzung der Varianz aus den beiden Datenkollektionen durch s21 und s22 bekannt sei, dann folgt die Zufallszahl F = s21 /s22 einer F -Verteilung mit (n1 , n2 ) Freiheitsgraden: f (F ) = n1 n2 n1 /2 Γ((n1 + n2 )/2) n1 · · F (n1 −2)/2 1 + F Γ(n1 /2)Γ(n2 /2) n2 −(n1 +n2 )/2 (3.19) Mit der F -Verteilung können statistische Verträglichkeiten von zwei aus unterschiedlichen Stichproben derselben Grundverteilung ermittelten Varianzen getestet werden. 6 Benannt nach dem Statistiker W. S. Gosset, der für eine Guinness Brauerei in Dublin arbeitete und unter dem Pseudonym Student seine Arbeiten veröffentlichte. 22 3.2.7 Weibull-Verteilung Die Weibull-Verteilung wurde ursprünglich eingeführt um die Fehlerrate beim Altern von Glühbirnen zu beschreiben. Sie ist nützlich um Funktionen zu parameterisieren, die mit x anwachsen und dann wieder abfallen: P (x; α, β) = αβ(αx)β−1 e−(αx) β (3.20) Der Parameter α ist nur ein Skalenfaktor und β beschreibt die Breite des Maximums. Für β = 1 erhält man eine Exponentialfunktion. Die Weibull-Verteilung ist sehr nützlich in Zuverlässigkeitsanalysen und Fehlerratenvorhersagen. Der Erwartungswert der Weibull-Verteilung ist Γ(1/β + 1)/α. 3.2.8 Cauchy-Verteilung Die Cauchy-Verteilung hat die Dichte f (x) = 1 1 π 1 + x2 (3.21) Für grosse Werte von x nimmt sie nur sehr langsam ab und erfordert deshalb spezielle Vorsicht in der Anwendung. Insbesondere ist der Erwartungswert undefiniert und die CauchyR Verteilung besitzt keine Varianz, da das unbestimmte Integral x2 f (x) divergent ist. Die spezielle Cauchy-Verteilung in der Form f (m; M, Γ) = 1 Γ 2π (m − M )2 + (Γ/2)2 (3.22) heisst auch Breit-Wigner Funktion und wird in der Kern- und Teilchenphysik benutzt, um die Energie- oder Massenverteilung nahe einer Kern- oder Teilchenresonanz mit Masse M und Breite Γ zu beschreiben. In der Tat kann in der Quantenmechanik gezeigt werden, dass jeder Zustand, der exponentiell zerfällt, eine Energiebreitenverteilung gemäss der BreitWigner Funktion besitzt. Die Breit-Wigner Funktion ist also die Fouriertransformierte einer Exponentialverteilung. Die Breit-Wigner Verteilung ist symmetrisch um das Maximum bei m = M . Der Parameter Γ ist das FWHM. In der Praxis muss innerhlab eines bestimmten Bereiches integriert werden, um Divergenzen zu vermeiden. 3.2.9 Uniforme Verteilung Die Wahrscheinlichkeitsdichtefunktion der uniformen Verteilung innerhalb des Intervalls [a, b] ist gegeben durch: 1 , wenn a ≤ x ≤ b (3.23) b−a Ausserhalb des Intervalls ist f (x) null. Der Erwartungswert und die Varianz sind gegeben durch: f (x) = Z b <x> = a V ar(x) = x 1 dx = (a + b), b−a 2 1 (b − a)2 12 23 3.3 Charakteristische Funktion Für eine Zufallsvariable x mit Wahrscheinlichkeitsdichte f (x) definiert man die charakteristische Funktion Φ(t) als den Erwartungswert von eitx : Φ(t) =< eitx >= Z eitx · f (x)dx (3.24) Die Umkehroperation ist 1 e−itx · Φ(t)dt (3.25) 2π Die charakteristische Funktion sowie ihre erste und zweite Ableitung für den speziellen Fall t = 0 lassen sich leicht berechnen: Z f (x) = Φ(0) = 1 dΦ(0) = i<x> dt d2 Φ(0) = −(σ 2 + < x >2 ) dt2 Charakteristische Funktionen helfen manchmal bei Rechnungen mit Wahrscheinlichkeitsdichten. So ist beispielsweise eine Faltung zweier Wahrscheinlichkeitsdichten f1 und f2 für die beiden Zufallsvariablen x1 und x2 sehr einfach zu berechnen. Eine sogenannte Faltung von f1 und f2 ergibt eine neue Wahrscheinlichkeitsdichte g(y), nach der die Summe der Zufallsvariablen y = x1 + x2 verteilt ist: Z Z g(y) = f1 (x1 )f2 (x2 )δ(y−x1 −x2 )dx1 dx2 = Z Z f1 (x1 )f2 (y−x1 )dx1 = f2 (x2 )f1 (y−x2 )dx2 (3.26) Mithilfe der charakteristischen Funktionen kann nun das Faltungsintegral elegant transformiert werden: Φg (t) = Φf1 (t) · Φf2 (t) (3.27) Die charakteristische Funktion der Faltung zweier Variablen erhält man als das Produkt ihrer charakteristischen Funktionen. Die charakteristischen Funktionen von einigen Wahrscheinlichkeitsdichten sind in Tabelle 3.2 gezeigt. Übungen: • Zeigen Sie explizit, dass die Varianz der uniformen Verteilung 1 12 (b − a)2 ist. • Wie gross ist die Schiefe der Poisson-Verteilung? • Ein Buch mit 500 Seiten enthält 50 Druckfehler, die zufällig über die Seiten verteilt sind. Wie gross sind die Wahrscheinlichkeiten, dass eine bestimmte Seite genau null, einen oder zwei Druckfehler enthält? • Der Torwart Sepp Maier war ein Elfmeterkiller. Im Schnitt hielt er 40% aller Elfmeter. Wieviele Elfmeter muss ein Fussballspieler dann schiessen, um mit einer 95% Wahrscheinlichkeit ein Elfmetertor erzielt? 24 Verteilung Binomial Poisson Gauss χ2 Uniform (von a nach b) Breit-Wigner Gamma Charakteristische Funktion Φ(t) = (peit + q)n it Φ(t) = eλ(e −1) 2 2 Φ(t) = eiµt−t σ /2 Φ(t) = (1 − 2it)−n/2 Φ(t) = (eibt − eiat )/(b − a)it Φ(t) = e−iE0 t−(Γ/2)|t| Φ(t) = (1 − it/µ)−α Table 3.2: Charakteristische Funktionen von einigen Wahrscheinlichkeitsdichten. • Ein Student möchte per Anhalter fahren. Im Mittel kommt zwar alle Minute ein Auto vorbei (zufällig verteilt), doch nur 1% der Autofahrer würden einen Anhalter mitnehmen. Wie gross ist die Wahrscheinlichkeit, dass der Student immer noch wartet, nachdem (a) 60 Auots vorbeigefahren sind und (b) nach einer Stunde Wartens? • Ein Experiment sucht nach freien Quarks der Ladung 2/3. Es wird erwartet wird, dass sie 4/9 der Ionisation I0 einer Elementarladung im Nachweisgerät produzieren. Nach einer Messung von 105 Spuren, findet man eine Spur, die mit 0.44I0 gemessen wird. Die Ionisationsmessungen im Detektor seien Gaussverteilt mit Standardabweichung σ. Berechnen Sie die Wahrscheinlichkeit, dass dieses Messergebnis aufgrund einer statistischen Fluktuation einer gemessenen Elementarladung entstanden ist, wenn (a) σ = 0.07I0 für alle Spuren ist und (b) für 99% der Spuren σ = 0.07I0 gilt, während 1% der Spuren eine Auflösung von 0.14I0 zeigt. 25 4 4.1 Fehler Der zentrale Grenzwertsatz Wir wollen uns in diesem Abschnitt mit der Frage beschäftigen, warum Messfehler häufig als Gauss-verteilt angenommen werden können7 . In der Praxis stammt der resultierende Messfehler meistens von verschiedenen unabhängigen Quellen. Der wohl wichtigste Satz in der Statistik beschäftigt sich mit der Summe einzelner Zufallsvariablen und kommt unter gewissen Bedingungen zu einem sehr überraschendes Ergebnis: Angenommen wir nehmen die Summe X von n unabhängigen Variablen xi , die jeweils von einer Verteilung mit Erwartungswert µi und Varianz σi2 stammen, dann gilt für die Verteilung von X: 1. X hat den Erwartungswert < X >= 2. X hat die Varianz V (X) = P P µi σi2 3. X wird Gauss-verteilt, wenn n → ∞ Es ist hierbei zu betonen, dass die xi nicht alle aus derselben Wahrscheinlichkeitsverteilung stammen müssen. Eine Zufallsgrösse X, die aus einer Summe von vielen unabhängigen Variablen resultiert, ist im Grenzfall n → ∞ Gauss-verteilt. Dabei spielt es (fast) keine Rolle, wie die Ursprungverteilungen aussehen, von denen die einzelnen xi abstammen. Einige wichtige Bemerkungen zum zentralen Grenzwertsatz • Wenn die Variablen xi nicht unabhängig sind, gelten nur die ersten beiden Bemerkungen des zentralen Grenzwertsatzes • Der zentrale Grenzwertsatz funktioniert umso besser, je näher man im Zentrum der Verteilung sitzt. Verteilungen können Gauss-ähnlich innerhalb von ±1σ sein, aber stark von der Gaussverteilung abweichen, je weiter man vom Zentrum weg ist. Diese Ausläufer oder tails können oft zu falschen Interpretationen führen. • Der zentrale Grenzwertsatz gilt für eine ganze Reihe von Verteilungen. Es gibt einige Kriterien, die erfüllt sein müssen, um den zentralen Grenzwertsatz anzuwenden. Ein wichtiges davon ist das sog. Lindeberg-Kriterium: Sei yk = xk , wenn|xk − µk | ≤ σk yk = 0, wenn|xk − µk | > σk . Dabei ist k eine willkürlich festgelegt Zahl. Wenn die Varianz (y1 + y2 + · · · yn )/σy2 → 1 für n → ∞ geht, sind die Voraussetzungen erfüllt. Dieses Kriterium fragt also danach, dass die Fluktuationen einer individuellen Variable nicht die Summe dominiert. Übung zum zentralen Grenzwertsatz: Erzeugen Sie 500 Zufallszahlen in einem Vektor, die gleichmässig zwischen 0 und 1 verteilt sind. Benutzen Sie dazu den Befehl rand in Matlab. Stellen Sie die Zahlen in einem Histogramm graphisch dar. Erzeugen Sie einen 7 Die Experimentalphysiker glauben fest daran, dass dies ein fundamentales Gesetz ist, die Theoretiker jedoch denken, dass dieser Sachverhalt experimnetell untermauert ist 26 zweiten 500-komponentigen Zufallsvektor und zeichnen Sie die Summe der beiden Zufallsvektoren in einem anderen Histogramm, i.e. X = x1 + x2 . Wiederholen Sie das Vorgehen und bilden Sie schliesslich die Summe von drei, fünf und zehn Zufallszahlen. Stellen Sie jeweils die neuen Zufallsvariablen in Histogrammen dar. Spätestens mit der Summe von fünf Zufallszahlen sollte die Verteilung bereits Gaussförmig sein. 4.2 4.2.1 Arbeiten mit Fehlern Averaging is good for you Angenommen wir messen dieselbe Grösse mehrmals. Dann kann der zentrale Grenzwertsatz in einer einfache Form angewandt werden, da dann alle µi und σi dieselben Werte µ und σ annehmen. X < X >= µ = nµ (4.1) Der Mittelwert x̄ = X/n besitzt folgenden Erwartungswert: < x̄ >= µ. Seine Varianz ist gegeben durch 1 X V (x̄) = 2 Vi = σ 2 /n (4.2) n √ Damit fällt die Standardabweichung des Mittelwertes mit 1/ n. Dieser Sachverhalt ist bekannt als das Gesetz der grossen Zahlen. Als Beispiel betrachten wir einen Detektor der Photonen nachweisen soll. Die Energieauflösung dieses Detektors sei 50 keV. Wird nur ein monoenergetisches Photon eines bestimmten Kernzerfalls nachgewiesen, ist seine Energie nur auf 50 keV bekannt. Wenn 100 (monoenergetische) √ Photonen gemessen werden, beträgt die Unsicherheit des Energiemittelwertes nur noch 50/ 100 = 5 keV. Für 1 keV Auflösung müssten 2500 Zerfälle registriert werden. 4.2.2 Mittelwertbildung durch Gewichtung Angenommen wir haben einen Satz von Messungen xi einer Grösse µ mit unterschiedlichen Fehlern σi . Dann ist die korrekte Form der Mittelwertbildung durch x̄ = σx̄2 = P xi /σi2 P 2 1/σi 1 P 1/σi2 (4.3) (4.4) gegeben. Hier werden die Einzelergebnisse durch unterschiedliche Gewichte gemittelt. Je kleiner ein Einzelfehler ist, umso grösser sein Gewicht. Der Beweis zur gewichteten Mittelwertbildung ist in vielen Textbüchern vertreten. Einige Kommentare zu dieser Regel: • Die Formel macht natürlich sofort Sinn, wenn die Messungen mit demselben Messgerät √ ausgeführt wurden und die Einzelfehler proportional zu 1/ ni sind. • Vorsicht ist geboten, wenn die Einzelergebnisse und Einzelfehler zu stark voneinander abweichen. Wenn ein Experiment zum Nachweis eines Zerfallsprodukts in einer Stunde 100 ± 10 Ereignisse misst, das andere jedoch in einer Stunde nur 1 ± 1 Ereignisse, dann würde die Formel als Ergebnis 2 ± 1 Ereignisse ergeben. Dennoch würde man hier den 27 Experiment LEPS CLAS SAPHIR CLAS DIANA ITEP HERMES SVD COSY ZEUS Masse 1540 ± 10 1543 ± 5 1540 ± 5 1555 ± 10 1539 ± 2 1533 ± 6 1528 ± 4 1526 ± 4 1530 ± 5 1521 ± 1.5 Zerfallsmodus K +n K +n K +n K +n K 0p K 0p K 0p K 0p K 0p K 0p Table 4.1: Die weltweit gemessenen Pentaquark Massen der Jahre 2003 und 2004 einfachen Mittelwert 50.5 ± 5 bevorzugen. Der Grund besteht darin, dass in der obigen Formel der wahre Fehler auftaucht und nicht der abgeschätzte. Unsere Annahme ist ferner, dass die wahre Ereignisrate über eine Stunde bei beiden Experimenten konstant ist und somit auch der Fehler bei beiden Experimenten gleich sein sollte. Daher sollten beide Experimente hier gleich gewichtet werden. Dieses Beispiel ist natürlich stark übertrieben und im prinizp sollte man in dieser Situation gar keine Mittelwertbildung anwenden, da es offensichtlich ist, dass die beiden Experimente imkompatibel miteinander sind. Übung: Die Masse des neuen Fünfquark-Zustandes (Pentaquark) θ+ wurde von mehreren Experimenten in zwei Zerfalssmodi bestimmt: Bestimmen Sie den gewichteten Weltmittelwert und seinen Fehler sowohl aus allen Experimenten, als auch für die beiden Zerfallsmodi getrennt. 4.2.3 Fehlerfortpflanzung 4.2.4 Funktionen einer Veränderlichen Es sei f eine Funktion einer Veränderlichen x. Wir entwickeln f an der Stelle um x0 : f (x) ≈ f (x0 ) + (x − x0 ) df dx (4.5) x=x0 Unter der Anwendung von V (f ) =< f 2 > − < f >2 folgt dann V (f ) = σf2 ≈ df dx 2 σx2 (4.6) Diese Annäherung ist nur dann gültig, wenn die Fehler klein sind, d.h. die erste Ableitung darf nicht zu stark in der Umgebung von einigen σ variieren. 4.2.5 Funktionen mit meherern Veränderlichen Wir betrachten zunächst eine Funktion g(x, y) mit zwei Veränderlichen x und y. Dann ist 28 f (x, y) ≈ f (x0 , y0 ) + ∂f ∂x · (x − x0 ) + x0 ,y0 ∂f ∂y · (y − y0 ) (4.7) x0 ,y0 Wieder nehmen wir an, dass die Fehler klein sind, so dass die höheren Ordnungen in der Taylor-Reihe vernachlässigt werden können. Wir erhalten dann als Ergebnis: ∂f 2 2 ∂f 2 2 ∂f ∂f = σx + σy + 2 · cov(x, y) ∂x ∂y ∂x ∂y cov(x, y) = h(x− < x >) · (y− < y >)i σf2 (4.8) (4.9) Im Falle von zwei unabhängigen Variablen x und y, fällt natürlich der Kovarianzterm weg. Folgende einfache Beispiele sollen die Rechenregeln zur Fehlerfortpflanzung mit zwei Variablen veranschaulichen: f (x, y) = x ± y σf2 = σx2 + σy2 ± 2 × cov(x, y) g(x, y) = x · y σg2 = y 2 σx2 + x2 σy2 + 2xy × cov(x, y) Im Falle einer Funktion f von n Variablen x1 , x2 , . . . xn lautet nun die Verallgemeinerung: σf2 = X j ∂f ∂xj !2 · σx2j + XX j k6=j ∂f ∂xj ! ∂f ∂xk · cov(xj , xk ) (4.10) Allgemein wird die Kovarianz nun zur Kovarianzmatrix Vij = cov(xi , xj ). Sie ist eine symR metrische n × n Matrix. Ihre Diagonalelemente Vii sind die Varianzen σx2i = (xi − < xi >)2 f (x1 , . . . xn )dx1 . . . dxn und stets positiv. Die Nichtdiagonalelemente können posiR tiv oder negativ sein und geben die Kovarianzen Vij = (xi − < xi >)(xj − < xj > )f (x1 , . . . xn )dx1 . . . dxn an. Schliesslich noch der allgemeinste Fall, in dem zu einem Satz an Zufallsvariablen x = (x1 , . . . , xn ) mit Erwartungswerten µ = (µ1 , . . . , µn ) ein Satz an Wahrscheinlichkeitsdichtefunktionen F(x) = f1 , f2 , . . . , fn vorliegt. Die Kovarianzmatrix Ukl ist dann gegeben durch: ! Ukl = cov(fk , fl ) = X i,j ∂fk ∂fl cov(xi , xj ) ∂xi ∂xj x=µ (4.11) Dies kann aber auch vereinfacht geschrieben werden als U = A V AT , wobei die Matrix der Ableitungen A gegeben ist durch ! Aij = ∂fi ∂xj x=µ und AT ihre Transponierte ist. 29 (4.12) Als Beispiel wollen wir die Polarkoordinatentransformation betrachten. Ein Punkt sei in den kartesischen Koordinaten x und y mit Fehlern σx und σy gemessen. Die Messungen in x und y gelte als unabhängig und wir können daher V11 = σx2 , V22 = σy2 und Vij = 0 setzen. Wir sind nun daran interessiert die Kovarianzmatrix in Polarkoordinaten zu erhalten. Die Transformationsgleichungen sind r2 = x2 + y 2 und θ = arctan(y/x). Daher folgt für A = ∂fi /∂xi : A= ∂r ∂x ∂θ ∂x ∂r ∂y ∂θ ∂y ! = x r −y r2 y r x r2 ! (4.13) Ferner bilden wir U = A V AT : ! U U 4.3 = = y x σx2 r r · −y x 0 r2 r2 1 (x2 σx2 + y 2 σy2 ) r2 xy (−σx2 + σy2 ) r3 −y r2 x r2 ! xy (−σx2 + σy2 ) r3 1 (y 2 σx2 + x2 σy2 ) r4 ! 0 σy2 ! · x r y r (4.14) = 2 σr2 σrθ 2 σrθ σθ2 ! (4.15) Systematische Fehler Systematische Fehler beeinflussen jeden Einzelwert der Messung in ähnlicher Weise. Sie können beispielsweise durch falsche Messmethoden, fehlerhafte Messgeräte oder durch zeitliche Änderungen der Messbedingungen entstehen. Im Gegensatz zu zufälligen Fehlern nehmen sie √ nicht mit 1/ n ab und der zentrale Grenzwertsatz findet keine Anwendung. Systematische Fehler werden im Messergebnis getrennt vom statistischen Fehler aufgeführt: x = 10.0 ± 1.2 (stat) ± 1.0 (sys) (4.16) Falls mehrere systematische Fehler auftreten, müssen ihre Korrelationen sorgfältig beachtet werden. Für eine formale Behandlung der systematischen Fehler einer Zufallsgrösse xi mit Mittelwert µi und Standardabweichung σi wird in der Kovarianzmatrix Vij der systematische Fehler sij berücksichtigt, falls dieser den Messwert verschiebt: ges Vi,j Z = ges Vi,j = (xi − si − µi )(xj − sj − µj )f (x1 , x2 , . . . , xn )dx Z Z Vij + si sj f (x)dx − si Z (xj − µj )f (x)dx − sj ges Vi,j = Vij + si sj (4.17) Z (xi − µi )f (x)dx (4.18) (4.19) Statistische und systematische Fehler sind unabhängig nach Voraussetzung und deshalb kann man sie quadratisch addieren. Der Kovarianzterm si sj mit i 6= j gibt ein Mass für die Grösse der Korrelation, die durch systematische Fehler hervorgerufen werden können. Als einfaches Beispiel betrachten wir den Fall von zwei Zufallsgrössen x1 und x2 mit gemeinsamen systematischen Fehler S, der die Messwerte systematisch verschiebt. Die Kovarianzmatrix lautet nun: ! σ12 + S 2 S2 ges Vi,j = (4.20) S2 σ2 + S 2 30 Falls ein systematischer Fehler T die Messwerte nicht absolut verschiebt, sondern nur relativ, d.h. T = xi mit z.B. = 0.01, dann ist die Kovarianzmatrix gegeben durch: ges Vi,j = σ12 + 2 x21 2 x1 x2 2 x1 x2 σ 2 + 2 x22 31 ! (4.21) 5 Monte-Carlo Methoden 32 6 Stichproben und Schätzungen Aus einer Grundgesamtheit von gewöhnlicherweise unendlich vielen Elementen wird eine Stichprobe (oder Messung) vom Unfang n Elementen genommen. Die Wahrscheinlichkeitsdichte der Grundgesamtheit ist durch f (x) mit Mittelwert µ und Varianz σ 2 gegeben. Aus der vorliegenden Stichprobe möchte man jetzt die im allgemeinen unbekannten Grössen Mittelwert und Varianz bestimmen. Unsere Aufgabe besteht also darin die beste Schätzung einer oder mehrerer Parameter der Grundgesamtheit anhand der Stichprobe durchzuführen. 6.1 Eigenschaften von Schätzungen Die Stichprobe sowie jede Funktion der Stichprobe sind selber Zufallsvariablen. Eine Schätzung ist eine Stichprobenfunktion, um einen oder mehrere Parameter ai der Grundgesamtheit zu bestimmen. Die Schätzung des Parameters ai durch eine Stichprobenfunktion wollen wir mit â bezeichnen. Wir wollen nun die folgenden Eigenschaften einer Schätzung definieren: • Eine Schätzung heisst erwartungstreu oder unverzerrt, wenn bei beliebigem Umfang der Stichprobe der Erwartungswert der (zufälligen) Grösse gleich dem zu schätzenden Parameter ist: < â >= a. In diesem Falle spricht man auch von einem unbiased esimate. Eine Schätzung ist verzerrt oder biased, wenn < â >= a + b ist. Die Zahl b heisst auch der bias der Schätzung. • Eine Schätzung heisst konsistent, wenn limn→∞ â = a. • Eine Schätzung heisst effizient, wenn die Varianz von â möglichst klein ist. • Ferner muss eine Schätzung robust gegenüber falschen Daten oder falschen Voraussetzungen sein. 6.2 6.2.1 Stichprobenfunktionen für kontinuierliche Verteilungen Schätzung des Mittelwerts Die Schätzung des Mittelwerts µ einer Wahrscheinlichkeitsdichte anhand von n unabhängigen Stichprobenelementen xi ist gegeben durch: µ̂ = 1X xi n i (6.1) Diese Schätzung ist erwartungstreu. Sie ist ausserdem konsistent aufgrund des zentralen Grenzwertsatzes. Ihre Varianz ist gegegen durch: V (µ̂) = 1 2 σ n (6.2) Ob die Schätzung des Mittelwertes effizient ist, hängt von der genauen Wahrscheinlichkeitsdichte der Grundgesamtheit ab. Bei einer uniformen Verteilung ist die effektivste Schätzung des Mittelwertes durch µ̂ = 0.5(xmax +xmin ) gegeben, die eine noch kleinere Varianz aufweist. Die Robustheit der Schätzung aus Gleichung 6.2 kann durch Benutzung des getrimmten Mittelwerts sogar noch erhöht werden. Dabei wird der Mittelwert durch Abschneiden bzw. Weglassen der grössten und kleinsten Werte bestimmt. 33 6.2.2 Schätzung der Varianz Als Schätzung der Varianz einer Grundgesamtheit bei unbekannten (wahren) Mittelwert eignet sich die folgende Stichprobenfunktion s2 : s2 = σˆ2 = 1 X (xi − µ̂)2 n−1 (6.3) 1 Mit µ̂ ist wiederum der geschätzte Mittelwert aus Gleichung 6.2 gemeint. Der Faktor n−1 in P 1 02 der obigen Gleichung verwirrt zunächst etwas. Im Gegensatz zu der Grösse s = n (xi − µ̂)2 ist die Schätzung s2 jedoch unverzerrt (unbiased). Man kann leicht zeigen, dass < s02 >= n−1 2 2 2 2 n σ 6= σ , während < s >= σ ist. Falls aber der Mittelwert µ der Grundgesamtheit bekannt ist und daher nicht geschätzt werden braucht, ist die Schätzung s02 für die Varianz σ 2 der Grundgesamtheit eine erwartungstreue Stichprobenfunktion: s02 = 1X (xi − µ)2 =< x2 > −µ2 n (6.4) Die Varianz des Estimators s2 kann berechnet werden als: V ar(s2 ) = n−3 2 1 µ4 − µ , n n−1 2 (6.5) wobei µk das k-the zentrale Moment ist. In einfacher Weise können auch die zentralen Momente µk abgeschätzt werden als: 1 X (xi − µ̂)k n−1 (6.6) n 1 X (xi − x̄)(yi − ȳ) = (xy ¯ − x̄ȳ) n−1 n−1 (6.7) µˆk = 6.2.3 Schätzung der Kovarianz Die Grösse Vˆxy = ist eine erwartungstreue Schätzung für die Kovarianz Vxy von zwei Zufallsvariablen x und y mit unbekannten (aber geschätzten) Mittelwerten. Der Korrelationskoeffizient ergibt sich dann zu Vˆxy ρxy = (6.8) sx sy 6.3 6.3.1 Die Maximum-Likelihood Methode Die Likelihood-Funktion Es liegen n Messungen der Zufallsvariablen x vor. Die den Messwerten xi zugrundeliegende Wahrscheinlichkeitsdichte f (x|a) soll bekannt sein. Hierbei steht a für einen oder mehrere unbekannte Parameter, von denen die Wahrscheinlichkeitsdichte abhängt. Unsere Aufgabe besteht wiederum darin, die beste Schätzung â des Parameters aus den vorliegenden Messdaten zu gewinnen. 34 Die Maximum-Likelihood-Methode geht von der ein- oder mehrdimensionalen Wahrscheinlichkeitsdichte f (x|a) der gemessenen Werte aus und bildet die Likelihood-Funktion8 : L(a) = f (x1 |a) · f (x2 |a) · · · f (xn |a) = Y f (xi |a) (6.9) Die Funktion L(a) ist für eine gegebene Stichprobe eine Funktion der Parameter a und gibt die Wahrscheinlichkeit an, bei einer vorgegebenen Wahl der Parameter a gerade die Messwerte xi zu erhalten. Die Likelihood-Funktion ist aber keine Wahrscheinlichkeitsdichte in den Parametern a. Nach dem Maximum-Likelihood-Prinzip ist nun die beste Schätzung von a derjenige Wert â welcher L(a) zu einem Maximum macht, d.h. gerade die Wahrscheinlichkeit maximiert, den beobachteten Satz von Zufallsgrössen xi zu erhalten: L(a) = Maximum Z f (x|a) = 1 ∀a (6.10) (6.11) Hierbei ist wichtig, dass die Normierung von f (x|a) in jedem Schritt aufrecht erhalten werden muss. Das Maximum wird nun durch Differenzieren gewonnen, d.h. dL(a)/da = 0 oder für mehrere Parameter ak : ∂L/∂ak = 0 ∀k. In der Praxis arbeitet man mit dem Logarithmus der Likelihood-Funktion l(a) = ln L(a); sie heisst Log-Likelihood Funktion. Da der Logarithmus eine monoton anwachsende Funktion ist, hat er sein Maximum an derselben Stelle und die Bedingung wird zu: l(a) = ln L(a) = X ln f (xi |a) = Maximum. (6.12) Als Beispiel wollen wir eine Wahrscheinlichkeitsdichte betrachten, die durch f (x|a) = 1 + a(x − 0.5) mit x zwischen 0 und 1 gegeben ist. Die uns zur Verfügung stehenden Daten xi seien 0.89, 0.03, 0.5, 0.36 und 0.49. Der Log-Likelihood der obigen Funktion ist dann gegeben durch l(a) = 5 X ln(1 + a(xi − 0.5)) (6.13) i=1 und ist in Figur 6.1 dargestellt. Das Maximum des Log-Likelihoods kann graphisch zu -0.6 bestimmt werden. 6.3.2 Einfache Anwendungen der Maximum-Likelihood Methode Exponentieller Zerfall: Als Anwendung einer Maximum-Likelihood (ML) Schätzung wollen wir einen exponentiellen Zerfall betrachten. Ein instabiles Teilchen mit Lebensdauer τ zerfällt gemäss einem Exponentialgesetz: 1 f (t; τ ) = e−t/τ (6.14) τ 8 Eine deutsche Übersetzung wird dadurch erschwert, dass likelihood ebenso wie probability einfach Wahrscheinlichkeit heisst. Es gibt aber einen fundamentalen Unterschied zwischen einer echten analytischen Wahrscheinlichkeitsdichtefunktion und einer Likelihood-Funktion. Letztere ist eine Stichprobenfunktion und demnach auch eine Zufallsgrösse 35 Figure 6.1: Die Log-Likelihood Funktion aus Gleichung 6.13 Uns interessiert nun der ML-Schätzwert für die mittlere Lebensdauer τ̂ , wenn n Teilchenzerfälle mit Werten ti gemessen wurden. Die Log-Likelihood Funktion ist daher ln L(τ ) = l(τ ) = X f (ti ; τ ) = X (ln i i 1 ti − ) τ τ (6.15) Eine Maximierung bezüglich τ ergibt die ML Schätzung τ̂ : τ̂ = 1X ti n i (6.16) Als ML Schätzung ergibt sich somit der Mittelwert. Ferner kann leicht gezeigt werden, dass die ML Schätzung in diesem Fall erwartungstreu ist. Gaussverteilung: Die Gauss-Wahrscheinlichkeitsdichte ist − 1 f (xi ; µ) = √ ·e 2πσi (xi −µ)2 2σ 2 i (6.17) Um eine ML-Schätzung für den Mittelwert µ̂ zu bekommen, bilden wir wiederum die LogLikelihood Funktion: l(µ) = X i 1 1 1 (xi − µ)2 ln √ + ln 2 − 2σi2 2π 2 σi ! (6.18) Eine Ableitung nach µ und Bestimmung des Maximums ergibt: dl(µ) dµ = X xi − µ σi2 i 2 i xi /σi 1/σi2 =0 (6.19) P µ̂ = 36 (6.20) Dies ist aber genau der gewichtete Mittelwert, den wir bereits im vorigen Kapitel kennengelernt haben. Falls die xi dieselben σi besitzen vereinfacht sich natürlich die Gleichung zu P µ̂ = n1 i xi . Ferner können wir im Falle derselben σi = σ die Likelihood-Methoe benutzen, um eine Schätzung der Varianz σˆ2 zu erhalten. Die ML Methode ergibt dann 1X σˆ2 = (xi − µ̂)2 n i (6.21) Dieser ML Estimator ist jedoch nicht erwartungstreu, wie wir bereits vorher gesehen haben. Allerdings geht der bias für n → ∞ gegen null. Die unverzerrte Schätzung der Varianz ist durch 1 X s2 = (xi − µ̂)2 (6.22) n−1 i gegeben. Poisson-Verteilung: Die Log-Likelihood Funktion für die Poisson-Verteilung ist gegeben durch l(µ) = X i ln X µxi −µ xi − nµ + const e = ln µ · xi ! i (6.23) Ableiten von l(µ) nach µ und gleich null setzen ergibt als Schäztwert für den Mittelwert einer P Poisson-Verteilung µ̂ = n1 i xi . 6.3.3 Eigenschaften der Maximum Likelihood Methode Wir wollen an dieser Stelle einige wichtige Eigenschaften von Likelihood und ML Methode aufzeigen. Für allgemeine Schätzungen (nicht nur für die ML-Methode) kann gezeigt werden, dass ∂b 1 + ∂a < (â − a)2 > = V (â) ≥ R (6.24) n (∂l/∂a)2 f (x|a)dx gilt. Diese Ungleichung wird als Rao-Cramer-Frechet Grenze oder auch Informationsungleichung genannt und gibt eine untere Schranke für die Varianz einer Schätzung. Der Nenner in der Ungleichung 6.24 heisst auch die Information bezüglich des Parameters a. Je grösser demnach die Information über die Stichprobe ist, desto kleiner ist seine Varianz. Im Falle des Gleichheitszeichens besitzt der Schätzwert die kleinstmögliche Varianz. Man spricht dann von einer effizienten Schätzung. Für die ML Methode kann in den allermeisten Fällen folgendes gezeigt werden: Wenn es einen effizienten Schätzwert für ein gegebenes Problem gibt, dann wird er durch die ML Methode gefunden. Dieser Schäztwert besitzt dann die kleinstmögliche Varianz gemäss der Rao-Cramer-Frechet Schranke, d.h. die Varianz des Schätzwertes ist durch den rechten Ausdruck der Gleichung 6.24 gegeben. Man sagt dann auch, dass der Schätzwert die minimale Varianz hat und spricht von einer Minimalschätzung. Wie wir bereits im Falle der Varianzschäztung bei der Gaussverteilung gesehen haben, sind die ML-Schätzungen jedoch nicht immer erwartungstreu bzw. unverzerrt. Dies kann nicht oft genug betont werden. Erst im Grenzwert n → ∞ wird die ML-Schätzung auch erwartungstreu, d.h. der bias verschwindet. Man spricht daher bei der ML-Methode von einer asymptotisch unverzerrten Schätzung. Ferner liefert die ML Methode gewöhnlicherweise 37 konsistente Schätzwerte, d.h. limn→∞ â = a. Die Tatsache, dass nicht alle ML Schätzungen erwartungstreu sind, hat etwas mit der Invarianz der ML Schätzwerte zu tun, wenn eine Parametertransformation durchgeführt wird. Dies bedeutet, dass es für die ML Methode keinen Unterschied macht, ob man den Parameter a oder eine Funktion f (a) schätzt, d.h. ˆ = f (â). f (a) 6.3.4 Fehlerberechnung bei der ML Methode Wir beginnen mit dem Fall eines Parameters und entwickeln die (negative) Log-Likelihood Funktion um a = â: 1 d2 F · (a − â)2 + · · · 2 da2 ! ! 2 1 d2 F (a − â) L(a) = const · exp − · (a − â)2 = const · exp − 2 da2 2σ 2 − ln L(a) = F (a) = F (â) + (6.25) (6.26) Die Likelihood-Funktion hat in dieser Grenze in der Nähe des Maximums die Form einer Gauss-Verteilung. Durch den Vergleich mit den Exponenten findet man: σ(â) = d2 F da2 a=â !−1/2 (6.27) Die negative Log-Likelihood-Funktion hat die Form einer Parabel und ihre zweite Ableitung ist eine Konstante. Der Wert von F (a) um das Minimum bei a = â ± n · σ ist 1 F (â ± n · σ) = F (â) + n2 2 (6.28) Dies bedeutet, dass der Log-Likelihood für ±1σ um ±0.5 vom Maximum abgefallen ist und für ±2 (3)σ entsprechend um ±2 (9/2). Damit können die Fehler eines Schätzwerts â leicht aus einem Graphen der Log-Likelihood Funktion bestimmt werden. Die Gesamtwahrscheinlichkeit, die in den Konfidenzintervallen â ± σ oder allgemein â ± nσ enthalten ist, kann aus der Gauss-Verteilung berechnet werden. Wenn die tatsächliche Log-Likelihood-Funktion ein parabolisches Verhalten aufweist, kann somit die Standardabweichung leicht aus obiger Gleichung bestimmt werden. Ist der Grenzfall N → ∞ noch nicht erreicht, ist die LikelihoodFunktion noch nicht gauss-förmig und die Log-Likelihood-Verteilung daher nicht parabolisch. Man muss dann eine nichtlineare Transformation der Variablen a in eine Variable z = z(a) suchen, so dass F (z) ein parabolisches Verhalten aufweist. Erst wenn diese Transformation gefunden ist, kann man mit dem obigen Verfahren eine Standardabweichung σz von z bestimmen. Wegen der Invarianzeigenchaft der ML Schätzungen ist die beste Schätzung ẑ = z(â). Ferner gelten folgende Identitäten: 1 = F (â) + 2 1 F (ẑ − σz ) = F (ẑ) + = F (â) + 2 F (ẑ + σz ) = F (ẑ) + 38 1 = F (â) + σr 2 1 = F (â) − σl 2 wobei σl und σr die links- und rechtsseitigen Standardabweichungen für den Parameter a r sind. Das Resultat einer Likelihood-Anpassung wird dann in der Form x+σ −σl angegeben. Eine oft in der Praxis benutzte Methode die Standardabweichung oder Varianz eines Parameters abzuschätzen, ist die MC-Methode. Dabei wird eine grosse Anzahl von Experimenten simuliert und der ML-Schätzwert jedesmal berechnet. Aus den so ermittelten Schätzwerte der MC-Experimente kann dann die Varianz berechnet werden. Dazu benutzt man am besten den unbiased estimator s2 der Varianz aus Gleichung 6.3. Als ”wahrer” Wert von a zur Erzeugung der MC-Ereignisse kann der aus den Daten gewonnene ML-Schätzwert benutzt werden. Im Falle mehrerer Parameter a1 , a2 , . . . , am ist die Likelihood-Funktion durch L(a1 , a2 , . . . , an ) = n Y f (xi ; a1 , a2 , . . . , am ) (6.29) i=1 gegeben. Entwickelt man die negative Log-Likelihood-Funktion um ihr Minimum bei â, so erhält man, da bei a = â die ersten Ableitungen verschwinden: F (a1 , . . . , am ) = F (â1 , . . . , âm ) + = F (â1 , . . . , âm ) + 1 X ∂2F (ai − âi )(ak − âk ) + · · · 2 i,k ∂ai ∂ak (6.30) 1X Gik (ai − âi )(ak − âk ) + · · · 2 i,k (6.31) Asymptotisch nähert sich die Likelihood-Funktion L(a) = exp(−F (a)) einer Gauss-Wahrscheinlichkeitsdichte für die Variablen âi an. Die Kovarianzmatrix des Vektors a ist dann gegeben durch V Gik = G−1 ∂2F = ∂ai ∂ak (6.32) (6.33) gewonnen am Minimum â. Im Falle von zwei Parametern zeichnet man Konturlinien als Linien gleicher Likelihood-Werte F (a) = F (â) + 1/2r2 . Im Falle grosser Datenmengen, d.h. n → inf ty wird die Funktion eine zweidimensionale Gaussverteilung und die Konturlinien für ∆F = 0.5 entsprechen Ellipsen deren grossen Halbachsen die 1σ Fehler repräsentieren. Als Beispiel schauen wir uns erneut die Gaussverteilung an, um die beiden Parameter Standardabweichung σ und Mittelwert µ mittels der ML-Methode abzuschätzen. Die LogLikelihood-Funktion ist ln L = X i 1 1 1 (xi − µ)2 ln √ + ln 2 − 2σi2 2π 2 σi ! (6.34) Um die Varianzen von µ und σ zu berechnen werden die zweiten Ableitungen an den Stellen µ = x̄ und σ 2 = x¯2 − µ2 gebildet. Dies ergibt dann ∂ 2 ln L > = −N/σ 2 ∂µ2 ∂ 2 ln L < > = −2N/σ 2 ∂σ 2 P ∂ 2 ln L 2 < xi − µ > < > = − =0 ∂µ∂σ σ3 < 39 Da die Matrix diagonal, kann die Inversion leicht durchgeführt werden. Die Kovarianz ist null und es ergeben sich folgende Ausdrücke: ∂ 2 ln L −1 > = σ 2 /N ∂µ2 ∂ 2 ln L −1 V (σ) = − < > = σ 2 /2N ∂σ 2 V (µ) = − < 6.3.5 Erweiterte Maximum-Likelihood-Methode In der Standard ML-Methode müssen die Wahrsscheinlichkeitsdichten korrekt auf eins normiert sein. In der Methode des erweiterten ML (EML) wird diese Bedingung aufgehoben und benutzt anstelle ein Integral über eine Wahrscheinlichkeitsdichte deren Normierung nicht festgelegt ist. Dies ist zum Beispiel bei Problemen der Fall, wenn die mittlere Anzahl von Ereignissen ν bei Zählexperimenten selbst ein Parameter ist, den es zu bestimmen gilt. Die EML Likelihood-Funktion ist dann gegeben durch L(ν, a) = n n ν n −ν Y e−ν Y f (xi ; a) = νf (xi ; a) e n! n! i=1 i=1 (6.35) Dies ist die normale Likelihood-Funktion mit einer korrekt normierten Wahrscheinlichkeitsdichte f (xi ; a) multipliziert mit der Poisson-Wahrscheinlichkeit n Ereignisse bei ν erwarteten zu erhalten. Wir unterscheiden nun zwei Fälle: Im Fall 1) soll der Parameter ν selber von a abhängen und im Fall 2) nicht. Zunächst nehmen wir Fall 1) an. Die EML Log-Likelihood Funtkion kann dann geschrieben werden als ln L(a) = n ln ν(a) − ν(a) + n X ln f (xi ; a) (6.36) i=1 = −ν(a) + n X ln(ν(a)f (xi ; a) (6.37) i=1 wobei additive Terme die nicht von den Parametern abhängen weggelassen wurden. Durch Berc̈ksichtigung des Poisson-Terms in der EML-Funktion werden beim Abschätzen der Parameter â sowohl Informationen aus den xi als auch von n benutzt, so dass die resultierende Varianz in der Regel kleiner wird. Zur Anschauung betrachten wir eine Teilchenreaktion, bei der die erwartete Anzahl von Ereignissen durch einen Reaktionsquerschnitt σ, eine Luminosität L und eine Nachweiswahrscheinlichkeit gegeben ist: ν = σ · L · . Sowohl der Reaktionsquerschnitt σ als auch die zur Beschreibung benutze Ereignisvariable x mögen nun von einer ganzen Reihe von Parametern wie Teilchenmassen oder Kopplungen abhängen. Die Standardabweichung der mit der EML-Methode geschätzen Parameter entspricht nun den Fluktuationen der Schätzwerte, die man erhielte, wenn man zahlreiche Experimente durchführen würde, bei denen die Luminosität und nicht die Anzahl der beobachtbaren Ereignisse festhalten wird. Im anderen Fall existiert kein funktionaler Zusammenhang zwischen ν und a. Die Ableitung der Gleichung 6.35 und nullsetzen ergibt dann als Schätzwert schlicht ν̂ = n, wie es zu erwarten ist. Durch Gleichsetzen der Ableitung bezüglich den ai von Gleichung 6.35 erhalten 40 wir als Schätzwerte für âi dasselbe wie in der normalen ML-Methode. Trotzdem wäre die Varianz der âi jetzt grösser, da sowohl â als auch n Quellen von statistischen Unsicherheiten sind. 6.3.6 Binned Maximum Likelihood Zur Bildung der Likelihood-Funktion wird normalerweise auf alle zur Verfügung stehenden Datenpunkte xi zurückgegriffen. Die ML-Methode hat den Vorteil, dass sie unbinned ist und daher im Prinzip kein Informationsverlust durch Einteilung der Daten in bins (Klassenintervalle) entsteht. Existieren aber grosse Datenmengen, ist es numerisch vorteilhafter, die Daten in Klassenintervalle einzuteilen und in Form von Histogrammen zu präsentieren. Wir nehmen an, dass die Zufallsvariablen xi gemäss einer Wahrscheinlichkeitsdichte f (xi ; a) verteilt seien. Unsere Aufgabe besteht nun darin, die Wahrscheinlichkeitsdichte f (xi ; a) an die Zahl der Datenpunkte in jedem Klassenintervall i anpassen. Der Erwartungswert ν = (ν1 , . . . , νN ) für die Anzahl der Einträge pro Bin i ist gegeben durch: Z νi = ntot = xmax i xmin i f (x; a)dx (6.38) Hierbei sind xmin und xmax die Grenzen des Bins i. Wir können das Histogramm als eine i i Art Einzelmessung eines N -dimensionalen Zufallsvektors ansehen für den die kombinierte Wahrscheinlichkeitsdichte durch eine multinomiale Verteilung gegeben ist: fkomb (n; ν) = ntot ! n1 ! · · · nN ! ν1 ntot n ··· 1 νN ntot n (6.39) N Dadurch drücken wir die Wahrscheinlichkeit in bin i durch den Erwartungswert νi dividiert durch die gesamte Anzahl ntot der Einträge aus. Der Logarithmus der kombinierten Wahrscheinlichkeit ergibt nun die Log-Likelihood Funktion (hierbei sind Terme, die nicht von den interessanten Parametern abhängen weggelassen): l(a) = N X ni ln νi (a) (6.40) i=1 Nun werden die Schätzwerte für â wie gewöhnlich durch Maximierung von l(a) gefunden. Im Limit kleiner bins oder sehr grosser N wird die Likelihood-Funktion dieselbe wie im gewöhnlichen (unbinned) ML Fall ohne Klassenintervalleinteilung. Dadurch ist die binned Likelihood-Funktion universell verwendbar, auch wenn die Einträge in einigen bins null sind. 6.3.7 Kombination von Messungen mit der ML Methode In diesem Kapitel wollen wir uns kurz damit beschäftigen, wie man mittels der ML Methode Messungen miteinander kombiniert. Angenommen wir haben einen Satz von n gemessenen Datenpunkten mit Wahrscheinlichkeitsdichte f (x; a). Ferner liegt ein zweiter Datensatz (eines zweiten Experiments) mit m gemessenen Datenpunkten yi vor, die gemäss einer Wahrscheinlichkeitsdichte g(y; a) verteilt sein sollen. Die Wahrscheinlichkeitsdichte g(y; a) kann zwar eine andere andere funktionale Form als f habe, sie soll aber dennoch vom selben Parameter a abhängen. Als Beispiel kann der Parameter a eine Teilchenmasse sein. 41 Die beiden Experimenten können nun zusammen als ein Einzel-Experiment interpretiert werden und ihre kombinierte Likelihood-Funktion ist dann: L(a) = n Y f (xi ; a) · i=1 m Y g(yi ; a) = Lx (a) · Ly (a) (6.41) i=1 Die Likelihood-Gesamtfunktion ist also das Produkt der Einzellikelihood-Funktionen. Alternativ ist der kombinierte Log-Likelihood die Summe der einzelnen Log-Likelihoods: ln L(a) = ln Lx (a) + ln Ly (a). Solange also die Likelihood-Funktionen von Einzelexperimenten bekannt sind, können wir die Gesamtfunktion auf einfache Weise konstruieren, um dann den ML Schätwert des Parameters a zu bestimmen. Wenn die einzelnen Likelihood-Funktionen nicht bekannt sind, sondern nur die Schätzwerte der Parameter a, namentlich âf und âg , die ihrerseits wieder Zufallsvariablen mit Wahrscheinlichkeitsdichten f (âf ; a) und g(âg ; a) sind, können die beide Schätzwerte wiederum als Ergebnis eines kombinierten Experimentes aufgefasst werden. Solange die beiden Schätzwerte unabhängig sind, ist ist die Log-Likelihood-Funktion gegeben durch: ln L(a) = ln f (âf ; a) + ln g(âg ; a) (6.42) Da für grosse Datenmengen die Wahrscheinlichkeitsdichten f (âf ; a) und g(âg ; a) als Gauss verteilt angenommen werden können und die Varianz-Abschätzungen V̂ (âf ) und V̂ (âg ) der Einzelmessungen vorliegen, ergeben sich mittels der ML-Methode wiederum folgende Ausdrücke für die beste Schätzung â und seine Varianz V̂ (â) aus den beiden kombinierten Messungen: â = V̂ (â) = âf /σ̂â2f + âg /σ̂â2g 1/σ̂â2f + 1/σ̂â2g 1/σ̂â2f 1 + 1/σ̂â2g D.h. es ergibt sich wieder die Gleichung für den gemittelten Mittelwert und seine Varianz. Natürlich kann die obigen Gleichung auch auf beliebig viele Messungen verallgemeinert werden. 42 7 Methode der kleinsten Quadrate - Least Square 43 8 Vertrauensintervalle 44 9 Hypothesentests 45 10 Blindstudien 46 11 Parametrisierung von Daten 11.1 Orthogonale Polynome 11.2 Splines 47 12 Entfaltung 48