Praktische Datenanalyse in der Experimentalphysik (Vorlesungsnummer 2563) Modulcode: PHY232, Kreditpunkte 2 Dozenten: Frank Lehner und Christian Regenfus Art und Ort der Veranstaltung: Vorlesung mit Übungen (Mittwoch 14-17h, 36J23) Zielgruppe: Studierende ab 3. Semester Physik Einordnung: Die Vorlesung soll die Grundlagen auf dem Gebiet der statistischen Behandlung und Interpretation von Datenmengen legen und einen Ausblick auf aktuelle statistische Methoden der Datenanalyse in der Teilchenphysik geben. Die Übungen werden mit Matlab behandelt und dienen zur Vertiefung. Der vorgehende Besuch der Datenanalyse Vorlesung (PHY231) im Sommersemester ist empfehlenswert, aber nicht Bedingung. Grundkenntnisse: Mathematische Grundkenntnisse wie sie in den ersten Semestern des Grundstudiums erworben werden. Dazu gehören Vektor- und Matrizenrechnungen, Differential- und Integralrechnung. Eine Erfahrung im Umgang mit Computern und insbesondere mit Matlab ist erwünschenswert. Leistungsnachweis: Beteiligung an Präsenzübungen sowie 50% erreichte Punktzahl bei der Klausur. Literatur: • R. Barlow: ”Statistics: A Guide to the Use of Statistical Methods in the Physical Science” Wiley Verlag. • B. Roe: ”Probability and Statistics in Experimental Physics.” Springer Verlag. • V. Blobel und E. Lohrmann: ”Statistische und numerische Methoden in der Datenanalyse.”, Teubner Verlag. • H. Pruys: http://www.physik.unizh.ch/people/pruys/Datenanalyse.html 1 Contents 1 Grundlegende Konzepte der Wahrscheinlichkeit 1.1 Zufälligkeit . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1.2 Wahrscheinlichkeit . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1.2.1 Definition über Häufigkeiten (Frequentistendefinition) . . . . 1.2.2 Mathematische Definition . . . . . . . . . . . . . . . . . . . . 1.2.3 Subjektive Wahrscheinlichkeit oder Definition der Bayesianer 1.2.4 Prior-Wahrscheinlichkeit . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1 1 1 2 2 3 3 2 Definitionen und Datenbeschreibung 2.1 Ereignisraum und Datentypen . . . . . . . . . . . . . . . . . 2.2 Weitere Definitionen . . . . . . . . . . . . . . . . . . . . . . 2.2.1 Die Verteilungsfunktion . . . . . . . . . . . . . . . . 2.2.2 Die diskrete Wahrscheinlichkeit . . . . . . . . . . . . 2.2.3 Die Wahrscheinlichkeitsdichtefunktion . . . . . . . . 2.3 Kombination von Wahrscheinlichkeiten und Bayes’ Theorem 2.4 Histogramme . . . . . . . . . . . . . . . . . . . . . . . . . . 2.5 Mittel- und Erwartungswerte . . . . . . . . . . . . . . . . . 2.6 Die Varianz und Standardabweichung . . . . . . . . . . . . 2.7 Höhere Momente . . . . . . . . . . . . . . . . . . . . . . . . 2.8 Kovarianzen . . . . . . . . . . . . . . . . . . . . . . . . . . . 2.9 Nützliche Ungleichungen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5 5 5 5 5 5 5 7 7 9 12 12 15 3 Wahrscheinlichkeitsverteilungen 3.1 Diskrete Verteilungen . . . . . . . . . . . . . 3.1.1 Kombinatorik . . . . . . . . . . . . . . 3.1.2 Bernoulli und die Binomial-Verteilung 3.1.3 Multinomialverteilung . . . . . . . . . 3.1.4 Poisson-Verteilung . . . . . . . . . . . 3.2 Kontinuierliche Verteilungen . . . . . . . . . . 3.2.1 Gauss- oder Normalverteilung . . . . . 3.2.2 χ2 -Verteilung . . . . . . . . . . . . . . 3.2.3 Log-Normal-Verteilung . . . . . . . . . 3.2.4 Gamma-Verteilung . . . . . . . . . . . 3.2.5 Student-Verteilung . . . . . . . . . . . 3.2.6 F-Verteilung . . . . . . . . . . . . . . 3.2.7 Weibull-Verteilung . . . . . . . . . . . 3.2.8 Cauchy-Verteilung . . . . . . . . . . . 3.2.9 Uniforme Verteilung . . . . . . . . . . 3.3 Charakteristische Funktion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 16 16 16 16 17 19 21 21 23 23 24 24 24 25 25 25 26 4 Fehler 4.1 Der zentrale Grenzwertsatz . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4.2 Arbeiten mit Fehlern . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4.2.1 Averaging is good for you . . . . . . . . . . . . . . . . . . . . . . . . . 28 28 29 29 i . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 29 30 30 30 32 5 Monte Carlo, eine Methodik aus dem Spielkasino 5.1 Zufallsgeneratoren . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5.2 Tests von Zufallsgeneratoren . . . . . . . . . . . . . . . . . . . . . . . 5.3 Beliebig verteilte Zufallszahlen . . . . . . . . . . . . . . . . . . . . . 5.3.1 Umkehrfunktion der kumulativen Verteilung . . . . . . . . . . 5.3.2 Brute Force Methode . . . . . . . . . . . . . . . . . . . . . . 5.3.3 Speziell verteilte Zufallszahlen . . . . . . . . . . . . . . . . . 5.4 Praktisches Vorgehen . . . . . . . . . . . . . . . . . . . . . . . . . . . 5.5 Monte Carlo Integration . . . . . . . . . . . . . . . . . . . . . . . . . 5.5.1 Integral als Summe von Funktionswerten an zufälligen Stellen 5.5.2 Varianzreduzierende Methoden . . . . . . . . . . . . . . . . . 5.5.3 Vergleich mit numerischer Integration . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 34 35 38 39 39 40 41 43 43 44 44 45 6 Stichproben und Schätzungen 6.1 Eigenschaften von Schätzungen . . . . . . . . . . . . . . . . . . . . 6.2 Stichprobenfunktionen für kontinuierliche Verteilungen . . . . . . . 6.2.1 Schätzung des Mittelwerts . . . . . . . . . . . . . . . . . . . 6.2.2 Schätzung der Varianz . . . . . . . . . . . . . . . . . . . . . 6.2.3 Schätzung der Kovarianz . . . . . . . . . . . . . . . . . . . 6.3 Die Maximum-Likelihood Methode . . . . . . . . . . . . . . . . . . 6.3.1 Die Likelihood-Funktion . . . . . . . . . . . . . . . . . . . . 6.3.2 Einfache Anwendungen der Maximum-Likelihood Methode 6.3.3 Eigenschaften der Maximum Likelihood Methode . . . . . . 6.3.4 Fehlerberechnung bei der ML Methode . . . . . . . . . . . . 6.3.5 Erweiterte Maximum-Likelihood-Methode . . . . . . . . . . 6.3.6 Binned Maximum Likelihood . . . . . . . . . . . . . . . . . 6.3.7 Kombination von Messungen mit der ML Methode . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 47 47 47 47 48 48 48 48 49 51 52 54 55 55 7 Weitere Schätzmethoden: Kleinste Quadrate - Least Square 7.1 Die Least Square Methode . . . . . . . . . . . . . . . . . . . . . 7.1.1 Anpassen einer Geraden . . . . . . . . . . . . . . . . . . 7.1.2 Berücksichtigung von systematischen Fehlern . . . . . . 7.1.3 Geradenanpassung bei Fehlern in beiden Variablen . . . 7.2 Das Anpassen von gebinnten Daten und die χ2 -Verteilung . . . 7.2.1 Lineare kleinste Quadrate und Matrix-Darstellung . . . 7.2.2 Nichtlineare kleinste Quadrate . . . . . . . . . . . . . . 7.3 Resampling-Techniken . . . . . . . . . . . . . . . . . . . . . . . 7.3.1 Jackknife . . . . . . . . . . . . . . . . . . . . . . . . . . 7.3.2 Bootstrap . . . . . . . . . . . . . . . . . . . . . . . . . . 7.4 Nichtparametrische Dichteschätzung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 57 57 57 59 60 60 62 64 64 65 65 66 4.3 4.2.2 Mittelwertbildung durch Gewichtung . . . 4.2.3 Fehlerfortpflanzung . . . . . . . . . . . . . 4.2.4 Funktionen einer Veränderlichen . . . . . 4.2.5 Funktionen mit meherern Veränderlichen Systematische Fehler . . . . . . . . . . . . . . . . ii . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7.4.1 7.4.2 7.4.3 7.4.4 Allgemeine Kernschätzung . . . . Abschätzung der Genauigkeit der Optimale Wahl der Bandbreite . Adaptierte Kernschätzung . . . . . . . . . . . . . Kernschätzung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 66 68 70 71 8 Konfidenzintervalle 8.1 Klassisches Konfidenzintervall . . . . . . . . . . . . . . . . . 8.1.1 Konfidenzintervall in einer Dimension . . . . . . . . 8.1.2 Vertrauensintervalle für Gauss-verteilte Schätzwerte 8.1.3 Vertrauensintervalle in der Poissonstatistik . . . . . 8.2 Konfidenzlimits auf Basis der Likelihood-Funktion . . . . . 8.3 Konfidenzlimits im Bayes’ Ansatz . . . . . . . . . . . . . . . 8.3.1 Die Methode . . . . . . . . . . . . . . . . . . . . . . 8.3.2 Bemerkungen zum Prior . . . . . . . . . . . . . . . . 8.4 Vertrauensintervalle und systematische Fehler . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 72 72 72 73 74 77 78 78 79 80 9 Hypothesentests 9.1 Grundbegriffe und Ablauf eines Tests . . . . . . . 9.2 Verteilungsgebundene Hypothesentests . . . . . . 9.3 Tests einer einzelnen Hypothese - Goodness of fit 9.3.1 Der χ2 -Test . . . . . . . . . . . . . . . . . 9.3.2 Kolmogorov-Smirnov Test . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 82 82 83 83 83 83 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 10 Blindstudien 85 11 Parametrisierung von Daten 11.1 Orthogonale Polynome . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11.2 Splines . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 86 86 86 12 Entfaltung 87 iii 1 Grundlegende Konzepte der Wahrscheinlichkeit There are three lies: lies, damned lies and statistics. (Benjamin Disraeli) Einige grundlegende Konzepte, die für die Statistik wichtig sind, sollen erläutert werden: • Zufälligkeit • Wahrscheinlichkeitsbegriffe: – Posteriori-Wahrscheinlichkeit oder Frequentisten-Definition – Axiomatische Definition – Subjektive Wahrscheinlichkeit – Prior-Wahrscheinlichkeit 1.1 Zufälligkeit Ein guter Überblicksartikel über Zufälligkeit in klassischen System ist in J. Fords Artikel “How random is a coin toss?” in der Zeitschrift Physics Today 40, April 1983 gegeben. Ich halte mich mit den folgenden Überlegungen eng an seiner Argumentation. Das klassische Beispiel für Zufälligkeit ist der Münzwurf mit dem Ereignisausgang Kopf oder Zahl. Da es ein klassisches mechanisches System ist können wir den Ereignisausgang theoretisch mit Bewegungsgleichungen beschreiben. Wir kann aber der Aspekt der Zufälligkeit aus einem im Prinzip deterministischen System enstehen? Stellen wir uns daher ein Computerprogramm vor, das die Ereignisfolgen eines Münzwurfes berechnen soll. Die Gesetze des Wurfes werden in Bewegungsgleichungen beschrieben, die gewisse Anfangsbedingungen benötigen. Je mehr Münzwürfe wir vorhersagen wollen, um so genauer müssen die Anfangsbedingungen festgelegt werden, obwohl die Diffferentialgleichungen eigentlich dieselben bleiben. Daher wird ab einer bestimmten Genauigkeit die Länge des Programms durch die Anzahl der bits der Anfangsbedingungen bestimmt. Wenn aber die Anzahl der bits in den Anfangsbedingungen die Zahl der Ausgabebits übersteigt, wird das Computerprogramm unbrauchbar, um zukünftige Ergebnisse vorhersagen zu können. Wir verlangen daher, um eine vernünftige Vorhersagekraft zu erhalten, dass die Anzahl der bits im Computerprogramm geringer ist, als die Anzahl der bits in der Ausgabe. Tatsächlich verlaufen viele physikalische Phänomene nach exponentiellen Gesetzen. Wenn es also einen exponentiellen Anstieg in der Lösung unseres Problems gibt, müssen die Anfangsbedingungen extrem genau spezifiziert werden, so dass sehr schnell die Anzahl der bits in den Anfangsbedingunen die Ausgabebits für die vorhergesagte Ereignisfolge Kopf oder Zahl übersteigt. Typischerweise steigt die bit-Anzahl in den Anfangsbedingungen mit n, während die Länge der vorhergesagten Ausgabe des Ereignisses nur mit log n wächst. Aus diesem Grund kann ein Zufallsprozess aus einem klassischen deterministischen System entstehen. 1.2 Wahrscheinlichkeit Es gibt mehrere Definitionen bzw Interpretationen der Wahrscheinlichkeit und des Wahrscheinlichkeitsbegriffes. Am formal strengsten ist natürlich die mathematische Definition, die eine 1 rein axiomatische Definition des Wahrscheinlichkeitsbegriffes beinhaltet und damit prinzipiell Regeln zur Manipulationen mit Wahrscheinlichkeiten beinhaltet. Über die eigentliche Herleitung und Interpretation von Wahrscheinlichkeitsaussagen aus Daten (statistical interference) gibt es prinzipiell unterschiedliche Auffassungen, die sich in der Interpretation des Wahrscheinlichkeitsbegriffs unterscheiden: Das sind zum einen die Frequentisten und die Bayesianer1 . Wir werden also lernen, dass Wahrscheinlichkeitsrechnungen im streng formalen Sinn Mathematik sind, ihre Anwendungen und Interpretationen hingegen eher den empirischen Wissenschaften zuzuordnen sind. 1.2.1 Definition über Häufigkeiten (Frequentistendefinition) Die populärste Definition ist empirischer Natur und basiert auf dem Häufigkeitsbegriff, bzw. auf dem Grenzwert von relativen Häufigkeiten. Wenn wir N identische Versuche machen, bei denen das Ereignis E auftreten kann, und dabei n mal das Ereignis E tatsächlich auftritt, ordnet man dem Ereignis E die Wahrscheinlichkeit p(E) durch die relative Häufigkeit des Auftretens zu: n (1.1) N →∞ N Man nennt diese Definition auch die objektive Posteriori-Wahrscheinlichkeit, da die Wahrscheinlichkeit im nachhinein, d.h. nachdem die Versuchsausgänge bekannt sind, definiert wird. Das Häufigkeits-Konzept ist unglaublich nützlich in der Praxis, hat aber einige Probleme: p(E) = lim 1. Der Grenzwert existiert im strengen mathematischen Sinne nicht. Das liegt daran, dass es keine deterministische Regel gibt die den Ausgang des Versuches n and den Ausgang des Versuches n + 1 knüpft. Die Zufälligkeit der Versuche ist doch gerade unsere Bedingung und ein Grenzwert kann daher im strengen Sinne nicht abgeleitet werden. 2. Wie erhalten wir N identische Versuche? Langt es, wenn sie nur ähnlich sind? Nach jedem Münzwurf nutzt sich die Münze etwas ab und sie ist beim i + 1-ten Wurf nicht mehr identisch zum vorherigen Wurf i. 3. Niemand kann unendlich viele Versuchen durchführen. Wann konvergiert die Serie zum Grenzwert? 1.2.2 Mathematische Definition Sei S = E1 , E2 , E3 , . . . ein Satz möglicher Ereignisse eines Zufallsexperiments. Die Ereignisse sind exklusiv, wenn sie nicht gleichzeitig als Resultat eines Zufallsexperimentes auftreten können. Für jedes Ereignis Ei gibt es eine reelle Wahrscheinlichkeit p(Ei ), die folgende Axiome2 (Kolmogorov) erfüllt: • p(Ei ) ≥ 0 • p(Ei or Ej ) = p(Ei ) + p(Ej ), wenn Ei und Ej exklusiv sind 1 Thomas Bayes, Britischer Geistlicher, 1702-1761. Nach ihm ist das sogenannte Bayes’ Theorem benannt. die Axiome sind in der einen oder anderen Form in vielen Mathematikbüchern zu finden. Wir begnügen uns hier mit einer vereinfachten Version. 2 2 • P p(Ei ) = 1, wobei die Summe über alle möglichen exklusiven Ereignisse läuft. Daraus kann sofort gefolgert werden, dass p(Ei ) ≤ 1. Diese axiomatische Definition ist zwar schön aber leider in der Praxis bedeutungslos. Die Axiome sagen uns nicht worum es bei Wahrscheinlichkeiten geht, was die Wahrscheinlichkeit bedeutet, und welche Interpretationen damit einhergehen. 1.2.3 Subjektive Wahrscheinlichkeit oder Definition der Bayesianer In der Schule der Bayesianer ist die Wahrscheinlichkeit definiert als eine Zahl, die die Plausabilität oder Glaubwürdigkeit einer Feststellung bzw. den Grad der Überzeugtheit von dieser Feststellung misst. Es macht daher für die Bayesianer Sinn, nach einer Wahrscheinlichkeit einer Hypothese zu fragen, was im Gegensatz zur Frequentisten-Definition der Wahrscheinlichkeit eigentlich keine Bedeutung hat. Die Bayes-Schule benutzt dieselben kombinatorischen Regeln im Umgang mit Wahrscheinlichkeitswerten an wie die Frequentisten-Schule. Der grosse Unterschied liegt darin, dass die Frequentisten Wahrscheinlichkeit als einen Zustand der Natur interpretieren, während die Bayesianer Wahrscheinlichkeit als einen Zustand unseres Wissens ansehen, so dass Wahrscheinlichkeiten auch unvermeidbar subjektiv werden. Demnach ist die Wahrscheinlchkeit eines Ereignisses p(E) von der dem Beobachter verfügbaren Information I über das Ereignis abhängig. Die Funktion p(E) ist also keine echte intrinsische Funktion des Ereignisses, sondern hängt auch vom Wissen und der Information des Beobachters ab. Erst wenn alle Beobachter dieselbe Information zur Verfügung haben, kann man von einer objektiven Wahrscheinlichkeit sprechen. Um die Begriffswelt im Bayesianer besser zu verstehen, folgen wir dem Beispiel aus G. D’Agostini: A Bayesian Primer: Was ist die Wahrscheinlichkeit, dass ein Stickstoffmolekül bei Raumtemperatur eine Geschwindigkeit zwischen 400 und 500 m/s hat? Die Antwort ist einfach: Wir nehmen die Maxwell-Boltzmann Verteilung und integrieren, um eine Zahl zu bekommen. Was ist aber, wenn wir fragen: Ich gebe Euch einen Behälter, eine Flasche mit Stickstoff sowie einen Detektor, der Geschwindigkeiten messen kann. Ihr müsst aber den Versuch selber aufbauen. Was ist jetzt die Wahrscheinlichkeit, dass das erste Molekül, welches vom Detektor gemessen wird, seine Geschwindigkeit zwischen 400 und 500 m/s hat? Jeder, der auch nur minimale Experimentiererfahrung hat, würde mit einer Antwort zögern. Man würde am Experiment erst einmal kleinere Studien und Überprüfungen durchführen. Danach würde man vielleicht eine Antwort präsentieren. Und nachdem 10 Messungen durchgeführt wurden, könnte die Antwort auf die Frage nach der Wahrscheinlichkeit vielleicht anders lauten. Die Grundidee ist also, dass die Wahrscheinlichkeit einer Hypothese ein Mass für die subjektive Überzeugtheit oder für den degree of belief ist. Dieses Überzeugtheitsmass kann durch spätere experimentelle Messungen verändert werden. 1.2.4 Prior-Wahrscheinlichkeit Die objektive Prior-Wahrscheinlichkeit wurde zuerst von Laplace eingeführt. Sie ist einfach der Quotient aus der Anzahl der dem Zufallsereignis E günstige Fälle, N (E), und der Anzahl der überhaupt möglichen und als gleichmöglich erachteten Fälle, N : P (E) = 3 N (E) N (1.2) Die Prior-Wahrscheinlichkeit ist die Wahrscheinlichkeit eines experimentellen Ereignisses, die vor dem eigentlichen Experimentieren bestimmt oder abgeschätzt wird. Zum Beispiel wäre 1/6 dir richtige a priori Wahrscheinlichkeit für ein Würfelexperiment, dass die Augenzahl 4 auftaucht. Die Prior-Wahrscheinlichkeit kann in der Mathematik auch als geometrische Wahrscheinlichkeit aufgefasst werden: Sei E ein Gebiet in der Ebene (oder allgemein in einem Raum) mit endlichem Flächeninhalt FE und G ein Teilgebiet oder Teilmenge mit Flächeninhalt FG . Die (geometrische) Wahrscheinlichkeit P (G) des Ereignisses, dass ein zufällig auf E geworfener Punkt in G fällt, ist: P (G) = 4 FG FE (1.3) 2 Definitionen und Datenbeschreibung Nachfolgend einige Definitionen, die zum allgemeinen Sprachgebrauch der Statistik gehören. 2.1 Ereignisraum und Datentypen Der Ereignisraum ist die Menge aller möglichen Ausgänge eines Experimentes. Eine Variable, die theoretisch jeden beliebigen Wert zwischen zwei gegebenen Werten im Ereignisraum annehmen kann, wird stetige oder kontinuierliche Variable genannt. Andernfalls wird sie diskrete Variable genannt. Beispiel: Die Anzahl der Medaillen, die ein Land bei den olympischen Spielen holt, ist eine diskrete Variable. Die Weite beim Speerwerfen ist natürlich eine kontinuierliche Variable. Die Daten, die durch diskrete oder stetige Variablen beschrieben werden können, heissen diskrete bzw stetige Daten. 2.2 2.2.1 Weitere Definitionen Die Verteilungsfunktion Wir definieren sie zuerst im eindimensionalen Raum, d.h. x sei der 1-dimensionale Ereignisraum. Die Verteilungsfunktion F (x0 ) ist die Wahrscheinlichkeit, dass bei einer Messung von x ihr Wert kleiner oder gleich x0 ist. Ferner gilt natürlich F (−∞) = 0 und F (+∞) = 1. Die Funktion F ist eine nicht-abfallende Funktion von x. Sie darf stetig oder unstetig sein, muss aber glatt im Grenzwert ±∞ verlaufen. 2.2.2 Die diskrete Wahrscheinlichkeit Für einen diskrete Ereignisraum definieren wir eine Wahrscheinlichkeit Pr , so dass der AusP gang des Ereignisses r die Wahrscheinlichkeit Pr besitzt. Natürlich ist r Pr = 1. 2.2.3 Die Wahrscheinlichkeitsdichtefunktion Die Wahrscheinlichkeitsdichtefunktion f ist einfach f (x) = dF (x)/dx. Die Angabe f (x0 )dx0 gibt somit die Wahrscheinlichkeit an, dass x sich im Intervall zwischen x0 und x0 +dx0 befindet. R +∞ Natürlich muss −∞ f (x0 )dx0 = 1 sein. Die Funktion F ist dimensionslos, die Funktion f jedoch hat die Dimension 1/x. Ferner soll darauf hingewiesen werden, dass f (x) keine Wahrscheinlichkeit darstellt, sondern nur f (x)dx. p(x1 ≤ x ≤ x2 ) = Z x2 f (x0 )dx0 = F (x2 ) − F (x1 ) (2.1) x1 Zum Zusammenhang zwischen f und F verweisen wir auf Figur 2.1. 2.3 Kombination von Wahrscheinlichkeiten und Bayes’ Theorem Gegeben sind zwei Arten von Ereignissen A und B. Die Wahrscheinlichkeit für das Auftreten von A ist P (A) und die entsprechende Wahrscheinlichkeit von B ist P (B). Dann ist die 5 KAPITEL 1. GRUNDLAGEN DER ST f(x) x1 F(x) x2 x 1 0 x 1 x2 x Figure 2.1: Eine Dichtefunktion f (x) sowie deren Verteilungsfuntion F (x) dergestalt, dass f (x) = dF (x)/dx ist. .2: Wahrscheinlichkeitsdichte (oben) und dazugehörige Verteilungsfunktio 6 Wahrscheinlichkeit, dass A oder B auftritt gegeben durch: P (A oder B) = P (A) + P (B) − P (A und B) (2.2) Hierbei ist P (A und B) die Wahrscheinlichkeit, dass A und B zusammen auftreten. Falls die Ereignisse A und B exklusiv sind, d.h. nicht zusammen auftreten können, gilt natürlich P (A und B) = 0. Ferner gilt allgemein P (A und B) = P (A) · P (B|A) = P (B) · P (A|B). Man nennt P (B|A) die bedingte Wahrscheinlichkeit, dass das Ereignis B auftritt, vorausgesetzt, dass das Ereignis A ist eingetreten. Bei unabhängigen Ereignissen gilt P (B|A) = P (B), d.h. das Auftreten von B hängt nicht von A ab, was auch durch P (A und B) = P (A) · P (B) beschrieben wird. Eine bedingte Wahrscheinlichkeit P (A|B) kann im diskreten Fall geschrieben werden als: P (A|B) = P (A) und P (B) P (B) (2.3) Zum Beispiel ist die Wahrscheinlichkeit, dass ich einen beliebigen Amerikaner treffe, der Bush gewählt hat (Ereignis A) unter der Bedingung, dass er aus dem Staate Ohio komme (Ereignis B), gegeben durch die Wahrscheinlichkeit, dass er sowohl Bush gewählt hat wie auch aus Ohio stammt normiert auf die Gesamtwahrscheinlichkeit, dass ein Amerikaner aus Ohio stammt. Im kontinuierlichen Fall schreibt man für die bedingte Wahrscheinlichkeit f1 (x1 |x2 ) = f (x1 , x2 ) f2 (x2 ) (2.4) wobei hier f2 (x2 ) die Wahrscheinlichkeitsdichte für x2 alleine ist. Das Bayes’ Theorem erhält man nun aus P (A und B) = P (A) · P (B|A) = P (B) · P (A|B): P (A|B) = P (B|A) · P (A) P (B) (2.5) Im allgemeinen Fall von n-Ereignis-Klassen mit den Eigenschaften Ai lautet das Theorem: P (B|Ai )P (Ai ) i P (B|Ai ) · P (Ai ) P (Ai |B) = P 2.4 (2.6) Histogramme Eine Häufigkeitsverteilung ist die tabellarische Anordnung von Daten sowie deren jeweilige Häufigkeit in bestimmten Klassen oder Kategorien. Im Beispiel der Tabelle 2.1 ist die Häufigkeitsverteilung oder Häufigkeitstabelle von Personen nach ihrem Gewicht gezeigt. Die Einteilung der Daten nach Gewicht geschieht in Klassenintervallen oder in sogenannten bins. Ein Histogramm ist dann die Darstellung der Häufigkeitsverteilung. 2.5 Mittel- und Erwartungswerte Das arithmetisches Mittel Das arithmetische Mittel x̄ ist der Mittelwert einer Menge von N Zahlen Xi : 7 Table 2.1: Die erste Häufigkeitsverteilung in der Vorlesung: Das Körpergewicht einer Personengruppe. Ganz allgemein: Ist das Körpergewicht von beliebigen Menschengruppen so wie die Körpergrösse eigentlich Gauss-verteilt? Gewicht (kg) 62-64 64-66 66-68 68-70 70-72 72-74 74-76 76-78 78-80 Anzahl der Personen 5 12 33 13 10 9 8 4 3 x̄ = N X Xi /N (2.7) i=1 In vielen Fällen ist der arithmetische Mittelwert die sinnvollste Grösse, die man bilden kann, wenn man mit nur einer einzigen Zahl eine Datenmege beschreiben möchte. Völlig analog kann man einen Mittelwert von Funktionen bilden: f¯ = N X f (Xi )/N (2.8) i=1 Sind die N Datenpunkte durch eine Häufigkeitsverteilung in m Intervallen klassifiziert und entspricht nj die Anzahl der Einträge im Intervall j, so gilt: x̄ = m 1 X nj X j N j=1 (2.9) Erwartungswert einer Variablen Ein wichtiger Parameter, der eine Wahrscheinlichkeitsdichte charakterisiert, ist der Erwartungsoder Mittelwert einer Variablen. Er ist für kontinuierliche Variablen x definiert als Z ∞ < x >= x0 f (x0 )dx0 (2.10) −∞ und für diskrete Variablen r als < r >= X ri P (ri ) definiert. Erwartungswerte für Funktionen h(x) sind durch < h >= definiert. Der Erwartungswert ist ein linearer Operator, d.h. es gilt: < a · g(x) + b · h(x) >= a < g(x) > + b < h(x) > 8 (2.11) R h(x0 )f (x0 )dx0 (2.12) Im allgemeinen ist aber < f g >6=< f >< g >. Die Gleichheitszeichen gilt nur dann, wenn f und g unabhängig sind. Es gibt natürlich eine Parallele zwischen dem Mittel- oder Erwartungswert < x > und dem (arithmetischen) Mittelwert x̄ einer Datenmenge. Ersterer ist eine Summe (oder Integral) über eine theoretische Wahrscheinlichkeitsdichte und letzterer ist eine Summe über eine reale Datenmenge. Die Verbindung kann nun über die Frequentisten-Definition der Wahrscheinlichkeit geknüpft werden, die aussagt, dass im Falle von N → ∞ die wahre Wahrscheinlichkeitsverteilung durch die relativen Häufigkeiten bestimmt werden kann. Oder anders formuliert: Wenn eine Datenmenge durch eine theoretische Verteilung beschrieben wird, dann wird für N → ∞: x̄ =< x >. Der Median Der Median xmedian ist der Wert einer Häufigkeitsverteilung, der die Verteilung in zwei gleich grosse Hälften teilt. Der Median ist oft ein nützlicher Parameter um Verteilungen zu charakterisieren. So werden z.B. Einkommensverteilungen am besten durch den Median beschreiben, wie Figur 2.2 demonstriert. Z xmedian f (x0 )dx0 = 0.5 (2.13) −∞ Der Modus Der Modus ist der Wert, der am häufigsten vorkommt, d.h. bei dem die Wahrscheinlichkeitsdichte f (x) ihr Maximum hat. Der Modus braucht natürlich nicht eindeutig sein. Eine empirische Beziehung/Faustformel Eine manchmal nützliche Beziehung (für unimodale, mässig schiefe Verteilungen), um einen der drei Parameter Median, Modus und Mittelwert abzuschätzen, wenn die beiden anderen bekannt sind, ist Mittelwert − M odus = 3 × (M ittelwert − M edian). (2.14) Das harmonische Mittel 1/H = 1/N X (1/X) (2.15) Das harmonische Mittel ist niemals grösser als das arithmetische Mittel. Es kann zur Mittelwertbildung benutzt werden, wenn es um die Mittelung von Raten geht. Beispielsweise sei die Geschwindigkeit einer Reise von A nach B x km/h und auf der Rückreise y km/h. Die Durchschnittsgeschwindigkeit beträgt dann z = 2xy/(x + y). Das Quartil Wird die Datenmenge in zwei gleich grosse Teile geteilt, ist der Wert in der Mitte der Median. Teilt man die Menge in vier gleich grosse Teile nennt man die jeweiligen vier Werte Quartile Q1, Q2, Q3 und Q4. Der Wert Q2 entspricht dabei dem Median. Entsprechend kann auch in zehn gleiche Teile (Dekantil) und hundert gleiche Teile (Zentil) geteilt werden. 2.6 Die Varianz und Standardabweichung Die Erwartungswerte von xn und von (x− < x >)n werden n-te algebraische Momente µn und n-te zentrale Momente µ0n genannt. Das erste algebraische Moment µ1 ist gleich dem 9 Figure 2.2: Das Einkommensverteilung von Amerikanern um das Jahr 1950. Die Bedeutung von Mittelwert, Median und Modus wird ersichtlich. Welche der drei Grössen gibt wohl die wichtigste Information an? 10 Erwartungswert < x >. Es wird oft einfach als µ bezeichnet. Das zweite zentrale Moment (das erste ist natürlich Null) ist ein Mass für die Breite der Wahrscheinlichkeitsdichte und wird als Varianz V (x) bezeichnet. Die Grösse σ nennt man Standardabweichung. V (x) =< (x− < x >)2 >=< x2 > − < x >2 = σ 2 (2.16) Es ist hierbei wichtig zu verstehen, dass wir die Grösse der Varianz bzw. der Standardabweichung über Erwartungswerte definieren. Dies ist die fundamentalere Definition der Varianz. Sie kann aber nur dann bestimmt werden, wenn die ’wahre’ zugrundeliegende Wahrscheinlichkeitsdichte der Grundgesamtheit bekannt ist. Da wir uns aber häufig mit einer beschränkten Menge an Daten beschäftigen, die nur eine Teilmenge (Stichprobe) der Grundgesamtheit repräsentiert, von der weder der Erwartungswert noch die Varianz genau bekannt ist, ist es nützlich die Varianz s2 einer Datenmenge, die sogenannte StichprobenVarianz, zu definieren: !2 1 X 1 X 2 1 s2 = (xi − x̄)2 = xi − N −1 i N −1 N i X xi (2.17) i Der Wert s2 kann als beste Abschätzung der ’wahren’ Varianz der Grundgesamthwit verstanden werden. Der Faktor N 1−1 anstatt des sonst üblichen N1 mag vielleicht etwas verwirren. Wir werden diese Konfusion aber im Verlaufe der Vorlesung klären. Zur numerischen Berechnung der Stichproben-Varianz wollen wir einige Anmerkungen machen. Man kann die Varianz im Prinzip in zwei Schleifen über die Daten berechnen. In P der ersten Schleife wird die Summe Rx = i xi berechnet und dann das Stichprobenmittel P x̄. Dieses Mittel wird dann in der zweiten Schleife benutzt um die Summe Rxx = i (xi − x̄)2 zu bestimmen, woraus s2 = 1/(N − 1)Rxx folgt. Alternativ kann s2 auch in einer Schleife P P über die Daten berechnet werden, wenn die Summen Sx = i xi und Sxx = i x2i gleichzeitig gebildet werden und dann s2 = N 1−1 (Sxx − N1 Sx2 ) berechnet wird. Diese Methode hat sicherlich Vorteile, wenn es auf Rechengeschwindigkeit ankommt. Es ist allerdings Vorsicht geboten, da die Differenz zweier grossen Zahlen gebildet wird, was dann leicht zu Rundungsfehlern führen kann. In diesem Fall ist es besser eine erste grobe Näherung xe für den Mittelwert einzuführen, wie z.B. den ersten Wert x1 des Datensamples, um dann folgende Grössen zu berechnen: Tx = X (xi − xe ) i Txx = X (xi − xe )2 i Die Grössen x̄ und s2 werden dann wie folgt bestimmt: x̄ = xe + 2 s = 1 Tx N 1 1 Txx − Tx2 N −1 N 11 2.7 Höhere Momente Manchmal werden auch höhere Momente µn und µ0n benutzt, um Verteilungen zu kategorisieren. Die Schiefe γ oder skewness is normalerweise definiert als γ1 = µ03 /σ 3 = 1 1 < x− < x >>3 = 3 (< x3 > −3 < x >< x2 > +2 < x >3 ). σ3 σ (2.18) Die Grösse γ ist dimensionslos und charakterisiert die Schiefe. Sie beträgt null für symmetrische Verteilungen bzw. ist positiv oder negativ für unsymmetrische Verteilungen. Bei der Schiefe muss man aufpassen, da es noch alternative Arten gibt, sie zu definieren. Manchmal wird die sogenannte Pearson’s skew als Schiefe bezeichnet, die gegeben ist durch: P earson0 s skew = mean − modus σ (2.19) Ferner gibt es noch die Kurtosis γ2 = µ04 /σ 4 − 3, die ein Mass für die Art der Verteilung an den Rändern im Bezug zum Maximum ist. Die Kurtosis ist dimensionslos aufgrund der vierten Potenz im Nenner. Für eine Gauss-Verteilung ist sie null aufgrund des Terms mit der Zahl 3, der deswegen extra eingeführt ist. Positive γ2 bedeuten ein grösseres Maximum und weitere Ausläufer als eine Gauss-Verteilung mit denselben Werten für Mittelwert und Varianz. Einige der oben diskutierten Grössen sind in Tabelle 2.2 für die Maxwellsche Geschwindigkeitsverteilung angegeben. Die Wahrscheinlichkeitsdichte des Betrags der Geschwindigkeit v der Moleküle in einem idealen Gas bei der absoluten Temperatur T ist durch 3 f (v) = N · (m/2πkT ) 2 exp(−mv 2 /2kT ) · 4πv 2 (2.20) gegeben. Dabei ist m die Molekülmasse und k die Boltzmannkonstante. Übung: BerechTable 2.2: Maxwellsche Geschwindigkeitsverteilung Grösse Modus (wahrscheinlichster Wert) vm Mittelwert < v > Median RMS-Geschwindigkeit vrms Wert (2kT /m)1/2 (8kT /πm)1/2 vmedian = 1.098 · vm (3kT /m)1/2 nen Sie aus den gegebenen Daten die Varianz σv2 . Zeichnen Sie die Verteilung für Stickstoff bei T = 300K. Die Grössen sind k = 1.38 · 10−23 J/K, m = 4.65 · 10−26 kg. 2.8 Kovarianzen Unabhängigkeit Zwei Variablen sind unabhängig, genau dann wenn folgende Bedingung für die Verteilungsfunktion erfüllt ist: F (x1 , x2 ) = F (x1 ) · F (x2 ) (2.21) 12 Man sagt, dass diese Variablen dann unkorreliert sind. Wenn diese Bedingung nicht erfüllt ist, sind die Variablen abhängig und normalerweise miteinander korreliert. Kovarianz Die Kovarianz cov(x1 , x2 ) zwischen zwei Variablen ist definiert als cov(x1 , x2 ) =< (x1 − < x1 >) · (x2 − < x2 >) >=< x1 x2 > − < x1 >< x2 > (2.22) Ferner gilt V (x1 + x2 ) = V (x1 ) + V (x2 ) + 2 × cov(x1 , x2 ) (2.23) Die Kovarianz kann durch den sogenannten Korrelationskoeffizienten ρx1 x2 ausgedrückt werden: cov(x1 , x2 ) = ρx1 x2 q V (x1 )V (x2 ) (2.24) Der Korrelationskoeffizient liegt zwischen +1 und -1. Wenn zwei Variablen voneinander unabhängig sind, folgt ρx1 x2 = 0. Das Umgekehrte folgt aber nicht notwendigerweise. D.h., wir können ρx1 x2 = 0 haben und trotzdem sind x1 und x2 abhängig. Als Beispiel3 wollen wir zwei Würfel betrachten. Die folgenden drei Zufallsvariablen seien definiert als: • r sei 1, wenn Würfel 1 eine ungerade Augenzahl hat. Andererseits sei r = 0 • s sei 1, wenn Würfel 2 eine ungerade Augenzahl hat. Andererseits sei s = 0 • t sei 1, wenn die Summe der beiden Augenzahlen ungerade ist. Anderersets sei t = 0 Wir können zeigen, dass die Ereignisse paarweise unabhängig sind. Überraschenderweise sind jedoch nicht die drei Variablen unabhängig. Wenn sowohl r = 1 als auch s = 1 eintritt, folgt daraus zwingend t = 0. Für Unabhängigkeit muss aber Prst = Pr Ps Pt gelten. Ferner benötigen wir noch die so genannte Stichproben-Kovarianz oder empirische Kovarianz sxy , die die beste Schätzung der (wahren) Kovarianz darstellt. Falls mit (x1 , y2 ), (x2 , y2 ), . . . , (xn , yn ) eine zweidimensionale Stichprobe vom Unfang n gegeben ist, lautet die Stichproben-Kovarianz sxy : 1 X (xi − x̄)(yi − ȳ) (2.25) sxy = n−1 i Schliesslich ergibt sich die empirische Korrelation rxy oder der sogenannte Pearson-Korrelationskoeffizient, als beste Schätzung des (wahren) Korrelationskoeffizienten ρxy : rxy = sxy sx sy (2.26) Mit sx und sy sind die Stichproben-Standardabweichungen gemeint, die wir bereits in Gleichung 2.17 kennen gelernt haben . 3 W. Feller, Probabiltiy Theory and Applications, Vol. I, Wiley and Sons, NY (1950) 13 Beispiel: Figure 2.3: Beispiel für Korrelationskoeffizienten. 14 2.9 Nützliche Ungleichungen In diesem Unterkapitel wollen wir zwei nützliche Ungleichungen diskutieren, um obere Schranken für Wahrscheinlichkeiten anzugeben, wenn die zugrundeliegende Verteilung nicht bekannt ist. Markov-Ungleichung: Es sei x eine positive Zufallsvariable ist, dann gilt: P (x ≥ a) ≤ <x> a (2.27) Diese Ungleichung gibt uns einen Maximalwert an, um eine obere Grenze für die Wahrscheinlichkeit von Zufallsereignissen zu bekommen, die in den Ausläufern der Verteilung sitzen. Tschebyscheff-Ungleichung: σ2 (2.28) k2 Die Wahrscheinlichkeit, dass ein Resultat um mehr als drei Standardabweichungen vom Erwartungswert abweicht, ist weniger als 1/9, und zwar unabhängig von der zugrundeliegenden Wahrscheinlichkeitsverteilung. Die Ungleichung gilt in allgemeiner Form, wenn die Standardabweichung bekannt ist. Sie ist allerdings sehr schwach und nur nützlich für theoretische Überlegungen, wenn die Form der Verteilung unbekannt ist. P ( |x− < x > | ≥ k) ≤ 15 3 3.1 3.1.1 Wahrscheinlichkeitsverteilungen Diskrete Verteilungen Kombinatorik Für r verschiedene Objekte gibt es 1·2·3 · · · (r−1)·r = r! verschiedene Möglichkeiten, die Objekte in einer Reihe anzuordnen. Die Zahl der Möglichkeiten, r Objekte aus n verschiedenen Objekten auszuwählen, wobei es auf die Reihenfolge der Auswahl ankommt, ist Pnr = n · (n − 1) · (n − 2) · · · (n − r + 1) = n! (n − r)! (3.1) Falls es auf die Reihenfolge der Auswahl nicht ankommt, muss die obenstehende Zahl durch r! dividiert werde, und man erhält Cnr Pr = n = r! n r ! = n! r!(n − r)! (3.2) Diese Zahlen sind die sogenannten Binomialkoeffizienten, die im Binomialtheorem auftauchen: (p + q)n = n X n r=0 r ! pr · q n−r (3.3) Einige Rechenhilfen Für grosse n kann n! durch die Stirlingsche Formel angenähert werden: √ ln n! ≈ (n + 1/2) ln n − n + ln 2π n √ n n! ≈ 2πn e (3.4) (3.5) Der erste Term (n/e)n wird nullte Näherung genannt, der gesamte Term in der obigen Gleichung ist die sogenannte erste Näherung. Die Fakultät n! kann auf nicht-ganzzahlige Argumente x durch die Gammafunktion Γ(x) erweitert werden: Z x! = ∞ ux e−u du = Γ(x + 1) (3.6) 0 Γ(x + 1) = xΓ(x) 3.1.2 (3.7) Bernoulli und die Binomial-Verteilung Ein Bernoulli-Experiment sind wiederholt durchgeführte unabhängige Versuche, von denen jeder zwei mögliche Ausgänge hat. Die Wahrscheinlichkeit des Ereignisausgangs soll dabei konstant bleiben. Beispiele hierfür sind der Münzwurf oder der Zerfall von K + in entweder µ+ ν oder einen anderen Zerfallsmodus. Das Resultat eines Bernoulli-Experiments wollen wir als success (S) oder als failure (F) beschreiben. 16 Ist die Wahrscheinlichkeit p eines Auftretens eines Ereignisses S (oder F) gegeben, so beschreibt ! n r p (1 − p)n−r r P (r) = (3.8) die Wahrscheinlichkeit, dass bei n Versuchen S (oder F) genau r mal auftritt. Die dzugehörige Verteilung nennt man Binomialverteilung. Die Gleichung 3.8 kann folgendermassen erklärt werden: Die Wahrscheinlchkeit, dass das Ereignis S in den ersten r Versuchen auftritt und nicht in den letzten n − r ist gegeben durch pr · (1 − p)n−r ; diese Reihenfolge ist aber nur eine n mögliche von insgesamt r möglichen. Die Eigenschaften der Binomialverteilung: • Sie ist auf 1 normiert, d.h. Pn r=0 P (r) • Der Mittelwert von r ist < r >= = 1. Pn r=0 r · P (r) = np. • Die Varianz von r ist V (r) = np(1 − p). • < r > /σ = √ q p n 1−p . Der letzte Punkt bedeutet insbesondere, dass bei grossen n die Verteilung eine schmale und scharfe Spitze aufweisen wird. Beispiel: Wie gross ist die Wahrscheinlichkeit in 10 Münzwürfen genau dreimal Kopf zu 10 10! 0.53 · 0.57 = 0.12 werfen? Antwort: P (3) = 3 0.53 · (1 − 0.5)10−3 = 3!7! Übung: Ein vierlagiger Detektor zum Teilchennachweis hat pro Detektorlage eine Einzeleffizienz von 88%. Um eine komplette Teilchenspur zu rekonstruieren, werden mindestens drei Spuren benötigt. Wie gross ist damit die Wahrscheinlichkeit eine Spur zu rekonstruieren? 3.1.3 Multinomialverteilung Nun können wir unsere Überlegungen zur Binomialverteilung direkt auf folgendes Problem verallgemeinern: Angenommen es gebe n Objekte mit k unterschiedlichen Typen und ni sei die Anzahl der Objekte des Typs ki . Die Anzahl der unterscheidbaren Anordnungen ist n! dann durch n1!n2!···n gegeben. Wenn wir nun zufällig r Objekte auswählen (mit jeweiligem k! Zurücklegen), dann ist die Wahrscheinlichkeit einer bestimmten Auswahl, die ri Objekte des Types ki besitzt, gegeben durch pr11 · pr22 · · · prkk . Hierbei ist pi = ni /n. Die Gesamtwahrscheinlichkeit ist daher die Wahrscheinlichkeit der Auswahl multipliziert mit der Anzahl der möglichen unterscheidbaren Anordnungen. P = r! pr1 · pr22 · · · prkk r1 !r2 !r3 ! · · · rk ! 1 Diese Verteilung heisst Multinomialverteilung. 17 (3.9) Figure 3.1: Die Binomialverteilung für ein festes p = 0.4 und verschiedene Werte für n. 18 Todesfälle pro Korps und Jahr 0 1 2 3 4 Tatsächlich gemeldete Fälle 109 65 22 3 1 Poissonstatistik 108.7 Table 3.1: Die Gesamtstatistik der zu Tode getrampelten preussischen Kavalleriesoldaten 3.1.4 Poisson-Verteilung Die Poissonverteilung entsteht als Grenzfall der Binomialverteilung, falls die Anzahl n der Versuche gross wird und die Wahrscheinlichkeit für das Auftreten eines Ereignisses p in einem einzigen Versuch sehr klein ist, wobei pn = λ eine (kleine) endliche Konstante ergeben soll. Ein typisches Beispiel für diesen Grenzwert ist die Zahl der Zerfälle pro Sekunde einer radioaktiven Quelle, die z.B. eine mittlere Lebensdauer von einem Jahr hat. Hierbei ist n ∼ 1023 , p ∼ 1 Sekunde/Lebensdauer ∼ 3 · 10−8 und r ist die Anzahl der Zerfälle in einer Sekunde, was ungefähr von der Grösse pn ∼ 3 · 1015 ist. Die Poissonverteilung hat nur einen Parameter, nämlich den Mittelwert λ = np. P (r) = λr e−λ r! (3.10) Eigenschaften der Poissonverteilung • sie ist korrekt auf 1 normiert: P∞ r=0 P (r) • Der Mittelwert < r > ist λ: < r >= P∞ = e−λ r=0 r · λr r=0 r! P∞ e−λ λr r! = e−λ e+λ = 1 =λ • Die Varianz ist V (r) = λ Das klassische (historische) Beispiel für eine Anwendung der Poissonstatistik ist die Zahl der durch Pferde zu Tode getrampelten preussischen Kavalleriesoldaten. In zehn verschiedenen Kavalleriekorps wurden die Todesfälle über zwanzig Jahre lang registriert. Es gab insgesamt 122 Todesfälle, so dass der Erwartungswert pro Korps und Jahr sich zu λ = 122/200 = 0.61 ergibt. Die Wahrscheinlichkeit, dass kein Soldat pro Jahr und pro Korps zu Tode getrampelt wird, beträgt P (0; 0.61) = e−0.61 · 0.610 /0! = 0.5434. Um die Gesamtzahl der Ereignisse (kein Unfall) in einem Jahr und pro Korps zu erhalten, wird mit der Anzahl der berücksichtigten Fälle (200) multipliziert, also 200 · 0.5434 = 108.7. In der Tat gab es 109 Fälle, was eine sehr gute Übereinstimmung ist. Die Gesamtstatistik der preussischen Kavallerie ist in Tabelle 3.1 verzeichnet. Übung: Berechnen Sie die fehlenden Werte aus Tabelle 3.1. Die Poissonverteilung tritt in vielen Fällen auf, in denen man Dinge oder Ereignisse zählt. Typische Anwendungen der Poissonverteilung sind: • Anzahl der Teilchen, die von einem Detektor in einer Zeit t erfasst werden, wenn der Teilchenfluss Φ und die Detektoreffizienz unabhängig von der Zeit sind und die Detektortotzeit τ hinreichend klein ist, so dass φτ << 1 ist. 19 Figure 3.2: Die Poissonverteilung für einige Werte für λ. • Anzahl der Wechselwirkungen die durch einen intensiven Teilchenstrahl enstehen, der durch eine dünne Scheibe tritt. • Anzahl der Eintrg̈e in einem bin eines Histogrammes, wenn die Daten über ein bestimmtes Zeitintervall gesammelt werden. • Anzahl der Reifenpannen innerhalb einer zurückgelegten Strecke, wenn der Erwartungswert Reifenpanne/Strecke konstant ist. Beispiele, bei denen die Poissonverteilung keine Anwendung findet sind: • Der Zerfall einer kleinen Menge radioaktiven Materials über eine bestimmte Zeit, die signifikant ist im Vergleich zur Halbswertzeit. • Die Anzahl der Wechselwirkungen eines Strahls von wenigen Teilchen, der durch eine dicke Scheibe tritt. In den beiden letzten Beispielen nimmt die Ereignisrate mit der Zeit ab. Daher kann die Poissonverteilung nicht angewandt werden. Das Bild 3.2 zeigt die Poissonverteilung für einige Werte für λ. Wenn der Erwartungsert λ kleiner als 1.0 ist, wird der Modus, d.h. der wahrscheinlichste Wert null. Bei grösseren Werten 20 von λ entwickelt sich eine Maximum ungleich null, was aber unterhalb von λ liegt. In der Tat ist die Wahrscheinlichkeit für ein beliebiges ganzzahliges λ ein Ereignis mit r = λ und r = λ−1 zu haben, gleich. Die Poissonverteilung ist immer etwas breiter als die Binomialverteilung bei gleichem Erwartungswert. Die Varianz der Poissonverteilung ist gleich dem Erwartungswert, während sie bei der Binomialverteilung np(1 − p) ist, also kleiner als der Erwartungswert np. Die Versuche in einem Bernoulliprozess haben immer ein oberes Limit, da r n nicht überschreiten kann, während die Poissonprozesse nach oben nicht beschränkt sind und daher einen langen Ausläufer haben können. Bereits ab λ = 5 kann die Poissonverteilung relativ gut durch die Gaussverteilung angenähert werden. 3.2 3.2.1 Kontinuierliche Verteilungen Gauss- oder Normalverteilung Die Gauss4 - oder Normalverteilung ist die wohl wichtigste und nützlichste Verteilung, die wir kennen. Sie hat grosse Bedeutung in der Praxis5 . Ihre Wahrscheinlichkeitsdichte ist f (x) = √ (x−µ)2 1 e− 2σ2 2πσ (3.11) Die Gaussverteilung wird durch zwei Parameter bestimmt: Durch den Erwartungwsert µ und die Varianz σ 2 , wobei σ die Standardabweichung ist. Durch die Substitution z = (x−µ)/σ erhält man die sogenannte standardisierte Gauss- oder Normalverteilung: 1 2 N (0, 1) = √ e−z /2 2π (3.12) Sie hat den Erwartungwsert null und die Standardabweichnung 1. Die Eigenschaften der Gaussverteilung sind: • sie ist natürlich auf 1 normiert: R +∞ −∞ P (x; µ, σ)dx = 1 • µ ist der Erwartungswert der Verteilung: Modus und Median R +∞ −∞ xP (x; µ, σ)dx = µ und zugleich ihr • σ ist die Standardabweichung und die Varianz ist σ 2 : R +∞ −∞ (x − µ)2 P (x; µ, σ)dx = σ 2 Nützliche Integrale, die häufig bei der Benutzung der Gaussfunktion auftauchen: Z +∞ −ax2 e Z Z −∞ +∞ 0 +∞ −∞ dx = 2 xe−ax dx = 2 x2 e−ax dx = q π/a 1 2a 1q π/a 2a 4 C.F. Gauss hat sie nicht allein entdeckt. Unabhängig von Gauss kannten Laplace und de Moivre (ein Engländer) die Verteilung. 5 Der Legende nach hat Gauss damit wohl die Grösse von Brotlaibern der Bäckerinnung in der Stadt Königsberg beschrieben. 21 Normalverteilung, CDF 1 0.8 0.6 0.4 0.2 0 −5 −4 −3 −2 −1 0 1 2 3 4 5 2 3 4 5 Normaldichte, PDF 0.4 0.3 0.2 0.1 0 −5 −4 −3 −2 −1 0 1 Figure 3.3: Die standardisierte Gaussverteilung. Oben die kumulative Verteilungsfunktion und unten die Wahrscheinlichkeitsdichtefunktion. Z +∞ 2 x2n+1 e−ax dx = 0 Z +∞ n! 2an+1 2 x2n+1 e−ax dx = 0, für alle ungeraden Werte von n −∞ Einige Zahlen für die integrierte Gaussverteilung: • 68.27% der Fläche liegt innerhalb von ±σ um den Mittelwert µ • 95.45% liegt innerhalb von ±2σ • 99.73% liegt innerhalb von ±3σ • 90% der Fläche liegt innerhalb von ±1.645σ • 95% liegt innerhalb von ±1.960σ • 99% liegt innerhalb von ±2.576σ • 99.9% liegt innerhalb von ±3.290σ Oft wird vergessen, dass im Mittel rund 32% der Fälle ausserhalb einer Standardabweichnung liegen müssen. Die integrierte Funktion Φ(x) der Gaussverteilung kann auch durch die sogenannte Fehlerfunktion erf (x) ausgedrückt werden: Φ(x) = erf (x) = => Φ(x) = x 1 2 2 e−(t−µ) /2σ dt 2πσ −∞ Z x 2 2 √ e−t dt π 0 1 x−µ 1 + erf ( √ ) 2 2σ Z √ 22 Ferner ist der Begriff der vollen Breite auf halber Höhe (FWHM - Full width half maximum) nützlich, um auf einfache Weise die Standardabweichung einer Gausskurve zu schätzen. Die Beziehung ist durch √ F W HM = 2σ 2ln2 = 2.355σ (3.13) gegeben. Übung: Approximation der Poissonverteilung durch eine Gaussverteilung: Der Mittelwert eines Poissonprozesses sei λ = 5.3. Wie gross ist die Wahrscheinlichkeit von zwei oder weniger Ereignissen? Wie gross wäre sie, wenn die Wahrscheinlichkeit aus der Gaussverteilung abgeleitet wird? Übung: Approximation der Binomialverteilung durch die Gaussverteilung: Vergleichen Sie die exakte Berechnung der Wahrscheinlichkeit beim Münzwurf 20-mal Kopf in 30 Würfen zu erhalten, mit der angenäherten Lösung einer Gaussverteilung. So wie die Poissonverteilung sich einer Gaussverteilung annähert, wird die Binomialverteilung p zu einer Gaussverteilung mit µ = np und σ = np(1 − p), wenn n gross wird. Im Prinzip tendiert fast alles zu einer Gaussverteilung, wenn die Anzahl n gross wird. Dies ist eine Konsequenz des Zentralen Grenzwertsatzes, der im nächsten Kapitel diskutiert wird. 3.2.2 χ2 -Verteilung Falls x1 , x2 , · · · , xn unabhängige Zufallsvariablen sind, die alle einer (standardisierten) Gaussverteilung mit Mittelwert 0 und Varianz 1 gehorchen, so folgt die Summe u = χ2 der n Quadrate u = χ2 = n X x2i (3.14) i=1 einer χ2 -Verteilung fn (u) = fn (χ2 ) mit n Freiheitsgraden. Die Wahrscheinlichkeitsdichte ist durch ( u )n/2−1 e−u/2 fn (u) = 2 (3.15) 2Γ(n/2) 2 gegeben. Sie hat ein Maximum bei (n − 2). Der √ Mittelwert der χ -Verteilung ist n und die 2 Varianz ist 2n. Für n → ∞ geht (χ − n)/ 2n in eine standardisierte Normalverteilung mit Erwartungswert null und Varianz 1 über. In der Praxis ist bereits bei n ≥ 30 die Approximation durch eine Normalverteilung sehr genau. Die χ2 -Verteilung spielt eine grosse Rolle bei statistischen Tests. 3.2.3 Log-Normal-Verteilung In dieser Wahrscheinlichkeitsdichte ist ln x normalverteilt. f (x) = √ 1 2πσ 2 1 (− ln x−µ)2 /2σ2 e x (3.16) Der Faktor 1/x taucht auf, da d(ln x) = dx/x ist. Der Erwartungswert und die Varianz sind aber nicht einfach µ und σ 2 , sondern gegeben durch: < x > = e(µ+(1/2)σ 2 2) 2 V ar(x) = e(2µ+σ ) (eσ − 1) 23 Die Log-Normal-Verteilung wird dann angewandt, wenn beispielsweise die Auflösung eines Messintruments sich aus vielen unterschiedlichen Quellen zusammensetzt, die jeweils einen kleinen (multiplikativen) Beitrag zur Gesamtauflösung bilden. Als Beispiel soll das Signal eines Photomultipliers dienen, welcher schwache Lichtsignale in elektrische Signale über den Photoeffekt umwandelt. Der Photomultiplier ist ein Sekundärelektronenvervielfacher, der in mehreren Stufen Elektronen beschleunigt. Pro Stufe werden dabei Sekundärelektronen erzeugt, die das Ladungssignal vervielfachen. Wenn die Verstärkung pro Stufe ai beträgt, dann ist die Anzahl der Elektronen nach der k-ten Stufe nk = Πki=0 ai ungefähr log-normal verteilt. 3.2.4 Gamma-Verteilung Die Gamma-Verteilung ist gegeben durch: f (x; k, µ) = xk−1 µk e−µx Γ(k) (3.17) Sie gibt die Verteilung der Waretezeit t = x vom ersten bis zum k-ten Ereignis in einem Poisson-Prozess mit Mittelwert µ an. Der Parameter k beeinflusst die Form der Verteilung, w”ahrend µ nur ein Skalenparameter ist. Der Erwartungswert der Gamma-Verteilung ist < x >= k/µ und seine Varianz σ 2 = k/µ2 . 3.2.5 Student-Verteilung Die Student6 oder t-Verteilung tritt bei Tests der statistischen Verträglichkeit eines StichprobenMittelwertes x̄ mit einem vorgegebenen Mittelwert µ auf. Sie wird auch bei Tests der Verträglichkeit zweier Stichproben Mittelwerte angewandt. Die Wahrscheinlichkeitsdichte der Student-Verteilung ist gegeben durch: 1 Γ((n + 1)/2) t2 fn (x) = √ 1+ nπ Γ(n/2) n !−(n+1)/2 (3.18) Die Student- oder t-Verteilung ist symmetrisch um null; für n = 1 entspricht sie der CauchyVerteilung (siehe weiter unten). Für grosse n geht sie gegen die Gaussverteilung. Anwendungen der Student-Verteilung werden wir im Kapitel Hypothesentests finden. 3.2.6 F-Verteilung Falls n1 Stichprobenwerte einer Zufallsvariablen x und n2 Stichprobenwerte derselben Zufallszahl gegeben sind und die beste Schätzung der Varianz aus den beiden Datenkollektionen durch s21 und s22 bekannt sei, dann folgt die Zufallszahl F = s21 /s22 einer F -Verteilung mit (n1 , n2 ) Freiheitsgraden: f (F ) = n1 n2 n1 /2 Γ((n1 + n2 )/2) n1 · · F (n1 −2)/2 1 + F Γ(n1 /2)Γ(n2 /2) n2 −(n1 +n2 )/2 (3.19) Mit der F -Verteilung können statistische Verträglichkeiten von zwei aus unterschiedlichen Stichproben derselben Grundverteilung ermittelten Varianzen getestet werden. 6 Benannt nach dem Statistiker W. S. Gosset, der für eine Guinness Brauerei in Dublin arbeitete und unter dem Pseudonym Student seine Arbeiten veröffentlichte. 24 3.2.7 Weibull-Verteilung Die Weibull-Verteilung wurde ursprünglich eingeführt um die Fehlerrate beim Altern von Glühbirnen zu beschreiben. Sie ist nützlich um Funktionen zu parameterisieren, die mit x anwachsen und dann wieder abfallen: P (x; α, β) = αβ(αx)β−1 e−(αx) β (3.20) Der Parameter α ist nur ein Skalenfaktor und β beschreibt die Breite des Maximums. Für β = 1 erhält man eine Exponentialfunktion. Die Weibull-Verteilung ist sehr nützlich in Zuverlässigkeitsanalysen und Fehlerratenvorhersagen. Der Erwartungswert der Weibull-Verteilung ist Γ(1/β + 1)/α. 3.2.8 Cauchy-Verteilung Die Cauchy-Verteilung hat die Dichte f (x) = 1 1 π 1 + x2 (3.21) Für grosse Werte von x nimmt sie nur sehr langsam ab und erfordert deshalb spezielle Vorsicht in der Anwendung. Insbesondere ist der Erwartungswert undefiniert und die CauchyR Verteilung besitzt keine Varianz, da das unbestimmte Integral x2 f (x) divergent ist. Die spezielle Cauchy-Verteilung in der Form f (m; M, Γ) = 1 Γ 2π (m − M )2 + (Γ/2)2 (3.22) heisst auch Breit-Wigner Funktion und wird in der Kern- und Teilchenphysik benutzt, um die Energie- oder Massenverteilung nahe einer Kern- oder Teilchenresonanz mit Masse M und Breite Γ zu beschreiben. In der Tat kann in der Quantenmechanik gezeigt werden, dass jeder Zustand, der exponentiell zerfällt, eine Energiebreitenverteilung gemäss der BreitWigner Funktion besitzt. Die Breit-Wigner Funktion ist also die Fouriertransformierte einer Exponentialverteilung. Die Breit-Wigner Verteilung ist symmetrisch um das Maximum bei m = M . Der Parameter Γ ist das FWHM. In der Praxis muss innerhlab eines bestimmten Bereiches integriert werden, um Divergenzen zu vermeiden. 3.2.9 Uniforme Verteilung Die Wahrscheinlichkeitsdichtefunktion der uniformen Verteilung innerhalb des Intervalls [a, b] ist gegeben durch: 1 , wenn a ≤ x ≤ b (3.23) b−a Ausserhalb des Intervalls ist f (x) null. Der Erwartungswert und die Varianz sind gegeben durch: f (x) = Z b <x> = a V ar(x) = x 1 dx = (a + b), b−a 2 1 (b − a)2 12 25 3.3 Charakteristische Funktion Für eine Zufallsvariable x mit Wahrscheinlichkeitsdichte f (x) definiert man die charakteristische Funktion Φ(t) als den Erwartungswert von eitx : Φ(t) =< eitx >= Z eitx · f (x)dx (3.24) Die Umkehroperation ist 1 e−itx · Φ(t)dt (3.25) 2π Die charakteristische Funktion sowie ihre erste und zweite Ableitung für den speziellen Fall t = 0 lassen sich leicht berechnen: Z f (x) = Φ(0) = 1 dΦ(0) = i<x> dt d2 Φ(0) = −(σ 2 + < x >2 ) dt2 Charakteristische Funktionen helfen manchmal bei Rechnungen mit Wahrscheinlichkeitsdichten. So ist beispielsweise eine Faltung zweier Wahrscheinlichkeitsdichten f1 und f2 für die beiden Zufallsvariablen x1 und x2 sehr einfach zu berechnen. Eine sogenannte Faltung von f1 und f2 ergibt eine neue Wahrscheinlichkeitsdichte g(y), nach der die Summe der Zufallsvariablen y = x1 + x2 verteilt ist: Z Z g(y) = f1 (x1 )f2 (x2 )δ(y−x1 −x2 )dx1 dx2 = Z Z f1 (x1 )f2 (y−x1 )dx1 = f2 (x2 )f1 (y−x2 )dx2 (3.26) Mithilfe der charakteristischen Funktionen kann nun das Faltungsintegral elegant transformiert werden: Φg (t) = Φf1 (t) · Φf2 (t) (3.27) Die charakteristische Funktion der Faltung zweier Variablen erhält man als das Produkt ihrer charakteristischen Funktionen. Die charakteristischen Funktionen von einigen Wahrscheinlichkeitsdichten sind in Tabelle 3.2 gezeigt. Übungen: • Zeigen Sie explizit, dass die Varianz der uniformen Verteilung 1 12 (b − a)2 ist. • Wie gross ist die Schiefe der Poisson-Verteilung? • Ein Buch mit 500 Seiten enthält 50 Druckfehler, die zufällig über die Seiten verteilt sind. Wie gross sind die Wahrscheinlichkeiten, dass eine bestimmte Seite genau null, einen oder zwei Druckfehler enthält? • Der Torwart Sepp Maier war ein Elfmeterkiller. Im Schnitt hielt er 40% aller Elfmeter. Wieviele Elfmeter muss ein Fussballspieler dann schiessen, um mit einer 95% Wahrscheinlichkeit ein Elfmetertor erzielt? 26 Verteilung Binomial Poisson Gauss χ2 Uniform (von a nach b) Breit-Wigner Gamma Charakteristische Funktion Φ(t) = (peit + q)n it Φ(t) = eλ(e −1) 2 2 Φ(t) = eiµt−t σ /2 Φ(t) = (1 − 2it)−n/2 Φ(t) = (eibt − eiat )/(b − a)it Φ(t) = e−iE0 t−(Γ/2)|t| Φ(t) = (1 − it/µ)−α Table 3.2: Charakteristische Funktionen von einigen Wahrscheinlichkeitsdichten. • Ein Student möchte per Anhalter fahren. Im Mittel kommt zwar alle Minute ein Auto vorbei (zufällig verteilt), doch nur 1% der Autofahrer würden einen Anhalter mitnehmen. Wie gross ist die Wahrscheinlichkeit, dass der Student immer noch wartet, nachdem (a) 60 Auots vorbeigefahren sind und (b) nach einer Stunde Wartens? • Ein Experiment sucht nach freien Quarks der Ladung 2/3. Es wird erwartet wird, dass sie 4/9 der Ionisation I0 einer Elementarladung im Nachweisgerät produzieren. Nach einer Messung von 105 Spuren, findet man eine Spur, die mit 0.44I0 gemessen wird. Die Ionisationsmessungen im Detektor seien Gaussverteilt mit Standardabweichung σ. Berechnen Sie die Wahrscheinlichkeit, dass dieses Messergebnis aufgrund einer statistischen Fluktuation einer gemessenen Elementarladung entstanden ist, wenn (a) σ = 0.07I0 für alle Spuren ist und (b) für 99% der Spuren σ = 0.07I0 gilt, während 1% der Spuren eine Auflösung von 0.14I0 zeigt. 27 4 4.1 Fehler Der zentrale Grenzwertsatz Wir wollen uns in diesem Abschnitt mit der Frage beschäftigen, warum Messfehler häufig als Gauss-verteilt angenommen werden können7 . In der Praxis stammt der resultierende Messfehler meistens von verschiedenen unabhängigen Quellen. Der wohl wichtigste Satz in der Statistik beschäftigt sich mit der Summe einzelner Zufallsvariablen und kommt unter gewissen Bedingungen zu einem sehr überraschendes Ergebnis: Angenommen wir nehmen die Summe X von n unabhängigen Variablen xi , die jeweils von einer Verteilung mit Erwartungswert µi und Varianz σi2 stammen, dann gilt für die Verteilung von X: 1. X hat den Erwartungswert < X >= 2. X hat die Varianz V (X) = P P µi σi2 3. X wird Gauss-verteilt, wenn n → ∞ Es ist hierbei zu betonen, dass die xi nicht alle aus derselben Wahrscheinlichkeitsverteilung stammen müssen. Eine Zufallsgrösse X, die aus einer Summe von vielen unabhängigen Variablen resultiert, ist im Grenzfall n → ∞ Gauss-verteilt. Dabei spielt es (fast) keine Rolle, wie die Ursprungverteilungen aussehen, von denen die einzelnen xi abstammen. Einige wichtige Bemerkungen zum zentralen Grenzwertsatz • Wenn die Variablen xi nicht unabhängig sind, gelten nur die ersten beiden Bemerkungen des zentralen Grenzwertsatzes • Der zentrale Grenzwertsatz funktioniert umso besser, je näher man im Zentrum der Verteilung sitzt. Verteilungen können Gauss-ähnlich innerhalb von ±1σ sein, aber stark von der Gaussverteilung abweichen, je weiter man vom Zentrum weg ist. Diese Ausläufer oder tails können oft zu falschen Interpretationen führen. • Der zentrale Grenzwertsatz gilt für eine ganze Reihe von Verteilungen. Es gibt einige Kriterien, die erfüllt sein müssen, um den zentralen Grenzwertsatz anzuwenden. Ein wichtiges davon ist das sog. Lindeberg-Kriterium: Sei yk = xk , wenn|xk − µk | ≤ σk yk = 0, wenn|xk − µk | > σk . Dabei ist k eine willkürlich festgelegt Zahl. Wenn die Varianz (y1 + y2 + · · · yn )/σy2 → 1 für n → ∞ geht, sind die Voraussetzungen erfüllt. Dieses Kriterium fragt also danach, dass die Fluktuationen einer individuellen Variable nicht die Summe dominiert. Übung zum zentralen Grenzwertsatz: Erzeugen Sie 500 Zufallszahlen in einem Vektor, die gleichmässig zwischen 0 und 1 verteilt sind. Benutzen Sie dazu den Befehl rand in Matlab. Stellen Sie die Zahlen in einem Histogramm graphisch dar. Erzeugen Sie einen 7 Die Experimentalphysiker glauben fest daran, dass dies ein fundamentales Gesetz ist, die Theoretiker jedoch denken, dass dieser Sachverhalt experimnetell untermauert ist 28 zweiten 500-komponentigen Zufallsvektor und zeichnen Sie die Summe der beiden Zufallsvektoren in einem anderen Histogramm, i.e. X = x1 + x2 . Wiederholen Sie das Vorgehen und bilden Sie schliesslich die Summe von drei, fünf und zehn Zufallszahlen. Stellen Sie jeweils die neuen Zufallsvariablen in Histogrammen dar. Spätestens mit der Summe von fünf Zufallszahlen sollte die Verteilung bereits Gaussförmig sein. 4.2 4.2.1 Arbeiten mit Fehlern Averaging is good for you Angenommen wir messen dieselbe Grösse mehrmals. Dann kann der zentrale Grenzwertsatz in einer einfache Form angewandt werden, da dann alle µi und σi dieselben Werte µ und σ annehmen. X < X >= µ = nµ (4.1) Der Mittelwert x̄ = X/n besitzt folgenden Erwartungswert: < x̄ >= µ. Seine Varianz ist gegeben durch 1 X V (x̄) = 2 Vi = σ 2 /n (4.2) n √ Damit fällt die Standardabweichung des Mittelwertes mit 1/ n. Dieser Sachverhalt ist bekannt als das Gesetz der grossen Zahlen. Als Beispiel betrachten wir einen Detektor der Photonen nachweisen soll. Die Energieauflösung dieses Detektors sei 50 keV. Wird nur ein monoenergetisches Photon eines bestimmten Kernzerfalls nachgewiesen, ist seine Energie nur auf 50 keV bekannt. Wenn 100 (monoenergetische) √ Photonen gemessen werden, beträgt die Unsicherheit des Energiemittelwertes nur noch 50/ 100 = 5 keV. Für 1 keV Auflösung müssten 2500 Zerfälle registriert werden. 4.2.2 Mittelwertbildung durch Gewichtung Angenommen wir haben einen Satz von Messungen xi einer Grösse µ mit unterschiedlichen Fehlern σi . Dann ist die korrekte Form der Mittelwertbildung durch x̄ = σx̄2 = P xi /σi2 P 2 1/σi 1 P 1/σi2 (4.3) (4.4) gegeben. Hier werden die Einzelergebnisse durch unterschiedliche Gewichte gemittelt. Je kleiner ein Einzelfehler ist, umso grösser sein Gewicht. Der Beweis zur gewichteten Mittelwertbildung ist in vielen Textbüchern vertreten. Einige Kommentare zu dieser Regel: • Die Formel macht natürlich sofort Sinn, wenn die Messungen mit demselben Messgerät √ ausgeführt wurden und die Einzelfehler proportional zu 1/ ni sind. • Vorsicht ist geboten, wenn die Einzelergebnisse und Einzelfehler zu stark voneinander abweichen. Wenn ein Experiment zum Nachweis eines Zerfallsprodukts in einer Stunde 100 ± 10 Ereignisse misst, das andere jedoch in einer Stunde nur 1 ± 1 Ereignisse, dann würde die Formel als Ergebnis 2 ± 1 Ereignisse ergeben. Dennoch würde man hier den 29 Experiment LEPS CLAS SAPHIR CLAS DIANA ITEP HERMES SVD COSY ZEUS Masse 1540 ± 10 1543 ± 5 1540 ± 5 1555 ± 10 1539 ± 2 1533 ± 6 1528 ± 4 1526 ± 4 1530 ± 5 1521 ± 1.5 Zerfallsmodus K +n K +n K +n K +n K 0p K 0p K 0p K 0p K 0p K 0p Table 4.1: Die weltweit gemessenen Pentaquark Massen der Jahre 2003 und 2004 einfachen Mittelwert 50.5 ± 5 bevorzugen. Der Grund besteht darin, dass in der obigen Formel der wahre Fehler auftaucht und nicht der abgeschätzte. Unsere Annahme ist ferner, dass die wahre Ereignisrate über eine Stunde bei beiden Experimenten konstant ist und somit auch der Fehler bei beiden Experimenten gleich sein sollte. Daher sollten beide Experimente hier gleich gewichtet werden. Dieses Beispiel ist natürlich stark übertrieben und im prinizp sollte man in dieser Situation gar keine Mittelwertbildung anwenden, da es offensichtlich ist, dass die beiden Experimente imkompatibel miteinander sind. Übung: Die Masse des neuen Fünfquark-Zustandes (Pentaquark) θ+ wurde von mehreren Experimenten in zwei Zerfalssmodi bestimmt: Bestimmen Sie den gewichteten Weltmittelwert und seinen Fehler sowohl aus allen Experimenten, als auch für die beiden Zerfallsmodi getrennt. 4.2.3 Fehlerfortpflanzung 4.2.4 Funktionen einer Veränderlichen Es sei f eine Funktion einer Veränderlichen x. Wir entwickeln f an der Stelle um x0 : f (x) ≈ f (x0 ) + (x − x0 ) df dx (4.5) x=x0 Unter der Anwendung von V (f ) =< f 2 > − < f >2 folgt dann V (f ) = σf2 ≈ df dx 2 σx2 (4.6) Diese Annäherung ist nur dann gültig, wenn die Fehler klein sind, d.h. die erste Ableitung darf nicht zu stark in der Umgebung von einigen σ variieren. 4.2.5 Funktionen mit meherern Veränderlichen Wir betrachten zunächst eine Funktion g(x, y) mit zwei Veränderlichen x und y. Dann ist 30 f (x, y) ≈ f (x0 , y0 ) + ∂f ∂x · (x − x0 ) + x0 ,y0 ∂f ∂y · (y − y0 ) (4.7) x0 ,y0 Wieder nehmen wir an, dass die Fehler klein sind, so dass die höheren Ordnungen in der Taylor-Reihe vernachlässigt werden können. Wir erhalten dann als Ergebnis: ∂f 2 2 ∂f 2 2 ∂f ∂f = σx + σy + 2 · cov(x, y) ∂x ∂y ∂x ∂y cov(x, y) = h(x− < x >) · (y− < y >)i σf2 (4.8) (4.9) Im Falle von zwei unabhängigen Variablen x und y, fällt natürlich der Kovarianzterm weg. Folgende einfache Beispiele sollen die Rechenregeln zur Fehlerfortpflanzung mit zwei Variablen veranschaulichen: f (x, y) = x ± y σf2 = σx2 + σy2 ± 2 × cov(x, y) g(x, y) = x · y σg2 = y 2 σx2 + x2 σy2 + 2xy × cov(x, y) Im Falle einer Funktion f von n Variablen x1 , x2 , . . . xn lautet nun die Verallgemeinerung: σf2 = X j ∂f ∂xj !2 · σx2j + XX j k6=j ∂f ∂xj ! ∂f ∂xk · cov(xj , xk ) (4.10) Allgemein wird die Kovarianz nun zur Kovarianzmatrix Vij = cov(xi , xj ). Sie ist eine symR metrische n × n Matrix. Ihre Diagonalelemente Vii sind die Varianzen σx2i = (xi − < xi >)2 f (x1 , . . . xn )dx1 . . . dxn und stets positiv. Die Nichtdiagonalelemente können posiR tiv oder negativ sein und geben die Kovarianzen Vij = (xi − < xi >)(xj − < xj > )f (x1 , . . . xn )dx1 . . . dxn an. Schliesslich noch der allgemeinste Fall, in dem zu einem Satz an Zufallsvariablen x = (x1 , . . . , xn ) mit Erwartungswerten µ = (µ1 , . . . , µn ) ein Satz an Wahrscheinlichkeitsdichtefunktionen F(x) = f1 , f2 , . . . , fn vorliegt. Die Kovarianzmatrix Ukl ist dann gegeben durch: ! Ukl = cov(fk , fl ) = X i,j ∂fk ∂fl cov(xi , xj ) ∂xi ∂xj x=µ (4.11) Dies kann aber auch vereinfacht geschrieben werden als U = A V AT , wobei die Matrix der Ableitungen A gegeben ist durch ! Aij = ∂fi ∂xj x=µ und AT ihre Transponierte ist. 31 (4.12) Als Beispiel wollen wir die Polarkoordinatentransformation betrachten. Ein Punkt sei in den kartesischen Koordinaten x und y mit Fehlern σx und σy gemessen. Die Messungen in x und y gelte als unabhängig und wir können daher V11 = σx2 , V22 = σy2 und Vij = 0 setzen. Wir sind nun daran interessiert die Kovarianzmatrix in Polarkoordinaten zu erhalten. Die Transformationsgleichungen sind r2 = x2 + y 2 und θ = arctan(y/x). Daher folgt für A = ∂fi /∂xi : A= ∂r ∂x ∂θ ∂x ∂r ∂y ∂θ ∂y ! = x r −y r2 y r x r2 ! (4.13) Ferner bilden wir U = A V AT : ! U U 4.3 = = y x σx2 r r · −y x 0 r2 r2 1 (x2 σx2 + y 2 σy2 ) r2 xy (−σx2 + σy2 ) r3 −y r2 x r2 ! xy (−σx2 + σy2 ) r3 1 (y 2 σx2 + x2 σy2 ) r4 ! 0 σy2 ! · x r y r (4.14) = 2 σr2 σrθ 2 σrθ σθ2 ! (4.15) Systematische Fehler Systematische Fehler beeinflussen jeden Einzelwert der Messung in ähnlicher Weise. Sie können beispielsweise durch falsche Messmethoden, fehlerhafte Messgeräte oder durch zeitliche Änderungen der Messbedingungen entstehen. Im Gegensatz zu zufälligen Fehlern nehmen sie √ nicht mit 1/ n ab und der zentrale Grenzwertsatz findet keine Anwendung. Systematische Fehler werden im Messergebnis getrennt vom statistischen Fehler aufgeführt: x = 10.0 ± 1.2 (stat) ± 1.0 (sys) (4.16) Falls mehrere systematische Fehler auftreten, müssen ihre Korrelationen sorgfältig beachtet werden. Für eine formale Behandlung der systematischen Fehler einer Zufallsgrösse xi mit Mittelwert µi und Standardabweichung σi wird in der Kovarianzmatrix Vij der systematische Fehler sij berücksichtigt, falls dieser den Messwert verschiebt: ges Vi,j Z = ges Vi,j = (xi − si − µi )(xj − sj − µj )f (x1 , x2 , . . . , xn )dx Z Z Vij + si sj f (x)dx − si Z (xj − µj )f (x)dx − sj ges Vi,j = Vij + si sj (4.17) Z (xi − µi )f (x)dx (4.18) (4.19) Statistische und systematische Fehler sind unabhängig nach Voraussetzung und deshalb kann man sie quadratisch addieren. Der Kovarianzterm si sj mit i 6= j gibt ein Mass für die Grösse der Korrelation, die durch systematische Fehler hervorgerufen werden können. Als einfaches Beispiel betrachten wir den Fall von zwei Zufallsgrössen x1 und x2 mit gemeinsamen systematischen Fehler S, der die Messwerte systematisch verschiebt. Die Kovarianzmatrix lautet nun: ! σ12 + S 2 S2 ges Vi,j = (4.20) S2 σ2 + S 2 32 Falls ein systematischer Fehler T die Messwerte nicht absolut verschiebt, sondern nur relativ, d.h. T = xi mit z.B. = 0.01, dann ist die Kovarianzmatrix gegeben durch: ges Vi,j = σ12 + 2 x21 2 x1 x2 2 x1 x2 σ 2 + 2 x22 33 ! (4.21) 5 Monte Carlo, eine Methodik aus dem Spielkasino Im Arbeitsgebiet der Physik kommt es, teilweise schon bei relativ simplen Problemen, vor, daß eine analytische Berechnung von Ereignisabläufen schwierig oder gar unmöglich wird. Um trotzdem quantitative Aussagen machen zu können, kann man entweder versuchen das Problem analytisch zu vereinfachen (Näherung) oder es auf Grund physikalischer Grundlagen statistisch zu beschreiben. Eine Einführung in eine so genannte Monte Carlo (MC) Simulationen, bei denen Zufallszahlen und eine sequentielle Ablaufbeschreibung die Basis des Konzeptes bilden, wird hier in diesem Kapitel gegeben. Aufgrund der verwendeten Prinzipien von Wahrscheinlichkeitsrechnung und Statistik wird sie auch als Methode der statistischen Versuche bezeichnet. Figure 5.1: Zufällig verteilte Nadeln auf einer Fläche, die durch zwei parallele Geraden, im Abstand einer Nadellänge, begrenzt wird. 81 von 128 Nadeln kreuzen bei diesem Versuch hier den Rand. Die wohl älteste Anwendung der Monte Carlo Methode, die auch all ihre grundlegenden Elemente veranschaulicht, ist bekannt als das Nadelexperiment von Buffon8 , das auch in vielen Lehrbücher zitiert wird. Der wissenschaftlich versierte Graf verblüffte seine Kollegen im Jahre 1777 mit einer Bestimmung der Zahl π durch einfaches Abzählen von Nadeln, die zufällig auf eine Fläche derselben Breite geworfen wurden, wie die Nadeln lang sind (l). Er fand, daß der Quotient der Zahl von Nadeln (k), die den Rand der Fläche kreuzen (die dunkleren in Abb. 5.1), zur Gesamtzahl aller geworfenen Nadeln (n) gerade den Wert 2/π ergibt (k/n = 2/π = p). Man berechnet diesen Wert analytisch aus dem Integral über die ortsabhängige Wahrscheinlichkeit die Randlinie zu kreuzen, einer in der Mitte gespiegelten Arcus-Cosinus-Funktion (siehe Bild 5.2 links). Abb. 5.2 rechts zeigt die immer genauer werdende Bestimmung von π nach dieser Abzählmethode bei Vergrößerung der Zahl geworfener Nadeln. Der zu erwartende Fehler für den Wert π, der sich aus der Binomialverteilung der Werte k unter korrekter Berücksichtigung der Fehlerfortplanzung zu p √ 2n np(1 − p) = 2.37/ n ergibt ist als gestrichelte Linie eingezeichnet. 2 k Natürlich gibt es einfachere und genauere Verfahren, die Zahl π zu bestimmen. Der Versuch zeigt jedoch, dass numerische Problemstellungen durch die Wahrscheinlichkeitsrechnung näherungsweise gelöst werden können. Heute wird die Monte-Carlo-Methode in der Numerik vor allem dann vorgezogen, wenn die Formulierung des stochastischen Modells einfacher ist als das mathematische Modell einer numerischen Lösungsmethode. Monte-Carlo-Verfahren werden heute in extrem vielfältigen und unterschiedlichen Bereichen eingesetzt. Nur einige Beispiele sind: • Numerische Probleme, wie Berechnung bestimmter Integrale oder Lösung gewöhnlicher und partieller Differentialgleichungen. 8 George Louis Leclerc, Graf von Buffon (1707 - 1788), französischer Naturforscher 34 1 4.7124 0.9 P 4.3982 / areatot = 4/π / 2 = 2/π 4.0841 0.7 3.7699 0.6 3.4558 2/p cross (x) 0.8 p=∫+1 P (x) −1 cross 0.5 3.1416 0.4 2.8274 0.3 2.5133 0.2 2.1991 0.1 1.885 0 −1 −0.5 0 0.5 0 1 10 x, Position zwischen den Linien 1 10 2 10 3 10 4 10 5 10 Anzahl geworfener Nadeln Figure 5.2: Wahrscheinlichkeit für Nadeln den Rand zu berühren in Abhängigkeit ihrer Position zwischen den beiden Geraden und Ergebnis der Monte-Carlo-Simulation mit Fehlern (gestrichelte Linie). • Zuverlässigkeitsuntersuchungen technischer Systeme und anderer Produkte, etwa die Bestimmung der Lebensdauer von Glühlampen. • Probleme des Operations-Research, wie Lagerhaltungs- und Transportprobleme. • Untersuchung von Erdbeben und weiteren Naturphänomenen. • Entscheidungsfindung durch Simulation oder Risikobewertung von Portfolien im Investment Banking. Im Allgemeinen gliedern sich Monte-Carlo-Methoden in drei wesentliche Stufen: • Für das ursprüngliche mathematische Modell muß ein stochastisches Modell gefunden werden, welches das Problem gut genug beschreibt. • Es muß eine Folge von Zufallszahlen erzeugt werden, deren Folgenglieder mögliche reale Situationen simulieren, also insbesondere dieselbe vorgegebene Verteilung besitzen. • Aus den Realisierungen der Zufallsgrößen müssen Schätzwerte für das Ausgangsproblem ermittelt werden. Monte Carlo war namensgebend für diese Art von Verfahren: Erste Tabellen mit Zufallszahlen wurden durch Roulette-Spiel-Ergebnisse im Spielcasino von Monte Carlo erzeugt. Die mit Glücksspielen zusammenhängenden Probleme waren durchaus Anlaß für Wissenschaftler und Gelehrte sich mit Fragen der Zufälligkeit von Ereignissen näher auseinanderzusetzen. Hinzu kamen Problemstellungen aus Versicherungsgesellschaften oder aus der Beobachtung von Naturphänomenen. 5.1 Zufallsgeneratoren In Computern werden Zufallszahlen mit Hilfe von Rechenalgorithmen erzeugt, sind also prinzipiell reproduzierbar und heißen daher auch Pseudozufallszahlen. Eine ihrer wichtigsten Merkmale sind die Periodenlänge, nach der sich analytisch generierte Zahlen wiederholen, und Korrelationen unter den generierten Zahlen. Mittlerweile wurden Algorithmen 35 entwickelt, bei denen sich die Folge erst nach 219937 Zahlen wiederholt und deren Zahlen bis zur Wiederholung für viele praktische Zwecke unkorreliert erscheinen. Üblicherweise werden zunächst gleichförmig verteilte Zahlen im Intervall ]0...1[ erzeugt, die später in Zufallszahlen anderer Verteilungen transformiert werden. Die Randwerte 0 und 1 sind ausgenommen, da sie Probleme bei weiteren Rechnungen verursachen können. Wir bezeichnen solch eine Wahrscheinlichkeitsdichte mit U (0, 1) (uniform distribution), die Zufallszahlen selbst mit u. ( U (0, 1) = 1 f alls 0 < u < 1 0 sonst 36 Erzeugung gleichförmiger Zufallszahlen mit dem Computer Ein einfacher und klassischer Generator ist der allgemeine linear kongruente Generator. ni+1 = (a · ni + c) mod m ui = ni /m Er benötigt drei ganzzahlige Konstanten, den Multiplikator a, den Summanden c und den Modul m. Generatoren mit Summand c = 0 werden multiplikativ linear kongruente Generatoren genannt. Die Verteilung und Korrelationen unter den ersten 10000 Zahlen dieses Generators, der in den 60er Jahren von IBM für 32-Bit Ganzzahldarstellung entwickelt wurde und unter dem Namen RANDU berühmt wurde, mit den Werten m = 231 , a = 65539 und c = 0 sind in Abb. 5.3 dargestellt. Das MATLAB Program für den Zufallszahlengenerator RANDU lautet: %%%% MATLAB RANDU %%% ev = 10000; u = zeros(ev,1); u(1) = 1; a = 65539; m = 2^31; for i=2:ev u(i) = mod(a * u(i-1),m); end u=u/m; Eine weitere wichtige Eigenschaft von Pseudozufallszahlen ist der benötigte Startwert n1 der auch Saatzahl (seet) genannt wird und in diesem Beispiel auf den Wert 1 gesetzt wurde. Die Wahl des Startwerts garantiert zum einen, daß exakt die gleichen, oder gesichert verschiedene Ausgangsbedingungen einer MC-Simulation hergestellt werden können. Übung: Vergleichen Sie die ersten 10 Zufallszahlen von RANDU für zwei verschiede Startwerte. Plotten Sie die Tripel ui , ui+1 , ui+2 in 3 Dimensionen (plot3), drehen Sie die Ansicht bis Sie die 15 Hyperebenen in ]0...1[3 sehen. 1 1 0.8 0.8 100 0.6 randi+2 ui+2 Eintraege pro Bin (0.01) 150 0.4 0.2 0 1 0 1 0.8 0.6 0.4 0.2 0.4 ui 0.6 0.8 1 0.4 0.2 50 0 0 0.6 ui+1 0.2 0 0 0.2 0.4 ui 0.6 0.8 1 0.8 0.6 0.4 randi+1 0.2 0 0 0.2 0.4 0.6 0.8 1 randi Figure 5.3: Histogram (100 Bins) der ersten 10000 mit RANDU erzeugten Zufallszahlen und Korrelationen unter jeweils drei aufeinanderfolgenden Werten (ungebinnt). Zum Vergleich wurden 10000 Werte, generiert mit der MATLAB-Funktion rand, in gleicher Weise in den rechten Graph eingetragen. Es ist eine allgemeine Eigenschaft linearer Generatoren, daß die k-Tupel aufeinander folgender Zufallszahlen im k-dimensionalen Raum auf (k-1)-dimensionalen Hyperebenen liegen. Der maximale Abstand dieser Ebenen ist ein wichtiger Test für lineare Generatoren (Spektraltest). Der rechte Graph in Abbildung 5.3 zeigt im Vergleich zu RANDU (mittleres Bild), 37 die wesentlich gleichmäßigere Verteilung des MATLAB Generators rand. Hinweis zu MATLAB: MATLAB arbeitet mit “double precision” reellen Zahlen, d.h. mit 64 Bits (Vorzeichen 1 Bit, Exponent 11 Bits und Mantisse 52 Bits). Die eingebauten Zufallsgeneratoren rand und randn verwenden ebenfalls den Algorithmus des multiplikativen linear kongruenten Generators mit den Parametern a = 75 und m = 231 − 1. Damit können Fließkommazahlen im Intervall [2−53 , 1−2−53 ] erzeugt werden mit einer theoretischen Periode von 21492 Werten bis der Generator sich wiederholt9 . In MATLAB 6 wird im Vergleich zu früheren Versionen der Ausgangszustand der eingebauten Zufallsgeneratoren rand und randn nicht mehr durch eine einzige Saatzahl bestimmt, sondern durch einen 35-elementigen Vektor, der den Status (state) des Generators definiert. Für den täglichen Gebrauch sind die Standard-Zufallsgeneratoren wie sie heute in vielen Computerprogrammen implementiert sind, meist vollkommen ausreichend. In einigen Spezialfällen, z.B. QCD Gitter-Eichtheorie-Rechnungen, werden jedoch höherqualitative Generatoren benötigt. Zwei Verfahren sind heute üblich, um Zufallszahlen mit minimalen Korrelationen und außerordentlich großen Periodenlängen zu erhalten: • Kombination: Zwei Zufallszahlen werden mit je einem Generator erzeugt, und eine neue durch die Operationen +, − oder Exklusiv-ODER erzeugt. • Durchmischung: Ein Speicher wird mit einer Reihe von Zufallszahlen gefüllt, und das Resultat eines zweiten Generators wird benutzt, um die Adresse der nächsten Zufallszahl im Speicher zu bestimmen. 5.2 Tests von Zufallsgeneratoren Die wichtigsten Test von Zufallsgeneratoren wurden bereits angesprochen. Für einen Überblick über die Vielzahl von entwickelten Methoden verweisen wir auf Knuth10 . Test auf gleichförmige Verteilung Das Intervall [0,1] wird in k gleiche Unterintervalle der Länge 1/k unterteilt. N Zufallszahlen ui werden erzeugt und es wird gezählt, wieviele der Zahlen in jedes dieser Unterintervalle hineinfallen. Nennt man die Zahl der Fälle in jedem Unterintervall Ni , i=1..k, dann sollte (für N/k≥10) die Summe χ2 = k X (Ni − N/k)2 N/k i=1 näherungweise einer χ2 -Verteilung mit (k-1) Freiheitsgraden folgen, d.h. im Mittel sollte das Verhältnis χ2 /(k-1) gleich 1 sein. Man kann analoge Ausdrücke für nicht-gleichförmige Verteilungen konstruieren. Korrelationstest Wenn n sukzessive Zufalllszahlen als die Koordinaten eines Punktes im n-dimensionalen Raum aufgezeichent sind, liegen die Punkte auf Hyperebenen (s.o.). Ein guter Generator besitzt viele Hyperebenen, die etwa gleichmäßig verteilt sind. Der Effekt ist 9 Die relative Rechenpräzision in MATLAB für Fließkommazahlen beträgt nominell 2−52 (vgl. Funktion eps) 10 D. E. Knuth. The Art of Computer Programming, Volume II: Seminumerical Algorithms. Computer Science and Information Processing. Addison Wesley, Reading, Mass., 1981 38 ausgeprägter, wenn man nur die Bits niedriger Ordnung nimmt. Lücken-(gap-)Test Man wählt zwei Zahlen α, β mit 0 ≤ α < β ≤ 1. Man erzeugt r+1 Zufallszahlen, die gleichmäßig im Intervall [0,1] verteilt sind. Die Wahrscheinlichkeit daß die ersten r-Zahlen außerhalb des Intervalls [α, β] liegen und die letzte, (r+1)ste Zahl innerhalb, sollte sein: Pr = p(1 − p)r mit p = β − α Random Walk-Test Man wählt eine Zahl 0 < α << 1. Man bildet eine große Menge von Zufallszahlen und registriert die Zahl der Fälle r, in denen eine Zufallszahl kleiner als α erscheint. Man erwartet eine Binomialverteilung für r mit p = α. Der test ist sehr empfindlich für große Werte von r. Der Test sollte auch gemacht werden, indem man die Menge der Zufallszahlen zählt, die größer als (1-α) sind. Man erwartet in diesem Fall natürlich die selbe Verteilung für r. 5.3 Beliebig verteilte Zufallszahlen In den meisten Fällen einer Monte Carlo Rechnung werden Zufallszahlen benötigt, die einer bestimmten Wahrscheinlichkeitsdichte f (x) folgen, die keine Gleichverteilung ist, wie die generierten Zahlen aus U (0, 1). Zum Beispiel kann eine Normalverteilung einen Meßfehler in der Simulation beschreiben. In den folgenden Unterkapiteln werden die wichtigsten Methoden zur Erzeugung von beliebig-verteilten Zufallszahlen xi besprochen. 5.3.1 Umkehrfunktion der kumulativen Verteilung Eine Standardtechnik beginnt mit Zufallszahlen ui ∈ U (0, 1) und transformiert diese in die Variablen xi unter Verwendung der Umkehrfunktion einer kumulativen Verteilung. Es gilt: Z x x = F −1 (u) f (t) dt = F (x) = u f (x) dx = U (0, 1) du −∞ F −1 ist hierbei die Umkehrfunktion der kumulativen Verteilungsfunktion F (x), die natürlich auf 1 normiert sein muß. Für eine Folge gleichförmiger Zufallszahlen ui folgen die Zufallszahlen xi = F −1 (ui ) der Wahrscheinlichkeitsdichte f (x). F(x) 1 F(x) 0.8 u f(x) 0.6 0.4 0.2 f(x) 0 0 a x b Figure 5.4: Erzeugung von Zufallszahlen einer kontinuierlichen Verteilung f (x) durch Transformation gleichverteilter Zufallszahlen mit dem Inversen ihrer kumulativen Verteilungsfunktion F (x). Diese direkte und elegante Methode kann allerdings nur angewandt werden, wenn das Integral einer Wahrscheinlichkeitsdichte als analytische Funktion F (x) ausgedrückt und die Funktion 39 F (x) invertiert werden kann. Die Methode ist in Abb. 5.4 illustriert. Beispiel: Erzeugung von Zufallszahlen für eine Exponentialverteilung. Die normierte Exponentialverteilung für die Variable x ist durch die Wahrscheinlichkeitsdichte f (x, λ) = λe−λx für x ≥ 0 gegeben, und sie ist Null für negative Werte von x. Z u= x λe−λt dt = 1 − e−λx 0 Das Ergebnis ist die Formel xi = −ln(1−ui )/λ, oder weil ui und 1−ui beide im Intervall ]0..1[ gleichverteilt sind, ist xi = −ln(ui )/λ für die Folge von exponentiell verteilten Zufallszahlen xi . Wenn es sich in einer Anwendung um sehr große Zufallswerte handelt (z.B. sehr lange Lebensdauern t >> τ = 1/λ), dann kann die obige Methode unter Umständen nicht genau genug sein. Sehr große Werte Werte von x werden durch sehr kleine Werte von u erzeugt. Wegen der diskreten Natur von Gleitkommazahlen in einem Rechner werden deshalb sehr große Werte von x auch diskret sein. Wird ein kongruenter Generator mit einem Modul m benutzt, dann ist die kleinste Zahl, die ungleich Null ist, gegeben durch 1/m, und der größte transformierte Zufallswert wird ln m sein, während die nächst größeren Werte ln m − ln 2, ln m − ln 3, usw. sind. Vergleiche dazu auch die Diskussion zu den in MATLAB erzeugten Zufallszahlen auf den vorhergehenden Seiten. 5.3.2 Brute Force Methode Wenn es keinen einfachen Weg gibt, um nach der analytischen Methode vorzugehen, kann man nach dem folgenden Algorithmus Zufallszahlen entsprechend einer gegebenen Wahrscheinlichkeitsdichte f (x) erzeugen, was jedoch oft nicht sehr effektiv ist. Unter der Annahme, daß die Variable x auf einen Bereich a < x < b beschränkt ist, bestimmt man eine obere Schranke c mit c ≥ max(f (x)); max(f (x)) ist dabei das Maximum von f (x) im Intervall [a,b]. Damit füttert man folgendes Programm: 1. Man wählt xi gleichmäßig verteilt aus dem Intervall [a,b]: xi = a + ui · (b − a) 2. Man wählt eine weitere Zufallszahl uj ∈ U (0, 1) 3. Wenn f (xi ) < uj ·c ist, geht man zurück nach 1., sonst akzeptiert man xi als Zufallszahl Die Effizienz dieses Verfahrens ist praktisch gegeben durch das Verhältnis der Fläche von f (x) im Intervall [a,b] zur Gesamtfläche c · (b − a) des Raumes der generierten Paare (ui , uj ). Die Effizienz kann bedeutend erhöht werden, wenn man eine Funktion s(x) finden kann, die die ungefähre Gestalt von f (x) besitzt und deren Stammfunktion umgekehrt werden kann. Dann wählt man eine Konstante c so, daß für alle x aus [a,b] gilt: c · s(x) > f (x). Mit Z x xi = S −1 (ui ) s(t)dt = S(x) −∞ kann man den folgenden Algorithmus anwenden: 1. Man wählt eine Zufallszahl ui und berechnet xi = S −1 (ui ) 40 2. Man wählt eine weitere Zufallszahl uj ∈ U (0, 1) 3. Wenn f (xi ) ≤ uj · c · s(xi ) ist, geht man nach 1., sonst akzeptiert man xi als Zufallszahl Der Zufallszahl xi entspricht eine s(x)-Verteilung. Die Wahrscheinlichkeit, daß sie in Schritt 3 akzeptiert wird, ist f (xi )/(c · s(xi )); Multiplikation der Wahrscheinlichkeiten ergibt f (x)/c. 5.3.3 Speziell verteilte Zufallszahlen Zufallswinkel und -vektoren in zwei Dimensionen. Ein Zufallswinkel φ, gleichmäßig verteilt in [0,2π], wird durch φi = 2π · ui erzeugt. Der Zui fallseinheitsvektor ist dann einfach (cosφ sinφi ). Zufallswinkel und -vektoren in drei Dimensionen. Hier wird zusätzlich zu den Werten von sin φ und cos φ ein Polarwinkel θ ∈ [−π/2, π/2] benötigt. Entsprechend dem Raumwinkelelement dΩ = sinθ dθ dφ = |d cosθ| dφ ergibt sich θj = arcsin(2 · uj − 1) aus der analytischen Transformation. Für die 3 Komponenten des Zufallseinheitsvektors ergeben sich ex = sinφ · cosθ, ey = cosφ · cosθ und ez = sinθ. 41 Standardisierte Normalverteilung. Dies ist eine der meist benötigten Verteilungen für Zufallszahlen. Ein einfacher, aber nur annähernd richtiger Generator für Zufallszahlen zi , die im Intervall [-6,6] einer Gaußverteilung √ 2 −x (1/ 2π · e /2 ) folgen, basiert auf dem zentralen Grenzwertsatz: zi = 12 X uj − 6 j=1 Natürlich kann man die Anzahl der Summenelemente vergrößern, was jedoch auf Kosten der Rechenzeit geht. In MATLAB ist bereits ein Generator für standardisiert-Gauß-verteilte Zufallszahlen eingebaut und wird über die Funktion randn aufgerufen. Die nachfolgende Tabelle listet weitere MATLAB-Zufallsgeneratoren aus der Statistics Toolbox auf, die bestimmten Verteilungen folgen. In der rechten Spalte sind die Grundgeneratoren aufgelistet, die MATLAB bei den einzelnen Verteilungen verwendet. Um Rechenergebnisse zu reproduzieren müssen die Zustände dieser Generatoren korrekt gesetzt werden. Verteilungsfunktion Beta Binomial χ2 Exponential Extremwert F-Verteilung Gamma Geometrisch Hypergeometrisch Invers Wishart Lognormal Multivariat-Normal Multivariat-T Negativ-Binomial Nicht zentral F Nicht zentral T Nicht zentral χ2 Normal(µ, σ) Poisson Rayleigh Student-t Diskrete Gleichverteilung Gleichverteilung (A, B) Weibull Wishart MATLAB-Funktion betarnd binornd chi2rnd exprnd evrnd frnd gamrnd geornd hygernd iwishrnd lognrnd mvnrnd mvtrnd nbinrnd ncfrnd nctrnd ncx2rnd normrnd poissrnd raylrnd trnd unidrnd unifrnd wblrnd wishrnd 42 Verwendete Generatoren rand, randn rand rand, randn rand rand rand, randn rand rand rand rand, randn randn randn rand, randn rand, randn rand, randn rand, randn randn randn rand, randn randn rand, randn rand rand rand rand, randn 5.4 Praktisches Vorgehen Eine typische Monte Carlo Analyse beginnt damit, daß k-Tupel (x1 , ..., xk )i , i = 1, ..., n von Zufallsgeneratoren nach den für den zu beschreibenden Prozess relevanten Verteilungen f (x1 , ..., xk ) generiert werden. Aus diesen können weitere interessante Größen al (x1 , ..., xk ) direkt berechnet werden. Anschließend können die Eigenschaften der abgeleiteten Größen al untersucht werden. Dabei lassen sich Randbedingungen in der Regel einfach dadurch berücksichtigen, daß für jedes k-Tupel entschieden wird, ob es akzeptiert oder verworfen wird. Generell interessante Eigenschaften der Verteilung der al sind ihre Normierung, ihr Mittelwert und ihre Varianz. Aber auch die volle Verteilung der al kann auf diese Weise analysiert werden. Die Monte-Carlo-Methode ist damit ein Verfahren zur Variablentransformation, das auch bei sehr komplexen Problemen noch anwendbar ist, bei denen analytische √ Verfahren scheitern. Die Genauigkeit der Ergebnisse skalieren im allgemeinen mit 1/ n, d.h. die Aussagen werden immer präziser je mehr k-Tupel generiert werden. Die Ursache √ für den Zuwachs an Genauigkeit mit 1/ n und die Überlegenheit der Monte Carlo Methode gegenüber numerischen Algorithmen für k > 4 wird im nächsten Abschnitt besprochen. 5.5 Monte Carlo Integration Deterministische Methoden numerischer Integration verwenden eine Anzahl von äquidistanten Funktionswerten. Dies funktioniert im Allgemeinen gut für Funktionen von einer oder wenigen Variablen. Deterministische Quadratur-Methoden werden jedoch für Funktionen von Vektoren sehr ineffizient. Für eine numerische Integration eines zweidimensionalen Vektors werden äquidistante Gitterpukte über einer Fläche benötigt, d.h. ein 10 · 10 Gitter benötigt bereits 100 Punkte. Hat der Vektor 100 Dimensionen, werden 10100 Gitterpunkte benötigt, praktisch unmöglich deterministisch zu erfassen. 100 Dimensionen ist hierbei keine unrealistische Zahl, da in physikalischen Problemstellungen eine Dimension einem Freiheitsgrad entspricht, und bereits die dreidimensionale Beschreibung eines einzigen Teilchens mindestens 3 Dimensionen in Anspruch nimmt. Die Monte Carlo Methode stellt hierbei eine Lösung für dieses exponentiell anwachsende Problem dar. Solange die hier betrachtete Funktion einigermaßen glatt ist, kann ihr Integral durch zufällig ausgewählte Punkte aus dem 100-dimensionalen Raum durch eine Art von Mittelung abgeschätzt werden. Nach dem zentralen Grenzwertsatz konvergiert das Ergebnis √ mit 1/ n gegen den richtigen Wert, d.h. Vervierfachung der Berechnungspunkte halbiert jeweils den Fehler des Ergebnisses, unabhängig von der Anzahl der Dimensionen. Diese Methode, auch als rohe Monte Carlo-Integrationsmethode bezeichnet wird, kann durch unten aufgeführte Verfahren verfeinert werden. Sie haben im Prinzip alle das Ziel, das Integral vor allem in den Bereichen genau zu berechnen, die einen großen Beitrag liefern, d.h. die Gitterpunkte sollten aus einer Verteilung gezogen werden, die der zu integrierenden ähnlich ist (vgl. Abschnitt importance sampling). In der Praxis ist es jedoch genau so schwierig die perfekte Verteilung zu finden als gleich das Integral zu lösen, d.h. man wird abwägen müssen welches Verfahren zur Varianzreduktion für das Problem am Geeignetsten ist. 43 5.5.1 Integral als Summe von Funktionswerten an zufälligen Stellen Das eindimensionale Integral einer Funktion f (x), I = ab f (x)dx wird mit der MC-Methode berechnet. Zunächst kann das Integral folgendermaßen geschrieben werden: R Z b I= 1 · f (x)dx = (b − a) · E[f (x)] a wobei E[f (x)] dem Erwartungswert von f (x) für eine zwischen den Grenzen a und b gleichförmige Wahrscheinlichkeitsdichte entspricht. Mit den Zufallszahlen ui ist die Verteilung von xi = a + ui · (b − a), gleichförmig in [a,b]. Der Monte Carlo Schätzwert des Integrals beträgt damit IM C = n b−aX f (xi ) ≈ I mit : xi = a + ui (b − a) und i = 1...n n i=1 Eine einfache numerische Formel zur Berechnung des Integrals zeigt die dazu prinzipielle Ähnlichkeit der Monte Carlo Methode (man vergleiche mit der Trapezregel): IN = n b−aX 1 b−a f (xi ) mit : xi = a + (i − ) · und i = 1...n n i=1 2 n Der Fehler σIM C des Schätzwertes des Integral IM C hängt von der Varianz von f (xi ) folgendermaßen ab, V [IM C ] = σI2M C = V n hb − a X n i f (xi ) = n b − a 2 h X n i=1 V i=1 i f (xi ) = (b − a)2 V [f (xi )] n entsprechend dem zentralen Grenzwertsatz. Diese Gleichung zeigt, daß die Varianz, d.h. das Quadrat des Fehlers von IM C , mit 1/n abnimmt und proportional zur Varianz von f (x) über dem Integrationsintervall ist. 5.5.2 Varianzreduzierende Methoden Es gibt einige Methoden zur Varianzreduzierung eines Monte Carlo Integrals, wir beschreiben hier die zwei wichtigsten. Partitionierung Die Varianz kann reduziert werden, wenn man das Integrationsintervall in zwei oder mehrere Bereiche aufteilt. Die Intervalle sollten so gewählt werden, daß der Integrand f (x) im gegebenen Bereich möglichst wenig variiert, d.h. man verwendet in der Praxis einen größeren Teil der erzeugten Zufallszahlen und kleinere Intervalle für Bereiche in denen f (x) stärker variiert. n IST RA n 2 b−c X c−aX f (a+ui (c−a))+ f (c+ui (b−c)) mit i = 1...n und a < c < b = n/2 i=1 n/2 i=1+ n 2 Importance Sampling Da die Varianz des Monte Carlo Ergebnisses proportional zur Varianz des Integranden ist, ist es vorteilhaft das Integral so zu transformieren, daß der neue Integrand eine kleinere Varianz 44 als der ursprüngliche hat. Unter Einführung einer Funktion g(x), die f (x) ähnlich ist, können wir schreiben: Z b Z f (x)dx = b h f (x) i a a A = G(a) IImpSl g(x) Z B g(x)dx = A g(x) Z dv(x) mit v(x) = x = G−1 (v) B = G(b) n A−B X f (x(vi )) = n i=1 g(x(vi )) h f (x) i mit g(x)dx = G(x) vi = A + ui (B − A) x(vi ) = G−1 (A + ui (B − A)) und i = 1...n Die Varianz des neuen Ergebnisses ist nun proportional zu der von f (x)/g(x), statt zu der von f (x) alleine. Bei geeigneter Wahl von g(x) kann durch die Methode des Important Samplings die Varianz des Monte Carlo Integrals ganz erheblich reduziert werden, es muss jedoch eine Funktion g(x) gefunden werden, die integrierbar und invertierbar ist, und f (x) genügend gut beschreibt (siehe Übungsaufgabe 3, Serie 7). 5.5.3 Vergleich mit numerischer Integration Trapezregel Die numerische Integration wird in ihrer einfachstenRForm nach der Trapez-Regel ausgeführt, d.h. der numerische Schätzwert des Integrals I = ab f (x)dx wird näherungweise berechnet durch: IT = b − a1 1 f (x0 ) + f (x1 ) + ... + f (xn−1 ) + f (xn ) n 2 2 b−a mit : xi = a + i · und i = 0...n n Der Fehler dieser Methode wird durch Taylorentwicklung und Summation der einzelnen Beiträge der n Intervalle unter Verwendung des zentralen Grenzwertsatzes als proportional zu 1/n2 bestimmt. Simpson’sche Regel Bei dieser Regel wählt man eine gerade Zahl n, also eine gerade Zahl von Intervallen IS = b − a f (x0 ) + 4f (x1 ) + 2f (x2 ) + 4f (x3 ) + ... + 4f (xn−1 ) + f (xn ) 3·n b−a mit : xi = a + i · und i = 0...n n Sie führt zu einem Fehler, der noch schneller mit der Zahl n der Intervalle abnimmt, nämlich mit 1/n4 . Im Vergleich dazu fällt der Fehler eines Integrales, das mit der Monte Carlo √ berechnet wurde nur mit 1/ n ab. Darum sind konventionelle Integrations-Methoden in einer Dimension immer besser als MC-Methoden. Für Integrale in vielen Dimensionen ist √ die Sache jedoch anders. In einem d-dimensionalen Raum hat man in jeder Dimension d n 45 Intervalle mit n=Anzahl der Punkte, für die der Integrand berechnet werden muß, und der √ Fehler aus der Trapezregel ist dann proportional zu 1/(d n)2 = n−2/d . Im Gegensatz dazu ist der Fehler bei der MC-Methode immer noch proportional zu n−1/2 . Die MC-Methode ist also dann besser, wenn gilt; − 2 1 ≤ − oder d ≥ 4 d 2 d.h. sobald 4 oder mehr Freiheitsgrade im zu betrachtenden Problem vorliegen. 46 6 Stichproben und Schätzungen Aus einer Grundgesamtheit von gewöhnlicherweise unendlich vielen Elementen wird eine Stichprobe (oder Messung) vom Unfang n Elementen genommen. Die Wahrscheinlichkeitsdichte der Grundgesamtheit ist durch f (x) mit Mittelwert µ und Varianz σ 2 gegeben. Aus der vorliegenden Stichprobe möchte man jetzt die im allgemeinen unbekannten Grössen Mittelwert und Varianz bestimmen. Unsere Aufgabe besteht also darin die beste Schätzung einer oder mehrerer Parameter der Grundgesamtheit anhand der Stichprobe durchzuführen. 6.1 Eigenschaften von Schätzungen Die Stichprobe sowie jede Funktion der Stichprobe sind selber Zufallsvariablen. Eine Schätzung ist eine Stichprobenfunktion, um einen oder mehrere Parameter ai der Grundgesamtheit zu bestimmen. Die Schätzung des Parameters ai durch eine Stichprobenfunktion wollen wir mit â bezeichnen. Wir wollen nun die folgenden Eigenschaften einer Schätzung definieren: • Eine Schätzung heisst erwartungstreu oder unverzerrt, wenn bei beliebigem Umfang der Stichprobe der Erwartungswert der (zufälligen) Grösse gleich dem zu schätzenden Parameter ist: < â >= a. In diesem Falle spricht man auch von einem unbiased esimate. Eine Schätzung ist verzerrt oder biased, wenn < â >= a + b ist. Die Zahl b heisst auch der bias der Schätzung. • Eine Schätzung heisst konsistent, wenn limn→∞ â = a. • Eine Schätzung heisst effizient, wenn die Varianz von â möglichst klein ist. • Ferner muss eine Schätzung robust gegenüber falschen Daten oder falschen Voraussetzungen sein. 6.2 6.2.1 Stichprobenfunktionen für kontinuierliche Verteilungen Schätzung des Mittelwerts Die Schätzung des Mittelwerts µ einer Wahrscheinlichkeitsdichte anhand von n unabhängigen Stichprobenelementen xi ist gegeben durch: µ̂ = 1X xi n i (6.1) Diese Schätzung ist erwartungstreu. Sie ist ausserdem konsistent aufgrund des zentralen Grenzwertsatzes. Ihre Varianz ist gegegen durch: V (µ̂) = 1 2 σ n (6.2) Ob die Schätzung des Mittelwertes effizient ist, hängt von der genauen Wahrscheinlichkeitsdichte der Grundgesamtheit ab. Bei einer uniformen Verteilung ist die effektivste Schätzung des Mittelwertes durch µ̂ = 0.5(xmax +xmin ) gegeben, die eine noch kleinere Varianz aufweist. Die Robustheit der Schätzung aus Gleichung 6.2 kann durch Benutzung des getrimmten Mittelwerts sogar noch erhöht werden. Dabei wird der Mittelwert durch Abschneiden bzw. Weglassen der grössten und kleinsten Werte bestimmt. 47 6.2.2 Schätzung der Varianz Als Schätzung der Varianz einer Grundgesamtheit bei unbekannten (wahren) Mittelwert eignet sich die folgende Stichprobenfunktion s2 : s2 = σˆ2 = 1 X (xi − µ̂)2 n−1 (6.3) 1 Mit µ̂ ist wiederum der geschätzte Mittelwert aus Gleichung 6.2 gemeint. Der Faktor n−1 in P 1 02 der obigen Gleichung verwirrt zunächst etwas. Im Gegensatz zu der Grösse s = n (xi − µ̂)2 ist die Schätzung s2 jedoch unverzerrt (unbiased). Man kann leicht zeigen, dass < s02 >= n−1 2 2 2 2 n σ 6= σ , während < s >= σ ist. Falls aber der Mittelwert µ der Grundgesamtheit bekannt ist und daher nicht geschätzt werden braucht, ist die Schätzung s02 für die Varianz σ 2 der Grundgesamtheit eine erwartungstreue Stichprobenfunktion: s02 = 1X (xi − µ)2 =< x2 > −µ2 n (6.4) Die Varianz des Estimators s2 kann berechnet werden als: V ar(s2 ) = n−3 2 1 µ4 − µ , n n−1 2 (6.5) wobei µk das k-the zentrale Moment ist. In einfacher Weise können auch die zentralen Momente µk abgeschätzt werden als: 1 X (xi − µ̂)k n−1 (6.6) n 1 X (xi − x̄)(yi − ȳ) = (xy ¯ − x̄ȳ) n−1 n−1 (6.7) µˆk = 6.2.3 Schätzung der Kovarianz Die Grösse Vˆxy = ist eine erwartungstreue Schätzung für die Kovarianz Vxy von zwei Zufallsvariablen x und y mit unbekannten (aber geschätzten) Mittelwerten. Der Korrelationskoeffizient ergibt sich dann zu Vˆxy ρxy = (6.8) sx sy 6.3 6.3.1 Die Maximum-Likelihood Methode Die Likelihood-Funktion Es liegen n Messungen der Zufallsvariablen x vor. Die den Messwerten xi zugrundeliegende Wahrscheinlichkeitsdichte f (x|a) soll bekannt sein. Hierbei steht a für einen oder mehrere unbekannte Parameter, von denen die Wahrscheinlichkeitsdichte abhängt. Unsere Aufgabe besteht wiederum darin, die beste Schätzung â des Parameters aus den vorliegenden Messdaten zu gewinnen. 48 Die Maximum-Likelihood-Methode geht von der ein- oder mehrdimensionalen Wahrscheinlichkeitsdichte f (x|a) der gemessenen Werte aus und bildet die Likelihood-Funktion11 : L(a) = f (x1 |a) · f (x2 |a) · · · f (xn |a) = Y f (xi |a) (6.9) Die Funktion L(a) ist für eine gegebene Stichprobe eine Funktion der Parameter a und gibt die Wahrscheinlichkeit an, bei einer vorgegebenen Wahl der Parameter a gerade die Messwerte xi zu erhalten. Die Likelihood-Funktion ist aber keine Wahrscheinlichkeitsdichte in den Parametern a. Nach dem Maximum-Likelihood-Prinzip ist nun die beste Schätzung von a derjenige Wert â welcher L(a) zu einem Maximum macht, d.h. gerade die Wahrscheinlichkeit maximiert, den beobachteten Satz von Zufallsgrössen xi zu erhalten: L(a) = Maximum Z f (x|a) = 1 ∀a (6.10) (6.11) Hierbei ist wichtig, dass die Normierung von f (x|a) in jedem Schritt aufrecht erhalten werden muss. Das Maximum wird nun durch Differenzieren gewonnen, d.h. dL(a)/da = 0 oder für mehrere Parameter ak : ∂L/∂ak = 0 ∀k. In der Praxis arbeitet man mit dem Logarithmus der Likelihood-Funktion l(a) = ln L(a); sie heisst Log-Likelihood Funktion. Da der Logarithmus eine monoton anwachsende Funktion ist, hat er sein Maximum an derselben Stelle und die Bedingung wird zu: l(a) = ln L(a) = X ln f (xi |a) = Maximum. (6.12) Als Beispiel wollen wir eine Wahrscheinlichkeitsdichte betrachten, die durch f (x|a) = 1 + a(x − 0.5) mit x zwischen 0 und 1 gegeben ist. Die uns zur Verfügung stehenden Daten xi seien 0.89, 0.03, 0.5, 0.36 und 0.49. Der Log-Likelihood der obigen Funktion ist dann gegeben durch l(a) = 5 X ln(1 + a(xi − 0.5)) (6.13) i=1 und ist in Figur 6.1 dargestellt. Das Maximum des Log-Likelihoods kann graphisch zu -0.6 bestimmt werden. 6.3.2 Einfache Anwendungen der Maximum-Likelihood Methode Exponentieller Zerfall: Als Anwendung einer Maximum-Likelihood (ML) Schätzung wollen wir einen exponentiellen Zerfall betrachten. Ein instabiles Teilchen mit Lebensdauer τ zerfällt gemäss einem Exponentialgesetz: 1 f (t; τ ) = e−t/τ (6.14) τ 11 Eine deutsche Übersetzung wird dadurch erschwert, dass likelihood ebenso wie probability einfach Wahrscheinlichkeit heisst. Es gibt aber einen fundamentalen Unterschied zwischen einer echten analytischen Wahrscheinlichkeitsdichtefunktion und einer Likelihood-Funktion. Letztere ist eine Stichprobenfunktion und demnach auch eine Zufallsgrösse 49 Figure 6.1: Die Log-Likelihood Funktion aus Gleichung 6.13 Uns interessiert nun der ML-Schätzwert für die mittlere Lebensdauer τ̂ , wenn n Teilchenzerfälle mit Werten ti gemessen wurden. Die Log-Likelihood Funktion ist daher ln L(τ ) = l(τ ) = X f (ti ; τ ) = X (ln i i 1 ti − ) τ τ (6.15) Eine Maximierung bezüglich τ ergibt die ML Schätzung τ̂ : τ̂ = 1X ti n i (6.16) Als ML Schätzung ergibt sich somit der Mittelwert. Ferner kann leicht gezeigt werden, dass die ML Schätzung in diesem Fall erwartungstreu ist. Gaussverteilung: Die Gauss-Wahrscheinlichkeitsdichte ist − 1 f (xi ; µ) = √ ·e 2πσi (xi −µ)2 2σ 2 i (6.17) Um eine ML-Schätzung für den Mittelwert µ̂ zu bekommen, bilden wir wiederum die LogLikelihood Funktion: l(µ) = X i 1 1 1 (xi − µ)2 ln √ + ln 2 − 2σi2 2π 2 σi ! (6.18) Eine Ableitung nach µ und Bestimmung des Maximums ergibt: dl(µ) dµ = X xi − µ σi2 i 2 i xi /σi 1/σi2 =0 (6.19) P µ̂ = 50 (6.20) Dies ist aber genau der gewichtete Mittelwert, den wir bereits im vorigen Kapitel kennengelernt haben. Falls die xi dieselben σi besitzen vereinfacht sich natürlich die Gleichung zu P µ̂ = n1 i xi . Ferner können wir im Falle derselben σi = σ die Likelihood-Methoe benutzen, um eine Schätzung der Varianz σˆ2 zu erhalten. Die ML Methode ergibt dann 1X σˆ2 = (xi − µ̂)2 n i (6.21) Dieser ML Estimator ist jedoch nicht erwartungstreu, wie wir bereits vorher gesehen haben. Allerdings geht der bias für n → ∞ gegen null. Die unverzerrte Schätzung der Varianz ist durch 1 X s2 = (xi − µ̂)2 (6.22) n−1 i gegeben. Poisson-Verteilung: Die Log-Likelihood Funktion für die Poisson-Verteilung ist gegeben durch l(µ) = X i ln X µxi −µ xi − nµ + const e = ln µ · xi ! i (6.23) Ableiten von l(µ) nach µ und gleich null setzen ergibt als Schäztwert für den Mittelwert einer P Poisson-Verteilung µ̂ = n1 i xi . 6.3.3 Eigenschaften der Maximum Likelihood Methode Wir wollen an dieser Stelle einige wichtige Eigenschaften von Likelihood und ML Methode aufzeigen. Für allgemeine Schätzungen (nicht nur für die ML-Methode) kann gezeigt werden, dass ∂b 1 + ∂a < (â − a)2 > = V (â) ≥ R (6.24) n (∂l/∂a)2 f (x|a)dx gilt. Diese Ungleichung wird als Rao-Cramer-Frechet Grenze oder auch Informationsungleichung genannt und gibt eine untere Schranke für die Varianz einer Schätzung. Der Nenner in der Ungleichung 6.24 heisst auch die Information bezüglich des Parameters a. Je grösser demnach die Information über die Stichprobe ist, desto kleiner ist seine Varianz. Im Falle des Gleichheitszeichens besitzt der Schätzwert die kleinstmögliche Varianz. Man spricht dann von einer effizienten Schätzung. Für die ML Methode kann in den allermeisten Fällen folgendes gezeigt werden: Wenn es einen effizienten Schätzwert für ein gegebenes Problem gibt, dann wird er durch die ML Methode gefunden. Dieser Schäztwert besitzt dann die kleinstmögliche Varianz gemäss der Rao-Cramer-Frechet Schranke, d.h. die Varianz des Schätzwertes ist durch den rechten Ausdruck der Gleichung 6.24 gegeben. Man sagt dann auch, dass der Schätzwert die minimale Varianz hat und spricht von einer Minimalschätzung. Wie wir bereits im Falle der Varianzschäztung bei der Gaussverteilung gesehen haben, sind die ML-Schätzungen jedoch nicht immer erwartungstreu bzw. unverzerrt. Dies kann nicht oft genug betont werden. Erst im Grenzwert n → ∞ wird die ML-Schätzung auch erwartungstreu, d.h. der bias verschwindet. Man spricht daher bei der ML-Methode von einer asymptotisch unverzerrten Schätzung. Ferner liefert die ML Methode gewöhnlicherweise 51 konsistente Schätzwerte, d.h. limn→∞ â = a. Die Tatsache, dass nicht alle ML Schätzungen erwartungstreu sind, hat etwas mit der Invarianz der ML Schätzwerte zu tun, wenn eine Parametertransformation durchgeführt wird. Dies bedeutet, dass es für die ML Methode keinen Unterschied macht, ob man den Parameter a oder eine Funktion f (a) schätzt, d.h. ˆ = f (â). f (a) 6.3.4 Fehlerberechnung bei der ML Methode Wir beginnen mit dem Fall eines Parameters und entwickeln die (negative) Log-Likelihood Funktion um a = â: 1 d2 F · (a − â)2 + · · · 2 da2 ! ! 2 1 d2 F (a − â) L(a) = const · exp − · (a − â)2 = const · exp − 2 da2 2σ 2 − ln L(a) = F (a) = F (â) + (6.25) (6.26) Die Likelihood-Funktion hat in dieser Grenze in der Nähe des Maximums die Form einer Gauss-Verteilung. Durch den Vergleich mit den Exponenten findet man: σ(â) = d2 F da2 a=â !−1/2 (6.27) Die negative Log-Likelihood-Funktion hat die Form einer Parabel und ihre zweite Ableitung ist eine Konstante. Der Wert von F (a) um das Minimum bei a = â ± n · σ ist 1 F (â ± n · σ) = F (â) + n2 2 (6.28) Dies bedeutet, dass der Log-Likelihood für ±1σ um ±0.5 vom Maximum abgefallen ist und für ±2 (3)σ entsprechend um ±2 (9/2). Damit können die Fehler eines Schätzwerts â leicht aus einem Graphen der Log-Likelihood Funktion bestimmt werden. Die Gesamtwahrscheinlichkeit, die in den Konfidenzintervallen â ± σ oder allgemein â ± nσ enthalten ist, kann aus der Gauss-Verteilung berechnet werden. Wenn die tatsächliche Log-Likelihood-Funktion ein parabolisches Verhalten aufweist, kann somit die Standardabweichung leicht aus obiger Gleichung bestimmt werden. Ist der Grenzfall N → ∞ noch nicht erreicht, ist die LikelihoodFunktion noch nicht gauss-förmig und die Log-Likelihood-Verteilung daher nicht parabolisch. Man muss dann eine nichtlineare Transformation der Variablen a in eine Variable z = z(a) suchen, so dass F (z) ein parabolisches Verhalten aufweist. Erst wenn diese Transformation gefunden ist, kann man mit dem obigen Verfahren eine Standardabweichung σz von z bestimmen. Wegen der Invarianzeigenchaft der ML Schätzungen ist die beste Schätzung ẑ = z(â). Ferner gelten folgende Identitäten: 1 = F (â) + 2 1 F (ẑ − σz ) = F (ẑ) + = F (â) + 2 F (ẑ + σz ) = F (ẑ) + 52 1 = F (â) + σr 2 1 = F (â) − σl 2 wobei σl und σr die links- und rechtsseitigen Standardabweichungen für den Parameter a r sind. Das Resultat einer Likelihood-Anpassung wird dann in der Form x+σ −σl angegeben. Eine oft in der Praxis benutzte Methode die Standardabweichung oder Varianz eines Parameters abzuschätzen, ist die MC-Methode. Dabei wird eine grosse Anzahl von Experimenten simuliert und der ML-Schätzwert jedesmal berechnet. Aus den so ermittelten Schätzwerte der MC-Experimente kann dann die Varianz berechnet werden. Dazu benutzt man am besten den unbiased estimator s2 der Varianz aus Gleichung 6.3. Als ”wahrer” Wert von a zur Erzeugung der MC-Ereignisse kann der aus den Daten gewonnene ML-Schätzwert benutzt werden. Im Falle mehrerer Parameter a1 , a2 , . . . , am ist die Likelihood-Funktion durch L(a1 , a2 , . . . , an ) = n Y f (xi ; a1 , a2 , . . . , am ) (6.29) i=1 gegeben. Entwickelt man die negative Log-Likelihood-Funktion um ihr Minimum bei â, so erhält man, da bei a = â die ersten Ableitungen verschwinden: F (a1 , . . . , am ) = F (â1 , . . . , âm ) + = F (â1 , . . . , âm ) + 1 X ∂2F (ai − âi )(ak − âk ) + · · · 2 i,k ∂ai ∂ak (6.30) 1X Gik (ai − âi )(ak − âk ) + · · · 2 i,k (6.31) Asymptotisch nähert sich die Likelihood-Funktion L(a) = exp(−F (a)) einer Gauss-Wahrscheinlichkeitsdichte für die Variablen âi an. Die Kovarianzmatrix des Vektors a ist dann gegeben durch V Gik = G−1 ∂2F = ∂ai ∂ak (6.32) (6.33) gewonnen am Minimum â. Im Falle von zwei Parametern zeichnet man Konturlinien als Linien gleicher Likelihood-Werte F (a) = F (â) + 1/2r2 . Im Falle grosser Datenmengen, d.h. n → inf ty wird die Funktion eine zweidimensionale Gaussverteilung und die Konturlinien für ∆F = 0.5 entsprechen Ellipsen deren grossen Halbachsen die 1σ Fehler repräsentieren. Als Beispiel schauen wir uns erneut die Gaussverteilung an, um die beiden Parameter Standardabweichung σ und Mittelwert µ mittels der ML-Methode abzuschätzen. Die LogLikelihood-Funktion ist ln L = X i 1 1 1 (xi − µ)2 ln √ + ln 2 − 2σi2 2π 2 σi ! (6.34) Um die Varianzen von µ und σ zu berechnen werden die zweiten Ableitungen an den Stellen µ = x̄ und σ 2 = x¯2 − µ2 gebildet. Dies ergibt dann ∂ 2 ln L > = −N/σ 2 ∂µ2 ∂ 2 ln L < > = −2N/σ 2 ∂σ 2 P ∂ 2 ln L 2 < xi − µ > < > = − =0 ∂µ∂σ σ3 < 53 Da die Matrix diagonal, kann die Inversion leicht durchgeführt werden. Die Kovarianz ist null und es ergeben sich folgende Ausdrücke: ∂ 2 ln L −1 > = σ 2 /N ∂µ2 ∂ 2 ln L −1 V (σ) = − < > = σ 2 /2N ∂σ 2 V (µ) = − < 6.3.5 Erweiterte Maximum-Likelihood-Methode In der Standard ML-Methode müssen die Wahrsscheinlichkeitsdichten korrekt auf eins normiert sein. In der Methode des erweiterten ML (EML) wird diese Bedingung aufgehoben und benutzt anstelle ein Integral über eine Wahrscheinlichkeitsdichte deren Normierung nicht festgelegt ist. Dies ist zum Beispiel bei Problemen der Fall, wenn die mittlere Anzahl von Ereignissen ν bei Zählexperimenten selbst ein Parameter ist, den es zu bestimmen gilt. Die EML Likelihood-Funktion ist dann gegeben durch L(ν, a) = n n ν n −ν Y e−ν Y f (xi ; a) = νf (xi ; a) e n! n! i=1 i=1 (6.35) Dies ist die normale Likelihood-Funktion mit einer korrekt normierten Wahrscheinlichkeitsdichte f (xi ; a) multipliziert mit der Poisson-Wahrscheinlichkeit n Ereignisse bei ν erwarteten zu erhalten. Wir unterscheiden nun zwei Fälle: Im Fall 1) soll der Parameter ν selber von a abhängen und im Fall 2) nicht. Zunächst nehmen wir Fall 1) an. Die EML Log-Likelihood Funtkion kann dann geschrieben werden als ln L(a) = n ln ν(a) − ν(a) + n X ln f (xi ; a) (6.36) i=1 = −ν(a) + n X ln(ν(a)f (xi ; a) (6.37) i=1 wobei additive Terme die nicht von den Parametern abhängen weggelassen wurden. Durch Berc̈ksichtigung des Poisson-Terms in der EML-Funktion werden beim Abschätzen der Parameter â sowohl Informationen aus den xi als auch von n benutzt, so dass die resultierende Varianz in der Regel kleiner wird. Zur Anschauung betrachten wir eine Teilchenreaktion, bei der die erwartete Anzahl von Ereignissen durch einen Reaktionsquerschnitt σ, eine Luminosität L und eine Nachweiswahrscheinlichkeit gegeben ist: ν = σ · L · . Sowohl der Reaktionsquerschnitt σ als auch die zur Beschreibung benutze Ereignisvariable x mögen nun von einer ganzen Reihe von Parametern wie Teilchenmassen oder Kopplungen abhängen. Die Standardabweichung der mit der EML-Methode geschätzen Parameter entspricht nun den Fluktuationen der Schätzwerte, die man erhielte, wenn man zahlreiche Experimente durchführen würde, bei denen die Luminosität und nicht die Anzahl der beobachtbaren Ereignisse festhalten wird. Im anderen Fall existiert kein funktionaler Zusammenhang zwischen ν und a. Die Ableitung der Gleichung 6.35 und nullsetzen ergibt dann als Schätzwert schlicht ν̂ = n, wie es zu erwarten ist. Durch Gleichsetzen der Ableitung bezüglich den ai von Gleichung 6.35 erhalten 54 wir als Schätzwerte für âi dasselbe wie in der normalen ML-Methode. Trotzdem wäre die Varianz der âi jetzt grösser, da sowohl â als auch n Quellen von statistischen Unsicherheiten sind. 6.3.6 Binned Maximum Likelihood Zur Bildung der Likelihood-Funktion wird normalerweise auf alle zur Verfügung stehenden Datenpunkte xi zurückgegriffen. Die ML-Methode hat den Vorteil, dass sie unbinned ist und daher im Prinzip kein Informationsverlust durch Einteilung der Daten in bins (Klassenintervalle) entsteht. Existieren aber grosse Datenmengen, ist es numerisch vorteilhafter, die Daten in Klassenintervalle einzuteilen und in Form von Histogrammen zu präsentieren. Wir nehmen an, dass die Zufallsvariablen xi gemäss einer Wahrscheinlichkeitsdichte f (xi ; a) verteilt seien. Unsere Aufgabe besteht nun darin, die Wahrscheinlichkeitsdichte f (xi ; a) an die Zahl der Datenpunkte in jedem Klassenintervall i anpassen. Der Erwartungswert ν = (ν1 , . . . , νN ) für die Anzahl der Einträge pro Bin i ist gegeben durch: Z νi = ntot = xmax i xmin i f (x; a)dx (6.38) Hierbei sind xmin und xmax die Grenzen des Bins i. Wir können das Histogramm als eine i i Art Einzelmessung eines N -dimensionalen Zufallsvektors ansehen für den die kombinierte Wahrscheinlichkeitsdichte durch eine multinomiale Verteilung gegeben ist: fkomb (n; ν) = ntot ! n1 ! · · · nN ! ν1 ntot n ··· 1 νN ntot n (6.39) N Dadurch drücken wir die Wahrscheinlichkeit in bin i durch den Erwartungswert νi dividiert durch die gesamte Anzahl ntot der Einträge aus. Der Logarithmus der kombinierten Wahrscheinlichkeit ergibt nun die Log-Likelihood Funktion (hierbei sind Terme, die nicht von den interessanten Parametern abhängen weggelassen): l(a) = N X ni ln νi (a) (6.40) i=1 Nun werden die Schätzwerte für â wie gewöhnlich durch Maximierung von l(a) gefunden. Im Limit kleiner bins oder sehr grosser N wird die Likelihood-Funktion dieselbe wie im gewöhnlichen (unbinned) ML Fall ohne Klassenintervalleinteilung. Dadurch ist die binned Likelihood-Funktion universell verwendbar, auch wenn die Einträge in einigen bins null sind. 6.3.7 Kombination von Messungen mit der ML Methode In diesem Kapitel wollen wir uns kurz damit beschäftigen, wie man mittels der ML Methode Messungen miteinander kombiniert. Angenommen wir haben einen Satz von n gemessenen Datenpunkten mit Wahrscheinlichkeitsdichte f (x; a). Ferner liegt ein zweiter Datensatz (eines zweiten Experiments) mit m gemessenen Datenpunkten yi vor, die gemäss einer Wahrscheinlichkeitsdichte g(y; a) verteilt sein sollen. Die Wahrscheinlichkeitsdichte g(y; a) kann zwar eine andere andere funktionale Form als f habe, sie soll aber dennoch vom selben Parameter a abhängen. Als Beispiel kann der Parameter a eine Teilchenmasse sein. 55 Die beiden Experimenten können nun zusammen als ein Einzel-Experiment interpretiert werden und ihre kombinierte Likelihood-Funktion ist dann: L(a) = n Y f (xi ; a) · i=1 m Y g(yi ; a) = Lx (a) · Ly (a) (6.41) i=1 Die Likelihood-Gesamtfunktion ist also das Produkt der Einzellikelihood-Funktionen. Alternativ ist der kombinierte Log-Likelihood die Summe der einzelnen Log-Likelihoods: ln L(a) = ln Lx (a) + ln Ly (a). Solange also die Likelihood-Funktionen von Einzelexperimenten bekannt sind, können wir die Gesamtfunktion auf einfache Weise konstruieren, um dann den ML Schätwert des Parameters a zu bestimmen. Wenn die einzelnen Likelihood-Funktionen nicht bekannt sind, sondern nur die Schätzwerte der Parameter a, namentlich âf und âg , die ihrerseits wieder Zufallsvariablen mit Wahrscheinlichkeitsdichten f (âf ; a) und g(âg ; a) sind, können die beide Schätzwerte wiederum als Ergebnis eines kombinierten Experimentes aufgefasst werden. Solange die beiden Schätzwerte unabhängig sind, ist ist die Log-Likelihood-Funktion gegeben durch: ln L(a) = ln f (âf ; a) + ln g(âg ; a) (6.42) Da für grosse Datenmengen die Wahrscheinlichkeitsdichten f (âf ; a) und g(âg ; a) als Gauss verteilt angenommen werden können und die Varianz-Abschätzungen V̂ (âf ) und V̂ (âg ) der Einzelmessungen vorliegen, ergeben sich mittels der ML-Methode wiederum folgende Ausdrücke für die beste Schätzung â und seine Varianz V̂ (â) aus den beiden kombinierten Messungen: â = V̂ (â) = âf /σ̂â2f + âg /σ̂â2g 1/σ̂â2f + 1/σ̂â2g 1/σ̂â2f 1 + 1/σ̂â2g D.h. es ergibt sich wieder die Gleichung für den gemittelten Mittelwert und seine Varianz. Natürlich kann die obigen Gleichung auch auf beliebig viele Messungen verallgemeinert werden. 56 7 Weitere Schätzmethoden: Kleinste Quadrate - Least Square Die Methode der kleinsten Quadrate (LS) ist ähnlich zum Maximum Likelihood Verfahren des vorangegangenen Kapitels, eine Methode, um unbekannte Parameters aus einen Datensatz zu bestimmen. Die LS-Methode ist besonders nützlich, wenn zwei Variablen x und y vorliegen und • der Datensatz x genau bekannt ist • die entsprechenden Datenwerte y den Fehler σ haben und • eine Funktion (Modell, Theorie) f (x; a) vorliegt, die für jeden x-Wert einen y-Wert vorhersagt. Diese Funktion hängt natürlich von unbekannten Parametern a ab, die es zu bestimmen gilt. 7.1 Die Least Square Methode Die LS Methode minimiert die (u.U. besonders gewichteten) Abstandsquadrate zwischen einem Datensatz yi und einer Vorhersage f (x; a) durch Änderung des Parameters a, um die beste Abschätzung â für den Parameter a der Funktion f (x; a) zu erhalten. Die Differenz zwischen den gemessenen Datenpunkten yi und den nach dem Modell erwarteten Werten f (xi ; a) nennt man auch Residuum ri = yi −f (xi ; a). Besitzt der Datensatz yi Gauss-verteilte Fehler mit einer Standardabweichung σi , dann gehorcht die Summe χ2 = N X yi − f (xi ; a) 2 σi i=1 (7.1) einer χ2 -Verteilung mit N − p Freiheitsgraden. Hierbei ist p die Anzahl der freien Parameter in der Funktion f (xi ; a). In der LS-Methode wird nun der Wert für a gewählt, der das kleinste 2 χ2 gibt. Falls die Ableitungen von ∂f /∂a bekannt sind, reduziert dich die Minimierung ∂χ ∂a auf das Finden der Lösung für: X 1 ∂f (xi ; a) i σi2 ∂a (yi − f (xi ; a)) = 0 (7.2) Falls die Funktion nicht nur einen unbekannten Parameter a enthält, sondern mehrere, a1 , a2 , . . . , ap , sind p Minimierungs-Gleichungen simultan zu lösen. 7.1.1 Anpassen einer Geraden Wir beginnen mit einem der einfachsten Fälle und nehmen als Modell f (x) = mx an. Die Grösse, die es nun zu minimieren gilt lautet: χ2 = X (yi − mxi ) σi i 57 (7.3) Ferner nehmen wir an, dass alle σi gleich sind. Die Ableitung nach m und Gleichsetzen mit null, um die beste Schätzung m̄ für m zu bekommen, liefert uns: X ∂χ2 ∂m = − ∂χ2 ∂m = 2X (xi yi − mx2i ) = 0 σ i X (xi yi − mx2i ) = 0 i xi yi = m X i x2i i X xi m̂ = i N x2 yi = xy x2 Die Varianz von m̂ kann durch Fehlerfortpflanzung bestimmt werden zu: V (m̂) = X xi 2 i N x2 σ2 = σ2 N x2 (7.4) Wird die Gerade durch Steigung m und Achsenabschnitt b bestimmt, d.h. f (xi ; m, b) = mxi + b, dann lautet die komplette Lösung der LS-Methode folgendermassen: xy − x̄ȳ x2 − x̄2 b̂ = ȳ − m̂x̄ m̂ = (7.5) (7.6) (7.7) Die Fehler sind gegeben durch: 2 σm = V (m̂) = σ2 N (x2 − x̄2 ) σ 2 x2 N (x2 − x̄2 ) σ 2 x̄ cov(m̂, b̂) = − N (x2 − x̄2 ) σb2 = V (b̂) = (7.8) (7.9) (7.10) (7.11) Das χ2 für die beste Anpassung lautet: χ2 = V (y) (1 − ρ2 (x, y)) σ2 (7.12) Da diese Formeln sehr wichtig sind und häufig vorkommen, geben wir sie hier komplett an. Die Gleichungen des Gleichungssystem 7.5 können direkt durch Aufstellen der LS-Gleichung und ihre Lösungen erhalten werden. Der Ausdruck b̂ = ȳ − m̂x̄ bedeutet, dass die durch die LS-Methode gewonnene beste Gerade durch den Schwerpunkt (x̄, ȳ) der Datenpunkte geht. Ausserdem soll darauf hingewiesen werden, dass V (y) nicht dasselbe wie σ 2 ist. V (y) = y 2 −ȳ 2 58 bezieht sich auf die Varianz des ganzen Datensamples, während σ die Standardabweichung einer einzelnen Messung um seinen wahren Wert angibt. Falls die Fehler σi nicht gleich sind, muss folgender Ausdruck minimiert werden: X (yi − mxi − b)2 (7.13) σi2 i Die Lösung dieser Minimierung kann wiederum durch das obige Gleichungssystem gegeben werden, wenn alle Mittelwerte wie x̄, ȳ durch ihre gewichteten Mittelwerte ersetzt werden. P Ausserdem ist die Normierung nicht mehr duch N sondern nun durch i 1/σi2 gegeben: P i yi N P yi /σi2 2 i 1/σi → Pi (7.14) Ferner muss die Grösse σ 2 in den Ausdrücken für die Varianzen durch N 2 i 1/σi σ2 → P (7.15) ersetzt werden. Nachdem nun die Steigung m und der Achsenabschnitt b mit Hilfe der kleinsten Quadrate bestimmt sind, wollen wir wissen wie gross die Fehler an jedem beliebigen interpolierten (oder extrapolierten) Punkt y für ein gegebenes x sind. Für ein gegebenes x ist der vorhergesagte Wert y gerade: y = m̂x + b̂ und der Fehler für den interpolierten Wert y ergibt sich durch: V (y) = V (m̂x + b̂) = V (m̂x) + V (b̂) + 2 · cov(m̂x, b̂) (7.16) 2 V (y) = = x V (m̂) + V (b̂) + 2x · cov(m̂, b̂) σ 2 (x − x̄)2 V (y) = + σ 2 /N N (x2 − x̄2 ) 7.1.2 (7.17) (7.18) Berücksichtigung von systematischen Fehlern Als Beispiel betrachten wir eine Geradenanpassung bei der alle Messwerte yi einen gemeinsamen statistischen Fehler σ und einen gemeinsamen systematischen Fehler S haben. Aus unseren vorigen Betrachtungen im Kapitel systematische Fehler wissen wir, dass dann die Kovarianzmatrix cov(yi , yj ) geschrieben werden kann als cov(yi , yj ) = δij σ 2 + S 2 . Die Schätzwerte für die Steigung, m̂ und den Achsenabschnitt, b̂, sind wiederum gegeben durch Gleichungen 7.5 und 7.6. Die komplette Formel für die Varianzen lauten nun: V (m̂) = X 1 (xi − x̄)(xj − x̄) · cov(yi , yj ) 2 2 − x̄ ) i,j (7.19) N 2 (x2 V (m̂) = X X 1 (xi − x̄)2 σ 2 + (xi − x̄)(xj − x̄)S 2 N 2 (x2 − x̄2 )2 i i,j V (m̂) = 1 2 2 N (x − x̄2 )2 (7.20) ! X 2 2 (xi − x̄) σ i 59 (7.21) Der zweite Summand verschwindet, da V (b̂) = P xi = x̄ ist. Die Varianz für b̂ lautet: X 1 (x2 − x̄xi )(x2 − x̄xj ) · cov(yi , yj ) N 2 (x2 − x̄2 )2 i,j (7.22) In diesem Ausdruck verschwindet die Summe i (x2 − x̄xi ) = N (x2 − x̄2 ) nicht, so dass ein zusätzlicher Term auftritt, der aber gerade S 2 ist. Zusammenfassend beeinflusst ein gemeinsamer systematischer Fehler nur die Varianz des bestimmten Achsenabschnitts, jedoch nicht die Varianz der Steigung. P 7.1.3 Geradenanpassung bei Fehlern in beiden Variablen Beide Variablen xi und yi mögen nun Fehler σxi und σyi haben. Dann minimiert man die Summe der Quadrate des Abstandes der Fehlerellipsen von der Geraden, also: S(m, b) = X (yi − mxi − b)2 i σy2i + m2 σx2i (7.23) Nun müssen die beiden Gleichungen ∂S/∂m und ∂S/∂b unter Umständen numerisch gelöst werden. Die Forderung ∂S/∂b führt auf P b̂ = yi /κi − m̂ xi /κi P 1/κi P (7.24) wobei κi = σy2i + m2 σx2i . Prinzipiell könnten wir nun das Minimum der obigen Summe durch Variation von m̂ suchen. Sind die Fehler für alle σxi und σyi gleich, d.h. durch σx und σy gegeben, kann das Problem der Geradenanpassung auf folgende Lösung geführt werden: m̂ = A = p σx (A ± A2 + 1) σy σx2 V (y) − σy2 V (x) 2σx σy · cov(x, y) ȳ = m̂x̄ + b̂ (7.25) (7.26) (7.27) Die Gerade geht also wieder durch den Schwerpunkt x̄, ȳ. Wie bereits erwähnt ist jedoch im Falle von unterschiedlichen Einzelfehlern σxi und/oder σyi eine analytische Lösung nicht existent und es muss numerisch vorgegangen werden. 7.2 Das Anpassen von gebinnten Daten und die χ2 -Verteilung Die Methode der kleinsten Quadrate ist wahrscheinlich die am meisten benutzte Art, die Parameter einer Funktion an gemessene Daten anzupassen. Zwar ist der ML-Fit, den wir im vorigen Kapitel besprochen haben, sehr mächtig und vielseitig verwendbar, aber seine Komplexität steigt rapide im Falle grosser Datenmengen. Die LE-Methode hingegen bleibt auch noch bei grossen Datenmengen überschaubar. Nehmen wir an, wir haben N Ereignisse und eine Wahrscheinlichkeitsdichte f (x; a). Die Ereignisse seien in bins sortiert, die von 1 bis Nb nummeriert sind. Das Intervall i ist um 60 Punkt xi zentriert und soll eine Intervallbreite wi mit ni Ereignissen haben. Dann ergibt sich die erwartete Anzahl an Ereignissen in bin i durch fi = N wi P (xi ; a). Die tatsächlich in einem Bin vorliegende Ereignisanzahl wird durch die Poisson-Statistik beschrieben, d.h. das Quadrat der Standardabweichung entspricht gerade dem Poisson-Mittelwert. Das χ2 , summiert über all bins ergibt dann: χ2 = X (ni − fi )2 fi i (7.28) Im allgemeinen Fall steht also in der χ2 -Summe die quadrierte Differenz zwischen beobachteten Werten und ihren theoretische Voraussagen, gewichtet mit den erwarteten Fehler. Stimmt die Funktion, die an die Daten angepasst werden soll, gut mit den Daten überein, wird das χ2 klein. Falls das χ2 nach der Minimierung immer noch (zu) gross ist, ist die Funktion vermutlich schlecht gewählt oder kann nicht an die Daten angepasst werden. Andererseits sollte ein zu kleines χ2 ebenfalls unwahrscheinlich sein und deutet sehr oft auf eine überschätzte Fehler hin. Wie wir gelernt haben lautet die χ2 -Verteilung f (χ2 ; n) = 2−n/2 n−2 −χ2 /2 χ e Γ(n/2) (7.29) Die Verteilung hängt von n ab, der Anzahl der Freiheitsgrade, die durch Anzahl der Datenpunkte abzüglich der Anzahl der Parameter, die in der Minimierung angepasst werden, bestimmt ist. Da die χ2 -Verteilung den Erwartungswert n und die Varianz 2n hat, erwartet man ein χ2 pro Freiheitsgrad von ungefähr eins. Die χ2 -Verteilung kann somit genutzt werden, um die Güte einer Anpassung in einem p statistischen Test zu quantifizieren. Oft wird statt χ2 selber 2χ2 , da dieser im Rahmen des zentralen Grenzwertsatzes schneller gegen eine p √ Gauss-Verteilung für grosse n konvergiert. Der Ausdruck 2χ2 hat den Erwartungswert 2n − 1 und im Falle n ≥ 30 eine Varianz von 1. Beispiel für eine Güte einer Anpassung: Wir erhalten für 45 Datenpunkte, die an eine GaussVerteilung angepasst werden ein χ2 von 73. Da es drei freie Parameter im Fit gibt, nämlich Mittelwert, Standardabweichung p und Normierung, bleiben uns 42 Freiheitsgrade. Der Term √ 2n − 1 ergibt 9.1, während 2χ2 = 12.1 um drei Einheiten, also um 3σ grösser ist. Somit scheinen die Daten nicht sehr gut durch eine Gaussverteilung beschrieben zu werden, was aber durch Inspektion des Daten/Theorie-Graphen überprüft werden sollte. Der Güte-Test kann auch umgekehrt werden. Angenommen wir haben einen Datensatz, in dem alle Messpunkte dieselbe Genauigkeit besitzen und die es (grob) abzuschätzen gilt. Die LS-Methode kann trotzdem angewandt werden, da σ als gemeinsamer Faktor vor der Summe in den Abstandsquadraten auftaucht. Die gesamte quadrierte Abweichung pro Freiheitsgrad ergibt dann gerade ein Mass für σ 2 , als Abschätzung des Messfehlers, was manchmal nützlich sein kann. Natürlich ist es dann nicht mehr möglich, die Güte der Anpassung durch χ2 zu quantifizieren. Schliesslich noch ein wichtiger Hinweise zum χ2 -Wert als Mass für die Güte einer Anpassung: Der alleinige Wert von χ2 sollte niemals als einziger Massstab für einen statistischen Test sein, d.h. es ist falsch dem χ2 -test blindlings zu vertrauen. Statt dessen sollten stets die Daten mit der theoretischen Vorhersage in jedem bin grafisch miteinander verglichen werden, um einzelne Abweichungen. Es ist gezeigt worden, dass der χ2 -Test empfindlicher wird, je 61 kleiner die Anzahl der Freiheitsgrade wird, d.h. je grösser die bins werden. Dies kann aber zu einer Verwischung von Substrukturen in den Daten oder der Theorie-Verteilung führen. 7.2.1 Lineare kleinste Quadrate und Matrix-Darstellung Wenn es mehrere Unbekannte gibt, macht eine Matrix-Notation Sinn. Es sei a ein Vektor mit n Parametern a1 , . . . , an . Ebenso werden die yi als y und die Funktionen f (xi ; a) als f und somit als Vektoren geschrieben. Der Ausdruck den es nun zu minimieren gilt lautet: χ2 = XX i [yi − f (xi ; a)]Vij−1 [yi − f (xi ; a)] (7.30) j χ2 = (yt − f t )V−1 (y − f ) = rt V−1 r (7.31) Hierbei sind r = y − f die Residuen und Vij die Kovarianzmatrix. Ein spezieller Fall ist, wenn sie diagonal ist mit Vij = σi2 δij und Vij−1 = (1/σi2 )δij . Durch die Ableitung von χ2 nach den einzelnen ai und gleichsetzen mit Null bekommt man n Gleichungen, die sogenannten Normalengleichungen, die gelöst werden müssen, um den Schätzwert â zu finden. Falls die Funktion f (x; a) linear in den ai ist, können die Gleichungen exakt gelöst werden. Mit linear in ai meinen wir linear in ai und nicht in xi . Das heisst wir können f (x; a) in einer Reihe P schreiben als: f (x; a) = r cr (x)ar . Dies kann natürlich auch als Matrix aufgefasst werden, d.h. f = Ca. Somit ergibt sich: χ2 = (yt − at Ct )V−1 (y − Ca) (7.32) Die Normalengleichung lautet nun: Ct V−1 Câ = Ct V−1 y (7.33) An dieser Stelle folgen einige Worte zu den Matrizen: Wenn es N Datenpunkte gibt und n Koeffizienten zu suchen sind (n ≤ N ), dann sind y und a Spaltenvektoren mit Dimensionen N und n. Die Kovarianmatrix V ist N × N . Die Matrix C jedoch, ist N × n. Die Lösung für den Schätzwert a ist nun: â = (Ct V−1 C)−1 Ct V−1 y (7.34) Schliesslich noch der Ausdruck für die Varianz des Schätzwertes V(â): −1 V(â) = [Ct V(y) C]−1 (7.35) Wir wollen die Matrixdarstellung anhand von zwei Beispielen näher betrachten. Im ersten Beispiel passen wir eine Gerade der Form f (x) = mx + b an N Datenpunkte an, wobei wir annehmen, dass alle Fehler unabhängig und gleich sind, so dass V = σ 2 I ist. Dann ergibt die Matrixschreibweise: C = 1 1 .. . x1 x2 .. . 1 xN â = σ 2 (Ct C)−1 62 1 t Cy σ2 Hierbei haben wir Ct V−1 C = gelangen wir schliesslich zu b̂ m̂ â = 1 Ct C σ2 ! = ausgenutzt. Nach einigen weiteren Umformungen !−1 P xi i P 2 P 1 Pi i xi P y P i i i xi ! (7.36) i xi yi Die Inversion der 2 × 2-Matrix ist gegeben durch x2 −x̄ −x̄ 1 1 2 N (x − x̄2 ) ! (7.37) so dass wir schliesslich folgende Gleichung erhalten: â = b̂ m̂ ! x2 −x̄ −x̄ 1 1 = 2 N (x − x̄2 ) ! P y P i i ! (7.38) i xi yi Dieses Ergebnis ist führt dann auf dieselben Ausdrücke für m̂ und b̂, wie sie bereits in Gleichung 7.5 gegeben waren. Die Varianz des Schätzvektors â lautet: V(â) = V (b) cov(b, m) cov(b, m) V (m) ! σ2 = N (x2 − x̄2 ) x2 −x̄ −x̄ 1 ! (7.39) Liegen nun an allen N Datenpunkten unterschiedliche - aber immer noch unkorrelierte- Fehler P σi vor, so müssen in Gleichung 7.36 allen Summen i die Gewichte wi = 1/σi2 eingeführt werden. Ein weiteres Beispiel, welches wir in der Matrixnotation kurz behandeln wollen, ist die Anpassung einer Parabel f (x) = a0 + a1 x + a2 x2 an N Datenpunkte. Wieder wollen wir die Fehler als unabhängig und an allen Datenpunkten gleich ansehen. Die Matric C ist nun gegeben durch: 1 x1 x21 1 x2 x22 C= . (7.40) .. .. . . . . 1 xN x2N Wir gehen nun sofort zum Ausdruck für den Schätzvektor a über: P aˆ0 i1 P â = aˆ1 = i xi P 2 aˆ2 i xi P x Pi 2i xi P 3 xi P 2 −1 P xi yi i i P 3 P x i xi yi Pi i4 P 2 i xi (7.41) xi yi Die Erweiterung dieses Verfahren auf kubische Polynome oder auf Polynome beliebiger Ordnung sollte nun eigentlich klar sein. Was bleibt ist allerdings das Problem der Matrixinversion, das entweder analytisch oder numerisch zu lösen ist. Wenn für den Datensatz orthogonale Polynome zur Anpassung benutzt werden, ist die Matrix CCt automatisch diagonal, so dass die Matrixinversion einfacher zu berechnen ist. 63 7.2.2 Nichtlineare kleinste Quadrate Oft ist die Funktion f (x; a) nicht linear in den Parametern ai , wie z.B. bei f (x; a) = a1 ·e−a2 x . In solchen Fällen müssen iterative Verfahren eingesetzt werden, um die Gleichungen der kleinsten Quadrate zu lösen. Dabei ist es wichtig mit einem guten Startwert für die Parameter a anzufangen, der geschätzt werden muss. Die Funktion f (x; a mit p Parameterwerten ai wird nun um den Startwert a0 in einer Taylor-Reihe entwickelt: f (x; a) ≈ f (x; a0 ) + p X ∂f j ∂aj (aj − a0,j ) (7.42) Mit dieser Linearisierung werden nun mit den kleinsten Quadraten Korrekturen für δa = a − a0 für die Näherungswerte a0 berechnet. Die Residuen ri = yi − f (xi ; a) sind in der Matrixschreibweise gegeben durch: r = y − Aδa − f (7.43) wobei A die Jacobi-Matrix ist: A= ∂f (x1 )/∂a1 ∂f (x2 )/∂a1 .. . ∂f (x1 )/∂a2 ∂f (x2 )/∂a2 .. . ∂f (xn )/∂a1 ∂f (xn )/∂a2 · · · ∂f (x1 )/∂ap · · · ∂f (x2 )/∂ap .. .. . . · · · ∂f (xn )/∂ap (7.44) Die Gleichungen der kleinsten Quadrate lauten dann χ2 = rt V−1 r = (y − Aδa − f )t V−1 (y − Aδa − f ) = M inimum (7.45) und ihre Normalengleichung kann geschrieben werden als: (At V−1 A)δa = (At V−1 )(y − f ) (7.46) Wir erhalten dann als lösung für die δa: δa = (At V−1 A)−1 At V−1 (y − f ) (7.47) Die so erhaltenen Korrekturen δa werden zur Startlösung a0 addiert und ergeben eine neue verbesserte Lösung a1 . Insgesamt wird also in einer Iteration die richtigen Werte gesucht, bis die erhaltenen Korrekturen klein genug werden und Konvergenz eintritt. Zur Lösung der nichtlinearen kleinsten Quadrate geben wir folgenden Hinweis: Am besten ist es, wenn ein erprobtes und zuverlässiges Software-Paket für die Iterationen benutzt wird. Es macht keinen Sinn, solch ein Programm selber zu schreiben; es sei denn man hat viel Zeit. 7.3 Resampling-Techniken Unter Resampling-Methoden versteht man statistischen Schätzverfahren, die auf wiederholtes Ziehen von Stichproben aus einer bereits gezogenen Stichproben xi basieren. Die ResamplingTechniken werden eingesetzt, um Bias, Standardabweichung, Konfidenzintervalle oder auch die komplette Verteilung eines Schätzparameters auf experimentellen Wege zu gewinnen. Dies ist u.a. erforderlich, weil die Verteilung der Grundgesamtheit, von der gewisse Parameter zu schätzen sind, unbekannt ist, oder weil die analytische Herleitung der Verteilung der Schätzparameter zu komplex ist. 64 7.3.1 Jackknife Das Jackknife12 wurde in den fünfziger Jahren entwickelt und wird auch manchmal als method of leaving one out bezeichnet. Für eine Verteilung aus der eine Stichprobe x gezogen wurde, sei ein Parameter a zu schätzen. Es sei â = Ψ(x) der Schätzwert des Parameters aus dieser Stichprobe. Ferner sollen Erwartungswert < â > und Varianz var(â) durch Reihenentwicklung darstellbar sein: g1 (a) g2 (a) + ··· + n n2 σ12 (a) σ22 (a) + n n2 < â > = a + (7.48) var(â) = (7.49) Bei grossen Stichproben soll gelten: â− < â > p ≈ N (0, 1) var(â) (7.50) wobei N (0, 1) die standardisierte Normalverteilung ist. In der Jackknife-Methode wird nun folgende Grösse definiert: Ij := (n − 1)(â − â−j ), (7.51) wobei â−j der Schätzparameter ist, der sich unter Auslassung der j-ten Stichprobenvariablen xj ergibt. Es ist dann möglich den führenden Bias- und Varianzterm als g1ˆ(a) n = −I¯ := n 1X Ij n j=1 σ12ˆ(a) n = S̄ 2 := n X 1 ¯2 (Ij − I) n(n − 1) j=1 abzuschätzen. Der Bias-korrigierte Schätzwert für a ist dann âcorr = â+ I¯ und der Schätzwert der Varianz von sowohl â als auch âcorr ist S̄ 2 . 7.3.2 Bootstrap Das bootstrapping13 stellt eine Verallgemeinerung des jackknifes dar, als dass man nicht nur n Stichproben aus den n Beobachtungsvariablen durch Auslassen jeweils einer Beobachtung gewinnt, sondern wesentlich mehr, so dass die Verteilungsfunktion eines Schätzwertes simuliert werden kann. Aus dieser lassen sich dann Erwartungswert, Varianz und Konfidenzintervalle berechnen. Anegnommen, die Daten xi einer Stichprobe liegen vor, deren Verteilungsfunktion F (x) aber unbekannt ist. Wieder sind wir an einer Schätzung von a interessiert und bezeichnen 12 Jackknife heisst soviel wie Sack- oder Klappmesser. Der Name rührt daher, weil man glaubte die Methode für viele Zwecke einsetzen zu können. 13 Wörtlich übersetzt ist dies die Stiefelschlaufen-Methode. Man sollte aber eher von Münchhausen-Methode sprechen, da sich Münchhausen an den eignen Haaren aus dem Sumpf herausgezogen hat. Im Englischen zieht man sich aber den Stiefelschlaufen aus dem Sumpf heraus. 65 die Verteilungsfunktion des Schätzers als G(a|F ). Beim so genannten nicht-parametrischen Bootstrap wird die den Daten zugrundeliegende (unbekannte) Verteilungsfunktion F (x) durch die empirische Verteilungsfunktion (Treppenfunktion) F̂ (x) zunächst abgeschätzt: F̂ (x) = Fn (x) = 0 für x < x<1> i/n für x<i> ≤ x < x<i+1> 1 für x ≥ x<n> (7.52) Wir wollen nun mit der bootstrap-Metode eine Schätzung der Verteilungsfunktion G(a|F ) eines interessierenden Parameters a erhalten und gehen dabei wie folgt vor: 1. Ziehe eine bootstrap Stichprobe aus F̂ (x) vom Umfang m, die mit x∗i bezeichnet sei. In der Regel ist m = n und beim nicht-parametrischen bootstrap ist das eine Stichprobe mit Zurücklegen aus den n Werten der Ausgangsstichprobe xi , so dass nn bootstrap Stichproben möglich sind. Im parametrischen bootstrap sind das m = n simulierte Zufallszahlen aus F (x|â). Bei einer stetigen Verteilung sind dann mit Wahrscheinlichkeit Eins die n Werte x∗i voneinander verschieden, während dies bei der nicht-parametrischen Variante mit nur n Kandidaten für die Ziehung der x∗i nicht der Fall ist. 2. Berechne â aus der boostrap Stichprobe 3. Wiederhole Schritt 1 und 2 N -Male und erzeuge so N Bootstrap-Stichproben mit N Werten: â1 , . . . , âN . 4. Bestimme als Schätzwert für G(a|F ) die empirische Verteilungsfunktion der âi : Ĝ(a|F ) = Anzahl (i ≤ N |ai ≤ a) N (7.53) Der wesentliche Grund für den rechenintensiven Einsatz von bootstrapping liegt darin, dass unter gewissen Regularitätsbedingungen für F (x) die Approximation der Verteilung von â besser ist, als über eine asymptotische Verteilung, sofern man sie überhaupt findet. 7.4 7.4.1 Nichtparametrische Dichteschätzung Allgemeine Kernschätzung Die Kernschätzung kernel density estimation ist ein Schätzverfahren um unbekannte Verteilungen auf nichtparametrischem Wege zu schätzen. Das Vorgehen ist dabei wie folgt: Die relative Häufigkeit 1/n für den Datenpunkt xi mit i = 1, . . . , n wird als Wahrscheinlichkeitsdichte aufgefasst. Man verschmiert nun in einer Umgebung um einen Datenpunkt xi die Dichtefunktion nach einem bestimmten Muster. Die Breite der Verschmierung um den Punkt xi wird als Bandbreite b bezeichnet. Das Muster der Verschmierung ergibt sich durch die gewählte Kernfunktion, die man auch Kern oder kernel nennt. Eine Kerndichteschätzfunktion hat die allgemeine Form: n 1 X fˆnK (x) = K nb i=1 x − xi b Die Anforderungen an eine Kernfunktion K(u) mit u = (x − xi )/b sind: 66 (7.54) • K(u) ≥ 0 • K(u) ist symmmetrisch um u = 0 bzw. x = xi • R +∞ K(u)du = 1 • R +∞ uK(u)du = 0 • R +∞ u2 K(u)du := κ < ∞ −∞ −∞ −∞ Einige wichtige Kernfunktionen mit endlichem Träger sind: • der Rechteck-Kern ( KR (u) = • der Dreieck-Kern ( KD (u) = 0.5 wenn −1 ≤ u ≤ 1 0 sonst (7.55) 1 − |u| wenn −1 ≤ u ≤ 1 0 sonst (7.56) • der Bisquare-Kern ( 15 16 (1 KB (u) = 0 − u2 )2 wenn −1 ≤ u ≤ 1 sonst (7.57) − u2 ) wenn −1 ≤ u ≤ 1 sonst (7.58) • der Epanechnikow-Kern ( KE (u) = 3 4 (1 0 Ferner gibt es Kernfunktionen mit unendlichem Träger. Dazu gehören: • der Gauss-Kern KG (u) = 1 exp(−u2 /2) 2π (7.59) 1 u(1 + u2 ) (7.60) 1 exp(−|u|) 2 (7.61) • der Cauchy-Kern KC (u) = • der Laplace-Kern KL (u) = Eine Kernschätzung einer Wahrscheinlichkeitsdichte ist bestimmt durch den Kern K, der die Form der Gewichtsfunktion definiert und die Bandbreite b, die die Breite der Gewichtsfunktion festlegt. Die Bandbreite b bei einem unendlichen Träger wird über ein Streumass gewählt, wie z.B. über σ beim Gauss-Kern oder der Skalenparameter b beim Cauchy- und Laplace-Kern. In der Praxis spielt die Wahl der Bandbreite eine viel grössere Rolle als die Wahl des Kerns. Bei zu kleiner Bandbreite wird die geschätzte Dichte im Verlauf sehr unruhig und 67 weist viele lokale Maxima und Minima auf. Dies nennt man auch undersmoothing. Bei grosser Bandbreite wird die Dichte zu glatt, man spricht auch vom oversmoothing und Feinstrukturen, die in einer Wahrscheinlichkeitsdichte existieren, werden weggeglättet. Mit wachsendem b steigt auch der Bias und sinkt die Varianz des Schätzers. Als optimaler Kern gilt im Prinzip der Epanechnikow-Kern, da er eine hohe Effizienz hat. Die Wahl der optimalen Bandbreite hingegen, ist weitaus schwieriger und ist Gegenstand zahlreicher Diskussionen in der Forschungsliteratur, in denen zahlreiche Verfahren vorgeschlagen werden, um die optimale Bandbreite zu bestimmen. Zur Verdeutlichung der Kerndichtenschätzung wollen wir 100 Zufallszahelen betrachten, die aus einer Mischung von zwei Normalverteilungen gezogen wurden. Gegeben sei die Wahrscheinlichkeitsdichte f (x) = 1/2 N (−1, 47 ) + 1/2 N (1, 47 ), wobei N (µ, σ) die Gauss- oder Normalverteilung ist. Nach dem wir 100 Zufallszahlen erzeugt haben, bestimmen wir die Kerndichte, d.h. eine Abschätzung der Wahrscheinlichkeitsdichte des samples. Wir wählen einen Gausskern mit Bandbreite b = 0.1, b ≈ 0.5 und b = 0.7. Das Datensample und die zugrundeliegende Wahrscheinlichkeitsdichte ist im linken oberen Graphen der Figure 7.1 gezeichnet. Die nachfolgenden Graphen der Figure 7.1 zeigen die Kerndichteschätzung mit verschiedenen Bandbreiten an. Deutlich ist bei zu kleiner Bandbreite ein undersmoothing und bei zu grosser Bandbreite ein oversmoothing zu erkennen. 7.4.2 Abschätzung der Genauigkeit der Kernschätzung Üblicherweise wird zur Abschätzung der Genauigkeit der Kernschätzung der mittlere quadrierte Fehler (MSE, mean squared error) benutzt. Der MSE zerfällt in die beide Komponenten Varianz und Bias. Sei f (x) die zu schätzende Dichtefunktion und fˆ die Kernschätzung, dann ist MSE gegeben durch: M SE(fˆ(x)) = < (fˆ(x) − f (x))2 > M SE(fˆ(x)) = (< fˆ(x) > −f (x))2 + < (fˆ− < fˆ >)2 > M SE(fˆ(x)) = Bias2 (fˆ(x)) + V ar(fˆ(x)) (7.62) (7.63) (7.64) Ferner wird als globale Massangabe der Genauigkeit der so genannte mittlere integrierte quadrierte Fehler (MISE, mean integrated standard error) benutzt: M ISE(fˆ) = Z M ISE(fˆ) = Z M SE(fˆ(x))dx =< Bias2 (fˆ(x))dx + Z Z (fˆ(x) − f (x))2 dx > V ar(fˆ(x))dx (7.65) (7.66) Der Bias-Term in einer Kernschätzung kann durch folgenden Ausdruck angenähert werden: Bias(fˆ(x)) ≈ κ = b2 00 κf (x) Z2 z 2 K(z) (7.67) (7.68) Der Bias verschwindet also, wenn b → 0. Er hängt ferner von der Varianz κ des Kerns ab und von der zweiten Ableitung der Wahrscheinlichkeitsdichte f 00 (x) am Punkt x. Je grösser die zweite Ableitung, umso grösser ist der Bias. Da die Kernschätzung fˆ die Daten lokal bei 68 Figure 7.1: Kerndichteschätzung eines Datensamples von 100 Ereignissen, das aus einer Summe von zwei Normalverteilungen generiert wurde. xi zu glätten versucht, wird der Bias umso grösser, je mehr ”Kurven” die Funktion f hat. Der Varianzterm V ar(fˆ(x)) wird angenähert durch 1 V ar(fˆ(x)) = f (x) nb Z K 2 (z)dz (7.69) und wird also kleiner, wenn die Bandbreite b reduziert wird. Schliesslich können MSE und MISE ausgedrückt werden durch: M SE(fˆ(x) = Bias2 (fˆ(x)) + V ar(fˆ(x)) Z 1 4 2 00 2 1 ≈ b κ f (x) + f (x) K 2 (z)dz 4 nb sowie (7.70) (7.71) 1 1 M ISE(fˆ) ≈ b4 κ2 f 00 (x)2 dx + K 2 (z)dz (7.72) 4 nb Für sehr kleine Werte von b wird der zweite Ausdruck die obige MISE-Näherung dominieren. Falls b gross wird, wächst der erste Term, d.h. der Bias-Term, rapide an. Z Z 69 7.4.3 Optimale Wahl der Bandbreite Um die optimale Bandbreite zu erhalten kann der MISE-Schätzwert minimiert werden: Z Z dM ISE(fˆ) 1 3 2 00 2 =b κ f (x) dx − 2 K 2 (z)dz db nb (7.73) Gleichsetzen mit Null ergibt die optimale Bandbreite bopt : K 2 (z)dz 1 R 2 n κ f 00 (x)2 dx R bopt = !1/5 (7.74) Ferner kann bopt nun in den Ausdruck für den minimalen MISE gesetzt werden: 5 M ISEopt (fˆ) = 4 R f 00 (x)2 dx · ( K 2 (z)dz)4 κ2 n 4 R !1/5 (7.75) Es ist bei der optimalen Bandbreite festzustellen, dass bopt von der Sample-Grösse n und dem R Kernel abhängt. Allerdings gibt ed auch eine Abhängigkeit von f durch f 00 (x)dx, was ja eigentlich unbekannt ist. Wie soll aber nun in der Praxis die optimale Bandbreite ausgewählt werden? Mehrere Verfahren sollen nun vorgestellt werden. Rule of Thumb: Bei dieser Regel wird die unbekannte Verteilung f (x) durch eine Normalverteilung ersetzt und σ 2 durch den entsprechenden Ausdruck für die empirische Varianz ersetzt. Diese einfache Regel gibt eine optimale Wahl, wenn f (x) Gaussverteilt ist. Die Regel ist annähernd ideal, wenn f (x) zu einer Gaussvertelung sehr ähnlich ist. Die Regel ergibt für die Wahl des Kernels folgende Richtlinien: • Gauss-Kernel: b = 1.06 · σ̂ · n−1/5 • Epanechnikov-Kernel: b = 2.34 · σ̂ · n−1/5 • Biquadratischer Kernel: b = 2.78 · σ̂ · n−1/5 Solange man keine allzu detaillierten Studien macht und keine allzu schiefen Verteilungen hat, ist die Rule of thumb eine gute Wahl, die noch durch subjektives Anpassen der Bandbreite nach der visuellen Inspektion des Kernels verbessert werden kann. Plug-In estimation: R Bei dieser Methode wird mit einer Anfangsbandbreite gearbeitet, aus der dann f 00 (x)dx R 00 abgeschätzt wird. Das abgeschätzte f (x)dx wird benutzt, um eine neue Bandbreite gemaess Gleichung 7.74 zu erhalten. Das Plug-in Verfahren kann durchaus iterative benutzt werden, um eine Bandbreite zu erhalten, die gegen bopt konvergiert. Cross-validation: In der Technik der Cross-Validation wird versucht ein Minimum eines Schätzers für MISE zu erhalten: M ISE(fˆ) = Z Z = (fˆ(x) − f (x))2 dx fˆ(x)2 dx − 2 70 Z fˆ(x)f (x)dx + (7.76) Z f (x)2 (7.77) Da der dritte Term unabhängig von b ist und der erste Term bekannt ist, muss nur der mittlere Term abgeschätzt werden. Eine Schätzung für diesen Ausdruck erhält man durch: ˆ cv = M ISE Z fˆ(x)2 dx − 2 n X fˆi (xi ) (7.78) i Hierbei ist fˆi (xi ) die abgeschätzte Dichte am Argument xi der Daten. Es werden nun verschiedene Bandbreiten b eingesetzt und schliesslich diejenige gewählt, die M ISEcv minimiert. Schliesslich sei noch hinzugefügt, dass es eine Vielzahl anderer Metoden gibt, die Bandbreite zu wählen, die z.B. auf bootstrapping oder jackknife basieren. 7.4.4 Adaptierte Kernschätzung In der adaptive kernel estimation ist die Bandbreite b keine reine Konstante mehr, sondern kann an Regionen mit hoher Datendichte verringert werden bzw. in Gegenden geringer Datendichten vergrössert werden, um eine optimale Abschätzung der Wahrscheinlichkeitsdichte zu erreichen: n 1X 1 x − xi K ˆ f1 n (x) = (7.79) K n i=1 bi bi Die angepassten Bandbreiten bi werden normalerweise durch eine erste Kernschätzung fˆ0 (x) mit fester Bandbreite ermittelt: 1/5 s bi ≈ 4 3 σ n−1/5 ˆ f0 (x) (7.80) Man kann sozusagen die adaptierte Kernschätzung als zweite Iteration auffassen, bei der man zunächst mit einer allgemeinen Kernschätzung started und dann die Bandbreiten bi durch die so erhaltenen erste Dichtefunktion fˆ0 (x) neu berechnet, um in der zweiten Abschätzung eine adaptierte Kernschätzung fˆ1 (x) zu erhalten. 71 8 8.1 Konfidenzintervalle Klassisches Konfidenzintervall Ein Konfidenz- (KI) oder Vertrauensintervall confidence interval ist ein in Lage und/oder Breite zufälliges Intervall, das den unbekannten Parameter a mit einer Wahrscheinlichkeit 1 − α überdeckt. Hier heisst 1 − α das Konfidenzniveau oder Confidence level kurz auch C.L. abgekürzt. Im klassischen (Frequentisten) Konfidenzintervall ist die definierende Eigenschaft des KI die so genannte Abdeckung oder coverage: Wenn eine grosse Anzahl von Experimenten durchgeführt wird, die alle dieselben Messungen eines Parameters a auf einem Konfidenzniveau 1 − α zum Ziel haben, dann wird im Grenzfall n → ∞ der Bruchteil 1 − α aller konstruierten Intervalle den wahren Wert a beinhalten. Dieses Konstruktionsprinzip des KI muss für alle Werte von a gelten, d.h. wie auch immer der wahre in der Natur realisierte Wert von a ist, so wird eine Messung ein Konfidenzintervall ergeben, welches mit Wahrscheinlichkeit 1 − α den Wert a einschliesst. KIs können u.U. in Regionen liegen, die physikalisch verboten sind. Ferner können mathematische Bedingungen wie cos ≤ 1 in der klassischen Methode leere Intervalle liefern. Normalerweise werden im Frequentisten-Ansatz Regionen des KI ausgeschlossen, in denen der Parameter nicht definiert ist wobei dann leere Intervalle in Kauf genommen werden. Ein KI im unphysikalischen Bereich kann dennoch Informationen liefern: Von den beiden Aussagen die Masse m ist mit 68%C.L. Null und die Masse m liegt mit 68%C.L. zwischen -2 eV und -1 eV ist die letztere aussagekräftiger. 8.1.1 Konfidenzintervall in einer Dimension Für jeden möglichen Wert von a wird ein Intervall [x1 (a), x2 (a)] definiert, welches folgende Bedingung erfüllt: Z x2 P (x1 ≤ x ≤ x2 (a)|a) = f (x|a)dx = 1 − α (8.1) x1 Hierbei ist f (x|a) die Wahrscheinlichkeitsdichte. Unter Ausnutzung der obigen Konstruktion finden wir somit die Grenzen des Intervalls amin und amax für eine Beobachtung oder Messung von x: x1 (amin ) = x x2 (amax ) = x Diese Definition setzt das KI nicht vollständig fest. Es muss in der Regel noch eine zusätzliche Bedingungen an das KI gestellt werden, um es eindeutig zu machen, wobei es verschiedene Möglichkeiten gibt. Die wichtigsten Optionen sind: • zentrales Intervall P (x ≤ x1 |a) = P (x ≥ x2 |a) = α/2 (8.2) • gleiche Wahrscheinlichkeitsdichten f (x1 |a) = f (x2 |a) 72 (8.3) Φ−1 1−α/2 1 2 3 Table 8.1: 1 − α Φ−1 1−α 0.6827 1 0.9544 2 0.9973 3 1−α 0.8413 0.9772 0.9987 • minimale Grösse amax − amin ist Minimum (8.4) f (x1 |a)/f (x1 |abest ) = f (x2 |a)/f (x2 |abest ) (8.5) amax = +∞ oder amin = −∞ (8.6) • Likelihood geordnet • einseitig Gewöhnlich wird das zentrale Intervall als Standard gewählt. Ferner wird ein einseitiges Intervall in unteres und oberes Limit unterschieden, da sie einen unteren bzw obereren Grenzwert für einen Parameter darstellen. 8.1.2 Vertrauensintervalle für Gauss-verteilte Schätzwerte Eine einfache und wichtige Anwendung für Vertrauensintervalle sind Gauss-verteilte Schätzwerte. Es sei â ein Schätzwert, der einer Gaussverteilung mit Erwartungswert a und Standardabweichung σa gehorcht. Ferner nehmen wir an, dass die Standardabweichung σa bekannt sei. Dann finden wir das zentrale Vertrauensintervall [a1 , a2 ] für die Schätzung â auf Konfidenzlevel 1 − α durch: â 1 2 2 e−(t−a1 ) /2σa dt = Φ(â; a1 , σa ) 2πσa −∞ Z ∞ 1 2 2 √ α/2 = e−(t−a2 ) /2σa dt = 1 − Φ(â; a2 , σa ) 2πσa â Z α/2 = √ (8.7) (8.8) Die Intervallgrenzen [a1 , a2 ] können nun berechnet durch a1 = â − σa Φ−1 1−α/2 (8.9) σa Φ−1 1−α/2 (8.10) a2 = â + Die Grösse Φ−1 1−α/2 bezeichnet man auch als Perzentil (oder auch Quantil) einer Verteilung. Im Falle der Normalverteilung gibt sie an wie weit die Intervallgrenzen vom Mittelwert entfernt sind in Einheiten von σ. Tabelle 8.1 gibt den Zusammenhang zwischen Konfidenzlevel 1 − α und Perzentil Φ−1 1−α an: Bei Messungen geben wir in den allermeisten Fällen ein 68.3% zentrales Konfidenzintervall (1 sigma Intervall) an, so dass Φ−1 1−α/2 = 1. Dies ergibt dann das einfache Intervall: [a, b] = [â − σa ; â + σa ] (8.11) 73 Es sollte noch darauf hingewiesen werden, dass ein oberes Limit eines 95% KI eine 2.5%-ige Wahrscheinlichkeit überhalb des oberen Grenzwertes hat, während bei einem einseitigen 95% oberen Limit, 5% überhalb des oberen Grenzwertes liegt. Für ein KI mit zugrundeliegender Gaussverteilung nimmt man daher den Wert bei +1.64σ um ein 95% C.L. oberes Limit zu setzen, während man ±1.96σ nimmt, um ein 95% zentrales KI zu definieren. Ist die Standardabweichung σ bei einer Normalverteilung nicht bekannt, wird folgender Ausdruck benutzt, um ein KI auf den Mittelwert ā = µ zu setzen: Sn Sn ā − tn−1;1−α/2 √ ≤ µ ≤ ā + tn−1;1−α/2 √ n n (8.12) Hierbei werden die 1 − α/s-Perzentilen der zentralen t-Verteilung mit n − 1 Freiheitsgraden benutzt, die tabelliert sind. Die empirische (unbiased) Standardabweichung ist durch Sn = q − x̄)2 gegeben. Besonders bei kleinem Stichprobenumfang ist die Grösse t = x−µ Sn im Gegensatz zu x−µ nicht Gaussverteilt, sondern unterliegt durch die Unsicherheit in Sn σ noch zusätzlichen Fluktuationen. Die t-Verteilung ist im Falle kleiner Stichproben (n < 30) bei unbekannter Standardabweichung der Grundgesamtheit die korrekte Wahrscheinlichkeitsverteilung, mit der Konfidenzintervalle für den Mittelwert gebildet werden können. Erst bei grösserem n nähert sich die t-Verteilung der Gaussverteilung an. n n−1 (x 8.1.3 Vertrauensintervalle in der Poissonstatistik Sehr häufig wird ein unteres oder oberes Limit auf einen physikalischen Parameter gegeben. In diesen Fällen treten in der Teilchenphysik oft Poissonprozesse gemäss P (k; λ) = e−λ λk /k! auf, für die ein Grenzwert z.B. bei einer Suche nach einem neuen Teilchenzerfall berechnet werden muss. Bei vorgegebenem C.L. von 1 − α (z.B. 95%) erhalten wir folgenden oberen Grenzwert für λ+ , wenn n Teilchenzerfälle beobachtet werden: 1−α = α = ∞ X i=n+1 n X P (i; λoben ) P (i; λ+ ) (8.13) (8.14) i=0 Dies bedeutet in Worten, dass im wiederholten Falle des Experiments, wenn das Limit dem wahren Parameter entspricht, die Wahrscheinlichkeit, die zu der beobachteten Zahl von n Ereignissen oder weniger führt, durch α gegeben ist, so dass λ+ die obere Grenze für die Ereigniszahl bei einem Konfidenzlevel 1 − α darstellt. Die Gleichung muss demnach nach λ+ gelöst werden, um die obere Schranke zu berechnen. Eine direkte Lösung dieser Gleichung ist durch: n X exp(−λ+ )λi+ α= P (i; λ+ ) = = 1 − P (χ22n+2 ≤ 2λ+ ) (8.15) i! i=0 gegeben. Hierbei ist P (χ2k ≤ 2λ+ ) die χ2 -Wahrscheinlichkeit für k Freiheitsgrade, einen Wert ≤ 2λ+ zu erhalten. In ähnlicher Weise erhält man eine untere Grenze für den Mittelwert λ− , indem man fordert, dass eine Poisson-Verteilung mit dem Mittelwert λ− nur mit einer kleinen Wahrscheinlichkeit α zu der beobachtbaren Zahl n oder zu einer noch grösseren führt. In Gleichungsform 74 Table 8.2: Upper Limits 90% 95% n=0 2.30 3.00 n=1 3.89 4.74 99% 4.61 6.64 geschrieben: ∞ X α = i=n n−1 X 1−α = P (i; λ− ) (8.16) P (i; λ− ) (8.17) i=0 Dies kann wiederum durch α= ∞ −λ− i X e λ− i=n i! = P (χ22n ≤ 2λ− ) (8.18) ausgedrückt werden. Wir fragen hier also nach der chi2 -Wahrscheinlichkeit von P (χ22n ≤ 2λ− ). Manchmal passiert es, dass bei bestimmten Experimenten kein Ereignis gefunden (n = 0) wird. Das 90% C.L. obere Limit ergibt sich damit automatisch zu 2.3. Wenn ich z.B. beim Velofahren 1000 km ohne Reifenpanne fahre, kann ich theoretisch ein 90% C.L. unteres Limit auf die Haltbarkeit des Reifens von 2.3 Reifenpannen pro 1000 km bestimmter Strecke angeben, falls beim Velofahren die Zahl der auftretenden Reifenpannen tatsächlich ein Poissonprozess ist. Die Situation wird komplexer, wenn die experimentellen Daten Untergrundereignisse enthalten, die von den Signalereignissen nicht unterscheidbar sind. Wenn wir annehmen, dass die Erwartung von Untergrundereignissen im Experiment bekannt sei und mit b bezeichnet wird, dann ist die Wahrscheinlichkeit n Ereignisse (Untergrund und Signal) zu messen gegeben durch: W (n) = n X n X Psig (i; λ)Q(j; b)δi+j,n = i=0 j=1 n X P (i; λ)Q(n − i; b) (8.19) i=0 Hierbei ist Q(j; b) die Wahrscheinlichkeitsverteilung der Untergrundereignisse und die Summe geht über alle möglichen Kombinationen von Untergrund j und Signal i, die beide zusammen n, also die Zahl der beobachtbaren Ereignisse, ergeben müssen. Falls der Untergrund ebenfalls einer Poissonverteilung mit Erwartungswert b gehorcht, kann die obige Gleichung geschrieben werden als: W (n) = n X P (i; λ)P (n − i; b) = P (n; λ + b) = i=0 e−λ+b · (λ + b)n n! (8.20) Daraus folgt, dass die Wahrscheinlichkeit α gleich viel oder weniger Ereignisse als n zu beobachten, gegeben ist durch α= n X k=0 n X W (k) = k=0 75 P (k; λ + b) (8.21) Table 8.3: obere Limite klassisch Zech/Helene Feldman/Cousins n = 0; b = 0 2.3 2.3 2.44 n = 0; b = 1 1.3 2.3 1.61 n = 0; b = 2 0.3 2.3 1.26 n = 0; b = 3 -0.70 2.3 1.08 n = 2; b = 2 3.32 3.88 3.91 woraus durch Lösung nach λ das obere Limit für ein gegebenes Konfidenzlevel 1 − α folgt. Tabelle 8.3 zeigt für einige Fälle von beobachteten Ereignissen n sowie erwarteten Untergrund b die oberen Grenzwerte auf die Ereigniszahl für 90% C.L. Es ist interessant uns den Fall n = 0 bei unterschiedlicher Untergrundzahl b näher anzuschauen, da die klassische Herleitung des oberen Limits hier zwei Schwachstellen zeigt, die eigentlich nicht akzeptabel sind. Zum einen kann das numerisch errechnete Limit bei grossem Untergrund wie im Falle b = 3 ein negatives Resultat erzeugen. Zum anderen wird das obere Limit für n = 0, also keine Ereignisse werden beobachtet, von b = 0 zu b = 2 besser, d.h. das klassische Konfidenzintervall ist unterschiedlich für exakt denselben experimentellen Sachverhalt, nämlich dass kein Ereignis beobachtet wurde. Dieses Verhalten ist für die meisten Statistiker völlig unbefriedigend. Nehmen wir als Beispiel ein Experiment, das in einer Suche nach einem neuen exotischen Teilchen kein Ereignis findet, aber einen erwarteten Untergrund von b Ereignissen hat. Ein Limit wird nun berechnet und das Resultat publiziert. Nach einem Jahr findet ein cleverer Student einen neuen Schnitt auf eine Variable in der kinematischen Region, in der nach dem Teilchen gesucht wurde und eliminiert den Untergrund komplett. Diese verbesserte Analyse hat nun aber ein schlechteres Limit zur Folge, als das ursprüngliche. Das genannte Beispiel zeigt, dass die Definition des klassischen Limits für Poisson-Statistik im Falle von Untergrundereignissen unbefriedigend ist. Daher wurde ein anderer Ansatz14 vorgeschlagen, der heute weit verbreitet ist, um klassische Vertrauensgrenzen im PoissonFall mit Untergrundereignissen zu berechnen. Hierbei wird explizit berücksichtigt, dass der Untergrund geringer oder höchstens gleich der Anzahl n beobachtbarer Ereignisse ist. Das obere Limit wird im Poisson-Fall nun berechnet zu: Pn k=0 P (k; λ + b) α= P (8.22) n k=0 P (k; b) Dieser Ausdruck bedeutet, dass für eine gegebenes Konfidenzniveau 1 − α, die obere Signalrate λ berechnet wird, so dass Signal und bekannter Untergrund b nicht über die Anzahl n beobachteter Ereignisse fluktuieren, unter der Annahme bzw. unter der Auflage, dass der Untergrund b selber die Zahl der Ereignisse n nicht übersteigen darf. Besitzt die Abschätzung der Untergrunderwartung b eine Unsicherheit von δb , und ist die zugrundeliegende Wahrscheinlichkeitsdichte g(b, δb ) bekannt (z.B. eine Gaussverteilung), kann das obere Limit durch Ausintegration über die Unsicherheit δb des Untergrunds bestimmt werden. Im klassischen Fall verändert sich Gleichung 8.21 dann zu Z α= g(b) n X P (k; λ + b)db k=0 14 O. Helene und G. Zech 76 (8.23) während der Zech/Helene Ansatz zu R α= g(b) nk=0 P (k; λ + b)db R P g(b) nk=0 P (k; b)db P (8.24) wird. Zum Schluss unserer Betrachtungen über klassische obere Grenzwerte für Poissonverteilungen wollen wir noch eine sehr aktuelle Entwicklung erwähnen. Der sogenannte unifed approach von Feldman und Cousins 15 brachte gegenüber herkömmlichen Methoden zwei grosse Neuerungen: Zum einen vereinigte er elegant zwei Rechenverfahren, nämlich die Ableitung eine einseitigen Limits auf der einen Seite und die Berechnung eines zweiseitigen Vertrauensintervalles auf der anderen Seite, so dass vom Benutzer nur das Konfidenzniveau festgelegt werden muss. Der unified approach sorgt also automatisch für ein nahtloses Umschalten von einseitiger Grenze im Falle eines unteren oder oberen Limits zum zweiseitigen Intervall, falls die Möglichkeit der Berechnung eines Fehlerintervall innerhalb der erlaubten physikalischen Regionen vorliegt. Zum anderen benutzt die Methode das Prinzip des Ordnens nach Likelihood Verhältnissen, was unphysikalische Intervalle gänzlich vermeidet. Diese beiden Eigenschaften des unifed approaches sind sehr attraktiv und die Feldman-Cousins Methode ist daher eine der Standardmethoden bei der Ableitung von Vertrauensgrenzen in der klassischen Statistik geworden. 8.2 Konfidenzlimits auf Basis der Likelihood-Funktion Die Likelihood-Funktion kann ebenfalls zur Bestimmung eines Konfidenzintervalls herangezogen werden. Falls ein Schätzwert â eines Parameters a aus einem Datensample im Grenzfall grosser Statistik vorliegt, kann für die Wahrscheinlichkeitsdichte g(â, a) gezeigt werden (siehe auch Kapitel 6.3 sowie zentraler Grenzwertsatz), dass 1 −(â − a)2 g(â, a) = exp 2πσâ2 2σâ2 ! (8.25) gilt, d.h. die Verteilung folgt einer Gaussverteilung um den wahren Wert a mit Standardabweichung σâ . Darüberhinaus wird die Likelihood-Funktion im Falle grosser n gaussförmig: −(â − a)2 L(a) = Lmax exp 2σâ2 ! (8.26) Wir haben im Kapitel 6.3 gesehen, dass in diesem Falle eine Änderung von k Einheiten der Standardabweichung des Parameters a eine Abnahme der Log-Likelihood Funktion um k 2 /2 vom Maximum bedeutet: k2 log L(â ± kσâ ) = log Lmax − (8.27) 2 Daher können wir z.B. ein 68.3% zentrales Konfidenzintervall mittels der Log-Likelihood Funktion konstruieren, wenn wir die Werte für a suchen, bei denen die Log-LikelihoodFunktion um 1/2 vom Maximum abfällt. Dieses Konstruktionsprinzip funktioniert aber nur, wenn â der ML Estimator ist, bei denen die Log-Likelihood-Funktion ihr Maximum hat. 15 G. J. Feldman, R. D. Cousins, Unified approach to classical statistical analysis of small signals. Phys. Rev. D57 (1998)3873 77 Wenn die Log-Likelihood-Funktion keine Gaussfunktion darstellt, kann zumindest mit dieser Methode ein zentrales Konfidenzintervall angenähert werden, log L(â+d −c ) = log Lmax − k2 2 (8.28) wobei k wieder in Einheiten der Standardabweichung vorgegeben wird, das einem bestimmten Perzentil der Gaussverteilung für ein entsprechendes Konfidenzniveau entspricht. Im Falle von Messungen mit zugrundeliegender Poissonverteilung und den Beobachtungswerten ni lautet die Likelihood-Funktion: L(n0 |µ) = Y µni e−µ i (8.29) ni ! Es sei µ̂ = n1 ni die Abschätzung des Erwartungswerts, der die Log-Likelihood Funktion maximiert, dann kann ein 68.3% klassiches Konfidenzintervall [µ1 , µ2 ] wiederum durch Abfall der Log-Likelihood Funktion um 1/2 von seinem Maximalwert gebildet werden: P log L(mu|µ ˆ 1 ) = log L(µ̂|µ2 ) = log Lmax − 1 2 (8.30) Es werden also µ1 < µ̂ und µ2 > µ̂ gesucht, die die obige Gleichung lösen. Likelihood-Methoden, um Konfidenzlimite auszurechnen sind leicht auf mehrdimensionale Probleme zu erweitern. Ferner existieren zahlreiche Computerprogramme, das maximum der Log-Likelihood-Funktion zu ermitteln, bzw. nach einem Abfall der Log-Likelihood Funktion um einen vorgegebenen Wert zu suchen. Einige Nachteile der Vertrauensintervalle basierend auf Likelihood-Funktionen sind: • Die von Frequentisten verlangte Abdeckung im Poisson-Fall ist bei kleinen Erwartungswerten nicht erfüllt • Funktionen mit weiten Ausläufern können zu Problemen führen • Falls die Likelihood-Funktion ihr Maximum ausserhalb des erlaubten physikalischen Bereichs hat, kann es zu falschen Konfidenzintervallen kommen. 8.3 8.3.1 Konfidenzlimits im Bayes’ Ansatz Die Methode Bayesianer behandeln (Theorie)-Parameter als Zufallsvariablen. Die kombinierte Wahrscheinlichkeitsdichte f (x; a) eines (Theorie-)Parameters a und der Zufallsvariablen x kann über das Bayes’ Theorem geschrieben werden als: f (x; a) = f (x|a)g(a) = f (a|x)h(x) f (x|a)g(a) f (a|x) = h(x) (8.31) (8.32) Hierbei sind g(a) und h(x) geeignete Wahrscheinlichkeitsdichten, die jeweils nur von einer Variablen abhängen. In diesem Zusammenhang ist die Wahrscheinlichkeitsdichte g(a) der 78 sogenannte Prior der Beobachtung x. Dies bedeutet wir legen eine bestimmte Wahrscheinlichkeitsdichte für den Parameter a vor dem Experiment fest, die somit die Wahrscheinlichkeit für a vor der Messung x angibt. Für eine gegebene Beobachtung x wird die bedingte Wahrscheinlichkeit f (a|x) mit der Likelihood-Funktion identifiziert. Die Wahrscheinlichkeitsdichte h(x) ist ein multiplikativer Faktor, der unabhängig von a ist und durch die Forderung nach Normierung eliminiert werden kann. Der Bayes’ Ansatz ein Konfidenzintervall zu berechnen lautet daher: L(x, a)g(a) f (a|x) = R +∞ −∞ L(x, a)g(a)da (8.33) Es muss garantiert sein, dass der gewählte Prior die Normierung erfüllt, so dass das Integral im Nenner endlich bleibt. Im Falle einer Poissonverteilung P (λs |n0 ) mit n0 beobachteten Ereignissen und einer Signalrate µs lautet der Bayes-Ansatz: P (λs |n0 ) = R ∞ 0 L(n0 |λs )P (λs ) L(n0 |λs )P (λs )dλs (8.34) Ein oberes Limit (oder ein beliebig anderes Konfidenzintervall16 ) auf den unbekannten Parameter λs kann einfach durch Integration der obigen Gleichung erzielt werden. Die Erweiterung der Methode auf den Poisson-Fall mit Untergrund b ist einfach: P (λs |n0 , b) = R ∞ 0 8.3.2 L(n0 |λs + b)P (λs ) L(n0 |λs + b)P (λs )dλs (8.35) Bemerkungen zum Prior Die Werte, die man aus dem Bayes’ Ansatz erhält sind natürlich vom gewählten Prior g(a) bzw. P (λs ) abhängig. Die Bayes’ Methode wäre vermutlich der ideale Ansatz, wenn man den Prior des Parameters wüsste. Ohne jegliche quantitative Kenntnis der Prior-Dichte, wird oft ein uniformer Prior, d.h. a = const über ein gewisses Intervall, ge”ahlt17 . Auch wenn dieser flache Prior am häufigsten benutzt wird, so ist es dennoch nur eine Konvention. In manchen Fällen empfehlen Bayesianer eine ganze Klasse von Priors die sich entweder gemäss a ∝ s−p oder a ∝ e−ks verhalten, wobei s in direktem Zusuammenhang mit der Signalrate steht. Es ist nicht schwer einzusehen, wie ein Bayes’ Limit sich verschiebt, falls der Prior geändert wird. Im allgemeinen wird ein oberes Limit auf einen seltenen Prozess kleiner, d.h. besser oder optimistischer, falls der Prior die Region in der Nähe s = 0 stärker betont, als ein flacher Prior. Umgekehrt wird das obere Limit schlechter oder konservativer, falls die PriorVerteilung mehr Gewicht auf grössere Werte von s legt. Wie auch immer der Prior gewählt wird, er muss normierbar sein, da sonst das Integral nach der Bayes’ Methode divergiert. Selbst der per Konvention am häufigsten gewählte uniforme Prior legt nicht alle Wahlmöglichkeiten in der Bayes’ Methode fest. Als Beispiel betrachten wir einen Teilchenzerfall mit exponentieller Wahrscheinlichkeitsdichte P (x; a) = 1/a exp(−x/a). Nun kann naiv ein flacher Prior g(a) = const oder auch g(1/a) = const gewählt werden, je nach dem ob wir den Prior in 16 Manche Physiker möchten lieber den Ausdruck credibility intervalls für Konfidenzintervalle im Bayes’ Kontext benutzen. 17 Man nennt einen Prior ohne quantitative Informationen über den Parameter auch uninformative Prior 79 der Lebensdauer a oder in der Zerfallskonstanten 1/a angeben wollen. Beide Annahmen über flache Prioren sind jedoch inkonsistent miteinander. So bleibt auch im Falle des uniformen Priors die schwierige Frage offen, in welcher Metrik, d.h. für welchen funktionalen Zusammenhang des Parameters a, darf die Priorfunktion h(a) konstant sein? Im Falle des exponentiellen Zerfalls ist im übrigen 1/a, also die Zerfallskonstante, die flach gewählt werden darf. Eine interessante und (vermutlich) wunderbare Tatsache ist die, dass im Falle eines uniformen Priors, der f”ur die Poissonstatistik gewählt werden kann, das Ergebnis für ein Konfidenzintervall dieselbe Form wie die klassische Form aus Gleichung 8.22 annimmt, nämlich: α= Pn k=0 P (k; λ + b) P n (8.36) k=0 P (k; b) Diese Identität gilt auch dann, wenn ein Untergrund b vorliegt. 8.4 Vertrauensintervalle und systematische Fehler Das sehr häufig auftretende Problem die systematischen Fehler in ein Konfidenzintervall einzuarbeiten, ist nicht vollständig und komplett gelöst. Zwar gibt es einige Vorschriften, wie systematische Fehler zu behandeln sind und in ein Limit einzubauen sind, aber eine eindeutige analytische Lösung zu diesem Problem existiert nicht. Ferner scheint es keine Methode zu geben, die von allen Physikern akzeptiert wird. Die allermeisten Physiker jedoch, die mit diesem Problem konfrontiert werden, benutzen einen Bayes’-Ansatz, bei dem der systematische Fehler, z.B. in der Effizienz oder in der Untergrundvorhersage, meistens in Form einer Gaussverteilung parametrisiert wird und die Wahrscheinlichkeitsdichten dann damit verschmiert werden. Systematische Unsicherheiten werden im Zusammenhang mit Konfidenzintervallen oft als nuisance Parameter bezeichnet, die eigentlich störend oder lästig sind, und es wird versucht diese Parameter auszuintegrieren. Wenden wir uns also dem Problem eines Zählexperimentes zu, dass einen Untergrund b erwartet, der mit einer (Gauss-verteilten) Unsicherheit σb behaftet ist. Die beobachtete Zahl Ereingisse sei n. Ferner soll es eine Detektorakzeptanz A geben, die einen Fehler σA aufweist. Nun kann z.B. ein oberes Poisson-Limit auf die Signalrate λ wie in Gleichung 8.22 definiert werden: Pn α= 1 k=0 2πσλ σb R∞R∞ 0 0 Pn P (k; λ0 k=0 + − b0 )e − P (k; b0 )e (b−b0 )2 2σ 2 b (b−b0 )2 2σ 2 b − e (λ−λ0 )2 2σ 2 λ dλ0 db0 (8.37) db0 In der obigen Gleichung haben wir die Unsicherheit σλ auf die Signalrate λ durch σλ = λ·σA /A ausgedrückt. Wie zuvor suchen wir also den wahren Wert der Signalrate λ als oberes Limit, für den mit einer Wahrscheinlichkeit 1 − α gelten soll, dass wir mehr als n beobachten aber zugleich b ≤ n haben. Dieses Integral kann im Prinzip numerisch gelöst werden. Oft wird aber eine MCSimulation mit verbundenen Zufallsexperimenten benutzt, um die Signalrate λ zu bestimmen. Hierbei wird für jeden Testwert von λ ein grosses Ensemble an Zufallsexperimenten gewürfelt, wobei die erwartete Signalrate und der Untergrund jeweils um ihre (gaussförmigen) Unsicherheiten verschmiert werden. In jedem Zufallsexperiment wird also eine erwartete Anzahl von 80 Untergrundereignissen und eine vorgegebene Signalrate aus zwei Gaussverteilungen gezogen und dann poissonverteilte Zahlen für Signal λ und Untergrund generiert. Für die Zufallswürfe, für die b ≤ n ist, wird der Anteil f an dem b + λ > n ist, registriert. Das Konfidenzintervall für ein gegebenes n ist dann gleich f . Man muss daher n variieren, bis das gewünschte 1 − α erreicht ist. 81 9 9.1 Hypothesentests Grundbegriffe und Ablauf eines Tests Eine statistische Hypothese ist eine Behauptung über Eigenschaften einer oder mehrerer Zufallsvariablen, die entweder über deren Parameter oder über deren Verteilungsfunktion eine Aussage machen. Die zu prüfende Hypothese wird als H0 oder Nullhypothese18 bezeichnet. Mit H1 wird bei Entscheidungen zwischen Hypothesen die Gegen- oder Alternativhypothese bezeichnet. Ein statistischer Test besteht aus der Überprüfung einer statistischen Hypothese mittels einer zur Verfügung stehenden Stichprobe. Es kann entweder eine einzelne Hypothese überprüft werden (Goodness of fit) oder H0 zugunsten von H1 verworfen werden. Eine Nullhypothese H0 wird als statistisch widerlegt angesehen und verworfen, wenn der Stichprobenbefund im deutlichen, also im signifikanten, Gegensatz zu ihr steht. Dies bedeutet, dass der Stichprobenbefund unter H0 nur eine sehr geringe Eintrittswahrscheinlcihkeit α hat. Der Ablauf eines solchen Signifikanztests umfasst folgende Schritte: • Festlegung von Nullhypothese H0 und Alternativhypothese H1 , zwischen denen man sich entscheiden möchte. • Festlegung des Stichprobenumfangs n. • Wahl des Signifikanzniveaus α bzw. 1 − α. • Wahl einer Stichprobenfunktion oder Testgrösse t als Prüfgrösse bzw. Testfunktion. Die Grösse t ist eine Zufallsvariable und wird anhand des Stichprobenumfangs berechnet unter der Annahme, dass H0 wahr ist • Konstruktion eines Ablehnbereiches für die Prüfgrösse t, in dem H0 verworfen wird. Dabei wird aus der Wahrscheinlichkeitsdichte f0 (t) (unter der Annahme von H0 ) der Testgrösse t der Ablehnbereich (oder die kritische Region) V (H0 ) ermittelt, so dass R V (H0 )f0 (t)dt = α ist. Es gibt einen Wert tc für t, der den Ablehnbereich von der Annahmeregion trennt. Analog definiert man Ablehn- und Annahmebereich für die Hypothese H1 mit einem Bruchteil β und einer Konfidenz 1 − β. Der Annahmebereich von H1 ist natürlich gleich dem Verwerfbereich von H0 und umgekehrt. • Stichprobenziehung und Auswertung. Die Entscheidung ist: Lehne H0 auf dem Niveau α ab, wenn die Prüfgrösse in den kritischen Bereich V (α) fällt oder akzeptiere H0 , wenn die Prüfgrösse ausserhalb des kritischen Bereiches ist. Das Signifikanzniveau α ist die maximal zu tolerierte Wahrscheinlichkeit, dass H0 zu Unrecht abgelehnt wird, d.h. t innerhalb der Verwerfregion V (H0 ) liegt. Ein Fehler erster Art bezeichnet man das Ablehnen von H0 , wenn H0 in Wahrheit zutrifft. Je kleiner wir α wählen, umso unwahrscheinlicher wird diese Fehlentscheidung. Normalerweise wird α zu 0.1 oder 0.05 gewählt. Ein Fehler zweiter Art ist das Nichverwerfen von H0 bzw. die Annahme von H0 , wenn die Nullhypothese in Wahrheit falsch ist. Dies bedeutet, dass t innerhalb der Annahmeregion von H0 und damit innerhalb der Verwerfregion von H1 liegt, 18 Der Zusatz Null kommt daher, da bei Signifikanztests die Nullhypothese für ’null und nichtig’ erwiesen werden soll zugunsten der Alternativhypothese. 82 aber H0 dennoch falsch ist. Die Wahrscheinlichkeit dafür ist β. Beim Signifikanztest sind die Fehler erster Art durch Wahl von α unter Kontrolle, während Fehler zweiter Art eine sehr hohe Wahrscheinlichkeit (bis zu 1 − α) haben können. Als Beispiel für Fehler erster und zweiter Art wollen wir einen Detektor nur für Neutronenstrahlen betrachten. Der Detektor soll auf Neutronen mit einer Effizienz von 98% ansprechen, d.h. in 98% der Fälle in denen ein Neutron durch den Detektor tritt, reagiert der Detektor korrekt. Andererseits beträgt das Ansprechverhalten des Detektors auf Gammastrahlung 0.01%, d.h. für einen kleinen Bruchteil von durchtretenden Gamma-Quanten reagiert der Neutronendetektor ebenfalls (sog. Misidentifikation). Wird in einem Neutronenund Gammafeld mit dem Detektor gemessen, beträgt der Fehler erster Art somit 98% und der Fehler zweiter Art 0.01%. Als konkretes Beispiel betrachten wir nun folgenden Hypothesentest: Eine Drahtbondmaschine DB1 zur Produktion von Siliziumdetektormodulen hat bisher Detektoren mit einer Ausschussquote von P0 = 0.2 produziert. Die Maschine soll durch eine neue Maschine DB2 ersetzt werden, wenn die neue Maschine mit einer geringeren Ausschussquote P1 arbeitet. In einem Probelauf von DB2 werden nun n = 30 Module produziert. Um die Beziehung P1 < P0 statistisch abzusichern, wird sie bei einem Hypothesentest unter H1 gestellt. Es sei also: H0 : P1 ≥ 0.2; H1 : P1 < 0.2 (9.1) Wir wählen α = 0.05 und als Prüfgrösse t die Anzahl der defekt produzierten Module. Diese Grösse ist mit der Anzahl der total produzierten Module n = 30 und einer Wahrscheinlichkeit P binomialverteilt. Der Ablehnbereich für H0 wird konstruiert aus: nc X n i=0 i ! P0i (1 − P0 )n−i < α (9.2) Mit nc wird der kritische Wert bezeichnet, der die maximal zulässigen Defektmodule von DB2 angibt, um H0 gerade noch mit Konfidenz 1 − α anzulehnen. Es zeigt sich in der Rechnung, dass für nc = 2 der Wert α noch knapp unter 0.05 ist. Der Ablehnbereich für H0 ist also: K = 0, 1, 2. Finden sich also bis zu zwei defekte Module unter den 30 produzierten, wird DB2 wohl eingeführt werden. 9.2 Verteilungsgebundene Hypothesentests Im nachfolgenden gehen wir von einer bestimmten Verteilung der Grundgesamtheit aus, meistens eine Gaussvertelung. Die Übersichtstabelle gibt die wichtigsten Fälle. 9.3 Tests einer einzelnen Hypothese - Goodness of fit 9.3.1 Der χ2 -Test 9.3.2 Kolmogorov-Smirnov Test 83 Table 9.1: Mögliche Hypothesentests bei einer bestimmten Verteilung der Grundgesamtheit. H0 H1 Prüfgrösse Ablehnbereich Kommentar 2 Gauss-Tests über µ einer Normalverteilung bei bekanntem σ √ x̄−µ0 n (u1−α ; ∞) x̄ ist arithmetischer Mittelwert σ√ x̄−µ0 n (−∞; −u ) 1−α σ √ |x̄−µ0 | n (u ; ∞) 1−α/2 σ t-Tests über µ einer Normalverteilung bei unbekanntem σ 2 √ x̄−µ0 n (tn−1;1−α ; ∞) sn ist die Sample-Varianz sn √ x̄−µ0 n (−∞; −t ) n−1;1−α sn µ ≤ µ0 µ ≥ µ0 µ = µ0 µ > µ0 µ < µ0 µ 6= µ0 µ ≤ µ0 µ ≥ µ0 µ > µ0 µ < µ0 µ = µ0 µ 6= µ0 √ |x̄−µ0 | n sn λ ≤ λ0 λ > λ0 x (xo + 1, xo + 2, . . .) λ ≥ λ0 λ = λ0 λ < λ0 λ 6= λ0 x x (0, 1, . . . , xu − 1) (0, 1, . . . , x0u − 1)und(x0o + 1, x0o + 2, . . .) (tn−1;1−α/2 ; ∞) Test über µ(= λ) einer Poissonverteilung 84 λi0 −λ0 <1−α e i=0 Pxu −1i! λi0 −λ0 <α i=0 i! e x0u wie oben, wobei α → Pxo −1 x0o und α/2 10 Blindstudien 85 11 Parametrisierung von Daten 11.1 Orthogonale Polynome 11.2 Splines 86 12 Entfaltung 87