Statistische Methoden der Datenanalyse Vorlesung PHY523, Fakultät Physik, Technische Universität Dortmund Wolfgang Rhode 11. Oktober 2010 Inhaltsverzeichnis Vorbemerkung i Motivation iii I. 1 Grundlagen 1. Numerische Grundlagen 1.1. Arithmetische Ausdrücke . . . . . . . . . . . . . . . . . . . . . 1.2. Zahlen, Operationen und elementare Funktionen am Computer 1.2.1. Ganze Zahlen . . . . . . . . . . . . . . . . . . . . . . . . 1.2.2. Gleitpunktzahlen . . . . . . . . . . . . . . . . . . . . . . 1.2.3. Operationen und Funktionen . . . . . . . . . . . . . . . 1.3. Stabilität . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1.3.1. Entwicklung von Kriterien für die numerische Stabilität 1.4. Fehlerfortpflanzung und Kondition . . . . . . . . . . . . . . . . 1.4.1. Vergleich von Kondition und Stabilität . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2. Wahrscheinlichkeit und Generatoren 2.1. Vorbemerkungen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2.1.1. Definitionen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2.1.2. Kombination von Wahrscheinlichkeiten . . . . . . . . . . . . . . . 2.2. Zufallsvariable und deren Verteilung . . . . . . . . . . . . . . . . . . . . 2.3. Allgemeine Eigenschaften einer Zufallsvariablen: Erwartungswert, Streuung, Momente, etc. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2.3.1. Regeln über Mittelwerte und Varianzen . . . . . . . . . . . . . . 2.4. Gleichverteilung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2.5. Erzeugung von gleich- und beliebig verteilten Zufallszahlen auf dem Computer . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2.5.1. Lineare kongruente Generatoren (LCG) . . . . . . . . . . . . . . 2.5.2. Multiplikativ linear kongruente Generatoren MLCG . . . . . . . 2.5.3. Spektraltest . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2.5.4. Erzeugung beliebig verteilter Zufallszahlen (Teil 1) . . . . . . . . . . . . . . . . . 3 4 7 7 8 11 16 16 22 24 . . . . 27 27 27 28 29 . 31 . 33 . 36 . . . . . 37 37 38 39 41 3. Spezielle Wahrscheinlichkeitsdichten 45 3.1. Gleichverteilung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 45 3.2. Die Binomialverteilung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 45 3 Inhaltsverzeichnis 3.3. 3.4. 3.5. 3.6. 3.7. 3.8. 3.9. Die Die Die Die Die Die Die Normal- oder Gauß-Verteilung Poisson-Verteilung . . . . . . . Gamma-Verteilung . . . . . . . χ2 -Verteilung . . . . . . . . . . Cauchy-Verteilung . . . . . . . t-Verteilung . . . . . . . . . . . F-Verteilung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4. Beliebige verteilte Zufallszahlen (Teil 2) 4.1. Transformation der Gleichverteilung . . . 4.2. Das Neumannsche Rückweisungsverfahren 4.3. Erzeugung normalverteilter Zufallszahlen 4.4. Erzeugung Poisson-verteilter Zufallszahlen 4.5. Erzeugung χ2 -verteilter Zufallszahlen . . . 5. Mehrdimensionale Verteilungen 5.1. Problemstellung . . . . . . . . . . . . . . 5.2. Erwartungswert, Varianz, Kovarianz und 5.3. Mehrere Veränderliche . . . . . . . . . . 5.4. Die mehrdimensionale Gauß-Verteilung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Korrelation . . . . . . . . . . . . . . 6. Einfache statistische Methoden 6.1. Trennung von Datensätzen: Diskriminanzanalyse 6.2. Theoreme und Sätze . . . . . . . . . . . . . . . . 6.2.1. Tschebyscheff-Ungleichung . . . . . . . . 6.2.2. Gesetz der großen Zahl . . . . . . . . . . 6.2.3. Der Zentrale Grenzwertsatz . . . . . . . . 6.3. Methode der kleinsten Quadrate . . . . . . . . . 6.3.1. Vorbemerkungen . . . . . . . . . . . . . . 6.3.2. Kleinste Quadrate in linearen Modellen . 6.3.3. Gaußverteilte Meßfehler . . . . . . . . . . 6.3.4. Nichtlineare kleinste Quadrate . . . . . . 6.4. Nachtrag und Exkurs: Fehlerfortpflanzung . . . . 6.4.1. Transformation einer Variablen . . . . . . 6.4.2. Transformation mehrerer Variablen . . . . 6.5. Numerische Optimierung . . . . . . . . . . . . . . 6.5.1. Vorbemerkungen . . . . . . . . . . . . . . 6.5.2. Eindimensionale Minimierung . . . . . . . 6.5.3. Mehrdimensionale Minimierung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 47 49 50 51 51 52 54 . . . . . . . . . . 55 55 55 57 59 60 . . bei . . . . . . . zwei . . . . . . . . . . . . Variablen . . . . . . . . . . . . . . . . 61 61 62 65 68 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 71 71 74 74 75 76 77 77 78 82 86 87 87 89 92 92 95 97 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7. Spezielle Verfahren zur Datenanalyse 99 7.1. Die Maximum-Likelihood-Methode . . . . . . . . . . . . . . . . . . . . . . 99 7.1.1. Problemstellung . . . . . . . . . . . . . . . . . . . . . . . . . . . . 99 7.1.2. Aufgabe . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 99 4 Inhaltsverzeichnis 7.2. 7.3. 7.4. 7.5. 7.1.3. Ansatz . . . . . . . . . . . . . . . . . . . . . . . . . 7.1.4. Maximum-Likelihood-Prinzip . . . . . . . . . . . . 7.1.5. Log-Likelihood-Funktion . . . . . . . . . . . . . . . 7.1.6. Beispiele . . . . . . . . . . . . . . . . . . . . . . . . Fehlerbestimmung bei der Maximum-Likelihood-Methode 7.2.1. Ein Parameter . . . . . . . . . . . . . . . . . . . . 7.2.2. Mehrere Parameter . . . . . . . . . . . . . . . . . . Die Maximum-Likelihood-Methode, Eigenschaften . . . . 7.3.1. Konsistenz . . . . . . . . . . . . . . . . . . . . . . 7.3.2. Erwartungstreue? . . . . . . . . . . . . . . . . . . . 7.3.3. Gaußähnlichkeit . . . . . . . . . . . . . . . . . . . 7.3.4. Varianz . . . . . . . . . . . . . . . . . . . . . . . . Bayesische Statistik . . . . . . . . . . . . . . . . . . . . . . Entfaltung . . . . . . . . . . . . . . . . . . . . . . . . . . . 7.5.1. Problem . . . . . . . . . . . . . . . . . . . . . . . . 7.5.2. Akzeptanzkorrektur . . . . . . . . . . . . . . . . . 7.5.3. Diskretisierung . . . . . . . . . . . . . . . . . . . . 7.5.4. Anwendung . . . . . . . . . . . . . . . . . . . . . . 7.5.5. Entfaltung (ohne Regularisierung) . . . . . . . . . 7.5.6. Problemanalyse . . . . . . . . . . . . . . . . . . . . 7.5.7. Regularisierung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 99 99 100 100 101 101 102 103 103 103 103 103 103 106 106 108 108 110 111 112 113 5 Vorbemerkung Das vorliegende Skript basiert auf der Beschreibung des Moduls PHY523 im Bachelorbzw. Masterstudiengang Physik an der Technischen Universität Dortmund. Die Veranstaltung richtet sich an Physikstudierende im fünften (B.Sc.) bzw. ersten und dritten (M.Sc) Semester. Ziel dieser dreistündigen einsemestrigen Veranstaltung ist eine Vermittlung von Kompetenzen, die für die Erstellung der Bachelor- bzw. Masterarbeit und das spätere Berufsleben relevant sind. Vermittelt werden soll ein geeigneter Umgang mit statistischen Methoden zur Analyse von moderaten bis sehr großen Datenmengen. Ein Teil der Übungsaufgaben, die in den zugehörigen zweistündigen Übungen besprochen werden, können und sollen unter Einbeziehung des von in der Experimentalphysik benutzten Datenverwaltungs- und Analysesystems root auch am Computer gelöst werden. In diesem Zusammenhang werden Grundkenntnisse der Programmiersprache C++ benötigt bzw. erlernt. Im Rahmen des Bachelor- bzw. Masterstudiengangs werden mit einem generischen Arbeitsaufwand von 240 Stunden, von denen 81 Stunden auf Übungen sowie die Abschlussprüfung entfallen, 8 Credits erworben. i Motivation In der modernen Experimentalphysik werden Messdaten in der Regel auf elektronischem Weg erhoben und verarbeitet. Vor ihrer Durchführung werden kostenintensive Experimente und Messungen in der Regel mit statistischen Verfahren (Monte Carlo) geplant. Dieselben Verfahren werden auch zur Interpretation und Analyse eingesetzt. In dieser Vorlesung wird Basiswissen vermittelt, das zur Planung eines Experimentes, der Analyse der erfassten Daten sowie schließlich zur Extraktion von physikalischen Parametern benötigt wird. Der Aufbau der Vorlesung folgt einer gedanklichen Planung und Analyse eines Experiments. Daher werden zunächst die numerischen Randbedingungen der numerischen Mathematik, dann der Wahrscheinlichkeitstheorie bis hin zu Monte Carlo Simulationen von Experimenten und schließlich der Datenanalyse mit einfachen und komplexen Verfahren behandelt. Die Vorlesung umfasst folgende Lehrinhalte: • Numerische Methoden der Datenverarbeitung, • Datenbehandlung und Programmierung, • Algorithmen und Datenstrukturen, • Methoden der linearen Algebra, • Wahrscheinlichkeitsrechnung, • Ein- und mehrdimensionale Verteilungen, • Zufallszahlen und Modellieren von Experimenten mit Monte Carlo Methoden, • Parameterschätzung, • Optimierungsprobleme, • Die Methode der kleinsten Quadrate, • Die Maximum Likelihood-Methode, • Konfidenzintervalle und Hypothesentests, • Parametrisierung von Daten, • Bayes’sche Verfahren, iii Motivation • Fehlerfortpflanzung • Entfaltung • Neuronale Netze • Zufällige Wälder • Boosted Decision Trees • Supported Vector Machines (SVN) Zusätzlich zu dem vorliegenden Skript seien folgende Lehrbücher empfohlen: • R.J. Barlow, Statistics, Wiley; • V. Blobel, E. Lohrmann, Numerische und Statistische Methoden der Datenanalyse, Teubner; • S. Brand, Datenanalyse, Spektrum Verlag; • T. Butz, Fouriertransformation für Fußgänger, Teubner; • G.D. Cowan, Statistical Data Analysis, Oxford University Press; • W.T. Eadie et al., Statistical Methods in Experimental Physics, North-Holland; • H.L. Harney, Bayesian Inference, Springer; • F. James, Telling the truth with Statistics, CERN Academic Training Programm; • F. James, Statistical Methods in Experimental Physics, World Scientific; • D.E. Knuth, The Art of Computer Programming, Addison Wesley; • L. Lyons, Statistics for nucelar and particle physicists, Cambridge University Press; • W.T. Press et al., Numerical Recipes, Cambridge University Press; • D.S. Sivia, Data Analysis - A Bayesian Tutorial, Oxford University Press • to be completed Von IP-Adressen der Technischen Universität Dortmund sind manche Lehrbücher des Springer-Verlages frei zugänglich. Das deutschsprachige Paket Naturwissenschaften besteht aus der folgenden Sammlung: Mathematics and Statistics: http://www.springerlink.com/mathematics-and-statistics/?Content+Type=Books&Copyright=2006&sortorder=asc&Language=German Earth and Environmental Science: http://www.springerlink.com/earth-and-environmental-science/?Content+Type=Books&Copyright=2006&sortorder=asc&Language=German Chemistry and Materials Science: http://www.springerlink.com/chemistry-and-materials-science/?Content+Type=Books&Copyright=2006&sortorder=asc&Language=German Biomedical and Life Science: http://www.springerlink.com/biomedical-and-life-sciences/?Content+Type=Books&Copyright=2006&sortorder=asc&Language=German Physics and Astronomy: http://www.springerlink.com/physics-and-astronomy/?Content+Type=Books&Copyright=2006&sortorder=asc&Language=German iv Dazu gehören: • H.R. Schwarz, N. Köckler, Numerische Mathematik, Teubner-Verlag 2006 http://www.springerlink.com/content/h58j45 • J.-P. Kreiß, G. Neuhaus, Einführung in die Zeitreihenanalyse, Springer 2006 http://www.springerlink.com/content/p47746 • und andere Die Übungsaufgaben sollten -sofern eine numerische Behandlung erforderlich ist- mit Hilfe des objektorientierten Datenverarbeitungspaketes root gelöst werden. Hierzu sind Grundkenntnisse in C++ erforderlich. In der Teilchen- und Astroteilchenphysik wird root als Standard eingesetzt. Für die gängigen Betriebssysteme kann root bei Beachtung der dort gegebenen copy right Informationen von der Webseite http://root.cern.ch heruntergeladen werden. Das root-Handbuch ist unter http://root.cern.ch/root/doc/RootDoc.html zu finden. Entsprechende Tutorials stehen unter http://root.cern.ch/root/Tutorials.html bereit. v Teil I. Grundlagen der Datenanalyse Brüderchen, Du schwatzest zu subtil: Du grübelst und grübelst und hast am Ende nichts als Unruhe und Ungewisheit zum Lohne. Ich glaube frisch weg, ohne mich links oder rechts umzusehen, daß alles gut und weise angeordnet ist. Ich komme am besten dabey zu rechte. Ist auch wirklich alles Nothwendigkeit und Zufall; muß ich mich von diesen beyden Mächten herumstoßen laßen wohlan! ich wills gar nicht wissen, daß sie mich blind herumstoßen. Der Kopf wird so dadurch wirblicht genug, soll ich mir ihn noch durch Grübeleyen wirblicht machen? Johann Karl Wezel, Belphegor, 1776 1 1. Numerische Grundlagen Bei der computergestützten Analyse von Daten geht es letztlich immer um eine möglichst genaue Extraktion von physikalisch zu interpretierenden funktionalen Zusammenhängen aus einer erfassten Datenmenge. Die Genauigkeit der Analyse ist dabei durch drei Faktoren eingeschränkt: • Durch den statistischen Fehler. Wie dieser Fehler bestimmt und unter den gegebenen Umständen minimiert wird, wird im Hauptteil dieser Vorlesung diskutiert. • Durch den systematischen Messfehler. Dieser Fehler kann mit rein statistischen Mitteln nur bedingt abgeschätzt und nicht reduziert werden. In dieser Vorlesung werden daher nur Darstellungsfragen behandelt. • Durch den numerischen Fehler. Dieser Fehler entsteht durch die Bearbeitung der Daten auf dem Computer und kann durch geeignete Maßnahmen bei der Programmierung der Datenanalyse minimiert werden. Es ist daher notwendig, vor der Diskussion und Programmierung numerisch aufwändiger Prozeduren, die Grundregeln der numerischen Datenverarbeitung zu besprechen. 3 1. Numerische Grundlagen 1.1. Arithmetische Ausdrücke Zusammenhänge in der Physik und Statistik werden durch mathematische Formeln beschrieben. Beispiele: |~v | = p x2 + y 2 Bahnradius n E = E0 (1 + ε) Energiegewinn bei stochastischer Beschleunigung s P 2 P xi − ( xi )2 /n σ = Standardabweichung n √ −b ± b2 − 4ac x1,2 = Lösung einer quadratischen Gleichung 2a h = arcsin(sin ψ sin δ + cos ψ cos δ cos t) Höhe eines Sterns Zx t2 1 e− 2 dt Fläche unter der Normalverteilungskurve θ = 2π (1.1) (1.2) (1.3) (1.4) (1.5) (1.6) −x Formeln, in denen nur die Grundrechenarten und elementare Funktionen vorkommen, werden als arithmetische Ausdrücke bezeichnet. Definition der arithmetischen Ausdrücke: Es gelten folgende Bezeichnungen: Variable: x1 , x2 , ..., xn ⊂ R . Zweistellige Operationen: O = {+, −, ∗, /, ∗∗}. Elementare Funktionen: F = {sin, cos, exp, ln, sqrt, abs, ...}. Damit kann ein arithmetischer Ausdruck wie folgt definiert werden: Die Menge A=A(x1 , x2 , ..., xn ) der arithmetische Ausdrücke in x1 , x2 , ..., xn ist definiert durch i) R ⊆ A ii) xl ∈ A, für l = 1, 2, ..., n iii) g ∈ A ⇒ (−g) ∈ A 4 1.1. Arithmetische Ausdrücke iv) g, h ∈ A, · ∈ O ⇒ (g · h) ∈ A v) g ∈ A, φ ∈ F ⇒ φ(g) ∈ A vi) A(x1 , x2 , ..., xn ) ist minimal unter den Mengen A, die (i) − (v) erfüllen. Um später Regeln für eine geeignete Programmierung formulieren zu können, sollen zunächst Beispiele betrachtet werden. 1 Beispiel: Lösung einer quadratischer Gleichung y = [−b + sqrt(b ∗ b − 4 ∗ a ∗ c)]/(2 ∗ a) ∈ A(a, b, c). Zur Auswertung werden die Variablen durch Zahlen ersetzt. Beispiel: Das Horner–Schema Ein Polynom n-ten Grades ist eine Funktion der Gestalt f (x) = a0 xn + a1 xn−1 + ... + an−1 x + an mit vorgegebenen Koeffizienten a0 , a1 , ..., an . Die Auswertung möge an der Stelle x erfolgen. • naive Vorgehensweise: – Bildung aller Potenzen xk – Multiplikation mit den Koeffizienten ai – Addition • Horner–Schema: Wir schreiben statt dessen: fi := a0 xi + a1 xi−1 + ... + ai−1 x + ai für i = 1, 2, ..., n. Dann gilt fn = f (x). Der Vorteil dieser Darstellung besteht darin, dass die fi rekursiv definierbar sind. Es ist also im a0 ; f0 = fi = fi−1 · x + ai , i = 1, 2, ..., n; Horner − Schema : f (x) = fn . Da ein Polynom zu den arithmetischen Ausdrücken gehört, kann auch die Ableitung rekursiv gebildet werden. 1 Es ist empfohlen, diese Beispiele in C++ bzw. root zu programmieren und in geeigneten Grafiken zu visualisieren. 5 1. Numerische Grundlagen 0 0; f0 = 0 fi0 = fi−1 · x + fi−1 , i = 1, 2, ..., n; Horner − Schema der ersten Ableitung 0 0 f (x) = fn . Beispiel: Für das Polynom f (x) = 4x2 + 2x + 3 ist f0 = 4 f1 = 4 · x + 2 f2 = (4 · x + 2) · x + 3 f00 = 0 f10 = (0 · x) + 4 f20 = 4 · x + (4 · x + 2) Das vollständige Horner-Schema liefert den Funktionswert und sämtliche Ableitungen: a0 +0 f0 a1 +xf0 f1 a2 +xf1 f2 ... ... ... an1 +xfn−2 fn1 +0 f10 +xf10 f20 +xf20 f30 ... ... 0 +xfn−1 fn0 an fn−1 fn Beispiel: Betrachte f (x) = (1 − x)6 und berechne die Lösung dann: • (1 − x)6 einfach genau. • 1 − 6x + 15x2 − 20x3 + 15x4 − 6x5 + x6 naiv. • mit dem Horner-Schema. • doppelt genau. In Abbildung 1.1 ist die relative Abweichung zwischen der naiv berechneten Funktion und der in diesem Fall geeigneten zusammengefassten Berechnung dargestellt. Offenbar zerstört das Rechnen mit Maschinenzahlen hier die Monotonieeigenschaft von f . Insbesondere bei naiver Berechnung treten viele Vorzeichenwechsel in der Umgebung von x = 1 auf. 6 1.2. Zahlen, Operationen und elementare Funktionen am Computer abs((pow((1-x),6)-(1-6*x+15*pow(x,2)-20*pow(x,3)+15*pow(x,4)-6*pow(x,5)+pow(x,6)))/pow((1-x),6)) 109 8 10 107 6 10 105 104 3 10 102 10 1 10-1 10-2 10-3 10-4 0.99 0.992 0.994 0.996 0.998 1 1.002 1.004 1.006 1.008 1.01 Abbildung 1.1.: Relative numerische Abweichung zwischen der naiven Berechnung und der zusammengefassten Berechnung des Polynoms. In der Umgebung der Nullstelle wird der Fehler beliebig groß. 1.2. Zahlen, Operationen und elementare Funktionen am Computer Im Folgenden werden generische Eigenschaften von Maschinenzahlen, soweit für die Datenanalyse relevant, diskutiert. Die genaue Speicherform hängt von der Wortbreite der verwendeten CPU, dem Betriebssystem und der Programmiersprache ab.2 Als Konsequenz hängen auch die numerischen Eigenschaften einer Analyse oder Rechnung von dem Betriebssystem, der Programmiersprache und von Eigenschaften der Codierung ab. 1.2.1. Ganze Zahlen Ganze Zahlen (Integer, ± xxxxx) werden als Kombination aus Vorzeichenbit und Ziffernfolge gespeichert. Die Codierung der Zahl erfolgt z.B. im 4-Bit-Zweierkomplement: 2 Für Details sei daher auf die entsprechenden Handbücher verwiesen. 7 1. Numerische Grundlagen Bits 8 16 32 64 8 16 Zahlenbereich -128 ... 127 -32768 ... 32767 −231 ...231 − 1 −263 ...263 − 1 0 ... 255 0 ... 65535 Bezeichnung des Zahlentyps Byte short integer integer long integer unsigned byte word Tabelle 1.1.: Generische Deklarationen von ganzen Zahlen. 0 1 2 3 4 5 6 7 0000 0001 0010 0011 0100 0101 0110 0111 -8 -7 -6 -5 -4 -3 -2 -1 1000 1001 1010 1011 1100 1101 1110 1111 Der darstellbare Zahlenbereich hängt von der Zahl der zur Codierung verwendeten Bits sowie der Entscheidung ab, ob ein Vorzeichenbit benötigt wird. Es sei darauf hingewiesen, dass mit Analog-Digital-Convertern (ADC) (siehe z.B. 1.2) elektronisch registrierte Messdaten in einem ganzzahligen Maschinenformat gespeichert werden. Sei ein ADC so konfiguriert, dass die Spannungsdifferenz ∆U gemessen werden kann, ohne in den Über- oder Unterlauf zu treten. Dann wird das Intervall bei einer Verwendung von n Speicherbits in 2n Intervalle unterteilt. Bei einer Auflösung von 8 Bit wird z.B. in dem Intervall ∆U eine relative Auflösung von 1/28 = 1/256 oder ≈ 0, 39% erreicht. 1.2.2. Gleitpunktzahlen Gleitpunktzahlen bestehen aus folgenden zu codierenden Funktionseinheiten: Ziffern ± ↑ Vorzeichen z }| { xxxxxx Ziffern · ↑ Dezimalpunkt z }| { xxxx 10 ± ↑ xxx ↑ VorExpozeichen nent Eine Gleitpunktzahl wird von links nach rechts wie folgt dargestellt: Vorzeichenbit, Ziffernfolge geteilt durch den Dezimalpunkt, Vorzeichenbit des Exponenten, Exponent. 8 1.2. Zahlen, Operationen und elementare Funktionen am Computer Abbildung 1.2.: Kennlinie für einen AD-Umsetzer mit einer Auflösung von 2 Bit. Die Auflösung beträgt 1/22 = 25% Die Genauigkeit der Zahl erhöht sich mit der Anzahl der dargestellten Ziffern. Der Exponent, eine binär gespeicherte Zahl z.B. [-64,63], gibt an, mit welcher Potenz einer Basiszahl (i.d.R. 10) die vorliegende Zahl zu multiplizieren ist. In der Regel (Norm IEEE 754) werden Gleitpunktzahlen im Computer codiert zur Basis zwei gespeichert. Die codierte Zahl z ergibt sich wie folgt aus den n gespeicherten Bits: z = m1 · 2−1 + m2 · 2−2 + ... + mn · 2−n (1.7) Abbildung 1.3.: Speicherform einer Gleitkommazahl. WIKIPEDIA In Abbildung 1.3 ist die Computer-Repräsentation einer Gleitkommazahl bestehend aus einem Vorzeichenbit, 8 Bits für den Exponenten und 23 Bits für die Mantisse dar- 9 1. Numerische Grundlagen Bits 32 64 Vorzeichen 1 1 Exponent 8 11 Mantisse 23 52 Zahlenbereich 1.4 · 10−45 ...3.40... · 1038 4.9 · 10−324 ...1.79... · 10308 Zahlentyp float double Tabelle 1.2.: Generische Deklarationen von Gleitpunktzahlen. gestellt. Wie am Beispiel der Zahl 0.1 leicht gezeigt werden kann, geht die Umrechnung einer beliebigen Dezimalzahl in dezimale Gleitpunktzahlen nicht immer auf. Für 0.1 können nur eine kleinste obere und eine größte untere Gleitpunktzahl (float) geschrieben werden. Darstellungen der Zahl 0.1: V E(8 Bit) M(23 Bit) V e1 e2 e3 ...e8 m1 m2 m3 ...............m21 m22 m23 0 0111.1011 1001.1001.1001.1001.1001.100 0 0111.1011 1001.1001.1001.1001.1001.101 = 0, 0999999940 = 0.1000000015 Bereits bei der Darstellung einer Zahl ergeben sich somit Rundungsfehler. Überlauf, Unterlauf Das Verhalten eines Programmes bei Über- oder Unterschreitung des erlaubten Zahlenbereiches hängt von der Programmiersprache und Compilereinstellungen ab. Bei Unterlauf werden Zahlen i.d.R. gleich Null gesetzt, bei Überlauf wird NaN (Not a Number) oder auch Inf (Infinity) codiert. Beide Ereignisse sind für eine exakte Berechnung von Ergebnissen natürlich unerwünscht. Das Problem muss daher vor Berechnung numerisch in angemessener Weise skaliert werden. Darstellung reeller Zahlen, Rundung Betrachte Maschinenzahlen der Form: z = 0.x1 ...xLB e mit L als Mantissenlänge, B als Basis und e als Exponent Einer solchen Zahl z wird als Wert zugeordnet: z= L P i=1 10 xi B e−i = x1 B e−1 + x2 B e−2 + ... + xL B e−L = B L−e (x1 B L−1 + x2 B L−2 + ... + xL ) 1.2. Zahlen, Operationen und elementare Funktionen am Computer Zur Ermittlung der Wertes, muss ein Polynom an der Stelle B ausgewertet werden. Die Konvertierung zwischen Zahlen zur Basis B und Dezimalzahlen kann mit dem HornerSchema erfolgen. Offenbar gibt es zwischen darstellbaren Maschinenzahlen immer nichtdarstellbare reelle Zahlen. Als Rundung bezeichnet man die Suche nach einer nahegelegenen Maschinenzahl. Man unterscheidet zwei Typen von Rundungen: • Die Optimale Rundung: nächstgelegene Maschinenzahl. Sind zwei Zahlen gleich weit entfernt, wird aus statistischen Gründen diejenige mit xL gerade genommen. • Die Rundung durch Abschneiden: Die Ziffern nach der L-ten Stelle werden weggelassen. Beispiel Optimal Abschneiden x x̃ x̃ x1 = .12345610 5 .12310 5 .12310 5 x2 = .5678910 5 .56810 5 .56710 5 x3 = .12350010 5 .12410 5 .12310 5 x4 = .23450010 5 .23410 5 .23410 5 Definition: Eine Rundung heißt korrekt, falls zwischen x und x̃ keine Maschinenzahl liegt. Beide Rundungstypen sind korrekt. Der relative Fehler lässt sich wie folgt abschätzen: Nimmt man an, dass der Exponentenbereich unbeschränkt ist, dann gilt für einen korrekt gerundeten Wert: |x − x̃| ≤ ε = B 1−L |x| x 6= 0 Der Rundungsfehler ist durch die maschinenabhängige Zahl ε beschränkt. 1.2.3. Operationen und Funktionen In Abhängigkeit von den Operationen, die für eine Berechnung benutzt werden, wird der numerische Fehler der Berechnung auf verschiedene Weise bestimmt: 11 1. Numerische Grundlagen • Für die zweistelligen Operationen ◦ ∈ {+, −, ∗, /} gilt bei korrekter Rundung: |x ◦ y − x ˜◦ y| ≤ ε = B 1−L |x ◦ y| x 6= 0 B sei hier die Basis, L sei die Mantissenlänge, es liege kein Über- oder Unterlauf vor. • Bei Berechnung einer Potenz x ∗ ∗y oder x∧ y gilt: Ist y klein und ganzzahlig (=2, 3, ...) kann der Wert durch Ausmultiplizieren bestimmt werden. Ansonsten wird x∧ y = exp(y · ln(x)) berechnet. Der relative Fehler ist i.a. größer als bei zweistelligen Operationen ∆f = c · ε mit c > 1. f • Bei anderen elementaren Funktionen werden Approximationsverfahren zur Bestimmung des Funktionswertes eingesetzt. Diese Verfahren werden im Folgenden zunächst erläutert, dann wird der relative Fehler des Verfahrens diskutiert. Die Approximationsverfahren werden nach folgendem Schema durchgeführt: x → Argumentreduktion → Approximantion → Ergebnisanpassung → f (x). In der Argumentreduktion wird mit Hilfsformeln die Berechnung eines Funktionswertes auf einen kleinen Argumentbereich zurückgeführt. Dies wird bei der Ergebnisanpassung nach der approximativen Berechnung des Funktionswertes wieder rückgängig gemacht. Die Approximation kann mit verschiedenen Verfahren erfolgen, von denen mit der Kettenbruchdarstellung meist am schnellsten ein hinreichend genaues Ergebnis erzielt wird: • Kettenbruchdarstellung • Polynomapproximation • Potenzreihenentwicklung • Iterationsverfahren 12 1.2. Zahlen, Operationen und elementare Funktionen am Computer In einigen Situationen ist auch eine Rückführung auf andere Funktionen möglich (z.B. cos(x) = sin(π/2 − x)). Als Beispiel betrachten wir die Wurzelfunktion: √ x = sqrt(x) für x = mB e mit der Basis B, dem Exponenten e und der Mantisse m ∈ [1/B, 1] . • Zur Argumentreduktion und Ergebnisanpassung schreibt man √ x= √ S x0 · B mit x0 = m, S = e/2, für e gerade x0 = m , S = (e + 1)/2, für e ungerade B Dabei ist x0 ∈ 1/B 2 , 1 Die Funktion muss nur noch für Argumente aus dem Intervall bestimmt werden. Die Ergebnisse erhält man aus der Multiplikation mit B S . • Für die Aproximation gibt es drei Möglichkeiten: a) Entwicklung der Funktion in eine Potenzreihe, z.B. die Funktion eine Potenzreihe um 1: √ √ 1 − z in 1 1 1 5 4 1 − z = 1 − z − z2 − z3 − z − ... 2 8 16 128 Der Konvergenzradius ist hier gleich 1. Die Konvergenz erfolgt aber nur für x ≈ 1(z ≈ 0) genügend schnell. Für kleine x (z.B. x0 ≈ 0.01) wird der Algorithmus langsam und ist somit für praktische Zwecke nicht tauglich. b) In dem Iterationsverfahren wird die Wurzel w= √ x zu gegebenen x > 0 gesucht. Für w gilt w2 = x oder w = wx . √ Es sei w0 eine Anfangsnäherung für x. Man definiert dann w0 = x . w0 13 1. Numerische Grundlagen Falls w0 = w0 gilt, ist die Iteration abgeschlossen3 . Sonst schreibt man w0 = w2 w =w <w w0 w0 (für den Fall w0 > w). Es folgt ein neuer Näherungschritt mit w1 = w0 +w0 2 usw. Das Verfahren wird abgebrochen, wenn die gewünschte Genauigkeit |w0 + w0 | < 10−x erreicht ist. Wir benutzen somit folgendes Iterationsverfahren: w0 >0 (1.8) wi = x/wi (1.9) wi+1 = (wi + wi )/2 (1.10) Wir testen das Verfahren auf einem Taschenrechner mit B=10 und L=12 x = 0.01, w0 = 1 i 0 1 2 3 4 ... 7 wi 1 0.505... 0.2624... 0.1502... 0.1084 ... 0.1 Bereits nach wenigen Iterationsschritten ist der Algorithmus quadratisch konvergiert. c) Kettenbruchentwicklung mit optimalen Koeffizienten für das Intervall [0.01,1] Als Ansatz betrachtet man den Kettenbruch w ∗ (x) = t2 x + t1 + t0 x + s0 Nun bestimmt man die Koeffizienten so, dass √ sup | x − w∗ (x)| x∈[0.01,1] minimal wird. Es ergibt sich t2 = 0.5881229, t1 = 0.467975327625; t0 = −0.0409162391674 und s0 = 0.099998. Für alle x0 ∈ [0.01, 1] ist der relative Fehler von w∗ kleiner als 0.02. Mit drei nachträglichen Iterationen (Methode b) und 14 Rechenoperationen werden relative Fehler von < 10−5 erreicht. 3 Allein wegen der dargelegten Darstellungs- und Rundungsprobleme rechne man nicht damit, dass dieser Fall eintritt. 14 1.2. Zahlen, Operationen und elementare Funktionen am Computer • In der Ergebnisanpassung wird die Argumentreduktion rückgängig gemacht. Außer in der Nähe von Nullstellen und Polen gilt für die relative Abweichung: f (x) − fg (x) ≤ cf · ε f (x) mit ε = B 1−L , cf hängt von der Approximation und der Argumentreduktion ab. 15 1. Numerische Grundlagen 1.3. Stabilität Wie gezeigt, führt die beschränkte Ziffernzahl im Rechner zu einer • ungenauen Speicherung von Zahlen und einer • ungenauen Ausführung von Operationen. Jedoch ist der relative Fehler in einer Operation beschränkt. Das gilt bei einer längerer Folge von Operationen nicht mehr. Man betrachte zur Motivation die Funktion f (x) in den beiden Schreibweisen • a) f (x) = (1 − x)6 • b) f (x) = 1 − 6x + 15x2 − 20x3 + 15x4 − 6x5 + x6 In Fall (a) ist die Berechnung der Funktion stabil, in Fall (b) ist die Berechnung numerisch instabil und führt zu großen Fehlern. 1.3.1. Entwicklung von Kriterien für die numerische Stabilität Im Folgenden werden anhand von Beispielen Kriterien für die numerische Stabilität eines Algorithmus erarbeitet. • a) f (x) = (x3 + 13 ) − (x3 − 31 ), ⇒ ∀x : f (x) = x 1 103 109 1011 rundung, wegen differenz (+) ( ) 2 3 fg (x) 0, 666.666.666... 0, 666.666.663... 0, 663... 0 Man beobachtet eine Abnahme der Genauigkeit für größer werdendes x, also bei Differenzbildung von großen Zahlen. • b) f (x) = ((3 + x3 3 ) − (3 − x3 3 3 ))/x , x 1 10− 10−3 10−6 ⇒ ∀x : f (x) = 2 3 fg (x) 0, 666.666.667... 0, 666.67... 0 Man beobachtet eine Abnahme der Genauigkeit für kleiner werdende x durch Summen- bzw. Differenzbildung zwischen zwei etwa gleich großen Zahlen. Dies führt zu einer Auslöschung der führenden Ziffern und einer Verstärkung der relativen Fehler. 16 1.3. Stabilität • c) f (x) = sin2 (x) , 1−cos2 (x) ∀x : f (x) = 1. Für x → 0 erfolgt eine Abnahme der Genauigkeit wegen der Division durch eine kleine Zahl, die aus Subtraktion von gleich großen Zahlen entstanden ist. • d) f (x) = √ sin(x)2 1−sin (x) , ∀x : f (x) = tg(x). Die Berechnung wird in der Nähe des Pols bei 90◦ instabil. • e) Betrachte f (x) = e x2 3 − 1. Ein Vergleich mit Anfang der Reihenentwicklung (= der Genauigkeit mit wachsendem x. x2 3 4 + x8 )... zeigt eine Abnahme • f) Instruktiv ist auch die Progammierung der Formel für die Standardabweichung einer Gaußverteilung und deren Test mit konstanten Messwerten: v u !2 n n u X X 1 1 u σn = t x2i − xi n n i=1 i=1 Für xi = x =const. gilt σn = 0. x 100/3 1000/29 σ e10 1.204 · 10−3 8.062 · 10−4 σ e20 1.131 · 103 0 ↑ Negative Wurzel wird 0 gesetzt Folgende Schritte sollten den Beispielen nach bei der Codierung einer Formel vermieden werden: a) Die Subtraktion von etwa gleichgroßen Zahlen wegen der Auslöschung führender Ziffern und der Verstärkung der relativen Fehler. b) Eine Division durch eine kleine Zahl. c) Eine Multiplikation mit einer großen Zahl. Letztere ((b) und (c)) führen zu einer Verstärkung des absoluten Fehlers. 17 1. Numerische Grundlagen Bemerkungen 1) Bei Auslöschung wird die Differenz i. allg. fehlerfrei berechnet, die Instabilität kommt von der Vergrößerung von vorher akkumulierten Fehlern. Beispiele a) B=10, L=7 0.2789014 · 103 −0.2788876 · 103 Differenz: 0.0000138 · 103 keine Rundungsfehler normalisiert: 1.38 · 10−2 L= Länge 0.L B=Basis? b) B=10, L=6 opt. gerundet 0.278901 · 103 opt. gerundet −0.278888 · 103 Differenz: 0.000013 · 103 normalisiert: 1.3 · 10−2 Rel. Fehler < 2 · 10−6 < 2 · 10−6 > 5 · 10−2 In diesem Fall ist bei der Subtraktion keine Rundung nötig, der relative Fehler des Endergebnisses ist jedoch 25000 mal so groß wie der Eingangsfehler. 2) Trotz Division durch eine kleine Zahl sind folgende Ausdrücke stabil: f (x) = 1, sin(x) x , für x = 0 bei x → 0 für x 6= 0 und f (x) = 1, x−1 ln(x) , für x = 1 bei x → 1 für x 6= 1 Sowohl im Zähler als auch im Nenner ist jeweils nur eine Operation auszuführen. Die Stabilität folgt aus der Gestalt der Schranken für den relativen Fehler. Stabilisierung instabiler Ausdrücke Zur Stabilisierung instabiler Ausdrücke mögen die folgenden Beispiele und Kochrezepte hilfreich beitragen: √ √ x+1− x = ↑ Instabil für grosse x a) 18 √ 1 √ x+1+ x ↑ Stabil für grosse x. 1.3. Stabilität √ b) 1 − cos(x) = ↑ Instabil für x → 0 x+1− √ (x + 1) − x 1 x= √ √ =√ √ x+1+ x x+1+ x sin2 (x) 1+cos(x) = 2 sin( x2 ) ↑ Stabil für x → 0. In beiden Fällen wird die Differenz der Funktionswerte durch Erweitern so umgeformt, dass eine analytisch auswertbare Differenz im Nenner steht. Die Differenz kann dann rundungsfehlerfrei berechnet werden. c) Die Funktion ex − 1 ist instabil für x → 0. Man substituiert y = ex underhält ex − 1 = y − 1, das weiterhin instabil ist. Für x 6= 0 gilt ex − 1 = (y − 1) und dadurch ( x e −1= x, y−1 ln(y) x, x (y − 1) · x = , x ln(y) für y = 1 mit y → ex . für y 6= 1 d) Die Funktion ex − 1 − x ist instabil für x → 0. Zur Stabilisierung entwickelt man ex in eine Potenzreihe ex = n X xk i=1 Dann ist x e −1−x= k! . ex − 1 − x, für |x| ≥ c x3 x2 2 + 6 + ..., für |x| ≤ c Die Konstante c ist durch Ausprobieren und Fehlerabschätzung geeignet zu wählen. 19 1. Numerische Grundlagen e) Mittelwert und Standardabweichung Mittelwert sn und Standardabweichung σn für die Messwerte x1 , ..., xn sind wie folgt definiert: n 1X xi sn = n i=1 σ= n X p p tn /n oder tn /(n − 1), tn = (xi − sn )2 i=1 Eine direkte Berechnung der Größen nach diesen Formeln ist unpraktisch, weil alle xi bei der Berechnung gespeichert werden müssen. Naive Umformung: In den vielen Statistikbüchern wird, um das Zwischenspeichern zu vermeiden, die untenstehende Formel zur Berechnung der Standardabweichung empfohlen. tn = n P = i=1 n P = i=1 n P i=1 x2i − 2sn n P xi + s2n i=1 n P 1 i=1 x2i − ns2n n 2 P 1 2 xi − n xi i=1 Der Vorteil dieser Schreibweise besteht darin, dass tn ohne Speicherung der xi berechnet wird. Als Nachteil führt die Rechenmethode zu Instabilitäten wegen Auslöschung, da i.a. n X x2i ≈ ns2n i=1 Zur Umformung in einen stabilen Ausdruck benutzt man folgende Idee: Beim Hinzufügen eines neuen Messwertes ändern sich sn und tn nur wenig. Deshalb betrachten wir die Differenzen sn − sn1 und tn − tn1 : sn − sn1 = (n−1)sn−1 +xn n = xn −sn−1 n = δn : = xn − sn−1 , 20 − sn−1 δn n, 1.3. Stabilität tn − tn1 = n P i=1 x2n − x2i − ns2n − n−1 P i=1 1)s2n−1 x2i − (n − 1)s2n = ns2n + (n − 2 = (δn + sn−1 )2 − n sn−1 + δnn + (n − 1)s2n−1 = δn δn + δnn = δn [(xn − sn−1 ) − (sn − sn−1 )] = δn (xn − sn ). Man erhält so neue Rekursionsformeln für die Berechnung von sn und tn : s 1 = x1 , t 1 = 0 δi = xi − si−1 , i ≥ 2 si = si−1 + δii , i ≥ 2 ti = ti−1 + δi (xi − si ), i ≥ 2 p p mit tn = tn /n bzw. tn = tn−1 /n. Die Differenzen xi − si−1 und xi − si sind harmlos, weil die mögliche Auslöschung keine große Verstärkung des relativen Fehlers bewirken kann, da die Differenz mit einer kleinen Zahl δi multipliziert und dann zu einer i.a. größeren Zahl ti−1 addiert wird. f) Die Lösung einer quadratischen Gleichung ax2 + bx + c = 0 lautet: x1,2 = −b ± √ b2 − 4ac 2a Ein so programmierter Zusammenhang ist instabil für b2 4ac, wenn die Wurzel und b das gleiche Vorzeichen haben. Eine Umformung liefert: x1,2 = 2c √ . −b ∓ b2 − 4ac was jedoch dazu führt, dass der Term instabil wird, wenn die Wurzel und b das entgegengesetzte Vorzeichen haben. Eine sinnvolle Kombination beider Schreibweisen ist 21 1. Numerische Grundlagen p q := − b · sign(b) b2 − 4ac /2 mit x1 = q , a c x2 = . q 1.4. Fehlerfortpflanzung und Kondition Die oben betrachtete Stabilität machtAussagen über den Einfluss von Rundungsfehlern bei ungenauer Rechnung. Im Gegensatz dazu beschreibt die Kondition die Fortpflanzung von Anfangsfehlern bei genauer Rechnung. Betrachten wir dazu das Beispiel: 1 x = 0, 999 ⇒ f (x) = 1000. 1−x Man führe nun eine analytische Fehleranalyse für x e = 0, 999 + ε mit ε klein aus. f (x) = 1000 = 1000(1 + 103 ε + 106 ε2 + ...) 1 − 1000ε Der relative Fehler ist dann: f (e x) = |x − x e| |f (x) − f (e x)| < 1.1ε und = 103 ε + O(ε2 ). x f (x) Unabhängig von der numerische Methode wird der relative Fehler um einen Faktor O(1000) vergrößert. Solche Probleme bezeichnet man als schlecht konditioniert. Ein quantitatives Maß für die Kondition von differenzierbaren Funktionen ist die Konditionszahl K, die den Verstärkungsfaktor des relativen Fehlers angibt. 22 1.4. Fehlerfortpflanzung und Kondition Sei x e eine Näherung von x mit dem relativen Fehler ε= x e−x bzw. x e = x(1 + ε). x Entwickelt man f (e x) in einer Taylor-Reihe: 2 f (e x) = f (x +εx) = f (x) + εxf 0 (x) + O(ε )) 0 (x) ε + O(ε2 ) f (x) = 1 + x ff (x) so gilt für den relativen Fehler von f : |f (x) − f (e x)| f 0 (x) = x · |ε| + O(ε2 ) = K · |ε| + O(ε2 ). |f (x)| f (x) Im Gegensatz zur Stabilität kann die Konditionszahl exakt bestimmt werden. 0 f (x) K := x f (x) Es gilt bei Vernachlässigung der höheren Glieder: |f (x) − f (e x)| |x − x e| =K , |f (x)| x wobei man folgende Fälle für K unterscheidet: • K < 1 Fehlerdämpfung; • K > 1 Fehlerverstärkung; • K 1 Problem schlecht konditioniert. In einer eindimensionalen Konditionsanalyse gelten folgende Zusammenhänge: a) Falls an einer Stelle f 0 (x∗ ) 6= 0 die Funktion f (x) → 0 für x → x∗ 6= 0 geht, dann strebt K → ∞ für x → x∗. Mit anderen Worten: f ist in der Nähe von einfachen Nullstellen 6= 0 schlecht konditioniert . b) Sei f (x) = (x − x∗ )m g(x) bei g(x∗ ) 6= 0 und m 6= 0. Dann ist für m > 0 bei x∗ eine Nullstelle m-ter Ordnung und für m < 0 ein x∗ Pol m-ter Ordnung. Es gilt weiter: 23 1. Numerische Grundlagen f 0 (x) = m(x − x∗ )m−1 g(x) + (x − x∗ )m g 0 (x), und wir erhalten m x − x∗ −1 |f 0 (x)| g 0 (x) + ... K=x = |x| · + = |m| · |f (x)| x − x∗ g(x) x Für x → x∗ ist ∞ falls x∗ = 6 0 |m| falls x∗ = 0 K= In der Nähe von Polstellen bzw. Nullstellen x∗ 6= 0 ist die Kondition schlecht, nämlich x−x∗ genau umgekehrt proportional zu x . Harmlos sind dagegen Pol- bzw. Nullstellen x∗ = 0, da hier die Konditionszahl nur etwa die Ordnung des Pos bzw. der Nullstelle angibt. c) Falls f 0 (x) einen Pol bei x∗ hat, ist die Kondition bei x∗ ebenfalls schlecht. Betrachte z.B. f (x) = 1 + √ x − 1. Diese Funktion hat die Konditionszahl x 1 , K = 1+ √ 2 x−1 und K → ∞ für x → 1. 1.4.1. Vergleich von Kondition und Stabilität Zur Illustration der Tatsache, dass Kondition und Stabilität nicht mit einander korrelieren müssen, werde folgende Funktion betrachtet: r f (x) = 1 −1− x r 1 +1 x für 0 < x < 1. Eine Untersuchung der Stabilität liefert für: x → 0 eine Auslöschung, die zur Instabilität führt. x → 1 ein stabiles Verhalten des Ausdrucks. Berechnet man nun die Kondition, so erhält man: q f 0 (x) 24 = −1/x2 q 2 x1 −1 − −1/x2 q 2 x1 +1 = 2x2 q 1 −1− x q 1 +1 qx 1 1 −1 x +1 x 1.4. Fehlerfortpflanzung und Kondition und K=x |f 0 (x)| 1 = √ |f (x)| 2 1 − x2 Im Ergebnis ist das Problem für x → 0 gut konditioniert, da K = 1 2 und für x → 1 schlecht konditioniert, da K = ∞. 25 1. Numerische Grundlagen Fragen zur Selbstkontrolle • Was sind arithmetische Ausrücke? Aus welchen Bestandteilen bestehen sie? abh. von Hardware, OS und Prg. sprache • Wie werden welche Typen von Zahlen dargestellt? Können alle Zahlen dargestellt werden? In welchem Typ werden Daten zunächst aufgezeichnet? Welche Formen der Rundung gibt es? • Wie wird ein ADC dimensioniert, wenn bekannt ist, mit welcher Genauigkeit gemessen werden soll? • Was sind zweistellige Operationen? Wie genau werden sie berechnet? • Mit welchen Schritten können elementare Funktionen berechnet werden? Wie wird die Genauigkeit dieser Berechnung bestimmt? • Erläutere die Begriffe Stabilität und Kondition und vergleiche sie. • Welche Stabilisierungsregeln gibt es? • Was ist eine Konditionsanalyse? 26 2. Wahrscheinlichkeit und Generatoren 2.1. Vorbemerkungen Grundsätzlich können in der Physik zwei Typen von Experimenten durchgeführt werden. Entweder sollen Parameter mit möglichst hoher Genauigkeit gemessen werden (parameter determination/estimation) oder die Gültigkeit von Hypothesen soll getestet werden (hypothesis testing). Der Übergang zwischen diesen Typen kann im Experiment fließend sein. (Messung eines Parameters bzw. Test, ob dieser Parameter mit einer Vorhersage übereinstimmt.) Die Wahrscheinlichkeit kann bei diesen Analysen in drei unterschiedlichen Formen relevant werden. Entweder ist sie durch mathematische Berechnung quasi a priori gegeben oder sie muss experimentell aus einer möglichst großen Zahl von Messungen ermittelt werden - schließlich kann sie, wenn das Experiment etwa aus Kostengründen bzw. wegen der Einmaligkeit der Situation (z.B. Supernova-Explosion) nicht wiederholt werden kann, abgeschätzt werden. Diese sogenannten Bayesischen Ansätze, die darauf beruhen unbekannte Wahrscheinlichkeiten abzuschätzen bzw. begründet zu erraten“ werden in ” Kapitel ?? diskutiert. 2.1.1. Definitionen Der Begriff der Wahrscheinlichkeit kann abhängig davon, ob a priori Wissen über den betrachteten Vorgang zur Definition benutzt werden kann oder nicht, auf zwei unterschiedliche Weisen eingeführt werden: • 1) Falls ein Ereignis auf n verschiedene und gleich wahrscheinliche Arten eintreten kann und k davon die Eigenschaft A haben, so ist die Wahrscheinlichkeit von das Auftreten von A k günstige P (A) = = Fälle. n mögliche • 2) Besitzt man kein a priori Wissen über die Eigenschaften des Zufallsexperiments, kann man wie folgt empirisch vorgehen: Die Eigenschaften A und nicht-A eines Experimentes werden n-fach unabhängig beobachtet. Dabei trete k mal die Eigenschaft A auf. Dann ist die Wahrscheinlichkeit P (A) gegeben durch k . n→∞ n P (A) = lim 27 2. Wahrscheinlichkeit und Generatoren Beispiel: Bei einem Münzwurf ist der Ausgang Kopf oder Zahl möglich. (Wie hängen beide Definitionen der Wahrscheinlichkeit zusammen?) Das Experiment bestehe aus zwei Würfen. Der erste Wurf ergebe Kopf. Wie groß ist die Wahrscheinlichkeit noch einmal Kopf zu werfen? 2.1.2. Kombination von Wahrscheinlichkeiten • Gegeben seien die Ereignistypen A und B mit den Wahrscheinlichkeiten P (A) und P (B), dann ist die Wahrscheinlichkeit für A oder B P (A ∨ B) = P (A) + P (B) − P (A ∧ B). Wenn sich A und B ausschließen, gilt P (A ∧ B) = 0 und P (A ∨ B) = P (A) + P (B). Als Spezialfall sei: B = A (nicht A), dann ist P (A ∨ A) = P (A) + P (A) = 1. • Gegeben seien die Ereignistypen A und B mit den Wahrscheinlichkeiten P (A) und P (B), dann ist die Wahrscheinlichkeit für A und B P (A ∧ B) = P (A) · P (B|A). P (B|A) ist dabei die bedingte Wahrscheinlichkeit, dafür dass B auftritt, wenn A eingetreten ist.1 Sind A und B unabhängig, dann ist P (B|A) = P (B) und somit P (A ∧ B) = P (A) · P (B). 1 lies: P für B gegeben A 28 2.2. Zufallsvariable und deren Verteilung 2.2. Zufallsvariable und deren Verteilung Ziel ist zunächst die Klassifizierung von möglichen Endzuständen eines statistischen Vorganges; dann sollen Methoden angegeben werden, mit denen beliebige Verteilungen beschrieben werden können. Beispiel zur Klassifizierung: Bei einem Münzwurf werden z.B. werden die Zuordnungen Kopf → 0 und Zahl → 1. vorgenommen. Allgemein: Wird dem Ereignis Ai die ganze Zahl i zugewiesen, erhält man eine diskrete Zufallsvariable wie z.B. die Zahl der Teilchen in einem Detektor oder die Augen eines Würfels i. Kontinuierliche Zufallsvariable werden genutzt, wenn es nicht möglich ist, die Ereignisse ganzen Zahlen zuzuordnen, wie z.B. bei kontinuierlichen physikalischen Verteilungen (Winkelverteilung, Energiespektrum, usw.). Wir suchen nun nach einer Beschreibung des möglichen Ausgangs von Zufallsexperimenten. Die Zufallsvariable r möge den möglichen Ausgang des Experimentes angeben. Sie wird mit der reellen Zahl x verglichen, die jeden Wert zwischen −∞ und +∞ annehmen kann. Gesucht ist die Wahrscheinlichkeit dafür, dass ein Ereignis eintritt, bei dem die Zufallsvariable r kleiner ist als ein vorher gewähltes x (r < x). Dazu bildet man die Verteilungsfunktion: F (x) = P (r < x), die die Summe aller Ereignisse unterhalb von x normiert auf die Gesamtzahl der Versuche angibt. Für einen Würfel, bei dem die Zahl der Augen r sechs diskrete Werte annehmen kann, ergibt sich für F (r) eine sechsstufige Treppenfunktion, die monoton und nicht-fallend von 0 auf 1 ansteigt. Im Grenzfall einer kontinuierlichen Verteilung ist lim F (x) = lim P (r < x) = 1. x→∞ x→∞ Da die Summe aus P (A) + P (A) = 1 ist, gilt P (r ≥ x) = 1 − F (x) = 1 − P (r < x). Somit ist lim F (x) = lim P (r < x) = 1 − lim P (r ≥ x) = 0. x→−∞ x→−∞ x→−∞ Wenn die Verteilungsfunktion stetig differenzierbar ist, gilt dF (x) = F 0 (x) = f (x), dx 29 2. Wahrscheinlichkeit und Generatoren F(x) 1 0.8 0.6 0.4 0.2 0 0 1 2 3 4 5 6 7 x Abbildung 2.1.: Verteilungsfunktion eines Würfels. f (x) heißt dann Wahrscheinlichkeitsdichte von r und gibt ein Maß für die Wahrscheinlichkeit in dem Intervall x ≤ r ≤ x + dx an. Die Wahrscheinlichkeit, dass r kleiner ist als ein vorgewählter Wert a ist, ist gegeben durch: Za P (r < a) = f (x)dx = F (a), −∞ die Wahrscheinlichkeit, dass r in einem Intervall zwischen a und b liegt, ist: Zb P (a ≤ r ≤ b) = f (x)dx = F (b) − F (a). a Insbesondere gilt bei Integration über den gesamten Bereich in x: Z∞ f (x)dx = 1. −∞ 30 2.3. Allgemeine Eigenschaften einer Zufallsvariablen: Erwartungswert, Streuung, Momente, etc. F(x) 1 0.8 0.6 0.4 0.2 0 0 0.2 0.4 0.6 0.8 1 x Abbildung 2.2.: Gleichverteilung: Verteilungsfunktion F(x) 2 1.8 1.6 1.4 1.2 1 0 0.2 0.4 0.6 0.8 1 x Abbildung 2.3.: Gleichverteilung: Wahrscheinlichkeitsdichte 2.3. Allgemeine Eigenschaften einer Zufallsvariablen: Erwartungswert, Streuung, Momente, etc. Nachdem die Begriffe der Verteilungsfunktion und Wahrscheinlichkeitsdichte definiert worden sind, sollen nun allgemein (ohne Bezug auf eine spezielle Wahrscheinlichkeits- 31 2. Wahrscheinlichkeit und Generatoren dichte zu nehmen) die Eigenschaften von Wahrscheinlichkeitsverteilungen beschrieben werden. Betrachten wir dazu die Zufallsvariable r und die Funktion y = H(r), die selbst auch als Zufallsvariable betrachtet werden soll. Der Mittelwert r̂ oder Erwartungswert E(r) bei einer diskreten Verteilung von r ist: x̂ = E(r) = n X (xi · P (r = xi )). i=1 Der Erwartungswert einer Funktion von diskreten r ist E[H(r)] = n X (H(xi ) · P (r = xi )). i=1 Analog ist der Erwartungswert für kontinuierlich verteilte r Z∞ x · f (x)dx, E(r) = x̂ = −∞ und für eine Funktion davon Z∞ H(x) · f (x)dx. E[H(r)] = −∞ Der Erwartungswert stellt bei einer Messung die beste Schätzung für den wahren Wert und den Schwerpunkt der Verteilung dar. Zu den Eigenschaften, durch die eine statistische Verteilung charakterisiert ist, gehören neben ihrem Schwerpunkt auch ihre Breite und Symmetrie. Dazu betrachten wir als Spezialfall die Funktion: H(r) = (r − c)l . Die Erwartungswerte dieser Funktion al = E[(r − c)l ] heißen dann die l-ten Momente um den Punkt c. Berechnen wir nun die Momente µl um den Mittelwert µl = E[(r − x̂)l ], dann sind die Momente µ0 = 1 R∞ 2 −∞ 3 (x − x̂)0 f (x) dx = 1 siehe Definition des Mittelwertes 32 2 und µ1 = 0 3 trivial zu bestimmen. 2.3. Allgemeine Eigenschaften einer Zufallsvariablen: Erwartungswert, Streuung, Momente, etc. Für das zweite Moment gilt Z∞ µ2 = (x − x̂)2 f (x) dx, , −∞ es ist das niedrigste Moment, das etwas über die mittlere Breite der Verteilung der Abweichung von x von dem Mittelwert x̂ aussagt. Die so definierte Varianz 2 Z∞ 2 E[(r − x̂) ] = σ (r) = var(r) = (x − x̂)2 f (x) dx, −∞ p ist ein Maß für die Breite der Verteilung. Die Wurzel aus der Varianz σ = σ 2 (r) heißt Streuung, Standardabweichung oder Signifikanz. Da die Standardabweichung die gleiche Dimension hat wie die (ggf. gemessene) Zufallsavriable r, wird die einfache Standardabweichung mit dem Messfehler, σ(r) = ∆x identifiziert.4 Das dritte Momente um den Mittelwert, die Schiefe (= skewness), beschreibt die Symmetrie der Verteilung. Dimensionslos ist die Schiefe definiert als γ= Normierung µ3 σ3 und gibt die Asymmetrie in der Einheit der Streuung an. Ist die Schiefe negativ, hat die Verteilung Ausläufer nach links; ist sie positiv, gibt es Ausläufer nach rechts. Je größer der Betrag der Schiefe, desto größer ist die Asymmetrie. Ist der Betrag der Schiefe gleich null, ist die Verteilung symmetrisch. Durch den Quotienten von dem vierten Moment um den Mittelwert und dem Quadrat der Varianz wird die curtosis einer Verteilung definiert: C = µ4 /σ 4 . C ist groß, wenn die Verteilung über größere Ausläufer verfügt als die Gauß-Verteilung. Die Gauß-Verteilung selbst liefert c=3. 2.3.1. Regeln über Mittelwerte und Varianzen • Betrachten wir zunächst die Multiplikation jeder Zahl einer Verteilung mit (derselben) Konstanten: H(x) = cx, c = const. 4 Vorsicht: Was dieser Fehler bedeutet, hängt von der speziellen Form der Verteilung ab und wird später diskutiert. 33 2. Wahrscheinlichkeit und Generatoren Es folgt, dass E(c · r) = c · E(r), und σ 2 (c · r) = c2 · σ 2 (r). Daher ist σ 2 (r) = E[(r − x̂)2 ] = E[r2 − 2rx̂ + x̂2 ] = E(r2 ) − x̂2 . • Die reduzierte Variable u= r − x̂ , σ(r) hat den Erwartungswert E(u) = 1 1 E(r − x̂) = (x̂ − x̂) = 0, σ(r) σ(x) und die Varianz σ 2 (u) = 1 σ 2 (x) 2 E[(r − x̂) ] = = 1. σ 2 (x) σ 2 (x) • Der wahrscheinlichste Wert einer Verteilung ist jener Wert von x, bei dem P (x = xm ) = maximal. Ist die Wahrscheinlichkeitsdichte differenzierbar, berechnet man d2 d f (x) = 0; und testet, ob 2 f (x) < 0 ist dx dx Besitzt die Verteilung ein Maximum, heißt sie unimodal, sonst heißt sie multimodal. • Der Median ist derjenige Wert einer Verteilung, für den die Verteilungsfunktion F = 21 ist 1 F (x1/2 ) = P (r < x1/2 ) = . 2 Ist f (x) stetig, gilt x1/2 Z 1 f (x)dx = . 2 −∞ Ist die Verteilung unimodal, stetig und symmetrisch, dann ist Erwartungswert gleich dem wahrscheinlichsten Wert oder Median. • Der quadratische Mittelwert root mean square = RMS ist definiert als xrms = p p E(x2 ) = σ 2 (x) + x̂2 . Ist der Erwartungswert gleich null (x̂ = 0), dann ist xrms = σ(x). 34 2.3. Allgemeine Eigenschaften einer Zufallsvariablen: Erwartungswert, Streuung, Momente, etc. F(x) 4 3.5 3 2.5 2 1.5 1 0.5 0 0 2 4 6 8 10 x Abbildung 2.4.: Asymmetrische Wahrscheinlichkeitsdichte (ähnlich Maxwellscher Geschwindigkeitsverteilung) Noch einzutragen: verschiedene Mittelwerte. Betrachten wir zur Illustration eine Funktion, die der Maxwellsche Geschwindigkeitsverteilung von Teilchen eines idealen Gases: m 3/2 mν 2 f (ν) = N · · e 2kT · 4πν 2 2πkT ähnelt. • Häufig interessiert man sich dafür, in welchem Intervall um den Mittelwert einer Verteilung ein bestimmter Prozentsatz der Zufallszahlen (zufällige Meßergebnisse) liegt. Oder man möchte berechnen, mit welcher Wahrscheinlichkeit eine Vorhersage der theoretischen Physik durch eine (zufallsverteilte) Messung ausgeschlossen werden kann. Dazu wird der Begriff des Quantils benötigt: Das Quartil einer Verteilung ist analog zu x1/2 definiert als: F (x1/4 ) = 0.25, F (x3/4 ) = 0.75, unteres Quartil oberes Quartil Entsprechend sind Dezile (q=10%) und Quantile (q=beliebige Prozentsätze) definiert als: ZXq F (Xq ) = f (x)dx = q. −∞ 35 2. Wahrscheinlichkeit und Generatoren 2.4. Gleichverteilung Bisher haben wir uns das Werkzeug beschafft, um einfache statistische Zusammenhänge zu verstehen und (z. B. gemessene) Verteilungen einfach zu beschreiben. In diesem Abschnitt werden die Eigenschaften der Gleichverteilung als spezieller Wahrscheinlichkeitsverteilung diskutiert. Die Gleichverteilung ist deshalb besonders wichtig, weil die numerische Erzeugung von gleichverteilten Zahlen die Grundlage für die Erzeugung beliebig verteilter Zahlen ist. Gegeben sei die Wahrscheinlichkeitsdichte mit folgenden Eigenschaften: f (x) = c für a ≤ x < b f (x) = 0 für x < a und x ≥ b. Aus der Unitaritätsbedingung lässt sich die Konstante c bestimmen: Z∞ Zb x · dx = c −∞ dx = c · (b − a) = 1 a f (x) = 1 für a ≤ x < b b−a f (x) = 0 für x < a und x ≥ b. Dann ist die Verteilungsfunktion Zx F (x) = x−a dx = für a ≤ x ≤ b b−a b−a a und F (x) = 0 für x < a sowie F (x) = 1 für x ≥ b. Der Erwartungswert ist durch 1 E(x) = x̂ = b−a Zb x · dx = b+a 1 1 (b2 − a2 ) = , 2b−a 2 a und die Varianz durch σ 2 (x) = gegeben. 36 1 (b − a)2 12 2.5. Erzeugung von gleich- und beliebig verteilten Zufallszahlen auf dem Computer 2.5. Erzeugung von gleich- und beliebig verteilten Zufallszahlen auf dem Computer Es ist technisch möglich, echt zufallsverteilte Zahlen auf einem Computer zu generieren. Da man aber (nicht nur zur Suche nach Programmierfehlern) auf die Reproduzierbarkeit von Rechenergebnissen angewiesen ist, muss auch die Folge von erzeugten Zufallszahlen reproduzierbar sein. Man sucht somit nach einer Reihe von Werte, deren Häufigkeit o.B.d.A. in einem Intervall von 0 bis 1 gleichverteilt ist, deren Abfolge aber festliegt. Der Algorithmus soll also streng deterministisch sein, die Abfolge der Zahlen ist pseudozufällig. 2.5.1. Lineare kongruente Generatoren (LCG) In einem Generator von Zufallszahlen, wird in einer Sequenz aus allen j vorher gebildeten Pseudo-Zufallszahlen eine neue Zufallszahl berechnet. Es ist also xj+1 = f (x1 , ..., xj ). Wir betrachten den Algorithmus: xj+1 = ((a · xj + c)mod m)/m Mit dem Multiplikator a, dem Inkrement c und dem Modulus m; alle drei Variablen sind ganzzahlig. Das Ergebnis der Operation (e) mod m ist der Rest bei Division von e durch m (z.B. ist 7 mod 6 = 1). Zufallsgeneratoren, die auf diesem Algorithmus basieren heißen linear kongruent. Wie man durch Einsetzen von kleinen Zahlen leicht sieht, liefert dieser Algorithmus offenbar periodisch aber gleichverteilte Zufallszahlen im Abstand von jeweils 1/m-tel. Für praktische Anwendungen will man bei gegebenem Zahlentyp im Rechner eine möglichst große Periodendauer erzielen. Bei der Suche nach geeigneten Werten hilft folgender Satz: Satz über die maximale Periode einer LCG mit c 6= 0. Der LCG wird durch m, a, c, x0 definiert und hat dann die Periode m wenn • c und m teilerfremd sind; • b = a − 1 ein Vielfaches von p ist für jede Primzahl p, die Teiler von m ist; • b ein Vielfaches von 4 ist, falls m ein Vielfaches von 4 ist. Nützlich sind Teilfolgen, die kurz gegen die Periodenlänge sind. Beispiel: LCG-Ergebnisse für c = 3, a = 5, m = 16, x0 = 0 0, 3, 2, 13, 4, 7, 6, 1, 8, 11, 10, 5, 12, 15, 14, 9, 0... 37 2. Wahrscheinlichkeit und Generatoren 2.5.2. Multiplikativ linear kongruente Generatoren MLCG Sei in einem LCG gleich c = 0, dann ist xj+1 = (a · xj ) mod m. Solche Generatoren werden als Multiplikativ Linear Kongruente Generatoren (MLCG) bezeichnet. Sie sind durch folgende Eigenschaften charakterisiert: • Wegen der fehlenden Addition (im Vergleich zum LCG) ist pro Erzeugung einer Zufallszahl eine Operation weniger auszuführen. Die Rechnung ist schneller. • Die Zahl 0 kann nicht mehr erzeugt werden • Die maximale Periode ist kürzer. Die Ordnung λ(m) eines primitiven Elements a modulus m ist wie folgt definiert: Seien a und m teilerfremd und λ ganzzahlig. Dann ist die Ordnung von m das kleinste λ, für das gilt: aλ mod m = 1. a heißt dann primitives Element zur Ordnung λ. Sind z.B. a = 4, m = 7, dann ist 4λ 41 =4 0·7=0 2 4 = 16 2 · 7 = 14 43 = 64 9 · 7 = 63 mod 7 4 2 1 ⇒ λ = 3. Die maximale Periode eines MLCG, der durch m, a, c = 0 und x0 definiert ist, ist gleich der Ordnung λ(m). Sie wird erreicht wenn • der Multiplikator a ein primitives Element modulo m ist, und • x0 und m teilerfremd sind. In der Praxis sind zwei Konsequenzen relevant: (a) Es sei m = 2l und m − 1 sei die größte auf dem Rechner darstellbare Zahl, dann ist die maximal mögliche Periodenlänge m 4. (b) Ist m = p = Primzahl, dann ist die maximale Periode m − 1. 38 2.5. Erzeugung von gleich- und beliebig verteilten Zufallszahlen auf dem Computer 2.5.3. Spektraltest Betrachte die Folge 0, 1, 2, 3, ..., m; m sei die größte darstellbare Zahl. Dann ist die Periodenlänge groß und die generierten Zufallszahlen sind gleichervteilt. Aber: Ihre Abfolge ist nicht zufällig. Spektraltest: Wir benötigen daher einen Test zur Aufspürung von nicht zufälligen Abhängigkeiten zwischen benachbarten Elementen in einer Folge. Betrachte den MLCG mit a = 3, m = 7, c = 0, x0 = 1, dann ergibt sich sich die Folge 1, 3, 2, 6, 4, 5, 1, ... Zum Test bildet man Paare aus benachbarten Zahlen (xj , xj+1 ) mit j = 0, 1, ..., n−1 Die Periodenlänge sei n (hier n = m − 1 = 6). Trägt man die Paare in ein zweidimensionales Koordinaten-System ein, erkennt man ein spezifisches Muster. F(x) 6 5 4 3 2 1 1 2 3 4 5 6 x Abbildung 2.5.: Spektraltest: zweidimensionales Diagramm für den im Text genannten Generator. Wir bemerken: 1. im Wertebereich 1 ≤ x ≤ n gibt es n2 mögliche Zahlenpaare, (n ganzzahlig) 2. davon sind jedoch nur n Möglichkeiten realisiert. 3. Der Gitterabstand ist gleich 1, wir gehen über zu den transformierten Zahlen: uj = xj /m 39 2. Wahrscheinlichkeit und Generatoren • Der Gitterabstand ist nun =1/m • und die Kantenlänge=1. 4. Durch die besetzten Punkte lassen sich endlich viele Familien von Geraden legen. 5. Betrachte den Abstand von benachbarten Linien einer Familie (Die Steigungen dieser Geraden sind gleich); 6. Ist das Gitter gleichbesetzt ist der Abstand der Linienpaare der minimale realisierte Abstand d2 = m−1/2 . 7. Ist das Gitter ungleichmäßig besetzt, dann ist der Abstand d2 m−1/2 Betrachten wir zur Verallgemeinerung auf n Dimensionen das n − tupel (uj , uj+1 , ..., uj+n ). Die Familien von Geraden für (n = 2) werden zu (n − 1)-dimensionalen Hyperebenen. Der Abstand von gleichbesetzten Gittern ist etwa dn ≈ m−1/n ; von ungleich besetzten Gittern ist er dn m−1/n . Als geeignete Moduli m und Multiplikation a ergeben sich: 32 Bit ] ] ] ] ] ] m 2147483647 2147483563 2147483399 2147482811 2147482801 2147482739 a 39373 40014 40692 41546 42024 45742 m 32749 32363 32143 32119 32722 32657 a 16 Bit 162 ] 157 ] 160 ] 172 ] 146 ] 142 ] Als Modulus m wurden Primzahlen nahe der größten darstellbare Zahl getestet. √ Als Multiplikator a wurden primitive Elemente modulo m mit a < m gewählt. Bemerkungen zur Praktische Implementation von Generatoren5 • Portabilität: Zu testen ist, ob Zufallsgeneratoren mit dem gleichen Programmcode auf anderen Rechnerarchitekturen exakt dieselben Ergebnisse liefern. In der Regel tun sie das nicht. • Seed: Bei Nutzung von Zufallszahlengeneratoren aus Programmbibliotheken informiere man sich über die Konsequenzen der Wahl der Startparameter (seed). Falsch gewählte Startwerte können die Periodendauer stark verkürzen und so artifizielle (nicht physikalisch bedingte) Muster im Output erzeugen. • Ist die Periodendauer zu kurz, können mehrere MLCG miteinander kombiniert werden. 5 Weiterführende Literatur z.B.: Siegmund Brand, Datenanalyse und William Pres, et al., Numerical Recipies 40 2.5. Erzeugung von gleich- und beliebig verteilten Zufallszahlen auf dem Computer 2.5.4. Erzeugung beliebig verteilter Zufallszahlen (Teil 1) Mit Hilfe eines Generators, der linear verteilte Zufallszahlen erzeugt, können mit folgender Methode beliebig verteilte Zufallszahlen erzeugt werden. Es sei xr eine gleichverteilte Zufallsvariable mit der Wahrscheinlichkeitsdichte f (x) = 1 im Intervall 0 ≤ x < 1; sowie f (x) = 0 für x < 0, oder x ≥ 1. Es sei weiter yr eine Zufallsvariable mit der beliebigen (integrierbaren) Wahrscheinlichkeitsdichte g(y). Beide Verteilungen können über eine Substitution miteinander in Verbindung gebracht werden: dx g(y) = · f (x). dy Da f (x) = 1, folgt dass g(y)dy = dx. Die Verteilungsfunktion G(y) ergibt sich aus dG(y) = g(y) durch Umstellung erhält man dG(y) = g(y)dy = dx dy und die Integration liefert Zy x = G(y) = g(t)dt −∞ Invertiert man die Funktion, erhält man y = G−1 (x) als Funktion von x. Generiert man eine gleichverteilte Zufallszahl x kann durch Anwendung von G−1 eine Folge von Zufallszahlen, die g(x) folgt, erzeugt werden. Beispiel: Zu generieren seien Zufallszahlen, deren Verteilung im Bereich von 0 bis π der Dichtefunktion f (x) = sin(x) folgt. Man berechnet zur Normierung zunächst die Fläche unter der Kurve in dem Bereich: Z π A = sin(x)dx = 2. 0 Dann die Fläche bis zur Zufallsvariablen x: Z x A(x) = sin(x)dx = 1 − cos(x). 0 Die auf den Zahlenbereich zwischen 0 und 1 normierte relative Fläche r(x) ist somit: r(x) = A(x)/A = (1 − cos(x))/2. Der gesuchte Generator ergibt sich durch Invertieren der Funktion zu x(r) = arccos(2 · (1 − r)). Die Zufallszahl r kann in einem Generator für linear verteilte Zufallszahlen erzeugt werden. 41 2. Wahrscheinlichkeit und Generatoren F(x) 1 0.8 0.6 0.4 0.2 0 0 0.5 1 1.5 2 2.5 3 x Abbildung 2.6.: Zu generierende Wahrscheinlichkeitsdichte: f(x)=sin(x) F(x) 1 0.8 0.6 0.4 0.2 0 0 0.5 1 1.5 2 2.5 3 x Abbildung 2.7.: Normierte Verteilungsfunktion für die Funktion sin(x) zwischen 0 und π. Invertierung: die Ordinate (gleichverteilte Zufallszahl [0,1]) wird mit einem Generator erzeugt, die Abzisse ermittelt. 42 2.5. Erzeugung von gleich- und beliebig verteilten Zufallszahlen auf dem Computer Fragen zur Selbstkontrolle • Wie kann Wahrscheinlichkeit definiert werden? • Welche Regeln gelten bei der Kombination von Wahrscheinlichkeiten? • Erläutere die Begriffe Verteilungsfunktion und Wahrscheinlichkeitsdichte. • Mit welchen einfachen Mitteln können Dichtefunktionen beschrieben werden? • Wie unterscheiden sich die verschiedenen Definitionen für den Mittelwert und ähnliche Maße? • Welche Eigenschaften hat die Gleichverteilung? • Wie können gleichverteilte Zufallszahlen erzeugt werden? • Wie können die Generatoren getestet werden? • Wie können Zufallszahlen erzeugt werden, wenn die Dichtefunktion einer speziellen Verteilung folgen soll? 43 3. Spezielle Wahrscheinlichkeitsdichten In diesem Kapitel werden die Eigenschaften von ausgewählten speziellen Wahrscheinlichkeitsdichten in Zusammenhang mit Anwendungsbeispielen aus dem physikalischen Umfeld diskutiert. 3.1. Gleichverteilung Die Gleichverteilung und ihre numerische Erzeugung sind im vorangegangenen Kapitel eingehend beschrieben worden. In der Physik tritt sie auf, wenn in dem beschriebenen Prozess keinerlei Vorzugsrichtung vorliegt bzw. keine Selektion stattgefunden hat. Beispiele wären die Richtung der Emissionsachse beim Zweikörperzerfall im Ruhesystem des Mutterteilchens, die Richtungen von Atomen oder Molekülen in einem Gas oder die Richtungsverteilung geladener kosmischer Teilchen fern von lokalen Magnetfeldern. 3.2. Die Binomialverteilung Die Binomialverteilung beschreibt multiple Ausführungen von Versuchen, die diskret zwei Ergebnisse liefern können. Als Beispiele seien die Untersuchung der Ansprechwahrscheinlichkeit einer Nachweiskammer, die Frage, mit welcher Wahrscheinlichkeit eine bestimmte Ereigniszahl in einem bestimmten Bin eines Histogramms auftritt oder die Frage, wieviele Teilchenemissionen bei einer Wechselwirkung in einen bestimmten Winkelbereich erfolgen, genannt. Solch ein Versuch hat die einfachsten Möglichkeit E = A + A, mit der Wahrscheinlichkeiten P (A) = p, und P (A) = 1 − p = q. Der Versuch werde n mal ausgeführt. Gesucht wird die Wahrscheinlichkeit für k mal A bei n Versuchen. Es folgt P (k) = Ckn pk q n−q , Ckn = n! . k!(n − k!) Der Mittelwert der Binomialverteilung ist: hki = n X kP (k) = n · p r=0 Die Varianz beträgt: 45 3. Spezielle Wahrscheinlichkeitsdichten V [k] = sonst: Wurzel(100) = 10 => 100 + 10 => Effizienz 1+ 0.1? Deshalb so n X (k − hki)2 · P (k) = n · p · (1 − p) r=0 Häufig soll die Effizienz eines Detektortyps bestimmt werden, der von n (z.B.=100) Teilchendurchgängen k (z.B.=80) korrekt anzeigt. Offenbar ist diep Effizienz E dann E = k/n(=p80%). Der relative Fehler dieser Messung beträgt ∆E = (k/n · (n − k)/n) = 1/n · (k · (n − k))(= 4%). Weiter ist die Schiefe skewness gegeben durch: p γ = ((1 − p) − p)/ n · (1 − p)p und die curtosis durch: C = (1 − 6 · (1 − p) · p)/(n · (1 − p)p) + 3 Den Übergang der Binomialverteilung in die Gaußverteilung für große Versuchszahlen n und nicht verschwindende Wahrscheinlichkeiten p kann man zeigen, indem man die Binomialverteilung um ihren Maximalwert, der etwa ihrem Mittelwert entspricht, entwickelt: hri = n · p Man betrachtet zunächst den Logarithmus von P(r): n! ln P (r) = ln pr · q n−r · r!(n−r!) = r ln p + (n − r) ln q + ln n! − ln r! − ln(n − r)!. Für den Übergang zu großen n beuntzt man die Stirlingssche Formel p 1 ln n − n + ln 2 (π). n! ≈ n + 2 Bildet man nach Einsetzen der Stirlingschen Formel die Ableitung nach r, ergibt sich: d ln P (r) = ln p − ln q − ln r + ln(n − r) = 0, dr weil d ln x! dx ≈ ln x ist, flogt rmax = n · p = hri. Nun kann die Taylorentwicklung um hri durchgeführt werden: ln P (r) = ln P (hri) + (r − hri) d lndrP (r) |r=hri 2 P (r) + 2!1 (r − hri)2 d ln |r=hri dr2 46 3.3. Die Normal- oder Gauß-Verteilung Der lineare Term ist gleich 0, da im Maximum die erste Ableitung 0 ist. 1 1 Die zweite Ableitung ist − npq , = − np(1−p) So erhalten wir mit r−hri p=k·e − 2np(1−p) die Form einer Gauß-Verteilung, mit µ = hri und σ 2 = np(1 − p). • Diese Näherung ist gut, wenn µ ≥ 10; • Diese Näherung schlecht, wenn man sich weit außerhalb des Minimums befindet. • Entsprechende Überlegungen für große Fallzahlen n aber kleine Wahrscheinlichkeiten p führen auf die Poisson-Verteilung. 3.3. Die Normal- oder Gauß-Verteilung Mit der Normal- oder Gauß-Verteilung werden sowohl zufällige Messfehler als auch Fertigungsfehler beschrieben. Weiter ergibt sich nach dem (später zu diskutierenden) zentralen Grenzwertsatz, dass eine Überlagerung einer großen Zahl kleinerer Einzelfehler ebenfalls durch die Gauß-Verteilung beschrieben wird. Die Wahrscheinlichkeitsdichte hat die Form: (x−µ)2 1 f (x) = √ e− 2σ2 , x ∈ [−∞, ∞], 2πσ p mit dem Mittelwert µ = E(x) und der Standardabweichung σ = V (x). Die Schiefe beträgt γ = 0 und die curtosis C = 3. Die Wahrscheinlichkeitsdichte für die Gauß-Verteilung wird auch geschrieben als N (µ, σ 2 ). Ist die Abzisse so normiert, dass die Standardabweichung gleich eins ist, spricht man von einer standardisierten Gauß-Verteilung: N (0, 1). FIG6 47 3. Spezielle Wahrscheinlichkeitsdichten Wegen der großen praktischen Bedeutung der Gauß-Verteilung sei zunächst auf eine einfache Methode hingewiesen, die Standardabweichung aus der Darstellung einer gemessenen Verteilung mit Auge und Lineal zu bestimmen. Dazu betrachtet man die Volle Breite auf halber Höhe (FWHM). Man erhält folgenden Zusammenhang zwischen FWHM und der Standardabweichung einer Gauß-Verteilung: √ FWHM = 2σ 2 ln 2 = 2.355σ. Da die Form der Wahrscheinlichkeitsdichte bekannt ist, kann berechnet werden wieviele Messungen einer größeren Messreihe inner- bzw. außerhalb von n StandardabweiRb chungen liegen. Dazu berechnet man das Integral f (x)dx, das die Wahrscheinlichkeit a für das Intervall [a = −n · σ, b = n · σ]. Man findet für die wichtigsten Intervalle: |x − µ| ≥ σ |x − µ| ≥ 2σ |x − µ| ≥ 3σ 31.74% 4.55% 0.27% |x − µ| ≤ σ |x − µ| ≤ 2σ |x − µ| ≤ 3σ 68.26% 95.45% 99.73% Führt man unabhängige Messungen durch und berücksichtigt man nur den statistischen Messfehler, erwartet man also, dass etwa ∼ 31 aller Messpunkte außerhalb des durch 1 σ gegebenen Fehlerbereiches liegen muss. Um dies optisch deutlich zu machen, kann der systematische Fehler in graphischen Darstellungen separat gekennzeichnet werden. Liegt eine Messung außerhalb des 1 σ-Bereiches, z.B. unterhalb einer Vorhersage, kann diese Vorhersage mit einer Wahrscheinlichkeit von (31.74/2)%+68.26% = 84.13% zurückgewiesen werden. (Von signifikanten Abweichungen von Vorhersagen wird erst bei Messungen ausserhalb des 3 bis 5-σ-Bereiches gesprochen.) Das Integral über die Gaußfuntkion 1 φ(x) = √ 2πσ Zx e− (t−µ)2 2σ 2 dt −∞ lässt sich leider nicht in geschlossener Form berechnen. Eine Gaußverteilung kann daher numerisch nicht durch das in Kapitel 2.5.4 vorgestellte Verfahren generiert werden. Auf dem Rechner lässt sich das Ergebnis der Integration durch Benutzung der Gauß schen Fehlerfunktion bestimmen: 1 x−µ 1 + erf √ φ(x) = . 2 2σ 48 3.4. Die Poisson-Verteilung Die Gauß sche Fehlerfunktion erf (x) ist gegeben durch 2 erf (x) = √ π Zx 2 e−t dt 0 mit erf (0) = 0, erf (∞) = 1. Sie ist in der Regel auf dem Rechner verfügbar. 3.4. Die Poisson-Verteilung z.b. Reifenpannen Hamburg < > Muenchen Die Poisson-Verteilung gibt die Wahrscheinlichkeit genau r Ereignisse zu erhalten, wenn die Zahl der Versuche n sehr groß ist und die Wahrscheinlichkeit für das Auftreten von p in einem einzigen Versuch sehr klein ist. Die Poisson-Verteilung wird dann angewendet, wenn die Wahrscheinlichkeit p und somit der Mittelwert µ klein sind, die Versuchszahlen n aber hoch sind. Poisson-Verteilung: P (r) = µr e−µ r! , r = 0, 1, 2, ... Mittelwert: hri = µ = n · p Ist die Wahrscheinlichkeit dafür bekannt, dass sich nichts ereignet (P (0)), ist P (r) = P (0) = e−µ , dann kann rekursiv weiter gerechnet werden: P (r + 1) = P (r) · Norm: ∞ X P (r) = e−µ r=0 ∞ X µr r=0 r! µ . r+1 = e−µ · eµ = 1. Mittelwert: E(r) = ∞ ∞ ∞ ∞ X X X µr e−µ X −µ µr µr−1 µs r = re =µ re−µ = µe−µ = µ. r! r! (r − 1)!r s! r=0 r=0 r=0 s=0 Varianz: V (r) = σ 2 = E[(r − µ)2 ] = µ. Beispiele für die Anwendung der Poisson-verteilung sind: 49 3. Spezielle Wahrscheinlichkeitsdichten • Die Anzahl von Teilchen, die von einem Zähler in einem Zeitintervall nachgewiesen werden, wenn die Effizienz des Zählers und der Fluss Φ zeitlich konstant sind und das Produkt von Totzeit τ und Φ << 1 ist. • Die Anzahl von Wechselwirkungen in einem dünnen Target, wenn ein intensiver Teilchenpuls einfällt. • Der Zerfall eines kleinen Anteils von Materie in einem Zeitintervall, das einen nicht vernachlässigbaren Anteil der Lebensdauer der Quelle umfasst (Protonzefälle in einem Jahr und 106 t Material. 3.5. Die Gamma-Verteilung Betrachten wir einen Poisson-verteilten Prozess mit dem Mittelwert µ = 1. Dann gibt die Gamma-Verteilung die Verteilung der Wartezeiten vom ersten bis zum k−ten Ereignis an. Sei k ganzzahlig und k ≥ 1, dann ist: f (x|k) = xk−1 e−x . Γ(k) Mit (für k ganzzahlig): Γ(k) = (k − 1)! Eine Verallgemeinerung für andere Werte von µ ergibt: f (x|k, µ) = xk−1 µk e−µx . Γ(k) Offenbar wird die Form der Verteilung durch k verändert, während µ lediglich die Skala verändert. Setzt man µ = 1/2, k = n/2, erhält man eine χ2 -Verteilung mit n Freiheitsgraden. Als Beispiel betrachten wir die Zeitdifferenz t zwischen zwei Ereignissen, die zufällig, mit der Rate λ aufeinander folgen. Gesucht sei die beschreibenden Wahrscheinlichkeitsdichte f (t). Für k − 1 Ereignisse erhält man: fk (t) = tk−1 λk e−λt . (k − 1)! Es kann sich dabei sowohl um die Zeitabstände (vom ersten bis k-ten Ereignis)n zwischen Wechselwirkungen in einem Detektor oder bei einem radioaktiven Zerfall als auch zwischen dem Ausfall von elektronischen Bauelementen in einer Schaltung handeln. 50 3.6. Die χ2 -Verteilung 3.6. Die χ2 -Verteilung Die Variablen x1 , x2 , ..., xn seien unabhängige Zufallsvariable, die alle einer GaußVerteilung folgen. Der Mittelwert der Verteilung sei 0, die Varianz sei 1. Dann folgt die Summe der Quadrate u = χ2 = n X x2i i=1 einer χ2 -Verteilung mit n Freiheitsgraden: 2 fn (u) = fn (χ ) = 1 2 u 2 n −1 2 Γ( n2 ) u e− 2 . Deren Maximum liegt bei (n − 2), der Mittelwert bei hui = hχ2 i = n, und die Varianz bei V [u] = V [χ2 ] = 2n. Das Integral über die Verteilung Z F (u) = u fn (v)dv 0 führt auf die Größe 2 Z 1 − P = 1 − F (χ ) = 1 − χ2 fn (v)dv. 0 die die Wahrscheinlichkeit angibt, dass bei einer Stichprobe von n Messungen ein Wert von mindestens χ2 auftritt. Die χ2 -Verteilung wird genutzt, um zu untersuchen, ob eine Messreihe durch einen hypothetisch angenommenen Zusammenhang (bezüglich dessen die Messpunkte GaußVerteilt sein sollten) beschrieben wird. 3.7. Die Cauchy-Verteilung Die Wahrscheinlichkeitsdichte der Cauchy-Verteilung ist gegeben durch: 1 1 π 1 + x2 Zu großen Werten von x fällt die Verteilung nur langsam ab, was zu einem etwas unfreundlichen Verhalten der Verteilung führt. Insbesondere ist für diese Verteilung der f (x) = 51 3. Spezielle Wahrscheinlichkeitsdichten Erwartungswert von x: nicht definiert. Alle Momente (Varianz, Schiefe, curtosis) sind divergent (wenn zu ihrer Bestimmung bisher immer erfolgt in Grenzen bis ±∞ integriert wird). In der Praxis erzwingt man gelegentlich durch einen Abbruch bei endlichen Argumenten dass die Integrale nicht mehr divergieren, hat dann aber keine allgemein vergleichbare Größe mehr. In physikalische Anwendungen taucht die Cauchy-Verteilung in der speziellen Form der Breit-Wigner-Verteilung auf: f (x) = 1 Γ/2 . π (x − x0 )2 + Γ2 /4 und beschreibt die Energieverteilung von Zuständen nahe einer Resonanz, die exponentiell mit der Zeit zerfallen. Die Breit-Wigner-Verteilung ist symmetrisch um das Maximum bei x0 . Das Gamma ist durch Γ=FWHM gegeben. Die Cauchy-Verteilung ist mathematisch die Fouriertransformierte der Exponentialverteilung. 3.8. Die t-Verteilung Die t-Verteilung (oder auch Studentsche-t-Verteilung) erlaubt den Test der Verträglichkeit eines Stichproben-Mittelwertes x̄ mit einem Erwartungswert µ oder der Verträglichkeit der Mittelwerte zweier Stichproben. Die Wahrscheinlichkeitsdichte der t-Verteilung ist 1 Γ((n + 1)/2) fn (t) = √ Γ(n/2) nπ t2 1+ n − n+1 2 . Für n = 1 ist die t-Verteilung identisch mit der Cauchy-Verteilung, und für n → ∞ geht sie in die Gauß-Verteilung über. Die Herleitung dieser Verteilung basiert auf folgendem Gedankengang: Wir betrachten zunächst eine Grundgesamtheit, die der standardisierten Normalverteilung folgt. x̄ sei darin das arithmetischer Mittel einer Stichprobe mit dem Umfang N (N sei groß), dann ist σ 2 (x) σ 2 (x̄) = , N x̄ ist normalverteilt (→ zentraler Grenzwertsatz) mit den Mittelwert x e und der Streuung 2 σ (x̄). Also wird x̄ − x e y= , σx̄ 52 3.8. Die t-Verteilung durch eine standardisierte Normalverteilung beschrieben. Statt σ(x) kennen wir jedoch nur die Schätzung N Sx2 1 X = (xj − x e)2 , für σx N −1 j=1 Daraus ergibt sich als Schätzung für σ 2 (x̄): σ 2 (x̄) = σ 2 (x) N Damit wird die Schätzung der Varianz bezüglich des Mittelwertes: N Sx̄2 = X 1 (xj − x̄)2 . N (N − 1) j=1 x Nun stellt sich die Frage, wie y = x̄−e σx̄ von einer standardisierte Gauß-Verteilung abweicht. Dazu wird eine Koordinatenverschiebung so duchgeführt, dass: x e = 0. Dann betrachteten die Verteilung der √ x̄ N x̄ t= = . Sx̄ Sx Der Ausdruck (N − 1)Sx2 = nSx2 folgt einer χ2 -Verteilung mit n = N − 1 Freiheitsgraden. Einer aufwendigen Rechnung führt auf die Wahrscheinlickeitsdichte fn (t) und die Verteilungsfunktion: 1 Γ((n + 1)/2) F (t) = √ Γ(n/2) nπ Zt t2 1+ n − n+1 2 dt. −∞ 53 3. Spezielle Wahrscheinlichkeitsdichten 3.9. Die F-Verteilung Zwei Grundgesamtheiten haben den gleichen Erwartungswert (z.B. Messung der gleichen Größen mit zwei verschiedenen Messgeräten, die keinen systematischen Fehler haben oder postiver Ausfall des Testes der t-Verteilung). Mit Hilfe der F-Verteilung (Fisher-Verteilung) kann die Frage beantwortet werden, ob sie auch die gleiche Streuung haben. Dazu betrachte man die normalverteilten Grundgesamtheiten. (N1 , S12 ) und (N2 , S22 ). Mit n 1 X S2 = (x − x̄)2 , n−1 i=1 definiert man F = S12 . S22 Sind die Streuungen gleich, wird F nahe an eins liegen. S2 Nach Konvention steht der größere Wert (S12 , S22 ) im Zähler der Gleichung F = S12 . 2 Daher ist F ist immer größer als eins. Die Wahrscheinlichkeitsdichte von F ist bei (n1 , n2 ) Freiheitsgraden gegeben durch: f (F ) = n1 n2 n1 2 n1 −2 Γ((n1 + n2 )/2) ·F 2 Γ(n1 /2) · Γ(n2 /2) − n1 +n2 2 n1 . 1+ F n2 Für wachsende und sehr große n1 , und n2 konvergiert die F-Verteilung langsam gegen eine Gauß-Verteilung RQ Die Quantile der F-Verteilung berechnen sich nach f (F )dF = α, wobei α die Kon1 fidenz, d.h. die Wahrscheinlichkeit, einen Wert kleiner als Q zu erhalten, angibt 54 4. Beliebige verteilte Zufallszahlen (Teil 2) In diesem Kapitel soll noch einmal die Erzeugung beliebig verteilter Zufallszahlen betrachtet werden. Besondere Aufmerksamkeit wollen wir dabei der Simulation der wichtigsten der oben vorgestellten speziellen Verteilungen widmen. 4.1. Transformation der Gleichverteilung Dieses elegante Verfahren wurde bereits in Kapitel 2.5.4 vorgestellt. Wenn es anwendbar ist, wird ohne Ereignisse verwerfen zu müssen - also ohne Verlust an Rechenzeit - für jede generierte Zufallszahl ein verwertbarer Eintrag zu der gesuchten Verteilung erzeugt. Die Bedingungen für die Anwendbarkeit dieser Methode sind: • Die Verteilungsfunktion ist (x) = G(y) bekannt bzw. berechenbar. Die zugehörige Wahrscheinlichkeitsdichte muss daher integrierbar sein. • Die Umkehrfunktion y = G−1 (x) existiert. Hat man es mit gemessenen Funktion zu tun, können diese durch Division durch die Norm in Wahrscheinlichkeitsdichten transferiert werden. An diese Wahrscheinlichkeitsdichten können entweder geeignete Funktionen angepasst werden oder sie können durch Histogramme dargestellt werden und numerisch (wie in 2.5.4 diskutiert) weiterbehandelt werden. 4.2. Das Neumannsche Rückweisungsverfahren Das Neumannsche Rückweisungsverfahren kann unter schwächeren Anforderungen als das Transformationsverfahren angewandt werden. Hier muss nur die Wahrscheinlichkeitsdichte g(y) bekannt sein. Gesucht wird nun eine Zufallszahl die im Bereich a≤x≤b entsprechend der Wahrscheinlichkeitsdichte g(y) verteilt ist. Dazu betrachten wir in diesem Intervall u = g(y) 55 4. Beliebige verteilte Zufallszahlen (Teil 2) und suche eine Konstante, für die gilt d ≥ max{g(y)|y ∈ [a, b]}. Nun werde Paare (yi , ui ) von Zufallszahlen generiert, die Punktepaaren in den (y, u) Ebene entsprechen; yi und ui seien jeweils gleichverteilt. Alle Paare, für die gilt ui ≥ g(yi ) werden verworfen. Nur die Punkten unterhalb der Kurve verbleiben. Da die Punktedichte unterhalb der Kurve gleich ist, ist im Intervall ∆y um y die Anzahl der Punkte proportional zu g(y). • Die Kurve g(y) muss nicht normiert sein (!). • Das Verfahren ist ineffizient, wenn die Fläche zwischen der Kurve g(y) und d = u groß wird gegen die Fläche zwischen u = 0 und der Kurve g(y). Die Effizienz dieses Verfahrens ist: Rb E= g(y)dy a (b − a)d . Rb Ist g(y) normiert ( g(y)dy = 1), gilt a E= 1 . (b − a)d Das Effizienzproblem kann zwar nicht grundlegend behoben, wohl aber durch folgende Verallgemeinerung abgemildert werden: • Suche (statt der Konstanten d) eine Funktion s(y) die nahe bei g(y) liegt, g(y) jedoch nach oben beschränkt. (Beispiel: Schwarzkörperspektrum →Absorbtionsspektrum eines Stern). Dann ist: g(y) ≤ c · s(y), a < y < b mit c < 1 • Erzeuge die beiden Zufallszahlen y gleichverteilt in a < y < b, und u gleichverteilt in 0 < y < 1. 56 4.3. Erzeugung normalverteilter Zufallszahlen • Verwerfe y, falls g(y) . s(y) u≥ • Die Effizienz ist in diesem Fall: Rb E= g(y)dy a c· Rb . s(y)dy a • Ist Rb a g(y)dy ≈ Rb s(y)dy, gilt a 1 E= . c 4.3. Erzeugung normalverteilter Zufallszahlen Die standardisierte Normalverteilung x2 1 f (x) = √ e− 2 2π kann nicht nach dem Transformationsverfahren simuliert werden, da F (x)nur numerisch mit Hilfe der Gaußschen Fehlerfunktion (erf (x)) bestimmt werden kann. Man benutzt daher die Polarmethode, die auf einer Kombination von Transformation und Rückweisung beruht. Folgende Schritte werden dazu ausgeführt: 1. Erzeugung der gleichverteilten Zufallszahlen u1 , u2 jeweils aus dem Intervall [0, 1]. Anschließend Umformung durch die Transformationen v1 = 2u1 − 1 und v2 = 2u2 − 1, sodass die Zahlenpaare v1 , v2 ein Quadrat um den Ursprung mit den Kantenlänge 2v1 , 2v2 gleichförmig überdecken. 2. Berechne s = v12 +v22 , und verwerfe (v1 , v2 ) falls s ≥ 1 (In diesem Fall gehe zurück zu (1)). Die verbleibenden Zahlenpaare (v1 , v2 ) sind nun gleichförmig über die Fläche des Einheitskreises verteilt. Bilde die Polarkoordinaten des Punktes (v1 , v2 ) v1 = r cos θ, v2 = r sin θ mit der Transformation r= √ s, θ = arctan (v2 /v1 ) . 57 4. Beliebige verteilte Zufallszahlen (Teil 2) 3. Bilde nun r 2 − ln s, s r 2 x2 = v2 − ln s, s x1 = v1 x1 und x2 sind jetzt unabhängige Zufallszahlen, die der standardisierte Normalverteilung folgen. Zur Begründung betrachten wir die Polarkoordinaten des Punktes (x1 , x2 ) √ x1 = cos θ −2 ln s √ x2 = sin θ −2 ln s Berchnet werden soll nun die Wahrscheinlichkeit, dass √ −2 ln s ≤ r = √ s Die zugehörige Verteilungsfunktion ist: √ r2 F (r) = P ( −2 ln s ≤ r) = P (−2 ln s ≤ r2 ) = P (s ≥ e− 2 ). r2 s = r2 ist gleichverteilt zwischen 0 und 1. Daher ist F (r) = 1 − e− 2 . Die zugehörige Wahrscheinlichkeitsdichte ergibt sich durch Differenzieren f (r) = r2 dF (r) = re− 2 . dr Die gemeinsame Verteilungsfunktion von x1 und x2 ist: F (x1 , x2 ) = P (x1 ≤ k1 , x2 ≤ k2 ) = P (r cos θ ≤ k1 , r sin θ ≤ k2 ) R R r2 1 = 2π re− 2 drdϕ x1 <k1 x2 <k2 = = 1 2π R R e− 2 x2 1 +x2 2 x1 <k1 x2 <k2 ! Rk1 − x21 1 √ e 2 dx1 2π −∞ · dxdy √1 2π Rk2 e − x2 2 2 ! dx2 −∞ Dies ist das Produkt von 2 Verteilungsfunktionen der standardisierten Normalverteilung. 58 4.4. Erzeugung Poisson-verteilter Zufallszahlen 4.4. Erzeugung Poisson-verteilter Zufallszahlen Wir betrachten eine Poisson-Verteilung mit dem Mittelwert µ: P (r) = µr e−µ r! Hier werden zwei Verfahren besprochen: 1. Vorgehen: • Erzeuge exponentiell verteilte Zufallszahlen • Summiere diese auf, bis die Summe größer ist als µ • Dann ist die gesuchte Zufallszahl um eins kleiner als die Zahl der Summenglieder. Numerisch ist es günstiger, statt exponentiell verteilten Zahlen zu addieren, deren Logarithmen, nämlich gleichverteilte Zahlen zu multiplizieren und das produkt mit e−µ zu vergleichen. Exponentiell verteilte Zahlen sind gegeben durch 1 −t e τ τ mit t = −τ ln x. Dann ist die Summe X ti = −τ X P xi ⇒ τ ti = X ln xi P Exponieren ergibt: e ti τ = Q xi . Zur Erläuterung betrachten wir folgenden Algorithmus. Gegeben seien: µ, k = k, A0 = 1, n = 0 Man bildet zunächst x = e−µ , und erhöht n = n + 1. (*) un sei eine neue Zufallszahl. (Alle un seien im Intervall [0, 1] gleichverteilt.) Man berechnet An = An−1 · un , n > 1 und vergleicht An mit x. Wenn An > x ist, gehe zu (*), sonst ist n die gesuchte Zufallszahl. 59 4. Beliebige verteilte Zufallszahlen (Teil 2) 2. Für große µ: kann die Gauß-Verteilung zur Näherung genutzt werden. Groß in diesem Sinn sind µ > 10 . Sei Z eine normalverteilte (standardisierte) Zufallszahl, dann ist √ n = max(0, int(µ + Z µ + 0.5)). 4.5. Erzeugung χ2 -verteilter Zufallszahlen Bei der Erzeugung χ2 -verteilter Zufallszahlen unterscheidet man in Abhängigkeit von der Zahl der Freiheitsgrade n drei Fälle: • Sei n gerade. Bilde das Produkt von n/2 gleichförmige verteilte Zahlen ui ∈ [0, 1] n/2 Y x = −2 ln ui . j=1 Dann sind die x χ2 -verteilte Zufallsvariablen. • Sei n ungerade. addiere in diesem Fall zu dem Produkt das Quadrat einer normalverteilten Zufallszahl Z n/2 Y x = −2 ln ui + Z 2 . j=1 Dann sind die x χ2 -verteilte Zufallsvariablen. • Für große n (n >30) erfolgt eine Näherung durch die Gauß-Verteilung. Die Funktion der χ2 -verteilten Zufallsvariablen x p √ y = 2χ2 − 2 2n − 1, ist N (0, 1)−-normalverteilt. Daher – erzeugt man normalverteilte Zufallszahl Z √ – invertiert x = 12 (Z + 2n − 1)2 √ – und verwirft alle Z < 2n − 1. 60 5. Mehrdimensionale Verteilungen 5.1. Problemstellung Betrachten wir zunächst zwei Zufallsvariablen xi und yi und fragen analog zu dem eindimensionalen Fall nach der Wahrscheinlichkeit für: P ((X < x) ∧ (Y < y)) . Die Verteilungsfunktion ist: F (x, y) = P (X < x, Y < y). Ist F differenzierbar, dann ist die Wahrscheinlichkeitsdichte f (x, y) = ∂ ∂ F (x, y), ∂x ∂y und Zb Zd P (a ≤ x < b, c ≤ y < d) = f (x, y)dxdy. a c Sei die Abhängigkeit von einer der Variablen irrelevant (x und y unabhängig), dann ist Zb Z∞ Zb P (a ≤ x < b, −∞ ≤ y < ∞) = f (x, y)dxdy = g(x)dx. a −∞ a Die Wahrscheinlichkeitsdichten Z∞ g(x) = f (x, y)dy −∞ Z∞ h(y) = f (x, y)dx −∞ sind die Randverteilungen der Variablen x und y. 61 5. Mehrdimensionale Verteilungen Die Zufallsvariablen y und y sind unabhängig, wenn f (x, y) = g(x) · h(y). Die bedingte Wahrscheinlichkeit für y, wenn x bekannt ist, ist gegeben durch das Intervall P (y ≤ Y ≤ y + dy|x ≤ X ≤ x + dx) Die entsprechende Wahrscheinlichkeitsdichte ist: f (y|x) = f (x, y) , g(x) mit der Wahrscheinlichkeit f (y|x)dy. Die Randverteilung von y bei gegebenem x ist dann: Z∞ Z∞ h(y) = f (x, y)dx = f (y|x)g(x)dx. −∞ −∞ Wenn x und y unabhängig sind, gilt f (y|x) = f (x, y) g(x) · h(y) = = h(y). g(x) g(x) 5.2. Erwartungswert, Varianz, Kovarianz und Korrelation bei zwei Variablen Die Definition des Erwartungswertes der Funktion H(x, y) lautet jetzt Z∞ Z∞ E[H(x, y)] = H(x, y)f (x, y)dxdy. −∞ −∞ und die Varianz von H(x, y) wird zu σ 2 [H(x, y)] = E{[H(x, y) − E{H(x, y)}]2 }. Als Beispiel betrachten wir die Funktion H(x,y)=ux+by, für die folgt: E(ux + by) = uE(x) + bE(y). 62 5.2. Erwartungswert, Varianz, Kovarianz und Korrelation bei zwei Variablen Nun bilden wir mit H(x, y) = xl y m , das lm-te Moment von x, y um den Ursprung: λlm = E(xl y m ). Momente um andere Punkte als den Ursprung werden dorthin verschoben: H(x, y) = (x − a)l (y − b)m . Der Erwartungswert des lm-ten Moments von x, y um den Punkt a, b ist dann: µlm = E[(x − a)l (y − b)m ]. Betrachtet man die Erwartungswerte in x und y λ10 = E(x) = x̂ λ01 = E(y) = ŷ Dann sind die Momente um λ10 und λ01 allgemein µlm = E[(x − λ10 )l (y − λ01 )m ]. Speziell ergibt sich für die Momente µ00 µ10 µ11 µ20 µ02 = λ00 = 1 = λ10 = 0 = E[(x − x̂) · (y − ŷ)] = cov(x, y) = E[(x − x̂)2 ] = σ 2 (x) = E[(y − ŷ)2 ] = σ 2 (y). Wir betrachten zwei Beispiele: 1. Die Berechnung der Varianz von ax + by σ 2 (ax + by) = E{[(ax + by) − E(ax − by)]2 } = E{[a(x − x̂) − b(y − ŷ)]2 } = E[a2 (x − x̂)2 − b2 (y − ŷ)2 + 2ab(x − x̂)(y − ŷ)] = a2 σ 2 (x) + b2 σ 2 (y) + 2ab· cov(x, y) 2. Die Berechnung H(x, y) = x, y, wenn x und y unabhängig sind. Z∞ Z∞ E[xy] = Z∞ xg(x)dx · xyg(x)h(y)dxdy = −∞ −∞ Z∞ −∞ yh(y)dy. −∞ Es folgt, dass E(xy) = E(x) · E(y). 63 5. Mehrdimensionale Verteilungen Die Kovarianz ist: – positiv, wenn x > (<)e x mit y > (<)e y; – negativ, wenn x > (<)e x mit y < (>)e y – =0, wenn x, y unabhängig sind. Der Korrelationskoeffizient ρ(x, y) = cov(x, y) , σ(x) · σ(y) ist ein grobes Maß für die Abhängigkeit der Variablen x und y voneinander. Rechnet man mit den reduzierten Variablen u= x−x e y − ye , v= , σ(x) σ(y) dann ist die Varianz der Summe: σ 2 (u + v) = σ 2 (u) + σ 2 (v) + 2ρ(u, v)σ(u)σ(v). Nach der Definition von u und v ist σ(u) = 1, σ(v) = 1. Dadurch wird σ 2 (u + v) = 2 + 2ρ(u, v) = 2(1 + ρ(u, v)) desgleichen gilt für die Varianz der Differenz σ 2 (u − v) = 2 + 2ρ(u, v) = 2(1 − ρ(u, v)). Immer ist σ 2 ≥ 0. Daraus folgt, dass −1 ≤ ρ(u, v) ≤ 1. Man kann weiter zeigen, dass ρ(u, v) = ρ(x, y) daher ist auch −1 ≤ ρ(x, y) ≤ 1. Betrachten wir eine Kovarianz, die exakt eins ist. aus ρ(u, v) = 1 folgt σ(u−v) = 0. Die Zufallsvariable (u − v) ist eine Konstante u−v = 64 x−x e y − ye − = const. σ(x) σ(y) 5.3. Mehrere Veränderliche Dies ist immer erfüllt, wenn y = a + bx, b > 0. Bei exakt positiver Abhängigkeit zwischen x und y folgt ρ(x, y) = +1. Bei exakt negativer Abhängigkeit gilt ρ(x, y) = −1. Sind x und y unabhängig, dann ist die Kovarianz cov(x, y) = = R∞ R∞ −∞ −∞ R∞ −∞ (x − x e)(y − ye)g(x)h(y)dxdy (x − x e)g(x)dx · R∞ −∞ (y − ye)h(y)dy = 0. 5.3. Mehrere Veränderliche Betrachtet man eine größere Zahl von Variablen x1 , x2 , ..., xn , ist die Verteilungsfunktion gegeben durch F (x1 , x2 , ..., xn ) = P (x1 < k1 , x2 < k2 , ..., xn < kn ). Ist F nach den xi differenzierbar, dann ist die gemeinsame Wahrscheinlichkeitsdichte f (x1 , x2 , ..., xn ) = ∂n F (x1 , x2 , ..., xn ). ∂x1 ∂x2 ...∂xn Die Wahrscheinlichkeitsdichte der einzelnen Variablen xr , die Randverteilungen, sind Z∞ Z∞ g(xr ) = ... f (x1 , x2 , ..., xn )dx1 dx2 ...dxn . −∞ −∞ |{z} n − 1–mal Der Erwartungswert der Funktion H(x1 , ..., xn ) wird berechnet nach Z∞ E[H(x1 , ..., xn )] = Z∞ ... −∞ H(x1 , ..., xn )f (x1 , ..., xn )dx1 d...dxn . −∞ 65 5. Mehrdimensionale Verteilungen Sei H(x) = xr , dann ist Z∞ E(xr ) = Z∞ ... −∞ Z∞ xr f (x1 , x2 , ..., xn )dx1 dx2 ...dxn = −∞ xr g(xr )dxr . −∞ – Alle n Variablen sind unabhängig, wenn f (x1 , x2 , ..., xn ) = g1 (x1 ) · g2 (x2 ) · ... · gn (xn ). – Ein Teil von l < n Variablen sind unabhängig wenn g(x1 , x2 , ..., xl ) = g1 (x1 ) · g2 (x2 ) · ... · gl (xl ). – Die gemeinsame Randverteilung von l < n Variablen ist Z∞ g(x1 , x2 , ..., xl ) = Z∞ ... −∞ f (x1 , x2 , ..., xn )dxl+1 ...dxn . −∞ Die Momente der Ordnung l1 , l2 , ..., ln um dem Ursprung sind Erwartungswerte der Funktion H = xl11 · xl22 · ... · xlnn , d.h. λl1 ,l2 ,...,ln = E[xl11 · xl22 · ... · xlnn ]. Wieder ist λ100...0 = E(x1 ) = x̂1 , (5.1) λ010...0 = E(x2 ) = x̂2 , (5.2) ... = ..., (5.3) λ000...1 = E(xn ) = x̂n . (5.4) Die Momente um die (x̂1 , x̂2 , ..., x̂n ) sind µl1 ,l2 ,...,ln = E[(x1 − x̂1 )l1 · (x2 − x̂2 )l2 · ... · (xn − x̂n )ln ]. Die Varianzen xi , i = 1...n sind µ200...0 = E((x1 − x̂1 )2 ) = σ 2 (x1 ), 2 2 2 2 µ020...0 = E((x2 − x̂2 ) ) = σ (x2 ), ... = ..., (5.6) (5.7) µ000...2 = E((xn − x̂n ) ) = σ (xn ). 66 (5.5) (5.8) 5.3. Mehrere Veränderliche Die Kovarianz der Variablen xi und xj ist das Moment erster Ordnung (li = lj = 1) von den zwei Variablen (alle lk = 0) mit i 6= j 6= k cij = cov(xi , xj ) = E[(xi − x̂i )(xj − x̂j )]. → − Geht man über zur vektoriellen Schreibweise (x1 , x2 , ...xn ) → X , dann ist die Verteilungsfunktion → − F = F ( X ), und die Wahrscheinlickeitsdichte → − f (X ) = → − ∂n F ( X ). ∂x1 ∂x2 ...∂xn → − Der Erwartungswert der Funktion H( X ) ist Z → − → − → − → − E[H( X )] = H( X )f ( X )d X Varianzen und Kovarianzen können in c11 c21 c= ... cn1 einer Matrix zusammengefasst werden: c12 ... c1n c22 ... c2n ... ... ... cn2 ... cnn Diagonalelemente in dieser Matrix sind die Varianzen. Die Kovarianzmatrix ist symmetrisch da cij = cji = E[(xi − x̂i )(xj − x̂j )]. → − → − c Mit dem Vektor der Erwartungswerte E( X ) = X , gilt dann → − → − → − → − c c cij = E[( X − X )( X − X )> ]. 67 5. Mehrdimensionale Verteilungen 5.4. Die mehrdimensionale Gauß-Verteilung → − Betrachten wir einen Vektor mit n Variablen X = (x1 , x2 , ..., xn ). Die Wahrscheinlichkeitsdichte der gemeinsamen Normalverteilung der xi ist dann definiert als → − → − → → > − → 1 − 1 − → − φ( X ) = k · e− 2 ( X − a ) B( X − a ) = k · e− 2 g( X ) , mit → − a : n − Komponenten Vektor, B : n × n − Matrix, symmetrisch und positiv definit. → − → − − Es folgt, dass φ( X ) symmetrisch um X = → a ist, und der Erwartungswert Z∞ → − − E( X − → a)= Z∞ ... −∞ Daher ist: → − φ( X )dx1 ...dxn = 0 −∞ → − → − − E (X ) = → a. − Durch das Differenzieren des Erwartungswert nach → a erhält man Z∞ Z∞ ... −∞ → − − → − − > → − [I − ( X − → a )( X − → a ) B]φ( X )dx1 ...dxn = 0, −∞ mit der Identitätsmatrix I. Der Erwartungswert in den eckigen Klammern verschwindet [Maximum], daher ist → − − → − − > E[( X − → a )( X − → a ) ]B = I oder → − − → − − > C = E[( X − → a )( X − → a ) ] = B −1 , wobei C die Kovarianzmatrix ist. Für zwei Variablen ist C=B −1 = σ12 cov(x1 , x2 ) cov(x1 , x2 ) σ22 Aus Inversion folgt 1 B= 2 2 σ1 σ2 − cov(x1 , x2 )2 68 σ22 cov(x1 , x2 ) cov(x1 , x2 ) σ12 5.4. Die mehrdimensionale Gauß-Verteilung Wenn die Kovarianzen verschwinden, ist B diagonal ! 1 0 σ12 B = B0 = 0 σ12 2 Einsetzen in die Wahrscheinlicheitsdichte liefert: φ(x) = k · e − → → > − → → − 21 ( X −− a ) B0 ( X −− a) =k·e − 12 (x1 −a1 )2 2 σ1 e − 12 (x2 −a2 )2 2 σ2 , das ist das Produkt von zwei unabhängigen normalverteilten Variablen. Für zwei Variablen ist die Normierung: k = k0 = 1 2πσ1 σ2 und für beliebige viele Variablen kn = det B (2π)n 1/2 . Seien die Variablen nicht unabhängig. Dann betrachten wir die reduzierten Variablen xi − ai ui = , i = 1, 2..., σi und den zugehörigen Korrelationskoeffizienten ρ= cov(x1 , x2 ) = cov(u1 , u2 ), σ1 σ2 dann erhalten wir →> 1− − → 1 − → φ(u1 , u2 ) = k · e− 2 u B u = k · e− 2 g( u ) , 1 1 −ρ B= −ρ 1 1 − ρ2 In einer zweidimensionalen Darstellung können Linien gleicher Wahrscheinlichkeitsdichte als ’Höhenlinien’ gezeichnet werden. Dazu setzt man 1 − φ(u1 , u2 ) = const ⇒ − g(→ u ) = const 2 ⇒ − 1 1 (u2 + u22 − 2u1 u2 ρ) = const. 2 1 − ρ2 1 69 5. Mehrdimensionale Verteilungen − Betrachten wir o.B.d.A. g(→ u ) = 1, und wählen die ursprünglichen Variablen (x1 − a1 )2 (x1 − a1 ) (x2 − a2 ) (x2 − a2 )2 · + − 2ρ = 1 − ρ2 , σ1 σ2 σ12 σ22 erhalten wir eine Ellipsengleichung mit den Mittelwert u1 u2 . Aus der Geometrie wissen wir, dass die Hauptachsen der Ellipse bezüglich der Achsen x1 bzw. x2 den Winkel α bilden und entlang der Hauptachsen die Halbmesser p1 und p2 aufweisen. Die Kegelschnitte liefern tan 2α = p1 = p2 = σ22 cos2 α 2ρσ1 σ2 σ12 − σ22 σ12 σ22 (1 − ρ2 ) − 2ρσ1 σ2 sin α cos α + σ12 sin2 α σ12 σ22 (1 − ρ2 ) σ22 sin2 α − 2ρσ1 σ2 sin α cos α + σ12 cos2 α als Kovarianzellipse. Die Kovarianzellipse liegt in einen Rechteck, das durch den Punkt (u1 , u2 ) und σ1 und σ2 bestimmt ist. Sie berührt das Rechteck in vier Punkten. Ist ρ = ±1, geht die Ellipse in eine Diagonale des Rechtecks über. Als 1σ-Bereich, wird analog zum eindimensionalen Fall die Region bezeichnet, innerhalb deren 68,39% der Ereignisse liegen. 70 6. Einfache statistische Methoden 6.1. Trennung von Datensätzen: Diskriminanzanalyse – Fisher, Annals of Eugenics 7, 179-188, 1936. Ein Datensatz bestehe aus zwei Unterklassen: A – Signal und B – Untergrund. Beide Klassen liegen als Ergebnis einer Monte-Carlo-Simulation vor. Die Methode ist auf experimentell bestimmte Datensätze nur dann anwendbar, wenn die generierten und gemessenen Verteilungen übereinstimmen. Beide Datensätze können von den p ggf. korrelierten Zufallsvariablen x1 , ...xp ab. Die Ereignisse in beiden Datensätzen sollen optimal voneinander getrennt werden. Ein einfacher Ansatz wäre, dies durch Schnitte in den Einzelvariablen zu realisieren. In der Regel wird eine optimale Trennung aber durch eine geeignet gelegte p-1 dimensionale Hyperebene erreicht. Um diese Ebene zu berechnen definiert man zunächst die sog. Diskriminanzfunktion: → − → − F = λ ·X → − λ = (λ1 , ..., λp ) Parameter → − X = (x1 , ..., xp ) Zufallsvariablen. Mit diesem Werkzeug werden folgende Überlegungen durchgeführt: – Die Mittelwerte der Variablen werden berechnet n A 1 X → − → − µA = · x A,i , na i=1 n B 1 X → − → − · x B,i , µB = nb i=1 nA , nB sind hier die Anzahl der Messungen. Der Erwartungswert der Diskriminanzfunktion ist damit gegeben durch → − − FbA = λ · → µA 71 6. Einfache statistische Methoden → − − FbB = λ · → µ B. – Die Varianz V der F-Verteilung ist durch die Summe der Varianzen von Signal und Untergrund gegeben: V = nA X (Fk − FbA )2 + k=1 nAX +nB (Fk − FbB )2 , k=nA +1 mit n = nA + nB gilt dann V = n X λi λj Sij . k=1 Die Kombinierte Kovarianzmatrix Sij ist Sij = A + (n − 1) · S B (nA − 1) · Sij B ij , nA + nB − 2 A,B wobei die Sij =die Kovarianzmatritzen der einzelnen Klassen sind: A,B Sij = nA,B 1 X nA,B − 1 es folgt (xi,k − x bi ) · (xj,k − x bj ) k=1 → − → − V = λ ·S · λ. – Mit der Distanzfunktion D2 wird der Abstand zwischen den Mittelwerts der Klassen A und B bestimmt: → − − − D2 = (FbA − FbB )2 = [ λ (→ µA −→ µ B )]2 – Die Trennung zwischen den Klassen ist umso besser, je größer das Verhältnis φ von Distanz D2 zur Varianz V ist. Maximiere → − − → − − 2 D2 |λ ·→ µA − λ ·→ µ B| φ= = → − → − V λ ·S· λ Gesucht ist somit das Maximum von φ an der Stelle, an der die erste Ableitung von φ nach Z eine Nullstelle hat. → − → − → − → −− → −− − − dφ 2 · (→ µA −→ µ B ) · λ · S · λ − 2S λ ( λ → µA − λ→ µ B) = . → − → − dλ ( λ · S · λ )2 72 6.1. Trennung von Datensätzen: Diskriminanzanalyse → −− → −− → − (λ→ dφ µA − λ→ µ B) − − =0 ⇒ → µA −→ µB = S · λ → − → − dλ λ ·S· λ Offenbar kann λ nur bis auf eine multiplikative Konstante, die sich in der Gleichung für φ herauskürzt, bestimmt werden. Eine Normierung erfolgt durch → −− → −− D2 (λ→ µA − λ→ µ B) = 1 = . → − → − V λ ·S· λ Es folgt: → − − − λ = S −1 (→ µA −→ µ B ). – Variablen-Selektion: Aus Messungen stehen einem in der Regel mehr mögliche Parameter zur Verfügung als sinnvoll für die Diskriminanzanalyse einzusetzen sind. Um geeignete Parameter zu selektieren, kann man fordern, dass sich die Mittelwerte der Klassen sollen mit möglichst großer Signifikanz unterscheiden. Dies kann mit einem t-Test geprüft werden: x̂A − x̂B t= S r nA · nB nA + nB mit der empirischen Streuung 1 S = nA + nB − 2 2 nA X nB X (xA,i − x̂A ) + (xB,i − x̂B )2 ! 2 i=1 i=1 Dieser Test ist für das Verfahren günstig aber nicht notwendig. – Um die Qualität der Trennung beurteilen zu können werden folgende Histogramme gefüllt und diskutiert: 1. Die Verteilungen der beiden Klassen in Abhängigkeit von λ (in einem Histogramm). 2. Die Reinheit (purity) in Abhängigkeit von λ: Dazu plottet man in ein Histogramm für A k P RA = nA,k bin=0 k P (nA,k + nB,k ) bin=0 und für B k P RB = nB,k bin=kmax k P (nB,k + nA,k ) bin=kmax 73 6. Einfache statistische Methoden 3. Ebenfalls in einem Histogramm wird die Effizienz bei einem Schnitt in λ für die beiden Klassen dargestellt: εA = k 1 X nA,k nA bin=0 k 1 X εB = nB,k . nB bin=0 Mit Hilfe dieser Histogramme kann festgelegt werden, wieviele Ereignisse des Signalsamples sich in dem selektierten Sample befinden und durch wieviele Untergrundereignisse das selektierte Sample noch verunreinigt wird. Je nach untersuchter Fragestellungen können die Anforderungen unterschiedlich ausfallen. 6.2. Theoreme und Sätze 6.2.1. Tschebyscheff-Ungleichung Gesucht ist obere Schranke für die Wahrscheinlichkeit, dass eine Zufallszahl mehr als kσ von Mittelwert abweicht. Die Varianz und der Mittelwert seien bekannt. hxi+kσ hxi−kσ Z Z∞ Z Z∞ 2 + + (x − hxi)2 · f (x)dx = σ2 = (x − hxi) · f (x)dx −∞ −∞ hxi−kσ hxi+kσ Das Wegglassen des mittleren Terms führt auf eine Ungleichung, da alle Teilintegrale positiv sind: hxi−kσ Z Z∞ 2 σ2 ≥ + (x − hxi) · f (x)dx −∞ hxi+kσ Für das erste Integral gilt: x < hxi − kσ ⇒ x − hxi < −kσ ⇒ (x − hxi)2 > k 2 σ 2 . Für das zweite Integral gilt: x > hxi + kσ 74 6.2. Theoreme und Sätze ⇒ x − hxi > kσ ⇒ (x − hxi)2 > k 2 σ 2 . Einsetzen liefert die Ungleichung: 2 2 2 hxi−kσ Z σ ≥k σ Z∞ f (x)dx + −∞ f (x)dx. hxi+kσ Die Integrale geben die Wahrscheinlichkeit dafür an, dass die Zufallszahl aus dem Bereich|x − hxi| ≥ kσ stammt. Man erhält hxi−kσ Z Z∞ f (x)dx ≤ f (x)dx + −∞ 1 . k2 hxi+kσ Satz. Die Wahrscheinlichkeit dafür, dass die xi aus dem Intervall |x − hxi| ≥ kσ gezogen werden, ist kleiner gleich k12 . Dies gilt unabhängig von der Wahrscheinlichkeitsdichte f (x). Leider ist diese Bedingung nur schwach. 6.2.2. Gesetz der großen Zahl Gegeben seien n unabhängige Experimente, in denen das Ereignis j genau nj mal n aufgetreten ist. Die nj seien binomialverteilt. Der Bruchteil hj = nj sei die betrachtete Zufallsvariable. Dann ist der Erwartungswert von hj E(hj ) = E(nj /n) = pj , d.i. Wahrscheinlichkeit pj für das Ereignis j. Wie genau ist die Schätzung für die unbekannte Wahrscheinlichkeit pj ? Da die nj = n · hj binomialverteilt sind, gilt für die Varianz V (hj ) = σ(hj ) = σ(nj /n) = 1 1 · σ 2 (nj ) = 2 · npj (1 − pj ). 2 n n Da pj (1 − pj ) ≤ 14 ist, gilt 1 , n Das sog.Gesetz der großen Zahl besagt, dass der Fehler der Schätzung hj der Wahr√ scheinlichkeit pj durch 1/ n beschränkt ist. σ 2 (hj ) < 75 6. Einfache statistische Methoden 6.2.3. Der Zentrale Grenzwertsatz Die Wahrscheinlichkeitsdichte der Summe w = n P xi einer Stichprobe aus n un- i=1 abhängigen Zufallsvariablen xi mit einer beliebigen Wahrscheinlichkeitsdichte mit dem Mittelwert hxi und der Varianz σ 2 geht im Grenzfall n → ∞ gegen eine Gauß-Verteilung mit dem Mittelwert hwi = n · hxi und einer Varianz V (w) = nσ 2 . Dieses gilt auch, wenn mehrere Wahrscheinlichkeitsdichten überlagert werden. Größen, die auf Summen von zufallsverteilten Ereignissen basieren, sollten GaußVerteilt sein. Beweis Betrachten wir zunächst den Mittelwert ! n n X X E(w) = E xi = E(xi ) = nE(x) = nhxi i=1 i=1 und dann die Varianz 2 V (w) = E[(w " − hwi) ] 2 # n P P =E xi − hxi i "i=1 2 # n P (xi − hxi i) =E " i=1 # n P P =E (xi − hxi i)2 + (xi − hxi i)(xk − hxk i) i=1 i6=k Da die Variablen nicht korrelieren, ist P (xi −hxi i)(xk −hxk i) = 0, und wir erhalten i6=k # n X V (w) = E (xi − hxi i)2 = nV (x). " i=1 76 6.3. Methode der kleinsten Quadrate 6.3. Methode der kleinsten Quadrate 6.3.1. Vorbemerkungen Legendre, Gauß, Laplace; Beginn 19. Jahrhundert Situation: Wiederholte Messung einer Größe yi (~xi ). Interpretation als Summe einer wahren Größe yw plus Meßfehler ξyi . Suche ein yw , sodass die Quadratsumme der Fehler minimal wird: X X ξy2i = (yw − yi )2 = min. (6.1) i i Die Abweichung zwischen den yi und den yw wird durch die Standardabweichung σ bzw. die Varianz σ 2 beschrieben. yi : Stichprobe ↔ Wahrscheinlichkeitsdichte Annahme: Es existiert eine funktionelle Beziehung zwischen den yi und ~xi , das “Modell”. Dieses Modell kann von den zusätzlichen Variablen bzw. Parametern aj abhängen. Im allgemeinen Fall darstellbar durch eine oder mehrere Gleichungen/Beziehungen der Form: f (a1 , a2 , . . . ap , y1 , . . . yn ) = 0 (6.2) Einfachster Fall: - Daten unkorreliert - alle haben das gleiche σ ⇒S= n X ∆yi2 = minimal. (6.3) i=1 Beispiel: n wiederholte P Messungen yi der Variablen y. Bedingung S = i (y − yi )2 = min wird erfüllt durch den Mittelwert: → ŷ = X yi i n , (6.4) wobei ŷ der “Schätzwert” von y ist. Allgemeiner Fall: - Daten beschrieben durch den Vektor y (der Dimension n) - verschiedene Standartabweichungen σ - Korrelationen durch die Kovarianzmatrix V gegeben 77 6. Einfache statistische Methoden Matrixschreibweise: S = ∆y T V −1 ∆y = min, (6.5) wobei ∆y der Residuenvektor ist. Häufige Anwendung: Modell: y = f (a, a1 , a2 , . . . ap ) Meßergebnisse sollen über eine Funktion f von den Parametern aj abhängen. → Minimierung von S → Bestimmung der Parameter → Suche nach funktionellen Zusammenhängen → Test, ob Form der Parametrisierung überhaupt verträglich mit den Meßdaten ist 6.3.2. Kleinste Quadrate in linearen Modellen Ziel: Bestimmung der Parameterwerte ~a = (a1 . . . ap ). yi = f (xi , ~a) (6.6) f (x, ~a) hängt linear von den p Parametern aj ab. y(x) = f (y, ~a) = a1 f1 (x) + a2 f2 (x) + . . . + ap fp (x) (6.7) n Wertepaare xi , yi werden bestimmt Erwartungswert der Einzelmessung yi : E[yi ] = f (xi , ~ā) = ȳi (6.8) ri = yi − f (xi , ~a) (6.9) ~ā: wahre Werte von ~a. Residuen ri : Für ~a = ~ā gilt E[~ri ] = 0 , E[ri2 ] = V [ri ] = σ 2 - keine Aussage über Wahrscheinlichkeitsdichte gemacht - aber “unverzerrt”, Varianz endlich - (hier) auch unkorreliert ⇒ Kovarianzen verschwinden 78 (6.10) 6.3. Methode der kleinsten Quadrate ∼ Zu minimieren ist: X X S= ri2 = [yi − a1 f1 (xi ) − a2 f2 (xi ) − . . . − ap fp (xi )]2 i (6.11) i → alle partiellen Ableitungen nach den aj müssen verschwinden: P ∂S = 2 f1 (xi ) [a1 f1 (xi ) + a2 f2 (xi ) + . . . + ap fp (xi ) − yi ] = 0 ∂a1 i P ∂S = 2 f2 (xi ) [a1 f1 (xi ) + a2 f2 (xi ) + . . . + ap fp (xi ) − yi ] = 0 ∂a2 i .. . (6.12) (6.13) u.s.w. → Umschreiben in die sog. Normalgleichungen P a1 i a1 P f12 (xi ) + . . . + ap P = i f2 (xi )f1 (xi ) + . . . + ap i f 1( xi )fp (xi ) X yi f1 (xi ) (6.14) yi f2 (xi ) (6.15) i P f 2( xi )fp (xi ) = i X i .. . u.s.w., p Gleichungen → Umschreiben in Matrixschreibweise n × p Werte fj (xi ) → Elemente in einer n × p Matrix A f1 (x1 ) f2 (x1 ) · · · f1 (x2 ) f2 (x2 ) · · · .. .. .. . . . f1 (xn ) f2 (xn ) · · · A= fp (x1 ) fp (x2 ) .. . (6.16) fp (xn ) A heißt auch Design-Matrix. ~a = a1 a2 .. . ap ~y = y1 y2 .. . (6.17) yp 79 6. Einfache statistische Methoden A · ~a = Vektor der Erwartungswerte. Residuen: ~r = ~y − A~a (6.18) Minimierungsbedingung S = ~rT ~r = (~y − A~a)T (~y − A~a) T T T (6.19) T T = ~y ~y − a~a A ~y + ~a A A~a Bed. ist −→ (6.20) ˆ=0 2AT ~y + 2AT A~a (6.21) oder in Matrixform der Normalgleichungen: ˆ = AT ~y (AT A)~a ˆ = (AT A)−1 AT ~y ~a mit der symmetrischen p × p-Matrix P P 2 f1 (xi )f2 (xi ) · · · f (x ) i 1 iP i 2 P f2 (xi )f1 (xi ) ··· i f2 (xi ) i AT A = .. .. .. . . . P P i fp (xi )f1 (xi ) i fp (xi )f2 (xi ) · · · und P i yi f1 P yi f1 i AT ~y = .. P . i yi fp P Pi f1 (xi )fp (xi ) i f2 (xi )fp (xi ) .. P. 2 i fp (6.22) (6.23) (6.24) (6.25) Die Kovarianzmatrix ˆ = (AT A)−1 AT ~y . Betrachte: ~a ˆ geht aus einer linearen Transformation von ~y hervor. ~a ˆ kann über Fehlerfortpflanzung aus der Kovarianzmatrix Kovarianzmatrix von ~a von ~y berechnet werden: var(y1 ) cov(y1 , y2 ) · · · cov(y1 , yn ) cov(y2 , y1 ) var(y2 ) · · · cov(y2 , yn ) V [~y ] = (6.26) .. .. .. . . . . . . cov(yn , y1 ) cov(yn , y2 ) · · · var(yn ) var(yi ) = σi2 80 , cov(yi , yk ) = σik (6.27) 6.3. Methode der kleinsten Quadrate Hier: y~i unkorreliert, alle σi gleich σ2 V [~y ] = σ 1 = 0 .. . 2 0 .. . .. . ··· 0 ··· .. . .. . 0 0 .. . 0 σ2 (6.28) Sei die Beziehung linear ˆ = B~y ~a (6.29) mit Fehlerfortpflanzung gilt: ˆ] = BV [~y ] B T V [~a T −1 (6.30) T B = (A A) A ˆ] = (AT A)−1 AT V [~y ] A(AT A)−1 V [~a 2 mit V [~y ] = σ 1 ˆ] = σ 2 (AT A)−1 V [~a (6.31) (6.32) (6.33) (6.34) ˆ] hängt nicht von den Residuen ab. – V [~a – σ 2 hat keinen Eifluss auf die Parameterwerte, wenn σi2 = σ 2 . Quadratsumme der Residuen ˆ = (AT A)−1 AT ~y ~a (6.35) S = ~y T ~y − 2~aT AT ~y + ~aT AT A~a (6.36) ˆT AT ~y + ~a ˆT AT A(AT A)−1 AT ~y Ŝ = ~y T ~y − 2~a ˆT AT ~y = ~y T ~y − ~a (6.37) einsetzen in ergibt (6.38) – Summe der Residuenkann direkt berechnet werden. – aber: ∗ Differenz großer Zahlen ∗ Einzelbeiträge ggf. interessant E[Ŝ] = σ 2 (n − p) (6.39) Ist die Varianz unbekannt, kann abgeschätzt werden: σ̂ 2 = Ŝ n−p (6.40) Für große Werte ist das eine gute Schätzung. 81 6. Einfache statistische Methoden Eigenschaften der Lösung dieses Problems Zur Erinnerung - Daten sind unverzerrt (unbiased), “erwartungstreu” - alle Varianzen gleich d.h. - E[~y − A~ā ] = 0 oder E[~y ] = A~ā - V [~y − A~ā ] = σ 2 1 Dann gilt: 1. Die Schätzwerte, die mit der Methode der kleinsten Quadrate ermittelt werden sind unverzerrt. 2. Sie haben den kleinsten Fehler von allen linearen Schätzwerten d.i. ”GaußMarkoff-Theorem”. 3. Dies gilt unabhängig von der Wahrscheinlichkeitsdichte der Residuen. 6.3.3. Gaußverteilte Meßfehler → Wahrscheinlichkeitsdichte von Ŝ bekannt. Ŝ folgt einer χ2 -Verteilung mit (n − p) Freiheitsgraden. σ2 χ2 -Test zur Überprüfung, ob Daten und Modell verträglich sind. → Dieser wird auch bei (kleinen) Abweichungen von Gauß durchgeführt. Unterschiedliche Fehler – Einzelne Datenpunkte haben verschiedene Genauigkeiten: Varianz V [yi ] = σi2 – Datenpunkte statistisch unabhängig cov = 0 2 σ1 0 · · · 0 σ22 . . . V [~y ] = .. . . .. . . . 0 ··· 0 0 .. . 0 σn2 (6.41) (6.42) Residuenquadrate S= 82 X r2 ? i 2 = min σ i i (6.43) 6.3. Methode der kleinsten Quadrate Einführung der Gewichtungsmatrix 1/σ12 0 ··· . 0 1/σ22 . . −1 W [~y ] = V [~y ] = . .. .. .. . . 0 ··· 0 0 .. . 0 1/σn2 (6.44) → Diagonalelemente = inverse Varianzen. Ausdruck für S: S = ~rT ~r) (bisher: (6.45) T nun: S = ~r W ~r (6.46) T = (~y − A~a) W [~y ](~y − A~a) (6.47) Gilt auch für korrelierte Datenpunkte! W [~y ] = V −1 [~y ] ist dann nicht mehr diagonal. Überlegung: – V [~y ] ist symmetrisch. – lineare Algebra: Zu jeder symmetrischen Matrix V [~y ] gibt es eine orthogonale Matrix U , die V [~y ] in eine Diagonalmatrix V [~z] transformiert. – dann ist ~z = U T ~y (6.48) V [~z] = U T V [~y ]U (6.49) und nach Fehlerfortpflanzung S = (~z − U T A~a)T W [~z] (~z − U T A~a) | {z } (6.50) diagonal (vergleiche Formel 6.47.) U W [~z]U T = V −1 [~z] = W [~y ] (6.51) Lösung für allgemeine Kovarianzmatrix S = ~rT W [~y ]~r (6.52) T = (~y − A~a) W [~y ](~y − A~a) (6.53) 83 6. Einfache statistische Methoden ˆ auf führt für den Schätzwert für ~a ˆ = (AT W A)−1 AT W ~y ~a ˆ ] = (AT W A)−1 V [~a (6.54) (6.55) vergleiche: ˆ = (AT W A)−1 AT ~y ~a ˆ ] = (AT A)−1 σ 2 V [~a (6.56) (6.57) ˆ: Summe der Residuenquadrate für ~a = ~a ˆT AT W ~y Ŝ = ~y T W ~y − ~a E[Ŝ] = n − p (6.58) freie Parameter“ ” (6.59) Praktische Hinweise Geradenanpassung y = f (x, a1 , a2 ) = a1 + a2 x (6.60) 1 x1 1 x2 A = . . . . . . 1 xn (6.61) → Designmatrix A Messwerte seien unkorreliert V [~y ] und W diagonal. P P Wi P i Wi xi S1 Sx T i P A WA = 2 = S x Sxx i Wi xi i Wi xi P Wy Sy AT W ~y = P i i i = Sxy i W i x i yi (6.62) (6.63) → 6 Summen berechnen (AT W A)−1 = 1 D Sxx −Sx −Sx S1 (6.64) mit Determinante D = S1 Sxx − Sx2 (6.65) â = (AT W A)−1 AT W y (6.66) â1 = (Sxx Sy − Sx Sxy )D (6.67) â2 = (−Sx Sy + S1 Sxy )D (6.68) Einsetzen: 84 6.3. Methode der kleinsten Quadrate Kovarianzmatrix: 1 V [â] = D Summe der Residuenquadrate: Sxx −Sx −Sx S1 Ŝ = Syy − â1 Sy − â2 Sxy (6.69) (6.70) 2 Sonderfälle 1. Fehler in beiden Variablen? y = a1 + a2 x (6.71) xi mit σxi (6.72) yi mit σyi (6.73) Zu minimieren ist dann die Summe der Quadrate des Abstands der Fehlerellipsen von der Geraden X (yi − a1 − a2 x)2 (6.74) S(a1 , a2 ) = σy2i + a22 σx2i i Gefordert ∂S ∂S =0 und =0 (6.75) ∂a1 ∂a2 Numerische Methoden gefordert, z.B. Variation von a2 und Berechnung von P P yi xi i σy2 +a22 σx2 − i σy2 +a22 σx2 i i i i P (6.76) â1 = 3 + a2 σ 2 ) 1/(σ yi 2 xi i oder gleich Anwendung von Optimierungsmethoden. 2. Lineare Regression Minimierung der Summe der Quadrate der senkrechten Abstände der Punkte von einer Geraden. Alle Standartabweichungen gleich σ, X (yi − a1 − a2 xi )2 d.h. S= , (6.77) (1 + a22 )σ 2 i führt auf â1 = ȳ − â2 x̄ p â2 = q ± q 2 + q X yi X xi ȳ = , x̄ = n n i i P P 2 2 i − ȳ) − i (yP i (xi − x̄) q = 2 i (yi − ȳ)(xi − x̄) (6.78) (6.79) (6.80) (6.81) Vorzeichen testen! 85 6. Einfache statistische Methoden 6.3.4. Nichtlineare kleinste Quadrate f (x, ~a) hängt nicht linear von den ai ab, z.B. f (ax, ~a) = a1 · exp(a2 x). (6.82) ∂f und ∂a hängen von den Parametern ai ab. 2 ⇒ nichtlinear“. ” Allgemeine Lösung durch Iteration! ∂f ∂a1 vgl. Ausweg: Linearisierung Taylor-Entwicklung von f (x, ~a): ∗ f (x, ~a) = f (x, ~a ) + p X ∂f (aj − a∗j ) ∂aj | {z } j=1 (6.83) Ableitungen an der Stelle a∗ Korrekturterm: ∆~a = ~a − ~a∗ (6.84) ri = yi − f (xi , ~a) (6.85) ~r = ~y − A∆~a − f~ (6.86) Die Residuen sind in linearer Näherung mit der Jacobi-Matrix ∂f (x1 )/∂a1 ∂f (x1 )/∂a2 · · · .. .. ∂f (x2 )/∂a1 . . A= .. . . .. .. . ∂f (xn )/∂a1 ··· ··· ∂f (x1 )/∂ap .. . .. . ∂f (xn )/∂ap (6.87) und dem Näherungsvektor f~ an der Stelle ~a∗ . S = ~rT W ~r (6.88) = (~y − A∆~a − f~) W (~y − A∆~a − f~) = min T (6.89) Normalgleichung (AT W A)∆~a = AT W (~y − f~) mit 86 T −1 ∆~a = (A W A) (6.90) A W (~y − f~) T (6.91) 6.4. Nachtrag und Exkurs: Fehlerfortpflanzung Addiere dann ~a∗ + ∆~a → ~a∗ (6.92) in der Regel bessere Näherung. Näherungsweise weiter gültig: â = (AT W A)−1 AT W y T V [â] = (A W A) −1 E[Ŝ] = n − p (6.93) (6.94) (6.95) Konvergenz Man hofft, dass S(~a∗ + ∆~a) < S(~a∗ ) (6.96) S(~a∗ + λ∆~a) < S(~a∗ ) (6.97) Bestimmt ist aber: → Suche mit Salamitaktik nach geeignetem λ. Konvergenzkriterium ? Betrachte ∆S = ∆~aT W (~y − f~) (6.98) für ∆S < 1 Abweichung innerhalb 1σ. Beenden, wenn z.B. ∆S < 0, 1, weil statistische Fehler dann dominieren. Stark nichtlineares Problem? allgemeine Optimierung. 6.4. Nachtrag und Exkurs: Fehlerfortpflanzung 6.4.1. Transformation einer Variablen – Wahrscheinlichkeitsdichte f (x) bekannt – Trannsformation von x in die Variable y(x) → Gesucht: Wahrscheinlichkeitsdichte f (y) Betrachte: Interval in x (x, x + dx) in y (y, y + dy) Flächentreue Abbildung fx (x) dx = fy (y) dy (6.99) 87 6. Einfache statistische Methoden dx fy (y) = fx (x(y)) dy (6.100) Falls Transformation nicht eindeutig fy (y) = X fx (x(y)) |dy/dx| (6.101) Zweige (Keine Auslöschung! → Vorzeichen von dy/dx darf sich nicht ändern.) Bsp.: √ y = x2 → x= y 1 √ √ fy (y) = √ (fx (+ y) + fx (− y)) 2 y (6.102) (6.103) Transformation von Mittelwert und Varianz Nichtlinearität → komplizierte Ausdrücke → Entwicklung bis zur 2. Ordnung 2 1 dy 2 d y + (x − hxi) y(x) ≈ y(hxi) + (x − hxi) (6.104) dx x=hxi 2 dx2 x=hxi2 2 dy 1 2 d y E[y] = y(hxi) + E[x − hxi] + E[(x − hxi) ] (6.105) {z } dx2 x=hxi dx x=hxi 2 | {z } | =σx2 =0 nach Def. 1 2 d2 y hyi = x(hxi) + σx (6.106) 2 dx2 x=hxi Bei Vernachlässigung der 2. Ordnung hyi ≈ y(hxi) (6.107) Varianz: " V [y] = E[(y − hyi)2 ] = E = = dy dx 2 dy dx 2 (6.108) · E[(x − hxi)2 ] (6.109) · V [x] (6.110) d.i. Fehlerfortpflanzung für eine Variable. 88 # dy · (x − hxi)2 dx hxi 6.4. Nachtrag und Exkurs: Fehlerfortpflanzung Bsp.: Lineare Transformation fy (y) = E[y] = y−b x= a y−b 1 fx |a| a a · E[x] + b hV i = a · hxi + b y = ax + b → V [y] = = (6.111) (6.112) (6.113) (6.114) 2 E[(ax + b − (a hxi + b)) ] 2 2 2 a · E[(a − hxi) ] = a · V [x] (6.115) (6.116) 6.4.2. Transformation mehrerer Variablen Lineare Transformation ~y = B~x (6.117) ~x: n-Vektor, Mittelwert µ ~ x , Kovarianmatrix V [~x] ~y : m-Vektor, Mittelwert µ ~ y , Kovarianmatrix V [~y ] ∂yi B: m × n-Matrix mit Bik = ∂x , m 6= n. Fehlerfortplanzunggesetz k h~y i = µ ~ y = B~ µx (6.118) T V [~y ] = BV [~x]B , (6.119) h~y i = E[~y ] = E[B~x] = BE[~x] = B~ µx (6.120) da und V [~y ] = E[(~y − µ ~ y )(~y − µ ~ y )T ] (6.121) T = E[(B~x − B~ µx )(B~x − B~ µx ) ] T T = E[B(~x − µ ~ x )(~x − µ ~ x) B ] T = BE[(~x − µ ~ x )(~x − µ ~ x ) ]B = BV [x]B T T (6.122) (6.123) (6.124) (6.125) Spezialfall n = m → B quadratisch fy (~y ) = fx (~x(~y )) · det B −1 , (6.126) ~x(~y ) = B −1 ~y (6.127) mit Allgemein (nicht unbedingt linear): 89 6. Einfache statistische Methoden Transformationsgleichung: yi = yi (~x) ~x = (x1 , . . . , xn ) (6.128) Wenn dim(~y ) = dim(~x) ist, kann fy (~y ) ggf. aus fx (~x) berechnet werden. Wieder ist fx (~x) dx1 . . . dxn = fy (~y ) dy1 . . . dyn . (6.129) fx (~x), fy (~y ) sind n-dimensionale Wahrscheinlichkeitsdichten. x , fy (~y ) = fx (~x) · J y (6.130) mit der Jacobideterminanten ∂x1 ∂x2 · · · ∂xn x J = y ∂y1 ∂y2 · · · ∂yn Wenn dim(~y ) 6= dim(~x) ist: Näherungsrechnung für die Kovarianzmatrix: Betrachte die Matrix der Ableitungen an der Stelle des Mittelwertes µ ~y ∂y1 ∂y1 ∂y1 ∂x1 ∂x2 . . . ∂xn .. .. .. B = ... . . . ∂ym ∂x1 ... ... (6.131) (6.132) ∂ym ∂xn Allgemeines Gesetz der Fehlerfortpflanzung V [~y ] = BV [~x]B T |lin. Fall: B Transfermatrix (6.133) mit den Kovarianzmatrizen V [~y ] und V [~x]. Herleitung: Entwicklung von yi (~x) um den Mittelwert yi (~ µx ): yi (~x) − µi = n X k=1 (xk − hxk i) ∂yi + ··· ∂xk (6.134) Element der Kovarianzmatrix Vpq : Vpq [y] = E[(yp − µp )(yq − µq )] ! X X ∂y ∂y p (xj − hxj i) q ≈ E (xk − hxk i) ∂xk ∂xj j k X ∂y ∂y p q = E (xk hxk i)(xj hxj i) ∂xk ∂xj k,j 90 (6.135) (6.136) (6.137) 6.4. Nachtrag und Exkurs: Fehlerfortpflanzung ∂yi ∂yk : Element der Matrix B und daher V [~y ] = BV [~x]B T (6.138) Spezialfall: Keine Korrelationen in ~x → V [~x] ist diagonal, mit Vii = σy2i n X ∂yi 2 = k=1 ∂xk n X ∂yi 2 = k=1 ∂xk V [xk ] (6.139) σx2k (6.140) Merke: ~y sind im Allgemeinen auch dann korreliert, wenn ~x nicht korreliert sind. Beispiel: Rotation eines Vektors um den Winkel θ: y1 ~y = , y2 ~y = B~x , ~x = x1 x2 cos θ sin θ B = − sin θ cos θ cos θ − sin θ T B = sin θ cos θ (6.141) (6.142) (6.143) Kovarianzmatrix V [~x]: σ12 = V [x1 ], σ22 = V [x2 ] σ12 cov(x1 , x2 ) V [~x] = cov(x1 , x2 ) σ22 V [~y ] = BV [~x]B T (6.144) (6.145) mit V11 = σy21 = cos2 θσ12 + sin2 θσ22 +2 sin θ cos θcov(x1 , x2 ) V22 = σy22 = cos 2 θσ22 + sin 2 +2 sin θ cos θcov(x1 , x2 ) cov(y1 , y2 ) = V12 = V21 = sin θ cos θ(σ12 2 − (6.146) θσ12 σ22 ) 2 +(cos θ − sin θ)cov(x1 , x2 ) (6.147) (6.148) cov(y1 , y2 ) = 0, wenn tan 2θ = 2cov(x2 , x2 ) σ12 − σ22 (6.149) 91 6. Einfache statistische Methoden → Transformation in ein spezielles Koordianatensystem möglich, in dem die yi unkorreliert sind. → Auch bei unkorrelierten xi sind die yi im Allgemeinen korreliert. 6.5. Numerische Optimierung 6.5.1. Vorbemerkungen Minimierung ohne Nebenbedingung Minimiere F (~x), ~x ∈ R. F (~x) ist glatt ?, d.h. mindestens F 0 und F 00 existieren. ∂F/∂x1 ∂F/∂x2 ~ ~g (~x) = ∇F (~x) = .. . (6.150) ∂F/∂xn ~ 2 F (~x) = H(~x) ∇ ∂2F ∂x2 21 ∂ F = ∂x2 ∂x1 .. . ∂2F ∂xn ∂x1 ∂2F ∂x1 ∂x2 ∂2F ∂x22 .. . ··· Hesse-Matrix 2F · · · ∂x∂1 ∂x n .. .. . . . .. .. . ∂2F ··· ∂x2 (6.151) (6.152) n Taylor-Entwicklung um xn : 1 F (~xk − ∆~x) = F (~xk ) + ~gkT ∆~x + ∆~xT Hk ∆~x + . . . 2 (6.153) Notwendige Bedingung für n = 1 d F (x) = 0 dx x=x∗ Maximum?, Wendepunkt?, Nebenminimum? d2 → F (x) ∗ > 0 dx2 x=x (wenn F (x) an x∗ stetig ist.) 92 (6.154) (6.155) 6.5. Numerische Optimierung Notwendige Bedingung in n Dimensionen d F (~x) = 0, dxi für alle i (6.156) und H(~x∗ ) ist positiv definit, d.h. alle Eigenwerte sind größer als 0. Spektralzerlegung von H: H~u = λ~u, (6.157) ~u: Eigenvektor, λ: Eigenwert H symmetrisch, n × n n reelle Eigenwerte λi n Eigenvektoren ~ui , orthogonal Eigenvektoren seien normiert ~uTi · ~ui = 1 Bilde eine orthogonale Matrix U aus den Spaltenvektoren ~ui . Dann ist λ1 0 . . . 0 . 0 λ2 . . . .. T D = U HU = . . .. ... 0 .. 0 . . . 0 λn (6.158) eine Diagonalmatrix mit den Eigenwerten λi . – Es ist: U −1 = U T H = U DU T = n X (6.159) λi Ui UiT (6.160) j=1 – Die Eigenwerte der inversen Hesse-Matrix H−1 sind invers zu denen von H, die Eigenvektoren sind identisch. – Spektrale Norm einer symmetrischen Matrix: größter Eigenwert. kHk = λmax kH −1 k = λmin – Konditionszahl: k = kH−1 k · kHk = λmax λmin (6.161) (6.162) (6.163) (große Konditionszahl → numerisch problematisch) 93 6. Einfache statistische Methoden Betrachte: 1 F (~x) = ~g0T · ~x + ~xT H0 ~x 2 (quadr. Funktion) (6.164) und ~g (~x) = ~g0 + H0 ~x (Gradient.) (6.165) Variiere die Funktion um den Punkt ~x∗ , mit ~g (~x∗ ) = ~0 in Richtung von ~ui : 1 F (~x∗ + h~ui ) = F (~x∗ ) + λi h2 2 H: positiv definit Da λi > 0 (6.166) Minimum um ~x∗ . ~g (~x∗ ) = 0 (6.167) ~g (~x) = ~g0 + H0 ~x (6.168) H0 ~x∗ = −~g0 (6.169) ~x∗ = −H0−1~g0 (6.170) wird aus oder → Minimum kann in einem Schritt gefunden werden. – Newton-Methode: quadratische Approximation der Funktion... – Für quadratische Funktionen f (x1 , x2 ) (2Parameter): Höhenlinien konstanter Funktionswerte und Ellipsen, deren Achsen in Richtung der Eigenvektoren liegen. (Mehr als 2 Parameter: “Hyperellipsoide“.) – Suche nach quadratisch approximierbarem Bereich: → lokales(?) Minimum → Sattelpunkt? Hesse-Matrix indefinit. Wähle zur Bestimmung der Suchrichtung eine Linearkombination von Eigenvektoren mit negativen Eigenwerten. → H positiv semidefinit? Mindestens ein λi = 0. Korrelationen? Problem schlecht konditioniert? – Funktion nicht glatt? Wahl einer Suchmethode, die H nicht benutzt. – log-Likelihood-Funktionen (später!) sind in der Nähe der Lösung meist quadratisch. 94 6.5. Numerische Optimierung 6.5.2. Eindimensionale Minimierung Suchmethoden (genau ein Minimum!) – Berechnung von Funktionswerten – Einschließung des Minumums – Verkleinerung des Intervalls → Methode des Goldenen Schnitts Gegeben Intervall[x1 , x3 ]. Es wird durch den Goldenen Schnitt bei x2 geteilt, wenn x3 − x2 x2 − x1 = . x3 − x1 x3 − x2 (6.171) “Kleineres Intervall zu größerem, wie größeres zur ganzen Strecke.“ xt − x1 = τ = 0, 618 . . . x3 − x1 Reduktionsfaktor (6.172) Robuste Konvergenz, aber nicht übermäßig schnell: Abbildung 6.1.: Minimumsuche mittels Goldenem Schnitt Nach n Schritten Reduktion um τ n : z.B. τ 10 ≈ 0, 00813 ≈ 1 100 . Newton-Methode Suche nach Nullstellen in der Funktion: Iterationsvorschrift xk+1 = Φ(xk ) Φ(xk ) = x − f (x) f 0 (x) (6.173) Φ(xk ) = x − f 0 (x) f 00 (x) (6.174) Suche nach Nullstellen in der Ableitung xk+1 = Φ(xk ) → Konvergenz gegen Fixpunkt x∗ (möglich) – f 00 (x) = 0 – f 00 (x) <0 → Schritt unendlich → Konvergenz gegen Maximum Konvergenzverhalten Iterationsmethode heißt lokal konvergent von der Ordnung p, wenn |xk+1 − x∗ | < c, |xk − x∗ |p c>0 (6.175) 95 6. Einfache statistische Methoden mit Fixpunkt x∗ . Wenn mindestens lineare Konvergenz p = 1, c<1 (6.176) gilt, heißt die Methode global konvergent. – lineare Konvergenz ist sehr langsam quadratische Konvergenz erwünscht. – in der Newton-Methode ist Φ(x) = x − f 0 (x) f 00 (x) (6.177) und somit Φ0 (x) = 1 − f 0 (x)f 000 (x) f 00 2 (x) − f 0 (x)f 000 (x) = − f 00 2 (x) f 00 2 (x) (6.178) an der Stelle x∗ ist f 0 (x∗ ) = 0. Φ0 (x∗ ) = 0 (6.179) zweite Ableitung: Φ00 (x∗ ) 6= 0 (6.180) quadratisch konvergent (lokal). Kombination der Methoden – Suchmethoden: ∗ linear konvergent, robust ∗ keine Ableitung – Newton: ∗ quadratische Konvergenz, kaum Fehlgehen ∗ Ableitungen Kombination: Polynom-Interpolation: – Beschreibung der Punkte durch ein Polynom 2. oder 3. Grades – Mathematik des Newton-Verfahrens xt = x2 − f 0 (x2 ) f 00 (x2 ) (6.181) – symmetrische Teilung der Intervalle führt auf f 0 (x2 ) ≈ f 00 (x2 ) ≈ 96 f (x3 ) − f (x1 ) 2(x2 − x1 ) f (x3 ) − 2f (x2 ) + f (x1 ) (x2 − x1 )2 (6.182) (6.183) 6.5. Numerische Optimierung → Kann auf asymmetrische Teilung des Intervalls und damit zu Instabilität führen. → Besser Teilung nach Goldenem Schnitt. 6.5.3. Mehrdimensionale Minimierung Gittersuche in n Dimensionen → k n Funktionsberechnungen Vermehrung um Faktor 10, bei 10 Parametern Faktor 1010 Rechenoperationen mehr unpraktikabel Monte Carlo Suche a) Bestimmung der Unterteilung in einem Intervall in jeder der Dimensionen über einen linearen Zufallsgenerator. b) Würfeln der Schrittrichtung vom kleinsten Funktionswert über den Richtungskosinus ri di = qP (6.184) n 2 r i=1 i Schrittweite ∆xi vorgegeben. → Gut für die Erzeugung von Startwerten (manchmal). Parametervariation – Die n Parameter werden zyklisch jeweils eindimensional jeweils einem Optimierungsschritt unterworfen. Abbildung 6.2.: Zyklische eindimensionale Minimierungen → Konvergiert (langsam) bei glatten Funktionen. Simplex-Methode – Schließe das Minimum durch einen k-dimensionalen Polyeder mit n Ecken ein. – Sortiere die Funktionswerte nach Größe. – Ersetze den schlechtesten Punkt durch einen geeigneten in Richtung des Schwerpunktes variierten neuen Punkt. 97 6. Einfache statistische Methoden → Fallunterscheidung nötig (Schwerpunkt 6= Minimum) Newton-Methode → Wähle ~x0 als Anfangswert. Berechne F (~x0 ), setze Zähler k = 0. → Berechnung des Suchvektors ∆~x Analog zum eindimensionalen Fall folgt aus der Bedingung, dass der Gradient = 0 sein soll: ~g (~xk + ∆~x) ≈ ~gk + Hk ∆~xN = 0 (6.185) → Hk ∆~xN (6.186) = −~gk → Eindimensionale Minimierung Minimiere F (~x) in der Richtung des Suchvektors. Betrachte dazu f (z) = F (~xk + z∆~xN ) |{z} (6.187) 1-dim. Minumum gegeben durch zmin ! → Iteration Wähle das Minimum als Ausgangspunkt für den nächsten Optimierungsschritt: ~xk+1 = ~xk + zmin ∆~xN (6.188) Setze k = k + 1. → Konvergenztest Ist die Approximation gut genug? ja? → fertig nein? → nächste Runde zu viele Schritte? → aufgeben :-( 98 7. Spezielle Verfahren zur Datenanalyse “ Über den Umgang mit a-priori-Wissen über die Verteilungsfunktionen.“Probabilisten vs. Frequentisten 7.1. Die Maximum-Likelihood-Methode 7.1.1. Problemstellung Vorgehen: n Messungen der Zufallsvariablen ~x, (dim ~x = 1 . . . k). Bekannt sei die Wahrscheinlichkeitsdichte für die Messwerte ~x1 . . . ~xn bei gegebenem ~a: f (~x|~a). ~a: Parameter von denen die Wahrscheinlichkeitsdichte abhängt. 7.1.2. Aufgabe ˆ aus den gegebenen Messdaten. Finde die beste Schätzung ~a 7.1.3. Ansatz Bilde die Likelihood-Funktion L(~a) = f (~x1 |~a) · f (~x2 |~a) · · · f (~xn |~a) = n Y f (~xi |~a) (7.1) i=1 L(~a) – ist ein Maß für die Wahrscheinlichkeit, bei festliegenden Parametern ~a, den Datensatz ~x1 . . . ~xn zu nennen. – ist keine Wahrscheinlichkeitsdichte. 7.1.4. Maximum-Likelihood-Prinzip ˆ maximiert die Funktion L(~a), d.h. Die beste Schätzung von ~a L(~a) = max, (7.2) mit f (~x|~a) für alle Werte von ~a auf 1 normiert: Z f (~x|~a) d~x = 1 ∀~a (7.3) 99 7. Spezielle Verfahren zur Datenanalyse → numerischer Aufwand während aller Iterationsschritte! Maximum durch Differenzieren: dL(~a) =0 d~a ∂L(~a) = 0 für i = 1 . . . k ∂ai (7.4) 7.1.5. Log-Likelihood-Funktion l(~a) = ln(L(~a)) = n X ln(f (~xi )|~a) (7.5) i=1 ln ist monoton → Maximum von l(~a) und L(~a) an der gleichen Stelle. Ein Parameter: n X l(a) = ln(L(a)) = ln(f (xi |a)) = max (7.6) i=1 → dl(a) =0 da (7.7) k Parameter: ∂l(~a) =0 i = 1...k ∂ai = b Minimierung der negativen Log-Likelihood-Funktion: F (~a) = −l(~a) = − n X ln(f (~xi |~a)) (7.8) (7.9) i=1 Eigenschaften der Maximum-Likelihood-Methode + konsistent (unverzerrt) (siehe 7.3) + nicht immer erwartungstreu + beides aber für n → ∞ + effizient - großer Rechenaufwand - a priori Kenntnis der Form der Wahrscheinlichkeitsdichte nötig - Überprüfung nötig, dass die Daten überall mit den Parametern ~a verträglich sind. . .bei mehreren Dimensionen in allen Teilintervallen. . . 7.1.6. Beispiele 1. Zerfallsintervallverteilung eines Teilchens Gegeben durch f (x|a) = 1 (1 + ax) |2 {z } zufällig normiert! s.u. 100 mit x = cos ϑ (7.10) 7.2. Fehlerbestimmung bei der Maximum-Likelihood-Methode Z 1 1 (1 + ax) dx = 2 −1 = 1 1 2 1 x + ax 2 4 −1 1 1 1 1 1+ 1+ a− a=1 2 2 4 4 (7.11) n Werte für xi gemessen, â gesucht, −1 ≤ x ≤ 1 F (a) = − n X ln i=1 1 (1 + axi ) 2 (7.12) 2. Gauß-Verteilung; Mittelwert a f (xi |a) = − 1 e √ aπσi (xi −a)2 aσ 2 i (7.13) n F (a) = konst + 1 X (xi − a)2 2 σi2 (7.14) i=1 dF (a) ! =0 da mit wi = 1/σi2 ist − n X xi − a i=1 σi2 =0 (7.15) Pn x i wi â = Pi=1 n i=1 wi (7.16) â ist das gewichtete Mittel aller xi 3. Vergleich zur Methode der kleinsten Quadrate Aus Beispiel 2. folgt: Wenn die Daten Gaußverteilt sind, ist die Minimie2 P rung von F (a) gleichbedeutend zur Minimierung von S(a) = ni=1 (xiσ−a) , da 2 F (a) = konst + 21 S(a). i 7.2. Fehlerbestimmung bei der Maximum-Likelihood-Methode 7.2.1. Ein Parameter Zeichne F (a) gegen a: Bei 1 2 2 2 4 2 -Zunahme von F (a) ↓ ↓ ↓ 1σ 2σ 1σ 101 7. Spezielle Verfahren zur Datenanalyse Da Likelihood-Funktion oft näherungsweise Gauß -verteilt: h → ∞: Likelihood → Gauß und Varianz → 0. F (a) = F (â) + 1 d2 F (a − â)2 + . . . 1 2 da2 1 d2 F 2 L(a) ≈ const · e− 2 da2 (a−â) = const · e (7.17) (7.18) (a−â)2 − 2σ 2 (7.19) in der Nähe des Maximums Gauß förmig. Koeffizientenvergleich: σ(â) = −1/2 d2 F da2 â (7.20) → neg. Log-Likelihood-Funktion: Parabel, 2.Ableitung = const. 1 → F (â ± rσ) = F (â) + r2 2 (7.21) 7.2.2. Mehrere Parameter Parameter a1 , . . . , an = ~a. L(~a) = n Y f (xi , a1 , a2 , . . . , an ) (7.22) i=1 Entwicklung der negativen log-Lokelihood-Funktion um ~a: n X ∂2F ˆ) + 1 F (~a) = F (~a (ai − âi )(ak − âk ) + . . . 2 ∂ai ∂ak ˆ) + 1 = F (~a 2 Gik = ∂2F ∂ai ∂ak i,k n X Gik (ai − âi )(ak − âk ) + . . . (7.23) (7.24) i,k V = G−1 = Kovarianzmatrix – Gik =Hesse-Matrix, kann für Optimierung genutzt werden – Formal exakt für große n, sonst Näherung – 2 Parameter: - Konturlinien als Linien gleicher Likelihood ˆ + 1 r2 ↔ F (~a ˆ) + 1 F (~a) = F (~a 2 2 (7.25) - Abweichung vom asymptotischen Verhalten → asymmetrische Fehler. 1 Wenn höhere Terme nicht verschwinden, aufwendigeres Verfahren: insbesondere sind Fehler nicht mehr symmetrisch. 102 7.3. Die Maximum-Likelihood-Methode, Eigenschaften 7.3. Die Maximum-Likelihood-Methode, Eigenschaften 7.3.1. Konsistenz â sei die beste Schätzung des Parameters a. a0 sei der wahre Wert dieses Parameters. Wenn lim â = a0 , n→∞ (7.26) heißt die Schätzung konsistent. Dies kann für die Maximum-Likelihood-Methode gezeigt werden. (→ Blobel) X 7.3.2. Erwartungstreue? Schätzung heißt erwartungstreu, wenn E[â] = a0 (7.27) Anschaulich: wenn der Mittelwert der Maximum-Likelihood-Funktion = dem Erwartungswert, oder die Maximum-Likelihood-Funktion im Intervall [−pσ, pσ] symmetrisch ist. Da die Maximum-Likelihood-Funktion durch Ableitungen g(a) verzerrt werden kann (asymmetrische Fehler), gilt die Erwartungstreue nur für n → ∞. 7.3.3. Gaußähnlichkeit Die Maximum-Likelihood-Funktion nähert sich asymptotisch der Gauß-Funktion an. 7.3.4. Varianz Die Varianz σ(â) = −1/2 d2 F da2 â (7.28) ist die kleinstmögliche“. Daher ist die Maximum-Likelihood-Methode asymptotisch ” effizient. 7.4. Bayesische Statistik Bisher: – alle Aussage dienen dazu, Wahrscheinlichkeitsintervalle anzugeben, – der Erwartungswert dient als Referenzpunkt in dem Intervall, 103 7. Spezielle Verfahren zur Datenanalyse – a priori-Wissen über die Form von Verteilungen fließt nur in der MaximumLikelihood-Methode ein. Vergleiche nun: – gekoppelte Wahrscheinlichkeiten P (A und B) = P (A) · P (B|A) (7.29) = P (B) · P (A|B) (7.30) → Bayes Theorem P (A|B) = P (B|A) P (A) P (B) (7.31) f (a) g(x) (7.32) – mit dem vorliegenden Problem: f (a|x) = f (x|a) · a: Parameter x: Daten f (x|a): bedingte Wahrscheinlichkeit für die Daten bei gegebenem a Monte-Carlo-Simulation“ ” f (a|x): bedingte Wahrscheinlichkeit für die Parameter a bei gegebenen Daten g(x): liegt nach Messung fest X f (x|a): kann berechnet werden X f (a): problematisch, da a eigentlich nur einen Wert haben. E inzug der Vorurteile in die Statistik“ ” z.B. bei Reflektionsproblemen auch berechenbar/motivierbar f (a): Prior“ ” f (a|x): Posterior“ ” Gedankenspiel“ ” Seien µ der Mittelwert einer Wahrscheinlichkeitsdichte und x̄ der Mittelwert der dazugehörigen Stichprobe. Zentraler Grenzwertsatz: Wahrscheinlichkeitsdichte von x̄ ist näherungsweise Gauß funktion N (µ, σ) mit σ 2 : Varianz (7.33) Prior: f (µ). ⇒ f (µ|x̄) = N (µ, σ) · f (µ) 104 |ohne Normierung (7.34) 7.4. Bayesische Statistik Maximum-Likelihood: df (µ|x̄) dN (µ, σ) f (µ) =0= · f (µ) + N (µ, σ) dµ dµ dµ 1 df (µ) (x̄ − µ) d ln N (µ, σ) =− · = dµ f (µ) dµ σ2 (7.35) (7.36) Sei der Prior f (a) gleichverteilt in a oder . . . (könnte z.B. auch gleichverteilt in a2 oder log a sein), dann ist µ = x̄. Allgemein gilt 1 df (µ) d ln f (µ) µ = x̄ + σ 2 · · = x̄ + σ 2 (7.37) f (µ) dµ dµ → Einfluss des Priors ∼ d ln f (µ) dµ . Beispiel: Katastrophenwahrscheinlichkeit 100 Raketenstarts waren erfolgreich. Gesucht: Wahrscheinlichkeit eines Fehlstarts beim 101. Versuch Zur Beantwortung nötig: Wissen über p=Wahrscheinlichkeit für Fehlstart bei einem Versuch Obere Grenze p0 mit 95% CL. → Binomialverteilung, Wahrscheinlichkeit für 0“-Ereignisse = 100%-95%=5%. ” P (100, 0) = p00 · (1 − p0 )100 = 5% (7.38) → 100 ln(1 − p0 ) = ln(0, 05) (7.39) → p0 = 0, 03 (7.40) Ende der klassischen Statistik“. ” Rechnung dazu: Versuche=n Binomial: z }| { 100 p0 (1 − p)100−0 = P 0 | {z } (7.41) (100p)0 −100p ·e = 0, 05 0! } | {z (7.42) Fehlstarts=k Poisson: =1 ⇒ −100p = ln 0, 05 ≈ −3 (7.43) ⇒ p = 0, 03 (7.44) Schätzwert statt Grenze → Bayesischer Ansatz → Wahrscheinlichkeit, dass etwas passiert: Poisson(1): p= λ1 −λ e , 1! λ=n·p (7.45) 105 7. Spezielle Verfahren zur Datenanalyse Prior gleichverteilt: f (p, 1) df (p, 1) dp = λ · e−λ · const (7.46) = λ · e−λ − 1e−λ (7.47) = e−λ (λ − 1) = 0 ! λ=1 (7.48) p = 1% (7.49) 7.5. Entfaltung 7.5.1. Problem Gesucht: Verteilung in einer physikalisch relevanten Größe x (z.B. Energie“): ” f (x). Gemessen: Verteilung einer damit korrelierten Größe y ( z.B. Zahl der Hits ” im Detektor“): g(y). → Auflösung – unerwünschte Ereignisse im Detektor, die durch Rauschen des Meßinstruments ausgelöst werden → Untergrund (Background) – nicht alle erwünschten Ereignisse werden vom Detektor registriert → Akzeptanz Betrachte die Fredholmsche Integralgleichung 1. Art: Z g(y) = b A(y, x)f (x) dx (7.50) a x, f (x), a, b: gesuchte Verteilung in x im Intervall [a, b] y, g(y): gemessene Verteilung A(y, x): Kern; gibt die Wahrscheinlichkeit an, y zu messen, wenn der wahre Wert x ist. → Messgerät-Eigenschaften“ ” Hinzu kommt: ε(y): statistischer Fehler b(y): Untergrund Z g̃(y) = b A(y, x)f (x) dx + b(y) + ε(y) a Sehr gute Auflösung → A(y, x) = A0 (x) · S(x, y) nur noch Akzeptanzkorrektur nötig. 106 (7.51) 7.5. Entfaltung Allgemeiner Fall Auflösung ist schlecht → Rekonstruktion von f (x); g̃(y) =Entfaltung → Schlecht konditioniertes Problem - oszillierende oder sinnlose Lösungen → Ausweg regularisierte Entfaltung“ ” Bemerkungen Übereinstimmung von g̃(y)gemessen mit g̃(y)Monte Carlo ist nur ein Konsistenztest. Keine Aussagen über Fehler; Lösung nicht unbedingt eindeutig; kann ebenfalls oszillieren. Übergang zu gebinnten (diskreten) Variablen (notwendig für numerische Problemlösung) g̃i = m X Aij fj + bi + εi (7.52) j=1 ~g̃ = Af~ + ~b + ~ε ~x, f~ : m-dim. Vektoren ~g̃, ~b, ~ε : n-dim. Vektoren (7.53) ) Histogramme A: Kern → n × m Transfermatrix Es sei n = m A quadratisch, es folgt für kleine statistische Fehler ~ ~ − ~b) f˜ = A−1 (tildeg (7.54) ~ E[f˜] = E[A−1~g̃] = A−1 E[~g̃] = A−1 Af~ = f~ (7.55) Untergrundfreie Messung: → Schätzung ist konsistent. Fehlerfortpflanzung: T ~ V [f˜] = A−1 V [~g̃]A−1 (7.56) Wegen der Oszillationen der Lösungen (schlechte Kondition) Verfahren in dieser Form nicht befriedigend. → Regularisierung 107 7. Spezielle Verfahren zur Datenanalyse 7.5.2. Akzeptanzkorrektur Akzeptanz P : Wahrscheinlichkeit, dass bei Vorliegen des wahren Wertes x die Variable y gemessen werden kann. Messung sehr genau: Transfermatrix ist diagonal mit gemessene Verteilung: Ajj = Pj gj = Pj fj Ursache: – z.B. Geometrie → z.B. Raumwinkelkorrektur – Detektoreigenschaften (Trigger) → Monte Carlo Akzeptanz: Nj rekonstruiert Nj r = Nj generiert Nj g Pj = (7.57) Fehler σj, rel σj s ∆Pj 1 1 − Pj = Pj Binomialverteilt = Pj Nj g s Pj (1 − Pj ) 1 p = = Nj r · Nj verworfen Nj g Nj g (7.58) (7.59) Korrigierte Werte gj f˜ = pj σ(f˜j ) = √ q gj 1 + gj σj,2 rel pj (7.60) (7.61) Verzicht in Regionen kleiner Akzeptanz! Fehler, atypische! 7.5.3. Diskretisierung ~g̃(y) = Z b A(y, k)f (x) dx + b(y) + ε(y) (7.62) a → ~g̃ = Af~ + ~b + ~y – Genauigkeitsverlust (i.d.R. unvermeidbar) 108 (7.63) 7.5. Entfaltung Parametrisierung Entwicklung in Pj f (x) = m X aj Pj (x), Pj (x): Basisfunktionen (7.64) j=1 Dann ist Z m X b A(y, k)f (x) dx = a j=1 m X = Z b A(y, x)Pj (x) dx aj (7.65) a aj Aj (y) (7.66) j=1 → ~a: m-Vektor mit Z b Aj (y) = g(y) = a m X A(y, x)Pj (x) dx (7.67) aj Aj (y) + b(y) + ε(y) (7.68) j=1 Darstellung Darstellung aller y-abhängigen Funktionen durch Histogramme mit den Grenzen y0 , y 1 , · · · , y n . Z yi g(y) dy ~g : n-Vektor (7.69) gj = yi−1 Z yi Aj (y) dy A : (n × m)-Matrix (7.70) Aij = yi−1 Z yi ~b : n-Vektor b(y) dy (7.71) bi = yi−1 ~g = A~a + ~b (7.72) A: – Spalte Aj : Histogramm in y für f (x) = PJ (x) – Elemente werden im Monte Carlo erzeugt – Wähle beliebige Verteilung der wahren Werte f0 (x) – Generiere dazu ein y 109 7. Spezielle Verfahren zur Datenanalyse – Addiere ein Gewicht proportional zu Pj (x) zu dem Histogramm Aj (y) Basisfunktionen parametrisieren eine Dichte → Pj (x) ≥ 0 Wahl der Basisfunktionen: - B-Splines mit den Eigenschaften m X Pj (x) ≥ 0 Pj (x) = 1 (7.73) j=1 Koeffizienten aj ≥ 0 werden bestimmt. Berechnung der fk fk = 1 xk − xk−1 Z xk f (x) dx = xk−1 Z xk m X 1 Pj (x) dx aj xk − xk−1 xk−1 (7.74) j=1 f0 (x) im Prinzip frei wählbar, aber sinnvolle Wahl: nahe am erwarteten Ergebnis (Rechenzeit). f (x) = f0 (x) · f1 (x) (7.75) mit: f1 (x) nur schwach x-abhängig. b Z g(y) = A(y, x)f (x) dx (7.76) a b Z A(y, x)f0 (x) · f1 (x) dx = a b Z = A0 (y, x)f1 (x) dx (7.77) a 7.5.4. Anwendung Entfaltung in zwei Bins: ~g = Af~ ; g1 g2 f1 f~ = f2 ~g = ; A= 1 − ε11 ε12 ε21 1 − ε22 (7.78) (7.79) Fehler in g1 , g2 unabhängig V [~g ] = g1 0 0 g2 f~ = B~g mit ~ V [f ] = BV [~g ]B T 110 (7.80) B = A−1 (7.81) (7.82) 7.5. Entfaltung Seien nun die Akzeptanz 100% und alle ε = ε11 = ε22 = ε12 = ε21 . Entfaltungsproblem hier: Ereignisklassifikation 1 1 − ε −ε −2 A =B = 1 − 2ε −ε 1 − ε 1 f1 = [(2 − ε)g1 − εg2 ] 1 − 2ε 1 f2 = [−εg1 + (1 − ε)g2 ] 1 − 2ε 2 g + ε2 g 1 (1 − ε) −ε(1 − ε)(g + g ) 1 2 1 2 V [f~] = (1 − 2ε)2 −ε(1 − ε)(g1 + g2 ) (1 − ε)2 g2 + ε2 g1 ∧ ,→ Divergenz für ε → 0, 5 = keine Messung. (7.83) (7.84) (7.85) (7.86) (7.87) Zahlenbeispiel: g1 = 100 ± 10 g2 = 81 ± 9 Vermischwahrscheinlichkeit ε = 0, 1 f1 = 102, 4 ± 11, 3 f2 = 78, 6 ± 10, 2 Vermischwahrscheinlichkeit ε = 0, 4 f1 = 138, 0 ± 35, 0 f2 = 43, 0 ± 33, 6 7.5.5. Entfaltung (ohne Regularisierung) Diskretisierung → ~g = A~a + ~b Anzahl von Einträgen/Bin folgt normierter Poisson-Verteilung neg. Log-Likelihood-Funktion: X F (~a) = (gi (~a) − gim ln gi (~a)) (7.88) m: Zahl der Bins in x Iterative Bestimmung von ~ã 1 F (~a) = F (~ã) + (~a − ~ã)T · ~h + (~a − ~ã)T H(~a − ~ã) 2 h: Gradient; (7.89) H: Hesse-Matrix Korrektur: dann ∆~a = −H−1~h ˆ = ~ã + ∆~a ~a (7.90) bis Konvergenz, ˆ] = H−1 V [~a Problem ist immer noch instabiles Verhalten der Lösungen Parameterraum. (7.91) (7.92) Oszillationen im 111 7. Spezielle Verfahren zur Datenanalyse 7.5.6. Problemanalyse Dazu: Diagonalisierung der Hesse-Matrix : T H = UH D UH D = T UH (7.93) T UH orthogonal mit UH UH = 1 H UH (7.94) Eigenschaften von D: – Diagonalelemente sind reelle Eigenwerte von H. – Dii > 0, wenn H positiv definit. – Dii können in absteigender Reihenfolge angeordnet werden. Typischer Bereich: einige Größenordnungen Definiere dann Digonalmatrix D1/2 mit desgleichen für D−1/2 D1/2 D1/2 = D, (7.95) Transformiere nun ~a = UH D1/2 ~b (7.96) zu minimieren ist nun F (~b) = 1 +~bT ~hb + ~bT ~b 2 F0 |{z} (7.97) 2 konst. Beitr. mit ~hb = D−1/2 U T −H ~ã + ~h H (7.98) Lösung für den transformierten Vektor mit Kovarianzmatrix ~ˆb = −~hb (7.99) ˆ V [~b] = 1 (!) (7.100) Darstellung des Ergebnisses zu der neuen Basis fˆ(x) = m X b̂j p0j (x) (7.101) j=1 p0j (x): passende Linearkombination aller pj Rücktransformation des Ergebnisses m X 1 1/2 −1/2 ~ ˆ ~a = UH D b= b̂j Djj j=1 Djj waren nach Größe angeordnet, 112 ~uj |{z} Eigenvektor (7.102) 7.5. Entfaltung mit Null verträglich ˆ liefern können aber nach Multiplikation mit bj großen Beitrag zu ~a Oszillationen“ im Resultat ” Abschneiden? Gibbsches Phänomen“ → Überschwinger“ → Fluktuationen ” ” Regularisierung 7.5.7. Regularisierung Abbildung 7.1.: Gibbsches Phänomen“ ” Ziel: vorsichtiges Abschneiden der insignifikanten Parameter. Dazu: vorsichtige Verzerrung des Problems. Betrachte die Krümmung von f (x) als Maß für die Fluktuationen: Z 2 r(~a) = f 00 (x) dx (7.103) Parametrisierung durch kubische B-Splines → r(~a) = ~aT C ~a, (7.104) 2 −3 0 1 0 0 ... .. −3 8 −6 0 . 1 0 . .. 0 −6 14 −9 0 1 .. 1 . 0 −9 16 −9 0 . mit C = 0 1 0 −9 16 −9 . . . 0 0 1 0 −9 16 . . .. .. .. .. .. .. .. . . . . . . . (7.105) Minimiere nun 1 R(~a) = F (~a) + τ r(~a) 2 1 = F (~a) + τ~aT C ~a 2 (7.106) (7.107) τ → 0: Einfluss der Regularisierung verschwindet τ → ∞: lineare Lösung Wie ist τ zu wählen, damit der Einfluss der Verzerrung klein bleibt? 113