Rechnernutzung in der Physik Teil 3 – Statistische Methoden in der Datenanalyse Roger Wolf 15. Dezember 2015 INSTITUTE OF EXPERIMENTAL PARTICLE PHYSICS (IEKP) – PHYSICS FACULTY ● KIT – University of the State of Baden-Wuerttemberg and National Research Center of the Helmholtz Association Grundlagen der Wahrscheinlichkeitstheorie, Werkzeuge zur statistischen Datenanalyse ● Gängige Wahrscheinlichkeitsverteilungen ● Monte-Carlo Methoden ● Parameterschätzung ● Hypothesentests www.kit.edu Zusammenfassung Kapiel 3.1: Grundlagen der Wahrscheinlichkeitstheorie ● Rolle der Statistik in der modernen Physik. ● Ergebnisraum, Ereignisraum, Wahrscheinlichkeitsverteilung. ● ● 2 Bedingte Wahrscheinlichkeit, Satz von der totalen Wahrscheinlichkeit, Unabhägigkeit zweier Ereignisse. Interpretation von (Zufalls-)Experimenten und stochastische Modelle. Institute of Experimental Particle Physics (IEKP) Zusammenfassung Kapiel 3.2: Werkzeuge zur statistischen Datenanalyse ● ● 3 ROOT: C++-Framework zur Datenanalyse: ● Erste Schritte/Dokumentation. ● (Software-)Modell zur Datenspeicherung (ROOT-Tree). ● Darstellung von Daten: Graphen, Histogramme. ● Funktionen und Anpassung von Funktionen. ● ROOT-basierte weiterführende Analysepakete. Python Bibliotheken als Alternative zu ROOT. Institute of Experimental Particle Physics (IEKP) Kapiel 3.3: Charakterisierung von Wahrscheinlichkeitsverteilungen 4 Institute of Experimental Particle Physics (IEKP) Wahrscheinlichkeitsverteilung Eine auf dem Ereignisraum definierte Funktion (1) heißt Wahrscheinlichkeitsverteilung über dem Ergebnisraum die folgenden Eigenschaften erfüllt: ● ● ● 5 Für jedes Ereignis gilt ( Nichtnegativität). Für die Wahrscheinlichkeit zweier disjunkter Ereignisse gilt: ( Linearität). Die Wahrscheinlichkeit (1) Beachte: Interpretation der Wahrscheinlichkeitsverteilung! , wenn sie und ( ) (Normierungsbedingung). Institute of Experimental Particle Physics (IEKP) Zufallsvariable & Wahrscheinlichkeitsdichte ● ● ● 6 Für unsere weiteren Betrachtungen stellen Sie sich die Erfassung der Körpergröße von 5000 männlichen Einwohnern über 18 Jahre in Karlsruhe vor. ist eine (kontinuierlich verteilte) Zufallsvariable, deren Wert jeweils der Ergebnis eines Zufallsexperiments ist. Mit Hilfe der Methoden, die Sie in der letzten Vorlesung kennengelernt haben können sie die Meßreihe in Form von Histogrammen erfassen: (2) Normiert auf 1 und geteilt durch die bin-Breite 5000 Erfassungen(2) 150 – 210 cm in 15 bins Institute of Experimental Particle Physics (IEKP) Zufallsvariable & Wahrscheinlichkeitsdichte ● ● ● 7 Für unsere weiteren Betrachtungen stellen Sie sich die Erfassung der Körpergröße von 5000 männlichen Einwohnern über 18 Jahre in Karlsruhe vor. ist eine (kontinuierlich verteilte) Zufallsvariable, deren Wert jeweils der Ergebnis eines Zufallsexperiments ist. Mit Hilfe der Methoden, die Sie in der letzten Vorlesung kennengelernt haben können sie die Meßreihe in Form von Histogrammen erfassen: (2) Normiert auf 1 und geteilt durch die bin-Breite 5000 Erfassungen(2) 5000 Erfassungen 150 – 210 cm in 45 bins 150 – 210 cm in 15 bins Institute of Experimental Particle Physics (IEKP) Zufallsvariable & Wahrscheinlichkeitsdichte ● ● ● 8 Für unsere weiteren Betrachtungen stellen Sie sich die Erfassung der Körpergröße von 5000 männlichen Einwohnern über 18 Jahre in Karlsruhe vor. ist eine (kontinuierlich verteilte) Zufallsvariable, deren Wert jeweils der Ergebnis eines Zufallsexperiments ist. Mit Hilfe der Methoden, die Sie in der letzten Vorlesung kennengelernt haben können sie die Meßreihe in Form von Histogrammen erfassen: (2) Normiert auf 1 und geteilt durch die bin-Breite 5000 Erfassungen(2) 5000 Erfassungen 150 – 210 cm in 90 bins 5000 Erfassungen 150 – 210 cm in 45 bins 150 – 210 cm in 15 bins Institute of Experimental Particle Physics (IEKP) Zufallsvariable & Wahrscheinlichkeitsdichte ● ● ● ● 9 Für unsere weiteren Betrachtungen stellen Sie sich die Erfassung der Körpergröße von 5000 männlichen Einwohnern über 18 Jahre in Karlsruhe vor. ist eine (kontinuierlich verteilte) Zufallsvariable, deren Wert jeweils der Ergebnis eines Zufallsexperiments ist. Mit Hilfe der Methoden, die Sie in der letzten Vorlesung kennengelernt haben können sie die Meßreihe in Form von Histogrammen erfassen: 5000 Erfassungen(2) 5000 Erfassungen 150 – 210 cm in 90 bins 5000 Erfassungen 150 – 210 cm in 45 bins 150 – 210 cm in 15 bins Wahrscheinlichkeitsdichte: (2) Normiert auf 1 und geteilt durch die bin-Breite Institute of Experimental Particle Physics (IEKP) Wahrscheinlichkeitsdichte Wahrscheinlichkeitsdichte Ist eine kontinuierliche verteilte Zufallsvariable und die Wahrscheinlichkeitsverteilung über der Ergebnisraum stetig in differenzierbar dann bezeichnen wir: Als Wahrscheinlichkeitsdichtefunktion von . Wahrscheinlichkeitsdichte 10 kumulative Wahrscheinlichkeitsdichte Institute of Experimental Particle Physics (IEKP) NB: ● Beachten Sie: die Wahrscheinlichkeit für das Ereignis erhalten Sie nicht als sondern aus den Integral: Wahrscheinlichkeitsdichte 11 kumulative Wahrscheinlichkeitsdichte Institute of Experimental Particle Physics (IEKP) NB: ● Beachten Sie: die Wahrscheinlichkeit für das Ereignis erhalten Sie nicht als sondern aus den Integral: NNB: Wahrscheinlichkeitsdichten können kontinuierlich oder diskret verteilt sein. Im diskreten Fall ersetze jedes Integral durch eine Summe über den endlichen Ergebnisraum. Wahrscheinlichkeitsdichte 12 kumulative Wahrscheinlichkeitsdichte Institute of Experimental Particle Physics (IEKP) Quantilen Zur Charakterisierung der kumulativen Wahrscheinlichkeitsdichte: Quantile(α) ● 210 ● Quantil der Ordnung ( -Punkt): (Umkehrfunktion von 200 ● 190 Beispiele: ● Median ( ● Rankings von Klausurergebnissen. 180 ● ). Hypothesen-Tests (z.B. auch in Qualitätskontrollen). 170 160 150 0 13 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1 α Institute of Experimental Particle Physics (IEKP) ) Lagemaß Charakterisierung der Wahrscheinlichkeitsdichte: p(x) ● 1 (3) ● Modus 0.9 Maximum der Verteilung (= wahrscheinlichster Wert) → einfach. Median 0.8 Modus: Erwartungswert 0.7 ● Median ( ): Gleich viele Werte, , größer als auch kleiner als → robust. 0.6 0.5 ● 0.4 0.2 ● 0.1 14 ): Abgeschätzt durch das arithmetische Mittel. 0.3 0 0 Erwartungswert ( 0.5 1 1.5 2 2.5 (3) Beispiel: Log-Normalverteilung (siehe Folie XY). 3 3.5 4 4.5 Das Beispiel auf der rechten Seite zeigt: diese drei Maße müssen nicht gleich sein. 5 x Institute of Experimental Particle Physics (IEKP) Erwartungswert ● Bekannteste Größe zur Charakterisierung der Wahrscheinlichkeitsdichte: (kontinuierlich) ● Bemerkungen: ● 15 (diskret) für eine vorgegebene Wahrscheinlichkeitsdichte (-verteilung) ist eine Zahl und keine Funktion von (andere gänige Bezeichnungen auch: , ). ● Verallgemeinerung: Erwartungswert einer Funktion ● Erwartungswert ist linear in x: Institute of Experimental Particle Physics (IEKP) Algebraische Momente - Varianz ● Verallgemeinerung des Erwartungswertes: n-tes (algebraisches) Moment um ● Spezialfall: ● 0-tes Moment: ● 1-tes Moment: ● 2-tes Moment: (Varianz) ● 16 heißt Standardabweichung. Institute of Experimental Particle Physics (IEKP) Mehrdimensionale Verteilungen ● Der Ausgang einer Messung kann durch mehrere Zufallsgrößen charakterisiert sein (z.B. Körpergröße und Alter). In diesem Fall ist auch die Wahrscheinlichkeitsdichte mehrdimensional. ● : : (4) (Normierung) (kumulativ ) 17 (4) Für diskrete Verteilung ersetze Integrale durch Summen. A B Institute of Experimental Particle Physics (IEKP) Randverteilungen Ausintegrieren einer der Zufallsvariablen: px (x) ● 1 0.9 0.8 (Randverteilung) 0.7 0.6 (kumulativ ) 0.5 0.4 0.3 ● Ausintegrieren von (manchmal unbekannten) Zufallsgrößen: Marginalisierung. Dimension der Wahrscheinlichkeitsdichte in typischen Problemen (z.B. der Teilchenphysik): . 0.1 0 0 py (y) ● 0.2 Im Englischen: maringal distribution. 1 2 0.7 0.6 0.5 0.4 A 0.3 3 4 5 6 7 8 9 10 x Projektion auf x-Achse ● B 0.2 0.1 0 0 1 2 3 4 5 6 7 8 9 10 y Projektion auf y-Achse 18 Institute of Experimental Particle Physics (IEKP) Bedingte Wahrscheinlichkeit (2d) ● Integration in einem Interval : (Bedingte W'dichte) ● ● ● 19 Das Bsp rechts zeigt, daß sich für und verschiedene Wahrscheinlichkeitsdichten ergeben können. Als Verallgemeinerung zum 1-dim Fall gilt für die Randverteilung: Sind die zwei Zufallsvariablen und unabhängig, dann gilt für die Wahrscheinlichkeitsdichte: Institute of Experimental Particle Physics (IEKP) Kovarianz ● Zur Beschreibung der Beziehung zweier Variablen zueinander führen wir die Kovarianz analog zur Varianz ein: (Varianz ) (Kovarianz) ● Bemerkungen: heißt Kovarianzmatrix. ● ● ● ● 20 is symmetrisch (d.h. es gibt immer eine Hauptachsentransformation ). heißt Korrelationskoeffizient. nimmt Werte in also . (5) Siehe letzte Anmerkung der voherigen Folie. an. Für unabhängige Zufallsvariablen gilt: (5) Institute of Experimental Particle Physics (IEKP) Korrelation (anschaulich) Positive Korrelation: Negative Korrelation: Welche Korrelation? 21 Institute of Experimental Particle Physics (IEKP) Korrelation (anschaulich) Positive Korrelation: Negative Korrelation: Keine Korrelation!(6) 22 (6) Analog zum Erwartungwert (siehe Tafelbild...). Institute of Experimental Particle Physics (IEKP) Korrelation (anschaulich) Positive Korrelation: Negative Korrelation: ● ● Unkorreliert Korreliert ● Keine Korrelation! kausal verknüpft! Korrelation kann zufällig sein. ● möglich. ● möglich. ● 23 unabhängig! möglich. Institute of Experimental Particle Physics (IEKP) Funktionen von Zufallsvariablen ● ● Nehmen Sie an die Wahrscheinlichkeitsdichte für die Zufallsvariable bekannt. Wie sieht die Wahrscheinlichkeitsdichte für eine Funktion Beispiel: Sie haben den Durchmesser, , eines Kreises gemessen. Für Wie sieht für die Kreisfläche aus? ● 24 sei aus? Erhaltung der Wahrscheinlichkeit: haben Sie ein Modell. Absolutbetrag stellt sicher, daß positiv semi-definit ist. Institute of Experimental Particle Physics (IEKP) Funktionen von Zufallsvariablen ● ● Nehmen Sie an die Wahrscheinlichkeitsdichte für die Zufallsvariable bekannt. Wie sieht die Wahrscheinlichkeitsdichte für eine Funktion Beispiel: Sie haben den Durchmesser, , eines Kreises gemessen. Für Wie sieht für die Kreisfläche aus? ● sei aus? Erhaltung der Wahrscheinlichkeit: haben Sie ein Modell. Absolutbetrag stellt sicher, daß positiv semi-definit ist. Für mehrdimensionale Wahrscheinlichkeitsdichten wird zur Jacobi Matrix: 25 Institute of Experimental Particle Physics (IEKP) Funktionen von Zufallsvariablen ● ● Nehmen Sie an die Wahrscheinlichkeitsdichte für die Zufallsvariable bekannt. Wie sieht die Wahrscheinlichkeitsdichte für eine Funktion Beispiel: Sie haben den Durchmesser, , eines Kreises gemessen. Für Wie sieht für die Kreisfläche aus? ● sei aus? Erhaltung der Wahrscheinlichkeit: haben Sie ein Modell. Absolutbetrag, um sicher zu stellen, daß positiv semi-definit ist. Für mehrdimensional wahrscheinlichkeitsdichten wird zur Jacobi Matrix: 26 Institute of Experimental Particle Physics (IEKP) Gaußsche Fehlerfortpflanzung ● ● Nehmen Sie an Sie hätten einen Vektor, , von Zufallsvariablen, deren Wahrscheinlichkeitsdichten Ihnen nicht bekannt sind. Sie kennen jedoch den Vektor der Erwartungwerte, , und die Kovarianzmatrix, . Wie erhalten Sie eine Abschätzung für ? Nach Taylor-Entwicklung: (Erwartungswert) (Varianz) Und für einen Vektor von Funktionen erhalten Sie die Korrelationsmatrix entsprechend: (Kovarianz) 27 Institute of Experimental Particle Physics (IEKP) Gaußsche Fehlerfortpflanzung ● Wichtige Spezialfälle: ● : (einfacher Fehler von Summen) ● : (einfacher Fehler von Produkten) ● ● ● Für diese Beispiele haben wir die Annahme gemacht, dass bereits in führender Ordnung durch eine Taylor-Entwicklung beschrieben werden kann. Wenn linear ist ist diese Näherung exakt. Sie wird jedoch immer schlechter, je nicht-linearer das Verhalten von wird (Bsp.: ). Im Zweifel Monte Carlo Methoden besser geignet zur Abschätzung von Unsicherheiten und (v.a.) Korrelationen (oft Methode der Wahl in der Praxis). , : (binomische Fehlerfortpflanzung) Wenn Sie die Fehlerrechnung selbst machen wollen, vergewissern sie sich, daß und unkorreliert sind (was ist ihre jeweilige Bedeutung?). Wenden Sie dann die Fehlerrechnung stur an. Berechnen Sie auch den Korrelationskoeffizienten zwischen und . 28 Institute of Experimental Particle Physics (IEKP) Zusammenfassung Kapiel 3.3: Charakterisierung von Wahrscheinlichkeitsverteilungen 29 ● Zufallsvariablen und Wahrscheinlichkeitsdichten. ● Charakterisierung durch Quantilen, Lagemaß. ● Erwartungswert, algebraische Momente, Varianz. ● Mehrdimensionale Wahrscheinlickeitsdichten, Kovarianz, Korrelationen. ● Funktionen von Zufallsvariablen, Gaußsche Fehlerfortpflanzung. Institute of Experimental Particle Physics (IEKP) Kapiel 3.4: Beispiele gängiger Wahrscheinlichdichteverteilungen 30 Institute of Experimental Particle Physics (IEKP) Uniforme Verteilung Gleichverteilte Zufallszahlen (jeder Wert unabhängig & gleichwertig): U(x) ● 0.8 [4.0 , 6.0] [3.0 , 7.0] [2.0 , 8.0] [1.0 , 9.0] 0.7 (Erwartungswert) 0.6 0.5 (Varianz) 0.4 ● 0.3 NB: jede beliebig verteilte Zufallsvariable läßt sich auf eine uniform verteilte Zufallsvariable transformieren. 0.2 0.1 0 0 1 2 ● (für ) ● 31 3 4 5 6 7 8 9 10 x Jeder Beginn einer Mote Carlo Integration. Allgemeinster prior einer Bayesianischen likelihood Institute of Experimental Particle Physics (IEKP) Abschätzung. Exponentialverteilung Differenz von Zufallszahlen gleichverteilt (jede Differenz(!) unabhängig & gleichwertig): exp(x, λ) ● 1 λ=0.5 0.9 λ=1.0 λ=2.0 0.8 (Erwartungswert) 0.7 (Varianz) 0.6 λ=5.0 0.5 ● NB: Klassisches Beispiel: radioaktiver Zerfall. In diesem Bild entspricht der Lebensdauer des Präparats. 0.4 0.3 0.2 0.1 0 0 32 1 2 3 4 5 6 7 8 9 10 x Institute of Experimental Particle Physics (IEKP) Exponentialverteilung Differenz von Zufallszahlen gleichverteilt (jede Differenz(!) unabhängig & gleichwertig): exp(x, λ) ● 1 λ=0.5 0.9 λ=1.0 λ=2.0 0.8 (Erwartungswert) 0.7 (Varianz) 0.6 λ=5.0 0.5 ● 0.4 NB: Klassisches Beispiel: radioaktiver Zerfall. In diesem Bild entspricht der Lebensdauer des Präparats. Alle Differenzen gleich und „klein“. 0.3 0.2 0.1 0 0 1 2 3 4 5 6 7 8 9 10 x Alle Differenzen gleich und „groß“. 33 Institute of Experimental Particle Physics (IEKP) Binomialverteilung Günstige/mögliche Ereignisse (jeder Wert unabhängig aber nicht mehr gleichwertig): B(p, n, k) ● (Erwartungswert) (Varianz) 0.5 p=0.5, n=5 p=0.5, n=10 p=0.5, n=20 p=0.5, n=30 0.45 0.4 0.35 0.3 0.25 ● NB: Verteilung von nicht mehr gleich sondern folgt Wahrscheinlichkeit . 0.2 0.15 0.1 0.05 0 0 34 2 4 6 8 10 12 14 16 18 20 k Institute of Experimental Particle Physics (IEKP) Poissonverteilung Günstige/mögliche Ereignisse (jeder Wert unabhängig aber nicht mehr gleichwertig): P(μ, k) ● 0.3 μ=2.0 μ=5.0 μ=10.0 μ=25.0 0.25 (Erwartungswert) 0.2 (Varianz) 0.15 ● NB: entspricht Binomialverteilung im Grenzwert , (Beweis, siehe nächste Folie). 0.1 0.05 0 0 35 5 10 15 20 25 30 35 40 45 50 k Institute of Experimental Particle Physics (IEKP) Binomial- ↔ Poissonverteilung 36 Institute of Experimental Particle Physics (IEKP) Zentraler Grenzwertsatz Betrachte einen Ereignisraum mit unbabhängigen Zufallsvariablen (=Experimentausgängen) der Länge . Die mögen dabei einer beliebigen(!) identischen Wahrscheinlicheitsverteilung mit endlichem Erwartungswert und endlicher Varianz folgen. Dann folgt die Zufallsvariable für den Grenzübergang und Varianz . 37 einer Normalverteilung mit Erwartungwert Institute of Experimental Particle Physics (IEKP) 0.2 Binomialverteilung: P(μ, k) B(p, n, k) Zentraler Grenzwertsatz (in action) B(p, n, k) φ(x=k, μ=10, σ 2=9) 0.18 0.2 0.16 0.14 0.14 0.12 0.12 0.1 0.1 0.08 0.08 0.06 0.06 0.04 0.04 0.02 0.02 2 4 6 8 10 12 14 P(μ, k) φ(x=k, μ=10, σ 2=10) 0.18 0.16 0 0 Poissonverteilung: 16 18 20 k 0 0 2 4 6 8 10 12 14 16 18 20 k Normalverteilung (universell!) 38 Institute of Experimental Particle Physics (IEKP) Normalverteilung Summe vieler, unabhängiger, identisch verteilter Messungen: φ(x, μ, σ ) ● 1 μ=0.0, σ =0.5 μ=0.0, σ =1.0 μ=0.0, σ =2.0 μ=1.0, σ =1.0 0.9 0.8 (Erwartungswert) 0.7 (Varianz) 0.6 0.5 0.4 0.3 0.2 0.1 0 -5 39 -4 -3 -2 -1 0 1 2 3 4 5 x Institute of Experimental Particle Physics (IEKP) Log-Normalverteilung Produkt vieler, unabhängiger, identisch verteilter Messungen: f(x, σ , μ) ● 1 μ=0.0, σ =0.5 μ=0.0, σ =1.0 μ=0.0, σ =1.5 μ=1.0, σ =1.0 0.9 0.8 (Erwartungswert) 0.7 (Varianz) 0.6 0.5 ● NB: Variablensubstitution: 0.4 0.3 0.2 führt Log-Normalverteilung in Normalverteilung über: 40 0.1 0 0 0.5 1 1.5 2 2.5 3 3.5 4 4.5 5 x Institute of Experimental Particle Physics (IEKP) -Verteilung Der Logarithmus der Normalverteilung ist (bis auf eine Konstante) χ2 (x, n) ● (Gammafunktion) (Erwartungswert) (Varianz) verteilt: 0.5 n=1 0.45 n=2 n=5 0.4 n=10 0.35 0.3 0.25 0.2 ● NB: Die Summe der Quadrate von verteilten Zufallsgrößen 0.15 normal- 0.1 0.05 0 0 ist -verteilt. Die Zahl heißt Freiheitsgrad. Sie entspricht der Anzahl unabhängiger Normalverteilungen. 41 2 4 6 8 10 12 14 16 18 20 x Institute of Experimental Particle Physics (IEKP) Kapiel 3.4: Beispiele gängiger Wahrscheinlichdichteverteilungen ● ● ● 42 Uniforme Verteilung, Exponentialverteilung (→ jeder Experimentausgang gleichwertig). Binomialverteilung, Poissonverteilung (→ unterscheide günstige/mögliche Experimentausgänge). Normalverteilung, Log-Normalverteilung, -Verteilung (→ viele unabhängige Messungen mit einem bestimmten Ausgang, in einem bestimmten Intervall ). Institute of Experimental Particle Physics (IEKP)