Datenanalyse (PHY231) Herbstsemester 2015 Olaf Steinkamp 36-J-22 [email protected] 044 63 55763 Vorlesungsprogramm ● ● ● ● ● ● ● ● Einführung, Messunsicherheiten, Darstellung von Messdaten Grundbegriffe der Wahrscheinlichkeitsrechnung und Statistik - Mittelwert, Standardabweichung, Kovarianz und Korrelation Fehlerfortpflanzungsgesetz Wahrscheinlichkeitsverteilungen - diskrete Verteilungen, kontinuierliche Verteilungen - zentraler Grenzwertsatz Monte-Carlo Methode Wahrscheinlichkeitsverteilungen II - Faltung zweier Verteilungen - Verteilungen zweier Variablen Stichproben und Schätzfunktionen - Maximum-Likelihood Methode - Methode der kleinsten Quadrate Interpretation von Messergebnissen - Konfidenzintervalle, Testen von Hypothesen Datenanalyse HS15 Grundbegriffe der Statistik (2) Beispielprogramme im Verzeichnis /disk/puma/da/vorl/stat O. Steinkamp Vorlesungsprogramm ● ● ● ● ● ● ● ● Einführung, Messunsicherheiten, Darstellung von Messdaten Grundbegriffe der Wahrscheinlichkeitsrechnung und Statistik - Mittelwert, Standardabweichung, Kovarianz und Korrelation Fehlerfortpflanzungsgesetz Wahrscheinlichkeitsverteilungen - diskrete Verteilungen, kontinuierliche Verteilungen - zentraler Grenzwertsatz Monte-Carlo Methode Wahrscheinlichkeitsverteilungen II - Faltung zweier Verteilungen - Verteilungen zweier Variablen Stichproben und Schätzfunktionen - Maximum-Likelihood Methode - Methode der kleinsten Quadrate Interpretation von Messergebnissen - Konfidenzintervalle, Testen von Hypothesen Datenanalyse HS15 Grundbegriffe der Statistik (3) Beispielprogramme im Verzeichnis /disk/puma/da/vorl/stat O. Steinkamp Mittelwert einer Verteilung Für eine Verteilung aus N Werten x1, x2, …, xN: ● arithmetischer Mittelwert der Verteilung: N 1 x ≡ ⋅ x N i =1 i ∑ ● geometrischer Mittelwert: x ≡ ● ● N √ x 1⋅x 2⋅x 3⋅...⋅x N Median: die Hälfte aller Werte ist grösser, die Hälfte aller Werte ist kleiner Modus: der am häufigsten vorkommende Wert im folgenden: “Mittelwert” ≡ arithmetischer Mittelwert Datenanalyse HS15 Grundbegriffe der Statistik (4) O. Steinkamp Arithmetischer Mittelwert Mittelwert einer Funktion f(xi) N 1 f≡ ⋅ f (xi) N i =1 ∑ Beispiel: f (x ) = x 2 N 1 f = x = ⋅ x 2i N i =1 2 ⇒ ∑ Gewichteter Mittelwert von N Werten xi mit Gewichten wi N x ≡ ∑i =1 w i⋅x i N ∑i =1 w i Beispiel: für Messungen mit unterschiedlichen Messunsicherheiten σi (Herleitung später): wi = 1 2 σi Mittelwert eines Histogramms mit N Intervallen N x ≡ Datenanalyse HS15 ∑i =1 n i⋅x i N ∑i =1 ni xi : Intervallzentren ni : Anzahl Einträge Grundbegriffe der Statistik (5) Mittelwert des Histogramms = gewichteter Mittelwert der Intervallzentren O. Steinkamp Einfacher und gewichteter Mittelwert Beispiel: Lebensdauer des Neutrons ● Resultate verschiedener Experimente [Quelle: Particle Data Group] ● ältere Messungen haben größere Messunsicherheiten als neuere Messungen ● gewichteter Mittelwert aller Messungen = (886.3 ± 0.9) s ● zum Vergleich: einfacher Mittelwert nlife.py nlife.dat = 891.4 s neuere Messungen einfacher Mittelwert gewichteter Mittelwert mit Unsicherheit # result[s] error[s] 918 14 881 8 937 18 903 13 876 21 877 10 878 30 894 5 888 3 891 9 888 3 888 3 882.6 2.7 889 5 885.4 1.0 887 3 pylab: Befehl average() kann gewichtete Mittelwerte berechnen Datenanalyse HS15 Grundbegriffe der Statistik (6) O. Steinkamp Unsicherheit auf gewichtetem Mittelwert Gewichteter Mittelwert von N Messungen xi mit Messunsicherheiten σi ● Messungen voneinander unabhängig: benutze Gaußsche Fehlerfortpflanzung √∑ ( N σx = i =1 x ⋅σ i xi N ∑ ⇒ x = i =1 N ● 2 ) ( ) 2 σi 1 σ 2 i √∑ ( N xi ∑( i =1 aufgepasst: Gaußsche Fehlerfortpflanzung gilt nicht, wenn die Messungen korreliert sind (z.B. wenn es gemeinsame systematische Messunsicherheiten gibt!) → mehr dazu nächste Woche ⇒ ) σx = i =1 N 1 2 ⋅σ i σi ∑( i =1 1 σ 2 i ) 2 ) = 1 √ N ∑ (1 σ ) i =1 2 i Spezialfall: Messunsicherheit auf allen Messungen gleich, σi = σ für alle i σx = Datenanalyse HS15 1 √ = N ∑ 1σ i =1 σ √N 2 Grundbegriffe der Statistik (7) vgl. Folie 12 O. Steinkamp Mittelwert histogrammierter Daten Beispiel: exponentialverteilte Messwerte (Zerfallszeiten radioaktiver Quelle) expohist.py #!/usr/bin/env python from pylab import * # # generiere exponentialverteilte Werte # N = 10000 meantrue = 53.7 tdata = exponential(meantrue,N) # # Mittelwert der Verteilung # meandata = mean(tdata) # # histogrammiere die Werte # tmin = 0 ; tmax = 600 ; nbins = 100 ni,ti,patch = hist(tdata,nbins,(tmin,tmax)) # # Mittelwert des Histogramms # tbin = ti[0:-1]+ti[1:])/2.0 meanhist = dot(ni,tbin) / sum(ni) ● “wahrer” Mittelwert: 53.7 min ● Mittelwert der Messwerte: 53.6 min ● Mittelwert des Histogramms ● ● ● 100 Intervalle: 10 Intervalle: 3 Intervalle: 53.6 min 59.0 min 105. min aufgepasst: Informationsverlust bei zu groß gewählter Intervallbreite ! Datenanalyse HS15 Grundbegriffe der Statistik (8) O. Steinkamp Vorlesungsprogramm ● ● ● ● ● ● ● ● Einführung, Messunsicherheiten, Darstellung von Messdaten Grundbegriffe der Wahrscheinlichkeitsrechnung und Statistik - Mittelwert, Standardabweichung, Kovarianz und Korrelation Fehlerfortpflanzungsgesetz Wahrscheinlichkeitsverteilungen - diskrete Verteilungen, kontinuierliche Verteilungen - zentraler Grenzwertsatz Monte-Carlo Methode Wahrscheinlichkeitsverteilungen II - Faltung zweier Verteilungen - Verteilungen zweier Variablen Stichproben und Schätzfunktionen - Maximum-Likelihood Methode - Methode der kleinsten Quadrate Interpretation von Messergebnissen - Konfidenzintervalle, Testen von Hypothesen Datenanalyse HS15 Grundbegriffe der Statistik (9) Beispielprogramme im Verzeichnis /disk/puma/da/vorl/stat O. Steinkamp Breite einer Verteilung Streuung der Messwerte = Maß für Messgenauigkeit ● große Messunsicherheit ⇔ Messwerte streuen stark ⇔ breite Verteilung ● kleine Messunsicherheit ⇔ Messwerte streuen wenig ⇔ schmale Verteilung Beispiel: Rekonstruktion von ϒ-Resonanzen in ATLAS / CMS / LHCb ● ϒ(1s),ϒ(2s),ϒ(3s): sehr kurzlebige Teilchen, zerfallen z.B. in zwei Myonen ● messe die Impulse der zwei Myonen und berechne ihre invariante Masse ● für echte ϒ-Zerfälle: invariante Masse = Masse des ϒ(1s), ϒ(2s) oder ϒ(3s) ● Breite der Signalverteilung bestimmt durch Messgenauigkeit des Detektors ϒ(1s) ϒ(2s) ϒ(3s) Datenanalyse HS15 Grundbegriffe der Statistik (10) O. Steinkamp Maße für die Breite einer Verteilung Mittlere Abweichung der Messwerte vom Mittelwert N ● 1 ⋅ | x i− x | N i =1 ∑ Absolutbetrag: unschöne mathematische Behandlung (z.B. Bilden von Ableitung) Statistiker: Varianz der Verteilung N 1 V (x ) ≡ ⋅ ( x i −x )2 N i =1 ● ∑ ● ● okay bzgl. mathematischer Behandlung aber: andere Einheit als Messgröße V (x ) = x2 − x2 es gilt auch (Beweis in den Übungen): Physiker: Standardabweichung der Verteilung σx ≡ Datenanalyse HS15 √ V (x) = √ 1 N N 2 ⋅ ∑ ( xi − x) = i=1 Grundbegriffe der Statistik (11) √ x −x 2 2 O. Steinkamp Standardabweichung Aufgepasst: zwei Definitionen der “Standardabweichung”! σx ≡ in pylab: ● ● ● ● √ N 1 ⋅ ( x i −x )2 N i=1 ∑ sx ≡ std(x,0) √ N 1 ⋅ ( x i − x )2 N −1 i =1 ∑ std(x,1) Definition mit 1 / N gibt die Standardabweichung der gemessenen Verteilung Definition mit 1 / (N-1) gibt einen Schätzwert für die Standardabweichung einer theoretischen Verteilung, die die gemessene Verteilung beschreibt Unterschied für große N vernachlässigbar, aber nicht für kleine N deshalb wichtig: immer angeben, welche Definition Sie verwenden Datenanalyse HS15 Grundbegriffe der Statistik (12) werden wir in ein paar Wochen ausführlich diskutieren O. Steinkamp Standardabweichung einer Verteilung und Unsicherheit auf ihrem Mittelwert Standardabweichung σx der Verteilung ● ist bestimmt durch die Streuung der einzelnen Messwerte um den Mittelwert ● ist ein Maß für die Messunsicherheit auf den einzelnen Messungen ● hängt nicht von der Zahl der Messungen ab Unsicherheit auf dem Mittelwert der Verteilung ● ● ist umso kleiner, je kleiner die Streuung der Messwerte ist nimmt mit zunehmender Anzahl Messungen ab σx = ● N 34 mean 9441.8 std 49.5 dmean 8.5 σx √N vgl. Folie 6 N 34000 mean 9450.1 std 49.8 dmean 0.27 Beispiel: Verteilung gaußverteilter Zufallszahlen, erzeugt mit μ = 9450 und σ = 50 Datenanalyse HS15 Grundbegriffe der Statistik (13) O. Steinkamp Standardabweichung einer histogrammierten Verteilung Histogramm mit N Intervallen Folie 10 σx = √ Folie 4 2 x −x 2 = √ N ∑i =1 ni ⋅ x N ∑i =1 n i 2 i − ( N ∑i =1 n i ⋅ x i N ∑i =1 n i 2 ) xi : Intervallzentren ni : Anzahl Einträge Beispiel: 200 Messungen der Gravitationskonstante (s. letzte Woche) ● Standardabweichung der Verteilung: ● Standardabweichung des Histogramms ● 50 Intervalle: 0.67 sec ● 5 Intervalle: 0.71 sec ● 2 Intervalle: 1.23 sec 0.66 sec wieder: Informationsverlust bei zu groß gewählter Intervallbreite ! Datenanalyse HS15 Grundbegriffe der Statistik (14) O. Steinkamp Vorlesungsprogramm ● ● ● ● ● ● ● ● Einführung, Messunsicherheiten, Darstellung von Messdaten Grundbegriffe der Wahrscheinlichkeitsrechnung und Statistik - Mittelwert, Standardabweichung, Kovarianz und Korrelation Fehlerfortpflanzungsgesetz Wahrscheinlichkeitsverteilungen - diskrete Verteilungen, kontinuierliche Verteilungen - zentraler Grenzwertsatz Monte-Carlo Methode Wahrscheinlichkeitsverteilungen II - Faltung zweier Verteilungen - Verteilungen zweier Variablen Stichproben und Schätzfunktionen - Maximum-Likelihood Methode - Methode der kleinsten Quadrate Interpretation von Messergebnissen - Konfidenzintervalle, Testen von Hypothesen Datenanalyse HS15 Grundbegriffe der Statistik (15) Beispielprogramme im Verzeichnis /disk/puma/da/vorl/stat O. Steinkamp Korrelation und Kovarianz Betrachte statistischen Zusammenhang zwischen zwei Zufallsvariablen ● ● positive Korrelation: Wert einer Variablen nimmt im Mittel zu, wenn der Wert der anderen zunimmt x (x − i x )⋅( y i −y ) (x − i x )⋅( y i <0 −y) >0 negative Korrelation: Wert einer Variablen nimmt im Mittel ab, wenn der Wert der anderen zunimmt y (x − i Kovarianz für N Wertepaare (x1,y1), …, (xN,yN) x )⋅( y i−y ) (x − i x )⋅( y i >0 −y ) <0 x N 1 cov ( x , y ) ≡ ⋅ ( x i − x )( y i −y ) = xy − x y N i =1 ∑ y ● cov (x,y) > 0 für positive Korrelation ● cov (x,y) < 0 für negative Korrelation ● cov (x,y) = 0 wenn keine Korrelation ● Nachteil: Absolutwert hängt von den für x und y gewählten Einheiten ab Datenanalyse HS15 Grundbegriffe der Statistik (16) O. Steinkamp Korrelationskoeffizient Einheitenloses, normiertes Maß für Korrelation zweier Zufallsvariablen ρ ≡ cov ( x , y ) xy − x y = σx σy σx σy -1 ≤ ρ ≤ 1 y ● ρ = 0: keine Korrelation ● ρ > 0: positive Korrelation ● ρ < 0: negative Korrelation ● x ρ = ±1: vollständige Korrelation, Wert von xi legt Wert von yi fest und umgekehrt [aus: Barlow, Statistics] Datenanalyse HS15 Grundbegriffe der Statistik (17) O. Steinkamp Kleine Formelsammlung ● (arithmetischer) Mittelwert einer Verteilung: N N einfach: ● 1 ⋅ x N i =1 i N ∑i =1 2 1/σ i √V ( x ) = √ N 1 ⋅ ( x i − x )2 = N i=1 ∑ √ x2 − x2 Unsicherheit auf dem Mittelwert einer Verteilung: einfach: ● x = 2 xi/σi Standardabweichung einer Verteilung: σx = ● gewichtet: ∑ x = ∑i =1 σx σx = √N gewichtet: Korrelationskoeffizient zweier Variablen: ρ = Datenanalyse HS15 cov ( x , y ) xy − x y = σx σy σx σy Grundbegriffe der Statistik (18) σx = √ 1 N ∑i =1 1 /σ 2i ( -1 ≤ ρ ≤ 1 ) O. Steinkamp Extra: inkompatible Messergebnisse Beispiel: betrachte zwei der Messungen der Neutronlebensdauer (Folie 5) t 2 = (881 ± 8) s ● t 3 = (918 ± 14) s die Ergebnisse sind nicht gut miteinander kompatibel ● ● ; welche Annahme wird hier gemacht ? erwarte aufgrund der angegebenen Messunsicherheiten eine Abweichung von ungefähr √ 14 2 +82 s ≈ 16 s , tatsächlicher Unterschied mehr als doppelt so groß Standardformel ergibt zu kleine Unsicherheit für den gewichteten Mittelwert σt = ● √ 1 s ≈ 7s 2 2 (1/8 )+(1/14 ) deutlich kleiner als der Unterschied zwischen den beiden Einzelmessungen Was tun in solchen Fällen ? ● nehme an, eines der Ergebnisse ist falsch und verwende nur das andere ? ● ● gefährlich und nur mit sehr, sehr guter Begründung zulässig !!!!!! besser: nehme an, dass die angegebenen Messunsichereiten unterschätzt sind und skaliere die Unsicherheit auf dem Mittelwert entsprechend Datenanalyse HS15 Grundbegriffe der Statistik (19) O. Steinkamp Extra: inkompatible Messergebnisse Definiere “chi – Quadrat”: 2 N χ ≡ ∑ i =1 ● ( x i − x )2 σ s. später: “Methode der kleinsten Quadrate” 2 i Messergebnisse xi sollten im Mittel um die angegebene Messunsicherheit σi vom Mittelwert abweichen ⇒ für N Messergebnisse erwarte χ² N–1 ● ● für χ² ≤ N–1: gebe Unsicherheit auf Mittelwert gemäß Standardformel an ● für χ² > N–1: skaliere alle Unsicherheiten mit Korrekturfaktor S = √ χ /(N −1) ● für χ² >> N–1: erfordert spezielle Behandlung (z.B. gebe keinen Mittelwert an) 2 für unser Beispiel: N = 2 ; 2 χ = (881−890)2 (918−890)2 + 2 2 8 14 ⇒ Datenanalyse HS15 = 5.27 ⇒ S = √ 5.27/(2−1) = 2.3 t = (890 ± 2.3⋅ 7) s = (890 ± 16) s Grundbegriffe der Statistik (20) O. Steinkamp