Datenanalyse (PHY231) Herbstsemester 2014 Olaf Steinkamp Physik-Institut der Universität Zürich Winterthurerstrasse 190 CH-8057 Zürich [email protected] Büro: 36-J-22 Tel.: 044-635.57.63 Vorlesungsprogramm ● Einführung, Messunsicherheiten, Darstellung von Messdaten ● Grundbegriffe der Wahrscheinlichkeitsrechnung und Statistik - Mittelwert, Standardabweichung, Korrelation, Kovarianzmatrix ● Fehlerfortpflanzungsgesetz ● Wahrscheinlichkeitsverteilungen I - Verteilungen einer Variablen - zentraler Grenzwertsatz ● Monte-Carlo Methode ● Wahrscheinlichkeitsverteilungen II - Faltung zweier Verteilungen - Verteilungen zweier Variablen ● Stichproben und Schätzfunktionen - Maximum-Likelihood Methode - Methode der kleinsten Quadrate ● Interpretation von Messergebnissen - Konfidenzintervalle, Testen von Hypothesen Datenanalyse Statistik (2/22) PHY231 - HS 14 Beispielprogramme im Verzeichnis /disk/puma/da/vorl/stat O.Steinkamp Mittelwert einer Verteilung Für eine Verteilung aus N Werten x1,x2,…,xN: ● arithmetischer Mittelwert der Verteilung: x= ● N ⋅∑ xi i=1 geometrischer Mittelwert: x= ● 1 N N x ⋅x ⋅x 1 2 3 ... x N Median: die Hälfte aller Werte ist grösser, die Hälfte aller Werte ist kleiner ● Modus: der am häufigsten vorkommende Wert im folgenden: “Mittelwert” ≡ Datenanalyse PHY231 - HS 14 arithmetischer Mittelwert Statistik (3/22) O.Steinkamp Arithmetisches Mittel Mittelwert einer Funktion f(xi) f= 1 N N ⋅ ∑ f x i Beispiel: fx = x 2 ⇒ 2 f=x = i=1 1 N N 2 ⋅∑ xi i=1 Gewichteter Mittelwert von N Werten xi mit Gewichten wi N x= ∑i=1 w i⋅x i Beispiel: für mehrere Messungen mit (unterschiedlichen) Messunsicherheiten σi N ∑i=1 wi 2 w i = 1/ i Herleitung später Mittelwert eines Histogramms mit N Intervallen (“bins”) N x= Datenanalyse PHY231 - HS 14 ∑i=1 ni⋅xi N ∑i=1 n i Mittelwert der Intervallzentren xi, gewichtet mit der Anzahl Einträge ni im jeweiligen Intervall Statistik (4/22) O.Steinkamp Mittelwert Daten und Histogramm Beispiel radioaktiver Zerfall (10.000 “Messwerte” am Computer simuliert) from pylab import * ● “wahrer” Mittelwert: 53.7 N = 10000 meantrue = 53.7 t = exponential(meantrue,N) ● Mittelwert der Verteilung: 53.6 meandata = mean(t) ● Mittelwert des Histogramms tmin = 0.0 tmax = 600.0 nbins = 100 ni,xi,pat = hist(t,nbins,(tmin,tmax)) xmid = (xi[0:-1]+xi[1:]) / 2. meanhist = dot(ni,xmid) / sum(ni) raddecay.py Datenanalyse PHY231 - HS 14 ● 100 bins: 53.6 Informations- ● 10 bins: 59.0 verlust durch ● 3 bins: 105. binning ! Statistik (5/22) O.Steinkamp Unsicherheit auf gewichtetem Mittelwert Gewichteter Mittelwert von N Messungen xi mit Messunsicherheiten σi N x = ● N ∑i=1 1/ σ 2i wenn xi statistisch voneinander unabhängig: Gaußsche Fehlerfortpflanzung σx = ● ∑i=1 xi / σ 2i √ N ∑ i=1 ( x xi 2 ⋅σ i ) = 1 N ∑i=1 1/σ 2 i ⋅ √ N ∑ i=1 1 2 ( ) ⋅σ i 2 σi = 1 √ N ∑i=1 1/σ 2i wenn Messunsicherheit auf allen Messungen gleich groß: σi = σ für alle i σx = 1 √ N ∑i=1 1/σ 2 = σ √N vgl. Folie 13 aufgepasst: gilt nur, wenn die xi statistisch voneinander unabhängig sind ! z.B. systematische Unsicherheiten werden durch Wiederholung nicht kleiner Datenanalyse PHY231 - HS 14 Statistik (6/22) O.Steinkamp Einfacher und gewichteter Mittelwert Beispiel: Lebensdauer des Neutrons ● Resultate verschiedener Experimente [Quelle: Particle Data Group] ● gewichteter Mittelwert aller Messungen = (886.3 ± 0.9) s ● zum Vergleich: einfacher Mittelwert = 891.4 s neuere Messungen einfacher Mittelwert gewichteter Mittelwert mit Unsicherheit Datenanalyse PHY231 - HS 14 Statistik (7/22) # result[s] error[s] 918 14 881 8 937 18 903 13 876 21 877 10 878 30 894 5 888 3 891 9 888 3 888 3 882.6 2.7 889 5 885.4 1.0 887 3 O.Steinkamp Einfacher und gewichteter Mittelwert from pylab import * data = np.loadtxt('nlife.dat') tmeas = data[:,0] dmeas = data[:,1] imeas = arange(1,len(tmeas)+1) errorbar(imeas,tmeas,dmeas,fmt='ro') smean = mean(tmeas) wmean,sumw = average(tmeas,weights=1./dmeas**2,returned='True') dwmean = sqrt(1./sumw) hold(True) plot([0,len(imeas)+1],[wmean,wmean],'b-') plot([0,len(imeas)+1],[wmean+dwmean,wmean+dwmean],'b--') plot([0,len(imeas)+1],[wmean-dwmean,wmean-dwmean],'b--') pylab: ● mean berechnet einfachen Mittelwert ● average kann gewichteten Mittelwert berechnen ● help(average) für Hilfe neuere Messungen einfacher Mittelwert gewichteter Mittelwert mit Unsicherheit Datenanalyse PHY231 - HS 14 Statistik (8/22) # result[s] error[s] 918 14 881 8 937 18 903 13 876 21 877 10 878 30 894 5 888 3 891 9 888 3 888 3 882.6 2.7 889 5 885.4 1.0 887 3 O.Steinkamp Mittelwert inkompatibler Messergebnisse Beispiel: betrachte zweite und dritte Messung der Neutronlebensdauer: t 2 = (881 ± 8) s ● t 3 = 918 ± 14 s die Ergebnisse sind nicht miteinander kompatibel: ● ● 2 2 ≈ 16 s voneinander abweichen Standardformel ergibt zu kleine Unsicherheit für gewichteten Mittelwert: t = (890 ± 7 ) s nehme an, eines der Ergebnisse ist falsch und verwende nur das andere ● ● √ 14 +8 tatsächlicher Unterschied ist mehr als doppelt so gross: 918−881 = 37 s Was tun ? ● wird hier gemacht ? erwarte aufgrund der angegebenen Messunsicherheiten, dass die beiden Ergebnisse nicht um viel mehr als ● welche Annahme gefährlich und nur mit sehr, sehr guter Begründung zulässig !!!!!! nehme an, dass die angegebenen Messunsichereiten unterschätzt sind ● skaliere die Unsicherheit auf dem Mittelwert entsprechend Datenanalyse PHY231 - HS 14 Statistik (9/22) O.Steinkamp Mittelwert inkompatibler Messergebnisse Definiere “chi-Quadrat”: 2 N =∑ 2 x i −x mehr später (“Methode 2i der kleinsten Quadrate”) i=1 ● Messergebnisse xi sollten im Mittel um die angegebene Messunsicherheit σi vom Mittelwert abweichen ⇒ für N Messergebnisse erwarte χ² N ● ● χ²/N ≤ 1: gebe Unsicherheit auf Mittelwert gemäß Standardformel an ● χ²/N > 1: skaliere alle Unsicherheiten mit Korrekturfaktor S = 2 /N−1 ● χ²/N » 1: erfordert spezielle Behandlung (z.B. gebe keinen Mittelwert an) für unser Beispiel: 2 = 881−890 8 2 2 2 918−890 14 ⇒ Datenanalyse PHY231 - HS 14 2 = 5.27 ; N = 2 ⇒ S = 5.27 /2−1 = 2.3 t = (890 ± 7 ⋅2.3) s = (890 ± 16) s Statistik (10/22) O.Steinkamp Vorlesungsprogramm ● Einführung, Messunsicherheiten, Darstellung von Messdaten ● Grundbegriffe der Wahrscheinlichkeitsrechnung und Statistik - Mittelwert, Standardabweichung, Korrelation, Kovarianzmatrix ● Fehlerfortpflanzungsgesetz ● Wahrscheinlichkeitsverteilungen I - Verteilungen einer Variablen - zentraler Grenzwertsatz ● Monte-Carlo Methode ● Wahrscheinlichkeitsverteilungen II - Faltung zweier Verteilungen - Verteilungen zweier Variablen ● Stichproben und Schätzfunktionen - Maximum-Likelihood Methode - Methode der kleinsten Quadrate ● Interpretation von Messergebnissen Beispielprogramme im Verzeichnis /disk/puma/da/vorl/stat - Konfidenzintervalle, Testen von Hypothesen Datenanalyse Statistik (11/22) PHY231 - HS 14 O.Steinkamp Breite einer Verteilung Streuung der Messwerte = Maß für Messgenauigkeit ● große Messunsicherheit ⇔ Messwerte streuen stark ⇔ breite Verteilung ● kleine Messunsicherheit ⇔ Messwerte streuen wenig ⇔ schmale Verteilung Beispiel: Rekonstruktion von ϒ-Resonanzen in ATLAS / CMS / LHCb ● ϒ(1s,2s,3s): drei sehr kurzlebige Teilchen, zerfallen z.B. in zwei Myonen ● messe die Impulse der zwei Myonen und berechne ihre invariante Masse ● für echte ϒ-Zerfälle: berechnete invariante Masse = ϒ(1s,2s,3s) Masse ● Breite des Signals bestimmt durch Messgenauigkeit des Detektors ϒ(1s) ϒ(2s) ϒ(3s) Datenanalyse PHY231 - HS 14 Statistik (12/22) O.Steinkamp Standardabweichung einer Verteilung Mittlere Abweichung der Messwerte vom Mittelwert 1 N N ● ⋅ ∑ ∣ x i −x ∣ mathematische Behandlung unschön (z.B. beim Bilden von Ableitungen) i=1 Statistiker: Varianz der Verteilung V x = ● 1 N N 2 ⋅ ∑ x i−x i=1 ● mathematische Behandlung okay ● aber: andere Einheit als Messgröße nützlicher Zusammenhang (Beweis in den Übungen): Vx = x 2 − x 2 Physiker: Standardabweichung der Verteilung σx = Datenanalyse PHY231 - HS 14 √ V (x) = √ 1 N N 2 ⋅ ∑ (x i − x) i=1 Statistik (13/22) O.Steinkamp Unsicherheit auf dem Mittelwert Standardabweichung σx der Verteilung ● bestimmt durch die Streuung der einzelnen Messwerte um den Mittelwert ● ist ein Maß für die Messunsicherheit auf den einzelnen Messungen ● hängt nicht von der Zahl der Messungen ab Unsicherheit auf dem Mittelwert der Verteilung ● ist umso kleiner je kleiner die Messunsicherheit auf den Einzelmessungen ist ● nimmt mit zunehmender Anzahl Messungen ab σx = ● N 34 mean 9441.8 std 49.5 dmean 8.5 σx √N vgl. Folie 6 N 34000 mean 9450.1 std 49.8 dmean 0.27 Beispiel: Verteilung gaußverteilter Zufallszahlen, erzeugt mit μ = 9450 und σ = 50 Datenanalyse PHY231 - HS 14 Statistik (14/22) O.Steinkamp Standardabweichung Aufgepasst: zwei Definitionen der “Standardabweichung”! x = pylab: 1 N N 2 ⋅ ∑ x i −x i=1 sx = std(x,0) 1 N−1 N 2 ⋅ ∑ x i −x i=1 std(x,1) ● Definition mit 1/N gibt die Standardabweichung der gemessenen Verteilung ● Definition mit 1/(N-1) ist der Schätzwert für die Standardabweichung einer theoretischen Verteilung, die der Messung zugrundeliegt ● Unterschied für große N vernachlässigbar, für kleine N aber nicht ● immer angeben, welche Definition Sie verwenden Datenanalyse PHY231 - HS 14 Statistik (15/22) wird später klar werden O.Steinkamp Standardabweichung eines Histogramms Histogramm mit N bins, bin-Zentren xi und ni Einträgen in bin i x = x 2 −x 2 = N ∑i=1 ni ⋅x 2 i N ∑i=1 ni − N ∑i=1 ni ⋅x i N ∑i=1 ni 2 Beispiel: 200 Messungen der Gravitationskonstante (s. letzte Woche) from pylab import * data = loadtxt('gravkonst.dat') xmin = 4.0 xmax = 10.0 nbins = 100 ni,xi,pat = hist(data,nbins,(xmin,xmax)) xmid = (xi[0:-1]+xi[1:]) / 2. meanhist = dot(nh,xmid) / sum(nh) stdhist = sqrt(dot(ni,xmid**2)/sum(ni)-meanhist**2) hold(True) norm = xbin * sum(ni) xth = frange(4,10,0.05) p = [6.67, 0.7] yth = norm*normpdf(xth,p[0],p[1]) plot(xth,yth,'--',) show() ● Standardabweichung Verteilung: 0.66 ● Standardabweichung Histogramm ● 50 bins: 0.67 ● 5 bins: 0.71 ● 2 bins: 1.23 Informationsverlust durch binning ! gravkonst.py Datenanalyse PHY231 - HS 14 Statistik (16/22) O.Steinkamp Full Width at Half Maximum (FWHM) Breite der Verteilung auf halber Höhe des Maximums: ● weniger empfindlich auf “Ausreisser” als die Standardabweichung robusteres Mass für die zentrale Breite der Verteilung ● Beispiel: Altersverteilung in einem Hörsaal (fiktive Werte) 20.2 19.6 20.5 20.6 19.9 21.0 21.0 20.4 20.6 20.5 20.4 20.8 20.2 21.5 20.4 20.5 21.0 20.5 20.4 20.0 20.6 19.8 20.8 21.3 20.1 20.9 Nmax FWHM FWHM Nmax/2 ● 26 Studierende: ● 26 Studierende plus Dozent: Mittelwert = 20.5 Jahre Mittelwert = 21.5 Jahre Standardabweichung = 0.4 Jahre Standardabweichung = 5.0 Jahre Datenanalyse PHY231 - HS 14 Statistik (17/22) O.Steinkamp Vorlesungsprogramm ● Einführung, Messunsicherheiten, Darstellung von Messdaten ● Grundbegriffe der Wahrscheinlichkeitsrechnung und Statistik - Mittelwert, Standardabweichung, Korrelation, Kovarianzmatrix ● Fehlerfortpflanzungsgesetz ● Wahrscheinlichkeitsverteilungen I - Verteilungen einer Variablen - zentraler Grenzwertsatz ● Monte-Carlo Methode ● Wahrscheinlichkeitsverteilungen II - Faltung zweier Verteilungen - Verteilungen zweier Variablen ● Stichproben und Schätzfunktionen - Maximum-Likelihood Methode - Methode der kleinsten Quadrate ● Interpretation von Messergebnissen Beispielprogramme im Verzeichnis /disk/puma/da/vorl/stat - Konfidenzintervalle, Testen von Hypothesen Datenanalyse Statistik (18/22) PHY231 - HS 14 O.Steinkamp Kovarianz und Korrelation Betrachte statistischen Zusammenhang zwischen zwei Zufallsvariablen ● positive Korrelation: Wert einer Variablen nimmt (x − i i im Mittel zu, wenn der Wert der anderen zunimmt ● x )⋅( y −y ) (x − i x )⋅( y i <0 −y ) >0 −y ) <0 negative Korrelation: Wert einer Variablen nimmt im Mittel ab, wenn der Wert der anderen zunimmt (x − i Kovarianz für N Wertepaare (x1,y1), …, (xN,yN) cov (x , y) ≡ 1 N x )⋅( y i−y ) (x − i >0 x )⋅( y i N ⋅ ∑ (x i −x)( y i−y) = xy − x y i=1 ● cov (x,y) > 0 für positive Korrelation ● cov (x,y) < 0 für negative Korrelation ● cov (x,y) = 0 wenn keine Korrelation ● aber: Absolutwert hängt von den für x und y gewählten Einheiten ab Datenanalyse PHY231 - HS 14 Statistik (19/22) O.Steinkamp Korrelationskoeffizient Einheitenloses und normiertes Maß für Korrelation zweier Zufallsvariablen cov(x , y) xy − x y ρ = σ σ = σ σ x y x y mit -1 ≤ ρ ≤ 1 y ● ρ = 0: keine Korrelation ● ρ > 0: positive Korrelation ● ρ < 0: negative Korrelation ● ρ = ±1: vollständige Korrelation, x Wert von xi legt Wert von yi fest (und umgekehrt) [aus: Barlow, Statistics] Datenanalyse PHY231 - HS 14 Statistik (20/22) O.Steinkamp Korrelationskoeffizient Einheitenloses und normiertes Maß für Korrelation zweier Zufallsvariablen cov(x , y) xy − x y ρ ≡ σ σ = σ σ x y x y ● ρ = 0: keine Korrelation ● ρ > 0: positive Korrelation ● ρ < 0: negative Korrelation ● ρ = ±1: vollständige Korrelation, mit -1 ≤ ρ ≤ 1 Wert von xi legt Wert von yi fest (und umgekehrt) [http://de.wikipedia.org/wiki/Datei:Correlation_examples.png] Datenanalyse PHY231 - HS 14 Statistik (21/22) O.Steinkamp Kleine Formelsammlung ● (arithmetischer) Mittelwert einer Verteilung: einfach: ● x = gewichtet: i=1 √ V (x) = Fehler auf dem Mittelwert: einfach: ● N ⋅ ∑ xi x = ∑i=1 xi /σ 2i N ∑i=1 2 1 /σ i Standardabweichung einer Verteilung: σx = ● 1 N N σx = √ 1 N N ⋅ ∑ (x i − x)2 = i=1 σx gewichtet: √N Korrelationskoeffizient zweier Variablen: ρ = Datenanalyse PHY231 - HS 14 cov (x , y ) σxσ y = xy − x y σx σy Statistik (22/22) √x 2 − x2 σx = √ 1 N ∑i=1 1/σ 2i ( -1 ≤ ρ ≤ 1 ) O.Steinkamp