Datenanalyse (PHY231) Herbstsemester 2017 Olaf Steinkamp 36-J-05 [email protected] 044 63 55763 Vorlesungsprogramm ● ● ● ● ● ● ● ● Einführung, Messunsicherheiten, Darstellung von Messdaten Grundbegriffe der Wahrscheinlichkeitsrechnung und Statistik - Mittelwert, Standardabweichung, Kovarianz und Korrelation Fehlerfortpflanzungsgesetz Wahrscheinlichkeitsverteilungen - diskrete Verteilungen, kontinuierliche Verteilungen - zentraler Grenzwertsatz Monte-Carlo Methode Wahrscheinlichkeitsverteilungen II - Faltung zweier Verteilungen - Verteilungen zweier Variablen Stichproben und Schätzfunktionen - Maximum-Likelihood Methode - Methode der kleinsten Quadrate Interpretation von Messergebnissen - Konfidenzintervalle, Testen von Hypothesen Datenanalyse HS17 Grundbegriffe der Statistik (2) Beispielprogramme im Verzeichnis /disk/puma/da/vorl/stat O. Steinkamp Mittelwert einer Verteilung Für eine Verteilung aus N Werten x1, x2, …, xN ● arithmetischer Mittelwert: N 1 x ≡ ⋅ x N i =1 i ∑ ● ● Median: die Hälfte aller Werte ist grösser, die Hälfte aller Werte ist kleiner Modus: der am häufigsten vorkommende Wert im folgenden: “Mittelwert” ≡ arithmetischer Mittelwert Für eine Funktion f (xi) N f ≡ Datenanalyse HS17 1 ⋅ f ( xi ) N i =1 ∑ f ( x) = x Grundbegriffe der Statistik (3) 2 N ⇒ 1 2 f = ⋅ xi N i=1 ∑ O. Steinkamp Gewichteter Mittelwert Gewichteter Mittelwert von N Werten xi mit Gewichten wi N x ≡ ● ∑i =1 w i⋅x i N ∑i =1 w i wichtige Anwendung: gewichteter Mittelwert von N voneinander unabhängigen Messungen mit unterschiedlichen Messunsicherheiten σi 1 wi = ● 2 σi Herleitung später Mittelwert eines Histogramms mit N Intervallen: N x ≡ ∑i =1 n i⋅x i N ∑i =1 ni xi : Intervallzentren ni : Anzahl Einträge Mittelwert des Histogramms = gewichteter Mittelwert der Intervallzentren Datenanalyse HS17 Grundbegriffe der Statistik (4) O. Steinkamp Einfacher und gewichteter Mittelwert Beispiel: 16 Messungen der Lebensdauer des Neutrons arithmetischer Mittelwert gewichteter Mittelwert (mit Unsicherheit) # t[s] dt[s] 918 14 881 8 937 18 903 13 876 21 877 10 878 30 894 5 888 3 891 9 888 3 888 3 882.6 2.7 889 5 885.4 1.0 887 3 ● arithmetischer Mittelwert aller Messungen: 1/16 × Σ ti = 891.4 s ● aber: neuere Messungen präziser als ältere → sollten mehr Gewicht haben ● gewichteter Mittelwert: 1 / Σ(1/σi2) × Σ (ti /σi2) = (886.3 ± 0.9) s [Quelle: Particle Data Group] neuere Messungen nlife.py nlife.dat pylab: Befehl average() kann gewichtete Mittelwerte berechnen Datenanalyse HS17 Grundbegriffe der Statistik (5) O. Steinkamp Unsicherheit auf gewichtetem Mittelwert Gewichteter Mittelwert von N Messungen xi mit Messunsicherheiten σi wi = 1 x = ⇒ σ 2i N ∑( i =1 ● N 1 1 2 σi i =1 ) xi σ 2i ) Messungen voneinander unabhängig: benutze Gaußsche Fehlerfortpflanzung N σx = √ N ∑( i =1 x ⋅σ i xi 2 ) ⇒ σx = √∑ ( i =1 N 1 2 ⋅σ i σi ∑( 1 i =1 ● ∑( × σ 2 i ) 2 = ) 1 √ N ∑ (1 σ ) i =1 2 i Spezialfall: Messunsicherheit auf allen Messungen gleich, d.h. σi = σ für alle i σx = 1 N √∑ i =1 = 1 σ 2 1 √ N× = 1 σ2 σ √N nächste Woche aber aufgepasst: Gaußsche Fehlerfortpflanzung gilt nur, wenn die Messungen voneinander unabhängig sind Datenanalyse HS17 Grundbegriffe der Statistik (6) O. Steinkamp Mittelwert histogrammierter Daten Beispiel: 10'000 exponentialverteilte Messwerte expohist.py #!/usr/bin/env python from pylab import * # # generiere exponentialverteilte Werte # N = 10000 meantrue = 53.7 tmeas = exponential(meantrue,N) # # Mittelwert der Verteilung # meanmeas = mean(tmeas) # # histogrammiere die Werte # tmin = 0 ; tmax = 600 ; nbins = 100 ni,ti,patch = hist(tdata,nbins,(tmin,tmax)) # # Mittelwert des Histogramms # tbin = ti[0:-1]+ti[1:])/2.0 meanhist = dot(ni,tbin) / sum(ni) (Zerfallszeiten radioaktiver Quelle) ● “wahrer” Mittelwert: 53.7 min ● Mittelwert der Messwerte: 53.6 min ● Mittelwert eines Histogramms mit ● ● ● 100 Intervallen: 10 Intervallen: 3 Intervallen: 53.6 min 59.0 min 105. min bei zu groß gewählter Intervallbreite geht Information verloren ! Datenanalyse HS17 Grundbegriffe der Statistik (7) O. Steinkamp Vorlesungsprogramm ● ● ● ● ● ● ● ● Einführung, Messunsicherheiten, Darstellung von Messdaten Grundbegriffe der Wahrscheinlichkeitsrechnung und Statistik - Mittelwert, Standardabweichung, Kovarianz und Korrelation Fehlerfortpflanzungsgesetz Wahrscheinlichkeitsverteilungen - diskrete Verteilungen, kontinuierliche Verteilungen - zentraler Grenzwertsatz Monte-Carlo Methode Wahrscheinlichkeitsverteilungen II - Faltung zweier Verteilungen - Verteilungen zweier Variablen Stichproben und Schätzfunktionen - Maximum-Likelihood Methode - Methode der kleinsten Quadrate Interpretation von Messergebnissen - Konfidenzintervalle, Testen von Hypothesen Datenanalyse HS17 Grundbegriffe der Statistik (8) Beispielprogramme im Verzeichnis /disk/puma/da/vorl/stat O. Steinkamp Maße für die Breite einer Verteilung Mittlere Abweichung der Messwerte vom Mittelwert N 1 ⋅ | x i− x | N i =1 ∑ ● unschöne mathematische Behandlung (z.B. beim Bilden von Ableitung) Statistiker: Varianz der Verteilung N 1 2 2 2 V (x) ≡ ⋅ ( x i −x ) = x − x N i =1 ∑ ● ● Herleitung: Uebungen okay bzgl. mathematischer Behandlung aber: andere Einheit als Messgröße Physiker: Standardabweichung der Verteilung σx ≡ Datenanalyse HS17 √ V (x ) = √ 1 N N 2 ⋅ ∑ ( xi − x ) = 2 √ x −x 2 i =1 Grundbegriffe der Statistik (9) O. Steinkamp Standardabweichung Aufgepasst: zwei Definitionen der “Standardabweichung”! σx ≡ in pylab: ● ● ● ● √ N 1 ⋅ ( x i −x )2 N i=1 ∑ sx ≡ std(x,0) √ N 1 ⋅ ( x i − x )2 N −1 i =1 ∑ std(x,1) Definition mit 1 / N ist die Standardabweichung der gemessenen Verteilung Definition mit 1 / (N-1) gibt einen Schätzwert für die Standardabweichung der “wahren” Verteilung, die gemessen werden soll Unterschied für große N vernachlässigbar, nicht aber für kleine N deshalb wichtig: immer angeben, welche Definition Sie verwenden Datenanalyse HS17 Grundbegriffe der Statistik (10) keine Angst, wird in ein paar Wochen hoffentlich klar ... O. Steinkamp Standardabweichung einer Verteilung und Unsicherheit auf ihrem Mittelwert Standardabweichung σx der Verteilung ● ist bestimmt durch die Streuung der einzelnen Messwerte um den Mittelwert ● ist ein Maß für die Messunsicherheit auf den einzelnen Messungen ● hängt nicht von der Zahl der Messungen ab Unsicherheit auf dem Mittelwert der Verteilung ● ● ist umso kleiner, je kleiner die Streuung der Messwerte ist 34 9442 49.5 8 nimmt mit zunehmender Anzahl Messungen ab σx = ● N mean std dmean σx √N vgl. Folie 6 N 34000 mean 9450.1 std 49.8 dmean 0.3 Beispiel: Verteilung gaußverteilter Zufallszahlen, erzeugt mit μ = 9450 und σ = 50 Datenanalyse HS17 Grundbegriffe der Statistik (11) O. Steinkamp Standardabweichung einer histogrammierten Verteilung Histogramm mit N Intervallen Folie 9 σx = √ Folie 4 2 x −x 2 = √ N ∑i =1 ni ⋅ x N ∑i =1 n i 2 i − ( N ∑i =1 n i ⋅ x i N ∑i =1 n i 2 ) xi : Intervallzentren ni : Anzahl Einträge Beispiel: 200 Messungen der Gravitationskonstante (s. letzte Woche) ● ● Standardabweichung der Verteilung: 0.66 ×10-11N·m2/kg Standardabweichung des Histogramms mit ● 50 Intervallen: 0.67 ● 5 Intervallen: 0.71 ● 2 Intervallen: 1.23 wieder: Informationsverlust bei zu groß gewählter Intervallbreite ! Datenanalyse HS17 Grundbegriffe der Statistik (12) O. Steinkamp Vorlesungsprogramm ● ● ● ● ● ● ● ● Einführung, Messunsicherheiten, Darstellung von Messdaten Grundbegriffe der Wahrscheinlichkeitsrechnung und Statistik - Mittelwert, Standardabweichung, Kovarianz und Korrelation Fehlerfortpflanzungsgesetz Wahrscheinlichkeitsverteilungen - diskrete Verteilungen, kontinuierliche Verteilungen - zentraler Grenzwertsatz Monte-Carlo Methode Wahrscheinlichkeitsverteilungen II - Faltung zweier Verteilungen - Verteilungen zweier Variablen Stichproben und Schätzfunktionen - Maximum-Likelihood Methode - Methode der kleinsten Quadrate Interpretation von Messergebnissen - Konfidenzintervalle, Testen von Hypothesen Datenanalyse HS17 Grundbegriffe der Statistik (13) Beispielprogramme im Verzeichnis /disk/puma/da/vorl/stat O. Steinkamp Korrelation und Kovarianz Betrachte statistischen Zusammenhang zwischen zwei Zufallsvariablen ● ● positive Korrelation: Wert einer Variablen nimmt im Mittel zu, wenn der Wert der anderen zunimmt x (x − i x )⋅( y i −y ) (x − i x )⋅( y i <0 − y) >0 negative Korrelation: Wert einer Variablen nimmt im Mittel ab, wenn der Wert der anderen zunimmt Kovarianz für N Wertepaare (x1,y1), …, (xN,yN) N cov ( x , y ) ≡ 1 ⋅ ( x i − x )( y i −y ) = xy − x y N i =1 y (x − i x )⋅( y i−y ) (x − i x )⋅( y i >0 −y ) <0 x ∑ ● cov (x,y) > 0 für positive Korrelation ● cov (x,y) < 0 für negative Korrelation ● cov (x,y) = 0 wenn keine Korrelation y Nachteil: Wert für cov (x,y) ≠ 0 hängt von den für x und y gewählten Einheiten ab Datenanalyse HS17 Grundbegriffe der Statistik (14) O. Steinkamp Korrelationskoeffizient Einheitenloses, normiertes Maß für Korrelation zweier Zufallsvariablen ρ ≡ cov ( x , y ) xy − x y = σx σy σx σy -1 ≤ ρ ≤ 1 y ● ρ = 0: keine Korrelation ● ρ > 0: positive Korrelation ● ρ < 0: negative Korrelation ● x ρ = ±1: vollständige Korrelation, Wert von xi legt Wert von yi fest und umgekehrt [aus: Barlow, Statistics] Datenanalyse HS17 Grundbegriffe der Statistik (15) O. Steinkamp Korrelationskoeffizient Einheitenloses, normiertes Maß für Korrelation zweier Zufallsvariablen ρ ≡ -1 ≤ ρ ≤ 1 aber: aufgepasst bei nicht-linearen Zusammenhängen [von: wikipedia.de] ● cov ( x , y ) xy − x y = σx σ y σx σy Datenanalyse HS17 Grundbegriffe der Statistik (16) O. Steinkamp Zusammenfassung ● (arithmetischer) Mittelwert einer Verteilung: N N einfach: ● 1 ⋅ x N i =1 i x = N ∑i =1 2 1/σ i √V ( x ) = √ N 1 ⋅ ( x i − x )2 = N i=1 ∑ √ x2 − x2 Unsicherheit auf dem Mittelwert einer Verteilung: einfach: ● x = 2 xi/σi Standardabweichung einer Verteilung: σx = ● gewichtet: ∑ ∑i =1 σx σx = √N gewichtet: linearer Korrelationskoeffizient zweier Variablen: ρ = Datenanalyse HS17 cov ( x , y ) xy − x y = σx σy σx σy Grundbegriffe der Statistik (17) σx = √ 1 N ∑i =1 1 /σ 2i ( -1 ≤ ρ ≤ 1 ) O. Steinkamp