Statistik und Datenanalyse 1. Wahrscheinlichkeit 2. Wahrscheinlichkeitsverteilungen 3. Monte-Carlo-Methoden 4. Statistische Tests 5. Parameterschätzung 6. Maximum Likelihood 7. Methode der kleinsten Quadrate 8. Statistische Fehler, Konfidenzintervalle, Ausschlussgrenzen K. Desch - Statistik und Datenanalyse SS05 Wahrscheinlichkeit K. Desch - Statistik und Datenanalyse SS05 Wahrscheinlichkeit Kolmogorov-Axiome Mathematische Definition von Wahrscheinlichkeit (damit ist aber noch keine Bedeutung/Interpretation von W. impliziert) Menge S von “Ereignissen” (Stichprobenraum) Jeder Untermenge A von S wird eine reelle Zahl P(A) zugewiesen P(A) = Wahrscheinlichkeit von A so dass gilt 1. für jede Untermenge A von S ist P(A) 0 2. P(S) = 1 3. für disjunkte Untermengen A und B (d.h. für AB=Ø) ist P(AB) = P(A) + P(B) K. Desch - Statistik und Datenanalyse SS05 Wahrscheinlichkeit Folgerungen aus den Kolmogorov-Axiomen P(Ø) = 0 0 P(A) 1 AB P(A) P(B) P(AB) = P(A) + P(B) – P(AB) für das A, das Komplement von A gilt P(A) = 1 – P(A) P(AA) = 1 A und B heißen statistisch unabhängig (oder unkorreliert) genau dann wenn P(AB) = P(A)P(B) Das bedeutet, dass die Zugehörigkeit eines Ereignisses zu A nichts aussagt darüber, ob es auch zu B gehört oder nicht Wichtiges Konzept! K. Desch - Statistik und Datenanalyse SS05 Wahrscheinlichkeit Statistische Unabhängikeit - Beispiele Beispiel 1 (unkorreliert): S = alle Studierenden der Uni Freiburg A = alle männlichen Studierenden der Uni Freiburg B = alle Studierenden die zwischen 1.1. und 30.4. Geburtstag haben A und B sind (vermutlich) unkorreliert, also P(AB) = P(A)P(B) Beispiel 2 (korreliert): S = alle Menschen A = alle Kinder unter 12 Jahren B = alle Menschen unter 150 cm A und B sind (stark) positiv korreliert, d.h. P(AB) > P(A)*P(B) K. Desch - Statistik und Datenanalyse SS05 Wahrscheinlichkeit Statistische Unabhängikeit - Beispiele Beispiel 3: Rutherfordstreuung K. Desch - Statistik und Datenanalyse SS05 Wahrscheinlichkeit Statistische Unabhängikeit - Beispiele Beispiel 4: Rb K. Desch - Statistik und Datenanalyse SS05 Wahrscheinlichkeit Bedingte Wahrscheinlichkeit Wahrscheinlichkeit für A wenn B gegeben ist: P(A|B):= P(A B) P(B) Wahrscheinlichkeit für B wenn A gegeben ist: P(B|A):= P(B A) P(A) Daraus folgt das Bayes-Theorem: P(A|B) P(B) = P(B|A) P(A) Wenn man S in disjunkte Untermengen Ai aufteilt gilt: P(B)=P(B|Ai )P(Ai ) i und mit Bayes-Theorem folgt: P(A|B)= P(B | A) P(A) P(B|Ai )P(Ai ) i K. Desch - Statistik und Datenanalyse SS05 Wahrscheinlichkeit Beispiel zum Bayes Theorem Ein Bluttest diagnostiziert 100% aller Erkrankten P(positiv|erkrankt) = 100% und nur 1% aller gesunden falsch positiv P(positiv|gesund) = 1% Der Anteil der Erkrankten in der Bevölkerung ist 0.2% P(erkrankt) = 0.2% Damit versagt der Test aber in 80 % aller Fälle: P(erkrankt|positiv) = P(positiv|erkrankt)P(erkrankt)/P(gesund) = 100%*0.2%/99.8% = 20% d.h. 80% aller Diagnosen sind falsch positiv. K. Desch - Statistik und Datenanalyse SS05 Wahrscheinlichkeit als Häufigkeit Verbreitetste Interpretation von Wahrscheinlichkeit: relative Häufigkeit eines Ergebnisses einer Messung (Ereignis) im Grenzwert unendlich vieler Wiederholungen dieser Messung Dies ist die Interpretation von Wahrscheinlichkeit - in der Quantenmechanik - in der statistischen Mechanik Die Elemente des Stichprobenraums sind alle möglichen Ergebnisse einer Messung Anzahl der Ergebisse A in n Messungen n n P(A) = lim K. Desch - Statistik und Datenanalyse SS05 Wahrscheinlichkeit als Häufigkeit Probleme mit der Häufigkeitsdefinition Grenzwert kann i.d.R. nicht gebildet werden Abschätzung des Grenzwertes aus n Messungen K. Desch - Statistik und Datenanalyse SS05 Wahrscheinlichkeit Subjektive Wahrscheinlichkeit (Bayes-Statistik) K. Desch - Statistik und Datenanalyse SS05 Wahrscheinlichkeit Wahrscheinlichkeitsdichte Einfachster Fall: Messung kann nur diskrete Werte xi annehmen (z.B. Zählexperiment) f 1 Wahrscheinlichkeit xi zu erhalten: P(xi) =: fi i i Häufig ist ein Messergebnis aber eine kontinuierliche Größe x Wahrscheinlichkeit genau x zu erhalten ist Null Besser: Wahrscheinlichkeit eine Messung im Intervall [x+dx] zu erhalten P([x+dx]) =: f(x) dx f(x) = Wahrscheinlichkeitsdichte mit S f(x)dx 1 f(x) 0 (probability density function, p.d.f.) f(x) ist keine Wahrscheinlichkeit, erst Integration über endlichen Bereich ergibt eine Wahrscheinlichkeit x Kumulative Verteilungsfunktion: F(x) : f(x)dx gibt die Wahrscheinlichkeit an, dass ein Messergebnis kleiner als x ist. K. Desch - Statistik und Datenanalyse SS05 Wahrscheinlichkeit Wahrscheinlichkeitsdichte Wahrscheinlichkeit, dass eine Messung im Intervall [a,b] liegt ist F(b)-F(a) Für diskrete Zufallsvariable ist F(x) : x xi x Beispiel einer Wahrscheinlichkeitsdichtefunktion: i zugehörige kumulative Verteilungsfunktion: K. Desch - Statistik und Datenanalyse SS05 Wahrscheinlichkeit Charakterisierung von Wahrscheinlichkeitsdichten Quantil: x : F(x ) x f(x) dx Median: x 0.5 (50%-Wert) Wahrscheinlichster Wert (most probable value): Maximum vom f(x) Mittelwert (mean value): x x f(x)dx diskrete Verteilung: x xiP(xi ) i K. Desch - Statistik und Datenanalyse SS05 Wahrscheinlichkeit Bestimmung von Wahrscheinlichkeitsdichten Histogramm: Häufigkeitsverteilung von Ereignissen Normiert auf Flächeninhalt = 1: Bin-Inhalt/Bin-Breite ~ f(x) (Im Limes Bin-Breite ->0) K. Desch - Statistik und Datenanalyse SS05 Wahrscheinlichkeit Momente Erwartungswert einer Funktion a(x): E[a] a(x)f(x)dx Für a(x) = x erhält man den Mittelwert E[x] x f(x)dx Die Erwartungswerte von Potenzen von x heißen Momente einer p.d.f. Algebraische Momente: E[xn ] n' n x f(x)dx Zentrale Momente: E[(x ) ] n n n (x ) f(x)dx K. Desch - Statistik und Datenanalyse SS05 Wahrscheinlichkeit Varianz Ein gutes Maß für die Breite einer Verteilung ist die 2 2 Varianz: V[x] x E[(x ) ] 2 (x ) f(x)dx Die Varianz ist das zweite zentrale Moment von f(x), also die mittlere quadratische Abweichung vom Mittelwert. Standardabweichung: x V[x] (gleiche Einheit wie x, ) Für diskrete p.d.f.’s: 2 2 2 2 2 Für die Varianz gilt: V[x] E[(x ) ] E[x ] 2E[x] E[x ] (folgt aus Linearität der Erwartungswerte, wird später nützlich bei der Berechnung von Schätzwerten für die Varianz) K. Desch - Statistik und Datenanalyse SS05 Wahrscheinlichkeit Höhere Momente Schiefe (Skewness): E[(x )3 ] / 3 Mass für die Asymmetrie der Verteilung um den Mittelwert Kurtosis: E[(x )4 ] / 4 3 Ausläufer der Verteilung Breitere Ausläufer als bei Gaussverteilung: > 0 Kürzere Ausläufer als bei Gaussverteilung: < 0 K. Desch - Statistik und Datenanalyse SS05 Wahrscheinlichkeit Mehrere Zufallsvariablen mit gemeinsamer p.d.f. Beispiel: Experiment liefert mehrere Messgrößen Gemeinsame Wahrscheinlichkeitsdichte (hier nur für 2 Variablen): f(x,y) dx dy = Wahrscheinlichkeit, daß x[x,x+dx] und y[y,y+dy] Normierung: S f(x,y) dxdy 1 Individuelle Wahrscheinlichkeitsdichte (“Randverteilung”) für x und y: fx (x) f(x,y) dy fy (y) f(x,y) dx gibt Wahrscheinlichkeitsdichte für x (bzw. y) unabhängig von y (bzw. x) x und y heißen statistisch unabhängig wenn f(x,y) fx (x) fy (y) d.h. x(y) hat immer die gleiche Wahrscheinlichkeitsverteilung, egal wie y(x) eingeschränkt wird K. Desch - Statistik und Datenanalyse SS05 Wahrscheinlichkeit Mehrere Zufallsvariablen mit gemeinsamer p.d.f. Bedingte Wahrscheinlichkeitsdichten: f(x,y) h(y | x) fx (x) g(x | y) f(x,y) fy (y) h(y|x)dxdy ist die Wahrscheinlichkeit, dass ein Ereignis im Intervall [y,y+dy] zu messen, wenn das Ereignis im Intervall [x,x+dx] liegt. K. Desch - Statistik und Datenanalyse SS05 Wahrscheinlichkeit Mehrere Zufallsvariablen mit gemeinsamer p.d.f. Beispiel: Messung der Länge eines Stabes und der Temparatur x = Abweichung von 800mm y = Temparatur in 0C a) 2-dimensionales Histogramm (“scatter-plot”) b) Randverteilung von y (“y-Projektion”) c) Randverteilung von x (“x-Projektion”) d) 2 bedingte Verteilungen von x (s. Bänder in a)) Breite in d) kleiner als in a) x und y sind “korreliert” K. Desch - Statistik und Datenanalyse SS05 Wahrscheinlichkeit Mehrere Zufallsvariablen mit gemeinsamer p.d.f. E[a(x)] a(x)f(x)dx ...dx n Erwartungswert (analog zum 1-dim. Fall) 1 Varianz (analog zum 1-dim. Fall) V[a(x)] a2 (a(x) a )f(x)dx ...dx n 1 wichtig bei mehreren Variablen: Maß für die Korrelation der Variablen: Kovarianz für 2 Variable x,y mit gemeinsamer Wahrscheinlichkeitsdichte f(x,y): cov[x,y] Vxy : E[(x x )(y y )] E[xy] xy ... xy f(x,y)dxdy x y wenn x, y stat. unabhängig (f(x,y) = fx(x)fy(y)) dann ist cov[x,y] = 0 K. Desch - Statistik und Datenanalyse SS05 Wahrscheinlichkeit Mehrere Zufallsvariablen mit gemeinsamer p.d.f. Positive Korrelation: positive (negative) Abweichung von x von x erhöht Wahrscheinlichkeit, dass y positiv (negativ) von seinem Mittelwert y abweicht Entspr. für negative Korrelation. Für die Summe zweier Zufallszahlen x+y gilt V[x+y] = V[x] + V[y] + 2 cov[x,y] cov[xi ,x j ] Vxix j heißt Kovarianzmatrix (symmetrische Matrix) Diagonalelemente: cov[xi ,xi ] V[xi ] 2x i Für unkorrelierte Variablen ist die Kovarianzmatrix diagonal Für alle Elemente der Kovarianzmatrix gilt cov[xi ,x j ] xi x j Normierte Größe: xi x j : cov[x i , x j ] xi x j heißt Korrelationskoeffizient K. Desch - Statistik und Datenanalyse SS05 Wahrscheinlichkeit Mehrere Zufallsvariablen mit gemeinsamer p.d.f. Beispiele für Korrelationskoeffizienten (Einheiten spielen keine Rolle!) K. Desch - Statistik und Datenanalyse SS05 Wahrscheinlichkeit Mehrere Zufallsvariablen mit gemeinsamer p.d.f. Noch ein Beispiel: K. Desch - Statistik und Datenanalyse SS05 Wahrscheinlichkeit Mehrere Zufallsvariablen mit gemeinsamer p.d.f. Noch ein Beispiel: K. Desch - Statistik und Datenanalyse SS05 Wahrscheinlichkeit Charakteristische Funktion Nützliche Größe zur Bestimmung von Momenten: x (k) : E[exp(ikx)] exp(ikx)f(x)dx Charakteristische Funktion bis auf Faktor die Fouriertransformierte von f. Durch Rücktransformation erhält man die Wahrscheinlichkeitsdichte f: 1 f(x) exp(ikx)x (k)dk 2 Für diskrete Zufallsvariablen: x (k) exp(ikxi )P(xi ) i Rücktransformation: i exp(ikb) exp(ika) F(b) F(a) x (k)dk 2 k K. Desch - Statistik und Datenanalyse SS05 Wahrscheinlichkeit Charakteristische Funktion Konkrete Beispiele später… Wichtiger Satz: Die charakteristische Funktion einer Summe von Zufallszahlen ist dem Produkt der charakteristischen Funktionen der einzelnen Zufallszahlen Sei z xi ,dann : z (k) 1(k)...n (k) Also: z (k) ... exp ik xi f1(x1 )...fn (xn )dx1...dxn i i Beweis: exp(ikx1 )f1(x1 )dx1 1(k) exp(ikx n )fn (xn )dxn n (k) ' m Die algebraischen Momente m E[x ] können aus der char. Fkt. leicht berechnet werden: dm dm m m m ' (k) exp(ikx)f(x)dx i x f(x)dx i m x m m k 0 k 0 dk dk K. Desch - Statistik und Datenanalyse SS05 Wahrscheinlichkeit Variablentransformation K. Desch - Statistik und Datenanalyse SS05 Wahrscheinlichkeit Variablentransformation K. Desch - Statistik und Datenanalyse SS05 Wahrscheinlichkeit Faltung K. Desch - Statistik und Datenanalyse SS05 Wahrscheinlichkeit Faltung K. Desch - Statistik und Datenanalyse SS05 Wahrscheinlichkeit Fehlerfortpflanzung K. Desch - Statistik und Datenanalyse SS05 Wahrscheinlichkeit Fehlerfortpflanzung K. Desch - Statistik und Datenanalyse SS05 Wahrscheinlichkeit Fehlerfortpflanzung K. Desch - Statistik und Datenanalyse SS05 Wahrscheinlichkeit Zusammenfassung K. Desch - Statistik und Datenanalyse SS05