Statistik und Datenanalyse Zusammenfassung zum Vortrag von Oliver Zaufke, 31.10.2011 1 Verteilungen, Zentraler Grenzwertsatz, Gesetz der Großen Zahl • Verteilungen beschreiben das Verhalten von Zufallsvariablen • Unterscheidung zwischen diskreten und stetigen Verteilungen • Bspe für diskrete Verteilungen sind: Binomialverteilung (n-maliger Münzwurf), Hypergeometrische Verteilung (Ziehen aus einer Urne ohne Zurücklegen), Poissonverteilung (radioaktiver Zerfall, Geigerzähler). Insbesondere ergibt sich die Poissonverteilung aus der Binomialverteilung durch gleichzeitiges Minimieren bzw. Maximieren der Erfolgswahrscheinlichkeit bzw. der Anzahl der Ziehungen um denselben Faktor. • Bspe für stetige Verteilungen sind: Normalverteilung, Cauchyverteilung (Betrachtung optischer Spektren) • Der Normalverteilung kommt eine besonders wichtige Rolle zu: Satz (Zentraler Grenzwertsatz) Seien X1 , X2 , ... u.i.v. (unabhängig und identisch verteilte) Zufallsvariablen mit P µ := E[X1 ] ∈ R und σ 2 := V ar[X1 ] ∈ (0, ∞). Für n ∈ N sei Sn∗ := √σ12 n ni=1 (Xi − µ). n→∞ Dann gilt PSn∗ −−−−→ N0,1 schwach. Insbesondere lässt sichP unter den Voraussetzungen des ZGS ein starkes Gesetz der Großen Zahl (GGZ) ableiten, n d.h. es gilt: limn→∞ n1 i=1 Xi = E[X1 ] = µ f.s. (fast sicher) • Standardproblem in der Physik: Schätzen von Mittelwerten • Frage: Ist das arithmetische Mittel auch für andere Verteilungen als der Normalverteilung ein guter“ Schätzer ” für den Mittelwert? 2 Schätzung von Parametern • Möglichst genaue Ergebnisse aus unvermeidlich fehlerbehafteten Messungen ausarbeiten ( bestmögliche“ Schätz” ung einer oder mehrerer Parameter; dabei ist ein Schätzer selbst wieder eine Zufallsvariable) • Statistische und systematische Fehler • Allgemeine Kriterien für den Schätzwert X̂ und den wahren Wert X0 : 1. Konsistenz: limn→∞ X̂ = X0 2. Erwartungstreue: E[X̂] = X0 3. Effektivität: Kleine Varianz von X̂ 4. Robustheit: Schätzer soll robust ggü. falschen Daten und Voraussetzungen sein Pn • Bsp.: Stichprobenmittel X̂ := n1 i=1 Xi für X1 , X2 , ... u.i.v. mit µ := E[X1 ] ∈ R und σ 2 := V ar[X1 ] ∈ R+ als Schätzer für den Mittelwert • Stichprobenmittel für die Cauchyverteilung ist ungeeignet _ Abhilfe durch Median, getrimmter Mittelwert • Effiziente und robuste Schätzung vom Mittelwert • Bspe: Normalverteilung mit Anteil einer Cauchyverteilung, Gleichverteilung • Zwei nützliche Schätzer sind: Maximum-Likelihood-Schätzer und die Methode der kleinsten Quadrate 1 2.1 Maximum-Likelihood-Methode • Gegeben: Stichprobe mit n Werten x1 , .., xn mit bekannter Wahrscheinlichkeitsdichte f (x|a) und zu schätzendem Parameter a • Berechne Qnund maximiere die Maximum-Likelihood-Funktion: Pn L(a) = i=1 f (xi |a) oder minimiere alternativ die Funktion F (a) = − i=1 ln f (xi |a) • Konsistenz und asymptotische Erwartungstreue, Effizienz • Auch geeignet für kleine Zählraten bzw. verzerrter/schiefer Verteilung • Nachteil: hoher Rechenaufwand, a priori Kenntnisse über die Wahrscheinlichkeitsdichte • Bspe und Anwendungen der Maximum-Likelihood-Methode: Mittelwert einer Poissonverteilung, Mittelwert einer Gaußverteilung, Mittelwert und Varianz der Binomialverteilung, Intervallschätzung einer Gleichverteilung, Schätzung der Größe N einer Population (Hypergeometrische Verteilung) 2.2 Methode der kleinsten Quadrate • Wähle zu gegebenen Daten y1 , ...yn eine theoretische Modellfunktion, die gegenfalls von m Parametern a1 , ..., am abhängt und das Verhalten der Messdaten beschreibt • Berechne ȳi = f (xi , a1 , ...am ) • Minimiere Pn die Summe der Quadrate der Korrekturen (Differenzen zwischen Daten und Modell=Residuen), d.h. S = i=1 (ȳi − yi )2 = Minimum • Lineare kleinste Quadrate _ Zurückführung auf Lösung eines linearen Gleichungssystems (Inversion einer Matrix) • Für symmetrische Verteilungen: Konsistenz und Erwartungstreue, (Effizienz) • Für kleine Zählraten, z.B. bei der Poissonverteilung, jedoch untauglich, weil unsymmetrisch und somit nicht erwartungstreu • Vergleich der Maximum-Likelihood-Methode und der Methode der kleinsten Quadrate anhand einer Simulation des Myonenzerfalls Im Folgenden untersuchen wird diese Methode genauer. Wir führen eine Simulation durch, bei der das Ziel es ist, den Myonenzerfall in Abhängigkeit der Zeit in einer Kurve aufzutragen. Bekanntermaßen lässt sich diese exponentiell darstellen via f (t) = N0 · exp(−Γt), wobei N0 und Γ die Parameter sind, die zu schätzen sind. Die Zerfälle selbst sind poissonverteilt. Für n = 10000 Zerfälle und einer mittleren Lebensdauer von τ = 10µs erhalten wir: 2 Die schwarze Linie beschreibt die exponentielle Kurve f , die durch die kleinste Quadrate Methode entstanden ist. Das Ergebnis ist solide, da aufgrund der hohen Zählrate die Poissonverteilung eher normalverteilt ist und die kleinste Quadrate Methode in diesem Fall ein konsistenter und erwartungstreuer Schätzer ist. Betrachten wir eine kleinere Zählrate, so ergibt sich ein anderes Resultat: Für n = 100 Zerfälle und einer mittleren Lebensdauer von τ = 10µs erhalten wir: Offensichtlich ist in diesem Beispiel die exponentielle Kurve eher linear. Dies liegt daran, dass viele Nullraten in diesem Experiment vorkommen und die Verteilung stärker poisson- mit einem kleinen Parameter statt gaußverteilt ist. Die kleinste Quadrate Methode liefert aufgrund der starken Asymmetrie in diesem Fall nicht unbedingt einen konsistenten bzw. erwartungstreuen Schätzer - das Verfahren versagt hier ungemein. Mit Hilfe der Maximum-Likelihood-Methode kann dieses Problem behoben werden. Führen wir die Simulation nun auch für die Maximum-Likelihood-Methode durch, so ergibt sich für n = 10000 und τ = 10µs: 3 Bei hoher Zählrate fällt noch kein signifikanter Unterschied auf und die Verfahren liefern in etwa die gleichen Ergebnisse. Dies liegt daran, dass die Daten annähernd normalverteilt sind und in diesem Fall beide Verfahren die gleichen Resultate liefern. Betrachten wir nun die kleine Zählrate mit n = 100 und τ = 10µs: Hier fällt auf, dass die durch die Likelihood-Methode gewonnene Funktion im Vergleich zum Graph der kleinsten Quadrate Methode bei kleinen Zählraten besser den exponentiellen Zerfall darstellt. Die Likelihood-Methode ist der kleinsten Quadrate Methode überlegen. Vergleicht man bei beiden Grafiken zum einen P1, d.h. die Anzahl der Zerfälle, so wird deutlich, dass die kleinste Quadrate Methode mit einem deutlich höheren Fehler und einer höheren Ungenauigkeit versehen ist als die Likelihood-Methode. Bei P2, der mittleren Lebensdauer des Myons, erkennen wir den selben Effekt. 4