Statistik und Datenanalyse

Statistik und Datenanalyse
Zusammenfassung zum Vortrag von Oliver Zaufke, 31.10.2011
1 Verteilungen, Zentraler Grenzwertsatz, Gesetz der Großen Zahl
• Verteilungen beschreiben das Verhalten von Zufallsvariablen
• Unterscheidung zwischen diskreten und stetigen Verteilungen
• Bspe für diskrete Verteilungen sind: Binomialverteilung (n-maliger Münzwurf), Hypergeometrische Verteilung
(Ziehen aus einer Urne ohne Zurücklegen), Poissonverteilung (radioaktiver Zerfall, Geigerzähler). Insbesondere
ergibt sich die Poissonverteilung aus der Binomialverteilung durch gleichzeitiges Minimieren bzw. Maximieren
der Erfolgswahrscheinlichkeit bzw. der Anzahl der Ziehungen um denselben Faktor.
• Bspe für stetige Verteilungen sind: Normalverteilung, Cauchyverteilung (Betrachtung optischer Spektren)
• Der Normalverteilung kommt eine besonders wichtige Rolle zu:
Satz (Zentraler Grenzwertsatz) Seien X1 , X2 , ... u.i.v. (unabhängig und identisch
verteilte) Zufallsvariablen mit
P
µ := E[X1 ] ∈ R und σ 2 := V ar[X1 ] ∈ (0, ∞). Für n ∈ N sei Sn∗ := √σ12 n ni=1 (Xi − µ).
n→∞
Dann gilt PSn∗ −−−−→ N0,1 schwach.
Insbesondere lässt sichP
unter den Voraussetzungen des ZGS ein starkes Gesetz der Großen Zahl (GGZ) ableiten,
n
d.h. es gilt: limn→∞ n1 i=1 Xi = E[X1 ] = µ f.s. (fast sicher)
• Standardproblem in der Physik: Schätzen von Mittelwerten
• Frage: Ist das arithmetische Mittel auch für andere Verteilungen als der Normalverteilung ein guter“ Schätzer
”
für den Mittelwert?
2 Schätzung von Parametern
• Möglichst genaue Ergebnisse aus unvermeidlich fehlerbehafteten Messungen ausarbeiten ( bestmögliche“ Schätz”
ung einer oder mehrerer Parameter; dabei ist ein Schätzer selbst wieder eine Zufallsvariable)
• Statistische und systematische Fehler
• Allgemeine Kriterien für den Schätzwert X̂ und den wahren Wert X0 :
1. Konsistenz: limn→∞ X̂ = X0
2. Erwartungstreue: E[X̂] = X0
3. Effektivität: Kleine Varianz von X̂
4. Robustheit: Schätzer soll robust ggü. falschen Daten und Voraussetzungen sein
Pn
• Bsp.: Stichprobenmittel X̂ := n1 i=1 Xi für X1 , X2 , ... u.i.v. mit µ := E[X1 ] ∈ R und σ 2 := V ar[X1 ] ∈ R+ als
Schätzer für den Mittelwert
• Stichprobenmittel für die Cauchyverteilung ist ungeeignet _ Abhilfe durch Median, getrimmter Mittelwert
• Effiziente und robuste Schätzung vom Mittelwert
• Bspe: Normalverteilung mit Anteil einer Cauchyverteilung, Gleichverteilung
• Zwei nützliche Schätzer sind: Maximum-Likelihood-Schätzer und die Methode der kleinsten Quadrate
1
2.1 Maximum-Likelihood-Methode
• Gegeben: Stichprobe mit n Werten x1 , .., xn mit bekannter Wahrscheinlichkeitsdichte f (x|a) und zu schätzendem
Parameter a
• Berechne
Qnund maximiere die Maximum-Likelihood-Funktion:
Pn
L(a) = i=1 f (xi |a) oder minimiere alternativ die Funktion F (a) = − i=1 ln f (xi |a)
• Konsistenz und asymptotische Erwartungstreue, Effizienz
• Auch geeignet für kleine Zählraten bzw. verzerrter/schiefer Verteilung
• Nachteil: hoher Rechenaufwand, a priori Kenntnisse über die Wahrscheinlichkeitsdichte
• Bspe und Anwendungen der Maximum-Likelihood-Methode: Mittelwert einer Poissonverteilung, Mittelwert einer Gaußverteilung, Mittelwert und Varianz der Binomialverteilung, Intervallschätzung einer Gleichverteilung,
Schätzung der Größe N einer Population (Hypergeometrische Verteilung)
2.2 Methode der kleinsten Quadrate
• Wähle zu gegebenen Daten y1 , ...yn eine theoretische Modellfunktion, die gegenfalls von m Parametern a1 , ..., am
abhängt und das Verhalten der Messdaten beschreibt
• Berechne ȳi = f (xi , a1 , ...am )
• Minimiere
Pn die Summe der Quadrate der Korrekturen (Differenzen zwischen Daten und Modell=Residuen), d.h.
S = i=1 (ȳi − yi )2 = Minimum
• Lineare kleinste Quadrate _ Zurückführung auf Lösung eines linearen Gleichungssystems (Inversion einer Matrix)
• Für symmetrische Verteilungen: Konsistenz und Erwartungstreue, (Effizienz)
• Für kleine Zählraten, z.B. bei der Poissonverteilung, jedoch untauglich, weil unsymmetrisch und somit nicht
erwartungstreu
• Vergleich der Maximum-Likelihood-Methode und der Methode der kleinsten Quadrate anhand einer Simulation
des Myonenzerfalls
Im Folgenden untersuchen wird diese Methode genauer. Wir führen eine Simulation durch, bei der das Ziel es ist,
den Myonenzerfall in Abhängigkeit der Zeit in einer Kurve aufzutragen. Bekanntermaßen lässt sich diese exponentiell
darstellen via f (t) = N0 · exp(−Γt), wobei N0 und Γ die Parameter sind, die zu schätzen sind. Die Zerfälle selbst sind
poissonverteilt.
Für n = 10000 Zerfälle und einer mittleren Lebensdauer von τ = 10µs erhalten wir:
2
Die schwarze Linie beschreibt die exponentielle Kurve f , die durch die kleinste Quadrate Methode entstanden ist.
Das Ergebnis ist solide, da aufgrund der hohen Zählrate die Poissonverteilung eher normalverteilt ist und die kleinste
Quadrate Methode in diesem Fall ein konsistenter und erwartungstreuer Schätzer ist. Betrachten wir eine kleinere
Zählrate, so ergibt sich ein anderes Resultat:
Für n = 100 Zerfälle und einer mittleren Lebensdauer von τ = 10µs erhalten wir:
Offensichtlich ist in diesem Beispiel die exponentielle Kurve eher linear. Dies liegt daran, dass viele Nullraten in diesem
Experiment vorkommen und die Verteilung stärker poisson- mit einem kleinen Parameter statt gaußverteilt ist. Die
kleinste Quadrate Methode liefert aufgrund der starken Asymmetrie in diesem Fall nicht unbedingt einen konsistenten
bzw. erwartungstreuen Schätzer - das Verfahren versagt hier ungemein. Mit Hilfe der Maximum-Likelihood-Methode
kann dieses Problem behoben werden. Führen wir die Simulation nun auch für die Maximum-Likelihood-Methode
durch, so ergibt sich für n = 10000 und τ = 10µs:
3
Bei hoher Zählrate fällt noch kein signifikanter Unterschied auf und die Verfahren liefern in etwa die gleichen Ergebnisse. Dies liegt daran, dass die Daten annähernd normalverteilt sind und in diesem Fall beide Verfahren die gleichen
Resultate liefern. Betrachten wir nun die kleine Zählrate mit n = 100 und τ = 10µs:
Hier fällt auf, dass die durch die Likelihood-Methode gewonnene Funktion im Vergleich zum Graph der kleinsten
Quadrate Methode bei kleinen Zählraten besser den exponentiellen Zerfall darstellt. Die Likelihood-Methode ist der
kleinsten Quadrate Methode überlegen. Vergleicht man bei beiden Grafiken zum einen P1, d.h. die Anzahl der Zerfälle,
so wird deutlich, dass die kleinste Quadrate Methode mit einem deutlich höheren Fehler und einer höheren Ungenauigkeit versehen ist als die Likelihood-Methode. Bei P2, der mittleren Lebensdauer des Myons, erkennen wir den selben
Effekt.
4