Statistik und Datenanalyse

Werbung
Statistik und Datenanalyse
Zusammenfassung zum Vortrag von Oliver Zaufke, 31.10.2011
1 Verteilungen, Zentraler Grenzwertsatz, Gesetz der Großen Zahl
• Verteilungen beschreiben das Verhalten von Zufallsvariablen
• Unterscheidung zwischen diskreten und stetigen Verteilungen
• Bspe für diskrete Verteilungen sind: Binomialverteilung (n-maliger Münzwurf), Hypergeometrische Verteilung
(Ziehen aus einer Urne ohne Zurücklegen), Poissonverteilung (radioaktiver Zerfall, Geigerzähler). Insbesondere
ergibt sich die Poissonverteilung aus der Binomialverteilung durch gleichzeitiges Minimieren bzw. Maximieren
der Erfolgswahrscheinlichkeit bzw. der Anzahl der Ziehungen um denselben Faktor.
• Bspe für stetige Verteilungen sind: Normalverteilung, Cauchyverteilung (Betrachtung optischer Spektren)
• Der Normalverteilung kommt eine besonders wichtige Rolle zu:
Satz (Zentraler Grenzwertsatz) Seien X1 , X2 , ... u.i.v. (unabhängig und identisch
verteilte) Zufallsvariablen mit
P
µ := E[X1 ] ∈ R und σ 2 := V ar[X1 ] ∈ (0, ∞). Für n ∈ N sei Sn∗ := √σ12 n ni=1 (Xi − µ).
n→∞
Dann gilt PSn∗ −−−−→ N0,1 schwach.
Insbesondere lässt sichP
unter den Voraussetzungen des ZGS ein starkes Gesetz der Großen Zahl (GGZ) ableiten,
n
d.h. es gilt: limn→∞ n1 i=1 Xi = E[X1 ] = µ f.s. (fast sicher)
• Standardproblem in der Physik: Schätzen von Mittelwerten
• Frage: Ist das arithmetische Mittel auch für andere Verteilungen als der Normalverteilung ein guter“ Schätzer
”
für den Mittelwert?
2 Schätzung von Parametern
• Möglichst genaue Ergebnisse aus unvermeidlich fehlerbehafteten Messungen ausarbeiten ( bestmögliche“ Schätz”
ung einer oder mehrerer Parameter; dabei ist ein Schätzer selbst wieder eine Zufallsvariable)
• Statistische und systematische Fehler
• Allgemeine Kriterien für den Schätzwert X̂ und den wahren Wert X0 :
1. Konsistenz: limn→∞ X̂ = X0
2. Erwartungstreue: E[X̂] = X0
3. Effektivität: Kleine Varianz von X̂
4. Robustheit: Schätzer soll robust ggü. falschen Daten und Voraussetzungen sein
Pn
• Bsp.: Stichprobenmittel X̂ := n1 i=1 Xi für X1 , X2 , ... u.i.v. mit µ := E[X1 ] ∈ R und σ 2 := V ar[X1 ] ∈ R+ als
Schätzer für den Mittelwert
• Stichprobenmittel für die Cauchyverteilung ist ungeeignet _ Abhilfe durch Median, getrimmter Mittelwert
• Effiziente und robuste Schätzung vom Mittelwert
• Bspe: Normalverteilung mit Anteil einer Cauchyverteilung, Gleichverteilung
• Zwei nützliche Schätzer sind: Maximum-Likelihood-Schätzer und die Methode der kleinsten Quadrate
1
2.1 Maximum-Likelihood-Methode
• Gegeben: Stichprobe mit n Werten x1 , .., xn mit bekannter Wahrscheinlichkeitsdichte f (x|a) und zu schätzendem
Parameter a
• Berechne
Qnund maximiere die Maximum-Likelihood-Funktion:
Pn
L(a) = i=1 f (xi |a) oder minimiere alternativ die Funktion F (a) = − i=1 ln f (xi |a)
• Konsistenz und asymptotische Erwartungstreue, Effizienz
• Auch geeignet für kleine Zählraten bzw. verzerrter/schiefer Verteilung
• Nachteil: hoher Rechenaufwand, a priori Kenntnisse über die Wahrscheinlichkeitsdichte
• Bspe und Anwendungen der Maximum-Likelihood-Methode: Mittelwert einer Poissonverteilung, Mittelwert einer Gaußverteilung, Mittelwert und Varianz der Binomialverteilung, Intervallschätzung einer Gleichverteilung,
Schätzung der Größe N einer Population (Hypergeometrische Verteilung)
2.2 Methode der kleinsten Quadrate
• Wähle zu gegebenen Daten y1 , ...yn eine theoretische Modellfunktion, die gegenfalls von m Parametern a1 , ..., am
abhängt und das Verhalten der Messdaten beschreibt
• Berechne ȳi = f (xi , a1 , ...am )
• Minimiere
Pn die Summe der Quadrate der Korrekturen (Differenzen zwischen Daten und Modell=Residuen), d.h.
S = i=1 (ȳi − yi )2 = Minimum
• Lineare kleinste Quadrate _ Zurückführung auf Lösung eines linearen Gleichungssystems (Inversion einer Matrix)
• Für symmetrische Verteilungen: Konsistenz und Erwartungstreue, (Effizienz)
• Für kleine Zählraten, z.B. bei der Poissonverteilung, jedoch untauglich, weil unsymmetrisch und somit nicht
erwartungstreu
• Vergleich der Maximum-Likelihood-Methode und der Methode der kleinsten Quadrate anhand einer Simulation
des Myonenzerfalls
Im Folgenden untersuchen wird diese Methode genauer. Wir führen eine Simulation durch, bei der das Ziel es ist,
den Myonenzerfall in Abhängigkeit der Zeit in einer Kurve aufzutragen. Bekanntermaßen lässt sich diese exponentiell
darstellen via f (t) = N0 · exp(−Γt), wobei N0 und Γ die Parameter sind, die zu schätzen sind. Die Zerfälle selbst sind
poissonverteilt.
Für n = 10000 Zerfälle und einer mittleren Lebensdauer von τ = 10µs erhalten wir:
2
Die schwarze Linie beschreibt die exponentielle Kurve f , die durch die kleinste Quadrate Methode entstanden ist.
Das Ergebnis ist solide, da aufgrund der hohen Zählrate die Poissonverteilung eher normalverteilt ist und die kleinste
Quadrate Methode in diesem Fall ein konsistenter und erwartungstreuer Schätzer ist. Betrachten wir eine kleinere
Zählrate, so ergibt sich ein anderes Resultat:
Für n = 100 Zerfälle und einer mittleren Lebensdauer von τ = 10µs erhalten wir:
Offensichtlich ist in diesem Beispiel die exponentielle Kurve eher linear. Dies liegt daran, dass viele Nullraten in diesem
Experiment vorkommen und die Verteilung stärker poisson- mit einem kleinen Parameter statt gaußverteilt ist. Die
kleinste Quadrate Methode liefert aufgrund der starken Asymmetrie in diesem Fall nicht unbedingt einen konsistenten
bzw. erwartungstreuen Schätzer - das Verfahren versagt hier ungemein. Mit Hilfe der Maximum-Likelihood-Methode
kann dieses Problem behoben werden. Führen wir die Simulation nun auch für die Maximum-Likelihood-Methode
durch, so ergibt sich für n = 10000 und τ = 10µs:
3
Bei hoher Zählrate fällt noch kein signifikanter Unterschied auf und die Verfahren liefern in etwa die gleichen Ergebnisse. Dies liegt daran, dass die Daten annähernd normalverteilt sind und in diesem Fall beide Verfahren die gleichen
Resultate liefern. Betrachten wir nun die kleine Zählrate mit n = 100 und τ = 10µs:
Hier fällt auf, dass die durch die Likelihood-Methode gewonnene Funktion im Vergleich zum Graph der kleinsten
Quadrate Methode bei kleinen Zählraten besser den exponentiellen Zerfall darstellt. Die Likelihood-Methode ist der
kleinsten Quadrate Methode überlegen. Vergleicht man bei beiden Grafiken zum einen P1, d.h. die Anzahl der Zerfälle,
so wird deutlich, dass die kleinste Quadrate Methode mit einem deutlich höheren Fehler und einer höheren Ungenauigkeit versehen ist als die Likelihood-Methode. Bei P2, der mittleren Lebensdauer des Myons, erkennen wir den selben
Effekt.
4
Herunterladen