Vorlesungsnummer 2563

Werbung
Praktische Datenanalyse in der Experimentalphysik
(Vorlesungsnummer 2563)
Modulcode: PHY232, Kreditpunkte 2
Dozenten: Frank Lehner und Christian Regenfus
Art und Ort der Veranstaltung: Vorlesung mit Übungen (Mittwoch 14-17h,
36J23)
Zielgruppe: Studierende ab 3. Semester Physik
Einordnung: Die Vorlesung soll die Grundlagen auf dem Gebiet der statistischen
Behandlung und Interpretation von Datenmengen legen und einen Ausblick auf aktuelle
statistische Methoden der Datenanalyse in der Teilchenphysik geben. Die Übungen
werden mit Matlab behandelt und dienen zur Vertiefung. Der vorgehende Besuch der
Datenanalyse Vorlesung (PHY231) im Sommersemester ist empfehlenswert, aber nicht
Bedingung.
Grundkenntnisse: Mathematische Grundkenntnisse wie sie in den ersten Semestern
des Grundstudiums erworben werden. Dazu gehören Vektor- und Matrizenrechnungen,
Differential- und Integralrechnung. Eine Erfahrung im Umgang mit Computern und
insbesondere mit Matlab ist erwünschenswert.
Leistungsnachweis: Beteiligung an Präsenzübungen sowie 50% erreichte Punktzahl bei der Klausur.
Literatur:
• R. Barlow: ”Statistics: A Guide to the Use of Statistical Methods in the Physical
Science” Wiley Verlag.
• B. Roe: ”Probability and Statistics in Experimental Physics.” Springer Verlag.
• V. Blobel und E. Lohrmann: ”Statistische und numerische Methoden in der Datenanalyse.”, Teubner Verlag.
• H. Pruys: http://www.physik.unizh.ch/people/pruys/Datenanalyse.html
1
Contents
1 Grundlegende Konzepte der Wahrscheinlichkeit
1.1 Zufälligkeit . . . . . . . . . . . . . . . . . . . . . . . . . . . .
1.2 Wahrscheinlichkeit . . . . . . . . . . . . . . . . . . . . . . . .
1.2.1 Definition über Häufigkeiten (Frequentistendefinition)
1.2.2 Mathematische Definition . . . . . . . . . . . . . . . .
1.2.3 Definition der Bayesianer . . . . . . . . . . . . . . . .
1.3 A priori Wahrscheinlichkeit . . . . . . . . . . . . . . . . . . .
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
1
1
1
2
2
3
3
2 Definitionen und Datenbeschreibung
2.1 Ereignisraum und Datentypen . . . . . . . . . . . . . . . . .
2.2 Weitere Definitionen . . . . . . . . . . . . . . . . . . . . . .
2.2.1 Die Verteilungsfunktion . . . . . . . . . . . . . . . .
2.2.2 Die diskrete Wahrscheinlichkeit . . . . . . . . . . . .
2.2.3 Die Wahrscheinlichkeitsdichtefunktion . . . . . . . .
2.3 Kombination von Wahrscheinlichkeiten und Bayes’ Theorem
2.4 Histogramme . . . . . . . . . . . . . . . . . . . . . . . . . .
2.5 Mittel- und Erwartungswerte . . . . . . . . . . . . . . . . .
2.6 Die Varianz und Standardabweichung . . . . . . . . . . . .
2.7 Höhere Momente . . . . . . . . . . . . . . . . . . . . . . . .
2.8 Kovarianzen . . . . . . . . . . . . . . . . . . . . . . . . . . .
2.9 Nützliche Ungleichungen . . . . . . . . . . . . . . . . . . . .
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
4
4
4
4
4
4
4
6
7
8
10
11
12
3 Wahrscheinlichkeitsverteilungen
3.1 Diskrete Verteilungen . . . . . . . . . . . . .
3.1.1 Kombinatorik . . . . . . . . . . . . . .
3.1.2 Bernoulli und die Binomial-Verteilung
3.1.3 Multinomialverteilung . . . . . . . . .
3.1.4 Poisson-Verteilung . . . . . . . . . . .
3.2 Kontinuierliche Verteilungen . . . . . . . . . .
3.2.1 Gauss- oder Normalverteilung . . . . .
3.2.2 χ2 -Verteilung . . . . . . . . . . . . . .
3.2.3 Log-Normal-Verteilung . . . . . . . . .
3.2.4 Gamma-Verteilung . . . . . . . . . . .
3.2.5 Student-Verteilung . . . . . . . . . . .
3.2.6 F-Verteilung . . . . . . . . . . . . . .
3.2.7 Weibull-Verteilung . . . . . . . . . . .
3.2.8 Cauchy-Verteilung . . . . . . . . . . .
3.2.9 Uniforme Verteilung . . . . . . . . . .
3.3 Charakteristische Funktion . . . . . . . . . .
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
14
14
14
14
15
17
19
19
21
21
22
22
22
23
23
23
24
4 Fehler
4.1 Der zentrale Grenzwertsatz . . . . . . . . . . . . . . . . . . . . . . . . . . . .
4.2 Arbeiten mit Fehlern . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
4.2.1 Averaging is good for you . . . . . . . . . . . . . . . . . . . . . . . . .
26
26
27
27
i
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
4.3
4.2.2 Mittelwertbildung durch Gewichtung . . .
4.2.3 Fehlerfortpflanzung . . . . . . . . . . . . .
4.2.4 Funktionen einer Veränderlichen . . . . .
4.2.5 Funktionen mit meherern Veränderlichen
Systematische Fehler . . . . . . . . . . . . . . . .
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
5 Monte-Carlo Methoden
27
28
28
28
30
32
6 Stichproben und Schätzungen
6.1 Eigenschaften von Schätzungen . . . . . . . . . . . . . . . . . . . .
6.2 Stichprobenfunktionen für kontinuierliche Verteilungen . . . . . . .
6.2.1 Schätzung des Mittelwerts . . . . . . . . . . . . . . . . . . .
6.2.2 Schätzung der Varianz . . . . . . . . . . . . . . . . . . . . .
6.2.3 Schätzung der Kovarianz . . . . . . . . . . . . . . . . . . .
6.3 Die Maximum-Likelihood Methode . . . . . . . . . . . . . . . . . .
6.3.1 Die Likelihood-Funktion . . . . . . . . . . . . . . . . . . . .
6.3.2 Einfache Anwendungen der Maximum-Likelihood Methode
6.3.3 Eigenschaften der Maximum Likelihood Methode . . . . . .
6.3.4 Fehlerberechnung bei der ML Methode . . . . . . . . . . . .
6.3.5 Erweiterte Maximum-Likelihood-Methode . . . . . . . . . .
6.3.6 Binned Maximum Likelihood . . . . . . . . . . . . . . . . .
6.3.7 Kombination von Messungen mit der ML Methode . . . . .
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
33
33
33
33
34
34
34
34
35
37
38
40
41
41
7 Methode der kleinsten Quadrate - Least Square
43
8 Vertrauensintervalle
44
9 Hypothesentests
45
10 Blindstudien
46
11 Parametrisierung von Daten
11.1 Orthogonale Polynome . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
11.2 Splines . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
47
47
47
12 Entfaltung
48
ii
1
Grundlegende Konzepte der Wahrscheinlichkeit
There are three lies: lies, damned lies and statistics.
(Benjamin Disraeli)
Drei grundlegende Konzepte, die für die Statistik wichtig sind, sollen erläutert werden:
• Zufälligkeit
• Wahrscheinlichkeit
• a priori Wahrsscheinlichkeit
1.1
Zufälligkeit
Ein guter Überblicksartikel über Zufälligkeit in klassischen System ist in J. Fords Artikel
“How random is a coin toss?” in der Zeitschrift Physics Today 40, April 1983 gegeben. Ich
halte mich mit den folgenden Überlegungen eng an seiner Argumentation.
Das klassische Beispiel für Zufälligkeit ist der Münzwurf mit dem Ereignisausgang Kopf
oder Zahl. Da es ein klassisches mechanisches System ist können wir den Ereignisausgang theoretisch mit Bewegungsgleichungen beschreiben. Wir kann aber der Aspekt der Zufälligkeit
aus einem im Prinzip deterministischen System enstehen?
Stellen wir uns daher ein Computerprogramm vor, das die Ereignisfolgen eines Münzwurfes
berechnen soll. Die Gesetze des Wurfes werden in Bewegungsgleichungen beschrieben, die
gewisse Anfangsbedingungen benötigen. Je mehr Münzwürfe wir vorhersagen wollen, um so
genauer müssen die Anfangsbedingungen festgelegt werden, obwohl die Diffferentialgleichungen eigentlich dieselben bleiben. Daher wird ab einer bestimmten Genauigkeit die Länge des
Programms durch die Anzahl der bits der Anfangsbedingungen bestimmt. Wenn aber die
Anzahl der bits in den Anfangsbedingungen die Zahl der Ausgabebits übersteigt, wird das
Computerprogramm unbrauchbar, um zukünftige Ergebnisse vorhersagen zu können. Wir
verlangen daher, um eine vernünftige Vorhersagekraft zu erhalten, dass die Anzahl der bits
im Computerprogramm geringer ist, als die Anzahl der bits in der Ausgabe.
Tatsächlich verlaufen viele physikalische Phänomene nach exponentiellen Gesetzen. Wenn
es also einen exponentiellen Anstieg in der Lösung unseres Problems gibt, müssen die Anfangsbedingungen extrem genau spezifiziert werden, so dass sehr schnell die Anzahl der bits in
den Anfangsbedingunen die Ausgabebits für die vorhergesagte Ereignisfolge Kopf oder Zahl
übersteigt. Typischerweise steigt die bit-Anzahl in den Anfangsbedingungen mit n, während
die Länge der vorhergesagten Ausgabe des Ereignisses nur mit log n wächst. Aus diesem
Grund kann ein Zufallsprozess aus einem klassischen deterministischen System entstehen.
1.2
Wahrscheinlichkeit
Es gibt mehrere Definitionen der Wahrscheinlichkeit. Am formal strengsten ist natürlich die
mathematische Definition, die prinzipiell aber nur Regeln zur Manipulationen mit Wahrscheinlichkeiten beinhaltet. Über die eigentliche Herleitung und Interpretation von Wahrscheinlichkeitsaussagen aus Daten (statistical interference) gibt es zwei prinzipiell unterschiedliche
Auffassungen, die sich in der Interpretation des Wahrscheinlichkeitsbegriffs unterscheiden:
1
die Frequentisten und Bayesianer1 . Wir werden also lernen, dass Wahrscheinlichkeitsrechnungen im streng formalen Sinn Mathematik sind, ihre Anwendungen und Interpretationen
hingegen eher den empirischen Wissenschaften zuzuordnen sind.
1.2.1
Definition über Häufigkeiten (Frequentistendefinition)
Die populärste Definition ist empirischer Natur und basiert auf dem Häufigkeitsbegriff, bzw.
auf dem Grenzwert von relativen Häufigkeiten. Wenn wir N identische Versuche machen, bei
denen das Ereignis E auftreten kann, und dabei n mal das Ereignis E tatsächlich auftritt,
ordnet man dem Ereignis E die Wahrscheinlichkeit p(E) durch die relative Häufigkeit des
Auftretens zu:
n
N →∞ N
Dieses Konzept ist unglaublich nützlich in der Praxis, hat aber einige Probleme:
p(E) = lim
(1.1)
1. Der Grenzwert existiert im strengen mathematischen Sinne nicht. Das liegt daran,
dass es keine deterministische Regel gibt die den Ausgang des Versuches n and den
Ausgang des Versuches n + 1 knüpft. Die Zufälligkeit der Versuche ist doch gerade
unsere Bedingung und ein Grenzwert kann daher im strengen Sinne nicht abgeleitet
werden.
2. Wie erhalten wir N identische Versuche? Langt es, wenn sie nur ähnlich sind? Nach
jedem Münzwurf nutzt sich die Münze etwas ab und sie ist beim i + 1-ten Wurf nicht
mehr identisch zum vorherigen Wurf i.
3. Niemand kann unendlich viele Versuchen durchführen. Wann konvergiert die Serie zum
Grenzwert?
1.2.2
Mathematische Definition
Sei S = E1 , E2 , E3 , . . . ein Satz möglicher Ereignisse eines Zufallsexperiments. Die Ereignisse
sind exklusiv, wenn sie nicht gleichzeitig als Resultat eines Zufallsexperimentes auftreten
können. Für jedes Ereignis Ei gibt es eine reelle Wahrscheinlichkeit p(Ei ), die folgende
Axiome2 (Kolmogorov) erfüllt:
• p(Ei ) ≥ 0
• p(Ei or Ej ) = p(Ei ) + p(Ej ), wenn Ei und Ej exklusiv sind
•
P
p(Ei ) = 1, wobei die Summe über alle möglichen exklusiven Ereignisse läuft.
Daraus kann sofort gefolgert werden, dass p(Ei ) ≤ 1.
Diese axiomatische Definition ist zwar schön aber leider in der Praxis bedeutungslos. Die
Axiome sagen uns nicht worum es bei Wahrscheinlichkeiten geht, was die Zahl p bedeutet
und welche Interpretationen damit einhergehen.
1
Thomas Bayes, Britischer Geistlicher, 1702-1761. Nach ihm ist das sogenannte Bayes’ Theorem benannt.
die Axiome sind in der einen oder anderen Form in vielen Mathematikbüchern zu finden. Wir begnügen
uns hier mit einer vereinfachten Version.
2
2
1.2.3
Definition der Bayesianer
In der Schule der Bayesianer ist die Wahrscheinlichkeit definiert als eine Zahl, die die Plausabilität oder Glaubwürdigkeit einer Feststellung bzw. den Grad der Überzeugtheit von dieser
Feststellung misst. Es macht daher für die Bayesianer Sinn, nach einer Wahrscheinlichkeit
einer Hypothese zu fragen, was im Gegensatz zur Frequentisten-Definition der Wahrscheinlichkeit eigentlich keine Bedeutung hat. Die Bayes-Schule benutzt dieselben kombinatorischen
Regeln im Umgang mit Wahrscheinlichkeitswerten an wie die Frequentisten-Schule. Der
grosse Unterschied liegt darin, dass die Frequentisten Wahrscheinlichkeit als einen Zustand der
Natur interpretieren, während die Bayesianer Wahrscheinlichkeit als einen Zustand unseres
Wissens ansehen, so dass Wahrscheinlichkeiten auch unvermeidbar subjektiv werden. Demnach ist die Wahrscheinlchkeit eines Ereignisses p(E) von der dem Beobachter verfügbaren
Information I über das Ereignis abhängig. Die Funktion p(E) ist also keine echte intrinsische Funktion des Ereignisses, sondern hängt auch vom Wissen und der Information des
Beobachters ab. Erst wenn alle Beobachter dieselbe Information zur Verfügung haben, kann
man von einer objektiven Wahrscheinlichkeit sprechen.
Um die Begriffswelt im Bayesianer besser zu verstehen, folgen wir dem Beispiel aus G.
D’Agostini: A Bayesian Primer:
Was ist die Wahrscheinlichkeit, dass ein Stickstoffmolekül bei Raumtemperatur eine Geschwindigkeit zwischen 400 und 500 m/s hat? Die Antwort ist einfach: Wir nehmen die
Maxwell-Boltzmann Verteilung und integrieren, um eine Zahl zu bekommen. Was ist aber,
wenn wir fragen: Ich gebe Euch einen Behälter, eine Flasche mit Stickstoff sowie einen Detektor, der Geschwindigkeiten messen kann. Ihr müsst aber den Versuch selber aufbauen.
Was ist jetzt die Wahrscheinlichkeit, dass das erste Molekül, welches vom Detektor gemessen
wird, seine Geschwindigkeit zwischen 400 und 500 m/s hat? Jeder, der auch nur minimale
Experimentiererfahrung hat, würde mit einer Antwort zögern. Man würde am Experiment
erst einmal kleinere Studien und Überprüfungen durchführen. Danach würde man vielleicht
eine Antwort präsentieren. Und nachdem 10 Messungen durchgeführt wurden, könnte die
Antwort auf die Frage nach der Wahrscheinlichkeit vielleicht anders lauten.
Die Grundidee ist also, dass die Wahrscheinlichkeit einer Hypothese ein Mass für die
subjektive Überzeugtheit oder für den degree of belief ist. Dieses Überzeugtheitsmass kann
durch spätere experimentelle Messungen verändert werden.
1.3
A priori Wahrscheinlichkeit
Die a priori Wahrscheinlichkeit ist die Wahrscheinlichkeit eines experimentellen Ereignisses,
die vor dem eigentlichen Experimentieren bestimmt oder abgeschätzt wird. Zum Beispiel
wäre 1/6 eine gute a priori Wahrscheinlichkeit für ein Würfelexperiment, dass die Augenzahl
4 auftaucht. Die a priori Wahrscheinlichkeit wird vor allem im Kontext der Bayes-Schule
benötigt, da aus dieser Annahme und vorhandenen Messdaten eine so genannte a posteriori
Wahrscheinlichkeit bestimmt werden kann.
3
2
Definitionen und Datenbeschreibung
Nachfolgend einige Definitionen, die zum allgemeinen Sprachgebrauch der Statistik gehören.
2.1
Ereignisraum und Datentypen
Der Ereignisraum ist die Menge aller möglichen Ausgänge eines Experimentes. Eine Variable, die theoretisch jeden beliebigen Wert zwischen zwei gegebenen Werten im Ereignisraum
annehmen kann, wird stetige oder kontinuierliche Variable genannt. Andernfalls wird sie
diskrete Variable genannt.
Beispiel: Die Anzahl der Medaillen, die ein Land bei den olympischen Spielen holt, ist eine
diskrete Variable. Die Weite beim Speerwerfen ist natürlich eine kontinuierliche Variable.
Die Daten, die durch diskrete oder stetige Variablen beschrieben werden können, heissen
diskrete bzw stetige Daten.
2.2
2.2.1
Weitere Definitionen
Die Verteilungsfunktion
Wir definieren sie zuerst im eindimensionalen Raum, d.h. x sei der 1-dimensionale Ereignisraum. Die Verteilungsfunktion F (x0 ) ist die Wahrscheinlichkeit, dass bei einer Messung von
x ihr Wert kleiner oder gleich x0 ist. Ferner gilt natürlich F (−∞) = 0 und F (+∞) = 1. Die
Funktion F ist eine nicht-abfallende Funktion von x. Sie darf stetig oder unstetig sein, muss
aber glatt im Grenzwert ±∞ verlaufen.
2.2.2
Die diskrete Wahrscheinlichkeit
Für einen diskrete Ereignisraum definieren wir eine Wahrscheinlichkeit Pr , so dass der AusP
gang des Ereignisses r die Wahrscheinlichkeit Pr besitzt. Natürlich ist r Pr = 1.
2.2.3
Die Wahrscheinlichkeitsdichtefunktion
Die Wahrscheinlichkeitsdichtefunktion f ist einfach f (x) = dF (x)/dx. Die Angabe f (x0 )dx0
gibt somit die Wahrscheinlichkeit
an, dass x sich im Intervall zwischen x0 und x0 +dx0 befindet.
R +∞
Natürlich muss −∞ f (x0 )dx0 = 1 sein. Die Funktion F ist dimensionslos, die Funktion
f jedoch hat die Dimension 1/x. Ferner soll darauf hingewiesen werden, dass f (x) keine
Wahrscheinlichkeit darstellt, sondern nur f (x)dx.
p(x1 ≤ x ≤ x2 ) =
Z
x2
f (x0 )dx0 = F (x2 ) − F (x1 )
(2.1)
x1
Zum Zusammenhang zwischen f und F verweisen wir auf Figur 2.1.
2.3
Kombination von Wahrscheinlichkeiten und Bayes’ Theorem
Gegeben sind zwei Arten von Ereignissen A und B. Die Wahrscheinlichkeit für das Auftreten
von A ist P (A) und die entsprechende Wahrscheinlichkeit von B ist P (B). Dann ist die
4
KAPITEL 1. GRUNDLAGEN DER ST
f(x)
x1
F(x)
x2
x
1
0
x
1
x2
x
Figure 2.1: Eine Dichtefunktion f (x) sowie deren Verteilungsfuntion F (x) dergestalt, dass
f (x) = dF (x)/dx ist.
.2: Wahrscheinlichkeitsdichte (oben) und dazugehörige Verteilungsfunktio
5
Wahrscheinlichkeit, dass A oder B auftritt gegeben durch:
P (A oder B) = P (A) + P (B) − P (A und B)
(2.2)
Hierbei ist P (A und B) die Wahrscheinlichkeit, dass A und B zusammen auftreten. Falls
die Ereignisse A und B exklusiv sind, d.h. nicht zusammen auftreten können, gilt natürlich
P (A und B) = 0. Ferner gilt allgemein P (A und B) = P (A) · P (B|A) = P (B) · P (A|B). Man
nennt P (B|A) die bedingte Wahrscheinlichkeit, dass das Ereignis B auftritt, vorausgesetzt,
dass das Ereignis A ist eingetreten. Bei unabhängigen Ereignissen gilt P (B|A) = P (B),
d.h. das Auftreten von B hängt nicht von A ab, was auch durch P (A und B) = P (A) · P (B)
beschrieben wird.
Das Bayes’ Theorem erhält man nun aus P (A und B) = P (A) · P (B|A) = P (B) · P (A|B):
P (A|B) = P (B|A) ·
P (A)
P (B)
(2.3)
Im allgemeinen Fall von n-Ereignis-Klassen mit den Eigenschaften Ai lautet das Theorem:
P (B|Ai )P (Ai )
i P (B|Ai ) · P (Ai )
P (Ai |B) = P
2.4
(2.4)
Histogramme
Eine Häufigkeitsverteilung ist die tabellarische Anordnung von Daten sowie deren jeweilige
Häufigkeit in bestimmten Klassen oder Kategorien.
Table 2.1: Die erste Häufigkeitsverteilung in der Vorlesung: Das Körpergewicht einer Personengruppe. Ganz allgemein: Ist das Körpergewicht von beliebigen Menschengruppen so wie
die Körpergrösse eigentlich Gauss-verteilt?
Gewicht (kg)
62-64
64-66
66-68
68-70
70-72
72-74
74-76
76-78
78-80
Anzahl der Personen
5
12
33
13
10
9
8
4
3
Im Beispiel der Tabelle 2.1 ist die Häufigkeitsverteilung oder Häufigkeitstabelle von Personen nach ihrem Gewicht gezeigt. Die Einteilung der Daten nach Gewicht geschieht in
Klassenintervallen oder in sogenannten bins. Ein Histogramm ist dann die Darstellung der
Häufigkeitsverteilung.
6
2.5
Mittel- und Erwartungswerte
Das arithmetisches Mittel
Das arithmetische Mittel x̄ ist der Mittelwert einer Menge von N Zahlen Xi :
x̄ =
N
X
Xi /N
(2.5)
i=1
In vielen Fällen ist der arithmetische Mittelwert die sinnvollste Grösse, die man bilden
kann, wenn man mit nur einer einzigen Zahl eine Datenmege beschreiben möchte. Völlig
analog kann man einen Mittelwert von Funktionen bilden:
f¯ =
N
X
f (Xi )/N
(2.6)
i=1
Sind die N Datenpunkte durch eine Häufigkeitsverteilung in m Intervallen klassifiziert und
entspricht nj die Anzahl der Einträge im Intervall j, so gilt:
x̄ =
m
1 X
nj X j
N j=1
(2.7)
Erwartungswert einer Variablen
Ein wichtiger Parameter, der eine Wahrscheinlichkeitsdichte charakterisiert, ist der Erwartungsoder Mittelwert einer Variablen. Er ist für kontinuierliche Variablen x definiert als
Z
∞
< x >=
x0 f (x0 )dx0
(2.8)
−∞
und für diskrete Variablen r als
< r >=
X
ri P (ri )
definiert. Erwartungswerte für Funktionen h(x) sind durch < h >=
definiert. Der Erwartungswert ist ein linearer Operator, d.h. es gilt:
< a · g(x) + b · h(x) >= a < g(x) > + b < h(x) >
(2.9)
R
h(x0 )f (x0 )dx0
(2.10)
Im allgemeinen ist aber < f g >6=< f >< g >. Die Gleichheitszeichen gilt nur dann, wenn f
und g unabhängig sind.
Es gibt natürlich eine Parallele zwischen dem Mittel- oder Erwartungswert < x > und
dem (arithmetischen) Mittelwert x̄ einer Datenmenge. Ersterer ist eine Summe (oder Integral) über eine theoretische Wahrscheinlichkeitsdichte und letzterer ist eine Summe über
eine reale Datenmenge. Die Verbindung kann nun über die Frequentisten-Definition der
Wahrscheinlichkeit geknüpft werden, die aussagt, dass im Falle von N → ∞ die wahre
Wahrscheinlichkeitsverteilung durch die relativen Häufigkeiten bestimmt werden kann. Oder
anders formuliert: Wenn eine Datenmenge durch eine theoretische Verteilung beschrieben
wird, dann wird für N → ∞: x̄ =< x >.
Der Median
Der Median xmedian ist der Wert einer Häufigkeitsverteilung, der die Verteilung in zwei gleich
7
grosse Hälften teilt. Der Median ist oft ein nützlicher Parameter um Verteilungen zu charakterisieren. So werden z.B. Einkommensverteilungen am besten durch den Median beschreiben,
wie Figur 2.2 demonstriert.
Z
xmedian
f (x0 )dx0 = 0.5
(2.11)
−∞
Der Modus
Der Modus ist der Wert, der am häufigsten vorkommt, d.h. bei dem die Wahrscheinlichkeitsdichte f (x) ihr Maximum hat. Der Modus braucht natürlich nicht eindeutig sein.
Eine empirische Beziehung/Faustformel
Eine manchmal nützliche Beziehung (für unimodale, mässig schiefe Verteilungen), um einen
der drei Parameter Median, Modus und Mittelwert abzuschätzen, wenn die beiden anderen
bekannt sind, ist
Mittelwert − M odus = 3 × (M ittelwert − M edian).
(2.12)
Das harmonische Mittel
1/H = 1/N
X
(1/X)
(2.13)
Das harmonische Mittel ist niemals grösser als das arithmetische Mittel. Es kann zur Mittelwertbildung benutzt werden, wenn es um die Mittelung von Raten geht. Beispielsweise sei
die Geschwindigkeit einer Reise von A nach B x km/h und auf der Rückreise y km/h. Die
Durchschnittsgeschwindigkeit beträgt dann z = 2xy/(x + y).
Das Quartil
Wird die Datenmenge in zwei gleich grosse Teile geteilt, ist der Wert in der Mitte der Median.
Teilt man die Menge in vier gleich grosse Teile nennt man die jeweiligen vier Werte Quartile
Q1, Q2, Q3 und Q4. Der Wert Q2 entspricht dabei dem Median. Entsprechend kann auch
in zehn gleiche Teile (Dekantil) und hundert gleiche Teile (Zentil) geteilt werden.
2.6
Die Varianz und Standardabweichung
Die Erwartungswerte von xn und von (x− < x >)n werden n-te algebraische Momente µn
und n-te zentrale Momente µ0n genannt. Das erste algebraische Moment µ1 ist gleich dem
Erwartungswert < x >. Es wird oft einfach als µ bezeichnet. Das zweite zentrale Moment
(das erste ist natürlich Null) ist ein Mass für die Breite der Wahrscheinlichkeitsdichte und
wird als Varianz V (x) bezeichnet. Die Grösse σ nennt man Standardabweichung.
V (x) =< (x− < x >)2 >=< x2 > − < x >2 = σ 2
(2.14)
Es ist hierbei wichtig zu verstehen, dass wir die Grösse der Varianz bzw. der Standardabweichung über Erwartungswerte definieren. Dies ist die fundamentalere Definition
der Varianz. Sie kann aber nur dann bestimmt werden, wenn die ’wahre’ zugrundeliegende
Wahrscheinlichkeitsdichte der Grundgesamtheit bekannt ist. Da wir uns aber häufig mit
einer beschränkten Menge an Daten beschäftigen, die nur eine Teilmenge (Stichprobe) der
Grundgesamtheit repräsentiert, von der weder der Erwartungswert noch die Varianz genau
8
Figure 2.2: Das Einkommensverteilung von Amerikanern um das Jahr 1950. Die Bedeutung
von Mittelwert, Median und Modus wird ersichtlich. Welche der drei Grössen gibt wohl die
wichtigste Information an?
9
bekannt ist, ist es nützlich die Varianz s2 einer Datenmenge, die sogenannte StichprobenVarianz, zu definieren:

1 X
1 X 2
1
s2 =
(xi − x̄)2 =
xi −
N −1 i
N −1
N
i
X
!2 
xi 
(2.15)
i
Der Wert s2 kann als beste Abschätzung der ’wahren’ Varianz der Grundgesamthwit
verstanden werden. Der Faktor N 1−1 anstatt des sonst üblichen N1 mag vielleicht etwas
verwirren. Wir werden diese Konfusion aber im Verlaufe der Vorlesung klären.
Zur numerischen Berechnung der Stichproben-Varianz wollen wir einige Anmerkungen
machen. Man kann die Varianz im Prinzip in zwei Schleifen über die Daten berechnen. In
P
der ersten Schleife wird die Summe Rx = i xi berechnet und dann das Stichprobenmittel
P
x̄. Dieses Mittel wird dann in der zweiten Schleife benutzt um die Summe Rxx = i (xi − x̄)2
zu bestimmen, woraus s2 = 1/(N − 1)Rxx folgt. Alternativ kann s2 auch in einer Schleife
P
P
über die Daten berechnet werden, wenn die Summen Sx = i xi und Sxx = i x2i gleichzeitig
gebildet werden und dann s2 = N 1−1 (Sxx − n12 Sx2 ) berechnet wird. Diese Methode hat sicherlich
Vorteile, wenn es auf Rechengeschwindigkeit ankommt. Es ist allerdings Vorsicht geboten,
da die Differenz zweier grossen Zahlen gebildet wird, was dann leicht zu Rundungsfehlern
führen kann. In diesem Fall ist es besser eine erste grobe Näherung xe für den Mittelwert
einzuführen, wie z.B. den ersten Wert x1 des Datensamples, um dann folgende Grössen zu
berechnen:
Tx =
X
(xi − xe )
i
Txx =
X
(xi − xe )2
i
Die Grössen x̄ und s2 werden dann wie folgt bestimmt:
x̄ = xe +
s2 =
2.7
1
Tx
n
1
1
Txx − Tx2
n−1
n
Höhere Momente
Manchmal werden auch höhere Momente µn und µ0n benutzt, um Verteilungen zu kategorisieren. Die Schiefe γ oder skewness is normalerweise definiert als
γ1 = µ03 /σ 3 =
1
1
< x− < x >>3 = 3 (< x3 > −3 < x >< x2 > +2 < x >3 ).
3
σ
σ
(2.16)
Die Grösse γ ist dimensionslos und charakterisiert die Schiefe. Sie beträgt null für symmetrische Verteilungen bzw. ist positiv oder negativ für unsymmetrische Verteilungen. Bei
der Schiefe muss man aufpassen, da es noch alternative Arten gibt, sie zu definieren. Manchmal wird die sogenannte Pearson’s skew als Schiefe bezeichnet, die gegeben ist durch:
P earson0 s skew =
10
mean − modus
σ
(2.17)
Ferner gibt es noch die Kurtosis γ2 = µ04 /σ 4 − 3, die ein Mass für die Art der Verteilung
an den Rändern im Bezug zum Maximum ist. Die Kurtosis ist dimensionslos aufgrund der
vierten Potenz im Nenner. Für eine Gauss-Verteilung ist sie null aufgrund des Terms mit
der Zahl 3, der deswegen extra eingeführt ist. Positive γ2 bedeuten ein grösseres Maximum
und weitere Ausläufer als eine Gauss-Verteilung mit denselben Werten für Mittelwert und
Varianz.
Einige der oben diskutierten Grössen sind in Tabelle 2.2 für die Maxwellsche Geschwindigkeitsverteilung
angegeben. Die Wahrscheinlichkeitsdichte des Betrags der Geschwindigkeit v der Moleküle
in einem idealen Gas bei der absoluten Temperatur T ist durch
3
f (v) = N · (m/2πkT ) 2 exp(−mv 2 /2kT ) · 4πv 2
(2.18)
gegeben. Dabei ist m die Molekülmasse und k die Boltzmannkonstante. Übung: BerechTable 2.2: Maxwellsche Geschwindigkeitsverteilung
Grösse
Modus (wahrscheinlichster Wert) vm
Mittelwert < v >
Median
RMS-Geschwindigkeit vrms
Wert
(2kT /m)1/2
(8kT /πm)1/2
vmedian = 1.098 · vm
(3kT /m)1/2
nen Sie aus den gegebenen Daten die Varianz σv2 . Zeichnen Sie die Verteilung für Stickstoff
bei T = 300K. Die Grössen sind k = 1.38 · 10−23 J/K, m = 4.65 · 10−26 kg.
2.8
Kovarianzen
Unabhängigkeit
Zwei Variablen sind unabhängig, genau dann wenn folgende Bedingung für die Verteilungsfunktion erfüllt ist:
F (x1 , x2 ) = F (x1 ) · F (x2 )
(2.19)
Man sagt, dass diese Variablen dann unkorreliert sind. Wenn diese Bedingung nicht erfüllt
ist, sind die Variablen abhängig und normalerweise miteinander korreliert.
Kovarianz
Die Kovarianz cov(x1 , x2 ) zwischen zwei Variablen ist definiert als
cov(x1 , x2 ) =< (x1 − < x1 >) · (x2 − < x2 >) >=< x1 x2 > − < x1 >< x2 >
(2.20)
Ferner gilt
V (x1 + x2 ) = V (x1 ) + V (x2 ) + 2 × cov(x1 , x2 )
(2.21)
Die Kovarianz kann durch den sogenannten Korrelationskoeffizienten ρx1 x2 ausgedrückt
werden:
cov(x1 , x2 ) = ρx1 x2
11
q
V (x1 )V (x2 )
(2.22)
Beispiel:
Figure 2.3: Beispiel für Korrelationskoeffizienten.
Der Korrelationskoeffizient liegt zwischen +1 und -1. Wenn zwei Variablen voneinander
unabhängig sind, folgt ρx1 x2 = 0. Das Umgekehrte folgt aber nicht notwendigerweise. D.h.,
wir können ρx1 x2 = 0 haben und trotzdem sind x1 und x2 abhängig. Als Beispiel3 wollen wir
zwei Würfel betrachten. Die folgenden drei Zufallsvariablen seien definiert als:
• r sei 1, wenn Würfel 1 eine ungerade Augenzahl hat. Andererseits sei r = 0
• s sei 1, wenn Würfel 2 eine ungerade Augenzahl hat. Andererseits sei s = 0
• t sei 1, wenn die Summe der beiden Augenzahlen ungerade ist. Anderersets sei t = 0
Wir können zeigen, dass die Ereignisse paarweise unabhängig sind. Überraschenderweise
sind jedoch nicht die drei Variablen unabhängig. Wenn sowohl r = 1 als auch s = 1 eintritt,
folgt daraus zwingend t = 0. Für Unabhängigkeit muss aber Prst = Pr Ps Pt gelten.
2.9
Nützliche Ungleichungen
In diesem Unterkapitel wollen wir zwei nützliche Ungleichungen diskutieren, um obere Schranken
für Wahrscheinlichkeiten anzugeben, wenn die zugrundeliegende Verteilung nicht bekannt ist.
3
W. Feller, Probabiltiy Theory and Applications, Vol. I, Wiley and Sons, NY (1950)
12
Markov-Ungleichung:
Es sei x eine positive Zufallsvariable ist, dann gilt:
P (x ≥ a) ≤
<x>
a
(2.23)
Diese Ungleichung gibt uns einen Maximalwert an, um eine obere Grenze für die Wahrscheinlichkeit von Zufallsereignissen zu bekommen, die in den Ausläufern der Verteilung sitzen.
Tschebyscheff-Ungleichung:
σ2
(2.24)
k2
Die Wahrscheinlichkeit, dass ein Resultat um mehr als drei Standardabweichungen vom Erwartungswert abweicht, ist weniger als 1/9, und zwar unabhängig von der zugrundeliegenden
Wahrscheinlichkeitsverteilung. Die Ungleichung gilt in allgemeiner Form, wenn die Standardabweichung bekannt ist. Sie ist allerdings sehr schwach und nur nützlich für theoretische
Überlegungen, wenn die Form der Verteilung unbekannt ist.
P ( |x− < x > | ≥ k) ≤
13
3
3.1
3.1.1
Wahrscheinlichkeitsverteilungen
Diskrete Verteilungen
Kombinatorik
Für r verschiedene Objekte gibt es 1·2·3 · · · (r−1)·r = r! verschiedene Möglichkeiten, die Objekte in einer Reihe anzuordnen. Die Zahl der Möglichkeiten, r Objekte aus n verschiedenen
Objekten auszuwählen, wobei es auf die Reihenfolge der Auswahl ankommt, ist
Pnr = n · (n − 1) · (n − 2) · · · (n − r + 1) =
n!
(n − r)!
(3.1)
Falls es auf die Reihenfolge der Auswahl nicht ankommt, muss die obenstehende Zahl durch
r! dividiert werde, und man erhält
Cnr
Pr
= n =
r!
n
r
!
=
n!
r!(n − r)!
(3.2)
Diese Zahlen sind die sogenannten Binomialkoeffizienten, die im Binomialtheorem auftauchen:
(p + q)n =
n
X
n
r=0
r
!
pr · q n−r
(3.3)
Einige Rechenhilfen
Für grosse n kann n! durch die Stirlingsche Formel angenähert werden:
√
ln n! ≈ (n + 1/2) ln n − n + ln 2π
n √
n
n! ≈
2πn
e
(3.4)
(3.5)
Der erste Term (n/e)n wird nullte Näherung genannt, der gesamte Term in der obigen
Gleichung ist die sogenannte erste Näherung.
Die Fakultät n! kann auf nicht-ganzzahlige Argumente x durch die Gammafunktion Γ(x)
erweitert werden:
Z
x! =
∞
ux e−u du = Γ(x + 1)
(3.6)
0
Γ(x + 1) = xΓ(x)
3.1.2
(3.7)
Bernoulli und die Binomial-Verteilung
Ein Bernoulli-Experiment sind wiederholt durchgeführte unabhängige Versuche, von denen
jeder zwei mögliche Ausgänge hat. Die Wahrscheinlichkeit des Ereignisausgangs soll dabei
konstant bleiben. Beispiele hierfür sind der Münzwurf oder der Zerfall von K + in entweder
µ+ ν oder einen anderen Zerfallsmodus. Das Resultat eines Bernoulli-Experiments wollen wir
als success (S) oder als failure (F) beschreiben.
14
Ist die Wahrscheinlichkeit p eines Auftretens eines Ereignisses S (oder F) gegeben, so
beschreibt
!
n r
p (1 − p)n−r
r
P (r) =
(3.8)
die Wahrscheinlichkeit, dass bei n Versuchen S (oder F) genau r mal auftritt. Die dzugehörige
Verteilung nennt man Binomialverteilung. Die Gleichung 3.8 kann folgendermassen erklärt
werden: Die Wahrscheinlchkeit, dass das Ereignis S in den ersten r Versuchen auftritt und
nicht in den letzten n − r ist
gegeben durch pr · (1 − p)n−r ; diese Reihenfolge ist aber nur eine
n
mögliche von insgesamt r möglichen.
Die Eigenschaften der Binomialverteilung:
• Sie ist auf 1 normiert, d.h.
Pn
r=0 P (r)
• Der Mittelwert von r ist < r >=
= 1.
Pn
r=0 r
· P (r) = np.
• Die Varianz von r ist V (r) = np(1 − p).
• < r > /σ =
√ q p
n 1−p .
Der letzte Punkt bedeutet insbesondere, dass bei grossen n die Verteilung eine schmalle
und scharfe Spitze aufweisen wird.
Beispiel: Wie gross ist die
Wahrscheinlichkeit in 10 Münzwürfen genau dreimal Kopf zu
10
10!
0.53 · 0.57 = 0.12
werfen? Antwort: P (3) = 3 0.53 · (1 − 0.5)10−3 = 3!7!
Übung: Ein vierlagiger Detektor zum Teilchennachweis hat pro Detektorlage eine Einzeleffizienz von 88%. Um eine komplette Teilchenspur zu rekonstruieren, werden mindestens drei
Spuren benötigt. Wie gross ist damit die Wahrscheinlichkeit eine Spur zu rekonstruieren?
3.1.3
Multinomialverteilung
Nun können wir unsere Überlegungen zur Binomialverteilung direkt auf folgendes Problem
verallgemeinern: Angenommen es gebe n Objekte mit k unterschiedlichen Typen und ni
sei die Anzahl der Objekte des Typs ki . Die Anzahl der unterscheidbaren Anordnungen ist
n!
dann durch n1!n2!···n
gegeben. Wenn wir nun zufällig r Objekte auswählen (mit jeweiligem
k!
Zurücklegen), dann ist die Wahrscheinlichkeit einer bestimmten Auswahl, die ri Objekte
des Types ki besitzt, gegeben durch pr11 · pr22 · · · prkk . Hierbei ist pi = ni /n. Die Gesamtwahrscheinlichkeit ist daher die Wahrscheinlichkeit der Auswahl multipliziert mit der Anzahl
der möglichen unterscheidbaren Anordnungen.
P =
r!
pr1 · pr22 · · · prkk
r1 !r2 !r3 ! · · · rk ! 1
Diese Verteilung heisst Multinomialverteilung.
15
(3.9)
Figure 3.1: Die Binomialverteilung für ein festes p = 0.4 und verschiedene Werte für n.
16
Todesfälle pro Korps und Jahr
0
1
2
3
4
Tatsächlich gemeldete Fälle
109
65
22
3
1
Poissonstatistik
108.7
Table 3.1: Die Gesamtstatistik der zu Tode getrampelten preussischen Kavalleriesoldaten
3.1.4
Poisson-Verteilung
Die Poissonverteilung entsteht als Grenzfall der Binomialverteilung, falls die Anzahl n der
Versuche gross wird und die Wahrscheinlichkeit für das Auftreten eines Ereignisses p in einem
einzigen Versuch sehr klein ist, wobei pn = λ eine (kleine) endliche Konstante ergeben soll.
Ein typisches Beispiel für diesen Grenzwert ist die Zahl der Zerfälle pro Sekunde einer radioaktiven Quelle, die z.B. eine mittlere Lebensdauer von einem Jahr hat. Hierbei ist n ∼ 1023 ,
p ∼ 1 Sekunde/Lebensdauer ∼ 3 · 10−8 und r ist die Anzahl der Zerfälle in einer Sekunde,
was ungefähr von der Grösse pn ∼ 3 · 1015 ist.
Die Poissonverteilung hat nur einen Parameter, nämlich den Mittelwert λ = np.
P (r) =
λr e−λ
r!
(3.10)
Eigenschaften der Poissonverteilung
• sie ist korrekt auf 1 normiert:
P∞
r=0 P (r)
• Der Mittelwert < r > ist λ: < r >=
P∞
= e−λ
r=0 r
·
λr
r=0 r!
P∞
e−λ λr
r!
= e−λ e+λ = 1
=λ
• Die Varianz ist V (r) = λ
Das klassische (historische) Beispiel für eine Anwendung der Poissonstatistik ist die Zahl
der durch Pferde zu Tode getrampelten preussischen Kavalleriesoldaten. In zehn verschiedenen Kavalleriekorps wurden die Todesfälle über zwanzig Jahre lang registriert. Es gab insgesamt 122 Todesfälle, so dass der Erwartungswert pro Korps und Jahr sich zu λ = 122/200 =
0.61 ergibt. Die Wahrscheinlichkeit, dass kein Soldat pro Jahr und pro Korps zu Tode getrampelt wird, beträgt P (0; 0.61) = e−0.61 · 0.610 /0! = 0.5434. Um die Gesamtzahl der
Ereignisse (kein Unfall) in einem Jahr und pro Korps zu erhalten, wird mit der Anzahl der
berücksichtigten Fälle (200) multipliziert, also 200 · 0.5434 = 108.7. In der Tat gab es 109
Fälle, was eine sehr gute Übereinstimmung ist. Die Gesamtstatistik der preussischen Kavallerie ist in Tabelle 3.1 verzeichnet.
Übung: Berechnen Sie die fehlenden Werte aus Tabelle 3.1.
Die Poissonverteilung tritt in vielen Fällen auf, in denen man Dinge oder Ereignisse zählt.
Typische Anwendungen der Poissonverteilung sind:
• Anzahl der Teilchen, die von einem Detektor in einer Zeit t erfasst werden, wenn der
Teilchenfluss Φ und die Detektoreffizienz unabhängig von der Zeit sind und die Detektortotzeit τ hinreichend klein ist, so dass φτ << 1 ist.
17
Figure 3.2: Die Poissonverteilung für einige Werte für λ.
• Anzahl der Wechselwirkungen die durch einen intensiven Teilchenstrahl enstehen, der
durch eine dünne Scheibe tritt.
• Anzahl der Eintrg̈e in einem bin eines Histogrammes, wenn die Daten über ein bestimmtes Zeitintervall gesammelt werden.
• Anzahl der Reifenpannen innerhalb einer zurückgelegten Strecke, wenn der Erwartungswert
Reifenpanne/Strecke konstant ist.
Beispiele, bei denen die Poissonverteilung keine Anwendung findet sind:
• Der Zerfall einer kleinen Menge radioaktiven Materials über eine bestimmte Zeit, die
signifikant ist im Vergleich zur Halbswertzeit.
• Die Anzahl der Wechselwirkungen eines Strahls von wenigen Teilchen, der durch eine
dicke Scheibe tritt. In den beiden letzten Beispielen nimmt die Ereignisrate mit der
Zeit ab. Daher kann die Poissonverteilung nicht angewandt werden.
Das Bild 3.2 zeigt die Poissonverteilung für einige Werte für λ. Wenn der Erwartungsert λ
kleiner als 1.0 ist, wird der Modus, d.h. der wahrscheinlichste Wert null. Bei grösseren Werten
18
von λ entwickelt sich eine Maximum ungleich null, was aber unterhalb von λ liegt. In der Tat
ist die Wahrscheinlichkeit für ein beliebiges ganzzahliges λ ein Ereignis mit r = λ und r = λ−1
zu haben, gleich. Die Poissonverteilung ist immer etwas breiter als die Binomialverteilung bei
gleichem Erwartungswert. Die Varianz der Poissonverteilung ist gleich dem Erwartungswert,
während sie bei der Binomialverteilung np(1 − p) ist, also kleiner als der Erwartungswert
np. Die Versuche in einem Bernoulliprozess haben immer ein oberes Limit, da r n nicht
überschreiten kann, während die Poissonprozesse nach oben nicht beschränkt sind und daher
einen langen Ausläufer haben können. Bereits ab λ = 5 kann die Poissonverteilung relativ
gut durch die Gaussverteilung angenähert werden.
3.2
3.2.1
Kontinuierliche Verteilungen
Gauss- oder Normalverteilung
Die Gauss4 - oder Normalverteilung ist die wohl wichtigste und nützlichste Verteilung, die wir
kennen. Sie hat grosse Bedeutung in der Praxis5 . Ihre Wahrscheinlichkeitsdichte ist
f (x) = √
(x−µ)2
1
e− 2σ2
2πσ
(3.11)
Die Gaussverteilung wird durch zwei Parameter bestimmt: Durch den Erwartungwsert µ
und die Varianz σ 2 , wobei σ die Standardabweichung ist. Durch die Substitution z = (x−µ)/σ
erhält man die sogenannte standardisierte Gauss- oder Normalverteilung:
1
2
N (0, 1) = √ e−z /2
2π
(3.12)
Sie hat den Erwartungwsert null und die Standardabweichnung 1.
Die Eigenschaften der Gaussverteilung sind:
• sie ist natürlich auf 1 normiert:
R +∞
−∞
P (x; µ, σ)dx = 1
• µ ist der Erwartungswert der Verteilung:
Modus und Median
R +∞
−∞
xP (x; µ, σ)dx = µ und zugleich ihr
• σ ist die Standardabweichung und die Varianz ist σ 2 :
R +∞
−∞
(x − µ)2 P (x; µ, σ)dx = σ 2
Nützliche Integrale, die häufig bei der Benutzung der Gaussfunktion auftauchen:
Z
+∞
−ax2
e
Z
Z
−∞
+∞
0
+∞
−∞
dx =
2
xe−ax dx =
2
x2 e−ax dx =
q
π/a
1
2a
1q
π/a
2a
4
C.F. Gauss hat sie nicht allein entdeckt. Unabhängig von Gauss kannten Laplace und de Moivre (ein
Engländer) die Verteilung.
5
Der Legende nach hat Gauss damit wohl die Grösse von Brotlaibern der Bäckerinnung in der Stadt
Königsberg beschrieben.
19
Normalverteilung, CDF
1
0.8
0.6
0.4
0.2
0
−5
−4
−3
−2
−1
0
1
2
3
4
5
2
3
4
5
Normaldichte, PDF
0.4
0.3
0.2
0.1
0
−5
−4
−3
−2
−1
0
1
Figure 3.3: Die standardisierte Gaussverteilung. Oben die kumulative Verteilungsfunktion
und unten die Wahrscheinlichkeitsdichtefunktion.
Z
+∞
2
x2n+1 e−ax dx =
0
Z
+∞
n!
2an+1
2
x2n+1 e−ax dx = 0, für alle ungeraden Werte von n
−∞
Einige Zahlen für die integrierte Gaussverteilung:
• 68.27% der Fläche liegt innerhalb von ±σ um den Mittelwert µ
• 95.45% liegt innerhalb von ±2σ
• 99.73% liegt innerhalb von ±3σ
• 90% der Fläche liegt innerhalb von ±1.645σ
• 95% liegt innerhalb von ±1.960σ
• 99% liegt innerhalb von ±2.576σ
• 99.9% liegt innerhalb von ±3.290σ
Oft wird vergessen, dass im Mittel rund 32% der Fälle ausserhalb einer Standardabweichnung
liegen müssen.
Die integrierte Funktion Φ(x) der Gaussverteilung kann auch durch die sogenannte Fehlerfunktion erf (x) ausgedrückt werden:
Φ(x) =
erf (x) =
=> Φ(x) =
x
1
2
2
e−(t−µ) /2σ dt
2πσ −∞
Z x
2
2
√
e−t dt
π 0
1
x−µ
1 + erf ( √ )
2
2σ
Z
√
20
Ferner ist der Begriff der vollen Breite auf halber Höhe (FWHM - Full width half maximum) nützlich, um auf einfache Weise die Standardabweichung einer Gausskurve zu schätzen.
Die Beziehung ist durch
√
F W HM = 2σ 2ln2 = 2.355σ
(3.13)
gegeben.
Übung: Approximation der Poissonverteilung durch eine Gaussverteilung: Der Mittelwert eines Poissonprozesses sei λ = 5.3. Wie gross ist die Wahrscheinlichkeit von zwei oder
weniger Ereignissen? Wie gross wäre sie, wenn die Wahrscheinlichkeit aus der Gaussverteilung
abgeleitet wird?
Übung: Approximation der Binomialverteilung durch die Gaussverteilung: Vergleichen
Sie die exakte Berechnung der Wahrscheinlichkeit beim Münzwurf 20-mal Kopf in 30 Würfen
zu erhalten, mit der angenäherten Lösung einer Gaussverteilung.
So wie die Poissonverteilung sich einer Gaussverteilung
annähert, wird die Binomialverteilung
p
zu einer Gaussverteilung mit µ = np und σ = np(1 − p), wenn n gross wird. Im Prinzip
tendiert fast alles zu einer Gaussverteilung, wenn die Anzahl n gross wird. Dies ist eine
Konsequenz des Zentralen Grenzwertsatzes, der im nächsten Kapitel diskutiert wird.
3.2.2
χ2 -Verteilung
Falls x1 , x2 , · · · , xn unabhängige Zufallsvariablen sind, die alle einer (standardisierten) Gaussverteilung
mit Mittelwert 0 und Varianz 1 gehorchen, so folgt die Summe u = χ2 der n Quadrate
u = χ2 =
n
X
x2i
(3.14)
i=1
einer χ2 -Verteilung fn (u) = fn (χ2 ) mit n Freiheitsgraden. Die Wahrscheinlichkeitsdichte ist
durch
( u )n/2−1 e−u/2
fn (u) = 2
(3.15)
2Γ(n/2)
2
gegeben. Sie hat ein Maximum bei (n − 2). Der
√ Mittelwert der χ -Verteilung ist n und die
2
Varianz ist 2n. Für n → ∞ geht (χ − n)/ 2n in eine standardisierte Normalverteilung
mit Erwartungswert null und Varianz 1 über. In der Praxis ist bereits bei n ≥ 30 die
Approximation durch eine Normalverteilung sehr genau. Die χ2 -Verteilung spielt eine grosse
Rolle bei statistischen Tests.
3.2.3
Log-Normal-Verteilung
In dieser Wahrscheinlichkeitsdichte ist ln x normalverteilt.
f (x) = √
1
2πσ 2
1 (− ln x−µ)2 /2σ2
e
x
(3.16)
Der Faktor 1/x taucht auf, da d(ln x) = dx/x ist. Der Erwartungswert und die Varianz sind
aber nicht einfach µ und σ 2 , sondern gegeben durch:
< x > = e(µ+(1/2)σ
2
2)
2
V ar(x) = e(2µ+σ ) (eσ − 1)
21
Die Log-Normal-Verteilung wird dann angewandt, wenn beispielsweise die Auflösung eines
Messintruments sich aus vielen unterschiedlichen Quellen zusammensetzt, die jeweils einen
kleinen (multiplikativen) Beitrag zur Gesamtauflösung bilden.
Als Beispiel soll das Signal eines Photomultipliers dienen, welcher schwache Lichtsignale in elektrische Signale über den Photoeffekt umwandelt. Der Photomultiplier ist ein
Sekundärelektronenvervielfacher, der in mehreren Stufen Elektronen beschleunigt. Pro Stufe
werden dabei Sekundärelektronen erzeugt, die das Ladungssignal vervielfachen. Wenn die
Verstärkung pro Stufe ai beträgt, dann ist die Anzahl der Elektronen nach der k-ten Stufe
nk = Πki=0 ai ungefähr log-normal verteilt.
3.2.4
Gamma-Verteilung
Die Gamma-Verteilung ist gegeben durch:
f (x; k, µ) =
xk−1 µk e−µx
Γ(k)
(3.17)
Sie gibt die Verteilung der Waretezeit t = x vom ersten bis zum k-ten Ereignis in einem
Poisson-Prozess mit Mittelwert µ an. Der Parameter k beeinflusst die Form der Verteilung,
w”ahrend µ nur ein Skalenparameter ist. Der Erwartungswert der Gamma-Verteilung ist
< x >= k/µ und seine Varianz σ 2 = k/µ2 .
3.2.5
Student-Verteilung
Die Student6 oder t-Verteilung tritt bei Tests der statistischen Verträglichkeit eines StichprobenMittelwertes x̄ mit einem vorgegebenen Mittelwert µ auf. Sie wird auch bei Tests der
Verträglichkeit zweier Stichproben Mittelwerte angewandt. Die Wahrscheinlichkeitsdichte
der Student-Verteilung ist gegeben durch:
1 Γ((n + 1)/2)
t2
fn (x) = √
1+
nπ
Γ(n/2)
n
!−(n+1)/2
(3.18)
Die Student- oder t-Verteilung ist symmetrisch um null; für n = 1 entspricht sie der CauchyVerteilung (siehe weiter unten). Für grosse n geht sie gegen die Gaussverteilung. Anwendungen der Student-Verteilung werden wir im Kapitel Hypothesentests finden.
3.2.6
F-Verteilung
Falls n1 Stichprobenwerte einer Zufallsvariablen x und n2 Stichprobenwerte derselben Zufallszahl gegeben sind und die beste Schätzung der Varianz aus den beiden Datenkollektionen
durch s21 und s22 bekannt sei, dann folgt die Zufallszahl F = s21 /s22 einer F -Verteilung mit
(n1 , n2 ) Freiheitsgraden:
f (F ) =
n1
n2
n1 /2
Γ((n1 + n2 )/2)
n1
·
· F (n1 −2)/2 1 + F
Γ(n1 /2)Γ(n2 /2)
n2
−(n1 +n2 )/2
(3.19)
Mit der F -Verteilung können statistische Verträglichkeiten von zwei aus unterschiedlichen
Stichproben derselben Grundverteilung ermittelten Varianzen getestet werden.
6
Benannt nach dem Statistiker W. S. Gosset, der für eine Guinness Brauerei in Dublin arbeitete und unter
dem Pseudonym Student seine Arbeiten veröffentlichte.
22
3.2.7
Weibull-Verteilung
Die Weibull-Verteilung wurde ursprünglich eingeführt um die Fehlerrate beim Altern von
Glühbirnen zu beschreiben. Sie ist nützlich um Funktionen zu parameterisieren, die mit x
anwachsen und dann wieder abfallen:
P (x; α, β) = αβ(αx)β−1 e−(αx)
β
(3.20)
Der Parameter α ist nur ein Skalenfaktor und β beschreibt die Breite des Maximums. Für
β = 1 erhält man eine Exponentialfunktion. Die Weibull-Verteilung ist sehr nützlich in Zuverlässigkeitsanalysen und Fehlerratenvorhersagen. Der Erwartungswert der Weibull-Verteilung
ist Γ(1/β + 1)/α.
3.2.8
Cauchy-Verteilung
Die Cauchy-Verteilung hat die Dichte
f (x) =
1 1
π 1 + x2
(3.21)
Für grosse Werte von x nimmt sie nur sehr langsam ab und erfordert deshalb spezielle Vorsicht in der Anwendung. Insbesondere ist der Erwartungswert undefiniert
und die CauchyR
Verteilung besitzt keine Varianz, da das unbestimmte Integral x2 f (x) divergent ist. Die
spezielle Cauchy-Verteilung in der Form
f (m; M, Γ) =
1
Γ
2π (m − M )2 + (Γ/2)2
(3.22)
heisst auch Breit-Wigner Funktion und wird in der Kern- und Teilchenphysik benutzt, um
die Energie- oder Massenverteilung nahe einer Kern- oder Teilchenresonanz mit Masse M
und Breite Γ zu beschreiben. In der Tat kann in der Quantenmechanik gezeigt werden,
dass jeder Zustand, der exponentiell zerfällt, eine Energiebreitenverteilung gemäss der BreitWigner Funktion besitzt. Die Breit-Wigner Funktion ist also die Fouriertransformierte einer
Exponentialverteilung. Die Breit-Wigner Verteilung ist symmetrisch um das Maximum bei
m = M . Der Parameter Γ ist das FWHM. In der Praxis muss innerhlab eines bestimmten
Bereiches integriert werden, um Divergenzen zu vermeiden.
3.2.9
Uniforme Verteilung
Die Wahrscheinlichkeitsdichtefunktion der uniformen Verteilung innerhalb des Intervalls [a, b]
ist gegeben durch:
1
, wenn a ≤ x ≤ b
(3.23)
b−a
Ausserhalb des Intervalls ist f (x) null. Der Erwartungswert und die Varianz sind gegeben
durch:
f (x) =
Z
b
<x> =
a
V ar(x) =
x
1
dx = (a + b),
b−a
2
1
(b − a)2
12
23
3.3
Charakteristische Funktion
Für eine Zufallsvariable x mit Wahrscheinlichkeitsdichte f (x) definiert man die charakteristische Funktion Φ(t) als den Erwartungswert von eitx :
Φ(t) =< eitx >=
Z
eitx · f (x)dx
(3.24)
Die Umkehroperation ist
1
e−itx · Φ(t)dt
(3.25)
2π
Die charakteristische Funktion sowie ihre erste und zweite Ableitung für den speziellen
Fall t = 0 lassen sich leicht berechnen:
Z
f (x) =
Φ(0) = 1
dΦ(0)
= i<x>
dt
d2 Φ(0)
= −(σ 2 + < x >2 )
dt2
Charakteristische Funktionen helfen manchmal bei Rechnungen mit Wahrscheinlichkeitsdichten. So ist beispielsweise eine Faltung zweier Wahrscheinlichkeitsdichten f1 und f2 für
die beiden Zufallsvariablen x1 und x2 sehr einfach zu berechnen. Eine sogenannte Faltung
von f1 und f2 ergibt eine neue Wahrscheinlichkeitsdichte g(y), nach der die Summe der
Zufallsvariablen y = x1 + x2 verteilt ist:
Z Z
g(y) =
f1 (x1 )f2 (x2 )δ(y−x1 −x2 )dx1 dx2 =
Z
Z
f1 (x1 )f2 (y−x1 )dx1 =
f2 (x2 )f1 (y−x2 )dx2
(3.26)
Mithilfe der charakteristischen Funktionen kann nun das Faltungsintegral elegant transformiert werden:
Φg (t) = Φf1 (t) · Φf2 (t)
(3.27)
Die charakteristische Funktion der Faltung zweier Variablen erhält man als das Produkt ihrer
charakteristischen Funktionen.
Die charakteristischen Funktionen von einigen Wahrscheinlichkeitsdichten sind in Tabelle 3.2
gezeigt.
Übungen:
• Zeigen Sie explizit, dass die Varianz der uniformen Verteilung
1
12 (b
− a)2 ist.
• Wie gross ist die Schiefe der Poisson-Verteilung?
• Ein Buch mit 500 Seiten enthält 50 Druckfehler, die zufällig über die Seiten verteilt
sind. Wie gross sind die Wahrscheinlichkeiten, dass eine bestimmte Seite genau null,
einen oder zwei Druckfehler enthält?
• Der Torwart Sepp Maier war ein Elfmeterkiller. Im Schnitt hielt er 40% aller Elfmeter. Wieviele Elfmeter muss ein Fussballspieler dann schiessen, um mit einer 95%
Wahrscheinlichkeit ein Elfmetertor erzielt?
24
Verteilung
Binomial
Poisson
Gauss
χ2
Uniform (von a nach b)
Breit-Wigner
Gamma
Charakteristische Funktion
Φ(t) = (peit + q)n
it
Φ(t) = eλ(e −1)
2 2
Φ(t) = eiµt−t σ /2
Φ(t) = (1 − 2it)−n/2
Φ(t) = (eibt − eiat )/(b − a)it
Φ(t) = e−iE0 t−(Γ/2)|t|
Φ(t) = (1 − it/µ)−α
Table 3.2: Charakteristische Funktionen von einigen Wahrscheinlichkeitsdichten.
• Ein Student möchte per Anhalter fahren. Im Mittel kommt zwar alle Minute ein Auto
vorbei (zufällig verteilt), doch nur 1% der Autofahrer würden einen Anhalter mitnehmen. Wie gross ist die Wahrscheinlichkeit, dass der Student immer noch wartet,
nachdem (a) 60 Auots vorbeigefahren sind und (b) nach einer Stunde Wartens?
• Ein Experiment sucht nach freien Quarks der Ladung 2/3. Es wird erwartet wird,
dass sie 4/9 der Ionisation I0 einer Elementarladung im Nachweisgerät produzieren.
Nach einer Messung von 105 Spuren, findet man eine Spur, die mit 0.44I0 gemessen
wird. Die Ionisationsmessungen im Detektor seien Gaussverteilt mit Standardabweichung σ. Berechnen Sie die Wahrscheinlichkeit, dass dieses Messergebnis aufgrund
einer statistischen Fluktuation einer gemessenen Elementarladung entstanden ist, wenn
(a) σ = 0.07I0 für alle Spuren ist und (b) für 99% der Spuren σ = 0.07I0 gilt, während
1% der Spuren eine Auflösung von 0.14I0 zeigt.
25
4
4.1
Fehler
Der zentrale Grenzwertsatz
Wir wollen uns in diesem Abschnitt mit der Frage beschäftigen, warum Messfehler häufig
als Gauss-verteilt angenommen werden können7 . In der Praxis stammt der resultierende
Messfehler meistens von verschiedenen unabhängigen Quellen. Der wohl wichtigste Satz in
der Statistik beschäftigt sich mit der Summe einzelner Zufallsvariablen und kommt unter
gewissen Bedingungen zu einem sehr überraschendes Ergebnis:
Angenommen wir nehmen die Summe X von n unabhängigen Variablen xi , die jeweils von
einer Verteilung mit Erwartungswert µi und Varianz σi2 stammen, dann gilt für die Verteilung
von X:
1. X hat den Erwartungswert < X >=
2. X hat die Varianz V (X) =
P
P
µi
σi2
3. X wird Gauss-verteilt, wenn n → ∞
Es ist hierbei zu betonen, dass die xi nicht alle aus derselben Wahrscheinlichkeitsverteilung
stammen müssen. Eine Zufallsgrösse X, die aus einer Summe von vielen unabhängigen
Variablen resultiert, ist im Grenzfall n → ∞ Gauss-verteilt. Dabei spielt es (fast) keine
Rolle, wie die Ursprungverteilungen aussehen, von denen die einzelnen xi abstammen. Einige
wichtige Bemerkungen zum zentralen Grenzwertsatz
• Wenn die Variablen xi nicht unabhängig sind, gelten nur die ersten beiden Bemerkungen
des zentralen Grenzwertsatzes
• Der zentrale Grenzwertsatz funktioniert umso besser, je näher man im Zentrum der
Verteilung sitzt. Verteilungen können Gauss-ähnlich innerhalb von ±1σ sein, aber
stark von der Gaussverteilung abweichen, je weiter man vom Zentrum weg ist. Diese
Ausläufer oder tails können oft zu falschen Interpretationen führen.
• Der zentrale Grenzwertsatz gilt für eine ganze Reihe von Verteilungen. Es gibt einige
Kriterien, die erfüllt sein müssen, um den zentralen Grenzwertsatz anzuwenden. Ein
wichtiges davon ist das sog. Lindeberg-Kriterium: Sei
yk = xk , wenn|xk − µk | ≤ σk
yk = 0, wenn|xk − µk | > σk .
Dabei ist k eine willkürlich festgelegt Zahl. Wenn die Varianz (y1 + y2 + · · · yn )/σy2 → 1
für n → ∞ geht, sind die Voraussetzungen erfüllt. Dieses Kriterium fragt also danach,
dass die Fluktuationen einer individuellen Variable nicht die Summe dominiert.
Übung zum zentralen Grenzwertsatz: Erzeugen Sie 500 Zufallszahlen in einem Vektor, die gleichmässig zwischen 0 und 1 verteilt sind. Benutzen Sie dazu den Befehl rand
in Matlab. Stellen Sie die Zahlen in einem Histogramm graphisch dar. Erzeugen Sie einen
7
Die Experimentalphysiker glauben fest daran, dass dies ein fundamentales Gesetz ist, die Theoretiker
jedoch denken, dass dieser Sachverhalt experimnetell untermauert ist
26
zweiten 500-komponentigen Zufallsvektor und zeichnen Sie die Summe der beiden Zufallsvektoren in einem anderen Histogramm, i.e. X = x1 + x2 . Wiederholen Sie das Vorgehen und
bilden Sie schliesslich die Summe von drei, fünf und zehn Zufallszahlen. Stellen Sie jeweils die neuen Zufallsvariablen in Histogrammen dar. Spätestens mit der Summe von fünf
Zufallszahlen sollte die Verteilung bereits Gaussförmig sein.
4.2
4.2.1
Arbeiten mit Fehlern
Averaging is good for you
Angenommen wir messen dieselbe Grösse mehrmals. Dann kann der zentrale Grenzwertsatz
in einer einfache Form angewandt werden, da dann alle µi und σi dieselben Werte µ und σ
annehmen.
X
< X >=
µ = nµ
(4.1)
Der Mittelwert x̄ = X/n besitzt folgenden Erwartungswert: < x̄ >= µ. Seine Varianz ist
gegeben durch
1 X
V (x̄) = 2
Vi = σ 2 /n
(4.2)
n
√
Damit fällt die Standardabweichung des Mittelwertes mit 1/ n. Dieser Sachverhalt ist
bekannt als das Gesetz der grossen Zahlen. Als Beispiel betrachten wir einen Detektor der
Photonen nachweisen soll. Die Energieauflösung dieses Detektors sei 50 keV. Wird nur ein
monoenergetisches Photon eines bestimmten Kernzerfalls nachgewiesen, ist seine Energie nur
auf 50 keV bekannt. Wenn 100 (monoenergetische) √
Photonen gemessen werden, beträgt
die Unsicherheit des Energiemittelwertes nur noch 50/ 100 = 5 keV. Für 1 keV Auflösung
müssten 2500 Zerfälle registriert werden.
4.2.2
Mittelwertbildung durch Gewichtung
Angenommen wir haben einen Satz von Messungen xi einer Grösse µ mit unterschiedlichen
Fehlern σi . Dann ist die korrekte Form der Mittelwertbildung durch
x̄ =
σx̄2 =
P
xi /σi2
P
2
1/σi
1
P
1/σi2
(4.3)
(4.4)
gegeben. Hier werden die Einzelergebnisse durch unterschiedliche Gewichte gemittelt. Je
kleiner ein Einzelfehler ist, umso grösser sein Gewicht. Der Beweis zur gewichteten Mittelwertbildung ist in vielen Textbüchern vertreten. Einige Kommentare zu dieser Regel:
• Die Formel macht natürlich sofort Sinn, wenn die Messungen mit demselben Messgerät
√
ausgeführt wurden und die Einzelfehler proportional zu 1/ ni sind.
• Vorsicht ist geboten, wenn die Einzelergebnisse und Einzelfehler zu stark voneinander
abweichen. Wenn ein Experiment zum Nachweis eines Zerfallsprodukts in einer Stunde
100 ± 10 Ereignisse misst, das andere jedoch in einer Stunde nur 1 ± 1 Ereignisse, dann
würde die Formel als Ergebnis 2 ± 1 Ereignisse ergeben. Dennoch würde man hier den
27
Experiment
LEPS
CLAS
SAPHIR
CLAS
DIANA
ITEP
HERMES
SVD
COSY
ZEUS
Masse
1540 ± 10
1543 ± 5
1540 ± 5
1555 ± 10
1539 ± 2
1533 ± 6
1528 ± 4
1526 ± 4
1530 ± 5
1521 ± 1.5
Zerfallsmodus
K +n
K +n
K +n
K +n
K 0p
K 0p
K 0p
K 0p
K 0p
K 0p
Table 4.1: Die weltweit gemessenen Pentaquark Massen der Jahre 2003 und 2004
einfachen Mittelwert 50.5 ± 5 bevorzugen. Der Grund besteht darin, dass in der obigen Formel der wahre Fehler auftaucht und nicht der abgeschätzte. Unsere Annahme
ist ferner, dass die wahre Ereignisrate über eine Stunde bei beiden Experimenten konstant ist und somit auch der Fehler bei beiden Experimenten gleich sein sollte. Daher
sollten beide Experimente hier gleich gewichtet werden. Dieses Beispiel ist natürlich
stark übertrieben und im prinizp sollte man in dieser Situation gar keine Mittelwertbildung anwenden, da es offensichtlich ist, dass die beiden Experimente imkompatibel
miteinander sind.
Übung: Die Masse des neuen Fünfquark-Zustandes (Pentaquark) θ+ wurde von mehreren
Experimenten in zwei Zerfalssmodi bestimmt: Bestimmen Sie den gewichteten Weltmittelwert und seinen Fehler sowohl aus allen Experimenten, als auch für die beiden Zerfallsmodi
getrennt.
4.2.3
Fehlerfortpflanzung
4.2.4
Funktionen einer Veränderlichen
Es sei f eine Funktion einer Veränderlichen x. Wir entwickeln f an der Stelle um x0 :
f (x) ≈ f (x0 ) + (x − x0 )
df
dx
(4.5)
x=x0
Unter der Anwendung von V (f ) =< f 2 > − < f >2 folgt dann
V (f ) =
σf2
≈
df
dx
2
σx2
(4.6)
Diese Annäherung ist nur dann gültig, wenn die Fehler klein sind, d.h. die erste Ableitung
darf nicht zu stark in der Umgebung von einigen σ variieren.
4.2.5
Funktionen mit meherern Veränderlichen
Wir betrachten zunächst eine Funktion g(x, y) mit zwei Veränderlichen x und y. Dann ist
28
f (x, y) ≈ f (x0 , y0 ) +
∂f
∂x
· (x − x0 ) +
x0 ,y0
∂f
∂y
· (y − y0 )
(4.7)
x0 ,y0
Wieder nehmen wir an, dass die Fehler klein sind, so dass die höheren Ordnungen in der
Taylor-Reihe vernachlässigt werden können. Wir erhalten dann als Ergebnis:
∂f 2 2
∂f 2 2
∂f ∂f
=
σx +
σy + 2
· cov(x, y)
∂x
∂y
∂x ∂y
cov(x, y) = h(x− < x >) · (y− < y >)i
σf2
(4.8)
(4.9)
Im Falle von zwei unabhängigen Variablen x und y, fällt natürlich der Kovarianzterm
weg.
Folgende einfache Beispiele sollen die Rechenregeln zur Fehlerfortpflanzung mit zwei Variablen veranschaulichen:
f (x, y) = x ± y
σf2 = σx2 + σy2 ± 2 × cov(x, y)
g(x, y) = x · y
σg2 = y 2 σx2 + x2 σy2 + 2xy × cov(x, y)
Im Falle einer Funktion f von n Variablen x1 , x2 , . . . xn lautet nun die Verallgemeinerung:
σf2
=
X
j
∂f
∂xj
!2
·
σx2j
+
XX
j k6=j
∂f
∂xj
!
∂f
∂xk
· cov(xj , xk )
(4.10)
Allgemein wird die Kovarianz nun zur Kovarianzmatrix Vij = cov(xi , xj ). Sie ist eine
symR
metrische n × n Matrix. Ihre Diagonalelemente Vii sind die Varianzen σx2i = (xi − <
xi >)2 f (x1 , . . . xn )dx1 . . . dxn und stets positiv. Die Nichtdiagonalelemente
können posiR
tiv oder negativ sein und geben die Kovarianzen Vij = (xi − < xi >)(xj − < xj >
)f (x1 , . . . xn )dx1 . . . dxn an.
Schliesslich noch der allgemeinste Fall, in dem zu einem Satz an Zufallsvariablen x =
(x1 , . . . , xn ) mit Erwartungswerten µ = (µ1 , . . . , µn ) ein Satz an Wahrscheinlichkeitsdichtefunktionen F(x) = f1 , f2 , . . . , fn vorliegt. Die Kovarianzmatrix Ukl ist dann gegeben durch:
!
Ukl = cov(fk , fl ) =
X
i,j
∂fk ∂fl
cov(xi , xj )
∂xi ∂xj x=µ
(4.11)
Dies kann aber auch vereinfacht geschrieben werden als U = A V AT , wobei die Matrix der
Ableitungen A gegeben ist durch
!
Aij =
∂fi
∂xj x=µ
und AT ihre Transponierte ist.
29
(4.12)
Als Beispiel wollen wir die Polarkoordinatentransformation betrachten. Ein Punkt sei
in den kartesischen Koordinaten x und y mit Fehlern σx und σy gemessen. Die Messungen
in x und y gelte als unabhängig und wir können daher V11 = σx2 , V22 = σy2 und Vij = 0
setzen. Wir sind nun daran interessiert die Kovarianzmatrix in Polarkoordinaten zu erhalten.
Die Transformationsgleichungen sind r2 = x2 + y 2 und θ = arctan(y/x). Daher folgt für
A = ∂fi /∂xi :
A=
∂r
∂x
∂θ
∂x
∂r
∂y
∂θ
∂y
!
=
x
r
−y
r2
y
r
x
r2
!
(4.13)
Ferner bilden wir U = A V AT :
!
U
U
4.3
=
=
y
x
σx2
r
r
·
−y
x
0
r2
r2
1
(x2 σx2 + y 2 σy2 )
r2
xy
(−σx2 + σy2 )
r3
−y
r2
x
r2
!
xy
(−σx2 + σy2 )
r3
1
(y 2 σx2 + x2 σy2 )
r4
!
0
σy2
!
·
x
r
y
r
(4.14)
=
2
σr2 σrθ
2
σrθ
σθ2
!
(4.15)
Systematische Fehler
Systematische Fehler beeinflussen jeden Einzelwert der Messung in ähnlicher Weise. Sie
können beispielsweise durch falsche Messmethoden, fehlerhafte Messgeräte oder durch zeitliche
Änderungen der Messbedingungen entstehen. Im Gegensatz zu zufälligen Fehlern nehmen sie
√
nicht mit 1/ n ab und der zentrale Grenzwertsatz findet keine Anwendung. Systematische
Fehler werden im Messergebnis getrennt vom statistischen Fehler aufgeführt:
x = 10.0 ± 1.2 (stat) ± 1.0 (sys)
(4.16)
Falls mehrere systematische Fehler auftreten, müssen ihre Korrelationen sorgfältig beachtet
werden. Für eine formale Behandlung der systematischen Fehler einer Zufallsgrösse xi mit
Mittelwert µi und Standardabweichung σi wird in der Kovarianzmatrix Vij der systematische
Fehler sij berücksichtigt, falls dieser den Messwert verschiebt:
ges
Vi,j
Z
=
ges
Vi,j
=
(xi − si − µi )(xj − sj − µj )f (x1 , x2 , . . . , xn )dx
Z
Z
Vij + si sj
f (x)dx − si
Z
(xj − µj )f (x)dx − sj
ges
Vi,j
= Vij + si sj
(4.17)
Z
(xi − µi )f (x)dx (4.18)
(4.19)
Statistische und systematische Fehler sind unabhängig nach Voraussetzung und deshalb kann
man sie quadratisch addieren. Der Kovarianzterm si sj mit i 6= j gibt ein Mass für die
Grösse der Korrelation, die durch systematische Fehler hervorgerufen werden können. Als
einfaches Beispiel betrachten wir den Fall von zwei Zufallsgrössen x1 und x2 mit gemeinsamen
systematischen Fehler S, der die Messwerte systematisch verschiebt. Die Kovarianzmatrix
lautet nun:
!
σ12 + S 2
S2
ges
Vi,j =
(4.20)
S2
σ2 + S 2
30
Falls ein systematischer Fehler T die Messwerte nicht absolut verschiebt, sondern nur relativ,
d.h. T = xi mit z.B. = 0.01, dann ist die Kovarianzmatrix gegeben durch:
ges
Vi,j
=
σ12 + 2 x21
2 x1 x2
2 x1 x2
σ 2 + 2 x22
31
!
(4.21)
5
Monte-Carlo Methoden
32
6
Stichproben und Schätzungen
Aus einer Grundgesamtheit von gewöhnlicherweise unendlich vielen Elementen wird eine
Stichprobe (oder Messung) vom Unfang n Elementen genommen. Die Wahrscheinlichkeitsdichte der Grundgesamtheit ist durch f (x) mit Mittelwert µ und Varianz σ 2 gegeben. Aus
der vorliegenden Stichprobe möchte man jetzt die im allgemeinen unbekannten Grössen Mittelwert und Varianz bestimmen. Unsere Aufgabe besteht also darin die beste Schätzung einer
oder mehrerer Parameter der Grundgesamtheit anhand der Stichprobe durchzuführen.
6.1
Eigenschaften von Schätzungen
Die Stichprobe sowie jede Funktion der Stichprobe sind selber Zufallsvariablen. Eine Schätzung
ist eine Stichprobenfunktion, um einen oder mehrere Parameter ai der Grundgesamtheit zu
bestimmen. Die Schätzung des Parameters ai durch eine Stichprobenfunktion wollen wir mit
â bezeichnen. Wir wollen nun die folgenden Eigenschaften einer Schätzung definieren:
• Eine Schätzung heisst erwartungstreu oder unverzerrt, wenn bei beliebigem Umfang
der Stichprobe der Erwartungswert der (zufälligen) Grösse gleich dem zu schätzenden
Parameter ist: < â >= a. In diesem Falle spricht man auch von einem unbiased esimate.
Eine Schätzung ist verzerrt oder biased, wenn < â >= a + b ist. Die Zahl b heisst auch
der bias der Schätzung.
• Eine Schätzung heisst konsistent, wenn limn→∞ â = a.
• Eine Schätzung heisst effizient, wenn die Varianz von â möglichst klein ist.
• Ferner muss eine Schätzung robust gegenüber falschen Daten oder falschen Voraussetzungen sein.
6.2
6.2.1
Stichprobenfunktionen für kontinuierliche Verteilungen
Schätzung des Mittelwerts
Die Schätzung des Mittelwerts µ einer Wahrscheinlichkeitsdichte anhand von n unabhängigen
Stichprobenelementen xi ist gegeben durch:
µ̂ =
1X
xi
n i
(6.1)
Diese Schätzung ist erwartungstreu. Sie ist ausserdem konsistent aufgrund des zentralen
Grenzwertsatzes. Ihre Varianz ist gegegen durch:
V (µ̂) =
1 2
σ
n
(6.2)
Ob die Schätzung des Mittelwertes effizient ist, hängt von der genauen Wahrscheinlichkeitsdichte der Grundgesamtheit ab. Bei einer uniformen Verteilung ist die effektivste Schätzung
des Mittelwertes durch µ̂ = 0.5(xmax +xmin ) gegeben, die eine noch kleinere Varianz aufweist.
Die Robustheit der Schätzung aus Gleichung 6.2 kann durch Benutzung des getrimmten
Mittelwerts sogar noch erhöht werden. Dabei wird der Mittelwert durch Abschneiden bzw.
Weglassen der grössten und kleinsten Werte bestimmt.
33
6.2.2
Schätzung der Varianz
Als Schätzung der Varianz einer Grundgesamtheit bei unbekannten (wahren) Mittelwert
eignet sich die folgende Stichprobenfunktion s2 :
s2 = σˆ2 =
1 X
(xi − µ̂)2
n−1
(6.3)
1
Mit µ̂ ist wiederum der geschätzte Mittelwert aus Gleichung 6.2 gemeint. Der Faktor n−1
in
P
1
02
der obigen Gleichung verwirrt zunächst etwas. Im Gegensatz zu der Grösse s = n (xi − µ̂)2
ist die Schätzung s2 jedoch unverzerrt (unbiased). Man kann leicht zeigen, dass < s02 >=
n−1 2
2
2
2
n σ 6= σ , während < s >= σ ist. Falls aber der Mittelwert µ der Grundgesamtheit
bekannt ist und daher nicht geschätzt werden braucht, ist die Schätzung s02 für die Varianz
σ 2 der Grundgesamtheit eine erwartungstreue Stichprobenfunktion:
s02 =
1X
(xi − µ)2 =< x2 > −µ2
n
(6.4)
Die Varianz des Estimators s2 kann berechnet werden als:
V ar(s2 ) =
n−3 2
1
µ4 −
µ ,
n
n−1 2
(6.5)
wobei µk das k-the zentrale Moment ist. In einfacher Weise können auch die zentralen
Momente µk abgeschätzt werden als:
1 X
(xi − µ̂)k
n−1
(6.6)
n
1 X
(xi − x̄)(yi − ȳ) =
(xy
¯ − x̄ȳ)
n−1
n−1
(6.7)
µˆk =
6.2.3
Schätzung der Kovarianz
Die Grösse
Vˆxy =
ist eine erwartungstreue Schätzung für die Kovarianz Vxy von zwei Zufallsvariablen x und
y mit unbekannten (aber geschätzten) Mittelwerten. Der Korrelationskoeffizient ergibt sich
dann zu
Vˆxy
ρxy =
(6.8)
sx sy
6.3
6.3.1
Die Maximum-Likelihood Methode
Die Likelihood-Funktion
Es liegen n Messungen der Zufallsvariablen x vor. Die den Messwerten xi zugrundeliegende
Wahrscheinlichkeitsdichte f (x|a) soll bekannt sein. Hierbei steht a für einen oder mehrere
unbekannte Parameter, von denen die Wahrscheinlichkeitsdichte abhängt. Unsere Aufgabe
besteht wiederum darin, die beste Schätzung â des Parameters aus den vorliegenden Messdaten zu gewinnen.
34
Die Maximum-Likelihood-Methode geht von der ein- oder mehrdimensionalen Wahrscheinlichkeitsdichte f (x|a) der gemessenen Werte aus und bildet die Likelihood-Funktion8 :
L(a) = f (x1 |a) · f (x2 |a) · · · f (xn |a) =
Y
f (xi |a)
(6.9)
Die Funktion L(a) ist für eine gegebene Stichprobe eine Funktion der Parameter a und
gibt die Wahrscheinlichkeit an, bei einer vorgegebenen Wahl der Parameter a gerade die
Messwerte xi zu erhalten. Die Likelihood-Funktion ist aber keine Wahrscheinlichkeitsdichte
in den Parametern a.
Nach dem Maximum-Likelihood-Prinzip ist nun die beste Schätzung von a derjenige Wert
â welcher L(a) zu einem Maximum macht, d.h. gerade die Wahrscheinlichkeit maximiert, den
beobachteten Satz von Zufallsgrössen xi zu erhalten:
L(a) = Maximum
Z
f (x|a) = 1 ∀a
(6.10)
(6.11)
Hierbei ist wichtig, dass die Normierung von f (x|a) in jedem Schritt aufrecht erhalten werden
muss. Das Maximum wird nun durch Differenzieren gewonnen, d.h. dL(a)/da = 0 oder für
mehrere Parameter ak : ∂L/∂ak = 0 ∀k.
In der Praxis arbeitet man mit dem Logarithmus der Likelihood-Funktion l(a) = ln L(a);
sie heisst Log-Likelihood Funktion. Da der Logarithmus eine monoton anwachsende Funktion
ist, hat er sein Maximum an derselben Stelle und die Bedingung wird zu:
l(a) = ln L(a) =
X
ln f (xi |a) = Maximum.
(6.12)
Als Beispiel wollen wir eine Wahrscheinlichkeitsdichte betrachten, die durch f (x|a) =
1 + a(x − 0.5) mit x zwischen 0 und 1 gegeben ist. Die uns zur Verfügung stehenden Daten xi
seien 0.89, 0.03, 0.5, 0.36 und 0.49. Der Log-Likelihood der obigen Funktion ist dann gegeben
durch
l(a) =
5
X
ln(1 + a(xi − 0.5))
(6.13)
i=1
und ist in Figur 6.1 dargestellt. Das Maximum des Log-Likelihoods kann graphisch zu -0.6
bestimmt werden.
6.3.2
Einfache Anwendungen der Maximum-Likelihood Methode
Exponentieller Zerfall:
Als Anwendung einer Maximum-Likelihood (ML) Schätzung wollen wir einen exponentiellen
Zerfall betrachten. Ein instabiles Teilchen mit Lebensdauer τ zerfällt gemäss einem Exponentialgesetz:
1
f (t; τ ) = e−t/τ
(6.14)
τ
8
Eine deutsche Übersetzung wird dadurch erschwert, dass likelihood ebenso wie probability einfach
Wahrscheinlichkeit heisst. Es gibt aber einen fundamentalen Unterschied zwischen einer echten analytischen Wahrscheinlichkeitsdichtefunktion und einer Likelihood-Funktion. Letztere ist eine Stichprobenfunktion
und demnach auch eine Zufallsgrösse
35
Figure 6.1: Die Log-Likelihood Funktion aus Gleichung 6.13
Uns interessiert nun der ML-Schätzwert für die mittlere Lebensdauer τ̂ , wenn n Teilchenzerfälle mit Werten ti gemessen wurden. Die Log-Likelihood Funktion ist daher
ln L(τ ) = l(τ ) =
X
f (ti ; τ ) =
X
(ln
i
i
1 ti
− )
τ
τ
(6.15)
Eine Maximierung bezüglich τ ergibt die ML Schätzung τ̂ :
τ̂ =
1X
ti
n i
(6.16)
Als ML Schätzung ergibt sich somit der Mittelwert. Ferner kann leicht gezeigt werden, dass
die ML Schätzung in diesem Fall erwartungstreu ist.
Gaussverteilung:
Die Gauss-Wahrscheinlichkeitsdichte ist
−
1
f (xi ; µ) = √
·e
2πσi
(xi −µ)2
2σ 2
i
(6.17)
Um eine ML-Schätzung für den Mittelwert µ̂ zu bekommen, bilden wir wiederum die LogLikelihood Funktion:
l(µ) =
X
i
1
1
1
(xi − µ)2
ln √ + ln 2 −
2σi2
2π 2 σi
!
(6.18)
Eine Ableitung nach µ und Bestimmung des Maximums ergibt:
dl(µ)
dµ
=
X xi − µ
σi2
i
2
i xi /σi
1/σi2
=0
(6.19)
P
µ̂ =
36
(6.20)
Dies ist aber genau der gewichtete Mittelwert, den wir bereits im vorigen Kapitel kennengelernt haben. Falls die xi dieselben σi besitzen vereinfacht sich natürlich die Gleichung zu
P
µ̂ = n1 i xi . Ferner können wir im Falle derselben σi = σ die Likelihood-Methoe benutzen,
um eine Schätzung der Varianz σˆ2 zu erhalten. Die ML Methode ergibt dann
1X
σˆ2 =
(xi − µ̂)2
n i
(6.21)
Dieser ML Estimator ist jedoch nicht erwartungstreu, wie wir bereits vorher gesehen haben.
Allerdings geht der bias für n → ∞ gegen null. Die unverzerrte Schätzung der Varianz ist
durch
1 X
s2 =
(xi − µ̂)2
(6.22)
n−1 i
gegeben.
Poisson-Verteilung:
Die Log-Likelihood Funktion für die Poisson-Verteilung ist gegeben durch
l(µ) =
X
i
ln
X
µxi −µ
xi − nµ + const
e = ln µ ·
xi !
i
(6.23)
Ableiten von l(µ) nach µ und gleich null setzen ergibt als Schäztwert für den Mittelwert einer
P
Poisson-Verteilung µ̂ = n1 i xi .
6.3.3
Eigenschaften der Maximum Likelihood Methode
Wir wollen an dieser Stelle einige wichtige Eigenschaften von Likelihood und ML Methode
aufzeigen. Für allgemeine Schätzungen (nicht nur für die ML-Methode) kann gezeigt werden,
dass
∂b
1 + ∂a
< (â − a)2 > = V (â) ≥ R
(6.24)
n (∂l/∂a)2 f (x|a)dx
gilt. Diese Ungleichung wird als Rao-Cramer-Frechet Grenze oder auch Informationsungleichung genannt und gibt eine untere Schranke für die Varianz einer Schätzung. Der Nenner
in der Ungleichung 6.24 heisst auch die Information bezüglich des Parameters a. Je grösser
demnach die Information über die Stichprobe ist, desto kleiner ist seine Varianz. Im Falle des
Gleichheitszeichens besitzt der Schätzwert die kleinstmögliche Varianz. Man spricht dann von
einer effizienten Schätzung. Für die ML Methode kann in den allermeisten Fällen folgendes
gezeigt werden: Wenn es einen effizienten Schätzwert für ein gegebenes Problem gibt, dann
wird er durch die ML Methode gefunden. Dieser Schäztwert besitzt dann die kleinstmögliche
Varianz gemäss der Rao-Cramer-Frechet Schranke, d.h. die Varianz des Schätzwertes ist
durch den rechten Ausdruck der Gleichung 6.24 gegeben. Man sagt dann auch, dass der
Schätzwert die minimale Varianz hat und spricht von einer Minimalschätzung.
Wie wir bereits im Falle der Varianzschäztung bei der Gaussverteilung gesehen haben,
sind die ML-Schätzungen jedoch nicht immer erwartungstreu bzw. unverzerrt. Dies kann
nicht oft genug betont werden. Erst im Grenzwert n → ∞ wird die ML-Schätzung auch
erwartungstreu, d.h. der bias verschwindet. Man spricht daher bei der ML-Methode von
einer asymptotisch unverzerrten Schätzung. Ferner liefert die ML Methode gewöhnlicherweise
37
konsistente Schätzwerte, d.h. limn→∞ â = a. Die Tatsache, dass nicht alle ML Schätzungen
erwartungstreu sind, hat etwas mit der Invarianz der ML Schätzwerte zu tun, wenn eine
Parametertransformation durchgeführt wird. Dies bedeutet, dass es für die ML Methode
keinen Unterschied macht, ob man den Parameter a oder eine Funktion f (a) schätzt, d.h.
ˆ = f (â).
f (a)
6.3.4
Fehlerberechnung bei der ML Methode
Wir beginnen mit dem Fall eines Parameters und entwickeln die (negative) Log-Likelihood
Funktion um a = â:
1 d2 F
· (a − â)2 + · · ·
2 da2
!
!
2
1 d2 F
(a
−
â)
L(a) = const · exp − ·
(a − â)2 = const · exp −
2 da2
2σ 2
− ln L(a) = F (a) = F (â) +
(6.25)
(6.26)
Die Likelihood-Funktion hat in dieser Grenze in der Nähe des Maximums die Form einer
Gauss-Verteilung. Durch den Vergleich mit den Exponenten findet man:
σ(â) =
d2 F da2 a=â
!−1/2
(6.27)
Die negative Log-Likelihood-Funktion hat die Form einer Parabel und ihre zweite Ableitung
ist eine Konstante. Der Wert von F (a) um das Minimum bei a = â ± n · σ ist
1
F (â ± n · σ) = F (â) + n2
2
(6.28)
Dies bedeutet, dass der Log-Likelihood für ±1σ um ±0.5 vom Maximum abgefallen ist und
für ±2 (3)σ entsprechend um ±2 (9/2). Damit können die Fehler eines Schätzwerts â leicht
aus einem Graphen der Log-Likelihood Funktion bestimmt werden. Die Gesamtwahrscheinlichkeit, die in den Konfidenzintervallen â ± σ oder allgemein â ± nσ enthalten ist, kann
aus der Gauss-Verteilung berechnet werden. Wenn die tatsächliche Log-Likelihood-Funktion
ein parabolisches Verhalten aufweist, kann somit die Standardabweichung leicht aus obiger
Gleichung bestimmt werden. Ist der Grenzfall N → ∞ noch nicht erreicht, ist die LikelihoodFunktion noch nicht gauss-förmig und die Log-Likelihood-Verteilung daher nicht parabolisch.
Man muss dann eine nichtlineare Transformation der Variablen a in eine Variable z = z(a)
suchen, so dass F (z) ein parabolisches Verhalten aufweist. Erst wenn diese Transformation gefunden ist, kann man mit dem obigen Verfahren eine Standardabweichung σz von z
bestimmen.
Wegen der Invarianzeigenchaft der ML Schätzungen ist die beste Schätzung ẑ = z(â).
Ferner gelten folgende Identitäten:
1
= F (â) +
2
1
F (ẑ − σz ) = F (ẑ) + = F (â) +
2
F (ẑ + σz ) = F (ẑ) +
38
1
= F (â) + σr
2
1
= F (â) − σl
2
wobei σl und σr die links- und rechtsseitigen Standardabweichungen für den Parameter a
r
sind. Das Resultat einer Likelihood-Anpassung wird dann in der Form x+σ
−σl angegeben.
Eine oft in der Praxis benutzte Methode die Standardabweichung oder Varianz eines
Parameters abzuschätzen, ist die MC-Methode. Dabei wird eine grosse Anzahl von Experimenten simuliert und der ML-Schätzwert jedesmal berechnet. Aus den so ermittelten
Schätzwerte der MC-Experimente kann dann die Varianz berechnet werden. Dazu benutzt
man am besten den unbiased estimator s2 der Varianz aus Gleichung 6.3. Als ”wahrer” Wert
von a zur Erzeugung der MC-Ereignisse kann der aus den Daten gewonnene ML-Schätzwert
benutzt werden.
Im Falle mehrerer Parameter a1 , a2 , . . . , am ist die Likelihood-Funktion durch
L(a1 , a2 , . . . , an ) =
n
Y
f (xi ; a1 , a2 , . . . , am )
(6.29)
i=1
gegeben. Entwickelt man die negative Log-Likelihood-Funktion um ihr Minimum bei â, so
erhält man, da bei a = â die ersten Ableitungen verschwinden:
F (a1 , . . . , am ) = F (â1 , . . . , âm ) +
= F (â1 , . . . , âm ) +
1 X ∂2F
(ai − âi )(ak − âk ) + · · ·
2 i,k ∂ai ∂ak
(6.30)
1X
Gik (ai − âi )(ak − âk ) + · · ·
2 i,k
(6.31)
Asymptotisch nähert sich die Likelihood-Funktion L(a) = exp(−F (a)) einer Gauss-Wahrscheinlichkeitsdichte
für die Variablen âi an. Die Kovarianzmatrix des Vektors a ist dann gegeben durch
V
Gik
= G−1
∂2F
=
∂ai ∂ak
(6.32)
(6.33)
gewonnen am Minimum â. Im Falle von zwei Parametern zeichnet man Konturlinien als
Linien gleicher Likelihood-Werte F (a) = F (â) + 1/2r2 . Im Falle grosser Datenmengen, d.h.
n → inf ty wird die Funktion eine zweidimensionale Gaussverteilung und die Konturlinien
für ∆F = 0.5 entsprechen Ellipsen deren grossen Halbachsen die 1σ Fehler repräsentieren.
Als Beispiel schauen wir uns erneut die Gaussverteilung an, um die beiden Parameter
Standardabweichung σ und Mittelwert µ mittels der ML-Methode abzuschätzen. Die LogLikelihood-Funktion ist
ln L =
X
i
1
1
1
(xi − µ)2
ln √ + ln 2 −
2σi2
2π 2 σi
!
(6.34)
Um die Varianzen von µ und σ zu berechnen werden die zweiten Ableitungen an den Stellen
µ = x̄ und σ 2 = x¯2 − µ2 gebildet. Dies ergibt dann
∂ 2 ln L
> = −N/σ 2
∂µ2
∂ 2 ln L
<
> = −2N/σ 2
∂σ 2
P
∂ 2 ln L
2 < xi − µ >
<
> = −
=0
∂µ∂σ
σ3
<
39
Da die Matrix diagonal, kann die Inversion leicht durchgeführt werden. Die Kovarianz ist
null und es ergeben sich folgende Ausdrücke:
∂ 2 ln L −1
> = σ 2 /N
∂µ2
∂ 2 ln L −1
V (σ) = − <
> = σ 2 /2N
∂σ 2
V (µ) = − <
6.3.5
Erweiterte Maximum-Likelihood-Methode
In der Standard ML-Methode müssen die Wahrsscheinlichkeitsdichten korrekt auf eins normiert
sein. In der Methode des erweiterten ML (EML) wird diese Bedingung aufgehoben und
benutzt anstelle ein Integral über eine Wahrscheinlichkeitsdichte deren Normierung nicht
festgelegt ist. Dies ist zum Beispiel bei Problemen der Fall, wenn die mittlere Anzahl von
Ereignissen ν bei Zählexperimenten selbst ein Parameter ist, den es zu bestimmen gilt. Die
EML Likelihood-Funktion ist dann gegeben durch
L(ν, a) =
n
n
ν n −ν Y
e−ν Y
f (xi ; a) =
νf (xi ; a)
e
n!
n! i=1
i=1
(6.35)
Dies ist die normale Likelihood-Funktion mit einer korrekt normierten Wahrscheinlichkeitsdichte f (xi ; a) multipliziert mit der Poisson-Wahrscheinlichkeit n Ereignisse bei ν erwarteten
zu erhalten. Wir unterscheiden nun zwei Fälle: Im Fall 1) soll der Parameter ν selber von a
abhängen und im Fall 2) nicht. Zunächst nehmen wir Fall 1) an. Die EML Log-Likelihood
Funtkion kann dann geschrieben werden als
ln L(a) = n ln ν(a) − ν(a) +
n
X
ln f (xi ; a)
(6.36)
i=1
= −ν(a) +
n
X
ln(ν(a)f (xi ; a)
(6.37)
i=1
wobei additive Terme die nicht von den Parametern abhängen weggelassen wurden. Durch
Berc̈ksichtigung des Poisson-Terms in der EML-Funktion werden beim Abschätzen der Parameter â sowohl Informationen aus den xi als auch von n benutzt, so dass die resultierende
Varianz in der Regel kleiner wird. Zur Anschauung betrachten wir eine Teilchenreaktion,
bei der die erwartete Anzahl von Ereignissen durch einen Reaktionsquerschnitt σ, eine Luminosität L und eine Nachweiswahrscheinlichkeit gegeben ist: ν = σ · L · . Sowohl der
Reaktionsquerschnitt σ als auch die zur Beschreibung benutze Ereignisvariable x mögen nun
von einer ganzen Reihe von Parametern wie Teilchenmassen oder Kopplungen abhängen.
Die Standardabweichung der mit der EML-Methode geschätzen Parameter entspricht nun
den Fluktuationen der Schätzwerte, die man erhielte, wenn man zahlreiche Experimente
durchführen würde, bei denen die Luminosität und nicht die Anzahl der beobachtbaren
Ereignisse festhalten wird.
Im anderen Fall existiert kein funktionaler Zusammenhang zwischen ν und a. Die Ableitung
der Gleichung 6.35 und nullsetzen ergibt dann als Schätzwert schlicht ν̂ = n, wie es zu erwarten ist. Durch Gleichsetzen der Ableitung bezüglich den ai von Gleichung 6.35 erhalten
40
wir als Schätzwerte für âi dasselbe wie in der normalen ML-Methode. Trotzdem wäre die
Varianz der âi jetzt grösser, da sowohl â als auch n Quellen von statistischen Unsicherheiten
sind.
6.3.6
Binned Maximum Likelihood
Zur Bildung der Likelihood-Funktion wird normalerweise auf alle zur Verfügung stehenden
Datenpunkte xi zurückgegriffen. Die ML-Methode hat den Vorteil, dass sie unbinned ist und
daher im Prinzip kein Informationsverlust durch Einteilung der Daten in bins (Klassenintervalle) entsteht. Existieren aber grosse Datenmengen, ist es numerisch vorteilhafter, die Daten
in Klassenintervalle einzuteilen und in Form von Histogrammen zu präsentieren. Wir nehmen
an, dass die Zufallsvariablen xi gemäss einer Wahrscheinlichkeitsdichte f (xi ; a) verteilt seien.
Unsere Aufgabe besteht nun darin, die Wahrscheinlichkeitsdichte f (xi ; a) an die Zahl der
Datenpunkte in jedem Klassenintervall i anpassen. Der Erwartungswert ν = (ν1 , . . . , νN ) für
die Anzahl der Einträge pro Bin i ist gegeben durch:
Z
νi = ntot =
xmax
i
xmin
i
f (x; a)dx
(6.38)
Hierbei sind xmin
und xmax
die Grenzen des Bins i. Wir können das Histogramm als eine
i
i
Art Einzelmessung eines N -dimensionalen Zufallsvektors ansehen für den die kombinierte
Wahrscheinlichkeitsdichte durch eine multinomiale Verteilung gegeben ist:
fkomb (n; ν) =
ntot !
n1 ! · · · nN !
ν1
ntot
n
···
1
νN
ntot
n
(6.39)
N
Dadurch drücken wir die Wahrscheinlichkeit in bin i durch den Erwartungswert νi dividiert durch die gesamte Anzahl ntot der Einträge aus. Der Logarithmus der kombinierten
Wahrscheinlichkeit ergibt nun die Log-Likelihood Funktion (hierbei sind Terme, die nicht
von den interessanten Parametern abhängen weggelassen):
l(a) =
N
X
ni ln νi (a)
(6.40)
i=1
Nun werden die Schätzwerte für â wie gewöhnlich durch Maximierung von l(a) gefunden.
Im Limit kleiner bins oder sehr grosser N wird die Likelihood-Funktion dieselbe wie im
gewöhnlichen (unbinned) ML Fall ohne Klassenintervalleinteilung. Dadurch ist die binned
Likelihood-Funktion universell verwendbar, auch wenn die Einträge in einigen bins null sind.
6.3.7
Kombination von Messungen mit der ML Methode
In diesem Kapitel wollen wir uns kurz damit beschäftigen, wie man mittels der ML Methode
Messungen miteinander kombiniert. Angenommen wir haben einen Satz von n gemessenen
Datenpunkten mit Wahrscheinlichkeitsdichte f (x; a). Ferner liegt ein zweiter Datensatz (eines
zweiten Experiments) mit m gemessenen Datenpunkten yi vor, die gemäss einer Wahrscheinlichkeitsdichte g(y; a) verteilt sein sollen. Die Wahrscheinlichkeitsdichte g(y; a) kann zwar
eine andere andere funktionale Form als f habe, sie soll aber dennoch vom selben Parameter
a abhängen. Als Beispiel kann der Parameter a eine Teilchenmasse sein.
41
Die beiden Experimenten können nun zusammen als ein Einzel-Experiment interpretiert
werden und ihre kombinierte Likelihood-Funktion ist dann:
L(a) =
n
Y
f (xi ; a) ·
i=1
m
Y
g(yi ; a) = Lx (a) · Ly (a)
(6.41)
i=1
Die Likelihood-Gesamtfunktion ist also das Produkt der Einzellikelihood-Funktionen. Alternativ ist der kombinierte Log-Likelihood die Summe der einzelnen Log-Likelihoods: ln L(a) =
ln Lx (a) + ln Ly (a). Solange also die Likelihood-Funktionen von Einzelexperimenten bekannt
sind, können wir die Gesamtfunktion auf einfache Weise konstruieren, um dann den ML
Schätwert des Parameters a zu bestimmen.
Wenn die einzelnen Likelihood-Funktionen nicht bekannt sind, sondern nur die Schätzwerte
der Parameter a, namentlich âf und âg , die ihrerseits wieder Zufallsvariablen mit Wahrscheinlichkeitsdichten f (âf ; a) und g(âg ; a) sind, können die beide Schätzwerte wiederum als Ergebnis eines kombinierten Experimentes aufgefasst werden. Solange die beiden Schätzwerte unabhängig sind, ist ist die Log-Likelihood-Funktion gegeben durch:
ln L(a) = ln f (âf ; a) + ln g(âg ; a)
(6.42)
Da für grosse Datenmengen die Wahrscheinlichkeitsdichten f (âf ; a) und g(âg ; a) als Gauss
verteilt angenommen werden können und die Varianz-Abschätzungen V̂ (âf ) und V̂ (âg ) der
Einzelmessungen vorliegen, ergeben sich mittels der ML-Methode wiederum folgende Ausdrücke
für die beste Schätzung â und seine Varianz V̂ (â) aus den beiden kombinierten Messungen:
â =
V̂ (â) =
âf /σ̂â2f + âg /σ̂â2g
1/σ̂â2f + 1/σ̂â2g
1/σ̂â2f
1
+ 1/σ̂â2g
D.h. es ergibt sich wieder die Gleichung für den gemittelten Mittelwert und seine Varianz.
Natürlich kann die obigen Gleichung auch auf beliebig viele Messungen verallgemeinert werden.
42
7
Methode der kleinsten Quadrate - Least Square
43
8
Vertrauensintervalle
44
9
Hypothesentests
45
10
Blindstudien
46
11
Parametrisierung von Daten
11.1
Orthogonale Polynome
11.2
Splines
47
12
Entfaltung
48
Herunterladen