Praktische Datenanalyse in der Experimentalphysik

Praktische Datenanalyse in der Experimentalphysik
(Vorlesungsnummer 2563)
Modulcode: PHY232, Kreditpunkte 2
Dozenten: Frank Lehner und Christian Regenfus
Art und Ort der Veranstaltung: Vorlesung mit Übungen (Mittwoch 14-17h,
36J23)
Zielgruppe: Studierende ab 3. Semester Physik
Einordnung: Die Vorlesung soll die Grundlagen auf dem Gebiet der statistischen
Behandlung und Interpretation von Datenmengen legen und einen Ausblick auf aktuelle
statistische Methoden der Datenanalyse in der Teilchenphysik geben. Die Übungen
werden mit Matlab behandelt und dienen zur Vertiefung. Der vorgehende Besuch der
Datenanalyse Vorlesung (PHY231) im Sommersemester ist empfehlenswert, aber nicht
Bedingung.
Grundkenntnisse: Mathematische Grundkenntnisse wie sie in den ersten Semestern
des Grundstudiums erworben werden. Dazu gehören Vektor- und Matrizenrechnungen,
Differential- und Integralrechnung. Eine Erfahrung im Umgang mit Computern und
insbesondere mit Matlab ist erwünschenswert.
Leistungsnachweis: Beteiligung an Präsenzübungen sowie 50% erreichte Punktzahl bei der Klausur.
Literatur:
• R. Barlow: ”Statistics: A Guide to the Use of Statistical Methods in the Physical
Science” Wiley Verlag.
• B. Roe: ”Probability and Statistics in Experimental Physics.” Springer Verlag.
• V. Blobel und E. Lohrmann: ”Statistische und numerische Methoden in der Datenanalyse.”, Teubner Verlag.
• H. Pruys: http://www.physik.unizh.ch/people/pruys/Datenanalyse.html
1
Contents
1 Grundlegende Konzepte der Wahrscheinlichkeit
1.1 Zufälligkeit . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
1.2 Wahrscheinlichkeit . . . . . . . . . . . . . . . . . . . . . . . . . . . .
1.2.1 Definition über Häufigkeiten (Frequentistendefinition) . . . .
1.2.2 Mathematische Definition . . . . . . . . . . . . . . . . . . . .
1.2.3 Subjektive Wahrscheinlichkeit oder Definition der Bayesianer
1.2.4 Prior-Wahrscheinlichkeit . . . . . . . . . . . . . . . . . . . . .
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
1
1
1
2
2
3
3
2 Definitionen und Datenbeschreibung
2.1 Ereignisraum und Datentypen . . . . . . . . . . . . . . . . .
2.2 Weitere Definitionen . . . . . . . . . . . . . . . . . . . . . .
2.2.1 Die Verteilungsfunktion . . . . . . . . . . . . . . . .
2.2.2 Die diskrete Wahrscheinlichkeit . . . . . . . . . . . .
2.2.3 Die Wahrscheinlichkeitsdichtefunktion . . . . . . . .
2.3 Kombination von Wahrscheinlichkeiten und Bayes’ Theorem
2.4 Histogramme . . . . . . . . . . . . . . . . . . . . . . . . . .
2.5 Mittel- und Erwartungswerte . . . . . . . . . . . . . . . . .
2.6 Die Varianz und Standardabweichung . . . . . . . . . . . .
2.7 Höhere Momente . . . . . . . . . . . . . . . . . . . . . . . .
2.8 Kovarianzen . . . . . . . . . . . . . . . . . . . . . . . . . . .
2.9 Nützliche Ungleichungen . . . . . . . . . . . . . . . . . . . .
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
5
5
5
5
5
5
5
7
7
9
12
12
15
3 Wahrscheinlichkeitsverteilungen
3.1 Diskrete Verteilungen . . . . . . . . . . . . .
3.1.1 Kombinatorik . . . . . . . . . . . . . .
3.1.2 Bernoulli und die Binomial-Verteilung
3.1.3 Multinomialverteilung . . . . . . . . .
3.1.4 Poisson-Verteilung . . . . . . . . . . .
3.2 Kontinuierliche Verteilungen . . . . . . . . . .
3.2.1 Gauss- oder Normalverteilung . . . . .
3.2.2 χ2 -Verteilung . . . . . . . . . . . . . .
3.2.3 Log-Normal-Verteilung . . . . . . . . .
3.2.4 Gamma-Verteilung . . . . . . . . . . .
3.2.5 Student-Verteilung . . . . . . . . . . .
3.2.6 F-Verteilung . . . . . . . . . . . . . .
3.2.7 Weibull-Verteilung . . . . . . . . . . .
3.2.8 Cauchy-Verteilung . . . . . . . . . . .
3.2.9 Uniforme Verteilung . . . . . . . . . .
3.3 Charakteristische Funktion . . . . . . . . . .
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
16
16
16
16
17
19
21
21
23
23
24
24
24
25
25
25
26
4 Fehler
4.1 Der zentrale Grenzwertsatz . . . . . . . . . . . . . . . . . . . . . . . . . . . .
4.2 Arbeiten mit Fehlern . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
4.2.1 Averaging is good for you . . . . . . . . . . . . . . . . . . . . . . . . .
28
28
29
29
i
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
29
30
30
30
32
5 Monte Carlo, eine Methodik aus dem Spielkasino
5.1 Zufallsgeneratoren . . . . . . . . . . . . . . . . . . . . . . . . . . . .
5.2 Tests von Zufallsgeneratoren . . . . . . . . . . . . . . . . . . . . . . .
5.3 Beliebig verteilte Zufallszahlen . . . . . . . . . . . . . . . . . . . . .
5.3.1 Umkehrfunktion der kumulativen Verteilung . . . . . . . . . .
5.3.2 Brute Force Methode . . . . . . . . . . . . . . . . . . . . . .
5.3.3 Speziell verteilte Zufallszahlen . . . . . . . . . . . . . . . . .
5.4 Praktisches Vorgehen . . . . . . . . . . . . . . . . . . . . . . . . . . .
5.5 Monte Carlo Integration . . . . . . . . . . . . . . . . . . . . . . . . .
5.5.1 Integral als Summe von Funktionswerten an zufälligen Stellen
5.5.2 Varianzreduzierende Methoden . . . . . . . . . . . . . . . . .
5.5.3 Vergleich mit numerischer Integration . . . . . . . . . . . . .
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
34
35
38
39
39
40
41
43
43
44
44
45
6 Stichproben und Schätzungen
6.1 Eigenschaften von Schätzungen . . . . . . . . . . . . . . . . . . . .
6.2 Stichprobenfunktionen für kontinuierliche Verteilungen . . . . . . .
6.2.1 Schätzung des Mittelwerts . . . . . . . . . . . . . . . . . . .
6.2.2 Schätzung der Varianz . . . . . . . . . . . . . . . . . . . . .
6.2.3 Schätzung der Kovarianz . . . . . . . . . . . . . . . . . . .
6.3 Die Maximum-Likelihood Methode . . . . . . . . . . . . . . . . . .
6.3.1 Die Likelihood-Funktion . . . . . . . . . . . . . . . . . . . .
6.3.2 Einfache Anwendungen der Maximum-Likelihood Methode
6.3.3 Eigenschaften der Maximum Likelihood Methode . . . . . .
6.3.4 Fehlerberechnung bei der ML Methode . . . . . . . . . . . .
6.3.5 Erweiterte Maximum-Likelihood-Methode . . . . . . . . . .
6.3.6 Binned Maximum Likelihood . . . . . . . . . . . . . . . . .
6.3.7 Kombination von Messungen mit der ML Methode . . . . .
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
47
47
47
47
48
48
48
48
49
51
52
54
55
55
7 Weitere Schätzmethoden: Kleinste Quadrate - Least Square
7.1 Die Least Square Methode . . . . . . . . . . . . . . . . . . . . .
7.1.1 Anpassen einer Geraden . . . . . . . . . . . . . . . . . .
7.1.2 Berücksichtigung von systematischen Fehlern . . . . . .
7.1.3 Geradenanpassung bei Fehlern in beiden Variablen . . .
7.2 Das Anpassen von gebinnten Daten und die χ2 -Verteilung . . .
7.2.1 Lineare kleinste Quadrate und Matrix-Darstellung . . .
7.2.2 Nichtlineare kleinste Quadrate . . . . . . . . . . . . . .
7.3 Resampling-Techniken . . . . . . . . . . . . . . . . . . . . . . .
7.3.1 Jackknife . . . . . . . . . . . . . . . . . . . . . . . . . .
7.3.2 Bootstrap . . . . . . . . . . . . . . . . . . . . . . . . . .
7.4 Nichtparametrische Dichteschätzung . . . . . . . . . . . . . . .
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
57
57
57
59
60
60
62
64
64
65
65
66
4.3
4.2.2 Mittelwertbildung durch Gewichtung . . .
4.2.3 Fehlerfortpflanzung . . . . . . . . . . . . .
4.2.4 Funktionen einer Veränderlichen . . . . .
4.2.5 Funktionen mit meherern Veränderlichen
Systematische Fehler . . . . . . . . . . . . . . . .
ii
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
7.4.1
7.4.2
7.4.3
7.4.4
Allgemeine Kernschätzung . . . .
Abschätzung der Genauigkeit der
Optimale Wahl der Bandbreite .
Adaptierte Kernschätzung . . . .
. . . . . . . . .
Kernschätzung
. . . . . . . . .
. . . . . . . . .
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
66
68
70
71
8 Konfidenzintervalle
8.1 Klassisches Konfidenzintervall . . . . . . . . . . . . . . . . .
8.1.1 Konfidenzintervall in einer Dimension . . . . . . . .
8.1.2 Vertrauensintervalle für Gauss-verteilte Schätzwerte
8.1.3 Vertrauensintervalle in der Poissonstatistik . . . . .
8.2 Konfidenzlimits auf Basis der Likelihood-Funktion . . . . .
8.3 Konfidenzlimits im Bayes’ Ansatz . . . . . . . . . . . . . . .
8.3.1 Die Methode . . . . . . . . . . . . . . . . . . . . . .
8.3.2 Bemerkungen zum Prior . . . . . . . . . . . . . . . .
8.4 Vertrauensintervalle und systematische Fehler . . . . . . . .
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
72
72
72
73
74
77
78
78
79
80
9 Hypothesentests
9.1 Grundbegriffe und Ablauf eines Tests . . . . . . .
9.2 Verteilungsgebundene Hypothesentests . . . . . .
9.3 Tests einer einzelnen Hypothese - Goodness of fit
9.3.1 Der χ2 -Test . . . . . . . . . . . . . . . . .
9.3.2 Kolmogorov-Smirnov Test . . . . . . . . .
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
82
82
83
83
83
83
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
10 Blindstudien
85
11 Parametrisierung von Daten
11.1 Orthogonale Polynome . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
11.2 Splines . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
86
86
86
12 Entfaltung
87
iii
1
Grundlegende Konzepte der Wahrscheinlichkeit
There are three lies: lies, damned lies and statistics.
(Benjamin Disraeli)
Einige grundlegende Konzepte, die für die Statistik wichtig sind, sollen erläutert werden:
• Zufälligkeit
• Wahrscheinlichkeitsbegriffe:
– Posteriori-Wahrscheinlichkeit oder Frequentisten-Definition
– Axiomatische Definition
– Subjektive Wahrscheinlichkeit
– Prior-Wahrscheinlichkeit
1.1
Zufälligkeit
Ein guter Überblicksartikel über Zufälligkeit in klassischen System ist in J. Fords Artikel
“How random is a coin toss?” in der Zeitschrift Physics Today 40, April 1983 gegeben. Ich
halte mich mit den folgenden Überlegungen eng an seiner Argumentation.
Das klassische Beispiel für Zufälligkeit ist der Münzwurf mit dem Ereignisausgang Kopf
oder Zahl. Da es ein klassisches mechanisches System ist können wir den Ereignisausgang theoretisch mit Bewegungsgleichungen beschreiben. Wir kann aber der Aspekt der Zufälligkeit
aus einem im Prinzip deterministischen System enstehen?
Stellen wir uns daher ein Computerprogramm vor, das die Ereignisfolgen eines Münzwurfes
berechnen soll. Die Gesetze des Wurfes werden in Bewegungsgleichungen beschrieben, die
gewisse Anfangsbedingungen benötigen. Je mehr Münzwürfe wir vorhersagen wollen, um so
genauer müssen die Anfangsbedingungen festgelegt werden, obwohl die Diffferentialgleichungen eigentlich dieselben bleiben. Daher wird ab einer bestimmten Genauigkeit die Länge des
Programms durch die Anzahl der bits der Anfangsbedingungen bestimmt. Wenn aber die
Anzahl der bits in den Anfangsbedingungen die Zahl der Ausgabebits übersteigt, wird das
Computerprogramm unbrauchbar, um zukünftige Ergebnisse vorhersagen zu können. Wir
verlangen daher, um eine vernünftige Vorhersagekraft zu erhalten, dass die Anzahl der bits
im Computerprogramm geringer ist, als die Anzahl der bits in der Ausgabe.
Tatsächlich verlaufen viele physikalische Phänomene nach exponentiellen Gesetzen. Wenn
es also einen exponentiellen Anstieg in der Lösung unseres Problems gibt, müssen die Anfangsbedingungen extrem genau spezifiziert werden, so dass sehr schnell die Anzahl der bits in
den Anfangsbedingunen die Ausgabebits für die vorhergesagte Ereignisfolge Kopf oder Zahl
übersteigt. Typischerweise steigt die bit-Anzahl in den Anfangsbedingungen mit n, während
die Länge der vorhergesagten Ausgabe des Ereignisses nur mit log n wächst. Aus diesem
Grund kann ein Zufallsprozess aus einem klassischen deterministischen System entstehen.
1.2
Wahrscheinlichkeit
Es gibt mehrere Definitionen bzw Interpretationen der Wahrscheinlichkeit und des Wahrscheinlichkeitsbegriffes. Am formal strengsten ist natürlich die mathematische Definition, die eine
1
rein axiomatische Definition des Wahrscheinlichkeitsbegriffes beinhaltet und damit prinzipiell Regeln zur Manipulationen mit Wahrscheinlichkeiten beinhaltet. Über die eigentliche
Herleitung und Interpretation von Wahrscheinlichkeitsaussagen aus Daten (statistical interference) gibt es prinzipiell unterschiedliche Auffassungen, die sich in der Interpretation des
Wahrscheinlichkeitsbegriffs unterscheiden: Das sind zum einen die Frequentisten und die
Bayesianer1 . Wir werden also lernen, dass Wahrscheinlichkeitsrechnungen im streng formalen Sinn Mathematik sind, ihre Anwendungen und Interpretationen hingegen eher den
empirischen Wissenschaften zuzuordnen sind.
1.2.1
Definition über Häufigkeiten (Frequentistendefinition)
Die populärste Definition ist empirischer Natur und basiert auf dem Häufigkeitsbegriff, bzw.
auf dem Grenzwert von relativen Häufigkeiten. Wenn wir N identische Versuche machen, bei
denen das Ereignis E auftreten kann, und dabei n mal das Ereignis E tatsächlich auftritt,
ordnet man dem Ereignis E die Wahrscheinlichkeit p(E) durch die relative Häufigkeit des
Auftretens zu:
n
(1.1)
N →∞ N
Man nennt diese Definition auch die objektive Posteriori-Wahrscheinlichkeit, da die Wahrscheinlichkeit im nachhinein, d.h. nachdem die Versuchsausgänge bekannt sind, definiert wird. Das
Häufigkeits-Konzept ist unglaublich nützlich in der Praxis, hat aber einige Probleme:
p(E) = lim
1. Der Grenzwert existiert im strengen mathematischen Sinne nicht. Das liegt daran,
dass es keine deterministische Regel gibt die den Ausgang des Versuches n and den
Ausgang des Versuches n + 1 knüpft. Die Zufälligkeit der Versuche ist doch gerade
unsere Bedingung und ein Grenzwert kann daher im strengen Sinne nicht abgeleitet
werden.
2. Wie erhalten wir N identische Versuche? Langt es, wenn sie nur ähnlich sind? Nach
jedem Münzwurf nutzt sich die Münze etwas ab und sie ist beim i + 1-ten Wurf nicht
mehr identisch zum vorherigen Wurf i.
3. Niemand kann unendlich viele Versuchen durchführen. Wann konvergiert die Serie zum
Grenzwert?
1.2.2
Mathematische Definition
Sei S = E1 , E2 , E3 , . . . ein Satz möglicher Ereignisse eines Zufallsexperiments. Die Ereignisse
sind exklusiv, wenn sie nicht gleichzeitig als Resultat eines Zufallsexperimentes auftreten
können. Für jedes Ereignis Ei gibt es eine reelle Wahrscheinlichkeit p(Ei ), die folgende
Axiome2 (Kolmogorov) erfüllt:
• p(Ei ) ≥ 0
• p(Ei or Ej ) = p(Ei ) + p(Ej ), wenn Ei und Ej exklusiv sind
1
Thomas Bayes, Britischer Geistlicher, 1702-1761. Nach ihm ist das sogenannte Bayes’ Theorem benannt.
die Axiome sind in der einen oder anderen Form in vielen Mathematikbüchern zu finden. Wir begnügen
uns hier mit einer vereinfachten Version.
2
2
•
P
p(Ei ) = 1, wobei die Summe über alle möglichen exklusiven Ereignisse läuft.
Daraus kann sofort gefolgert werden, dass p(Ei ) ≤ 1.
Diese axiomatische Definition ist zwar schön aber leider in der Praxis bedeutungslos. Die
Axiome sagen uns nicht worum es bei Wahrscheinlichkeiten geht, was die Wahrscheinlichkeit
bedeutet, und welche Interpretationen damit einhergehen.
1.2.3
Subjektive Wahrscheinlichkeit oder Definition der Bayesianer
In der Schule der Bayesianer ist die Wahrscheinlichkeit definiert als eine Zahl, die die Plausabilität oder Glaubwürdigkeit einer Feststellung bzw. den Grad der Überzeugtheit von dieser
Feststellung misst. Es macht daher für die Bayesianer Sinn, nach einer Wahrscheinlichkeit
einer Hypothese zu fragen, was im Gegensatz zur Frequentisten-Definition der Wahrscheinlichkeit eigentlich keine Bedeutung hat. Die Bayes-Schule benutzt dieselben kombinatorischen
Regeln im Umgang mit Wahrscheinlichkeitswerten an wie die Frequentisten-Schule. Der
grosse Unterschied liegt darin, dass die Frequentisten Wahrscheinlichkeit als einen Zustand der
Natur interpretieren, während die Bayesianer Wahrscheinlichkeit als einen Zustand unseres
Wissens ansehen, so dass Wahrscheinlichkeiten auch unvermeidbar subjektiv werden. Demnach ist die Wahrscheinlchkeit eines Ereignisses p(E) von der dem Beobachter verfügbaren
Information I über das Ereignis abhängig. Die Funktion p(E) ist also keine echte intrinsische Funktion des Ereignisses, sondern hängt auch vom Wissen und der Information des
Beobachters ab. Erst wenn alle Beobachter dieselbe Information zur Verfügung haben, kann
man von einer objektiven Wahrscheinlichkeit sprechen.
Um die Begriffswelt im Bayesianer besser zu verstehen, folgen wir dem Beispiel aus G.
D’Agostini: A Bayesian Primer:
Was ist die Wahrscheinlichkeit, dass ein Stickstoffmolekül bei Raumtemperatur eine Geschwindigkeit zwischen 400 und 500 m/s hat? Die Antwort ist einfach: Wir nehmen die
Maxwell-Boltzmann Verteilung und integrieren, um eine Zahl zu bekommen. Was ist aber,
wenn wir fragen: Ich gebe Euch einen Behälter, eine Flasche mit Stickstoff sowie einen Detektor, der Geschwindigkeiten messen kann. Ihr müsst aber den Versuch selber aufbauen.
Was ist jetzt die Wahrscheinlichkeit, dass das erste Molekül, welches vom Detektor gemessen
wird, seine Geschwindigkeit zwischen 400 und 500 m/s hat? Jeder, der auch nur minimale
Experimentiererfahrung hat, würde mit einer Antwort zögern. Man würde am Experiment
erst einmal kleinere Studien und Überprüfungen durchführen. Danach würde man vielleicht
eine Antwort präsentieren. Und nachdem 10 Messungen durchgeführt wurden, könnte die
Antwort auf die Frage nach der Wahrscheinlichkeit vielleicht anders lauten.
Die Grundidee ist also, dass die Wahrscheinlichkeit einer Hypothese ein Mass für die
subjektive Überzeugtheit oder für den degree of belief ist. Dieses Überzeugtheitsmass kann
durch spätere experimentelle Messungen verändert werden.
1.2.4
Prior-Wahrscheinlichkeit
Die objektive Prior-Wahrscheinlichkeit wurde zuerst von Laplace eingeführt. Sie ist einfach
der Quotient aus der Anzahl der dem Zufallsereignis E günstige Fälle, N (E), und der Anzahl
der überhaupt möglichen und als gleichmöglich erachteten Fälle, N :
P (E) =
3
N (E)
N
(1.2)
Die Prior-Wahrscheinlichkeit ist die Wahrscheinlichkeit eines experimentellen Ereignisses, die
vor dem eigentlichen Experimentieren bestimmt oder abgeschätzt wird. Zum Beispiel wäre
1/6 dir richtige a priori Wahrscheinlichkeit für ein Würfelexperiment, dass die Augenzahl
4 auftaucht. Die Prior-Wahrscheinlichkeit kann in der Mathematik auch als geometrische
Wahrscheinlichkeit aufgefasst werden: Sei E ein Gebiet in der Ebene (oder allgemein in
einem Raum) mit endlichem Flächeninhalt FE und G ein Teilgebiet oder Teilmenge mit
Flächeninhalt FG . Die (geometrische) Wahrscheinlichkeit P (G) des Ereignisses, dass ein
zufällig auf E geworfener Punkt in G fällt, ist:
P (G) =
4
FG
FE
(1.3)
2
Definitionen und Datenbeschreibung
Nachfolgend einige Definitionen, die zum allgemeinen Sprachgebrauch der Statistik gehören.
2.1
Ereignisraum und Datentypen
Der Ereignisraum ist die Menge aller möglichen Ausgänge eines Experimentes. Eine Variable, die theoretisch jeden beliebigen Wert zwischen zwei gegebenen Werten im Ereignisraum
annehmen kann, wird stetige oder kontinuierliche Variable genannt. Andernfalls wird sie
diskrete Variable genannt.
Beispiel: Die Anzahl der Medaillen, die ein Land bei den olympischen Spielen holt, ist eine
diskrete Variable. Die Weite beim Speerwerfen ist natürlich eine kontinuierliche Variable.
Die Daten, die durch diskrete oder stetige Variablen beschrieben werden können, heissen
diskrete bzw stetige Daten.
2.2
2.2.1
Weitere Definitionen
Die Verteilungsfunktion
Wir definieren sie zuerst im eindimensionalen Raum, d.h. x sei der 1-dimensionale Ereignisraum. Die Verteilungsfunktion F (x0 ) ist die Wahrscheinlichkeit, dass bei einer Messung von
x ihr Wert kleiner oder gleich x0 ist. Ferner gilt natürlich F (−∞) = 0 und F (+∞) = 1. Die
Funktion F ist eine nicht-abfallende Funktion von x. Sie darf stetig oder unstetig sein, muss
aber glatt im Grenzwert ±∞ verlaufen.
2.2.2
Die diskrete Wahrscheinlichkeit
Für einen diskrete Ereignisraum definieren wir eine Wahrscheinlichkeit Pr , so dass der AusP
gang des Ereignisses r die Wahrscheinlichkeit Pr besitzt. Natürlich ist r Pr = 1.
2.2.3
Die Wahrscheinlichkeitsdichtefunktion
Die Wahrscheinlichkeitsdichtefunktion f ist einfach f (x) = dF (x)/dx. Die Angabe f (x0 )dx0
gibt somit die Wahrscheinlichkeit
an, dass x sich im Intervall zwischen x0 und x0 +dx0 befindet.
R +∞
Natürlich muss −∞ f (x0 )dx0 = 1 sein. Die Funktion F ist dimensionslos, die Funktion
f jedoch hat die Dimension 1/x. Ferner soll darauf hingewiesen werden, dass f (x) keine
Wahrscheinlichkeit darstellt, sondern nur f (x)dx.
p(x1 ≤ x ≤ x2 ) =
Z
x2
f (x0 )dx0 = F (x2 ) − F (x1 )
(2.1)
x1
Zum Zusammenhang zwischen f und F verweisen wir auf Figur 2.1.
2.3
Kombination von Wahrscheinlichkeiten und Bayes’ Theorem
Gegeben sind zwei Arten von Ereignissen A und B. Die Wahrscheinlichkeit für das Auftreten
von A ist P (A) und die entsprechende Wahrscheinlichkeit von B ist P (B). Dann ist die
5
KAPITEL 1. GRUNDLAGEN DER ST
f(x)
x1
F(x)
x2
x
1
0
x
1
x2
x
Figure 2.1: Eine Dichtefunktion f (x) sowie deren Verteilungsfuntion F (x) dergestalt, dass
f (x) = dF (x)/dx ist.
.2: Wahrscheinlichkeitsdichte (oben) und dazugehörige Verteilungsfunktio
6
Wahrscheinlichkeit, dass A oder B auftritt gegeben durch:
P (A oder B) = P (A) + P (B) − P (A und B)
(2.2)
Hierbei ist P (A und B) die Wahrscheinlichkeit, dass A und B zusammen auftreten. Falls
die Ereignisse A und B exklusiv sind, d.h. nicht zusammen auftreten können, gilt natürlich
P (A und B) = 0. Ferner gilt allgemein P (A und B) = P (A) · P (B|A) = P (B) · P (A|B). Man
nennt P (B|A) die bedingte Wahrscheinlichkeit, dass das Ereignis B auftritt, vorausgesetzt,
dass das Ereignis A ist eingetreten. Bei unabhängigen Ereignissen gilt P (B|A) = P (B),
d.h. das Auftreten von B hängt nicht von A ab, was auch durch P (A und B) = P (A) · P (B)
beschrieben wird.
Eine bedingte Wahrscheinlichkeit P (A|B) kann im diskreten Fall geschrieben werden als:
P (A|B) =
P (A) und P (B)
P (B)
(2.3)
Zum Beispiel ist die Wahrscheinlichkeit, dass ich einen beliebigen Amerikaner treffe, der Bush
gewählt hat (Ereignis A) unter der Bedingung, dass er aus dem Staate Ohio komme (Ereignis
B), gegeben durch die Wahrscheinlichkeit, dass er sowohl Bush gewählt hat wie auch aus Ohio
stammt normiert auf die Gesamtwahrscheinlichkeit, dass ein Amerikaner aus Ohio stammt.
Im kontinuierlichen Fall schreibt man für die bedingte Wahrscheinlichkeit
f1 (x1 |x2 ) =
f (x1 , x2 )
f2 (x2 )
(2.4)
wobei hier f2 (x2 ) die Wahrscheinlichkeitsdichte für x2 alleine ist.
Das Bayes’ Theorem erhält man nun aus P (A und B) = P (A) · P (B|A) = P (B) · P (A|B):
P (A|B) = P (B|A) ·
P (A)
P (B)
(2.5)
Im allgemeinen Fall von n-Ereignis-Klassen mit den Eigenschaften Ai lautet das Theorem:
P (B|Ai )P (Ai )
i P (B|Ai ) · P (Ai )
P (Ai |B) = P
2.4
(2.6)
Histogramme
Eine Häufigkeitsverteilung ist die tabellarische Anordnung von Daten sowie deren jeweilige
Häufigkeit in bestimmten Klassen oder Kategorien.
Im Beispiel der Tabelle 2.1 ist die Häufigkeitsverteilung oder Häufigkeitstabelle von Personen nach ihrem Gewicht gezeigt. Die Einteilung der Daten nach Gewicht geschieht in
Klassenintervallen oder in sogenannten bins. Ein Histogramm ist dann die Darstellung der
Häufigkeitsverteilung.
2.5
Mittel- und Erwartungswerte
Das arithmetisches Mittel
Das arithmetische Mittel x̄ ist der Mittelwert einer Menge von N Zahlen Xi :
7
Table 2.1: Die erste Häufigkeitsverteilung in der Vorlesung: Das Körpergewicht einer Personengruppe. Ganz allgemein: Ist das Körpergewicht von beliebigen Menschengruppen so wie
die Körpergrösse eigentlich Gauss-verteilt?
Gewicht (kg)
62-64
64-66
66-68
68-70
70-72
72-74
74-76
76-78
78-80
Anzahl der Personen
5
12
33
13
10
9
8
4
3
x̄ =
N
X
Xi /N
(2.7)
i=1
In vielen Fällen ist der arithmetische Mittelwert die sinnvollste Grösse, die man bilden
kann, wenn man mit nur einer einzigen Zahl eine Datenmege beschreiben möchte. Völlig
analog kann man einen Mittelwert von Funktionen bilden:
f¯ =
N
X
f (Xi )/N
(2.8)
i=1
Sind die N Datenpunkte durch eine Häufigkeitsverteilung in m Intervallen klassifiziert und
entspricht nj die Anzahl der Einträge im Intervall j, so gilt:
x̄ =
m
1 X
nj X j
N j=1
(2.9)
Erwartungswert einer Variablen
Ein wichtiger Parameter, der eine Wahrscheinlichkeitsdichte charakterisiert, ist der Erwartungsoder Mittelwert einer Variablen. Er ist für kontinuierliche Variablen x definiert als
Z
∞
< x >=
x0 f (x0 )dx0
(2.10)
−∞
und für diskrete Variablen r als
< r >=
X
ri P (ri )
definiert. Erwartungswerte für Funktionen h(x) sind durch < h >=
definiert. Der Erwartungswert ist ein linearer Operator, d.h. es gilt:
< a · g(x) + b · h(x) >= a < g(x) > + b < h(x) >
8
(2.11)
R
h(x0 )f (x0 )dx0
(2.12)
Im allgemeinen ist aber < f g >6=< f >< g >. Die Gleichheitszeichen gilt nur dann, wenn f
und g unabhängig sind.
Es gibt natürlich eine Parallele zwischen dem Mittel- oder Erwartungswert < x > und
dem (arithmetischen) Mittelwert x̄ einer Datenmenge. Ersterer ist eine Summe (oder Integral) über eine theoretische Wahrscheinlichkeitsdichte und letzterer ist eine Summe über
eine reale Datenmenge. Die Verbindung kann nun über die Frequentisten-Definition der
Wahrscheinlichkeit geknüpft werden, die aussagt, dass im Falle von N → ∞ die wahre
Wahrscheinlichkeitsverteilung durch die relativen Häufigkeiten bestimmt werden kann. Oder
anders formuliert: Wenn eine Datenmenge durch eine theoretische Verteilung beschrieben
wird, dann wird für N → ∞: x̄ =< x >.
Der Median
Der Median xmedian ist der Wert einer Häufigkeitsverteilung, der die Verteilung in zwei gleich
grosse Hälften teilt. Der Median ist oft ein nützlicher Parameter um Verteilungen zu charakterisieren. So werden z.B. Einkommensverteilungen am besten durch den Median beschreiben,
wie Figur 2.2 demonstriert.
Z
xmedian
f (x0 )dx0 = 0.5
(2.13)
−∞
Der Modus
Der Modus ist der Wert, der am häufigsten vorkommt, d.h. bei dem die Wahrscheinlichkeitsdichte f (x) ihr Maximum hat. Der Modus braucht natürlich nicht eindeutig sein.
Eine empirische Beziehung/Faustformel
Eine manchmal nützliche Beziehung (für unimodale, mässig schiefe Verteilungen), um einen
der drei Parameter Median, Modus und Mittelwert abzuschätzen, wenn die beiden anderen
bekannt sind, ist
Mittelwert − M odus = 3 × (M ittelwert − M edian).
(2.14)
Das harmonische Mittel
1/H = 1/N
X
(1/X)
(2.15)
Das harmonische Mittel ist niemals grösser als das arithmetische Mittel. Es kann zur Mittelwertbildung benutzt werden, wenn es um die Mittelung von Raten geht. Beispielsweise sei
die Geschwindigkeit einer Reise von A nach B x km/h und auf der Rückreise y km/h. Die
Durchschnittsgeschwindigkeit beträgt dann z = 2xy/(x + y).
Das Quartil
Wird die Datenmenge in zwei gleich grosse Teile geteilt, ist der Wert in der Mitte der Median.
Teilt man die Menge in vier gleich grosse Teile nennt man die jeweiligen vier Werte Quartile
Q1, Q2, Q3 und Q4. Der Wert Q2 entspricht dabei dem Median. Entsprechend kann auch
in zehn gleiche Teile (Dekantil) und hundert gleiche Teile (Zentil) geteilt werden.
2.6
Die Varianz und Standardabweichung
Die Erwartungswerte von xn und von (x− < x >)n werden n-te algebraische Momente µn
und n-te zentrale Momente µ0n genannt. Das erste algebraische Moment µ1 ist gleich dem
9
Figure 2.2: Das Einkommensverteilung von Amerikanern um das Jahr 1950. Die Bedeutung
von Mittelwert, Median und Modus wird ersichtlich. Welche der drei Grössen gibt wohl die
wichtigste Information an?
10
Erwartungswert < x >. Es wird oft einfach als µ bezeichnet. Das zweite zentrale Moment
(das erste ist natürlich Null) ist ein Mass für die Breite der Wahrscheinlichkeitsdichte und
wird als Varianz V (x) bezeichnet. Die Grösse σ nennt man Standardabweichung.
V (x) =< (x− < x >)2 >=< x2 > − < x >2 = σ 2
(2.16)
Es ist hierbei wichtig zu verstehen, dass wir die Grösse der Varianz bzw. der Standardabweichung über Erwartungswerte definieren. Dies ist die fundamentalere Definition
der Varianz. Sie kann aber nur dann bestimmt werden, wenn die ’wahre’ zugrundeliegende
Wahrscheinlichkeitsdichte der Grundgesamtheit bekannt ist. Da wir uns aber häufig mit
einer beschränkten Menge an Daten beschäftigen, die nur eine Teilmenge (Stichprobe) der
Grundgesamtheit repräsentiert, von der weder der Erwartungswert noch die Varianz genau
bekannt ist, ist es nützlich die Varianz s2 einer Datenmenge, die sogenannte StichprobenVarianz, zu definieren:
!2 

1 X
1 X 2
1
s2 =
(xi − x̄)2 =
xi −
N −1 i
N −1
N
i
X
xi

(2.17)
i
Der Wert s2 kann als beste Abschätzung der ’wahren’ Varianz der Grundgesamthwit
verstanden werden. Der Faktor N 1−1 anstatt des sonst üblichen N1 mag vielleicht etwas
verwirren. Wir werden diese Konfusion aber im Verlaufe der Vorlesung klären.
Zur numerischen Berechnung der Stichproben-Varianz wollen wir einige Anmerkungen
machen. Man kann die Varianz im Prinzip in zwei Schleifen über die Daten berechnen. In
P
der ersten Schleife wird die Summe Rx = i xi berechnet und dann das Stichprobenmittel
P
x̄. Dieses Mittel wird dann in der zweiten Schleife benutzt um die Summe Rxx = i (xi − x̄)2
zu bestimmen, woraus s2 = 1/(N − 1)Rxx folgt. Alternativ kann s2 auch in einer Schleife
P
P
über die Daten berechnet werden, wenn die Summen Sx = i xi und Sxx = i x2i gleichzeitig
gebildet werden und dann s2 = N 1−1 (Sxx − N1 Sx2 ) berechnet wird. Diese Methode hat sicherlich
Vorteile, wenn es auf Rechengeschwindigkeit ankommt. Es ist allerdings Vorsicht geboten,
da die Differenz zweier grossen Zahlen gebildet wird, was dann leicht zu Rundungsfehlern
führen kann. In diesem Fall ist es besser eine erste grobe Näherung xe für den Mittelwert
einzuführen, wie z.B. den ersten Wert x1 des Datensamples, um dann folgende Grössen zu
berechnen:
Tx =
X
(xi − xe )
i
Txx =
X
(xi − xe )2
i
Die Grössen x̄ und s2 werden dann wie folgt bestimmt:
x̄ = xe +
2
s
=
1
Tx
N
1
1
Txx − Tx2
N −1
N
11
2.7
Höhere Momente
Manchmal werden auch höhere Momente µn und µ0n benutzt, um Verteilungen zu kategorisieren. Die Schiefe γ oder skewness is normalerweise definiert als
γ1 = µ03 /σ 3 =
1
1
< x− < x >>3 = 3 (< x3 > −3 < x >< x2 > +2 < x >3 ).
σ3
σ
(2.18)
Die Grösse γ ist dimensionslos und charakterisiert die Schiefe. Sie beträgt null für symmetrische Verteilungen bzw. ist positiv oder negativ für unsymmetrische Verteilungen. Bei
der Schiefe muss man aufpassen, da es noch alternative Arten gibt, sie zu definieren. Manchmal wird die sogenannte Pearson’s skew als Schiefe bezeichnet, die gegeben ist durch:
P earson0 s skew =
mean − modus
σ
(2.19)
Ferner gibt es noch die Kurtosis γ2 = µ04 /σ 4 − 3, die ein Mass für die Art der Verteilung
an den Rändern im Bezug zum Maximum ist. Die Kurtosis ist dimensionslos aufgrund der
vierten Potenz im Nenner. Für eine Gauss-Verteilung ist sie null aufgrund des Terms mit
der Zahl 3, der deswegen extra eingeführt ist. Positive γ2 bedeuten ein grösseres Maximum
und weitere Ausläufer als eine Gauss-Verteilung mit denselben Werten für Mittelwert und
Varianz.
Einige der oben diskutierten Grössen sind in Tabelle 2.2 für die Maxwellsche Geschwindigkeitsverteilung
angegeben. Die Wahrscheinlichkeitsdichte des Betrags der Geschwindigkeit v der Moleküle
in einem idealen Gas bei der absoluten Temperatur T ist durch
3
f (v) = N · (m/2πkT ) 2 exp(−mv 2 /2kT ) · 4πv 2
(2.20)
gegeben. Dabei ist m die Molekülmasse und k die Boltzmannkonstante. Übung: BerechTable 2.2: Maxwellsche Geschwindigkeitsverteilung
Grösse
Modus (wahrscheinlichster Wert) vm
Mittelwert < v >
Median
RMS-Geschwindigkeit vrms
Wert
(2kT /m)1/2
(8kT /πm)1/2
vmedian = 1.098 · vm
(3kT /m)1/2
nen Sie aus den gegebenen Daten die Varianz σv2 . Zeichnen Sie die Verteilung für Stickstoff
bei T = 300K. Die Grössen sind k = 1.38 · 10−23 J/K, m = 4.65 · 10−26 kg.
2.8
Kovarianzen
Unabhängigkeit
Zwei Variablen sind unabhängig, genau dann wenn folgende Bedingung für die Verteilungsfunktion erfüllt ist:
F (x1 , x2 ) = F (x1 ) · F (x2 )
(2.21)
12
Man sagt, dass diese Variablen dann unkorreliert sind. Wenn diese Bedingung nicht erfüllt
ist, sind die Variablen abhängig und normalerweise miteinander korreliert.
Kovarianz
Die Kovarianz cov(x1 , x2 ) zwischen zwei Variablen ist definiert als
cov(x1 , x2 ) =< (x1 − < x1 >) · (x2 − < x2 >) >=< x1 x2 > − < x1 >< x2 >
(2.22)
Ferner gilt
V (x1 + x2 ) = V (x1 ) + V (x2 ) + 2 × cov(x1 , x2 )
(2.23)
Die Kovarianz kann durch den sogenannten Korrelationskoeffizienten ρx1 x2 ausgedrückt
werden:
cov(x1 , x2 ) = ρx1 x2
q
V (x1 )V (x2 )
(2.24)
Der Korrelationskoeffizient liegt zwischen +1 und -1. Wenn zwei Variablen voneinander
unabhängig sind, folgt ρx1 x2 = 0. Das Umgekehrte folgt aber nicht notwendigerweise. D.h.,
wir können ρx1 x2 = 0 haben und trotzdem sind x1 und x2 abhängig. Als Beispiel3 wollen wir
zwei Würfel betrachten. Die folgenden drei Zufallsvariablen seien definiert als:
• r sei 1, wenn Würfel 1 eine ungerade Augenzahl hat. Andererseits sei r = 0
• s sei 1, wenn Würfel 2 eine ungerade Augenzahl hat. Andererseits sei s = 0
• t sei 1, wenn die Summe der beiden Augenzahlen ungerade ist. Anderersets sei t = 0
Wir können zeigen, dass die Ereignisse paarweise unabhängig sind. Überraschenderweise
sind jedoch nicht die drei Variablen unabhängig. Wenn sowohl r = 1 als auch s = 1 eintritt,
folgt daraus zwingend t = 0. Für Unabhängigkeit muss aber Prst = Pr Ps Pt gelten.
Ferner benötigen wir noch die so genannte Stichproben-Kovarianz oder empirische Kovarianz sxy , die die beste Schätzung der (wahren) Kovarianz darstellt. Falls mit (x1 , y2 ), (x2 , y2 ), . . . , (xn , yn )
eine zweidimensionale Stichprobe vom Unfang n gegeben ist, lautet die Stichproben-Kovarianz
sxy :
1 X
(xi − x̄)(yi − ȳ)
(2.25)
sxy =
n−1 i
Schliesslich ergibt sich die empirische Korrelation rxy oder der sogenannte Pearson-Korrelationskoeffizient,
als beste Schätzung des (wahren) Korrelationskoeffizienten ρxy :
rxy =
sxy
sx sy
(2.26)
Mit sx und sy sind die Stichproben-Standardabweichungen gemeint, die wir bereits in Gleichung 2.17 kennen gelernt haben .
3
W. Feller, Probabiltiy Theory and Applications, Vol. I, Wiley and Sons, NY (1950)
13
Beispiel:
Figure 2.3: Beispiel für Korrelationskoeffizienten.
14
2.9
Nützliche Ungleichungen
In diesem Unterkapitel wollen wir zwei nützliche Ungleichungen diskutieren, um obere Schranken
für Wahrscheinlichkeiten anzugeben, wenn die zugrundeliegende Verteilung nicht bekannt ist.
Markov-Ungleichung:
Es sei x eine positive Zufallsvariable ist, dann gilt:
P (x ≥ a) ≤
<x>
a
(2.27)
Diese Ungleichung gibt uns einen Maximalwert an, um eine obere Grenze für die Wahrscheinlichkeit von Zufallsereignissen zu bekommen, die in den Ausläufern der Verteilung sitzen.
Tschebyscheff-Ungleichung:
σ2
(2.28)
k2
Die Wahrscheinlichkeit, dass ein Resultat um mehr als drei Standardabweichungen vom Erwartungswert abweicht, ist weniger als 1/9, und zwar unabhängig von der zugrundeliegenden
Wahrscheinlichkeitsverteilung. Die Ungleichung gilt in allgemeiner Form, wenn die Standardabweichung bekannt ist. Sie ist allerdings sehr schwach und nur nützlich für theoretische
Überlegungen, wenn die Form der Verteilung unbekannt ist.
P ( |x− < x > | ≥ k) ≤
15
3
3.1
3.1.1
Wahrscheinlichkeitsverteilungen
Diskrete Verteilungen
Kombinatorik
Für r verschiedene Objekte gibt es 1·2·3 · · · (r−1)·r = r! verschiedene Möglichkeiten, die Objekte in einer Reihe anzuordnen. Die Zahl der Möglichkeiten, r Objekte aus n verschiedenen
Objekten auszuwählen, wobei es auf die Reihenfolge der Auswahl ankommt, ist
Pnr = n · (n − 1) · (n − 2) · · · (n − r + 1) =
n!
(n − r)!
(3.1)
Falls es auf die Reihenfolge der Auswahl nicht ankommt, muss die obenstehende Zahl durch
r! dividiert werde, und man erhält
Cnr
Pr
= n =
r!
n
r
!
=
n!
r!(n − r)!
(3.2)
Diese Zahlen sind die sogenannten Binomialkoeffizienten, die im Binomialtheorem auftauchen:
(p + q)n =
n
X
n
r=0
r
!
pr · q n−r
(3.3)
Einige Rechenhilfen
Für grosse n kann n! durch die Stirlingsche Formel angenähert werden:
√
ln n! ≈ (n + 1/2) ln n − n + ln 2π
n √
n
n! ≈
2πn
e
(3.4)
(3.5)
Der erste Term (n/e)n wird nullte Näherung genannt, der gesamte Term in der obigen
Gleichung ist die sogenannte erste Näherung.
Die Fakultät n! kann auf nicht-ganzzahlige Argumente x durch die Gammafunktion Γ(x)
erweitert werden:
Z
x! =
∞
ux e−u du = Γ(x + 1)
(3.6)
0
Γ(x + 1) = xΓ(x)
3.1.2
(3.7)
Bernoulli und die Binomial-Verteilung
Ein Bernoulli-Experiment sind wiederholt durchgeführte unabhängige Versuche, von denen
jeder zwei mögliche Ausgänge hat. Die Wahrscheinlichkeit des Ereignisausgangs soll dabei
konstant bleiben. Beispiele hierfür sind der Münzwurf oder der Zerfall von K + in entweder
µ+ ν oder einen anderen Zerfallsmodus. Das Resultat eines Bernoulli-Experiments wollen wir
als success (S) oder als failure (F) beschreiben.
16
Ist die Wahrscheinlichkeit p eines Auftretens eines Ereignisses S (oder F) gegeben, so
beschreibt
!
n r
p (1 − p)n−r
r
P (r) =
(3.8)
die Wahrscheinlichkeit, dass bei n Versuchen S (oder F) genau r mal auftritt. Die dzugehörige
Verteilung nennt man Binomialverteilung. Die Gleichung 3.8 kann folgendermassen erklärt
werden: Die Wahrscheinlchkeit, dass das Ereignis S in den ersten r Versuchen auftritt und
nicht in den letzten n − r ist
gegeben durch pr · (1 − p)n−r ; diese Reihenfolge ist aber nur eine
n
mögliche von insgesamt r möglichen.
Die Eigenschaften der Binomialverteilung:
• Sie ist auf 1 normiert, d.h.
Pn
r=0 P (r)
• Der Mittelwert von r ist < r >=
= 1.
Pn
r=0 r
· P (r) = np.
• Die Varianz von r ist V (r) = np(1 − p).
• < r > /σ =
√ q p
n 1−p .
Der letzte Punkt bedeutet insbesondere, dass bei grossen n die Verteilung eine schmale
und scharfe Spitze aufweisen wird.
Beispiel: Wie gross ist die
Wahrscheinlichkeit in 10 Münzwürfen genau dreimal Kopf zu
10
10!
0.53 · 0.57 = 0.12
werfen? Antwort: P (3) = 3 0.53 · (1 − 0.5)10−3 = 3!7!
Übung: Ein vierlagiger Detektor zum Teilchennachweis hat pro Detektorlage eine Einzeleffizienz von 88%. Um eine komplette Teilchenspur zu rekonstruieren, werden mindestens drei
Spuren benötigt. Wie gross ist damit die Wahrscheinlichkeit eine Spur zu rekonstruieren?
3.1.3
Multinomialverteilung
Nun können wir unsere Überlegungen zur Binomialverteilung direkt auf folgendes Problem
verallgemeinern: Angenommen es gebe n Objekte mit k unterschiedlichen Typen und ni
sei die Anzahl der Objekte des Typs ki . Die Anzahl der unterscheidbaren Anordnungen ist
n!
dann durch n1!n2!···n
gegeben. Wenn wir nun zufällig r Objekte auswählen (mit jeweiligem
k!
Zurücklegen), dann ist die Wahrscheinlichkeit einer bestimmten Auswahl, die ri Objekte
des Types ki besitzt, gegeben durch pr11 · pr22 · · · prkk . Hierbei ist pi = ni /n. Die Gesamtwahrscheinlichkeit ist daher die Wahrscheinlichkeit der Auswahl multipliziert mit der Anzahl
der möglichen unterscheidbaren Anordnungen.
P =
r!
pr1 · pr22 · · · prkk
r1 !r2 !r3 ! · · · rk ! 1
Diese Verteilung heisst Multinomialverteilung.
17
(3.9)
Figure 3.1: Die Binomialverteilung für ein festes p = 0.4 und verschiedene Werte für n.
18
Todesfälle pro Korps und Jahr
0
1
2
3
4
Tatsächlich gemeldete Fälle
109
65
22
3
1
Poissonstatistik
108.7
Table 3.1: Die Gesamtstatistik der zu Tode getrampelten preussischen Kavalleriesoldaten
3.1.4
Poisson-Verteilung
Die Poissonverteilung entsteht als Grenzfall der Binomialverteilung, falls die Anzahl n der
Versuche gross wird und die Wahrscheinlichkeit für das Auftreten eines Ereignisses p in einem
einzigen Versuch sehr klein ist, wobei pn = λ eine (kleine) endliche Konstante ergeben soll.
Ein typisches Beispiel für diesen Grenzwert ist die Zahl der Zerfälle pro Sekunde einer radioaktiven Quelle, die z.B. eine mittlere Lebensdauer von einem Jahr hat. Hierbei ist n ∼ 1023 ,
p ∼ 1 Sekunde/Lebensdauer ∼ 3 · 10−8 und r ist die Anzahl der Zerfälle in einer Sekunde,
was ungefähr von der Grösse pn ∼ 3 · 1015 ist.
Die Poissonverteilung hat nur einen Parameter, nämlich den Mittelwert λ = np.
P (r) =
λr e−λ
r!
(3.10)
Eigenschaften der Poissonverteilung
• sie ist korrekt auf 1 normiert:
P∞
r=0 P (r)
• Der Mittelwert < r > ist λ: < r >=
P∞
= e−λ
r=0 r
·
λr
r=0 r!
P∞
e−λ λr
r!
= e−λ e+λ = 1
=λ
• Die Varianz ist V (r) = λ
Das klassische (historische) Beispiel für eine Anwendung der Poissonstatistik ist die Zahl
der durch Pferde zu Tode getrampelten preussischen Kavalleriesoldaten. In zehn verschiedenen Kavalleriekorps wurden die Todesfälle über zwanzig Jahre lang registriert. Es gab insgesamt 122 Todesfälle, so dass der Erwartungswert pro Korps und Jahr sich zu λ = 122/200 =
0.61 ergibt. Die Wahrscheinlichkeit, dass kein Soldat pro Jahr und pro Korps zu Tode getrampelt wird, beträgt P (0; 0.61) = e−0.61 · 0.610 /0! = 0.5434. Um die Gesamtzahl der
Ereignisse (kein Unfall) in einem Jahr und pro Korps zu erhalten, wird mit der Anzahl der
berücksichtigten Fälle (200) multipliziert, also 200 · 0.5434 = 108.7. In der Tat gab es 109
Fälle, was eine sehr gute Übereinstimmung ist. Die Gesamtstatistik der preussischen Kavallerie ist in Tabelle 3.1 verzeichnet.
Übung: Berechnen Sie die fehlenden Werte aus Tabelle 3.1.
Die Poissonverteilung tritt in vielen Fällen auf, in denen man Dinge oder Ereignisse zählt.
Typische Anwendungen der Poissonverteilung sind:
• Anzahl der Teilchen, die von einem Detektor in einer Zeit t erfasst werden, wenn der
Teilchenfluss Φ und die Detektoreffizienz unabhängig von der Zeit sind und die Detektortotzeit τ hinreichend klein ist, so dass φτ << 1 ist.
19
Figure 3.2: Die Poissonverteilung für einige Werte für λ.
• Anzahl der Wechselwirkungen die durch einen intensiven Teilchenstrahl enstehen, der
durch eine dünne Scheibe tritt.
• Anzahl der Eintrg̈e in einem bin eines Histogrammes, wenn die Daten über ein bestimmtes Zeitintervall gesammelt werden.
• Anzahl der Reifenpannen innerhalb einer zurückgelegten Strecke, wenn der Erwartungswert
Reifenpanne/Strecke konstant ist.
Beispiele, bei denen die Poissonverteilung keine Anwendung findet sind:
• Der Zerfall einer kleinen Menge radioaktiven Materials über eine bestimmte Zeit, die
signifikant ist im Vergleich zur Halbswertzeit.
• Die Anzahl der Wechselwirkungen eines Strahls von wenigen Teilchen, der durch eine
dicke Scheibe tritt. In den beiden letzten Beispielen nimmt die Ereignisrate mit der
Zeit ab. Daher kann die Poissonverteilung nicht angewandt werden.
Das Bild 3.2 zeigt die Poissonverteilung für einige Werte für λ. Wenn der Erwartungsert λ
kleiner als 1.0 ist, wird der Modus, d.h. der wahrscheinlichste Wert null. Bei grösseren Werten
20
von λ entwickelt sich eine Maximum ungleich null, was aber unterhalb von λ liegt. In der Tat
ist die Wahrscheinlichkeit für ein beliebiges ganzzahliges λ ein Ereignis mit r = λ und r = λ−1
zu haben, gleich. Die Poissonverteilung ist immer etwas breiter als die Binomialverteilung bei
gleichem Erwartungswert. Die Varianz der Poissonverteilung ist gleich dem Erwartungswert,
während sie bei der Binomialverteilung np(1 − p) ist, also kleiner als der Erwartungswert
np. Die Versuche in einem Bernoulliprozess haben immer ein oberes Limit, da r n nicht
überschreiten kann, während die Poissonprozesse nach oben nicht beschränkt sind und daher
einen langen Ausläufer haben können. Bereits ab λ = 5 kann die Poissonverteilung relativ
gut durch die Gaussverteilung angenähert werden.
3.2
3.2.1
Kontinuierliche Verteilungen
Gauss- oder Normalverteilung
Die Gauss4 - oder Normalverteilung ist die wohl wichtigste und nützlichste Verteilung, die wir
kennen. Sie hat grosse Bedeutung in der Praxis5 . Ihre Wahrscheinlichkeitsdichte ist
f (x) = √
(x−µ)2
1
e− 2σ2
2πσ
(3.11)
Die Gaussverteilung wird durch zwei Parameter bestimmt: Durch den Erwartungwsert µ
und die Varianz σ 2 , wobei σ die Standardabweichung ist. Durch die Substitution z = (x−µ)/σ
erhält man die sogenannte standardisierte Gauss- oder Normalverteilung:
1
2
N (0, 1) = √ e−z /2
2π
(3.12)
Sie hat den Erwartungwsert null und die Standardabweichnung 1.
Die Eigenschaften der Gaussverteilung sind:
• sie ist natürlich auf 1 normiert:
R +∞
−∞
P (x; µ, σ)dx = 1
• µ ist der Erwartungswert der Verteilung:
Modus und Median
R +∞
−∞
xP (x; µ, σ)dx = µ und zugleich ihr
• σ ist die Standardabweichung und die Varianz ist σ 2 :
R +∞
−∞
(x − µ)2 P (x; µ, σ)dx = σ 2
Nützliche Integrale, die häufig bei der Benutzung der Gaussfunktion auftauchen:
Z
+∞
−ax2
e
Z
Z
−∞
+∞
0
+∞
−∞
dx =
2
xe−ax dx =
2
x2 e−ax dx =
q
π/a
1
2a
1q
π/a
2a
4
C.F. Gauss hat sie nicht allein entdeckt. Unabhängig von Gauss kannten Laplace und de Moivre (ein
Engländer) die Verteilung.
5
Der Legende nach hat Gauss damit wohl die Grösse von Brotlaibern der Bäckerinnung in der Stadt
Königsberg beschrieben.
21
Normalverteilung, CDF
1
0.8
0.6
0.4
0.2
0
−5
−4
−3
−2
−1
0
1
2
3
4
5
2
3
4
5
Normaldichte, PDF
0.4
0.3
0.2
0.1
0
−5
−4
−3
−2
−1
0
1
Figure 3.3: Die standardisierte Gaussverteilung. Oben die kumulative Verteilungsfunktion
und unten die Wahrscheinlichkeitsdichtefunktion.
Z
+∞
2
x2n+1 e−ax dx =
0
Z
+∞
n!
2an+1
2
x2n+1 e−ax dx = 0, für alle ungeraden Werte von n
−∞
Einige Zahlen für die integrierte Gaussverteilung:
• 68.27% der Fläche liegt innerhalb von ±σ um den Mittelwert µ
• 95.45% liegt innerhalb von ±2σ
• 99.73% liegt innerhalb von ±3σ
• 90% der Fläche liegt innerhalb von ±1.645σ
• 95% liegt innerhalb von ±1.960σ
• 99% liegt innerhalb von ±2.576σ
• 99.9% liegt innerhalb von ±3.290σ
Oft wird vergessen, dass im Mittel rund 32% der Fälle ausserhalb einer Standardabweichnung
liegen müssen.
Die integrierte Funktion Φ(x) der Gaussverteilung kann auch durch die sogenannte Fehlerfunktion erf (x) ausgedrückt werden:
Φ(x) =
erf (x) =
=> Φ(x) =
x
1
2
2
e−(t−µ) /2σ dt
2πσ −∞
Z x
2
2
√
e−t dt
π 0
1
x−µ
1 + erf ( √ )
2
2σ
Z
√
22
Ferner ist der Begriff der vollen Breite auf halber Höhe (FWHM - Full width half maximum) nützlich, um auf einfache Weise die Standardabweichung einer Gausskurve zu schätzen.
Die Beziehung ist durch
√
F W HM = 2σ 2ln2 = 2.355σ
(3.13)
gegeben.
Übung: Approximation der Poissonverteilung durch eine Gaussverteilung: Der Mittelwert eines Poissonprozesses sei λ = 5.3. Wie gross ist die Wahrscheinlichkeit von zwei oder
weniger Ereignissen? Wie gross wäre sie, wenn die Wahrscheinlichkeit aus der Gaussverteilung
abgeleitet wird?
Übung: Approximation der Binomialverteilung durch die Gaussverteilung: Vergleichen
Sie die exakte Berechnung der Wahrscheinlichkeit beim Münzwurf 20-mal Kopf in 30 Würfen
zu erhalten, mit der angenäherten Lösung einer Gaussverteilung.
So wie die Poissonverteilung sich einer Gaussverteilung
annähert, wird die Binomialverteilung
p
zu einer Gaussverteilung mit µ = np und σ = np(1 − p), wenn n gross wird. Im Prinzip
tendiert fast alles zu einer Gaussverteilung, wenn die Anzahl n gross wird. Dies ist eine
Konsequenz des Zentralen Grenzwertsatzes, der im nächsten Kapitel diskutiert wird.
3.2.2
χ2 -Verteilung
Falls x1 , x2 , · · · , xn unabhängige Zufallsvariablen sind, die alle einer (standardisierten) Gaussverteilung
mit Mittelwert 0 und Varianz 1 gehorchen, so folgt die Summe u = χ2 der n Quadrate
u = χ2 =
n
X
x2i
(3.14)
i=1
einer χ2 -Verteilung fn (u) = fn (χ2 ) mit n Freiheitsgraden. Die Wahrscheinlichkeitsdichte ist
durch
( u )n/2−1 e−u/2
fn (u) = 2
(3.15)
2Γ(n/2)
2
gegeben. Sie hat ein Maximum bei (n − 2). Der
√ Mittelwert der χ -Verteilung ist n und die
2
Varianz ist 2n. Für n → ∞ geht (χ − n)/ 2n in eine standardisierte Normalverteilung
mit Erwartungswert null und Varianz 1 über. In der Praxis ist bereits bei n ≥ 30 die
Approximation durch eine Normalverteilung sehr genau. Die χ2 -Verteilung spielt eine grosse
Rolle bei statistischen Tests.
3.2.3
Log-Normal-Verteilung
In dieser Wahrscheinlichkeitsdichte ist ln x normalverteilt.
f (x) = √
1
2πσ 2
1 (− ln x−µ)2 /2σ2
e
x
(3.16)
Der Faktor 1/x taucht auf, da d(ln x) = dx/x ist. Der Erwartungswert und die Varianz sind
aber nicht einfach µ und σ 2 , sondern gegeben durch:
< x > = e(µ+(1/2)σ
2
2)
2
V ar(x) = e(2µ+σ ) (eσ − 1)
23
Die Log-Normal-Verteilung wird dann angewandt, wenn beispielsweise die Auflösung eines
Messintruments sich aus vielen unterschiedlichen Quellen zusammensetzt, die jeweils einen
kleinen (multiplikativen) Beitrag zur Gesamtauflösung bilden.
Als Beispiel soll das Signal eines Photomultipliers dienen, welcher schwache Lichtsignale in elektrische Signale über den Photoeffekt umwandelt. Der Photomultiplier ist ein
Sekundärelektronenvervielfacher, der in mehreren Stufen Elektronen beschleunigt. Pro Stufe
werden dabei Sekundärelektronen erzeugt, die das Ladungssignal vervielfachen. Wenn die
Verstärkung pro Stufe ai beträgt, dann ist die Anzahl der Elektronen nach der k-ten Stufe
nk = Πki=0 ai ungefähr log-normal verteilt.
3.2.4
Gamma-Verteilung
Die Gamma-Verteilung ist gegeben durch:
f (x; k, µ) =
xk−1 µk e−µx
Γ(k)
(3.17)
Sie gibt die Verteilung der Waretezeit t = x vom ersten bis zum k-ten Ereignis in einem
Poisson-Prozess mit Mittelwert µ an. Der Parameter k beeinflusst die Form der Verteilung,
w”ahrend µ nur ein Skalenparameter ist. Der Erwartungswert der Gamma-Verteilung ist
< x >= k/µ und seine Varianz σ 2 = k/µ2 .
3.2.5
Student-Verteilung
Die Student6 oder t-Verteilung tritt bei Tests der statistischen Verträglichkeit eines StichprobenMittelwertes x̄ mit einem vorgegebenen Mittelwert µ auf. Sie wird auch bei Tests der
Verträglichkeit zweier Stichproben Mittelwerte angewandt. Die Wahrscheinlichkeitsdichte
der Student-Verteilung ist gegeben durch:
1 Γ((n + 1)/2)
t2
fn (x) = √
1+
nπ
Γ(n/2)
n
!−(n+1)/2
(3.18)
Die Student- oder t-Verteilung ist symmetrisch um null; für n = 1 entspricht sie der CauchyVerteilung (siehe weiter unten). Für grosse n geht sie gegen die Gaussverteilung. Anwendungen der Student-Verteilung werden wir im Kapitel Hypothesentests finden.
3.2.6
F-Verteilung
Falls n1 Stichprobenwerte einer Zufallsvariablen x und n2 Stichprobenwerte derselben Zufallszahl gegeben sind und die beste Schätzung der Varianz aus den beiden Datenkollektionen
durch s21 und s22 bekannt sei, dann folgt die Zufallszahl F = s21 /s22 einer F -Verteilung mit
(n1 , n2 ) Freiheitsgraden:
f (F ) =
n1
n2
n1 /2
Γ((n1 + n2 )/2)
n1
·
· F (n1 −2)/2 1 + F
Γ(n1 /2)Γ(n2 /2)
n2
−(n1 +n2 )/2
(3.19)
Mit der F -Verteilung können statistische Verträglichkeiten von zwei aus unterschiedlichen
Stichproben derselben Grundverteilung ermittelten Varianzen getestet werden.
6
Benannt nach dem Statistiker W. S. Gosset, der für eine Guinness Brauerei in Dublin arbeitete und unter
dem Pseudonym Student seine Arbeiten veröffentlichte.
24
3.2.7
Weibull-Verteilung
Die Weibull-Verteilung wurde ursprünglich eingeführt um die Fehlerrate beim Altern von
Glühbirnen zu beschreiben. Sie ist nützlich um Funktionen zu parameterisieren, die mit x
anwachsen und dann wieder abfallen:
P (x; α, β) = αβ(αx)β−1 e−(αx)
β
(3.20)
Der Parameter α ist nur ein Skalenfaktor und β beschreibt die Breite des Maximums. Für
β = 1 erhält man eine Exponentialfunktion. Die Weibull-Verteilung ist sehr nützlich in Zuverlässigkeitsanalysen und Fehlerratenvorhersagen. Der Erwartungswert der Weibull-Verteilung
ist Γ(1/β + 1)/α.
3.2.8
Cauchy-Verteilung
Die Cauchy-Verteilung hat die Dichte
f (x) =
1 1
π 1 + x2
(3.21)
Für grosse Werte von x nimmt sie nur sehr langsam ab und erfordert deshalb spezielle Vorsicht in der Anwendung. Insbesondere ist der Erwartungswert undefiniert
und die CauchyR
Verteilung besitzt keine Varianz, da das unbestimmte Integral x2 f (x) divergent ist. Die
spezielle Cauchy-Verteilung in der Form
f (m; M, Γ) =
1
Γ
2π (m − M )2 + (Γ/2)2
(3.22)
heisst auch Breit-Wigner Funktion und wird in der Kern- und Teilchenphysik benutzt, um
die Energie- oder Massenverteilung nahe einer Kern- oder Teilchenresonanz mit Masse M
und Breite Γ zu beschreiben. In der Tat kann in der Quantenmechanik gezeigt werden,
dass jeder Zustand, der exponentiell zerfällt, eine Energiebreitenverteilung gemäss der BreitWigner Funktion besitzt. Die Breit-Wigner Funktion ist also die Fouriertransformierte einer
Exponentialverteilung. Die Breit-Wigner Verteilung ist symmetrisch um das Maximum bei
m = M . Der Parameter Γ ist das FWHM. In der Praxis muss innerhlab eines bestimmten
Bereiches integriert werden, um Divergenzen zu vermeiden.
3.2.9
Uniforme Verteilung
Die Wahrscheinlichkeitsdichtefunktion der uniformen Verteilung innerhalb des Intervalls [a, b]
ist gegeben durch:
1
, wenn a ≤ x ≤ b
(3.23)
b−a
Ausserhalb des Intervalls ist f (x) null. Der Erwartungswert und die Varianz sind gegeben
durch:
f (x) =
Z
b
<x> =
a
V ar(x) =
x
1
dx = (a + b),
b−a
2
1
(b − a)2
12
25
3.3
Charakteristische Funktion
Für eine Zufallsvariable x mit Wahrscheinlichkeitsdichte f (x) definiert man die charakteristische Funktion Φ(t) als den Erwartungswert von eitx :
Φ(t) =< eitx >=
Z
eitx · f (x)dx
(3.24)
Die Umkehroperation ist
1
e−itx · Φ(t)dt
(3.25)
2π
Die charakteristische Funktion sowie ihre erste und zweite Ableitung für den speziellen
Fall t = 0 lassen sich leicht berechnen:
Z
f (x) =
Φ(0) = 1
dΦ(0)
= i<x>
dt
d2 Φ(0)
= −(σ 2 + < x >2 )
dt2
Charakteristische Funktionen helfen manchmal bei Rechnungen mit Wahrscheinlichkeitsdichten. So ist beispielsweise eine Faltung zweier Wahrscheinlichkeitsdichten f1 und f2 für
die beiden Zufallsvariablen x1 und x2 sehr einfach zu berechnen. Eine sogenannte Faltung
von f1 und f2 ergibt eine neue Wahrscheinlichkeitsdichte g(y), nach der die Summe der
Zufallsvariablen y = x1 + x2 verteilt ist:
Z Z
g(y) =
f1 (x1 )f2 (x2 )δ(y−x1 −x2 )dx1 dx2 =
Z
Z
f1 (x1 )f2 (y−x1 )dx1 =
f2 (x2 )f1 (y−x2 )dx2
(3.26)
Mithilfe der charakteristischen Funktionen kann nun das Faltungsintegral elegant transformiert werden:
Φg (t) = Φf1 (t) · Φf2 (t)
(3.27)
Die charakteristische Funktion der Faltung zweier Variablen erhält man als das Produkt ihrer
charakteristischen Funktionen.
Die charakteristischen Funktionen von einigen Wahrscheinlichkeitsdichten sind in Tabelle 3.2
gezeigt.
Übungen:
• Zeigen Sie explizit, dass die Varianz der uniformen Verteilung
1
12 (b
− a)2 ist.
• Wie gross ist die Schiefe der Poisson-Verteilung?
• Ein Buch mit 500 Seiten enthält 50 Druckfehler, die zufällig über die Seiten verteilt
sind. Wie gross sind die Wahrscheinlichkeiten, dass eine bestimmte Seite genau null,
einen oder zwei Druckfehler enthält?
• Der Torwart Sepp Maier war ein Elfmeterkiller. Im Schnitt hielt er 40% aller Elfmeter. Wieviele Elfmeter muss ein Fussballspieler dann schiessen, um mit einer 95%
Wahrscheinlichkeit ein Elfmetertor erzielt?
26
Verteilung
Binomial
Poisson
Gauss
χ2
Uniform (von a nach b)
Breit-Wigner
Gamma
Charakteristische Funktion
Φ(t) = (peit + q)n
it
Φ(t) = eλ(e −1)
2 2
Φ(t) = eiµt−t σ /2
Φ(t) = (1 − 2it)−n/2
Φ(t) = (eibt − eiat )/(b − a)it
Φ(t) = e−iE0 t−(Γ/2)|t|
Φ(t) = (1 − it/µ)−α
Table 3.2: Charakteristische Funktionen von einigen Wahrscheinlichkeitsdichten.
• Ein Student möchte per Anhalter fahren. Im Mittel kommt zwar alle Minute ein Auto
vorbei (zufällig verteilt), doch nur 1% der Autofahrer würden einen Anhalter mitnehmen. Wie gross ist die Wahrscheinlichkeit, dass der Student immer noch wartet,
nachdem (a) 60 Auots vorbeigefahren sind und (b) nach einer Stunde Wartens?
• Ein Experiment sucht nach freien Quarks der Ladung 2/3. Es wird erwartet wird,
dass sie 4/9 der Ionisation I0 einer Elementarladung im Nachweisgerät produzieren.
Nach einer Messung von 105 Spuren, findet man eine Spur, die mit 0.44I0 gemessen
wird. Die Ionisationsmessungen im Detektor seien Gaussverteilt mit Standardabweichung σ. Berechnen Sie die Wahrscheinlichkeit, dass dieses Messergebnis aufgrund
einer statistischen Fluktuation einer gemessenen Elementarladung entstanden ist, wenn
(a) σ = 0.07I0 für alle Spuren ist und (b) für 99% der Spuren σ = 0.07I0 gilt, während
1% der Spuren eine Auflösung von 0.14I0 zeigt.
27
4
4.1
Fehler
Der zentrale Grenzwertsatz
Wir wollen uns in diesem Abschnitt mit der Frage beschäftigen, warum Messfehler häufig
als Gauss-verteilt angenommen werden können7 . In der Praxis stammt der resultierende
Messfehler meistens von verschiedenen unabhängigen Quellen. Der wohl wichtigste Satz in
der Statistik beschäftigt sich mit der Summe einzelner Zufallsvariablen und kommt unter
gewissen Bedingungen zu einem sehr überraschendes Ergebnis:
Angenommen wir nehmen die Summe X von n unabhängigen Variablen xi , die jeweils von
einer Verteilung mit Erwartungswert µi und Varianz σi2 stammen, dann gilt für die Verteilung
von X:
1. X hat den Erwartungswert < X >=
2. X hat die Varianz V (X) =
P
P
µi
σi2
3. X wird Gauss-verteilt, wenn n → ∞
Es ist hierbei zu betonen, dass die xi nicht alle aus derselben Wahrscheinlichkeitsverteilung
stammen müssen. Eine Zufallsgrösse X, die aus einer Summe von vielen unabhängigen
Variablen resultiert, ist im Grenzfall n → ∞ Gauss-verteilt. Dabei spielt es (fast) keine
Rolle, wie die Ursprungverteilungen aussehen, von denen die einzelnen xi abstammen. Einige
wichtige Bemerkungen zum zentralen Grenzwertsatz
• Wenn die Variablen xi nicht unabhängig sind, gelten nur die ersten beiden Bemerkungen
des zentralen Grenzwertsatzes
• Der zentrale Grenzwertsatz funktioniert umso besser, je näher man im Zentrum der
Verteilung sitzt. Verteilungen können Gauss-ähnlich innerhalb von ±1σ sein, aber
stark von der Gaussverteilung abweichen, je weiter man vom Zentrum weg ist. Diese
Ausläufer oder tails können oft zu falschen Interpretationen führen.
• Der zentrale Grenzwertsatz gilt für eine ganze Reihe von Verteilungen. Es gibt einige
Kriterien, die erfüllt sein müssen, um den zentralen Grenzwertsatz anzuwenden. Ein
wichtiges davon ist das sog. Lindeberg-Kriterium: Sei
yk = xk , wenn|xk − µk | ≤ σk
yk = 0, wenn|xk − µk | > σk .
Dabei ist k eine willkürlich festgelegt Zahl. Wenn die Varianz (y1 + y2 + · · · yn )/σy2 → 1
für n → ∞ geht, sind die Voraussetzungen erfüllt. Dieses Kriterium fragt also danach,
dass die Fluktuationen einer individuellen Variable nicht die Summe dominiert.
Übung zum zentralen Grenzwertsatz: Erzeugen Sie 500 Zufallszahlen in einem Vektor, die gleichmässig zwischen 0 und 1 verteilt sind. Benutzen Sie dazu den Befehl rand
in Matlab. Stellen Sie die Zahlen in einem Histogramm graphisch dar. Erzeugen Sie einen
7
Die Experimentalphysiker glauben fest daran, dass dies ein fundamentales Gesetz ist, die Theoretiker
jedoch denken, dass dieser Sachverhalt experimnetell untermauert ist
28
zweiten 500-komponentigen Zufallsvektor und zeichnen Sie die Summe der beiden Zufallsvektoren in einem anderen Histogramm, i.e. X = x1 + x2 . Wiederholen Sie das Vorgehen und
bilden Sie schliesslich die Summe von drei, fünf und zehn Zufallszahlen. Stellen Sie jeweils die neuen Zufallsvariablen in Histogrammen dar. Spätestens mit der Summe von fünf
Zufallszahlen sollte die Verteilung bereits Gaussförmig sein.
4.2
4.2.1
Arbeiten mit Fehlern
Averaging is good for you
Angenommen wir messen dieselbe Grösse mehrmals. Dann kann der zentrale Grenzwertsatz
in einer einfache Form angewandt werden, da dann alle µi und σi dieselben Werte µ und σ
annehmen.
X
< X >=
µ = nµ
(4.1)
Der Mittelwert x̄ = X/n besitzt folgenden Erwartungswert: < x̄ >= µ. Seine Varianz ist
gegeben durch
1 X
V (x̄) = 2
Vi = σ 2 /n
(4.2)
n
√
Damit fällt die Standardabweichung des Mittelwertes mit 1/ n. Dieser Sachverhalt ist
bekannt als das Gesetz der grossen Zahlen. Als Beispiel betrachten wir einen Detektor der
Photonen nachweisen soll. Die Energieauflösung dieses Detektors sei 50 keV. Wird nur ein
monoenergetisches Photon eines bestimmten Kernzerfalls nachgewiesen, ist seine Energie nur
auf 50 keV bekannt. Wenn 100 (monoenergetische) √
Photonen gemessen werden, beträgt
die Unsicherheit des Energiemittelwertes nur noch 50/ 100 = 5 keV. Für 1 keV Auflösung
müssten 2500 Zerfälle registriert werden.
4.2.2
Mittelwertbildung durch Gewichtung
Angenommen wir haben einen Satz von Messungen xi einer Grösse µ mit unterschiedlichen
Fehlern σi . Dann ist die korrekte Form der Mittelwertbildung durch
x̄ =
σx̄2 =
P
xi /σi2
P
2
1/σi
1
P
1/σi2
(4.3)
(4.4)
gegeben. Hier werden die Einzelergebnisse durch unterschiedliche Gewichte gemittelt. Je
kleiner ein Einzelfehler ist, umso grösser sein Gewicht. Der Beweis zur gewichteten Mittelwertbildung ist in vielen Textbüchern vertreten. Einige Kommentare zu dieser Regel:
• Die Formel macht natürlich sofort Sinn, wenn die Messungen mit demselben Messgerät
√
ausgeführt wurden und die Einzelfehler proportional zu 1/ ni sind.
• Vorsicht ist geboten, wenn die Einzelergebnisse und Einzelfehler zu stark voneinander
abweichen. Wenn ein Experiment zum Nachweis eines Zerfallsprodukts in einer Stunde
100 ± 10 Ereignisse misst, das andere jedoch in einer Stunde nur 1 ± 1 Ereignisse, dann
würde die Formel als Ergebnis 2 ± 1 Ereignisse ergeben. Dennoch würde man hier den
29
Experiment
LEPS
CLAS
SAPHIR
CLAS
DIANA
ITEP
HERMES
SVD
COSY
ZEUS
Masse
1540 ± 10
1543 ± 5
1540 ± 5
1555 ± 10
1539 ± 2
1533 ± 6
1528 ± 4
1526 ± 4
1530 ± 5
1521 ± 1.5
Zerfallsmodus
K +n
K +n
K +n
K +n
K 0p
K 0p
K 0p
K 0p
K 0p
K 0p
Table 4.1: Die weltweit gemessenen Pentaquark Massen der Jahre 2003 und 2004
einfachen Mittelwert 50.5 ± 5 bevorzugen. Der Grund besteht darin, dass in der obigen Formel der wahre Fehler auftaucht und nicht der abgeschätzte. Unsere Annahme
ist ferner, dass die wahre Ereignisrate über eine Stunde bei beiden Experimenten konstant ist und somit auch der Fehler bei beiden Experimenten gleich sein sollte. Daher
sollten beide Experimente hier gleich gewichtet werden. Dieses Beispiel ist natürlich
stark übertrieben und im prinizp sollte man in dieser Situation gar keine Mittelwertbildung anwenden, da es offensichtlich ist, dass die beiden Experimente imkompatibel
miteinander sind.
Übung: Die Masse des neuen Fünfquark-Zustandes (Pentaquark) θ+ wurde von mehreren
Experimenten in zwei Zerfalssmodi bestimmt: Bestimmen Sie den gewichteten Weltmittelwert und seinen Fehler sowohl aus allen Experimenten, als auch für die beiden Zerfallsmodi
getrennt.
4.2.3
Fehlerfortpflanzung
4.2.4
Funktionen einer Veränderlichen
Es sei f eine Funktion einer Veränderlichen x. Wir entwickeln f an der Stelle um x0 :
f (x) ≈ f (x0 ) + (x − x0 )
df
dx
(4.5)
x=x0
Unter der Anwendung von V (f ) =< f 2 > − < f >2 folgt dann
V (f ) =
σf2
≈
df
dx
2
σx2
(4.6)
Diese Annäherung ist nur dann gültig, wenn die Fehler klein sind, d.h. die erste Ableitung
darf nicht zu stark in der Umgebung von einigen σ variieren.
4.2.5
Funktionen mit meherern Veränderlichen
Wir betrachten zunächst eine Funktion g(x, y) mit zwei Veränderlichen x und y. Dann ist
30
f (x, y) ≈ f (x0 , y0 ) +
∂f
∂x
· (x − x0 ) +
x0 ,y0
∂f
∂y
· (y − y0 )
(4.7)
x0 ,y0
Wieder nehmen wir an, dass die Fehler klein sind, so dass die höheren Ordnungen in der
Taylor-Reihe vernachlässigt werden können. Wir erhalten dann als Ergebnis:
∂f 2 2
∂f 2 2
∂f ∂f
=
σx +
σy + 2
· cov(x, y)
∂x
∂y
∂x ∂y
cov(x, y) = h(x− < x >) · (y− < y >)i
σf2
(4.8)
(4.9)
Im Falle von zwei unabhängigen Variablen x und y, fällt natürlich der Kovarianzterm
weg.
Folgende einfache Beispiele sollen die Rechenregeln zur Fehlerfortpflanzung mit zwei Variablen veranschaulichen:
f (x, y) = x ± y
σf2 = σx2 + σy2 ± 2 × cov(x, y)
g(x, y) = x · y
σg2 = y 2 σx2 + x2 σy2 + 2xy × cov(x, y)
Im Falle einer Funktion f von n Variablen x1 , x2 , . . . xn lautet nun die Verallgemeinerung:
σf2
=
X
j
∂f
∂xj
!2
·
σx2j
+
XX
j k6=j
∂f
∂xj
!
∂f
∂xk
· cov(xj , xk )
(4.10)
Allgemein wird die Kovarianz nun zur Kovarianzmatrix Vij = cov(xi , xj ). Sie ist eine
symR
metrische n × n Matrix. Ihre Diagonalelemente Vii sind die Varianzen σx2i = (xi − <
xi >)2 f (x1 , . . . xn )dx1 . . . dxn und stets positiv. Die Nichtdiagonalelemente
können posiR
tiv oder negativ sein und geben die Kovarianzen Vij = (xi − < xi >)(xj − < xj >
)f (x1 , . . . xn )dx1 . . . dxn an.
Schliesslich noch der allgemeinste Fall, in dem zu einem Satz an Zufallsvariablen x =
(x1 , . . . , xn ) mit Erwartungswerten µ = (µ1 , . . . , µn ) ein Satz an Wahrscheinlichkeitsdichtefunktionen F(x) = f1 , f2 , . . . , fn vorliegt. Die Kovarianzmatrix Ukl ist dann gegeben durch:
!
Ukl = cov(fk , fl ) =
X
i,j
∂fk ∂fl
cov(xi , xj )
∂xi ∂xj x=µ
(4.11)
Dies kann aber auch vereinfacht geschrieben werden als U = A V AT , wobei die Matrix der
Ableitungen A gegeben ist durch
!
Aij =
∂fi
∂xj x=µ
und AT ihre Transponierte ist.
31
(4.12)
Als Beispiel wollen wir die Polarkoordinatentransformation betrachten. Ein Punkt sei
in den kartesischen Koordinaten x und y mit Fehlern σx und σy gemessen. Die Messungen
in x und y gelte als unabhängig und wir können daher V11 = σx2 , V22 = σy2 und Vij = 0
setzen. Wir sind nun daran interessiert die Kovarianzmatrix in Polarkoordinaten zu erhalten.
Die Transformationsgleichungen sind r2 = x2 + y 2 und θ = arctan(y/x). Daher folgt für
A = ∂fi /∂xi :
A=
∂r
∂x
∂θ
∂x
∂r
∂y
∂θ
∂y
!
=
x
r
−y
r2
y
r
x
r2
!
(4.13)
Ferner bilden wir U = A V AT :
!
U
U
4.3
=
=
y
x
σx2
r
r
·
−y
x
0
r2
r2
1
(x2 σx2 + y 2 σy2 )
r2
xy
(−σx2 + σy2 )
r3
−y
r2
x
r2
!
xy
(−σx2 + σy2 )
r3
1
(y 2 σx2 + x2 σy2 )
r4
!
0
σy2
!
·
x
r
y
r
(4.14)
=
2
σr2 σrθ
2
σrθ
σθ2
!
(4.15)
Systematische Fehler
Systematische Fehler beeinflussen jeden Einzelwert der Messung in ähnlicher Weise. Sie
können beispielsweise durch falsche Messmethoden, fehlerhafte Messgeräte oder durch zeitliche
Änderungen der Messbedingungen entstehen. Im Gegensatz zu zufälligen Fehlern nehmen sie
√
nicht mit 1/ n ab und der zentrale Grenzwertsatz findet keine Anwendung. Systematische
Fehler werden im Messergebnis getrennt vom statistischen Fehler aufgeführt:
x = 10.0 ± 1.2 (stat) ± 1.0 (sys)
(4.16)
Falls mehrere systematische Fehler auftreten, müssen ihre Korrelationen sorgfältig beachtet
werden. Für eine formale Behandlung der systematischen Fehler einer Zufallsgrösse xi mit
Mittelwert µi und Standardabweichung σi wird in der Kovarianzmatrix Vij der systematische
Fehler sij berücksichtigt, falls dieser den Messwert verschiebt:
ges
Vi,j
Z
=
ges
Vi,j
=
(xi − si − µi )(xj − sj − µj )f (x1 , x2 , . . . , xn )dx
Z
Z
Vij + si sj
f (x)dx − si
Z
(xj − µj )f (x)dx − sj
ges
Vi,j
= Vij + si sj
(4.17)
Z
(xi − µi )f (x)dx (4.18)
(4.19)
Statistische und systematische Fehler sind unabhängig nach Voraussetzung und deshalb kann
man sie quadratisch addieren. Der Kovarianzterm si sj mit i 6= j gibt ein Mass für die
Grösse der Korrelation, die durch systematische Fehler hervorgerufen werden können. Als
einfaches Beispiel betrachten wir den Fall von zwei Zufallsgrössen x1 und x2 mit gemeinsamen
systematischen Fehler S, der die Messwerte systematisch verschiebt. Die Kovarianzmatrix
lautet nun:
!
σ12 + S 2
S2
ges
Vi,j =
(4.20)
S2
σ2 + S 2
32
Falls ein systematischer Fehler T die Messwerte nicht absolut verschiebt, sondern nur relativ,
d.h. T = xi mit z.B. = 0.01, dann ist die Kovarianzmatrix gegeben durch:
ges
Vi,j
=
σ12 + 2 x21
2 x1 x2
2 x1 x2
σ 2 + 2 x22
33
!
(4.21)
5
Monte Carlo, eine Methodik aus dem Spielkasino
Im Arbeitsgebiet der Physik kommt es, teilweise schon bei relativ simplen Problemen,
vor, daß eine analytische Berechnung von Ereignisabläufen schwierig oder gar unmöglich
wird. Um trotzdem quantitative Aussagen machen zu können, kann man entweder versuchen
das Problem analytisch zu vereinfachen (Näherung) oder es auf Grund physikalischer Grundlagen statistisch zu beschreiben. Eine Einführung in eine so genannte Monte Carlo (MC)
Simulationen, bei denen Zufallszahlen und eine sequentielle Ablaufbeschreibung die Basis des
Konzeptes bilden, wird hier in diesem Kapitel gegeben. Aufgrund der verwendeten Prinzipien
von Wahrscheinlichkeitsrechnung und Statistik wird sie auch als Methode der statistischen
Versuche bezeichnet.
Figure 5.1: Zufällig verteilte Nadeln auf einer Fläche, die durch zwei parallele Geraden, im Abstand
einer Nadellänge, begrenzt wird. 81 von 128 Nadeln kreuzen bei diesem Versuch hier den Rand.
Die wohl älteste Anwendung der Monte Carlo Methode, die auch all ihre grundlegenden
Elemente veranschaulicht, ist bekannt als das Nadelexperiment von Buffon8 , das auch in
vielen Lehrbücher zitiert wird. Der wissenschaftlich versierte Graf verblüffte seine Kollegen im Jahre 1777 mit einer Bestimmung der Zahl π durch einfaches Abzählen von Nadeln,
die zufällig auf eine Fläche derselben Breite geworfen wurden, wie die Nadeln lang sind
(l). Er fand, daß der Quotient der Zahl von Nadeln (k), die den Rand der Fläche kreuzen
(die dunkleren in Abb. 5.1), zur Gesamtzahl aller geworfenen Nadeln (n) gerade den Wert
2/π ergibt (k/n = 2/π = p). Man berechnet diesen Wert analytisch aus dem Integral
über die ortsabhängige Wahrscheinlichkeit die Randlinie zu kreuzen, einer in der Mitte
gespiegelten Arcus-Cosinus-Funktion (siehe Bild 5.2 links). Abb. 5.2 rechts zeigt die immer genauer werdende Bestimmung von π nach dieser Abzählmethode bei Vergrößerung der
Zahl geworfener Nadeln. Der zu erwartende Fehler für den Wert π, der sich aus der Binomialverteilung
der Werte k unter korrekter Berücksichtigung der Fehlerfortplanzung zu
p
√
2n
np(1
−
p)
=
2.37/
n ergibt ist als gestrichelte Linie eingezeichnet.
2
k
Natürlich gibt es einfachere und genauere Verfahren, die Zahl π zu bestimmen. Der Versuch zeigt jedoch, dass numerische Problemstellungen durch die Wahrscheinlichkeitsrechnung
näherungsweise gelöst werden können. Heute wird die Monte-Carlo-Methode in der Numerik
vor allem dann vorgezogen, wenn die Formulierung des stochastischen Modells einfacher ist
als das mathematische Modell einer numerischen Lösungsmethode. Monte-Carlo-Verfahren
werden heute in extrem vielfältigen und unterschiedlichen Bereichen eingesetzt. Nur einige
Beispiele sind:
• Numerische Probleme, wie Berechnung bestimmter Integrale oder Lösung gewöhnlicher
und partieller Differentialgleichungen.
8
George Louis Leclerc, Graf von Buffon (1707 - 1788), französischer Naturforscher
34
1
4.7124
0.9
P
4.3982
/ areatot = 4/π / 2 = 2/π
4.0841
0.7
3.7699
0.6
3.4558
2/p
cross
(x)
0.8
p=∫+1
P
(x)
−1 cross
0.5
3.1416
0.4
2.8274
0.3
2.5133
0.2
2.1991
0.1
1.885
0
−1
−0.5
0
0.5
0
1
10
x, Position zwischen den Linien
1
10
2
10
3
10
4
10
5
10
Anzahl geworfener Nadeln
Figure 5.2: Wahrscheinlichkeit für Nadeln den Rand zu berühren in Abhängigkeit ihrer Position
zwischen den beiden Geraden und Ergebnis der Monte-Carlo-Simulation mit Fehlern (gestrichelte
Linie).
• Zuverlässigkeitsuntersuchungen technischer Systeme und anderer Produkte, etwa die
Bestimmung der Lebensdauer von Glühlampen.
• Probleme des Operations-Research, wie Lagerhaltungs- und Transportprobleme.
• Untersuchung von Erdbeben und weiteren Naturphänomenen.
• Entscheidungsfindung durch Simulation oder Risikobewertung von Portfolien im Investment Banking.
Im Allgemeinen gliedern sich Monte-Carlo-Methoden in drei wesentliche Stufen:
• Für das ursprüngliche mathematische Modell muß ein stochastisches Modell gefunden
werden, welches das Problem gut genug beschreibt.
• Es muß eine Folge von Zufallszahlen erzeugt werden, deren Folgenglieder mögliche reale
Situationen simulieren, also insbesondere dieselbe vorgegebene Verteilung besitzen.
• Aus den Realisierungen der Zufallsgrößen müssen Schätzwerte für das Ausgangsproblem
ermittelt werden.
Monte Carlo war namensgebend für diese Art von Verfahren: Erste Tabellen mit Zufallszahlen wurden durch Roulette-Spiel-Ergebnisse im Spielcasino von Monte Carlo erzeugt. Die
mit Glücksspielen zusammenhängenden Probleme waren durchaus Anlaß für Wissenschaftler
und Gelehrte sich mit Fragen der Zufälligkeit von Ereignissen näher auseinanderzusetzen.
Hinzu kamen Problemstellungen aus Versicherungsgesellschaften oder aus der Beobachtung
von Naturphänomenen.
5.1
Zufallsgeneratoren
In Computern werden Zufallszahlen mit Hilfe von Rechenalgorithmen erzeugt, sind also
prinzipiell reproduzierbar und heißen daher auch Pseudozufallszahlen. Eine ihrer wichtigsten Merkmale sind die Periodenlänge, nach der sich analytisch generierte Zahlen wiederholen, und Korrelationen unter den generierten Zahlen. Mittlerweile wurden Algorithmen
35
entwickelt, bei denen sich die Folge erst nach 219937 Zahlen wiederholt und deren Zahlen bis
zur Wiederholung für viele praktische Zwecke unkorreliert erscheinen. Üblicherweise werden
zunächst gleichförmig verteilte Zahlen im Intervall ]0...1[ erzeugt, die später in Zufallszahlen
anderer Verteilungen transformiert werden. Die Randwerte 0 und 1 sind ausgenommen,
da sie Probleme bei weiteren Rechnungen verursachen können. Wir bezeichnen solch eine
Wahrscheinlichkeitsdichte mit U (0, 1) (uniform distribution), die Zufallszahlen selbst mit u.
(
U (0, 1) =
1 f alls 0 < u < 1
0
sonst
36
Erzeugung gleichförmiger Zufallszahlen mit dem Computer
Ein einfacher und klassischer Generator ist der allgemeine linear kongruente Generator.
ni+1 = (a · ni + c) mod m
ui = ni /m
Er benötigt drei ganzzahlige Konstanten, den Multiplikator a, den Summanden c und
den Modul m. Generatoren mit Summand c = 0 werden multiplikativ linear kongruente
Generatoren genannt. Die Verteilung und Korrelationen unter den ersten 10000 Zahlen dieses
Generators, der in den 60er Jahren von IBM für 32-Bit Ganzzahldarstellung entwickelt wurde
und unter dem Namen RANDU berühmt wurde, mit den Werten m = 231 , a = 65539 und
c = 0 sind in Abb. 5.3 dargestellt. Das MATLAB Program für den Zufallszahlengenerator
RANDU lautet:
%%%% MATLAB RANDU %%%
ev
= 10000;
u
= zeros(ev,1);
u(1) = 1;
a
= 65539;
m
= 2^31;
for i=2:ev
u(i) = mod(a * u(i-1),m);
end
u=u/m;
Eine weitere wichtige Eigenschaft von Pseudozufallszahlen ist der benötigte Startwert n1 der
auch Saatzahl (seet) genannt wird und in diesem Beispiel auf den Wert 1 gesetzt wurde. Die
Wahl des Startwerts garantiert zum einen, daß exakt die gleichen, oder gesichert verschiedene
Ausgangsbedingungen einer MC-Simulation hergestellt werden können.
Übung: Vergleichen Sie die ersten 10 Zufallszahlen von RANDU für zwei verschiede
Startwerte. Plotten Sie die Tripel ui , ui+1 , ui+2 in 3 Dimensionen (plot3), drehen Sie die
Ansicht bis Sie die 15 Hyperebenen in ]0...1[3 sehen.
1
1
0.8
0.8
100
0.6
randi+2
ui+2
Eintraege pro Bin (0.01)
150
0.4
0.2
0
1
0
1
0.8
0.6
0.4
0.2
0.4
ui
0.6
0.8
1
0.4
0.2
50
0
0
0.6
ui+1
0.2
0 0
0.2
0.4
ui
0.6
0.8
1
0.8
0.6
0.4
randi+1
0.2
0 0
0.2
0.4
0.6
0.8
1
randi
Figure 5.3: Histogram (100 Bins) der ersten 10000 mit RANDU erzeugten Zufallszahlen und Korrelationen unter jeweils drei aufeinanderfolgenden Werten (ungebinnt). Zum Vergleich wurden 10000
Werte, generiert mit der MATLAB-Funktion rand, in gleicher Weise in den rechten Graph eingetragen.
Es ist eine allgemeine Eigenschaft linearer Generatoren, daß die k-Tupel aufeinander folgender Zufallszahlen im k-dimensionalen Raum auf (k-1)-dimensionalen Hyperebenen liegen.
Der maximale Abstand dieser Ebenen ist ein wichtiger Test für lineare Generatoren (Spektraltest). Der rechte Graph in Abbildung 5.3 zeigt im Vergleich zu RANDU (mittleres Bild),
37
die wesentlich gleichmäßigere Verteilung des MATLAB Generators rand.
Hinweis zu MATLAB: MATLAB arbeitet mit “double precision” reellen Zahlen, d.h.
mit 64 Bits (Vorzeichen 1 Bit, Exponent 11 Bits und Mantisse 52 Bits). Die eingebauten
Zufallsgeneratoren rand und randn verwenden ebenfalls den Algorithmus des multiplikativen
linear kongruenten Generators mit den Parametern a = 75 und m = 231 − 1. Damit können
Fließkommazahlen im Intervall [2−53 , 1−2−53 ] erzeugt werden mit einer theoretischen Periode
von 21492 Werten bis der Generator sich wiederholt9 . In MATLAB 6 wird im Vergleich zu
früheren Versionen der Ausgangszustand der eingebauten Zufallsgeneratoren rand und randn
nicht mehr durch eine einzige Saatzahl bestimmt, sondern durch einen 35-elementigen Vektor,
der den Status (state) des Generators definiert.
Für den täglichen Gebrauch sind die Standard-Zufallsgeneratoren wie sie heute in vielen Computerprogrammen implementiert sind, meist vollkommen ausreichend. In einigen
Spezialfällen, z.B. QCD Gitter-Eichtheorie-Rechnungen, werden jedoch höherqualitative Generatoren benötigt. Zwei Verfahren sind heute üblich, um Zufallszahlen mit minimalen Korrelationen und außerordentlich großen Periodenlängen zu erhalten:
• Kombination: Zwei Zufallszahlen werden mit je einem Generator erzeugt, und eine
neue durch die Operationen +, − oder Exklusiv-ODER erzeugt.
• Durchmischung: Ein Speicher wird mit einer Reihe von Zufallszahlen gefüllt, und
das Resultat eines zweiten Generators wird benutzt, um die Adresse der nächsten Zufallszahl im Speicher zu bestimmen.
5.2
Tests von Zufallsgeneratoren
Die wichtigsten Test von Zufallsgeneratoren wurden bereits angesprochen. Für einen Überblick
über die Vielzahl von entwickelten Methoden verweisen wir auf Knuth10 .
Test auf gleichförmige Verteilung Das Intervall [0,1] wird in k gleiche Unterintervalle
der Länge 1/k unterteilt. N Zufallszahlen ui werden erzeugt und es wird gezählt, wieviele der
Zahlen in jedes dieser Unterintervalle hineinfallen. Nennt man die Zahl der Fälle in jedem
Unterintervall Ni , i=1..k, dann sollte (für N/k≥10) die Summe
χ2 =
k
X
(Ni − N/k)2
N/k
i=1
näherungweise einer χ2 -Verteilung mit (k-1) Freiheitsgraden folgen, d.h. im Mittel sollte
das Verhältnis χ2 /(k-1) gleich 1 sein. Man kann analoge Ausdrücke für nicht-gleichförmige
Verteilungen konstruieren.
Korrelationstest Wenn n sukzessive Zufalllszahlen als die Koordinaten eines Punktes im
n-dimensionalen Raum aufgezeichent sind, liegen die Punkte auf Hyperebenen (s.o.). Ein
guter Generator besitzt viele Hyperebenen, die etwa gleichmäßig verteilt sind. Der Effekt ist
9
Die relative Rechenpräzision in MATLAB für Fließkommazahlen beträgt nominell 2−52 (vgl. Funktion
eps)
10
D. E. Knuth. The Art of Computer Programming, Volume II: Seminumerical Algorithms. Computer
Science and Information Processing. Addison Wesley, Reading, Mass., 1981
38
ausgeprägter, wenn man nur die Bits niedriger Ordnung nimmt.
Lücken-(gap-)Test Man wählt zwei Zahlen α, β mit 0 ≤ α < β ≤ 1. Man erzeugt r+1
Zufallszahlen, die gleichmäßig im Intervall [0,1] verteilt sind. Die Wahrscheinlichkeit daß die
ersten r-Zahlen außerhalb des Intervalls [α, β] liegen und die letzte, (r+1)ste Zahl innerhalb,
sollte sein:
Pr = p(1 − p)r mit p = β − α
Random Walk-Test Man wählt eine Zahl 0 < α << 1. Man bildet eine große Menge
von Zufallszahlen und registriert die Zahl der Fälle r, in denen eine Zufallszahl kleiner als α
erscheint. Man erwartet eine Binomialverteilung für r mit p = α. Der test ist sehr empfindlich
für große Werte von r. Der Test sollte auch gemacht werden, indem man die Menge der
Zufallszahlen zählt, die größer als (1-α) sind. Man erwartet in diesem Fall natürlich die selbe
Verteilung für r.
5.3
Beliebig verteilte Zufallszahlen
In den meisten Fällen einer Monte Carlo Rechnung werden Zufallszahlen benötigt, die einer
bestimmten Wahrscheinlichkeitsdichte f (x) folgen, die keine Gleichverteilung ist, wie die
generierten Zahlen aus U (0, 1). Zum Beispiel kann eine Normalverteilung einen Meßfehler in
der Simulation beschreiben. In den folgenden Unterkapiteln werden die wichtigsten Methoden
zur Erzeugung von beliebig-verteilten Zufallszahlen xi besprochen.
5.3.1
Umkehrfunktion der kumulativen Verteilung
Eine Standardtechnik beginnt mit Zufallszahlen ui ∈ U (0, 1) und transformiert diese in die
Variablen xi unter Verwendung der Umkehrfunktion einer kumulativen Verteilung. Es gilt:
Z
x
x = F −1 (u)
f (t) dt = F (x) = u
f (x) dx = U (0, 1) du
−∞
F −1 ist hierbei die Umkehrfunktion der kumulativen Verteilungsfunktion F (x), die natürlich
auf 1 normiert sein muß. Für eine Folge gleichförmiger Zufallszahlen ui folgen die Zufallszahlen xi = F −1 (ui ) der Wahrscheinlichkeitsdichte f (x).
F(x)
1
F(x)
0.8
u
f(x)
0.6
0.4
0.2
f(x)
0
0
a
x
b
Figure 5.4: Erzeugung von Zufallszahlen einer kontinuierlichen Verteilung f (x) durch Transformation
gleichverteilter Zufallszahlen mit dem Inversen ihrer kumulativen Verteilungsfunktion F (x).
Diese direkte und elegante Methode kann allerdings nur angewandt werden, wenn das Integral
einer Wahrscheinlichkeitsdichte als analytische Funktion F (x) ausgedrückt und die Funktion
39
F (x) invertiert werden kann. Die Methode ist in Abb. 5.4 illustriert.
Beispiel: Erzeugung von Zufallszahlen für eine Exponentialverteilung.
Die normierte Exponentialverteilung für die Variable x ist durch die Wahrscheinlichkeitsdichte
f (x, λ) = λe−λx für x ≥ 0 gegeben, und sie ist Null für negative Werte von x.
Z
u=
x
λe−λt dt = 1 − e−λx
0
Das Ergebnis ist die Formel xi = −ln(1−ui )/λ, oder weil ui und 1−ui beide im Intervall ]0..1[
gleichverteilt sind, ist xi = −ln(ui )/λ für die Folge von exponentiell verteilten Zufallszahlen
xi .
Wenn es sich in einer Anwendung um sehr große Zufallswerte handelt (z.B. sehr lange Lebensdauern t >> τ = 1/λ), dann kann die obige Methode unter Umständen nicht genau genug
sein. Sehr große Werte Werte von x werden durch sehr kleine Werte von u erzeugt. Wegen der
diskreten Natur von Gleitkommazahlen in einem Rechner werden deshalb sehr große Werte
von x auch diskret sein. Wird ein kongruenter Generator mit einem Modul m benutzt, dann
ist die kleinste Zahl, die ungleich Null ist, gegeben durch 1/m, und der größte transformierte
Zufallswert wird ln m sein, während die nächst größeren Werte ln m − ln 2, ln m − ln 3, usw.
sind. Vergleiche dazu auch die Diskussion zu den in MATLAB erzeugten Zufallszahlen auf
den vorhergehenden Seiten.
5.3.2
Brute Force Methode
Wenn es keinen einfachen Weg gibt, um nach der analytischen Methode vorzugehen, kann man
nach dem folgenden Algorithmus Zufallszahlen entsprechend einer gegebenen Wahrscheinlichkeitsdichte f (x) erzeugen, was jedoch oft nicht sehr effektiv ist. Unter der Annahme, daß
die Variable x auf einen Bereich a < x < b beschränkt ist, bestimmt man eine obere Schranke
c mit c ≥ max(f (x)); max(f (x)) ist dabei das Maximum von f (x) im Intervall [a,b]. Damit
füttert man folgendes Programm:
1. Man wählt xi gleichmäßig verteilt aus dem Intervall [a,b]: xi = a + ui · (b − a)
2. Man wählt eine weitere Zufallszahl uj ∈ U (0, 1)
3. Wenn f (xi ) < uj ·c ist, geht man zurück nach 1., sonst akzeptiert man xi als Zufallszahl
Die Effizienz dieses Verfahrens ist praktisch gegeben durch das Verhältnis der Fläche von
f (x) im Intervall [a,b] zur Gesamtfläche c · (b − a) des Raumes der generierten Paare (ui , uj ).
Die Effizienz kann bedeutend erhöht werden, wenn man eine Funktion s(x) finden kann, die
die ungefähre Gestalt von f (x) besitzt und deren Stammfunktion umgekehrt werden kann.
Dann wählt man eine Konstante c so, daß für alle x aus [a,b] gilt: c · s(x) > f (x). Mit
Z
x
xi = S −1 (ui )
s(t)dt = S(x)
−∞
kann man den folgenden Algorithmus anwenden:
1. Man wählt eine Zufallszahl ui und berechnet xi = S −1 (ui )
40
2. Man wählt eine weitere Zufallszahl uj ∈ U (0, 1)
3. Wenn f (xi ) ≤ uj · c · s(xi ) ist, geht man nach 1., sonst akzeptiert man xi als Zufallszahl
Der Zufallszahl xi entspricht eine s(x)-Verteilung. Die Wahrscheinlichkeit, daß sie in Schritt
3 akzeptiert wird, ist f (xi )/(c · s(xi )); Multiplikation der Wahrscheinlichkeiten ergibt f (x)/c.
5.3.3
Speziell verteilte Zufallszahlen
Zufallswinkel und -vektoren in zwei Dimensionen.
Ein Zufallswinkel φ, gleichmäßig verteilt in [0,2π], wird durch φi = 2π · ui erzeugt. Der Zui
fallseinheitsvektor ist dann einfach (cosφ
sinφi ).
Zufallswinkel und -vektoren in drei Dimensionen.
Hier wird zusätzlich zu den Werten von sin φ und cos φ ein Polarwinkel θ ∈ [−π/2, π/2]
benötigt. Entsprechend dem Raumwinkelelement
dΩ = sinθ dθ dφ = |d cosθ| dφ
ergibt sich θj = arcsin(2 · uj − 1) aus der analytischen Transformation. Für die 3 Komponenten des Zufallseinheitsvektors ergeben sich ex = sinφ · cosθ, ey = cosφ · cosθ und ez = sinθ.
41
Standardisierte Normalverteilung.
Dies ist eine der meist benötigten Verteilungen für Zufallszahlen. Ein einfacher, aber nur
annähernd
richtiger Generator für Zufallszahlen zi , die im Intervall [-6,6] einer Gaußverteilung
√
2
−x
(1/ 2π · e /2 ) folgen, basiert auf dem zentralen Grenzwertsatz:
zi =
12
X
uj − 6
j=1
Natürlich kann man die Anzahl der Summenelemente vergrößern, was jedoch auf Kosten der
Rechenzeit geht.
In MATLAB ist bereits ein Generator für standardisiert-Gauß-verteilte Zufallszahlen eingebaut und wird über die Funktion randn aufgerufen. Die nachfolgende Tabelle listet weitere
MATLAB-Zufallsgeneratoren aus der Statistics Toolbox auf, die bestimmten Verteilungen folgen. In der rechten Spalte sind die Grundgeneratoren aufgelistet, die MATLAB bei den einzelnen Verteilungen verwendet. Um Rechenergebnisse zu reproduzieren müssen die Zustände
dieser Generatoren korrekt gesetzt werden.
Verteilungsfunktion
Beta
Binomial
χ2
Exponential
Extremwert
F-Verteilung
Gamma
Geometrisch
Hypergeometrisch
Invers Wishart
Lognormal
Multivariat-Normal
Multivariat-T
Negativ-Binomial
Nicht zentral F
Nicht zentral T
Nicht zentral χ2
Normal(µ, σ)
Poisson
Rayleigh
Student-t
Diskrete Gleichverteilung
Gleichverteilung (A, B)
Weibull
Wishart
MATLAB-Funktion
betarnd
binornd
chi2rnd
exprnd
evrnd
frnd
gamrnd
geornd
hygernd
iwishrnd
lognrnd
mvnrnd
mvtrnd
nbinrnd
ncfrnd
nctrnd
ncx2rnd
normrnd
poissrnd
raylrnd
trnd
unidrnd
unifrnd
wblrnd
wishrnd
42
Verwendete Generatoren
rand, randn
rand
rand, randn
rand
rand
rand, randn
rand
rand
rand
rand, randn
randn
randn
rand, randn
rand, randn
rand, randn
rand, randn
randn
randn
rand, randn
randn
rand, randn
rand
rand
rand
rand, randn
5.4
Praktisches Vorgehen
Eine typische Monte Carlo Analyse beginnt damit, daß k-Tupel (x1 , ..., xk )i , i = 1, ..., n
von Zufallsgeneratoren nach den für den zu beschreibenden Prozess relevanten Verteilungen
f (x1 , ..., xk ) generiert werden. Aus diesen können weitere interessante Größen al (x1 , ..., xk )
direkt berechnet werden. Anschließend können die Eigenschaften der abgeleiteten Größen
al untersucht werden. Dabei lassen sich Randbedingungen in der Regel einfach dadurch
berücksichtigen, daß für jedes k-Tupel entschieden wird, ob es akzeptiert oder verworfen
wird. Generell interessante Eigenschaften der Verteilung der al sind ihre Normierung, ihr
Mittelwert und ihre Varianz. Aber auch die volle Verteilung der al kann auf diese Weise
analysiert werden. Die Monte-Carlo-Methode ist damit ein Verfahren zur Variablentransformation, das auch bei sehr komplexen Problemen noch anwendbar ist, bei denen analytische
√
Verfahren scheitern. Die Genauigkeit der Ergebnisse skalieren im allgemeinen mit 1/ n,
d.h. die Aussagen werden immer präziser je mehr k-Tupel generiert werden. Die Ursache
√
für den Zuwachs an Genauigkeit mit 1/ n und die Überlegenheit der Monte Carlo Methode
gegenüber numerischen Algorithmen für k > 4 wird im nächsten Abschnitt besprochen.
5.5
Monte Carlo Integration
Deterministische Methoden numerischer Integration verwenden eine Anzahl von äquidistanten
Funktionswerten. Dies funktioniert im Allgemeinen gut für Funktionen von einer oder wenigen Variablen. Deterministische Quadratur-Methoden werden jedoch für Funktionen von
Vektoren sehr ineffizient. Für eine numerische Integration eines zweidimensionalen Vektors
werden äquidistante Gitterpukte über einer Fläche benötigt, d.h. ein 10 · 10 Gitter benötigt
bereits 100 Punkte. Hat der Vektor 100 Dimensionen, werden 10100 Gitterpunkte benötigt,
praktisch unmöglich deterministisch zu erfassen. 100 Dimensionen ist hierbei keine unrealistische Zahl, da in physikalischen Problemstellungen eine Dimension einem Freiheitsgrad
entspricht, und bereits die dreidimensionale Beschreibung eines einzigen Teilchens mindestens
3 Dimensionen in Anspruch nimmt.
Die Monte Carlo Methode stellt hierbei eine Lösung für dieses exponentiell anwachsende
Problem dar. Solange die hier betrachtete Funktion einigermaßen glatt ist, kann ihr Integral
durch zufällig ausgewählte Punkte aus dem 100-dimensionalen Raum durch eine Art von
Mittelung abgeschätzt werden. Nach dem zentralen Grenzwertsatz konvergiert das Ergebnis
√
mit 1/ n gegen den richtigen Wert, d.h. Vervierfachung der Berechnungspunkte halbiert
jeweils den Fehler des Ergebnisses, unabhängig von der Anzahl der Dimensionen.
Diese Methode, auch als rohe Monte Carlo-Integrationsmethode bezeichnet wird, kann
durch unten aufgeführte Verfahren verfeinert werden. Sie haben im Prinzip alle das Ziel, das
Integral vor allem in den Bereichen genau zu berechnen, die einen großen Beitrag liefern,
d.h. die Gitterpunkte sollten aus einer Verteilung gezogen werden, die der zu integrierenden
ähnlich ist (vgl. Abschnitt importance sampling). In der Praxis ist es jedoch genau so
schwierig die perfekte Verteilung zu finden als gleich das Integral zu lösen, d.h. man wird
abwägen müssen welches Verfahren zur Varianzreduktion für das Problem am Geeignetsten
ist.
43
5.5.1
Integral als Summe von Funktionswerten an zufälligen Stellen
Das eindimensionale Integral einer Funktion f (x), I = ab f (x)dx wird mit der MC-Methode
berechnet. Zunächst kann das Integral folgendermaßen geschrieben werden:
R
Z
b
I=
1 · f (x)dx = (b − a) · E[f (x)]
a
wobei E[f (x)] dem Erwartungswert von f (x) für eine zwischen den Grenzen a und b gleichförmige Wahrscheinlichkeitsdichte entspricht. Mit den Zufallszahlen ui ist die Verteilung
von xi = a + ui · (b − a), gleichförmig in [a,b]. Der Monte Carlo Schätzwert des Integrals
beträgt damit
IM C =
n
b−aX
f (xi ) ≈ I mit : xi = a + ui (b − a) und i = 1...n
n i=1
Eine einfache numerische Formel zur Berechnung des Integrals zeigt die dazu prinzipielle
Ähnlichkeit der Monte Carlo Methode (man vergleiche mit der Trapezregel):
IN =
n
b−aX
1 b−a
f (xi ) mit : xi = a + (i − ) ·
und i = 1...n
n i=1
2
n
Der Fehler σIM C des Schätzwertes des Integral IM C hängt von der Varianz von f (xi ) folgendermaßen ab,
V [IM C ] = σI2M C = V
n
hb − a X
n
i
f (xi ) =
n
b − a 2 h X
n
i=1
V
i=1
i
f (xi ) =
(b − a)2
V [f (xi )]
n
entsprechend dem zentralen Grenzwertsatz. Diese Gleichung zeigt, daß die Varianz, d.h. das
Quadrat des Fehlers von IM C , mit 1/n abnimmt und proportional zur Varianz von f (x) über
dem Integrationsintervall ist.
5.5.2
Varianzreduzierende Methoden
Es gibt einige Methoden zur Varianzreduzierung eines Monte Carlo Integrals, wir beschreiben
hier die zwei wichtigsten.
Partitionierung
Die Varianz kann reduziert werden, wenn man das Integrationsintervall in zwei oder mehrere
Bereiche aufteilt. Die Intervalle sollten so gewählt werden, daß der Integrand f (x) im gegebenen Bereich möglichst wenig variiert, d.h. man verwendet in der Praxis einen größeren Teil
der erzeugten Zufallszahlen und kleinere Intervalle für Bereiche in denen f (x) stärker variiert.
n
IST RA
n
2
b−c X
c−aX
f (a+ui (c−a))+
f (c+ui (b−c)) mit i = 1...n und a < c < b
=
n/2 i=1
n/2 i=1+ n
2
Importance Sampling
Da die Varianz des Monte Carlo Ergebnisses proportional zur Varianz des Integranden ist, ist
es vorteilhaft das Integral so zu transformieren, daß der neue Integrand eine kleinere Varianz
44
als der ursprüngliche hat. Unter Einführung einer Funktion g(x), die f (x) ähnlich ist, können
wir schreiben:
Z
b
Z
f (x)dx =
b h f (x) i
a
a
A = G(a)
IImpSl
g(x)
Z
B
g(x)dx =
A
g(x)
Z
dv(x) mit v(x) =
x = G−1 (v)
B = G(b)
n
A−B X
f (x(vi ))
=
n i=1 g(x(vi ))
h f (x) i
mit
g(x)dx = G(x)
vi = A + ui (B − A)
x(vi ) = G−1 (A + ui (B − A))
und i = 1...n
Die Varianz des neuen Ergebnisses ist nun proportional zu der von f (x)/g(x), statt zu der von
f (x) alleine. Bei geeigneter Wahl von g(x) kann durch die Methode des Important Samplings
die Varianz des Monte Carlo Integrals ganz erheblich reduziert werden, es muss jedoch eine
Funktion g(x) gefunden werden, die integrierbar und invertierbar ist, und f (x) genügend gut
beschreibt (siehe Übungsaufgabe 3, Serie 7).
5.5.3
Vergleich mit numerischer Integration
Trapezregel
Die numerische Integration wird in ihrer einfachstenRForm nach der Trapez-Regel ausgeführt,
d.h. der numerische Schätzwert des Integrals I = ab f (x)dx wird näherungweise berechnet
durch:
IT =
b − a1
1
f (x0 ) + f (x1 ) + ... + f (xn−1 ) + f (xn )
n
2
2
b−a
mit : xi = a + i ·
und i = 0...n
n
Der Fehler dieser Methode wird durch Taylorentwicklung und Summation der einzelnen
Beiträge der n Intervalle unter Verwendung des zentralen Grenzwertsatzes als proportional
zu 1/n2 bestimmt.
Simpson’sche Regel
Bei dieser Regel wählt man eine gerade Zahl n, also eine gerade Zahl von Intervallen
IS =
b − a
f (x0 ) + 4f (x1 ) + 2f (x2 ) + 4f (x3 ) + ... + 4f (xn−1 ) + f (xn )
3·n
b−a
mit : xi = a + i ·
und i = 0...n
n
Sie führt zu einem Fehler, der noch schneller mit der Zahl n der Intervalle abnimmt, nämlich
mit 1/n4 . Im Vergleich dazu fällt der Fehler eines Integrales, das mit der Monte Carlo
√
berechnet wurde nur mit 1/ n ab. Darum sind konventionelle Integrations-Methoden in
einer Dimension immer besser als MC-Methoden. Für Integrale in vielen Dimensionen ist
√
die Sache jedoch anders. In einem d-dimensionalen Raum hat man in jeder Dimension d n
45
Intervalle mit n=Anzahl der Punkte, für die der Integrand berechnet werden muß, und der
√
Fehler aus der Trapezregel ist dann proportional zu 1/(d n)2 = n−2/d . Im Gegensatz dazu
ist der Fehler bei der MC-Methode immer noch proportional zu n−1/2 . Die MC-Methode ist
also dann besser, wenn gilt;
−
2
1
≤ − oder d ≥ 4
d
2
d.h. sobald 4 oder mehr Freiheitsgrade im zu betrachtenden Problem vorliegen.
46
6
Stichproben und Schätzungen
Aus einer Grundgesamtheit von gewöhnlicherweise unendlich vielen Elementen wird eine
Stichprobe (oder Messung) vom Unfang n Elementen genommen. Die Wahrscheinlichkeitsdichte der Grundgesamtheit ist durch f (x) mit Mittelwert µ und Varianz σ 2 gegeben. Aus
der vorliegenden Stichprobe möchte man jetzt die im allgemeinen unbekannten Grössen Mittelwert und Varianz bestimmen. Unsere Aufgabe besteht also darin die beste Schätzung einer
oder mehrerer Parameter der Grundgesamtheit anhand der Stichprobe durchzuführen.
6.1
Eigenschaften von Schätzungen
Die Stichprobe sowie jede Funktion der Stichprobe sind selber Zufallsvariablen. Eine Schätzung
ist eine Stichprobenfunktion, um einen oder mehrere Parameter ai der Grundgesamtheit zu
bestimmen. Die Schätzung des Parameters ai durch eine Stichprobenfunktion wollen wir mit
â bezeichnen. Wir wollen nun die folgenden Eigenschaften einer Schätzung definieren:
• Eine Schätzung heisst erwartungstreu oder unverzerrt, wenn bei beliebigem Umfang
der Stichprobe der Erwartungswert der (zufälligen) Grösse gleich dem zu schätzenden
Parameter ist: < â >= a. In diesem Falle spricht man auch von einem unbiased esimate.
Eine Schätzung ist verzerrt oder biased, wenn < â >= a + b ist. Die Zahl b heisst auch
der bias der Schätzung.
• Eine Schätzung heisst konsistent, wenn limn→∞ â = a.
• Eine Schätzung heisst effizient, wenn die Varianz von â möglichst klein ist.
• Ferner muss eine Schätzung robust gegenüber falschen Daten oder falschen Voraussetzungen sein.
6.2
6.2.1
Stichprobenfunktionen für kontinuierliche Verteilungen
Schätzung des Mittelwerts
Die Schätzung des Mittelwerts µ einer Wahrscheinlichkeitsdichte anhand von n unabhängigen
Stichprobenelementen xi ist gegeben durch:
µ̂ =
1X
xi
n i
(6.1)
Diese Schätzung ist erwartungstreu. Sie ist ausserdem konsistent aufgrund des zentralen
Grenzwertsatzes. Ihre Varianz ist gegegen durch:
V (µ̂) =
1 2
σ
n
(6.2)
Ob die Schätzung des Mittelwertes effizient ist, hängt von der genauen Wahrscheinlichkeitsdichte der Grundgesamtheit ab. Bei einer uniformen Verteilung ist die effektivste Schätzung
des Mittelwertes durch µ̂ = 0.5(xmax +xmin ) gegeben, die eine noch kleinere Varianz aufweist.
Die Robustheit der Schätzung aus Gleichung 6.2 kann durch Benutzung des getrimmten
Mittelwerts sogar noch erhöht werden. Dabei wird der Mittelwert durch Abschneiden bzw.
Weglassen der grössten und kleinsten Werte bestimmt.
47
6.2.2
Schätzung der Varianz
Als Schätzung der Varianz einer Grundgesamtheit bei unbekannten (wahren) Mittelwert
eignet sich die folgende Stichprobenfunktion s2 :
s2 = σˆ2 =
1 X
(xi − µ̂)2
n−1
(6.3)
1
Mit µ̂ ist wiederum der geschätzte Mittelwert aus Gleichung 6.2 gemeint. Der Faktor n−1
in
P
1
02
der obigen Gleichung verwirrt zunächst etwas. Im Gegensatz zu der Grösse s = n (xi − µ̂)2
ist die Schätzung s2 jedoch unverzerrt (unbiased). Man kann leicht zeigen, dass < s02 >=
n−1 2
2
2
2
n σ 6= σ , während < s >= σ ist. Falls aber der Mittelwert µ der Grundgesamtheit
bekannt ist und daher nicht geschätzt werden braucht, ist die Schätzung s02 für die Varianz
σ 2 der Grundgesamtheit eine erwartungstreue Stichprobenfunktion:
s02 =
1X
(xi − µ)2 =< x2 > −µ2
n
(6.4)
Die Varianz des Estimators s2 kann berechnet werden als:
V ar(s2 ) =
n−3 2
1
µ4 −
µ ,
n
n−1 2
(6.5)
wobei µk das k-the zentrale Moment ist. In einfacher Weise können auch die zentralen
Momente µk abgeschätzt werden als:
1 X
(xi − µ̂)k
n−1
(6.6)
n
1 X
(xi − x̄)(yi − ȳ) =
(xy
¯ − x̄ȳ)
n−1
n−1
(6.7)
µˆk =
6.2.3
Schätzung der Kovarianz
Die Grösse
Vˆxy =
ist eine erwartungstreue Schätzung für die Kovarianz Vxy von zwei Zufallsvariablen x und
y mit unbekannten (aber geschätzten) Mittelwerten. Der Korrelationskoeffizient ergibt sich
dann zu
Vˆxy
ρxy =
(6.8)
sx sy
6.3
6.3.1
Die Maximum-Likelihood Methode
Die Likelihood-Funktion
Es liegen n Messungen der Zufallsvariablen x vor. Die den Messwerten xi zugrundeliegende
Wahrscheinlichkeitsdichte f (x|a) soll bekannt sein. Hierbei steht a für einen oder mehrere
unbekannte Parameter, von denen die Wahrscheinlichkeitsdichte abhängt. Unsere Aufgabe
besteht wiederum darin, die beste Schätzung â des Parameters aus den vorliegenden Messdaten zu gewinnen.
48
Die Maximum-Likelihood-Methode geht von der ein- oder mehrdimensionalen Wahrscheinlichkeitsdichte f (x|a) der gemessenen Werte aus und bildet die Likelihood-Funktion11 :
L(a) = f (x1 |a) · f (x2 |a) · · · f (xn |a) =
Y
f (xi |a)
(6.9)
Die Funktion L(a) ist für eine gegebene Stichprobe eine Funktion der Parameter a und
gibt die Wahrscheinlichkeit an, bei einer vorgegebenen Wahl der Parameter a gerade die
Messwerte xi zu erhalten. Die Likelihood-Funktion ist aber keine Wahrscheinlichkeitsdichte
in den Parametern a.
Nach dem Maximum-Likelihood-Prinzip ist nun die beste Schätzung von a derjenige Wert
â welcher L(a) zu einem Maximum macht, d.h. gerade die Wahrscheinlichkeit maximiert, den
beobachteten Satz von Zufallsgrössen xi zu erhalten:
L(a) = Maximum
Z
f (x|a) = 1 ∀a
(6.10)
(6.11)
Hierbei ist wichtig, dass die Normierung von f (x|a) in jedem Schritt aufrecht erhalten werden
muss. Das Maximum wird nun durch Differenzieren gewonnen, d.h. dL(a)/da = 0 oder für
mehrere Parameter ak : ∂L/∂ak = 0 ∀k.
In der Praxis arbeitet man mit dem Logarithmus der Likelihood-Funktion l(a) = ln L(a);
sie heisst Log-Likelihood Funktion. Da der Logarithmus eine monoton anwachsende Funktion
ist, hat er sein Maximum an derselben Stelle und die Bedingung wird zu:
l(a) = ln L(a) =
X
ln f (xi |a) = Maximum.
(6.12)
Als Beispiel wollen wir eine Wahrscheinlichkeitsdichte betrachten, die durch f (x|a) =
1 + a(x − 0.5) mit x zwischen 0 und 1 gegeben ist. Die uns zur Verfügung stehenden Daten xi
seien 0.89, 0.03, 0.5, 0.36 und 0.49. Der Log-Likelihood der obigen Funktion ist dann gegeben
durch
l(a) =
5
X
ln(1 + a(xi − 0.5))
(6.13)
i=1
und ist in Figur 6.1 dargestellt. Das Maximum des Log-Likelihoods kann graphisch zu -0.6
bestimmt werden.
6.3.2
Einfache Anwendungen der Maximum-Likelihood Methode
Exponentieller Zerfall:
Als Anwendung einer Maximum-Likelihood (ML) Schätzung wollen wir einen exponentiellen
Zerfall betrachten. Ein instabiles Teilchen mit Lebensdauer τ zerfällt gemäss einem Exponentialgesetz:
1
f (t; τ ) = e−t/τ
(6.14)
τ
11
Eine deutsche Übersetzung wird dadurch erschwert, dass likelihood ebenso wie probability einfach
Wahrscheinlichkeit heisst. Es gibt aber einen fundamentalen Unterschied zwischen einer echten analytischen Wahrscheinlichkeitsdichtefunktion und einer Likelihood-Funktion. Letztere ist eine Stichprobenfunktion
und demnach auch eine Zufallsgrösse
49
Figure 6.1: Die Log-Likelihood Funktion aus Gleichung 6.13
Uns interessiert nun der ML-Schätzwert für die mittlere Lebensdauer τ̂ , wenn n Teilchenzerfälle mit Werten ti gemessen wurden. Die Log-Likelihood Funktion ist daher
ln L(τ ) = l(τ ) =
X
f (ti ; τ ) =
X
(ln
i
i
1 ti
− )
τ
τ
(6.15)
Eine Maximierung bezüglich τ ergibt die ML Schätzung τ̂ :
τ̂ =
1X
ti
n i
(6.16)
Als ML Schätzung ergibt sich somit der Mittelwert. Ferner kann leicht gezeigt werden, dass
die ML Schätzung in diesem Fall erwartungstreu ist.
Gaussverteilung:
Die Gauss-Wahrscheinlichkeitsdichte ist
−
1
f (xi ; µ) = √
·e
2πσi
(xi −µ)2
2σ 2
i
(6.17)
Um eine ML-Schätzung für den Mittelwert µ̂ zu bekommen, bilden wir wiederum die LogLikelihood Funktion:
l(µ) =
X
i
1
1
1
(xi − µ)2
ln √ + ln 2 −
2σi2
2π 2 σi
!
(6.18)
Eine Ableitung nach µ und Bestimmung des Maximums ergibt:
dl(µ)
dµ
=
X xi − µ
σi2
i
2
i xi /σi
1/σi2
=0
(6.19)
P
µ̂ =
50
(6.20)
Dies ist aber genau der gewichtete Mittelwert, den wir bereits im vorigen Kapitel kennengelernt haben. Falls die xi dieselben σi besitzen vereinfacht sich natürlich die Gleichung zu
P
µ̂ = n1 i xi . Ferner können wir im Falle derselben σi = σ die Likelihood-Methoe benutzen,
um eine Schätzung der Varianz σˆ2 zu erhalten. Die ML Methode ergibt dann
1X
σˆ2 =
(xi − µ̂)2
n i
(6.21)
Dieser ML Estimator ist jedoch nicht erwartungstreu, wie wir bereits vorher gesehen haben.
Allerdings geht der bias für n → ∞ gegen null. Die unverzerrte Schätzung der Varianz ist
durch
1 X
s2 =
(xi − µ̂)2
(6.22)
n−1 i
gegeben.
Poisson-Verteilung:
Die Log-Likelihood Funktion für die Poisson-Verteilung ist gegeben durch
l(µ) =
X
i
ln
X
µxi −µ
xi − nµ + const
e = ln µ ·
xi !
i
(6.23)
Ableiten von l(µ) nach µ und gleich null setzen ergibt als Schäztwert für den Mittelwert einer
P
Poisson-Verteilung µ̂ = n1 i xi .
6.3.3
Eigenschaften der Maximum Likelihood Methode
Wir wollen an dieser Stelle einige wichtige Eigenschaften von Likelihood und ML Methode
aufzeigen. Für allgemeine Schätzungen (nicht nur für die ML-Methode) kann gezeigt werden,
dass
∂b
1 + ∂a
< (â − a)2 > = V (â) ≥ R
(6.24)
n (∂l/∂a)2 f (x|a)dx
gilt. Diese Ungleichung wird als Rao-Cramer-Frechet Grenze oder auch Informationsungleichung genannt und gibt eine untere Schranke für die Varianz einer Schätzung. Der Nenner
in der Ungleichung 6.24 heisst auch die Information bezüglich des Parameters a. Je grösser
demnach die Information über die Stichprobe ist, desto kleiner ist seine Varianz. Im Falle des
Gleichheitszeichens besitzt der Schätzwert die kleinstmögliche Varianz. Man spricht dann von
einer effizienten Schätzung. Für die ML Methode kann in den allermeisten Fällen folgendes
gezeigt werden: Wenn es einen effizienten Schätzwert für ein gegebenes Problem gibt, dann
wird er durch die ML Methode gefunden. Dieser Schäztwert besitzt dann die kleinstmögliche
Varianz gemäss der Rao-Cramer-Frechet Schranke, d.h. die Varianz des Schätzwertes ist
durch den rechten Ausdruck der Gleichung 6.24 gegeben. Man sagt dann auch, dass der
Schätzwert die minimale Varianz hat und spricht von einer Minimalschätzung.
Wie wir bereits im Falle der Varianzschäztung bei der Gaussverteilung gesehen haben,
sind die ML-Schätzungen jedoch nicht immer erwartungstreu bzw. unverzerrt. Dies kann
nicht oft genug betont werden. Erst im Grenzwert n → ∞ wird die ML-Schätzung auch
erwartungstreu, d.h. der bias verschwindet. Man spricht daher bei der ML-Methode von
einer asymptotisch unverzerrten Schätzung. Ferner liefert die ML Methode gewöhnlicherweise
51
konsistente Schätzwerte, d.h. limn→∞ â = a. Die Tatsache, dass nicht alle ML Schätzungen
erwartungstreu sind, hat etwas mit der Invarianz der ML Schätzwerte zu tun, wenn eine
Parametertransformation durchgeführt wird. Dies bedeutet, dass es für die ML Methode
keinen Unterschied macht, ob man den Parameter a oder eine Funktion f (a) schätzt, d.h.
ˆ = f (â).
f (a)
6.3.4
Fehlerberechnung bei der ML Methode
Wir beginnen mit dem Fall eines Parameters und entwickeln die (negative) Log-Likelihood
Funktion um a = â:
1 d2 F
· (a − â)2 + · · ·
2 da2
!
!
2
1 d2 F
(a
−
â)
L(a) = const · exp − ·
(a − â)2 = const · exp −
2 da2
2σ 2
− ln L(a) = F (a) = F (â) +
(6.25)
(6.26)
Die Likelihood-Funktion hat in dieser Grenze in der Nähe des Maximums die Form einer
Gauss-Verteilung. Durch den Vergleich mit den Exponenten findet man:
σ(â) =
d2 F da2 a=â
!−1/2
(6.27)
Die negative Log-Likelihood-Funktion hat die Form einer Parabel und ihre zweite Ableitung
ist eine Konstante. Der Wert von F (a) um das Minimum bei a = â ± n · σ ist
1
F (â ± n · σ) = F (â) + n2
2
(6.28)
Dies bedeutet, dass der Log-Likelihood für ±1σ um ±0.5 vom Maximum abgefallen ist und
für ±2 (3)σ entsprechend um ±2 (9/2). Damit können die Fehler eines Schätzwerts â leicht
aus einem Graphen der Log-Likelihood Funktion bestimmt werden. Die Gesamtwahrscheinlichkeit, die in den Konfidenzintervallen â ± σ oder allgemein â ± nσ enthalten ist, kann
aus der Gauss-Verteilung berechnet werden. Wenn die tatsächliche Log-Likelihood-Funktion
ein parabolisches Verhalten aufweist, kann somit die Standardabweichung leicht aus obiger
Gleichung bestimmt werden. Ist der Grenzfall N → ∞ noch nicht erreicht, ist die LikelihoodFunktion noch nicht gauss-förmig und die Log-Likelihood-Verteilung daher nicht parabolisch.
Man muss dann eine nichtlineare Transformation der Variablen a in eine Variable z = z(a)
suchen, so dass F (z) ein parabolisches Verhalten aufweist. Erst wenn diese Transformation gefunden ist, kann man mit dem obigen Verfahren eine Standardabweichung σz von z
bestimmen.
Wegen der Invarianzeigenchaft der ML Schätzungen ist die beste Schätzung ẑ = z(â).
Ferner gelten folgende Identitäten:
1
= F (â) +
2
1
F (ẑ − σz ) = F (ẑ) + = F (â) +
2
F (ẑ + σz ) = F (ẑ) +
52
1
= F (â) + σr
2
1
= F (â) − σl
2
wobei σl und σr die links- und rechtsseitigen Standardabweichungen für den Parameter a
r
sind. Das Resultat einer Likelihood-Anpassung wird dann in der Form x+σ
−σl angegeben.
Eine oft in der Praxis benutzte Methode die Standardabweichung oder Varianz eines
Parameters abzuschätzen, ist die MC-Methode. Dabei wird eine grosse Anzahl von Experimenten simuliert und der ML-Schätzwert jedesmal berechnet. Aus den so ermittelten
Schätzwerte der MC-Experimente kann dann die Varianz berechnet werden. Dazu benutzt
man am besten den unbiased estimator s2 der Varianz aus Gleichung 6.3. Als ”wahrer” Wert
von a zur Erzeugung der MC-Ereignisse kann der aus den Daten gewonnene ML-Schätzwert
benutzt werden.
Im Falle mehrerer Parameter a1 , a2 , . . . , am ist die Likelihood-Funktion durch
L(a1 , a2 , . . . , an ) =
n
Y
f (xi ; a1 , a2 , . . . , am )
(6.29)
i=1
gegeben. Entwickelt man die negative Log-Likelihood-Funktion um ihr Minimum bei â, so
erhält man, da bei a = â die ersten Ableitungen verschwinden:
F (a1 , . . . , am ) = F (â1 , . . . , âm ) +
= F (â1 , . . . , âm ) +
1 X ∂2F
(ai − âi )(ak − âk ) + · · ·
2 i,k ∂ai ∂ak
(6.30)
1X
Gik (ai − âi )(ak − âk ) + · · ·
2 i,k
(6.31)
Asymptotisch nähert sich die Likelihood-Funktion L(a) = exp(−F (a)) einer Gauss-Wahrscheinlichkeitsdichte
für die Variablen âi an. Die Kovarianzmatrix des Vektors a ist dann gegeben durch
V
Gik
= G−1
∂2F
=
∂ai ∂ak
(6.32)
(6.33)
gewonnen am Minimum â. Im Falle von zwei Parametern zeichnet man Konturlinien als
Linien gleicher Likelihood-Werte F (a) = F (â) + 1/2r2 . Im Falle grosser Datenmengen, d.h.
n → inf ty wird die Funktion eine zweidimensionale Gaussverteilung und die Konturlinien
für ∆F = 0.5 entsprechen Ellipsen deren grossen Halbachsen die 1σ Fehler repräsentieren.
Als Beispiel schauen wir uns erneut die Gaussverteilung an, um die beiden Parameter
Standardabweichung σ und Mittelwert µ mittels der ML-Methode abzuschätzen. Die LogLikelihood-Funktion ist
ln L =
X
i
1
1
1
(xi − µ)2
ln √ + ln 2 −
2σi2
2π 2 σi
!
(6.34)
Um die Varianzen von µ und σ zu berechnen werden die zweiten Ableitungen an den Stellen
µ = x̄ und σ 2 = x¯2 − µ2 gebildet. Dies ergibt dann
∂ 2 ln L
> = −N/σ 2
∂µ2
∂ 2 ln L
<
> = −2N/σ 2
∂σ 2
P
∂ 2 ln L
2 < xi − µ >
<
> = −
=0
∂µ∂σ
σ3
<
53
Da die Matrix diagonal, kann die Inversion leicht durchgeführt werden. Die Kovarianz ist
null und es ergeben sich folgende Ausdrücke:
∂ 2 ln L −1
> = σ 2 /N
∂µ2
∂ 2 ln L −1
V (σ) = − <
> = σ 2 /2N
∂σ 2
V (µ) = − <
6.3.5
Erweiterte Maximum-Likelihood-Methode
In der Standard ML-Methode müssen die Wahrsscheinlichkeitsdichten korrekt auf eins normiert
sein. In der Methode des erweiterten ML (EML) wird diese Bedingung aufgehoben und
benutzt anstelle ein Integral über eine Wahrscheinlichkeitsdichte deren Normierung nicht
festgelegt ist. Dies ist zum Beispiel bei Problemen der Fall, wenn die mittlere Anzahl von
Ereignissen ν bei Zählexperimenten selbst ein Parameter ist, den es zu bestimmen gilt. Die
EML Likelihood-Funktion ist dann gegeben durch
L(ν, a) =
n
n
ν n −ν Y
e−ν Y
f (xi ; a) =
νf (xi ; a)
e
n!
n! i=1
i=1
(6.35)
Dies ist die normale Likelihood-Funktion mit einer korrekt normierten Wahrscheinlichkeitsdichte f (xi ; a) multipliziert mit der Poisson-Wahrscheinlichkeit n Ereignisse bei ν erwarteten
zu erhalten. Wir unterscheiden nun zwei Fälle: Im Fall 1) soll der Parameter ν selber von a
abhängen und im Fall 2) nicht. Zunächst nehmen wir Fall 1) an. Die EML Log-Likelihood
Funtkion kann dann geschrieben werden als
ln L(a) = n ln ν(a) − ν(a) +
n
X
ln f (xi ; a)
(6.36)
i=1
= −ν(a) +
n
X
ln(ν(a)f (xi ; a)
(6.37)
i=1
wobei additive Terme die nicht von den Parametern abhängen weggelassen wurden. Durch
Berc̈ksichtigung des Poisson-Terms in der EML-Funktion werden beim Abschätzen der Parameter â sowohl Informationen aus den xi als auch von n benutzt, so dass die resultierende
Varianz in der Regel kleiner wird. Zur Anschauung betrachten wir eine Teilchenreaktion,
bei der die erwartete Anzahl von Ereignissen durch einen Reaktionsquerschnitt σ, eine Luminosität L und eine Nachweiswahrscheinlichkeit gegeben ist: ν = σ · L · . Sowohl der
Reaktionsquerschnitt σ als auch die zur Beschreibung benutze Ereignisvariable x mögen nun
von einer ganzen Reihe von Parametern wie Teilchenmassen oder Kopplungen abhängen.
Die Standardabweichung der mit der EML-Methode geschätzen Parameter entspricht nun
den Fluktuationen der Schätzwerte, die man erhielte, wenn man zahlreiche Experimente
durchführen würde, bei denen die Luminosität und nicht die Anzahl der beobachtbaren
Ereignisse festhalten wird.
Im anderen Fall existiert kein funktionaler Zusammenhang zwischen ν und a. Die Ableitung
der Gleichung 6.35 und nullsetzen ergibt dann als Schätzwert schlicht ν̂ = n, wie es zu erwarten ist. Durch Gleichsetzen der Ableitung bezüglich den ai von Gleichung 6.35 erhalten
54
wir als Schätzwerte für âi dasselbe wie in der normalen ML-Methode. Trotzdem wäre die
Varianz der âi jetzt grösser, da sowohl â als auch n Quellen von statistischen Unsicherheiten
sind.
6.3.6
Binned Maximum Likelihood
Zur Bildung der Likelihood-Funktion wird normalerweise auf alle zur Verfügung stehenden
Datenpunkte xi zurückgegriffen. Die ML-Methode hat den Vorteil, dass sie unbinned ist und
daher im Prinzip kein Informationsverlust durch Einteilung der Daten in bins (Klassenintervalle) entsteht. Existieren aber grosse Datenmengen, ist es numerisch vorteilhafter, die Daten
in Klassenintervalle einzuteilen und in Form von Histogrammen zu präsentieren. Wir nehmen
an, dass die Zufallsvariablen xi gemäss einer Wahrscheinlichkeitsdichte f (xi ; a) verteilt seien.
Unsere Aufgabe besteht nun darin, die Wahrscheinlichkeitsdichte f (xi ; a) an die Zahl der
Datenpunkte in jedem Klassenintervall i anpassen. Der Erwartungswert ν = (ν1 , . . . , νN ) für
die Anzahl der Einträge pro Bin i ist gegeben durch:
Z
νi = ntot =
xmax
i
xmin
i
f (x; a)dx
(6.38)
Hierbei sind xmin
und xmax
die Grenzen des Bins i. Wir können das Histogramm als eine
i
i
Art Einzelmessung eines N -dimensionalen Zufallsvektors ansehen für den die kombinierte
Wahrscheinlichkeitsdichte durch eine multinomiale Verteilung gegeben ist:
fkomb (n; ν) =
ntot !
n1 ! · · · nN !
ν1
ntot
n
···
1
νN
ntot
n
(6.39)
N
Dadurch drücken wir die Wahrscheinlichkeit in bin i durch den Erwartungswert νi dividiert durch die gesamte Anzahl ntot der Einträge aus. Der Logarithmus der kombinierten
Wahrscheinlichkeit ergibt nun die Log-Likelihood Funktion (hierbei sind Terme, die nicht
von den interessanten Parametern abhängen weggelassen):
l(a) =
N
X
ni ln νi (a)
(6.40)
i=1
Nun werden die Schätzwerte für â wie gewöhnlich durch Maximierung von l(a) gefunden.
Im Limit kleiner bins oder sehr grosser N wird die Likelihood-Funktion dieselbe wie im
gewöhnlichen (unbinned) ML Fall ohne Klassenintervalleinteilung. Dadurch ist die binned
Likelihood-Funktion universell verwendbar, auch wenn die Einträge in einigen bins null sind.
6.3.7
Kombination von Messungen mit der ML Methode
In diesem Kapitel wollen wir uns kurz damit beschäftigen, wie man mittels der ML Methode
Messungen miteinander kombiniert. Angenommen wir haben einen Satz von n gemessenen
Datenpunkten mit Wahrscheinlichkeitsdichte f (x; a). Ferner liegt ein zweiter Datensatz (eines
zweiten Experiments) mit m gemessenen Datenpunkten yi vor, die gemäss einer Wahrscheinlichkeitsdichte g(y; a) verteilt sein sollen. Die Wahrscheinlichkeitsdichte g(y; a) kann zwar
eine andere andere funktionale Form als f habe, sie soll aber dennoch vom selben Parameter
a abhängen. Als Beispiel kann der Parameter a eine Teilchenmasse sein.
55
Die beiden Experimenten können nun zusammen als ein Einzel-Experiment interpretiert
werden und ihre kombinierte Likelihood-Funktion ist dann:
L(a) =
n
Y
f (xi ; a) ·
i=1
m
Y
g(yi ; a) = Lx (a) · Ly (a)
(6.41)
i=1
Die Likelihood-Gesamtfunktion ist also das Produkt der Einzellikelihood-Funktionen. Alternativ ist der kombinierte Log-Likelihood die Summe der einzelnen Log-Likelihoods: ln L(a) =
ln Lx (a) + ln Ly (a). Solange also die Likelihood-Funktionen von Einzelexperimenten bekannt
sind, können wir die Gesamtfunktion auf einfache Weise konstruieren, um dann den ML
Schätwert des Parameters a zu bestimmen.
Wenn die einzelnen Likelihood-Funktionen nicht bekannt sind, sondern nur die Schätzwerte
der Parameter a, namentlich âf und âg , die ihrerseits wieder Zufallsvariablen mit Wahrscheinlichkeitsdichten f (âf ; a) und g(âg ; a) sind, können die beide Schätzwerte wiederum als Ergebnis eines kombinierten Experimentes aufgefasst werden. Solange die beiden Schätzwerte unabhängig sind, ist ist die Log-Likelihood-Funktion gegeben durch:
ln L(a) = ln f (âf ; a) + ln g(âg ; a)
(6.42)
Da für grosse Datenmengen die Wahrscheinlichkeitsdichten f (âf ; a) und g(âg ; a) als Gauss
verteilt angenommen werden können und die Varianz-Abschätzungen V̂ (âf ) und V̂ (âg ) der
Einzelmessungen vorliegen, ergeben sich mittels der ML-Methode wiederum folgende Ausdrücke
für die beste Schätzung â und seine Varianz V̂ (â) aus den beiden kombinierten Messungen:
â =
V̂ (â) =
âf /σ̂â2f + âg /σ̂â2g
1/σ̂â2f + 1/σ̂â2g
1/σ̂â2f
1
+ 1/σ̂â2g
D.h. es ergibt sich wieder die Gleichung für den gemittelten Mittelwert und seine Varianz.
Natürlich kann die obigen Gleichung auch auf beliebig viele Messungen verallgemeinert werden.
56
7
Weitere Schätzmethoden: Kleinste Quadrate - Least
Square
Die Methode der kleinsten Quadrate (LS) ist ähnlich zum Maximum Likelihood Verfahren
des vorangegangenen Kapitels, eine Methode, um unbekannte Parameters aus einen Datensatz
zu bestimmen. Die LS-Methode ist besonders nützlich, wenn zwei Variablen x und y vorliegen
und
• der Datensatz x genau bekannt ist
• die entsprechenden Datenwerte y den Fehler σ haben und
• eine Funktion (Modell, Theorie) f (x; a) vorliegt, die für jeden x-Wert einen y-Wert
vorhersagt. Diese Funktion hängt natürlich von unbekannten Parametern a ab, die es
zu bestimmen gilt.
7.1
Die Least Square Methode
Die LS Methode minimiert die (u.U. besonders gewichteten) Abstandsquadrate zwischen
einem Datensatz yi und einer Vorhersage f (x; a) durch Änderung des Parameters a, um die
beste Abschätzung â für den Parameter a der Funktion f (x; a) zu erhalten. Die Differenz
zwischen den gemessenen Datenpunkten yi und den nach dem Modell erwarteten Werten
f (xi ; a) nennt man auch Residuum ri = yi −f (xi ; a). Besitzt der Datensatz yi Gauss-verteilte
Fehler mit einer Standardabweichung σi , dann gehorcht die Summe
χ2 =
N X
yi − f (xi ; a) 2
σi
i=1
(7.1)
einer χ2 -Verteilung mit N − p Freiheitsgraden. Hierbei ist p die Anzahl der freien Parameter
in der Funktion f (xi ; a). In der LS-Methode wird nun der Wert für a gewählt, der das kleinste
2
χ2 gibt. Falls die Ableitungen von ∂f /∂a bekannt sind, reduziert dich die Minimierung ∂χ
∂a
auf das Finden der Lösung für:
X 1 ∂f (xi ; a)
i
σi2
∂a
(yi − f (xi ; a)) = 0
(7.2)
Falls die Funktion nicht nur einen unbekannten Parameter a enthält, sondern mehrere,
a1 , a2 , . . . , ap , sind p Minimierungs-Gleichungen simultan zu lösen.
7.1.1
Anpassen einer Geraden
Wir beginnen mit einem der einfachsten Fälle und nehmen als Modell f (x) = mx an. Die
Grösse, die es nun zu minimieren gilt lautet:
χ2 =
X (yi − mxi )
σi
i
57
(7.3)
Ferner nehmen wir an, dass alle σi gleich sind. Die Ableitung nach m und Gleichsetzen mit
null, um die beste Schätzung m̄ für m zu bekommen, liefert uns:
X
∂χ2
∂m
= −
∂χ2
∂m
=
2X
(xi yi − mx2i ) = 0
σ i
X
(xi yi − mx2i ) = 0
i
xi yi = m
X
i
x2i
i
X xi
m̂ =
i
N x2
yi =
xy
x2
Die Varianz von m̂ kann durch Fehlerfortpflanzung bestimmt werden zu:
V (m̂) =
X xi 2
i
N x2
σ2 =
σ2
N x2
(7.4)
Wird die Gerade durch Steigung m und Achsenabschnitt b bestimmt, d.h. f (xi ; m, b) =
mxi + b, dann lautet die komplette Lösung der LS-Methode folgendermassen:
xy − x̄ȳ
x2 − x̄2
b̂ = ȳ − m̂x̄
m̂ =
(7.5)
(7.6)
(7.7)
Die Fehler sind gegeben durch:
2
σm
= V (m̂) =
σ2
N (x2 − x̄2 )
σ 2 x2
N (x2 − x̄2 )
σ 2 x̄
cov(m̂, b̂) = −
N (x2 − x̄2 )
σb2 = V (b̂) =
(7.8)
(7.9)
(7.10)
(7.11)
Das χ2 für die beste Anpassung lautet:
χ2 =
V (y)
(1 − ρ2 (x, y))
σ2
(7.12)
Da diese Formeln sehr wichtig sind und häufig vorkommen, geben wir sie hier komplett an.
Die Gleichungen des Gleichungssystem 7.5 können direkt durch Aufstellen der LS-Gleichung
und ihre Lösungen erhalten werden. Der Ausdruck b̂ = ȳ − m̂x̄ bedeutet, dass die durch die
LS-Methode gewonnene beste Gerade durch den Schwerpunkt (x̄, ȳ) der Datenpunkte geht.
Ausserdem soll darauf hingewiesen werden, dass V (y) nicht dasselbe wie σ 2 ist. V (y) = y 2 −ȳ 2
58
bezieht sich auf die Varianz des ganzen Datensamples, während σ die Standardabweichung
einer einzelnen Messung um seinen wahren Wert angibt.
Falls die Fehler σi nicht gleich sind, muss folgender Ausdruck minimiert werden:
X (yi − mxi − b)2
(7.13)
σi2
i
Die Lösung dieser Minimierung kann wiederum durch das obige Gleichungssystem gegeben
werden, wenn alle Mittelwerte wie x̄, ȳ durch ihre gewichteten Mittelwerte ersetzt werden.
P
Ausserdem ist die Normierung nicht mehr duch N sondern nun durch i 1/σi2 gegeben:
P
i yi
N
P
yi /σi2
2
i 1/σi
→ Pi
(7.14)
Ferner muss die Grösse σ 2 in den Ausdrücken für die Varianzen durch
N
2
i 1/σi
σ2 → P
(7.15)
ersetzt werden.
Nachdem nun die Steigung m und der Achsenabschnitt b mit Hilfe der kleinsten Quadrate
bestimmt sind, wollen wir wissen wie gross die Fehler an jedem beliebigen interpolierten (oder
extrapolierten) Punkt y für ein gegebenes x sind. Für ein gegebenes x ist der vorhergesagte
Wert y gerade: y = m̂x + b̂ und der Fehler für den interpolierten Wert y ergibt sich durch:
V (y) = V (m̂x + b̂) = V (m̂x) + V (b̂) + 2 · cov(m̂x, b̂)
(7.16)
2
V (y) = = x V (m̂) + V (b̂) + 2x · cov(m̂, b̂)
σ 2 (x − x̄)2
V (y) =
+ σ 2 /N
N (x2 − x̄2 )
7.1.2
(7.17)
(7.18)
Berücksichtigung von systematischen Fehlern
Als Beispiel betrachten wir eine Geradenanpassung bei der alle Messwerte yi einen gemeinsamen statistischen Fehler σ und einen gemeinsamen systematischen Fehler S haben. Aus unseren vorigen Betrachtungen im Kapitel systematische Fehler wissen wir, dass dann die Kovarianzmatrix cov(yi , yj ) geschrieben werden kann als cov(yi , yj ) = δij σ 2 + S 2 . Die Schätzwerte
für die Steigung, m̂ und den Achsenabschnitt, b̂, sind wiederum gegeben durch Gleichungen 7.5 und 7.6. Die komplette Formel für die Varianzen lauten nun:
V (m̂) =
X
1
(xi − x̄)(xj − x̄) · cov(yi , yj )
2
2
− x̄ ) i,j
(7.19)
N 2 (x2


V (m̂) =
X
X
1
 (xi − x̄)2 σ 2 +
(xi − x̄)(xj − x̄)S 2 
N 2 (x2 − x̄2 )2
i
i,j
V (m̂) =
1
2
2
N (x − x̄2 )2
(7.20)
!
X
2 2
(xi − x̄) σ
i
59
(7.21)
Der zweite Summand verschwindet, da
V (b̂) =
P
xi = x̄ ist. Die Varianz für b̂ lautet:
X
1
(x2 − x̄xi )(x2 − x̄xj ) · cov(yi , yj )
N 2 (x2 − x̄2 )2 i,j
(7.22)
In diesem Ausdruck verschwindet die Summe i (x2 − x̄xi ) = N (x2 − x̄2 ) nicht, so dass
ein zusätzlicher Term auftritt, der aber gerade S 2 ist. Zusammenfassend beeinflusst ein
gemeinsamer systematischer Fehler nur die Varianz des bestimmten Achsenabschnitts, jedoch
nicht die Varianz der Steigung.
P
7.1.3
Geradenanpassung bei Fehlern in beiden Variablen
Beide Variablen xi und yi mögen nun Fehler σxi und σyi haben. Dann minimiert man die
Summe der Quadrate des Abstandes der Fehlerellipsen von der Geraden, also:
S(m, b) =
X (yi − mxi − b)2
i
σy2i + m2 σx2i
(7.23)
Nun müssen die beiden Gleichungen ∂S/∂m und ∂S/∂b unter Umständen numerisch gelöst
werden. Die Forderung ∂S/∂b führt auf
P
b̂ =
yi /κi − m̂ xi /κi
P
1/κi
P
(7.24)
wobei κi = σy2i + m2 σx2i . Prinzipiell könnten wir nun das Minimum der obigen Summe durch
Variation von m̂ suchen.
Sind die Fehler für alle σxi und σyi gleich, d.h. durch σx und σy gegeben, kann das
Problem der Geradenanpassung auf folgende Lösung geführt werden:
m̂ =
A =
p
σx
(A ± A2 + 1)
σy
σx2 V (y) − σy2 V (x)
2σx σy · cov(x, y)
ȳ = m̂x̄ + b̂
(7.25)
(7.26)
(7.27)
Die Gerade geht also wieder durch den Schwerpunkt x̄, ȳ. Wie bereits erwähnt ist jedoch
im Falle von unterschiedlichen Einzelfehlern σxi und/oder σyi eine analytische Lösung nicht
existent und es muss numerisch vorgegangen werden.
7.2
Das Anpassen von gebinnten Daten und die χ2 -Verteilung
Die Methode der kleinsten Quadrate ist wahrscheinlich die am meisten benutzte Art, die
Parameter einer Funktion an gemessene Daten anzupassen. Zwar ist der ML-Fit, den wir
im vorigen Kapitel besprochen haben, sehr mächtig und vielseitig verwendbar, aber seine
Komplexität steigt rapide im Falle grosser Datenmengen. Die LE-Methode hingegen bleibt
auch noch bei grossen Datenmengen überschaubar.
Nehmen wir an, wir haben N Ereignisse und eine Wahrscheinlichkeitsdichte f (x; a). Die
Ereignisse seien in bins sortiert, die von 1 bis Nb nummeriert sind. Das Intervall i ist um
60
Punkt xi zentriert und soll eine Intervallbreite wi mit ni Ereignissen haben. Dann ergibt
sich die erwartete Anzahl an Ereignissen in bin i durch fi = N wi P (xi ; a). Die tatsächlich
in einem Bin vorliegende Ereignisanzahl wird durch die Poisson-Statistik beschrieben, d.h.
das Quadrat der Standardabweichung entspricht gerade dem Poisson-Mittelwert. Das χ2 ,
summiert über all bins ergibt dann:
χ2 =
X (ni − fi )2
fi
i
(7.28)
Im allgemeinen Fall steht also in der χ2 -Summe die quadrierte Differenz zwischen beobachteten
Werten und ihren theoretische Voraussagen, gewichtet mit den erwarteten Fehler. Stimmt
die Funktion, die an die Daten angepasst werden soll, gut mit den Daten überein, wird das
χ2 klein. Falls das χ2 nach der Minimierung immer noch (zu) gross ist, ist die Funktion vermutlich schlecht gewählt oder kann nicht an die Daten angepasst werden. Andererseits sollte
ein zu kleines χ2 ebenfalls unwahrscheinlich sein und deutet sehr oft auf eine überschätzte
Fehler hin.
Wie wir gelernt haben lautet die χ2 -Verteilung
f (χ2 ; n) =
2−n/2 n−2 −χ2 /2
χ
e
Γ(n/2)
(7.29)
Die Verteilung hängt von n ab, der Anzahl der Freiheitsgrade, die durch Anzahl der Datenpunkte abzüglich der Anzahl der Parameter, die in der Minimierung angepasst werden, bestimmt ist. Da die χ2 -Verteilung den Erwartungswert n und die Varianz 2n hat, erwartet man
ein χ2 pro Freiheitsgrad von ungefähr eins.
Die χ2 -Verteilung kann somit genutzt werden, um die Güte
einer Anpassung in einem
p
statistischen Test zu quantifizieren. Oft wird statt χ2 selber 2χ2 , da dieser im Rahmen des
zentralen Grenzwertsatzes
schneller gegen eine
p
√ Gauss-Verteilung für grosse n konvergiert. Der
Ausdruck 2χ2 hat den Erwartungswert 2n − 1 und im Falle n ≥ 30 eine Varianz von 1.
Beispiel für eine Güte einer Anpassung: Wir erhalten für 45 Datenpunkte, die an eine GaussVerteilung angepasst werden ein χ2 von 73. Da es drei freie Parameter im Fit gibt, nämlich
Mittelwert,
Standardabweichung
p und Normierung, bleiben uns 42 Freiheitsgrade. Der Term
√
2n − 1 ergibt 9.1, während 2χ2 = 12.1 um drei Einheiten, also um 3σ grösser ist. Somit
scheinen die Daten nicht sehr gut durch eine Gaussverteilung beschrieben zu werden, was
aber durch Inspektion des Daten/Theorie-Graphen überprüft werden sollte.
Der Güte-Test kann auch umgekehrt werden. Angenommen wir haben einen Datensatz, in
dem alle Messpunkte dieselbe Genauigkeit besitzen und die es (grob) abzuschätzen gilt. Die
LS-Methode kann trotzdem angewandt werden, da σ als gemeinsamer Faktor vor der Summe
in den Abstandsquadraten auftaucht. Die gesamte quadrierte Abweichung pro Freiheitsgrad
ergibt dann gerade ein Mass für σ 2 , als Abschätzung des Messfehlers, was manchmal nützlich
sein kann. Natürlich ist es dann nicht mehr möglich, die Güte der Anpassung durch χ2 zu
quantifizieren.
Schliesslich noch ein wichtiger Hinweise zum χ2 -Wert als Mass für die Güte einer Anpassung: Der alleinige Wert von χ2 sollte niemals als einziger Massstab für einen statistischen
Test sein, d.h. es ist falsch dem χ2 -test blindlings zu vertrauen. Statt dessen sollten stets die
Daten mit der theoretischen Vorhersage in jedem bin grafisch miteinander verglichen werden,
um einzelne Abweichungen. Es ist gezeigt worden, dass der χ2 -Test empfindlicher wird, je
61
kleiner die Anzahl der Freiheitsgrade wird, d.h. je grösser die bins werden. Dies kann aber
zu einer Verwischung von Substrukturen in den Daten oder der Theorie-Verteilung führen.
7.2.1
Lineare kleinste Quadrate und Matrix-Darstellung
Wenn es mehrere Unbekannte gibt, macht eine Matrix-Notation Sinn. Es sei a ein Vektor
mit n Parametern a1 , . . . , an . Ebenso werden die yi als y und die Funktionen f (xi ; a) als f
und somit als Vektoren geschrieben. Der Ausdruck den es nun zu minimieren gilt lautet:
χ2 =
XX
i
[yi − f (xi ; a)]Vij−1 [yi − f (xi ; a)]
(7.30)
j
χ2 = (yt − f t )V−1 (y − f ) = rt V−1 r
(7.31)
Hierbei sind r = y − f die Residuen und Vij die Kovarianzmatrix. Ein spezieller Fall ist,
wenn sie diagonal ist mit Vij = σi2 δij und Vij−1 = (1/σi2 )δij . Durch die Ableitung von χ2 nach
den einzelnen ai und gleichsetzen mit Null bekommt man n Gleichungen, die sogenannten
Normalengleichungen, die gelöst werden müssen, um den Schätzwert â zu finden. Falls die
Funktion f (x; a) linear in den ai ist, können die Gleichungen exakt gelöst werden. Mit linear
in ai meinen wir linear in ai und nicht in xi . Das heisst wir können f (x; a) in einer Reihe
P
schreiben als: f (x; a) = r cr (x)ar . Dies kann natürlich auch als Matrix aufgefasst werden,
d.h. f = Ca. Somit ergibt sich:
χ2 = (yt − at Ct )V−1 (y − Ca)
(7.32)
Die Normalengleichung lautet nun:
Ct V−1 Câ = Ct V−1 y
(7.33)
An dieser Stelle folgen einige Worte zu den Matrizen: Wenn es N Datenpunkte gibt und n
Koeffizienten zu suchen sind (n ≤ N ), dann sind y und a Spaltenvektoren mit Dimensionen
N und n. Die Kovarianmatrix V ist N × N . Die Matrix C jedoch, ist N × n.
Die Lösung für den Schätzwert a ist nun:
â = (Ct V−1 C)−1 Ct V−1 y
(7.34)
Schliesslich noch der Ausdruck für die Varianz des Schätzwertes V(â):
−1
V(â) = [Ct V(y)
C]−1
(7.35)
Wir wollen die Matrixdarstellung anhand von zwei Beispielen näher betrachten. Im ersten
Beispiel passen wir eine Gerade der Form f (x) = mx + b an N Datenpunkte an, wobei wir
annehmen, dass alle Fehler unabhängig und gleich sind, so dass V = σ 2 I ist. Dann ergibt die
Matrixschreibweise:



C = 


1
1
..
.
x1
x2
..
.
1 xN






â = σ 2 (Ct C)−1
62
1 t
Cy
σ2
Hierbei haben wir Ct V−1 C =
gelangen wir schliesslich zu
b̂
m̂
â =
1
Ct C
σ2
!
=
ausgenutzt. Nach einigen weiteren Umformungen
!−1
P
xi
i
P 2
P
1
Pi
i xi
P
y
P i i
i xi
!
(7.36)
i xi yi
Die Inversion der 2 × 2-Matrix ist gegeben durch
x2 −x̄
−x̄ 1
1
2
N (x − x̄2 )
!
(7.37)
so dass wir schliesslich folgende Gleichung erhalten:
â =
b̂
m̂
!
x2 −x̄
−x̄ 1
1
=
2
N (x − x̄2 )
!
P
y
P i i
!
(7.38)
i xi yi
Dieses Ergebnis ist führt dann auf dieselben Ausdrücke für m̂ und b̂, wie sie bereits in
Gleichung 7.5 gegeben waren. Die Varianz des Schätzvektors â lautet:
V(â) =
V (b)
cov(b, m)
cov(b, m)
V (m)
!
σ2
=
N (x2 − x̄2 )
x2 −x̄
−x̄ 1
!
(7.39)
Liegen nun an allen N Datenpunkten unterschiedliche - aber immer noch unkorrelierte- Fehler
P
σi vor, so müssen in Gleichung 7.36 allen Summen i die Gewichte wi = 1/σi2 eingeführt
werden.
Ein weiteres Beispiel, welches wir in der Matrixnotation kurz behandeln wollen, ist die
Anpassung einer Parabel f (x) = a0 + a1 x + a2 x2 an N Datenpunkte. Wieder wollen wir
die Fehler als unabhängig und an allen Datenpunkten gleich ansehen. Die Matric C ist nun
gegeben durch:


1 x1 x21


 1 x2 x22 

C= .
(7.40)
..
.. 

.
.
. 
 .
1 xN
x2N
Wir gehen nun sofort zum Ausdruck für den Schätzvektor a über:


 P
aˆ0
i1

  P
â =  aˆ1  =  i xi
P 2
aˆ2
i xi
P
x
Pi 2i
xi
P 3
xi

P 2 −1  P
xi
yi
i
i
P 3   P

x   i xi yi 
Pi i4
P 2
i xi
(7.41)
xi yi
Die Erweiterung dieses Verfahren auf kubische Polynome oder auf Polynome beliebiger
Ordnung sollte nun eigentlich klar sein. Was bleibt ist allerdings das Problem der Matrixinversion, das entweder analytisch oder numerisch zu lösen ist. Wenn für den Datensatz
orthogonale Polynome zur Anpassung benutzt werden, ist die Matrix CCt automatisch diagonal, so dass die Matrixinversion einfacher zu berechnen ist.
63
7.2.2
Nichtlineare kleinste Quadrate
Oft ist die Funktion f (x; a) nicht linear in den Parametern ai , wie z.B. bei f (x; a) = a1 ·e−a2 x .
In solchen Fällen müssen iterative Verfahren eingesetzt werden, um die Gleichungen der
kleinsten Quadrate zu lösen. Dabei ist es wichtig mit einem guten Startwert für die Parameter
a anzufangen, der geschätzt werden muss. Die Funktion f (x; a mit p Parameterwerten ai
wird nun um den Startwert a0 in einer Taylor-Reihe entwickelt:
f (x; a) ≈ f (x; a0 ) +
p
X
∂f
j
∂aj
(aj − a0,j )
(7.42)
Mit dieser Linearisierung werden nun mit den kleinsten Quadraten Korrekturen für δa =
a − a0 für die Näherungswerte a0 berechnet. Die Residuen ri = yi − f (xi ; a) sind in der
Matrixschreibweise gegeben durch:
r = y − Aδa − f
(7.43)
wobei A die Jacobi-Matrix ist:



A=


∂f (x1 )/∂a1
∂f (x2 )/∂a1
..
.
∂f (x1 )/∂a2
∂f (x2 )/∂a2
..
.
∂f (xn )/∂a1 ∂f (xn )/∂a2
· · · ∂f (x1 )/∂ap
· · · ∂f (x2 )/∂ap
..
..
.
.
· · · ∂f (xn )/∂ap






(7.44)
Die Gleichungen der kleinsten Quadrate lauten dann
χ2 = rt V−1 r = (y − Aδa − f )t V−1 (y − Aδa − f ) = M inimum
(7.45)
und ihre Normalengleichung kann geschrieben werden als:
(At V−1 A)δa = (At V−1 )(y − f )
(7.46)
Wir erhalten dann als lösung für die δa:
δa = (At V−1 A)−1 At V−1 (y − f )
(7.47)
Die so erhaltenen Korrekturen δa werden zur Startlösung a0 addiert und ergeben eine neue
verbesserte Lösung a1 . Insgesamt wird also in einer Iteration die richtigen Werte gesucht,
bis die erhaltenen Korrekturen klein genug werden und Konvergenz eintritt. Zur Lösung der
nichtlinearen kleinsten Quadrate geben wir folgenden Hinweis: Am besten ist es, wenn ein
erprobtes und zuverlässiges Software-Paket für die Iterationen benutzt wird. Es macht keinen
Sinn, solch ein Programm selber zu schreiben; es sei denn man hat viel Zeit.
7.3
Resampling-Techniken
Unter Resampling-Methoden versteht man statistischen Schätzverfahren, die auf wiederholtes
Ziehen von Stichproben aus einer bereits gezogenen Stichproben xi basieren. Die ResamplingTechniken werden eingesetzt, um Bias, Standardabweichung, Konfidenzintervalle oder auch
die komplette Verteilung eines Schätzparameters auf experimentellen Wege zu gewinnen. Dies
ist u.a. erforderlich, weil die Verteilung der Grundgesamtheit, von der gewisse Parameter
zu schätzen sind, unbekannt ist, oder weil die analytische Herleitung der Verteilung der
Schätzparameter zu komplex ist.
64
7.3.1
Jackknife
Das Jackknife12 wurde in den fünfziger Jahren entwickelt und wird auch manchmal als method
of leaving one out bezeichnet.
Für eine Verteilung aus der eine Stichprobe x gezogen wurde, sei ein Parameter a zu
schätzen. Es sei â = Ψ(x) der Schätzwert des Parameters aus dieser Stichprobe. Ferner
sollen Erwartungswert < â > und Varianz var(â) durch Reihenentwicklung darstellbar sein:
g1 (a) g2 (a)
+ ···
+
n
n2
σ12 (a) σ22 (a)
+
n
n2
< â > = a +
(7.48)
var(â) =
(7.49)
Bei grossen Stichproben soll gelten:
â− < â >
p
≈ N (0, 1)
var(â)
(7.50)
wobei N (0, 1) die standardisierte Normalverteilung ist. In der Jackknife-Methode wird
nun folgende Grösse definiert:
Ij := (n − 1)(â − â−j ),
(7.51)
wobei â−j der Schätzparameter ist, der sich unter Auslassung der j-ten Stichprobenvariablen
xj ergibt. Es ist dann möglich den führenden Bias- und Varianzterm als
g1ˆ(a)
n
= −I¯ :=
n
1X
Ij
n j=1
σ12ˆ(a)
n
= S̄ 2 :=
n
X
1
¯2
(Ij − I)
n(n − 1) j=1
abzuschätzen. Der Bias-korrigierte Schätzwert für a ist dann âcorr = â+ I¯ und der Schätzwert
der Varianz von sowohl â als auch âcorr ist S̄ 2 .
7.3.2
Bootstrap
Das bootstrapping13 stellt eine Verallgemeinerung des jackknifes dar, als dass man nicht
nur n Stichproben aus den n Beobachtungsvariablen durch Auslassen jeweils einer Beobachtung gewinnt, sondern wesentlich mehr, so dass die Verteilungsfunktion eines Schätzwertes
simuliert werden kann. Aus dieser lassen sich dann Erwartungswert, Varianz und Konfidenzintervalle berechnen.
Anegnommen, die Daten xi einer Stichprobe liegen vor, deren Verteilungsfunktion F (x)
aber unbekannt ist. Wieder sind wir an einer Schätzung von a interessiert und bezeichnen
12
Jackknife heisst soviel wie Sack- oder Klappmesser. Der Name rührt daher, weil man glaubte die Methode
für viele Zwecke einsetzen zu können.
13
Wörtlich übersetzt ist dies die Stiefelschlaufen-Methode. Man sollte aber eher von Münchhausen-Methode
sprechen, da sich Münchhausen an den eignen Haaren aus dem Sumpf herausgezogen hat. Im Englischen zieht
man sich aber den Stiefelschlaufen aus dem Sumpf heraus.
65
die Verteilungsfunktion des Schätzers als G(a|F ). Beim so genannten nicht-parametrischen
Bootstrap wird die den Daten zugrundeliegende (unbekannte) Verteilungsfunktion F (x) durch
die empirische Verteilungsfunktion (Treppenfunktion) F̂ (x) zunächst abgeschätzt:
F̂ (x) = Fn (x) =



0 für
x < x<1>
i/n für x<i> ≤ x < x<i+1>


1 für
x ≥ x<n>
(7.52)
Wir wollen nun mit der bootstrap-Metode eine Schätzung der Verteilungsfunktion G(a|F )
eines interessierenden Parameters a erhalten und gehen dabei wie folgt vor:
1. Ziehe eine bootstrap Stichprobe aus F̂ (x) vom Umfang m, die mit x∗i bezeichnet sei. In
der Regel ist m = n und beim nicht-parametrischen bootstrap ist das eine Stichprobe
mit Zurücklegen aus den n Werten der Ausgangsstichprobe xi , so dass nn bootstrap
Stichproben möglich sind. Im parametrischen bootstrap sind das m = n simulierte Zufallszahlen aus F (x|â). Bei einer stetigen Verteilung sind dann mit Wahrscheinlichkeit
Eins die n Werte x∗i voneinander verschieden, während dies bei der nicht-parametrischen
Variante mit nur n Kandidaten für die Ziehung der x∗i nicht der Fall ist.
2. Berechne â aus der boostrap Stichprobe
3. Wiederhole Schritt 1 und 2 N -Male und erzeuge so N Bootstrap-Stichproben mit N
Werten: â1 , . . . , âN .
4. Bestimme als Schätzwert für G(a|F ) die empirische Verteilungsfunktion der âi :
Ĝ(a|F ) =
Anzahl (i ≤ N |ai ≤ a)
N
(7.53)
Der wesentliche Grund für den rechenintensiven Einsatz von bootstrapping liegt darin, dass
unter gewissen Regularitätsbedingungen für F (x) die Approximation der Verteilung von â
besser ist, als über eine asymptotische Verteilung, sofern man sie überhaupt findet.
7.4
7.4.1
Nichtparametrische Dichteschätzung
Allgemeine Kernschätzung
Die Kernschätzung kernel density estimation ist ein Schätzverfahren um unbekannte Verteilungen auf nichtparametrischem Wege zu schätzen. Das Vorgehen ist dabei wie folgt: Die relative Häufigkeit 1/n für den Datenpunkt xi mit i = 1, . . . , n wird als Wahrscheinlichkeitsdichte
aufgefasst. Man verschmiert nun in einer Umgebung um einen Datenpunkt xi die Dichtefunktion nach einem bestimmten Muster. Die Breite der Verschmierung um den Punkt xi wird
als Bandbreite b bezeichnet. Das Muster der Verschmierung ergibt sich durch die gewählte
Kernfunktion, die man auch Kern oder kernel nennt.
Eine Kerndichteschätzfunktion hat die allgemeine Form:
n
1 X
fˆnK (x) =
K
nb i=1
x − xi
b
Die Anforderungen an eine Kernfunktion K(u) mit u = (x − xi )/b sind:
66
(7.54)
• K(u) ≥ 0
• K(u) ist symmmetrisch um u = 0 bzw. x = xi
•
R +∞
K(u)du = 1
•
R +∞
uK(u)du = 0
•
R +∞
u2 K(u)du := κ < ∞
−∞
−∞
−∞
Einige wichtige Kernfunktionen mit endlichem Träger sind:
• der Rechteck-Kern
(
KR (u) =
• der Dreieck-Kern
(
KD (u) =
0.5 wenn −1 ≤ u ≤ 1
0
sonst
(7.55)
1 − |u| wenn −1 ≤ u ≤ 1
0
sonst
(7.56)
• der Bisquare-Kern
(
15
16 (1
KB (u) =
0
− u2 )2 wenn −1 ≤ u ≤ 1
sonst
(7.57)
− u2 ) wenn −1 ≤ u ≤ 1
sonst
(7.58)
• der Epanechnikow-Kern
(
KE (u) =
3
4 (1
0
Ferner gibt es Kernfunktionen mit unendlichem Träger. Dazu gehören:
• der Gauss-Kern
KG (u) =
1
exp(−u2 /2)
2π
(7.59)
1
u(1 + u2 )
(7.60)
1
exp(−|u|)
2
(7.61)
• der Cauchy-Kern
KC (u) =
• der Laplace-Kern
KL (u) =
Eine Kernschätzung einer Wahrscheinlichkeitsdichte ist bestimmt durch den Kern K, der
die Form der Gewichtsfunktion definiert und die Bandbreite b, die die Breite der Gewichtsfunktion festlegt. Die Bandbreite b bei einem unendlichen Träger wird über ein Streumass
gewählt, wie z.B. über σ beim Gauss-Kern oder der Skalenparameter b beim Cauchy- und
Laplace-Kern.
In der Praxis spielt die Wahl der Bandbreite eine viel grössere Rolle als die Wahl des
Kerns. Bei zu kleiner Bandbreite wird die geschätzte Dichte im Verlauf sehr unruhig und
67
weist viele lokale Maxima und Minima auf. Dies nennt man auch undersmoothing. Bei grosser
Bandbreite wird die Dichte zu glatt, man spricht auch vom oversmoothing und Feinstrukturen,
die in einer Wahrscheinlichkeitsdichte existieren, werden weggeglättet. Mit wachsendem b
steigt auch der Bias und sinkt die Varianz des Schätzers.
Als optimaler Kern gilt im Prinzip der Epanechnikow-Kern, da er eine hohe Effizienz hat.
Die Wahl der optimalen Bandbreite hingegen, ist weitaus schwieriger und ist Gegenstand
zahlreicher Diskussionen in der Forschungsliteratur, in denen zahlreiche Verfahren vorgeschlagen werden, um die optimale Bandbreite zu bestimmen.
Zur Verdeutlichung der Kerndichtenschätzung wollen wir 100 Zufallszahelen betrachten,
die aus einer Mischung von zwei Normalverteilungen gezogen wurden. Gegeben sei die
Wahrscheinlichkeitsdichte f (x) = 1/2 N (−1, 47 ) + 1/2 N (1, 47 ), wobei N (µ, σ) die Gauss- oder
Normalverteilung ist. Nach dem wir 100 Zufallszahlen erzeugt haben, bestimmen wir die
Kerndichte, d.h. eine Abschätzung der Wahrscheinlichkeitsdichte des samples. Wir wählen
einen Gausskern mit Bandbreite b = 0.1, b ≈ 0.5 und b = 0.7. Das Datensample und
die zugrundeliegende Wahrscheinlichkeitsdichte ist im linken oberen Graphen der Figure 7.1
gezeichnet. Die nachfolgenden Graphen der Figure 7.1 zeigen die Kerndichteschätzung mit
verschiedenen Bandbreiten an. Deutlich ist bei zu kleiner Bandbreite ein undersmoothing
und bei zu grosser Bandbreite ein oversmoothing zu erkennen.
7.4.2
Abschätzung der Genauigkeit der Kernschätzung
Üblicherweise wird zur Abschätzung der Genauigkeit der Kernschätzung der mittlere quadrierte Fehler (MSE, mean squared error) benutzt. Der MSE zerfällt in die beide Komponenten
Varianz und Bias. Sei f (x) die zu schätzende Dichtefunktion und fˆ die Kernschätzung, dann
ist MSE gegeben durch:
M SE(fˆ(x)) = < (fˆ(x) − f (x))2 >
M SE(fˆ(x)) = (< fˆ(x) > −f (x))2 + < (fˆ− < fˆ >)2 >
M SE(fˆ(x)) = Bias2 (fˆ(x)) + V ar(fˆ(x))
(7.62)
(7.63)
(7.64)
Ferner wird als globale Massangabe der Genauigkeit der so genannte mittlere integrierte
quadrierte Fehler (MISE, mean integrated standard error) benutzt:
M ISE(fˆ) =
Z
M ISE(fˆ) =
Z
M SE(fˆ(x))dx =<
Bias2 (fˆ(x))dx +
Z
Z
(fˆ(x) − f (x))2 dx >
V ar(fˆ(x))dx
(7.65)
(7.66)
Der Bias-Term in einer Kernschätzung kann durch folgenden Ausdruck angenähert werden:
Bias(fˆ(x)) ≈
κ =
b2 00
κf (x)
Z2
z 2 K(z)
(7.67)
(7.68)
Der Bias verschwindet also, wenn b → 0. Er hängt ferner von der Varianz κ des Kerns ab
und von der zweiten Ableitung der Wahrscheinlichkeitsdichte f 00 (x) am Punkt x. Je grösser
die zweite Ableitung, umso grösser ist der Bias. Da die Kernschätzung fˆ die Daten lokal bei
68
Figure 7.1: Kerndichteschätzung eines Datensamples von 100 Ereignissen, das aus einer
Summe von zwei Normalverteilungen generiert wurde.
xi zu glätten versucht, wird der Bias umso grösser, je mehr ”Kurven” die Funktion f hat.
Der Varianzterm V ar(fˆ(x)) wird angenähert durch
1
V ar(fˆ(x)) =
f (x)
nb
Z
K 2 (z)dz
(7.69)
und wird also kleiner, wenn die Bandbreite b reduziert wird. Schliesslich können MSE und
MISE ausgedrückt werden durch:
M SE(fˆ(x) = Bias2 (fˆ(x)) + V ar(fˆ(x))
Z
1 4 2 00 2
1
≈
b κ f (x) + f (x) K 2 (z)dz
4
nb
sowie
(7.70)
(7.71)
1
1
M ISE(fˆ) ≈ b4 κ2 f 00 (x)2 dx +
K 2 (z)dz
(7.72)
4
nb
Für sehr kleine Werte von b wird der zweite Ausdruck die obige MISE-Näherung dominieren.
Falls b gross wird, wächst der erste Term, d.h. der Bias-Term, rapide an.
Z
Z
69
7.4.3
Optimale Wahl der Bandbreite
Um die optimale Bandbreite zu erhalten kann der MISE-Schätzwert minimiert werden:
Z
Z
dM ISE(fˆ)
1
3 2
00
2
=b κ
f (x) dx − 2 K 2 (z)dz
db
nb
(7.73)
Gleichsetzen mit Null ergibt die optimale Bandbreite bopt :
K 2 (z)dz
1
R
2
n κ f 00 (x)2 dx
R
bopt =
!1/5
(7.74)
Ferner kann bopt nun in den Ausdruck für den minimalen MISE gesetzt werden:
5
M ISEopt (fˆ) =
4
R
f 00 (x)2 dx · ( K 2 (z)dz)4
κ2 n 4
R
!1/5
(7.75)
Es ist bei der optimalen Bandbreite festzustellen, dass bopt von der Sample-Grösse
n und dem
R
Kernel abhängt. Allerdings gibt ed auch eine Abhängigkeit von f durch f 00 (x)dx, was ja
eigentlich unbekannt ist. Wie soll aber nun in der Praxis die optimale Bandbreite ausgewählt
werden? Mehrere Verfahren sollen nun vorgestellt werden.
Rule of Thumb:
Bei dieser Regel wird die unbekannte Verteilung f (x) durch eine Normalverteilung ersetzt
und σ 2 durch den entsprechenden Ausdruck für die empirische Varianz ersetzt. Diese einfache
Regel gibt eine optimale Wahl, wenn f (x) Gaussverteilt ist. Die Regel ist annähernd ideal,
wenn f (x) zu einer Gaussvertelung sehr ähnlich ist. Die Regel ergibt für die Wahl des Kernels
folgende Richtlinien:
• Gauss-Kernel: b = 1.06 · σ̂ · n−1/5
• Epanechnikov-Kernel: b = 2.34 · σ̂ · n−1/5
• Biquadratischer Kernel: b = 2.78 · σ̂ · n−1/5
Solange man keine allzu detaillierten Studien macht und keine allzu schiefen Verteilungen hat,
ist die Rule of thumb eine gute Wahl, die noch durch subjektives Anpassen der Bandbreite
nach der visuellen Inspektion des Kernels verbessert werden kann.
Plug-In estimation:
R
Bei dieser Methode wird mit einer Anfangsbandbreite
gearbeitet, aus der dann f 00 (x)dx
R 00
abgeschätzt wird. Das abgeschätzte f (x)dx wird benutzt, um eine neue Bandbreite
gemaess Gleichung 7.74 zu erhalten. Das Plug-in Verfahren kann durchaus iterative benutzt
werden, um eine Bandbreite zu erhalten, die gegen bopt konvergiert.
Cross-validation:
In der Technik der Cross-Validation wird versucht ein Minimum eines Schätzers für MISE zu
erhalten:
M ISE(fˆ) =
Z
Z
=
(fˆ(x) − f (x))2 dx
fˆ(x)2 dx − 2
70
Z
fˆ(x)f (x)dx +
(7.76)
Z
f (x)2
(7.77)
Da der dritte Term unabhängig von b ist und der erste Term bekannt ist, muss nur der
mittlere Term abgeschätzt werden. Eine Schätzung für diesen Ausdruck erhält man durch:
ˆ cv =
M ISE
Z
fˆ(x)2 dx − 2
n
X
fˆi (xi )
(7.78)
i
Hierbei ist fˆi (xi ) die abgeschätzte Dichte am Argument xi der Daten. Es werden nun verschiedene Bandbreiten b eingesetzt und schliesslich diejenige gewählt, die M ISEcv minimiert.
Schliesslich sei noch hinzugefügt, dass es eine Vielzahl anderer Metoden gibt, die Bandbreite zu wählen, die z.B. auf bootstrapping oder jackknife basieren.
7.4.4
Adaptierte Kernschätzung
In der adaptive kernel estimation ist die Bandbreite b keine reine Konstante mehr, sondern
kann an Regionen mit hoher Datendichte verringert werden bzw. in Gegenden geringer Datendichten vergrössert werden, um eine optimale Abschätzung der Wahrscheinlichkeitsdichte
zu erreichen:
n
1X
1
x − xi
K
ˆ
f1 n (x) =
(7.79)
K
n i=1 bi
bi
Die angepassten Bandbreiten bi werden normalerweise durch eine erste Kernschätzung fˆ0 (x)
mit fester Bandbreite ermittelt:
1/5 s
bi ≈
4
3
σ
n−1/5
ˆ
f0 (x)
(7.80)
Man kann sozusagen die adaptierte Kernschätzung als zweite Iteration auffassen, bei der man
zunächst mit einer allgemeinen Kernschätzung started und dann die Bandbreiten bi durch
die so erhaltenen erste Dichtefunktion fˆ0 (x) neu berechnet, um in der zweiten Abschätzung
eine adaptierte Kernschätzung fˆ1 (x) zu erhalten.
71
8
8.1
Konfidenzintervalle
Klassisches Konfidenzintervall
Ein Konfidenz- (KI) oder Vertrauensintervall confidence interval ist ein in Lage und/oder
Breite zufälliges Intervall, das den unbekannten Parameter a mit einer Wahrscheinlichkeit
1 − α überdeckt. Hier heisst 1 − α das Konfidenzniveau oder Confidence level kurz auch
C.L. abgekürzt. Im klassischen (Frequentisten) Konfidenzintervall ist die definierende Eigenschaft des KI die so genannte Abdeckung oder coverage: Wenn eine grosse Anzahl von Experimenten durchgeführt wird, die alle dieselben Messungen eines Parameters a auf einem
Konfidenzniveau 1 − α zum Ziel haben, dann wird im Grenzfall n → ∞ der Bruchteil 1 − α
aller konstruierten Intervalle den wahren Wert a beinhalten. Dieses Konstruktionsprinzip
des KI muss für alle Werte von a gelten, d.h. wie auch immer der wahre in der Natur realisierte Wert von a ist, so wird eine Messung ein Konfidenzintervall ergeben, welches mit
Wahrscheinlichkeit 1 − α den Wert a einschliesst.
KIs können u.U. in Regionen liegen, die physikalisch verboten sind. Ferner können mathematische Bedingungen wie cos ≤ 1 in der klassischen Methode leere Intervalle liefern. Normalerweise werden im Frequentisten-Ansatz Regionen des KI ausgeschlossen, in denen der
Parameter nicht definiert ist wobei dann leere Intervalle in Kauf genommen werden. Ein KI
im unphysikalischen Bereich kann dennoch Informationen liefern: Von den beiden Aussagen
die Masse m ist mit 68%C.L. Null und die Masse m liegt mit 68%C.L. zwischen -2 eV und
-1 eV ist die letztere aussagekräftiger.
8.1.1
Konfidenzintervall in einer Dimension
Für jeden möglichen Wert von a wird ein Intervall [x1 (a), x2 (a)] definiert, welches folgende
Bedingung erfüllt:
Z
x2
P (x1 ≤ x ≤ x2 (a)|a) =
f (x|a)dx = 1 − α
(8.1)
x1
Hierbei ist f (x|a) die Wahrscheinlichkeitsdichte. Unter Ausnutzung der obigen Konstruktion
finden wir somit die Grenzen des Intervalls amin und amax für eine Beobachtung oder Messung
von x:
x1 (amin ) = x
x2 (amax ) = x
Diese Definition setzt das KI nicht vollständig fest. Es muss in der Regel noch eine zusätzliche
Bedingungen an das KI gestellt werden, um es eindeutig zu machen, wobei es verschiedene
Möglichkeiten gibt. Die wichtigsten Optionen sind:
• zentrales Intervall
P (x ≤ x1 |a) = P (x ≥ x2 |a) = α/2
(8.2)
• gleiche Wahrscheinlichkeitsdichten
f (x1 |a) = f (x2 |a)
72
(8.3)
Φ−1
1−α/2
1
2
3
Table 8.1:
1 − α Φ−1
1−α
0.6827
1
0.9544
2
0.9973
3
1−α
0.8413
0.9772
0.9987
• minimale Grösse
amax − amin ist Minimum
(8.4)
f (x1 |a)/f (x1 |abest ) = f (x2 |a)/f (x2 |abest )
(8.5)
amax = +∞ oder amin = −∞
(8.6)
• Likelihood geordnet
• einseitig
Gewöhnlich wird das zentrale Intervall als Standard gewählt. Ferner wird ein einseitiges Intervall in unteres und oberes Limit unterschieden, da sie einen unteren bzw obereren
Grenzwert für einen Parameter darstellen.
8.1.2
Vertrauensintervalle für Gauss-verteilte Schätzwerte
Eine einfache und wichtige Anwendung für Vertrauensintervalle sind Gauss-verteilte Schätzwerte.
Es sei â ein Schätzwert, der einer Gaussverteilung mit Erwartungswert a und Standardabweichung σa gehorcht. Ferner nehmen wir an, dass die Standardabweichung σa bekannt sei.
Dann finden wir das zentrale Vertrauensintervall [a1 , a2 ] für die Schätzung â auf Konfidenzlevel 1 − α durch:
â
1
2
2
e−(t−a1 ) /2σa dt = Φ(â; a1 , σa )
2πσa
−∞
Z ∞
1
2
2
√
α/2 =
e−(t−a2 ) /2σa dt = 1 − Φ(â; a2 , σa )
2πσa
â
Z
α/2 =
√
(8.7)
(8.8)
Die Intervallgrenzen [a1 , a2 ] können nun berechnet durch
a1 = â − σa Φ−1
1−α/2
(8.9)
σa Φ−1
1−α/2
(8.10)
a2 = â +
Die Grösse Φ−1
1−α/2 bezeichnet man auch als Perzentil (oder auch Quantil) einer Verteilung. Im
Falle der Normalverteilung gibt sie an wie weit die Intervallgrenzen vom Mittelwert entfernt
sind in Einheiten von σ. Tabelle 8.1 gibt den Zusammenhang zwischen Konfidenzlevel 1 −
α und Perzentil Φ−1
1−α an: Bei Messungen geben wir in den allermeisten Fällen ein 68.3%
zentrales Konfidenzintervall (1 sigma Intervall) an, so dass Φ−1
1−α/2 = 1. Dies ergibt dann das
einfache Intervall:
[a, b] = [â − σa ; â + σa ]
(8.11)
73
Es sollte noch darauf hingewiesen werden, dass ein oberes Limit eines 95% KI eine 2.5%-ige
Wahrscheinlichkeit überhalb des oberen Grenzwertes hat, während bei einem einseitigen 95%
oberen Limit, 5% überhalb des oberen Grenzwertes liegt. Für ein KI mit zugrundeliegender
Gaussverteilung nimmt man daher den Wert bei +1.64σ um ein 95% C.L. oberes Limit zu
setzen, während man ±1.96σ nimmt, um ein 95% zentrales KI zu definieren.
Ist die Standardabweichung σ bei einer Normalverteilung nicht bekannt, wird folgender
Ausdruck benutzt, um ein KI auf den Mittelwert ā = µ zu setzen:
Sn
Sn
ā − tn−1;1−α/2 √ ≤ µ ≤ ā + tn−1;1−α/2 √
n
n
(8.12)
Hierbei werden die 1 − α/s-Perzentilen der zentralen t-Verteilung mit n − 1 Freiheitsgraden
benutzt,
die tabelliert sind. Die empirische (unbiased) Standardabweichung ist durch Sn =
q
− x̄)2 gegeben. Besonders bei kleinem Stichprobenumfang ist die Grösse t = x−µ
Sn
im Gegensatz zu x−µ
nicht
Gaussverteilt,
sondern
unterliegt
durch
die
Unsicherheit
in
Sn
σ
noch zusätzlichen Fluktuationen. Die t-Verteilung ist im Falle kleiner Stichproben (n <
30) bei unbekannter Standardabweichung der Grundgesamtheit die korrekte Wahrscheinlichkeitsverteilung, mit der Konfidenzintervalle für den Mittelwert gebildet werden können.
Erst bei grösserem n nähert sich die t-Verteilung der Gaussverteilung an.
n
n−1 (x
8.1.3
Vertrauensintervalle in der Poissonstatistik
Sehr häufig wird ein unteres oder oberes Limit auf einen physikalischen Parameter gegeben.
In diesen Fällen treten in der Teilchenphysik oft Poissonprozesse gemäss P (k; λ) = e−λ λk /k!
auf, für die ein Grenzwert z.B. bei einer Suche nach einem neuen Teilchenzerfall berechnet
werden muss. Bei vorgegebenem C.L. von 1 − α (z.B. 95%) erhalten wir folgenden oberen
Grenzwert für λ+ , wenn n Teilchenzerfälle beobachtet werden:
1−α =
α =
∞
X
i=n+1
n
X
P (i; λoben )
P (i; λ+ )
(8.13)
(8.14)
i=0
Dies bedeutet in Worten, dass im wiederholten Falle des Experiments, wenn das Limit dem
wahren Parameter entspricht, die Wahrscheinlichkeit, die zu der beobachteten Zahl von n
Ereignissen oder weniger führt, durch α gegeben ist, so dass λ+ die obere Grenze für die
Ereigniszahl bei einem Konfidenzlevel 1 − α darstellt. Die Gleichung muss demnach nach λ+
gelöst werden, um die obere Schranke zu berechnen. Eine direkte Lösung dieser Gleichung
ist durch:
n
X
exp(−λ+ )λi+
α=
P (i; λ+ ) =
= 1 − P (χ22n+2 ≤ 2λ+ )
(8.15)
i!
i=0
gegeben. Hierbei ist P (χ2k ≤ 2λ+ ) die χ2 -Wahrscheinlichkeit für k Freiheitsgrade, einen Wert
≤ 2λ+ zu erhalten.
In ähnlicher Weise erhält man eine untere Grenze für den Mittelwert λ− , indem man
fordert, dass eine Poisson-Verteilung mit dem Mittelwert λ− nur mit einer kleinen Wahrscheinlichkeit α zu der beobachtbaren Zahl n oder zu einer noch grösseren führt. In Gleichungsform
74
Table 8.2:
Upper Limits 90% 95%
n=0
2.30 3.00
n=1
3.89 4.74
99%
4.61
6.64
geschrieben:
∞
X
α =
i=n
n−1
X
1−α =
P (i; λ− )
(8.16)
P (i; λ− )
(8.17)
i=0
Dies kann wiederum durch
α=
∞ −λ− i
X
e
λ−
i=n
i!
= P (χ22n ≤ 2λ− )
(8.18)
ausgedrückt werden. Wir fragen hier also nach der chi2 -Wahrscheinlichkeit von P (χ22n ≤
2λ− ).
Manchmal passiert es, dass bei bestimmten Experimenten kein Ereignis gefunden (n = 0)
wird. Das 90% C.L. obere Limit ergibt sich damit automatisch zu 2.3. Wenn ich z.B.
beim Velofahren 1000 km ohne Reifenpanne fahre, kann ich theoretisch ein 90% C.L. unteres Limit auf die Haltbarkeit des Reifens von 2.3 Reifenpannen pro 1000 km bestimmter
Strecke angeben, falls beim Velofahren die Zahl der auftretenden Reifenpannen tatsächlich
ein Poissonprozess ist.
Die Situation wird komplexer, wenn die experimentellen Daten Untergrundereignisse enthalten, die von den Signalereignissen nicht unterscheidbar sind. Wenn wir annehmen, dass
die Erwartung von Untergrundereignissen im Experiment bekannt sei und mit b bezeichnet wird, dann ist die Wahrscheinlichkeit n Ereignisse (Untergrund und Signal) zu messen
gegeben durch:
W (n) =
n X
n
X
Psig (i; λ)Q(j; b)δi+j,n =
i=0 j=1
n
X
P (i; λ)Q(n − i; b)
(8.19)
i=0
Hierbei ist Q(j; b) die Wahrscheinlichkeitsverteilung der Untergrundereignisse und die Summe
geht über alle möglichen Kombinationen von Untergrund j und Signal i, die beide zusammen
n, also die Zahl der beobachtbaren Ereignisse, ergeben müssen. Falls der Untergrund ebenfalls
einer Poissonverteilung mit Erwartungswert b gehorcht, kann die obige Gleichung geschrieben
werden als:
W (n) =
n
X
P (i; λ)P (n − i; b) = P (n; λ + b) =
i=0
e−λ+b · (λ + b)n
n!
(8.20)
Daraus folgt, dass die Wahrscheinlichkeit α gleich viel oder weniger Ereignisse als n zu
beobachten, gegeben ist durch
α=
n
X
k=0
n
X
W (k) =
k=0
75
P (k; λ + b)
(8.21)
Table 8.3:
obere Limite
klassisch
Zech/Helene
Feldman/Cousins
n = 0; b = 0
2.3
2.3
2.44
n = 0; b = 1
1.3
2.3
1.61
n = 0; b = 2
0.3
2.3
1.26
n = 0; b = 3
-0.70
2.3
1.08
n = 2; b = 2
3.32
3.88
3.91
woraus durch Lösung nach λ das obere Limit für ein gegebenes Konfidenzlevel 1 − α folgt.
Tabelle 8.3 zeigt für einige Fälle von beobachteten Ereignissen n sowie erwarteten Untergrund
b die oberen Grenzwerte auf die Ereigniszahl für 90% C.L.
Es ist interessant uns den Fall n = 0 bei unterschiedlicher Untergrundzahl b näher
anzuschauen, da die klassische Herleitung des oberen Limits hier zwei Schwachstellen zeigt,
die eigentlich nicht akzeptabel sind. Zum einen kann das numerisch errechnete Limit bei
grossem Untergrund wie im Falle b = 3 ein negatives Resultat erzeugen. Zum anderen wird
das obere Limit für n = 0, also keine Ereignisse werden beobachtet, von b = 0 zu b = 2
besser, d.h. das klassische Konfidenzintervall ist unterschiedlich für exakt denselben experimentellen Sachverhalt, nämlich dass kein Ereignis beobachtet wurde. Dieses Verhalten ist für
die meisten Statistiker völlig unbefriedigend. Nehmen wir als Beispiel ein Experiment, das in
einer Suche nach einem neuen exotischen Teilchen kein Ereignis findet, aber einen erwarteten
Untergrund von b Ereignissen hat. Ein Limit wird nun berechnet und das Resultat publiziert.
Nach einem Jahr findet ein cleverer Student einen neuen Schnitt auf eine Variable in der kinematischen Region, in der nach dem Teilchen gesucht wurde und eliminiert den Untergrund
komplett. Diese verbesserte Analyse hat nun aber ein schlechteres Limit zur Folge, als das
ursprüngliche.
Das genannte Beispiel zeigt, dass die Definition des klassischen Limits für Poisson-Statistik
im Falle von Untergrundereignissen unbefriedigend ist. Daher wurde ein anderer Ansatz14
vorgeschlagen, der heute weit verbreitet ist, um klassische Vertrauensgrenzen im PoissonFall mit Untergrundereignissen zu berechnen. Hierbei wird explizit berücksichtigt, dass der
Untergrund geringer oder höchstens gleich der Anzahl n beobachtbarer Ereignisse ist. Das
obere Limit wird im Poisson-Fall nun berechnet zu:
Pn
k=0 P (k; λ + b)
α= P
(8.22)
n
k=0 P (k; b)
Dieser Ausdruck bedeutet, dass für eine gegebenes Konfidenzniveau 1 − α, die obere Signalrate λ berechnet wird, so dass Signal und bekannter Untergrund b nicht über die Anzahl n
beobachteter Ereignisse fluktuieren, unter der Annahme bzw. unter der Auflage, dass der
Untergrund b selber die Zahl der Ereignisse n nicht übersteigen darf.
Besitzt die Abschätzung der Untergrunderwartung b eine Unsicherheit von δb , und ist die
zugrundeliegende Wahrscheinlichkeitsdichte g(b, δb ) bekannt (z.B. eine Gaussverteilung), kann
das obere Limit durch Ausintegration über die Unsicherheit δb des Untergrunds bestimmt
werden. Im klassischen Fall verändert sich Gleichung 8.21 dann zu
Z
α=
g(b)
n
X
P (k; λ + b)db
k=0
14
O. Helene und G. Zech
76
(8.23)
während der Zech/Helene Ansatz zu
R
α=
g(b) nk=0 P (k; λ + b)db
R
P
g(b) nk=0 P (k; b)db
P
(8.24)
wird.
Zum Schluss unserer Betrachtungen über klassische obere Grenzwerte für Poissonverteilungen wollen wir noch eine sehr aktuelle Entwicklung erwähnen. Der sogenannte unifed approach von Feldman und Cousins 15 brachte gegenüber herkömmlichen Methoden zwei grosse
Neuerungen: Zum einen vereinigte er elegant zwei Rechenverfahren, nämlich die Ableitung
eine einseitigen Limits auf der einen Seite und die Berechnung eines zweiseitigen Vertrauensintervalles auf der anderen Seite, so dass vom Benutzer nur das Konfidenzniveau festgelegt
werden muss. Der unified approach sorgt also automatisch für ein nahtloses Umschalten
von einseitiger Grenze im Falle eines unteren oder oberen Limits zum zweiseitigen Intervall,
falls die Möglichkeit der Berechnung eines Fehlerintervall innerhalb der erlaubten physikalischen Regionen vorliegt. Zum anderen benutzt die Methode das Prinzip des Ordnens nach
Likelihood Verhältnissen, was unphysikalische Intervalle gänzlich vermeidet. Diese beiden
Eigenschaften des unifed approaches sind sehr attraktiv und die Feldman-Cousins Methode
ist daher eine der Standardmethoden bei der Ableitung von Vertrauensgrenzen in der klassischen Statistik geworden.
8.2
Konfidenzlimits auf Basis der Likelihood-Funktion
Die Likelihood-Funktion kann ebenfalls zur Bestimmung eines Konfidenzintervalls herangezogen werden. Falls ein Schätzwert â eines Parameters a aus einem Datensample im Grenzfall
grosser Statistik vorliegt, kann für die Wahrscheinlichkeitsdichte g(â, a) gezeigt werden (siehe
auch Kapitel 6.3 sowie zentraler Grenzwertsatz), dass
1
−(â − a)2
g(â, a) =
exp
2πσâ2
2σâ2
!
(8.25)
gilt, d.h. die Verteilung folgt einer Gaussverteilung um den wahren Wert a mit Standardabweichung σâ . Darüberhinaus wird die Likelihood-Funktion im Falle grosser n gaussförmig:
−(â − a)2
L(a) = Lmax exp
2σâ2
!
(8.26)
Wir haben im Kapitel 6.3 gesehen, dass in diesem Falle eine Änderung von k Einheiten der
Standardabweichung des Parameters a eine Abnahme der Log-Likelihood Funktion um k 2 /2
vom Maximum bedeutet:
k2
log L(â ± kσâ ) = log Lmax −
(8.27)
2
Daher können wir z.B. ein 68.3% zentrales Konfidenzintervall mittels der Log-Likelihood
Funktion konstruieren, wenn wir die Werte für a suchen, bei denen die Log-LikelihoodFunktion um 1/2 vom Maximum abfällt. Dieses Konstruktionsprinzip funktioniert aber nur,
wenn â der ML Estimator ist, bei denen die Log-Likelihood-Funktion ihr Maximum hat.
15
G. J. Feldman, R. D. Cousins, Unified approach to classical statistical analysis of small signals. Phys.
Rev. D57 (1998)3873
77
Wenn die Log-Likelihood-Funktion keine Gaussfunktion darstellt, kann zumindest mit
dieser Methode ein zentrales Konfidenzintervall angenähert werden,
log L(â+d
−c ) = log Lmax −
k2
2
(8.28)
wobei k wieder in Einheiten der Standardabweichung vorgegeben wird, das einem bestimmten
Perzentil der Gaussverteilung für ein entsprechendes Konfidenzniveau entspricht.
Im Falle von Messungen mit zugrundeliegender Poissonverteilung und den Beobachtungswerten
ni lautet die Likelihood-Funktion:
L(n0 |µ) =
Y µni e−µ
i
(8.29)
ni !
Es sei µ̂ = n1 ni die Abschätzung des Erwartungswerts, der die Log-Likelihood Funktion
maximiert, dann kann ein 68.3% klassiches Konfidenzintervall [µ1 , µ2 ] wiederum durch Abfall
der Log-Likelihood Funktion um 1/2 von seinem Maximalwert gebildet werden:
P
log L(mu|µ
ˆ 1 ) = log L(µ̂|µ2 ) = log Lmax −
1
2
(8.30)
Es werden also µ1 < µ̂ und µ2 > µ̂ gesucht, die die obige Gleichung lösen.
Likelihood-Methoden, um Konfidenzlimite auszurechnen sind leicht auf mehrdimensionale
Probleme zu erweitern. Ferner existieren zahlreiche Computerprogramme, das maximum der
Log-Likelihood-Funktion zu ermitteln, bzw. nach einem Abfall der Log-Likelihood Funktion
um einen vorgegebenen Wert zu suchen. Einige Nachteile der Vertrauensintervalle basierend
auf Likelihood-Funktionen sind:
• Die von Frequentisten verlangte Abdeckung im Poisson-Fall ist bei kleinen Erwartungswerten
nicht erfüllt
• Funktionen mit weiten Ausläufern können zu Problemen führen
• Falls die Likelihood-Funktion ihr Maximum ausserhalb des erlaubten physikalischen
Bereichs hat, kann es zu falschen Konfidenzintervallen kommen.
8.3
8.3.1
Konfidenzlimits im Bayes’ Ansatz
Die Methode
Bayesianer behandeln (Theorie)-Parameter als Zufallsvariablen. Die kombinierte Wahrscheinlichkeitsdichte f (x; a) eines (Theorie-)Parameters a und der Zufallsvariablen x kann über das
Bayes’ Theorem geschrieben werden als:
f (x; a) = f (x|a)g(a) = f (a|x)h(x)
f (x|a)g(a)
f (a|x) =
h(x)
(8.31)
(8.32)
Hierbei sind g(a) und h(x) geeignete Wahrscheinlichkeitsdichten, die jeweils nur von einer
Variablen abhängen. In diesem Zusammenhang ist die Wahrscheinlichkeitsdichte g(a) der
78
sogenannte Prior der Beobachtung x. Dies bedeutet wir legen eine bestimmte Wahrscheinlichkeitsdichte für den Parameter a vor dem Experiment fest, die somit die Wahrscheinlichkeit für a vor der Messung x angibt. Für eine gegebene Beobachtung x wird die bedingte Wahrscheinlichkeit f (a|x) mit der Likelihood-Funktion identifiziert. Die Wahrscheinlichkeitsdichte h(x) ist ein multiplikativer Faktor, der unabhängig von a ist und durch die
Forderung nach Normierung eliminiert werden kann. Der Bayes’ Ansatz ein Konfidenzintervall zu berechnen lautet daher:
L(x, a)g(a)
f (a|x) = R +∞
−∞ L(x, a)g(a)da
(8.33)
Es muss garantiert sein, dass der gewählte Prior die Normierung erfüllt, so dass das Integral
im Nenner endlich bleibt.
Im Falle einer Poissonverteilung P (λs |n0 ) mit n0 beobachteten Ereignissen und einer
Signalrate µs lautet der Bayes-Ansatz:
P (λs |n0 ) = R ∞
0
L(n0 |λs )P (λs )
L(n0 |λs )P (λs )dλs
(8.34)
Ein oberes Limit (oder ein beliebig anderes Konfidenzintervall16 ) auf den unbekannten Parameter λs kann einfach durch Integration der obigen Gleichung erzielt werden. Die Erweiterung
der Methode auf den Poisson-Fall mit Untergrund b ist einfach:
P (λs |n0 , b) = R ∞
0
8.3.2
L(n0 |λs + b)P (λs )
L(n0 |λs + b)P (λs )dλs
(8.35)
Bemerkungen zum Prior
Die Werte, die man aus dem Bayes’ Ansatz erhält sind natürlich vom gewählten Prior g(a)
bzw. P (λs ) abhängig. Die Bayes’ Methode wäre vermutlich der ideale Ansatz, wenn man
den Prior des Parameters wüsste. Ohne jegliche quantitative Kenntnis der Prior-Dichte, wird
oft ein uniformer Prior, d.h. a = const über ein gewisses Intervall, ge”ahlt17 . Auch wenn
dieser flache Prior am häufigsten benutzt wird, so ist es dennoch nur eine Konvention. In
manchen Fällen empfehlen Bayesianer eine ganze Klasse von Priors die sich entweder gemäss
a ∝ s−p oder a ∝ e−ks verhalten, wobei s in direktem Zusuammenhang mit der Signalrate
steht. Es ist nicht schwer einzusehen, wie ein Bayes’ Limit sich verschiebt, falls der Prior
geändert wird. Im allgemeinen wird ein oberes Limit auf einen seltenen Prozess kleiner, d.h.
besser oder optimistischer, falls der Prior die Region in der Nähe s = 0 stärker betont, als ein
flacher Prior. Umgekehrt wird das obere Limit schlechter oder konservativer, falls die PriorVerteilung mehr Gewicht auf grössere Werte von s legt. Wie auch immer der Prior gewählt
wird, er muss normierbar sein, da sonst das Integral nach der Bayes’ Methode divergiert.
Selbst der per Konvention am häufigsten gewählte uniforme Prior legt nicht alle Wahlmöglichkeiten
in der Bayes’ Methode fest. Als Beispiel betrachten wir einen Teilchenzerfall mit exponentieller Wahrscheinlichkeitsdichte P (x; a) = 1/a exp(−x/a). Nun kann naiv ein flacher Prior
g(a) = const oder auch g(1/a) = const gewählt werden, je nach dem ob wir den Prior in
16
Manche Physiker möchten lieber den Ausdruck credibility intervalls für Konfidenzintervalle im Bayes’
Kontext benutzen.
17
Man nennt einen Prior ohne quantitative Informationen über den Parameter auch uninformative Prior
79
der Lebensdauer a oder in der Zerfallskonstanten 1/a angeben wollen. Beide Annahmen
über flache Prioren sind jedoch inkonsistent miteinander. So bleibt auch im Falle des uniformen Priors die schwierige Frage offen, in welcher Metrik, d.h. für welchen funktionalen
Zusammenhang des Parameters a, darf die Priorfunktion h(a) konstant sein? Im Falle des
exponentiellen Zerfalls ist im übrigen 1/a, also die Zerfallskonstante, die flach gewählt werden
darf.
Eine interessante und (vermutlich) wunderbare Tatsache ist die, dass im Falle eines uniformen Priors, der f”ur die Poissonstatistik gewählt werden kann, das Ergebnis für ein Konfidenzintervall dieselbe Form wie die klassische Form aus Gleichung 8.22 annimmt, nämlich:
α=
Pn
k=0 P (k; λ + b)
P
n
(8.36)
k=0 P (k; b)
Diese Identität gilt auch dann, wenn ein Untergrund b vorliegt.
8.4
Vertrauensintervalle und systematische Fehler
Das sehr häufig auftretende Problem die systematischen Fehler in ein Konfidenzintervall
einzuarbeiten, ist nicht vollständig und komplett gelöst. Zwar gibt es einige Vorschriften,
wie systematische Fehler zu behandeln sind und in ein Limit einzubauen sind, aber eine
eindeutige analytische Lösung zu diesem Problem existiert nicht. Ferner scheint es keine
Methode zu geben, die von allen Physikern akzeptiert wird. Die allermeisten Physiker jedoch,
die mit diesem Problem konfrontiert werden, benutzen einen Bayes’-Ansatz, bei dem der
systematische Fehler, z.B. in der Effizienz oder in der Untergrundvorhersage, meistens in
Form einer Gaussverteilung parametrisiert wird und die Wahrscheinlichkeitsdichten dann
damit verschmiert werden. Systematische Unsicherheiten werden im Zusammenhang mit
Konfidenzintervallen oft als nuisance Parameter bezeichnet, die eigentlich störend oder lästig
sind, und es wird versucht diese Parameter auszuintegrieren.
Wenden wir uns also dem Problem eines Zählexperimentes zu, dass einen Untergrund b
erwartet, der mit einer (Gauss-verteilten) Unsicherheit σb behaftet ist. Die beobachtete Zahl
Ereingisse sei n. Ferner soll es eine Detektorakzeptanz A geben, die einen Fehler σA aufweist.
Nun kann z.B. ein oberes Poisson-Limit auf die Signalrate λ wie in Gleichung 8.22 definiert
werden:
Pn
α=
1
k=0 2πσλ σb
R∞R∞
0
0
Pn
P (k; λ0
k=0
+
−
b0 )e
−
P (k; b0 )e
(b−b0 )2
2σ 2
b
(b−b0 )2
2σ 2
b
−
e
(λ−λ0 )2
2σ 2
λ
dλ0 db0
(8.37)
db0
In der obigen Gleichung haben wir die Unsicherheit σλ auf die Signalrate λ durch σλ = λ·σA /A
ausgedrückt. Wie zuvor suchen wir also den wahren Wert der Signalrate λ als oberes Limit,
für den mit einer Wahrscheinlichkeit 1 − α gelten soll, dass wir mehr als n beobachten aber
zugleich b ≤ n haben.
Dieses Integral kann im Prinzip numerisch gelöst werden. Oft wird aber eine MCSimulation mit verbundenen Zufallsexperimenten benutzt, um die Signalrate λ zu bestimmen.
Hierbei wird für jeden Testwert von λ ein grosses Ensemble an Zufallsexperimenten gewürfelt,
wobei die erwartete Signalrate und der Untergrund jeweils um ihre (gaussförmigen) Unsicherheiten verschmiert werden. In jedem Zufallsexperiment wird also eine erwartete Anzahl von
80
Untergrundereignissen und eine vorgegebene Signalrate aus zwei Gaussverteilungen gezogen
und dann poissonverteilte Zahlen für Signal λ und Untergrund generiert. Für die Zufallswürfe,
für die b ≤ n ist, wird der Anteil f an dem b + λ > n ist, registriert. Das Konfidenzintervall
für ein gegebenes n ist dann gleich f . Man muss daher n variieren, bis das gewünschte 1 − α
erreicht ist.
81
9
9.1
Hypothesentests
Grundbegriffe und Ablauf eines Tests
Eine statistische Hypothese ist eine Behauptung über Eigenschaften einer oder mehrerer
Zufallsvariablen, die entweder über deren Parameter oder über deren Verteilungsfunktion eine
Aussage machen. Die zu prüfende Hypothese wird als H0 oder Nullhypothese18 bezeichnet.
Mit H1 wird bei Entscheidungen zwischen Hypothesen die Gegen- oder Alternativhypothese
bezeichnet. Ein statistischer Test besteht aus der Überprüfung einer statistischen Hypothese
mittels einer zur Verfügung stehenden Stichprobe. Es kann entweder eine einzelne Hypothese
überprüft werden (Goodness of fit) oder H0 zugunsten von H1 verworfen werden.
Eine Nullhypothese H0 wird als statistisch widerlegt angesehen und verworfen, wenn
der Stichprobenbefund im deutlichen, also im signifikanten, Gegensatz zu ihr steht. Dies bedeutet, dass der Stichprobenbefund unter H0 nur eine sehr geringe Eintrittswahrscheinlcihkeit
α hat.
Der Ablauf eines solchen Signifikanztests umfasst folgende Schritte:
• Festlegung von Nullhypothese H0 und Alternativhypothese H1 , zwischen denen man
sich entscheiden möchte.
• Festlegung des Stichprobenumfangs n.
• Wahl des Signifikanzniveaus α bzw. 1 − α.
• Wahl einer Stichprobenfunktion oder Testgrösse t als Prüfgrösse bzw. Testfunktion. Die
Grösse t ist eine Zufallsvariable und wird anhand des Stichprobenumfangs berechnet
unter der Annahme, dass H0 wahr ist
• Konstruktion eines Ablehnbereiches für die Prüfgrösse t, in dem H0 verworfen wird.
Dabei wird aus der Wahrscheinlichkeitsdichte f0 (t) (unter der Annahme von H0 ) der
Testgrösse
t der Ablehnbereich (oder die kritische Region) V (H0 ) ermittelt, so dass
R
V (H0 )f0 (t)dt = α ist. Es gibt einen Wert tc für t, der den Ablehnbereich von der
Annahmeregion trennt. Analog definiert man Ablehn- und Annahmebereich für die
Hypothese H1 mit einem Bruchteil β und einer Konfidenz 1 − β. Der Annahmebereich
von H1 ist natürlich gleich dem Verwerfbereich von H0 und umgekehrt.
• Stichprobenziehung und Auswertung. Die Entscheidung ist: Lehne H0 auf dem Niveau
α ab, wenn die Prüfgrösse in den kritischen Bereich V (α) fällt oder akzeptiere H0 , wenn
die Prüfgrösse ausserhalb des kritischen Bereiches ist.
Das Signifikanzniveau α ist die maximal zu tolerierte Wahrscheinlichkeit, dass H0 zu
Unrecht abgelehnt wird, d.h. t innerhalb der Verwerfregion V (H0 ) liegt. Ein Fehler erster
Art bezeichnet man das Ablehnen von H0 , wenn H0 in Wahrheit zutrifft. Je kleiner wir
α wählen, umso unwahrscheinlicher wird diese Fehlentscheidung. Normalerweise wird α zu
0.1 oder 0.05 gewählt. Ein Fehler zweiter Art ist das Nichverwerfen von H0 bzw. die
Annahme von H0 , wenn die Nullhypothese in Wahrheit falsch ist. Dies bedeutet, dass t
innerhalb der Annahmeregion von H0 und damit innerhalb der Verwerfregion von H1 liegt,
18
Der Zusatz Null kommt daher, da bei Signifikanztests die Nullhypothese für ’null und nichtig’ erwiesen
werden soll zugunsten der Alternativhypothese.
82
aber H0 dennoch falsch ist. Die Wahrscheinlichkeit dafür ist β. Beim Signifikanztest sind die
Fehler erster Art durch Wahl von α unter Kontrolle, während Fehler zweiter Art eine sehr
hohe Wahrscheinlichkeit (bis zu 1 − α) haben können.
Als Beispiel für Fehler erster und zweiter Art wollen wir einen Detektor nur für Neutronenstrahlen betrachten. Der Detektor soll auf Neutronen mit einer Effizienz von 98%
ansprechen, d.h. in 98% der Fälle in denen ein Neutron durch den Detektor tritt, reagiert
der Detektor korrekt. Andererseits beträgt das Ansprechverhalten des Detektors auf Gammastrahlung 0.01%, d.h. für einen kleinen Bruchteil von durchtretenden Gamma-Quanten
reagiert der Neutronendetektor ebenfalls (sog. Misidentifikation). Wird in einem Neutronenund Gammafeld mit dem Detektor gemessen, beträgt der Fehler erster Art somit 98% und
der Fehler zweiter Art 0.01%.
Als konkretes Beispiel betrachten wir nun folgenden Hypothesentest: Eine Drahtbondmaschine DB1 zur Produktion von Siliziumdetektormodulen hat bisher Detektoren mit einer
Ausschussquote von P0 = 0.2 produziert. Die Maschine soll durch eine neue Maschine DB2
ersetzt werden, wenn die neue Maschine mit einer geringeren Ausschussquote P1 arbeitet. In
einem Probelauf von DB2 werden nun n = 30 Module produziert. Um die Beziehung P1 < P0
statistisch abzusichern, wird sie bei einem Hypothesentest unter H1 gestellt. Es sei also:
H0 : P1 ≥ 0.2; H1 : P1 < 0.2
(9.1)
Wir wählen α = 0.05 und als Prüfgrösse t die Anzahl der defekt produzierten Module. Diese
Grösse ist mit der Anzahl der total produzierten Module n = 30 und einer Wahrscheinlichkeit
P binomialverteilt. Der Ablehnbereich für H0 wird konstruiert aus:
nc
X
n
i=0
i
!
P0i (1 − P0 )n−i < α
(9.2)
Mit nc wird der kritische Wert bezeichnet, der die maximal zulässigen Defektmodule von DB2
angibt, um H0 gerade noch mit Konfidenz 1 − α anzulehnen. Es zeigt sich in der Rechnung,
dass für nc = 2 der Wert α noch knapp unter 0.05 ist. Der Ablehnbereich für H0 ist also:
K = 0, 1, 2. Finden sich also bis zu zwei defekte Module unter den 30 produzierten, wird
DB2 wohl eingeführt werden.
9.2
Verteilungsgebundene Hypothesentests
Im nachfolgenden gehen wir von einer bestimmten Verteilung der Grundgesamtheit aus, meistens eine Gaussvertelung. Die Übersichtstabelle gibt die wichtigsten Fälle.
9.3
Tests einer einzelnen Hypothese - Goodness of fit
9.3.1
Der χ2 -Test
9.3.2
Kolmogorov-Smirnov Test
83
Table 9.1: Mögliche Hypothesentests bei einer bestimmten Verteilung der Grundgesamtheit.
H0
H1
Prüfgrösse
Ablehnbereich
Kommentar
2
Gauss-Tests
über
µ
einer
Normalverteilung
bei
bekanntem
σ
√
x̄−µ0 n
(u1−α ; ∞)
x̄ ist arithmetischer Mittelwert
σ√
x̄−µ0 n
(−∞;
−u
)
1−α
σ √
|x̄−µ0 | n
(u
;
∞)
1−α/2
σ
t-Tests
über
µ
einer
Normalverteilung
bei unbekanntem σ 2
√
x̄−µ0 n
(tn−1;1−α ; ∞)
sn ist die Sample-Varianz
sn √
x̄−µ0 n
(−∞;
−t
)
n−1;1−α
sn
µ ≤ µ0
µ ≥ µ0
µ = µ0
µ > µ0
µ < µ0
µ 6= µ0
µ ≤ µ0
µ ≥ µ0
µ > µ0
µ < µ0
µ = µ0
µ 6= µ0
√
|x̄−µ0 | n
sn
λ ≤ λ0
λ > λ0
x
(xo + 1, xo + 2, . . .)
λ ≥ λ0
λ = λ0
λ < λ0
λ 6= λ0
x
x
(0, 1, . . . , xu − 1)
(0, 1, . . . , x0u − 1)und(x0o + 1, x0o + 2, . . .)
(tn−1;1−α/2 ; ∞)
Test über µ(= λ) einer Poissonverteilung
84
λi0 −λ0
<1−α
e
i=0
Pxu −1i! λi0 −λ0
<α
i=0
i! e
x0u wie oben, wobei α →
Pxo −1
x0o und
α/2
10
Blindstudien
85
11
Parametrisierung von Daten
11.1
Orthogonale Polynome
11.2
Splines
86
12
Entfaltung
87

Zugehörige Unterlagen

Hypothesentest/Konfidenzintervall

Stochastik: Erwartungstreue

Praktische Datenanalyse in der Experimentalphysik

Zugehörige Unterlagen

Dieses Dokument Sammlung (en)

Dieses Dokument gespeichert

Schlagen Sie uns vor, wie wir StudyLib verbessern können