Praktische Datenanalyse in der Experimentalphysik

Werbung
Praktische Datenanalyse in der Experimentalphysik
(Vorlesungsnummer 2563)
Modulcode: PHY232, Kreditpunkte 2
Dozenten: Frank Lehner und Christian Regenfus
Art und Ort der Veranstaltung: Vorlesung mit Übungen (Mittwoch 14-17h,
36J23)
Zielgruppe: Studierende ab 3. Semester Physik
Einordnung: Die Vorlesung soll die Grundlagen auf dem Gebiet der statistischen
Behandlung und Interpretation von Datenmengen legen und einen Ausblick auf aktuelle
statistische Methoden der Datenanalyse in der Teilchenphysik geben. Die Übungen
werden mit Matlab behandelt und dienen zur Vertiefung. Der vorgehende Besuch der
Datenanalyse Vorlesung (PHY231) im Sommersemester ist empfehlenswert, aber nicht
Bedingung.
Grundkenntnisse: Mathematische Grundkenntnisse wie sie in den ersten Semestern
des Grundstudiums erworben werden. Dazu gehören Vektor- und Matrizenrechnungen,
Differential- und Integralrechnung. Eine Erfahrung im Umgang mit Computern und
insbesondere mit Matlab ist erwünschenswert.
Leistungsnachweis: Beteiligung an Präsenzübungen sowie 50% erreichte Punktzahl bei der Klausur.
Literatur:
• R. Barlow: ”Statistics: A Guide to the Use of Statistical Methods in the Physical
Science” Wiley Verlag.
• B. Roe: ”Probability and Statistics in Experimental Physics.” Springer Verlag.
• V. Blobel und E. Lohrmann: ”Statistische und numerische Methoden in der Datenanalyse.”, Teubner Verlag.
• H. Pruys: http://www.physik.unizh.ch/people/pruys/Datenanalyse.html
1
Contents
1 Grundlegende Konzepte der Wahrscheinlichkeit
1.1 Zufälligkeit . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
1.2 Wahrscheinlichkeit . . . . . . . . . . . . . . . . . . . . . . . . . . . .
1.2.1 Definition über Häufigkeiten (Frequentistendefinition) . . . .
1.2.2 Mathematische Definition . . . . . . . . . . . . . . . . . . . .
1.2.3 Subjektive Wahrscheinlichkeit oder Definition der Bayesianer
1.2.4 Prior-Wahrscheinlichkeit . . . . . . . . . . . . . . . . . . . . .
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
1
1
1
2
2
3
3
2 Definitionen und Datenbeschreibung
2.1 Ereignisraum und Datentypen . . . . . . . . . . . . . . . . .
2.2 Weitere Definitionen . . . . . . . . . . . . . . . . . . . . . .
2.2.1 Die Verteilungsfunktion . . . . . . . . . . . . . . . .
2.2.2 Die diskrete Wahrscheinlichkeit . . . . . . . . . . . .
2.2.3 Die Wahrscheinlichkeitsdichtefunktion . . . . . . . .
2.3 Kombination von Wahrscheinlichkeiten und Bayes’ Theorem
2.4 Histogramme . . . . . . . . . . . . . . . . . . . . . . . . . .
2.5 Mittel- und Erwartungswerte . . . . . . . . . . . . . . . . .
2.6 Die Varianz und Standardabweichung . . . . . . . . . . . .
2.7 Höhere Momente . . . . . . . . . . . . . . . . . . . . . . . .
2.8 Kovarianzen . . . . . . . . . . . . . . . . . . . . . . . . . . .
2.9 Nützliche Ungleichungen . . . . . . . . . . . . . . . . . . . .
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
5
5
5
5
5
5
5
7
7
9
12
12
15
3 Wahrscheinlichkeitsverteilungen
3.1 Diskrete Verteilungen . . . . . . . . . . . . .
3.1.1 Kombinatorik . . . . . . . . . . . . . .
3.1.2 Bernoulli und die Binomial-Verteilung
3.1.3 Multinomialverteilung . . . . . . . . .
3.1.4 Poisson-Verteilung . . . . . . . . . . .
3.2 Kontinuierliche Verteilungen . . . . . . . . . .
3.2.1 Gauss- oder Normalverteilung . . . . .
3.2.2 χ2 -Verteilung . . . . . . . . . . . . . .
3.2.3 Log-Normal-Verteilung . . . . . . . . .
3.2.4 Gamma-Verteilung . . . . . . . . . . .
3.2.5 Student-Verteilung . . . . . . . . . . .
3.2.6 F-Verteilung . . . . . . . . . . . . . .
3.2.7 Weibull-Verteilung . . . . . . . . . . .
3.2.8 Cauchy-Verteilung . . . . . . . . . . .
3.2.9 Uniforme Verteilung . . . . . . . . . .
3.3 Charakteristische Funktion . . . . . . . . . .
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
16
16
16
16
17
19
21
21
23
23
24
24
24
25
25
25
26
4 Fehler
4.1 Der zentrale Grenzwertsatz . . . . . . . . . . . . . . . . . . . . . . . . . . . .
4.2 Arbeiten mit Fehlern . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
4.2.1 Averaging is good for you . . . . . . . . . . . . . . . . . . . . . . . . .
28
28
29
29
i
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
29
30
30
30
32
5 Monte Carlo, eine Methodik aus dem Spielkasino
5.1 Zufallsgeneratoren . . . . . . . . . . . . . . . . . . . . . . . . . . . .
5.2 Tests von Zufallsgeneratoren . . . . . . . . . . . . . . . . . . . . . . .
5.3 Beliebig verteilte Zufallszahlen . . . . . . . . . . . . . . . . . . . . .
5.3.1 Umkehrfunktion der kumulativen Verteilung . . . . . . . . . .
5.3.2 Brute Force Methode . . . . . . . . . . . . . . . . . . . . . .
5.3.3 Speziell verteilte Zufallszahlen . . . . . . . . . . . . . . . . .
5.4 Praktisches Vorgehen . . . . . . . . . . . . . . . . . . . . . . . . . . .
5.5 Monte Carlo Integration . . . . . . . . . . . . . . . . . . . . . . . . .
5.5.1 Integral als Summe von Funktionswerten an zufälligen Stellen
5.5.2 Varianzreduzierende Methoden . . . . . . . . . . . . . . . . .
5.5.3 Vergleich mit numerischer Integration . . . . . . . . . . . . .
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
34
35
38
39
39
40
41
43
43
44
44
45
6 Stichproben und Schätzungen
6.1 Eigenschaften von Schätzungen . . . . . . . . . . . . . . . . . . . .
6.2 Stichprobenfunktionen für kontinuierliche Verteilungen . . . . . . .
6.2.1 Schätzung des Mittelwerts . . . . . . . . . . . . . . . . . . .
6.2.2 Schätzung der Varianz . . . . . . . . . . . . . . . . . . . . .
6.2.3 Schätzung der Kovarianz . . . . . . . . . . . . . . . . . . .
6.3 Die Maximum-Likelihood Methode . . . . . . . . . . . . . . . . . .
6.3.1 Die Likelihood-Funktion . . . . . . . . . . . . . . . . . . . .
6.3.2 Einfache Anwendungen der Maximum-Likelihood Methode
6.3.3 Eigenschaften der Maximum Likelihood Methode . . . . . .
6.3.4 Fehlerberechnung bei der ML Methode . . . . . . . . . . . .
6.3.5 Erweiterte Maximum-Likelihood-Methode . . . . . . . . . .
6.3.6 Binned Maximum Likelihood . . . . . . . . . . . . . . . . .
6.3.7 Kombination von Messungen mit der ML Methode . . . . .
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
47
47
47
47
48
48
48
48
49
51
52
54
55
55
7 Weitere Schätzmethoden: Kleinste Quadrate - Least Square
7.1 Die Least Square Methode . . . . . . . . . . . . . . . . . . . . .
7.1.1 Anpassen einer Geraden . . . . . . . . . . . . . . . . . .
7.1.2 Berücksichtigung von systematischen Fehlern . . . . . .
7.1.3 Geradenanpassung bei Fehlern in beiden Variablen . . .
7.2 Das Anpassen von gebinnten Daten und die χ2 -Verteilung . . .
7.2.1 Lineare kleinste Quadrate und Matrix-Darstellung . . .
7.2.2 Nichtlineare kleinste Quadrate . . . . . . . . . . . . . .
7.3 Resampling-Techniken . . . . . . . . . . . . . . . . . . . . . . .
7.3.1 Jackknife . . . . . . . . . . . . . . . . . . . . . . . . . .
7.3.2 Bootstrap . . . . . . . . . . . . . . . . . . . . . . . . . .
7.4 Nichtparametrische Dichteschätzung . . . . . . . . . . . . . . .
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
57
57
57
59
60
60
62
64
64
65
65
66
4.3
4.2.2 Mittelwertbildung durch Gewichtung . . .
4.2.3 Fehlerfortpflanzung . . . . . . . . . . . . .
4.2.4 Funktionen einer Veränderlichen . . . . .
4.2.5 Funktionen mit meherern Veränderlichen
Systematische Fehler . . . . . . . . . . . . . . . .
ii
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
7.4.1
7.4.2
7.4.3
7.4.4
Allgemeine Kernschätzung . . . .
Abschätzung der Genauigkeit der
Optimale Wahl der Bandbreite .
Adaptierte Kernschätzung . . . .
. . . . . . . . .
Kernschätzung
. . . . . . . . .
. . . . . . . . .
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
66
68
70
71
8 Konfidenzintervalle
8.1 Klassisches Konfidenzintervall . . . . . . . . . . . . . . . . .
8.1.1 Konfidenzintervall in einer Dimension . . . . . . . .
8.1.2 Vertrauensintervalle für Gauss-verteilte Schätzwerte
8.1.3 Vertrauensintervalle in der Poissonstatistik . . . . .
8.2 Konfidenzlimits auf Basis der Likelihood-Funktion . . . . .
8.3 Konfidenzlimits im Bayes’ Ansatz . . . . . . . . . . . . . . .
8.3.1 Die Methode . . . . . . . . . . . . . . . . . . . . . .
8.3.2 Bemerkungen zum Prior . . . . . . . . . . . . . . . .
8.4 Vertrauensintervalle und systematische Fehler . . . . . . . .
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
72
72
72
73
74
77
78
78
79
80
9 Hypothesentests
9.1 Grundbegriffe und Ablauf eines Tests . . . . . . .
9.2 Verteilungsgebundene Hypothesentests . . . . . .
9.3 Tests einer einzelnen Hypothese - Goodness of fit
9.3.1 Der χ2 -Test . . . . . . . . . . . . . . . . .
9.3.2 Kolmogorov-Smirnov Test . . . . . . . . .
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
82
82
83
83
83
83
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
10 Blindstudien
85
11 Parametrisierung von Daten
11.1 Orthogonale Polynome . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
11.2 Splines . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
86
86
86
12 Entfaltung
87
iii
1
Grundlegende Konzepte der Wahrscheinlichkeit
There are three lies: lies, damned lies and statistics.
(Benjamin Disraeli)
Einige grundlegende Konzepte, die für die Statistik wichtig sind, sollen erläutert werden:
• Zufälligkeit
• Wahrscheinlichkeitsbegriffe:
– Posteriori-Wahrscheinlichkeit oder Frequentisten-Definition
– Axiomatische Definition
– Subjektive Wahrscheinlichkeit
– Prior-Wahrscheinlichkeit
1.1
Zufälligkeit
Ein guter Überblicksartikel über Zufälligkeit in klassischen System ist in J. Fords Artikel
“How random is a coin toss?” in der Zeitschrift Physics Today 40, April 1983 gegeben. Ich
halte mich mit den folgenden Überlegungen eng an seiner Argumentation.
Das klassische Beispiel für Zufälligkeit ist der Münzwurf mit dem Ereignisausgang Kopf
oder Zahl. Da es ein klassisches mechanisches System ist können wir den Ereignisausgang theoretisch mit Bewegungsgleichungen beschreiben. Wir kann aber der Aspekt der Zufälligkeit
aus einem im Prinzip deterministischen System enstehen?
Stellen wir uns daher ein Computerprogramm vor, das die Ereignisfolgen eines Münzwurfes
berechnen soll. Die Gesetze des Wurfes werden in Bewegungsgleichungen beschrieben, die
gewisse Anfangsbedingungen benötigen. Je mehr Münzwürfe wir vorhersagen wollen, um so
genauer müssen die Anfangsbedingungen festgelegt werden, obwohl die Diffferentialgleichungen eigentlich dieselben bleiben. Daher wird ab einer bestimmten Genauigkeit die Länge des
Programms durch die Anzahl der bits der Anfangsbedingungen bestimmt. Wenn aber die
Anzahl der bits in den Anfangsbedingungen die Zahl der Ausgabebits übersteigt, wird das
Computerprogramm unbrauchbar, um zukünftige Ergebnisse vorhersagen zu können. Wir
verlangen daher, um eine vernünftige Vorhersagekraft zu erhalten, dass die Anzahl der bits
im Computerprogramm geringer ist, als die Anzahl der bits in der Ausgabe.
Tatsächlich verlaufen viele physikalische Phänomene nach exponentiellen Gesetzen. Wenn
es also einen exponentiellen Anstieg in der Lösung unseres Problems gibt, müssen die Anfangsbedingungen extrem genau spezifiziert werden, so dass sehr schnell die Anzahl der bits in
den Anfangsbedingunen die Ausgabebits für die vorhergesagte Ereignisfolge Kopf oder Zahl
übersteigt. Typischerweise steigt die bit-Anzahl in den Anfangsbedingungen mit n, während
die Länge der vorhergesagten Ausgabe des Ereignisses nur mit log n wächst. Aus diesem
Grund kann ein Zufallsprozess aus einem klassischen deterministischen System entstehen.
1.2
Wahrscheinlichkeit
Es gibt mehrere Definitionen bzw Interpretationen der Wahrscheinlichkeit und des Wahrscheinlichkeitsbegriffes. Am formal strengsten ist natürlich die mathematische Definition, die eine
1
rein axiomatische Definition des Wahrscheinlichkeitsbegriffes beinhaltet und damit prinzipiell Regeln zur Manipulationen mit Wahrscheinlichkeiten beinhaltet. Über die eigentliche
Herleitung und Interpretation von Wahrscheinlichkeitsaussagen aus Daten (statistical interference) gibt es prinzipiell unterschiedliche Auffassungen, die sich in der Interpretation des
Wahrscheinlichkeitsbegriffs unterscheiden: Das sind zum einen die Frequentisten und die
Bayesianer1 . Wir werden also lernen, dass Wahrscheinlichkeitsrechnungen im streng formalen Sinn Mathematik sind, ihre Anwendungen und Interpretationen hingegen eher den
empirischen Wissenschaften zuzuordnen sind.
1.2.1
Definition über Häufigkeiten (Frequentistendefinition)
Die populärste Definition ist empirischer Natur und basiert auf dem Häufigkeitsbegriff, bzw.
auf dem Grenzwert von relativen Häufigkeiten. Wenn wir N identische Versuche machen, bei
denen das Ereignis E auftreten kann, und dabei n mal das Ereignis E tatsächlich auftritt,
ordnet man dem Ereignis E die Wahrscheinlichkeit p(E) durch die relative Häufigkeit des
Auftretens zu:
n
(1.1)
N →∞ N
Man nennt diese Definition auch die objektive Posteriori-Wahrscheinlichkeit, da die Wahrscheinlichkeit im nachhinein, d.h. nachdem die Versuchsausgänge bekannt sind, definiert wird. Das
Häufigkeits-Konzept ist unglaublich nützlich in der Praxis, hat aber einige Probleme:
p(E) = lim
1. Der Grenzwert existiert im strengen mathematischen Sinne nicht. Das liegt daran,
dass es keine deterministische Regel gibt die den Ausgang des Versuches n and den
Ausgang des Versuches n + 1 knüpft. Die Zufälligkeit der Versuche ist doch gerade
unsere Bedingung und ein Grenzwert kann daher im strengen Sinne nicht abgeleitet
werden.
2. Wie erhalten wir N identische Versuche? Langt es, wenn sie nur ähnlich sind? Nach
jedem Münzwurf nutzt sich die Münze etwas ab und sie ist beim i + 1-ten Wurf nicht
mehr identisch zum vorherigen Wurf i.
3. Niemand kann unendlich viele Versuchen durchführen. Wann konvergiert die Serie zum
Grenzwert?
1.2.2
Mathematische Definition
Sei S = E1 , E2 , E3 , . . . ein Satz möglicher Ereignisse eines Zufallsexperiments. Die Ereignisse
sind exklusiv, wenn sie nicht gleichzeitig als Resultat eines Zufallsexperimentes auftreten
können. Für jedes Ereignis Ei gibt es eine reelle Wahrscheinlichkeit p(Ei ), die folgende
Axiome2 (Kolmogorov) erfüllt:
• p(Ei ) ≥ 0
• p(Ei or Ej ) = p(Ei ) + p(Ej ), wenn Ei und Ej exklusiv sind
1
Thomas Bayes, Britischer Geistlicher, 1702-1761. Nach ihm ist das sogenannte Bayes’ Theorem benannt.
die Axiome sind in der einen oder anderen Form in vielen Mathematikbüchern zu finden. Wir begnügen
uns hier mit einer vereinfachten Version.
2
2
•
P
p(Ei ) = 1, wobei die Summe über alle möglichen exklusiven Ereignisse läuft.
Daraus kann sofort gefolgert werden, dass p(Ei ) ≤ 1.
Diese axiomatische Definition ist zwar schön aber leider in der Praxis bedeutungslos. Die
Axiome sagen uns nicht worum es bei Wahrscheinlichkeiten geht, was die Wahrscheinlichkeit
bedeutet, und welche Interpretationen damit einhergehen.
1.2.3
Subjektive Wahrscheinlichkeit oder Definition der Bayesianer
In der Schule der Bayesianer ist die Wahrscheinlichkeit definiert als eine Zahl, die die Plausabilität oder Glaubwürdigkeit einer Feststellung bzw. den Grad der Überzeugtheit von dieser
Feststellung misst. Es macht daher für die Bayesianer Sinn, nach einer Wahrscheinlichkeit
einer Hypothese zu fragen, was im Gegensatz zur Frequentisten-Definition der Wahrscheinlichkeit eigentlich keine Bedeutung hat. Die Bayes-Schule benutzt dieselben kombinatorischen
Regeln im Umgang mit Wahrscheinlichkeitswerten an wie die Frequentisten-Schule. Der
grosse Unterschied liegt darin, dass die Frequentisten Wahrscheinlichkeit als einen Zustand der
Natur interpretieren, während die Bayesianer Wahrscheinlichkeit als einen Zustand unseres
Wissens ansehen, so dass Wahrscheinlichkeiten auch unvermeidbar subjektiv werden. Demnach ist die Wahrscheinlchkeit eines Ereignisses p(E) von der dem Beobachter verfügbaren
Information I über das Ereignis abhängig. Die Funktion p(E) ist also keine echte intrinsische Funktion des Ereignisses, sondern hängt auch vom Wissen und der Information des
Beobachters ab. Erst wenn alle Beobachter dieselbe Information zur Verfügung haben, kann
man von einer objektiven Wahrscheinlichkeit sprechen.
Um die Begriffswelt im Bayesianer besser zu verstehen, folgen wir dem Beispiel aus G.
D’Agostini: A Bayesian Primer:
Was ist die Wahrscheinlichkeit, dass ein Stickstoffmolekül bei Raumtemperatur eine Geschwindigkeit zwischen 400 und 500 m/s hat? Die Antwort ist einfach: Wir nehmen die
Maxwell-Boltzmann Verteilung und integrieren, um eine Zahl zu bekommen. Was ist aber,
wenn wir fragen: Ich gebe Euch einen Behälter, eine Flasche mit Stickstoff sowie einen Detektor, der Geschwindigkeiten messen kann. Ihr müsst aber den Versuch selber aufbauen.
Was ist jetzt die Wahrscheinlichkeit, dass das erste Molekül, welches vom Detektor gemessen
wird, seine Geschwindigkeit zwischen 400 und 500 m/s hat? Jeder, der auch nur minimale
Experimentiererfahrung hat, würde mit einer Antwort zögern. Man würde am Experiment
erst einmal kleinere Studien und Überprüfungen durchführen. Danach würde man vielleicht
eine Antwort präsentieren. Und nachdem 10 Messungen durchgeführt wurden, könnte die
Antwort auf die Frage nach der Wahrscheinlichkeit vielleicht anders lauten.
Die Grundidee ist also, dass die Wahrscheinlichkeit einer Hypothese ein Mass für die
subjektive Überzeugtheit oder für den degree of belief ist. Dieses Überzeugtheitsmass kann
durch spätere experimentelle Messungen verändert werden.
1.2.4
Prior-Wahrscheinlichkeit
Die objektive Prior-Wahrscheinlichkeit wurde zuerst von Laplace eingeführt. Sie ist einfach
der Quotient aus der Anzahl der dem Zufallsereignis E günstige Fälle, N (E), und der Anzahl
der überhaupt möglichen und als gleichmöglich erachteten Fälle, N :
P (E) =
3
N (E)
N
(1.2)
Die Prior-Wahrscheinlichkeit ist die Wahrscheinlichkeit eines experimentellen Ereignisses, die
vor dem eigentlichen Experimentieren bestimmt oder abgeschätzt wird. Zum Beispiel wäre
1/6 dir richtige a priori Wahrscheinlichkeit für ein Würfelexperiment, dass die Augenzahl
4 auftaucht. Die Prior-Wahrscheinlichkeit kann in der Mathematik auch als geometrische
Wahrscheinlichkeit aufgefasst werden: Sei E ein Gebiet in der Ebene (oder allgemein in
einem Raum) mit endlichem Flächeninhalt FE und G ein Teilgebiet oder Teilmenge mit
Flächeninhalt FG . Die (geometrische) Wahrscheinlichkeit P (G) des Ereignisses, dass ein
zufällig auf E geworfener Punkt in G fällt, ist:
P (G) =
4
FG
FE
(1.3)
2
Definitionen und Datenbeschreibung
Nachfolgend einige Definitionen, die zum allgemeinen Sprachgebrauch der Statistik gehören.
2.1
Ereignisraum und Datentypen
Der Ereignisraum ist die Menge aller möglichen Ausgänge eines Experimentes. Eine Variable, die theoretisch jeden beliebigen Wert zwischen zwei gegebenen Werten im Ereignisraum
annehmen kann, wird stetige oder kontinuierliche Variable genannt. Andernfalls wird sie
diskrete Variable genannt.
Beispiel: Die Anzahl der Medaillen, die ein Land bei den olympischen Spielen holt, ist eine
diskrete Variable. Die Weite beim Speerwerfen ist natürlich eine kontinuierliche Variable.
Die Daten, die durch diskrete oder stetige Variablen beschrieben werden können, heissen
diskrete bzw stetige Daten.
2.2
2.2.1
Weitere Definitionen
Die Verteilungsfunktion
Wir definieren sie zuerst im eindimensionalen Raum, d.h. x sei der 1-dimensionale Ereignisraum. Die Verteilungsfunktion F (x0 ) ist die Wahrscheinlichkeit, dass bei einer Messung von
x ihr Wert kleiner oder gleich x0 ist. Ferner gilt natürlich F (−∞) = 0 und F (+∞) = 1. Die
Funktion F ist eine nicht-abfallende Funktion von x. Sie darf stetig oder unstetig sein, muss
aber glatt im Grenzwert ±∞ verlaufen.
2.2.2
Die diskrete Wahrscheinlichkeit
Für einen diskrete Ereignisraum definieren wir eine Wahrscheinlichkeit Pr , so dass der AusP
gang des Ereignisses r die Wahrscheinlichkeit Pr besitzt. Natürlich ist r Pr = 1.
2.2.3
Die Wahrscheinlichkeitsdichtefunktion
Die Wahrscheinlichkeitsdichtefunktion f ist einfach f (x) = dF (x)/dx. Die Angabe f (x0 )dx0
gibt somit die Wahrscheinlichkeit
an, dass x sich im Intervall zwischen x0 und x0 +dx0 befindet.
R +∞
Natürlich muss −∞ f (x0 )dx0 = 1 sein. Die Funktion F ist dimensionslos, die Funktion
f jedoch hat die Dimension 1/x. Ferner soll darauf hingewiesen werden, dass f (x) keine
Wahrscheinlichkeit darstellt, sondern nur f (x)dx.
p(x1 ≤ x ≤ x2 ) =
Z
x2
f (x0 )dx0 = F (x2 ) − F (x1 )
(2.1)
x1
Zum Zusammenhang zwischen f und F verweisen wir auf Figur 2.1.
2.3
Kombination von Wahrscheinlichkeiten und Bayes’ Theorem
Gegeben sind zwei Arten von Ereignissen A und B. Die Wahrscheinlichkeit für das Auftreten
von A ist P (A) und die entsprechende Wahrscheinlichkeit von B ist P (B). Dann ist die
5
KAPITEL 1. GRUNDLAGEN DER ST
f(x)
x1
F(x)
x2
x
1
0
x
1
x2
x
Figure 2.1: Eine Dichtefunktion f (x) sowie deren Verteilungsfuntion F (x) dergestalt, dass
f (x) = dF (x)/dx ist.
.2: Wahrscheinlichkeitsdichte (oben) und dazugehörige Verteilungsfunktio
6
Wahrscheinlichkeit, dass A oder B auftritt gegeben durch:
P (A oder B) = P (A) + P (B) − P (A und B)
(2.2)
Hierbei ist P (A und B) die Wahrscheinlichkeit, dass A und B zusammen auftreten. Falls
die Ereignisse A und B exklusiv sind, d.h. nicht zusammen auftreten können, gilt natürlich
P (A und B) = 0. Ferner gilt allgemein P (A und B) = P (A) · P (B|A) = P (B) · P (A|B). Man
nennt P (B|A) die bedingte Wahrscheinlichkeit, dass das Ereignis B auftritt, vorausgesetzt,
dass das Ereignis A ist eingetreten. Bei unabhängigen Ereignissen gilt P (B|A) = P (B),
d.h. das Auftreten von B hängt nicht von A ab, was auch durch P (A und B) = P (A) · P (B)
beschrieben wird.
Eine bedingte Wahrscheinlichkeit P (A|B) kann im diskreten Fall geschrieben werden als:
P (A|B) =
P (A) und P (B)
P (B)
(2.3)
Zum Beispiel ist die Wahrscheinlichkeit, dass ich einen beliebigen Amerikaner treffe, der Bush
gewählt hat (Ereignis A) unter der Bedingung, dass er aus dem Staate Ohio komme (Ereignis
B), gegeben durch die Wahrscheinlichkeit, dass er sowohl Bush gewählt hat wie auch aus Ohio
stammt normiert auf die Gesamtwahrscheinlichkeit, dass ein Amerikaner aus Ohio stammt.
Im kontinuierlichen Fall schreibt man für die bedingte Wahrscheinlichkeit
f1 (x1 |x2 ) =
f (x1 , x2 )
f2 (x2 )
(2.4)
wobei hier f2 (x2 ) die Wahrscheinlichkeitsdichte für x2 alleine ist.
Das Bayes’ Theorem erhält man nun aus P (A und B) = P (A) · P (B|A) = P (B) · P (A|B):
P (A|B) = P (B|A) ·
P (A)
P (B)
(2.5)
Im allgemeinen Fall von n-Ereignis-Klassen mit den Eigenschaften Ai lautet das Theorem:
P (B|Ai )P (Ai )
i P (B|Ai ) · P (Ai )
P (Ai |B) = P
2.4
(2.6)
Histogramme
Eine Häufigkeitsverteilung ist die tabellarische Anordnung von Daten sowie deren jeweilige
Häufigkeit in bestimmten Klassen oder Kategorien.
Im Beispiel der Tabelle 2.1 ist die Häufigkeitsverteilung oder Häufigkeitstabelle von Personen nach ihrem Gewicht gezeigt. Die Einteilung der Daten nach Gewicht geschieht in
Klassenintervallen oder in sogenannten bins. Ein Histogramm ist dann die Darstellung der
Häufigkeitsverteilung.
2.5
Mittel- und Erwartungswerte
Das arithmetisches Mittel
Das arithmetische Mittel x̄ ist der Mittelwert einer Menge von N Zahlen Xi :
7
Table 2.1: Die erste Häufigkeitsverteilung in der Vorlesung: Das Körpergewicht einer Personengruppe. Ganz allgemein: Ist das Körpergewicht von beliebigen Menschengruppen so wie
die Körpergrösse eigentlich Gauss-verteilt?
Gewicht (kg)
62-64
64-66
66-68
68-70
70-72
72-74
74-76
76-78
78-80
Anzahl der Personen
5
12
33
13
10
9
8
4
3
x̄ =
N
X
Xi /N
(2.7)
i=1
In vielen Fällen ist der arithmetische Mittelwert die sinnvollste Grösse, die man bilden
kann, wenn man mit nur einer einzigen Zahl eine Datenmege beschreiben möchte. Völlig
analog kann man einen Mittelwert von Funktionen bilden:
f¯ =
N
X
f (Xi )/N
(2.8)
i=1
Sind die N Datenpunkte durch eine Häufigkeitsverteilung in m Intervallen klassifiziert und
entspricht nj die Anzahl der Einträge im Intervall j, so gilt:
x̄ =
m
1 X
nj X j
N j=1
(2.9)
Erwartungswert einer Variablen
Ein wichtiger Parameter, der eine Wahrscheinlichkeitsdichte charakterisiert, ist der Erwartungsoder Mittelwert einer Variablen. Er ist für kontinuierliche Variablen x definiert als
Z
∞
< x >=
x0 f (x0 )dx0
(2.10)
−∞
und für diskrete Variablen r als
< r >=
X
ri P (ri )
definiert. Erwartungswerte für Funktionen h(x) sind durch < h >=
definiert. Der Erwartungswert ist ein linearer Operator, d.h. es gilt:
< a · g(x) + b · h(x) >= a < g(x) > + b < h(x) >
8
(2.11)
R
h(x0 )f (x0 )dx0
(2.12)
Im allgemeinen ist aber < f g >6=< f >< g >. Die Gleichheitszeichen gilt nur dann, wenn f
und g unabhängig sind.
Es gibt natürlich eine Parallele zwischen dem Mittel- oder Erwartungswert < x > und
dem (arithmetischen) Mittelwert x̄ einer Datenmenge. Ersterer ist eine Summe (oder Integral) über eine theoretische Wahrscheinlichkeitsdichte und letzterer ist eine Summe über
eine reale Datenmenge. Die Verbindung kann nun über die Frequentisten-Definition der
Wahrscheinlichkeit geknüpft werden, die aussagt, dass im Falle von N → ∞ die wahre
Wahrscheinlichkeitsverteilung durch die relativen Häufigkeiten bestimmt werden kann. Oder
anders formuliert: Wenn eine Datenmenge durch eine theoretische Verteilung beschrieben
wird, dann wird für N → ∞: x̄ =< x >.
Der Median
Der Median xmedian ist der Wert einer Häufigkeitsverteilung, der die Verteilung in zwei gleich
grosse Hälften teilt. Der Median ist oft ein nützlicher Parameter um Verteilungen zu charakterisieren. So werden z.B. Einkommensverteilungen am besten durch den Median beschreiben,
wie Figur 2.2 demonstriert.
Z
xmedian
f (x0 )dx0 = 0.5
(2.13)
−∞
Der Modus
Der Modus ist der Wert, der am häufigsten vorkommt, d.h. bei dem die Wahrscheinlichkeitsdichte f (x) ihr Maximum hat. Der Modus braucht natürlich nicht eindeutig sein.
Eine empirische Beziehung/Faustformel
Eine manchmal nützliche Beziehung (für unimodale, mässig schiefe Verteilungen), um einen
der drei Parameter Median, Modus und Mittelwert abzuschätzen, wenn die beiden anderen
bekannt sind, ist
Mittelwert − M odus = 3 × (M ittelwert − M edian).
(2.14)
Das harmonische Mittel
1/H = 1/N
X
(1/X)
(2.15)
Das harmonische Mittel ist niemals grösser als das arithmetische Mittel. Es kann zur Mittelwertbildung benutzt werden, wenn es um die Mittelung von Raten geht. Beispielsweise sei
die Geschwindigkeit einer Reise von A nach B x km/h und auf der Rückreise y km/h. Die
Durchschnittsgeschwindigkeit beträgt dann z = 2xy/(x + y).
Das Quartil
Wird die Datenmenge in zwei gleich grosse Teile geteilt, ist der Wert in der Mitte der Median.
Teilt man die Menge in vier gleich grosse Teile nennt man die jeweiligen vier Werte Quartile
Q1, Q2, Q3 und Q4. Der Wert Q2 entspricht dabei dem Median. Entsprechend kann auch
in zehn gleiche Teile (Dekantil) und hundert gleiche Teile (Zentil) geteilt werden.
2.6
Die Varianz und Standardabweichung
Die Erwartungswerte von xn und von (x− < x >)n werden n-te algebraische Momente µn
und n-te zentrale Momente µ0n genannt. Das erste algebraische Moment µ1 ist gleich dem
9
Figure 2.2: Das Einkommensverteilung von Amerikanern um das Jahr 1950. Die Bedeutung
von Mittelwert, Median und Modus wird ersichtlich. Welche der drei Grössen gibt wohl die
wichtigste Information an?
10
Erwartungswert < x >. Es wird oft einfach als µ bezeichnet. Das zweite zentrale Moment
(das erste ist natürlich Null) ist ein Mass für die Breite der Wahrscheinlichkeitsdichte und
wird als Varianz V (x) bezeichnet. Die Grösse σ nennt man Standardabweichung.
V (x) =< (x− < x >)2 >=< x2 > − < x >2 = σ 2
(2.16)
Es ist hierbei wichtig zu verstehen, dass wir die Grösse der Varianz bzw. der Standardabweichung über Erwartungswerte definieren. Dies ist die fundamentalere Definition
der Varianz. Sie kann aber nur dann bestimmt werden, wenn die ’wahre’ zugrundeliegende
Wahrscheinlichkeitsdichte der Grundgesamtheit bekannt ist. Da wir uns aber häufig mit
einer beschränkten Menge an Daten beschäftigen, die nur eine Teilmenge (Stichprobe) der
Grundgesamtheit repräsentiert, von der weder der Erwartungswert noch die Varianz genau
bekannt ist, ist es nützlich die Varianz s2 einer Datenmenge, die sogenannte StichprobenVarianz, zu definieren:
!2 

1 X
1 X 2
1
s2 =
(xi − x̄)2 =
xi −
N −1 i
N −1
N
i
X
xi

(2.17)
i
Der Wert s2 kann als beste Abschätzung der ’wahren’ Varianz der Grundgesamthwit
verstanden werden. Der Faktor N 1−1 anstatt des sonst üblichen N1 mag vielleicht etwas
verwirren. Wir werden diese Konfusion aber im Verlaufe der Vorlesung klären.
Zur numerischen Berechnung der Stichproben-Varianz wollen wir einige Anmerkungen
machen. Man kann die Varianz im Prinzip in zwei Schleifen über die Daten berechnen. In
P
der ersten Schleife wird die Summe Rx = i xi berechnet und dann das Stichprobenmittel
P
x̄. Dieses Mittel wird dann in der zweiten Schleife benutzt um die Summe Rxx = i (xi − x̄)2
zu bestimmen, woraus s2 = 1/(N − 1)Rxx folgt. Alternativ kann s2 auch in einer Schleife
P
P
über die Daten berechnet werden, wenn die Summen Sx = i xi und Sxx = i x2i gleichzeitig
gebildet werden und dann s2 = N 1−1 (Sxx − N1 Sx2 ) berechnet wird. Diese Methode hat sicherlich
Vorteile, wenn es auf Rechengeschwindigkeit ankommt. Es ist allerdings Vorsicht geboten,
da die Differenz zweier grossen Zahlen gebildet wird, was dann leicht zu Rundungsfehlern
führen kann. In diesem Fall ist es besser eine erste grobe Näherung xe für den Mittelwert
einzuführen, wie z.B. den ersten Wert x1 des Datensamples, um dann folgende Grössen zu
berechnen:
Tx =
X
(xi − xe )
i
Txx =
X
(xi − xe )2
i
Die Grössen x̄ und s2 werden dann wie folgt bestimmt:
x̄ = xe +
2
s
=
1
Tx
N
1
1
Txx − Tx2
N −1
N
11
2.7
Höhere Momente
Manchmal werden auch höhere Momente µn und µ0n benutzt, um Verteilungen zu kategorisieren. Die Schiefe γ oder skewness is normalerweise definiert als
γ1 = µ03 /σ 3 =
1
1
< x− < x >>3 = 3 (< x3 > −3 < x >< x2 > +2 < x >3 ).
σ3
σ
(2.18)
Die Grösse γ ist dimensionslos und charakterisiert die Schiefe. Sie beträgt null für symmetrische Verteilungen bzw. ist positiv oder negativ für unsymmetrische Verteilungen. Bei
der Schiefe muss man aufpassen, da es noch alternative Arten gibt, sie zu definieren. Manchmal wird die sogenannte Pearson’s skew als Schiefe bezeichnet, die gegeben ist durch:
P earson0 s skew =
mean − modus
σ
(2.19)
Ferner gibt es noch die Kurtosis γ2 = µ04 /σ 4 − 3, die ein Mass für die Art der Verteilung
an den Rändern im Bezug zum Maximum ist. Die Kurtosis ist dimensionslos aufgrund der
vierten Potenz im Nenner. Für eine Gauss-Verteilung ist sie null aufgrund des Terms mit
der Zahl 3, der deswegen extra eingeführt ist. Positive γ2 bedeuten ein grösseres Maximum
und weitere Ausläufer als eine Gauss-Verteilung mit denselben Werten für Mittelwert und
Varianz.
Einige der oben diskutierten Grössen sind in Tabelle 2.2 für die Maxwellsche Geschwindigkeitsverteilung
angegeben. Die Wahrscheinlichkeitsdichte des Betrags der Geschwindigkeit v der Moleküle
in einem idealen Gas bei der absoluten Temperatur T ist durch
3
f (v) = N · (m/2πkT ) 2 exp(−mv 2 /2kT ) · 4πv 2
(2.20)
gegeben. Dabei ist m die Molekülmasse und k die Boltzmannkonstante. Übung: BerechTable 2.2: Maxwellsche Geschwindigkeitsverteilung
Grösse
Modus (wahrscheinlichster Wert) vm
Mittelwert < v >
Median
RMS-Geschwindigkeit vrms
Wert
(2kT /m)1/2
(8kT /πm)1/2
vmedian = 1.098 · vm
(3kT /m)1/2
nen Sie aus den gegebenen Daten die Varianz σv2 . Zeichnen Sie die Verteilung für Stickstoff
bei T = 300K. Die Grössen sind k = 1.38 · 10−23 J/K, m = 4.65 · 10−26 kg.
2.8
Kovarianzen
Unabhängigkeit
Zwei Variablen sind unabhängig, genau dann wenn folgende Bedingung für die Verteilungsfunktion erfüllt ist:
F (x1 , x2 ) = F (x1 ) · F (x2 )
(2.21)
12
Man sagt, dass diese Variablen dann unkorreliert sind. Wenn diese Bedingung nicht erfüllt
ist, sind die Variablen abhängig und normalerweise miteinander korreliert.
Kovarianz
Die Kovarianz cov(x1 , x2 ) zwischen zwei Variablen ist definiert als
cov(x1 , x2 ) =< (x1 − < x1 >) · (x2 − < x2 >) >=< x1 x2 > − < x1 >< x2 >
(2.22)
Ferner gilt
V (x1 + x2 ) = V (x1 ) + V (x2 ) + 2 × cov(x1 , x2 )
(2.23)
Die Kovarianz kann durch den sogenannten Korrelationskoeffizienten ρx1 x2 ausgedrückt
werden:
cov(x1 , x2 ) = ρx1 x2
q
V (x1 )V (x2 )
(2.24)
Der Korrelationskoeffizient liegt zwischen +1 und -1. Wenn zwei Variablen voneinander
unabhängig sind, folgt ρx1 x2 = 0. Das Umgekehrte folgt aber nicht notwendigerweise. D.h.,
wir können ρx1 x2 = 0 haben und trotzdem sind x1 und x2 abhängig. Als Beispiel3 wollen wir
zwei Würfel betrachten. Die folgenden drei Zufallsvariablen seien definiert als:
• r sei 1, wenn Würfel 1 eine ungerade Augenzahl hat. Andererseits sei r = 0
• s sei 1, wenn Würfel 2 eine ungerade Augenzahl hat. Andererseits sei s = 0
• t sei 1, wenn die Summe der beiden Augenzahlen ungerade ist. Anderersets sei t = 0
Wir können zeigen, dass die Ereignisse paarweise unabhängig sind. Überraschenderweise
sind jedoch nicht die drei Variablen unabhängig. Wenn sowohl r = 1 als auch s = 1 eintritt,
folgt daraus zwingend t = 0. Für Unabhängigkeit muss aber Prst = Pr Ps Pt gelten.
Ferner benötigen wir noch die so genannte Stichproben-Kovarianz oder empirische Kovarianz sxy , die die beste Schätzung der (wahren) Kovarianz darstellt. Falls mit (x1 , y2 ), (x2 , y2 ), . . . , (xn , yn )
eine zweidimensionale Stichprobe vom Unfang n gegeben ist, lautet die Stichproben-Kovarianz
sxy :
1 X
(xi − x̄)(yi − ȳ)
(2.25)
sxy =
n−1 i
Schliesslich ergibt sich die empirische Korrelation rxy oder der sogenannte Pearson-Korrelationskoeffizient,
als beste Schätzung des (wahren) Korrelationskoeffizienten ρxy :
rxy =
sxy
sx sy
(2.26)
Mit sx und sy sind die Stichproben-Standardabweichungen gemeint, die wir bereits in Gleichung 2.17 kennen gelernt haben .
3
W. Feller, Probabiltiy Theory and Applications, Vol. I, Wiley and Sons, NY (1950)
13
Beispiel:
Figure 2.3: Beispiel für Korrelationskoeffizienten.
14
2.9
Nützliche Ungleichungen
In diesem Unterkapitel wollen wir zwei nützliche Ungleichungen diskutieren, um obere Schranken
für Wahrscheinlichkeiten anzugeben, wenn die zugrundeliegende Verteilung nicht bekannt ist.
Markov-Ungleichung:
Es sei x eine positive Zufallsvariable ist, dann gilt:
P (x ≥ a) ≤
<x>
a
(2.27)
Diese Ungleichung gibt uns einen Maximalwert an, um eine obere Grenze für die Wahrscheinlichkeit von Zufallsereignissen zu bekommen, die in den Ausläufern der Verteilung sitzen.
Tschebyscheff-Ungleichung:
σ2
(2.28)
k2
Die Wahrscheinlichkeit, dass ein Resultat um mehr als drei Standardabweichungen vom Erwartungswert abweicht, ist weniger als 1/9, und zwar unabhängig von der zugrundeliegenden
Wahrscheinlichkeitsverteilung. Die Ungleichung gilt in allgemeiner Form, wenn die Standardabweichung bekannt ist. Sie ist allerdings sehr schwach und nur nützlich für theoretische
Überlegungen, wenn die Form der Verteilung unbekannt ist.
P ( |x− < x > | ≥ k) ≤
15
3
3.1
3.1.1
Wahrscheinlichkeitsverteilungen
Diskrete Verteilungen
Kombinatorik
Für r verschiedene Objekte gibt es 1·2·3 · · · (r−1)·r = r! verschiedene Möglichkeiten, die Objekte in einer Reihe anzuordnen. Die Zahl der Möglichkeiten, r Objekte aus n verschiedenen
Objekten auszuwählen, wobei es auf die Reihenfolge der Auswahl ankommt, ist
Pnr = n · (n − 1) · (n − 2) · · · (n − r + 1) =
n!
(n − r)!
(3.1)
Falls es auf die Reihenfolge der Auswahl nicht ankommt, muss die obenstehende Zahl durch
r! dividiert werde, und man erhält
Cnr
Pr
= n =
r!
n
r
!
=
n!
r!(n − r)!
(3.2)
Diese Zahlen sind die sogenannten Binomialkoeffizienten, die im Binomialtheorem auftauchen:
(p + q)n =
n
X
n
r=0
r
!
pr · q n−r
(3.3)
Einige Rechenhilfen
Für grosse n kann n! durch die Stirlingsche Formel angenähert werden:
√
ln n! ≈ (n + 1/2) ln n − n + ln 2π
n √
n
n! ≈
2πn
e
(3.4)
(3.5)
Der erste Term (n/e)n wird nullte Näherung genannt, der gesamte Term in der obigen
Gleichung ist die sogenannte erste Näherung.
Die Fakultät n! kann auf nicht-ganzzahlige Argumente x durch die Gammafunktion Γ(x)
erweitert werden:
Z
x! =
∞
ux e−u du = Γ(x + 1)
(3.6)
0
Γ(x + 1) = xΓ(x)
3.1.2
(3.7)
Bernoulli und die Binomial-Verteilung
Ein Bernoulli-Experiment sind wiederholt durchgeführte unabhängige Versuche, von denen
jeder zwei mögliche Ausgänge hat. Die Wahrscheinlichkeit des Ereignisausgangs soll dabei
konstant bleiben. Beispiele hierfür sind der Münzwurf oder der Zerfall von K + in entweder
µ+ ν oder einen anderen Zerfallsmodus. Das Resultat eines Bernoulli-Experiments wollen wir
als success (S) oder als failure (F) beschreiben.
16
Ist die Wahrscheinlichkeit p eines Auftretens eines Ereignisses S (oder F) gegeben, so
beschreibt
!
n r
p (1 − p)n−r
r
P (r) =
(3.8)
die Wahrscheinlichkeit, dass bei n Versuchen S (oder F) genau r mal auftritt. Die dzugehörige
Verteilung nennt man Binomialverteilung. Die Gleichung 3.8 kann folgendermassen erklärt
werden: Die Wahrscheinlchkeit, dass das Ereignis S in den ersten r Versuchen auftritt und
nicht in den letzten n − r ist
gegeben durch pr · (1 − p)n−r ; diese Reihenfolge ist aber nur eine
n
mögliche von insgesamt r möglichen.
Die Eigenschaften der Binomialverteilung:
• Sie ist auf 1 normiert, d.h.
Pn
r=0 P (r)
• Der Mittelwert von r ist < r >=
= 1.
Pn
r=0 r
· P (r) = np.
• Die Varianz von r ist V (r) = np(1 − p).
• < r > /σ =
√ q p
n 1−p .
Der letzte Punkt bedeutet insbesondere, dass bei grossen n die Verteilung eine schmale
und scharfe Spitze aufweisen wird.
Beispiel: Wie gross ist die
Wahrscheinlichkeit in 10 Münzwürfen genau dreimal Kopf zu
10
10!
0.53 · 0.57 = 0.12
werfen? Antwort: P (3) = 3 0.53 · (1 − 0.5)10−3 = 3!7!
Übung: Ein vierlagiger Detektor zum Teilchennachweis hat pro Detektorlage eine Einzeleffizienz von 88%. Um eine komplette Teilchenspur zu rekonstruieren, werden mindestens drei
Spuren benötigt. Wie gross ist damit die Wahrscheinlichkeit eine Spur zu rekonstruieren?
3.1.3
Multinomialverteilung
Nun können wir unsere Überlegungen zur Binomialverteilung direkt auf folgendes Problem
verallgemeinern: Angenommen es gebe n Objekte mit k unterschiedlichen Typen und ni
sei die Anzahl der Objekte des Typs ki . Die Anzahl der unterscheidbaren Anordnungen ist
n!
dann durch n1!n2!···n
gegeben. Wenn wir nun zufällig r Objekte auswählen (mit jeweiligem
k!
Zurücklegen), dann ist die Wahrscheinlichkeit einer bestimmten Auswahl, die ri Objekte
des Types ki besitzt, gegeben durch pr11 · pr22 · · · prkk . Hierbei ist pi = ni /n. Die Gesamtwahrscheinlichkeit ist daher die Wahrscheinlichkeit der Auswahl multipliziert mit der Anzahl
der möglichen unterscheidbaren Anordnungen.
P =
r!
pr1 · pr22 · · · prkk
r1 !r2 !r3 ! · · · rk ! 1
Diese Verteilung heisst Multinomialverteilung.
17
(3.9)
Figure 3.1: Die Binomialverteilung für ein festes p = 0.4 und verschiedene Werte für n.
18
Todesfälle pro Korps und Jahr
0
1
2
3
4
Tatsächlich gemeldete Fälle
109
65
22
3
1
Poissonstatistik
108.7
Table 3.1: Die Gesamtstatistik der zu Tode getrampelten preussischen Kavalleriesoldaten
3.1.4
Poisson-Verteilung
Die Poissonverteilung entsteht als Grenzfall der Binomialverteilung, falls die Anzahl n der
Versuche gross wird und die Wahrscheinlichkeit für das Auftreten eines Ereignisses p in einem
einzigen Versuch sehr klein ist, wobei pn = λ eine (kleine) endliche Konstante ergeben soll.
Ein typisches Beispiel für diesen Grenzwert ist die Zahl der Zerfälle pro Sekunde einer radioaktiven Quelle, die z.B. eine mittlere Lebensdauer von einem Jahr hat. Hierbei ist n ∼ 1023 ,
p ∼ 1 Sekunde/Lebensdauer ∼ 3 · 10−8 und r ist die Anzahl der Zerfälle in einer Sekunde,
was ungefähr von der Grösse pn ∼ 3 · 1015 ist.
Die Poissonverteilung hat nur einen Parameter, nämlich den Mittelwert λ = np.
P (r) =
λr e−λ
r!
(3.10)
Eigenschaften der Poissonverteilung
• sie ist korrekt auf 1 normiert:
P∞
r=0 P (r)
• Der Mittelwert < r > ist λ: < r >=
P∞
= e−λ
r=0 r
·
λr
r=0 r!
P∞
e−λ λr
r!
= e−λ e+λ = 1
=λ
• Die Varianz ist V (r) = λ
Das klassische (historische) Beispiel für eine Anwendung der Poissonstatistik ist die Zahl
der durch Pferde zu Tode getrampelten preussischen Kavalleriesoldaten. In zehn verschiedenen Kavalleriekorps wurden die Todesfälle über zwanzig Jahre lang registriert. Es gab insgesamt 122 Todesfälle, so dass der Erwartungswert pro Korps und Jahr sich zu λ = 122/200 =
0.61 ergibt. Die Wahrscheinlichkeit, dass kein Soldat pro Jahr und pro Korps zu Tode getrampelt wird, beträgt P (0; 0.61) = e−0.61 · 0.610 /0! = 0.5434. Um die Gesamtzahl der
Ereignisse (kein Unfall) in einem Jahr und pro Korps zu erhalten, wird mit der Anzahl der
berücksichtigten Fälle (200) multipliziert, also 200 · 0.5434 = 108.7. In der Tat gab es 109
Fälle, was eine sehr gute Übereinstimmung ist. Die Gesamtstatistik der preussischen Kavallerie ist in Tabelle 3.1 verzeichnet.
Übung: Berechnen Sie die fehlenden Werte aus Tabelle 3.1.
Die Poissonverteilung tritt in vielen Fällen auf, in denen man Dinge oder Ereignisse zählt.
Typische Anwendungen der Poissonverteilung sind:
• Anzahl der Teilchen, die von einem Detektor in einer Zeit t erfasst werden, wenn der
Teilchenfluss Φ und die Detektoreffizienz unabhängig von der Zeit sind und die Detektortotzeit τ hinreichend klein ist, so dass φτ << 1 ist.
19
Figure 3.2: Die Poissonverteilung für einige Werte für λ.
• Anzahl der Wechselwirkungen die durch einen intensiven Teilchenstrahl enstehen, der
durch eine dünne Scheibe tritt.
• Anzahl der Eintrg̈e in einem bin eines Histogrammes, wenn die Daten über ein bestimmtes Zeitintervall gesammelt werden.
• Anzahl der Reifenpannen innerhalb einer zurückgelegten Strecke, wenn der Erwartungswert
Reifenpanne/Strecke konstant ist.
Beispiele, bei denen die Poissonverteilung keine Anwendung findet sind:
• Der Zerfall einer kleinen Menge radioaktiven Materials über eine bestimmte Zeit, die
signifikant ist im Vergleich zur Halbswertzeit.
• Die Anzahl der Wechselwirkungen eines Strahls von wenigen Teilchen, der durch eine
dicke Scheibe tritt. In den beiden letzten Beispielen nimmt die Ereignisrate mit der
Zeit ab. Daher kann die Poissonverteilung nicht angewandt werden.
Das Bild 3.2 zeigt die Poissonverteilung für einige Werte für λ. Wenn der Erwartungsert λ
kleiner als 1.0 ist, wird der Modus, d.h. der wahrscheinlichste Wert null. Bei grösseren Werten
20
von λ entwickelt sich eine Maximum ungleich null, was aber unterhalb von λ liegt. In der Tat
ist die Wahrscheinlichkeit für ein beliebiges ganzzahliges λ ein Ereignis mit r = λ und r = λ−1
zu haben, gleich. Die Poissonverteilung ist immer etwas breiter als die Binomialverteilung bei
gleichem Erwartungswert. Die Varianz der Poissonverteilung ist gleich dem Erwartungswert,
während sie bei der Binomialverteilung np(1 − p) ist, also kleiner als der Erwartungswert
np. Die Versuche in einem Bernoulliprozess haben immer ein oberes Limit, da r n nicht
überschreiten kann, während die Poissonprozesse nach oben nicht beschränkt sind und daher
einen langen Ausläufer haben können. Bereits ab λ = 5 kann die Poissonverteilung relativ
gut durch die Gaussverteilung angenähert werden.
3.2
3.2.1
Kontinuierliche Verteilungen
Gauss- oder Normalverteilung
Die Gauss4 - oder Normalverteilung ist die wohl wichtigste und nützlichste Verteilung, die wir
kennen. Sie hat grosse Bedeutung in der Praxis5 . Ihre Wahrscheinlichkeitsdichte ist
f (x) = √
(x−µ)2
1
e− 2σ2
2πσ
(3.11)
Die Gaussverteilung wird durch zwei Parameter bestimmt: Durch den Erwartungwsert µ
und die Varianz σ 2 , wobei σ die Standardabweichung ist. Durch die Substitution z = (x−µ)/σ
erhält man die sogenannte standardisierte Gauss- oder Normalverteilung:
1
2
N (0, 1) = √ e−z /2
2π
(3.12)
Sie hat den Erwartungwsert null und die Standardabweichnung 1.
Die Eigenschaften der Gaussverteilung sind:
• sie ist natürlich auf 1 normiert:
R +∞
−∞
P (x; µ, σ)dx = 1
• µ ist der Erwartungswert der Verteilung:
Modus und Median
R +∞
−∞
xP (x; µ, σ)dx = µ und zugleich ihr
• σ ist die Standardabweichung und die Varianz ist σ 2 :
R +∞
−∞
(x − µ)2 P (x; µ, σ)dx = σ 2
Nützliche Integrale, die häufig bei der Benutzung der Gaussfunktion auftauchen:
Z
+∞
−ax2
e
Z
Z
−∞
+∞
0
+∞
−∞
dx =
2
xe−ax dx =
2
x2 e−ax dx =
q
π/a
1
2a
1q
π/a
2a
4
C.F. Gauss hat sie nicht allein entdeckt. Unabhängig von Gauss kannten Laplace und de Moivre (ein
Engländer) die Verteilung.
5
Der Legende nach hat Gauss damit wohl die Grösse von Brotlaibern der Bäckerinnung in der Stadt
Königsberg beschrieben.
21
Normalverteilung, CDF
1
0.8
0.6
0.4
0.2
0
−5
−4
−3
−2
−1
0
1
2
3
4
5
2
3
4
5
Normaldichte, PDF
0.4
0.3
0.2
0.1
0
−5
−4
−3
−2
−1
0
1
Figure 3.3: Die standardisierte Gaussverteilung. Oben die kumulative Verteilungsfunktion
und unten die Wahrscheinlichkeitsdichtefunktion.
Z
+∞
2
x2n+1 e−ax dx =
0
Z
+∞
n!
2an+1
2
x2n+1 e−ax dx = 0, für alle ungeraden Werte von n
−∞
Einige Zahlen für die integrierte Gaussverteilung:
• 68.27% der Fläche liegt innerhalb von ±σ um den Mittelwert µ
• 95.45% liegt innerhalb von ±2σ
• 99.73% liegt innerhalb von ±3σ
• 90% der Fläche liegt innerhalb von ±1.645σ
• 95% liegt innerhalb von ±1.960σ
• 99% liegt innerhalb von ±2.576σ
• 99.9% liegt innerhalb von ±3.290σ
Oft wird vergessen, dass im Mittel rund 32% der Fälle ausserhalb einer Standardabweichnung
liegen müssen.
Die integrierte Funktion Φ(x) der Gaussverteilung kann auch durch die sogenannte Fehlerfunktion erf (x) ausgedrückt werden:
Φ(x) =
erf (x) =
=> Φ(x) =
x
1
2
2
e−(t−µ) /2σ dt
2πσ −∞
Z x
2
2
√
e−t dt
π 0
1
x−µ
1 + erf ( √ )
2
2σ
Z
√
22
Ferner ist der Begriff der vollen Breite auf halber Höhe (FWHM - Full width half maximum) nützlich, um auf einfache Weise die Standardabweichung einer Gausskurve zu schätzen.
Die Beziehung ist durch
√
F W HM = 2σ 2ln2 = 2.355σ
(3.13)
gegeben.
Übung: Approximation der Poissonverteilung durch eine Gaussverteilung: Der Mittelwert eines Poissonprozesses sei λ = 5.3. Wie gross ist die Wahrscheinlichkeit von zwei oder
weniger Ereignissen? Wie gross wäre sie, wenn die Wahrscheinlichkeit aus der Gaussverteilung
abgeleitet wird?
Übung: Approximation der Binomialverteilung durch die Gaussverteilung: Vergleichen
Sie die exakte Berechnung der Wahrscheinlichkeit beim Münzwurf 20-mal Kopf in 30 Würfen
zu erhalten, mit der angenäherten Lösung einer Gaussverteilung.
So wie die Poissonverteilung sich einer Gaussverteilung
annähert, wird die Binomialverteilung
p
zu einer Gaussverteilung mit µ = np und σ = np(1 − p), wenn n gross wird. Im Prinzip
tendiert fast alles zu einer Gaussverteilung, wenn die Anzahl n gross wird. Dies ist eine
Konsequenz des Zentralen Grenzwertsatzes, der im nächsten Kapitel diskutiert wird.
3.2.2
χ2 -Verteilung
Falls x1 , x2 , · · · , xn unabhängige Zufallsvariablen sind, die alle einer (standardisierten) Gaussverteilung
mit Mittelwert 0 und Varianz 1 gehorchen, so folgt die Summe u = χ2 der n Quadrate
u = χ2 =
n
X
x2i
(3.14)
i=1
einer χ2 -Verteilung fn (u) = fn (χ2 ) mit n Freiheitsgraden. Die Wahrscheinlichkeitsdichte ist
durch
( u )n/2−1 e−u/2
fn (u) = 2
(3.15)
2Γ(n/2)
2
gegeben. Sie hat ein Maximum bei (n − 2). Der
√ Mittelwert der χ -Verteilung ist n und die
2
Varianz ist 2n. Für n → ∞ geht (χ − n)/ 2n in eine standardisierte Normalverteilung
mit Erwartungswert null und Varianz 1 über. In der Praxis ist bereits bei n ≥ 30 die
Approximation durch eine Normalverteilung sehr genau. Die χ2 -Verteilung spielt eine grosse
Rolle bei statistischen Tests.
3.2.3
Log-Normal-Verteilung
In dieser Wahrscheinlichkeitsdichte ist ln x normalverteilt.
f (x) = √
1
2πσ 2
1 (− ln x−µ)2 /2σ2
e
x
(3.16)
Der Faktor 1/x taucht auf, da d(ln x) = dx/x ist. Der Erwartungswert und die Varianz sind
aber nicht einfach µ und σ 2 , sondern gegeben durch:
< x > = e(µ+(1/2)σ
2
2)
2
V ar(x) = e(2µ+σ ) (eσ − 1)
23
Die Log-Normal-Verteilung wird dann angewandt, wenn beispielsweise die Auflösung eines
Messintruments sich aus vielen unterschiedlichen Quellen zusammensetzt, die jeweils einen
kleinen (multiplikativen) Beitrag zur Gesamtauflösung bilden.
Als Beispiel soll das Signal eines Photomultipliers dienen, welcher schwache Lichtsignale in elektrische Signale über den Photoeffekt umwandelt. Der Photomultiplier ist ein
Sekundärelektronenvervielfacher, der in mehreren Stufen Elektronen beschleunigt. Pro Stufe
werden dabei Sekundärelektronen erzeugt, die das Ladungssignal vervielfachen. Wenn die
Verstärkung pro Stufe ai beträgt, dann ist die Anzahl der Elektronen nach der k-ten Stufe
nk = Πki=0 ai ungefähr log-normal verteilt.
3.2.4
Gamma-Verteilung
Die Gamma-Verteilung ist gegeben durch:
f (x; k, µ) =
xk−1 µk e−µx
Γ(k)
(3.17)
Sie gibt die Verteilung der Waretezeit t = x vom ersten bis zum k-ten Ereignis in einem
Poisson-Prozess mit Mittelwert µ an. Der Parameter k beeinflusst die Form der Verteilung,
w”ahrend µ nur ein Skalenparameter ist. Der Erwartungswert der Gamma-Verteilung ist
< x >= k/µ und seine Varianz σ 2 = k/µ2 .
3.2.5
Student-Verteilung
Die Student6 oder t-Verteilung tritt bei Tests der statistischen Verträglichkeit eines StichprobenMittelwertes x̄ mit einem vorgegebenen Mittelwert µ auf. Sie wird auch bei Tests der
Verträglichkeit zweier Stichproben Mittelwerte angewandt. Die Wahrscheinlichkeitsdichte
der Student-Verteilung ist gegeben durch:
1 Γ((n + 1)/2)
t2
fn (x) = √
1+
nπ
Γ(n/2)
n
!−(n+1)/2
(3.18)
Die Student- oder t-Verteilung ist symmetrisch um null; für n = 1 entspricht sie der CauchyVerteilung (siehe weiter unten). Für grosse n geht sie gegen die Gaussverteilung. Anwendungen der Student-Verteilung werden wir im Kapitel Hypothesentests finden.
3.2.6
F-Verteilung
Falls n1 Stichprobenwerte einer Zufallsvariablen x und n2 Stichprobenwerte derselben Zufallszahl gegeben sind und die beste Schätzung der Varianz aus den beiden Datenkollektionen
durch s21 und s22 bekannt sei, dann folgt die Zufallszahl F = s21 /s22 einer F -Verteilung mit
(n1 , n2 ) Freiheitsgraden:
f (F ) =
n1
n2
n1 /2
Γ((n1 + n2 )/2)
n1
·
· F (n1 −2)/2 1 + F
Γ(n1 /2)Γ(n2 /2)
n2
−(n1 +n2 )/2
(3.19)
Mit der F -Verteilung können statistische Verträglichkeiten von zwei aus unterschiedlichen
Stichproben derselben Grundverteilung ermittelten Varianzen getestet werden.
6
Benannt nach dem Statistiker W. S. Gosset, der für eine Guinness Brauerei in Dublin arbeitete und unter
dem Pseudonym Student seine Arbeiten veröffentlichte.
24
3.2.7
Weibull-Verteilung
Die Weibull-Verteilung wurde ursprünglich eingeführt um die Fehlerrate beim Altern von
Glühbirnen zu beschreiben. Sie ist nützlich um Funktionen zu parameterisieren, die mit x
anwachsen und dann wieder abfallen:
P (x; α, β) = αβ(αx)β−1 e−(αx)
β
(3.20)
Der Parameter α ist nur ein Skalenfaktor und β beschreibt die Breite des Maximums. Für
β = 1 erhält man eine Exponentialfunktion. Die Weibull-Verteilung ist sehr nützlich in Zuverlässigkeitsanalysen und Fehlerratenvorhersagen. Der Erwartungswert der Weibull-Verteilung
ist Γ(1/β + 1)/α.
3.2.8
Cauchy-Verteilung
Die Cauchy-Verteilung hat die Dichte
f (x) =
1 1
π 1 + x2
(3.21)
Für grosse Werte von x nimmt sie nur sehr langsam ab und erfordert deshalb spezielle Vorsicht in der Anwendung. Insbesondere ist der Erwartungswert undefiniert
und die CauchyR
Verteilung besitzt keine Varianz, da das unbestimmte Integral x2 f (x) divergent ist. Die
spezielle Cauchy-Verteilung in der Form
f (m; M, Γ) =
1
Γ
2π (m − M )2 + (Γ/2)2
(3.22)
heisst auch Breit-Wigner Funktion und wird in der Kern- und Teilchenphysik benutzt, um
die Energie- oder Massenverteilung nahe einer Kern- oder Teilchenresonanz mit Masse M
und Breite Γ zu beschreiben. In der Tat kann in der Quantenmechanik gezeigt werden,
dass jeder Zustand, der exponentiell zerfällt, eine Energiebreitenverteilung gemäss der BreitWigner Funktion besitzt. Die Breit-Wigner Funktion ist also die Fouriertransformierte einer
Exponentialverteilung. Die Breit-Wigner Verteilung ist symmetrisch um das Maximum bei
m = M . Der Parameter Γ ist das FWHM. In der Praxis muss innerhlab eines bestimmten
Bereiches integriert werden, um Divergenzen zu vermeiden.
3.2.9
Uniforme Verteilung
Die Wahrscheinlichkeitsdichtefunktion der uniformen Verteilung innerhalb des Intervalls [a, b]
ist gegeben durch:
1
, wenn a ≤ x ≤ b
(3.23)
b−a
Ausserhalb des Intervalls ist f (x) null. Der Erwartungswert und die Varianz sind gegeben
durch:
f (x) =
Z
b
<x> =
a
V ar(x) =
x
1
dx = (a + b),
b−a
2
1
(b − a)2
12
25
3.3
Charakteristische Funktion
Für eine Zufallsvariable x mit Wahrscheinlichkeitsdichte f (x) definiert man die charakteristische Funktion Φ(t) als den Erwartungswert von eitx :
Φ(t) =< eitx >=
Z
eitx · f (x)dx
(3.24)
Die Umkehroperation ist
1
e−itx · Φ(t)dt
(3.25)
2π
Die charakteristische Funktion sowie ihre erste und zweite Ableitung für den speziellen
Fall t = 0 lassen sich leicht berechnen:
Z
f (x) =
Φ(0) = 1
dΦ(0)
= i<x>
dt
d2 Φ(0)
= −(σ 2 + < x >2 )
dt2
Charakteristische Funktionen helfen manchmal bei Rechnungen mit Wahrscheinlichkeitsdichten. So ist beispielsweise eine Faltung zweier Wahrscheinlichkeitsdichten f1 und f2 für
die beiden Zufallsvariablen x1 und x2 sehr einfach zu berechnen. Eine sogenannte Faltung
von f1 und f2 ergibt eine neue Wahrscheinlichkeitsdichte g(y), nach der die Summe der
Zufallsvariablen y = x1 + x2 verteilt ist:
Z Z
g(y) =
f1 (x1 )f2 (x2 )δ(y−x1 −x2 )dx1 dx2 =
Z
Z
f1 (x1 )f2 (y−x1 )dx1 =
f2 (x2 )f1 (y−x2 )dx2
(3.26)
Mithilfe der charakteristischen Funktionen kann nun das Faltungsintegral elegant transformiert werden:
Φg (t) = Φf1 (t) · Φf2 (t)
(3.27)
Die charakteristische Funktion der Faltung zweier Variablen erhält man als das Produkt ihrer
charakteristischen Funktionen.
Die charakteristischen Funktionen von einigen Wahrscheinlichkeitsdichten sind in Tabelle 3.2
gezeigt.
Übungen:
• Zeigen Sie explizit, dass die Varianz der uniformen Verteilung
1
12 (b
− a)2 ist.
• Wie gross ist die Schiefe der Poisson-Verteilung?
• Ein Buch mit 500 Seiten enthält 50 Druckfehler, die zufällig über die Seiten verteilt
sind. Wie gross sind die Wahrscheinlichkeiten, dass eine bestimmte Seite genau null,
einen oder zwei Druckfehler enthält?
• Der Torwart Sepp Maier war ein Elfmeterkiller. Im Schnitt hielt er 40% aller Elfmeter. Wieviele Elfmeter muss ein Fussballspieler dann schiessen, um mit einer 95%
Wahrscheinlichkeit ein Elfmetertor erzielt?
26
Verteilung
Binomial
Poisson
Gauss
χ2
Uniform (von a nach b)
Breit-Wigner
Gamma
Charakteristische Funktion
Φ(t) = (peit + q)n
it
Φ(t) = eλ(e −1)
2 2
Φ(t) = eiµt−t σ /2
Φ(t) = (1 − 2it)−n/2
Φ(t) = (eibt − eiat )/(b − a)it
Φ(t) = e−iE0 t−(Γ/2)|t|
Φ(t) = (1 − it/µ)−α
Table 3.2: Charakteristische Funktionen von einigen Wahrscheinlichkeitsdichten.
• Ein Student möchte per Anhalter fahren. Im Mittel kommt zwar alle Minute ein Auto
vorbei (zufällig verteilt), doch nur 1% der Autofahrer würden einen Anhalter mitnehmen. Wie gross ist die Wahrscheinlichkeit, dass der Student immer noch wartet,
nachdem (a) 60 Auots vorbeigefahren sind und (b) nach einer Stunde Wartens?
• Ein Experiment sucht nach freien Quarks der Ladung 2/3. Es wird erwartet wird,
dass sie 4/9 der Ionisation I0 einer Elementarladung im Nachweisgerät produzieren.
Nach einer Messung von 105 Spuren, findet man eine Spur, die mit 0.44I0 gemessen
wird. Die Ionisationsmessungen im Detektor seien Gaussverteilt mit Standardabweichung σ. Berechnen Sie die Wahrscheinlichkeit, dass dieses Messergebnis aufgrund
einer statistischen Fluktuation einer gemessenen Elementarladung entstanden ist, wenn
(a) σ = 0.07I0 für alle Spuren ist und (b) für 99% der Spuren σ = 0.07I0 gilt, während
1% der Spuren eine Auflösung von 0.14I0 zeigt.
27
4
4.1
Fehler
Der zentrale Grenzwertsatz
Wir wollen uns in diesem Abschnitt mit der Frage beschäftigen, warum Messfehler häufig
als Gauss-verteilt angenommen werden können7 . In der Praxis stammt der resultierende
Messfehler meistens von verschiedenen unabhängigen Quellen. Der wohl wichtigste Satz in
der Statistik beschäftigt sich mit der Summe einzelner Zufallsvariablen und kommt unter
gewissen Bedingungen zu einem sehr überraschendes Ergebnis:
Angenommen wir nehmen die Summe X von n unabhängigen Variablen xi , die jeweils von
einer Verteilung mit Erwartungswert µi und Varianz σi2 stammen, dann gilt für die Verteilung
von X:
1. X hat den Erwartungswert < X >=
2. X hat die Varianz V (X) =
P
P
µi
σi2
3. X wird Gauss-verteilt, wenn n → ∞
Es ist hierbei zu betonen, dass die xi nicht alle aus derselben Wahrscheinlichkeitsverteilung
stammen müssen. Eine Zufallsgrösse X, die aus einer Summe von vielen unabhängigen
Variablen resultiert, ist im Grenzfall n → ∞ Gauss-verteilt. Dabei spielt es (fast) keine
Rolle, wie die Ursprungverteilungen aussehen, von denen die einzelnen xi abstammen. Einige
wichtige Bemerkungen zum zentralen Grenzwertsatz
• Wenn die Variablen xi nicht unabhängig sind, gelten nur die ersten beiden Bemerkungen
des zentralen Grenzwertsatzes
• Der zentrale Grenzwertsatz funktioniert umso besser, je näher man im Zentrum der
Verteilung sitzt. Verteilungen können Gauss-ähnlich innerhalb von ±1σ sein, aber
stark von der Gaussverteilung abweichen, je weiter man vom Zentrum weg ist. Diese
Ausläufer oder tails können oft zu falschen Interpretationen führen.
• Der zentrale Grenzwertsatz gilt für eine ganze Reihe von Verteilungen. Es gibt einige
Kriterien, die erfüllt sein müssen, um den zentralen Grenzwertsatz anzuwenden. Ein
wichtiges davon ist das sog. Lindeberg-Kriterium: Sei
yk = xk , wenn|xk − µk | ≤ σk
yk = 0, wenn|xk − µk | > σk .
Dabei ist k eine willkürlich festgelegt Zahl. Wenn die Varianz (y1 + y2 + · · · yn )/σy2 → 1
für n → ∞ geht, sind die Voraussetzungen erfüllt. Dieses Kriterium fragt also danach,
dass die Fluktuationen einer individuellen Variable nicht die Summe dominiert.
Übung zum zentralen Grenzwertsatz: Erzeugen Sie 500 Zufallszahlen in einem Vektor, die gleichmässig zwischen 0 und 1 verteilt sind. Benutzen Sie dazu den Befehl rand
in Matlab. Stellen Sie die Zahlen in einem Histogramm graphisch dar. Erzeugen Sie einen
7
Die Experimentalphysiker glauben fest daran, dass dies ein fundamentales Gesetz ist, die Theoretiker
jedoch denken, dass dieser Sachverhalt experimnetell untermauert ist
28
zweiten 500-komponentigen Zufallsvektor und zeichnen Sie die Summe der beiden Zufallsvektoren in einem anderen Histogramm, i.e. X = x1 + x2 . Wiederholen Sie das Vorgehen und
bilden Sie schliesslich die Summe von drei, fünf und zehn Zufallszahlen. Stellen Sie jeweils die neuen Zufallsvariablen in Histogrammen dar. Spätestens mit der Summe von fünf
Zufallszahlen sollte die Verteilung bereits Gaussförmig sein.
4.2
4.2.1
Arbeiten mit Fehlern
Averaging is good for you
Angenommen wir messen dieselbe Grösse mehrmals. Dann kann der zentrale Grenzwertsatz
in einer einfache Form angewandt werden, da dann alle µi und σi dieselben Werte µ und σ
annehmen.
X
< X >=
µ = nµ
(4.1)
Der Mittelwert x̄ = X/n besitzt folgenden Erwartungswert: < x̄ >= µ. Seine Varianz ist
gegeben durch
1 X
V (x̄) = 2
Vi = σ 2 /n
(4.2)
n
√
Damit fällt die Standardabweichung des Mittelwertes mit 1/ n. Dieser Sachverhalt ist
bekannt als das Gesetz der grossen Zahlen. Als Beispiel betrachten wir einen Detektor der
Photonen nachweisen soll. Die Energieauflösung dieses Detektors sei 50 keV. Wird nur ein
monoenergetisches Photon eines bestimmten Kernzerfalls nachgewiesen, ist seine Energie nur
auf 50 keV bekannt. Wenn 100 (monoenergetische) √
Photonen gemessen werden, beträgt
die Unsicherheit des Energiemittelwertes nur noch 50/ 100 = 5 keV. Für 1 keV Auflösung
müssten 2500 Zerfälle registriert werden.
4.2.2
Mittelwertbildung durch Gewichtung
Angenommen wir haben einen Satz von Messungen xi einer Grösse µ mit unterschiedlichen
Fehlern σi . Dann ist die korrekte Form der Mittelwertbildung durch
x̄ =
σx̄2 =
P
xi /σi2
P
2
1/σi
1
P
1/σi2
(4.3)
(4.4)
gegeben. Hier werden die Einzelergebnisse durch unterschiedliche Gewichte gemittelt. Je
kleiner ein Einzelfehler ist, umso grösser sein Gewicht. Der Beweis zur gewichteten Mittelwertbildung ist in vielen Textbüchern vertreten. Einige Kommentare zu dieser Regel:
• Die Formel macht natürlich sofort Sinn, wenn die Messungen mit demselben Messgerät
√
ausgeführt wurden und die Einzelfehler proportional zu 1/ ni sind.
• Vorsicht ist geboten, wenn die Einzelergebnisse und Einzelfehler zu stark voneinander
abweichen. Wenn ein Experiment zum Nachweis eines Zerfallsprodukts in einer Stunde
100 ± 10 Ereignisse misst, das andere jedoch in einer Stunde nur 1 ± 1 Ereignisse, dann
würde die Formel als Ergebnis 2 ± 1 Ereignisse ergeben. Dennoch würde man hier den
29
Experiment
LEPS
CLAS
SAPHIR
CLAS
DIANA
ITEP
HERMES
SVD
COSY
ZEUS
Masse
1540 ± 10
1543 ± 5
1540 ± 5
1555 ± 10
1539 ± 2
1533 ± 6
1528 ± 4
1526 ± 4
1530 ± 5
1521 ± 1.5
Zerfallsmodus
K +n
K +n
K +n
K +n
K 0p
K 0p
K 0p
K 0p
K 0p
K 0p
Table 4.1: Die weltweit gemessenen Pentaquark Massen der Jahre 2003 und 2004
einfachen Mittelwert 50.5 ± 5 bevorzugen. Der Grund besteht darin, dass in der obigen Formel der wahre Fehler auftaucht und nicht der abgeschätzte. Unsere Annahme
ist ferner, dass die wahre Ereignisrate über eine Stunde bei beiden Experimenten konstant ist und somit auch der Fehler bei beiden Experimenten gleich sein sollte. Daher
sollten beide Experimente hier gleich gewichtet werden. Dieses Beispiel ist natürlich
stark übertrieben und im prinizp sollte man in dieser Situation gar keine Mittelwertbildung anwenden, da es offensichtlich ist, dass die beiden Experimente imkompatibel
miteinander sind.
Übung: Die Masse des neuen Fünfquark-Zustandes (Pentaquark) θ+ wurde von mehreren
Experimenten in zwei Zerfalssmodi bestimmt: Bestimmen Sie den gewichteten Weltmittelwert und seinen Fehler sowohl aus allen Experimenten, als auch für die beiden Zerfallsmodi
getrennt.
4.2.3
Fehlerfortpflanzung
4.2.4
Funktionen einer Veränderlichen
Es sei f eine Funktion einer Veränderlichen x. Wir entwickeln f an der Stelle um x0 :
f (x) ≈ f (x0 ) + (x − x0 )
df
dx
(4.5)
x=x0
Unter der Anwendung von V (f ) =< f 2 > − < f >2 folgt dann
V (f ) =
σf2
≈
df
dx
2
σx2
(4.6)
Diese Annäherung ist nur dann gültig, wenn die Fehler klein sind, d.h. die erste Ableitung
darf nicht zu stark in der Umgebung von einigen σ variieren.
4.2.5
Funktionen mit meherern Veränderlichen
Wir betrachten zunächst eine Funktion g(x, y) mit zwei Veränderlichen x und y. Dann ist
30
f (x, y) ≈ f (x0 , y0 ) +
∂f
∂x
· (x − x0 ) +
x0 ,y0
∂f
∂y
· (y − y0 )
(4.7)
x0 ,y0
Wieder nehmen wir an, dass die Fehler klein sind, so dass die höheren Ordnungen in der
Taylor-Reihe vernachlässigt werden können. Wir erhalten dann als Ergebnis:
∂f 2 2
∂f 2 2
∂f ∂f
=
σx +
σy + 2
· cov(x, y)
∂x
∂y
∂x ∂y
cov(x, y) = h(x− < x >) · (y− < y >)i
σf2
(4.8)
(4.9)
Im Falle von zwei unabhängigen Variablen x und y, fällt natürlich der Kovarianzterm
weg.
Folgende einfache Beispiele sollen die Rechenregeln zur Fehlerfortpflanzung mit zwei Variablen veranschaulichen:
f (x, y) = x ± y
σf2 = σx2 + σy2 ± 2 × cov(x, y)
g(x, y) = x · y
σg2 = y 2 σx2 + x2 σy2 + 2xy × cov(x, y)
Im Falle einer Funktion f von n Variablen x1 , x2 , . . . xn lautet nun die Verallgemeinerung:
σf2
=
X
j
∂f
∂xj
!2
·
σx2j
+
XX
j k6=j
∂f
∂xj
!
∂f
∂xk
· cov(xj , xk )
(4.10)
Allgemein wird die Kovarianz nun zur Kovarianzmatrix Vij = cov(xi , xj ). Sie ist eine
symR
metrische n × n Matrix. Ihre Diagonalelemente Vii sind die Varianzen σx2i = (xi − <
xi >)2 f (x1 , . . . xn )dx1 . . . dxn und stets positiv. Die Nichtdiagonalelemente
können posiR
tiv oder negativ sein und geben die Kovarianzen Vij = (xi − < xi >)(xj − < xj >
)f (x1 , . . . xn )dx1 . . . dxn an.
Schliesslich noch der allgemeinste Fall, in dem zu einem Satz an Zufallsvariablen x =
(x1 , . . . , xn ) mit Erwartungswerten µ = (µ1 , . . . , µn ) ein Satz an Wahrscheinlichkeitsdichtefunktionen F(x) = f1 , f2 , . . . , fn vorliegt. Die Kovarianzmatrix Ukl ist dann gegeben durch:
!
Ukl = cov(fk , fl ) =
X
i,j
∂fk ∂fl
cov(xi , xj )
∂xi ∂xj x=µ
(4.11)
Dies kann aber auch vereinfacht geschrieben werden als U = A V AT , wobei die Matrix der
Ableitungen A gegeben ist durch
!
Aij =
∂fi
∂xj x=µ
und AT ihre Transponierte ist.
31
(4.12)
Als Beispiel wollen wir die Polarkoordinatentransformation betrachten. Ein Punkt sei
in den kartesischen Koordinaten x und y mit Fehlern σx und σy gemessen. Die Messungen
in x und y gelte als unabhängig und wir können daher V11 = σx2 , V22 = σy2 und Vij = 0
setzen. Wir sind nun daran interessiert die Kovarianzmatrix in Polarkoordinaten zu erhalten.
Die Transformationsgleichungen sind r2 = x2 + y 2 und θ = arctan(y/x). Daher folgt für
A = ∂fi /∂xi :
A=
∂r
∂x
∂θ
∂x
∂r
∂y
∂θ
∂y
!
=
x
r
−y
r2
y
r
x
r2
!
(4.13)
Ferner bilden wir U = A V AT :
!
U
U
4.3
=
=
y
x
σx2
r
r
·
−y
x
0
r2
r2
1
(x2 σx2 + y 2 σy2 )
r2
xy
(−σx2 + σy2 )
r3
−y
r2
x
r2
!
xy
(−σx2 + σy2 )
r3
1
(y 2 σx2 + x2 σy2 )
r4
!
0
σy2
!
·
x
r
y
r
(4.14)
=
2
σr2 σrθ
2
σrθ
σθ2
!
(4.15)
Systematische Fehler
Systematische Fehler beeinflussen jeden Einzelwert der Messung in ähnlicher Weise. Sie
können beispielsweise durch falsche Messmethoden, fehlerhafte Messgeräte oder durch zeitliche
Änderungen der Messbedingungen entstehen. Im Gegensatz zu zufälligen Fehlern nehmen sie
√
nicht mit 1/ n ab und der zentrale Grenzwertsatz findet keine Anwendung. Systematische
Fehler werden im Messergebnis getrennt vom statistischen Fehler aufgeführt:
x = 10.0 ± 1.2 (stat) ± 1.0 (sys)
(4.16)
Falls mehrere systematische Fehler auftreten, müssen ihre Korrelationen sorgfältig beachtet
werden. Für eine formale Behandlung der systematischen Fehler einer Zufallsgrösse xi mit
Mittelwert µi und Standardabweichung σi wird in der Kovarianzmatrix Vij der systematische
Fehler sij berücksichtigt, falls dieser den Messwert verschiebt:
ges
Vi,j
Z
=
ges
Vi,j
=
(xi − si − µi )(xj − sj − µj )f (x1 , x2 , . . . , xn )dx
Z
Z
Vij + si sj
f (x)dx − si
Z
(xj − µj )f (x)dx − sj
ges
Vi,j
= Vij + si sj
(4.17)
Z
(xi − µi )f (x)dx (4.18)
(4.19)
Statistische und systematische Fehler sind unabhängig nach Voraussetzung und deshalb kann
man sie quadratisch addieren. Der Kovarianzterm si sj mit i 6= j gibt ein Mass für die
Grösse der Korrelation, die durch systematische Fehler hervorgerufen werden können. Als
einfaches Beispiel betrachten wir den Fall von zwei Zufallsgrössen x1 und x2 mit gemeinsamen
systematischen Fehler S, der die Messwerte systematisch verschiebt. Die Kovarianzmatrix
lautet nun:
!
σ12 + S 2
S2
ges
Vi,j =
(4.20)
S2
σ2 + S 2
32
Falls ein systematischer Fehler T die Messwerte nicht absolut verschiebt, sondern nur relativ,
d.h. T = xi mit z.B. = 0.01, dann ist die Kovarianzmatrix gegeben durch:
ges
Vi,j
=
σ12 + 2 x21
2 x1 x2
2 x1 x2
σ 2 + 2 x22
33
!
(4.21)
5
Monte Carlo, eine Methodik aus dem Spielkasino
Im Arbeitsgebiet der Physik kommt es, teilweise schon bei relativ simplen Problemen,
vor, daß eine analytische Berechnung von Ereignisabläufen schwierig oder gar unmöglich
wird. Um trotzdem quantitative Aussagen machen zu können, kann man entweder versuchen
das Problem analytisch zu vereinfachen (Näherung) oder es auf Grund physikalischer Grundlagen statistisch zu beschreiben. Eine Einführung in eine so genannte Monte Carlo (MC)
Simulationen, bei denen Zufallszahlen und eine sequentielle Ablaufbeschreibung die Basis des
Konzeptes bilden, wird hier in diesem Kapitel gegeben. Aufgrund der verwendeten Prinzipien
von Wahrscheinlichkeitsrechnung und Statistik wird sie auch als Methode der statistischen
Versuche bezeichnet.
Figure 5.1: Zufällig verteilte Nadeln auf einer Fläche, die durch zwei parallele Geraden, im Abstand
einer Nadellänge, begrenzt wird. 81 von 128 Nadeln kreuzen bei diesem Versuch hier den Rand.
Die wohl älteste Anwendung der Monte Carlo Methode, die auch all ihre grundlegenden
Elemente veranschaulicht, ist bekannt als das Nadelexperiment von Buffon8 , das auch in
vielen Lehrbücher zitiert wird. Der wissenschaftlich versierte Graf verblüffte seine Kollegen im Jahre 1777 mit einer Bestimmung der Zahl π durch einfaches Abzählen von Nadeln,
die zufällig auf eine Fläche derselben Breite geworfen wurden, wie die Nadeln lang sind
(l). Er fand, daß der Quotient der Zahl von Nadeln (k), die den Rand der Fläche kreuzen
(die dunkleren in Abb. 5.1), zur Gesamtzahl aller geworfenen Nadeln (n) gerade den Wert
2/π ergibt (k/n = 2/π = p). Man berechnet diesen Wert analytisch aus dem Integral
über die ortsabhängige Wahrscheinlichkeit die Randlinie zu kreuzen, einer in der Mitte
gespiegelten Arcus-Cosinus-Funktion (siehe Bild 5.2 links). Abb. 5.2 rechts zeigt die immer genauer werdende Bestimmung von π nach dieser Abzählmethode bei Vergrößerung der
Zahl geworfener Nadeln. Der zu erwartende Fehler für den Wert π, der sich aus der Binomialverteilung
der Werte k unter korrekter Berücksichtigung der Fehlerfortplanzung zu
p
√
2n
np(1
−
p)
=
2.37/
n ergibt ist als gestrichelte Linie eingezeichnet.
2
k
Natürlich gibt es einfachere und genauere Verfahren, die Zahl π zu bestimmen. Der Versuch zeigt jedoch, dass numerische Problemstellungen durch die Wahrscheinlichkeitsrechnung
näherungsweise gelöst werden können. Heute wird die Monte-Carlo-Methode in der Numerik
vor allem dann vorgezogen, wenn die Formulierung des stochastischen Modells einfacher ist
als das mathematische Modell einer numerischen Lösungsmethode. Monte-Carlo-Verfahren
werden heute in extrem vielfältigen und unterschiedlichen Bereichen eingesetzt. Nur einige
Beispiele sind:
• Numerische Probleme, wie Berechnung bestimmter Integrale oder Lösung gewöhnlicher
und partieller Differentialgleichungen.
8
George Louis Leclerc, Graf von Buffon (1707 - 1788), französischer Naturforscher
34
1
4.7124
0.9
P
4.3982
/ areatot = 4/π / 2 = 2/π
4.0841
0.7
3.7699
0.6
3.4558
2/p
cross
(x)
0.8
p=∫+1
P
(x)
−1 cross
0.5
3.1416
0.4
2.8274
0.3
2.5133
0.2
2.1991
0.1
1.885
0
−1
−0.5
0
0.5
0
1
10
x, Position zwischen den Linien
1
10
2
10
3
10
4
10
5
10
Anzahl geworfener Nadeln
Figure 5.2: Wahrscheinlichkeit für Nadeln den Rand zu berühren in Abhängigkeit ihrer Position
zwischen den beiden Geraden und Ergebnis der Monte-Carlo-Simulation mit Fehlern (gestrichelte
Linie).
• Zuverlässigkeitsuntersuchungen technischer Systeme und anderer Produkte, etwa die
Bestimmung der Lebensdauer von Glühlampen.
• Probleme des Operations-Research, wie Lagerhaltungs- und Transportprobleme.
• Untersuchung von Erdbeben und weiteren Naturphänomenen.
• Entscheidungsfindung durch Simulation oder Risikobewertung von Portfolien im Investment Banking.
Im Allgemeinen gliedern sich Monte-Carlo-Methoden in drei wesentliche Stufen:
• Für das ursprüngliche mathematische Modell muß ein stochastisches Modell gefunden
werden, welches das Problem gut genug beschreibt.
• Es muß eine Folge von Zufallszahlen erzeugt werden, deren Folgenglieder mögliche reale
Situationen simulieren, also insbesondere dieselbe vorgegebene Verteilung besitzen.
• Aus den Realisierungen der Zufallsgrößen müssen Schätzwerte für das Ausgangsproblem
ermittelt werden.
Monte Carlo war namensgebend für diese Art von Verfahren: Erste Tabellen mit Zufallszahlen wurden durch Roulette-Spiel-Ergebnisse im Spielcasino von Monte Carlo erzeugt. Die
mit Glücksspielen zusammenhängenden Probleme waren durchaus Anlaß für Wissenschaftler
und Gelehrte sich mit Fragen der Zufälligkeit von Ereignissen näher auseinanderzusetzen.
Hinzu kamen Problemstellungen aus Versicherungsgesellschaften oder aus der Beobachtung
von Naturphänomenen.
5.1
Zufallsgeneratoren
In Computern werden Zufallszahlen mit Hilfe von Rechenalgorithmen erzeugt, sind also
prinzipiell reproduzierbar und heißen daher auch Pseudozufallszahlen. Eine ihrer wichtigsten Merkmale sind die Periodenlänge, nach der sich analytisch generierte Zahlen wiederholen, und Korrelationen unter den generierten Zahlen. Mittlerweile wurden Algorithmen
35
entwickelt, bei denen sich die Folge erst nach 219937 Zahlen wiederholt und deren Zahlen bis
zur Wiederholung für viele praktische Zwecke unkorreliert erscheinen. Üblicherweise werden
zunächst gleichförmig verteilte Zahlen im Intervall ]0...1[ erzeugt, die später in Zufallszahlen
anderer Verteilungen transformiert werden. Die Randwerte 0 und 1 sind ausgenommen,
da sie Probleme bei weiteren Rechnungen verursachen können. Wir bezeichnen solch eine
Wahrscheinlichkeitsdichte mit U (0, 1) (uniform distribution), die Zufallszahlen selbst mit u.
(
U (0, 1) =
1 f alls 0 < u < 1
0
sonst
36
Erzeugung gleichförmiger Zufallszahlen mit dem Computer
Ein einfacher und klassischer Generator ist der allgemeine linear kongruente Generator.
ni+1 = (a · ni + c) mod m
ui = ni /m
Er benötigt drei ganzzahlige Konstanten, den Multiplikator a, den Summanden c und
den Modul m. Generatoren mit Summand c = 0 werden multiplikativ linear kongruente
Generatoren genannt. Die Verteilung und Korrelationen unter den ersten 10000 Zahlen dieses
Generators, der in den 60er Jahren von IBM für 32-Bit Ganzzahldarstellung entwickelt wurde
und unter dem Namen RANDU berühmt wurde, mit den Werten m = 231 , a = 65539 und
c = 0 sind in Abb. 5.3 dargestellt. Das MATLAB Program für den Zufallszahlengenerator
RANDU lautet:
%%%% MATLAB RANDU %%%
ev
= 10000;
u
= zeros(ev,1);
u(1) = 1;
a
= 65539;
m
= 2^31;
for i=2:ev
u(i) = mod(a * u(i-1),m);
end
u=u/m;
Eine weitere wichtige Eigenschaft von Pseudozufallszahlen ist der benötigte Startwert n1 der
auch Saatzahl (seet) genannt wird und in diesem Beispiel auf den Wert 1 gesetzt wurde. Die
Wahl des Startwerts garantiert zum einen, daß exakt die gleichen, oder gesichert verschiedene
Ausgangsbedingungen einer MC-Simulation hergestellt werden können.
Übung: Vergleichen Sie die ersten 10 Zufallszahlen von RANDU für zwei verschiede
Startwerte. Plotten Sie die Tripel ui , ui+1 , ui+2 in 3 Dimensionen (plot3), drehen Sie die
Ansicht bis Sie die 15 Hyperebenen in ]0...1[3 sehen.
1
1
0.8
0.8
100
0.6
randi+2
ui+2
Eintraege pro Bin (0.01)
150
0.4
0.2
0
1
0
1
0.8
0.6
0.4
0.2
0.4
ui
0.6
0.8
1
0.4
0.2
50
0
0
0.6
ui+1
0.2
0 0
0.2
0.4
ui
0.6
0.8
1
0.8
0.6
0.4
randi+1
0.2
0 0
0.2
0.4
0.6
0.8
1
randi
Figure 5.3: Histogram (100 Bins) der ersten 10000 mit RANDU erzeugten Zufallszahlen und Korrelationen unter jeweils drei aufeinanderfolgenden Werten (ungebinnt). Zum Vergleich wurden 10000
Werte, generiert mit der MATLAB-Funktion rand, in gleicher Weise in den rechten Graph eingetragen.
Es ist eine allgemeine Eigenschaft linearer Generatoren, daß die k-Tupel aufeinander folgender Zufallszahlen im k-dimensionalen Raum auf (k-1)-dimensionalen Hyperebenen liegen.
Der maximale Abstand dieser Ebenen ist ein wichtiger Test für lineare Generatoren (Spektraltest). Der rechte Graph in Abbildung 5.3 zeigt im Vergleich zu RANDU (mittleres Bild),
37
die wesentlich gleichmäßigere Verteilung des MATLAB Generators rand.
Hinweis zu MATLAB: MATLAB arbeitet mit “double precision” reellen Zahlen, d.h.
mit 64 Bits (Vorzeichen 1 Bit, Exponent 11 Bits und Mantisse 52 Bits). Die eingebauten
Zufallsgeneratoren rand und randn verwenden ebenfalls den Algorithmus des multiplikativen
linear kongruenten Generators mit den Parametern a = 75 und m = 231 − 1. Damit können
Fließkommazahlen im Intervall [2−53 , 1−2−53 ] erzeugt werden mit einer theoretischen Periode
von 21492 Werten bis der Generator sich wiederholt9 . In MATLAB 6 wird im Vergleich zu
früheren Versionen der Ausgangszustand der eingebauten Zufallsgeneratoren rand und randn
nicht mehr durch eine einzige Saatzahl bestimmt, sondern durch einen 35-elementigen Vektor,
der den Status (state) des Generators definiert.
Für den täglichen Gebrauch sind die Standard-Zufallsgeneratoren wie sie heute in vielen Computerprogrammen implementiert sind, meist vollkommen ausreichend. In einigen
Spezialfällen, z.B. QCD Gitter-Eichtheorie-Rechnungen, werden jedoch höherqualitative Generatoren benötigt. Zwei Verfahren sind heute üblich, um Zufallszahlen mit minimalen Korrelationen und außerordentlich großen Periodenlängen zu erhalten:
• Kombination: Zwei Zufallszahlen werden mit je einem Generator erzeugt, und eine
neue durch die Operationen +, − oder Exklusiv-ODER erzeugt.
• Durchmischung: Ein Speicher wird mit einer Reihe von Zufallszahlen gefüllt, und
das Resultat eines zweiten Generators wird benutzt, um die Adresse der nächsten Zufallszahl im Speicher zu bestimmen.
5.2
Tests von Zufallsgeneratoren
Die wichtigsten Test von Zufallsgeneratoren wurden bereits angesprochen. Für einen Überblick
über die Vielzahl von entwickelten Methoden verweisen wir auf Knuth10 .
Test auf gleichförmige Verteilung Das Intervall [0,1] wird in k gleiche Unterintervalle
der Länge 1/k unterteilt. N Zufallszahlen ui werden erzeugt und es wird gezählt, wieviele der
Zahlen in jedes dieser Unterintervalle hineinfallen. Nennt man die Zahl der Fälle in jedem
Unterintervall Ni , i=1..k, dann sollte (für N/k≥10) die Summe
χ2 =
k
X
(Ni − N/k)2
N/k
i=1
näherungweise einer χ2 -Verteilung mit (k-1) Freiheitsgraden folgen, d.h. im Mittel sollte
das Verhältnis χ2 /(k-1) gleich 1 sein. Man kann analoge Ausdrücke für nicht-gleichförmige
Verteilungen konstruieren.
Korrelationstest Wenn n sukzessive Zufalllszahlen als die Koordinaten eines Punktes im
n-dimensionalen Raum aufgezeichent sind, liegen die Punkte auf Hyperebenen (s.o.). Ein
guter Generator besitzt viele Hyperebenen, die etwa gleichmäßig verteilt sind. Der Effekt ist
9
Die relative Rechenpräzision in MATLAB für Fließkommazahlen beträgt nominell 2−52 (vgl. Funktion
eps)
10
D. E. Knuth. The Art of Computer Programming, Volume II: Seminumerical Algorithms. Computer
Science and Information Processing. Addison Wesley, Reading, Mass., 1981
38
ausgeprägter, wenn man nur die Bits niedriger Ordnung nimmt.
Lücken-(gap-)Test Man wählt zwei Zahlen α, β mit 0 ≤ α < β ≤ 1. Man erzeugt r+1
Zufallszahlen, die gleichmäßig im Intervall [0,1] verteilt sind. Die Wahrscheinlichkeit daß die
ersten r-Zahlen außerhalb des Intervalls [α, β] liegen und die letzte, (r+1)ste Zahl innerhalb,
sollte sein:
Pr = p(1 − p)r mit p = β − α
Random Walk-Test Man wählt eine Zahl 0 < α << 1. Man bildet eine große Menge
von Zufallszahlen und registriert die Zahl der Fälle r, in denen eine Zufallszahl kleiner als α
erscheint. Man erwartet eine Binomialverteilung für r mit p = α. Der test ist sehr empfindlich
für große Werte von r. Der Test sollte auch gemacht werden, indem man die Menge der
Zufallszahlen zählt, die größer als (1-α) sind. Man erwartet in diesem Fall natürlich die selbe
Verteilung für r.
5.3
Beliebig verteilte Zufallszahlen
In den meisten Fällen einer Monte Carlo Rechnung werden Zufallszahlen benötigt, die einer
bestimmten Wahrscheinlichkeitsdichte f (x) folgen, die keine Gleichverteilung ist, wie die
generierten Zahlen aus U (0, 1). Zum Beispiel kann eine Normalverteilung einen Meßfehler in
der Simulation beschreiben. In den folgenden Unterkapiteln werden die wichtigsten Methoden
zur Erzeugung von beliebig-verteilten Zufallszahlen xi besprochen.
5.3.1
Umkehrfunktion der kumulativen Verteilung
Eine Standardtechnik beginnt mit Zufallszahlen ui ∈ U (0, 1) und transformiert diese in die
Variablen xi unter Verwendung der Umkehrfunktion einer kumulativen Verteilung. Es gilt:
Z
x
x = F −1 (u)
f (t) dt = F (x) = u
f (x) dx = U (0, 1) du
−∞
F −1 ist hierbei die Umkehrfunktion der kumulativen Verteilungsfunktion F (x), die natürlich
auf 1 normiert sein muß. Für eine Folge gleichförmiger Zufallszahlen ui folgen die Zufallszahlen xi = F −1 (ui ) der Wahrscheinlichkeitsdichte f (x).
F(x)
1
F(x)
0.8
u
f(x)
0.6
0.4
0.2
f(x)
0
0
a
x
b
Figure 5.4: Erzeugung von Zufallszahlen einer kontinuierlichen Verteilung f (x) durch Transformation
gleichverteilter Zufallszahlen mit dem Inversen ihrer kumulativen Verteilungsfunktion F (x).
Diese direkte und elegante Methode kann allerdings nur angewandt werden, wenn das Integral
einer Wahrscheinlichkeitsdichte als analytische Funktion F (x) ausgedrückt und die Funktion
39
F (x) invertiert werden kann. Die Methode ist in Abb. 5.4 illustriert.
Beispiel: Erzeugung von Zufallszahlen für eine Exponentialverteilung.
Die normierte Exponentialverteilung für die Variable x ist durch die Wahrscheinlichkeitsdichte
f (x, λ) = λe−λx für x ≥ 0 gegeben, und sie ist Null für negative Werte von x.
Z
u=
x
λe−λt dt = 1 − e−λx
0
Das Ergebnis ist die Formel xi = −ln(1−ui )/λ, oder weil ui und 1−ui beide im Intervall ]0..1[
gleichverteilt sind, ist xi = −ln(ui )/λ für die Folge von exponentiell verteilten Zufallszahlen
xi .
Wenn es sich in einer Anwendung um sehr große Zufallswerte handelt (z.B. sehr lange Lebensdauern t >> τ = 1/λ), dann kann die obige Methode unter Umständen nicht genau genug
sein. Sehr große Werte Werte von x werden durch sehr kleine Werte von u erzeugt. Wegen der
diskreten Natur von Gleitkommazahlen in einem Rechner werden deshalb sehr große Werte
von x auch diskret sein. Wird ein kongruenter Generator mit einem Modul m benutzt, dann
ist die kleinste Zahl, die ungleich Null ist, gegeben durch 1/m, und der größte transformierte
Zufallswert wird ln m sein, während die nächst größeren Werte ln m − ln 2, ln m − ln 3, usw.
sind. Vergleiche dazu auch die Diskussion zu den in MATLAB erzeugten Zufallszahlen auf
den vorhergehenden Seiten.
5.3.2
Brute Force Methode
Wenn es keinen einfachen Weg gibt, um nach der analytischen Methode vorzugehen, kann man
nach dem folgenden Algorithmus Zufallszahlen entsprechend einer gegebenen Wahrscheinlichkeitsdichte f (x) erzeugen, was jedoch oft nicht sehr effektiv ist. Unter der Annahme, daß
die Variable x auf einen Bereich a < x < b beschränkt ist, bestimmt man eine obere Schranke
c mit c ≥ max(f (x)); max(f (x)) ist dabei das Maximum von f (x) im Intervall [a,b]. Damit
füttert man folgendes Programm:
1. Man wählt xi gleichmäßig verteilt aus dem Intervall [a,b]: xi = a + ui · (b − a)
2. Man wählt eine weitere Zufallszahl uj ∈ U (0, 1)
3. Wenn f (xi ) < uj ·c ist, geht man zurück nach 1., sonst akzeptiert man xi als Zufallszahl
Die Effizienz dieses Verfahrens ist praktisch gegeben durch das Verhältnis der Fläche von
f (x) im Intervall [a,b] zur Gesamtfläche c · (b − a) des Raumes der generierten Paare (ui , uj ).
Die Effizienz kann bedeutend erhöht werden, wenn man eine Funktion s(x) finden kann, die
die ungefähre Gestalt von f (x) besitzt und deren Stammfunktion umgekehrt werden kann.
Dann wählt man eine Konstante c so, daß für alle x aus [a,b] gilt: c · s(x) > f (x). Mit
Z
x
xi = S −1 (ui )
s(t)dt = S(x)
−∞
kann man den folgenden Algorithmus anwenden:
1. Man wählt eine Zufallszahl ui und berechnet xi = S −1 (ui )
40
2. Man wählt eine weitere Zufallszahl uj ∈ U (0, 1)
3. Wenn f (xi ) ≤ uj · c · s(xi ) ist, geht man nach 1., sonst akzeptiert man xi als Zufallszahl
Der Zufallszahl xi entspricht eine s(x)-Verteilung. Die Wahrscheinlichkeit, daß sie in Schritt
3 akzeptiert wird, ist f (xi )/(c · s(xi )); Multiplikation der Wahrscheinlichkeiten ergibt f (x)/c.
5.3.3
Speziell verteilte Zufallszahlen
Zufallswinkel und -vektoren in zwei Dimensionen.
Ein Zufallswinkel φ, gleichmäßig verteilt in [0,2π], wird durch φi = 2π · ui erzeugt. Der Zui
fallseinheitsvektor ist dann einfach (cosφ
sinφi ).
Zufallswinkel und -vektoren in drei Dimensionen.
Hier wird zusätzlich zu den Werten von sin φ und cos φ ein Polarwinkel θ ∈ [−π/2, π/2]
benötigt. Entsprechend dem Raumwinkelelement
dΩ = sinθ dθ dφ = |d cosθ| dφ
ergibt sich θj = arcsin(2 · uj − 1) aus der analytischen Transformation. Für die 3 Komponenten des Zufallseinheitsvektors ergeben sich ex = sinφ · cosθ, ey = cosφ · cosθ und ez = sinθ.
41
Standardisierte Normalverteilung.
Dies ist eine der meist benötigten Verteilungen für Zufallszahlen. Ein einfacher, aber nur
annähernd
richtiger Generator für Zufallszahlen zi , die im Intervall [-6,6] einer Gaußverteilung
√
2
−x
(1/ 2π · e /2 ) folgen, basiert auf dem zentralen Grenzwertsatz:
zi =
12
X
uj − 6
j=1
Natürlich kann man die Anzahl der Summenelemente vergrößern, was jedoch auf Kosten der
Rechenzeit geht.
In MATLAB ist bereits ein Generator für standardisiert-Gauß-verteilte Zufallszahlen eingebaut und wird über die Funktion randn aufgerufen. Die nachfolgende Tabelle listet weitere
MATLAB-Zufallsgeneratoren aus der Statistics Toolbox auf, die bestimmten Verteilungen folgen. In der rechten Spalte sind die Grundgeneratoren aufgelistet, die MATLAB bei den einzelnen Verteilungen verwendet. Um Rechenergebnisse zu reproduzieren müssen die Zustände
dieser Generatoren korrekt gesetzt werden.
Verteilungsfunktion
Beta
Binomial
χ2
Exponential
Extremwert
F-Verteilung
Gamma
Geometrisch
Hypergeometrisch
Invers Wishart
Lognormal
Multivariat-Normal
Multivariat-T
Negativ-Binomial
Nicht zentral F
Nicht zentral T
Nicht zentral χ2
Normal(µ, σ)
Poisson
Rayleigh
Student-t
Diskrete Gleichverteilung
Gleichverteilung (A, B)
Weibull
Wishart
MATLAB-Funktion
betarnd
binornd
chi2rnd
exprnd
evrnd
frnd
gamrnd
geornd
hygernd
iwishrnd
lognrnd
mvnrnd
mvtrnd
nbinrnd
ncfrnd
nctrnd
ncx2rnd
normrnd
poissrnd
raylrnd
trnd
unidrnd
unifrnd
wblrnd
wishrnd
42
Verwendete Generatoren
rand, randn
rand
rand, randn
rand
rand
rand, randn
rand
rand
rand
rand, randn
randn
randn
rand, randn
rand, randn
rand, randn
rand, randn
randn
randn
rand, randn
randn
rand, randn
rand
rand
rand
rand, randn
5.4
Praktisches Vorgehen
Eine typische Monte Carlo Analyse beginnt damit, daß k-Tupel (x1 , ..., xk )i , i = 1, ..., n
von Zufallsgeneratoren nach den für den zu beschreibenden Prozess relevanten Verteilungen
f (x1 , ..., xk ) generiert werden. Aus diesen können weitere interessante Größen al (x1 , ..., xk )
direkt berechnet werden. Anschließend können die Eigenschaften der abgeleiteten Größen
al untersucht werden. Dabei lassen sich Randbedingungen in der Regel einfach dadurch
berücksichtigen, daß für jedes k-Tupel entschieden wird, ob es akzeptiert oder verworfen
wird. Generell interessante Eigenschaften der Verteilung der al sind ihre Normierung, ihr
Mittelwert und ihre Varianz. Aber auch die volle Verteilung der al kann auf diese Weise
analysiert werden. Die Monte-Carlo-Methode ist damit ein Verfahren zur Variablentransformation, das auch bei sehr komplexen Problemen noch anwendbar ist, bei denen analytische
√
Verfahren scheitern. Die Genauigkeit der Ergebnisse skalieren im allgemeinen mit 1/ n,
d.h. die Aussagen werden immer präziser je mehr k-Tupel generiert werden. Die Ursache
√
für den Zuwachs an Genauigkeit mit 1/ n und die Überlegenheit der Monte Carlo Methode
gegenüber numerischen Algorithmen für k > 4 wird im nächsten Abschnitt besprochen.
5.5
Monte Carlo Integration
Deterministische Methoden numerischer Integration verwenden eine Anzahl von äquidistanten
Funktionswerten. Dies funktioniert im Allgemeinen gut für Funktionen von einer oder wenigen Variablen. Deterministische Quadratur-Methoden werden jedoch für Funktionen von
Vektoren sehr ineffizient. Für eine numerische Integration eines zweidimensionalen Vektors
werden äquidistante Gitterpukte über einer Fläche benötigt, d.h. ein 10 · 10 Gitter benötigt
bereits 100 Punkte. Hat der Vektor 100 Dimensionen, werden 10100 Gitterpunkte benötigt,
praktisch unmöglich deterministisch zu erfassen. 100 Dimensionen ist hierbei keine unrealistische Zahl, da in physikalischen Problemstellungen eine Dimension einem Freiheitsgrad
entspricht, und bereits die dreidimensionale Beschreibung eines einzigen Teilchens mindestens
3 Dimensionen in Anspruch nimmt.
Die Monte Carlo Methode stellt hierbei eine Lösung für dieses exponentiell anwachsende
Problem dar. Solange die hier betrachtete Funktion einigermaßen glatt ist, kann ihr Integral
durch zufällig ausgewählte Punkte aus dem 100-dimensionalen Raum durch eine Art von
Mittelung abgeschätzt werden. Nach dem zentralen Grenzwertsatz konvergiert das Ergebnis
√
mit 1/ n gegen den richtigen Wert, d.h. Vervierfachung der Berechnungspunkte halbiert
jeweils den Fehler des Ergebnisses, unabhängig von der Anzahl der Dimensionen.
Diese Methode, auch als rohe Monte Carlo-Integrationsmethode bezeichnet wird, kann
durch unten aufgeführte Verfahren verfeinert werden. Sie haben im Prinzip alle das Ziel, das
Integral vor allem in den Bereichen genau zu berechnen, die einen großen Beitrag liefern,
d.h. die Gitterpunkte sollten aus einer Verteilung gezogen werden, die der zu integrierenden
ähnlich ist (vgl. Abschnitt importance sampling). In der Praxis ist es jedoch genau so
schwierig die perfekte Verteilung zu finden als gleich das Integral zu lösen, d.h. man wird
abwägen müssen welches Verfahren zur Varianzreduktion für das Problem am Geeignetsten
ist.
43
5.5.1
Integral als Summe von Funktionswerten an zufälligen Stellen
Das eindimensionale Integral einer Funktion f (x), I = ab f (x)dx wird mit der MC-Methode
berechnet. Zunächst kann das Integral folgendermaßen geschrieben werden:
R
Z
b
I=
1 · f (x)dx = (b − a) · E[f (x)]
a
wobei E[f (x)] dem Erwartungswert von f (x) für eine zwischen den Grenzen a und b gleichförmige Wahrscheinlichkeitsdichte entspricht. Mit den Zufallszahlen ui ist die Verteilung
von xi = a + ui · (b − a), gleichförmig in [a,b]. Der Monte Carlo Schätzwert des Integrals
beträgt damit
IM C =
n
b−aX
f (xi ) ≈ I mit : xi = a + ui (b − a) und i = 1...n
n i=1
Eine einfache numerische Formel zur Berechnung des Integrals zeigt die dazu prinzipielle
Ähnlichkeit der Monte Carlo Methode (man vergleiche mit der Trapezregel):
IN =
n
b−aX
1 b−a
f (xi ) mit : xi = a + (i − ) ·
und i = 1...n
n i=1
2
n
Der Fehler σIM C des Schätzwertes des Integral IM C hängt von der Varianz von f (xi ) folgendermaßen ab,
V [IM C ] = σI2M C = V
n
hb − a X
n
i
f (xi ) =
n
b − a 2 h X
n
i=1
V
i=1
i
f (xi ) =
(b − a)2
V [f (xi )]
n
entsprechend dem zentralen Grenzwertsatz. Diese Gleichung zeigt, daß die Varianz, d.h. das
Quadrat des Fehlers von IM C , mit 1/n abnimmt und proportional zur Varianz von f (x) über
dem Integrationsintervall ist.
5.5.2
Varianzreduzierende Methoden
Es gibt einige Methoden zur Varianzreduzierung eines Monte Carlo Integrals, wir beschreiben
hier die zwei wichtigsten.
Partitionierung
Die Varianz kann reduziert werden, wenn man das Integrationsintervall in zwei oder mehrere
Bereiche aufteilt. Die Intervalle sollten so gewählt werden, daß der Integrand f (x) im gegebenen Bereich möglichst wenig variiert, d.h. man verwendet in der Praxis einen größeren Teil
der erzeugten Zufallszahlen und kleinere Intervalle für Bereiche in denen f (x) stärker variiert.
n
IST RA
n
2
b−c X
c−aX
f (a+ui (c−a))+
f (c+ui (b−c)) mit i = 1...n und a < c < b
=
n/2 i=1
n/2 i=1+ n
2
Importance Sampling
Da die Varianz des Monte Carlo Ergebnisses proportional zur Varianz des Integranden ist, ist
es vorteilhaft das Integral so zu transformieren, daß der neue Integrand eine kleinere Varianz
44
als der ursprüngliche hat. Unter Einführung einer Funktion g(x), die f (x) ähnlich ist, können
wir schreiben:
Z
b
Z
f (x)dx =
b h f (x) i
a
a
A = G(a)
IImpSl
g(x)
Z
B
g(x)dx =
A
g(x)
Z
dv(x) mit v(x) =
x = G−1 (v)
B = G(b)
n
A−B X
f (x(vi ))
=
n i=1 g(x(vi ))
h f (x) i
mit
g(x)dx = G(x)
vi = A + ui (B − A)
x(vi ) = G−1 (A + ui (B − A))
und i = 1...n
Die Varianz des neuen Ergebnisses ist nun proportional zu der von f (x)/g(x), statt zu der von
f (x) alleine. Bei geeigneter Wahl von g(x) kann durch die Methode des Important Samplings
die Varianz des Monte Carlo Integrals ganz erheblich reduziert werden, es muss jedoch eine
Funktion g(x) gefunden werden, die integrierbar und invertierbar ist, und f (x) genügend gut
beschreibt (siehe Übungsaufgabe 3, Serie 7).
5.5.3
Vergleich mit numerischer Integration
Trapezregel
Die numerische Integration wird in ihrer einfachstenRForm nach der Trapez-Regel ausgeführt,
d.h. der numerische Schätzwert des Integrals I = ab f (x)dx wird näherungweise berechnet
durch:
IT =
b − a1
1
f (x0 ) + f (x1 ) + ... + f (xn−1 ) + f (xn )
n
2
2
b−a
mit : xi = a + i ·
und i = 0...n
n
Der Fehler dieser Methode wird durch Taylorentwicklung und Summation der einzelnen
Beiträge der n Intervalle unter Verwendung des zentralen Grenzwertsatzes als proportional
zu 1/n2 bestimmt.
Simpson’sche Regel
Bei dieser Regel wählt man eine gerade Zahl n, also eine gerade Zahl von Intervallen
IS =
b − a
f (x0 ) + 4f (x1 ) + 2f (x2 ) + 4f (x3 ) + ... + 4f (xn−1 ) + f (xn )
3·n
b−a
mit : xi = a + i ·
und i = 0...n
n
Sie führt zu einem Fehler, der noch schneller mit der Zahl n der Intervalle abnimmt, nämlich
mit 1/n4 . Im Vergleich dazu fällt der Fehler eines Integrales, das mit der Monte Carlo
√
berechnet wurde nur mit 1/ n ab. Darum sind konventionelle Integrations-Methoden in
einer Dimension immer besser als MC-Methoden. Für Integrale in vielen Dimensionen ist
√
die Sache jedoch anders. In einem d-dimensionalen Raum hat man in jeder Dimension d n
45
Intervalle mit n=Anzahl der Punkte, für die der Integrand berechnet werden muß, und der
√
Fehler aus der Trapezregel ist dann proportional zu 1/(d n)2 = n−2/d . Im Gegensatz dazu
ist der Fehler bei der MC-Methode immer noch proportional zu n−1/2 . Die MC-Methode ist
also dann besser, wenn gilt;
−
2
1
≤ − oder d ≥ 4
d
2
d.h. sobald 4 oder mehr Freiheitsgrade im zu betrachtenden Problem vorliegen.
46
6
Stichproben und Schätzungen
Aus einer Grundgesamtheit von gewöhnlicherweise unendlich vielen Elementen wird eine
Stichprobe (oder Messung) vom Unfang n Elementen genommen. Die Wahrscheinlichkeitsdichte der Grundgesamtheit ist durch f (x) mit Mittelwert µ und Varianz σ 2 gegeben. Aus
der vorliegenden Stichprobe möchte man jetzt die im allgemeinen unbekannten Grössen Mittelwert und Varianz bestimmen. Unsere Aufgabe besteht also darin die beste Schätzung einer
oder mehrerer Parameter der Grundgesamtheit anhand der Stichprobe durchzuführen.
6.1
Eigenschaften von Schätzungen
Die Stichprobe sowie jede Funktion der Stichprobe sind selber Zufallsvariablen. Eine Schätzung
ist eine Stichprobenfunktion, um einen oder mehrere Parameter ai der Grundgesamtheit zu
bestimmen. Die Schätzung des Parameters ai durch eine Stichprobenfunktion wollen wir mit
â bezeichnen. Wir wollen nun die folgenden Eigenschaften einer Schätzung definieren:
• Eine Schätzung heisst erwartungstreu oder unverzerrt, wenn bei beliebigem Umfang
der Stichprobe der Erwartungswert der (zufälligen) Grösse gleich dem zu schätzenden
Parameter ist: < â >= a. In diesem Falle spricht man auch von einem unbiased esimate.
Eine Schätzung ist verzerrt oder biased, wenn < â >= a + b ist. Die Zahl b heisst auch
der bias der Schätzung.
• Eine Schätzung heisst konsistent, wenn limn→∞ â = a.
• Eine Schätzung heisst effizient, wenn die Varianz von â möglichst klein ist.
• Ferner muss eine Schätzung robust gegenüber falschen Daten oder falschen Voraussetzungen sein.
6.2
6.2.1
Stichprobenfunktionen für kontinuierliche Verteilungen
Schätzung des Mittelwerts
Die Schätzung des Mittelwerts µ einer Wahrscheinlichkeitsdichte anhand von n unabhängigen
Stichprobenelementen xi ist gegeben durch:
µ̂ =
1X
xi
n i
(6.1)
Diese Schätzung ist erwartungstreu. Sie ist ausserdem konsistent aufgrund des zentralen
Grenzwertsatzes. Ihre Varianz ist gegegen durch:
V (µ̂) =
1 2
σ
n
(6.2)
Ob die Schätzung des Mittelwertes effizient ist, hängt von der genauen Wahrscheinlichkeitsdichte der Grundgesamtheit ab. Bei einer uniformen Verteilung ist die effektivste Schätzung
des Mittelwertes durch µ̂ = 0.5(xmax +xmin ) gegeben, die eine noch kleinere Varianz aufweist.
Die Robustheit der Schätzung aus Gleichung 6.2 kann durch Benutzung des getrimmten
Mittelwerts sogar noch erhöht werden. Dabei wird der Mittelwert durch Abschneiden bzw.
Weglassen der grössten und kleinsten Werte bestimmt.
47
6.2.2
Schätzung der Varianz
Als Schätzung der Varianz einer Grundgesamtheit bei unbekannten (wahren) Mittelwert
eignet sich die folgende Stichprobenfunktion s2 :
s2 = σˆ2 =
1 X
(xi − µ̂)2
n−1
(6.3)
1
Mit µ̂ ist wiederum der geschätzte Mittelwert aus Gleichung 6.2 gemeint. Der Faktor n−1
in
P
1
02
der obigen Gleichung verwirrt zunächst etwas. Im Gegensatz zu der Grösse s = n (xi − µ̂)2
ist die Schätzung s2 jedoch unverzerrt (unbiased). Man kann leicht zeigen, dass < s02 >=
n−1 2
2
2
2
n σ 6= σ , während < s >= σ ist. Falls aber der Mittelwert µ der Grundgesamtheit
bekannt ist und daher nicht geschätzt werden braucht, ist die Schätzung s02 für die Varianz
σ 2 der Grundgesamtheit eine erwartungstreue Stichprobenfunktion:
s02 =
1X
(xi − µ)2 =< x2 > −µ2
n
(6.4)
Die Varianz des Estimators s2 kann berechnet werden als:
V ar(s2 ) =
n−3 2
1
µ4 −
µ ,
n
n−1 2
(6.5)
wobei µk das k-the zentrale Moment ist. In einfacher Weise können auch die zentralen
Momente µk abgeschätzt werden als:
1 X
(xi − µ̂)k
n−1
(6.6)
n
1 X
(xi − x̄)(yi − ȳ) =
(xy
¯ − x̄ȳ)
n−1
n−1
(6.7)
µˆk =
6.2.3
Schätzung der Kovarianz
Die Grösse
Vˆxy =
ist eine erwartungstreue Schätzung für die Kovarianz Vxy von zwei Zufallsvariablen x und
y mit unbekannten (aber geschätzten) Mittelwerten. Der Korrelationskoeffizient ergibt sich
dann zu
Vˆxy
ρxy =
(6.8)
sx sy
6.3
6.3.1
Die Maximum-Likelihood Methode
Die Likelihood-Funktion
Es liegen n Messungen der Zufallsvariablen x vor. Die den Messwerten xi zugrundeliegende
Wahrscheinlichkeitsdichte f (x|a) soll bekannt sein. Hierbei steht a für einen oder mehrere
unbekannte Parameter, von denen die Wahrscheinlichkeitsdichte abhängt. Unsere Aufgabe
besteht wiederum darin, die beste Schätzung â des Parameters aus den vorliegenden Messdaten zu gewinnen.
48
Die Maximum-Likelihood-Methode geht von der ein- oder mehrdimensionalen Wahrscheinlichkeitsdichte f (x|a) der gemessenen Werte aus und bildet die Likelihood-Funktion11 :
L(a) = f (x1 |a) · f (x2 |a) · · · f (xn |a) =
Y
f (xi |a)
(6.9)
Die Funktion L(a) ist für eine gegebene Stichprobe eine Funktion der Parameter a und
gibt die Wahrscheinlichkeit an, bei einer vorgegebenen Wahl der Parameter a gerade die
Messwerte xi zu erhalten. Die Likelihood-Funktion ist aber keine Wahrscheinlichkeitsdichte
in den Parametern a.
Nach dem Maximum-Likelihood-Prinzip ist nun die beste Schätzung von a derjenige Wert
â welcher L(a) zu einem Maximum macht, d.h. gerade die Wahrscheinlichkeit maximiert, den
beobachteten Satz von Zufallsgrössen xi zu erhalten:
L(a) = Maximum
Z
f (x|a) = 1 ∀a
(6.10)
(6.11)
Hierbei ist wichtig, dass die Normierung von f (x|a) in jedem Schritt aufrecht erhalten werden
muss. Das Maximum wird nun durch Differenzieren gewonnen, d.h. dL(a)/da = 0 oder für
mehrere Parameter ak : ∂L/∂ak = 0 ∀k.
In der Praxis arbeitet man mit dem Logarithmus der Likelihood-Funktion l(a) = ln L(a);
sie heisst Log-Likelihood Funktion. Da der Logarithmus eine monoton anwachsende Funktion
ist, hat er sein Maximum an derselben Stelle und die Bedingung wird zu:
l(a) = ln L(a) =
X
ln f (xi |a) = Maximum.
(6.12)
Als Beispiel wollen wir eine Wahrscheinlichkeitsdichte betrachten, die durch f (x|a) =
1 + a(x − 0.5) mit x zwischen 0 und 1 gegeben ist. Die uns zur Verfügung stehenden Daten xi
seien 0.89, 0.03, 0.5, 0.36 und 0.49. Der Log-Likelihood der obigen Funktion ist dann gegeben
durch
l(a) =
5
X
ln(1 + a(xi − 0.5))
(6.13)
i=1
und ist in Figur 6.1 dargestellt. Das Maximum des Log-Likelihoods kann graphisch zu -0.6
bestimmt werden.
6.3.2
Einfache Anwendungen der Maximum-Likelihood Methode
Exponentieller Zerfall:
Als Anwendung einer Maximum-Likelihood (ML) Schätzung wollen wir einen exponentiellen
Zerfall betrachten. Ein instabiles Teilchen mit Lebensdauer τ zerfällt gemäss einem Exponentialgesetz:
1
f (t; τ ) = e−t/τ
(6.14)
τ
11
Eine deutsche Übersetzung wird dadurch erschwert, dass likelihood ebenso wie probability einfach
Wahrscheinlichkeit heisst. Es gibt aber einen fundamentalen Unterschied zwischen einer echten analytischen Wahrscheinlichkeitsdichtefunktion und einer Likelihood-Funktion. Letztere ist eine Stichprobenfunktion
und demnach auch eine Zufallsgrösse
49
Figure 6.1: Die Log-Likelihood Funktion aus Gleichung 6.13
Uns interessiert nun der ML-Schätzwert für die mittlere Lebensdauer τ̂ , wenn n Teilchenzerfälle mit Werten ti gemessen wurden. Die Log-Likelihood Funktion ist daher
ln L(τ ) = l(τ ) =
X
f (ti ; τ ) =
X
(ln
i
i
1 ti
− )
τ
τ
(6.15)
Eine Maximierung bezüglich τ ergibt die ML Schätzung τ̂ :
τ̂ =
1X
ti
n i
(6.16)
Als ML Schätzung ergibt sich somit der Mittelwert. Ferner kann leicht gezeigt werden, dass
die ML Schätzung in diesem Fall erwartungstreu ist.
Gaussverteilung:
Die Gauss-Wahrscheinlichkeitsdichte ist
−
1
f (xi ; µ) = √
·e
2πσi
(xi −µ)2
2σ 2
i
(6.17)
Um eine ML-Schätzung für den Mittelwert µ̂ zu bekommen, bilden wir wiederum die LogLikelihood Funktion:
l(µ) =
X
i
1
1
1
(xi − µ)2
ln √ + ln 2 −
2σi2
2π 2 σi
!
(6.18)
Eine Ableitung nach µ und Bestimmung des Maximums ergibt:
dl(µ)
dµ
=
X xi − µ
σi2
i
2
i xi /σi
1/σi2
=0
(6.19)
P
µ̂ =
50
(6.20)
Dies ist aber genau der gewichtete Mittelwert, den wir bereits im vorigen Kapitel kennengelernt haben. Falls die xi dieselben σi besitzen vereinfacht sich natürlich die Gleichung zu
P
µ̂ = n1 i xi . Ferner können wir im Falle derselben σi = σ die Likelihood-Methoe benutzen,
um eine Schätzung der Varianz σˆ2 zu erhalten. Die ML Methode ergibt dann
1X
σˆ2 =
(xi − µ̂)2
n i
(6.21)
Dieser ML Estimator ist jedoch nicht erwartungstreu, wie wir bereits vorher gesehen haben.
Allerdings geht der bias für n → ∞ gegen null. Die unverzerrte Schätzung der Varianz ist
durch
1 X
s2 =
(xi − µ̂)2
(6.22)
n−1 i
gegeben.
Poisson-Verteilung:
Die Log-Likelihood Funktion für die Poisson-Verteilung ist gegeben durch
l(µ) =
X
i
ln
X
µxi −µ
xi − nµ + const
e = ln µ ·
xi !
i
(6.23)
Ableiten von l(µ) nach µ und gleich null setzen ergibt als Schäztwert für den Mittelwert einer
P
Poisson-Verteilung µ̂ = n1 i xi .
6.3.3
Eigenschaften der Maximum Likelihood Methode
Wir wollen an dieser Stelle einige wichtige Eigenschaften von Likelihood und ML Methode
aufzeigen. Für allgemeine Schätzungen (nicht nur für die ML-Methode) kann gezeigt werden,
dass
∂b
1 + ∂a
< (â − a)2 > = V (â) ≥ R
(6.24)
n (∂l/∂a)2 f (x|a)dx
gilt. Diese Ungleichung wird als Rao-Cramer-Frechet Grenze oder auch Informationsungleichung genannt und gibt eine untere Schranke für die Varianz einer Schätzung. Der Nenner
in der Ungleichung 6.24 heisst auch die Information bezüglich des Parameters a. Je grösser
demnach die Information über die Stichprobe ist, desto kleiner ist seine Varianz. Im Falle des
Gleichheitszeichens besitzt der Schätzwert die kleinstmögliche Varianz. Man spricht dann von
einer effizienten Schätzung. Für die ML Methode kann in den allermeisten Fällen folgendes
gezeigt werden: Wenn es einen effizienten Schätzwert für ein gegebenes Problem gibt, dann
wird er durch die ML Methode gefunden. Dieser Schäztwert besitzt dann die kleinstmögliche
Varianz gemäss der Rao-Cramer-Frechet Schranke, d.h. die Varianz des Schätzwertes ist
durch den rechten Ausdruck der Gleichung 6.24 gegeben. Man sagt dann auch, dass der
Schätzwert die minimale Varianz hat und spricht von einer Minimalschätzung.
Wie wir bereits im Falle der Varianzschäztung bei der Gaussverteilung gesehen haben,
sind die ML-Schätzungen jedoch nicht immer erwartungstreu bzw. unverzerrt. Dies kann
nicht oft genug betont werden. Erst im Grenzwert n → ∞ wird die ML-Schätzung auch
erwartungstreu, d.h. der bias verschwindet. Man spricht daher bei der ML-Methode von
einer asymptotisch unverzerrten Schätzung. Ferner liefert die ML Methode gewöhnlicherweise
51
konsistente Schätzwerte, d.h. limn→∞ â = a. Die Tatsache, dass nicht alle ML Schätzungen
erwartungstreu sind, hat etwas mit der Invarianz der ML Schätzwerte zu tun, wenn eine
Parametertransformation durchgeführt wird. Dies bedeutet, dass es für die ML Methode
keinen Unterschied macht, ob man den Parameter a oder eine Funktion f (a) schätzt, d.h.
ˆ = f (â).
f (a)
6.3.4
Fehlerberechnung bei der ML Methode
Wir beginnen mit dem Fall eines Parameters und entwickeln die (negative) Log-Likelihood
Funktion um a = â:
1 d2 F
· (a − â)2 + · · ·
2 da2
!
!
2
1 d2 F
(a
−
â)
L(a) = const · exp − ·
(a − â)2 = const · exp −
2 da2
2σ 2
− ln L(a) = F (a) = F (â) +
(6.25)
(6.26)
Die Likelihood-Funktion hat in dieser Grenze in der Nähe des Maximums die Form einer
Gauss-Verteilung. Durch den Vergleich mit den Exponenten findet man:
σ(â) =
d2 F da2 a=â
!−1/2
(6.27)
Die negative Log-Likelihood-Funktion hat die Form einer Parabel und ihre zweite Ableitung
ist eine Konstante. Der Wert von F (a) um das Minimum bei a = â ± n · σ ist
1
F (â ± n · σ) = F (â) + n2
2
(6.28)
Dies bedeutet, dass der Log-Likelihood für ±1σ um ±0.5 vom Maximum abgefallen ist und
für ±2 (3)σ entsprechend um ±2 (9/2). Damit können die Fehler eines Schätzwerts â leicht
aus einem Graphen der Log-Likelihood Funktion bestimmt werden. Die Gesamtwahrscheinlichkeit, die in den Konfidenzintervallen â ± σ oder allgemein â ± nσ enthalten ist, kann
aus der Gauss-Verteilung berechnet werden. Wenn die tatsächliche Log-Likelihood-Funktion
ein parabolisches Verhalten aufweist, kann somit die Standardabweichung leicht aus obiger
Gleichung bestimmt werden. Ist der Grenzfall N → ∞ noch nicht erreicht, ist die LikelihoodFunktion noch nicht gauss-förmig und die Log-Likelihood-Verteilung daher nicht parabolisch.
Man muss dann eine nichtlineare Transformation der Variablen a in eine Variable z = z(a)
suchen, so dass F (z) ein parabolisches Verhalten aufweist. Erst wenn diese Transformation gefunden ist, kann man mit dem obigen Verfahren eine Standardabweichung σz von z
bestimmen.
Wegen der Invarianzeigenchaft der ML Schätzungen ist die beste Schätzung ẑ = z(â).
Ferner gelten folgende Identitäten:
1
= F (â) +
2
1
F (ẑ − σz ) = F (ẑ) + = F (â) +
2
F (ẑ + σz ) = F (ẑ) +
52
1
= F (â) + σr
2
1
= F (â) − σl
2
wobei σl und σr die links- und rechtsseitigen Standardabweichungen für den Parameter a
r
sind. Das Resultat einer Likelihood-Anpassung wird dann in der Form x+σ
−σl angegeben.
Eine oft in der Praxis benutzte Methode die Standardabweichung oder Varianz eines
Parameters abzuschätzen, ist die MC-Methode. Dabei wird eine grosse Anzahl von Experimenten simuliert und der ML-Schätzwert jedesmal berechnet. Aus den so ermittelten
Schätzwerte der MC-Experimente kann dann die Varianz berechnet werden. Dazu benutzt
man am besten den unbiased estimator s2 der Varianz aus Gleichung 6.3. Als ”wahrer” Wert
von a zur Erzeugung der MC-Ereignisse kann der aus den Daten gewonnene ML-Schätzwert
benutzt werden.
Im Falle mehrerer Parameter a1 , a2 , . . . , am ist die Likelihood-Funktion durch
L(a1 , a2 , . . . , an ) =
n
Y
f (xi ; a1 , a2 , . . . , am )
(6.29)
i=1
gegeben. Entwickelt man die negative Log-Likelihood-Funktion um ihr Minimum bei â, so
erhält man, da bei a = â die ersten Ableitungen verschwinden:
F (a1 , . . . , am ) = F (â1 , . . . , âm ) +
= F (â1 , . . . , âm ) +
1 X ∂2F
(ai − âi )(ak − âk ) + · · ·
2 i,k ∂ai ∂ak
(6.30)
1X
Gik (ai − âi )(ak − âk ) + · · ·
2 i,k
(6.31)
Asymptotisch nähert sich die Likelihood-Funktion L(a) = exp(−F (a)) einer Gauss-Wahrscheinlichkeitsdichte
für die Variablen âi an. Die Kovarianzmatrix des Vektors a ist dann gegeben durch
V
Gik
= G−1
∂2F
=
∂ai ∂ak
(6.32)
(6.33)
gewonnen am Minimum â. Im Falle von zwei Parametern zeichnet man Konturlinien als
Linien gleicher Likelihood-Werte F (a) = F (â) + 1/2r2 . Im Falle grosser Datenmengen, d.h.
n → inf ty wird die Funktion eine zweidimensionale Gaussverteilung und die Konturlinien
für ∆F = 0.5 entsprechen Ellipsen deren grossen Halbachsen die 1σ Fehler repräsentieren.
Als Beispiel schauen wir uns erneut die Gaussverteilung an, um die beiden Parameter
Standardabweichung σ und Mittelwert µ mittels der ML-Methode abzuschätzen. Die LogLikelihood-Funktion ist
ln L =
X
i
1
1
1
(xi − µ)2
ln √ + ln 2 −
2σi2
2π 2 σi
!
(6.34)
Um die Varianzen von µ und σ zu berechnen werden die zweiten Ableitungen an den Stellen
µ = x̄ und σ 2 = x¯2 − µ2 gebildet. Dies ergibt dann
∂ 2 ln L
> = −N/σ 2
∂µ2
∂ 2 ln L
<
> = −2N/σ 2
∂σ 2
P
∂ 2 ln L
2 < xi − µ >
<
> = −
=0
∂µ∂σ
σ3
<
53
Da die Matrix diagonal, kann die Inversion leicht durchgeführt werden. Die Kovarianz ist
null und es ergeben sich folgende Ausdrücke:
∂ 2 ln L −1
> = σ 2 /N
∂µ2
∂ 2 ln L −1
V (σ) = − <
> = σ 2 /2N
∂σ 2
V (µ) = − <
6.3.5
Erweiterte Maximum-Likelihood-Methode
In der Standard ML-Methode müssen die Wahrsscheinlichkeitsdichten korrekt auf eins normiert
sein. In der Methode des erweiterten ML (EML) wird diese Bedingung aufgehoben und
benutzt anstelle ein Integral über eine Wahrscheinlichkeitsdichte deren Normierung nicht
festgelegt ist. Dies ist zum Beispiel bei Problemen der Fall, wenn die mittlere Anzahl von
Ereignissen ν bei Zählexperimenten selbst ein Parameter ist, den es zu bestimmen gilt. Die
EML Likelihood-Funktion ist dann gegeben durch
L(ν, a) =
n
n
ν n −ν Y
e−ν Y
f (xi ; a) =
νf (xi ; a)
e
n!
n! i=1
i=1
(6.35)
Dies ist die normale Likelihood-Funktion mit einer korrekt normierten Wahrscheinlichkeitsdichte f (xi ; a) multipliziert mit der Poisson-Wahrscheinlichkeit n Ereignisse bei ν erwarteten
zu erhalten. Wir unterscheiden nun zwei Fälle: Im Fall 1) soll der Parameter ν selber von a
abhängen und im Fall 2) nicht. Zunächst nehmen wir Fall 1) an. Die EML Log-Likelihood
Funtkion kann dann geschrieben werden als
ln L(a) = n ln ν(a) − ν(a) +
n
X
ln f (xi ; a)
(6.36)
i=1
= −ν(a) +
n
X
ln(ν(a)f (xi ; a)
(6.37)
i=1
wobei additive Terme die nicht von den Parametern abhängen weggelassen wurden. Durch
Berc̈ksichtigung des Poisson-Terms in der EML-Funktion werden beim Abschätzen der Parameter â sowohl Informationen aus den xi als auch von n benutzt, so dass die resultierende
Varianz in der Regel kleiner wird. Zur Anschauung betrachten wir eine Teilchenreaktion,
bei der die erwartete Anzahl von Ereignissen durch einen Reaktionsquerschnitt σ, eine Luminosität L und eine Nachweiswahrscheinlichkeit gegeben ist: ν = σ · L · . Sowohl der
Reaktionsquerschnitt σ als auch die zur Beschreibung benutze Ereignisvariable x mögen nun
von einer ganzen Reihe von Parametern wie Teilchenmassen oder Kopplungen abhängen.
Die Standardabweichung der mit der EML-Methode geschätzen Parameter entspricht nun
den Fluktuationen der Schätzwerte, die man erhielte, wenn man zahlreiche Experimente
durchführen würde, bei denen die Luminosität und nicht die Anzahl der beobachtbaren
Ereignisse festhalten wird.
Im anderen Fall existiert kein funktionaler Zusammenhang zwischen ν und a. Die Ableitung
der Gleichung 6.35 und nullsetzen ergibt dann als Schätzwert schlicht ν̂ = n, wie es zu erwarten ist. Durch Gleichsetzen der Ableitung bezüglich den ai von Gleichung 6.35 erhalten
54
wir als Schätzwerte für âi dasselbe wie in der normalen ML-Methode. Trotzdem wäre die
Varianz der âi jetzt grösser, da sowohl â als auch n Quellen von statistischen Unsicherheiten
sind.
6.3.6
Binned Maximum Likelihood
Zur Bildung der Likelihood-Funktion wird normalerweise auf alle zur Verfügung stehenden
Datenpunkte xi zurückgegriffen. Die ML-Methode hat den Vorteil, dass sie unbinned ist und
daher im Prinzip kein Informationsverlust durch Einteilung der Daten in bins (Klassenintervalle) entsteht. Existieren aber grosse Datenmengen, ist es numerisch vorteilhafter, die Daten
in Klassenintervalle einzuteilen und in Form von Histogrammen zu präsentieren. Wir nehmen
an, dass die Zufallsvariablen xi gemäss einer Wahrscheinlichkeitsdichte f (xi ; a) verteilt seien.
Unsere Aufgabe besteht nun darin, die Wahrscheinlichkeitsdichte f (xi ; a) an die Zahl der
Datenpunkte in jedem Klassenintervall i anpassen. Der Erwartungswert ν = (ν1 , . . . , νN ) für
die Anzahl der Einträge pro Bin i ist gegeben durch:
Z
νi = ntot =
xmax
i
xmin
i
f (x; a)dx
(6.38)
Hierbei sind xmin
und xmax
die Grenzen des Bins i. Wir können das Histogramm als eine
i
i
Art Einzelmessung eines N -dimensionalen Zufallsvektors ansehen für den die kombinierte
Wahrscheinlichkeitsdichte durch eine multinomiale Verteilung gegeben ist:
fkomb (n; ν) =
ntot !
n1 ! · · · nN !
ν1
ntot
n
···
1
νN
ntot
n
(6.39)
N
Dadurch drücken wir die Wahrscheinlichkeit in bin i durch den Erwartungswert νi dividiert durch die gesamte Anzahl ntot der Einträge aus. Der Logarithmus der kombinierten
Wahrscheinlichkeit ergibt nun die Log-Likelihood Funktion (hierbei sind Terme, die nicht
von den interessanten Parametern abhängen weggelassen):
l(a) =
N
X
ni ln νi (a)
(6.40)
i=1
Nun werden die Schätzwerte für â wie gewöhnlich durch Maximierung von l(a) gefunden.
Im Limit kleiner bins oder sehr grosser N wird die Likelihood-Funktion dieselbe wie im
gewöhnlichen (unbinned) ML Fall ohne Klassenintervalleinteilung. Dadurch ist die binned
Likelihood-Funktion universell verwendbar, auch wenn die Einträge in einigen bins null sind.
6.3.7
Kombination von Messungen mit der ML Methode
In diesem Kapitel wollen wir uns kurz damit beschäftigen, wie man mittels der ML Methode
Messungen miteinander kombiniert. Angenommen wir haben einen Satz von n gemessenen
Datenpunkten mit Wahrscheinlichkeitsdichte f (x; a). Ferner liegt ein zweiter Datensatz (eines
zweiten Experiments) mit m gemessenen Datenpunkten yi vor, die gemäss einer Wahrscheinlichkeitsdichte g(y; a) verteilt sein sollen. Die Wahrscheinlichkeitsdichte g(y; a) kann zwar
eine andere andere funktionale Form als f habe, sie soll aber dennoch vom selben Parameter
a abhängen. Als Beispiel kann der Parameter a eine Teilchenmasse sein.
55
Die beiden Experimenten können nun zusammen als ein Einzel-Experiment interpretiert
werden und ihre kombinierte Likelihood-Funktion ist dann:
L(a) =
n
Y
f (xi ; a) ·
i=1
m
Y
g(yi ; a) = Lx (a) · Ly (a)
(6.41)
i=1
Die Likelihood-Gesamtfunktion ist also das Produkt der Einzellikelihood-Funktionen. Alternativ ist der kombinierte Log-Likelihood die Summe der einzelnen Log-Likelihoods: ln L(a) =
ln Lx (a) + ln Ly (a). Solange also die Likelihood-Funktionen von Einzelexperimenten bekannt
sind, können wir die Gesamtfunktion auf einfache Weise konstruieren, um dann den ML
Schätwert des Parameters a zu bestimmen.
Wenn die einzelnen Likelihood-Funktionen nicht bekannt sind, sondern nur die Schätzwerte
der Parameter a, namentlich âf und âg , die ihrerseits wieder Zufallsvariablen mit Wahrscheinlichkeitsdichten f (âf ; a) und g(âg ; a) sind, können die beide Schätzwerte wiederum als Ergebnis eines kombinierten Experimentes aufgefasst werden. Solange die beiden Schätzwerte unabhängig sind, ist ist die Log-Likelihood-Funktion gegeben durch:
ln L(a) = ln f (âf ; a) + ln g(âg ; a)
(6.42)
Da für grosse Datenmengen die Wahrscheinlichkeitsdichten f (âf ; a) und g(âg ; a) als Gauss
verteilt angenommen werden können und die Varianz-Abschätzungen V̂ (âf ) und V̂ (âg ) der
Einzelmessungen vorliegen, ergeben sich mittels der ML-Methode wiederum folgende Ausdrücke
für die beste Schätzung â und seine Varianz V̂ (â) aus den beiden kombinierten Messungen:
â =
V̂ (â) =
âf /σ̂â2f + âg /σ̂â2g
1/σ̂â2f + 1/σ̂â2g
1/σ̂â2f
1
+ 1/σ̂â2g
D.h. es ergibt sich wieder die Gleichung für den gemittelten Mittelwert und seine Varianz.
Natürlich kann die obigen Gleichung auch auf beliebig viele Messungen verallgemeinert werden.
56
7
Weitere Schätzmethoden: Kleinste Quadrate - Least
Square
Die Methode der kleinsten Quadrate (LS) ist ähnlich zum Maximum Likelihood Verfahren
des vorangegangenen Kapitels, eine Methode, um unbekannte Parameters aus einen Datensatz
zu bestimmen. Die LS-Methode ist besonders nützlich, wenn zwei Variablen x und y vorliegen
und
• der Datensatz x genau bekannt ist
• die entsprechenden Datenwerte y den Fehler σ haben und
• eine Funktion (Modell, Theorie) f (x; a) vorliegt, die für jeden x-Wert einen y-Wert
vorhersagt. Diese Funktion hängt natürlich von unbekannten Parametern a ab, die es
zu bestimmen gilt.
7.1
Die Least Square Methode
Die LS Methode minimiert die (u.U. besonders gewichteten) Abstandsquadrate zwischen
einem Datensatz yi und einer Vorhersage f (x; a) durch Änderung des Parameters a, um die
beste Abschätzung â für den Parameter a der Funktion f (x; a) zu erhalten. Die Differenz
zwischen den gemessenen Datenpunkten yi und den nach dem Modell erwarteten Werten
f (xi ; a) nennt man auch Residuum ri = yi −f (xi ; a). Besitzt der Datensatz yi Gauss-verteilte
Fehler mit einer Standardabweichung σi , dann gehorcht die Summe
χ2 =
N X
yi − f (xi ; a) 2
σi
i=1
(7.1)
einer χ2 -Verteilung mit N − p Freiheitsgraden. Hierbei ist p die Anzahl der freien Parameter
in der Funktion f (xi ; a). In der LS-Methode wird nun der Wert für a gewählt, der das kleinste
2
χ2 gibt. Falls die Ableitungen von ∂f /∂a bekannt sind, reduziert dich die Minimierung ∂χ
∂a
auf das Finden der Lösung für:
X 1 ∂f (xi ; a)
i
σi2
∂a
(yi − f (xi ; a)) = 0
(7.2)
Falls die Funktion nicht nur einen unbekannten Parameter a enthält, sondern mehrere,
a1 , a2 , . . . , ap , sind p Minimierungs-Gleichungen simultan zu lösen.
7.1.1
Anpassen einer Geraden
Wir beginnen mit einem der einfachsten Fälle und nehmen als Modell f (x) = mx an. Die
Grösse, die es nun zu minimieren gilt lautet:
χ2 =
X (yi − mxi )
σi
i
57
(7.3)
Ferner nehmen wir an, dass alle σi gleich sind. Die Ableitung nach m und Gleichsetzen mit
null, um die beste Schätzung m̄ für m zu bekommen, liefert uns:
X
∂χ2
∂m
= −
∂χ2
∂m
=
2X
(xi yi − mx2i ) = 0
σ i
X
(xi yi − mx2i ) = 0
i
xi yi = m
X
i
x2i
i
X xi
m̂ =
i
N x2
yi =
xy
x2
Die Varianz von m̂ kann durch Fehlerfortpflanzung bestimmt werden zu:
V (m̂) =
X xi 2
i
N x2
σ2 =
σ2
N x2
(7.4)
Wird die Gerade durch Steigung m und Achsenabschnitt b bestimmt, d.h. f (xi ; m, b) =
mxi + b, dann lautet die komplette Lösung der LS-Methode folgendermassen:
xy − x̄ȳ
x2 − x̄2
b̂ = ȳ − m̂x̄
m̂ =
(7.5)
(7.6)
(7.7)
Die Fehler sind gegeben durch:
2
σm
= V (m̂) =
σ2
N (x2 − x̄2 )
σ 2 x2
N (x2 − x̄2 )
σ 2 x̄
cov(m̂, b̂) = −
N (x2 − x̄2 )
σb2 = V (b̂) =
(7.8)
(7.9)
(7.10)
(7.11)
Das χ2 für die beste Anpassung lautet:
χ2 =
V (y)
(1 − ρ2 (x, y))
σ2
(7.12)
Da diese Formeln sehr wichtig sind und häufig vorkommen, geben wir sie hier komplett an.
Die Gleichungen des Gleichungssystem 7.5 können direkt durch Aufstellen der LS-Gleichung
und ihre Lösungen erhalten werden. Der Ausdruck b̂ = ȳ − m̂x̄ bedeutet, dass die durch die
LS-Methode gewonnene beste Gerade durch den Schwerpunkt (x̄, ȳ) der Datenpunkte geht.
Ausserdem soll darauf hingewiesen werden, dass V (y) nicht dasselbe wie σ 2 ist. V (y) = y 2 −ȳ 2
58
bezieht sich auf die Varianz des ganzen Datensamples, während σ die Standardabweichung
einer einzelnen Messung um seinen wahren Wert angibt.
Falls die Fehler σi nicht gleich sind, muss folgender Ausdruck minimiert werden:
X (yi − mxi − b)2
(7.13)
σi2
i
Die Lösung dieser Minimierung kann wiederum durch das obige Gleichungssystem gegeben
werden, wenn alle Mittelwerte wie x̄, ȳ durch ihre gewichteten Mittelwerte ersetzt werden.
P
Ausserdem ist die Normierung nicht mehr duch N sondern nun durch i 1/σi2 gegeben:
P
i yi
N
P
yi /σi2
2
i 1/σi
→ Pi
(7.14)
Ferner muss die Grösse σ 2 in den Ausdrücken für die Varianzen durch
N
2
i 1/σi
σ2 → P
(7.15)
ersetzt werden.
Nachdem nun die Steigung m und der Achsenabschnitt b mit Hilfe der kleinsten Quadrate
bestimmt sind, wollen wir wissen wie gross die Fehler an jedem beliebigen interpolierten (oder
extrapolierten) Punkt y für ein gegebenes x sind. Für ein gegebenes x ist der vorhergesagte
Wert y gerade: y = m̂x + b̂ und der Fehler für den interpolierten Wert y ergibt sich durch:
V (y) = V (m̂x + b̂) = V (m̂x) + V (b̂) + 2 · cov(m̂x, b̂)
(7.16)
2
V (y) = = x V (m̂) + V (b̂) + 2x · cov(m̂, b̂)
σ 2 (x − x̄)2
V (y) =
+ σ 2 /N
N (x2 − x̄2 )
7.1.2
(7.17)
(7.18)
Berücksichtigung von systematischen Fehlern
Als Beispiel betrachten wir eine Geradenanpassung bei der alle Messwerte yi einen gemeinsamen statistischen Fehler σ und einen gemeinsamen systematischen Fehler S haben. Aus unseren vorigen Betrachtungen im Kapitel systematische Fehler wissen wir, dass dann die Kovarianzmatrix cov(yi , yj ) geschrieben werden kann als cov(yi , yj ) = δij σ 2 + S 2 . Die Schätzwerte
für die Steigung, m̂ und den Achsenabschnitt, b̂, sind wiederum gegeben durch Gleichungen 7.5 und 7.6. Die komplette Formel für die Varianzen lauten nun:
V (m̂) =
X
1
(xi − x̄)(xj − x̄) · cov(yi , yj )
2
2
− x̄ ) i,j
(7.19)
N 2 (x2


V (m̂) =
X
X
1
 (xi − x̄)2 σ 2 +
(xi − x̄)(xj − x̄)S 2 
N 2 (x2 − x̄2 )2
i
i,j
V (m̂) =
1
2
2
N (x − x̄2 )2
(7.20)
!
X
2 2
(xi − x̄) σ
i
59
(7.21)
Der zweite Summand verschwindet, da
V (b̂) =
P
xi = x̄ ist. Die Varianz für b̂ lautet:
X
1
(x2 − x̄xi )(x2 − x̄xj ) · cov(yi , yj )
N 2 (x2 − x̄2 )2 i,j
(7.22)
In diesem Ausdruck verschwindet die Summe i (x2 − x̄xi ) = N (x2 − x̄2 ) nicht, so dass
ein zusätzlicher Term auftritt, der aber gerade S 2 ist. Zusammenfassend beeinflusst ein
gemeinsamer systematischer Fehler nur die Varianz des bestimmten Achsenabschnitts, jedoch
nicht die Varianz der Steigung.
P
7.1.3
Geradenanpassung bei Fehlern in beiden Variablen
Beide Variablen xi und yi mögen nun Fehler σxi und σyi haben. Dann minimiert man die
Summe der Quadrate des Abstandes der Fehlerellipsen von der Geraden, also:
S(m, b) =
X (yi − mxi − b)2
i
σy2i + m2 σx2i
(7.23)
Nun müssen die beiden Gleichungen ∂S/∂m und ∂S/∂b unter Umständen numerisch gelöst
werden. Die Forderung ∂S/∂b führt auf
P
b̂ =
yi /κi − m̂ xi /κi
P
1/κi
P
(7.24)
wobei κi = σy2i + m2 σx2i . Prinzipiell könnten wir nun das Minimum der obigen Summe durch
Variation von m̂ suchen.
Sind die Fehler für alle σxi und σyi gleich, d.h. durch σx und σy gegeben, kann das
Problem der Geradenanpassung auf folgende Lösung geführt werden:
m̂ =
A =
p
σx
(A ± A2 + 1)
σy
σx2 V (y) − σy2 V (x)
2σx σy · cov(x, y)
ȳ = m̂x̄ + b̂
(7.25)
(7.26)
(7.27)
Die Gerade geht also wieder durch den Schwerpunkt x̄, ȳ. Wie bereits erwähnt ist jedoch
im Falle von unterschiedlichen Einzelfehlern σxi und/oder σyi eine analytische Lösung nicht
existent und es muss numerisch vorgegangen werden.
7.2
Das Anpassen von gebinnten Daten und die χ2 -Verteilung
Die Methode der kleinsten Quadrate ist wahrscheinlich die am meisten benutzte Art, die
Parameter einer Funktion an gemessene Daten anzupassen. Zwar ist der ML-Fit, den wir
im vorigen Kapitel besprochen haben, sehr mächtig und vielseitig verwendbar, aber seine
Komplexität steigt rapide im Falle grosser Datenmengen. Die LE-Methode hingegen bleibt
auch noch bei grossen Datenmengen überschaubar.
Nehmen wir an, wir haben N Ereignisse und eine Wahrscheinlichkeitsdichte f (x; a). Die
Ereignisse seien in bins sortiert, die von 1 bis Nb nummeriert sind. Das Intervall i ist um
60
Punkt xi zentriert und soll eine Intervallbreite wi mit ni Ereignissen haben. Dann ergibt
sich die erwartete Anzahl an Ereignissen in bin i durch fi = N wi P (xi ; a). Die tatsächlich
in einem Bin vorliegende Ereignisanzahl wird durch die Poisson-Statistik beschrieben, d.h.
das Quadrat der Standardabweichung entspricht gerade dem Poisson-Mittelwert. Das χ2 ,
summiert über all bins ergibt dann:
χ2 =
X (ni − fi )2
fi
i
(7.28)
Im allgemeinen Fall steht also in der χ2 -Summe die quadrierte Differenz zwischen beobachteten
Werten und ihren theoretische Voraussagen, gewichtet mit den erwarteten Fehler. Stimmt
die Funktion, die an die Daten angepasst werden soll, gut mit den Daten überein, wird das
χ2 klein. Falls das χ2 nach der Minimierung immer noch (zu) gross ist, ist die Funktion vermutlich schlecht gewählt oder kann nicht an die Daten angepasst werden. Andererseits sollte
ein zu kleines χ2 ebenfalls unwahrscheinlich sein und deutet sehr oft auf eine überschätzte
Fehler hin.
Wie wir gelernt haben lautet die χ2 -Verteilung
f (χ2 ; n) =
2−n/2 n−2 −χ2 /2
χ
e
Γ(n/2)
(7.29)
Die Verteilung hängt von n ab, der Anzahl der Freiheitsgrade, die durch Anzahl der Datenpunkte abzüglich der Anzahl der Parameter, die in der Minimierung angepasst werden, bestimmt ist. Da die χ2 -Verteilung den Erwartungswert n und die Varianz 2n hat, erwartet man
ein χ2 pro Freiheitsgrad von ungefähr eins.
Die χ2 -Verteilung kann somit genutzt werden, um die Güte
einer Anpassung in einem
p
statistischen Test zu quantifizieren. Oft wird statt χ2 selber 2χ2 , da dieser im Rahmen des
zentralen Grenzwertsatzes
schneller gegen eine
p
√ Gauss-Verteilung für grosse n konvergiert. Der
Ausdruck 2χ2 hat den Erwartungswert 2n − 1 und im Falle n ≥ 30 eine Varianz von 1.
Beispiel für eine Güte einer Anpassung: Wir erhalten für 45 Datenpunkte, die an eine GaussVerteilung angepasst werden ein χ2 von 73. Da es drei freie Parameter im Fit gibt, nämlich
Mittelwert,
Standardabweichung
p und Normierung, bleiben uns 42 Freiheitsgrade. Der Term
√
2n − 1 ergibt 9.1, während 2χ2 = 12.1 um drei Einheiten, also um 3σ grösser ist. Somit
scheinen die Daten nicht sehr gut durch eine Gaussverteilung beschrieben zu werden, was
aber durch Inspektion des Daten/Theorie-Graphen überprüft werden sollte.
Der Güte-Test kann auch umgekehrt werden. Angenommen wir haben einen Datensatz, in
dem alle Messpunkte dieselbe Genauigkeit besitzen und die es (grob) abzuschätzen gilt. Die
LS-Methode kann trotzdem angewandt werden, da σ als gemeinsamer Faktor vor der Summe
in den Abstandsquadraten auftaucht. Die gesamte quadrierte Abweichung pro Freiheitsgrad
ergibt dann gerade ein Mass für σ 2 , als Abschätzung des Messfehlers, was manchmal nützlich
sein kann. Natürlich ist es dann nicht mehr möglich, die Güte der Anpassung durch χ2 zu
quantifizieren.
Schliesslich noch ein wichtiger Hinweise zum χ2 -Wert als Mass für die Güte einer Anpassung: Der alleinige Wert von χ2 sollte niemals als einziger Massstab für einen statistischen
Test sein, d.h. es ist falsch dem χ2 -test blindlings zu vertrauen. Statt dessen sollten stets die
Daten mit der theoretischen Vorhersage in jedem bin grafisch miteinander verglichen werden,
um einzelne Abweichungen. Es ist gezeigt worden, dass der χ2 -Test empfindlicher wird, je
61
kleiner die Anzahl der Freiheitsgrade wird, d.h. je grösser die bins werden. Dies kann aber
zu einer Verwischung von Substrukturen in den Daten oder der Theorie-Verteilung führen.
7.2.1
Lineare kleinste Quadrate und Matrix-Darstellung
Wenn es mehrere Unbekannte gibt, macht eine Matrix-Notation Sinn. Es sei a ein Vektor
mit n Parametern a1 , . . . , an . Ebenso werden die yi als y und die Funktionen f (xi ; a) als f
und somit als Vektoren geschrieben. Der Ausdruck den es nun zu minimieren gilt lautet:
χ2 =
XX
i
[yi − f (xi ; a)]Vij−1 [yi − f (xi ; a)]
(7.30)
j
χ2 = (yt − f t )V−1 (y − f ) = rt V−1 r
(7.31)
Hierbei sind r = y − f die Residuen und Vij die Kovarianzmatrix. Ein spezieller Fall ist,
wenn sie diagonal ist mit Vij = σi2 δij und Vij−1 = (1/σi2 )δij . Durch die Ableitung von χ2 nach
den einzelnen ai und gleichsetzen mit Null bekommt man n Gleichungen, die sogenannten
Normalengleichungen, die gelöst werden müssen, um den Schätzwert â zu finden. Falls die
Funktion f (x; a) linear in den ai ist, können die Gleichungen exakt gelöst werden. Mit linear
in ai meinen wir linear in ai und nicht in xi . Das heisst wir können f (x; a) in einer Reihe
P
schreiben als: f (x; a) = r cr (x)ar . Dies kann natürlich auch als Matrix aufgefasst werden,
d.h. f = Ca. Somit ergibt sich:
χ2 = (yt − at Ct )V−1 (y − Ca)
(7.32)
Die Normalengleichung lautet nun:
Ct V−1 Câ = Ct V−1 y
(7.33)
An dieser Stelle folgen einige Worte zu den Matrizen: Wenn es N Datenpunkte gibt und n
Koeffizienten zu suchen sind (n ≤ N ), dann sind y und a Spaltenvektoren mit Dimensionen
N und n. Die Kovarianmatrix V ist N × N . Die Matrix C jedoch, ist N × n.
Die Lösung für den Schätzwert a ist nun:
â = (Ct V−1 C)−1 Ct V−1 y
(7.34)
Schliesslich noch der Ausdruck für die Varianz des Schätzwertes V(â):
−1
V(â) = [Ct V(y)
C]−1
(7.35)
Wir wollen die Matrixdarstellung anhand von zwei Beispielen näher betrachten. Im ersten
Beispiel passen wir eine Gerade der Form f (x) = mx + b an N Datenpunkte an, wobei wir
annehmen, dass alle Fehler unabhängig und gleich sind, so dass V = σ 2 I ist. Dann ergibt die
Matrixschreibweise:



C = 


1
1
..
.
x1
x2
..
.
1 xN






â = σ 2 (Ct C)−1
62
1 t
Cy
σ2
Hierbei haben wir Ct V−1 C =
gelangen wir schliesslich zu
b̂
m̂
â =
1
Ct C
σ2
!
=
ausgenutzt. Nach einigen weiteren Umformungen
!−1
P
xi
i
P 2
P
1
Pi
i xi
P
y
P i i
i xi
!
(7.36)
i xi yi
Die Inversion der 2 × 2-Matrix ist gegeben durch
x2 −x̄
−x̄ 1
1
2
N (x − x̄2 )
!
(7.37)
so dass wir schliesslich folgende Gleichung erhalten:
â =
b̂
m̂
!
x2 −x̄
−x̄ 1
1
=
2
N (x − x̄2 )
!
P
y
P i i
!
(7.38)
i xi yi
Dieses Ergebnis ist führt dann auf dieselben Ausdrücke für m̂ und b̂, wie sie bereits in
Gleichung 7.5 gegeben waren. Die Varianz des Schätzvektors â lautet:
V(â) =
V (b)
cov(b, m)
cov(b, m)
V (m)
!
σ2
=
N (x2 − x̄2 )
x2 −x̄
−x̄ 1
!
(7.39)
Liegen nun an allen N Datenpunkten unterschiedliche - aber immer noch unkorrelierte- Fehler
P
σi vor, so müssen in Gleichung 7.36 allen Summen i die Gewichte wi = 1/σi2 eingeführt
werden.
Ein weiteres Beispiel, welches wir in der Matrixnotation kurz behandeln wollen, ist die
Anpassung einer Parabel f (x) = a0 + a1 x + a2 x2 an N Datenpunkte. Wieder wollen wir
die Fehler als unabhängig und an allen Datenpunkten gleich ansehen. Die Matric C ist nun
gegeben durch:


1 x1 x21


 1 x2 x22 

C= .
(7.40)
..
.. 

.
.
. 
 .
1 xN
x2N
Wir gehen nun sofort zum Ausdruck für den Schätzvektor a über:


 P
aˆ0
i1

  P
â =  aˆ1  =  i xi
P 2
aˆ2
i xi
P
x
Pi 2i
xi
P 3
xi

P 2 −1  P
xi
yi
i
i
P 3   P

x   i xi yi 
Pi i4
P 2
i xi
(7.41)
xi yi
Die Erweiterung dieses Verfahren auf kubische Polynome oder auf Polynome beliebiger
Ordnung sollte nun eigentlich klar sein. Was bleibt ist allerdings das Problem der Matrixinversion, das entweder analytisch oder numerisch zu lösen ist. Wenn für den Datensatz
orthogonale Polynome zur Anpassung benutzt werden, ist die Matrix CCt automatisch diagonal, so dass die Matrixinversion einfacher zu berechnen ist.
63
7.2.2
Nichtlineare kleinste Quadrate
Oft ist die Funktion f (x; a) nicht linear in den Parametern ai , wie z.B. bei f (x; a) = a1 ·e−a2 x .
In solchen Fällen müssen iterative Verfahren eingesetzt werden, um die Gleichungen der
kleinsten Quadrate zu lösen. Dabei ist es wichtig mit einem guten Startwert für die Parameter
a anzufangen, der geschätzt werden muss. Die Funktion f (x; a mit p Parameterwerten ai
wird nun um den Startwert a0 in einer Taylor-Reihe entwickelt:
f (x; a) ≈ f (x; a0 ) +
p
X
∂f
j
∂aj
(aj − a0,j )
(7.42)
Mit dieser Linearisierung werden nun mit den kleinsten Quadraten Korrekturen für δa =
a − a0 für die Näherungswerte a0 berechnet. Die Residuen ri = yi − f (xi ; a) sind in der
Matrixschreibweise gegeben durch:
r = y − Aδa − f
(7.43)
wobei A die Jacobi-Matrix ist:



A=


∂f (x1 )/∂a1
∂f (x2 )/∂a1
..
.
∂f (x1 )/∂a2
∂f (x2 )/∂a2
..
.
∂f (xn )/∂a1 ∂f (xn )/∂a2
· · · ∂f (x1 )/∂ap
· · · ∂f (x2 )/∂ap
..
..
.
.
· · · ∂f (xn )/∂ap






(7.44)
Die Gleichungen der kleinsten Quadrate lauten dann
χ2 = rt V−1 r = (y − Aδa − f )t V−1 (y − Aδa − f ) = M inimum
(7.45)
und ihre Normalengleichung kann geschrieben werden als:
(At V−1 A)δa = (At V−1 )(y − f )
(7.46)
Wir erhalten dann als lösung für die δa:
δa = (At V−1 A)−1 At V−1 (y − f )
(7.47)
Die so erhaltenen Korrekturen δa werden zur Startlösung a0 addiert und ergeben eine neue
verbesserte Lösung a1 . Insgesamt wird also in einer Iteration die richtigen Werte gesucht,
bis die erhaltenen Korrekturen klein genug werden und Konvergenz eintritt. Zur Lösung der
nichtlinearen kleinsten Quadrate geben wir folgenden Hinweis: Am besten ist es, wenn ein
erprobtes und zuverlässiges Software-Paket für die Iterationen benutzt wird. Es macht keinen
Sinn, solch ein Programm selber zu schreiben; es sei denn man hat viel Zeit.
7.3
Resampling-Techniken
Unter Resampling-Methoden versteht man statistischen Schätzverfahren, die auf wiederholtes
Ziehen von Stichproben aus einer bereits gezogenen Stichproben xi basieren. Die ResamplingTechniken werden eingesetzt, um Bias, Standardabweichung, Konfidenzintervalle oder auch
die komplette Verteilung eines Schätzparameters auf experimentellen Wege zu gewinnen. Dies
ist u.a. erforderlich, weil die Verteilung der Grundgesamtheit, von der gewisse Parameter
zu schätzen sind, unbekannt ist, oder weil die analytische Herleitung der Verteilung der
Schätzparameter zu komplex ist.
64
7.3.1
Jackknife
Das Jackknife12 wurde in den fünfziger Jahren entwickelt und wird auch manchmal als method
of leaving one out bezeichnet.
Für eine Verteilung aus der eine Stichprobe x gezogen wurde, sei ein Parameter a zu
schätzen. Es sei â = Ψ(x) der Schätzwert des Parameters aus dieser Stichprobe. Ferner
sollen Erwartungswert < â > und Varianz var(â) durch Reihenentwicklung darstellbar sein:
g1 (a) g2 (a)
+ ···
+
n
n2
σ12 (a) σ22 (a)
+
n
n2
< â > = a +
(7.48)
var(â) =
(7.49)
Bei grossen Stichproben soll gelten:
â− < â >
p
≈ N (0, 1)
var(â)
(7.50)
wobei N (0, 1) die standardisierte Normalverteilung ist. In der Jackknife-Methode wird
nun folgende Grösse definiert:
Ij := (n − 1)(â − â−j ),
(7.51)
wobei â−j der Schätzparameter ist, der sich unter Auslassung der j-ten Stichprobenvariablen
xj ergibt. Es ist dann möglich den führenden Bias- und Varianzterm als
g1ˆ(a)
n
= −I¯ :=
n
1X
Ij
n j=1
σ12ˆ(a)
n
= S̄ 2 :=
n
X
1
¯2
(Ij − I)
n(n − 1) j=1
abzuschätzen. Der Bias-korrigierte Schätzwert für a ist dann âcorr = â+ I¯ und der Schätzwert
der Varianz von sowohl â als auch âcorr ist S̄ 2 .
7.3.2
Bootstrap
Das bootstrapping13 stellt eine Verallgemeinerung des jackknifes dar, als dass man nicht
nur n Stichproben aus den n Beobachtungsvariablen durch Auslassen jeweils einer Beobachtung gewinnt, sondern wesentlich mehr, so dass die Verteilungsfunktion eines Schätzwertes
simuliert werden kann. Aus dieser lassen sich dann Erwartungswert, Varianz und Konfidenzintervalle berechnen.
Anegnommen, die Daten xi einer Stichprobe liegen vor, deren Verteilungsfunktion F (x)
aber unbekannt ist. Wieder sind wir an einer Schätzung von a interessiert und bezeichnen
12
Jackknife heisst soviel wie Sack- oder Klappmesser. Der Name rührt daher, weil man glaubte die Methode
für viele Zwecke einsetzen zu können.
13
Wörtlich übersetzt ist dies die Stiefelschlaufen-Methode. Man sollte aber eher von Münchhausen-Methode
sprechen, da sich Münchhausen an den eignen Haaren aus dem Sumpf herausgezogen hat. Im Englischen zieht
man sich aber den Stiefelschlaufen aus dem Sumpf heraus.
65
die Verteilungsfunktion des Schätzers als G(a|F ). Beim so genannten nicht-parametrischen
Bootstrap wird die den Daten zugrundeliegende (unbekannte) Verteilungsfunktion F (x) durch
die empirische Verteilungsfunktion (Treppenfunktion) F̂ (x) zunächst abgeschätzt:
F̂ (x) = Fn (x) =



0 für
x < x<1>
i/n für x<i> ≤ x < x<i+1>


1 für
x ≥ x<n>
(7.52)
Wir wollen nun mit der bootstrap-Metode eine Schätzung der Verteilungsfunktion G(a|F )
eines interessierenden Parameters a erhalten und gehen dabei wie folgt vor:
1. Ziehe eine bootstrap Stichprobe aus F̂ (x) vom Umfang m, die mit x∗i bezeichnet sei. In
der Regel ist m = n und beim nicht-parametrischen bootstrap ist das eine Stichprobe
mit Zurücklegen aus den n Werten der Ausgangsstichprobe xi , so dass nn bootstrap
Stichproben möglich sind. Im parametrischen bootstrap sind das m = n simulierte Zufallszahlen aus F (x|â). Bei einer stetigen Verteilung sind dann mit Wahrscheinlichkeit
Eins die n Werte x∗i voneinander verschieden, während dies bei der nicht-parametrischen
Variante mit nur n Kandidaten für die Ziehung der x∗i nicht der Fall ist.
2. Berechne â aus der boostrap Stichprobe
3. Wiederhole Schritt 1 und 2 N -Male und erzeuge so N Bootstrap-Stichproben mit N
Werten: â1 , . . . , âN .
4. Bestimme als Schätzwert für G(a|F ) die empirische Verteilungsfunktion der âi :
Ĝ(a|F ) =
Anzahl (i ≤ N |ai ≤ a)
N
(7.53)
Der wesentliche Grund für den rechenintensiven Einsatz von bootstrapping liegt darin, dass
unter gewissen Regularitätsbedingungen für F (x) die Approximation der Verteilung von â
besser ist, als über eine asymptotische Verteilung, sofern man sie überhaupt findet.
7.4
7.4.1
Nichtparametrische Dichteschätzung
Allgemeine Kernschätzung
Die Kernschätzung kernel density estimation ist ein Schätzverfahren um unbekannte Verteilungen auf nichtparametrischem Wege zu schätzen. Das Vorgehen ist dabei wie folgt: Die relative Häufigkeit 1/n für den Datenpunkt xi mit i = 1, . . . , n wird als Wahrscheinlichkeitsdichte
aufgefasst. Man verschmiert nun in einer Umgebung um einen Datenpunkt xi die Dichtefunktion nach einem bestimmten Muster. Die Breite der Verschmierung um den Punkt xi wird
als Bandbreite b bezeichnet. Das Muster der Verschmierung ergibt sich durch die gewählte
Kernfunktion, die man auch Kern oder kernel nennt.
Eine Kerndichteschätzfunktion hat die allgemeine Form:
n
1 X
fˆnK (x) =
K
nb i=1
x − xi
b
Die Anforderungen an eine Kernfunktion K(u) mit u = (x − xi )/b sind:
66
(7.54)
• K(u) ≥ 0
• K(u) ist symmmetrisch um u = 0 bzw. x = xi
•
R +∞
K(u)du = 1
•
R +∞
uK(u)du = 0
•
R +∞
u2 K(u)du := κ < ∞
−∞
−∞
−∞
Einige wichtige Kernfunktionen mit endlichem Träger sind:
• der Rechteck-Kern
(
KR (u) =
• der Dreieck-Kern
(
KD (u) =
0.5 wenn −1 ≤ u ≤ 1
0
sonst
(7.55)
1 − |u| wenn −1 ≤ u ≤ 1
0
sonst
(7.56)
• der Bisquare-Kern
(
15
16 (1
KB (u) =
0
− u2 )2 wenn −1 ≤ u ≤ 1
sonst
(7.57)
− u2 ) wenn −1 ≤ u ≤ 1
sonst
(7.58)
• der Epanechnikow-Kern
(
KE (u) =
3
4 (1
0
Ferner gibt es Kernfunktionen mit unendlichem Träger. Dazu gehören:
• der Gauss-Kern
KG (u) =
1
exp(−u2 /2)
2π
(7.59)
1
u(1 + u2 )
(7.60)
1
exp(−|u|)
2
(7.61)
• der Cauchy-Kern
KC (u) =
• der Laplace-Kern
KL (u) =
Eine Kernschätzung einer Wahrscheinlichkeitsdichte ist bestimmt durch den Kern K, der
die Form der Gewichtsfunktion definiert und die Bandbreite b, die die Breite der Gewichtsfunktion festlegt. Die Bandbreite b bei einem unendlichen Träger wird über ein Streumass
gewählt, wie z.B. über σ beim Gauss-Kern oder der Skalenparameter b beim Cauchy- und
Laplace-Kern.
In der Praxis spielt die Wahl der Bandbreite eine viel grössere Rolle als die Wahl des
Kerns. Bei zu kleiner Bandbreite wird die geschätzte Dichte im Verlauf sehr unruhig und
67
weist viele lokale Maxima und Minima auf. Dies nennt man auch undersmoothing. Bei grosser
Bandbreite wird die Dichte zu glatt, man spricht auch vom oversmoothing und Feinstrukturen,
die in einer Wahrscheinlichkeitsdichte existieren, werden weggeglättet. Mit wachsendem b
steigt auch der Bias und sinkt die Varianz des Schätzers.
Als optimaler Kern gilt im Prinzip der Epanechnikow-Kern, da er eine hohe Effizienz hat.
Die Wahl der optimalen Bandbreite hingegen, ist weitaus schwieriger und ist Gegenstand
zahlreicher Diskussionen in der Forschungsliteratur, in denen zahlreiche Verfahren vorgeschlagen werden, um die optimale Bandbreite zu bestimmen.
Zur Verdeutlichung der Kerndichtenschätzung wollen wir 100 Zufallszahelen betrachten,
die aus einer Mischung von zwei Normalverteilungen gezogen wurden. Gegeben sei die
Wahrscheinlichkeitsdichte f (x) = 1/2 N (−1, 47 ) + 1/2 N (1, 47 ), wobei N (µ, σ) die Gauss- oder
Normalverteilung ist. Nach dem wir 100 Zufallszahlen erzeugt haben, bestimmen wir die
Kerndichte, d.h. eine Abschätzung der Wahrscheinlichkeitsdichte des samples. Wir wählen
einen Gausskern mit Bandbreite b = 0.1, b ≈ 0.5 und b = 0.7. Das Datensample und
die zugrundeliegende Wahrscheinlichkeitsdichte ist im linken oberen Graphen der Figure 7.1
gezeichnet. Die nachfolgenden Graphen der Figure 7.1 zeigen die Kerndichteschätzung mit
verschiedenen Bandbreiten an. Deutlich ist bei zu kleiner Bandbreite ein undersmoothing
und bei zu grosser Bandbreite ein oversmoothing zu erkennen.
7.4.2
Abschätzung der Genauigkeit der Kernschätzung
Üblicherweise wird zur Abschätzung der Genauigkeit der Kernschätzung der mittlere quadrierte Fehler (MSE, mean squared error) benutzt. Der MSE zerfällt in die beide Komponenten
Varianz und Bias. Sei f (x) die zu schätzende Dichtefunktion und fˆ die Kernschätzung, dann
ist MSE gegeben durch:
M SE(fˆ(x)) = < (fˆ(x) − f (x))2 >
M SE(fˆ(x)) = (< fˆ(x) > −f (x))2 + < (fˆ− < fˆ >)2 >
M SE(fˆ(x)) = Bias2 (fˆ(x)) + V ar(fˆ(x))
(7.62)
(7.63)
(7.64)
Ferner wird als globale Massangabe der Genauigkeit der so genannte mittlere integrierte
quadrierte Fehler (MISE, mean integrated standard error) benutzt:
M ISE(fˆ) =
Z
M ISE(fˆ) =
Z
M SE(fˆ(x))dx =<
Bias2 (fˆ(x))dx +
Z
Z
(fˆ(x) − f (x))2 dx >
V ar(fˆ(x))dx
(7.65)
(7.66)
Der Bias-Term in einer Kernschätzung kann durch folgenden Ausdruck angenähert werden:
Bias(fˆ(x)) ≈
κ =
b2 00
κf (x)
Z2
z 2 K(z)
(7.67)
(7.68)
Der Bias verschwindet also, wenn b → 0. Er hängt ferner von der Varianz κ des Kerns ab
und von der zweiten Ableitung der Wahrscheinlichkeitsdichte f 00 (x) am Punkt x. Je grösser
die zweite Ableitung, umso grösser ist der Bias. Da die Kernschätzung fˆ die Daten lokal bei
68
Figure 7.1: Kerndichteschätzung eines Datensamples von 100 Ereignissen, das aus einer
Summe von zwei Normalverteilungen generiert wurde.
xi zu glätten versucht, wird der Bias umso grösser, je mehr ”Kurven” die Funktion f hat.
Der Varianzterm V ar(fˆ(x)) wird angenähert durch
1
V ar(fˆ(x)) =
f (x)
nb
Z
K 2 (z)dz
(7.69)
und wird also kleiner, wenn die Bandbreite b reduziert wird. Schliesslich können MSE und
MISE ausgedrückt werden durch:
M SE(fˆ(x) = Bias2 (fˆ(x)) + V ar(fˆ(x))
Z
1 4 2 00 2
1
≈
b κ f (x) + f (x) K 2 (z)dz
4
nb
sowie
(7.70)
(7.71)
1
1
M ISE(fˆ) ≈ b4 κ2 f 00 (x)2 dx +
K 2 (z)dz
(7.72)
4
nb
Für sehr kleine Werte von b wird der zweite Ausdruck die obige MISE-Näherung dominieren.
Falls b gross wird, wächst der erste Term, d.h. der Bias-Term, rapide an.
Z
Z
69
7.4.3
Optimale Wahl der Bandbreite
Um die optimale Bandbreite zu erhalten kann der MISE-Schätzwert minimiert werden:
Z
Z
dM ISE(fˆ)
1
3 2
00
2
=b κ
f (x) dx − 2 K 2 (z)dz
db
nb
(7.73)
Gleichsetzen mit Null ergibt die optimale Bandbreite bopt :
K 2 (z)dz
1
R
2
n κ f 00 (x)2 dx
R
bopt =
!1/5
(7.74)
Ferner kann bopt nun in den Ausdruck für den minimalen MISE gesetzt werden:
5
M ISEopt (fˆ) =
4
R
f 00 (x)2 dx · ( K 2 (z)dz)4
κ2 n 4
R
!1/5
(7.75)
Es ist bei der optimalen Bandbreite festzustellen, dass bopt von der Sample-Grösse
n und dem
R
Kernel abhängt. Allerdings gibt ed auch eine Abhängigkeit von f durch f 00 (x)dx, was ja
eigentlich unbekannt ist. Wie soll aber nun in der Praxis die optimale Bandbreite ausgewählt
werden? Mehrere Verfahren sollen nun vorgestellt werden.
Rule of Thumb:
Bei dieser Regel wird die unbekannte Verteilung f (x) durch eine Normalverteilung ersetzt
und σ 2 durch den entsprechenden Ausdruck für die empirische Varianz ersetzt. Diese einfache
Regel gibt eine optimale Wahl, wenn f (x) Gaussverteilt ist. Die Regel ist annähernd ideal,
wenn f (x) zu einer Gaussvertelung sehr ähnlich ist. Die Regel ergibt für die Wahl des Kernels
folgende Richtlinien:
• Gauss-Kernel: b = 1.06 · σ̂ · n−1/5
• Epanechnikov-Kernel: b = 2.34 · σ̂ · n−1/5
• Biquadratischer Kernel: b = 2.78 · σ̂ · n−1/5
Solange man keine allzu detaillierten Studien macht und keine allzu schiefen Verteilungen hat,
ist die Rule of thumb eine gute Wahl, die noch durch subjektives Anpassen der Bandbreite
nach der visuellen Inspektion des Kernels verbessert werden kann.
Plug-In estimation:
R
Bei dieser Methode wird mit einer Anfangsbandbreite
gearbeitet, aus der dann f 00 (x)dx
R 00
abgeschätzt wird. Das abgeschätzte f (x)dx wird benutzt, um eine neue Bandbreite
gemaess Gleichung 7.74 zu erhalten. Das Plug-in Verfahren kann durchaus iterative benutzt
werden, um eine Bandbreite zu erhalten, die gegen bopt konvergiert.
Cross-validation:
In der Technik der Cross-Validation wird versucht ein Minimum eines Schätzers für MISE zu
erhalten:
M ISE(fˆ) =
Z
Z
=
(fˆ(x) − f (x))2 dx
fˆ(x)2 dx − 2
70
Z
fˆ(x)f (x)dx +
(7.76)
Z
f (x)2
(7.77)
Da der dritte Term unabhängig von b ist und der erste Term bekannt ist, muss nur der
mittlere Term abgeschätzt werden. Eine Schätzung für diesen Ausdruck erhält man durch:
ˆ cv =
M ISE
Z
fˆ(x)2 dx − 2
n
X
fˆi (xi )
(7.78)
i
Hierbei ist fˆi (xi ) die abgeschätzte Dichte am Argument xi der Daten. Es werden nun verschiedene Bandbreiten b eingesetzt und schliesslich diejenige gewählt, die M ISEcv minimiert.
Schliesslich sei noch hinzugefügt, dass es eine Vielzahl anderer Metoden gibt, die Bandbreite zu wählen, die z.B. auf bootstrapping oder jackknife basieren.
7.4.4
Adaptierte Kernschätzung
In der adaptive kernel estimation ist die Bandbreite b keine reine Konstante mehr, sondern
kann an Regionen mit hoher Datendichte verringert werden bzw. in Gegenden geringer Datendichten vergrössert werden, um eine optimale Abschätzung der Wahrscheinlichkeitsdichte
zu erreichen:
n
1X
1
x − xi
K
ˆ
f1 n (x) =
(7.79)
K
n i=1 bi
bi
Die angepassten Bandbreiten bi werden normalerweise durch eine erste Kernschätzung fˆ0 (x)
mit fester Bandbreite ermittelt:
1/5 s
bi ≈
4
3
σ
n−1/5
ˆ
f0 (x)
(7.80)
Man kann sozusagen die adaptierte Kernschätzung als zweite Iteration auffassen, bei der man
zunächst mit einer allgemeinen Kernschätzung started und dann die Bandbreiten bi durch
die so erhaltenen erste Dichtefunktion fˆ0 (x) neu berechnet, um in der zweiten Abschätzung
eine adaptierte Kernschätzung fˆ1 (x) zu erhalten.
71
8
8.1
Konfidenzintervalle
Klassisches Konfidenzintervall
Ein Konfidenz- (KI) oder Vertrauensintervall confidence interval ist ein in Lage und/oder
Breite zufälliges Intervall, das den unbekannten Parameter a mit einer Wahrscheinlichkeit
1 − α überdeckt. Hier heisst 1 − α das Konfidenzniveau oder Confidence level kurz auch
C.L. abgekürzt. Im klassischen (Frequentisten) Konfidenzintervall ist die definierende Eigenschaft des KI die so genannte Abdeckung oder coverage: Wenn eine grosse Anzahl von Experimenten durchgeführt wird, die alle dieselben Messungen eines Parameters a auf einem
Konfidenzniveau 1 − α zum Ziel haben, dann wird im Grenzfall n → ∞ der Bruchteil 1 − α
aller konstruierten Intervalle den wahren Wert a beinhalten. Dieses Konstruktionsprinzip
des KI muss für alle Werte von a gelten, d.h. wie auch immer der wahre in der Natur realisierte Wert von a ist, so wird eine Messung ein Konfidenzintervall ergeben, welches mit
Wahrscheinlichkeit 1 − α den Wert a einschliesst.
KIs können u.U. in Regionen liegen, die physikalisch verboten sind. Ferner können mathematische Bedingungen wie cos ≤ 1 in der klassischen Methode leere Intervalle liefern. Normalerweise werden im Frequentisten-Ansatz Regionen des KI ausgeschlossen, in denen der
Parameter nicht definiert ist wobei dann leere Intervalle in Kauf genommen werden. Ein KI
im unphysikalischen Bereich kann dennoch Informationen liefern: Von den beiden Aussagen
die Masse m ist mit 68%C.L. Null und die Masse m liegt mit 68%C.L. zwischen -2 eV und
-1 eV ist die letztere aussagekräftiger.
8.1.1
Konfidenzintervall in einer Dimension
Für jeden möglichen Wert von a wird ein Intervall [x1 (a), x2 (a)] definiert, welches folgende
Bedingung erfüllt:
Z
x2
P (x1 ≤ x ≤ x2 (a)|a) =
f (x|a)dx = 1 − α
(8.1)
x1
Hierbei ist f (x|a) die Wahrscheinlichkeitsdichte. Unter Ausnutzung der obigen Konstruktion
finden wir somit die Grenzen des Intervalls amin und amax für eine Beobachtung oder Messung
von x:
x1 (amin ) = x
x2 (amax ) = x
Diese Definition setzt das KI nicht vollständig fest. Es muss in der Regel noch eine zusätzliche
Bedingungen an das KI gestellt werden, um es eindeutig zu machen, wobei es verschiedene
Möglichkeiten gibt. Die wichtigsten Optionen sind:
• zentrales Intervall
P (x ≤ x1 |a) = P (x ≥ x2 |a) = α/2
(8.2)
• gleiche Wahrscheinlichkeitsdichten
f (x1 |a) = f (x2 |a)
72
(8.3)
Φ−1
1−α/2
1
2
3
Table 8.1:
1 − α Φ−1
1−α
0.6827
1
0.9544
2
0.9973
3
1−α
0.8413
0.9772
0.9987
• minimale Grösse
amax − amin ist Minimum
(8.4)
f (x1 |a)/f (x1 |abest ) = f (x2 |a)/f (x2 |abest )
(8.5)
amax = +∞ oder amin = −∞
(8.6)
• Likelihood geordnet
• einseitig
Gewöhnlich wird das zentrale Intervall als Standard gewählt. Ferner wird ein einseitiges Intervall in unteres und oberes Limit unterschieden, da sie einen unteren bzw obereren
Grenzwert für einen Parameter darstellen.
8.1.2
Vertrauensintervalle für Gauss-verteilte Schätzwerte
Eine einfache und wichtige Anwendung für Vertrauensintervalle sind Gauss-verteilte Schätzwerte.
Es sei â ein Schätzwert, der einer Gaussverteilung mit Erwartungswert a und Standardabweichung σa gehorcht. Ferner nehmen wir an, dass die Standardabweichung σa bekannt sei.
Dann finden wir das zentrale Vertrauensintervall [a1 , a2 ] für die Schätzung â auf Konfidenzlevel 1 − α durch:
â
1
2
2
e−(t−a1 ) /2σa dt = Φ(â; a1 , σa )
2πσa
−∞
Z ∞
1
2
2
√
α/2 =
e−(t−a2 ) /2σa dt = 1 − Φ(â; a2 , σa )
2πσa
â
Z
α/2 =
√
(8.7)
(8.8)
Die Intervallgrenzen [a1 , a2 ] können nun berechnet durch
a1 = â − σa Φ−1
1−α/2
(8.9)
σa Φ−1
1−α/2
(8.10)
a2 = â +
Die Grösse Φ−1
1−α/2 bezeichnet man auch als Perzentil (oder auch Quantil) einer Verteilung. Im
Falle der Normalverteilung gibt sie an wie weit die Intervallgrenzen vom Mittelwert entfernt
sind in Einheiten von σ. Tabelle 8.1 gibt den Zusammenhang zwischen Konfidenzlevel 1 −
α und Perzentil Φ−1
1−α an: Bei Messungen geben wir in den allermeisten Fällen ein 68.3%
zentrales Konfidenzintervall (1 sigma Intervall) an, so dass Φ−1
1−α/2 = 1. Dies ergibt dann das
einfache Intervall:
[a, b] = [â − σa ; â + σa ]
(8.11)
73
Es sollte noch darauf hingewiesen werden, dass ein oberes Limit eines 95% KI eine 2.5%-ige
Wahrscheinlichkeit überhalb des oberen Grenzwertes hat, während bei einem einseitigen 95%
oberen Limit, 5% überhalb des oberen Grenzwertes liegt. Für ein KI mit zugrundeliegender
Gaussverteilung nimmt man daher den Wert bei +1.64σ um ein 95% C.L. oberes Limit zu
setzen, während man ±1.96σ nimmt, um ein 95% zentrales KI zu definieren.
Ist die Standardabweichung σ bei einer Normalverteilung nicht bekannt, wird folgender
Ausdruck benutzt, um ein KI auf den Mittelwert ā = µ zu setzen:
Sn
Sn
ā − tn−1;1−α/2 √ ≤ µ ≤ ā + tn−1;1−α/2 √
n
n
(8.12)
Hierbei werden die 1 − α/s-Perzentilen der zentralen t-Verteilung mit n − 1 Freiheitsgraden
benutzt,
die tabelliert sind. Die empirische (unbiased) Standardabweichung ist durch Sn =
q
− x̄)2 gegeben. Besonders bei kleinem Stichprobenumfang ist die Grösse t = x−µ
Sn
im Gegensatz zu x−µ
nicht
Gaussverteilt,
sondern
unterliegt
durch
die
Unsicherheit
in
Sn
σ
noch zusätzlichen Fluktuationen. Die t-Verteilung ist im Falle kleiner Stichproben (n <
30) bei unbekannter Standardabweichung der Grundgesamtheit die korrekte Wahrscheinlichkeitsverteilung, mit der Konfidenzintervalle für den Mittelwert gebildet werden können.
Erst bei grösserem n nähert sich die t-Verteilung der Gaussverteilung an.
n
n−1 (x
8.1.3
Vertrauensintervalle in der Poissonstatistik
Sehr häufig wird ein unteres oder oberes Limit auf einen physikalischen Parameter gegeben.
In diesen Fällen treten in der Teilchenphysik oft Poissonprozesse gemäss P (k; λ) = e−λ λk /k!
auf, für die ein Grenzwert z.B. bei einer Suche nach einem neuen Teilchenzerfall berechnet
werden muss. Bei vorgegebenem C.L. von 1 − α (z.B. 95%) erhalten wir folgenden oberen
Grenzwert für λ+ , wenn n Teilchenzerfälle beobachtet werden:
1−α =
α =
∞
X
i=n+1
n
X
P (i; λoben )
P (i; λ+ )
(8.13)
(8.14)
i=0
Dies bedeutet in Worten, dass im wiederholten Falle des Experiments, wenn das Limit dem
wahren Parameter entspricht, die Wahrscheinlichkeit, die zu der beobachteten Zahl von n
Ereignissen oder weniger führt, durch α gegeben ist, so dass λ+ die obere Grenze für die
Ereigniszahl bei einem Konfidenzlevel 1 − α darstellt. Die Gleichung muss demnach nach λ+
gelöst werden, um die obere Schranke zu berechnen. Eine direkte Lösung dieser Gleichung
ist durch:
n
X
exp(−λ+ )λi+
α=
P (i; λ+ ) =
= 1 − P (χ22n+2 ≤ 2λ+ )
(8.15)
i!
i=0
gegeben. Hierbei ist P (χ2k ≤ 2λ+ ) die χ2 -Wahrscheinlichkeit für k Freiheitsgrade, einen Wert
≤ 2λ+ zu erhalten.
In ähnlicher Weise erhält man eine untere Grenze für den Mittelwert λ− , indem man
fordert, dass eine Poisson-Verteilung mit dem Mittelwert λ− nur mit einer kleinen Wahrscheinlichkeit α zu der beobachtbaren Zahl n oder zu einer noch grösseren führt. In Gleichungsform
74
Table 8.2:
Upper Limits 90% 95%
n=0
2.30 3.00
n=1
3.89 4.74
99%
4.61
6.64
geschrieben:
∞
X
α =
i=n
n−1
X
1−α =
P (i; λ− )
(8.16)
P (i; λ− )
(8.17)
i=0
Dies kann wiederum durch
α=
∞ −λ− i
X
e
λ−
i=n
i!
= P (χ22n ≤ 2λ− )
(8.18)
ausgedrückt werden. Wir fragen hier also nach der chi2 -Wahrscheinlichkeit von P (χ22n ≤
2λ− ).
Manchmal passiert es, dass bei bestimmten Experimenten kein Ereignis gefunden (n = 0)
wird. Das 90% C.L. obere Limit ergibt sich damit automatisch zu 2.3. Wenn ich z.B.
beim Velofahren 1000 km ohne Reifenpanne fahre, kann ich theoretisch ein 90% C.L. unteres Limit auf die Haltbarkeit des Reifens von 2.3 Reifenpannen pro 1000 km bestimmter
Strecke angeben, falls beim Velofahren die Zahl der auftretenden Reifenpannen tatsächlich
ein Poissonprozess ist.
Die Situation wird komplexer, wenn die experimentellen Daten Untergrundereignisse enthalten, die von den Signalereignissen nicht unterscheidbar sind. Wenn wir annehmen, dass
die Erwartung von Untergrundereignissen im Experiment bekannt sei und mit b bezeichnet wird, dann ist die Wahrscheinlichkeit n Ereignisse (Untergrund und Signal) zu messen
gegeben durch:
W (n) =
n X
n
X
Psig (i; λ)Q(j; b)δi+j,n =
i=0 j=1
n
X
P (i; λ)Q(n − i; b)
(8.19)
i=0
Hierbei ist Q(j; b) die Wahrscheinlichkeitsverteilung der Untergrundereignisse und die Summe
geht über alle möglichen Kombinationen von Untergrund j und Signal i, die beide zusammen
n, also die Zahl der beobachtbaren Ereignisse, ergeben müssen. Falls der Untergrund ebenfalls
einer Poissonverteilung mit Erwartungswert b gehorcht, kann die obige Gleichung geschrieben
werden als:
W (n) =
n
X
P (i; λ)P (n − i; b) = P (n; λ + b) =
i=0
e−λ+b · (λ + b)n
n!
(8.20)
Daraus folgt, dass die Wahrscheinlichkeit α gleich viel oder weniger Ereignisse als n zu
beobachten, gegeben ist durch
α=
n
X
k=0
n
X
W (k) =
k=0
75
P (k; λ + b)
(8.21)
Table 8.3:
obere Limite
klassisch
Zech/Helene
Feldman/Cousins
n = 0; b = 0
2.3
2.3
2.44
n = 0; b = 1
1.3
2.3
1.61
n = 0; b = 2
0.3
2.3
1.26
n = 0; b = 3
-0.70
2.3
1.08
n = 2; b = 2
3.32
3.88
3.91
woraus durch Lösung nach λ das obere Limit für ein gegebenes Konfidenzlevel 1 − α folgt.
Tabelle 8.3 zeigt für einige Fälle von beobachteten Ereignissen n sowie erwarteten Untergrund
b die oberen Grenzwerte auf die Ereigniszahl für 90% C.L.
Es ist interessant uns den Fall n = 0 bei unterschiedlicher Untergrundzahl b näher
anzuschauen, da die klassische Herleitung des oberen Limits hier zwei Schwachstellen zeigt,
die eigentlich nicht akzeptabel sind. Zum einen kann das numerisch errechnete Limit bei
grossem Untergrund wie im Falle b = 3 ein negatives Resultat erzeugen. Zum anderen wird
das obere Limit für n = 0, also keine Ereignisse werden beobachtet, von b = 0 zu b = 2
besser, d.h. das klassische Konfidenzintervall ist unterschiedlich für exakt denselben experimentellen Sachverhalt, nämlich dass kein Ereignis beobachtet wurde. Dieses Verhalten ist für
die meisten Statistiker völlig unbefriedigend. Nehmen wir als Beispiel ein Experiment, das in
einer Suche nach einem neuen exotischen Teilchen kein Ereignis findet, aber einen erwarteten
Untergrund von b Ereignissen hat. Ein Limit wird nun berechnet und das Resultat publiziert.
Nach einem Jahr findet ein cleverer Student einen neuen Schnitt auf eine Variable in der kinematischen Region, in der nach dem Teilchen gesucht wurde und eliminiert den Untergrund
komplett. Diese verbesserte Analyse hat nun aber ein schlechteres Limit zur Folge, als das
ursprüngliche.
Das genannte Beispiel zeigt, dass die Definition des klassischen Limits für Poisson-Statistik
im Falle von Untergrundereignissen unbefriedigend ist. Daher wurde ein anderer Ansatz14
vorgeschlagen, der heute weit verbreitet ist, um klassische Vertrauensgrenzen im PoissonFall mit Untergrundereignissen zu berechnen. Hierbei wird explizit berücksichtigt, dass der
Untergrund geringer oder höchstens gleich der Anzahl n beobachtbarer Ereignisse ist. Das
obere Limit wird im Poisson-Fall nun berechnet zu:
Pn
k=0 P (k; λ + b)
α= P
(8.22)
n
k=0 P (k; b)
Dieser Ausdruck bedeutet, dass für eine gegebenes Konfidenzniveau 1 − α, die obere Signalrate λ berechnet wird, so dass Signal und bekannter Untergrund b nicht über die Anzahl n
beobachteter Ereignisse fluktuieren, unter der Annahme bzw. unter der Auflage, dass der
Untergrund b selber die Zahl der Ereignisse n nicht übersteigen darf.
Besitzt die Abschätzung der Untergrunderwartung b eine Unsicherheit von δb , und ist die
zugrundeliegende Wahrscheinlichkeitsdichte g(b, δb ) bekannt (z.B. eine Gaussverteilung), kann
das obere Limit durch Ausintegration über die Unsicherheit δb des Untergrunds bestimmt
werden. Im klassischen Fall verändert sich Gleichung 8.21 dann zu
Z
α=
g(b)
n
X
P (k; λ + b)db
k=0
14
O. Helene und G. Zech
76
(8.23)
während der Zech/Helene Ansatz zu
R
α=
g(b) nk=0 P (k; λ + b)db
R
P
g(b) nk=0 P (k; b)db
P
(8.24)
wird.
Zum Schluss unserer Betrachtungen über klassische obere Grenzwerte für Poissonverteilungen wollen wir noch eine sehr aktuelle Entwicklung erwähnen. Der sogenannte unifed approach von Feldman und Cousins 15 brachte gegenüber herkömmlichen Methoden zwei grosse
Neuerungen: Zum einen vereinigte er elegant zwei Rechenverfahren, nämlich die Ableitung
eine einseitigen Limits auf der einen Seite und die Berechnung eines zweiseitigen Vertrauensintervalles auf der anderen Seite, so dass vom Benutzer nur das Konfidenzniveau festgelegt
werden muss. Der unified approach sorgt also automatisch für ein nahtloses Umschalten
von einseitiger Grenze im Falle eines unteren oder oberen Limits zum zweiseitigen Intervall,
falls die Möglichkeit der Berechnung eines Fehlerintervall innerhalb der erlaubten physikalischen Regionen vorliegt. Zum anderen benutzt die Methode das Prinzip des Ordnens nach
Likelihood Verhältnissen, was unphysikalische Intervalle gänzlich vermeidet. Diese beiden
Eigenschaften des unifed approaches sind sehr attraktiv und die Feldman-Cousins Methode
ist daher eine der Standardmethoden bei der Ableitung von Vertrauensgrenzen in der klassischen Statistik geworden.
8.2
Konfidenzlimits auf Basis der Likelihood-Funktion
Die Likelihood-Funktion kann ebenfalls zur Bestimmung eines Konfidenzintervalls herangezogen werden. Falls ein Schätzwert â eines Parameters a aus einem Datensample im Grenzfall
grosser Statistik vorliegt, kann für die Wahrscheinlichkeitsdichte g(â, a) gezeigt werden (siehe
auch Kapitel 6.3 sowie zentraler Grenzwertsatz), dass
1
−(â − a)2
g(â, a) =
exp
2πσâ2
2σâ2
!
(8.25)
gilt, d.h. die Verteilung folgt einer Gaussverteilung um den wahren Wert a mit Standardabweichung σâ . Darüberhinaus wird die Likelihood-Funktion im Falle grosser n gaussförmig:
−(â − a)2
L(a) = Lmax exp
2σâ2
!
(8.26)
Wir haben im Kapitel 6.3 gesehen, dass in diesem Falle eine Änderung von k Einheiten der
Standardabweichung des Parameters a eine Abnahme der Log-Likelihood Funktion um k 2 /2
vom Maximum bedeutet:
k2
log L(â ± kσâ ) = log Lmax −
(8.27)
2
Daher können wir z.B. ein 68.3% zentrales Konfidenzintervall mittels der Log-Likelihood
Funktion konstruieren, wenn wir die Werte für a suchen, bei denen die Log-LikelihoodFunktion um 1/2 vom Maximum abfällt. Dieses Konstruktionsprinzip funktioniert aber nur,
wenn â der ML Estimator ist, bei denen die Log-Likelihood-Funktion ihr Maximum hat.
15
G. J. Feldman, R. D. Cousins, Unified approach to classical statistical analysis of small signals. Phys.
Rev. D57 (1998)3873
77
Wenn die Log-Likelihood-Funktion keine Gaussfunktion darstellt, kann zumindest mit
dieser Methode ein zentrales Konfidenzintervall angenähert werden,
log L(â+d
−c ) = log Lmax −
k2
2
(8.28)
wobei k wieder in Einheiten der Standardabweichung vorgegeben wird, das einem bestimmten
Perzentil der Gaussverteilung für ein entsprechendes Konfidenzniveau entspricht.
Im Falle von Messungen mit zugrundeliegender Poissonverteilung und den Beobachtungswerten
ni lautet die Likelihood-Funktion:
L(n0 |µ) =
Y µni e−µ
i
(8.29)
ni !
Es sei µ̂ = n1 ni die Abschätzung des Erwartungswerts, der die Log-Likelihood Funktion
maximiert, dann kann ein 68.3% klassiches Konfidenzintervall [µ1 , µ2 ] wiederum durch Abfall
der Log-Likelihood Funktion um 1/2 von seinem Maximalwert gebildet werden:
P
log L(mu|µ
ˆ 1 ) = log L(µ̂|µ2 ) = log Lmax −
1
2
(8.30)
Es werden also µ1 < µ̂ und µ2 > µ̂ gesucht, die die obige Gleichung lösen.
Likelihood-Methoden, um Konfidenzlimite auszurechnen sind leicht auf mehrdimensionale
Probleme zu erweitern. Ferner existieren zahlreiche Computerprogramme, das maximum der
Log-Likelihood-Funktion zu ermitteln, bzw. nach einem Abfall der Log-Likelihood Funktion
um einen vorgegebenen Wert zu suchen. Einige Nachteile der Vertrauensintervalle basierend
auf Likelihood-Funktionen sind:
• Die von Frequentisten verlangte Abdeckung im Poisson-Fall ist bei kleinen Erwartungswerten
nicht erfüllt
• Funktionen mit weiten Ausläufern können zu Problemen führen
• Falls die Likelihood-Funktion ihr Maximum ausserhalb des erlaubten physikalischen
Bereichs hat, kann es zu falschen Konfidenzintervallen kommen.
8.3
8.3.1
Konfidenzlimits im Bayes’ Ansatz
Die Methode
Bayesianer behandeln (Theorie)-Parameter als Zufallsvariablen. Die kombinierte Wahrscheinlichkeitsdichte f (x; a) eines (Theorie-)Parameters a und der Zufallsvariablen x kann über das
Bayes’ Theorem geschrieben werden als:
f (x; a) = f (x|a)g(a) = f (a|x)h(x)
f (x|a)g(a)
f (a|x) =
h(x)
(8.31)
(8.32)
Hierbei sind g(a) und h(x) geeignete Wahrscheinlichkeitsdichten, die jeweils nur von einer
Variablen abhängen. In diesem Zusammenhang ist die Wahrscheinlichkeitsdichte g(a) der
78
sogenannte Prior der Beobachtung x. Dies bedeutet wir legen eine bestimmte Wahrscheinlichkeitsdichte für den Parameter a vor dem Experiment fest, die somit die Wahrscheinlichkeit für a vor der Messung x angibt. Für eine gegebene Beobachtung x wird die bedingte Wahrscheinlichkeit f (a|x) mit der Likelihood-Funktion identifiziert. Die Wahrscheinlichkeitsdichte h(x) ist ein multiplikativer Faktor, der unabhängig von a ist und durch die
Forderung nach Normierung eliminiert werden kann. Der Bayes’ Ansatz ein Konfidenzintervall zu berechnen lautet daher:
L(x, a)g(a)
f (a|x) = R +∞
−∞ L(x, a)g(a)da
(8.33)
Es muss garantiert sein, dass der gewählte Prior die Normierung erfüllt, so dass das Integral
im Nenner endlich bleibt.
Im Falle einer Poissonverteilung P (λs |n0 ) mit n0 beobachteten Ereignissen und einer
Signalrate µs lautet der Bayes-Ansatz:
P (λs |n0 ) = R ∞
0
L(n0 |λs )P (λs )
L(n0 |λs )P (λs )dλs
(8.34)
Ein oberes Limit (oder ein beliebig anderes Konfidenzintervall16 ) auf den unbekannten Parameter λs kann einfach durch Integration der obigen Gleichung erzielt werden. Die Erweiterung
der Methode auf den Poisson-Fall mit Untergrund b ist einfach:
P (λs |n0 , b) = R ∞
0
8.3.2
L(n0 |λs + b)P (λs )
L(n0 |λs + b)P (λs )dλs
(8.35)
Bemerkungen zum Prior
Die Werte, die man aus dem Bayes’ Ansatz erhält sind natürlich vom gewählten Prior g(a)
bzw. P (λs ) abhängig. Die Bayes’ Methode wäre vermutlich der ideale Ansatz, wenn man
den Prior des Parameters wüsste. Ohne jegliche quantitative Kenntnis der Prior-Dichte, wird
oft ein uniformer Prior, d.h. a = const über ein gewisses Intervall, ge”ahlt17 . Auch wenn
dieser flache Prior am häufigsten benutzt wird, so ist es dennoch nur eine Konvention. In
manchen Fällen empfehlen Bayesianer eine ganze Klasse von Priors die sich entweder gemäss
a ∝ s−p oder a ∝ e−ks verhalten, wobei s in direktem Zusuammenhang mit der Signalrate
steht. Es ist nicht schwer einzusehen, wie ein Bayes’ Limit sich verschiebt, falls der Prior
geändert wird. Im allgemeinen wird ein oberes Limit auf einen seltenen Prozess kleiner, d.h.
besser oder optimistischer, falls der Prior die Region in der Nähe s = 0 stärker betont, als ein
flacher Prior. Umgekehrt wird das obere Limit schlechter oder konservativer, falls die PriorVerteilung mehr Gewicht auf grössere Werte von s legt. Wie auch immer der Prior gewählt
wird, er muss normierbar sein, da sonst das Integral nach der Bayes’ Methode divergiert.
Selbst der per Konvention am häufigsten gewählte uniforme Prior legt nicht alle Wahlmöglichkeiten
in der Bayes’ Methode fest. Als Beispiel betrachten wir einen Teilchenzerfall mit exponentieller Wahrscheinlichkeitsdichte P (x; a) = 1/a exp(−x/a). Nun kann naiv ein flacher Prior
g(a) = const oder auch g(1/a) = const gewählt werden, je nach dem ob wir den Prior in
16
Manche Physiker möchten lieber den Ausdruck credibility intervalls für Konfidenzintervalle im Bayes’
Kontext benutzen.
17
Man nennt einen Prior ohne quantitative Informationen über den Parameter auch uninformative Prior
79
der Lebensdauer a oder in der Zerfallskonstanten 1/a angeben wollen. Beide Annahmen
über flache Prioren sind jedoch inkonsistent miteinander. So bleibt auch im Falle des uniformen Priors die schwierige Frage offen, in welcher Metrik, d.h. für welchen funktionalen
Zusammenhang des Parameters a, darf die Priorfunktion h(a) konstant sein? Im Falle des
exponentiellen Zerfalls ist im übrigen 1/a, also die Zerfallskonstante, die flach gewählt werden
darf.
Eine interessante und (vermutlich) wunderbare Tatsache ist die, dass im Falle eines uniformen Priors, der f”ur die Poissonstatistik gewählt werden kann, das Ergebnis für ein Konfidenzintervall dieselbe Form wie die klassische Form aus Gleichung 8.22 annimmt, nämlich:
α=
Pn
k=0 P (k; λ + b)
P
n
(8.36)
k=0 P (k; b)
Diese Identität gilt auch dann, wenn ein Untergrund b vorliegt.
8.4
Vertrauensintervalle und systematische Fehler
Das sehr häufig auftretende Problem die systematischen Fehler in ein Konfidenzintervall
einzuarbeiten, ist nicht vollständig und komplett gelöst. Zwar gibt es einige Vorschriften,
wie systematische Fehler zu behandeln sind und in ein Limit einzubauen sind, aber eine
eindeutige analytische Lösung zu diesem Problem existiert nicht. Ferner scheint es keine
Methode zu geben, die von allen Physikern akzeptiert wird. Die allermeisten Physiker jedoch,
die mit diesem Problem konfrontiert werden, benutzen einen Bayes’-Ansatz, bei dem der
systematische Fehler, z.B. in der Effizienz oder in der Untergrundvorhersage, meistens in
Form einer Gaussverteilung parametrisiert wird und die Wahrscheinlichkeitsdichten dann
damit verschmiert werden. Systematische Unsicherheiten werden im Zusammenhang mit
Konfidenzintervallen oft als nuisance Parameter bezeichnet, die eigentlich störend oder lästig
sind, und es wird versucht diese Parameter auszuintegrieren.
Wenden wir uns also dem Problem eines Zählexperimentes zu, dass einen Untergrund b
erwartet, der mit einer (Gauss-verteilten) Unsicherheit σb behaftet ist. Die beobachtete Zahl
Ereingisse sei n. Ferner soll es eine Detektorakzeptanz A geben, die einen Fehler σA aufweist.
Nun kann z.B. ein oberes Poisson-Limit auf die Signalrate λ wie in Gleichung 8.22 definiert
werden:
Pn
α=
1
k=0 2πσλ σb
R∞R∞
0
0
Pn
P (k; λ0
k=0
+
−
b0 )e
−
P (k; b0 )e
(b−b0 )2
2σ 2
b
(b−b0 )2
2σ 2
b
−
e
(λ−λ0 )2
2σ 2
λ
dλ0 db0
(8.37)
db0
In der obigen Gleichung haben wir die Unsicherheit σλ auf die Signalrate λ durch σλ = λ·σA /A
ausgedrückt. Wie zuvor suchen wir also den wahren Wert der Signalrate λ als oberes Limit,
für den mit einer Wahrscheinlichkeit 1 − α gelten soll, dass wir mehr als n beobachten aber
zugleich b ≤ n haben.
Dieses Integral kann im Prinzip numerisch gelöst werden. Oft wird aber eine MCSimulation mit verbundenen Zufallsexperimenten benutzt, um die Signalrate λ zu bestimmen.
Hierbei wird für jeden Testwert von λ ein grosses Ensemble an Zufallsexperimenten gewürfelt,
wobei die erwartete Signalrate und der Untergrund jeweils um ihre (gaussförmigen) Unsicherheiten verschmiert werden. In jedem Zufallsexperiment wird also eine erwartete Anzahl von
80
Untergrundereignissen und eine vorgegebene Signalrate aus zwei Gaussverteilungen gezogen
und dann poissonverteilte Zahlen für Signal λ und Untergrund generiert. Für die Zufallswürfe,
für die b ≤ n ist, wird der Anteil f an dem b + λ > n ist, registriert. Das Konfidenzintervall
für ein gegebenes n ist dann gleich f . Man muss daher n variieren, bis das gewünschte 1 − α
erreicht ist.
81
9
9.1
Hypothesentests
Grundbegriffe und Ablauf eines Tests
Eine statistische Hypothese ist eine Behauptung über Eigenschaften einer oder mehrerer
Zufallsvariablen, die entweder über deren Parameter oder über deren Verteilungsfunktion eine
Aussage machen. Die zu prüfende Hypothese wird als H0 oder Nullhypothese18 bezeichnet.
Mit H1 wird bei Entscheidungen zwischen Hypothesen die Gegen- oder Alternativhypothese
bezeichnet. Ein statistischer Test besteht aus der Überprüfung einer statistischen Hypothese
mittels einer zur Verfügung stehenden Stichprobe. Es kann entweder eine einzelne Hypothese
überprüft werden (Goodness of fit) oder H0 zugunsten von H1 verworfen werden.
Eine Nullhypothese H0 wird als statistisch widerlegt angesehen und verworfen, wenn
der Stichprobenbefund im deutlichen, also im signifikanten, Gegensatz zu ihr steht. Dies bedeutet, dass der Stichprobenbefund unter H0 nur eine sehr geringe Eintrittswahrscheinlcihkeit
α hat.
Der Ablauf eines solchen Signifikanztests umfasst folgende Schritte:
• Festlegung von Nullhypothese H0 und Alternativhypothese H1 , zwischen denen man
sich entscheiden möchte.
• Festlegung des Stichprobenumfangs n.
• Wahl des Signifikanzniveaus α bzw. 1 − α.
• Wahl einer Stichprobenfunktion oder Testgrösse t als Prüfgrösse bzw. Testfunktion. Die
Grösse t ist eine Zufallsvariable und wird anhand des Stichprobenumfangs berechnet
unter der Annahme, dass H0 wahr ist
• Konstruktion eines Ablehnbereiches für die Prüfgrösse t, in dem H0 verworfen wird.
Dabei wird aus der Wahrscheinlichkeitsdichte f0 (t) (unter der Annahme von H0 ) der
Testgrösse
t der Ablehnbereich (oder die kritische Region) V (H0 ) ermittelt, so dass
R
V (H0 )f0 (t)dt = α ist. Es gibt einen Wert tc für t, der den Ablehnbereich von der
Annahmeregion trennt. Analog definiert man Ablehn- und Annahmebereich für die
Hypothese H1 mit einem Bruchteil β und einer Konfidenz 1 − β. Der Annahmebereich
von H1 ist natürlich gleich dem Verwerfbereich von H0 und umgekehrt.
• Stichprobenziehung und Auswertung. Die Entscheidung ist: Lehne H0 auf dem Niveau
α ab, wenn die Prüfgrösse in den kritischen Bereich V (α) fällt oder akzeptiere H0 , wenn
die Prüfgrösse ausserhalb des kritischen Bereiches ist.
Das Signifikanzniveau α ist die maximal zu tolerierte Wahrscheinlichkeit, dass H0 zu
Unrecht abgelehnt wird, d.h. t innerhalb der Verwerfregion V (H0 ) liegt. Ein Fehler erster
Art bezeichnet man das Ablehnen von H0 , wenn H0 in Wahrheit zutrifft. Je kleiner wir
α wählen, umso unwahrscheinlicher wird diese Fehlentscheidung. Normalerweise wird α zu
0.1 oder 0.05 gewählt. Ein Fehler zweiter Art ist das Nichverwerfen von H0 bzw. die
Annahme von H0 , wenn die Nullhypothese in Wahrheit falsch ist. Dies bedeutet, dass t
innerhalb der Annahmeregion von H0 und damit innerhalb der Verwerfregion von H1 liegt,
18
Der Zusatz Null kommt daher, da bei Signifikanztests die Nullhypothese für ’null und nichtig’ erwiesen
werden soll zugunsten der Alternativhypothese.
82
aber H0 dennoch falsch ist. Die Wahrscheinlichkeit dafür ist β. Beim Signifikanztest sind die
Fehler erster Art durch Wahl von α unter Kontrolle, während Fehler zweiter Art eine sehr
hohe Wahrscheinlichkeit (bis zu 1 − α) haben können.
Als Beispiel für Fehler erster und zweiter Art wollen wir einen Detektor nur für Neutronenstrahlen betrachten. Der Detektor soll auf Neutronen mit einer Effizienz von 98%
ansprechen, d.h. in 98% der Fälle in denen ein Neutron durch den Detektor tritt, reagiert
der Detektor korrekt. Andererseits beträgt das Ansprechverhalten des Detektors auf Gammastrahlung 0.01%, d.h. für einen kleinen Bruchteil von durchtretenden Gamma-Quanten
reagiert der Neutronendetektor ebenfalls (sog. Misidentifikation). Wird in einem Neutronenund Gammafeld mit dem Detektor gemessen, beträgt der Fehler erster Art somit 98% und
der Fehler zweiter Art 0.01%.
Als konkretes Beispiel betrachten wir nun folgenden Hypothesentest: Eine Drahtbondmaschine DB1 zur Produktion von Siliziumdetektormodulen hat bisher Detektoren mit einer
Ausschussquote von P0 = 0.2 produziert. Die Maschine soll durch eine neue Maschine DB2
ersetzt werden, wenn die neue Maschine mit einer geringeren Ausschussquote P1 arbeitet. In
einem Probelauf von DB2 werden nun n = 30 Module produziert. Um die Beziehung P1 < P0
statistisch abzusichern, wird sie bei einem Hypothesentest unter H1 gestellt. Es sei also:
H0 : P1 ≥ 0.2; H1 : P1 < 0.2
(9.1)
Wir wählen α = 0.05 und als Prüfgrösse t die Anzahl der defekt produzierten Module. Diese
Grösse ist mit der Anzahl der total produzierten Module n = 30 und einer Wahrscheinlichkeit
P binomialverteilt. Der Ablehnbereich für H0 wird konstruiert aus:
nc
X
n
i=0
i
!
P0i (1 − P0 )n−i < α
(9.2)
Mit nc wird der kritische Wert bezeichnet, der die maximal zulässigen Defektmodule von DB2
angibt, um H0 gerade noch mit Konfidenz 1 − α anzulehnen. Es zeigt sich in der Rechnung,
dass für nc = 2 der Wert α noch knapp unter 0.05 ist. Der Ablehnbereich für H0 ist also:
K = 0, 1, 2. Finden sich also bis zu zwei defekte Module unter den 30 produzierten, wird
DB2 wohl eingeführt werden.
9.2
Verteilungsgebundene Hypothesentests
Im nachfolgenden gehen wir von einer bestimmten Verteilung der Grundgesamtheit aus, meistens eine Gaussvertelung. Die Übersichtstabelle gibt die wichtigsten Fälle.
9.3
Tests einer einzelnen Hypothese - Goodness of fit
9.3.1
Der χ2 -Test
9.3.2
Kolmogorov-Smirnov Test
83
Table 9.1: Mögliche Hypothesentests bei einer bestimmten Verteilung der Grundgesamtheit.
H0
H1
Prüfgrösse
Ablehnbereich
Kommentar
2
Gauss-Tests
über
µ
einer
Normalverteilung
bei
bekanntem
σ
√
x̄−µ0 n
(u1−α ; ∞)
x̄ ist arithmetischer Mittelwert
σ√
x̄−µ0 n
(−∞;
−u
)
1−α
σ √
|x̄−µ0 | n
(u
;
∞)
1−α/2
σ
t-Tests
über
µ
einer
Normalverteilung
bei unbekanntem σ 2
√
x̄−µ0 n
(tn−1;1−α ; ∞)
sn ist die Sample-Varianz
sn √
x̄−µ0 n
(−∞;
−t
)
n−1;1−α
sn
µ ≤ µ0
µ ≥ µ0
µ = µ0
µ > µ0
µ < µ0
µ 6= µ0
µ ≤ µ0
µ ≥ µ0
µ > µ0
µ < µ0
µ = µ0
µ 6= µ0
√
|x̄−µ0 | n
sn
λ ≤ λ0
λ > λ0
x
(xo + 1, xo + 2, . . .)
λ ≥ λ0
λ = λ0
λ < λ0
λ 6= λ0
x
x
(0, 1, . . . , xu − 1)
(0, 1, . . . , x0u − 1)und(x0o + 1, x0o + 2, . . .)
(tn−1;1−α/2 ; ∞)
Test über µ(= λ) einer Poissonverteilung
84
λi0 −λ0
<1−α
e
i=0
Pxu −1i! λi0 −λ0
<α
i=0
i! e
x0u wie oben, wobei α →
Pxo −1
x0o und
α/2
10
Blindstudien
85
11
Parametrisierung von Daten
11.1
Orthogonale Polynome
11.2
Splines
86
12
Entfaltung
87
Herunterladen