Server der Fachgruppe Physik der RWTH Aachen

Werbung
Statistische Methoden der
Datenverarbeitung in der Physik
von
Prof. Dr. Martin Erdmann, Sebastian Gabel, Dr. Steen Kappler,
Lotte Wilke
RWTH-Aachen Sommersemester 2005
Vorbemerkung
Diese Vorlesung ist als Einführung in die Datenanalyse in der Physik konzipiert. Sie wird
an der RWTH-Aachen im 2.Semester des Physikstudiums (vor Beginn des Anfängerpraktikums) zusammen mit einem intensiven Übungsbetrieb durchgeführt, der Arbeiten am
Computer mit einschlieÿt. Inhaltlich orientiert sich die Vorlesung an dem hervorragenden
Buch von V.Blobel und E.Lohrmann, Statistische und numerische Methoden der Datenanalyse (Teubner Verlag) [1] und ebenso an dem C++-Kurs von Rob Miller, David Clark
und William Knottenbelt An Introduction to the Imperative Part of C++ (Imperial
College London, WEB-Angebot) [2] . Dem unermüdlichen Einsatz mehrerer erfahrener
Personen und vieler engagierter Teilnehmer ist das Gelingen der Veranstaltung und nicht
zuletzt dieses Skriptum zu verdanken. Besonderer Dank geht an Dr. Steen Kappler für
die Gestaltung des Übungsbetriebs, an Dr. Thomas Kress für die aktive Unterstützung
im Cip-Pool, an Lotte Wilke, die das Skriptum federführend mit Sebastian Gabel erstellt
hat, an Lisa Wilke für die Figurengestaltung und an Matthias Kirsch, Daniel Klöckner,
Gero Müller und Lotte Wilke, die sich für die Betreuung von 200 Kurs-Teilnehmern am
Computer engagierten.
Aachen im Sommersemester 2005, Martin Erdmann
Inhaltsverzeichnis
1
2
3
Einleitung
1.1
Experiment
1.2
Mittelwert, Varianz, Standardabweichung, Fehler
1.3
Ablauf und Ziel des Kurses
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
1
. . . . . . . . . . . . . . .
2
. . . . . . . . . . . . . . . . . . . . . . . . . . .
3
Wahrscheinlichkeit
5
2.1
Wahrscheinlichkeitsbegri
. . . . . . . . . . . . . . . . . . . . . . . . . . . .
5
2.2
Kombination von Wahrscheinlichkeiten . . . . . . . . . . . . . . . . . . . . .
6
2.3
Theorem von Bayes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
8
1-dimensionale Wahrscheinlichkeitsverteilungen
11
3.1
Zufallsvariable . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
11
3.1.1
Diskrete Zufallsvariable
. . . . . . . . . . . . . . . . . . . . . . . . .
11
3.1.2
3.2
3.3
3.4
3.5
4
1
Kontinuierliche Zufallsvariable . . . . . . . . . . . . . . . . . . . . . .
12
Erwartungswerte, algebraische und zentrale Momente . . . . . . . . . . . . .
13
3.2.1
Mittelwert . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
13
3.2.2
Root-Mean-Square . . . . . . . . . . . . . . . . . . . . . . . . . . . .
14
3.2.3
Varianz
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
14
Weitere Lokalisierungs- und Dispersionsparameter . . . . . . . . . . . . . . .
14
3.3.1
Wahrscheinlichster Wert . . . . . . . . . . . . . . . . . . . . . . . . .
15
3.3.2
Median
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
15
3.3.3
Getrimmter Mittelwert . . . . . . . . . . . . . . . . . . . . . . . . . .
15
3.3.4
Full-Width-Half-Maximum . . . . . . . . . . . . . . . . . . . . . . . .
16
Problemstellungen und Verteilungen mit diskreter Variable . . . . . . . . . .
17
3.4.1
Kombinatorik . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
17
3.4.2
Binomialtheorem . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
18
3.4.3
Binomialverteilung . . . . . . . . . . . . . . . . . . . . . . . . . . . .
18
3.4.4
Poissonverteilung . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
20
Wahrscheinlichkeitsdichten für kontinuierliche Variable . . . . . . . . . . . .
22
3.5.1
Gauÿ-Verteilung
. . . . . . . . . . . . . . . . . . . . . . . . . . . . .
22
3.5.2
Gleichverteilung
. . . . . . . . . . . . . . . . . . . . . . . . . . . . .
26
Kombination von Wahrscheinlichkeitsdichten
29
4.1
Faltung von Wahrscheinlichkeitsdichten
. . . . . . . . . . . . . . . . . . . .
29
4.2
Der zentrale Grenzwertsatz
. . . . . . . . . . . . . . . . . . . . . . . . . . .
29
4.3
Interpretation von Messwerten
. . . . . . . . . . . . . . . . . . . . . . . . .
31
iii
Inhaltsverzeichnis
5
6
4.4
Charakteristische Funktion
4.5
Faltung von zwei Gauÿ-Verteilungen
5.1
Mittelwert, Varianz, Kovarianz, Korrelation
. . . . . . . . . . . . . . . . . .
36
5.2
2-dimensionale Gauÿ-Verteilung . . . . . . . . . . . . . . . . . . . . . . . . .
36
Fehlerbestimmung
39
Statistische Fehler
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
39
6.1.1
Fehler von Mittelwert und Standardabweichung . . . . . . . . . . . .
39
6.1.2
Transformation von Wahrscheinlichkeitsdichten
. . . . . . . . . . . .
40
6.1.3
Fehlerfortpanzungsgesetz in einer Dimension . . . . . . . . . . . . .
40
6.1.4
Fehlerfortpanzungsgesetz in
Dimensionen . . . . . . . . . . . . . .
42
6.1.5
n
Anwendung: Zusammengesetzte Messgröÿen . . . . . . . . . . . . . .
43
Systematische Fehler . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
45
6.2.1
Unkorrelierte systematische Fehlerquellen
. . . . . . . . . . . . . . .
46
6.2.2
Korrelierte systematische Fehlerquellen . . . . . . . . . . . . . . . . .
46
Parameterschätzung: Maximum-Likelihood-Methode
47
7.1
Verfahren für 1 Parameter . . . . . . . . . . . . . . . . . . . . . . . . . . . .
47
7.1.1
Negative Log-Likelihood-Funktion
. . . . . . . . . . . . . . . . . . .
47
7.1.2
Fehlerbestimmung
. . . . . . . . . . . . . . . . . . . . . . . . . . . .
48
7.1.3
Gewichteter Mittelwert . . . . . . . . . . . . . . . . . . . . . . . . . .
50
7.1.4
Anwendung: Histogramme . . . . . . . . . . . . . . . . . . . . . . . .
52
7.2
Verfahren für
m
Parameter
. . . . . . . . . . . . . . . . . . . . . . . . . . .
53
Parameterschätzung: Methode der kleinsten Quadrate
55
8.1
Messungen mit gleichen Meÿfehlern . . . . . . . . . . . . . . . . . . . . . . .
55
8.1.1
Lineare kleinste Quadrate . . . . . . . . . . . . . . . . . . . . . . . .
56
8.1.2
Berechnung der Fehler . . . . . . . . . . . . . . . . . . . . . . . . . .
58
8.1.3
Geradenanpassung
. . . . . . . . . . . . . . . . . . . . . . . . . . . .
58
Berücksichtigung individueller Meÿfehler . . . . . . . . . . . . . . . . . . . .
63
8.2.1
Lösung mit Gewichtsmatrix . . . . . . . . . . . . . . . . . . . . . . .
63
8.2.2
Grasche Darstellung für 1 Parameter
. . . . . . . . . . . . . . . . .
64
8.2.3
Geradenanpassung
. . . . . . . . . . . . . . . . . . . . . . . . . . . .
65
8.2
9
33
35
6.2
8
. . . . . . . . . . . . . . . . . . . . . .
32
Multi-dimensionale Wahrscheinlichkeitsverteilungen
6.1
7
. . . . . . . . . . . . . . . . . . . . . . . . . . .
Prüfung von Hypothesen
67
9.1
Vergleiche von Messungen und theoretischen Vorhersagen
. . . . . . . . . .
67
9.2
Kondenzniveau, Kondenzgrenzen . . . . . . . . . . . . . . . . . . . . . . .
68
9.3
69
9.4
χ2 -Verteilung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
χ2 -Test . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
9.5
Student'scher t-Test
71
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
10 Klassizierungsmethoden
10.1 Fisher'sche Diskriminanten-Methode
70
75
. . . . . . . . . . . . . . . . . . . . . .
75
10.2 Neuronale Netzwerke . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
77
Kapitel 1
Einleitung
Statistische Verfahren werden in vielen unterschiedlichen Bereichen benötigt. In den experimentellen Naturwissenschaften werden sie in eingesetzt, um die Reproduzierbarkeit von
Experimenten zu bestimmen, d. h. um die Meÿfehler zu quantizieren. Beispiele sind die
Elementarteilchenphysik sowie die Astrophysik. Weiterhin werden sie in der Medizin, der
Psychologie, der Wirtschaft, Banken, der Wettervorhersage, Geheimdiensten und anderem
benötigt. Weltweit werden sehr viele Daten genommen und es werden dringend Experten
gebraucht, die die Bedeutung der Daten benennen können.
1.1 Experiment
Zeit für Informationsübertragung
Hierbei wurde achtmal die Zeit gemessen, die für den Wurf benötigt wird:
t 10−2 s :
110
98
122
101
105
85
99
Gesucht sind eine Schätzung des wahren Wertes aus der Meÿreihe
103
und eine Aussage über
die Reproduzierbarkeit des Experiments.
1
KAPITEL 1. EINLEITUNG
1.2 Mittelwert, Varianz, Standardabweichung, Fehler
Der Mittelwert dieser Messung beträgt:
n
t̄ =
1X
ti , n = 8
n
(1.1)
i=1
823
· 10−2 s
8
≈ 103 · 10−2 s
=
←
Schätzung des wahren Werts
Die Streuung der Meÿwerte wird über die quadratische Abweichung der Messung vom
wahren Wert berechnet:
2
s
=
n
X
1
n−1
(ti − t̄)2 .
(1.2)
i=1
t̄ nur der Schätzwert für den wahren Wert ist, wird hierbei durch n − 1 und nicht durch
n dividiert. s2 hat die Bedeutung einer Varianz.
Da
Daraus ergibt sich die Standardabweichung für die Einzelmessung, die wir
√
σ =
n
X
s2
←
Fehler
Fehler der Einzelmessung
nennen:
(1.3)
(ti − t̄)2 = 72 + 52 + 192 + 22 + 22 + 182 + 42 + 02
i=1
= 783
1
=
7
√
σ =
s2
1
n−1
⇒
σ
r
=
783
7
10 · 10−2 s.
≈
ist ein Maÿ für die Reproduzierbarkeit einer Messung. Die Wahrscheinlichkeit, daÿ der
nächste Meÿwert im Intervall zwischen
t̄ − σ
und
t̄ + σ
liegt, beträgt 68%.
Zeit
N
Zeit
Entries
8
Mean
1.029
RMS
0.09892
3
2
1
0
0.8
1
1.2
1.4
t [s]
2
KAPITEL 1. EINLEITUNG
Das Meÿergebnis ist also:
t = 1, 03 ± 0.10 s
Bei einer erneuten Messung ergab sich ein Ergebnis von:
t = 1, 15 s
Es liegt in der Nähe von
t̄ + σ
und ist wegen der ca 68% Wahrscheinlichkeit ein wahrschein-
licher Wert.
Das Experiment könnte durch die Korrektur der Anfangsparameter wie Abwurfhöhe, Abwurfwinkel und Abwurfgeschwindigkeit viel genauer werden.
Aber: Nicht alle Einüsse auf das Experiment sind kontrollierbar. Prinzipiell hat jedes
Experiment eine Ungenauigkeit, die gemeinsam mit der experimentellen Fragestellung bestimmt werden muÿ.
Oft ist es für die Berechung von
n
X
2
(ti − t̄)
s2
=
i=1
einfacher, wie folgt umzuformen:
n
X
t2i + t̄2 − 2t̄ti
i=1
=
n
X
i=1
=
⇒
s2 =
P
n
t2i
2
t
 i=1 i 
 −2

+ n
n 
n
P
2
ti
i=1
n
!2
n
X
1
t2i −
ti
n
i=1
i=1

!2 
n
n
X
X
1
1

t2i −
ti 
n−1
n
n
X
i=1
(1.4)
(1.5)
i=1
1.3 Ablauf und Ziel des Kurses
Im folgenden werden wir einen Schnellkurs in der Verwendung des Computers mit der
Programmiersprache C++ durchführen, damit Sie in der Lage sind, statistische Fragestellungen ezient zu beantworten. Dieser Kurs ist im Skript von Rob Miller dokumentiert.
Danach werden wir die Hintergründe für das Vorgehen bei der Auswertung unseres kleinen
Experimentes genau beleuchten.
Unser Ziel ist, die Bedeutung des Wahrscheinlichkeitsbegris für die experimentelle Physik
zu verstehen und mit Hilfe von Wahrscheinlichkeisverteilungen quantitative Aussagen über
Experimente und zugehörige theoretische Modelle zu machen.
3
KAPITEL 1. EINLEITUNG
Diskret:
Wahrscheinlichkeit
P (r),
genau
r
Ereig-
nisse zu erhalten
Binominial:
n
p
r
n−r
p (1 − p)
µ = np
σ 2 = np(1 − p)
@
@
@
Poisson:
n groÿ
p klein
µr e−µ
r!
r = µ = np
σ2 = µ
-
n groÿ
@ r groÿ
µ groÿ
@
R
@
Kontinuierlich: Wahrscheinlichkeitsdichten
f (ξ)
Gauÿ:
√
1
2π σ
e−
(x−µ)2
2σ 2
@
@
x2
@
< x >@
@
@
@
@
R
@
2
n
P
x2
i=1
n/2−1 −χ2 /2
1
2
χ
/2
e
2
Γ (n/2)
2
< χ >= n = Freiheitsgrade
χ =
σ 2 = 2n
4
x̄ − µ
t= p
σ 2 /n
1 Γ ( n+1
2 )
√
n
nπ Γ ( 2 )
2
1+
t
n
!− n+1
2
Kapitel 2
Wahrscheinlichkeit
2.1 Wahrscheinlichkeitsbegri
1. Ansatz: Bei Fragestellungen mit Symmetrie-Eigenschaften (z. B. Würfel).
n verschiedene und gleich-wahrscheinliche Arten ein, wovon k die
A haben, so ist die Wahrscheinlichkeit für das Auftreten von A gegeben durch:
Tritt ein Ereignis auf
Eigenschaft
P (A) =
k
n
.
(2.1)
Beispiel: Würfel
A =
⇒ P (eine
Beispiel:
eine 5 würfeln
,
k = 1
(Eine Seite des Würfels hat die 5)
n = 6
(= Anzahl der Würfel-Seiten)
5 würfeln)
,
,
1
.
6
=
Söhne und Töchter
Frau sagt
:
Ich habe zwei Kinder.
Frage
:
Haben sie eine Tochter?
Frau
:
Ja.
Aufgabe
:
Wahrscheinlichkeit bestimmen, daÿ die Frau zwei Töchter hat.
Lösung
:
Es gibt vier gleich wahrscheinliche Fälle:
1.Kind:
2.Kind:
|
Tochter
Sohn
Tochter
Tochter
Sohn
Tochter
{z
n = 3Möglichkeiten
⇒
P (2
Töchter)
Sohn
Sohn
| {z
}
}
Ausgeschlossen, da Frau Tochter hat
=
1
3.
5
KAPITEL 2. WAHRSCHEINLICHKEIT
2. Ansatz: Bei Fragestellungen ohne Symmetrie-Argumente.
Hier kann man empirisch Vorgehen und Beobachtungen unter gleichen Bedingungen
durchführen, wobei die Beobachtungen
Eigenschaft
A k -mal
unabhängig
Der Fehler von
Beispiel:
voneinander sein müssen. Wenn die
auftritt, ist ist die Wahrscheinlichkeit für das Auftreten von
P (A) =
P (A)
ist durch
n
n-mal
k
n→∞ n
.
lim
A:
(2.2)
justierbar (wird später quantitativ erklärt).
Fälscherbande von Würfeln entlarven...
2.2 Kombination von Wahrscheinlichkeiten
Gibt es zwei Arten von Ereignissen
Auftreten der einzelnen Ereignisse
entweder Ereignis
A
oder
B
A und B und sind die Wahrscheinlichkeiten für das
P (A) und P (B), so ist die Wahrscheinlichkeit, daÿ
eintritt gegeben durch:
P (A ∨ B) = P (A) + P (B) − P (A ∧ B)
P (A ∧ B)
ist hier die Wahrscheinlichkeit, daÿ
A
und
B
Falls sich die Ereignisse gegenseitig ausschlieÿen, so gilt
.
(2.3)
gleichzeitig eintreten.
P (A ∧ B) = 0.
Beispiel: Münzwurf Die Wahrscheinlichkeit das Kopf und Zahl gleichzeitig auftreten ist
P (Kopf ∧ Zahl) = 0.
Daraus ergibt sich für die Wahrscheinlichkeit das Kopf oder Zahl auftreten:
P (Kopf ∨ Zahl) = P (Kopf) + P (Zahl).
Ein häuger Spezialfall ist, wenn das Ereignis
B
dem Nichtauftreten von
B ≡ Ā
A
entspricht:
(2.4)
⇒ P (A ∨ B) = P (A ∨ Ā)
(2.5)
= P (A) + P (Ā)
= 1.
Beispiel:
triviale Wettervorhersage
Die Wahrscheinlichkeit, daÿ das Wetter sich ändert oder daÿ es bleibt wie es ist, ist eins.
Leider kann man daraus keine Schlüsse auf die einzelnen Wahrscheinlichkeiten ziehen.
Die Wahrscheinlichkeit, daÿ zwei Arten von Ereignissen
A
und
B
zusammen auftreten ist
allgemein gegeben durch:
P (A ∧ B) = P (A) · P (B|A)
6
.
(2.6)
KAPITEL 2. WAHRSCHEINLICHKEIT
P (B|A) die bedingte Wahrscheinlichkeit, daÿ B auftritt wenn auch A aufgetreten
einfachsten Fall sind die Ereignisse A und B unabhängig voneinander. In diesem
Hierbei ist
ist. Im
Fall gilt:
P (B|A) = P (B)
(2.7)
⇒ P (A ∧ B) = P (A) · P (B).
Beispiele:
a) Tod in den Bergen
Die Wahrscheinlichkeit, bei einer Expedition auf einen Achttausender umzukommen
beträgt:
P (A) = 3, 4%
Daraus ergibt sich für die Überlebenswahrscheinlichkeit:
P (Ā) = 1 − P (A) = 96, 6% = 0, 966.
Die Wahrscheinlichkeit, eine zweite Expedition zu überleben, ist dann ebenfalls:
P (B̄) = 0, 966
⇒ P (Ā ∧ B̄) = 0, 966 · 0, 966 = 0, 933.
Die Wahrscheinlichkeit, 29 Expeditionen zu überleben, ist demzufolge:
P (29Ā) = (0, 966)29 = 0, 367.
Die Wahrscheinlichkeit, bei 29 Expeditionen auf Achttausender umzukommen, ergibt
sich also zu
P (29A) = 1 − P (29Ā) = 0, 633.
b) Ziegenproblem
Quiz-Sendung:
7
KAPITEL 2. WAHRSCHEINLICHKEIT
Die Wahrscheinlichkeit, das Auto zu gewinnen, wenn man einmal rät, ist:
P0 (Auto) =
1
.
3
Bevor nun die von der Kandidatin gewählte Tür geönet wird, zeigt der Quizmaster ihr
eine Ziege hinter einer anderen Tür. Soll die Kandidatin nun ihre Meinung ändern?
1.)
Kandidatin wählt zunächst
Tür 1
Quizmaster önet
Tür 2
Kandidatin ändert Wahl auf
Tür 3
⇒ P1 (Auto) = 1
2.)
Kandidatin wählt zunächst
Tür 2
Quizmaster önet
Tür 1
Kandidatin ändert Wahl auf
Tür 3
⇒ P2 (Auto) = 1
3.)
Kandidatin wählt zunächst
Tür 3
Quizmaster önet
Tür 1
Kandidatin ändert Wahl auf
Tür 2
⇒ P3 (Auto) = 0
Daraus folgt für die Wahrscheinlichkeit, anfangs eine bestimmte Tür zu wählen (P0
1/3) und
=
ein Auto zu gewinnen:
P
= P 0 · P 1 + P0 · P2 + P 0 · P 3
1
1
1
=
·1 + ·1 + ·0
3
3
3
2
=
.
3
Also sind die Chancen, das Auto zu gewinnen, besser, wenn die Kandidatin ihre Meinung
ändert.
2.3 Theorem von Bayes
Die Wahrscheinlichkeit für das gemeinsame Auftreten der Ereignisse
bzw. genauso
P (B ∧ A).
A und B
ist
P (A ∧ B)
Nach Gleichung 2.6 ist demnach::
P (A ∧ B) = P (B ∧ A)
P (A) · P (B|A) = P (B) · P (A|B)
Daraus ergibt sich
Bayes Theorem :
P (A|B) = P (B|A) ·
P (A)
P (B)
(2.8)
Bayes Theorem spielt eine wichtige Rolle bei Aussagen über einen wahren Wert, der aus
fehlerbehafteten Messungen bestimmt wurde.
8
KAPITEL 2. WAHRSCHEINLICHKEIT
Die allgemeine Formulierung des Theorems bei
Ai , i = 1, 2, .., n
n
Ereignisklassen mit den Eigenschaften
lautet:
P (Ai |B) =
P (B|Ai ) · P (Ai )
n
P
.
(2.9)
P (B|Ai ) · P (Ai )
i=1
Beispiel: HIV-Test
Angenommen, eine Person unter 1000 ist HIV positiv. Das bedeutet die Wahrscheinlichkeit HIV positiv zu sein, ist:
1
=
1000
HIV) = 0, 999 .
P (HIV) ≈
P (kein
0, 001
Die Verläÿlichkeit eines HIV-Tests ist gegeben durch:
P (+|HIV) = 0, 98
P (+|kein HIV) = 0, 03
richtige Bestimmung einer Person mit HIV
falsch diagnostiziertes HIV
Daraus ergibt sich die Wahrscheinlichkeit, daÿ eine HIV-diagnostizierte Person auch wirklich HIV positiv ist:
P (HIV|+) =
P (+|HIV) · P (HIV)
P (+|HIV) · P (HIV) + P (+|kein HIV) · P (kein
HIV)
0, 98 · 0, 001
0, 98 · 0, 001 + 0, 03 · 0, 999
≈ 0, 032
=
Die HIV positiv diagnostizierte Person ist also nur mit 3,2% Wahrscheinlichkeit wirklich
HIV positiv.
9
Kapitel 3
1-dimensionale
Wahrscheinlichkeitsverteilungen
3.1 Zufallsvariable
Eine Zufallsvariable kann auf Grund statistisch unkontrollierter Einüsse verschiedene Werte annehmen. Diese können wie z. B. beim Würfel diskret oder wie z. B. bei einer Temperaturmessung kontinuierlich sein.
3.1.1 Diskrete Zufallsvariable
ri , i = a, ...b ∈ Z annehmen,
Wert ri auftritt P (ri ):
Kann die Zufallsvariable ausschlieÿlich diskrete Werte
die Wahrscheinlichkeit, daÿ bei einer Messung der
0 < P (ri ) < 1
so ist
(3.1)
Die Wahrscheinlichkeit aller möglicher Fälle ist:
b
X
P (ri ) = 1
(3.2)
i=a
11
KAPITEL 3. 1-DIMENSIONALE WAHRSCHEINLICHKEITSVERTEILUNGEN
P(r)
diskrete Verteilung
0.3
0.2
0.1
0
0
1
2
3
4
5
6
7
8
r
Der Mittelwert der diskreten Zufallsvariablen ist gegeben durch:
<r> =
Z. B. beim Würfel mit
P (ri ) =
<r> =
Pb
i=a ri · P (ri )
(3.3)
1
:
6
1+2+3+4+5+6
=
6
21
= 3, 5
6
3.1.2 Kontinuierliche Zufallsvariable
Kann eine Zufallsvariable kontinuierliche Werte
lichkeit, daÿ der Wert
x
zwischen
a
und
b
x∈R
annehmen, so ist die Wahrschein-
liegt, gegeben durch:
P (a ≤ x ≤ b) =
Rb
a
f (x) dx
(3.4)
f(x)
kontinuierliche Verteilung
10
P(6<x<10) = Flaeche =
0.1
∫ f(x) dx
6
0.05
0
wobei
f (x)
die
0
5
10
Wahrscheinlichkeitsdichte
Z
x
20
x
ist, für die gilt:
f (x) ≥ 0
(3.5)
f (x) dx = 1
(3.6)
∞
−∞
12
der Variablen
15
KAPITEL 3. 1-DIMENSIONALE WAHRSCHEINLICHKEITSVERTEILUNGEN
Die
Wahrscheinlichkeitsverteilung
Wahrscheinlichkeitsfunktion
bzw.
ist das Integral der
Wahrscheinlichkeitsdichte:
Z
x0
F (x0 ) =
f (x) dx
(3.7)
−∞
⇒ F (−∞) = 0
(3.8)
F (∞) = 1.
Also gibt
F (x0 )
die Wahrscheinlichkeit an, daÿ
(3.9)
x ≤ x0 .
Der Mittelwert einer kontinuierlichen Verteilung ist gegeben durch:
<x> =
R∞
−∞ x
f (x) dx
.
(3.10)
3.2 Erwartungswerte, algebraische und zentrale Momente
Allgemeine Formulierung:
Der Erwartungswert einer Funktion
h(x)
ist gegeben durch:
R∞
−∞ h(x) · f (x)
E[h] =
Erwartungswerte einfacher Polynomfunktionen von
E[xn ]
E[(x− < x >)n ]
:
:
n-tes
n-tes
x
dx
.
(3.11)
werden Momente genannt:
algebraisches Moment
zentrales Moment
Bei den ersten und zweiten Momenten treten einige schon bekannte Spezialfälle auf.
3.2.1 Mittelwert
Der Mittelwert ist das 1. algebraische Moment:
Z
∞
x · f (x) dx
E[x] =
(3.12)
−∞
= <x> .
(3.13)
Daraus ergibt sich für das 1. zentrale Moment:
Z
∞
(x− < x >) · f (x) dx
E[x− < x >] =
Z−∞
∞
(3.14)
Z
∞
x · f (x) dx − < x > ·
=
−∞
f (x) dx
(3.15)
−∞
= < x > − < x > ·1
(3.16)
= 0
(3.17)
13
KAPITEL 3. 1-DIMENSIONALE WAHRSCHEINLICHKEITSVERTEILUNGEN
3.2.2 Root-Mean-Square
Die Wurzel des 2. algebraischen Moments wird Root-Mean-Square (RMS) oder auch quadratischer Mittelwert genannt
xRMS =
p
E[x2 ]

Z∞
= 
h
(2.
1/2
Algebraisches Moment)
i
1/2
x2 f (x) dx
(3.18)
−∞
(3.19)
3.2.3 Varianz
2
∞
Z
(x− < x >)2 · f (x)dx
E[(x− < x >) ] =
(3.20)
−∞
← Varianz
= V [x]
= σ
Hier ist
σ
(3.21)
2
(3.22)
die Standardabweichung, also das Maÿ für die Gröÿe der statistischen Schwan-
kungen der Zufallsvariablen
x
um den Mittelwert. Dies wird auch als Fehler bezeichnet.
Das RMS und die Varianz haben folgenden Zusammenhang:
V [x] = E[(x− < x >)2 ]
= E[x2 − 2x < x > + < x >2 ]
Z∞
= E[x2 ] + < x >2 −2 < x >
x f (x) dx
−∞
|
Für
< x >= 0
xRMS
= E[x2 ] − < x >2
p
=
V [x] + < x >2
xRM S
=
{z
=<x>
}
(3.23)
(3.24)
ist
p
V [x] = σ
← Standardabweichung
(3.25)
N.B.: Vorsicht beim Programmpaket für Histogramme ROOT, dort heiÿt es RMS, aber
berechnet wird:
σ =
p
V [x] = E[x2 ] − < x >2 .
(3.26)
3.3 Weitere Lokalisierungs- und Dispersionsparameter
Wahscheinlichkeitsdichten können durch verschiedene Typen von Parametern charakterisiert werden:
14
KAPITEL 3. 1-DIMENSIONALE WAHRSCHEINLICHKEITSVERTEILUNGEN
1)
Lokalisierungsparater z.B. Mittelwert
2)
Dispersionsparameter z.B. Standardabweichung,
Im folgenden werden einige wichtige solcher Parameter aufgefürt.
3.3.1 Wahrscheinlichster Wert
Der Wahrscheinlichste Wert ist das Maximum der Wahrscheinlichkeitsdichtefunktion.
3.3.2 Median
Ein zufällig gewählter Wert liegt mit gleicher Wahrscheinlichkeit oberhalb bzw. unterhalb
des Medians:
R∞
f (x) dx = 0, 5
(3.27)
−∞
Der Median ist oft nützlich für Verteilungen mit langen Ausläufern, so daÿ der Mittelwert
weit vom Maximum entfernt liegt
3.3.3 Getrimmter Mittelwert
Beispiel:
Sport: Weglassen der besten und der schlechtesten Schiedsrichterwertung
Allgemein:
Bei
n
Messpunkten werden die folgenden Werte unberücksichtigt gelassen:
n
2
n
(1 − 2r)
2
(1 − 2r)
kleinsten
Werte
(3.28)
gröÿten
Werte
Der Mittelwert wird mit den verbleibenden
N
n
2
= n (1 − (1 − 2r))
= n − 2 (1 − 2r)
= 2rn
(3.29)
Werten gebildet.
Für
Für
r = 0, 5 ist N = 2 · 0, 5n = n und der getrimmte Mittelwert
r → ∞ gilt N → 0 und der getrimmte Mittelwert ist gleich
Empfehlung:
r = 0, 23
gleich dem Mittelwert.
dem Median.
(3.30)
Typische Wahrscheinlichkeitsdichten im Vergleich, Kompromiss für Mittelwertbestimmung.
15
KAPITEL 3. 1-DIMENSIONALE WAHRSCHEINLICHKEITSVERTEILUNGEN
3.3.4 Full-Width-Half-Maximum
Eine weitere nützliche Gröÿe ist das Full-Width-Half-Maximum (FWHM), also die volle
Breite auf halber Höhe einer Verteilung.
Beispiel: Maxwellsche Geschwindigkeitsverteilung eines idealen Gases
Die Wahrscheinlichkeitsdichte des Betrags der Geschwindigkeit
Gases bei einer Temperatur
T
(in Kelvin) ist gegeben durch:
f (v) = N ·
Der Wahrscheinlichste Wert für
v
m
2πkT
!2
3
mv 2
· 4πv · exp −
2kT
!
2
beträgt:
2kT
m
vmax =
Dieser ist
v der Moleküle eines ideales
!1
2
nicht identisch mit dem Mittelwert. Dieser beträgt:
8kT
πm
<v> =
!1
2
=
1.128 · vmax
Der Median der Maxwellverteilung ist
v0,5 = 1, 098 · vmax
Der RMS liegt bei
vRMS =
3kt
m
!1/2
=
1, 225 · vmax
Maxwellsche Geschwindigkeitsverteilung
f(v/vmax)
1.2
v0,5vRMS
vmax<v>
1
0.8
0.6
FWHM
0.4
0.2
0
16
0
0.5
1
1.5
2
2.5
v/vmax3
KAPITEL 3. 1-DIMENSIONALE WAHRSCHEINLICHKEITSVERTEILUNGEN
3.4 Problemstellungen und Verteilungen mit diskreter Variable
3.4.1 Kombinatorik
Kombinatorik ist oft ein nützliches Instrument, um Wahrscheinlichkeitsberechnungen durchzuführen.
Möchte man
r
verschiedene Objekte in einer Reihe anordnen, so beträgt die Anzahl der
verschiedenen Möglichkeiten:
N
Beispiel:
Sollen aus
= r!
(3.31)
r = 3: r! = 3 · 2 · 1 = 6
n
verschiedenen Objekten
abc
bca
cab
acb
bac
cba
r
ausgewählt werden, wobei die Reihenfolge wichtig
ist, so beträgt die Anzahl der verschiedenen Möglichkeiten:
N
= n(n − 1)(n − 2)...(n − r + 1)
=
Beispiel:
n = 4, r = 2: N =
n!
.
(n − r)!
(3.32)
(3.33)
4!
= 4 · 3 = 12
2!
abcd:
ab
ac
ad
ba
bc
bd
ca
cb
cd
da
db
dc
Ist die Reihenfolge unwichtig, so muÿ durch die Anzahl der Anordnungsmöglichkeiten dividiert werden.
N
n!
r!(n − r)!
n
≡
← Binominialkoezient
r
=
=
Beispiel:
n n−1 n−r+1
·
...
r r−1
1
n = 4, r =: N =
← für
numerische Rechnungen
(3.34)
(3.35)
(3.36)
4!
=6
2!2!
abcd:
ab
ac
ad
bc
bd
cd
17
KAPITEL 3. 1-DIMENSIONALE WAHRSCHEINLICHKEITSVERTEILUNGEN
3.4.2 Binomialtheorem
n
(p + q)
=
n X
n
r=0
r
· pr · q n−r
(3.37)
Beispiel:
2
(a + b)
2 X
2
=
r=0
r
· ar · b2−r
2
2
2
0 2
1 1
=
·a ·b +
·a ·b +
· a2 · b0
0
1
2
2! 2
2!
2! 2
·b +
ab +
a
0!2!
1!1!
2!0!
= b2 + a b + a2
=
3.4.3 Binomialverteilung
Die Wahrscheinlichkeit für das Auftreten eines Ereignisses sei
bei
n
Versuchen bei den ersten
r
p.
Soll dieses Ereignis nun
auftreten und nicht bei den letzten
n − r,
ist die Wahr-
scheinlichkeit dafür:
pr · (1 − p)n−r .
(3.38)
Spielt die Reihenfolge keine Rolle, ist die Anzahl von Möglichkeiten, daÿ in
mal das Ereignis auftritt
in
n
Versuchen genau
P
Diese Verteilung wird
r
=
n
r
· pr · (1 − p)n−r
Binominialverteilung
,
r = 0, 1, 2, 3, ..., n .
(3.39)
genannt.
P(r)
0.15
0.1
0.05
18
r
mal auftritt:
0.2
0
Versuchen
Binomial-Verteilung mit n=20 und p=0,2
0
n
n
r . Daraus ergibt sich die Wahrscheinlichkeit, daÿ das Ereignis
2
4
6
8
10
r
KAPITEL 3. 1-DIMENSIONALE WAHRSCHEINLICHKEITSVERTEILUNGEN
Beispiel: Mit sechs Würfen keinmal die sechs würfeln.
1
6
6
P (0) =
·
0
!0
!6
5
6
·
6!
56
·1· 6
0!6!
6
= 33, 5%
=
Die Binomialverteilung ist bereits auf eins normiert, wie man durch Einsetzen des Binomialtheorems Gleichung 3.37 sofort sieht:
n
X
n X
n
P (r) =
r=0
r
r=0
· pr · (1 − p)n−r
= (p + (1 − p))n
= 1.
(3.40)
Der Mittelwert der Binominialverteilung ist gegeben durch:
< r > = E[r]
n
X
=
r · P (r)
r=0
< r > = np
,
(3.41)
die Varianz durch:
σ 2 = V [r]
n
X
=
(r− < r >)2 · P (r)
r=0
σ 2 = n p (1 − p)
Beweis: wir führen die Variable
.
(3.42)
t ein und dierenzieren einmal nach t für den Mittelwert:
f (t) = (p t + q)n
n X
n
· pr · tr · q n−r
=
r
(3.43)
r=0
⇒
∂f
∂t
= n · p · (p t + q)n−1
(3.44)
andererseits gilt auch:
∂f
∂t
=
n X
n
r=0
r
· pr · r · tr−1 · q n−r .
t = 1 und q = 1 − p, so erhält
n X
n r
p · (1 − p)n−r · r
n p (p · 1 + (1 − p))n−1 =
|
{z
}
r
r=0 |
{z
}
1
Wählt man nun in Gleichung 3.44 und 3.45
(3.45)
man mit 3.3
P (r)
np =
n
X
P (r) · r
r=0
= <r> .
(3.46)
19
KAPITEL 3. 1-DIMENSIONALE WAHRSCHEINLICHKEITSVERTEILUNGEN
Ähnlich kann man mit der 2. Ableitung den Beweis für die Varianz führen (siehe [1]).
Beispiel: Glühbirnen-Hersteller
Es wird eine Ausschussrate
p = 2%
über viele Produktionen gemessen. In einer Stichpro-
be von 100 Birnen werden 4 kaputte Birnen festgestellt. Die Wahrscheinlichkeit hierfür
beträgt:
P (4) =
100
· 0, 024 · (1 − 0, 02)100−4
4
100!
· 0, 024 · 0, 9896
4! · (100 − 4)!
= 0, 09
=
= 9%
Es ist also nicht unwahrscheinlich, daÿ dies passiert.
Bei der Binomialverteilung kann folgendes Problem auftreten:
Ist n groÿ, so treten sehr groÿe Zahlen auf, was zu numerischen Unsicherheiten führt. Hier
wäre es praktisch, eine gute Näherung zu nden.
3.4.4 Poissonverteilung
Die Poissonverteilung gibt die Wahrscheinlichkeit an, genau r Ereignisse zu erhalten, wenn
zum einen die Zahl der Versuche
n
sehr groÿ ist und zum anderen die Wahrscheinlichkeit
für ein Ereignis bei nur einem Versuch sehr klein ist. Hierbei gilt für den Mittelwert:
< r > = n·p ≡ µ < ∞
Die Wahrscheinlichkeit für r ist durch nur einen Parameter
.
µ
(3.47)
charakterisiert und gegeben
durch:
P (r) =
µr · e−µ
r!
r = 0, 1, 2, . . . , n .
(3.48)
P(r)
Poisson-Verteilung mit µ=4
0.2
0.15
0.1
0.05
0
20
0
2
4
6
8
10
r
KAPITEL 3. 1-DIMENSIONALE WAHRSCHEINLICHKEITSVERTEILUNGEN
Die Varianz der Poissonverteilung ist gegeben durch:
= σ2 = µ
V
.
(3.49)
Beispiel: Glühbirnen Hersteller
Bei einer Ausschuÿrate von 2% und 100 Birnen, ergibt sich ein Mittelwert von:
µ = n · p = 100 · 0.02 = 2 .
Die Wahrscheinlichkeit, daÿ vier von 100 Birnen defekt sind, ist nach Poissonverteilung:
P (4) =
=
24 · e−2
µ4 · e−µ
=
4!
24
0.09
= 9% .
Das ist einfacher zu berechnen im Vergleich zur Binomialverteilung.
Die Poissonverteilung kann aus der Binomialverteilung hergeleitet werden. Wie oben schon
erwähnt, gilt:
< r > = np
= µ
⇒
p =
µ
.
n
(3.50)
Dies kann man nun in die Binomialverteilung einsetzten:
n
P (r) =
· pr · (1 − p)n−r
r
!r
!n−r
µ
µ
n!
· 1−
=
r!(n − r)! n
n
=
=
=
Da
µ = n · p = const.
!n−r
µr n · (n − 1) · . . . · (n − r + 1)
µ
·
· 1−
r!
nr
r
"
!n−r #
µr
n n−1
n−r+1
µ
·
·
· ... ·
· 1−
r!
n
n
n
n
!n 

µ
!
!
1−

n 

r−1
µr 
1
!r 
·
1· 1 −
· ... · 1 −
·

 .
r! 
n
n
µ 
1−
n
und
n
sehr groÿ, gilt
!
1
lim 1 −
= 1,
n→∞
n
!r
µ
= 1.
lim 1 −
n→∞
n
21
KAPITEL 3. 1-DIMENSIONALE WAHRSCHEINLICHKEITSVERTEILUNGEN
Sowie:
lim
n→∞
!n
µ
= e−µ ,
1−
n
da:
lim
n→∞
1
1+
n
!n
= e.
Also ergibt sich:
P (r) =
µr −µ
e .
r!
3.5 Wahrscheinlichkeitsdichten für kontinuierliche Variable
3.5.1 Gauÿ-Verteilung
Die Gauÿ'sche Wahrscheinlichkeitsdichte wird häug auch Gauÿ-Verteilung genannt:
f (x) = √
1
2π σ
(x − µ)2
2σ 2
·e
−
.
(3.51)
Mittelwert und Varianz der Gauÿ-Verteilung ergeben sich zu:
<x> = µ
V = σ2
(3.52)
f(x)
Gauss-Verteilung mit µ=4 und σ=2
0.2
0.15
0.1
0.05
0
Die
Standardisierte Gauÿ-Verteilung
Breite von
22
0
σ = 1.
5
ist symmetrisch um
10
x
x = 0 (→ µ = 0)
und hat eine
KAPITEL 3. 1-DIMENSIONALE WAHRSCHEINLICHKEITSVERTEILUNGEN
f(x)
Gauss-Verteilung mit µ=0 und σ=1
0.4
0.3
0.2
0.1
0
-4
-2
0
Die Gauÿ-Verteilung fällt in der Entfernung
σ
2
auf den
4
x
√
1/ e-ten
Teil ab:
(x−µ)2
e−1/2 = e 2σ2
(x − µ)2
1 =
σ2
σ = |x − µ|
(3.53)
Integrieren über die Gauÿ-Verteilung ergibt:
√
1
2π σ 2
Zσ
e
(x−µ)2
2σ 2
dx
= 68, 26%
(3.54)
−σ
Dies ergibt die Wahrscheinlichkeit, eine Zufallsvariable im Intervall
µ−σ ≤ x ≤ µ+σ
zu nden. D.h. in
1/3
der Fälle (z.B. bei Messungen) liegt
(3.55)
x
auÿerhalb des
Innerhalb des Intervalls
ist Wahrscheinlichkeit
|x − µ| < σ
|x − µ| < 2σ
|x − µ| < 3σ
68,26 %
±1σ
Bereiches.
95,45 %
99,73 %
Die Gauÿ-Verteilung kann als Spezialfall aus Binomial- sowie Poisson-Verteilung hergeleitet
werden:
•
Ist die Anzahl
n
der Versuche sowie die Anzahl
r
der Ereignisse groÿ, so kann die
Gauÿ-Verteilung aus der Binomialverteilung hergeleitet werden.
•
Ist der Mittelwert
µ = np
in der Poissonverteilung groÿ, so geht daraus ebenfalls die
Gauÿ-Verteilung hervor.
23
KAPITEL 3. 1-DIMENSIONALE WAHRSCHEINLICHKEITSVERTEILUNGEN
Vergleich zwischen Gauss-. Poisson- und Binominial-Verteilung
P(x)
0.25
Gauss-Verteilung
0.2
Poisson-Verteilung
Binominial-Verteilung
0.15
0.1
0.05
0
0
2
4
6
8
10
x
Um die Gauÿ-Verteilung aus der Binomialverteilung herzuleiten, entwickelt man den Logarithmus der Binominialverteilung für groÿe
n
um das Maximum:
n
r
n−r
ln P (r) = ln
·p ·q
r
n!
r!(n − r)!
= r · ln p + (n − r) ln q + ln n! − ln r! − ln(n − r)! .
= r ln p + (n − r) ln q + ln
Dazu bestimmt man zuerst das Maximum:
∂
∂
∂
!
ln P (r) = ln p − ln q −
ln r! −
ln(n − r)! = 0 .
∂r
∂r
∂r
Hierzu wird die Stirlingsche Formel für Fakultäten groÿer Werte verwendet:
⇒
!
1
1
· ln(n − r) − (n − r) + ln(2π)
ln(n − r)! ≈
n−r+
2
2
!
−1
∂
1
ln(n − r)! = − ln(n − r) + n − r +
·
+1
∂r
2
n−r
|
{z
}
(3.56)
≈−1
≈ − ln(n − r)
(3.57)
und
ln r! ≈
⇒
!
1
1
r+
· ln r − r + · ln(2 · π)
2
2
(3.58)
1
r+
∂
2 −1
ln r! = ln r +
∂r
r
| {z }
≈1
≈ ln r .
Daraus ergibt sich:
∂
!
ln P (r) = ln p − ln q − ln r + ln(n − r) = 0
∂r
24
(3.59)
KAPITEL 3. 1-DIMENSIONALE WAHRSCHEINLICHKEITSVERTEILUNGEN
Also:
ln
n−r
q
= ln
r
p
⇒
q
n
= 1+
r
p
⇒
r =
=
rmax = n · p
⇒
Nun die Entwicklung um
n
1+
q
p
n·p
p+q
= <r>
(3.60)
rmax =< r >= n p:
ln P (r) = ln P (< r >)
∂
ln P (r)r=<r> · (r− < r >)
∂r
1 ∂2
+
ln P (r)r=<r> · (r− < r >)2 + · · ·
2
2! ∂r
+
Die 1. Ableitung im Maximum ist null. Die 2. Ableitung ist:
∂2
ln P (r) =
∂r2
⇒
∂
(− ln r + ln(n − r))
∂r
1
−1
= − +
r n−r
!
1
1
1
= −
+
2 < r > n − n·p
!
1
1
1
= −
+
2 n·p n − n·p
1 ∂2
ln P (r)r=<r>
2
2! ∂r
1 1−p+p
= − ·
2 n · p · (1 − p)
1
1
ln P (r) ≈ ln P (< r >) − ·
· (r− < r >)2
2 n · p · (1 − p)
!
(r− < r >)2
.
⇒ P (r) = P (< r >) · exp −
2 · n · p · (1 − p)
⇒
Es ergibt sich also eine Gauÿ-Verteilung mit:
Mittelwert:
Varianz:
µ = <r>
,
V = n p (1 − p) = σ 2 .
Häug wird das FWHM einer Gauÿ-Verteilung angegeben. Das Maximum der GauÿVerteilung liegt bei:
fmax (x = µ) =
√
1
2π σ
(3.61)
25
KAPITEL 3. 1-DIMENSIONALE WAHRSCHEINLICHKEITSVERTEILUNGEN
Daraus ergibt sich für das FWHM:
1
1
·√
=
2
2π σ
√
1
e−
(x−µ)2
2σ 2
2π σ
(x − µ)2
1
= −
ln
2
2σ 2
2
2σ ln 2 = (x − µ)2
√
x − µ = ±σ 2 ln 2
⇒
FWHM
√
= 2σ 2 ln 2
≈ 2, 355σ
(3.62)
3.5.2 Gleichverteilung
Hier ist die Wahrscheinlichkeitsdichte konstant zwischen
x=a
und
x = b:
f(x)
Gleichverteilung mit a=3 und b=8
0.2
0.15
0.1
0.05
0
0
2
4
6
8


 1
a≤x≤b
f (x) =
b−a

0
auÿerhalb
a+b
<x> =
2
(b − a)2
V =
12
Oft ist
26
a=0
und
b=1
10
x
(3.63)
KAPITEL 3. 1-DIMENSIONALE WAHRSCHEINLICHKEITSVERTEILUNGEN
f(x)
Gleichverteilung mit a=0 und b=1
1
0.8
0.6
0.4
0.2
0
0
0.5
1
1.5
x
Hier gilt:
<x> =
σ =
1
2
√
V
=
1
√
12
27
Kapitel 4
Kombination von
Wahrscheinlichkeitsdichten
4.1 Faltung von Wahrscheinlichkeitsdichten
x, y mit den zugehörigen Wahrscheinlichkeitsdichten fx (x) und fy (y) aus. Die Summe w = x + y ist wieder eine Zufallsvariable mit der
Wahrscheinlichkeitsdichte fw (w).
ZZ
fw (w) =
fx (x) · fy (y) · δ(w − x − y) dx dy
Z
=
fx (x) · fy (w − x) dx
Z
=
fy (y) · fx (w − y) dy .
(4.1)
Wir gehen von zwei Zufallsvariablen
Dieses Verfahren heiÿt
Faltung. Die δ -Funktion gewährleistet, daÿ w = x+y für alle Werte,
und hat die folgende Eigenschaft:
Z∞
h(x) δ(x − a) dx = h(a) .
(4.2)
−∞
4.2 Der zentrale Grenzwertsatz
Der Zentrale Grenzwertsatz spielt eine entscheidende Rolle für die Interpretation von Meÿdaten. Seine wesentliche Aussage ist, daÿ sich bei der Addition einer groÿen Anzahl von
Zufallszahlen immer eine Gauÿ-Verteilung ergibt.
Die mathematische Formulierung des
Zentralen Grenzwertsatzes
lautet:
Die Wahrscheinlichkeitsdichte der Summe
w =
n
X
xi
(4.3)
i=1
29
KAPITEL 4. KOMBINATION VON WAHRSCHEINLICHKEITSDICHTEN
einer Stichprobe aus
n
xi
unabhängigen Zufallsvariablen
keitsdichte mit dem Mittelwert
< x >
mit beliebiger Wahrscheinlich-
σ2
und der Varianz
geht für
n → ∞
gegen eine
Gauÿ-Wahrscheinlichkeitsdichte mit dem Mittelwert
<w> = n <x>
(4.4)
und der Varianz
V [w] = n σ 2 .
(4.5)
Beispiel: Überlagerung von Zufallszahlen
Es werden 10 zwischen 0 und 1 gleichverteilte Zufallszahlen addiert, im ersten Bild sieht
man die Verteilung der ersten Zufallszahl, im zweiten die Verteilung der Summe der ersten
beiden Zufallszahlen (Dreiecksform) und im dritten die Summe aller zehn Zufallszahlen.
Man kann deutlich die Gauÿ-Form erkennen.
Zufallszahl x1
Zufallszahlen x1 + ... + x10
Zufallszahlen x 1 + x2
Entries 10000
120
Entries
Entries 10000
200
Mean
RMS
100
0.5001
Mean
0.2882
RMS
1
0.4037
10000
Mean
5.007
RMS
0.9103
χ2 / ndf
400
92.34 / 60
Prob
0.004626
439.4 ± 5.3
Constant
5.004 ± 0.009
Mean
150
0.9001 ± 0.0060
Sigma
80
300
60
100
200
40
50
100
20
0
0
0
0.2
0.4
0.6
0.8
1
1.2
0
0
0.5
1
1.5
2
0
2
4
6
8
10
< w >= 10 · 0, 5 = 5
10
und eine Varianz von V [w] = 10 · √
2 = 12 = 0, 83 und daraus eine Breite von σw = 0, 91.
12
Cross-Check: für
n = 10
ergibt sich ein erwarteter Mittelwert von
1
Herleitung zum Mittelwert:
E[W ] = < w >
n
X
= E[
xi ]
i=1
=
n
X
E[xi ]
i=1
= n· < x > .
30
KAPITEL 4. KOMBINATION VON WAHRSCHEINLICHKEITSDICHTEN
Herleitung zur Varianz:
V [W ] = E[(w− < w >)2 ]

!2 
n
n
X
X
xi −
< xi > 
= E
i=1

n
X
= E
i=1
!2 
(xi − < xi >)

i=1
"
= E
n
X
(xi − < xi >) ·
i=1
n
X
#
(xk − < xk >)
i=1


 n

n
X
X

2

(xi − < xi >) · (xk − < xk >)
= E  (xi − < xi >) +

 i=1

i=1
|
{z
}
=0, da xi und xk unkorreliert sind
"
= E
n
X
#
(xi − < xi >)2
i=1
= n · V [x] .
4.3 Interpretation von Messwerten
Jede einzelne Messung wird von vielen Fehlerquellen beeinuÿt, die den wahren Wert zum
Zeitpunkt der Messung verändern. Viele Fehlerquellen, die unabhängig voneinander auftreten und den Meÿwert zufällig in die ein oder andere Richtung ziehen, folgen gemeinsam
einer Gauÿ-Wahrscheinlichkeitsdichte
aufgefaÿt werden, die
Die Schätzung
x̄
f (x)
f (x).
Die Meÿdaten
xi
können als Zufallsvariablen
entnommen wurden (Stichprobe).
für den wahren Mittelwert von
x̄ =
f (x)
(Stichprobenmittelwert) lautet:
n
1X
xi .
n
(4.6)
i=1
Und die Schätzung der Varianz
σ2
für die wahre Varianz
V = σ2
von
f (x)
(Stichproben-
varianz) lautet:
s2 =
n
1 X
(xi − x̄)2 .
n−1
(4.7)
i=1
Beispiel: Versuch aus der ersten Vorlesung
Die Zeit für Informationsübertragung wurde acht mal gemessen. Aus den berechneten
Schätzwerten für den Mittelwert
<t>
und Standardabweichung
σ
ergibt sich das Meÿer-
gebnis:
t̄ ± s .
D. h. 68 % der Messungen liegen innerhalb von
(4.8)
t̄ − s < t < t̄ + s
Zum Test der Reproduzierbarkeit wurde eine neunte zusätzliche Messung gemacht und
t ≈ t̄ + s
gemessen. Dies ist also ein wahrscheinlicher Wert.
31
KAPITEL 4. KOMBINATION VON WAHRSCHEINLICHKEITSDICHTEN
Entries
Mean
RMS
χ2 / ndf
8
1.029
0.09892
0.816 / 2
Prob
0.665
Constant
2.709 ± 1.192
Mean
1.037 ± 0.042
Sigma
0.1181 ± 0.0317
N
Zeitmessung mit Gauss-Fit
4
3
2
1
0
0.8
1
1.2
1.4
t [s]
Nebenbemerkung:
Dieser statistische Fehler berücksichtigt nur zufällige Fehler, nicht aber systematische Fehler, wie beispielsweise eine fehlerhafte Eichung des Uhrwerks. Letztere müssen separat
ermittelt und angegeben werden werden.
Das vollständige Meÿergebnis lautet dann:
Meÿwert
±
statistischer
|
± systematischer .
{z
}
(4.9)
Fehler
4.4 Charakteristische Funktion
Vorausgesetzt wird eine Zufallsvariable
itx heiÿt
Der Erwartungswert von e
x
mit einer Wahrscheinlichkeitsdichte
f (x).
Charakteristische Funktion
φ(t) = E[eitx ]
Z∞
=
eitx f (x) dx .
(4.10)
−∞
Die inverse Operation lautet:
f (x) =
1
2π
Z∞
e−itx φ(t) dt .
(4.11)
−∞
Die Normierung für
t=0
lautet:
φ(0) =
R∞
−∞
32
f (x) dx = 1
(4.12)
KAPITEL 4. KOMBINATION VON WAHRSCHEINLICHKEITSDICHTEN
4.5 Faltung von zwei Gauÿ-Verteilungen
µ=0
Für eine Gauÿ-Wahrscheinlichkeitsdichte mit
ergibt sich als charakteristische Funk-
tion
√
f (x) =
√
φ(t) =
√
=
1
“
2π σ
e
”
−x2
2σ 2
Z∞
1
2π σ
1
2π σ
“
itx
e
−∞
Z∞ “
e
e
”
−x2
2σ 2
i2σ 2 tx − x2
2σ 2
dx
”
dx
.
(4.13)
−∞
Das Argument der Exponentialfunktion kann wie folgt umgeformt werden:
−
i
1 h
1
2
2
2 2
2 2
x
−
i2σ
tx
=
−
x
−
itσ
−
itσ
2σ 2
2σ 2
2!
2!
(itσ2 )
Z∞ − (x − itσ2 )
1
2σ 2
2σ 2
⇒ φ(t) = √
e
dx
e
2π σ
(4.14)
−∞
“
−
= e
t2
2/σ 2
”
√
|
Z∞
1
2π σ
e−
(x − itσ 2 )2
2σ 2
dx
.
(4.15)
−∞
{z
=1 für jeden Wert von t
}
Die Charakteristische Funktion der Gauÿ-Verteilung ist also selbst wieder eine GauÿVerteilung in
t
mit Varianz
1/σ 2 .
Möchte man nun zwei Gauÿ-Verteilungen falten, so
kann man dies mit Hilfe der Charakteristischen Funktion tun.
fx (x) =
fy (y) =
Charakteristische Funktionen mit
N
√
√
„
1
e
2π σx
„
1
e
2π σy
−x2
2
2σx
«
−y 2
2
2σy
«
(4.16)
(4.17)
als Normierung:
−
φx (t) = Nx · e
t2
2
1/σx
2
− t 2
1/σy
φy (t) = Ny · e
(4.18)
(4.19)
Faltung:
ZZ
fw (w) =
fx (x) · fy (y) · δ(w − x − y) dx dy .
(4.20)
33
KAPITEL 4. KOMBINATION VON WAHRSCHEINLICHKEITSDICHTEN
Charakteristische Funktion:
ZZZ
φw (t) =
eiwt fx (x), fy (y) δ(w − x − y) dx dy dw
ZZ
ei(x+y)t fx (x), fy (y) dx dy
Z
Z
ixt
=
e fx (x)dx · eiyt fy (y)dy
=
= φx (t) · φy (t)
2
2
2
= N · N · e−(t /2 · (σx +σy ))
x
(4.21)
y
Die Rücktransformation ergibt sich aus einer Rechung analog zu 4.15
fw (w) =
Z∞
1
· Nx · Ny
2π
2 /2
e−itw · e−(t
· (σx2 +σy2 )) dt
−∞
.
.
.
−
fw (w) = Nw · e
w
2 +σ 2 )
2(σx
y
Es ergibt sich also eine Gauÿ-Verteilung in
34
w = x+y
(4.22)
mit einer Varianz von
2 = σ2 + σ2.
σw
x
y
Kapitel 5
Multi-dimensionale
Wahrscheinlichkeitsverteilungen
Gegeben ist eine Zufallsvariable in zwei Dimensionen, also eine Wahrscheinlichkeitsdichte
f (x, y).
Gesucht ist nun die Wahrscheinlichkeit im Intervall
a ≤ x < b ∧ c ≤ y < d.
Dazu
muÿ das folgende Doppelintegral gelöst werden:
P (a ≤ x < b, c ≤ y < d) =
R dR b
c a
f (x, y) dx dy
.
(5.1)
Auch hier ist die Wahrscheinlichkeitsdichte normiert:
Z
∞Z ∞
f (x, y) dx dy = 1
(5.2)
−∞ −∞
y
2D-Konturplot, Kurven fuer f(x,y) = const.
8
7
6
5
0
0.5
1
1.5
2
x
35
KAPITEL 5. MULTI-DIMENSIONALE WAHRSCHEINLICHKEITSVERTEILUNGEN
5.1 Mittelwert, Varianz, Kovarianz, Korrelation
Intuitiv bekannt sind bereits Mittelwert und Varianz:
<x>
<y>
σx2
σy2
=
=
=
=
R∞ R∞
= −∞ −∞ x · f (x, y) dx dy
R∞ R∞
= −∞ −∞ y · f (x, y) dx dy
R∞ R∞
= −∞ −∞ (x− < x >)2 · f (x, y) dx dy
R∞ R∞
= −∞ −∞ (y− < y >)2 · f (x, y) dx dy .
E[x]
E[y]
V [x]
V [y]
Neu bei mehrdimensionalen Verteilung ist die
2 =
σxy
Oft ist auch der
R∞ R∞
−∞ −∞ (x−
Kovarianz
zwischen
x
und
< x >) · (y− < y >) · f (x, y) dx dy
(5.3)
y:
.
(5.4)
Korrelationskoezient ρ gebräuchlich, für den gilt:
σxy = ρxy ·
q
σx2 · σy2 ,
−1 < ρxy < 1
.
(5.5)
Man kann nun die Kovarianzmatrix aufstellen:
V
=
σx2 σxy
σyx σy2
!
σx2 σxy
σxy σy2
=
!
.
(5.6)
5.2 2-dimensionale Gauÿ-Verteilung
Die zweidimensionale Gauÿ-Verteilung hat folgendes Aussehen:
f (x, y) =
2πσx σy

1
p
exp −
1 − ρ2
·

x−ξ
1

2
2(1 − ρ )
σx
!2
− 2ρ
(x − ξ) (y − η)
·
+
σx
σy
!
y−η
 ,(5.7)
σy
mit:
ρ = ρxy
σxy
q
,
(5.8)
σx2 · σy2
<x> = ζ,
(5.9)
<y> = η,
(5.10)
V [x] =
V [y] =
36
=
σx2
σy2
,
(5.11)
.
(5.12)
y
KAPITEL 5. MULTI-DIMENSIONALE WAHRSCHEINLICHKEITSVERTEILUNGEN
2D Gauss-Verteilung mit ξ=9, η=6, σx=2, σy=1, σxy =0,5
9
8
7
6
5
4
3
4
6
8
10
12
14
x
Bei der 1-dimensionalen Gauÿ-Verteilung fällt die Wahrscheinlichkeitsdichte auf den
√
1/ e-
ten Teil ab bei:
− 21
e
⇒
(x − µ)2
= exp −
2σ

e
(5.13)
x − µ = ±σ .
(5.14)
Bei der 2-dimensionalen Gauÿ-Verteilung geschieht dies mit
− 12
!



!
 1 x 2


= exp − 
+
 2  σx

|
{z
!
y
σy
ξ=η=ρ=0

!2 


 ,

}
bei:
(5.15)
=1
!2
!2
x
y
wobei
+
= 1 einer Ellipse entspricht.
σx
σy
Für ρ 6= 0 wird die Ellipse lediglich gedreht und die
Bedingung für eine gedrehte Ellipse
ist erfüllt:
x2
x·y
y2
−
2ρ
+
= 1 − ρ2 .
σx2
σx · σy σy2
(5.16)
37
Kapitel 6
Fehlerbestimmung
6.1 Statistische Fehler
Bei statistischen Fehlern handelt es sich um zufällig verteilte Fehler. Sie sind im Rahmen
von Wahrscheinlichkeits-Überlegungen berechenbar.
6.1.1 Fehler von Mittelwert und Standardabweichung
x̄
und
s2
sind selbst Zufallsvariablen, da sie aus Zufallsvariablen berechnet werden. Die
Genauigkeit des Mittelwerts beträgt nach dem Zentralen Grenzwertsatz::
"
1 X
V [x̄] = V
·
xi
n
" #
W
= V
n
=
=
=
1
· V [W ]
n2
1
· n · V [W ]
n2
s2
n
σ(x̄) =
Demnach wird
x̄
mit
√
n
#
(6.1)
s
√
n
(6.2)
genauer.
Entsprechend kann man zeigen, daÿ auch die Standardabweichung mir
σ(s) =
s
p
2(n − 1
√
n
genauer wird:
(6.3)
39
KAPITEL 6. FEHLERBESTIMMUNG
6.1.2 Transformation von Wahrscheinlichkeitsdichten
fx (x) und einer Transformationsvorschrift y =
fy (y) in der neuen Variable y gesucht:
Bei gegebener Wahrscheinlichkeitsdichte
y(x)
ist die Wahrscheinlichkeitsdichte
y
y(x)
111111
000000
000000
111111
000000
111111
000000
111111
000000
111111
000000
111111
000000
111111
000000
111111
000000
111111
000000
111111
000000
111111
1111
0000
0000
1111
0000
1111
0000
1111
0000
1111
0000
1111
0000
1111
0000
1111
0000
1111
0000
1111
0000
1111
0000
1111
0000
1111
0000
1111
f(y)
x
f(x)
Da die Wahrscheinlichkeit im Intervall
[y, y + dy]
[x, x + dx]
bei einer Transformation ins Intervall
erhalten ist, müssen die Flächen unter den Wahrscheinlichkeitsdichten gleich
sein:
fx (x)dx = fy (y) dy
⇒
wobei
x(y)
dx
fy (y) = fx (x(y)) ,
dy die inverse Funktion von
(6.4)
(6.5)
y(x)ist.
6.1.3 Fehlerfortpanzungsgesetz in einer Dimension
Die Transformation von Mittelwert und Varianz erhält man durch Taylorentwicklung:
y(x) = y(< x >) +
dy · (x− < x >)
dx x=<x>
1 d2 y · (x− < x >)2 + · · ·
+
2 dx2 x=<x>
40
KAPITEL 6. FEHLERBESTIMMUNG
Der Erwartungswert der Variablen ergibt sich also zu:
E[y] = < y >
Z ∞
dy ·
(x− < x >)f dx
f dx + dx x=<x>
−∞
−∞
|
| {z }
{z
}
Z
= y(< x >) ·
∞
=1
=0
1 d2 y · E[(x− < x >)2 ]
+
2 dx2 x=<x>
1 d2 y = y(< x >) +
· V [x] .
2 dx2 x=<x>
x ± σ , welcher in die Transformation
2
mit σ dann oft weggelassen:
Bei Messungen hat x schon einen Fehler
wird. Hier wird der Term 2. Ordnung
< y > ≈ y(< x >)
.
eingebracht
(6.6)
Für die Varianz erhält man aus der Taylorentwicklung:
V [y] = E[(y− < y >)2 ]
dy ≈ E[ y(< x >) + (x− < x >) − < y >
| {z }
dx x=<x>
!2
]
≈y(<x>)
!2
dy ≈ E[
(x− < x >) ]
dx x=<x>
!2
dy E[(x− < x >)2 ]
=
dx x=<x>
!2
dy =
V [x] .
dx x=<x>
Daraus ergibt sich das Gesetz der Fehlerfortpanzung:
dy
V [y] =
Beispiel:
Linearer Zusammenhang
!2
dx
.
V [x]
(6.7)
y = ax + b:
< y > = a · < x > +b
und
V [y] =
d
dy
!2
(a · x + b)
· V [x]
= a2 · V [x]
41
KAPITEL 6. FEHLERBESTIMMUNG
6.1.4 Fehlerfortpanzungsgesetz in n Dimensionen
Wir starten bei einer linearen Transformation von
n Variablen x1 , x2 . . . xn auf m Variablen
y1 , y 2 . . . y m :



y1
B11 . . . B1n


 y2 

.
.
..
 .  = 
.

 ..
.
.
 . 
 . 
Bm1 . . . Bmn
ym
⇔
~y
=
B

Die
Bik =
riablen
xk
∂yi
∂xk

x1


 x2 

·  . 

 .. 
xn
·
~x .

geben die Richtungsableitung der neuen Variablen
yi
(6.8)
nach den Originalva-
an.
Für den Mittelwert gilt:

< x1 >


 < x2 > 


< ~x > = 
.

.
.


< xn >

(6.9)
B · ~x]
⇒ < ~y > = E[B
Z
∂y1
⇒ < y1 > =
xi f (x1 , . . . , xn ) dx1 · · · dxn + · · ·
∂x
|{z}1
(6.10)
= const.
∂y1
· < x~1 > + . . .
∂x1
⇒ < ~y > = B < ~x > .
=
(6.11)
(6.12)
Für die Varianz gilt:
V [~y ] = E (~y − < ~y >)2
B · ~x − B · < ~x >)2
= E (B
h
i
B · (~x− < ~x >))2
= E (B
h
i
B · (~x− < ~x >)) · (B
B · (~x− < ~x >))T
= E (B
B · (~x− < ~x >)) · (~x− < ~x >)T · B T
= E (B
= B · V [~x] · B T
wobei das
T
(6.13)
angibt, daÿ es sich um eine transponierte Matrix handelt, also Zeilen und
Spalten vertauscht sind.
Gleichung 6.13 ist das
Fehlerfortpanzungsgestz:
V [~y ] = B · V [~x] · B T
.
(6.14)
Der allgemeine Fall nichtlinearer Transformationen ist analog, bei der Bestimmung von
aus den Ableitungen muÿ jedoch der Mittelwert von
Bik =
42
∂yi .
∂xk xk =<xk >
~x
B
eingesetzt werden:
(6.15)
KAPITEL 6. FEHLERBESTIMMUNG
6.1.5 Anwendung: Zusammengesetzte Messgröÿen
y = y(x1 , x2 )
.
(6.16)
Für die Varianz gilt
V [y] = B · V [~x] · B T
∂y
∂y
mit B
=
∂x1 ∂x2
!
σ12 σ12
und V [~
x] =
σ12 σ22


∂y
 ∂x 
σ12 σ12
1 
·
2
 ∂y 
σ12 σ2
∂x2


∂y
∂y
2
 σ1 · ∂x + σ12 · ∂x 

1
2 


∂y
∂y
σ12 ·
+ σ22
∂x1
∂x2


∂y
∂y
2
 σ1 · ∂x + σ12 · ∂x 
∂y
∂y
1
2 
·

∂y 
∂y
∂x1 ∂x2
2
+ σ2 ·
σ12 ·
∂x1
∂x2
!2
∂y
∂y ∂y
∂y ∂y
σ12 +
·
σ12 +
·
σ12 +
∂x1
∂x1 ∂x2
∂x1 ∂x2
!
⇒
V [~x] · B T
=
=
⇒
B · V [~x] · B T
=
=
⇒
V [y] =
=
Sind
x1
und
x2
∂y
∂x1
!2
σ12
∂y ∂y
+2
·
σ12 +
∂x1 ∂x2
∂y
∂x2
∂y
∂x2
!2
σ22
!2
σ22
.
(6.17)
σy2
unkorreliert, dann gilt wegen
σ2 =
P2
i=1
σ12 = 0:
∂y
∂xi
!2
σi2
.
(6.18)
Beispiele:
a) Längenmessung
Die Meÿgröÿe ist hier
y = x1 − x2
,
(6.19)
43
KAPITEL 6. FEHLERBESTIMMUNG
und es gilt:
2
X
V [y] =
i=1
∂y
∂x1
=
∂y
∂xi
!
!
· V [xi ]
∂y
∂x2
2
· σx1
+
!
2
· σx2
2
2
= (+1)2 · σx1
+ (−1)2 · σx2
2
2
σy2 = σx1
+ σx2
σy =
p
Bei Summen und Dierenzen werden die
σx1 = σx2
2 + σ2
σx1
x2
.
absoluten Fehler
(6.20)
quadriert und addiert. Falls
folgt daraus direkt:
√
σy =
2 · σ xi
.
(6.21)
b) Kugelvolumenmessung
Die Meÿgröÿe ist hier das Volumen
4
V = πr3 ,
3
oder im allgemeinen Fall:
y = a · xn
mit
n=3
,
(6.22)
für das Kugelvolumen. Hier gilt:
dy
dx
V [y] =
σy2 =
!2
· σx2
n · a · xn−1
2
σx2
σx
σy = n · a
· xn}
| {z
x
= y
⇒
Wobei
σy
y
der
relative Fehler
σy
σx
= n·
y
x
.
(6.23)
ist, der oft prozentual angegeben wird.
Man erkennt direkt, daÿ im Falle eines relativen Fehlers von 1 % auf den Radius, der
relative Fehler des Volumens 3 % beträgt.
c) Zylindervolumen
Die Meÿgröÿe ist hier das Volumen
V = π · h · r2 , oder im allgemeinen Fall das Produkt
y = a · x1 · x2
44
(6.24)
KAPITEL 6. FEHLERBESTIMMUNG
Hier gilt:
dy
dx1
V [y] =
!
dy
dx2
2
· σx1
+
!
2
· σx2
2
2
σy2 = a2 · x22 · σx1
+ a2 · x21 · σx2

!2
σ
1
= a2 · x21 · x22 · 
+
x1
|
{z
}
σ2
x2
!2 

= y2
σy
y
!
=
σ1
x1
Bei Multiplikation oder Division werden die
!2
σ2
x2
+
!2
.
relativen Fehler
(6.25)
quadratisch addiert.
!2
!2
σh
σr 2
+
=
r2
h
v
!
!2
!
u
u σr 2 2
σ
σV
h
= t
‘
+
V
r2
h
!
σV
V
Mit Gleichung 6.23 ergibt sich:
σV
V
!
v
!
u
u σr 2
t
2
=
+
r
σh
h
!2
‘
Der absolute Fehler ist demnach:
σV
v
u
u
= V · t2
σr
r
!2
+
σ2
h
!2
.
6.2 Systematische Fehler
Beispiel: fehlerhaftes Gerät, falsche Eichung, falsche Auswertungsmethode, zeitliche än-
derung der Meÿbedingungen, ...
Allgemeine Regeln: Gibt es nicht.
Bewährt haben sich:
•
Abschätzung der Eichgenauigkeit von verwendeten Geräten und anderer Konstanten,
die die Messung beeinussen.
•
Dieselbe Gröÿe mit verschiedenen Methoden zu verschiedenen Zeiten messen, Reihenfolge der Messungen ändern.
•
Manchmal Anwendung von Erhaltungssätzen (z.B. Impulserhaltung) möglich.
45
KAPITEL 6. FEHLERBESTIMMUNG
6.2.1 Unkorrelierte systematische Fehlerquellen
Falls systematische Fehlerquellen
unabhängig voneinander sind, kann man sie wegen des
Zentralen Grenzwertsatzes quadratisch addieren:
2
σsys
= σ12 + σ22 + . . . + σn2
.
(6.26)
6.2.2 Korrelierte systematische Fehlerquellen
Falls systematische Fehler
korreliert sind, kann man den gesamten systematischen Fehler
konservativ abschätzen durch:
σsys = σ1 + σ2 + . . . + σn
Motivation für zwei korrelierte Fehlerquellen
f
x1 , x2 ,
.
die den Meÿwert
= x1 + x2 .
(6.27)
f
linear verschieben
(6.28)
Die Kovarianzmatrix der systematischen Fehler:
V
=
σ12 σ12
σ12 σ22
!
(6.29)
Nach Fehlerfortpanzung ergibt sich:
σf2 = σ12 + σ22 + 2σ12
Mit Hilfe des Korrelationskoezienten
σ12 = ρ
−1 ≤ ρ ≤ 1
ergibt sich:
p
σ12 σ22 ≤
Also ergibt sich als konservative Schätzung von
(6.30)
p
σ12 σ22 .
(6.31)
σf :
q
σf2 ≤ σ12 + σ22 + 2 σ12 σ22
⇒
σf
≤ (σ1 + σ2 )
⇒
σf
≈ σ1 + σ2
(6.32)
Ein Meÿresultat mit statistischem und systematischem Fehler wird dann wie im folgenden
Beispiel angegeben:
x = 10, 0 ± 1, 2(stat.) ± 1, 0(sys.) m
(6.33)
Das getrennte Auühren von statistischen und systematischen Fehlern ist gebräuchlich. Da
statistische und systematische Feheler unabhängig sind, kann man sie ebenfalls quadratisch
addieren.
x = 10, 0 ± 1, 6 m
46
(6.34)
Kapitel 7
Parameterschätzung:
Maximum-Likelihood-Methode
7.1 Verfahren für 1 Parameter
Die Maximum Likelihood-Methode ist eine grundlegende Methode zur Schätzung von Parametern. Sie vertieft z. B. das Verständnis der Wahl von Mittelwertbestimmungen.
7.1.1 Negative Log-Likelihood-Funktion
n
Wir gehen von
Messungen einer Zufallsvariablen x aus (x1 , x2 , . . . , xn ). Die zugrundelie-
f (x|a), die vom Parameter a abhängt, soll bereits bekannt
sein. Ziel ist nun die beste Schätzung des Parameters a. Die Schätzung nennen wir â. Dazu
gende Wahrscheinlichkeitsdichte
wird zuerst die
Likelihood-Funktion
gebildet:
L(a) = f (x1 |a) · f (x2 |a) · . . . · f (xn |a)
n
Y
=
f (xi |a)
(7.1)
i=1
Dies reektiert die Wahrscheinlichkeit, bei gegebener Wahl von a diese Meÿwerte zu er-
L ist keine
welcher L zu einem
halten.
Wahrscheinlichkeitsdichte für
f
Die beste Schätzung
â
ist der Wert,
Maximum macht.
L(â) =
Da es sich bei
a!
Maximum
:
∂L
= 0
∂a a=â
(7.2)
um eine Wahrscheinlichkeitsdichte handelt, muÿ darauf geachtet werden,
daÿ die Normierung für alle Werte von
a
gegeben ist:
Z∞
f (x|a) dx = 1
für alle Werte von
a
(7.3)
−∞
47
KAPITEL 7. PARAMETERSCHÄTZUNG: MAXIMUM-LIKELIHOOD-METHODE
In der Praxis ist es einfacher, mit Summen statt mit Produkten zu rechnen. Dies wird
durch Anwenden des Logarithmus auf die Likelihood-Funktion erreicht:
n
Y
ln L(a) = ln
f (xi |a)
(7.4)
i=1
n
X
=
ln (f (xi |a))
(7.5)
i=1
Auÿerdem wird noch das Vorzeichen geändert. Gesucht ist also das Minimum der
Log-Likelihood-Funktion :
F (a) = −
n
P
ln (f (xi |a))
negativen
(7.6)
i=1
also muÿ folgendes gelöst werden:
∂F
∂a
= 0
(7.7)
7.1.2 Fehlerbestimmung
Taylor-Entwicklung um das Minimum
â =Schätzwert.
dF 1 d2 F 2
F (a) = f (â) +
(a − â) +
(a − â) + . . .
|{z} |d{z
| {z }
a â}
2
da2 â
|
{z
}
(1)
In der Nähe von
â
(2)
gilt häug
=0
L(a) ∼
L(a) ≈
− ln L ≈
(7.8)
(3)
Gauÿfunktion, dann
−
const. · e
const.'
(a−â)2
2σ 2
(7.9)
(a−â)2
−
2σ 2
− ln e
(7.10)
11
−
ln
L
=
const.' +
(a − â)2
| {z }
2
| {z }
2
σ
{z
}
|
(2)
(1)
(7.11)
(3)
F
da2
d
(3) ⇒
⇒
Die Fehlergrenzen
2
1σ, 2σ, 3σ
=
σ =
1
σ2
(7.12)
2
F
da2
d
!− 1
=
const.
> 0
(7.13)
können analog zur Gauÿ-Verteilung einfach abgelesen werden:
F (a) = F (â) +
48
2
1 1
(a − â)2
2 σ2
(7.14)
F(a) - F(a)
KAPITEL 7. PARAMETERSCHÄTZUNG: MAXIMUM-LIKELIHOOD-METHODE
2.5
2
1.5
1
0.5
0
a - 2σ
∆F
a-σ
a
a+σ
a + 2σ
a
= F (â + nσ)
11
(â + nσ − â)2
2
2σ
1 2
n
2
=
=
(7.15)
Die negative Log-Likelihood Funktion nimmt also in Schritten vom Fehler quadratisch zu.
n·σ
1σ
2σ
3σ
4σ
5σ
∆F
1/2
2
9/2
8
12, 5
Häug ist die Parabel nicht symmetrisch, rechts- und linksseitige Standardabweichungen
sind unterschiedlich. Hier bekommt man zwei Parabelzweige mit unterschiedlicher Önung.
F(a) - F(a)
Beispiel
2.5
2
1.5
1
0.5
0
a - 2σ
a-σ
a
a+σ
a + 2σ
a
49
KAPITEL 7. PARAMETERSCHÄTZUNG: MAXIMUM-LIKELIHOOD-METHODE
Ergebnis ist hier
R
â+σ
−σL
7.1.3 Gewichteter Mittelwert
Bisher habe wir Meÿwerte kombiniert, die gleiche Fehler hatten, und Stichproben-Mittelwert
und -Varianz gebildet:
x̄ =
n
1X
xi ,
n
(7.16)
n
1 X
(xi − x̄)2
n−1
(7.17)
i=1
s2 =
i=1
Die Varianz des Mittelwerts ist
s2
V [x] = .
n
Jetzt werden wir Kombinationen von Messungen mit bekannten, verschiedenen Standardabweichungen
σi
durchführen.
Beispiel: 2 Arbeitsgruppen haben mit unterschiedlichen Methoden die Masse des Top-
Quarks bestimmt [3]
→
Weltmittelwert und -Standardabweichung
Mass of the Top Quark (*Preliminary)
2
Measurement
Mtop [GeV/c ]
CDF-I di-l
167.4 ± 11.4
D∅-I
168.4 ± 12.8
di-l
CDF-II di-l*
165.3 ± 7.3
CDF-I l+j
176.1 ± 7.3
D∅-I
180.1 ± 5.3
l+j
173.5 ± 4.1
CDF-II l+j*
l+j*
169.5 ± 4.7
CDF-I all-j
186.0 ± 11.5
D∅-II
χ / dof = 6.5 / 7
2
172.7 ± 2.9
Tevatron Run-I/II*
150
170
2
Mtop [GeV/c ]
190
Die verschiedenen Meÿgenauigkeiten können durch
wi =
1
Gewichte
←
Gewichte
wi xi
n xi
P
2
i=1 σi
σi2
berücksichtigt werden:
(7.18)
Daraus ergibt sich der Mittelwert wie folgt:
n
P
x̄ =
i=1
n
P
i=1
50
=
wi
n 1
P
2
i=1 σi
(7.19)
KAPITEL 7. PARAMETERSCHÄTZUNG: MAXIMUM-LIKELIHOOD-METHODE
Die Varianz des Mittelwerts ist gegeben durch:
1
V [x̄] =
n
P
1
=
i=1
Als Test setzen wir gleiche
σi = σ
(7.20)
n 1
P
2
i=1 σi
wi
ein:
n
P
xi
i=1
x̄ =
,
n
1
1
·
=
2
1/σ n
V [x̄] =
σ2
.
n
Mit Hilfe der Maximum-Likelihood-Methode können wir begründen, daÿ für Gauÿ-Verteilungen
die beste Schätzung des Mittelwerts das gewichtete Mittel aller Werte
f (xi |a) =
√
1
−
(xi −a)2
2σ 2
i
e
2π σi
!
n
(x −a)2
X
1
− i 2
F (a) = −
ln √
e 2σi
2π
σ
i
i=1
n n
X
X
1
(xi − a)2
−
−
= −
ln √
2σi2
2π
σ
i
i=1
i=1
|
{z
}
const. für
=
ist.
(7.21)
a
n
(xi − a)2
1X
+
2
σi2
const.
xi
(7.22)
i=1
∂F
∂a
⇒
⇒
=
n
− 2(xi − a)
1X
2
σi2
0 = −
a =
i=1
n
X
xi
i=1
σi2
n xi
P
2
i=1 σi
n 1
P
2
i=1 σi
+a
=
0
(Minimum)
n
X
1
i=1
σi2
(7.23)
51
KAPITEL 7. PARAMETERSCHÄTZUNG: MAXIMUM-LIKELIHOOD-METHODE
7.1.4 Anwendung: Histogramme
Daten im Vergleich zu Gaussverteilungen mit unterschiedlichem Mittelwert
0.3
histogrammierte Daten
f(x|a_1)
f(x|a_2)
f(x|a_3)
f(x|a_4)
0.25
0.2
0.15
0.1
0.05
0
2
4
6
x
8
F(a)
0
3
2
1
0
a1
a2
a3
a
Die Wahrscheinlichkeitsdichte
f (x|a)
j.
a
soll an die Daten angepaÿt werden, die in einem Hi-
stogramm eingetragen sind. Es gibt insgesamt
im Intervall
a4
J
Intervalle im Histogramm und
nj
Einträge
Die Gesamtzahl der Messungen beträgt
n =
J
X
nj .
(7.24)
j=1
Die Erwartungswerte
µj
nj
für die
werden aus der Wahrscheinlichkeitsdichte gewonnen:
Z
µj
= n
f (x|a) dx
Intervall
= n · f (xc |a) · ∆x ,
wobei
nj
xc
die Intervallmitte und
∆x
(7.25)
j
(7.26)
die Intervallbreite ist.
sind Zufallsvariablen, die poissonverteilt sind:
n
P (nj |µj ) =
52
µj j e−µj
µj !
(7.27)
KAPITEL 7. PARAMETERSCHÄTZUNG: MAXIMUM-LIKELIHOOD-METHODE
Die negative Log-Likelihood-Funktion ist hier
F (a) = −
J
X
n
µj j e−µj
ln
J
X
= −
n
ln µj j
−
j=1
J
X
−µj
ln e
+
j=1
J
X
= −
(7.28)
µj !
j=1
nj ln µj +
j=1
J
X
J
X
ln µj !
j=1
µj +
j=1
J
X
ln µj !
(7.29)
j=1
|
{z
}
const. bzgl. a
dF
da
= −
J
X
nj
j=1
J
X
1 dµj
dµj
+
µj da
da
=
0
(7.30)
j=1
Das Minimum und die Fehler kann man wie zuvor gezeigt durch Histogrammieren bekommen.
7.2 Verfahren für m Parameter
Die Likelihood Funktion hat für
m
Parameter
L(a1 , a2 , . . . , am ) =
L(~a) =
aj
n
Y
i=1
n
Y
folgendes Aussehen:
f (xi |a1 , a2 , . . . , am )
(7.31)
f (xi |~a)
(7.32)
i=1
Entwickelt man
L
um
~â,
so ergibt sich
F (~a) = F (~â)
n
X
∂F +
(ai − âi ))
∂ai ~â
+
i=1
n X
n
X
1
2
i=1 k=1
⇐
im Minimum
∂ 2 F (ai − âi ) (ak − âk )
∂ai ∂ak ~â
+ ...
Für groÿe
n
(7.33)
wird die Likelihood Funktion
4.8.4). Die Kovarianz des Vektors
=0
~a
L(~a)
zu einer Gauÿ-Funktion (siehe [1] Kap.
ist gegeben durch
V [~a] = G −1
mit
Gik =
∂2F
∂ai ∂ak
(7.34)
(7.35)
53
KAPITEL 7. PARAMETERSCHÄTZUNG: MAXIMUM-LIKELIHOOD-METHODE
Ergebnis für
n=2
ist ein Schnitt durch einen Paraboloid:
a2
a1
54
Kapitel 8
Parameterschätzung: Methode der
kleinsten Quadrate
8.1 Messungen mit gleichen Meÿfehlern
In diesem Kapitel wird erläutert, wie man
m
Parameter
aj
aus
n
Messungen
yi
mit der
Methode der kleinsten Quadrate abschätzt. Dazu wird angenommen, daÿ es ein Modell für
die wahren Werte von
yi
gibt. Die für diese Methode benötigten
Residuen
sind wie folgt
deniert:
Residuen:
∆yi = y(Modell) − yi .
(8.1)
y
f(x,a) = a1+ a2x
1
0
1
0
yi 01
∆yi
1
0
0
1
1
0
0
1
1
0
1
0
1
0
0
1
1
0
0
1
1
0
1
0
1
0
0
1
1
0
1
0
1
0
0
1
1
0
0
1
1
0
0
1
1
0
0
1
1
0
0
1
1
0
0
1
1
0
0
1
0
1
xi
x
Die Summe aus den Quadraten der Residuen soll nun minimal werden. Für
Daten mit
σi = σ
unkorrelierte
ergibt dies:
S =
Pn
2
i=1 ∆yi
=
Minimum
.
(8.2)
55
KAPITEL 8. PARAMETERSCHÄTZUNG: METHODE DER KLEINSTEN QUADRATE
8.1.1 Lineare kleinste Quadrate
Hier gehen die Parameter
aj
(zusammengefaÿt als
~a)
linear in das Modell ein:
f (x, ~a) = a1 f1 (x) + a2 f2 (x) + . . . + am fm (x) .
(8.3)
Beispiel: Strommessung bei verschiedenen Spannungen
1
· Ui
R
I(Ui ) =
a1 = 1/R
Hier hat das Modell einen freien Parameter
mit
f1 = U = x.
Für die Residuen gilt
∆yi = f (xi , ~a) − yi (xi ) ,
wobei die
f (xi , ~a)
Pn
S =
yi
die Erwartungswerte der
i=1 ∆yi
=
(8.4)
sind. Daraus ergibt sich:
Pn
i=1 (a1 f1 (xi )
+ . . . + am fm (xi ) − yi (xi ))2
Um das Minimum zu nden, müssen die partiellen Ableitungen
∂S
∂a1
=
2·
Pn
∂S
∂aj verschwinden, also
+ . . . + am fm (xi ) − yi (xi )) · f1 (xi )
i=1 (a1 f1 (xi )
.
.
.
(8.5)
=
.
.
.
0
.
.
.
(8.6)
∂S
P
= 2 · ni=1 (a1 f1 (xi ) + . . . + am fm (xi ) − yi (xi )) · fm (xi ) = 0 .
∂am
Dies kann in die sogenannten
a1
a1
Pn
2
i=1 f1 (xi )
Normalengleichungen
+ . . . + am
Pm
.
.
.
Pn
i=1 fm (xi ) · f1 (xi )
i1
umgeschrieben werden
f1 (xi ) · fm (xi )
=
Pn
i=1 yi f1 (xi )
.
.
.
+ . . . + am
Pm
2
i1 fm (xi )
=
Pn
i=1 yi fm (xi )
Die Darstellung der Gleichungen vereinfacht sich wesentlich durch

Meÿwerte:
~y

= 
y1
.
.
.
(8.7)
.
Matrixschreibweise
mit


 ,
(8.8)
yn

Parameter:
~a

= 

a1
.
.
.

 ,
(8.9)
am

Funktionen:
A

= 
f1 (x1 ) f2 (x1 ) · · · fm (x1 )
.
.
.
.
.
.
..
.
.
.
.
f1 (xn ) f2 (xn ) · · · fm (xn )
56


 .
(8.10)
KAPITEL 8. PARAMETERSCHÄTZUNG: METHODE DER KLEINSTEN QUADRATE
Die Erwartungswerte ergeben sich hier zu

f1 (x1 ) · · · fm (x1 )
.
.
.

A ~a = 
..
.
.
.
.
 
a1
 
·
.
.
.
f1 (xn ) · · · fm (xn )




am
a1 f1 (x1 ) + · · · + am fm (x1 )
.
.
.

= 


 .
(8.11)
a1 f1 (xn ) + · · · + am fm (xn )
Desweiteren gilt

f1 (x1 )
···
f1 (xn )
 
.
.
.
..
.
.
.
 
·

AT A = 
.
f1 (x1 ) · · · fm (x1 )
.
.
.
..
.
.
.
.

(8.12)


f1 (xn ) · · · fm (xn )
fm (x1 ) · · · fm (xn )
Pn
P
Pn
n
2
i=1 f1 (xi )
i=1 f1 (xi ) f2 (xi ) · · ·
i=1 f1 (xi ) fm (xi )

P
.
.
n
.
.

.
f22 (xi )
···
.
i=1

= 
.
.
.
.
.
.
..
.

.
.
.
Pn
Pn
2
f
(x
)
f
(x
)
·
·
·
·
·
·
f
i=1 1 i m i
i=1 m (xi )

Pn
2
i=1 f1 (xi )


A T A ~a = 
.
.
.
..
Pn
i=1 f1 (xi ) fm (xi )
P
a1 ni=1 f12 (xi )


= 
a1
Pn
···
i=1 f1 (xi ) fm (xi )
.
.
.
.
Pn
+ · · · + am
 
·
.
.
.
+ ··· +






(8.13)


am
Pn
i=1 f1 (xi ) fm (xi )
.
.
.
i=1 f1 (xi ) fm (xi )
a1
2
i=1 fm (xi )
···
Pn
 

am
Pn


 (8.14)
2
i=1 fm (xi )
Sowie


AT ~y = 
f1 (x1 )
···
f1 (xn )
 
y1
.
.
.
..
.
.
.
 
·
.
.
.
.
fm (x1 ) · · · fm (xn )
 Pn

i=1 yi f1 (xi )


.
.
= 

.
Pn
i=1 yi fm (xi )



yn
(8.15)
Durch Vergleich mit Gleichung 8.7 ergeben sich aus Gleichung 8.14 und Gleichung 8.15 als
Normalengleichung :
A T A ~a = A T ~y .
(8.16)
Mit der Lösung:
~a =
−1 T
AT A
A ~y
.
(8.17)
Die Lösung ist also eine lineare Transformation aus den Messungen.
57
KAPITEL 8. PARAMETERSCHÄTZUNG: METHODE DER KLEINSTEN QUADRATE
8.1.2 Berechnung der Fehler
V [~y ]
Die Kovarianzmatrix der Meÿwerte
hat für unkorrelierte Meÿwerte
yi
mit
σi = σ
das
folgende Aussehen:

σ2 0 · · ·

 0 σ2 · · ·
V [~y ] = 
.
..
 ..
.
.
.
 .
0 0 ···

1 ··· 0
.
2  .. . .
.
= σ  .
.
.

0

0 

. 
.
. 
σ2



0 ··· 1
= σ2 · 1
Wobei
1
(8.18)
die Einheitsmatrix ist.
Das Fehlerfortpanzungsgesetz für
~a = C ~y
lautet:
V [~a] = C V [~y ] C T
−1 T 2 h T −1 T iT
= AT A
A σ 1 A A
A
h
−1
−1 iT
= σ2 · AT A
AT A ·
AT A
|
{z
}
{z
}
|
1
(ohne
(8.19)
T da symmetrische Matrix)
−1
V [~a] = σ 2 A T A
σ 2 der Daten ist jedoch häug
P
n
1
2
s2 = n−1
i=1 (xi − x̄) bestimmt:
Die Varianz
zu
s2 =
wobei
n
die Anzahl der Meÿwerte,
m
(8.20)
nicht bekannt, in diesem Fall wird sie analog
1
S,
n−m
(8.21)
die Anzahl der Parameter und
S
die Summe der
Residuenquadrate sind.
⇒
s2 =
n
1 X
∆yi2 .
n−m
(8.22)
i=1
Für groÿe Werte von
n−m
ist dies eine gute Schätzung für
σ2.
8.1.3 Geradenanpassung
Als Modell wird hier eine Gerade angenommen:
f (x, a1 , a2 ) = a1 + a2 x
58
(8.23)
KAPITEL 8. PARAMETERSCHÄTZUNG: METHODE DER KLEINSTEN QUADRATE
Die Meÿwerte
yi
sind an genau benannten Punkten
haben den gleichen Fehler
xi
gemessen, sind unkorreliert und
σi = σ .
Zur Vereinfachung der Rechnung werden die
xi
transformiert:
ξi = xi − x̄
(8.24)
n
1X
xi
n
(8.25)
mit
x̄ =
i=1
und
n
X
ξi = 0 ,
(8.26)
i=1
Es gilt:


~y = 
y1
.
.
.


 , ~a =
yn
a1
a2
!


, A = 
1 ξ1
.
.
.
.
.
.



(8.27)
1 ξn

1
1
 
1 ξ1

AT A = 
.
.
.
.
.
.
 
·
.
.
.
ξ1 ξn
.
.
.


1 ξn
!
Pn
ξ
i
Pni=1 2
i=1 ξi
!
=
n
Pn
=
n
0
Pn 2
0
i=1 ξi
i=1 ξi

(8.28)
Um die inverse Matrix zu erhalten, bestimmen wir zuerst die Determinante:
n
0
Pn 2
D = 0
i=1 ξi
= n
n
X
ξi2
(8.29)
i=1
⇒
−1
AT A
=
A T ~y =
=
1
D
Pn
2 0
i=1 ξi
0
n
1 ··· 1
ξ1 · · · ξn
!
!
(8.30)


·
!
Pn
yi
i=1
Pn
.
i=1 (ξi · yi )
y1
.
.
.



yn
(8.31)
59
KAPITEL 8. PARAMETERSCHÄTZUNG: METHODE DER KLEINSTEN QUADRATE
Die Lösung ist also:
−1 T
AT A
A ~y
!
Pn 2
1
ξ
0
i=1 i
P
·
n ni=1 ξi2
0
n
~a =
=
⇒
n
X
1
a1 =
P
n ni=1 ξi2
Pn
i=1 yi
n
=
n
X
ξi2
i=1
!
Pn
y
i
Pn i=1
i=1 (ξi · yi )
yi
i=1
a1 = ȳ
a2 =
(8.32)
(8.33)
n
X
1
ξi · yi
2n
i=1 ξi i=1
Pn
n
Pn
i=1 (ξi · yi )
P
n
2
i=1 ξi
a2 =
(8.34)
Der Fehler der Geradenanpassung ist:
V [~a] = σ 2
n
1
n
P
i=1
σa21
= σ2
n
1
n
P
i=1
=
σa22
1
n
P
i=1
i=1
0
n
X
ξi2
n
P
σ12 = 0

(8.35)

n
ξi2
i=1
·n
ξi2
(8.37)
ξi2
Durch Transformation
ξi = xi − x̄
σ12 6= 0
erreicht, im Allgemeinen
(8.38)
ist gegeben durch:
s2 =
n
1 X
((a1 + a2 ξi ) − yi )2
n−2
i=1
60
0
σ2
i=1
σ2

ξi2
ξi2
(8.36)
n
Die Schätzung der Varianz
n
P
σ2
n
= σ2
=

(8.39)
KAPITEL 8. PARAMETERSCHÄTZUNG: METHODE DER KLEINSTEN QUADRATE
Werden die Meÿwerte
yi (xi )
durch eine Gerade angepaÿt, so ist das Resultat für
f (x) =
a1 + a2 (x − x̄):
s
a1 =
s2
n
| {z }
±
ȳ
|{z}
Mittelwert der Meÿwerte
(8.40)
Fehler des Mittelwerts
n
P
a2 =
v
ξi yi
u 2
u s
i=1
u n
±
n
tP 2
P 2
ξi
ξi
i=1
(8.41)
i=1
a1 der Stützpunkt der Geraden an der Stelle x = x̄. Die Genauigkeit des Wertes y(x = x̄) ist durch σa1 gegeben. Für einen Wert y(x 6= x̄) panzen wir die Fehler
entsprechend Gleichung 6.18 fort. Da σ12 = 0, ist die Varianz von y(x)
Hier ist
σy2 =
=
=
2
X
i=1
σa21
σ2
n
∂y
∂ai
!2
σa2i
+ (x − x̄)2 σa22
σ2
n
P
ξi2
+ (x − x̄)2
i=1
n
P
= σ2
i=1
ξi2 + (x − x̄)2 · n
n·
n
P
i=1
z.B. der Achsenabschnitt
(8.42)
ξi2
y(x = 0)-Fehler:
v
uP
u n ξ 2 + x̄2 · n
u
i
u
σy (0) = σ u i=1 n
P 2
t
ξi
(8.43)
i=1
Will man ohne Transformation die Messdaten
(x, y)
an die Gerade
passen und damit als Stützpunkt den Achsenabschnitt bei
x = 0
f (x) = a1 + a2 x
an-
nehmen, bleiben die
Nebendiagonalelemente in Gleichung 8.28 stehen:
AT A =
n
Pn
i=1 xi
!
Pn
x
i
Pni=1 2
i=1 xi
(8.44)
61
KAPITEL 8. PARAMETERSCHÄTZUNG: METHODE DER KLEINSTEN QUADRATE
Matrixinversion, zunächst die Determinante:
n
P
xi i=1
n
P
2
xi i=1
n
D = P
n
i=1 xi
= n·
n
X
x2i
n
X
−
−1
A A
=
xi
(8.45)
i=1
i=1
T
!2
!
Pn
Pn
2
x
−
x
i
i=1 i
i=1
P
− ni=1 xi
n


!
y1
1 ··· 1


·  ... 
x1 · · · xn
yn

n
P
yi 
i=1

n
P

xi yi
1
·
D
A T ~y =


= 

(8.46)
(8.47)
i=1

⇒
~a =
P
Pn
2
− ni=1 xi
i=1 xi
P
− ni=1 xi
n
1
·
D
!
n
P

yi 

i=1


· P
n

xi yi
(8.48)
i=1
(8.49)
n
P
a1 =
n
P
yi
i=1
n
n
a2 =
n
P
i=1
n
P
i=1
n
n
P
i=1
xi
i=1
n
P
x2i − (
xi yi −
i=1
n
P
x2i −
n
P
i=1
n
P
x2i − (
xi yi
i=1
xi )2
i=1
xi
n
P
n
P
(8.50)
yi
i=1
xi )2
i=1
Die Kovarianzmatrix ist
σa21 σ12
V [~a] =
σ12 σa22
−1
= σ2 AT A
62
!
(8.51)
(8.52)
KAPITEL 8. PARAMETERSCHÄTZUNG: METHODE DER KLEINSTEN QUADRATE
mit
v
u
n
P
u
x2i
u
u
i=1
σa1 (y = 0) = σ · u n
n
P
t P 2
n
xi − ( xi )2
i=1
v i=1
u
n
u
σ a2 = σ · u n
n
t P 2
P
n
xi − ( xi )2
i=1
n
P
−
(8.53)
i=1
xi
i=1
σ12 = σ 2
n
n
P
i=1
x2i − (
n
P
xi )2
i=1
Die Schätzung der Varianz wird hier durch
s2 =
n
1 X
[(a1 + a2 x) − yi ]2
n−2
(8.54)
i=1
bestimmt.
8.2 Berücksichtigung individueller Meÿfehler
8.2.1 Lösung mit Gewichtsmatrix
Wir gehen von
n
statistisch unabhängigen Messungen
yi
mit verschiedenen Varianzen
σi
aus. Die Kovarianzmatrix hat dann folgendes Aussehen:

σ12 0 · · · 0

 0 σ22 · · · 0
V [~y ] = 
.
.
..
 ..
.
.
.
.
.
 .
0 · · · · · · σn2



 .


(8.55)
Die Summe der Residuenquadrate wird für unterschiedliche Gewichte modiziert:
S =
n 1
P
2 =
2 ∆yi
i=1 σi
In Matrixschreibweise kann man auch die
Gewichtsmatrix
verwenden:

W (~y ) = V
[~y ]−1
(8.56)
Minimum
1/σ12
0
···
0

2
1/σ2 · · ·
0
 0
= 
.
.
..
 ..
.
.
.
.
.
 .
0
· · · · · · 1/σn2






(8.57)
Die Residuen sind nach Gleichung 8.8 und 8.11
~r =
A ~a
|{z}
Erwartungswert
−
~y
|{z}
(8.58)
Meÿwerte
63
KAPITEL 8. PARAMETERSCHÄTZUNG: METHODE DER KLEINSTEN QUADRATE
Für
σi = σ
ergab sich laut Gleichung 8.56
S = ~rT · ~r
Mit unterschiedlichen
σi
(Skalarprodukt)
.
(8.59)
ergibt sich nun
S = ~rT · W (~y ) · ~r
A ~a − ~y )T · W · (A
A ~a − ~y )
= (A
A ~a)T W A ~a + ~y T W ~y − (A
A ~a)T W ~y − ~y T W A ~a
= (A
= ~aT A T W A ~a + ~y T W ~y − ~aT A T W ~y − ~y T W A ~a
= ~aT A T W A ~a + ~y T W ~y − 2 ~aT A T W ~y
Für das Minimum von
S
müssen die partiellen Ableitungen verschwinden (
(8.60)
∂S
= 0)
∂aj
~0 = 2 A T W A ~a − 2 A T W ~y
⇒
A T W A ~a = A T W ~y
(8.61)
Die Lösung ist eine Modikation von Gleichung 8.22 und 8.20 durch die Gewichtsmatrix.
~a =
V [~a] =
Die
σi2
−1 T
AT W A
A W ~y
−1
T
A WA
(8.62)
stecken hier in der Gewichtsmatrix und werden durch die Matrixinversion aus dem
Nenner (siehe Gleichung 8.57 ) in den Zähler geholt.
8.2.2 Grasche Darstellung für 1 Parameter
Aus Gleichung 7.22
F (a) = const. + 12 S(a) und ebenso F (â) = const. + 12 S(â) im Minumum
ergibt sich der Bezug zwischen der Maximum-Likelihood-Methode und der Methode der
kleinsten Quadrate:
∆F
=
1
∆S
2
(8.63)
Damit ist eine graphische Interpretation genauso möglich, wie bei der Maximum-Likelihood-
∆S nimmt in Schritten von σ ebenso quadratisch zu, aber
also ∆F . S wie in Gleichung 8.56 deniert wird auch oft mit
Methode (siehe Abschnitt 7.1.2).
um einen Faktor 2 schneller
χ2
bezeichnet.
n·σ
1σ
2σ
3σ
4σ
5σ
64
∆F
1/2
2
9/2
8
12, 5
∆S, ∆χ2
1
4
9
16
25
KAPITEL 8. PARAMETERSCHÄTZUNG: METHODE DER KLEINSTEN QUADRATE
8.2.3 Geradenanpassung
Hier soll an die Meÿwerte mit unterschiedlichen Fehlern eine Gerade angepaÿt werden.
f (x, a1 , a2 ) = a1 + a2 x
Die Meÿwerte
yi
an den Positionen


~y = 
y1
.
.
.
xi
haben die Fehler

a1
a2

 , ~a =
yn
σi
(8.64)
in
!
yi .


, A = 
1 x1

.
.
.

 .
.
.
.
(8.65)
1 xn
Es ergibt sich hier:
1 ··· 1
x1 · · · xn
AT W A =
1 ··· 1
x1 · · · xn
=



= 

n 1
P
2
i=1 σi
n xi
P
2
i=1 σi
Analoge Rechnungen wie bei
1/σ12
···
0
 
1 x1
.
.
.
..
.
.
.
 
·
.
.
.
0

!

·
1/σ12
.
.
.
Sxx
AT W A
−1
.
.
.



1 xn
1/σn2 xn /σn2





(8.66)
(siehe Abschnitt 8.1.3) führen auf:
=
Sx
.
· · · 1/σn2

x1 /σ12

.
.

.
n 1
P
=
2 , Sy
i=1 σi
n xi
P
=
2 , Sxy =
i=1 σi
n x2
P
i
=
2 .
i=1 σi
S1
Die Determinante bei

·
n xi
P
2
i=1 σi
2
n x
P
i
2
i=1 σi
σi = σ

!
n yi
P
2 ,
i=1 σi
n xi yi
P
i=1
σi2
,
(8.67)
lautet:
D = S1 Sxx − Sx2
a1 =
a2 =
V [~a] =
1
(Sxx Sy − Sx Sxy )
D
1
(−Sx Sy + S1 Sxy )
D
!
1
Sxx −Sx
D −Sx S1
(8.68)
(8.69)
(8.70)
(8.71)
65
Kapitel 9
Prüfung von Hypothesen
9.1 Vergleiche von Messungen und theoretischen Vorhersagen
Bisher:
Soll eine wahre Gröÿe (z. B. die Gravitationskonstante) mit einer Meÿapparatur mit dem
Gauÿschen Fehler
xw
σ
bestimmt werden, so kann man aus
über den Mittelwert
s2 =
1
n−1
n
P
(xi − x̄)2
x̄ =
1
n
n
P
xi
i=1
schätzen (σ
∝
n
Messungen den wahren Wert
und den Fehler der Meÿaparatur über die Varianz
√
s2 ).
i=1
Durch viele Messungen wird die statistische Genauigkeit der Schätzwerte besser (siehe
Gleichung 6.2 und 6.3):
s
x̄ ±
√
s2 ±
s2
n
(9.1)
s
p
2(n − 1)
(9.2)
Fragestellung:
Ist eine Menge von Meÿdaten (Stichprobe) statistisch vereinbar mit einer Annahme (Hypothese)?
positive Antwort
⇒
Messungen kompatibel mit Hypothese,
aber
negative Antwort
Die Verträglichkeit kann durch
⇒
kein Beweis für Hypothese
Hypothese verwerfen
Kondenzniveaus (Kondenz) und Kondenzgrenzen
quan-
tiziert werden. Die Wahrscheinlichkeit wird bestimmt, daÿ die gemessene Abweichung von
der Erwartung durch eine statistische Fluktuation verursacht wurde.
67
KAPITEL 9. PRÜFUNG VON HYPOTHESEN
9.2 Kondenzniveau, Kondenzgrenzen
Die Meÿapparatur hat einen bekannten Fehler
xw
und liefert den Meÿwert
xm .
Was kann
aussagen?
f(x)
man über den wahren Wert
σ
Flaeche vorgegeben
σ
xu
Die Wahrscheinlichkeit
αu ,
daÿ man
xm
x
xm
oder einen gröÿeren Wert miÿt, wird vorgegeben,
d. h. die Fläche in obiger Abbildung . Daraus folgt der Mittelwert
√
αu =
(9.3)
Z∞
1
2π σ
e−
(x−xu )2
2σ 2
dx
xu ,
.
da
σ
bekannt ist.
(9.4)
xm
xu ist die untere Grenze für das Kondenzniveau 1 − αu .
xm noch kleiner ist als xu , ist kleiner als αu .
D. h. die Wahrscheinlichkeit, daÿ
Typische (übliche) Werte sind für Kondenzniveaus:
Gauÿ
bevorzugt
⇒
P
P
P
= 68%
(1σ)
= 95% (1, 96σ)
= 99% (2, 58σ)
(9.5)
f(x)
Genauso: obere Grenze:
σ
xm
68
xo
x
(9.6)
KAPITEL 9. PRÜFUNG VON HYPOTHESEN
√
αo =
Zxm
1
2π σ
e−
(x−xu )2
2σ 2
dx
.
(9.7)
−∞
Für die Aussage, daÿ der wahre Wert mit 95% Wahrscheinlichkeit im Bereich
liegt, ist
9.3
Die
αo = αu
xu < xw < xo
1 − (αo + αu ) = 0.95.
und
χ2 -Verteilung
χ2 -Verteilung
hat eine groÿe Bedeutung bei der Bestimmung der Qualität einer Über-
einstimmung zwischen Daten und Modell.
Die unabhängigen Zufallsvariablen
mit
µ=0
und
x1 , x2 , . . . , xn folgen alle einer Gauÿ-Wahrscheinlichkeitsdichte
σ = 1.
Die Summe der Quadrate heiÿt:
χ2 =
n
X
x2i .
(9.8)
i=1
Um die Wahrscheinlichkeitsdichte zu erhalten, müssen also die Quadrate der gauÿverteilten
Zufallsvariablen gefaltet werden. Das Ergebnis ist die
fn (χ2 ) =
wobei
n
die Zahl der
Freiheitsgrade
Die Gamma-Funktion
Γ
ist für
1
2
χ2
2
n −1
2
χ2 -Verteilung
e−
χ2
2
,
(9.9)
Γ ( n2 )
angibt.
n∈N
Γ (n + 1) = n! .
(9.10)
Die allgemeine Erweiterung der Fakultät lautet:
Γ (x) =
k! k x−1
k→∞ x(x + 1)(x + 2) · · · (x + k − 1)
lim
(9.11)
f(x)
χ2-Verteilung
n=1
n=2
n=3
n=4
n=5
n=6
0.4
0.2
0
0
5
10
15
x
69
KAPITEL 9. PRÜFUNG VON HYPOTHESEN
χ2 -Verteilung
Mittelwert, Varianz und Maximum der
lauten:
< χ2 > = n
V [χ2 ] = 2n
χ2max = n − 2
(9.12)
Der zugehörige Beweis läuft über die Faltung der quadrierten Verteilungen.
Beispiel: Mit den modizierte Residuen lassen sich Gröÿen bilden, die mit
σ = 1
µ = 0
und
2
der Standardisierten Gauÿ-Verteilung folgen und gemeinsam einer χ -Verteilung
folgen:
(yModell − yi )2
x2i =
9.4
(9.13)
2
σModell
χ2 -Test
Hat man
n
Meÿwerte
y1 , y 2 , . . . , y n ,
die von genau bekannten Werten
gig sind, so stellt sich die Frage, ob diese
n
x1 , x2 , . . . xn
abhän-
Meÿwerte mit einer gegebenen theoretischen
Wahrscheinlichkeitsdichte (Modell) vereinbar sind. Die theoretische Vorhersage ist
yt = yt (x)
(9.14)
mit der Varianz der theoretischen Verteilung
2
σt,i
= V [yt (xi )] ,
(9.15)
dies kann z. B. die bekannte Meÿgenauigkeit einer Apparatur sein. Die Testgröÿe ist in
diesem Fall:
χ2 =
!2
yi (xi ) − < yt (xi ) >
σt,i (xi )
n
P
i=1
Falls die
yi
(9.16)
gauÿverteilt sind und die Datenmenge eine Stichprobe der theoretischen Ver-
teilung ist, gehorcht
χ2
einer
χ2 -Verteilung
mit
n
Freiheitsgraden.
Häuger Spezialfall
yi
yt
sind die Anzahlen von Ereignissen
ki
sind die vorhergesagten mittleren Anzahlen der Ereignisse
< kt,i >
Falls die Gesamtzahl der Versuche groÿ ist und die Wahrscheinlichkeit für das Eintreten
des Ereignisses klein, so sollten die Messungen einer Poisson-Verteilung mit
2 =< k >
σt,i
t,i
folgen.
Die Testgröÿe
χ2 =
70
n (ki − < kt,i >)2
P
< kt,i >
i=1
(9.17)
KAPITEL 9. PRÜFUNG VON HYPOTHESEN
folgt einer
χ2 -Verteilung,
falls die Anzahlen
< kt,i >
groÿ genug sind (>
10),
damit die
Näherung der Gauÿ-Verteilung für die Poisson-Verteilung gerechtfertigt ist.
Dies kann genutzt werden um z. B. einen Zufallsgenerator zu testen, der eine Gleichverteilung produzieren soll.
gleichverteilte Zufallszahl mit Fit
Entries
10000
Mean
0.5003
RMS
0.2894
χ2 / ndf
106 / 99
Prob
0.2972
p0
98.94 ± 0.99
120
100
80
60
40
20
0
0
0.2
0.4
0.6
0.8
1
1.2
9.5 Student'scher t-Test
Der Studentsche
t-Test
wird verwendet, um die Vereinbarkeit von Mittelwerten zu unter-
suchen.
Hat man
n
Meÿwerte
y1 , y 2 , . . . , y n
mit dem Mittelwert
ȳ =
1
n
n
P
yi ,
so ist der Fehler des
i=1
Mittelwerts im Fall einer Gauÿ-Verteilung
s
σȳ =
V [yi ]
=
n
σ yi
√ .
n
(9.18)
Falls der Fehler nicht vorher bekannt ist, kann er aus der Messung selbst geschätzt werden
s2 =
n
1 X
(yi − ȳ)2
n−1
(9.19)
s
√
n
(9.20)
i=1
σȳ =
Der theoretisch erwartete Mittelwert ist
yt .
Die Testgröÿe
t =
folgt einer t-Verteilung mit
ȳ − yt
√
s/ n
(9.21)
n − 1 Freiheitsgraden. Diese Wahrscheinlichkeitsdichte für Mit-
telwerte ist gegeben durch
fn (t) =
1 Γ
√ ·
nπ Γ
n+1
2
n
2
·
t2
1+
n
!− n+1
2
(9.22)
71
KAPITEL 9. PRÜFUNG VON HYPOTHESEN
f(t)
Vergleich zwischen Gauss-. und Student-t-Verteilung
0.5
Gauss-Verteilung
Student-t Verteilung mit n=1
0.4
Student-t-Verteilung mit n=5
0.3
0.2
0.1
0
-4
-2
Das Integral der Student-t-Verteilung
0
Rt
f (t)dt
2
4
t
hat folgendes Aussehen:
−∞
f(t)
Vergleich der Integrale von Gauss-. und Student-t-Verteilung
Integral Gauss-Verteilung
1
Integral Student-t Verteilung mit n=1
0.8
Integral Student-t-Verteilung mit n=5
0.6
0.4
0.2
0
-4
-2
0
2
4
t
Beispiel:
a) Vergleich eines theoretischen Wertes mit einem durch Experimente bestimmten Wertes
Mittelwert:
yi
ȳ
Varianz:
s2
theoretischer Wert:
yt
Meÿwerte:
= −1, 0, 1
= 0
1
=
(12 + 02 + 12 ) =
n−1
= −1
Die Testgröÿe ist
t =
72
ȳ − yt
√
=
s/ n
√
0 − (−1)
√
3
=
1/ 3
2
= 1
2
KAPITEL 9. PRÜFUNG VON HYPOTHESEN
Es gibt
3−1=2
Freiheitsgrade.
Die Wahrscheinlichkeit,
ȳ = 0
oder einen gröÿeren Wert zu erhalten, ist
Z∞
P
P (t =
√
=
f2 (t) dt
t
3) =
0, 11 = 11%
Gemessener und theoretischer Wert sind also miteinander verträglich.
b) Vergleich zweier durch Experimente bestimmte Mittelwerte
Meÿwerte:
Experiment 1
:
n
Werte
Experiment 2
:
m
Werte
x1 , x2 , . . . xn
y 1 , y 2 , . . . ym
Sind die Mittelwerte miteinander vereinbar?
√
x̄ ± sx / n
√
ȳ ± sy / m
mit
mit
x̄ =
1
n
ȳ =
1
m
n
P
i=1
m
P
xi , s2x =
yi ,
s2y
=
i=1
1
n−1
1
m−1
n
P
(xi − x̄)2
i=1
m
P
(yi − ȳ)2
i=1
Die Testgröÿe
t =
folgt einer
t-Verteilung
mit
n+m−2
x̄ − ȳ
s
s2y
s2x
+
n
m
Freiheitsgraden.
xi = 3, 5, 7
ȳ = 5
8
1
Varianz:
s2 =
(22 + 02 + 22 =
= 4
n−1
2
√
√
5−0
5 3
= √
t = s
=
15 ≈ 4
5
1
4
+
3
3
Meÿwerte:
Mittelwert:
Es gibt
n+m−2=3+3−2=4
Freiheitsgrade.
Die Wahrscheinlichkeit, bei 4 Freiheitsgraden
|t| ≥ 4
zu messen ist
Z∞
2
f4 (t) dt ≈ 1%
t=4
Die gemessenen Mittelwerte sind also an der Grenze der Verträglichkeit.
73
Kapitel 10
Klassizierungsmethoden
Mit allgemeinen Klassizierungsmethoden möchte man Dinge mit bestimmten Eigenschaften in Klassen einsortieren. Z. B. möchte man Gesichtern Namen zuordnen oder Tiere einer
Art zuordnen.
10.1 Fisher'sche Diskriminanten-Methode
Die Fischer'sche Diskriminantenmethode soll hier an einem Beispiel veranschaulicht werden. Man möchte einem Tier die Eigenschaft Hase oder Kaninchen zuordnen, dabei kennt
man zwei Eigenschaften der Tiere:
Eigenschaften:
~x
Gewicht des Tieres:
x1 = m · g
l
x2 = √
3 mg
Normierte Ohrenlänge:
5
N
Hasen und
M
Kaninchen
Hasen
!
(10.1)
Kaninchen durchgeführt
Anzahl
Anzahl
Die Messung wurde an
=
x1
x2
6
4
4
3
2
2
1
0
0
Normierte Ohrenlaenge
75
KAPITEL 10. KLASSIFIZIERUNGSMETHODEN
Besser:
1. Kombination der Messungen
Normierte
Ohrenlänge
2. dann trennen
Hasen
Kaninchen
Gewicht
Die Mittelwerte und die Kovarianzmatrix für die Hasen (und analog für die Kaninchen)
haben folgendes Aussehen:
~xH
N
1X
~xH
j
N
=
(10.2)
j=1
H
Vk,m
N
H
1 X
H
xH
xm,j − x̄H
m
k,j − x̄k
N
=
mit
k, m = 1, 2
(10.3)
i,j=1
Nun bildet man die mittlere Kovarianzmatrix
V k,m =
und invertiert sie:
V k,m
−1
1 H
K
Vk,m + Vk,m
2
(10.4)
. Nun verwendet man folgende Testgröÿe (aus Fischers Algo-
rithmus)
t =
2
X
V k,m
−1
K
x̄H
m − x̄m xk (+ const.)
(10.5)
k,m=1
xk die Eigenschaft
tc = const. gewählt.
wobei
des unbekannten Tieres ist. Als Schwelle für eine Entscheidung
wird
Dann ist
tc =
⇒
76
P2
x2 = −
k=1 ak xk
tc
a1
x1 −
a2
a2
= a1 x1 + a2 x2
(10.6)
(10.7)
KAPITEL 10. KLASSIFIZIERUNGSMETHODEN
eine Gerade.
Falls die Kovarianzelemente klein sind, also
V
⇒
V
−1
!
≈
σ12 0
0 σ22
=
1/σ12
0
0
1/σ22
(10.8)
!
(10.9)
Dann ist die Testgröÿe eine gewichtete Summe:
t =
K
x̄H
1 − x̄1
|
σ12
{z
Gewicht
· x1 +
K
x̄H
2 − x̄2
σ22
· x2
(10.10)
}
Man erhält eine bessere Trennschärfe für groÿe Dierenzen der Mittelwerte und kleine Va-
⇒
Verstärkung.
Anzahl
rianzen
5
Kaninchen
Hasen
4
3
2
1
0
t
Das Verfahren ist optimal, falls die einzelnen Variablen Gauÿ-Verteilt sind.
10.2 Neuronale Netzwerke
Neuronale Netze werden heute für sehr komplexe Klassizierungsfragen eingesetzt. Ein
Beispiel ist das Studium von Haftpichtversicherungssummen für einen bestimmten PKW
in Verbindung mit persönlichen Daten des Versicherungsnehmers (Alter, Geschlecht, eigene
Kinder etc.)
77
KAPITEL 10. KLASSIFIZIERUNGSMETHODEN
x2 6
H
H
Messwert
H
H
H
ξ2
u
H
H
H
H
H
H
H
H
H
H
H
H
H
H
H
H
H
-
H
H
H
ξ1
x1
Ähnlich wie bei der Fisher-Diskriminantenmethode ist die Fragestellung zunächst: Liegt
der Meÿpunkt unterhalb/oberhalb der Geraden?
x2 = ax1 + b ?
(10.11)
Bzw. eine allgemeinere Formulierung:
B1 x1 + B2 x2 − β = 0
n=2
X
Bi xi − β = 0
(10.12)
(10.13)
i=1
wobei die
Bi
die Gewichte und
β
die Schwelle sind. Die Testgrösse hier hat folgendes
aussehen:
t =
n
X
Bi ξi − β
(10.14)
i=1
Dazu kommt noch ein Entscheidungsfunktion:
(
g(t) =
1
0
für
für
t>0
t≤0
(10.15)
Bildliche Darstellung:
x1
eXX
x2
e
XXX
ze
X
:
Y = g(t)
Mehr Einschränkungsmöglichkeiten ergeben sich durch eine
x1
x2
x3
eX
ZXXXX h1
z
X
Z
: eXXX
Z
XX
>
z
X
eX
X Z
:e
Z
XX
~ e
Z
X
z
X
:
h2
e
H
78
verborgene Schicht :
Y = g(t)
KAPITEL 10. KLASSIFIZIERUNGSMETHODEN
Bei drei Variablen ergibt sich eine Trennebene, wobei ein Meÿpunkt ober- oder unterhalb
liegen kann.
x
63
H
HH
H
H
H
x2
HH H
H
H
H
H
H
H
x1 H
HH
Durch eine verborgene Schicht H ergeben sich zwei Trennebenen.
2
X
~ = g
Y (ξ)
3
X
Aj g
!
Bij ξi − βj
!
−α
(10.16)
i1
j=1
|
{z
}
Meÿpunkt im
Vergleich mit
Trennebene j
{z
|
Für einen Meÿpunkt
ξ~ mit ξ3 = 0
Kombination der 2 Trennebenen
}
ergibt sich dann folgendes Bild:
x2 6
Q
Q
erlaubter
Schnittgerade
Bereich
Trennebene2
Q
Q
Q
Q
Q
Q
Q
Q
Q
Q
Q
Q
Q Schnittgerade
-
x1
Trennebene1
Die Gewichte
Aj , Bjk
und der Schwellen
α, βj
werden mit Minimierungsverfahren bestimmt
(Training). Dem Netz wird eine Menge von Mustern gegeben, deren Klassizierung bekannt
ist. Z. B. Hasen bzw. Kaninchen. Das gewünschte Ergebnis ist
OH
= 1 , OK
= −1
(10.17)
Dazu wird folgender Ausdruck minimiert:
N X
2 X
Yi (ξ~n ) − Oi
2
(10.18)
n=1 i=1
wobei
N
die Anzahl der Testhasen und Testkaninchen ist.
79
Literaturverzeichnis
[1] V Blobel and E. Lohrmann.
Statistische und numerische Methoden der Datenanalyse.
Teubner Studienbücher, 1998.
[2] Rob Miller, David Clark, and William Knottenbelt. An Introduction to the Imperative
Part of C++.
http://www.hep.ph.rhbnc.ac.uk/~cowan/stat_course.html.
[3] The Tevatron Electroweak Working Group. Combination of CDF and DØ results on
the top-quark mass. 2005. HEP-EX 0507091.
81
82
Literaturverzeichnis
Herunterladen