Einführung in die wissenschaftliche Datenanalyse - F

Werbung
Einführung in die wissenschaftliche
Datenanalyse
Dr. Michael O. Distler
[email protected]
http://www-fp.physik.uni-mainz.de/FPkurs/
Mainz, 22. October 2010
Literatur
Grundbegriffe
Wahrscheinlichkeitsverteilungen
Parameterschätzung (Fit)
Einführung in die wissenschaftliche Datenanalyse
Literatur
Volker Blobel und Erich Lohrmann: Statistische und numerische
Methoden der Datenanalyse, Teubner Verlag (1998)
Siegmund Brandt: Datenanalyse, BI Wissenschaftsverlag (1999)
Philip R. Bevington: Data Reduction and Error Analysis for the
Physical Sciences, McGraw-Hill (1969)
Roger J. Barlow: Statistics, John Wiley & Sons (1993)
Glen Cowan: Statistical Data Analysis, Oxford University Press
(1998)
Frederick James: Statistical Methods in Experimental Physics,
2nd Edition, World Scientific, 2006
Wes Metzger’s lecture notes:
www.hef.kun.nl/~wes/stat_course/statist.pdf
Glen Cowan’s lecture notes:
www.pp.rhul.ac.uk/~cowan/stat_course.html
Particle Physics Booklet: http://pdg.lbl.gov/
Einführung in die wissenschaftliche Datenanalyse
Vorbemerkungen
Wissenschaftstheorie
Der Kritische Rationalismus ist eine von Karl R. Popper (* 28.
Juli 1902 in Wien; † 17. September 1994 in London) begründete
philosophische Denkrichtung, die in enger Verbindung mit
seinem Modell für den wissenschaftliche Erkenntnisgewinn,
dem sog. Falsifikationismus, steht. Logik der Forschung, 1934.
−→ Existenz eines wahren Wertes
von Messgrößen und abgeleiteten Größen
Einführung in die wissenschaftliche Datenanalyse
Wahrscheinlichkeitstheorie
Mathematische Statistik, Stochastik:
−→ Axiome von Kolmogorow
Klassische Statistik, frequentist probability:
Pragmatische Wahrscheinlichkeitsdefinition:
n
p(E) = lim
N→∞ N
p steht für probability
n(E) = Zahl des Eintretens des Ereignisses E
N = Zahl der Herbeiführung der gegebenen Bedingungen
(Durchführung des Experiments)
Experimente müssen (prinzipiell) wiederholbar sein.
Nachteil: Strenggenommen sind keine
Wahrscheinlichkeitsaussagen über die wahren Werte
möglich, lediglich die Angabe von oberen und unteren
Grenzen mit einer gewissen Irrtumswahrscheinlichkeit.
Einführung in die wissenschaftliche Datenanalyse
Wahrscheinlichkeitstheorie
Mathematische Statistik, Stochastik
Klassische Statistik, frequentist probability
Bayes’sche Statistik, subjective probability:
Subjektive Annahmen über die Grundgesamtheit gehen in
die Wahrscheinlichkeitsberechnung ein.
Bildhafte Definition: Wahrscheinlichkeiten werden aus dem
Verhältnis von (maximalen) “Wetteinsatz” und zu
erwartendem Gewinn gebildet.
Einführung in die wissenschaftliche Datenanalyse
Wahrscheinlichkeitstheorie
Mathematische Statistik, Stochastik
Klassische Statistik, frequentist probability
Bayes’sche Statistik, subjective probability:
In einer Stadt gibt es zwei Taxiunternehmen, das eine hat
grüne, das andere gelbe Taxis. Bei einem Autounfall
kommt ein Mensch zu Schaden. Ein Zeuge hat ein grünes
Taxi gesehen. Es kommt zur Gerichtsverhandlung.
Der Anwalt des Unternehmens zweifelt die Aussage des
Zeugen an, da die Lichtverhältnisse schlecht waren. Ein
Test ergibt, dass in etwa 10% der Fälle bei gleichen
Bedingungen die Farbe des Taxis verwechselt wird.
Würden Sie dem Zeugen glauben?
Einführung in die wissenschaftliche Datenanalyse
Wahrscheinlichkeitstheorie
Mathematische Statistik, Stochastik
Klassische Statistik, frequentist probability
Bayes’sche Statistik, subjective probability:
In einer Stadt gibt es zwei Taxiunternehmen, das eine hat
grüne, das andere gelbe Taxis. Bei einem Autounfall
kommt ein Mensch zu Schaden. Ein Zeuge hat ein grünes
Taxi gesehen. Es kommt zur Gerichtsverhandlung.
Der Anwalt des Unternehmens zweifelt die Aussage des
Zeugen an, da die Lichtverhältnisse schlecht waren. Ein
Test ergibt, dass in etwa 10% der Fälle bei gleichen
Bedingungen die Farbe des Taxis verwechselt wird.
Würden Sie dem Zeugen glauben?
Wenn es 20 mal mehr gelbe als grüne Taxis gäbe: Würden
Sie dem Zeugen immer noch glauben?
Einführung in die wissenschaftliche Datenanalyse
Wahrscheinlichkeitstheorie
Mathematische Statistik, Stochastik
Klassische Statistik, frequentist probability
Bayes’sche Statistik, subjective probability:
Taxis
200 gelbe
10 grüne
Zeuge sieht . . .
180 mal “gelb”
20 mal “grün”
9 mal “grün”
1 mal “gelb”
Aussage ist . . .
20/29 = 69% falsch
9/29 = 31% richtig
Einführung in die wissenschaftliche Datenanalyse
Wahrscheinlichkeitstheorie
Mathematische Statistik, Stochastik
Klassische Statistik, frequentist probability
Bayes’sche Statistik, subjective probability:
Subjektive Annahmen über die Grundgesamtheit gehen in
die Wahrscheinlichkeitsberechnung ein.
Nachteil: Hypothesen beeinflussen die Wahrscheinlichkeit.
Vorteile bei seltenen und einmaligen Ereignissen, wie
verrauschten Signalen oder
Katastrophenwahrscheinlichkeiten.
Einführung in die wissenschaftliche Datenanalyse
Wahrscheinlichkeitstheorie
Mathematische Statistik, Stochastik
Klassische Statistik, frequentist probability
Bayes’sche Statistik, subjective probability:
Subjektive Annahmen über die Grundgesamtheit gehen in
die Wahrscheinlichkeitsberechnung ein.
Nachteil: Hypothesen beeinflussen die Wahrscheinlichkeit.
Vorteile bei seltenen und einmaligen Ereignissen, wie
verrauschten Signalen oder
Katastrophenwahrscheinlichkeiten.
Im F-Praktikum kommt die klassische Statistik zur
Anwendung. Deshalb sollten alle Fehlerangaben
als Konfidenzbereiche verstanden werden.
Einführung in die wissenschaftliche Datenanalyse
Kombination von Wahrscheinlichkeiten
Gegeben sind zwei Arten von Ereignissen, A und B. Die
Wahrscheinlichkeit für das Autreten von A ist p(A) (B: p(B)).
Dann ist die Wahrscheinlichkeit, dass A oder B eintritt:
p(A oder B) = p(A) + p(B) − p(A und B)
Falls sich die Ereignisse A und B gegenseitig ausschließen, gilt
p(A und B) = 0
Beispiel: Zufälliges Ziehen aus einem Deck von Skatkarten.
p(As oder Pik) =
8
1
11
4
+
−
=
32 32 32
32
Spezialfall: B = Ā (Nicht-Eintreten von A).
p(A und Ā) = p(A) + p(Ā) = 1
Einführung in die wissenschaftliche Datenanalyse
Kombination von Wahrscheinlichkeiten
Die Wahrscheinlichkeit, dass A und B zusammen eintreten, ist:
p(A und B) = p(A) · p(B|A),
p(B|A) ist die bedingte Wahrscheinlichkeit, dass das Ereignis B
eintritt, vorausgesetzt, das Ereignis A ist eingetreten.
Falls die Ereignisse A und B unabhängig sind - aber auch nur
dann - gilt p(B|A) = p(B), bzw.
p(A und B) = p(A) · p(B)
Einführung in die wissenschaftliche Datenanalyse
Tod in den Bergen
In einem Buch über die bergsteigerischen Leistungen von
Reinhold Messner ist folgendes zu lesen: “Wenn man bedenkt,
dass die Wahrscheinlichkeit, bei einer Expedition auf einen
Achttausender umzukommen, 3,4% beträgt, dann hatte
Messner eine Wahrscheinlichkeit von 3,4% · 29 = 99%, bei
seinen 29 Expeditionen getötet zu werden.”
Einführung in die wissenschaftliche Datenanalyse
Tod in den Bergen
In einem Buch über die bergsteigerischen Leistungen von
Reinhold Messner ist folgendes zu lesen: “Wenn man bedenkt,
dass die Wahrscheinlichkeit, bei einer Expedition auf einen
Achttausender umzukommen, 3,4% beträgt, dann hatte
Messner eine Wahrscheinlichkeit von 3,4% · 29 = 99%, bei
seinen 29 Expeditionen getötet zu werden.”
Das kann doch nicht wahr sein, was ist, wenn Messner zu einer
30. Expedition aufbricht?
Einführung in die wissenschaftliche Datenanalyse
Tod in den Bergen
In einem Buch über die bergsteigerischen Leistungen von
Reinhold Messner ist folgendes zu lesen: “Wenn man bedenkt,
dass die Wahrscheinlichkeit, bei einer Expedition auf einen
Achttausender umzukommen, 3,4% beträgt, dann hatte
Messner eine Wahrscheinlichkeit von 3,4% · 29 = 99%, bei
seinen 29 Expeditionen getötet zu werden.”
Das kann doch nicht wahr sein, was ist, wenn Messner zu einer
30. Expedition aufbricht?
Die Wahrscheinlichkeit, eine Expedition zu überleben ist
offensichtlich 1 − 0,034 = 0,966. Wenn man annimmt, dass die
einzelnen Expeditionen unabhängige Ereignisse darstellen, ist
die Wahrscheinlichkeit, alle 29 Expeditionen zu überleben:
P = 0,96629 = 0,367.
Einführung in die wissenschaftliche Datenanalyse
Definitionen
0.1
0.09
0.08
0.07
0.06
0.05
0.04
0.03
0.02
0.01
0
f(x)
f(n)
Wahrscheinlichkeitsverteilung
Wahrscheinlichkeitsdichte
eines Messwertes (=Zufallsvariable)
0
5
10
15
20
25
30
0.1
0.09
0.08
0.07
0.06
0.05
0.04
0.03
0.02
0.01
0
0
5
10
15
n
20
25
30
x
f (n) diskret
Normierung:
X
f (n) ≥ 0
f (n) = 1
f (x) kontinuierlich
Z
∞
f (x) ≥ 0
f (x) dx = 1
−∞
n
Wahrscheinlichkeit:
p(n1 ≤ n ≤ n2 ) =
n2
X
n1
Z
f (n)
x2
p(x1 ≤ x ≤ x2 ) =
f (x) dx
x1
Einführung in die wissenschaftliche Datenanalyse
Definitionen
Integrierte Verteilungsfunktion oder kumulative
Wahrscheinlichkeitsverteilung:
Z x
F (x) =
f (x 0 )dx 0 , F (−∞) = 0, F (∞) = 1
−∞
Beispiel:
Zerfallszeit t eines radioaktiven Kerns der mittleren Lebensdauer τ :
f (t) =
1 −t/τ
e
τ
F (t) = 1 − e−t/τ
1
f(t)*12s
0.8
F(t)
0.6
0.4
0.2
0
0
10
20
30
40
50
t/s
Einführung in die wissenschaftliche Datenanalyse
Erwartungswerte und Momente
Mittelwert: Kann eine Zufallsgröße E die Werte E1 , E2 , . . . , En
annehmen und geschieht dies mit der Wahrscheinlichkeit p(Ei ),
dann bezeichnet man als Mittelwert der Größe E
(“Erwartungswert”)
Ē = hEi =
n
X
Ei · p(Ei )
i=1
Der Erwartungswert der Funktion h(x) für kontinuierliche
Zufallsgrößen:
Z ∞
E[h(x)] =
h(x) · f (x)dx
−∞
Mittelwert: ist der Erwartungswert von x (wichtiger Spezialfall):
Z ∞
E[x] = x̄ =
x · f (x)dx
−∞
Einführung in die wissenschaftliche Datenanalyse
Erwartungswerte und Momente
Streuung = {Mittelwert der (Abweichung von x̄)2 }1/2
Z ∞
σ 2 = (x − x̄)2 =
(x − x̄)2 · f (x)dx
−∞
Z ∞
=
(x 2 − 2x x̄ + x̄ 2 ) · f (x)dx = x 2 − 2x̄ x̄ + x̄ 2 = x 2 − x̄ 2
−∞
σ 2 = Varianz, σ = Standardabweichung
Für diskrete Verteilungen:
P
1 X 2 ( x)2
2
σ =
x −
N
N
Vorsicht: Hier wird die Varianz definiert! Für eine
erwartungstreue Schätzung der Varianz wird N1 durch
ersetzt. Siehe: Schätzverfahren
1
N−1
Einführung in die wissenschaftliche Datenanalyse
Erwartungswerte und Momente
Momente: Die Erwartungswerte von x n und von (x − hxi)n
werden n-te algebraische Momente µn und n-te zentrale
Momente µ0n genannt.
Die Schiefe v (x) einer Zufallsvariablen x ist das auf die dritte
Potenz der Standardabweichung bezogene zentrale Moment 3.
Ordnung µ03 (x):
v=
µ03
E[(x − E[x])3 ]
=
σ3
σ3
Das 4te zentrale Moment bezogen auf die vierte Potenz der
Standardabweichung bezeichnet man als Wölbung (Kurtosis).
Einführung in die wissenschaftliche Datenanalyse
Binomialverteilung
Häufige Fragestellung: Sei p die Wahrscheinlichkeit für das
Eintreten des Ereignisses bei einem Versuch - wie groß ist die
Wahrscheinlichkeit, dass das Ereignis bei n Versuchen r-mal
eintritt?
n r
P(r ) =
p · (1 − p)n−r
r
P(r ) ist korrekt auf 1 normiert. Binomialtheorem mit q = 1 − p.
Der Mittelwert von r ist:
hr i = E[r ] =
n
X
rP(r )= np
r =0
Die Varianz σ 2 ist
n
X
V [r ] = E[(r − hr i) ] =
(r − hr i)2 P(r )= np(1 − p)
2
r =0
Einführung in die wissenschaftliche Datenanalyse
Poisson-Verteilung
Die Poisson-Verteilung ist gegeben
durch:
µr e−µ
P(r ) =
r!
Der Mittelwert ist:
hr i = µ
0.6
0.6
0.5
0.5
0.4
µ = 0.5
0.4
0.3
0.3
0.2
0.2
0.1
0.1
0
0
0
2
4
6
8
10
0.35
2
V [r ] = σ = np = µ
0
2
4
6
8
10
0.35
0.3
Die Varianz ergibt sich aus V [r ] =
np(1 − p) für die Binomialverteilung:
µ=1
0.3
0.25
0.25
0.2
µ=2
0.2
0.15
µ=4
0.15
0.1
0.1
0.05
0.05
0
0
0
2
4
6
8
10
0
2
4
6
8
Einführung in die wissenschaftliche Datenanalyse
10
Das Gesetz der großen Zahl
Angenommen, dass in n statistisch unabhängigen
Experimenten das Ereignis j insgesamt nj mal aufgetreten ist.
Die Zahlen nj folgen einer Binomialverteilung, und das
Verhältnis hj = nj /n ist die entsprechende Zufallsvariable. Der
Erwartungswert E[hj ] ist die Wahrscheinlichkeit pj für das
Ereignis j:
pj = E[hj ] = E[nj /n]
Für die Varianz gilt dann (Binomialverteilung!):
V [hj ] = σ 2 (hj ) = σ 2 (nj /n) =
1
1
· σ 2 (nj ) = 2 · npj (1 − pj )
2
n
n
Da das Produkt pj (1 − pj ) immer ≤
1
4
ist, gilt die Ungleichung
σ 2 (hj ) < 1/n
bekannt als das Gesetz der großen Zahl.
Einführung in die wissenschaftliche Datenanalyse
Der Zentrale Grenzwertsatz
Der zentrale Grenzwertsatz (ZGS) ist der wichtigste Satz in der
Statistik. Unter anderem erklärt er die zentrale Bedeutung der
Gauß-Verteilung.
P
Die Wahrscheinlichkeitsdichte der Summe w = ni=1 xi einer
Stichprobe aus n unabhängigen Zufallsvariablen xi mit einer
beliebigen Wahrscheinlichkeitsdichte mit Mittelwert hxi und
Varianz σ 2 geht in der Grenze n → ∞ gegen eine
Gauß-Wahrscheinlichkeitsdichte mit Mittelwert hwi = nhxi und
Varianz V [w] = nσ 2 .
Einführung in die wissenschaftliche Datenanalyse
Illustration: Zentraler Grenzwertsatz
0.5
0.5
N=1
N=2
Gauss
0.4
0.4
0.3
0.3
0.2
0.2
0.1
0.1
0
0
-3
-2
-1
0
1
2
3
0.5
-3
-2
-1
0
1
2
3
0.5
N=3
N=10
0.4
0.4
0.3
0.3
0.2
0.2
0.1
0.1
0
0
-3
-2
-1
0
1
2
3
-3
-2
-1
0
1
2
Dargestellt ist die Summe uniform verteilter Zufallszahlen im
Vergleich zur Standardnormalverteilung.
Einführung in die wissenschaftliche Datenanalyse
3
Spezielle Wahrscheinlichkeitsdichten
Gleichverteilung: Diese Wahrscheinlichkeitsdichte ist konstant
zwischen den Grenzen x = a und x = b:
1
b−a a ≤ x < b
f (x) =
0
außerhalb
Mittelwert und Varianz sind:
hxi = E[x] =
a+b
2
V [x] = σ 2 =
(b − a)2
12
Die Gleichverteilung wird oft U(a, b) (“uniform”) geschrieben.
Besonders wichtig ist die Verteilung U(0, 1) mit den Grenzen 0
und 1, die eine Varianz 1/12 hat.
Einführung in die wissenschaftliche Datenanalyse
Die Normalverteilung (Gauß-Verteilung)
Die wichtigste Wahrscheinlichkeitsdichte wegen ihrer großen
Bedeutung in der Praxis.
(x−µ)2
1
−
e 2σ2
f (x) = √
2πσ
Die Normalverteilung wird von zwei Parametern bestimmt, dem
Mittelwert µ und der Standardabweichung σ. Die
Wahrscheinlichkeitsdichte mit dem Mittelwert µ = 0 und der
Varianz σ 2 = 1 heißt standardisierte Gauß-Verteilung,
abgekürzt N(0, 1).
Die Gauß-Verteilung kann hergeleitet werden als Grenzfall der
Binomialverteilung für große Werte von n und r , und auf
ähnliche Weise auch als Grenzfall der Poisson-Verteilung für
große Werte von µ.
Einführung in die wissenschaftliche Datenanalyse
Die Normalverteilung (Gauß-Verteilung)
Z
1
dx N(0, 1) = 0,6827 = (1 − 0,3173)
−1
Z 2
dx N(0, 1) = 0,9545 = (1 − 0,0455)
−2
Z 3
dx N(0, 1) = 0,9973 = (1 − 0,0027)
−3
FWHM: Dieser Begriff ist oft nützlich, um auf einfache Weise
die Standardabweichung einer Gaußkurve zu schätzen.
√
FWHM = 2σ 2ln2 = 2,355σ
Einführung in die wissenschaftliche Datenanalyse
Die Normalverteilung (Gauß-Verteilung) im Vergleich
0.3
0.25
0.2
0.15
0.1
0.05
0
0.2
0.15
0.1
0.05
0
0
2
4
6
8
10 12 14
0
2
4
6
8
10 12 14
Links: Binomialverteilung mit n = 10 und p = 0,6
im Vergleich mit der Gauß-Verteilung
p
√
mit µ = np = 6 und σ = np(1 − p) = 2,4.
√
Rechts: Poisson-Verteilung mit µ = 6 und σ = 6
im Vergleich mit der Gauß-Verteilung.
Einführung in die wissenschaftliche Datenanalyse
Integrierte Gaußfunktion
Die Wahrscheinlichkeitsverteilung wird mit Φ(x) bezeichnet,
Z x
(t−µ)2
1
−
e 2σ2 dt.
Φ(x) = √
2πσ −∞
In vielen Formelsammlungen finden sich Tabellen der
integrierten standardisierten Gauß-Verteilung,
Z z
x2
1
e− 2 .
F (x) = √
2π −∞
Die integrierte Verteilungsfunktion kann durch die Gauß’sche
Fehlerfunktion erf(x) ausgedrückt werden,
Z x
2
2
e−t dt.
erf(x) = √
π 0
1
x −µ
Φ(x) =
1 + erf √
.
2
2σ
Einführung in die wissenschaftliche Datenanalyse
Integrierte Gaußfunktion
1.2
0.5*(1+erf(x/sqrt(2)))
0.4*exp(-0.5*x*x)
1
0.8
0.6
0.4
0.2
0
-3
-2
-1
0
1
2
3
Einführung in die wissenschaftliche Datenanalyse
χ2 -Verteilung
Falls x1 , x2 , . . . , xn unabhängige Zufallsvariable sind, die alle
einer Gauß-Wahrscheinlichkeitsdichte folgen mit Mittelwert 0
und Varianz 1, so folgt die Summe
2
u=χ =
n
X
xi2
i=1
einer χ2 -Verteilung fn (u) = fn (χ2 ) mit n Freiheitsgraden. Die
Wahrscheinlichkeitsdichte ist:
1 u n/2−1 −u/2
e
2 2
fn (u) =
Γ(n/2)
Die Wahrscheinlichkeitsdichte fn (u) hat ein Maximum bei
(n − 2). Der Mittelwert ist n und die Varianz 2n.
Einführung in die wissenschaftliche Datenanalyse
χ2 -Wahrscheinlichkeitsdichte
0.3
pdf(2,x)
pdf(3,x)
pdf(4,x)
pdf(5,x)
pdf(6,x)
pdf(7,x)
pdf(8,x)
pdf(9,x)
0.25
0.2
0.15
0.1
0.05
0
0
2
4
6
8
10
Einführung in die wissenschaftliche Datenanalyse
χ2 -Verteilungsfunktion
Sie beschreibt die Wahrscheinlichkeit, dass χ2n im Intervall [0, x] liegt.
cdf(2,x)
cdf(3,x)
cdf(4,x)
cdf(5,x)
cdf(6,x)
cdf(7,x)
cdf(8,x)
cdf(9,x)
1
0.8
0.6
0.4
0.2
0
0
2
4
6
8
10
Einführung in die wissenschaftliche Datenanalyse
χ2 -Verteilung mit 5 Freiheitsgraden
0.16
0.14
0.12
0.1
0.08
0.06
0.04
95% c.l.
0.02
[0.831 ... 12.83]
0
0
2
4
6
8
10
12
14
Einführung in die wissenschaftliche Datenanalyse
Zufallsvariable in zwei Dimensionen
Die mehrdimensionale Wahrscheinlichkeitsdichte f (x, y ) der
zwei Zufallszahlen x̃ und ỹ ist definiert durch die
Wahrscheinlichkeit, das Variablenpaar (x̃, ỹ ) in den Intervallen
a ≤ x̃ < b und c ≤ ỹ < d zu finden
Z
d
Z
b
P(a ≤ x̃ < b, c ≤ ỹ < d) =
f (x, y ) dx dy
c
Normierung:
Z
∞
Z
a
∞
f (x, y ) dx dy = 1
−∞
−∞
Gilt:
f (x, y ) = h(x) · g(y )
dann sind die zwei Zufallsvariablen unabhängig.
Einführung in die wissenschaftliche Datenanalyse
Zufallsvariable in zwei Dimensionen
Mittelwerte und Varianzen sind naheliegend (siehe 1. Dim):
Z Z
< x >= E[x] =
x f (x, y ) dx dy
Z Z
< y >= E[y ] =
y f (x, y ) dx dy
Z Z
V [x] =
(x− < x >)2 f (x, y ) dx dy = σx2
Z Z
V [y ] =
(y − < y >)2 f (x, y ) dx dy = σy2
Sei z eine Funktion von x, y :
z = z(x, y )
Damit ist z ebenfalls eine Zufallsvariable.
Z Z
<z> =
z(x, y ) f (x, y ) dx dy
D
E
σz2 =
(z− < z >)2
Einführung in die wissenschaftliche Datenanalyse
Zufallsvariable in zwei Dimensionen
Einfaches Beispiel:
z(x, y ) = a · x + b · y
Erwartungswert von z:
Z Z
Z Z
<z> = a
x f (x, y ) dx dy + b
y f (x, y ) dx dy
= a < x > +b < y >
unproblematisch
Einführung in die wissenschaftliche Datenanalyse
Zufallsvariable in zwei Dimensionen
z(x, y ) = a · x + b · y
Varianz:
D
E
((a · x + b · y ) − (a < x > + b < y >))2
D
E
=
((a · x − a < x >) + (b · y − b < y >))2
D
E
D
E
= a2 (x− < x >)2 +b2 (y − < y >)2
{z
}
{z
}
|
|
2
2
σx
σy
σz2 =
+2ab h(x− < x >)(y − < y >)i
|
{z
}
??
< (x− < x >)(y − < y >) >= cov(x, y )
Kovarianz
Z Z
= σxy =
(x− < x >)(y − < y >) f (x, y ) dx dy
Einführung in die wissenschaftliche Datenanalyse
Zufallsvariable in zwei Dimensionen
Normierte Kovarianz:
cov(x, y )
= ρxy
σx σy
Korrelationskoeffizient
gibt ein grobes Maß der Abhängigkeit zweier Variablen an.
−1 ≤ ρxy ≤ 1
Einführung in die wissenschaftliche Datenanalyse
Zufallsvariable in zwei Dimensionen
Für die Determinante der Kovarianzmatrix gilt:
2
σx σxy 2 2
2
2 2
2
σxy σ 2 = σx σy − σxy = σx σy (1 − ρ ) ≥ 0
y
Einführung in die wissenschaftliche Datenanalyse
2-dim Gauß-Verteilung
-2.7
-2.8
Parameter a2
-2.9
-3
-3.1
-3.2
-3.3
1.85
1.9
1.95
2
2.05
2.1
2.15
Parameter a1
Wahrscheinlichkeitsinhalt der Kovarianzellipse: 39,3%
Einführung in die wissenschaftliche Datenanalyse
Kovarianzmatrix in n-Dimensionen
Als Verallgemeinerung der Varianz definiert man die
Kovarianzmatrix durch:
D
E
Vij = (~x − < ~x >)(~x − < ~x >)T
Damit ergeben sich als Diagonalelemente der Matrix Vij die
Varianzen und als Nicht-Diagonalelemente die Kovarianzen:
Z
Vii = var(xi ) = (xi − < xi >)2 f (~x ) dx1 dx2 . . . dxn
Z
Vij = cov(xi , xj ) = (xi − < xi >)(xj − < xj >) f (~x ) dx1 dx2 . . . dxn .
Einführung in die wissenschaftliche Datenanalyse
Kovarianzmatrix in n-Dimensionen
Die Kovarianzmatrix

var(x1 )
cov(x1 , x2 ) . . . cov(x1 , xn )
 cov(x2 , x1 )
var(x2 )
. . . cov(x2 , xn )
Vij = 

...
...
...
cov(xn , x1 ) cov(xn , x2 ) . . .
var(xn )




ist eine symmetrische n × n-Matrix. Man schreibt auch:
 2

σ1 σ12 . . . σ1n
 σ21 σ 2 . . . σ2n 
2

Vij = 
 ... ...
... 
σn1 σn2 . . . σn2
Einführung in die wissenschaftliche Datenanalyse
Faltung
Zwei Zufallsvariablen x und y seien durch ihre
Wahrscheinlichkeiten fx (x) und fy (y ) gegeben. Offensichtlich
ist ihre Summe w = x + y ebenfalls eine Zufallsvariable. Die
Wahrscheinlichkeitsdichte der Summe w sei fw (w). Sie wird
durch erhalten durch eine Faltung von x mit y .
Z Z
fw (w) =
fx (x)fy (y )δ(w − x − y ) dx dy
Z
Z
=
fx (x)fy (w − x) dx = fy (y )fx (w − y ) dy
−→ Charakteristische Funktion
Einführung in die wissenschaftliche Datenanalyse
Transformation von Wahrscheinlichkeitsdichten
Die Wahrscheinlichkeitsdichte fx (x) der Variablen x soll
vermöge y = y (x) in eine andere Variable y transformiert
werden:
y = y (x)
fx (x)
fy (y )
−→
Betrachte: Intervall (x, x + dx) → (y , y + dx)
Bedenke: die Flächen unter den Wahrscheinlichkeitsdichten in
den jeweiligen Intervallen müssen gleich sein.
dx fx (x)dx = fy (y )dy ,→ fy (y ) = fx (x(y )) dy
Einführung in die wissenschaftliche Datenanalyse
Transformation von Mittelwert und Varianz,
Fehlerfortplanzung
Entwicklung um Mittelwert:
2 dy 1
2 d y
y (x) = y (hxi) + (x − hxi)
+...
+ (x − hxi)
dx x=hxi 2
dx 2 x=hxi
Bis 2. Ordnung:
2 dy 1
2 d y
E[y ] ' y (hxi) + E[x − hxi]
+ E[(x − hxi) ]
dx x=hxi 2
dx 2 x=hxi
|
{z
}
=0
1 2 d 2 y hy i ' y (hxi) +
σ
2 x dx 2 x=hxi
|
{z
}
wird oft weggelassen
Einführung in die wissenschaftliche Datenanalyse
Transformation von Mittelwert und Varianz,
Fehlerfortplanzung
Für die Varianz nehmen wir an hy i ' y (hxi) und entwickeln
y (x) um den Mittelwert hxi bis zur 1. Ordnung:

!2 
h
i
dy 
V [y ] = E (y − hy i)2 = E  (x − hxi)
dx x=hxi
=
!2
h
i
dy 2
·
E
(x
−
hxi)
=
dx x=hxi
!2
dy · σx2
dx x=hxi
Gesetz der Fehlerfortpflanzung für eine Zufallsvariable.
Einführung in die wissenschaftliche Datenanalyse
Schätzung von Parametern
Problemstellung: Aus fehlerbehafteten Messungen möglichst
genaue Ergebnisse erarbeiten zusammen mit Aussagen über
Zuverlässigkeit und Grenzen.
Vorsicht: Messungen unterliegen einer Reihe von
unkontrollierbaren Einflüssen, welche zufällig genannt werden sie sind also mit statistischen Fehlern versehen. Daneben gibt
es aber noch systematische Fehler, die durch eine fehlerhafte
Methode hervorgerufen werden, etwa durch falsche
Messinstrumente oder falsche Formeln bei der Auswertung.
Systematische Fehler müssen anders behandelt werden als
statistische Fehler. So können sie auch durch Mittelung über
mehrere Messungen nicht reduziert werden.
Einführung in die wissenschaftliche Datenanalyse
Schätzung von Parametern
Formal: Messung von n unabhängigen Werten x1 , x2 , . . . , xn der
Zufallsvariablen x bzw. ~x . (Stichprobe)
Aufgabe: Beste Schätzung eines (mehrerer) Parameter. Diese
Schätzung ist selbst auch eine Zufallsvariable. Deshalb sollen
auch Aussagen über Fehler und Korrelationskoeffizienten
gemacht werden.
Allgemeine Kriterien für eine Methode zur Bestimmung von
Parametern mit Schätzwert â und wahrem Wert a0 :
1
Konsistenz: lim â = a0 .
n→∞
2
Erwartungstreue: E[â] = a0 .
3
Effizienz: Varianz von â klein.
4
Robustheit gegenüber falschen Daten und
Voraussetzungen.
Wobei die letzten beiden Kriterien häufig im Widerspruch sind.
Einführung in die wissenschaftliche Datenanalyse
Robuste Schätzung von Mittelwerten
n
x̄ =
1X
xi
n
i=1
Konsistenz? ok (Zentraler Grenzwertsatz)
P
Erwartungstreue? ok E[x̂] = n1 ni=1 E[xi ] =< x >.
Effizienz?
Robustheit?
Einführung in die wissenschaftliche Datenanalyse
Mittelwert einer symmetrischen Verteilung
Für symmetrische Verteilungen (die keine Gauß-Verteilungen
sind) ist das Stichprobenmittel weder effizient noch robust.
0.5
f(x)
g(x)
h(x)
Wahrscheinlichkeitsdichte p(x)
0.45
0.4
0.35
0.3
0.25
0.2
0.15
0.1
0.05
0
−4
−2
Breit-Wigner-Verteilung:
Gauß-Verteilung:
Doppelt-Exponentiell:
0
Zufallsvariable x
2
4
1 1
π x 2 +1
2
g(x) = √1 e−x /2
2π
h(x) = 12 e−|x|
f (x) =
Einführung in die wissenschaftliche Datenanalyse
Mittelwert einer symmetrischen Verteilung
Besser: Getrimmter Mittelwert (Mittelwert mit Abschneiden)
Weglassen der (1 − 2r )n/2 größten und kleinsten Messwerte
einer Stichprobe.
Grenzfälle:
r = 0,5: Mittelwert
r → 0: Median.
Für eine unbekannte sym. Verteilung liefert r = 0,23 das robustete Verfahren mit einer Effizienz von 82%.
Einführung in die wissenschaftliche Datenanalyse
Mittelwert einer Gleichverteilung
Die genaueste Schätzung ist gegeben durch:
x̄ =
x̌ + x̂
2
1800
0.1
1600
0.01
1400
0.001
1200
0.0001
absoluter Fehler
Häufigkeit
mit x̌ (x̂) kleinster (größter) Wert der Stichprobe.
1000
800
600
400
1e−05
1e−06
1e−07
1e−08
200
1e−09
0
1e−10
0
0.1
0.2
0.3
0.4
0.5
0.6
0.7
Mittelwert der Stichprobe
0.8
0.9
1
10
100
1000
10000 100000 1e+06
Größe der Stichprobe
1e+07
1e+08
Die beste√Schätzung liefert die bessere Varianz, die wie (1/n)2
(statt (1/ n)2 ) gegen Null geht.
Einführung in die wissenschaftliche Datenanalyse
Beispiel für eine Stichprobe
li /cm
18,9
19,1
19,2
19,3
19,4
19,5
19,6
19,7
19,8
19,9
20,0
20,1
20,2
20,3
20,4
20,5
20,6
20,7
20,8
20,9
21,0
21,2
P
ni
1
1
2
1
4
3
9
8
11
9
5
7
8
9
6
3
2
2
2
2
4
1
100
ni li /cm
18,9
19,1
38,4
19,3
77,6
58,5
176,4
157,6
217,8
179,1
100,0
140,7
161,6
182,7
122,4
61,5
41,2
41,4
41,6
41,8
84,0
21,2
2002,8
ni li2 /cm2
357,21
364,81
737,28
372,49
1505,44
1140,75
3457,44
3104,72
4312,44
3564,09
2000,00
2828,07
3264,32
3708,81
2496,96
1260,75
848,72
856,98
865,28
873,62
1764,00
449,44
40133,62
Stichprobe von 100 Längenmessungen:
X
N =
ni = 100
Mittelwert? Varianz?
Einführung in die wissenschaftliche Datenanalyse
Beispiel für eine Stichprobe
li /cm
18,9
19,1
19,2
19,3
19,4
19,5
19,6
19,7
19,8
19,9
20,0
20,1
20,2
20,3
20,4
20,5
20,6
20,7
20,8
20,9
21,0
21,2
P
ni
1
1
2
1
4
3
9
8
11
9
5
7
8
9
6
3
2
2
2
2
4
1
100
ni li /cm
18,9
19,1
38,4
19,3
77,6
58,5
176,4
157,6
217,8
179,1
100,0
140,7
161,6
182,7
122,4
61,5
41,2
41,4
41,6
41,8
84,0
21,2
2002,8
ni li2 /cm2
357,21
364,81
737,28
372,49
1505,44
1140,75
3457,44
3104,72
4312,44
3564,09
2000,00
2828,07
3264,32
3708,81
2496,96
1260,75
848,72
856,98
865,28
873,62
1764,00
449,44
40133,62
Stichprobe von 100 Längenmessungen:
X
N =
ni = 100
hli =
s2 =
1X
ni li = 20,028 cm
N
X
1
1 X 2
2
ni li −
ni li
N −1
N
= 0,2176 cm2
Einführung in die wissenschaftliche Datenanalyse
Beispiel für eine Stichprobe
li /cm
18,9
19,1
19,2
19,3
19,4
19,5
19,6
19,7
19,8
19,9
20,0
20,1
20,2
20,3
20,4
20,5
20,6
20,7
20,8
20,9
21,0
21,2
P
ni
1
1
2
1
4
3
9
8
11
9
5
7
8
9
6
3
2
2
2
2
4
1
100
ni li /cm
18,9
19,1
38,4
19,3
77,6
58,5
176,4
157,6
217,8
179,1
100,0
140,7
161,6
182,7
122,4
61,5
41,2
41,4
41,6
41,8
84,0
21,2
2002,8
ni li2 /cm2
357,21
364,81
737,28
372,49
1505,44
1140,75
3457,44
3104,72
4312,44
3564,09
2000,00
2828,07
3264,32
3708,81
2496,96
1260,75
848,72
856,98
865,28
873,62
1764,00
449,44
40133,62
Stichprobe von 100 Längenmessungen:
X
N =
ni = 100
hli =
s2 =
1X
ni li = 20,028 cm
N
X
1
1 X 2
2
ni li −
ni li
N −1
N
= 0,2176 cm2
s
l̄ = hli ± √
N
= (20,028 ± 0,047) cm
s
s = s± p
2(N − 1)
= (0,466 ± 0,033) cm
Einführung in die wissenschaftliche Datenanalyse
Beispiel für eine Stichprobe
12
"length.dat"
Gauß(µ=20.028,σ=0.466)
Gauß(µ=20.0,σ=0.5)
10
Häufigkeit
8
6
4
2
0
18.5
19
19.5
20
Länge / cm
20.5
21
21.5
Einführung in die wissenschaftliche Datenanalyse
Die Maximum-Likelihood-Methode
Stichprobe von n Werten xi . Zugrunde liegende
Wahrscheinlichkeitsdichte
f (x|a) sei bekannt und normiert
R
f (x|a) dx = 1.
Likelihood-Funktion:
L(a) = f (x1 |a) · f (x2 |a) · . . . · f (xn |a) =
n
Y
f (xi |a)
i=1
Die beste Schätzung für â entspricht dem Maximum der
Likelihood-Funktion.
Maximum wie üblich durch Ableiten und Nullsetzen:
dL(a)
da
oder
∂L(ak )
∂ak
für alle k
Einführung in die wissenschaftliche Datenanalyse
Die Maximum-Likelihood-Methode
In der Praxis meist Logarithmus der Likelihood-Funktion
l(a) = ln L(a) bzw. negativer Logarithmus:
F (a) = −l(a) = −
n
X
ln f (xi |a)
i=1
Natürlich muss F (a) minimiert werden.
,→ negative Log-Likelihood-Funktion
Einführung in die wissenschaftliche Datenanalyse
Die Maximum-Likelihood-Methode
Einführung in die wissenschaftliche Datenanalyse
Methode der kleinsten Quadrate
Geschichte: Von Legendre, Gauß und Laplace zu Beginn des
19. Jahrhunderts eingeführt.
Die Methode der kleinsten Quadrate ist damit älter als die
allgemeinere Maximum Likelihood-Methode.
In diesem Kapitel werden direkte Messwerte mit der
Eigenschaft von Zufallsvariablen (Daten) durchweg mit yi
bezeichnet.
n-malige Messung einer Größe x liefert also y1 , y2 , . . . , yn :
yi = x + i
i ist die Abweichung yi ↔ x (Messfehler).
Einführung in die wissenschaftliche Datenanalyse
Methode der kleinsten Quadrate
Die gemessenen Werte weichen von dem wahren Wert um
einen Betrag ab, der durch die Standardabweichung σ
beschrieben wird.
Im Sinne der Statistik sind die yi eine Stichprobe, welcher
eine Wahrscheinlichkeitsdichte zugrunde liegt.
Es soll eine funktionelle Beziehung (Modell) für die wahren
Werte vorliegen.
Dieses Modell kann von zusätzlichen Variablen aj
(Parametern) abhängen.
Für diese Parameter gibt es keine direkte Messung.
Das Modell wird durch eine oder mehrere Gleichungen der
Form
f (a1 , a2 , . . . , ap , y1 , y2 , . . . , yn ) = 0
beschrieben. Diese Gleichungen heißen Bedingungen.
Einführung in die wissenschaftliche Datenanalyse
Methode der kleinsten Quadrate
Das Modell kann benutzt werden, um Korrekturen ∆yi für die
Messwerte yi zu finden, so dass die korrigierten Werte die
Bedingungen exakt erfüllen.
Das Prinzip der kleinsten Quadrate verlangt, dass die Summe
der Quadrate der Residuen ∆yi den kleinstmöglichen Wert
annimmt.
Im einfachsten Fall unkorrelierter Daten, die alle die gleiche
Standardabweichung haben, entspricht das der Forderung:
S=
n
X
∆yi2 = Minimum
i=1
Man kann so Werte für die nicht gemessenen Parameter unter
allgemeinen Bedingungen ermitteln −→ indirekte Messung
Einführung in die wissenschaftliche Datenanalyse
Methode der kleinsten Quadrate
Die Methode der kleinsten Quadrate hat einige optimale
statistische Eigenschaften und führt oft zu einfachen Lösungen.
Andere Vorschriften sind denkbar, führen aber im allgemeinen
zu komplizierten Lösungen.
n
X
|∆yi | = Minimum
oder
max |∆yi | = Minimum
i=1
Einführung in die wissenschaftliche Datenanalyse
Methode der kleinsten Quadrate
Allgemeiner Fall:
Daten werden beschrieben durch n-Vektor y.
Verschiedene Standardabweichungen und mit
Korrelationen, beschrieben durch die Kovarianzmatrix V.
Bedingung der kleinsten Quadrate in Matrixform:
S = ∆yT V−1 ∆y
Hierbei ist ∆y der Residuenvektor.
Einführung in die wissenschaftliche Datenanalyse
Lineare kleinste Quadrate
Beispiel: Im Weinanbau werden die jeweils im Herbst geernteten
Erträge in Tonnen je 100 m2 (t/ar) gemessen. Es ist bekannt, dass
der Jahresertrag bereits im Juli ziemlich gut prognostiziert werden
kann, und zwar durch die Bestimmung der mittleren Anzahl von
Beeren, die je Traube gebildet worden sind.
Ertrag (yi )
5,6
3,2
4,5
4,2
5,2
2,7
4,8
4,9
4,7
4,1
4,4
5,4
Cluster (xi )
116,37
82,77
110,68
97,50
115,88
80,19
125,24
116,15
117,36
93,31
107,46
122,30
6
5.5
5
Ertrag/(t/ar) y
Jahr
1971
1973
1974
1975
1976
1977
1978
1979
1980
1981
1982
1983
4.5
4
3.5
3
2.5
80
90
100
Clusterzahl x
110
120
Einführung in die wissenschaftliche Datenanalyse
Lineare kleinste Quadrate
Anpassung einer Geraden f (x) = a + b · x mit Hilfe von gnuplot:
degrees of freedom (FIT_NDF) : 10
rms of residuals (FIT_STDFIT) = sqrt(WSSR/ndf) :
0.364062
variance of residuals (reduced chisquare) =
WSSR/ndf : 0.132541
Final set of parameters Asymptotic Standard Error
======================= ==========================
a = -1.0279 +/- 0.7836 (76.23%)
b = 0.0513806 +/- 0.00725 (14.11%)
correlation matrix of the fit parameters:
a
b
a 1.000
b -0.991 1.000
Einführung in die wissenschaftliche Datenanalyse
Bestimmung von Parameterwerten
Bestimmung von Parameterwerten a aus Messungen anhand
eines linearen Modells.
Der Vektor a der Parameter hat p Elemente a1 , a2 , . . . , ap .
Die Messwerte bilden den Vektor y von n Zufallsvariablen mit
Elementen y1 , y2 , . . . , yn .
Der Erwartungswert von y ist gegeben als Funktion der
Variablen x der Form:
y (x) = f (x, a) = a1 f1 (x) + a2 f2 (x) + . . . + ap fp (x).
Damit ist der Erwartungswert jeder Einzelmessung yi gegeben
durch
E[yi ] = f (xi , ā) = ȳi
wobei die Elemente von ā die wahren Werte des Parameters a
sind.
Einführung in die wissenschaftliche Datenanalyse
Bestimmung von Parameterwerten
Die Residuen
ri = yi − f (xi , a)
haben für a = ā die Eigenschaften
E[ri ] = 0
E[ri2 ] = V [ri ] = σi2 .
Die einzigen Annahmen hier sind Unverzerrtheit und eine
endliche Varianz der Wahrscheinlichkeitsdichte der Residuen.
Insbesondere ist es nicht zwingend nötig, dass sie gauß-verteilt
ist.
Einführung in die wissenschaftliche Datenanalyse
Normalgleichungen im Fall gleicher Fehler
Alle Daten sollen die gleiche Varianz haben und unkorreliert
sein.
Nach dem Prinzip der kleinsten Quadrate muss die Summe der
Quadrate der Residuen in Bezug auf die Parameter
a1 , a2 , . . . , ap minimiert werden:
S=
n
X
ri2 =
i=1
n
X
(yi − a1 f1 (xi ) − a2 f2 (xi ) − . . . − ap fp (xi ))2
i=1
Bedingungen für das Minimum:
n
X
∂S
= 2
f1 (xi ) (a1 f1 (xi ) + a2 f2 (xi ) + . . . + ap fp (xi ) − yi ) = 0
∂a1
i=1
...
...
n
X
∂S
= 2
fp (xi ) (a1 f1 (xi ) + a2 f2 (xi ) + . . . + ap fp (xi ) − yi ) = 0
∂ap
i=1
Einführung in die wissenschaftliche Datenanalyse
Normalgleichungen im Fall gleicher Fehler
Die Bedingung kann in Form der sogenannten
Normalgleichungen geschrieben werden
P
P
P
+ . . . + ap P f1 (xi )fp (xi ) = P yi f1 (xi )
a1 P f1 (xi )2
yi f2 (xi )
a1 f2 (xi )f1 (xi ) + . . . + ap f2 (xi )fp (xi ) =
...
P
P
P
a1 fp (xi )f1 (xi ) + . . . + ap fp (xi )2
=
yi fp (xi )
Die Schätzwerte von a1 , a2 , . . . , ap nach kleinsten Quadraten
folgen als die Lösung dieser Normalgleichung.
Einführung in die wissenschaftliche Datenanalyse
Matrixschreibweise
Matrixschreibweise und Matrixalgebra vereinfachen die
Formulierung wesentlich.
Die n × p Werte fj (xi ) werden als Elemente einer n × p Matrix
aufgefasst. Die p Parameter aj und die n Messwerte yi bilden
Spaltenvektoren.






f1 (x1 ) f2 (x1 ) . . . fp (x1 )
y1
a1
 f1 (x2 ) f2 (x2 ) . . . fp (x2 ) 
 y2 


 a2 








A =  ...
 a =  ...  y =  ... 
 ...

 ... 
ap
f1 (xn ) f2 (xn ) . . . fp (xn )
yn
Einführung in die wissenschaftliche Datenanalyse
Matrixschreibweise
Der n-Vektor der Resudien ist damit
r = y − Aa.
Die Summe S ist
S = rT r = (y − Aa)T (y − Aa)
= yT y − 2aT AT y + aT AT Aa
Bedingung für das Minimum
−2AT y + 2AT Aâ = 0
oder in der Matrixform der Normalgleichungen
(AT A)â = AT y
Die Lösung kann mit Standardverfahren der Matrixalgebra
berechnet werden:
â = (AT A)−1 AT y
Einführung in die wissenschaftliche Datenanalyse
Kovarianzmatrix der Parameter
Die Kovarianzmatrix ist die quadratische n × n-Matrix

var(y1 )
cov(y1 , y2 ) . . . cov(y1 , yn )
 cov(y2 , y1 )
var(y2 )
. . . cov(y2 , yn )
V[y] = 

...
...
...
cov(yn , y1 ) cov(yn , y2 ) . . .
var(yn )




Hier ist die Kovarianzmatrix eine Diagonalmatrix:
 2

σ
0 ... 0
 0 σ2 . . . 0 

V[y] = 
 ... ...
... 
0
0 . . . σ2
Einführung in die wissenschaftliche Datenanalyse
Kovarianzmatrix der Parameter
Für eine lineare Beziehung â = By gilt die Standardformel der
Fehlerfortpflanzung:
V[â] = BV[y]BT
mit B = (AT A)−1 AT wird daraus
V[â] = (AT A)−1 AT V[y]A(AT A)−1
oder für den vorliegenden Fall gleicher Fehler einfach
V[â] = σ 2 (AT A)−1
Einführung in die wissenschaftliche Datenanalyse
Quadratsumme der Residuen
Die Summe Ŝ der Quadrate der Residuen im Minimum ist
Ŝ = yT y − 2âT AT y + âT AT A(AT A)−1 AT y = yT y − âT AT y.
Der Erwartungswert E[Ŝ] ist
E[Ŝ] = σ 2 (n − p) .
Ist die Varianz der Messdaten nicht bekannt, so erhält man aus
Ŝ den Schätzwert
σ̂ 2 = Ŝ/(n − p).
Dies ist für große Werte von (n − p) eine gute Schätzung.
Einführung in die wissenschaftliche Datenanalyse
Korrektur der Datenwerte
Nach Berechnung der Parameter mit linearen kleinsten
Quadraten können Werte der Funktion f (x) für beliebige x
bestimmt werden durch
ŷ (x) = f (x, â) =
p
X
âj fj (x).
j=1
Speziell für die Werte xi , die zu den Messwerten yi gehören,
ergeben sich die korrigierten Datenpunkte zu
ŷ = Aâ.
Fehlerfortplanzung liefert die Kovarianzmatrix
V[ŷ] = AV[a]AT = σ 2 A(AT A)−1 AT
Einführung in die wissenschaftliche Datenanalyse
Der Fall unterschiedlicher Fehler
Wenn die einzelnen Datenpunkte statistisch unabhängig sind,
dann ist die Kovarianzmatrix
 2

σ1 0 . . . 0
 0 σ2 . . . 0 
2

V[y] = 
 ... ...
... 
0
0 . . . σn2
Der Ausdruck für die Summe der Residuenquadrate lautet nun:
X r2
i
= Minimum
S=
2
σ
i
i
Man führt die Gewichtsmatrix W(y) ein als inverse Matrix der
Kovarianzmatrix


1/σ12
0
...
0
 0
1/σ22 . . .
0 

W(y) = V[y]−1 = 
 ...
...
... 
0
0
. . . 1/σn2
Einführung in die wissenschaftliche Datenanalyse
Der Fall unterschiedlicher Fehler
Die Summe der Quadrate der gewichteten Residuen
S = rT W(y)r = (y − Aa)T W(y)(y − Aa)
muss nun bezüglich der Parameter minimiert werden. Es ergibt
sich:
â = (AT WA)−1 AT Wy
V[â] = (AT WA)−1
Die Summe der Residuenquadrate für a = â hat die Form
Ŝ = yT Wy − âT AT Wy
und den Erwartungswert E[Ŝ] = n − p .
Die Kovarianzmatrix der korrigierten Datenpunkte ist
V[ŷ] = A(AT WA)−1 AT
Einführung in die wissenschaftliche Datenanalyse
Kleinste Quadrate in der Praxis: Geradenanpassung
Geradenanpassung mit der Funktion y = f (x, a) = a1 + a2 x.
Messwerte yi liegen an den genau bekannten Punkten xi vor.



A=


1
1
1
...
1
x1
x2
x3









V=


xn

a=
a1
a2


y=


y1
y2
y3
...
yn
σ12 0 0 . . . 0
0 σ22 0
0
2
0 0 σ3
0
...
...
0 0 0 . . . σn2












W = V−1
wii =
1
σi2
Einführung in die wissenschaftliche Datenanalyse
Kleinste Quadrate in der Praxis: Geradenanpassung
Lösung:
P
w
A WA = P i
wi xi
T
P
wi xi
S
S
x
1
P
=
Sx Sxx
wi xi2
P
wi yi
Sy
P
=
A Wy =
wi xi yi
Sxy
S1 Sx
a1
Sy
=
Sx Sxx
a2
Sxy
T
â = (AT WA)−1 AT Wy
V[â] = (AT WA)−1
S1 Sx
Sx Sxx
−1
1
=
D
Sxx
−Sx
−Sx
S1
mit D = S1 Sxx − Sx2
Einführung in die wissenschaftliche Datenanalyse
Kleinste Quadrate in der Praxis: Geradenanpassung
Die Lösung ist
â1 = (Sxx Sy − Sx Sxy )/D
â2 = (−Sx Sy − S1 Sxy )/D
und die Kovarianzmatrix ist
V[â] =
1
D
Sxx
−Sx
−Sx
S1
.
Weiterhin ist die Summe der Residuenquadrate
Ŝ = Syy − â1 Sy − â2 Sxy
Für einen Wert ŷ = â1 + â2 x, berechnet an der Stelle x, ist die
Standardabweichung die Wurzel aus der Varianz:
V [ŷ ] = V [â1 ] + x 2 V [â2 ] + 2xV [â1 , â2 ] = (Sxx − 2xSx + x 2 S1 )/D
Einführung in die wissenschaftliche Datenanalyse
Zusammenfassung
In der klassischen Statistik werden Fehlerangaben in
Form von Konfidenzbereiche gemacht.
Vorsicht bei Zählexperimenten mit kleinen Raten:
Poisson- statt Gauß-Verteilung (Schiefe, Erwartungstreue)
Vorsicht bei Nicht-Gauß-Verteilung - insbesondere bei
verzerrten (schiefen) Verteilungen.
Statt dem kleinste Quadrate Verfahren sollte dann etwa
das Maximum-Likelihood Verfahren Anwendung finden.
Der Matrixformulismus für das kleinste Quadrate Verfahren
ist ein sehr mächtiges Werkzeug. Effizenteste
Parameterschätzung für lineare Modelle, beinhaltet
Fehlerfortpflanzung, geeignet als Optimierungsverfahren
auch für nicht-lineare Probleme.
Einführung in die wissenschaftliche Datenanalyse
Charakteristische Funktion
Ist x eine reelle Zufallsvariable mit der Verteilungsfunktion F (x)
und der Wahrscheinlichkeitsdichte f (x), so bezeichnet man als
ihre charakteristische Funktion den Erwartungswert der Größe
exp(ıtx):
ϕ(t) = E[exp(ıtx)]
also im Fall einer kontinuierlichen Variablen ein Fourier-Integral
mit seinen bekannten Transformationseigenschaften:
Z ∞
ϕ(t) =
exp(ıtx) f (x)dx
−∞
Insbesondere gilt für die zentralen Momente:
Z ∞
n
λn = E[x ] =
x n f (x)dx
−∞
Z ∞
d n ϕ(t)
(n)
=
x n exp(ıtx) f (x)dx
ϕ (t) =
dt n
−∞
ϕ(n) (0) = ın λn
Einführung in die wissenschaftliche Datenanalyse
χ2 -Verteilung
Falls x1 , x2 , . . . , xn unabhängige Zufallsvariable sind, die alle
einer Gauß-Wahrscheinlichkeitsdichte folgen mit Mittelwert 0
und Varianz 1, so folgt die Summe
2
u=χ =
n
X
xi2
i=1
einer χ2 -Verteilung fn (u) = fn (χ2 ) mit n Freiheitsgraden. Die
Wahrscheinlichkeitsdichte ist:
1 u n/2−1 −u/2
e
2 2
fn (u) =
Γ(n/2)
Die Wahrscheinlichkeitsdichte fn (u) hat ein Maximum bei
(n − 2). Der Mittelwert ist n und die Varianz 2n.
Einführung in die wissenschaftliche Datenanalyse
χ2 -Verteilung
http://de.wikipedia.org/wiki/Gammafunktion
Γ(n) = (n − 1)!
√
1
π
Γ( ) =
2
Γ(x + 1) = x · Γ(x)
Einführung in die wissenschaftliche Datenanalyse
χ2 -Verteilung
Einführung in die wissenschaftliche Datenanalyse
χ2 -Verteilung
Die Größe
Q(χ2 |n) = 1 − P(χ2 |n)
= 1 − F (χ2 )
Z χ2
= 1−
fn (ν)dν
0
gegen χ2 für n Freiheitsgrade
Einführung in die wissenschaftliche Datenanalyse
χ2 -Verteilung
Die Größe
Q(χ2 |n) = 1 − P(χ2 |n)
= 1 − F (χ2 )
Z χ2
= 1−
fn (ν)dν
0
gegen χ2 für n Freiheitsgrade
Einführung in die wissenschaftliche Datenanalyse
t-Verteilung
Die t-Verteilung tritt auf bei Tests der statistischen
Verträglichkeit eines Stichproben-Mittelwertes x̄ mit einem
vorgegebenen Mittelwert µ, oder der statistischen
Verträglichkeit zweier Stichproben-Mittelwerte.
Die Wahrscheinlichkeitsdichte der t-Verteilung ist gegeben
durch
1 Γ((n + 1)/2)
fn (t) = √
Γ(n/2)
nπ
t2
1+
n
−(n+1)/2
Einführung in die wissenschaftliche Datenanalyse
t-Verteilung
Die Studentschen t-Verteilungen f (t) (links) im Vergleich zur
standardisierten Gauß-Verteilung (gestrichelt)
R t sowie die
integrierten Studentschen t-Verteilungen −∞ f (x)dx (rechts).
Einführung in die wissenschaftliche Datenanalyse
t-Verteilung
Quantile der t-Verteilung, P =
Rt
−∞ fn (x)dx.
Einführung in die wissenschaftliche Datenanalyse
F -Verteilung
Gegeben sind n1 Stichprobenwerte einer Zufallsvariablen x und
n2 Stichprobenwerte derselben Zufallsvariablen. Die beste
Schätzung der Varianzen aus beiden Datenkollektionen seien
s12 und s22 . Die Zufallszahl
F =
s12
s22
folgt dann einer F -Verteilung mit (n1 , n2 ) Freiheitsgraden. Es ist
Konvention, dass F immer größer als eins ist.
Die Wahrscheinlichkeitsdichte von F ist gegeben durch
f (F ) =
n1
n2
n1 /2
−(n1 +n2 )/2
Γ((n1 + n2 )/2) (n1 −2)/2
n1
F
1+ F
Γ(n1 /2)Γ(n2 /2)
n2
Einführung in die wissenschaftliche Datenanalyse
Quantile der F -Verteilung, Konfidenz = 0,68
Einführung in die wissenschaftliche Datenanalyse
Quantile der F -Verteilung, Konfidenz = 0,90
Einführung in die wissenschaftliche Datenanalyse
Quantile der F -Verteilung, Konfidenz = 0,95
Einführung in die wissenschaftliche Datenanalyse
Quantile der F -Verteilung, Konfidenz = 0,99
Einführung in die wissenschaftliche Datenanalyse
Herunterladen