Statistik und Datenanalyse
1. Wahrscheinlichkeit
2. Wahrscheinlichkeitsverteilungen
3. Monte-Carlo-Methoden
4. Statistische Tests
5. Parameterschätzung
6. Maximum Likelihood
7. Methode der kleinsten Quadrate
8. Statistische Fehler, Konfidenzintervalle, Ausschlussgrenzen
K. Desch - Statistik und Datenanalyse SS05
Wahrscheinlichkeit
K. Desch - Statistik und Datenanalyse SS05
Wahrscheinlichkeit
Kolmogorov-Axiome
Mathematische Definition von Wahrscheinlichkeit
(damit ist aber noch keine Bedeutung/Interpretation von W. impliziert)
Menge S von “Ereignissen” (Stichprobenraum)
Jeder Untermenge A von S wird eine reelle Zahl P(A) zugewiesen
P(A) = Wahrscheinlichkeit von A
so dass gilt
1. für jede Untermenge A von S ist P(A)  0
2. P(S) = 1
3. für disjunkte Untermengen A und B (d.h. für AB=Ø) ist
P(AB) = P(A) + P(B)
K. Desch - Statistik und Datenanalyse SS05
Wahrscheinlichkeit
Folgerungen aus den Kolmogorov-Axiomen
P(Ø) = 0
0  P(A)  1
AB  P(A)  P(B)
P(AB) = P(A) + P(B) – P(AB)
für das A, das Komplement von A gilt
P(A) = 1 – P(A)
P(AA) = 1
A und B heißen statistisch unabhängig (oder unkorreliert) genau dann wenn
P(AB) = P(A)P(B)
Das bedeutet, dass die Zugehörigkeit eines Ereignisses zu A nichts aussagt
darüber, ob es auch zu B gehört oder nicht
Wichtiges Konzept!
K. Desch - Statistik und Datenanalyse SS05
Wahrscheinlichkeit
Statistische Unabhängikeit - Beispiele
Beispiel 1 (unkorreliert):
S = alle Studierenden der Uni Freiburg
A = alle männlichen Studierenden der Uni Freiburg
B = alle Studierenden die zwischen 1.1. und 30.4. Geburtstag haben
A und B sind (vermutlich) unkorreliert, also P(AB) = P(A)P(B)
Beispiel 2 (korreliert):
S = alle Menschen
A = alle Kinder unter 12 Jahren
B = alle Menschen unter 150 cm
A und B sind (stark) positiv korreliert, d.h. P(AB) > P(A)*P(B)
K. Desch - Statistik und Datenanalyse SS05
Wahrscheinlichkeit
Statistische Unabhängikeit - Beispiele
Beispiel 3: Rutherfordstreuung
K. Desch - Statistik und Datenanalyse SS05
Wahrscheinlichkeit
Statistische Unabhängikeit - Beispiele
Beispiel 4: Rb
K. Desch - Statistik und Datenanalyse SS05
Wahrscheinlichkeit
Bedingte Wahrscheinlichkeit
Wahrscheinlichkeit für A wenn B gegeben ist:
P(A|B):=
P(A  B)
P(B)
Wahrscheinlichkeit für B wenn A gegeben ist:
P(B|A):=
P(B  A)
P(A)
Daraus folgt das Bayes-Theorem:
P(A|B) P(B) = P(B|A) P(A)
Wenn man S in disjunkte Untermengen Ai aufteilt gilt:
P(B)=P(B|Ai )P(Ai )
i
und mit Bayes-Theorem folgt: P(A|B)=
P(B | A) P(A)
 P(B|Ai )P(Ai )
i
K. Desch - Statistik und Datenanalyse SS05
Wahrscheinlichkeit
Beispiel zum Bayes Theorem
Ein Bluttest diagnostiziert 100% aller Erkrankten
P(positiv|erkrankt) = 100%
und nur 1% aller gesunden falsch positiv
P(positiv|gesund) = 1%
Der Anteil der Erkrankten in der Bevölkerung ist 0.2%
P(erkrankt) = 0.2%
Damit versagt der Test aber in 80 % aller Fälle:
P(erkrankt|positiv) = P(positiv|erkrankt)P(erkrankt)/P(gesund)
= 100%*0.2%/99.8% = 20%
d.h. 80% aller Diagnosen sind falsch positiv.
K. Desch - Statistik und Datenanalyse SS05
Wahrscheinlichkeit
als Häufigkeit
Verbreitetste Interpretation von Wahrscheinlichkeit:
relative Häufigkeit eines Ergebnisses einer Messung (Ereignis) im Grenzwert
unendlich vieler Wiederholungen dieser Messung
Dies ist die Interpretation von Wahrscheinlichkeit
- in der Quantenmechanik
- in der statistischen Mechanik
Die Elemente des Stichprobenraums sind alle möglichen Ergebnisse einer
Messung
Anzahl der Ergebisse A in n Messungen
n
n
P(A) = lim
K. Desch - Statistik und Datenanalyse SS05
Wahrscheinlichkeit
als Häufigkeit
Probleme mit der Häufigkeitsdefinition
Grenzwert kann i.d.R. nicht gebildet werden
Abschätzung des Grenzwertes aus n Messungen
K. Desch - Statistik und Datenanalyse SS05
Wahrscheinlichkeit
Subjektive Wahrscheinlichkeit (Bayes-Statistik)
K. Desch - Statistik und Datenanalyse SS05
Wahrscheinlichkeit
Wahrscheinlichkeitsdichte
Einfachster Fall: Messung kann nur diskrete Werte xi annehmen
(z.B. Zählexperiment)
f  1
Wahrscheinlichkeit xi zu erhalten: P(xi) =: fi
i
i
Häufig ist ein Messergebnis aber eine kontinuierliche Größe x
Wahrscheinlichkeit genau x zu erhalten ist Null
Besser: Wahrscheinlichkeit eine Messung im Intervall [x+dx] zu erhalten
P([x+dx]) =: f(x) dx
f(x) = Wahrscheinlichkeitsdichte mit

S
f(x)dx  1 f(x)  0
(probability density function, p.d.f.)
f(x) ist keine Wahrscheinlichkeit, erst Integration über endlichen Bereich
ergibt eine Wahrscheinlichkeit
x
Kumulative Verteilungsfunktion:
F(x) :  f(x)dx

gibt die Wahrscheinlichkeit an, dass ein Messergebnis kleiner als x ist.
K. Desch - Statistik und Datenanalyse SS05
Wahrscheinlichkeit
Wahrscheinlichkeitsdichte
Wahrscheinlichkeit, dass eine Messung im Intervall [a,b] liegt ist F(b)-F(a)
Für diskrete Zufallsvariable ist F(x) :
x
xi  x
Beispiel einer Wahrscheinlichkeitsdichtefunktion:
i
zugehörige kumulative Verteilungsfunktion:
K. Desch - Statistik und Datenanalyse SS05
Wahrscheinlichkeit
Charakterisierung von Wahrscheinlichkeitsdichten
Quantil: x  : F(x  ) 
x
 f(x) dx  

Median: x 0.5
(50%-Wert)
Wahrscheinlichster Wert (most probable value): Maximum vom f(x)

Mittelwert (mean value): x 
 x f(x)dx

diskrete Verteilung:
x   xiP(xi )
i
K. Desch - Statistik und Datenanalyse SS05
Wahrscheinlichkeit
Bestimmung von Wahrscheinlichkeitsdichten
Histogramm: Häufigkeitsverteilung
von Ereignissen
Normiert auf Flächeninhalt = 1:
Bin-Inhalt/Bin-Breite ~ f(x)
(Im Limes Bin-Breite ->0)
K. Desch - Statistik und Datenanalyse SS05
Wahrscheinlichkeit
Momente

Erwartungswert einer Funktion a(x):
E[a] 
 a(x)f(x)dx


Für a(x) = x erhält man den Mittelwert
  E[x] 
 x f(x)dx

Die Erwartungswerte von Potenzen von x heißen Momente einer p.d.f.

Algebraische Momente:
E[xn ]  n' 
n
x
 f(x)dx


Zentrale Momente:
E[(x  ) ]  n 
n
n
(x


)
f(x)dx


K. Desch - Statistik und Datenanalyse SS05
Wahrscheinlichkeit
Varianz
Ein gutes Maß für die Breite einer Verteilung ist die

2
2
Varianz: V[x]  x  E[(x  ) ] 
2
(x


)
f(x)dx


Die Varianz ist das zweite zentrale Moment von f(x), also die
mittlere quadratische Abweichung vom Mittelwert.
Standardabweichung:
x  V[x]
(gleiche Einheit wie x, )
Für diskrete p.d.f.’s:
2
2
2
2
2
Für die Varianz gilt: V[x]  E[(x  ) ]  E[x ]  2E[x]    E[x ]  
(folgt aus Linearität der Erwartungswerte, wird später nützlich bei der
Berechnung von Schätzwerten für die Varianz)
K. Desch - Statistik und Datenanalyse SS05
Wahrscheinlichkeit
Höhere Momente
Schiefe (Skewness):
  E[(x  )3 ] / 3
Mass für die Asymmetrie der Verteilung um den Mittelwert
Kurtosis:
  E[(x  )4 ] / 4  3
Ausläufer der Verteilung
Breitere Ausläufer als bei Gaussverteilung:  > 0
Kürzere Ausläufer als bei Gaussverteilung:  < 0
K. Desch - Statistik und Datenanalyse SS05
Wahrscheinlichkeit
Mehrere Zufallsvariablen mit gemeinsamer p.d.f.
Beispiel: Experiment liefert mehrere Messgrößen
Gemeinsame Wahrscheinlichkeitsdichte (hier nur für 2 Variablen):
f(x,y) dx dy = Wahrscheinlichkeit, daß x[x,x+dx] und y[y,y+dy]
Normierung:

S
f(x,y) dxdy  1
Individuelle Wahrscheinlichkeitsdichte (“Randverteilung”) für x und y:

fx (x) 
 f(x,y) dy

fy (y) 

 f(x,y) dx

gibt Wahrscheinlichkeitsdichte für x (bzw. y) unabhängig von y (bzw. x)
x und y heißen statistisch unabhängig wenn f(x,y)  fx (x) fy (y)
d.h. x(y) hat immer die gleiche Wahrscheinlichkeitsverteilung, egal wie y(x)
eingeschränkt wird
K. Desch - Statistik und Datenanalyse SS05
Wahrscheinlichkeit
Mehrere Zufallsvariablen mit gemeinsamer p.d.f.
Bedingte Wahrscheinlichkeitsdichten:
f(x,y)
h(y | x) 
fx (x)
g(x | y) 
f(x,y)
fy (y)
h(y|x)dxdy ist die Wahrscheinlichkeit, dass ein Ereignis im Intervall [y,y+dy]
zu messen, wenn das Ereignis im Intervall [x,x+dx] liegt.
K. Desch - Statistik und Datenanalyse SS05
Wahrscheinlichkeit
Mehrere Zufallsvariablen mit gemeinsamer p.d.f.
Beispiel: Messung der Länge eines Stabes und der Temparatur
x = Abweichung von 800mm
y = Temparatur in 0C
a)
2-dimensionales Histogramm
(“scatter-plot”)
b)
Randverteilung von y
(“y-Projektion”)
c)
Randverteilung von x
(“x-Projektion”)
d)
2 bedingte Verteilungen
von x (s. Bänder in a))
Breite in d) kleiner als in a)
x und y sind “korreliert”
K. Desch - Statistik und Datenanalyse SS05
Wahrscheinlichkeit
Mehrere Zufallsvariablen mit gemeinsamer p.d.f.
E[a(x)]   a(x)f(x)dx ...dx n
Erwartungswert (analog zum 1-dim. Fall)
1
Varianz (analog zum 1-dim. Fall)
V[a(x)]  a2   (a(x)  a )f(x)dx ...dx n
1
wichtig bei mehreren Variablen: Maß für die Korrelation der Variablen:
Kovarianz
für 2 Variable x,y mit gemeinsamer Wahrscheinlichkeitsdichte f(x,y):
cov[x,y]  Vxy : E[(x  x )(y  y )]
 E[xy]  xy



 ...  xy f(x,y)dxdy   
x

y

wenn x, y stat. unabhängig (f(x,y) = fx(x)fy(y)) dann ist cov[x,y] = 0
K. Desch - Statistik und Datenanalyse SS05
Wahrscheinlichkeit
Mehrere Zufallsvariablen mit gemeinsamer p.d.f.
Positive Korrelation: positive (negative) Abweichung von x
von x erhöht Wahrscheinlichkeit, dass y positiv (negativ) von seinem
Mittelwert y abweicht
Entspr. für negative Korrelation.
Für die Summe zweier Zufallszahlen x+y gilt V[x+y] = V[x] + V[y] + 2 cov[x,y]
cov[xi ,x j ]  Vxix j heißt Kovarianzmatrix (symmetrische Matrix)
Diagonalelemente: cov[xi ,xi ]  V[xi ]  2x
i
Für unkorrelierte Variablen ist die Kovarianzmatrix diagonal
Für alle Elemente der Kovarianzmatrix gilt cov[xi ,x j ]  xi x j
Normierte Größe:  xi x j :
cov[x i , x j ]
 xi  x j
heißt Korrelationskoeffizient
K. Desch - Statistik und Datenanalyse SS05
Wahrscheinlichkeit
Mehrere Zufallsvariablen mit gemeinsamer p.d.f.
Beispiele für Korrelationskoeffizienten
(Einheiten spielen keine Rolle!)
K. Desch - Statistik und Datenanalyse SS05
Wahrscheinlichkeit
Mehrere Zufallsvariablen mit gemeinsamer p.d.f.
Noch ein Beispiel:
K. Desch - Statistik und Datenanalyse SS05
Wahrscheinlichkeit
Mehrere Zufallsvariablen mit gemeinsamer p.d.f.
Noch ein Beispiel:
K. Desch - Statistik und Datenanalyse SS05
Wahrscheinlichkeit
Charakteristische Funktion
Nützliche Größe zur Bestimmung von Momenten:

x (k) : E[exp(ikx)] 
 exp(ikx)f(x)dx
Charakteristische Funktion

bis auf Faktor die Fouriertransformierte von f. Durch Rücktransformation
erhält man die Wahrscheinlichkeitsdichte f:

1
f(x) 
exp(ikx)x (k)dk

2 
Für diskrete Zufallsvariablen:
x (k)   exp(ikxi )P(xi )
i
Rücktransformation:

i
exp(ikb)  exp(ika)
F(b)  F(a) 
x (k)dk

2 
k
K. Desch - Statistik und Datenanalyse SS05
Wahrscheinlichkeit
Charakteristische Funktion
Konkrete Beispiele später…
Wichtiger Satz:
Die charakteristische Funktion einer Summe von Zufallszahlen ist dem
Produkt der charakteristischen Funktionen der einzelnen Zufallszahlen
Sei z   xi ,dann : z (k)  1(k)...n (k)
Also:


z (k)   ... exp  ik  xi  f1(x1 )...fn (xn )dx1...dxn
 i 
i
Beweis:
  exp(ikx1 )f1(x1 )dx1
 1(k)
 exp(ikx
n
)fn (xn )dxn
n (k)
'
m
Die algebraischen Momente m  E[x ] können aus der char. Fkt. leicht
berechnet werden:


dm
dm
m
m
m '

(k)

exp(ikx)f(x)dx

i
x
f(x)dx

i
m
x
m
m 

k 0
k 0
dk
dk 

K. Desch - Statistik und Datenanalyse SS05
Wahrscheinlichkeit
Variablentransformation
K. Desch - Statistik und Datenanalyse SS05
Wahrscheinlichkeit
Variablentransformation
K. Desch - Statistik und Datenanalyse SS05
Wahrscheinlichkeit
Faltung
K. Desch - Statistik und Datenanalyse SS05
Wahrscheinlichkeit
Faltung
K. Desch - Statistik und Datenanalyse SS05
Wahrscheinlichkeit
Fehlerfortpflanzung
K. Desch - Statistik und Datenanalyse SS05
Wahrscheinlichkeit
Fehlerfortpflanzung
K. Desch - Statistik und Datenanalyse SS05
Wahrscheinlichkeit
Fehlerfortpflanzung
K. Desch - Statistik und Datenanalyse SS05
Wahrscheinlichkeit
Zusammenfassung
K. Desch - Statistik und Datenanalyse SS05