Kurzer Überblick über ausgewählten Grundlagen der

Werbung
Kurzer Überblick über ausgewählten Grundlagen der
Wahrscheinlichkeitstheorie und der Statistik
zusammengestellt von
Prof. Dr. Tatjana Lange
Fachbereich Elektrotechnik
Fachhochschule Merseburg
Inhalt:
I. Ausgewählte Grundlagen der Wahrscheinlichkeitstheorie
II. Ausgewählte Grundlagen der Statistik
III. Sonstige nützliche mathematische Formeln
Januar 1998
I. Ausgewählte Grundlagen der Wahrscheinlichkeitstheorie
1. Zufall und Zufallsvariable.......................................................................................3
2. Relative Häufigkeit und Wahrscheinlichkeit ..........................................................3
2.1. Begriffe ....................................................................................................3
2.2. Rechenregeln für Wahrscheinlichkeiten: .................................................4
3. Wahrscheinlichkeitsverteilung ................................................................................5
3.1. Wahrscheinlichkeit, Verteilungsfunktion und Dichtefunktion für
eine Zufallsvariable ..........................................................................................5
3.2. Wahrscheinlichkeiten und Verteilungsfunktionen für zwei
Zufallsvariable X und Y:..................................................................................7
4. Erwartungswert und Varianz; Momente höherer Ordnung:....................................8
5. Gesetz der großen Zahlen und zentraler Genzwertsatz .........................................9
6. Ausgewählte Verteilungen: ...................................................................................10
6.1. Verteilungen diskreter Zufallsvariabler: ..................................................10
6.1.1. Bernoulli-Verteilung (Binomial-Verteilung) .............................10
6.1.2. Poisson-Verteilung .....................................................................11
6.1.3. Hypergeometrische Verteilung:..................................................11
6.2. Verteilungen stetiger Zufallsvariabler: ....................................................12
6.2.1. Exponentialverteilung ................................................................12
6.2.2. Normalverteilung........................................................................12
6.2.3. Chi-Quadrat-Verteilung .............................................................13
6.2.4. Student-Verteilung .....................................................................13
6.2.5. Fisher-Verteilung .......................................................................13
II. Ausgewählte Grundlagen der Statistik
1. Statistische Meßzahlen: .........................................................................................15
2. Schätzverfahren und ihre Eigenschaften ...............................................................16
3. Ausgewählte Schätzfunktionen / Schätzverfahren ................................................18
3.1. Die Moment-Methode..............................................................................18
3.2. Die Maximum-Likelihood-Methode........................................................19
3.3. Ergänzung zur Maximum-Likelihood-Methode ......................................19
3.4. Bayes-Schätzung ......................................................................................23
4. Konfidenzintervall-Schätzung ...............................................................................24
5. Hypothesentest.......................................................................................................25
6. Schätzen und Testen bei normalverteilter Stichprobe ..........................................26
7. Vergleich von Erwartungswerten und Varianzen .................................................27
8. Vergleich von Erwartungswerten und Varianzen .................................................28
9. Test über eine beliebige Wahrscheinlichkeit (approximativer Gauß-Test) ..........29
10. Vergleich zweier Wahrscheinlichkeiten ...............................................................29
11. Lineare Regression ...............................................................................................30
III. Sonstige nützliche mathematische Formeln
1. Einige endliche Reihen.......................................................................
2. Etwas Kombinatorik .........................................................................
3. Einige Logarithmengesetze und Exponentialgleichungen .......................
4. Einige Ableitungen und Integrale .......................................................
Dr. Tatjana Lange
Formelsammlung
..........32
..........32
..........33
..........33
Seite 2
Statistik.doc
I. Ausgewählte Grundlagen der Wahrscheinlichkeitstheorie
1. Zufall und Zufallsvariable
•
Zufall / zufälliges Ereignis:
Bei Zusammentreffen von Ereignissen spricht man vom Zufall, wenn zwischen
ihrem Eintreten kein oder nur ein unwesentlicher innerer Zusammenhang besteht.
Ein Ereignis hängt vom Zufall ab, wenn sein Eintreten weder sicher noch
unmöglich ist, sondern mit einer gewissen Wahrscheinlichkeit erfolgt. Diese
Zufallsgesetzmäßigkeiten, die durch entsprechende Wahrscheinlichkeitsverteilungen erfaßt werden, nennt man stochastische Gesetzmäßigkeiten.
•
Zufallsvariable:
Eine Zufallsvariable ist eine solche Variable (Veränderliche), die ihre Werte in
Abhängigkeit vom Zufall, d.h. nach einer Wahrscheinlichkeitsverteilung annimmt.
Man unterscheidet diskrete und stetige Zufallsvariable.
Eine diskrete Zufallsvariable kann nur endlich viele (oder abzählbar unendlich
viele) Werte annehmen (z.B. Menge der natürlichen Zahlen).
Eine stetige Zufallsvariable kann (überabzählbar) unendlich viele Werte
annehmen (z.B. alle Werte aus einem Intervall).
2. Relative Häufigkeit und Wahrscheinlichkeit
2.1. Begriffe
Der Begriff Wahrscheinlichkeit ist aus der Beobachtung und Erfahrung
entstanden.: Tritt bei N-maliger Durchführung eines Versuches ein bestimmtes
zufälliges Ereignis Ai (oder Zufallsvariable) ni mal auf, so bezeichnet man mit
(ni N ) die relative Häufigkeit des Ereignisses Ai .
Bei gleichbleibenden Versuchsbedingungen schwankt die relative Häufigkeit bei
wachsendem N immer weniger um einen bestimmten, praktisch konstanten Wert.
Diese Zahl nennt man die Wahrscheinlichkeit der zufälligen Ereignisses Ai und
bezeichnet sie mit P( Ai ) .
Dr. Tatjana Lange
Formelsammlung
Seite 3
Statistik.doc
2.2. Rechenregeln für Wahrscheinlichkeiten:
1) Für jedes zufälligen Ereignisses Ai gilt: 0 ≤ P( Ai ) ≤ 1
2) Ist das Ereignis Ai unmöglich, so gilt: P( Ai ) = 0
3) Ist das Ereignis Ai sicher, so gilt: P( Ai ) = 1
4) Sind A und B zufällige Ereignisse, die einander ausschließen, so gilt
P( A oder B ) = P( A ∨ B ) = P( A) + P(B )
Sind insgesamt N Ereignisse A1 , A2 ,....., AN , möglich, so gilt verallgemeinert:
N
P( A1 ∨ A2 ∨ ..... ∨ AN , ) = å P( Ai )
i =1
5) Schließen die Ereignisse A und B einander nicht aus, so gilt:
P( A oder B ) = P( A ∨ B ) = P( A) + P(B ) − P( A, B )
Hierbei ist P( A, B ) die gemeinsame Wahrscheinlichkeit (Verbundwahrscheinlichkeit) der Ereignisse A und B, d.h. die Wahrscheinlichkeit dessen, daß
beide Ereignisse gleichzeitig (zusammen) auftreten.
6) Sind die Ereignisse A und B voneinander unabhängig, so gilt für die gemeinsame
Wahrscheinlichkeit:
P( A, B ) = P(B, A) = P( A) ⋅ P(B ) = P(B ) ⋅ P( A)
7) Sind die Ereignisse A und B voneinander abhängig, so gilt für die gemeinsame
Wahrscheinlichkeit:
P( A, B ) = P(B, A) = P( A) ⋅ P(B
A) = P(B ) ⋅ P ( A
B)
Hierbei ist P(B A) die Wahrscheinlichkeit, mit der das Ereignis B unter der
Bedingung (Annahme) eintritt, daß das Ereignis A bereits eingetreten ist (bzw.
sicher eintreten wird).
Die Wahrscheinlichkeiten
Wahrscheinlichkeiten.
P(B
A)
und
P(A
B ) nennt
man
bedingte
8) Sind die Ereignisse A und B voneinander unabhängig, so gilt:
P(A
Dr. Tatjana Lange
B ) = P ( A)
,
P(B
Formelsammlung
A ) = P (B )
Seite 4
Statistik.doc
9) Wenn die Ereignisse H1 , H2 ,....., H N , ein vollständiges Ereignisfeld bilden und
einander ausschließen, also
N
å P(H ) = 1
i
i =1
und
P (H i , H j ) = 0
für beliebige i ≠ j ist,
so gilt für die Wahrscheinlichkeit des von den Ereignissen Hi abhängigen
Ereignisses A folgender Satz über die totale Wahrscheinlichkeit:
P ( A) = å P (H i ) ⋅ P ( A
Hi )
N
i =1
10) Bayes'sche Formel:
P(H i
A) =
P(H i ) ⋅ P ( A
P ( A)
Hi )
=
P (H i ) ⋅ P ( A
å P(H ) ⋅ P(A
Hi )
N
j =1
j
Hj
)
3. Wahrscheinlichkeitsverteilung
3.1. Wahrscheinlichkeit, Verteilungsfunktion und Dichtefunktion für eine
Zufallsvariable
Der Umgang mit zufälligen Ereignissen und Wahrscheinlichkeiten wird durch den
Übergang zu Zufallsvariablen und Wahrscheinlichkeitsverteilungen sehr viel
einfacher. Dieser Übergang wird vollzogen, indem man die Menge Ω aller
möglichen Ergebnisse eines Experiments durch eine entsprechende Menge X
reeller Zahlen (den Zufallsvariablen) ersetzt:
X :Ω →
,
- reelle Zahlengerade
Verteilungsfunktion FX ( x ) :
M Der Wert der Verteilungsfunktion FX ( x ) im Punkt x gibt die Wahrscheinlichkeit
an, mit der der Wert der Zufallsvariablen X kleiner/gleich x ist:
FX ( x ) = F ( x ) = P ( X ≤ x )
Dr. Tatjana Lange
Formelsammlung
Seite 5
Statistik.doc
diskrete Zufallsvariable:
stetige Zufallsvariable:
M Ist X eine diskrete Zufallsvariable, die M Ist X eine stetige Zufallsvariable, so
die Werte
läßt sich nur die Wahrscheinlichkeit
angeben, mit der diese Zufallsvariable
x1 , x2 ,..., x N
X Werte aus dem Intervall x1 , x2
mit den Wahrscheinlichkeiten
annimmt:
P( X = x1 ), P( X = x 2 ),..., P( X = x N )
P( x1 ≤ X ≤ x 2 ) =
annehmen kann, so wird die Wahrscheinlichkeitsverteilung durch eine
treppenförmige Verteilungsfunktion
bestimmt.
x2
ò f (u )du
x1
Die Funktion f (x ) nennt man die
Dichte der Zufallsvariablen X.
Der Zusammenhang zwischen der Vertei- Der Zusammenhang zwischen der Dichte
f ( x ) und der Verteilungsfunktion F ( x )
lungsfunktion und den Wahrscheinlichist gegeben mit:
keiten der diskreten Zufallsvariablen ist
gegeben mit:
x
F (x )
j
j
F ( x ) = P( X ≤ x ) = ò f (u )du ; f ( x ) =
F (x j ) = P(X ≤ x j ) = å P( X = xi ) = å P(xi )
i =1
dx
−∞
i =1
1
1
F(x)
0,8
0,8
0,6
F(x)
0,6
P(x)
0,4
0,4
0,2
f(x)
0,2
0
x
0
0
1
2
3
4
5
6
7
8
9
M Eigenschaften und Gesetze:
-10
-5
0
5
10
0 ≤ F (x ) ≤ 1
F (− ∞ ) = 0 da P( X ≤ −∞ ) = 0
F (+ ∞ ) = 1 da P( X ≤ +∞ ) = 1
F ( x1 ) ≤ F ( x 2 ) falls x1 ≤ x 2
P( x1 ≤ X ≤ x 2 ) = P( X ≤ x 2 ) − P( X ≤ x1 ) = F ( x 2 ) − F ( x1 )
N
å P(xi ) = 1,
i =1
0 ≤ P ( xi ) ≤ 1
ò f (x )dx = 1
−∞
i =b
P ( x a ≤ X ≤ xb ) = å P ( xi )
P ( x a ≤ X ≤ xb ) =
i =a
Dr. Tatjana Lange
∞
xb
ò f (x )dx
xa
Formelsammlung
Seite 6
Statistik.doc
3.2. Wahrscheinlichkeiten und Verteilungsfunktionen für zwei Zufallsvariable X
und Y:
diskrete Zufallsvariable:
stetige Zufallsvariable:
M Gemeinsame Verteilungsfunktion:
F ( x , y ) = P( X ≤ x , Y ≤ y )
falls X und Y statistisch unabhängig:
F ( x , y ) = FX ( x ) ⋅ FY ( y )
M Gemeinsame Wahrscheinlichkeit:
M Gemeinsame Dichte:
falls X und Y statistisch unabhängig
falls X und Y statistisch unabhängig
P (X = x i , Y = y j ) = P ( x i , y j ) = P ( x i ) ⋅ P ( y j )
f ( x, y ) = f ( x ) ⋅ f ( y )
J
I
y x
F ( x I , y J ) = P( X ≤ x I , Y ≤ y J ) = å å P( X = xi , Y = y j )
ò ò f (u, v)dudv
F ( x, y ) =
j =1 i =1
− ∞− ∞
M Summe zweier Zufallsvariablen Z = X + Y :
N
P( Z = z ) = å P( X = xi , Y = z − xi )
f X +Y ( z ) =
i =1
falls X und Y statistisch unabhängig
ò f ( x, z − x)dx
−∞
falls X und Y statistisch unabhängig
N
P( Z = z ) = å P( X = xi ) P(Y = z − xi )
i =1
Dr. Tatjana Lange
∞
Formelsammlung
f X +Y ( z ) =
∞
ò f ( x) f ( z − x)dx
−∞
Seite 7
Statistik.doc
4. Erwartungswert und Varianz; Momente höherer Ordnung:
diskrete Zufallsvariable:
stetige Zufallsvariable:
M Erwartungswert:
N
E ( X ) = å xi P( X = xi )
∞
ò x ⋅ f ( x) ⋅ dx
E( X ) =
i =1
−∞
E ( aX + b) = a ⋅ E ( X ) + b
Wenn Z = X + Y , dann
E ( Z ) = E ( X + Y ) = E ( X ) + E (Y )
E ( α ⋅ X + β ⋅ Y ) = α ⋅ E ( X ) + β ⋅ E (Y )
M Varianz:
N
Var ( X ) = å xi − E ( X ) p( X = xi )
2
i =1
(
Var ( X ) =
∞
ò [x
− E ( X )] ⋅ f ( x) ⋅ dx
2
i
−∞
) ( )
Var ( X ) = E [ X − E ( X )] = E X 2 − [E ( X )]
2
2
Var ( aX + b ) = a 2Var ( X )
Wenn Z = X + Y , dann
Var ( Z ) = Var ( X + Y ) = Var ( X ) + Var (Y ) + 2Cov ( X , Y )
Var ( α ⋅ X + β ⋅ Y ) = α 2 ⋅Var ( X ) + β 2 ⋅Var (Y ) + 2 ⋅ α ⋅ β ⋅ Cov ( X , Y )
Für statistisch unabhängige Zufallsvariable X und Y gilt:
Var ( Z ) = Var ( X + Y ) = Var ( X ) + Var (Y )
Var ( α ⋅ X + β ⋅ Y ) = α 2 ⋅Var ( X ) + β 2 ⋅Var (Y )
M Momente k-ter Ordnung:
N
E ( X ) = å xik P ( X = xi )
k
E( X k ) =
i =1
∞
òx
k
−∞
Tschebyscheff'sche Ungleichung: P(Y − E (Y ) ≥ ε ) ≤
Dr. Tatjana Lange
⋅ f ( x) ⋅ dx
Formelsammlung
Var (Y )
ε2
Seite 8
Statistik.doc
5. Gesetz der großen Zahlen und zentraler Genzwertsatz
M Schwaches Gesetz der großen Zahlen
Wenn X i - beliebige, identisch verteilte unabhängige Zufallsvariable mit
(bekannten)
E(X i ) = E(X ) = µ
und
Var ( X i ) = Var ( X ) = σ 2
so gilt für beliebige α > 0 :
ö
æ1 n
lim Pçç å X i − µ ≥ α ÷÷ = 0
n →∞
ø
è n i =1
M Zentraler Grenzwertsatz:
Wenn X i - beliebige, identisch verteilte unabhängige Zufallsvariable mit
(bekannten)
E(X i ) = E(X ) = µ
und
Var ( X i ) = Var ( X ) = σ 2
so gilt für die Summe dieser Zufallsvariablen
n
Y = å Xi
i =1
ö
æ E (Y ) = å E ( X ) = n ⋅ E ( X )
÷
ç
ç Var (Y ) = Var ( X ) = n ⋅ Var ( X )÷
å
ø
è
für hinreichend große n:
appr .
Y
~ N (E (Y ),Var (Y ))
bzw.
Y − E (Y ) appr .
Var (Y )
~ N (0,1)
also
æ y − E (Y ) ö
÷
P(Y ≤ y ) ≈ Φç
ç Var (Y ) ÷
è
ø
Stetigkeitskorrektur:
ð Für diskrete Zufallsvariable gilt:
Dr. Tatjana Lange
æ k − E (Y ) + 0.5 ö
÷,
P(Y ≤ k ) ≈ Φç
÷
ç
(
)
Var
Y
ø
è
Formelsammlung
k = 0,1,2,..., n
Seite 9
Statistik.doc
6. Ausgewählte Verteilungen:
6.1. Verteilungen diskreter Zufallsvariabler:
6.1.1. Bernoulli-Verteilung (Binomial-Verteilung)
æ nö
n−k
P( X = k ) = P (k ) = çç ÷÷ p k (1 − p )
èkø
X~B(n,p)
æ nö
n!
çç ÷÷ =
è k ø k!⋅(n − k )!
Erwartungswert:
E ( X ) = np
Varianz:
Var ( X ) = np (1 − p )
Sonstige Beziehungen:
wenn Xi ~ B(1,p) dann Y = å X i ~ B(n,p)
n
i =1
Beispiele:
1
1
n=1 ;
p=0,1
0,6
0,4
0,2
0,6
0,4
0,2
k
0
2
4
6
8 10 12 14 16 18
0
1
2
4
6
8 10 12 14 16 18
1
n=2 ;
p=0,1
0,6
0,4
0,2
0,8
P(X=k)
0,8
P(X=k)
k
0
0
n=2 ;
p=0,5
0,6
0,4
0,2
k
0
k
0
0
2
4
6
8 10 12 14 16 18
0
0,4
2
4
6
8 10 12 14 16 18
n=20 ;
p=0,1
n=20 ;
p=0,5
0,4
n=10 ;
p=0,1
n=10 ;
p=0,5
0,3
0,2
0,1
0,3
P(X=k)
P(X=k)
n=1 ;
p=0,5
0,8
P(X=k)
P(X=k)
0,8
0,2
0,1
k
k
0
0
0
2
4
Dr. Tatjana Lange
6
8
10 12 14 16 18
0
Formelsammlung
2
4
6
8
10 12 14 16 18
Seite 10
Statistik.doc
6.1.2. Poisson-Verteilung
X~PV( λ )
P( X = k ) = P( k ) =
λk − λ
e
k!
Erwartungswert:
E( X ) = λ
Varianz:
Var ( X ) = λ
Sonstige Beziehungen:
wenn Xi ~ PV( λ ) dann Y = å X i ~ PV(n λ )
n
i =1
0,7
0,6
0,5
0,4
0,3
0,2
0,1
0
0,3
0,25
λ=0,5
λ=5
P(X=k)
P(X=k)
Beispiele:
λ=2
0,2
λ=10
0,15
k
0,1
0,05
k
0
0
2
4
6
8 10 12 14 16 18
0
2
4
6
8 10 12 14 16 18 20
6.1.3. Hypergeometrische Verteilung:
X~H(N,M,n)
æ M öæ N − M ö
çç ÷÷çç
÷
k øè n − k ÷ø
è
P( X = k ) = P(k ) =
æNö
çç ÷÷
ènø
æ nö
n!
çç ÷÷ =
è k ø k!⋅(n − k )!
Erwartungswert:
Varianz:
Sonstige Beziehungen:
( )
falls n N ≤ 0,05 dann X ~ H ( N , M , n) → X ~ B(n, M N )
•
P(X=k)
Beispiele:
N=100;
M=50; n=25
0,35
0,3
0,25
0,2
0,15
0,1
0,05
0
N=100;
M=50; n=5
k
0 2 4 6 8 10 12 14 16 18 20
Dr. Tatjana Lange
vergleiche B(n=5, p=(M/N)=0,5):
0,35
0,3
0,25
0,2
0,15
0,1
0,05
0
n=5 ;
p=0,5
k
0
Formelsammlung
2
4
6
8 10 12 14 16 18 20
Seite 11
Statistik.doc
6.2. Verteilungen stetiger Zufallsvariabler:
6.2.1. Exponentialverteilung
f ( x ) = λ e − λx , x ≥ 0, λ ≥ 0
X~Exp( λ )
Erwartungswert:
E( X ) = 1 λ
Varianz:
Var ( X ) = 1 λ2
Beispiele:
1
λ=1
f(x)
0,8
λ=0,5
0,6
λ=0,2
0,4
0,2
x
0
0
2
4
6
8
10
6.2.2. Normalverteilung
X~N( µ , σ 2 )
f ( x) =
1
2π ⋅ σ
e
1 æ x −µ ö
− ç
÷
2è σ ø
2
Erwartungswert:
E( X ) = µ
Rückführung auf die Standard-NV Y~N(0,1):
Varianz:
Var ( X ) = σ 2
P( X ≤ x ) = P(Y ≤ ( x − µ) σ ) = Φ (( x − µ) σ )
n
Sonstige
Beziehungen:
• wenn Xi ~ N( µ i , σ i2 ) dann Y = å X i ~ N( å µ i , å σ i2 )
(für stochastisch
unabhängige X i )
• wenn X ~ N( µ , σ 2 ) dann U = α + β X ~ N ( α + βµ , β 2 σ 2 )
i =1
0,8
0,7
0,6
0,5
0,4
0,3
0,2
0,1
0
-10
µ=0 ;
σ=1
µ=0 ;
σ=2
f(x)
f(x)
Beispiele:
µ=0 ;
σ=0,5
x
-5
Dr. Tatjana Lange
0
5
10
0,8
0,7
0,6
0,5
0,4
0,3
0,2
0,1
0
-10
Formelsammlung
µ=−5 ;
σ=1
µ=−5 ;
σ=2
µ=−5 ;
σ=0,5
x
-5
0
5
10
Seite 12
Statistik.doc
6.2.3. Chi-Quadrat-Verteilung
U~ χ 2n
Wenn Y1 ,....., Yn ~ N (0,1) ,
f(x)
0,15
alle Yi unabhängig und
χ2 -Verteilung
r
r=3
0,10
n
U := å Yi 2
0,05
i =1
dann U ~ χ 2n
x
0,00
0,0
( χ 2 -verteilt mit n Freiheitsgraden)
Erwartungswert:
E (U ) = n
Varianz:
Var (U ) = 2 n
3,0 6,0
9,0 12,0 15,0 18,0
6.2.4. Student-Verteilung
V~ tn
Wenn Y ~ N (0,1) und U ~ χ 2n
f(x)
0,4
(Y, U- unabhängig)
t n-Verteilung
n=5
N(0,1)
sowie
0,2
V :=
Y
⋅ n
U
x
dann V~ tn
-3,0 -2,0
-1,0
0,0
1,0
2,0
3,0
( tn -verteilt mit n Freiheitsgraden)
Erwartungswert:
E (V ) = 0
Varianz:
Var (V ) =
für n ≥ 3
n
n−2
für n ≥ 3
P(V ≤ y )→ Φ( y ), ∀y
Sonstige Beziehungen:
n →∞
6.2.5. Fisher-Verteilung
V~ Fr ,s
Wenn Y ~ χ 2r und U ~ χ 2s
0,9
(Y, U- unabhängig)
sowie
0,69
V :=
1
r
1
s
Y
U
Fr,s- Verteilung
r=10, s=30
0,3
r=4, s=2
x
0,0
dann V~ Fr ,s
( Fr ,s -verteilt mit n und m
Freiheitsgraden)
Dr. Tatjana Lange
f(x)
0,0
Formelsammlung
1,0
2,0
3,0
Seite 13
Statistik.doc
6.3. Approximationen:
H(N,M,n)
hypergeometrische Verteilung
Binomialapproximation
M
n
p=
falls
≤ 0.05
N
N
λ = n.p
falls n ≥50;
PV( λ )
Binomialverteilung B(n,p)
falls
n. p.(1- p ) ≥ 9
oder
np ≥ 5 und p ≤0.5
µ = n.p
σ 2 = n.p.(1- p )
N(µ ,σ 2)
Dr. Tatjana Lange
p ≤0.1; np ≤10
PoissonVerteilung
µ=λ
σ2 =λ
Normalverteilung
Formelsammlung
Seite 14
Statistik.doc
II. Ausgewählte Grundlagen der Statistik
1. Statistische Meßzahlen:
M Aritmetisches Mittel / Empirische Erwartung:
1 n
x = å xi
n i =1
M Median:
Ordnet man die Zahlen einer Meßreihe der Größe nach, so daß x1 ≤ x2 ≤..... ≤ xn , so
heißt die Zahl
ìï x (n +1 ) falls n ungerade
~
x =í 2
ïî x(n2 ) falls n gerade
Median.
M Empirische Varianzen:
s2 =
1 n
( x i − x )2
å
n i =1
s *2 =
1 n
( x i − x )2
å
n − 1 i =1
s und s* heißen empirische Standardabweichungen.
M Empirische Momente höherer Ordnung:
mk =
Dr. Tatjana Lange
1 n k
å xi
n i =1
Formelsammlung
Seite 15
Statistik.doc
2. Schätzverfahren und ihre Eigenschaften
Schätzung
Schätzung von Parametern
Punktschätzung:
Intervallschätzung:
Mit Hilfe einer Schätzfunktion wird ein einzelner Mit Hilfe einer Schätzfunktion werden eine obere
Schätzwertes für den
und einer unteren Grenze
unbekannten Parameter
für den unbekannten Wert
aus den Stichprobendaten
eines Parameters aus den
ermittelt:
Stichprobendaten bestimmt.
θ=θ
(bzw. je eines Schätzwertes
für mehrere unbekannte
Parameter)
Ä Konfidenzintervall:
θu ≤ θ ≤ θ o
Das Konfidenzintervall
wird dabei so bestimmt,
daß es den wahren Wert
des Parameters mit einer
Wahrscheinlichkeit von
(1- α ) überdeckt:
P( θ u≤ θ ≤ θ o ) = (1-α )
Zur Durchführung eines statistischen Verfahrens wird
oft nicht die Stichprobe selbst, sondern ein daraus
berechneter Funktionswert t = g (x , x , ... , x )
n
n 1
2
n
benutzt.
Dieser Funktionswert ist Realisierung einer
Zufallsvariablen Tn = g n(X 1, X ,2... , X n).
Diese Zufallsvariable heißt Stichprobenfunktion
oder Statistik .
Falls sie zur Schätzung von Parametern benutzt wird,
nennt man sie Schätzfunktion oder Schätzer .
Falls sie zur Durchführung eines Tests benutzt wird,
nennt man sie auch Testfunktion oder Teststatistik .
Dr. Tatjana Lange
Formelsammlung
Test von Hyphothesen:
(statistischer Test)
Mit Hilfe einer Testfunktion wird zwischen
zwei Hypothesen bzgl. des
Werts des unbekannten
Parameters, z.B.
H0 :θ=θ 0 oder H1 : θ≠θ 0
entschieden:
Für den Wert des
unbekannten Parameters
wird eine Nullhypothese
(z.B. H 0 : θ=θ0 ) und
eine Gegenhypothese
(z.B. H : θ≠θ )
1
0
formuliert.
Unter Vorgabe einer
Irrtumswahrscheinlichkeitα
wird für die Nullhypothese
ein Ablehnbereich ermittelt.
Aus den Stichprobendaten
wird der Wert einer Schätzfunktion bestimmt.
Liegt der Wert der Schätzfunktion innerhalb des
Ablehnbereiches, so wird
die Nullhypothese verworfen
und die Gegenhypothese
angenommen.
Die Wahrscheinlichkeit, daß
H 0 falscherweise abgelehnt
wurde, ist gleich α.
(Fehler 1. Art)
Seite 16
Statistik.doc
M Erwartungstreue Schätzer:
M Lineare Schätzer:
Ein Schätzer T heißt erwartungstreu
(unverzerrt, unbiased) für den zu
schätzenden Parameter υ , wenn
Ein Schätzer T heißt linear, wenn die
Schätzfunktion g linear ist, d.h.
gilt.
mit konstanten α i .
E (T ) = υ
T = g ( X 1 , X 2 ,... X n ) = å α i xi
Ein Schätzer T heißt asymptotisch
erwartungstreu, wenn
lim(E (T )) = υ
n →∞
gilt.
M Effizienter / Wirksamer Schätzer:
Ein Schätzer T heißt wirksamer
(effizienter) als ein anderer Schätzer
T , wenn
()
~
Var (T ) ≤ Var T
M Konsistente Schätzer:
Ein Schätzer T heißt konsistent,
wenn er mit wachsendem n nach
Wahrscheinlichkeit gegen υ
konvergiert, d.h. wenn
lim P (T − υ ≥ α ) = 0 ∀α > 0
n →∞
Dr. Tatjana Lange
Formelsammlung
Seite 17
Statistik.doc
3. Ausgewählte Schätzfunktionen / Schätzverfahren
3.1. Die Moment-Methode
Methode
Beispiel
Zur gegebenen Stichprobenrealisation
(x1 , x2 ,..., xn ) einer Zufallsvariablen X mit
der Verteilung F (x υ) soll der unbekannte
Verteilungsparameter υ geschätzt
werden.
Dazu stellt man den zu schätzenden
Parameter υ durch das k-te Moment der
Verteilung dar
υ = ξ(E (X k )) , E (X k ) = ò x k f (x υ)dx
Gegeben sei die Stichprobenrealisation
(x1 , x2 ,..., xn ) einer exponentialverteilten
Zufallsvariablen X:
X ~ Exp(λ ) , d.h.
ìλe − λx , falls x ≥ 0
f ( x ) = f (x λ ) = í
î 0 , sonst
Der unbekannte Verteilungsparameter λ
soll geschätzt werden.
Das 1. Moment der Exponentialverteilung
und ersetzt anschließend das
∞
1
− λx
k
(
)
=
ist
E
X
mathematische Moment E (X ) durch das
ò0 x ⋅ λe dx = λ .
entsprechende empirische Moment
1
1
Folglich ist λ =
bzw. λ = n
1 n k
æ1 n k ö
mk = å xi , also υˆ = ξ(mk ) = ξç å xi ÷
1
E(X )
n
i =1
Dr. Tatjana Lange
èn
i =1
ø
Formelsammlung
n
åx
i
i =1
Seite 18
Statistik.doc
3.2. Die Maximum-Likelihood-Methode
Methode
Beispiel
Zur gegebenen Stichprobenrealisation
(x1 , x2 ,..., xn ) einer Zufallsvariablen X mit
der Verteilung F (x υ) soll der unbekannte
Verteilungsparameter υ geschätzt
werden.
Dazu bestimmt man mittels einschlägiger
Optimierungsmethoden den Wert des
Parameters υ so, daß die Wahrscheinlichkeit der Stichprobenrealisation maximal
wird:
P(x1 , x 2 ,..., x n υ) Þ max
bzw.
Gegeben sei die Stichprobenrealisation
(x1 , x2 ,..., xn ) einer binomialverteilten
Zufallsvariablen X:
X ~ B(1, p ) , d.h.
P( X = xi ) = p xi (1 − p )
1− xi
Die Wahrscheinlichkeit der Stichprobe ist
folglich
P (x1 , x 2 ,..., x n p ) = ∏ P ( X = xi )
n
i =1
1− xi
n
= ∏ p xi (1 − p )
i =1
f (x1 , x 2 ,..., x n υ) Þ max
; xi = 0,1 ∀i
= p å xi (1 − p )
n − å xi
n
æ n
ö
æ
ö
ln P(x1 , x 2 ,..., x n p ) = ç å x i ÷ ln p + ç n − å x i ÷ ln (1 − p )
i =1
è i =1 ø
è
ø
z.B. durch
d
P (x1 , x 2 ,..., x n υ) = 0
dυ
n
1 n
1 æ
d
ö
ln P(x1 , x 2 ,..., x n p ) = å x i −
ç n − å xi ÷ = 0
1− p è
dp
p i =1
i =1
ø
Rein rechnerisch läßt sich oft der Ansatz
ln P (x1 , x 2 ,..., x n υ) Þ max
Folglich ist p =
bzw.
d
ln P (x1 , x 2 ,..., x n υ) = 0
dυ
1 n
å xi .
n i =1
Für die Stichprobe (1,0,0) gilt also
besser bearbeiten.
pˆ =
1
(1 + 0 + 0) = 1
3
3
3.3. Ergänzung zur Maximum-Likelihood-Methode
Wir betrachten eine Zufallsvariable X, die folgende 2 Werte annehmen kann:
ì1 mit der Wahrscheinlichkeit p
X =í
î0 mit der Wahrscheinlichkeit (1 - p)
d.h. X~B(1,p), wobei p der Verteilungsparameter der Binomialverteilung ist.
Typisches Anwendungsbeispiel:
Qualitätskontrolle:
ì 1 bedeutet → i - tes Gerät intakt
xi = í
î0 bedeutet → i - tes Gerät defekt
Aus einer größeren Lieferung von Geräten sollen nur auf zufällige Art und Weise 3
Geräte entnommen und überprüft werden. Das Ergebnis sei wie folgt:
x1 = 1, x2 = 0, x3 = 0
Dr. Tatjana Lange
Formelsammlung
Seite 19
Statistik.doc
Aus dieser Stichprobe (1,0,0) soll nun der Wert des Verteilungsparameter p geschätzt
werden.
x1
Wäre p bekannt, so könnte man die
x2
x3
theoretische Auftrittswahrscheinlichkeit
Auftrittswahrscheinlichkeit der Realisation:
der vorliegenden Stichprobe (1,0,0)
0
0
0 (1 − p) ⋅ (1 − p) ⋅ (1 − p)
berechnen, die dann durch die Formel
0
0
1 (1 − p) ⋅ (1 − p) ⋅ p
p ⋅ (1 − p ) ⋅ (1 − p ) gegeben wäre.
0
1
0 (1 − p) ⋅ p ⋅ (1 − p)
0
1
1 (1− p ) ⋅ p ⋅ p
Beachte:
1
0
0
p ⋅ (1 − p ) ⋅ (1 − p )
Ebenso könnte man die theoretischen
1
0
1
p ⋅ (1 − p ) ⋅ p
Auftrittswahrscheinlichkeiten der anderen
1
1
0
p ⋅ p ⋅ (1 − p )
möglichen Stichprobenrealisationen
1
1
1
p⋅ p⋅ p
berechnen (→ siehe nebenstehende
Tabelle).
Hier interessiert aber nur die vorliegende
Stichprobenrealisation
(1,0,0), deren Auftrittswahrscheinlichkeit p ⋅ (1 − p) ⋅ (1 − p) eine Funktion des Verteilungsparameters p ist
(s. Bild 1).
Wahrscheinlichkeit der Stichprobenrealisation
1, 0, 0, in Abhängigkeit von p
0,16
max.
0,14
p(1-p)(1-p)
0,12
0,1
0,08
Aus Bild 2 kann man erkennen, daß die
Maxima der Auftrittswahrscheinlichkeiten aller 8 möglichen Stichprobenrealisationen bei unterschiedlichen
Werten des Verteilungsparameters p
erreicht werden. Für die gegebene
Stichprobe (1,0,0) ist der optimale
Wert für p = 1 3 .
0,06
0,04
0,02
0
0
0,2
0,4
0,6
0,8
1
p=0,33
Bild 1: Auftrittswahrscheinlichkeit der
Stichprobe (1,0,0) als Funktion von p
Der Grundgedanke der Maximum-Likelihood-Methode ist nun denkbar einfach:
Man nimmt für die gegebene Stichprobenrealisation (1,0,0) den Wert des
Verteilungsparameters p als den zutreffendsten von allen Möglichen Werten
0 ≤ p ≤ 1 an, bei dem die theoretische Auftrittswahrscheinlichkeit eben
dieser Stichprobe (1,0,0) ihren größtmöglichen Wert erreicht, hier also
p =1 3.
Da für jeden anderen Wert p ≠ 1 3 die Auftrittswahrscheinlichkeit der
vorliegende Stichprobenrealisation kleiner wäre, ist es widersinnig
Dr. Tatjana Lange
Formelsammlung
Seite 20
Statistik.doc
anzunehmen, daß es im vorliegenden Fall einen besseren Schätzwert als
p = 1 3 geben kann.
Beachte:
Es erfolgt kein Vergleich mit den theoretischen
Auftrittswahrscheinlichkeiten der anderen denkbaren Kombinationen von
( x1, x2 , x3) , da diese ja nicht eingetreten sind und damit nicht zur Diskussion
stehen.
Mathematisch ausgedrückt bedeutet das, daß die Auftrittswahrscheinlichkeit
p ⋅ (1 − p ) ⋅ (1 − p ) der Stichprobe (1, 0, 0) maximiert werden muß, also
p⋅(1− p)⋅(1− p) → max
d.h.
(
)
d
1
p⋅ (1− p)2 = 0 Þ (1− p)2 −2p(1− p) = 0 Þ (1− p) −2p = 0 Þ p =
dp
3
Dr. Tatjana Lange
Formelsammlung
Seite 21
Statistik.doc
Werte des Verteilungsparametrs p:
0,9
0,8
p=0,05
p=0,95
0,7
0,6
p=0,2
0,5
p=0,8
Bei p=0,33333 hat die
Stichprobenrealisation (1,0,0) ihre
maximale
Auftrittswahrscheinlichkeit
0,4
0,3
p=0,4
p=0,6
0,2
A
0,1
0
'0-0-0'
'0-0-1'
'0-1-0'
'0-1-1'
'1-0-0'
'1-0-1'
'1-1-0'
'1-1-1'
0,05
0,1
0,15
0,2
0,25
0,3
0,333333333
0,35
0,4
0,45
0,5
0,55
0,6
0,65
0,7
0,75
0,8
0,85
0,9
0,95
Stichprobenrealisationen
Bild 2: Theoretische Auftrittswahrscheinlichkeiten der möglichen Stichprobenrealisationen in Abhängigkeit vom Verteilungsparameter p
Dr. Tatjana Lange
Formelsammlung
Seite 22
Statistik.doc
3.4. Bayes-Schätzung
Methode
Beispiel
Die Bayes-Schätzung ist eine Schätzung
mit Vorinformation über den zu schätzenden Parameter υ , d.h. es sind bestimmt
a-priori Wahrscheinlichkeiten bezüglich der Werte, die der zu schätzende
Parameter annehmen kann, gegeben:
Für eine binomialverteilte Zufallsvariable
X ~ B(1, p ) seien folgende Werte des
Parameters p mit den a-priori
Wahrscheinlichkeiten P(H i ) möglich:
P(H i ) = P(υ = υ i ), i = 1,2,...; å P(H i ) = 1
p = p1 = 0,1 mit P(H 1 ) = 0,4
p = p 2 = 0,3 mit P(H 2 ) = 0,6
Das Ereignis A sei das Beobachtungsergebnis, also eine Stichprobenrealisation: Als Beobachtungsergebnis (Ereignis A)
liegt folgende Stichprobenrealisation vor:
(x , x ,..., x ) .
1
2
n
(x1 , x2 ,..., x10 ) = (1,1,0,0,0,0,0,0,0,0)
Mit Hilfe der Bayes'schen Formel
P(H i A) =
P( H i ) ⋅ P ( A H i )
Daraus ergeben sich folgende a-posteriori
P( A)
Wahrscheinlichkeiten für die beiden
werden nun für alle vorgegebenen Mög- Lösungsmöglichkeiten:
lichkeiten die aposteriori Wahrschein10
lichkeiten P(H i A), i = 1,2,... berechnet,
P(H 1 ) ⋅ ∏ P(X = x j H 1 : p = p1 )
j =1
wobei P(A H i ) die Wahrscheinlichkeit der P(H A) =
1
P ( A)
gegebenen Stichprobenrealisation unter
8
2
0.4 ⋅ 0.1 ⋅ (1 − 0.1)
1.72 −3
der Annahme ist, daß υ = υi zutrifft:
P(H 1 A) =
=
(
P (H i ) ⋅ ∏ P ( X = x j H i : υ = υ i )
n
P(H i A) =
j =1
P ( A)
)
P ( A)
P (H 2 ) ⋅ ∏ P (X = x j H 2 : p = p 2 )
10
P ( A)
P(H 2 A) =
Als Schätzwert wird der Wert υ = υi mit
der größten a-posteriori Wahrscheinlichkeit P(H i A) angenommen.
j =1
(
P( A)
)
0.6 ⋅ 0.3 2 ⋅ (1 − 0.3)
3.11−3
P(H 2 A) =
=
P ( A)
P ( A)
8
Hinweis:
Es genügt, die Zähler in der Bayes'schen Hier ist P(H A) > P(H A) , folglich gilt
2
1
Formel für die verschiedenen i zu verp = p2 = 0. 3
gleichen.
Dr. Tatjana Lange
Formelsammlung
Seite 23
Statistik.doc
4. Konfidenzintervall-Schätzung
Verfahren
M Allgemeiner Ansatz:
Beispiel
Zur gegebenen Stichprobenrealisation
(x1 , x2 ,..., xn ) einer Zufallsvariablen X
mit der Verteilung F (x υ) soll ein
Konfidenzintervall für den unbekannten Verteilungsparameter υ geschätzt
werden.
X sein eine normalverteilte
Zuvallsvariable: X ~ N (µ, σ 2 )
Die Varianz σ 2 sei bekannt; zu schätzen
ist der unbekannte Wert des Parameters
µ.
Sei T = g (x1 , x 2 ,..., x n υ) ein Schätzer
für den Parameter υ und FT (t ) die
Verteilungsfunktion des Schätzers T.
Die Wahrscheinlichkeit, daß die Realisation des Schätzers im Intervall
tα / 2 ≤ t ≤ t1−α / 2 liegt, ist
P(t α / 2 ≤ t ≤ t1−α / 2 ) = 1 − α ,
t α/2
und
t1−α / 2
die
wobei
entsprechenden
Quantile
der
Verteilung FT (t ) des Schätzers sind.
Als Schätzer für µ wird die Funktion
1 n
å Xi −µ
n i =1
n ~ N (0,1)
T=
σ
gewählt.
Die Realisation t des Schätzers liegt mit
einer Wahrscheinlichkeit von (1 − α ) im
Intervall tα / 2 ≤ t ≤ t1−α / 2 , wobei hier
t α/2 und t1−α / 2 die entsprechenden Quantile
der Standard-Normalverteilung sind, also
t α / 2 = − t1−α / 2 ; t1− α / 2 = Φ −1 (1 − α / 2 ) .
Die Schätzfunktion T = g (x1 ,..., x n υ)
Folglich gilt
wird nun nach υ̂ = ς(t ) umgestellt.
1 n
å xi − µ
Dann ergibt sich das Konfidenzt α / 2 ≤ n i =1
n ≤ t1− α / 2
σ
intervall zum Niveau (1 − α ) für den
""
" """
!
=t
zu schätzenden Parameter υ zu
σ
σ
1 n
1 n
[ς(t α / 2 ) ≤ υ ≤ ς(t1−α / 2 )] .
t1− α / 2 ≤ µ ≤ å xi +
t1− α / 2
å xi −
n i =1
n i =1
n
n
α nennt man auch Irrtums-
wahrscheinlichkeit.
Konfidenzintervalle für die mathematische Erwartung E ( X ) bei unbekannter
Verteilungsklasse von X
M nach Tschebyscheff:
M nach dem ZGWS:
æ
σ
σ ö
≤ E(X ) ≤ x +
÷÷ = 1 − α
Pçç x −
α⋅n
α⋅n ø
è
mit σ = Var ( X );
Dr. Tatjana Lange
æ
σ −1
Φ
Pçç x −
n
è
Φ
−1
( )= z
1
1−
α
Formelsammlung
( ) ≤ E(X ) ≤ x +
1−
α
2
1−α / 2
σ
n
Φ −1
( )ö÷÷ = 1 − α
1−
α
2
ø
- Quantil der Standard-NV
Seite 24
Statistik.doc
5. Hypothesentest
M Hypothetischer Ansatz:
H0 : ν = ν0 gegen H1: ν = ν1
M Testfunktion
T = g ( X 1 , X 2 ,..., X n υ)
Nimmt die Rrealisation t der
Testfunktion T = g (X 1 ,..., X n υ)
einen Wert größer k an, so wird
die Nullhypothese H0 abgelehnt.
Dichte der Statistik T,
falls H0 zutrifft.
Dichte der Statistik T,
falls H1 zutrifft.
M Fehler 1. Art:
α = P ( T > k H0 : ν = ν 0 )
β
α
M Fehler 2. Art:
k = kritische Grenze
Ablehnbereich für H0
β = P ( T ≤ k H1: ν = ν1 )
B = {(x1 ,..., x n ) : t > k }
M Ablehnbereich:
H0 zutreffend
H1 zutreffend
H0 wird angenommen
o.k.: (1 − α )
Fehler 2. Art: β
H1 wird angenommen
Fehler 1. Art:
Dr. Tatjana Lange
Formelsammlung
α
o.k.: (1 − β )
Seite 25
Statistik.doc
6. Schätzen und Testen bei normalverteilter Stichprobe:
Hypothetischer Ansatz
Ablehnbereich bzw. kritischer Bereich
1.
H0 : ν = ν0 gegen H1: ν ≠ ν0
B = {z : z ≥ z1−α / 2 }
2.
H0− : ν ≤ ν0 gegen H1− : ν > ν0
B − = {z : z ≥ z1−α }
3.
H0+ : ν ≥ ν0 gegen H1+ : ν < ν0
B + = {z : z ≤ z α }
z1− α / 2 , z1−α , zα - Quantile der Verteilung des gewählten Schätzers für ν
Die Null-Hypothese wird abgelehnt, wenn der Wert des gewählten Schätzers im
Ablehnbereich B liegt, also t ∈ B .
Test über Bedingung
Test
µ
NV-Test T := X − µ 0 n ~ N (0,1)
σ 2 bekannt
Schätzer / Konfidenzintervall
σ
é
ù
σ
σ
z1− α / 2 ≤ µ ≤ x +
z1− α / 2 ú
êx −
n
n
ë
û
z1−α / 2 = Φ −1 (1 − α / 2 ) → (1 − α / 2) -Quantil der
Standard-Normalverteilung
µ
σ2
t-Test
unbekannt
T: =
X − µ0
n − 1 ~ t n −1
S
é
ù
S
S
z1− α / 2 ≤ µ ≤ x +
z1− α / 2 ú
êx −
n −1
n −1
ë
û
z1−α / 2 → (1 − α / 2) -Quantil der t n −1-Verteilung
σ2
µ bekannt
χ 2n -Test
T :=
1
σ 02
n
2
å ( xi − µ )
i =1
=
n ⋅ σˆ 2 σ 02
; 2 ⋅ T ~ χ 2n
2
σ0
σ
é n ⋅ σˆ 2
n ⋅ σˆ 2 ù
1 n
2
2
ˆ
( x i − µ )2
σ
=
≤
σ
≤
;
å
ê
ú
zα / 2 û
n i =1
ë z1−α / 2
z1−α / 2 , zα / 2 → Quantile der χ 2n -Verteilung
σ2
µ unbekannt χ n2 −1 -Test T := 1
2
σ0
n⋅S
2
å (xi − x ) = 2
n
i =1
σ0
2
=
(n − 1) ⋅ S * 2 σ 02
; 2 ⋅ T ~ χ 2n −1
2
σ0
σ
é n ⋅ s2
n ⋅ s2 ù
1 n
2
2
2
≤σ ≤
ê
ú ; s = å (xi − x )
zα / 2 û
n i =1
ë z1−α / 2
z1−α / 2 , zα / 2 → Quantile der χ n2 −1 -Verteilung
Dr. Tatjana Lange
Formelsammlung
Seite 26
Statistik.doc
7. Vergleich von Erwartungswerten und Varianzen:
M Voraussetzungen: Zweifache Stichprobe: X , X ,..., X ; Y , Y ,..., Y ;
1
2
n 1 2
m
X i ~ N (µ x , σ 2x ) ; Y j ~ N (µ y , σ 2y ) ; X i und Yj unabhängig
Hypothetischer Ansatz
Ablehnbereich bzw. kritischer Bereich
1.
H0 : ν x = ν y gegen H1: ν x ≠ ν y
B = {z : z ≥ z1−α / 2 }
2.
H0− : ν x ≤ ν y gegen H1− : ν x > ν y
B − = {z : z ≥ z1−α }
3.
H0+ : ν x ≥ ν y gegen H1+ : ν x < ν y
B + = {z : z ≤ z α }
z1−α / 2 , z1−α , zα - Quantile der Verteilung ders gewählten Teststatistik.
Die Null-Hypothese wird abgelehnt, wenn der Wert der Realisation t der Teststatistik
im Ablehnbereich B liegt, also t ∈ B .
Test über Bedingung
Test
µx ,µ y
NV-Test T :=
σ 2x bekannt;
Teststatistik:
X −Y
n ~ N (0,1)
2
σ 2x σ y
+
n
m
σ 2y bekannt
z1−α / 2 , z1−α , zα -Quantile der StandardNormalverteilung; zα = − z1−α
µx ,µ y
X −Y
σ 2x = σ 2y = σ 2 ; doppelter T : =
nS + mS
t-Test
σ
2
x
2
unbekannt
2
y
n + m−2
~ t n + m− 2
1 1
+
n m
1 n
1 m
2
2
(
)
;...
( y i − y )2
x
−
x
s
=
å
å
i
y
n i =1
m i =1
s x2 =
z1−α / 2 , z1−α , zα -Quantile der t n + m−2 -Verteilung;
zα = − z1−α
σ 2x , σ 2y
keine
F -Test
T :=
S x*2
~ F(n −1,m−1) ;
S *y 2
s *x2 =
m
1 n
(xi − x )2 ; s *y2 = 1 å ( yi − y )2
å
n − 1 i =1
m − 1 i =1
z1−α / 2 , z1−α , zα -Quantile der F(n −1, m −1) -Verteilung;
1
zα =
z1−α
Dr. Tatjana Lange
Formelsammlung
Seite 27
Statistik.doc
8. Vergleich von Erwartungswerten und Varianzen:
M Voraussetzungen: Verbundene Stichprobe: ( X , Y ), ( X , Y ),..., ( X , Y ) ;
1
1
2
2
n
n
æ æ µ i ö æ σ 2x
( X i , Yi ) ~ N çç çç ÷÷, çç
è è ν i ø è σ xy
σ xy ö ö÷
÷ ; d.h. X i , Yi normalverteilt,
σ 2y ÷ø ÷ø
aber nicht unabhängig
Hypothetischer Ansatz
1.
i
B − = {z : z ≥ z1−α }
n
H0− : ∀ µ i ≤ νi gegen H1− : ∃ µ i > νi
i=1
3.
B = {z : z ≥ z1−α / 2 }
n
H0 : ∀ µ i = νi gegen H1: ∃ µ i ≠ νi
i=1
2.
Ablehnbereich bzw. kritischer Bereich
i
B + = {z : z ≤ z α }
n
H0+ : ∀ µ i ≥ νi gegen H1+ : ∃ µ i < νi
i=1
i
z1− α / 2 , z1−α , zα - Quantile der Verteilung der gewählten Teststatistik.
Die Null-Hypothese wird abgelehnt, wenn der Wert der Realisation t der Teststatistik
im Ablehnbereich B liegt, also t ∈ B .
Test über Bedingung
µ i , νi
Test
σ 2 = σ 2x + σ 2y − 2σ xy t-Test
unbekannt
Teststatistik:
T: =
D
D
n − 1 = * n ~ t n −1 ;
SD
SD
D=
1 n
å Di ;... Di = X i − Yi
n i =1
S D2 =
1 n
(Di − D )2
å
n i =1
z1− α / 2 , z1−α , zα - Quantile der t n−1Verteilung; zα = − z1−α
Dr. Tatjana Lange
Formelsammlung
Seite 28
Statistik.doc
9. Test über eine beliebige Wahrscheinlichkeit (approximativer GaußTest):
M Voraussetzungen: Einfache Stichprobe: X , X ,..., X ;n - groß !!!
1
2
n
X i ~ B(1, p ) ; po ∈ 0, 1
Hypothetischer Ansatz
Ablehnbereich bzw. kritischer Bereich
1.
H0 : p = p0 gegen H1: p ≠ p0
2.
H0− : p ≤ p0 gegen H1− : p > p0
3.
H0+ : p ≥ p0 gegen H1+ : p < p0
Test über Test
p
B = {z : z ≥ z1−α / 2 }
B − = {z : z ≥ z1−α }
B + = {z : z ≤ z α }
Teststatistik:
X − p0
approx. T :=
NV-Test
p 0 (1 − p
appr .
)
n
~ N (0,1) ; vgl. ZGWS
z1− α / 2 , z1−α , zα - Quantile der Standard-NV; zα = − z1− α
10. Vergleich zweier Wahrscheinlichkeiten:
M Voraussetzungen: Doppelte Stichprobe: X , X ,..., X ; Y , Y ,..., Y ;
1
2
n 1 2
m
n und m- groß !!! X i ~ B(1, p1 ) ; Y j ~ B(1, p 2 )
Hypothetischer Ansatz
Ablehnbereich bzw. kritischer Bereich
1.
H0 : p1 = p2 gegen H1: p1 ≠ p2
2.
H0− : p1 ≤ p2 gegen H1− : p1 > p2
3.
H0+ : p1 ≥ p2 gegen H1+ : p1 < p2
Test über Test
p1 , p2
B = {z : z ≥ z1−α / 2 }
B − = {z : z ≥ z1−α }
B + = {z : z ≤ z α }
Teststatistik:
konserv. T := X − Y ; Annahme: T
1 1 1
NV-Test
+
2 n
appr .
~ N (0,1)
m
z1− α / 2 , z1−α , zα - Quantile der Standard-NV; zα = − z1− α
Dr. Tatjana Lange
Formelsammlung
Seite 29
Statistik.doc
11. Lineare Regression:
y
M Gegeben:
y1
Yi = a + bxi + U i ; i = 1, 2,..., n
y2
U i , Yi - Zufallsvariable
yi
-Relalisation von Yi
xi .
- vorgegebene Werte
y3
y=a+bx
x
M Gesucht: a , b - unbekannte Parameter
M Voraussetzung:
U 1 ,U 2 ,...,U n - stochastisch unabhängig
E (U i ) = 0; Var (U i ) = σ 2 > 0
M Punktschätzung:
Test über Schätzer / Konfidenzintervall
a,b
σ2
S xy
b = 2 ;
sx
;
a = Y − bx
mit S xy =
1 n
1 n
2
(
)
(
)
und
( x i − x )2
x
−
x
Y
−
Y
S
=
å
å
i
x
i
n i =1
n i =1
σ 2 =
(
1 n 2
Ei mit Ei = Yi − aˆ + bˆxi
å
n − 2 i =1
)
M Konfidenzintervallschätzung:
Test über Bedingung
a,b
Konfidenzintervall:
(
U i ~ N 0, σ 2
) Pæç bˆ − z
ç
è
1− α / 2 ⋅
σˆ 2
≤ b ≤ bˆ + z1−α / 2 ⋅
2
(
x
x
)
−
å i
σˆ 2
2
å ( xi − x )
ö
÷ = 1− α
÷
ø
æ
σˆ 2 å x i2
σˆ 2 å x i2
ç
P aˆ − z1− α / 2 ⋅
≤ a ≤ aˆ − z1− α / 2 ⋅
2
2
ç
n å ( xi − x )
nå ( xi − x )
è
ö
÷ = 1−
÷
ø
z1−α/ 2 - Quantil der t n−2 -Verteilung;
a , b , σ 2 - wie bei Punktschätzung
σ2
(
U i ~ N 0, σ 2
)
æ (n − 2)σˆ 2
(n − 2)σˆ 2 ö÷ = 1 − α
Pçç
≤ σ2 ≤
z α / 2 ÷ø
è z1− α / 2
z1−α / 2 , zα / 2 → Quantile der χ 2n−2 -Verteilung
Dr. Tatjana Lange
Formelsammlung
Seite 30
Statistik.doc
M Hypothesentest:
Hypothetischer Ansatz
Ablehnbereich bzw. kritischer Bereich
1.
H0 : ν = ν0 gegen H1: ν ≠ ν0
B = {z : z ≥ z1−α / 2 }
2.
H0− : ν ≤ ν 0 gegen H1− : ν > ν 0
B − = {z : z ≥ z1−α }
3.
H0+ : ν ≥ ν 0 gegen H1+ : ν < ν 0
B + = {z : z ≤ z α }
Test über Bedingung
a
Teststatistik:
(
U i ~ N 0, σ 2
)
T = (aˆ − a 0 )
nå ( xi − x )
σˆ 2 å xi2
2
~ t n−2
z1− α / 2 , z1−α , zα - Quantile der t n−2 -Verteilung; zα = − z1− α
a , σ 2 - wie bei Punktschätzung
b
(
U i ~ N 0, σ 2
)
(
T = bˆ − b0
)
å (x
i
− x)
σˆ 2
2
~ t n−2
z1− α / 2 , z1−α , zα - Quantile der t n−2 -Verteilung; zα = − z1− α
b , σ 2 - wie bei Punktschätzung
σ2
(
U i ~ N 0, σ 2
)
T = (n − 2 )
σˆ 2
~ χ 2n − 2
2
σ
z1− α / 2 , z1−α , zα → Quantile der χ 2n−2 -Verteilung
Dr. Tatjana Lange
Formelsammlung
Seite 31
Statistik.doc
III. Sonstige nützliche mathematische Formeln
1. Einige endliche Reihen
n
åk =
k =1
n(n + 1)
2
n
åk2 =
k =1
n(n + 1)(2n + 1)
6
n 2 (n + 1) 2
k =
å
4
k =1
n
3
2. Etwas Kombinatorik:
Formel
Beispiel
M Anzahl der Kombinationen von n
Elementen zur k-ten Klasse ohne
Wiederholung:
M 4 Elemente a b c d zur 2-ten Klasse:
ab, ac, ad, bc, bd, cd
æ 4ö
4!
K 42 = çç ÷÷ =
=6
è 2 ø 2!⋅2!
æ nö
n!
K = çç ÷÷ =
è k ø k!⋅(n − k )!
k
n
M Anzahl der Kombinationen von n
Elementen zur k-ten Klasse mit
Wiederholung:
M 4 Elemente a b c d zur 2-ten Klasse:
ab, ac, ad, bc, bd, cd, aa, bb, cc, dd
æ 4 + 2 − 1ö
5!
÷÷ =
= 10
K 42 = çç
è 2 ø 2!⋅3!
æ n + k − 1ö (n + k − 1)!
÷÷ =
K nk = çç
è k
ø k!⋅(n − 1)!
M Anzahl der Permutationen von n
Elementen (ohne Wiederholung):
Pn = n !
M Anzahl der Variationen von n
Elementen zur k-ten Klasse ohne
Wiederholung:
M 3 Elemente a b c:
abc
acb
b c
a
cab
cba
P3 = 3! = 6
ab, ba ac, ca, ad, da, bc, cb, bd, db, cd, dc
æ 4ö
4!
V42 = çç ÷÷ ⋅ 2!= = 12
2!
è 2ø
æ nö
n!
V = çç ÷÷ ⋅ k!=
(n − k )!
èkø
M 4 Elemente a b c d zur 2-ten Klasse:
ab, ba ac, ca, ad, da, bc, cb, bd, db, cd, dc,
aa, bb, cc, dd
Vnk = n k
Dr. Tatjana Lange
c
M 4 Elemente a b c d zur 2-ten Klasse:
k
n
M Anzahl der Variationen von n
Elementen zur k-ten Klasse mit
Wiederholung:
b a
V24 = 2 4 = 16
Formelsammlung
Seite 32
Statistik.doc
3. Einige Logarithmengesetze und Exponentialgleichungen:
ax = b
Þ x = log a b =
log c b
log c a
log a ( A ⋅ B ) = log a A + log a B
log a C n = n ⋅ log a C
æ Aö
log a ç ÷ = log a A − log a B
èBø
log a A =
log b A
log b a
4. Einige Ableitungen und Integrale:
Ableitungen
(x )' = n ⋅ x
n
(a )' = a
x
x
n −1
⋅ ln a
Integrale
(ln x )' = 1
n
ò x dx =
x
(e )' = a ⋅ e
ax
ax
x n +1
n +1
ax
ò a dx = ln a
x
ax
ò x ⋅ e dx =
(u ⋅ v )' = u ⋅ v'+u '⋅v
Dr. Tatjana Lange
'
æ u ö u '⋅v − u ⋅ v'
ç ÷ =
v2
èvø
ò
dx
= ln x
x
òe
ax
dx =
1 ax
e
a
e ax
(ax − 1)
a2
ò u( x) ⋅ v' ( x) ⋅ dx = u ( x) ⋅ v( x) − ò u' ( x) ⋅ v( x) ⋅ dx
Formelsammlung
Seite 33
Statistik.doc
Herunterladen