statistik_25_05_05

Werbung
STATISIK
LV Nr.: 0028
SS 2005
25. Mai 2005
1
Poissonverteilung
• Verteilung seltener Ereignisse
• Große Zahl von Versuchen n,
Wahrscheinlichkeit θ für Auftreten eines
Ereignisses sehr klein
• Wahrscheinlichkeitsfunktion:
 μ x e-μ

f P (x;μ)=  x! für x=0,1,...
0sonst

2
Poissonverteilung
• Erwartungswert: E(X) = μ
• Varianz: Var(X) = μ
• Approximation der Binomialverteilung
durch die Poissonverteilung:
– n groß und θ klein, Parameter μ = n·θ
– Faustregel: n > 10 und θ < 0,05.
• Approximation der Hypergeometrischen Vt.
– M/N = θ klein, N im Vergleich zu n groß,
Parameter μ = n · M/N
– Faustregel: M/N < 0,05 und n/N < 0,05
3
Poissonverteilung
• Bsp. Wahrscheinlichkeit bei einer Prüfung
von n=2000 Buchungen genau 3 (=x)
Fehlbuchungen zu finden, Anteil der
Fehlbuchungen: θ=0,001.
• Poissonverteilung: μ = n·θ = 2
μ x e-μ 23e-2
W(X=x)=
=
=0,1804
x!
3!
4
Gleichverteilung
• Diskrete Zufallsvariable:
• Jede der k möglichen Ausprägungen hat
gleiche Wahrscheinlichkeit
P(X=xi) = 1/k
(i=1,…,k)
• Bsp. Wahrscheinlichkeitsverteilung der
Augenzahl eines idealen Würfels:
P(X=xi) = 1/6
(i=1,…,6)
5
Gleichverteilung
• Stetige Zufallsvariable:
• Realisationen der stetigen Zufallsvariablen
X liegen im Intervall [a;b]
• Dichtefunktion:
 1
für a  x  b

f G (x;a,b)=  b-a
 0
sonst
• P(x  X  x+Δx) = 1/(b-a) · Δx
6
Gleichverteilung
Stetige Gleichverteilung
0,2
P(xXx+Δx) =
1 /(b -a ) · Δ x
f(x;a,b)
1/(b-a)
0
0
a
x
x+Δx
14
b
x
7
Gleichverteilung
• Verteilungsfunktion (Integration der Dichte)
für x<a
 0
 x-a

FG (x;a,b)= 
für a  x  b
 b-a
für x>b
 1
8
Gleichverteilung
Stetige Gleichverteilung
1,2
1
F(x;a,b)
0,8
0,6
0,4
0,2
0
0
a
14
b
x
9
Gleichverteilung
• Erwartungswert: E(X) = (a+b)/2
• Varianz: Var(X) = (b-a)² / 12
• Bsp. Wegzeit ist gleichverteilt im Intervall
[30;40]. Ges. Wahrscheinlichkeit zw. 32 und
35 Min. zu benötigen.
P(32  X  35) = 1/(b-a) · Δx
= 1/(40-30) · (35-32) = 0,3
Durchschnittlich benötigte Zeit: E(X) = 35
10
Normalverteilung
• Wichtigste theoretische Verteilung:
• Normalverteilung:
–
–
–
–
–
–
–
stetige Verteilung
symmetrische Dichtefunktion
S-förmige Verteilungsfunktion
Erwartungswert: E(X) = µ
Varianz: Var(X) = σ²
Maximum der Dichte bei x=µ
Wendepunkte bei x=µσ
11
Normalverteilungen
• Normalverteilung:
• Dichtefunktion (für -∞<x<+∞ und σ>0) :
1
f n (x; μ, σ ) 
2
2π 2
e
1  x μ 
 

2 σ 
2
• Verteilungsfunktion:
x
Fn (x; μ, σ ) 
2


1
2 2
e
1  v μ 
 

2 σ 
2
dv
12
Normalverteilung
• Normalverteilungen mit unterschiedlichen
Parametern
Normalverteilung
0,45
0,4
0,35
0,3
f(x)
0,25
0,2
0,15
0,1
0,05
0
-6
-4
-2
0
2
4
6
x
N(4,3)
N(0,1)
8
10
12
13
N(2,2)
Normalverteilung
• Verteilungsfunktion
Verteilungsfunktion Normalverteilung
1
0,9
0,8
0,7
F(x)
0,6
0,5
0,4
0,3
0,2
0,1
0
-4
-3
µ-3σ
-2
µ-2σ
-1
0
1
µ-σ
µ
x
µ+σ
2
µ+2σ
3
µ+3σ
4
14
Normalverteilung
• Standardnormalverteilung:
– Erwartungswert µ = 0
– Varianz σ² = 1
• Dichtefunktion:
f n (z;0,1) 
1
2π
e
1
 z2
2
15
Normalverteilung
• Standardnormalverteilung
Standardnormalverteilung
0,5
99,73%
0,45
95,45%
68,27%
0,4
0,35
f(z)
0,3
WP
0,25
WP
0,2
0,15
0,1
0,05
0
-4
-3
-2
-1
0
z
1
2
3
16
4
Normalverteilung
• Approximation durch Normalverteilung:
Mit wachsendem n nähern sich viele
theoretische Vt. der Normalverteilung
• Empirische Verteilungen lassen sich
ebenfalls oft durch die N-Vt. annähern.
17
Normalverteilung
• Reproduktionseigenschaft (od. Additivitätseigenschaft) der Normal-Vt.
• Additionstheorem der Normalverteilung:
– Die Summe (X) von n unabhängig normalverteilten
Zufallvariablen X1,…,Xn ist ebenfalls normalverteilt.
X = X1 + … + Xn
– Der Erwartungswert von X ist die Summe der einzelnen
Erwartungswerte μ1,…,μn
E(X) = μ = μ1 + … + μn
– Die Varianz von X ist die Summe der einzelnen
Varianzen σ1²,…σn²
Var(X) = σ² = σ1² + … + σn²
18
Stichproben
• Arithmetische Mittel der Stichprobe:
1 n
x   xi
n i 1
• Varianz der Stichprobe:
n
1
2
2
s 
(x i  x)

n  1 i 1
• Anteilswert P einer Stichprobe:
x
p
n
19
Stichprobenverteilung
• Verteilung des arithmetischen Mittels der
Stichprobe (Zufallsstichprobe):
– Zufallsvariable X1,…,Xn
– Konkrete Realisation: x1,…,xn
• Arithmetische Mittel:
1 n
X   Xi
n i 1
– Arithm. Mittel von ZV ist wieder eine ZV
(Funktion von n ZV)
20
Stichprobenverteilung
• Erwartungswert der Verteilung des
arithmetischen Mittels:
1 n

E( X)  E   X i   μ
 n i 1 
• Varianz der Verteilung des arithm. Mittels
1 n
 σ2
Var( X)  Var   X i  
 n i 1  n
• Standardabweichung od. Standardfehler
σ
σ X  Var( X) 
n
21
Stichprobenverteilung
• Erwartungswert u. Varianz bekannt
• Verteilung des arithm. Mittels?
• Annahme: Grundgesamtheit ist N(μ,σ²)-vt.
– Reproduktionseigenschaft der N-Vt: Summe
von n unabhängig normal-vt. ZV ist wieder n-vt
– Daher ist auch das arithm. Mittel normalverteilt
22
Grenzwertsätze
Verhalten des Mittelwert von n unabhängig
identisch verteilten (i.i.d.) ZV X1,…,Xn,
wenn n laufend erhöht wird (n→∞)
• Gesetz der Großen Zahlen
• Satz von Glivenko-Cantelli
• Zentraler Grenzwertsatz
23
Grenzwertsätze
• Gesetz der Großen Zahlen:
• Beinhaltet die Aussage, dass sich der
Mittelwert mit wachsendem n immer mehr
um den gemeinsamen Erwartungswert µ der
Xi konzentriert.
1 n

W  Xi  μ  ε  n
 0 für alle Werte ε  0

 n i 1



W X n  μ  ε n
 0

24
Grenzwertsätze
• Gesetz der Großen Zahlen:
• Beinhaltet die Aussage, dass der Wert der
empirischen Verteilungsfunktion an der
Stelle t mit wachsendem n gegen den
entsprechenden Wert der
Verteilungsfunktion von X konvergiert.
W  Sn (t)-FX (t)  ε 
 0  für alle Werte ε>0
n 
25
Grenzwertsätze
• Satz von Glivenko-Cantelli:
• Wert der empirischen Verteilungsfunktion
konvergiert an der Stelle t mit wachsendem
n gegen den entsprechenden Wert der
Verteilungsfunktion von X.


W sup Sn (t)  FX (t) n
 0   1

 t

26
Grenzwertsätze
• Zentraler Grenzwertsatz:
• Aussage über die Form der Verteilung des
Mittelwertes (standardisierte ZV Zn).
Die Verteilungsfunktion von Zn konvergiert
gegen die Standardnormalverteilung
(Φ … Vt-Fkt. der N(0,1) Vt.)
Xn  μ
Zn  n
mit E(Z n )  0 und Var(Z n )  1
σ
W(Z n  z) n
 Φ(z)

27
Grenzwertsätze
• Aus dem Zentralen Grenzwertsatz folgt: Die
Verteilung des arithm. Mittels von n unabhängig
identisch verteilten Zufallsvariablen Xi (X1,…,Xn)
strebt mit wachsendem Stichprobenumfang n
gegen eine Normalverteilung mit dem
Erwartungswert µ und Varianz σ²/n.
• Gleichbedeutend: Das arithmetische Mittel ist
„asymptotisch normalverteilt“.
• Faustregel: n > 30, N-Vt. ist gute Näherung für die
Vt. des arithmetischen Mittels der Stichprobe.
28
Stichprobenverteilung
• Verteilung der Varianz S² der Stichprobe:
• Annahme: Grundgesamtheit ist N(µ,σ²)-vt.
Xi sind n unabhängige normal-vt. ZV mit
E(Xi)=µ und Var(Xi)= σ² (i=1,…,n)
• Stichprobenvarianz S² ist eine Funktion von
n ZV Xi und somit wieder eine ZV.
n
1
2
2
S 
(X i  X)

n  1 i 1
29
Stichprobenverteilung
• Verteilung der Varianz S² der Stichprobe:
• Chi-Quadrat Verteilung mit v=n-1
Freiheitsgraden, χ²n-1
• Es gilt:
– Ist Z² = Xi² + … + Xn² (Summe von n
quadrierten unabhängigen N(0,1)-verteilten ZV
Xi), dann folgt Z² einer Chi-Quadrat Verteilung
mit v Freiheitsgraden. Anzahl der
unabhängigen ZV, die Z² bilden, nennt man
Anzahl der Freiheitsgrade.
30
Stichprobenverteilung
• χ²v Verteilung:
– Erwartungswert: E(Z²)=v
– Varianz: Var(Z²)=2v
– Mit wachsendem v nähert sich die χ²v Vt. einer
N-Vt. mit Parametern µ=v und σ²=2v.
31
Stichprobenverteilung
• Anteilswert P einer Stichprobe (P=X/n)
• 2 Modelle:
– Ziehen mit Zurücklegen
– Ziehen ohne Zurücklegen
• Bsp. Urne, N Kugeln, M schwarz, (N-M)
weiße, ziehe n Kugeln (mit bzw. ohne
Zurücklegen der gezogenen Kugeln), θ ist
die Wahrscheinlichkeit für das Ziehen einer
schwarzen Kugel.
32
Stichprobenverteilung
• Ziehen mit Zurücklegen
– Exakte Verteilung: Binomialverteilung
Wahrscheinlichkeitsfunktion der ZV X:
n x
f B (x; n, θ)   θ (1  θ)n  x
x
– Erwartungswert: E(X) = nθ
– Varianz: Var(X) = nθ(1- θ)
33
Stichprobenverteilung
• Ziehen mit Zurücklegen
– Erwartungswert des Stichprobenanteilswertes
P: E(P) = 1/n E(x) = θ
– Varianz des Stichprobenanteilswertes P:
Var(P) = 1/n² Var(X) = θ(1- θ) / n
– Standardfehler des Anteilswertes:
θ(1  θ)
σP 
n
34
Stichprobenverteilung
• Approximation durch Normalverteilung
(Faustregel: nθ(1- θ) ≥ 9)
• Erwartungswert: E(P) = µ = nθ
• Varianz: Var(P) = σP² = nθ(1- θ)
35
Stichprobenverteilung
• Ziehen ohne Zurücklegen
– Exakte Verteilung: Hypergeometrische Vt.
– Wahrscheinlichkeitsfunktion der ZV X:
 M  N  M 
 

x  n  x 

f H (x; N, n, M) 
 N
 
n
– Erwartungswert: E(X) = n M/N
– Varianz: Var(X) = nθ(1- θ) · (N-n)/(N-1)
36
Stichprobenverteilung
• Ziehen ohne Zurücklegen:
– Erwartungswert des Stichprobenanteilswertes:
E(P) = 1/n E(X) = θ
– Varianz des Stichprobenanteilswertes:
Var(P) = 1/n² Var(X) = θ(1- θ)/n · (N-n)/(N-1)
– Standardfehler des Anteilswertes:
θ(1  θ) N  n
σP 
n
N 1
– Endlichkeitskorrektur = 1 setzen, wenn n bzgl.
N sehr klein ist (Faustregel: n/N < 0,05)
37
Stichprobenverteilung
• Approximation durch Normalverteilung
µ = E(P) = θ
σ² = Var(P) = θ(1- θ)/n · (N-n)/(N-1)
38
Stichprobenverteilung
• Die Stichprobenverteilungen des
arithmetischen Mittels, der Varianz und des
Anteilswertes können also durch die
Normalverteilung approximiert werden.
39
Stichprobenverteilung
• Differenz zweier arithmetischer Mittel:
• Annahmen:
– 2 unabhängige Stichproben
– Beide Grundgesamtheiten sind annähernd N-vt
• Stichprobenverteilung der Differenz: N-Vt
– Erwartungswert:
E(D)  E( X1  X2 )  E( X1 )  E( X2 )  μ1  μ 2
– Varianz:
σ12 σ 22
Var(D)  Var( X1  X 2 )  Var( X1 )  Var( X 2 ) 

n1 n 2
40
Stichprobenverteilung
• Differenz zweier Anteilswerte:
• Annahmen:
– 2 unabhängige Stichproben
– P1, P2 annähernd n-vt. und N1, N2 so groß, dass
Endlichkeitskorrektur vernachlässigbar ist.
• Stichprobenverteilung: N-Vt
– Erwartungswert:
E(D)  E(P1  P2 )  E(P1 )  E(P2 )  θ1  θ2
– Varianz:
θ1 (1  θ1 ) θ 2 (1  θ 2 )
Var(D)  Var(P1  P2 ) 

n1
n2
41
Stichprobenverteilung
• Quotient zweier Varianzen:
• Annahmen:
– 2 unabhängige Stichproben (n1, n2)
– σ1² und σ2² aus n-vt Grundgesamtheiten
– Quotient:
2
1
2
2
2
1
2
2
S /σ
F
S /σ
42
Stichprobenverteilung
• Stichprobenverteilung: F-Verteilung mit v1
und v2 Freiheitsgraden, Fv1,v2. Für v2 > 2 gilt:
– Erwartungswert: E(F) = v2 / (v2-2)
– Varianz:
2
2v 2 (v1  v 2  2)
Var(F) 
2
v1 (v 2  2) (v 2  4)
43
Schätzverfahren
• Schluss von der Grundgesamtheit auf eine
Stichprobe: Inklusionsschluss (direkter
Schluss)
• Schluss von einer Stichprobe auf Parameter
einer Grundgesamtheit:
Repräsentationsschluss (indirekter Schluss)
• Unterscheidung:
– Punktschätzer (einziger Schätzwert)
– Intervallschätzer (Konfidenzintervall)
44
Schätzverfahren
• Punktschätzer: Für den zu schätzenden Parameter
wird nur ein einziger Schätzwert angegeben.
– Bsp. Schätze das unbekannte arithm. Mittel einer
Grundgesamtheit μ durch das arithm. Mittel der
Stichprobe x
• Vorsicht: Die in einer Stichprobe realisierten
Merkmalsausprägungen sind zufallsabhängig,
Punktschätzer stimmen daher nur in den seltensten
Fällen mit dem wahren Parameter überein.
45
Schätzverfahren
• Intervallschätzer: Ausgehend von einer
Stichprobe wird ein Intervall bestimmt, in
dem der zu schätzende Parameter der
Grundgesamtheit mit einer bestimmten
vorgegebenen Wahrscheinlichkeit liegt
(Konfidenzintervall).
• Irrtumswahrscheinlichkeit ≤ α
• Konfidenzintervall zum Niveau 1-α
(Vertrauensbereich od. Vertrauensintervall)
46
Schätzverfahren
• Ges: Konfidenzintervall für das arithm.
2
Mittel: ZV X~N(μ,σ )
• Symmetrische Wahrscheinlichkeitsintervall
X-μ
W(z α  n
 z α )  1- α
1
σ
2
2
• Symmetrie: z(α /2) = –z(1-α/2)
daher: z = –z(1-α/2) und –z = z(α /2) und
W(μ  zσ X  X  μ  zσ X )  1  α
47
Schätzverfahren
• In diesem Wahrscheinlichkeitsintervall liegt
das arithm. Mittel mit der
Wahrscheinlichkeit 1- α.
• Gesucht ist ist aber nicht das Ws-Intervall
der ZV, sondern das Konfidenzintervall für
das unbekannte arithm. Mittel µ der
Grundgesamtheit.
– Varianz σ² der Grundgesamtheit bekannt
– Varianz σ² der Grundgesamtheit unbekannt
48
Schätzverfahren
• Konfidenzintervall für µ bei bekannter
Varianz σ² der Grundgesamtheit:
x  zσ X  μ  x  zσ X 
Konkreter Stichprobenmittelwert
x
49
Schätzverfahren
• Konfidenzintervall für µ bei unbekannter
Varianz σ² der Grundgesamtheit:
• Statt der unbekannte Varianz σ² wird die
Stichprobenvarianz S² verwendet.
• Zufallsvariable:
X μ
T
S
n
T ist t- verteilt mit v=n-1 Freiheitsgraden
50
Verteilungen
• Es gilt:
– Ist T der Quotient einer Standardnormalverteilung und
der Quadratwurzel des Mittelwerts von n quadrierten
unabhängigen N(0,1)-verteilten ZV Xi, dann folgt T
einer t-Verteilung mit v=n Freiheitsgraden.
• Zufallsvariable:
T=
X0
1 n 2
Xi

n i=1
T ist t- verteilt mit v=n Freiheitsgraden T~tn
• t-Verteilung ist symmetrisch
51
Verteilungen
• t- Verteilung mit v Freiheitsgraden:
– Erwartungswert (für n>1):
E(T) = 0
– Varianz (für n>2):
Var(T) = n / (n-2)
• Für n→∞ geht die t-Verteilung in die N(0,1)
über.
• Approximation durch N(0,1)-Vt für n ≥ 30
52
Schätzverfahren
• Wahrscheinlichkeitsintervall für das arithm.
Mittel bei unbekannter Varianz:
X-μ
W(t α 
 t α )  1- α
;n-1
1- ;n-1
S
2
2
n
• Wobei t = t(1-α/2);n-1 = – t(α/2);n-1 die Punkte
sind, bei denen die Verteilungsfunktion der
t- Verteilung mit n-1 Freiheitsgraden die
Werte 1-α/2 bzw. α/2 besitzt.
53
Schätzverfahren
• Konfidenzintervall für das arithm. Mittel
bei unbekannter Varianz:
x  tσ̂ X  μ  x  tσ̂ X 
Konkreter Stichprobenmittelwert x
Konkrete Stichprobenvarianz σ̂X
54
Schätzverfahren
• Konfidenzintervall für den Anteilswert:
• Ann. genügend großer Stichprobenumfang,
d.h. Approximation durch N-Vt möglich,
E(P) = θ und Var(P) = σP²
• Standardisierte ZV:
P-θ
Z= 2
σP
55
Schätzverfahren
• Wahrscheinlichkeitsintervall:
P-θ
W(z α 
 z α )  1- α
2
P
1
2
• Konfidenzintervall:
p-zσP  θ  p+zσP 
• Ist σP unbekannt, verwendet man stattdessen
die Stichprobenvarianz des Anteilswertes
als Schätzer.
56
Schätzverfahren
• Konfidenzintervall für die Varianz
• ZV (n-1)S² / σ² ist χ² verteilt mit v=n-1
Freiheitsgraden
• Wahrscheinlichkeitsintervall:
2
(n-1)S
2
2
W(χ α 
 χ α )  1- α
;n-1
1- ;n-1
σ
P
2
2
• Konfidenzintervall: 

 (n-1)S (n-1)S 
; 2
 χ2

χ
α
 1- α2 ;n-1
;n-1 
2

2
2
57
Stichprobenumfang
• Bisher:
– Geg: Stichprobenumfang n, Sicherheitsgrad 1-α
– Ges: Konfidenzintervall
• Jetzt:
– Geg: Konfidenzintervall, Sicherheitsgrad 1-α
– Ges: Stichprobenumfang
• Absoluter Fehler Δμ = zσX ist ein Maß für
die Genauigkeit der Schätzung
• Breite des Konfidenzintervalls: 2Δμ
58
Stichprobenumfang
• Frage: Welchen Stichprobenumfang
benötigt man, um einen Parameter (arithm.
Mittel) bei vorgegebener Genauigkeit und
vorgegebenem Sicherheitsgrad zu schätzen?
zσ
n
2
(μ)
2
2
59
Eigenschaften von Schätzern
Eigenschaften von Schätzfunktionen:
• Erwartungstreue
• Effizienz
• Konsistenz
• Suffizienz
60
Eigenschaften von Schätzern
• Erwartungstreue
• Eine Schätzfunktion heißt erwartungstreu
(unverzerrt, unbiased), wenn ihr
Erwartungswert mit dem wahren Parameter
übereinstimmt.
• Bedingung: E( Θ̂)  Θ
• Es gilt:
E( X)  μ
E(S )  σ
2
2
61
Eigenschaften von Schätzern
• Effizienz:
• Von 2 erwartungstreuen Schätzfunktionen
gilt jene als effizienter (wirksamer), die die
kleinere Varianz aufweist.
• Eine Schätzfunktion heißt effizient, wenn
folgende Bedingungen erfüllt sind:
E( Θ̂)  Θ
Var( Θ̂)  Var( Θ̂ )
Θ̂* beliebige erwartungs treue Schätzfunk tion
*
62
Eigenschaften von Schätzern
• Konsistenz:
• Eine Schätzfunktion heißt konsistent, wenn
der Schätzwert bei laufender Vergrößerung
des Stichprobenumfangs (n→∞ oder n→N)
mit dem zu schätzenden Parameter
zusammenfällt.
63
Eigenschaften von Schätzern
• Suffizienz:
• Eine Schätzfunktion heißt suffizient
(erschöpfend), wenn sie sämtliche
Informationen über den zu schätzenden
Parameter, welche die Stichprobe enthält
ausschöpft.
64
Schätzverfahren
• Methode der Kleinsten Quadrat
• Maximum Likelihood
• Momentenmethode
65
Herunterladen