statistik_10_03_05

STATISIK
LV Nr.: 1375
SS 2005
10. März 2005
1
Normalverteilung
• Approximation durch Normalverteilung:
Mit wachsendem n nähern sich viele
theoretische Vt. der Normalverteilung
• Empirische Verteilungen lassen sich
ebenfalls oft durch die N-Vt. annähern.
2
Normalverteilung
• Reproduktionseigenschaft (od. Additivitätseigenschaft) der Normal-Vt.
• Additionstheorem der Normalverteilung:
– Die Summe (X) von n unabhängig normalverteilten
Zufallvariablen X1,…,Xn ist ebenfalls normalverteilt.
X = X1 + … + Xn
– Der Erwartungswert von X ist die Summe der einzelnen
Erwartungswerte μ1,…,μn
E(X) = μ = μ1 + … + μn
– Die Varianz von X ist die Summe der einzelnen
Varianzen σ1²,…σn²
Var(X) = σ² = σ1² + … + σn²
3
Stichproben
• Aufgabe: Aussagen über Grundgesamtheit
• Stichprobe (Kosten, Zeit, Möglichkeit)
– Zufallsstichprobe (theoretisch fundierte Aussagen über
Zuverlässigkeit der Ergebnisse sind möglich)
– Quotenstichprobe (keine theoretisch fundierten
Aussagen über die Zuverlässigkeit der Ergebnisse)
• Stpr. heißt repräsentativ, wenn ein Schluss auf
Grundgesamtheit erlaubt ist
• Stichprobe „verkleinertes Abbild“ der
Grundgesamtheit.
4
Stichproben
• Arithmetische Mittel der Stichprobe:
1 n
x   xi
n i 1
• Varianz der Stichprobe:
n
1
2
2
s 
(x i  x)

n  1 i 1
• Anteilswert P einer Stichprobe:
x
p
n
5
Stichprobenverteilung
• Verteilung des arithmetischen Mittels der
Stichprobe (Zufallsstichprobe):
– Zufallsvariable X1,…,Xn
– Konkrete Realisation: x1,…,xn
• Arithmetische Mittel:
1 n
X   Xi
n i 1
– Arithm. Mittel von ZV ist wieder eine ZV
(Funktion von n ZV)
6
Stichprobenverteilung
• Erwartungswert der Verteilung des
arithmetischen Mittels:
1 n

E( X)  E   X i   μ
 n i 1 
• Varianz der Verteilung des arithm. Mittels
1 n
 σ2
Var( X)  Var   X i  
 n i 1  n
• Standardabweichung od. Standardfehler
σ
σ X  Var( X) 
n
7
Stichprobenverteilung
• Erwartungswert u. Varianz bekannt
• Verteilung des arithm. Mittels?
• Annahme: Grundgesamtheit ist N(μ,σ²)-vt.
– Reproduktionseigenschaft der N-Vt: Summe
von n unabhängig normal-vt. ZV ist wieder n-vt
– Daher ist auch das arithm. Mittel normalverteilt
8
Grenzwertsätze
Verhalten des Mittelwert von n unabhängig
identisch verteilten (i.i.d.) ZV X1,…,Xn,
wenn n laufend erhöht wird (n→∞)
• Gesetz der Großen Zahlen
• Satz von Glivenko-Cantelli
• Zentraler Grenzwertsatz
9
Grenzwertsätze
• Gesetz der Großen Zahlen:
• Beinhaltet die Aussage, dass sich der
Mittelwert mit wachsendem n immer mehr
um den gemeinsamen Erwartungswert µ der
Xi konzentriert.
1 n

W  Xi  μ  ε  n
 0 für alle Werte ε  0

 n i 1



W X n  μ  ε n
 0

10
Grenzwertsätze
• Gesetz der Großen Zahlen:
• Beinhaltet die Aussage, dass der Wert der
empirischen Verteilungsfunktion an der
Stelle t mit wachsendem n gegen den
entsprechenden Wert der
Verteilungsfunktion von X konvergiert.
W  Sn (t)-FX (t)  ε 
 0  für alle Werte ε>0
n 
11
Grenzwertsätze
• Satz von Glivenko-Cantelli:
• Wert der empirischen Verteilungsfunktion
konvergiert an der Stelle t mit wachsendem
n gegen den entsprechenden Wert der
Verteilungsfunktion von X.


W sup Sn (t)  FX (t) n
 0   1

 t

12
Grenzwertsätze
• Zentraler Grenzwertsatz:
• Aussage über die Form der Verteilung des
Mittelwertes (standardisierte ZV Zn).
Die Verteilungsfunktion von Zn konvergiert
gegen die Standardnormalverteilung
(Φ … Vt-Fkt. der N(0,1) Vt.)
Xn  μ
Zn  n
mit E(Z n )  0 und Var(Z n )  1
σ
W(Z n  z) n
 Φ(z)

13
Grenzwertsätze
• Aus dem Zentralen Grenzwertsatz folgt: Die
Verteilung des arithm. Mittels von n unabhängig
identisch verteilten Zufallsvariablen Xi (X1,…,Xn)
strebt mit wachsendem Stichprobenumfang n
gegen eine Normalverteilung mit dem
Erwartungswert µ und Varianz σ²/n.
• Gleichbedeutend: Das arithmetische Mittel ist
„asymptotisch normalverteilt“.
• Faustregel: n > 30, N-Vt. ist gute Näherung für die
Vt. des arithmetischen Mittels der Stichprobe.
14
Stichprobenverteilung
• Verteilung der Varianz S² der Stichprobe:
• Annahme: Grundgesamtheit ist N(µ,σ²)-vt.
Xi sind n unabhängige normal-vt. ZV mit
E(Xi)=µ und Var(Xi)= σ² (i=1,…,n)
• Stichprobenvarianz S² ist eine Funktion von
n ZV Xi und somit wieder eine ZV.
n
1
2
2
S 
(X i  X)

n  1 i 1
15
Stichprobenverteilung
• Verteilung der Varianz S² der Stichprobe:
• Chi-Quadrat Verteilung mit v=n-1
Freiheitsgraden, χ²n-1
• Es gilt:
– Ist Z² = Xi² + … + Xn² (Summe von n
quadrierten unabhängigen N(0,1)-verteilten ZV
Xi), dann folgt Z² einer Chi-Quadrat Verteilung
mit v Freiheitsgraden. Anzahl der
unabhängigen ZV, die Z² bilden, nennt man
Anzahl der Freiheitsgrade.
16
Stichprobenverteilung
• χ²v Verteilung:
– Erwartungswert: E(Z²)=v
– Varianz: Var(Z²)=2v
– Mit wachsendem v nähert sich die χ²v Vt. einer
N-Vt. mit Parametern µ=v und σ²=2v.
17
Stichprobenverteilung
• Anteilswert P einer Stichprobe (P=X/n)
• 2 Modelle:
– Ziehen mit Zurücklegen
– Ziehen ohne Zurücklegen
• Bsp. Urne, N Kugeln, M schwarz, (N-M)
weiße, ziehe n Kugeln (mit bzw. ohne
Zurücklegen der gezogenen Kugeln), θ ist
die Wahrscheinlichkeit für das Ziehen einer
schwarzen Kugel.
18
Stichprobenverteilung
• Ziehen mit Zurücklegen
– Exakte Verteilung: Binomialverteilung
Wahrscheinlichkeitsfunktion der ZV X:
n x
f B (x; n, θ)   θ (1  θ)n  x
x
– Erwartungswert: E(X) = nθ
– Varianz: Var(X) = nθ(1- θ)
19
Stichprobenverteilung
• Ziehen mit Zurücklegen
– Erwartungswert des Stichprobenanteilswertes
P: E(P) = 1/n E(x) = θ
– Varianz des Stichprobenanteilswertes P:
Var(P) = 1/n² Var(X) = θ(1- θ) / n
– Standardfehler des Anteilswertes:
θ(1  θ)
σP 
n
20
Stichprobenverteilung
• Approximation durch Normalverteilung
(Faustregel: nθ(1- θ) ≥ 9)
• Erwartungswert: E(P) = µ = nθ
• Varianz: Var(P) = σP² = nθ(1- θ)
21
Stichprobenverteilung
• Ziehen ohne Zurücklegen
– Exakte Verteilung: Hypergeometrische Vt.
– Wahrscheinlichkeitsfunktion der ZV X:
 M  N  M 
 

x  n  x 

f H (x; N, n, M) 
 N
 
n
– Erwartungswert: E(X) = n M/N
– Varianz: Var(X) = nθ(1- θ) · (N-n)/(N-1)
22
Stichprobenverteilung
• Ziehen ohne Zurücklegen:
– Erwartungswert des Stichprobenanteilswertes:
E(P) = 1/n E(X) = θ
– Varianz des Stichprobenanteilswertes:
Var(P) = 1/n² Var(X) = θ(1- θ)/n · (N-n)/(N-1)
– Standardfehler des Anteilswertes:
θ(1  θ) N  n
σP 
n
N 1
– Endlichkeitskorrektur = 1 setzen, wenn n bzgl.
N sehr klein ist (Faustregel: n/N < 0,05)
23
Stichprobenverteilung
• Approximation durch Normalverteilung
µ = E(P) = θ
σ² = Var(P) = θ(1- θ)/n · (N-n)/(N-1)
24
Stichprobenverteilung
• Die Stichprobenverteilungen des
arithmetischen Mittels, der Varianz und des
Anteilswertes können also durch die
Normalverteilung approximiert werden.
25
Stichprobenverteilung
• Differenz zweier arithmetischer Mittel:
• Annahmen:
– 2 unabhängige Stichproben
– Beide Grundgesamtheiten sind annähernd N-vt
• Stichprobenverteilung der Differenz: N-Vt
– Erwartungswert:
E(D)  E( X1  X2 )  E( X1 )  E( X2 )  μ1  μ 2
– Varianz:
σ12 σ 22
Var(D)  Var( X1  X 2 )  Var( X1 )  Var( X 2 ) 

n1 n 2
26
Stichprobenverteilung
• Differenz zweier Anteilswerte:
• Annahmen:
– 2 unabhängige Stichproben
– P1, P2 annähernd n-vt. und N1, N2 so groß, dass
Endlichkeitskorrektur vernachlässigbar ist.
• Stichprobenverteilung: N-Vt
– Erwartungswert:
E(D)  E(P1  P2 )  E(P1 )  E(P2 )  θ1  θ2
– Varianz:
θ1 (1  θ1 ) θ 2 (1  θ 2 )
Var(D)  Var(P1  P2 ) 

n1
n2
27
Stichprobenverteilung
• Quotient zweier Varianzen:
• Annahmen:
– 2 unabhängige Stichproben (n1, n2)
– σ1² und σ2² aus n-vt Grundgesamtheiten
– Quotient:
2
1
2
2
S /σ
F
S /σ
2
1
2
2
28
Stichprobenverteilung
• Stichprobenverteilung: F-Verteilung mit v1
und v2 Freiheitsgraden, Fv1,v2. Für v2 > 2 gilt:
– Erwartungswert: E(F) = v2 / (v2-2)
– Varianz:
2
2v 2 (v1  v 2  2)
Var(F) 
2
v1 (v 2  2) (v 2  4)
29
Schätzverfahren
• Schluss von der Grundgesamtheit auf eine
Stichprobe: Inklusionsschluss (direkter
Schluss)
• Schluss von einer Stichprobe auf Parameter
einer Grundgesamtheit:
Repräsentationsschluss (indirekter Schluss)
• Unterscheidung:
– Punktschätzer (einziger Schätzwert)
– Intervallschätzer (Konfidenzintervall)
30
Schätzverfahren
• Punktschätzer: Für den zu schätzenden Parameter
wird nur ein einziger Schätzwert angegeben.
– Bsp. Schätze das unbekannte arithm. Mittel einer
Grundgesamtheit μ durch das arithm. Mittel der
Stichprobe x
• Vorsicht: Die in einer Stichprobe realisierten
Merkmalsausprägungen sind zufallsabhängig,
Punktschätzer stimmen daher nur in den seltensten
Fällen mit dem wahren Parameter überein.
31
Schätzverfahren
• Intervallschätzer: Ausgehend von einer
Stichprobe wird ein Intervall bestimmt, in
dem der zu schätzende Parameter der
Grundgesamtheit mit einer bestimmten
vorgegebenen Wahrscheinlichkeit liegt
(Konfidenzintervall).
• Irrtumswahrscheinlichkeit ≤ α
• Konfidenzintervall zum Niveau 1-α
(Vertrauensbereich od. Vertrauensintervall)
32
Schätzverfahren
• Ges: Konfidenzintervall für das arithm.
2
Mittel: ZV X~N(μ,σ )
• Symmetrische Wahrscheinlichkeitsintervall
X-μ
W(z α  n
 z α )  1- α
1
σ
2
2
• Symmetrie: z(α /2) = –z(1-α/2)
daher: z = –z(1-α/2) und –z = z(α /2) und
W(μ  zσ X  X  μ  zσ X )  1  α
33
Schätzverfahren
• In diesem Wahrscheinlichkeitsintervall liegt
das arithm. Mittel mit der
Wahrscheinlichkeit 1- α.
• Gesucht ist ist aber nicht das Ws-Intervall
der ZV, sondern das Konfidenzintervall für
das unbekannte arithm. Mittel µ der
Grundgesamtheit.
– Varianz σ² der Grundgesamtheit bekannt
– Varianz σ² der Grundgesamtheit unbekannt
34
Schätzverfahren
• Konfidenzintervall für µ bei bekannter
Varianz σ² der Grundgesamtheit:
x  zσ X  μ  x  zσ X 
Konkreter Stichprobenmittelwert
x
35
Schätzverfahren
• Konfidenzintervall für µ bei unbekannter
Varianz σ² der Grundgesamtheit:
• Statt der unbekannte Varianz σ² wird die
Stichprobenvarianz S² verwendet.
• Zufallsvariable:
X μ
T
S
n
T ist t- verteilt mit v=n-1 Freiheitsgraden
36
Verteilungen
• Es gilt:
– Ist T der Quotient einer Standardnormalverteilung und
der Quadratwurzel des Mittelwerts von n quadrierten
unabhängigen N(0,1)-verteilten ZV Xi, dann folgt T
einer t-Verteilung mit v=n Freiheitsgraden.
• Zufallsvariable:
T=
X0
1 n 2
Xi

n i=1
T ist t- verteilt mit v=n Freiheitsgraden T~tn
• t-Verteilung ist symmetrisch
37
Verteilungen
• t- Verteilung mit v Freiheitsgraden:
– Erwartungswert (für n>1):
E(T) = 0
– Varianz (für n>2):
Var(T) = n / (n-2)
• Für n→∞ geht die t-Verteilung in die N(0,1)
über.
• Approximation durch N(0,1)-Vt für n ≥ 30
38
Schätzverfahren
• Wahrscheinlichkeitsintervall für das arithm.
Mittel bei unbekannter Varianz:
X-μ
W(t α 
 t α )  1- α
;n-1
1- ;n-1
S
2
2
n
• Wobei t = t(1-α/2);n-1 = – t(α/2);n-1 die Punkte
sind, bei denen die Verteilungsfunktion der
t- Verteilung mit n-1 Freiheitsgraden die
Werte 1-α/2 bzw. α/2 besitzt.
39
Schätzverfahren
• Konfidenzintervall für das arithm. Mittel
bei unbekannter Varianz:
x  tσ̂ X  μ  x  tσ̂ X 
Konkreter Stichprobenmittelwert x
Konkrete Stichprobenvarianz σ̂X
40
Schätzverfahren
• Konfidenzintervall für den Anteilswert:
• Ann. genügend großer Stichprobenumfang,
d.h. Approximation durch N-Vt möglich,
E(P) = θ und Var(P) = σP²
• Standardisierte ZV:
P-θ
Z= 2
σP
41
Schätzverfahren
• Wahrscheinlichkeitsintervall:
P-θ
W(z α 
 z α )  1- α
2
P
1
2
• Konfidenzintervall:
p-zσP  θ  p+zσP 
• Ist σP unbekannt, verwendet man stattdessen
die Stichprobenvarianz des Anteilswertes
als Schätzer.
42
Schätzverfahren
• Konfidenzintervall für die Varianz
• ZV (n-1)S² / σ² ist χ² verteilt mit v=n-1
Freiheitsgraden
• Wahrscheinlichkeitsintervall:
2
(n-1)S
2
2
W(χ α 
 χ α )  1- α
;n-1
1- ;n-1
σ
P
2
2
• Konfidenzintervall: 

 (n-1)S (n-1)S 
; 2
 χ2

χ
α
 1- α2 ;n-1
;n-1 
2

2
2
43
Stichprobenumfang
• Bisher:
– Geg: Stichprobenumfang n, Sicherheitsgrad 1-α
– Ges: Konfidenzintervall
• Jetzt:
– Geg: Konfidenzintervall, Sicherheitsgrad 1-α
– Ges: Stichprobenumfang
• Absoluter Fehler Δμ = zσX ist ein Maß für
die Genauigkeit der Schätzung
• Breite des Konfidenzintervalls: 2Δμ
44
Stichprobenumfang
• Frage: Welchen Stichprobenumfang
benötigt man, um einen Parameter (arithm.
Mittel) bei vorgegebener Genauigkeit und
vorgegebenem Sicherheitsgrad zu schätzen?
zσ
n
2
(μ)
2
2
45
Eigenschaften von Schätzern
Eigenschaften von Schätzfunktionen:
• Erwartungstreue
• Effizienz
• Konsistenz
• Suffizienz
46
Eigenschaften von Schätzern
• Erwartungstreue
• Eine Schätzfunktion heißt erwartungstreu
(unverzerrt, unbiased), wenn ihr
Erwartungswert mit dem wahren Parameter
übereinstimmt.
• Bedingung: E( Θ̂)  Θ
• Es gilt:
E( X)  μ
E(S )  σ
2
2
47
Eigenschaften von Schätzern
• Effizienz:
• Von 2 erwartungstreuen Schätzfunktionen
gilt jene als effizienter (wirksamer), die die
kleinere Varianz aufweist.
• Eine Schätzfunktion heißt effizient, wenn
folgende Bedingungen erfüllt sind:
E( Θ̂)  Θ
Var( Θ̂)  Var( Θ̂ )
Θ̂* beliebige erwartungs treue Schätzfunk tion
*
48
Eigenschaften von Schätzern
• Konsistenz:
• Eine Schätzfunktion heißt konsistent, wenn
der Schätzwert bei laufender Vergrößerung
des Stichprobenumfangs (n→∞ oder n→N)
mit dem zu schätzenden Parameter
zusammenfällt.
49
Eigenschaften von Schätzern
• Suffizienz:
• Eine Schätzfunktion heißt suffizient
(erschöpfend), wenn sie sämtliche
Informationen über den zu schätzenden
Parameter, welche die Stichprobe enthält
ausschöpft.
50
Schätzverfahren
• Methode der Kleinsten Quadrat
• Maximum Likelihood
• Momentenmethode
51