Standard Normalverteilung Normalverteilung Grenzwertsatz

Werbung
Standard Normalverteilung
Statistik 2
2. Vorlesung, September 22, 2010
für die Standard
Normal Verteilung
f(x)
0.4
0.3
Der Erwartungswert:
„mittlere Wert”
∞
E ( X ) = ∫ xf ( x)dx =0
0.2
Dichtefunktion von Standard Normal Verteilung
−∞
Die Varianz:
0.1
∞
Var ( X ) =
∫ (x − E ( X ))
2
∞
f ( x ) dx =
−∞
∫x
2
f ( x )dx − (E ( X ) ) = 1
2
−∞
0.0
für die Standard
Normal Verteilung
-4
-2
0
2
4
x
Normalverteilung
Grenzwertsatz
Diese sind alle
symmetrische Funktionen
Parametern: (µ,σ)=
(Erwartungswert, Streuung)
Die Summe von
unabhängigen normalverteilten Zufallsvariablen
ist wieder normalverteilt.
Erwartungswert:
m=m1+...+mn.
Varianz: σ2=σ12+...+σn2.
Wenn Yn ist die Summe von unabhängigen, identisch
verteilten Zufallsvariablen: Yn=X1+...+Xn
Z n :=
X 1 + ... + X n − nm
nσ
E(Xi)=m, D(Xi)=σ dann für die standardisierte
Variable Zn :
 X + ... + X n − nm

< z  → Φ( z )
P 1
nσ


also die Verteilung von Zn kann man mit der Standard
Normal Verteilung nähern, falls n ist gross genug.
Ebenso, die Verteilung von Yn kann man mit der
Normalverteilung nähern.
0.0
5
Dichtefunktion von Chi-Quadrat Verteilungen
0.5
Chi-Quadrat Verteilung:
die Quadratsumme von n,
unabhängigen standard
normal verteilten
Zufallsvariablen
0.4
für Merkmale, die durch mehrere additive Faktoren
beeinflusst sind: Körpergrösse, Füllgewicht eines
Zuckertütes, Intelligenzquotient, Benzinverbrauch
usw.
Aber nicht alle Zufallsgrössen sind Normalverteilt:
Lebensdauer, Einkommen usw. sind linkssteil (nicht
symmetrisch) und so nicht Normalverteilt.
Aber wenn man Durchschnitt bildet von n solche
Zufallsgrössen, dann wegen den Grenzwertsatz es
liegt nahe zur Normal Verteilung.
n>30 ist im allgemein gross genug zu einen guten
Approximation.
n=2
n=4
n=8
0.3
Andere wichtige Verteilungen:
f(x)
Anwendungen
Dichtefunktion:
Linkssteil, nicht symmetrisch
Wahrscheinlichkeitsrechnung
mit Tabelle
Erwartungswert: m=n
Varianz: σ2=2n.
0.2
0
0.1
-5
0.0
f(x)
(0,2)
(1,2)
(0,0.5)
0.2
0.4
0.6
0.8
Dichtefunktion von verschiedene Normal Verteilungen
0
5
10
15
x
1
Student-Verteilung
(t-Verteilung)
Schliessende (Induktive) Statistik
Dichtefunktion von verschiedene Student-Verteilungen
0.4
die Verteilung von
t,n=2
t,n=5
t,n=10
Std.Norm
nX0
f(x)
Diese sind alle symmetrische
Funktionen.
0.2
0.3
2
0.1
2
X 1 + ... + X n
wo X0, X1,...,Xn sind
unabhängige, standard
normal verteilte Zufallsvariable.
0.0
Als n→∞, die Student-Verteilung
nähert die Standard Normal Verteilung. -4
-2
0
2
Die wahren Parameter der Grundgesamtheit sind unbekannt (vielleicht weisst man auch die Verteilung nicht)
Fragen:
Was sind die Werte diesen Parametern?
Antwort: aufgrund der Stichprobe (Schätzen), aber es
gibt nur ein Näherungswert. Wichtig: der Fehler zu
quantifizieren. Methoden: Punktschätzen,
Konfidenzintervalle (Intervallschätzen).
Sind unsere Hypothese wahr? (z.B läuft das Produktion
plangemäss, also haben unsere Waren die gewünschte
Eigenschaften?) Antwort: durch Hypothesen-Tests.
4
x
Wahrscheinlichkeitsrechnung mit Tabelle
Vergleich
Deskriptive Statistik
(beschreibende Statistik)
Beschreibung und
Zusammenfassung
Darstellung von Daten
(Tabellen u. Grafiken)
Kennzahlen (z.B.
Mittelwerte, Streuungsmaße)
Einführung
Induktive Statistik
(schließende Statistik)
Von Stichproben auf
Grundgesamtheiten
Schätzer
Tests
Entscheidungstheorie
Statistisches Schätzen
Bestimmung (Näherungsweise) der Parameter θ der
Verteilung der Grundgesamtheit aus der Stichprobe
X1,...,Xn . (Man kann es als eine Reihe von
Zufallsvariablen betrachten)
Beispiele für Parameter:
Erwartungswert,
Standardabweichung,
Quantile usw.
Schätzfunktion: auch eine Zufallsvariable
Schätzwert: Näherungswert, bestimmt aus der
Stichprobenwerten.
Grundgesamtheit: davon möchten wir möglichst
genaue Ergebnisse bekommen durch eine
repräsentative Stichprobe.
Auswahl der Stichprobe: Zufallsexperiment, also die
beobachtete Merkmalausprägung ist ein Wert von
eine Zufallsvariable X.
Parametern der Grundgesamtheit sind also die
Parametern die Verteilung von X (z.B. Erwartungswert, Varianz oder die Wahrscheinlichkeit P(X<x)).
Falls n Einheiten sind zufällig ausgewählt: X1,...,Xn
sind unabhängig und identisch verteilt (Realisationen:
x1,...,xn sind die Werte der konkreten Stichprobe).
Eigenschaften der
arithmetischen Mittel
für alle Fälle wo die n Stichprobenelemente
haben die selbe Verteilung und sind
unabhängig:
E ( X ) = m,Var ( X ) = σ 2 / n
Standardabweichung (Standardfehler):
D( X ) = σ / n
Korrektur für Stichproben aus endliche
Grundgesamtheit (mit Umfang N):
E ( X ) = m,Var ( X ) =
σ 2 ( N − n)
n( N − 1)
2
Gütekriterien
Schätzer für die Varianz
Erwartungstreuheit: für alle mögliche
Parameterwerte im Durchschnitt bekommen wir den
schätzenden Parameter.
Konsistenz: mit zunehmender Stichprobenumfang
der Parameter wird immer genauer nähert.
Effizienz: der kleinste Varianz zwischen alle
Erwartungstreuen Schätzer.
n
σˆ =
2
σˆ =
Schätzer für die
Wahrscheinlichkeit
n
∑(X
i
− X )2
i =1
n −1
Beide sind aber konsistent, und das Differenz
zwischen die beiden Schätzer nähert 0 als n immer
grösser wird.
Allgemeine Methode:
Likelihood Funktion
Wie kommt man zu einen Schätzer?
Beispiel: die Wahrscheinlichkeit von einer Ereignis A.
Falls P(A)=p, man hat als Verteilung der Erfolge
X 1 + ... + X n
n
wo Xi ist 1, falls wir bei der Stichprobenelement Nummer i das
Ereignis A beobachteten (ansonsten ist Xi=0).
Beispiel: aus 100 Kunden in unserem Geschäft haben 15
wirklich was gekauft. Davon bekommen wir
Deren Varianz ist
 n
 n
P ∑ X i = k  =   p k (1 − p ) n − k
 k 
 i =1
pˆ = X = 15%
Wir betrachten es jetzt als eine Funktion von p
(Likelihood Funktion).
p (1 − p ) / n
und der Grenzwertsatz sichert wieder, dass der Schätzer ist
wenigstens nahe zur Normalverteilung.
die Verteilung der
Grundgesamtheit
Maximum Likelihood Schätzer
li k e l i h o o d f ü g g v é n y , n = 1 0 0
Wir suchen
diejeniges p,
für welchen die
Likelihood-Funktion
maximal ist.
l i k e li h o o d f ü g g v é n y , n = 2 0
y
0.2
0.3
k = 1 , m a x = 0 .0 5
k = 5 ,m a x = 0 .2 5
k = 1 0 ,m a x = 0 .5
0.1
0.0
X 1 + ... + X n
n
0 .05
y
0.1 0
0.1 5
k = 5 , m a x = 0 .0 5
k = 2 5 ,m a x = 0 .2 5
k = 5 0 ,m a x = 0 .5
0 .00
Man kann es
mathematisch
beweisen, dass
die Lösung lautet
pˆ = X =
− X )2
Schätzer für die Wahrscheinlichkeit von einer Ereignis A:
pˆ = X =
i
i =1
n
2
ist erwartungstreu und konsistent für die
Erwartungswert. In die meissten Fällen (d.H. für die
Verteilung der Grundgesamtheit) es ist auch effizient.
∑(X
ist nicht erwartungstreu, also man soll die korrigierte
Version anwenden (es ist erwartungstreu):
θˆ = X
Die bis jetzt benutzter Schätzer:
0 .0
0 .2
0 .4
0 .6
x
0 .8
1 .0
0 .0
0 .2
0 .4
0 .6
0 .8
Falls wir einen Idee haben, welche
Verteilung (z.B. Normal, Gamma,...)
unser Grundgesamtheit beschreibt, wir
können deren Parametern schätzen,
und so die Verteilung bestimmen.
Daraus können wir die für uns
interessante Wahrscheinlichkeiten
nähern.
1 .0
x
3
falls wir die relative Häufigkeit als Schätzer
anwenden.
Aber man kann die Daten mit verschiedene
Verteilungen nähern, und davon können wir es
versuchen, z.B. eine Normalverteilung mit diesen
Parametern anzuwenden. Auch andere Verteilungen
sind möglich, z.B. die Gamma Verteilung.
Eigenschaften der Varianz
Damit können wir Schätzer für die Wahrscheinlichkeit
grossen Differenzen von der Erwartungswert
bekommen:
P(|X-EX| ≥ ε)≤Var(X) /ε2 (Tschebischev’sche
Ungleichung)
Beispiele: Falls E=100, Standardabweichung=20,
dann P(|X-100| ≥ 40)≤400 /1600=1/4.
P(|X-100| ≥ 60)≤400 /3600=1/9.
Für unsere Schätzer: man kann die nötige
Stichprobenumfang bestimmen um eine gegebene
Genauigkeit zu erreichen.
Bootstrap
0.012
0.008
Dichte
0.010
36133
= 85
5
Daraus können wir die
Verteilungen bestimmen.
Rot: Normal
Blau: Gamma
P(X>300)=1.5%
P(X>300)=4%
Aus diesen Modellen bekommen 0
wir einen realistischeren Antwort.
0.006
pˆ = 0
x = 116,7; σˆ =
0.004
was ist das Anteil diejenige Arbeitnehmer, die mehr
als 300 TFt pro Monat verdienen? Falls wir haben
eine Stichprobe: 50, 60, 80, 100, 130, 280 (TFt) davon sehen wir, das
0.002
Monatsgehalt-verteilung
Beispiel/2
0.000
Beispiel
100
200
300
400
500
TFt
Beispiel
pˆ = X = 15%
Var ( pˆ ) = p (1 − p ) / n
ˆ
Also für n=100 wir haben Var=0,001275. Ep
Daraus
=p
P (| pˆ − p |> 0,1) ≤ 0,001275 / 0,01 = 12,75%
Nicht sehr genau (aber sicher). Wir bekommen
Pünktlichere Ergebnisse, wenn wir die Verteilung unser
Schätzer auch betrachten. Für die selbe Differenz,
aufgrund der Normalverteilung:
P (| pˆ − p |> 0,1) ≈ P(| Z |> 0,1 / 0,035) = 0,5%
Bootstrap-Beispiel
Schaetzungen aufgrund der bootstrap Stichproben
100
Die beobachtete
Wahrscheinlichkeit für
Insgesamt: 1%, also ein
wenig grösser als das
Ergebnis durch die
Normalverteilung.
Frequency
60
40
P ( pˆ > 25%) = 0.8%
80
P ( pˆ < 5%) = 0.2%
20
Falls wir können die Verteilung unser
Schätzer nicht bestimmen, können wir eine
Simulationstechnik anwenden:
Nehmen wir mehrere Stichproben aus unser
Stichprobe (mit Zurücklegen, und mit dem
selben Umfang als die originale). Wenn wir
die Schätzung für diese „Bootstrap”
Stichproben ausrechnen, bekommen wir eine
Näherung zu der Verteilung unser Schätzer .
0
0.05
0.10
0.15
0.20
0.25
0.30
p
4
Intervallschätzung
Die wahren Parameter der
Grundgesamtheit sind unbekannt
Antwort: aufgrund der Stichprobe
geben wir ein Schätzwert, aber es ist
nur ein Näherungswert. Wichtig: den
Fehler zu quantifizieren.
Dazu braucht man die Eigenschaften
(die Verteilung) der Schätzungen.
Verteilung der Schätzer für die
Mittelwert der Normalverteilung
1. σ ist bekannt
Falls σ sei bekannt, wir können die Verteilung
unseren Schätzfunktion X genau bestimmen: es hat
Normalverteilung mit Parametern
(m,σ / n). Daraus folgt, dass wir können den
Unterschied zwischen unsere Schätzung und den
wahren Parameter schätzen. Aber dessen
Eigenschaften hängen von n und σ ab, also es ist
einfacher die standardisierte Version:
n ( X − m)
σ
zu benutzen.
Vertrauensintervall
Es ist nämlich standard Normalverteilt, also z.B. man
weisst, dass

P


n ( X − m)
σ

> 2  ≈ 0,05


Daraus kann man ein Vertrauensintervall
(Konfidenzintervall) für m konstruieren:


2σ
2σ  
P m ∈  X −
,X +
  ≈ 0,95
n
n  


Interpretation
natürlich geht es ebenso, generell für Sicherheit 1-α:

z
z
σ
σ 

P m ∈  X − 1−α / 2 , X + 1−α / 2   = 1 − α
n
n 


wenn man mit vielen Stichproben die
selben m Schätzt, wird m in 100(1-α)
Prozent aller Fälle in diesen Intervall
liegen.
Korrektur für Stichproben aus endlichen
Grundgesamtheit (mit Umfang N):


σ
z
P m ∈  X − 1−α / 2

n


σ
z
N −n
, X + 1−α / 2
N −1
n
N − n  
 = 1−α
N − 1  
Vertrauensintervall mit
Falls σ ist nicht bekannt
n
σˆ 2 =
In diesem Fall können wir die Verteilung unseren
Schätzfunktion nicht genau bestimmen, wir müssen
dazu auch noch die Varianz (und daraus die
Standardabweichung) schätzen:
∑ ( X i − X )2
i =1
n
∑ ( X i − X )2
σˆ = i =1
n −1
n −1
Die Standardisierung:
n ( X − m)
σˆ
Es ist nicht mehr standard Normalverteilt, sondern
Student (t)-verteilt.
Deckungswahrscheinlichkeit 1-α

t
t
σˆ
σˆ  

P m ∈  X − 1−α / 2,n−1 , X + 1−α / 2,n−1   = 1 − α
n
n



Für n>50 die t-Quantil geht in die standard
Normalquantil über. Ebenso wenn die Verteilung der
Merkmal ist unbekannt, für n>50 kann man die
Konfidenzbereich für die Mittelwert von Punkt 1 (σ
bekannt) benutzen.
Oft wählt man der Stichprobenumfang so, dass für
gegebene Sicherheit 1-α die Intervallbreite eine
gegebene Zahl d nicht überschreitet. Dazu:
4( z1−α / 2 ) 2 σ 2
n≥
(Fall 1: σ soll bekannt sein)
2
d
5
Herunterladen