Vertrauensintervall für die Wahrscheinlichkeit Beispiel

Werbung
Vertrauensintervall für die
Wahrscheinlichkeit
Statistik 2
3. Vorlesung, Oktober 6, 2010
In diesem Fall für die Einzelbeobachtung
(Indikatorfunktion) σ2=p(1-p), also wir
bekommen für p die folgenden Intervall (mit
Sicherheit 1-α)

z
pˆ (1 − pˆ )
z
pˆ (1 − pˆ ) 
 pˆ − 1−α / 2

, pˆ + 1−α / 2


n
n


k
wobei pˆ = n (die relative Häufigkeit). Um diese
Approximation gültig zu sein, brauchen wir
dass n ist gross genug (n>50).
Beispiel
Stichprobenumfang
Wenn aus 100 Studenten 25 die erste Prüfung
nicht bestanden haben, was kann man als
Vertrauensintervall mit α=0,05 (α=0,01) für den
Durchfallwahrscheinlichkeit geben?
Für α=0,05: 0,25-1,96*(0,25*0,75)1/2/10=0,165;
0,25+1,96*(0,25*0,75)1/2/10=0,335; Also das
Intervall lautet: (0,165;0,335)
Für α=0,01: 0,25-2,58*(0,25*0,75)1/2/10=0,138;
0,25+2,58*(0,25*0,75)1/2/10=0,362; Also das
Intervall lautet: (0,138;0,362)
Vertrauensintervall für die
Standardabweichung
Beispiel
Wieviel Studenten sollen wir fragen, um das
95%-Vertrauensintervall für den
Durchfallwahrscheinlichkeit kürzer als 0,1 zu
haben? 1,962/0,01=384 Studenten sind nötig.
Um die Länge zu halbieren braucht man 4
Mal so viel Beobachtungen.
Für die 99%-Vertrauensintervall kürzer als
0,1 zu haben:
2,582/0,01=666 Studenten sollen gefragt
werden.
Wieder können wir die Stichprobenumfang so
wählen, dass für gegebene Sicherheit 1-α die
Intervallbreite eine gegebene Zahl d nicht
überschreitet. Dazu:
4( z1−α / 2 ) 2 pˆ (1 − pˆ )
n≥
d2
Aber p und sein Schätzer sind unbekannt bei
der Planung der Untersuchung, so man kann
eine obere Schranke wählen:
2
z
n ≥ 1−α2/ 2
d
Voraussetzung: die Beobachtungen sind Normalverteilt.
n
Man kann es bewiesen, dass
( X − X )2
∑
i
i =1
σ2
hat ein Chi-Quadrat Verteilung mit Freiheitsgrad n-1, und
davon der Konfidenzbereich:
n


 n

 ∑ (X i − X )2 ∑ (X i − X )2 

2
i =1
i =1
 = 1−α

,
P σ ∈


 h1−α / 2, n−1
hα / 2 ,n −1






wobei hα/2,n-1 und h1-α/2,n-1 sind die α/2 und 1- α/2 Quantile
der Chi-Quadrat Verteilung mit FG=n-1.
1
Statistische Testverfahren
Wir haben eine Vermutung, die wir statistisch
beweisen möchten (Sachhypothese).
Formulierung dieser Aussage: es ist die
Alternativhypothese: HA (H1).
Gegenteilige Behauptung: Nullhypothese H0.
Beispiel: In diesem Jahr haben wir höheres
Monatsumsätze, als erwartet. HA: m>m0
(wobei m0 ist die Erwartung). Die
Nullhypothese (H0) lautet: m≤m0
Test für den Mittelwert der
Normalverteilung
H0: m=m0 , σ ist bekannt (z-Test)
n ( X − m0 )
σ
ist nämlich standard normalverteilt
falls H0 ist wahr.
Sei HA: m>m0 . Wir lehnen H0 ab, falls
n ( X − m0 )
Allgemeine Testverfahren
Gleichheit („erwartete” Wert) gehört immer zur Nullhypothese.
Antwort: aufgrund der Stichprobe berechnen wir einen
Statistik, T.
Irrtumwahrscheinlichkeit α (es soll festgelegt werden,
allgemein α=0,05 oder noch kleiner) – dazu gehört eine
kritische Schranke der Testfunktion (cα).
Mögliche Entscheidungen:
H ablehnen (verwerfen) – falls |T|> cα . Es ist informativ:
0
fast sicher, dass H0 ist nicht wahr. Falls H0 ist doch wahr,
Fehler Typ I ist aufgetreten.
H annehmen (beibehalten). Es bedeutet nur, dass wir
0
haben nicht genügend Information um es wegwerfen zu
können (also es ist gar nicht sicher, dass in diesem Fall H0
ist wahr). Falls H0 ist nicht wahr: Fehler Typ II
Zweiseitige Alternative
Falls HA: m≠m0
wir lehnen H0 ab, falls
n | X − m0 |
σ
wobei z1-α/2 ist die 1-α/2 Quantil für die
Standard Normalverteilung (also der
kritische Region ist auch zweiseitig).
> z1−α
σ
wobei z1-α ist die 1-α Quantil für die Standard
Normalverteilung.
Beispiel
Wir haben die Vermutung (Alternativhypothese),
dass der tägliche Durchschnitttemperatur am
01.November hat in die letzten 25 Jahren sich
erhöht von dem früheren 7 Grad. Wir wissen,
dass die Standardabweichung beträgt 2 Grad.
Die Durchschnitt in den letzten 25 Jahren betrug
8 Grad. Können wir die Nullhypothese (m≤7) an
α=0.05 ablehnen?
Der Statistik: 5(8-7)/2=2,5.
z1-α=1,64, also
wir können HA ablehnen, der Temperatur hat
sich mit grossen Wahrscheinlichkeit erhöht.
> z1−α / 2
σ ist nicht bekannt (t-Test)
Unser Teststatistik: T = n ( X − m0 )
σˆ
wobei
∑(X − X )
n
2
i
σˆ =
i =1
n −1
es ist Student (t)-verteilt mit Freiheitsgrad n1, falls H0 ist wahr.
Sei HA: m<m0 . Wir lehnen H0 ab, falls
T<-t1-α,n-1, wobei t1-α ,n-1 ist die 1-α Quantil für
die Student-Verteilung mit Freiheitsgrad
(FG=n-1).
2
Andere Alternativen
Falls HA: m>m0
wir lehnen H0 ab, falls
Eigenschaften
n ( X − m0 )
> t1−α ,n −1
σˆ
wobei t1-α,n-1 ist die 1-α Quantil für die StudentVerteilung mit Freiheitsgrad n-1.
Falls HA: m≠m0
n | X − m0 |
> t1−α / 2, n−1
wir lehnen H0 ab, falls
σˆ
wobei t1-α/2,n-1 ist die 1-α/2 Quantil für die StudentVerteilung mit Freiheitsgrad n-1.
Test für arithmetisches Mittel
Test für arithmetisches Mittel
Bsp. mittlere Körpergröße (n = 197)
H0: µ = 173 gegen HA: µ ≠ 173, α = 0,05
Arithm. Mittel der Stichprobe: 174,44
Standardabweichung der Stichprobe: 9,26
Teststatistik
T = (174,44-173) / 9,26/√197 = 2,185
Kritische Werte: -1,96 und +1,96
p-Wert (vom Computer, die kleinste α, für den H0
wird weggeworfen): 0,0289
Mittlere Körpergröße ist signifikant ≠ 173 (weil
p<0,05).
Differenz zweier arithmetischer Mittel
die aus 2 Grundgesamtheiten stammen.
Voraussetzung:
Stichproben unabhängig
Stichproben stammen aus einer
Normalverteilte Grundgesamtheit bzw.
Approximation durch Normalverteilung ist
zulässig.
Zweistichprobentest für die Differenz
zweier arithmetischer Mittel
Test für arithmetisches Mittel
Für n>50 die t-Quantil geht in die standard
Normalquantil über. Ebenso wenn die
Verteilung der Merkmal ist unbekannt, für
n>50 kann man die z-Test für den Mittelwert
von Punkt 1 benutzen.
Oft wählt man der Stichprobenumfang so,
dass für gegebene Unterschied zwischen die
wahren m und die m0 in die Nullhypothese
der Wahrscheinlichkeit der Fehler von Typ II
nicht grösser als ein gegebenes Wert ist.
Unterscheiden sich die Mittelwerte zweier
Grundgesamtheiten?
Unterscheiden sich die Mittelwerte zweier
verbundener Stichproben?
Test für arithmetisches Mittel
Unterscheide, ob die Varianzen der beiden
Grundgesamtheiten homogen sind oder
nicht.
Varianzen verschieden, σ1² ≠ σ2² :
Teststatistik:
(X − X )
Z=
1
2
S12 S 22
+
n1 n 2
Testverteilung: Z ist asymptotisch N(0,1)
3
Test für arithmetisches Mittel
Varianzhomogenität, σ1² = σ2² = σ²:
Teststatistik:
(X 1 − X 2 )
T=
S
wobei
S=
n1 + n 2
n 1n 2
Testverteilung: T ~ tv mit v=n1+n2-2
Freiheitsgarden
Differenzen der Wertepaare: Di = X2i – X1i
sind normalverteilt mit E(Di) = µ2i - µ1i = δ
und Var(Di) =σD²
D−δ
Teststatistik:
T=
SD
n
Einstichprobentest für die Varianz:
χ2 =
∑(X
i
− X)
i =1
Hat die Varianz einen bestimmten Wert,
bzw. liegt er in einem bestimmten Bereich?
Entscheidung basiert auf dem Ergebnis
einer einzigen Stichprobe.
Zweistichprobentest für die Varianz
Unterscheiden sich die Varianzen zweier
Gruppen?
Entscheidung basiert auf zwei Stichproben
Test für Varianz
Zweistichprobentest für den Quotienten zweier
Varianzen:
Annahme: Grundgesamtheit normalverteilt
H0: σ1² = σ2² gegen H1: σ1² ≠ σ2²
Teststatistik:
∑ ( X − X ) /(n − 1)
n
2
i
σ0
F=
2
Testverteilung: χ²v mit v=n-1
Entscheidung:
Einstichprobentest für die Varianz:
Annahme: Grundgesamtheit normalverteilt
H0: σ² = σ0² gegen HA: σ² ≠ σ0²
n
Teststatistik:
2
Test für die Differenz arithmetischer
Mittel bei verbundenen Stichproben:
Testverteilung: T~tv mit v=n-1
Test für Varianz
Tritt auf, wenn z.B. die
Merkmalsausprägungen der ersten
Stichprobe und die der zweiten jeweils an
demselben Merkmalsträger erhoben
werden. Bespiel: vorher – nachher
Untersuchungen.
Test für Varianz
1 n
1 n
D = ∑ Di und SD =
∑ (Di − D)2
n i =1
n − 1 i =1
Verbundene Stichproben (abhängige
oder gepaarte Stichprobe.)
(n 1 − 1)S12 + (n 2 − 1)S 22
n1 + n 2 − 2
Test für arithmetisches Mittel
Test für arithmetisches Mittel
χ² > χ²co oder χ² < χ²cu, lehnen wir H0 ab
p-Wert (bei Computer)< α, lehne H0 ab
i =1
m
∑ (Y − Y )
i
2
/( m − 1)
i =1
Testverteilung: Fv1,v2 mit v1=n-1 und v2=m-1
Entscheidung:
F > Fco oder F < Fcu, lehnen H0 ab
p-Wert < α , lehne H0 ab
4
Herunterladen