Zweistichprobentest/1 Zweistichprobentest/2 Beispiel Verbundene

Werbung
Zweistichprobentest für die
Mittelwert
Statistik 2
4. Vorlesung, November 7, 2012
Zweistichprobentest für die Differenz
zweier arithmetischer Mittel
H0: µ1 = µ2 gegen HA: µ1 ≠ µ2
Zweistichprobentest/1
Zweistichprobentest/2
Differenz zweier arithmetischer Mittel
die aus 2 Grundgesamtheiten stammen.
Voraussetzung:
Stichproben unabhängig
Stichproben stammen aus einer
Normalverteilte Grundgesamtheit bzw.
Approximation durch Normalverteilung ist
zulässig.
Hat das Gewicht der Studenten in die Gruppe
verändert?
Mittelwert von Vorjahr: 60,3 kg
Mittelwert von diesem Jahr: 64,4 kg
(X1 − X 2 )
64,4 − 60,3
= 0,85
=
T=
n1 + n 2
9+9
10,2
S
81
n1n 2
Freiheitsgrad: 9+9-2=16
Kritische Wert: t0,975,16 =2,12
H0 wird nicht weggeworfen, das Unterschied kann
reiner Zufall sein.
Voraussetzung: Varianzhomogenität,
σ1² = σ2² = σ²:
(X − Y )
Teststatistik: T = n1 + n 2
S
S=
Beispiel
Unterscheiden sich die Mittelwerte zweier
Grundgesamtheiten?
Unterscheiden sich die Mittelwerte zweier
verbundener/gepaarte Stichproben?
n 1n 2
(n 1 − 1)S12 + (n 2 − 1)S 22
wobei
n1 + n 2 − 2
Testverteilung: T ~ tv mit v=n1+n2-2
Freiheitsgarden
Verbundene Stichproben
Verbundene Stichproben (abhängige oder
gepaarte Stichprobe.)
Tritt auf, wenn z.B. die Merkmalsausprägungen
der ersten Stichprobe und die der zweiten
jeweils an demselben Merkmalsträger erhoben
werden. Bespiel: vorher – nachher
Untersuchungen.
Test für die Differenz arithmetischer Mittel
bei verbundenen Stichproben: die
Nullhypothese lautet µ2 - µ1 = δ
1
Verbundene Stichproben/2
Unter H0 die Differenzen der Wertepaare:
Di = Xi –
E(Di) = µ2 - µ1 = δ
Yi sind normalverteilt mit
Var(Di) =σD² ist unbekannt
Teststatistik:
D−δ
T=
Test für Varianz
SD
n
1 n
1 n
D = ∑ Di und SD =
∑ (Di − D)2
n i =1
n − 1 i =1
Einstichprobentest für die Varianz:
Zweistichprobentest für die Varianz
Testverteilung: T~tv mit v=n-1
Test für Varianz
Einstichprobentest für die Varianz:
χ2 =
∑(X
i
− X)
i =1
Zweistichprobentest für den Quotienten zweier
Varianzen:
F=
χ² > χ²co oder χ² < χ²cu, lehnen wir H0 ab
p-Wert (bei Computer)< α, lehne H0 ab
Wiederholung: zweidimensionales
Datenmaterial
n Beobachtungen, jeder hat Werte für m=2
Merkmaler, also jeder besteht aus 2
Merkmalausprägungen.
z.B. wir notieren die Grösse und das Umsatz
verschiedene Filialen (m=2).
Beobachtungswerte von Merkmal X: x1, x2,
x3,…, xn
Beobachtungswerte von Merkmal Y: y1, y2,
y3,…, yn
i =1
m
∑ (Y − Y )
i
2
/( m − 1)
i =1
Testverteilung: Fv1,v2 mit v1=n-1 und v2=m-1
Entscheidung:
Annahme: Grundgesamtheit normalverteilt
H0: σ1² = σ2² gegen
H1: σ1² ≠ σ2²
n
Teststatistik:
∑ ( X i − X ) 2 /(n − 1)
σ 02
Testverteilung: χ²v mit Freiheitsgrad v=n-1
Entscheidung:
Unterscheiden sich die Varianzen zweier
Gruppen?
Entscheidung basiert auf zwei Stichproben
Test für Varianz
Annahme: Grundgesamtheit normalverteilt
H0: σ² = σ0² gegen HA: σ² ≠ σ0²
n
Teststatistik:
2
Hat die Varianz einen bestimmten Wert,
bzw. liegt es in einem bestimmten Bereich?
Entscheidung basiert auf dem Ergebnis
einer einzigen Stichprobe.
F > Fco oder F < Fcu, lehnen H0 ab
p-Wert < α, lehne H0 ab
Die Kontingenztabelle
a1
…
am
b1
h1,1
b2
h1,2
hm,1
hm,2
…
bk
h1,k
hm,k
wobei hi,j gibt die Häufigkeit diejenige Beobachtungen,
die mit (ai,bj) identisch sind (gemeinsame Häufigkeiten).
2
Randhäufigkeiten
Unabhängigkeitshypothese
h·,k= h1,k + h2,k+…+hm,k
die Anzahl alle Beobachtungen, die bezüglich
des zweiten Merkmals die Ausprägung bk
aufweisen (auf der Kontengenztabelle kann
man diese in die letzte Zeile auftragen),
sowie hm,·= hm,1 + hm,2+…+hm,k
die Anzahl alle Beobachtungen, die bezüglich
des ersten Merkmals die Ausprägung am
aufweisen (diese sind in die letzte Spalte
aufgetragen).
Teststatistik (Chi-Quadrat
Statistik)
T =∑
pil=pi•p•l (i=1,…,k; l=1,…,m) wobei
pil=P(X=ai,Y=bl) und pi•, p•l sind die
Randverteilungen: pi•= P(X=ai),
p•l=P(Y=bl).
Alternativhypothese: Unabhängigkeit gilt
nicht, also für wenigstens ein i und l
pil≠pi•p•l
Beispiel
(hij − Eij ) 2
wo Eij ist die erwartete Häufigkeit der
Ereignis X=ai,Y=bj unter der Nullhypothese:
i, j
Eij
Eij = npˆ i. pˆ . j = hi. h. j / n
Die Teststatistik folgt die Chi-Quadrat Verteilung mit
Freiheitsgrad (k-1)(m-1). Die kritische Werte kann man
von der Tabelle der Chi-Quadrat Verteilung bestimmen.
Falls wir stetige Merkmale haben, man soll die Daten
klassifizieren. Achtung: möglichst wenig Klassen zu
benutzen, weil um die Chi-Quadrat Verteilung anwenden
zu können, man braucht wenigstens 3-5 Beobachtungen
in alle Zellen.
E Werte
wenig
durchschn.
viel
Summe
15
10
5
30
10
10
20
40
5
20
5
30
30
40
30
100
Niederschlag
Temperatur
Kühl
Durchschnittlich
Warm
Summe
wenig
durchschn.
viel
Summe
9
12
9
30
12
16
12
40
9
12
9
30
30
40
30
100
das Teststatistik ist approx. 21, FG=4, also wir können die Unabhängigkeit
verwerfen, es gibt Zusammenhang zwischen die Variablen.
Andere Anwendung
Beispiel
Fläche
KaufFläche Tageshaus (Tausend umsatz
No.
QM)
(Mio Ft)
1
51
125
2
25
54
3
13
39
4
10
24
5
120
184
6
43
58
7
59
85
8
20
75
9
36
50
10
80
85
Niederschlag
Temperatur
Kühl
Durchschnittlich
Warm
Summe
Also für
A1: F<40,
A2: F≥40,
B1:U<60,
B2: U≥60
gross
klein
F<40
Umsatz
wenig (U<60)
4
1
5
viel
1
5
4
5
5
T=3.6,
FG=1, also wir können die
Unabhängigkeit nur beim α=0.1
verwerfen, die Nullhypothese soll man
bei α<0.1 beibehalten.
Viele statistische Tests setzen voraus, dass
die Daten normalverteilt sind. Wir brauchen
eine Methode, um festzustellen, ob diese
Annahme über die Verteilung der Daten
korrekt ist.
Methoden:
Visuell: das Histogramm der Daten und mit
der theoretischen Verteilungskurve optisch zu
vergleichen.
χ 2 -Test: Eine solide Methode, um empirische und
bekannte (parametrische) Verteilungen zu
vergleichen.
3
Entscheidung über die
Hypothese
2
χ Anpassung-Test
Als Nullhypothese wird angenommen, dass die zwei
Verteilungen gleich und die Differenzen auf zufällige
Fehler zurückzuführen sind.
T > χ 2 k −s−1,1−α
Beispiel: stetige Verteilung
Die Ergebnisse 120 Würfeln gaben die folgenden Häufigkeiten:
Augenzahl
Haufigkeit
1
14
2
25
3
18
4
24
5
24
6
15
Die Frage: kann man die Nullhypothese (Gleichverteilung)
verwerfen?
Wert der Statistik: 6,1
k=6, s=0 (keine Parameter war geschätzt), also FG=5.
Kritische Wert: 11,07
Die Nullhypothese wird beibehalten.
Wir haben Beobachtungen
von Tagesumsatzwerte von
10 Filialen:
125,54,39,24,184,58,85,75,
50,85 (in M.Ft).
Die Frage: passt es an eine
Normalverteilung mit
Erwartungswert 100 und
Standardabweichung 20?
Visuelle Vergleichung:
Tagesumsatz
0.020
Beispiel: diskrete Verteilung
Dichte
Ei = npˆ i
0.015
i
(hi − Ei ) 2
Ei
Die ungefähre Verteilung von ergibt sich aus dem
folgenden theoretischen Hilfsmittel: Wenn die
Hypothese über die Wahrscheinlichkeitsverteilung 2
zutrifft, strebt die Verteilung von T gegen eine χ k −s−1
Verteilung, wobei
k ist der Anzahl der Intervalle
s ist der Anzahl der geschätzten Parameter
Da die Hypothese verworfen wird, wenn die
Abweichungen und damit der Wert von T zu groß
ausfällt, wird der kritische Bereich für eine gegebene
Signifikanzzahl α gegeben mit
0.010
T =∑
0.005
Diese Anwendung ist ein Anpassungstest. Mit ihm lässt
sich prüfen, ob die beobachtete Verteilung der
vorgegebenen Verteilung entspricht.
Für jedes Intervall wird die quadrierte Differenz
der Häufigkeiten der empirischen und der theoretischen
Verteilung berechnet und durch die zu erwartenden
Häufigkeiten dividiert.
Die Summe dieser relativen
χ2
quadrierten Differenzen ist die -Testgröße.
0.000
0
50
100
150
200
M.Ft
Numerische Berechnung
10 Beobachtungen also höchstens 4 Klassen (es ist
das Minimum bei der Fall der geschätzten Parameter)
Klassenwahl aus der Theoretischen Werte, mit
gleichen erwartete Wahrscheinlichkeit:
Klassengrenzen: 100-0.67*20,100, 100+0.67*20.
Erwartete Häufigkeiten: 2.5 für alle Klassen.
Beobachtete Häufigkeiten: 8,0,0,2
T=17.2,
FG=3,
Kritische Wert: 7.81 (α=0.05), oder 13.28 (α=0.01),
also die Hypothese wird verworfen.
Fortsetzung
Passen die daten an eine Normalverteilung?
Hier soll man die beste Normalverteilung finden.
Schätzungen:
für den Erwartungswert: 77.9 MFt,
Für die Standardabweichung: 46.84 MFt
Klassengrenzen (wieder mit 4 Klassen, gleiche
erwartete Häufigkeiten): 77.9-2*46.84/3, 77.9,
77.9+2*46.84/3, ausgerechnet:46.7 77.9 109.1
Daraus die empirische Häufigkeiten: 2,4,2,2
T=1.2, FG=1,
Kritische Wert: 3.84 (α=0.05), oder 2.71 (α=0.1),
also die Hypothese wird beibehalten.
4
Herunterladen