Test für Varianz Test für Varianz Test für Varianz Die

Werbung
Test für Varianz
Statistik 2
4. Vorlesung
Einstichprobentest für die Varianz:
Zweistichprobentest für die Varianz
Test für Varianz
Einstichprobentest für die Varianz:
χ2 =
∑(X
i
− X)
i =1
σ0
Zweistichprobentest für den Quotienten zweier
Varianzen:
n
2
i
χ² > χ²co oder χ² < χ²cu, lehnen wir H0 ab
p-Wert (bei Computer)< α, lehne H0 ab
Wiederholung: zweidimensionales
Datenmaterial
n Beobachtungen, jeder hat Werte für m=2
Merkmaler, also jeder besteht aus 2
Merkmalausprägungen.
z.B. wir notieren die Grösse und das Umsatz
verschiedene Filialen (m=2).
Beobachtungswerte von Merkmal X: x1, x2,
x3,…, xn
Beobachtungswerte von Merkmal Y: y1, y2,
y3,…, yn
i =1
m
∑ (Y − Y )
i
2
/( m − 1)
i =1
Testverteilung: Fv1,v2 mit v1=n-1 und v2=m-1
Entscheidung:
Annahme: Grundgesamtheit normalverteilt
H0: σ1² = σ2² gegen H1: σ1² ≠ σ2²
Teststatistik:
∑ ( X − X ) /(n − 1)
F=
2
Testverteilung: χ²v mit v=n-1
Entscheidung:
Unterscheiden sich die Varianzen zweier
Gruppen?
Entscheidung basiert auf zwei Stichproben
Test für Varianz
Annahme: Grundgesamtheit normalverteilt
H0: σ² = σ0² gegen HA: σ² ≠ σ0²
n
Teststatistik:
2
Hat die Varianz einen bestimmten Wert,
bzw. liegt er in einem bestimmten Bereich?
Entscheidung basiert auf dem Ergebnis
einer einzigen Stichprobe.
F > Fco oder F < Fcu, lehnen H0 ab
p-Wert < α, lehne H0 ab
Die Kontingenztabelle
a1
…
am
b1
h1,1
b2
h1,2
hm,1
hm,2
…
bk
h1,k
hm,k
wobei hi,j gibt die Häufigkeit diejenige Beobachtungen,
die mit (ai,bj) identisch sind (gemeinsame Häufigkeiten).
1
Randhäufigkeiten
Unabhängigkeitshypothese
h·,k= h1,k + h2,k+…+hm,k
die Anzahl alle Beobachtungen, die bezüglich
des zweiten Merkmals die Ausprägung bk
aufweisen (auf der Kontengenztabelle kann
man diese in die letzte Zeile auftragen),
sowie hm,·= hm,1 + hm,2+…+hm,k
die Anzahl alle Beobachtungen, die bezüglich
des ersten Merkmals die Ausprägung am
aufweisen (diese sind in die letzte Spalte
aufgetragen).
Teststatistik (Chi-Quadrat
Statistik)
T =∑
wo Eij ist die erwartete
Häufigkeit der Ereignis X=ai,Y=bj unter der
Nullhypothese:
Eij = npˆ i . pˆ . j = hi.h. j / n
Die Teststatistik folgt die Chi-Quadrat
Verteilung mit Freiheitsgrad (k-1)(m-1). Die
kritische Werte kann man von der Tabelle der
Chi-Quadrat Verteilung bestimmen.
i, j
Beispiel
(hij − Eij ) 2
pil=pi•p•l (i=1,…,k; l=1,…,m) wobei
pil=P(X=ai,Y=bl) und pi•, p•l sind die
Randverteilungen: pi•= P(X=ai),
p•l=P(Y=bl).
Alternativhypothese: Unabhängigkeit gilt
nicht, also für wenigstens ein i und l
pil≠pi•p•l
Eij
E Werte
Niederschlag
Temperatur
Kühl
Durchschnittlich
Warm
Summe
wenig
durchschn.
viel
Summe
15
10
5
30
10
10
20
40
5
20
5
30
30
40
30
100
Niederschlag
Temperatur
Kühl
Durchschnittlich
Warm
Summe
wenig
durchschn.
viel
Summe
9
12
9
30
12
16
12
40
9
12
9
30
30
40
30
100
das Teststatistik ist approx. 21, FG=4, also wir können die Unabhängigkeit
verwerfen, es gibt Zusammenhang zwischen die Variablen.
Stetige Merkmale
Beispiel
Fläche
Falls wir stetige Merkmale haben, man
soll die Daten klassifizieren. Achtung:
möglichst wenig Klassen zu benutzen,
weil um die Chi-Quadrat Verteilung
anwenden zu können, man braucht
wenigstens 3-5 Beobachtungen in alle
Zellen.
KaufFläche Tageshaus (Tausend umsatz
No.
QM)
(Mio Ft)
1
51
125
2
25
54
3
13
39
4
10
24
5
120
184
6
43
58
7
59
85
8
20
75
9
36
50
10
80
85
Also für
A1: F<40,
A2: F≥40,
B1:U<60,
B2: U≥60
gross
klein
F<40
Umsatz
wenig (U<60)
4
1
5
viel
1
5
4
5
5
T=3.6,
FG=1, also wir können die
Unabhängigkeit nur beim α=0.1
verwerfen, die Nullhypothese soll man
bei α<0.1 beibehalten.
2
χ 2 Anpassung-Test
Andere Anwendung
Viele statistische Tests setzen voraus, dass
die Daten normalverteilt sind. Wir brauchen
eine Methode, um festzustellen, ob diese
Annahme über die Verteilung der Daten
korrekt ist.
Methoden:
T =∑
Visuell: das Histogramm der Daten und mit
der theoretischen Verteilungskurve optisch zu
vergleichen.
χ 2 -Test: Eine solide Methode, um empirische und
bekannte (parametrische) Verteilungen zu
vergleichen.
i
Entscheidung über die
Hypothese
Diese Anwendung ist ein Anpassungstest. Mit ihm lässt sich
prüfen, ob die beobachtete Verteilung der vorgegebenen
Verteilung entspricht.
Für jedes Intervall wird die quadrierte Differenz
der Häufigkeiten der empirischen und der theoretischen
Verteilung berechnet und durch die zu erwartenden
Häufigkeiten dividiert. Die Summe dieser relativen quadrierten
Differenzen ist die χ 2 -Testgröße.
(hi − Ei ) 2
Ei
Ei = npˆ i
Als Nullhypothese wird angenommen, dass die zwei
Verteilungen gleich und die Differenzen auf zufällige Fehler
zurückzuführen sind.
Beispiel: diskrete Verteilung
Die ungefähre Verteilung von ergibt sich aus dem
folgenden theoretischen Hilfsmittel: Wenn die
Hypothese über die Wahrscheinlichkeitsverteilung 2
zutrifft, strebt die Verteilung von T gegen eine χ k −s−1
Verteilung, wobei
k ist der Anzahl der Intervalle
s ist der Anzahl der geschätzten Parameter
Da die Hypothese verworfen wird, wenn die
Abweichungen und damit der Wert von T zu groß
ausfällt, wird der kritische Bereich für eine gegebene
Signifikanzzahl α gegeben mit
Die Ergebnisse 120 Würfeln gaben die folgenden Häufigkeiten:
Augenzahl
Haufigkeit
1
14
2
25
3
18
4
24
5
24
6
15
Die Frage: kann man die Nullhypothese (Gleichverteilung)
verwerfen?
Wert der Statistik: 6,1
k=6, s=0 (keine Parameter war geschätzt), also FG=5.
Kritische Wert: 11,07
Die Nullhypothese wird beibehalten.
T > χ 2 k−s−1,1−α
Beispiel: stetige Verteilung
0.020
0.015
0.010
Dichte
Tagesumsatz
0.005
Wir haben Beobachtungen
von Tagesumsatzwerte von
10 Filialen:
125,54,39,24,184,58,85,75,
50,85 (in M.Ft).
Die Frage: passt es an eine
Normalverteilung mit
Erwartungswert 100 und
Standardabweichung 20?
Visuelle Vergleichung:
0.000
Numerische Berechnung
0
50
100
150
10 Beobachtungen also höchstens 4 Klassen (es ist
das Minimum bei der Fall der geschätzten Parameter)
Klassenwahl aus der Theoretischen Werte, mit
gleichen erwartete Wahrscheinlichkeit:
Klassengrenzen: 100-0.67*20,100, 100+0.67*20.
Erwartete Häufigkeiten: 2.5 für alle Klassen.
Beobachtete Häufigkeiten: 8,0,0,2
T=17.2,
FG=3,
Kritische Wert: 7.81 (α=0.05), oder 13.28 (α=0.01),
also die Hypothese wird verworfen.
200
M.Ft
3
Fortsetzung
Die Koeffizienten
∑ ( x − x )( y
i
aˆ =
i
∑ ( x − x)
Wie gut ist das Modell?
Vollständige Variabilität:
n
∑(y
i
In unserem Beispiel: a=-170.2/88.8=-1.92,
b=86-(-1.92)*10=105.2
Das Verfahren ist sehr empfindlich an
ausreißer!
∑ (x
2
i
− x)
i =1
 n

Von hier das Anteil
 ∑ ( xi − x )( yi − y ) 
2
 i =1

R
=
der erklärte Variabilität:
n
n
∑ (x
i
2
− x ) 2 ∑ ( yi − y ) 2
i =1
46
44
42
Beispiel (Fortsetzung)
40
40
42
Schuhgrösse
46
R2=0.73
44
R2=0.56

n
 ∑ ( xi − x )( yi − y ) 
n
Quadratsumme n

( yi − aˆ xi − bˆ) 2 = ∑ ( yi − y ) 2 −  i =1 n
der Residuen: ∑
2
i =1
i =1
i =1
Schuhgrösse
yi
57.25
72.58
95.58
101.3
103.3
− y)2

, bˆ = y − aˆ x
2
i
38
38
Hotel-Daten vor Formel-1 Rennen, mit lin.Regr.
175
180
185
190
165
170
175
180
R2=0.92
185
190
170
175
Höhe
180
185
190
yi^ (yi-ybar)^2 (yi^-ybar)^2
57.25
1296
826.56
72.58
9
180.01
95.58
144
91.84
101.3
169
235.11
103.3
196
297.56
88.8
362.8
326.22
50
42
Daraus R2=0.9, es ist
ziemlich gut. (Nahe zur 1)
38
165
Entf (km)
yi
25
50
17
83
5
98
2
99
1
100
Xbar=10 Ybar=86
40
42
Schuhgrösse
46
R2=0.83
44
Höhe
46
Höhe
44
170
40
Schuhgrösse
165
38
(xi-xbar)(yi-ybar)
-540
-21
-60
-104
-126
-170,2
(yi-ybar)^2
1296
9
144
169
196
362,8
i =1
i =1
(xi-xbar)^2
225
49
25
64
81
88,8
− y)
i =1
n
% Besetzt
50
83
98
99
100
Ybar=86
Bestimmtheitsmass
Das Modell: y~ax+b.
Die Schätzung für die Koeffizienten:
n
Entf (km)
25
17
5
2
1
Xbar=10
100
X: Einflussfaktor
Y: abhängiges Merkmal
Beispiel:Wir haben Daten vom 5 Hotels während der
Formel 1 Rennen in Ungarn gesammelt. Distanz und
% Besetzt sind in die Tabelle dargestellt.
90
80
70
Passen die daten an eine Normalverteilung?
Hier soll man die beste Normalverteilung finden.
Schätzungen:
für den Erwartungswert: 77.9 MFt,
Für die Standardabweichung: 46.84 MFt
Klassengrenzen (wieder mit 4 Klassen, gleiche
erwartete Häufigkeiten): 77.9-2*46.84/3, 77.9,
77.9+2*46.84/3, ausgerechnet:46.7 77.9 109.1
Daraus die empirische Häufigkeiten: 2,4,2,2
T=1.2, FG=1,
Kritische Wert: 3.84 (α=0.05), oder 2.71 (α=0.1),
also die Hypothese wird beibehalten.
Anteil der besetzten Zimmer (%)
60
Regression (Wiederholung)
165
170
175
Höhe
180
185
190
(Obwohl es kann man
mit einen Quadratische Faktor
verbessern.)
5
10
15
20
25
Entfernungen (in km)
4
Verbesserung
Eigenschaften unserer Schätzer
Für den modifizierten Hotel-Modell
Entf
%
(xi-x)^2 (yi-y)^2 (xi-x)(yi-y)
(km)^2 Besetzt
625
289
25
4
1
188,8
50
83
98
99
100
86
190270
10040
26830
34151
35269
296561
1296
9
144
169
196
1814
-22140
-837
180
-78
-126
-23001
Hypothesen-Test
die Hypothese: a=0 (es ist kein
Zusammenhang mit der Distanz). HA: a≠0.
2
Teststatistik: (t-Test) t = aˆ ∑ ( xi − x )
σ̂
σˆ
2
1
x
+
n ∑ ( xi − x ) 2
=
∑( y
i
− yˆ i ) 2
n−2
=
∑( y
i
− (aˆxi + bˆ)) 2
n−2
0,643
3,165 0,2 + 35645 / 296561
also diese Hypothese können wir
annehmen.
die Hypothese: b=0
bˆ
t=
σˆ
1
x2
+
n ∑ ( xi − x ) 2
Beispiel (Hotel-Daten mit Dist2 als X)
a=-4600,2/59312,16=-0,078; b=86-188,8*(-0,078) =
=100,64
axi+b Resid^2
52.169 4.7033
78.229 22.767
98.704 0.4959
100.33 1.7767
100.57 0.3199
Summe: 30.062
Also die Schätzung für σ: 3,17,
t=-0,078*544,6/3,17=-13,4.
Es ist sicher, dass der Unterschied
zwischen die verschiedene
Buchungsanteile ist kein Zufall.
Mehrdimensionale statistische
Verfahren
H0: b=100 (kann der Konstant 100
sein?) Es ist die logische Wert. Statistik
der t-Test:
bˆ − b0
1
x2
; D(bˆ) = σ
+
n ∑ ( xi − x ) 2
Die Schätzung für σ:
σˆ =
das Freiheitsgrad ist n-2 (wir haben 2
Parameter geschätzt: a und σ).
Ablehnungsbereich (wie beim allgemeines tTest, vom Alternativ-Hypothese abhängend).
Jetzt zweiseitig. Aber für HA: a<0, t<- t1-α,n-2
t=
σ
2
∑ ( xi − x )
Fortsetzung
Andere Hypothesen
Modell: Y=aX+b+ε, wo ε ist Normal-verteilt
mit Erwartungswert 0 und St.abweichung σ
Standardabweichung der Koeffizienten der
Regressionsgerade:
D( aˆ ) =
R2 =(-23001)*(-23001)/(296561*1814)=0.983
also es ist noch besser.
a=-23001/296561=-0,0078; b=86-188,8*(-0,0078)=100.64
= 0,359
Simultane Zusammenwirken von
Zufallsvariablen wird untersucht.
Beispiele:
multiple Regressionsmodelle
Klassifizierung
usw (Faktorstrukturen,...)
5
Multiple lineare Regression
Lösung, Bedeutung, Residuen
Y: abhängiges Merkmal
X1,...,Xm: Einflussfaktoren
Regression: y~a1x1+ a2x2+...+ amxm+ b
Die Koeffizienten kann man wieder mit der methode der
kleinsten Quadrate schätzen.
Beispiel:Wir haben die Monatsumsatz, Fläche und Anzahl der
Angestellter bei ein Paar Filialen unserer Handelsfirma in die
folgenden Tabelle dargestellt
Monatsumsatz in T.Euro (Y)
Fläche in TQM (X1 )
Anzahl Angestellter (X2 )
250
40
6
265
40
8
300
54
9
230
20
10
330
40
12
Lösung mit der Methode der kleinsten
Quadrate: Y~2,56X1+12,81X2+60,48.
Bedeutung der (partiellen) Regressionskoeffizienten aj: Änderung der Zielgrösse
(Monatsumsatz), wenn Xj um eine Einheit
steigt, und die andere Einflüsse bleiben
Konstant.
n
Residuen (Schätzfehler): yi − yˆ
( yˆ i − y ) 2
∑
2
i =1
R
=
Daraus der Bestimmtheitsmass:
2
n
∑(y
i
− y)
i =1
Ergebnisse für den Beispiel
Monatsumsatz in T.Euro (Y) 250
265
300
230
330
Fläche in TQM (X1)
40
40
54
20
40
Anzahl Angestellter (X2)
6
8
9
10
12
Schätzungen
Residuen
(yi-ybar)^2
(yidach-ybar)^2
275
239.7 265.4
314 239.78 316.6
10.26 -0.36 -14.01 -9.78
13.4
625
100
625 2025 3025
6400
1243 92.93 1522 1240.4 1731
5829
R2
0.9108
6
Herunterladen