Die Kontingenztabelle Randhäufigkeiten

Werbung
Wiederholung: zweidimensionales
Datenmaterial
Statistik 2
4. Vorlesung
Die Kontingenztabelle
a1
…
am
b1
h1,1
b2
h1,2
hm,1
hm,2
…
bk
h1,k
hm,k
Randhäufigkeiten
wobei hi,j gibt die Häufigkeit diejenige Beobachtungen,
die mit (ai,bj) identisch sind (gemeinsame Häufigkeiten).
Unabhängigkeitshypothese
pil=pi•p•l (i=1,…,k; l=1,…,m) wobei
pil=P(X=ai,Y=bl) und pi•, p•l sind die
Randverteilungen: pi•= P(X=ai),
p•l=P(Y=bl).
Alternativhypothese: Unabhängigkeit gilt
nicht, also für wenigstens ein i und l
pil≠pi•p•l
n Beobachtungen, jeder hat Werte für m=2
Merkmaler, also jeder besteht aus 2
Merkmalausprägungen.
z.B. wir notieren die Grösse und das Umsatz
verschiedene Filialen (m=2).
Beobachtungswerte von Merkmal X: x1, x2,
x3,…, xn
Beobachtungswerte von Merkmal Y: y1, y2,
y3,…, yn
h·,k= h1,k + h2,k+…+hm,k
die Anzahl alle Beobachtungen, die bezüglich
des zweiten Merkmals die Ausprägung bk
aufweisen (auf der Kontengenztabelle kann
man diese in die letzte Zeile auftragen),
sowie hm,·= hm,1 + hm,2+…+hm,k
die Anzahl alle Beobachtungen, die bezüglich
des ersten Merkmals die Ausprägung am
aufweisen (diese sind in die letzte Spalte
aufgetragen).
Teststatistik (Chi-Quadrat
Statistik)
T =∑
(hij − Eij ) 2
wo Eij ist die erwartete
Eij
i, j
Häufigkeit der Ereignis X=ai,Y=bj unter der
Nullhypothese:
Eij = npˆ i. pˆ . j = hi. h. j / n
Die Teststatistik folgt die Chi-Quadrat
Verteilung mit Freiheitsgrad (k-1)(m-1). Die
kritische Werte kann man von der Tabelle der
Chi-Quadrat Verteilung bestimmen.
1
Beispiel
E Werte
Stetige Merkmale
Niederschlag
Temperatur
Kühl
Durchschnittlich
Warm
Summe
wenig
durchschn.
viel
Summe
15
10
5
30
10
10
20
40
5
20
5
30
30
40
30
100
Niederschlag
Temperatur
Kühl
Durchschnittlich
Warm
Summe
wenig
durchschn.
viel
Summe
9
12
9
30
12
16
12
40
9
12
9
30
30
40
30
100
Falls wir stetige Merkmale haben, man
soll die Daten klassifizieren. Achtung:
möglichst wenig Klassen zu benutzen,
weil um die Chi-Quadrat Verteilung
anwenden zu können, man braucht
wenigstens 3-5 Beobachtungen in alle
Zellen.
das Teststatistik ist approx. 21, FG=4, also wir können die Unabhängigkeit
verwerfen, es gibt Zusammenhang zwischen die Variablen.
Beispiel
Andere Anwendung
Fläche
KaufFläche Tageshaus (Tausend umsatz
No.
QM)
(Mio Ft)
1
51
125
2
25
54
3
13
39
4
10
24
5
120
184
6
43
58
7
59
85
8
20
75
9
36
50
10
80
85
Also für
A1: F<40,
A2: F≥40,
B1:U<60,
B2: U≥60
gross
klein
F<40
Umsatz
wenig (U<60)
4
1
5
viel
1
5
4
5
5
T=3.6,
FG=1, also wir können die
Unabhängigkeit nur beim α=0.1
verwerfen, die Nullhypothese soll man
bei α<0.1 beibehalten.
χ 2 Anpassung-Test
Diese Anwendung ist ein Anpassungstest. Mit ihm lässt
sich prüfen, ob die beobachtete Verteilung der
vorgegebenen Verteilung entspricht.
Für jedes Intervall wird die quadrierte Differenz
der Häufigkeiten der empirischen und der theoretischen
Verteilung berechnet und durch die zu erwartenden
Häufigkeiten dividiert. Die Summe
dieser relativen
2
quadrierten Differenzen ist die χ -Testgröße.
T =∑
i
(hi − Ei ) 2
Ei
Ei = npˆ i
Als Nullhypothese wird angenommen, dass die zwei
Verteilungen gleich und die Differenzen auf zufällige
Fehler zurückzuführen sind.
Viele statistische Tests setzen voraus, dass
die Daten normalverteilt sind. Wir brauchen
eine Methode, um festzustellen, ob diese
Annahme über die Verteilung der Daten
korrekt ist.
Methoden:
Visuell: das Histogramm der Daten mit
der theoretischen Verteilungskurve optisch zu
vergleichen.
χ 2 -Test: Eine solide Methode, um empirische und
bekannte (parametrische) Verteilungen zu
vergleichen.
Entscheidung über die
Hypothese
Die ungefähre Verteilung von ergibt sich aus dem
folgenden theoretischen Hilfsmittel: Wenn die
Hypothese über die Wahrscheinlichkeitsverteilung 2
zutrifft, strebt die Verteilung von T gegen eine χ k −s−1
Verteilung, wobei
k ist der Anzahl der Intervalle
s ist der Anzahl der geschätzten Parameter
Da die Hypothese verworfen wird, wenn die
Abweichungen und damit der Wert von T zu groß
ausfällt, wird der kritische Bereich für eine gegebene
Signifikanzzahl α gegeben mit
T > χ 2 k −s−1,1−α
2
Beispiel: stetige Verteilung
4
24
5
24
6
15
Die Frage: kann man die Nullhypothese (Gleichverteilung)
verwerfen?
Wert der Statistik: 6,1
k=6, s=0 (keine Parameter war geschätzt), also FG=5.
Kritische Wert: 11,07
Die Nullhypothese wird beibehalten (aber wie wir es schon
früher gesehen haben, es ist kein Beweis für die
Gleichverteilung).
0.020
3
18
0.015
2
25
Tagesumsatz
0.010
1
14
Wir haben Beobachtungen
von Tagesumsatzwerte von
10 Filialen:
125,54,39,24,184,58,85,75,
50,85 (in M.Ft).
Die Frage: passt es an eine
Normalverteilung mit
Erwartungswert 100 und
Standardabweichung 20?
Visuelle Vergleichung:
Dichte
Augenzahl
Haufigkeit
0.005
Die Ergebnisse 120 Würfeln gaben die folgenden Häufigkeiten:
0.000
Beispiel: diskrete Verteilung
0
50
100
150
200
M.Ft
Numerische Berechnung
Fortsetzung
10 Beobachtungen also höchstens 4 Klassen (es ist
das Minimum bei der Fall der geschätzten Parameter)
Klassenwahl aus der Theoretischen Werte, mit
gleichen erwartete Wahrscheinlichkeit:
Klassengrenzen: 100-0.67*20,100, 100+0.67*20.
Erwartete Häufigkeiten: 2.5 für alle Klassen.
Beobachtete Häufigkeiten: 8,0,0,2
T=17.2,
FG=3,
Kritische Wert: 7.81 (α=0.05), oder 13.28 (α=0.01),
also die Nullhypothese (Normalverteilung mit der
gegebenen Parametern) wird verworfen.
Regression (Wiederholung)
Die Koeffizienten
X: Einflussfaktor
Y: abhängiges Merkmal
Beispiel:Wir haben Daten vom 5 Hotels während der
Formel 1 Rennen in Ungarn gesammelt. Distanz und
% Besetzt sind in die Tabelle dargestellt.
Entf (km)
25
17
5
2
1
Xbar=10
% Besetzt
50
83
98
99
100
Ybar=86
(xi-xbar)^2
225
49
25
64
81
88,8
(yi-ybar)^2
1296
9
144
169
196
362,8
(xi-xbar)(yi-ybar)
-540
-21
-60
-104
-126
-170,2
Passen die daten an eine Normalverteilung?
Hier soll man die beste Normalverteilung finden.
Schätzungen:
für den Erwartungswert: 77.9 MFt,
Für die Standardabweichung: 46.84 MFt
Klassengrenzen (wieder mit 4 Klassen, gleiche
erwartete Häufigkeiten): 77.9-2*46.84/3, 77.9,
77.9+2*46.84/3, ausgerechnet:46.7 77.9 109.1
Daraus die empirische Häufigkeiten: 2,4,2,2
T=1.2, FG=1,
Kritische Wert: 3.84 (α=0.05), oder 2.71 (α=0.1),
also die Hypothese wird beibehalten.
Das Modell: y~ax+b.
Die Schätzung für die Koeffizienten:
n
∑ ( x − x)( y
i
aˆ =
i
− y)
i =1
n
∑ ( x − x)
2
, bˆ = y − aˆ x
i
yi
57.25
72.58
95.58
101.3
103.3
i =1
In unserem Beispiel: a=-170.2/88.8=-1.92,
b=86-(-1.92)*10=105.2
Das Verfahren ist sehr empfindlich an
ausreißer!
3
44
165
∑ (x − x) ∑ ( y
2
i
i =1
i
190
165
170
180
Höhe
R2=0.83
R2=0.92
185
190
− y)2
185
190
46
44
42
Schuhgrösse
Schuhgrösse
38
2
165
170
i =1
175
180
185
190
165
170
Höhe
Beispiel (Fortsetzung)
175
40
− x)
i =1

 n
Von hier das Anteil
 ∑ ( xi − x )( yi − y ) 

2
der erklärte Variabilität: R = n i=1
n
185
44
i
180
Höhe
46
 ∑ ( xi − x )( yi − y ) 
n
Quadratsumme n

( yi − aˆxi − bˆ) 2 =∑ ( yi − y ) 2 −  i =1 n
der Residuen: ∑
2
i =1
i =1
∑ (x
175
42

n
170
2
40

42
2
i
i =1
Schuhgrösse
42
Schuhgrösse
n
∑ ( y − y)
38
Wie gut ist das Modell?
Vollständige Variabilität:
38
38
40
Bestimmtheitsmass
40
44
46
R2=0.73
46
R2=0.56
175
180
Höhe
Verbesserung
Hotel-Daten vor Formel-1 Rennen, mit lin.Regr.
100
yi^ (yi-ybar)^2 (yi^-ybar)^2
57.25
1296
826.56
72.58
9
180.01
95.58
144
91.84
101.3
169
235.11
103.3
196
297.56
88.8
362.8
326.22
90
80
625
289
25
4
1
188,8
50
83
98
99
100
86
190270
10040
26830
34151
35269
296561
1296
9
144
169
196
1814
-22140
-837
180
-78
-126
-23001
50
60
Daraus R2=0.9, es ist
ziemlich gut. (Nahe zur 1)
Für den modifizierten Hotel-Modell
Entf
%
(xi-x)^2 (yi-y)^2 (xi-x)(yi-y)
(km)^2 Besetzt
70
Anteil der besetzten Zimmer (%)
Entf (km)
yi
25
50
17
83
5
98
2
99
1
100
Xbar=10 Ybar=86
5
(Obwohl es kann man
mit einen Quadratische Faktor
verbessern.)
10
15
20
Entfernungen (in km)
Eigenschaften unserer Schätzer
Modell: Y=aX+b+ε, wo ε ist Normal-verteilt
mit Erwartungswert 0 und St.abweichung σ
Standardabweichung der Koeffizienten der
Regressionsgerade:
D (aˆ ) =
σ
∑ ( xi − x )
2
; D(bˆ) = σ
1
x2
+
n ∑ ( xi − x ) 2
25
R2 =(-23001)*(-23001)/(296561*1814)=0.983
also es ist noch besser.
a=-23001/296561=-0,0078; b=86-188,8*(-0,0078)=100.64
Hypothesen-Test
Die Schätzung für σ:
σˆ =
∑( y
i
− yˆ i ) 2
n−2
=
∑(y
i
− (aˆxi + bˆ)) 2
die Hypothese: a=0 (es ist kein
Zusammenhang mit der Distanz). HA: a≠0.
2
Teststatistik: (t-Test) t = aˆ ∑ ( xi − x )
σ̂
das Freiheitsgrad ist n-2 (wir haben 2
Parameter geschätzt: a und σ).
Ablehnungsbereich (wie beim allgemeines tTest, vom Alternativ-Hypothese abhängend).
Jetzt zweiseitig. Aber für HA: a<0, t<- t1-α,n-2
n−2
4
Fortsetzung
die Hypothese: b=0
Andere Hypothesen
bˆ
t=
σˆ
1
x2
+
n ∑ ( xi − x ) 2
Beispiel (Hotel-Daten mit Dist2 als X)
a=-4600,2/59312,16=-0,078; b=86-188,8*(-0,078) =
t=
=100,64
axi+b Resid^2
52.169 4.7033
78.229 22.767
98.704 0.4959
100.33 1.7767
100.57 0.3199
Summe: 30.062
Also die Schätzung für σ: 3,17,
t=-0,078*544,6/3,17=-13,4.
Es ist sicher, dass der Unterschied
zwischen die verschiedene
Buchungsanteile ist kein Zufall.
Mehrdimensionale statistische
Verfahren
multiple Regressionsmodelle
Klassifizierung
usw (Faktorstrukturen,...)
Daraus der Bestimmtheitsmass:
R2 =
∑
0,643
3,165 0,2 + 35645 / 296561
= 0,359
Y: abhängiges Merkmal
X1,...,Xm: Einflussfaktoren
Regression: y~a1x1+ a2x2+...+ amxm+ b
Die Koeffizienten kann man wieder mit der methode der
kleinsten Quadrate schätzen.
Beispiel:Wir haben die Monatsumsatz, Fläche und Anzahl der
Angestellter bei ein Paar Filialen unserer Handelsfirma in die
folgenden Tabelle dargestellt
250
40
6
265
40
8
300
54
9
230
20
10
330
40
12
Ergebnisse für den Beispiel
Lösung mit der Methode der kleinsten
Quadrate: Y~2,56X1+12,81X2+60,48.
Bedeutung der (partiellen) Regressionskoeffizienten aj: Änderung der Zielgrösse
(Monatsumsatz), wenn Xj um eine Einheit
steigt, und die andere Einflüsse bleiben
Konstant.
n
Residuen (Schätzfehler): yi − yˆ
( yˆ − y ) 2
=
also diese Hypothese können wir
annehmen.
Monatsumsatz in T.Euro (Y)
Fläche in TQM (X1 )
Anzahl Angestellter (X2 )
Lösung, Bedeutung, Residuen
bˆ − b0
1
x2
+
σˆ
n ∑ ( xi − x ) 2
Multiple lineare Regression
Simultane Zusammenwirken von
Zufallsvariablen wird untersucht.
Beispiele:
H0: b=100 (kann der Konstant 100
sein?) Es ist die logische Wert. Statistik
der t-Test:
Monatsumsatz in T.Euro (Y) 250
265
300
230
330
Fläche in TQM (X1 )
40
40
54
20
40
Anzahl Angestellter (X2 )
6
8
9
10
12
Schätzungen
Residuen
(yi-ybar)^2
(yidach-ybar)^2
275
239.7 265.4
314 239.78 316.6
10.26 -0.36 -14.01 -9.78
13.4
625
100
625 2025 3025
6400
1243 92.93 1522 1240.4 1731
5829
R2
0.9108
i
i =1
2
n
∑ (y
i
− y)
i =1
5
Herunterladen