statistik_06_06_05

Werbung
STATISIK
LV Nr.: 0028
SS 2005
6. Juni 2005
1
Varianzanalyse
Varianzanalyse od. ANOVA
• Frage: Hat ein Faktor Einfluss auf ein
Merkmal?
• Faktor: Nominal skalierte Größe,
Faktorausprägungen = Ebenen oder Stufen
• Merkmal (durch Faktor beeinflusst):
Metrische Größe
2
Varianzanalyse
Varianzanalyse
• Einfache Varianzanalyse: Ein Faktor
• Zweifache Varianzanalyse: Zwei Faktoren
• …
3
Varianzanalyse
• Test, für arithmetische Mittel von zwei oder
mehr Grundgesamtheiten.
– Test, ob die Differenz der arithmetischen Mittel
von zwei oder mehr als zwei
Grundgesamtheiten signifikant von Null
verschieden ist.
4
Varianzanalyse
• Modellannahmen der Varinazanalyse:
– Unabhängigkeit der Stichproben (i=1,…,r)
– Normalverteilung der Merkmale mit µi und σi²
– Varianzhomogenität (Homoskedastizität), d.h.
σi² = σ²
5
Varianzanalyse
• Nullhypothese: Alle Gruppen haben den
gleichen Mittelwert µ
H0: µ1 = µ2 = … = µ
• Alternativhypothese: Nicht alle Gruppen
haben den gleichen Mittelwert µ
H1: mindestens zwei µi sind ungleich
6
Varianzanalyse
• Frage: Beeinflusst der Faktor (nominalskalierte Größe) das Merkmal (metrischskalierte Größe)?
• Unter H0: µi = µ für alle i (i = 1,…,r
Faktorstufen).
• Abweichung, die dem Faktor zuzuschreiben
sind: αi = µi - µ (i = 1,…,r) heißen wahre
Effekte auf der i-ten Ebene.
7
Varianzanalyse
• Modell der einfachen Varianzanalyse:
• xij = µ + αi + eij
– µ … Gesamtmittelwert
– αi … Effekt auf der i-ten Ebene
– eij … Versuchsfehler = die Abweichung eines
zufällig aus der i-ten Ebene des Faktors
herausgegriffenen Beobachtungswertes xik vom
Mittelwert µi dieser Ebene.
eij = xij – µi = xij – (µ + αi)
8
Varianzanalyse
• Beispiel: Zugfestigkeit von r = 3
Drahtsorten überprüfen, je Sorte 6 Proben,
unabhängig voneinander und N(µi,σ²)-vt.
Frage: Bestehen signifikante Unterschiede
in der Zugfestigkeit?
i
Drahtsorte
j
1
2
3
1
9
7,3
18
2
15,4
15,6
9,6
3
8,2
14,2
11,5
4
3,9
13
19,4
5
7,3
6,8
17,1
6
10,8
9,7
14,4
9
Varianzanalyse
Vorgehensweise:
• Gesamtmittelwert aller Faktorstufen und
Mittelwerte der Faktorstufen bestimmen
• Bestimmung der Abweichungen
• Zerlegung der Abweichungsquadratsumme
• Teststatistik und Testverteilung bestimmen
• Entscheidung, Interpretation
10
Varianzanalyse
• Gesamtmittelwert über alle Faktorstufen r
1 r ni
x  =  x ij
N i=1 j=1
• Mittelwerte der r Faktorstufen
1
x i =
ni
ni
x
ij
j=1
11
Varianzanalyse
• Beispiel: Drahtsorten
i
Drahtsorte
j
1
2
3
1
9
7,3
18
2
15,4
15,6
9,6
3
8,2
14,2
11,5
4
3,9
13
19,4
5
7,3
6,8
17,1
6
10,8
9,7
14,4
xi.
9,1
11,1
15
x..
11,7
12
Varianzanalyse
• Abweichungen: Quadratsumme der
Abweichungen (Sum of Squares)
– Abweichungen der Beobachtungen vom
Gesamtmittelwert.
r
ni
SST= (x ij -x  ) 2
i=1 j=1
– Summe der Quadratischen Abweichungen
– Bezeichnungen: SST (Total), SSG (Gesamt)
13
Varianzanalyse
• Sum of Squares:
– Abweichungen der Beobachtungen der
einzelnen Messreihen vom Mittelwert der
jeweiligen Messreihe.
r
ni
SSW= (x ij -x i ) 2
i=1 j=1
– Summe der Quadratischen Abweichungen des
Restes, Maß für die nicht durch den Faktor
beeinflusste Restvariabilität
– Bezeichnungen: SSW (Within), SSE (Error),
SSR (Residual).
14
Varianzanalyse
• Sum of Squares:
– Abweichungen der Mittelwerte der einzelnen
Messreihen vom Gesamtmittelwert.
r
SSB= n i (x i -x  ) 2
i=1
– Mit Stichprobengröße multiplizierte Summe
der Quadratischen Abweichungen der
Stichprobenmittelwerte vom Gesamtmittelwert,
also der beobachteten Effekte des Faktors.
– Bezeichnungen: SSB (Between), SSE
(Explained), SSM (Model), SST (Treatment),
15
Varianzanalyse
• Quadratsummenzerlegung:
• SST = SSB + SSW
r
ni
r
r
ni
2
2
2
(x
-x
)

n
(x
-x
)

(x
-x
)
 ij   i i   ij i
i=1 j=1
i=1
i=1 j=1
• Interpretation: Gesamtvarianz (SST) setzt
sich aus der Variation zwischen den
Messreihen (SSB) und der Variation
innerhalb der Messreihen (SSW)
zusammen.
16
Varianzanalyse
• Idee für Test:
– Vergleich der Variation zwischen den
Messreihen mit der Variation innerhalb der
Messreihen
– Ist die Variation zwischen den Messreihen
größer als jene innerhalb der Messreihen,
schließe auf Unterschied zwischen den
Messreihen (Faktoreffekt).
17
Varianzanalyse
• Teststatistik – Idee:
– Aus den Beobachtungswerten werden zwei
voneinander unabhängige Schätzwerte für sW²
und sB² für die Varianzen der
Beobachtungswerte innerhalb und zwischen
den Stichproben bestimmt.
– Liegen keine wahren Effekte vor (Gültigkeit
von H0), sind sW² und sB² (bis auf zufällige
Abweichungen) gleich.
– Bei Vorhandensein von wahren Effekten (H1)
ist sB² systematisch größer als sW².
18
Varianzanalyse
• Erwartungstreuer Schätzer für die Varianz
innerhalb der Messreihen (Restvarianz):
r ni
1
2
s 2W =
(x
-x
)
 ij i
N-r i=1 j=1
• Erwartungstreuer Schätzer für die Varianz
zwischen den Messreihen (Faktoreffekt)
r
1
s 2B =  n i (x i -x  ) 2
r-1 i=1
19
Varianzanalyse
• Mittlere Quadratsummen (MSS = Mean
Sum of Squares):
• Quadratsummen dividiert durch
entsprechende Freiheitsgrade
• MSB und MSW sind erwartungstreue
Schätzer der Varianz zwischen- und
innerhalb der Messreihen.
20
Varianzanalyse
• Varianzanalysetafel (r Messreihen):
Streuungsursache
Freiheits- QuadratMittlere
grade (DF) summe (SS) Quadratsumme (MS)
Unterschied zw r-1
Messreihen
SSB
(Between)
MSB = SSB / (r-1)
Zufälliger
Fehler
N-r
SSW
(Within)
MSW = SSW / (N-r)
Gesamt
N-1
SST
(Total)
21
Varianzanalyse
Teststatistik:
• F = MSB / MSW
• F ~ F(r-1),(N-r)
• Entscheidung: Ist F ≤ Fc, lehne H0 nicht ab
(Fc = kritischer Wert der F-Verteilung mit (r1) und (N-r) Freiheitsgraden).
22
Varianzanalyse
• Beispiel: Drahtsorten
• Quadratsummenzerlegung: SST = SSB + SSW
– 324,62 = 108,04 + 216,58
• Mittlere Quadratsummen:
– MSB = 108,04 / (3-1) = 54,02
– MSW = 216,58 / (18-3) = 14,44
• Teststatistik:
– F = MSB / MSW = 3,74
• Kritischer Wert der F2;15 Vt. 3,68
• Entscheidung: 3,74 > 3,68 => H0 ablehnen, d.h. es
besteht ein signifikanter Unterschied zw. den Sorten
23
Varianzanalyse
• Zweifache Varianzanalyse:
– 2 Faktoren (A und B, wobei r Faktorstufen bei
A und p Faktorstufen bei B)
– 1 metrische Variable
• Unterscheidung:
– Modell ohne Wechselwirkungen zw. den
Faktoren
– Modell mit Wechselwirkungen zw. den
Faktoren
24
Varianzanalyse
• Modell ohne Wechselwirkungen zw. den
Faktoren
• xijk = µ + αi + βj + eijk (für i=1,…,r, j=1,…,p,
k=1,…,n)
–µ
– α, β
– eijk
gemeinsamer Mittelwert
Faktoreffekte
zufällige Fehler
25
Varianzanalyse
• Mittelwerte:
1
• Gesamt
x  =
r
p
n
x

rpn
ijk
i=1 j=1 k=1
• Faktor A
1 p n
x i =  x ijk
pn j=1 k=1
• Faktor B
1 r n
x  j =  x ijk
rn i=1 k=1
26
Varianzanalyse
• Schätzer für Gesamtmittel und Effekte
• Gesamtmittel
m=x
• Effekt von Faktor A
a i =x i -m
• Effekt von Faktor B
b j =x  j -m
27
Varianzanalyse
• Quadratsummen
p
r
n
• SST= (xijk -x )2
i=1 j=1 k=1
r
• SSE(A)=pn  a i2
i=1
p
• SSE(B)=rn  b
2
j
j=1
• SSR = SST – SSE(A) – SSE(B)
28
Varianzanalyse
• Quadratsummenzerlegung
– SST = SSE(A) + SSE(B) + SSR
• Mittlere Quadratsummen:
– MSE(A) = SSE(A) / (r-1)
– MSE(B) = SSE(B) / (p-1)
– MSR = SSR / (rpn-r-p+1)
29
Varianzanalyse
• Prüfgrößen und kritische Werte:
• Faktor A:
– F(A) = MSE(A) / MSR
– Fr-1,(nrp-r-p+1);1-α
• Faktor B:
– F(B) = MSE(B) / MSR
– Fp-1,(nrp-r-p+1);1-α
30
Varianzanalyse
• Beispiel: 2 Faktoren (Erreger, Antibiotikum)
Erreger i (A)
Antibiotikum j (B)
1
2
3
Mittelwerte
Schätzer ai
1
38
40
38
2
35
41
39
38,5
0,667
1
42
39
33
2
45
33
34
37,7
-0,167
1
38
38
33
2
41
38
36
37,3
-0,500
Mittelwerte
39,8
38,2
35,5
37,8
Schätzer bj
2,000
0,333
-2,333
k
1
2
3
31
Varianzanalyse
• Modell mit Wechselwirkungen zw. den
Faktoren
• xijk = µ + αi + βj + (αβ)ij + eijk (für i=1,…,r,
j=1,…,p, k=1,…,n)
–
–
–
–
µ
α, β
αβ
eijk
gemeinsamer Mittelwert
Faktoreffekte
Wechselwirkung
zufällige Fehler
32
Varianzanalyse
• Mittelwerte:
1
• Gesamt
x  =
r
p
n
x

rpn
ijk
i=1 j=1 k=1
• Faktor A
1 p n
x i =  x ijk
pn j=1 k=1
• Faktor B
1 r n
x  j =  x ijk
rn i=1 k=1
1 n
• Wechselwirkung x ij =  x ijk
n k=1
33
Varianzanalyse
• Gesamtmittel und Effekte
• Gesamtmittel m=x
• Effekt von Faktor A
a i =x i -m
• Effekt von Faktor B
b j =x  j -m
• Effekt der Wechselwirkung (ab)ij =x ij -a i -b j -m
34
Varianzanalyse
• Quadratsummen
p
r
n
SST= (x ijk -x )2
i=1 j=1 k=1
r
SSE(A)=pn  a i2
i=1
p
SSE(B)=rn  b 2j
j=1
r
p
SSE(AB)=n  (ab)ij2
i=1 j=1
SSR = SST – SSE(A) – SSE(B) – SSE(AB)
35
Varianzanalyse
• Quadratsummenzerlegung
– SST = SSE(A) + SSE(B) + SSE(AB) + SSR
• Mittlere Quadratsummen:
–
–
–
–
MSE(A) = SSE(A) / (r-1)
MSE(B) = SSE(B) / (p-1)
MSE(AB) = SSE(AB) / (p-1)(r-1)
MSR = SSR / (rpn-r-p+1)
36
Varianzanalyse
• Prüfgrößen und kritische Werte:
• Faktor A:
– F(A) = MSE(A) / MSR
– Fr-1, pr(n-1); 1-α
• Faktor B:
– F(B) = MSE(B) / MSR
– Fp-1, pr(n-1); 1-α
• Wechselwirkung:
– F(AB) = MSE(AB) / MSR
– F(p-1)(r-1), pr(n-1); 1-α
37
Varianzanalyse
• Beispiel: 2 Faktoren + Wechselwirkung
Erreger i
Antibiotikum j (Faktor B)
(Faktor A)
1
2
3
1
k
xi1k
1
38
2
35
1
42
2
45
1
38
2
41
xi1.
2
(ab)i1
xi2k
xi2.
3
(ab)i2
40
36,5
-4,000
41
3,833
33
40,5
1,667
0,167
38
xi3.
(ab)i3
39
38,5
2,333
38,5
0,667
33,5
-1,833
37,7
-0,167
34,5
-0,500
37,3
-0,500
33
36
-2,000
38
39,5
ai
38
39
43,5
xi3k
xi..
34
33
38
0,333
36
x.j.
39,8
38,2
35,5
bj
2,000
0,333
-2,333
37,8
38
Varianzanalyse
• Beispiel: Varianzanalysetafel
Streuungsursache
Freiheitsgrade
Quadratsumme
Mittlere
Quadrats.
Teststatistik
Kritischer
Wert
Erreger
2
4,33
2,16667
0,52
4,26
Antibiotikum
2
57,33
28,6667
6,88
4,26
Interaktion
4
93,33
23,3333
5,60
3,63
Fehler
9
37,50
4,16667
17
192,5
Total
• Faktor Erreger: kein Effekt
• Faktor Antibiotikum: Effekt
• Interaktion: Effekt (impliziert, dass auch
Faktor Erreger eine Wirkung hat).
39
Varianzanalyse
Erreger - Antibiotikum
45
44
43
42
41
Mittelwerte
40
39
Erreger 1
38
Erreger 2
37
Erreger 3
36
35
34
33
32
31
30
0
1
2
3
4
Antibiotikum
40
Nichtparametrische ANOVA
• Kruskal-Wallis Test
• Unterscheiden sich die Mittelwerte von p
Messreihen (n1, …, np)?
• Voraussetzungen:
– Stetige Verteilung der Messreihen
– Mindestens Ordinalskala
– Setzt weder Normalverteilung, noch
Varianzhomogenität voraus.
• Hypothese:
– H0: Mittelwerte der p Messreihen sind gleich
– H1: Mittelwerte unterscheiden sich
41
Nichtparametrische ANOVA
• Vorgehensweise:
– N Messwerten X11, …, Xpnp werden
Rangzahlen rij zugewiesen.
– Summe der Ränge der einzelnen Messreihen
berechnen:
ni
ri =  rij
j=1
– Bindungen (mehrere Messwerte sind gleich):
Mittelwert der Ränge
42
Nichtparametrische ANOVA
• Prüfgröße:
p

1  12
1 2
H= 
ri -3(N+1) 

B  N(N+1) i=1 n i

1 g 3
B=1- 3  (t l -t)
N -N i=1
– g … Anzahl der verschiedenen Messwerte
– t … wie oft tritt ein Messwert auf
– Treten keine Bindungen auf, ist B = 1
43
Nichtparametrische ANOVA
• Entscheidung:
– H0 ablehnen, wenn H > hp(n1,…,np);1-α
– h … kritische Werte (Tabelle, z.B. Hartung S.
615)
• Approximation durch χ²p-1,1-α Verteilung:
– H0 ablehnen, wenn H > χ²p-1,1-α (Quantile der χ²
Verteilung)
44
Regressionsanalyse
• Beziehung zwischen zwei oder mehr
metrisch skalierten Merkmalen.
• Art der Abhängigkeit bestimmen,
mathematische Funktion, durch die sich die
Abhängigkeit zwischen den Variablen am
besten beschreiben lässt.
45
Regressionsanalyse
• Abhängige Variable (Regressand): Y
– „zu erklärende Variable“
• Unabhängige Variable/n (Regressor): X
– „erklärende Variable/n“
• Regressionsfunktion: Mathematische
Funktion, die die Abhängigkeit zwischen
den Variablen beschreibt.
• Regression von Y auf X, Y=f(X).
46
Regressionsanalyse
• Art der Beziehung zw. den Variablen?
• Welche Form hat die Regressionsfunktion?
• Antworten darauf aus:
– Theorie
– Empirische Beobachtung, z.B. Punktwolke
zeichnen, welche Funktion passt sich gut an die
Punktwolke an? Durch welche Funktion lässt
sich die Grundtendenz des Zusammenhangs
darstellen?
47
Regressionsanalyse
• Punktwolke
• Regressionsfunktion
110
100
Körpergewicht
90
80
70
60
50
40
150
160
170
180
Körpergröße
190
200
210
48
Regressionsanalyse
• Lineare Regression:
– Regressionsfunktion ist linear
• Nichtlineare Regression:
– Regressionsfunktion ist nicht linear
10
10
9
9
8
8
7
7
6
6
5
5
4
4
3
3
2
2
1
1
0
0
0
2
4
6
8
10
12
0
2
4
6
8
10
49
12
Regressionsanalyse
• Einfachregression:
– Beziehung zwischen 2 Variablen
– Regressand: Y
– Regressor: X
• Mehrfachregression = multiple Regression:
– Beziehung zwischen 3 oder mehr Variablen
– Regressand: Y
– Regressoren: X1, X2, …, Xk
50
Regressionsanalyse
• Lineare Einfachregression:
– Lineare Regressionsfunktion
(Regressionsgerade) beschreibt die
Abhängigkeit zwischen der Variablen Y und X.
– Zwei Merkmale X und Y werden an n Objekten
der Grundgesamtheit beobachtet =>
Realisationen x1, …, xn und y1, …, yn.
51
Regressionsanalyse
• Wahre Funktion:
yi‘ = α + βxi für i = 1, …, n
– α … Absolutglied
– β … Steigungsparameter
Wahre Koeffizienten,
Parameter der
Grundgesamtheit
• Beobachtet wird:
yi = yi‘ + εi
für i = 1, …, n
– εi … Störterm, Realisationen einer
Zufallsvariable
52
Regressionsanalyse
• Modell der linearen Einfachregression:
yi = α + βxi + εi
für i = 1, …, n
– α … Absolutglied
– β … Steigungsparameter
– εi … Störterm
53
Regressionsanalyse
•
Annahmen:
(1) E(εi) = 0 für i=1,…,n
(2) Var(εi) = σ² für i=1,…,n (Homoskedastizität)
(3) Cov(εi,εj) = 0 für alle ij (unkorrelierte
Fehler)
(4) xi nicht stochastisch
(5) xi  xj für mindestens ein ij
54
Regressionsanalyse
• Aus den Annahmen folgt für die abhängige
Zufallsvariable Yi:
– E(Yi) = E(α + βxi + εi) = α + βxi + E(εi) = yi‘ für
i=1,…,n
=0
– Var(Yi) = Var(εi) = σ²
für i=1,…,n
55
Regressionsanalyse
• Regressionsfunktion/-gerade:
ŷi = a + bxi
für i = 1, …, n
– a … Schätzer für Absolutglied
– b … Schätzer für Steigungsparameter
– ŷi … Schätzer für Ausprägung yi von Y
56
Regressionsanalyse
• Abweichung zwischen den beobachteten
Werten yi und den geschätzten Werten ŷi:
Residuen ei = yi – ŷi = yi – (a + bxi)
110
yi
100
90
Körpergewicht
ei
80
ŷi
70
60
50
40
150
160
170
180
Körpergröße
190
200
210
57
Regressionsanalyse
• Regressionsgerade:
– unendlich viele mögliche Geraden durch eine
Punktwolke
– Wähle jene, die die vorhandene Tendenz am
besten beschreibt, d.h. wähle jene, die eine
möglichst gute Schätzung ŷ für die Ausprägung
y des Merkmals Y eines Objekts, das die
Ausprägung x des Merkmals X trägt, bestimmt.
58
Regressionsanalyse
Methode der Kleinsten Quadrate
• Kriterium für die Güte der Schätzung:
Summe der Abweichungsquadrate
(Residual-Quadratsumme)
n
n
n
i=1
i=1
2
2
ˆ
S =  (yi -a-bx i )   (yi -yi )   ei
2
2
i=1
• Wähle die Schätzer a und b für α und β so,
dass S² minimal wird.
59
Regressionsanalyse
Methode der Kleinsten Quadrate
9
(xi,yi)
8
7
ŷ=a+bx
yi-ŷi=yi-(a+bxi)=ei
6
Y
5
(xi,ŷi)
4
3
2
1
0
0
1
2
3
X
4
5
6
60
Regressionsanalyse
• Minimiere S² (= Summe der vertikalen
quadratischen Abweichungen der
beobachteten Werte yi von den durch die
Regressionsgerade an den Stellen xi
bestimmten Werten ŷi).
 2 n
2
min  S =  (yi -a-bx i ) 
a,b
i=1


61
Regressionsanalyse
• Bedingung 1. Ordnung: 1. Ableitung = 0.
Schätzer a und b ergeben sich als Lösungen des
Normalengleichungssystems:
n
S2
=-2 (yi -a-bx i )=0
a
i=1
n
S2
=-2 x i (yi -a-bx i )=0
b
i=1
• Bedingung 2. Ordnung: 2. Ableitung positiv, d.h.
Determinante der Hesse-Matrix > 0
62
Regressionsanalyse
• Kleinste Quadrate Schätzer für β:
n
 (x -x)(y -y)
i
b=
i
i=1
n
2
(x
-x)
 i
i=1
• Kleinste Quadrate Schätzer für α:
a=y-bx
• Kleinste Quadrate Regressionsfunktion:
ŷ=a+bx
63
Regressionsanalyse
• Eigenschaften der KQ Schätzer:
– Summe der Residuen ei ist Null.
– Summe xiei ist Null.
– Das arithmetische Mittel der beobachteten
Werte ist gleich dem arithmetischen Mittel der
geschätzten Werte
– Die Regressionsgerade läuft durch den
Schwerpunkt der Punktwolke (x,y).
64
Regressionsanalyse
Quadratsummenzerlegung:
• Ziel der Regressionsfunktion: Variation der
abhängigen Variable soll aus der Variation
der unabhängigen Variablen erklärt werden.
–
–
–
–
Zu erklärende Variation: yi –y
Erklärte Variation: ŷi –y
Nicht erklärte Variation: yi – ŷi
(yi – y) = (ŷi –y) + (yi – ŷi) für i=1,…,n
65
Regressionsanalyse
Methode der Kleinsten Quadrate
9
8
7
ŷ=a+bx
6
y
Y
5
(xi,ŷi)
ŷi -y
4
yi -y
3
yi - ŷi
2
(xi,yi)
1
0
0
1
2
3
X
4
5
6
66
Regressionsanalyse
• Maß der Variation: Quadratsumme der
Abweichungen
• SST =  (yi –y)²
– Sum of Squares Total
• SSE =  (ŷi –y)²
– Sum of Squares Explained
• SSR =  (yi – ŷi)²
– Sum of Squares Residual
• Es gilt: SST = SSE + SSR
67
Regressionsanalyse
• Einfaches Bestimmtheitsmaß:
– Maß für die durch die lineare
Regressionsfunktion geliefert Erklärung der
Variation der abhängigen Variablen
• r² = SSE / SST = 1 – SSR / SST
– r² = Anteil der durch die Regressionsfunktion
erklärten Variation an der zu erklärenden
gesamten Variation.
68
Regressionsanalyse
• Es gilt: 0 ≤ r² ≤ 1
• Extremfälle:
– r² = 0  SSE = 0  ŷi =ŷ (=y) für alle i, d.h.
ŷi hängt nicht von i ab  b = 0, d.h.
Regressionsgerade ist horizontal. Kein
Erklärungsbeitrag
– r² = 1  SSE = SST  SSR = 0  ei = 0 für
alle i  ŷi = yi für alle i  die Daten liegen auf
der Regressionsgeraden. Vollständige Erklärung
69
Regressionsanalyse
Einfaches lineares Bestimmtheitsmaß
Einfaches lineares Bestimmtheitsmaß
6
5
4,5
R2 = 1
5
abhängige Variabele
abhängige Variabele
4
4
3
2
3,5
3
R2 = 0
2,5
2
1,5
1
1
0,5
0
0
2
4
6
8
10
0
12
0
2
4
unabhängige Variable
8
10
12
Einfaches lineares Bestimmtheitsmaß
Einfaches lineares Bestimmtheitsmaß
10
10
9
9
8
8
7
abhängige Variabele
abhängige Variabele
6
unabhängige Variable
R2 = 0,82
6
5
4
3
7
6
5
4
R2 = 0,52
3
2
2
1
1
0
0
0
2
4
6
unabhängige Variable
8
10
12
0
2
4
6
unabhängige Variable
8
10
70
12
Regressionsanalyse
• Linearer Einfachkorrelationskoeffizient:
r = + r² und r  [0 ; 1]
• Extremfälle:
– r = 0, d.h. fehlende Erklärung, fehlende
Korrelation
– r = 1, d.h. vollständige Erklärung, vollständige
Korrelation
• r wird das Vorzeichen der Steigung der
Regressionsgeraden zugewiesen.
71
Regressionsanalyse
Eigenschaften der KQ Schätzer:
• Da yi Zufallsvariable sind, sind auch a und b
Zufallsvariable.
• Erwartungswerte der KQ Schätzer:
– E(b) = β
– E(a) = α
– D.h. a und b sind unverzerrte Schätzer
72
Regressionsanalyse
• Varianzen der KQ Schätzer:
Var(b) 
σ2
n
2
(x

x
)
 i
i 1


2
1

x

Var(a)  σ 2   n
2
n
(x

x
)

i


i 1
• Beides sind theoretische Größen, da σ² (=Var(εi))
unbekannt ist.
73
Regressionsanalyse
• Kovarianz der KQ Schätzer:
Cov(a, b)  σ
x
2
n
2
(x

x
)
 i
i 1
Die Kovarinaz ist proportional zu σ², sie hängt vom
Vorzeichen von x ab.
74
Regressionsanalyse
• Frage: Gibt es bessere Schätzer als die KQ
Schätzer für α und β?
• Besser im Sinne einer kleineren Varianz,
denn je kleiner die Varianz des Schätzers,
umso besser ist er.
75
Regressionsanalyse
Gauss-Markov-Theorem:
– Einfaches lineares Regressionsmodell,
– Es gelten Annahmen 1-5
• Der KQ Schätzer ist der beste lineare
erwartungstreue Schätzer, BLUE (Best
linear unbiased Estimator)
–
–
–
–
Best: Var(b*)  Var(b)
Linear: b* =ciyi
Unbiased: E(b*) = β
Analoge Aussage für Schätzer a* von α.
76
Regressionsanalyse
• Schätzung der Fehlervarianz σ²
– Wären εi beobachtbar, dann Schätzer für σ² =
1/n εi².
– Aber: εi nicht beobachtbar, daher σ² durch s²
schätzen.
n
1
2
s2 
e

i
n  2 i 1
77
Regressionsanalyse
• Diesen Schätzer von σ² verwendet man, um
unverzerrte Schätzer für Var(a) und Var(b)
zu konstruieren.
s 2b 
s2
n
2
(x

x)
 i
i 1


2
1

x

s a2  s 2   n
2 
n
(x

x)

i


i 1
78
Regressionsanalyse
Inferenz im linearen Regressionsmodell:
– Ann (1-5)
– Ann (6): εi ~ N(0,σ²)
• Testprobleme:
– Einseitig: z.B. H0: b = b* gegen H1: b > b*
– Zweiseitig: H0: b = b* gegen H1: b  b*
• Teststatistik:
b  b*
T
sb
79
Regressionsanalyse
• Verteilung der Teststatistik:
– sb bekannt: T ~ N(0,1)
– sb geschätzt: T ~ tn-2
• Kritische Werte bestimmen
• Entscheidung: Lehne H0 ab, wenn
Teststatistik im kritischen Bereich liegt.
• Gleiche Vorgehensweise bei Tests für
Schätzer a.
80
Regressionsanalyse
Konfidenzintervall Regressionskoeffizienten
• Interzept:
– Es gilt P(a – t sa  α  a + t sa) = 1 – α
– KI für α: [a – t sa; a + t sa]
• Steigungsparameter:
– Es gilt P(b – t sb  β  b + t sb) = 1 – α
– KI für β: [b – t sb; b + t sb]
• t = t1- α/2; n-2 (Werte der t-Verteilung)
81
Herunterladen