Einführung: Was ist Statistik? Datenerhebung und

Werbung
Einführung: Was ist Statistik?
1
Datenerhebung und Messung
2
Univariate deskriptive Statistik
3
Multivariate Statistik
4
Regression
5
Ergänzungen
Einfache lineare Regression
Linearer Zusammenhang zwischen zwei metrischen Größen
wird als Gerade visualisiert
Finde Gerade Y = α + β · X
β : Steigung der Geraden, d.h. erhöht sich X um eine Einheit,
so erhöht sich Y um β Einheiten.
α : Achsenabschnitt, d.h. Wert von Y für X = 0
Deskriptive Statistik WiSe 2015/2016
Helmut Küchenhoff (Institut für Statistik, LMU)
312 / 355
Bestimmung der Regressionsgerade
Welche Gerade ist die Beste“?
”
Sie sollte etwa in der Mitte“ der Punktwolke liegen
”
Abweichungen der Wertepaare (xi , yi ) (Punkte) von der
Geraden sollten möglichst klein“ (minimal) sein
”
Deskriptive Statistik WiSe 2015/2016
Helmut Küchenhoff (Institut für Statistik, LMU)
313 / 355
Methode der kleinsten Quadrate
Y ist Zielgröße und X Einflussgröße
Y soll mit Hilfe von X erklärt oder prognostiziert werden
Lineares Modell Y = α + βX + ε
Minimierung der Abstände in Y -Richtung
2
P Wähle α̂ und β̂ so, dass ni=1 yi − (α̂ + β̂xi ) minimal wird
Deskriptive Statistik WiSe 2015/2016
Helmut Küchenhoff (Institut für Statistik, LMU)
314 / 355
Geschichte
Idee der KQ-Schätzung von Gauss (1795) im Alter von 18 Jahren
Veröffentlichung von Legendre
Idee der Regression von Galton (1886)
Deskriptive Statistik WiSe 2015/2016
Helmut Küchenhoff (Institut für Statistik, LMU)
315 / 355
Lineare Einfachregression und Kleinste-Quadrate-Schätzer
Seien (x1 , y1 ), . . . , (xn , yn ) Beobachtungen der Merkmale X und Y ,
dann heißt
yi = α + βxi + εi , i = 1, . . . , n,
lineare Einfachregression, wobei α den Achsenabschnitt, β die
Steigung und ε den Fehler bezeichnet.
Die Kleinste-Quadrate-Schätzer für α̂ und β̂ sind gegeben durch
α̂ = ȳ − β̂ x̄,
β̂ =
Sxy
.
Sx2
Die Residuen berechnen sich durch
εi = yi − ŷi , i = 1, . . . , n,
mit ŷi = α̂ + β̂xi .
Deskriptive Statistik WiSe 2015/2016
Helmut Küchenhoff (Institut für Statistik, LMU)
316 / 355
Beispiel: Zahl der Mitarbeiter in Abhängigkeit von der Auflage
Interpretation:
Mit einer Auflagensteigerung
von 1000 ist durchschnittlich
die Einstellung von 0.199
Mitarbeitern verbunden.
Deskriptive Statistik WiSe 2015/2016
Helmut Küchenhoff (Institut für Statistik, LMU)
317 / 355
Regression ohne 2 Extremwerte
Beachte:
Jetzt werden 0.352
Mitarbeiter bei einer
Auflagensteigerung von
1000 eingestellt.
Deskriptive Statistik WiSe 2015/2016
Helmut Küchenhoff (Institut für Statistik, LMU)
318 / 355
Standardabweichung des Störterms
Die geschätzte Abweichung der y -Werte von der Geraden ergibt
sich zu:
r
1 X 2
εi
n−2
= yi − ŷi
sε =
εi
Wichtiges intuitives Maß zur Modellanpassung
Deskriptive Statistik WiSe 2015/2016
Helmut Küchenhoff (Institut für Statistik, LMU)
319 / 355
Streuungs- und Quadratsummenzerlegung
Ziel: Erklärung der Streuung von Y durch X :
n
n
n
X
X
X
(yi − ȳ )2 =
(ŷi − ȳ )2 +
(yi − ŷi )2
i=1
i=1
i=1
Streuung von Y
=
Erklärte Streuung
+
Rest
SST
=
SSM
+
SSE
Quadratsumme
Gesamt
(Total)
=
Quadratsumme
Regression
(Model)
=
Quadratsumme
Residuen
(Error)
Deskriptive Statistik WiSe 2015/2016
Helmut Küchenhoff (Institut für Statistik, LMU)
320 / 355
Das Bestimmtheitsmaß R 2
Anteil der durch die Regression (d.h. durch X ) erklärten Varianz
R
2
Pn
(ŷi − ȳ )2
SSM
=
= Pi=1
n
2
SST
i=1 (yi − ȳ )
P
Pn
− ȳ )2 − ni=1 (yi − ŷi )2
i=1 (yi P
=
n
2
i=1 (yi − ȳi )
Pn
(yi − ŷ )2
= 1 − Pi=1
n
2
i=1 (yi − ȳ )
Es gilt: Bestimmtheitsmaß = Quadrat der Korrelation zwischen X
und Y
R2 =
Deskriptive Statistik WiSe 2015/2016
2
Sxy
= r2
Sx2 Sy2
Helmut Küchenhoff (Institut für Statistik, LMU)
321 / 355
2
Nachweis von R 2 = rXY
n
n
i=1
i=1
1X
1X
ŷ¯ =
yˆi =
(α̂ + β̂xi ) = α̂ + β̂ x̄ = (ȳ − β̂ x̄) + β̂ x̄ = ȳ
n
n
Daraus folgt:
n
n
n
n
X
X
X
X
2
2
2
2
¯
(ŷi −ȳ ) =
(ŷi −ŷ ) =
(α̂+β̂xi −α̂+β̂ x̄) = β̂
(xi −x̄)2
i=1
i=1
i=1
i=1
somit für R 2 :
P
Pn
(ŷi − ȳ )2
β̂ 2 ni=1 (xi − x̄)2
i=1
= Pn
R = Pn
2
2
i=1 (yi − ȳ )
i=1 (yi − ȳ )
s 2 · sX2
sXY 2
2
= XY
=
= rXY
sX sY
(sX2 )2 · sY2
2
Deskriptive Statistik WiSe 2015/2016
Helmut Küchenhoff (Institut für Statistik, LMU)
322 / 355
Umkehrregression I
Vertauscht man die Rollen von X und Y , so erhält man die
Umkehrregression.
Daten (Xi , Yi ), i = 1, . . . , n
Regression:
Y = α + βX
β=
Umkehrregression:
X = γ + δY
δ=
SXY
SX2
SXY
SY2
Im XY -Koordinatensystem hat die Gerade der Umkehrregression
die Darstellung
γ 1
Y =− + X
δ
δ
Deskriptive Statistik WiSe 2015/2016
Helmut Küchenhoff (Institut für Statistik, LMU)
323 / 355
Umkehrregression II
Es gilt:
β·δ =
2
SXY
= r2 ≤ 1
2
SX SY2
1
⇒ |β| ≤ |δ|
Gerade der Umkehrregression steiler
und
⇒ β·δ ≥0
β und δ haben gleiches Vorzeichen
Deskriptive Statistik WiSe 2015/2016
Helmut Küchenhoff (Institut für Statistik, LMU)
324 / 355
−2
−1
0
1
y
2
3
4
Beispiel: Umkehrregression
−2
−1
0
1
2
x
Deskriptive Statistik WiSe 2015/2016
Helmut Küchenhoff (Institut für Statistik, LMU)
325 / 355
Orthogonale Regression
Falls man die orthogonalen Abstände zur Gerade minimiert, erhält
man eine Gerade zwischen Regression und Umkehrregression. Löse
Minimierungsproblem in α, β
(αORR , βORR ) = arg min
α,β
n
X
1
(yi − α − βxi )2
1 + βi2
i=1 |
{z
}
Orthogonaler Abstand
q
1
2
2
2
2
2
2
(SY − SX ) + 4SXY + (SY − SX )
2SXY
β̂ORR
=
α̂ORR
= ȳ − β̂ORR · x̄
Deskriptive Statistik WiSe 2015/2016
Helmut Küchenhoff (Institut für Statistik, LMU)
326 / 355
Wichtige Eigenschaften der linearen Regression
Asymmetrie: Regressionsgerade von Y auf X verschieden von
Regressionsgerade von X auf Y
Die Regressionsgerade geht durch (x̄, ȳ )
Interpretation der Steigung b steht im Mittelpunkt der
Interpretation
R 2 -Wert gibt den Varianz-Erklärungsanteil wieder
R 2 ist Quadrat der Korrelation
sε gibt durchschnittliche Abweichung der Werte von der
Regressionsgeraden an
Deskriptive Statistik WiSe 2015/2016
Helmut Küchenhoff (Institut für Statistik, LMU)
327 / 355
Herunterladen