pi04_5

Werbung
Statistik: 8.3.04
Relationen zwischen metrischen
Merkmalen
Beispiel: Wohnungsmarkt
Für 16 Angebote von Eigentumswohnungen wurden
registriert:


Fläche der Wohnung (m2)
Angebotspreis (1000 EUR)
Fläche
122
71
125
45
100
63
194
85
Preis
530
410
480
170
315
455
885
400
Fläche
164
119
140
109
40
62
84
65
Preis
900
550
790
810
390
440
300
385
8.3.04
PI Statistik, SS 2004 (5)
2
Wohnungsmarkt
Preis (1000 EUR)
Punkte- oder
Streudiagramm
(scatterplot)
1000
900
800
700
600
500
400
300
200
100
0
0
50
100
150
200
250
Fläche (m2)
8.3.04
PI Statistik, SS 2004 (5)
3
Randverteilungen
6
Fläche der
Wohnung (m2)
Häufigkeit
5
4
3
2
1
0
50
90
130
170
210
250
6
Preis (1000 EUR)
Häufigkeit
5
4
3
2
1
0
300
8.3.04
400
500
PI Statistik, SS 2004 (5)
600
700
800
900
1000
4
Randverteilungen
Kenngrößen
Fläche
Mittelwert
99,3
513,1
Standardfehler
10,8
54,8
Median
92,5
447,5
Standardabweichung
43,3
219,3
Stichprobenvarianz
1870,6 48109,6
Kurtosis
-0,049
-0,547
Schiefe
0,651
0,663
154
730
Minimum
40
170
Maximum
194
900
16
16
Wertebereich
Anzahl
8.3.04
Preis
PI Statistik, SS 2004 (5)
5
Standardisieren
Merkmal X : x1, …, xn
Stichprobenkennzahlen: x , sx
Standardisieren:
xi  x
zi 
sx
Standardisierte Daten: z1, …, zn
Stichprobenkennzahlen: z  0, sz  1
8.3.04
PI Statistik, SS 2004 (5)
6
Beispiel: Wohnungsmarkt
xi  x
yi  y
Standardisierte Daten: zxi 
, z yi 
sx
sy
2
2
1
1
0
-2
-2
-1
-1
-1
0
1
1
2
2
3
-1
-2
-2
8.3.04
PI Statistik, SS 2004 (5)
7
Korrelationskoeffizient
Produkt-Moment Korrelationskoeffizient:
1 n xi  x yi  y 1 n
r 
  z xi z yi
n i 1 sx
sy
n i 1
oder r  s xy
sx s y
1 n
mit der Kovarianz sxy   ( xi  x )( yi  y )
n i 1
Beispiel: Fläche (X) und Preis (Y) von angebotenen
Wohnungen: sxy = 7342.34, sx= 43.3, sy= 219.3
r = 0.826
8.3.04
PI Statistik, SS 2004 (5)
8
Korrelationskoeffizient
Korrelationskoeffizient ist ein (durch das Standardisieren)
normiertes Maß für den linearen Zusammenhang
Eigenschaften:
-1 ≤ r ≤ 1
|r| ist Maß für die Stärke des linearen Zusammenhanges


|r|=1: perfekte lineare Abhängigkeit
|r|<1: Punkte streuen stark (|r|~0) oder schwach (|r|~1) um
Gerade
Sign(r) ist Maß für Richtung des linearen Zusammenhanges


8.3.04
Sign(r)=1: steigende Gerade
Sign(r)=-1: fallende Gerade
PI Statistik, SS 2004 (5)
9
Beziehungen: Beispiele
0.997
-0.977
-0.289
8.3.04
-0.067
PI Statistik, SS 2004 (5)
10
Rang Korrelationskoeffizient
nach Spearman
Korrelationsmaß für ordinale Merkmale
Auch anwendbar auf Rangzahlen für metrische
Merkmale
Definition wie Produkt-Moment Korrelationskoeffizient
rxy, angewendet auf die Ränge der Beobachtungen
r  rrg ( x ),rg ( y )
sp
xy
8.3.04
PI Statistik, SS 2004 (5)
11
Berechnung von r
1.
sp
3.
Sortieren der Stichprobenpaare (xi, yi) nach steigenden
Werten von X
Ersetzen der Beobachtungen (xi, yi) durch die Rangzahlen
(i, Ri)
Einsetzen in Formel für Produkt-Moment
Korrelationskoeffizient r :
 i  n21  Ri  n21 

sp
i
r 
n 1 2
n 1 2
i

R

i  2  i  i 2 
4.
Alternative Schreibweise:
2.
r  1
sp
8.3.04
6
n(n2  1)
2
(
i

R
)
i i
PI Statistik, SS 2004 (5)
12
Beispiel: Schulnoten
Math
5
Math Engl
Engl
Engl-Note
4
3
3
1
1
2
1,5
3,5
4
3
2
1
3
1,5
6,5
1
3
3
2
1
4
1,5
1
3
4
4
2
2
4
3,5
0
3
1
5
2
3
4
6,5
2
3
6
3
1
7
1,5
2
1
7
3
3
7
6,5
1
2
8
3
4
7
9,5
4
4
9
4
3
9,5
6,5
2
2
10
4
4
9,5
9,5
8.3.04
PI Statistik, SS 2004 (5)
3
2
0
1
2
3
4
5
Math-Note
r sp = 0.430
13
Typen von Beziehungen
zwischen Merkmalen
Kausaler Zusammenhang


Wenn es kalt ist, steigen die Heizkosten
Rauchen macht Lungenkrebs
Gemeinsame Response


Die fleißige Studentin bekommt viele gute Noten
Zahl der Babys und der Störche wird weniger
Vermengung (confounding)

8.3.04
Sloppy lifestyle Hypothese und Lungenkrebs
PI Statistik, SS 2004 (5)
14
Typen von Beziehungen
zwischen zwei Merkmalen x und y
x
y
x
y
x
y
x ist kausal für y
z
x, y sind gemeinsame
Response auf z
8.3.04
PI Statistik, SS 2004 (5)
z
y: Effekte von x und
z sind vermengt
15
Vorsicht!
Die Interpretation von Korrelation als kausale
Beziehung ist oft eine Fehlinterpretation!


Zahl der Babys und der Störche sind hoch positiv korreliert!?
Einkommen und Konsum sind hoch positiv korreliert
Ausreißer haben großen Effekt auf den Wert des
Korrelationskoeffizienten
Nicht-lineare Beziehungen!
8.3.04
PI Statistik, SS 2004 (5)
16
Lineare Regression
Gerade, die die Datenwolke im Streudiagramm bzw.
die Beziehung zwischen den dargestellten Merkmalen
möglichst gut repräsentiert
1000
800
Preis (1000 EUR)
Wohnungsmarkt:
Daten und
Regressionsgerade
600
400
200
0
0
50
100
150
200
250
Fläche (m2)
8.3.04
PI Statistik, SS 2004 (5)
17
Lineare Regression,
Forts.
Abhängiges Merkmal: Y
Unabhängiges Merkmal: X
Regressionsgerade: Y = a + b X
a, b: Regressionskoeffizienten (b: Anstieg, a: Interzept)
Methode der kleinsten Quadrate: Wähle die Koeffizienten so, dass
die Summe der quadrierten Abstände zwischen Beobachtungen
und der Geraden minimiert werden
a ,b
S (a, b)  i 1 yi  (a  bxi ) 
 min
2
n
Schätzer: b  r
8.3.04
sy
sx
, a  y  bx
PI Statistik, SS 2004 (5)
18
Wohnungsmarkt,
Forts.
Geschätzte Regressionsgerade
1000
Preis (1000 EUR)
800
600
400
200
97.59  4.19x
0
0
50
100
150
200
250
Fläche (m2)
8.3.04
PI Statistik, SS 2004 (5)
19
Wohnungsmarkt
Geschätzte Regressionsgerade
yˆ  97.59  4.19 x
• Je m2 muss man im Durchschnitt mit Kosten von
4.190 Euro rechnen;
• dazu kommt ein fixer Betrag von im Durchschnitt
97.590 Euro
• Residuen: yi  (a  bxi )
• zur Beurteilung der Qualität der Erklärung der Daten
durch die Regressionsgerade, insb. des Effekts von
einzelnen Beobachtungen
8.3.04
PI Statistik, SS 2004 (5)
20
Regression in EXCEL
Analysefunktion „Regression“
Statistische Funktionen



8.3.04
RGP: liefert die Koeffizienten der linearen Regression
SCHÄTZER: Liefert einen Y-Wert zu einem X-Wert nach
Anpassen der linearen Regression
Und andere
PI Statistik, SS 2004 (5)
21
Regression in EXCEL:
Ausgabe: Zusammenfassung
Regressions-Statistik
Multipler Korrelationskoeffizient
0,826
Bestimmtheitsmaß
0,682
Adj. Bestimmtheitsmaß
0,659
Standardfehler
128,12
Beobachtungen
16
Koeffizi
enten
Standard
fehler
t-Statistik
P-Wert
Schnittpunkt
97,59
82,39
1,18
0,256
X Variable 1
4,19
0,76
5,47
8,2E-05
8.3.04
PI Statistik, SS 2004 (5)
22
Herunterladen