Ökometrie I 10 Korrelation - Regression - Uni Jena

Werbung
Ökometrie I
10 Korrelation - Regression
Kai Uwe Totsche
LS Hydrogeologie
Friedrich-Schiller-Universität Jena
Prof. Dr. Kai Uwe Totsche
Ökometrie I
Korrelation - Regression
10-1
Ziele und Lerninhalte
Ziel dieser Einheit
Zweidimensionale Stichproben
Charakterisieren des Zusammenhangs
Quantifizierung der Abhängigkeit/des Zusammenhangs
Lerninhalte
 Kovarianz
 Korrelation
 Regression
 Autokorrelation
Prof. Dr. Kai Uwe Totsche
Ökometrie I
Korrelation - Regression
10-2
Korrelation und Regression
Mit
den
Verfahren
der
Korrelationsanalyse
wird
der
Merkmalsausprägungen
zweier
Zufallsvariablen gemessen.
Regressionsund
Zusammenhang
der
(oder
mehrerer)
Mit der Korrelation wird dabei die Stärke eines
(ungerichteten) Zusammenhanges, mit der Regression die
Art eines (gerichteten) Zusammenhanges (Je-DestoBeziehung) gemessen.
Prof. Dr. Kai Uwe Totsche
Ökometrie I
Korrelation - Regression
10-3
Korrelation und Korrelationsrechnung
Die hierbei typischerweise gestellte Frage lautet:
Wie stark ist der Zusammenhang der Merkmalsausprägung
zweier (oder mehrerer) unabhängiger Zufallsvariablen Xi.
Korrelation zwischen zwei Variablen beziehungsweise Korreliertheit
zweier Zufallsvariablen ermöglicht es, den Merkmalswert einer
Zufallsvariable durch den Merkmalswert einer anderen Zufallsvariable
vorher zu sagen, ohne den funktionalen Zusammenhang zu kennen.
Die Korrelation, und hier insbesondere auch die empirische Korrelation (keine
Einschränkung bezüglich der Grundgesamtheit der Variablen), ist demnach die Grundlage
für alle späteren Quantifizierungen der Beziehungen und des Zusammenhanges zwischen
zwei Zufallsvariablen.
Prof. Dr. Kai Uwe Totsche
Ökometrie I
Korrelation - Regression
10-4
Motivation:
Zusammenhang zwischen Umweltdaten
Gegeben: Zweidimensionale Stichprobe
xi , yi   x1 , y1 ,, xi , yi ,, xn , yn 
Messung/Bestimmung von zwei Merkmalen/Eigenschaften/
Größen an n Objekten
Fragen:
 Besteht eine Beziehung (wechselseitige Abhängigkeit)
zwischen den Merkmalen
 Wie stark/groß/straff ist die Beziehung
 „Stärke“ der Abhängigkeit
 Wird eine Größe von der anderen beeinflusst?
Prof. Dr. Kai Uwe Totsche
Ökometrie I
Korrelation - Regression
10-5
Beispiel 1: Zusammenhang pH-Wert und
Lagerungsdichte
1,50
db/pH
1,40
db [g cm-3]
1,30
1,20
1,10
1,00
0,90
0,80
0,70
5
5,2
5,4
5,6
5,8
6
6,2
6,4
pH
Prof. Dr. Kai Uwe Totsche
Ökometrie I
Korrelation - Regression
10-6
Beispiel 2: Zusammenhang Corg und Fed-Wert
35,00
Fed [mg g-1]
30,00
25,00
20,00
Corg/Fed
15,00
10,00
5,00
0,00
0,00
10,00
20,00
30,00
40,00
50,00
Corg [mg kg-1]
Prof. Dr. Kai Uwe Totsche
Ökometrie I
Korrelation - Regression
10-8
Beispiel 3: Zusammenhang Fed/o und Al d/o-Werte
35,00
Fed [mg g-1]
30,00
25,00
Ald/Fed
20,00
15,00
10,00
5,00
0,00
0,00
1,00
2,00
3,00
4,00
5,00
6,00
7,00
Ald [mg kg-1]
12,00
Feo [mg g-1]
10,00
8,00
Alo/Feo
6,00
4,00
2,00
0,00
0,00
2,00
4,00
6,00
8,00
10,00
12,00
14,00
Alo [mg kg-1]
Prof. Dr. Kai Uwe Totsche
Ökometrie I
Korrelation - Regression
10-9
Beispiel 4: Zusammenhang CEC und Ca2+
CEC [cmolc kg]
12,70
10,70
CEC/Ca2+
8,70
6,70
4,70
2,70
0,70
0,00
Prof. Dr. Kai Uwe Totsche
2,00
4,00
Ca2+
Ökometrie I
6,00
8,00
Korrelation - Regression
10,00
10-10
Korrelation, und Regression
Aufgabe:
Ermitteln des Zusammenhangs zwischen zwei Variablen
 Korrelation
und
Regression
behandeln
Zufallsexperimente, bei denen der Zusammenhang
zweier Zufallsvariablen ermittelt wird.
 Unterschied liegt in der Art und Weise, wie wir die
Beziehung der beiden Zufallsvariablen zueinander a-priori
einschätzen.
 Regression: Variable Y abhängig von Variable X
 Korrelation: Beide Variablen (X,Y) gleichwertig
Prof. Dr. Kai Uwe Totsche
Ökometrie I
Korrelation - Regression
10-11
Zusammenhangsmaße 1: Empirische Kovarianz
1 n
cov x, y  sxy 
 x i  x    y i  y

n  1 i 1
Empirische
Kovarianz:
12,70
1,50
db/pH
kg]
1,40
10,70
2+
1,20
1,10
1,00
0,90
cmol
c
8,70
6,70
CEC [
db [g cm-3]
1,30
CEC/Ca
4,70
2,70
0,80
0,70
0,70
5
5,2
5,4
5,6
5,8
6
6,2
6,4
0,00
pH
4,00
6,00
Ca
8,00
2+
covx, y   2.259
covx, y   0.016
Prof. Dr. Kai Uwe Totsche
2,00
Ökometrie I
Korrelation - Regression
10-12
10,00
Zusammenhangsmaße 2:
Empirischer Korrelationskoeffizient
Empirischer
Korrelationskoeffizient:
Normierung der Kovarianz auf:
rxy 
sxy
s2x  s2y
 1  r  1
+1  steigende Gerade
-1  fallende Gerade
x = const. und y = const. Grenzübergang: r = 0
Aufgemercht! Misst nur den linearen Zusammenhang
Prof. Dr. Kai Uwe Totsche
Ökometrie I
Korrelation - Regression
10-13
Exkurs: Einfluss der Extremwerte
12,70
CEC/Ca
2+
8,70
covx, y   2.259
cmol
6,70
CEC [
c
kg]
10,70
4,70
rxy  0.884
2,70
0,70
0,00
2,00
4,00
6,00
Ca
8,00
2+
10,00
12,70
CEC [cmolc kg]
10,70 CEC/Ca2+
cov x, y   0.964
rxy  0.762
8,70
6,70
4,70
2,70
0,70
0,00
Prof. Dr. Kai Uwe Totsche
Ökometrie I
1,00
2,00
3,00
Ca2+
Korrelation - Regression
4,00
10-14
5,00
Exkurs 2: Autokorrelation – Serielle Korrelation
Bei sequentieller Aufnahme/Messung in Raum und Zeit:
Tendenz, das benachbarte Werte eine größere Ähnlichkeit
aufweisen
Bsp: Stündliche Temperaturmessungen in der Saale zeigen große Variation über lange
Zeiträume - Sind sich aber ähnlich, wenn man stündliche Messungen miteinander
vergleicht!
Die Tendenz, das benachbarte Aufnahmen/Messungen in
Raum und zeit eine größere Ähnlichkeit aufweisen wird
Serielle Abhängigkeite bzw Autokorrelation bezeichnet
Besondere Anwendung:
 Zeitreihenanalyse
 Räumliche Abhängigkeit: Geostatistik
Prof. Dr. Kai Uwe Totsche
Ökometrie I
Korrelation - Regression
10-15
Regression und Regressionsanalyse
In der Regressionsanalyse wird zwischen einer abhängigen
und einer (oder mehrerer) unabhängiger Variablen
unterschieden.
Ziel der Regression ist es festzustellen, wie sich Änderungen der
unabhängigen Variablen auf die abhängige Variable auswirken.
Die Regressionsanalyse beschreibt also die Art des Zusammenhanges
und ermöglicht über die reine Beschreibung hinaus eine Voraussage
(Prädiktion).
Prof. Dr. Kai Uwe Totsche
Ökometrie I
Korrelation - Regression
10-16
Umsetzung der Regressionsanalyse
Schritt 1: Festlegung der ab- bzw. unabhängigen Variablen
Schritt 2: Aufstellen des Modells
Scatterplot, um erste Hinweise auf Art des Modells zu bekommen
Schritt 3: Bestimmung der Parameter des Modells
Methode der kleinsten Quadrate
Schritt 4: Berechnung der Güte der Anpassung
Bestimmtheitsmaß
Prof. Dr. Kai Uwe Totsche
Ökometrie I
Korrelation - Regression
10-17
Beispieldaten: Texturanalyse Lockergestein
no.
sample
bulk density
CEC
gS
mS
fS
gU
mU
fU
T
[g/cm ]
[m 2 g-1]
[%]
[cmol c kg-1]
[%]
[%]
[%]
[%]
[%]
[%]
[%]
1,06
1,08
1,24
1,24
1,26
0,86
-99,00
-99,00
-99,00
1,28
1,24
1,23
1,33
1,28
1,14
1,14
1,34
1,30
1,16
-99,00
-99,00
-99,00
-99,00
-99,00
1,19
1,25
1,31
1,16
1,20
1,28
0,78
0,95
0,98
1,26
0,88
0,97
1,20
1,35
3,91
5,33
4,24
4,35
2,61
4,84
5,46
3,84
2,69
6
7,9
6,12
1,85
1,23
8
5,87
9,78
12,19
3,48
7,51
8,18
1,83
1,23
1,2
6,35
12,15
12,32
15,7
8,59
6,38
34,86
25,59
17,51
9,9
40
35,76
25,12
14,83
7,58
3,19
2,41
3,65
3,10
9,25
7,55
3,72
0,79
5,38
4,48
2,25
1,50
1,43
-99,00
-99,00
5,57
4,80
4,85
10,76
8,41
5,27
3,95
2,71
8,55
7,19
7,63
8,56
5,04
-99,00
10,70
8,73
5,81
4,84
10,78
8,32
6,72
4,38
4,70
3,19
2,47
4,04
2,65
11,71
4,39
1,45
0,61
4,80
4,49
3,32
1,14
0,48
2,23
0,87
6,08
3,45
1,75
2,54
3,07
1,17
0,71
0,23
1,65
2,18
3,46
3,85
3,07
4,07
1,24
2,72
1,87
1,10
2,73
2,92
2,41
1,57
21,1
22,9
16,0
21,2
13,9
9,2
14,6
36,7
63,9
10,7
9,2
18,1
44,0
42,8
11,6
6,7
11,1
13,6
11,0
4,0
5,0
23,3
53,0
52,0
17,5
11,5
16,7
8,0
7,7
9,5
3,3
3,4
4,6
20,5
1,3
2,3
3,9
23,4
20,5
25,2
29,4
29,3
41,9
18,2
20,8
19,8
20,0
21,7
24,0
31,0
35,0
36,8
25,5
42,6
23,5
21,2
30,7
14,2
18,5
42,3
21,5
28,7
26,3
25,5
22,7
30,2
46,6
50,1
7,4
7,9
14,2
25,5
3,6
5,1
12,9
20,7
18,0
19,4
25,0
22,9
18,8
21,6
18,8
11,7
5,3
21,5
19,3
17,9
9,5
10,3
21,7
26,1
23,3
28,3
33,5
27,5
25,5
14,7
10,8
8,3
22,0
22,7
16,6
21,9
23,1
18,1
13,9
17,0
33,4
23,0
9,4
12,0
13,1
15,7
8,8
7,1
7,2
4,3
3,9
7,3
6,1
4,4
2,0
3,6
4,5
4,1
1,4
1,5
5,2
3,1
7,0
6,2
6,6
9,9
11,5
4,9
1,9
1,7
4,4
6,7
3,5
2,0
2,5
2,5
4,5
12,9
9,2
6,6
11,9
8,6
8,8
5,8
8,7
7,4
7,2
7,8
9,2
11,2
8,8
6,9
2,0
7,5
8,1
7,3
2,2
1,1
8,7
5,5
7,7
6,4
6,6
12,2
11,7
4,8
2,8
1,9
10,4
10,4
8,6
7,6
5,6
7,4
14,9
16,1
10,7
7,9
13,5
13,5
12,7
9,2
9,2
5,8
5,6
5,6
4,9
12,5
11,5
7,0
1,6
11,2
11,2
7,6
2,2
1,5
10,9
5,0
8,1
6,2
4,0
13,1
11,1
4,0
3,5
1,8
8,8
8,0
10,5
8,6
5,7
5,2
21,1
13,0
9,2
5,6
16,5
15,6
15,7
9,5
13,9
12,2
9,5
9,0
7,5
20,1
19,4
13,5
5,2
23,9
23,5
13,8
5,7
5,9
16,4
11,0
19,3
18,1
7,6
19,1
16,7
6,0
6,5
5,7
10,5
15,2
21,4
21,6
8,7
7,3
35,0
29,6
18,7
11,0
43,9
43,0
33,0
15,8
3
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
PT034/1
PT034/2
PT034/3
PT034/4
PT034/5
PT034/6
PT035/1
PT035/2
PT035/3
PT036/1
PT036/2
PT036/3
PT036/4
PT036/5
PT037/1
PT037/2
PT038/1
PT038/2
PT038/3
PT039/1
PT039/2
PT039/3
PT039/4
PT039/5
PT040/1
PT040/2
PT040/3
PT040/4
PT040/5
PT040/6
PT041/1
PT041/2
PT041/3
PT041/4
PT041/5
PT041/6
PT041/7
PT041/8
Surface Glühverlust
Analyse des Zusammenhangs von spezifischer Oberfläche
und Tongehalt
Welche ist die unabhängige Variable, welche die
abhängige Variable?
Prof. Dr. Kai Uwe Totsche
Ökometrie I
Korrelation - Regression
10-18
S [m2 g-1]
Dateninspektion: Scatterplot
Aufgrund der Form der Punktwolke wird ein
linearer
Zusammenhanges
unterstellt
(Punkte streuen bandförmig um eine
gedachte Gerade).
50,0
45,0
40,0
35,0
30,0
25,0
20,0
15,0
10,0
5,0
0,0
Die gesuchte Geradengleichung wird mit Hilfe
der linearen Regressionsanalyse bestimmt
werden kann.
0
10
20
30
40
50
T [%]
Linearer Zusammenhang
(Modell: Geradengleichung)
y  a b x 
Hierbei bezeichnet y die abhängige Variable, a das Absolutglied
(Achsenabschnitt, Intercept), b die Steigung (slope) und ε einen zufälligen
Fehlerterm.
Prof. Dr. Kai Uwe Totsche
Ökometrie I
Korrelation - Regression
10-19
Schätzung der Modellparameter
Zu den gegebenen Wertepaaren (xi, yi) werden durch Minimierung der
Residuen die entsprechenden Koeffizienten (a,b) geschätzt.
!
  yˆ  y   min
i
i
yˆi  a  b  x
yi
ŷi
Methode der kleinsten Quadrate: Ziel ist es, die Summe der quadrierten
Differenzen zwischen dem beobachteten Wert und dem vorhergesagten Wert (das
Residuum) zu minimieren.
Prof. Dr. Kai Uwe Totsche
Ökometrie I
Korrelation - Regression
10-20
Veranschaulichung
yi
Gesamtabweichung
„Unerklärte“
Abweichung
ŷi
„Erklärte“
Abweichung
y
Prof. Dr. Kai Uwe Totsche
Ökometrie I
Korrelation - Regression
10-21
Beurteilung der Güte der Regression (I)
Die Güte der Regressionsgeraden wird geprüft durch die Zerlegung der
Streuung (= Varianz) in zwei Terme:
„Residuenstreuung“
„Gesamtstreuung“
2
2
2
ˆ
ˆ






y

y

y

y

y

y
 i
 i
 i i
i
i
i
„erklärte Streuung“
(durch Gleichung bestimmt)
Prof. Dr. Kai Uwe Totsche
Ökometrie I
Korrelation - Regression
10-22
Beurteilung der Güte der Regression (II)
Als Maßzahl zur Beurteilung der Güte der Regressionsschätzung dient das Bestimmtheitsmaß r2.
r2 
2
ˆ
  yi  y 
i
2


y

y
 i
i
Es stellt das Verhältnis von erklärter Streuung zur
Gesamtstreuung dar und ist beschränkt im Wertebereich
(0 ≤ r2 ≤ 1).
Prof. Dr. Kai Uwe Totsche
Ökometrie I
Korrelation - Regression
10-23
Motivation: Regressions-Analyse
Wesentliche Aufgabe der Statistik:
Quantifizierung des Zusammenhanges zwischen Umweltdaten
Anpassung einer Funktion an Messdaten mit dem Ziel
 Vorhersage von zukünftigen Ereignissen Y als Funktion der Variablen X
 Quantifizierung des Einflusses von X auf Y um Y zu optimieren
(Sensitivität – Response-Surfaces)
Beispiel:
 Anpassen einer Kalibriergerade
Unabhängiger Variable: Standard-Konzentrationen des Analyten,
Abhängige Variable: Messsignal des Gerätes)

Anpassen einer instationären, nichtlinearen Funktion
Beschreibung der Abhängigkeit des biologischen Abbaus in einer Kläranlage als
Funktion der Tiefe, Belüftung, Nährstoffversorgung, Temperatur, pH,…
Regression: Ein Schritt in der Modellierung der Daten
Prof. Dr. Kai Uwe Totsche
Ökometrie I
Korrelation - Regression
10-27
Herunterladen