Ökometrie I 10 Korrelation - Regression Kai Uwe Totsche LS Hydrogeologie Friedrich-Schiller-Universität Jena Prof. Dr. Kai Uwe Totsche Ökometrie I Korrelation - Regression 10-1 Ziele und Lerninhalte Ziel dieser Einheit Zweidimensionale Stichproben Charakterisieren des Zusammenhangs Quantifizierung der Abhängigkeit/des Zusammenhangs Lerninhalte Kovarianz Korrelation Regression Autokorrelation Prof. Dr. Kai Uwe Totsche Ökometrie I Korrelation - Regression 10-2 Korrelation und Regression Mit den Verfahren der Korrelationsanalyse wird der Merkmalsausprägungen zweier Zufallsvariablen gemessen. Regressionsund Zusammenhang der (oder mehrerer) Mit der Korrelation wird dabei die Stärke eines (ungerichteten) Zusammenhanges, mit der Regression die Art eines (gerichteten) Zusammenhanges (Je-DestoBeziehung) gemessen. Prof. Dr. Kai Uwe Totsche Ökometrie I Korrelation - Regression 10-3 Korrelation und Korrelationsrechnung Die hierbei typischerweise gestellte Frage lautet: Wie stark ist der Zusammenhang der Merkmalsausprägung zweier (oder mehrerer) unabhängiger Zufallsvariablen Xi. Korrelation zwischen zwei Variablen beziehungsweise Korreliertheit zweier Zufallsvariablen ermöglicht es, den Merkmalswert einer Zufallsvariable durch den Merkmalswert einer anderen Zufallsvariable vorher zu sagen, ohne den funktionalen Zusammenhang zu kennen. Die Korrelation, und hier insbesondere auch die empirische Korrelation (keine Einschränkung bezüglich der Grundgesamtheit der Variablen), ist demnach die Grundlage für alle späteren Quantifizierungen der Beziehungen und des Zusammenhanges zwischen zwei Zufallsvariablen. Prof. Dr. Kai Uwe Totsche Ökometrie I Korrelation - Regression 10-4 Motivation: Zusammenhang zwischen Umweltdaten Gegeben: Zweidimensionale Stichprobe xi , yi x1 , y1 ,, xi , yi ,, xn , yn Messung/Bestimmung von zwei Merkmalen/Eigenschaften/ Größen an n Objekten Fragen: Besteht eine Beziehung (wechselseitige Abhängigkeit) zwischen den Merkmalen Wie stark/groß/straff ist die Beziehung „Stärke“ der Abhängigkeit Wird eine Größe von der anderen beeinflusst? Prof. Dr. Kai Uwe Totsche Ökometrie I Korrelation - Regression 10-5 Beispiel 1: Zusammenhang pH-Wert und Lagerungsdichte 1,50 db/pH 1,40 db [g cm-3] 1,30 1,20 1,10 1,00 0,90 0,80 0,70 5 5,2 5,4 5,6 5,8 6 6,2 6,4 pH Prof. Dr. Kai Uwe Totsche Ökometrie I Korrelation - Regression 10-6 Beispiel 2: Zusammenhang Corg und Fed-Wert 35,00 Fed [mg g-1] 30,00 25,00 20,00 Corg/Fed 15,00 10,00 5,00 0,00 0,00 10,00 20,00 30,00 40,00 50,00 Corg [mg kg-1] Prof. Dr. Kai Uwe Totsche Ökometrie I Korrelation - Regression 10-8 Beispiel 3: Zusammenhang Fed/o und Al d/o-Werte 35,00 Fed [mg g-1] 30,00 25,00 Ald/Fed 20,00 15,00 10,00 5,00 0,00 0,00 1,00 2,00 3,00 4,00 5,00 6,00 7,00 Ald [mg kg-1] 12,00 Feo [mg g-1] 10,00 8,00 Alo/Feo 6,00 4,00 2,00 0,00 0,00 2,00 4,00 6,00 8,00 10,00 12,00 14,00 Alo [mg kg-1] Prof. Dr. Kai Uwe Totsche Ökometrie I Korrelation - Regression 10-9 Beispiel 4: Zusammenhang CEC und Ca2+ CEC [cmolc kg] 12,70 10,70 CEC/Ca2+ 8,70 6,70 4,70 2,70 0,70 0,00 Prof. Dr. Kai Uwe Totsche 2,00 4,00 Ca2+ Ökometrie I 6,00 8,00 Korrelation - Regression 10,00 10-10 Korrelation, und Regression Aufgabe: Ermitteln des Zusammenhangs zwischen zwei Variablen Korrelation und Regression behandeln Zufallsexperimente, bei denen der Zusammenhang zweier Zufallsvariablen ermittelt wird. Unterschied liegt in der Art und Weise, wie wir die Beziehung der beiden Zufallsvariablen zueinander a-priori einschätzen. Regression: Variable Y abhängig von Variable X Korrelation: Beide Variablen (X,Y) gleichwertig Prof. Dr. Kai Uwe Totsche Ökometrie I Korrelation - Regression 10-11 Zusammenhangsmaße 1: Empirische Kovarianz 1 n cov x, y sxy x i x y i y n 1 i 1 Empirische Kovarianz: 12,70 1,50 db/pH kg] 1,40 10,70 2+ 1,20 1,10 1,00 0,90 cmol c 8,70 6,70 CEC [ db [g cm-3] 1,30 CEC/Ca 4,70 2,70 0,80 0,70 0,70 5 5,2 5,4 5,6 5,8 6 6,2 6,4 0,00 pH 4,00 6,00 Ca 8,00 2+ covx, y 2.259 covx, y 0.016 Prof. Dr. Kai Uwe Totsche 2,00 Ökometrie I Korrelation - Regression 10-12 10,00 Zusammenhangsmaße 2: Empirischer Korrelationskoeffizient Empirischer Korrelationskoeffizient: Normierung der Kovarianz auf: rxy sxy s2x s2y 1 r 1 +1 steigende Gerade -1 fallende Gerade x = const. und y = const. Grenzübergang: r = 0 Aufgemercht! Misst nur den linearen Zusammenhang Prof. Dr. Kai Uwe Totsche Ökometrie I Korrelation - Regression 10-13 Exkurs: Einfluss der Extremwerte 12,70 CEC/Ca 2+ 8,70 covx, y 2.259 cmol 6,70 CEC [ c kg] 10,70 4,70 rxy 0.884 2,70 0,70 0,00 2,00 4,00 6,00 Ca 8,00 2+ 10,00 12,70 CEC [cmolc kg] 10,70 CEC/Ca2+ cov x, y 0.964 rxy 0.762 8,70 6,70 4,70 2,70 0,70 0,00 Prof. Dr. Kai Uwe Totsche Ökometrie I 1,00 2,00 3,00 Ca2+ Korrelation - Regression 4,00 10-14 5,00 Exkurs 2: Autokorrelation – Serielle Korrelation Bei sequentieller Aufnahme/Messung in Raum und Zeit: Tendenz, das benachbarte Werte eine größere Ähnlichkeit aufweisen Bsp: Stündliche Temperaturmessungen in der Saale zeigen große Variation über lange Zeiträume - Sind sich aber ähnlich, wenn man stündliche Messungen miteinander vergleicht! Die Tendenz, das benachbarte Aufnahmen/Messungen in Raum und zeit eine größere Ähnlichkeit aufweisen wird Serielle Abhängigkeite bzw Autokorrelation bezeichnet Besondere Anwendung: Zeitreihenanalyse Räumliche Abhängigkeit: Geostatistik Prof. Dr. Kai Uwe Totsche Ökometrie I Korrelation - Regression 10-15 Regression und Regressionsanalyse In der Regressionsanalyse wird zwischen einer abhängigen und einer (oder mehrerer) unabhängiger Variablen unterschieden. Ziel der Regression ist es festzustellen, wie sich Änderungen der unabhängigen Variablen auf die abhängige Variable auswirken. Die Regressionsanalyse beschreibt also die Art des Zusammenhanges und ermöglicht über die reine Beschreibung hinaus eine Voraussage (Prädiktion). Prof. Dr. Kai Uwe Totsche Ökometrie I Korrelation - Regression 10-16 Umsetzung der Regressionsanalyse Schritt 1: Festlegung der ab- bzw. unabhängigen Variablen Schritt 2: Aufstellen des Modells Scatterplot, um erste Hinweise auf Art des Modells zu bekommen Schritt 3: Bestimmung der Parameter des Modells Methode der kleinsten Quadrate Schritt 4: Berechnung der Güte der Anpassung Bestimmtheitsmaß Prof. Dr. Kai Uwe Totsche Ökometrie I Korrelation - Regression 10-17 Beispieldaten: Texturanalyse Lockergestein no. sample bulk density CEC gS mS fS gU mU fU T [g/cm ] [m 2 g-1] [%] [cmol c kg-1] [%] [%] [%] [%] [%] [%] [%] 1,06 1,08 1,24 1,24 1,26 0,86 -99,00 -99,00 -99,00 1,28 1,24 1,23 1,33 1,28 1,14 1,14 1,34 1,30 1,16 -99,00 -99,00 -99,00 -99,00 -99,00 1,19 1,25 1,31 1,16 1,20 1,28 0,78 0,95 0,98 1,26 0,88 0,97 1,20 1,35 3,91 5,33 4,24 4,35 2,61 4,84 5,46 3,84 2,69 6 7,9 6,12 1,85 1,23 8 5,87 9,78 12,19 3,48 7,51 8,18 1,83 1,23 1,2 6,35 12,15 12,32 15,7 8,59 6,38 34,86 25,59 17,51 9,9 40 35,76 25,12 14,83 7,58 3,19 2,41 3,65 3,10 9,25 7,55 3,72 0,79 5,38 4,48 2,25 1,50 1,43 -99,00 -99,00 5,57 4,80 4,85 10,76 8,41 5,27 3,95 2,71 8,55 7,19 7,63 8,56 5,04 -99,00 10,70 8,73 5,81 4,84 10,78 8,32 6,72 4,38 4,70 3,19 2,47 4,04 2,65 11,71 4,39 1,45 0,61 4,80 4,49 3,32 1,14 0,48 2,23 0,87 6,08 3,45 1,75 2,54 3,07 1,17 0,71 0,23 1,65 2,18 3,46 3,85 3,07 4,07 1,24 2,72 1,87 1,10 2,73 2,92 2,41 1,57 21,1 22,9 16,0 21,2 13,9 9,2 14,6 36,7 63,9 10,7 9,2 18,1 44,0 42,8 11,6 6,7 11,1 13,6 11,0 4,0 5,0 23,3 53,0 52,0 17,5 11,5 16,7 8,0 7,7 9,5 3,3 3,4 4,6 20,5 1,3 2,3 3,9 23,4 20,5 25,2 29,4 29,3 41,9 18,2 20,8 19,8 20,0 21,7 24,0 31,0 35,0 36,8 25,5 42,6 23,5 21,2 30,7 14,2 18,5 42,3 21,5 28,7 26,3 25,5 22,7 30,2 46,6 50,1 7,4 7,9 14,2 25,5 3,6 5,1 12,9 20,7 18,0 19,4 25,0 22,9 18,8 21,6 18,8 11,7 5,3 21,5 19,3 17,9 9,5 10,3 21,7 26,1 23,3 28,3 33,5 27,5 25,5 14,7 10,8 8,3 22,0 22,7 16,6 21,9 23,1 18,1 13,9 17,0 33,4 23,0 9,4 12,0 13,1 15,7 8,8 7,1 7,2 4,3 3,9 7,3 6,1 4,4 2,0 3,6 4,5 4,1 1,4 1,5 5,2 3,1 7,0 6,2 6,6 9,9 11,5 4,9 1,9 1,7 4,4 6,7 3,5 2,0 2,5 2,5 4,5 12,9 9,2 6,6 11,9 8,6 8,8 5,8 8,7 7,4 7,2 7,8 9,2 11,2 8,8 6,9 2,0 7,5 8,1 7,3 2,2 1,1 8,7 5,5 7,7 6,4 6,6 12,2 11,7 4,8 2,8 1,9 10,4 10,4 8,6 7,6 5,6 7,4 14,9 16,1 10,7 7,9 13,5 13,5 12,7 9,2 9,2 5,8 5,6 5,6 4,9 12,5 11,5 7,0 1,6 11,2 11,2 7,6 2,2 1,5 10,9 5,0 8,1 6,2 4,0 13,1 11,1 4,0 3,5 1,8 8,8 8,0 10,5 8,6 5,7 5,2 21,1 13,0 9,2 5,6 16,5 15,6 15,7 9,5 13,9 12,2 9,5 9,0 7,5 20,1 19,4 13,5 5,2 23,9 23,5 13,8 5,7 5,9 16,4 11,0 19,3 18,1 7,6 19,1 16,7 6,0 6,5 5,7 10,5 15,2 21,4 21,6 8,7 7,3 35,0 29,6 18,7 11,0 43,9 43,0 33,0 15,8 3 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 PT034/1 PT034/2 PT034/3 PT034/4 PT034/5 PT034/6 PT035/1 PT035/2 PT035/3 PT036/1 PT036/2 PT036/3 PT036/4 PT036/5 PT037/1 PT037/2 PT038/1 PT038/2 PT038/3 PT039/1 PT039/2 PT039/3 PT039/4 PT039/5 PT040/1 PT040/2 PT040/3 PT040/4 PT040/5 PT040/6 PT041/1 PT041/2 PT041/3 PT041/4 PT041/5 PT041/6 PT041/7 PT041/8 Surface Glühverlust Analyse des Zusammenhangs von spezifischer Oberfläche und Tongehalt Welche ist die unabhängige Variable, welche die abhängige Variable? Prof. Dr. Kai Uwe Totsche Ökometrie I Korrelation - Regression 10-18 S [m2 g-1] Dateninspektion: Scatterplot Aufgrund der Form der Punktwolke wird ein linearer Zusammenhanges unterstellt (Punkte streuen bandförmig um eine gedachte Gerade). 50,0 45,0 40,0 35,0 30,0 25,0 20,0 15,0 10,0 5,0 0,0 Die gesuchte Geradengleichung wird mit Hilfe der linearen Regressionsanalyse bestimmt werden kann. 0 10 20 30 40 50 T [%] Linearer Zusammenhang (Modell: Geradengleichung) y a b x Hierbei bezeichnet y die abhängige Variable, a das Absolutglied (Achsenabschnitt, Intercept), b die Steigung (slope) und ε einen zufälligen Fehlerterm. Prof. Dr. Kai Uwe Totsche Ökometrie I Korrelation - Regression 10-19 Schätzung der Modellparameter Zu den gegebenen Wertepaaren (xi, yi) werden durch Minimierung der Residuen die entsprechenden Koeffizienten (a,b) geschätzt. ! yˆ y min i i yˆi a b x yi ŷi Methode der kleinsten Quadrate: Ziel ist es, die Summe der quadrierten Differenzen zwischen dem beobachteten Wert und dem vorhergesagten Wert (das Residuum) zu minimieren. Prof. Dr. Kai Uwe Totsche Ökometrie I Korrelation - Regression 10-20 Veranschaulichung yi Gesamtabweichung „Unerklärte“ Abweichung ŷi „Erklärte“ Abweichung y Prof. Dr. Kai Uwe Totsche Ökometrie I Korrelation - Regression 10-21 Beurteilung der Güte der Regression (I) Die Güte der Regressionsgeraden wird geprüft durch die Zerlegung der Streuung (= Varianz) in zwei Terme: „Residuenstreuung“ „Gesamtstreuung“ 2 2 2 ˆ ˆ y y y y y y i i i i i i i „erklärte Streuung“ (durch Gleichung bestimmt) Prof. Dr. Kai Uwe Totsche Ökometrie I Korrelation - Regression 10-22 Beurteilung der Güte der Regression (II) Als Maßzahl zur Beurteilung der Güte der Regressionsschätzung dient das Bestimmtheitsmaß r2. r2 2 ˆ yi y i 2 y y i i Es stellt das Verhältnis von erklärter Streuung zur Gesamtstreuung dar und ist beschränkt im Wertebereich (0 ≤ r2 ≤ 1). Prof. Dr. Kai Uwe Totsche Ökometrie I Korrelation - Regression 10-23 Motivation: Regressions-Analyse Wesentliche Aufgabe der Statistik: Quantifizierung des Zusammenhanges zwischen Umweltdaten Anpassung einer Funktion an Messdaten mit dem Ziel Vorhersage von zukünftigen Ereignissen Y als Funktion der Variablen X Quantifizierung des Einflusses von X auf Y um Y zu optimieren (Sensitivität – Response-Surfaces) Beispiel: Anpassen einer Kalibriergerade Unabhängiger Variable: Standard-Konzentrationen des Analyten, Abhängige Variable: Messsignal des Gerätes) Anpassen einer instationären, nichtlinearen Funktion Beschreibung der Abhängigkeit des biologischen Abbaus in einer Kläranlage als Funktion der Tiefe, Belüftung, Nährstoffversorgung, Temperatur, pH,… Regression: Ein Schritt in der Modellierung der Daten Prof. Dr. Kai Uwe Totsche Ökometrie I Korrelation - Regression 10-27