Forschungsstatistik I Prof. Dr. G. Meinhardt WS 2007/2008 Fachbereich Sozialwissenschaften, Psychologisches Institut Johannes Gutenberg Universität Mainz Stunde 24.01.08 Themen der Stunde • Partialkorrelation • Multiple Korrelation und Regression Deutungsmöglichkeiten der bivariaten Korrelation 1. Kausalität: X1 X2 2. Latente Drittvariable: x x1 x2 3. Direkte und indirekte Kausalität: x x1 x2 Partialkorrelation Die Korrelation zweier Variablen, die vom Effekt anderer (spezifizierter) Variablen bereinigt wurden. Prüfung einer Kausalvermutung: rxy komme dadurch zustande, daß z ursächlich auf x und y einwirkt: rzx x z G G rxy rzy y Partialkorrelation Prüfung 1. Sage x aus z voraus und berechne Residuen ex 2. Sage y aus z voraus und berechne Residuen ey 3. Berechne die Korrelation rexey rexey x y rxy z z Ist Partialkorrelation (Korrelation rexey) Null, so beruht die Korrelation rxy tatsächlich nur auf der Einwirkung von z. Partialkorrelation Y aus Z X aus Z ex und ey korrelieren: [Tafelbeispiele] Datenbeispiel Sprachtest 120 115 X: Rechnen Y: Sprache Z: Förderdauer 110 105 100 rxy=.56 95 90 Rechentest 130 100 110 Rechentest 120 Sprachtest 120 125 115 120 110 115 110 105 105 rxz=.72 100 95 7.5 10 12.5 15 17.5 20 22.5 Fö rderdauer 100 ryz=.73 95 7.5 10 12.5 15 17.5 20 22.5 Fö rderdauer Korreliert Rechen und Sprache nur, weil die Kinder Frühförderung erhalten haben? Datenbeispiel: Korr. der Residuen E Sprache 2 X: Rechnen Y: Sprache Z: Förderdauer rxy.z=.07 1.5 1 0.5 -1.5 -1 -0.5 -0.5 0.5 E Rechnen -1 -1.5 -2 Residuen: ex x xˆ z x axz z bxz ey y yˆ z y a yz z byz Korrelation der Residuen: rexe y Cov ex , e y s ex s e y rxy rxz ryz 1 r 1 r 2 xz 2 yz rxy . z Ja: Ohne die Frühförderung sind Rechen- und Sprachleistung unabhängig! [Tafelbetrachtung] Multiple Regression Ziele • Schätzung eines Kriteriums aus einer Linearkombination von Prädiktoren • Mit konkreten Meßvariablen • Information über die Wichtigkeit einzelner Einflußgrößen im Kontext von Multikollinearität Multiple Korrelation & Regression Variable X, Y, Z: Sage Z aus X und Y vorher ! zˆ 0 x x y y Die ß- Koeffizienten müssen nach dem Kleinstquadratkriterium bestimmt werden! Beobachtetes Kriterium Allgemeine Schätzgleichung Vorhergesagtes Kriterium Modellformulierung Schätzfehler: Optimierungskriterium für die Regressionsgewichte: wobei Schätzung der Regressionsgewichte Modellformulierung, standardisiert Kriterium: mit die additive Konstante fällt weg, nur Gewichte für Prädiktoren Schätzung der Regressionsgewichte Lösung: Normalgleichungen Vektorschreibweise: Multipliziere nacheinander mit jedem Prädiktor, summiere über Fälle und teile durch N, führt auf: Schätzung der Regressionsgewichte Normalgleichungen in Matrix Notation System: wobei: Lösung: Inverse Prädiktorkorrelationsmatrix vormultiplizieren Schätzung der Regressionsgewichte 3 Variablen Fall Kleinstquadratkriterium: z zˆ 2 min Für den 3 Variablenfall (x,y,z) bequem nach Standardisierung über Normalgleichungen zu lösen! zˆz bx z x by z y führt auf: bx [Tafelrechnung] rxz rxy ryz 1 r 2 xy by ryz rxy rxz 1 rxy2 Multipler Korrelationskoeffizient Bedeutung aus Varianzzerlegung: Schätzung der Regressionsgewichte Multipler Korrelationskoeffizient Im 3 Variablenfall: Rz . xy bx rxz by ryz 1) Ist die Korrelation der vorhergesagten Werte Ẑ mit den beobachteten Werten Z 2) Ist immer größer oder gleich der größten Einzelkorrelation 3) Sein Quadrat gibt wieder den Anteil der Vorhersagevarianz an der Gesamtvarianz an: ErklärteVarianz Fehlervarianz R 1 Gesamtvarianz Gesamtvarianz 2 Multiple Korrelation & Regression Interpretation 1) Sind die Prädiktoren unabhängig, so sind die ß-Gewichte gleich den Kriteriumskorrelationen und die aufgeklärte Varianz ist die Summe der Quadrate der ß-Gewichte 2) Sind die Prädiktoren abhängig (interkorreliert), so unterscheiden wir 3 Fälle: 1. 2. 3. Interpretation Der Pädiktor enthält Information, die schon der andere Prädiktor enthält: er ist redundant Der Prädiktor unterdrückt irrelevante Varianzanteile in dem anderen Prädiktor: er ist ein Suppressor Der Prädiktor besitzt Kriteriumsvarianz, die der andere Prädiktor nicht besitzt und unterdrückt irrelevante Varianz des anderen Prädiktors: er ist valide und nützlich. Interpretation der Lösung 1. Unabhängige Prädiktoren Bei rein unabhängigen Prädiktoren sind die b- Gewichte identisch mit den Kriteriumskorrelationen Der multiple Determinationskoeffizient ist dann einfach die Summe der quadrierten Kriteriumskorrelationen (=erklärter Varianzanteil) Interpretation Interpretation: abhängige Prädiktoren Untersuchung der Abhängigkeit im Kontext von Multikollinearität 1. Bedeutet die Abhängigkeit Redundanz, d.h. messen die vielen Variablen Aspekte gemeinsam, so daß man prinzipiell weniger (latente) Variablen benötigt? (unerwünschter Aspekt) 2. Erfassen die Abhängigkeiten Teile der Kontamination der Variablen und wirken so optimierend auf die gesamte Schätzgleichung (Suppressionseffekt, erwünscht)? Interpretation Multiple Korrelation & Regression Redundanz Die Variable j ist redundant zur Vorhersage von Variable k, Wenn gilt: b j rjk rjk2 Nützlichkeit der Variable j zur Vorhersage von k: U j Rk212 k 1 j Rk212 k 1 j U ist der Betrag, um den R2 wächst durch Aufnahme von Variable j in die Gleichung. Interpretation [Tafelbeispiele] Identifikation von Suppressionseffekten Für mehr als 3 Variablen über die Nützlichkeit: Variable j ist Suppressor, wenn gilt U j rjk2 Also die Zunahme der erklärten Varianz durch Aufnahme der Variable muss grösser sein als die quadrierte einzelne Validität. Für nur 3 Variablen (x,y,z) relativ einfach (z = Kriterium): Variable y ist Suppressor, wenn gilt rxz . y rxz Interpretation 1- rxy2 1- ryz2 Multiple Korrelation & Regression Suppression rxz ryz=0 rxy X Y Z Y „bindet“ irrelevante Kriteriumsinformation Partialkorrelation rxz.y ist erheblich größer als rxz [Berechnungsbeispiele, Venn-Diagramme]