PowerPoint-Präsentation - Johannes Gutenberg

Werbung
Forschungsstatistik I
Prof. Dr. G. Meinhardt
WS 2007/2008
Fachbereich Sozialwissenschaften, Psychologisches Institut
Johannes Gutenberg Universität Mainz
Stunde 24.01.08
Themen der Stunde
• Partialkorrelation
• Multiple Korrelation und Regression
Deutungsmöglichkeiten der
bivariaten Korrelation
1. Kausalität: X1 X2
2. Latente Drittvariable:
x
x1
x2
3. Direkte und indirekte
Kausalität:
x
x1
x2
Partialkorrelation
Die Korrelation zweier Variablen, die vom Effekt anderer
(spezifizierter) Variablen bereinigt wurden.
Prüfung einer Kausalvermutung: rxy komme dadurch
zustande, daß z ursächlich auf x und y einwirkt:
rzx
x
z
G
G
rxy
rzy
y
Partialkorrelation
Prüfung
1. Sage x aus z voraus und berechne Residuen ex
2. Sage y aus z voraus und berechne Residuen ey
3. Berechne die Korrelation rexey
rexey
x
y
rxy
z
z
Ist Partialkorrelation (Korrelation rexey) Null, so beruht die
Korrelation rxy tatsächlich nur auf der Einwirkung von z.
Partialkorrelation
Y aus Z
X aus Z
ex und ey korrelieren:
[Tafelbeispiele]
Datenbeispiel
Sprachtest
120
115
X: Rechnen
Y: Sprache
Z: Förderdauer
110
105
100
rxy=.56
95
90
Rechentest
130
100
110
Rechentest
120
Sprachtest
120
125
115
120
110
115
110
105
105
rxz=.72
100
95
7.5
10
12.5
15
17.5
20
22.5
Fö rderdauer
100
ryz=.73
95
7.5
10
12.5
15
17.5
20
22.5
Fö rderdauer
Korreliert Rechen und Sprache nur, weil die Kinder Frühförderung erhalten haben?
Datenbeispiel: Korr. der Residuen
E Sprache
2
X: Rechnen
Y: Sprache
Z: Förderdauer
rxy.z=.07
1.5
1
0.5
-1.5
-1
-0.5
-0.5
0.5
E Rechnen
-1
-1.5
-2
Residuen:
ex  x  xˆ z  x   axz  z  bxz 
ey  y  yˆ z  y   a yz  z  byz 
Korrelation der Residuen:
rexe y 

Cov  ex , e y 
s  ex   s  e y 
rxy  rxz  ryz
1 r  1 r
2
xz
2
yz
 rxy . z
Ja: Ohne die Frühförderung sind Rechen- und Sprachleistung unabhängig!
[Tafelbetrachtung]
Multiple Regression
Ziele
• Schätzung eines Kriteriums aus einer
Linearkombination von Prädiktoren
• Mit konkreten Meßvariablen
• Information über die Wichtigkeit einzelner
Einflußgrößen im Kontext von Multikollinearität
Multiple Korrelation & Regression
Variable X, Y, Z: Sage Z aus X und Y vorher !
zˆ  0   x  x   y  y
Die ß- Koeffizienten müssen nach dem Kleinstquadratkriterium bestimmt werden!
Beobachtetes Kriterium
Allgemeine Schätzgleichung
Vorhergesagtes Kriterium
Modellformulierung
Schätzfehler:
Optimierungskriterium für die Regressionsgewichte:
wobei
Schätzung der Regressionsgewichte
Modellformulierung, standardisiert
Kriterium:
mit
die additive Konstante fällt weg, nur Gewichte für Prädiktoren
Schätzung der Regressionsgewichte
Lösung: Normalgleichungen
Vektorschreibweise:
Multipliziere nacheinander mit jedem Prädiktor, summiere über
Fälle und teile durch N, führt auf:
Schätzung der Regressionsgewichte
Normalgleichungen in Matrix Notation
System:
wobei:
Lösung: Inverse Prädiktorkorrelationsmatrix vormultiplizieren
Schätzung der Regressionsgewichte
3 Variablen Fall
Kleinstquadratkriterium:
  z  zˆ 
2
 min
Für den 3 Variablenfall (x,y,z) bequem nach
Standardisierung über Normalgleichungen zu lösen!
zˆz  bx  z x  by  z y
führt auf:
bx 
[Tafelrechnung]
rxz  rxy  ryz
1 r
2
xy
by 
ryz  rxy  rxz
1  rxy2
Multipler Korrelationskoeffizient
Bedeutung aus Varianzzerlegung:
Schätzung der Regressionsgewichte
Multipler Korrelationskoeffizient
Im 3 Variablenfall:
Rz . xy  bx  rxz  by  ryz
1) Ist die Korrelation der vorhergesagten Werte Ẑ
mit den beobachteten Werten Z
2) Ist immer größer oder gleich der größten Einzelkorrelation
3) Sein Quadrat gibt wieder den Anteil der Vorhersagevarianz
an der Gesamtvarianz an:
ErklärteVarianz
Fehlervarianz
R 
1
Gesamtvarianz
Gesamtvarianz
2
Multiple Korrelation & Regression
Interpretation
1) Sind die Prädiktoren unabhängig, so sind die ß-Gewichte
gleich den Kriteriumskorrelationen und die aufgeklärte
Varianz ist die Summe der Quadrate der ß-Gewichte
2) Sind die Prädiktoren abhängig (interkorreliert), so
unterscheiden wir 3 Fälle:
1.
2.
3.
Interpretation
Der Pädiktor enthält Information, die schon der andere Prädiktor
enthält: er ist redundant
Der Prädiktor unterdrückt irrelevante Varianzanteile in dem anderen
Prädiktor: er ist ein Suppressor
Der Prädiktor besitzt Kriteriumsvarianz, die der andere Prädiktor nicht
besitzt und unterdrückt irrelevante Varianz des anderen Prädiktors:
er ist valide und nützlich.
Interpretation der Lösung
1. Unabhängige Prädiktoren
Bei rein unabhängigen Prädiktoren sind die b- Gewichte identisch
mit den Kriteriumskorrelationen
Der multiple Determinationskoeffizient ist dann einfach die Summe
der quadrierten Kriteriumskorrelationen (=erklärter Varianzanteil)
Interpretation
Interpretation: abhängige Prädiktoren
Untersuchung der Abhängigkeit im Kontext von Multikollinearität
1. Bedeutet die Abhängigkeit Redundanz, d.h. messen die
vielen Variablen Aspekte gemeinsam, so daß man
prinzipiell weniger (latente) Variablen benötigt?
(unerwünschter Aspekt)
2. Erfassen die Abhängigkeiten Teile der Kontamination
der Variablen und wirken so optimierend auf die
gesamte Schätzgleichung (Suppressionseffekt,
erwünscht)?
Interpretation
Multiple Korrelation & Regression
Redundanz
Die Variable j ist redundant zur Vorhersage von Variable k,
Wenn gilt:
b j  rjk  rjk2
Nützlichkeit der Variable j zur Vorhersage von k:
U j  Rk212
k 1  j
 Rk212
k 1  j
U ist der Betrag, um den R2 wächst durch Aufnahme von
Variable j in die Gleichung.
Interpretation
[Tafelbeispiele]
Identifikation von Suppressionseffekten
Für mehr als 3 Variablen über die Nützlichkeit:
Variable j ist Suppressor, wenn gilt
U j  rjk2
Also die Zunahme der erklärten Varianz durch Aufnahme der
Variable muss grösser sein als die quadrierte einzelne Validität.
Für nur 3 Variablen (x,y,z) relativ einfach (z = Kriterium):
Variable y ist Suppressor, wenn gilt
rxz . y  rxz 
Interpretation
1- rxy2
1- ryz2
Multiple Korrelation & Regression
Suppression
rxz
ryz=0
rxy
X
Y
Z
Y „bindet“ irrelevante Kriteriumsinformation
Partialkorrelation rxz.y ist erheblich größer als rxz
[Berechnungsbeispiele, Venn-Diagramme]
Herunterladen