Multikollinearität - Universität Freiburg

Werbung
7. Sitzung
Multikollinearität
Wann spricht man von Multikollinearität?
 Wenn zwei oder mehrere erklärende Variablen in einem linearen
Zusammenhang zueinander stehen.
 Dabei ist die zugrundeliegende Frage nicht, ob Multikollinearität
besteht oder nicht, sondern wie stark diese ausgeprägt ist.
 Da sich Multikollinearität auf die nicht stochastischen exogenen
Variablen bezieht, ist sie eine Eigenschaft der Stichprobe und nicht
der Grundgesamtheit.
Einige Faustregeln zur Erkennung von Multikollinearität:
1. Hohes R2, bei gleichzeitig insignifikanten t-Werten
2. Bei zwei erklärenden Variablen: der Korrelationskoeffizient ist
hoch, d.h. > 0.8
3. Bei mehr als zwei erklärenden Variablen: Überprüfung der
partiellen Korrelationskoeffizienten
4. Um in einer Mehrfachregression zu prüfen, welche Variablen sich
wie beeinflussen, kann eine Hilfsregression durchgeführt werden
1
Alexander Spermann
Universität Freiburg
7. Sitzung
Multikollinearität
Beispiel :
Hohe Korrelation zwischen erklärenden Variablen x1 und x2
kann ein Indiz für Multikollinearität sein
Sichtbar an: r1,2  1 (Korrelationskoeffizient misst die lineare
Abhängigkeit zwischen zwei exogenen Variablen; hier = 0,977, d.h.
hoch)
2
Alexander Spermann
Universität Freiburg
7. Sitzung
Multikollinearität
Eigenschaften:
 Perfekte Multikollinearität liegt fast nie vor
 Wird Multikollinearität „diagnostiziert“, handelt es sich dabei
meistens um sog. imperfekte Multikollinearität, d.h. den erklärenden
Daten – exogenen Variablen – mangelt es an Informationsgehalt
 Multikollinearität bedeutet nicht zwingend schlechte Datenqualität,
wenn z.B. die Störgröße einen geringen Einfluss hat
3
Alexander Spermann
Universität Freiburg
7. Sitzung
Multikollinearität
 Je höher die Multikollinearität, umso höher die Varianz der
Schätzer
 Bei Regression mit zwei erklärenden Variablen lautet Varianz von
b1:
2
Var (b1 ) 

2
2
s11
(1  r12
)
 Hohe Multikollinearität kann durch große Variation s211 oder durch
geringe Störgrößenvarianz 2 kompensiert werden:
4
Alexander Spermann
Universität Freiburg
7. Sitzung
Multikollinearität
Allgemein gilt: Genauigkeit eines Schätzers ist um so größer (Varianz
und Standardfehler umso kleiner), je größer die Varianz der
erklärenden Variablen ist.
5
Alexander Spermann
Universität Freiburg
7. Sitzung
Multikollinearität
Multikollinearität kann nicht nur in einer Zweifach-, sondern auch in
einer Mehrfachregression vorliegen:
y =  +... + ß1 ·x1 + ß2 ·x2 + ß3 ·x2 2 + ß4 ·x4 + u,
x1 = Schuljahre, x2 = Berufserfahrung, x3 = x2 2 , x4 = Alter
 Wenn der Korrelationskoeffizient in einer Regression mit zwei exogenen
Variablen ein Indikator für Multikollinearität war, ist es nun das
Bestimmtheitsmaß R24_123...n einer sog. Hilfsregression in Falle von
Mehrfachregressionen, wobei n für die mögliche Anzahl der exogenen
Variablen steht:
x4 =  +... + ß1 ·x1 + ß2 ·x2 + ß3 ·x2 2 + u,
x4 = Alter
Interpretation: R24_123...n misst die Erklärungskraft der Variablen x1 , x2
usw. für die Werte der Variable x4 , wobei hohes R24_123..n hohe
Multikollinearität signalisiert
 Analoge Berechnung der Bestimmtheitsmaße für alle exogenen Variablen
der Mehrfachregression
6
Alexander Spermann
Universität Freiburg
7. Sitzung
Multikollinearität
Beispiel :
r4_12...n = 0.999787
7
Alexander Spermann
Universität Freiburg
7. Sitzung
Multikollinearität
Praktische Konsequenzen der Multikollinearität:

Trotz der BLUE-Eigenschaft, besitzen die OLS-Schätzer große
Varianzen sowie Kovarianzen, was ihre Schätzgenauigkeit
beeinträchtigt

Die hohen Varianzen bzw. Kovarianzen führen zu breiten
Konfidenzintervallen, und somit zu
- einer höheren Akzeptanz der Nullhypothese: Ho=0 ,
d.h. Irrtumswahrscheinlichkeit  für den Fehler 2. Art – falsche
Hypothese wird nicht verworfen – steigt
- insignifikanten t-Werte, trotz hohen Bestimmtheitsmaßes R2
8
Alexander Spermann
Universität Freiburg
7. Sitzung
Multikollinearität
Darstellung von Varianzen und Kovarianzen einzelner Variablen
einer Zweifachregression:
G
L
C
A
B
 Keine Überschneidung
zwischen den
Variationen
der zwei exogenen
Variablen:
Variablen unabhängig,
KEINE
Multikollinearität 
Überschneidungen mit
der endogenen Variable
(A und B) dienen zu
Parameterschätzung
9
E D
F
H J
I
K
 Überschneidungen E und F:
geringe Multikollinearität
 Lediglich C und D liefern
Informationen für die
Parameterschätzung
 Informationen in E sind den
exogenen Variablen nicht
individuell zurechenbar:
gemeinsamer Einfluss
 G ist Variation der endogenen
Variable, die nicht durch die
exogenen Variablen erklärt
werden
kann: Einfluss der Störgrößen
 Überschneidungen J und K
zwischen den Variationen
der exogenen Variablen
 J > E , aber L < G: d.h.
stärkere Multikollinearität,
ABER höhere
Erklärungsgüte
 H und I liefern
Informationen
für die Parameterschätzung
Alexander Spermann
Universität Freiburg
7. Sitzung
Multikollinearität
Veranschaulichung der Folgen anhand der Variablen
Berufserfahrung und Alter
y =  +... + ß1 ·x1 + ß2 ·x2 + ß3 ·x2 2 + ß4 ·x4 + u,
x1 = Schuljahre, x2 = Berufserfahrung, x3 = x2 2 , x4 = Alter
 Schwierigkeiten, getrennte Effekte beider Variablen
nachzuweisen
 ungenaue Schätzer, d.h. sehr hohe Varianz
 niedrige t-Werte, insignifikante Koeffizienten
10
Alexander Spermann
Universität Freiburg
7. Sitzung
Multikollinearität
11
Alexander Spermann
Universität Freiburg
7. Sitzung
Multikollinearität
Interpretation des Outputs, bei dem zwei erklärende Variablen
– Alter und Berufserfahrung - hoch korreliert sind:
 Die Koeffizienten für die korrelierten Variablen sind nicht signifikant
von Null verschieden, da die Werte der t-Statistik I t I < 2 sind:
I tAlter I = 1,06 und I tBerufserf I = 1,38
 Auch haben die Variablen Alter und Berufserfahrung
vergleichsweise hohe Standardfehler
 Die -Fehlerwahrscheinlichkeit ist mit Prob.Alter=29% und
Prob.Berufserf=17% hoch
 Insignifikant
Lösungen?
12
Alexander Spermann
Universität Freiburg
7. Sitzung
Multikollinearität
1. Lösungsansatz: Erhöhung der Anzahl der Observationen
- Zeitreihen: z.B. Quartalsdaten statt Jahresdaten
- Querschnitt: z.B. OECD statt G7
- Paneldaten
2. Lösungsansatz: Erhöhung der Varianz der exogenen Variablen
3. Lösungsansatz: Indexbildung für ähnliche exogene Variablen
4. Lösungsansatz: Entfernen einer der korrelierten Variablen, kann
allerdings auch zu Verzerrung der Schätzung führen, falls die exogene
Variable trotz Korrelation einen großen Erklärungsgehalt hat
13
Alexander Spermann
Universität Freiburg
Herunterladen