Regressionanalyse SoSe 2016

Werbung
Annahmen deslinearenRegressionsmodells(LRM)
1.
Variabilitätinx i
–
2.
Linearität
–
–
3.
4.
KeineKorrelationzwischendenerklärendenVariablenundderStörgröße
Homoscedastizität
–
9.
ZahlderzuschätzenderParameter(J+1) istkleiner,alsdieZahldervorliegendenBeobachtungen(N)
StörgrößenhabendenErwartungswertNull
KeineKovarianzzwischenx i undui
–
8.
ModellenthältdierelevantenerklärendenVariablen
Stichprobeistgrößer,alsdieAnzahlderRegressoren
–
6.
7.
inVariablen
inParametern
MetrischesNiveauderRegressoren
KorrekteSpezifizierungvomModell
–
5.
!
xi müssenvariieren:Var(xi) > 0
StörgrößenhabeneinekonstanteVarianz
KeineAutokorrelation
–
Störgrößensindunkorelliert
10. KeineMultikollinearität
–
ZwischendenerklärendenVariablenbestehtkeinelineareAbhängigkeit
11. NormalverteilungderStörgrößen
FixierteWertevonx i imwiederholtenSampling
Jun.-Prof. Dr. Paul Marx | Universität Siegen
Regressionsanalyse
Folie 192
NaturderMultikollinearität
p PerfekteMultikollinearität=exaktelineareBeziehungzwischeneinigenoderallen
erklärendenVariablendesRegressionsmodells:
λ0 + λ1 x1 + λ2 x2 + ... + λk xk = 0,
mit 𝜆i = const; nichtalle𝜆i=0 gleichzeitig
p M.a.W.derpaarweiseKorrelationskoeffizientr=1
p PerfekteMultikollinearitäthatzurFolge,dassdieRegressionskoeffizientenicht
bestimmbarsind.DerStandardfehlerderRegressorsistdabeigleichUnendlichkeit.
p Z.B.FürdenFalleinerRAmitzweiVariablenmit
β1 =
(∑ yi x1i )(∑ x22i ) − (∑ yi x2i )(∑ x1i x2i )
β1 =
(∑ yi x1i )(∑ [λx1i ]2 ) − (∑ yi λx1i )(∑ x1i λx1i )
x2i = λ ⋅ x1i
(∑ x12i )(∑ x22i ) − (∑ x1i x2i ) 2
(∑ x12i )(∑ [λx1i ]2 ) − (∑ x1i [λx1i ]) 2
λ2 (∑ yi x1i )(∑ x1i 2 ) − λ2 (∑ yi x1i )(∑ x1i 2 ) 0
=
=
λ2 (∑ x12i )(∑ x12i ) − λ2 (∑ x12i ) 2
0
Jun.-Prof. Dr. Paul Marx | Universität Siegen
Regressionsanalyse
Folie 193
NaturderMultikollinearität
p Warumnichtbestimmbar?(LogischeErklärung)
p 𝛽i =EinflussstärkedesRegressorsxi,beixj,j≠i = const
p BeiperfekterMultikollinearitätverändertsichx2 mitx1 zwingendumdenFaktor𝜆,sodass
dieBedingungx2 = const nichterfülltwerdenkann.
p x2 undx1 sindfürpraktischeZweckenichtunterscheidbar.
p DerEffektderenlinearenKombinationkannjedochermitteltwerden:
x2i = λ ⋅ x1i
yi = β 0 + β1 x1i + β 2 x2i + ui = β 0 + β1 x1i + β 2 (λx1i ) + ui = β 0 + ( β1 + λβ 2 ) x1i + ui
yi = β 0 + α x1i + ui
mit α = β1 + λβ 2
Jun.-Prof. Dr. Paul Marx | Universität Siegen
Regressionsanalyse
Folie 194
NaturderMultikollinearität
p PerfekteMKkommtseltenvor.DerMultikollinearitätwirdhoheKorrelationgleichgesetzt:
λ1 x1 + λ2 x2 + ... + λk xk +ν i = 0, mit 𝜈i = stochastischer Fehlerterm
p BeinahezuperfekterMKkönneneinzelneRegressionskoeffizientengeschätztwerden:
x2i = λ ⋅ x1i +ν i
2
β1 =
2
(∑ yi x1i )(λ2 ∑ x1i + ∑ν i2 ) − (λ ∑ yi x1i + ∑ yiν i2 )(λ ∑ x1i )
2
1i
∑x
2
(λ
∑x
1i
2
2
i
2
+ ∑ν ) − (λ ∑ x1i )
∑x ν
1i i
=0
p Regressionskoeffizienteweisendabeieinensehrhohen(imVergleichzudenKoeffizienten
selbst)Standardfehlerauf.D.h.siekönnennurmiteinerniedrigenGenauigkeitgeschätzt
werden.
Jun.-Prof. Dr. Paul Marx | Universität Siegen
Regressionsanalyse
Folie 195
NaturderMultikollinearität
Beispiel:
SPSS-Datensatz: Mutikollinearität
x1
10
15
18
24
30
x2
x3
50
75
90
120
150
52
75
97
129
152
x1i = 5x2i :perfekteMultikollinearität
x3i := x2i + zufällige Zahlen {2, 0, 7, 9, 2} :Multikollinearitätmit r=0,9959
Jun.-Prof. Dr. Paul Marx | Universität Siegen
Regressionsanalyse
Folie 196
NaturderMultikollinearität
p Venn-Diagramma.k.a.Ballentine view of multicollinearity
p Akanneindeutig x1 zugeordnetwerden
p Information ausdieserFlächewirdfür
dieSchätzungvon𝛽1 verwendet
p Varianziny, diex1 erklärt
y
A
B
p Bkanneindeutigx2 zugeordnetwerden
p InformationausBwirdfürdie
Schätzungvon𝛽2 verwendet
p Varianziny,diex2 erklärt
C
x1
x2
D
StreuungeinerVariablen
p Ckannwederx1 nochx2 eindeutigzugeordnet
werden
p inCundD:Multikollinerität
2
SS y = ∑ ( yk − y ) 2 SS x j = ∑ ( x jk − x )
Jun.-Prof. Dr. Paul Marx | Universität Siegen
Regressionsanalyse
Folie 197
NaturderMultikollinearität
y
y
x1
x1
x2
KeineMultikollinearität
NiedrigeMultikollinearität
y
x1
x2
y
x2
x2
x1
MittlereMultikollinearität
Jun.-Prof. Dr. Paul Marx | Universität Siegen
SehrhoheMultikollinearität
Regressionsanalyse
Folie 198
FolgenderMultikollinearität
1. HoheStandardfehlerderSchätzer=>UnmöglichkeitpräziserSchätzungder
RegressionskoeffizientenundgenauerVorhersagemittelsRegressionsfunktion
2. BreitereKonfidenzintervalle =>höhereWahrscheinlichkeitderAnnahmefalscherHypothese
[FehlerIIArt]
3. t-WerteinesodermehrererKoeffiziententendiertzuNicht-Signifikanz
4. Hohesundsignifikantesr2 trotzNicht-Signifikanzimt-Test
5. RegressionskoeffizientenundStandardfehlersindsehrsensibelzukleinenVeränderungenin
denDaten
–
Ändern/Entfernen/HinzufügenderDatenpunkteund/oderunabhängigerVariablen
Jun.-Prof. Dr. Paul Marx | Universität Siegen
Regressionsanalyse
Folie 199
FolgenderMultikollinearität
Beispiel:
BoxOffice = 𝛽0 + 𝛽1 ・ Marketingbudget + 𝛽2 ・ Anzahl_Leinwände
nichtsignifikant
Konsum = 𝛽0 + 𝛽1 ・ Einkommen+ 𝛽2 ・ Vermögen
nichtsignifikant
Jun.-Prof. Dr. Paul Marx | Universität Siegen
Regressionsanalyse
Folie 200
QuellenderMultikollinearität
1. InduziertdurchDatenerhebungsmethode
–
Z.B.SamplingüberbegrenztenWertebereich vonRegressoren
2. Modell- bzw.PopulationsinhärenteGrenzen
–
Z.BRegressiondesElektrizitätskonsumaufEinkommen:Familien mithöheremeinkommenhaben
tendenziell größereHäuser
3. Modellspezifikation
–
Z.B.hinzufügenpolynomischerRegressoren,insb.beikleiner VarianzinunabhängigerVariable
(y = 𝛽0 + 𝛽1 x + 𝛽2 x2 + 𝛽3 x3)
4. ÜberspezifiziertesModell
–
Z.B.wenndieAnzahlvonRegressorengrößerodernahandieAnzahlvonBeobachtungsfällenist
5. GemeinsamerTrendinZeitreihen
–
Z.B.inRegressionvomKonsumaufEinkommen,WohlstandundBevölkerungkönnendie
unabhängigenVariableneinemehroderwenigergleiche Wachstumsrateaufweisen
Jun.-Prof. Dr. Paul Marx | Universität Siegen
Regressionsanalyse
Folie 201
HeuristikenzumAufdecken derMutlikollinearität
p Hohesr2 undvielenichtsignifikantet-Werte
p HoheKorrelationskoeffizienten(>|0,8|)zwischenunabhängigenVariablen
–
nurpaarweiseKorrelation;hochgradigeMKwirdnichtaufgedeckt
p HohepartielleKorrelationen
–
Nichtimmereffizient,dapartielle KorrelationistmiteinigenMK-Muster„kompatibel“
p Hilfsregressionen:RegressionjederunabhängigerVariableaufallerestlichenRegressoren
–
–
rj2 =1inHilfsregression bedeutet,dasseinRegressorsichdurchLinearkombinationanderer
Regressorenerzeugenlässtundistsomitüberflüssig
rj2 istmultipler Korrelationskoeffizient.Beihohemrj2 inHilfsregression bestehteinehohe
hochgradigeMultikollinearität
Jun.-Prof. Dr. Paul Marx | Universität Siegen
Regressionsanalyse
Folie 202
HeuristikenzumAufdecken derMutlikollinearität
Toleranz
Tj =
1
= 1 − rj2
VIFj
0 < Tj < 1
p JenäherTj an0,destohöheristderGradderMultikollinearitätderbetrachtetenVariable.
p JenäherTj an1,destoniedrigeristderGradderMultikollinearitätderbetrachteten
Variable.
p AufgrunddesdirektenZusammenhangeszuVIF geltenfürTj dieselbenRestriktionen
Jun.-Prof. Dr. Paul Marx | Universität Siegen
Regressionsanalyse
Folie 203
HeuristikenzumAufdecken derMutlikollinearität
Variance InflationFactor (VIF)=KehrwertvonToleranz
VIFj =
1
1 − rj2
mitrj2 - Bestimmtheitsmaß(r2) derHilfsregressionder
unabhängigenVariablexj aufdieübrigenRegressoren
inderRegressionsfunktion
p BeizunehmenderMKvergrößernsichdieVarianzenvonRegressionskoeffizientenumdiesen
Faktor.DieGenauigkeitderSchätzwertenimmtdemzufolgeab.
p BeiVIF > 2 wirdMultikollinearitätbeiderbetrachtetenVariablevermutet
p BeiVIF > 10 istdieMultikollinearität„zuhoch“
p Nachteil:VIF kanndurchkleinenStandardfehleroderhoheQuadratensummevonxi
ausgeglichenwerden.InsofernisthoherVIFwedernotwendignochgenügendfürhohe
VarianzoderfürhohenStandardfehler.DiedurchdenVIFgemessenehoheMultikollinearität
mussnichtunbedingthoheStandardfehlerverursachen.
Jun.-Prof. Dr. Paul Marx | Universität Siegen
Regressionsanalyse
Folie 204
HeuristikenzumAufdecken derMutlikollinearität
EigenwerteundKonditionsindex
KI =
ma ximaler Eigenwert
mi nimaler Eigenwert
10 < KI < 30 – moderateMultikollinearität
KI > 30
– hoheMultikollinearität
Jun.-Prof. Dr. Paul Marx | Universität Siegen
Regressionsanalyse
Folie 205
HeuristikenzumAufdecken derMutlikollinearität
KonstanteVariable: xi = const füralle i
SpeziellerFallderMultikollinearität:
p KeineVarianzinderVariable
p perfekteMKzumkonstantenGliedderRegressionsgleichung
p MöglicheWirkungeinerkonstantenVariablekannnichtfestgestelltwerden
–
KeineVariation=keineInformation
p AuchbeigeringenVariationinderVariablewirddieSchätzungungenauundunzuverlässig
sein
–
ZurErinnerungsieheVariablePreisimMargarinebeispiel
Jun.-Prof. Dr. Paul Marx | Universität Siegen
Regressionsanalyse
Folie 206
AnalysederMultikollinearität inSPSS
Korrelationsmatrix
PartielleKorrelationen,
VIF,Toleranz
Eigenwerte,
Konditionsindex
Jun.-Prof. Dr. Paul Marx | Universität Siegen
Regressionsanalyse
Folie 207
Multicollinearity:Muchado about nothing?
Beginningstudentsofmethodologyoccasionallyworrythattheirindependentvariablesare
correlated– theso-calledmulticollinearityproblem.Butmulticollinearityviolatesno
regressionassumptions.Unbiased,consistentestimateswilloccur,andtheirstandarderrors
willbecorrectlyestimated.Theonlyeffectofmulticollinearityistomakeithardtoget
coefficientestimateswithsmallstandarderror.Buthavingasmallnumberofobservations
alsohasthateffect,asdoeshavingindependentvariableswithsmallvariances.(Infact,ata
theoreticallevel,multicollinearity,fewobservationsandsmallvariancesofindependent
variablesareessentiallyallthesameproblem.)Thus„WhatshouldIdoabout
multicollinearity?“isaquestionslike„WhatshouldIdoifIdon‘thavemanyobservations?“
Nostatisticalanswercanbegiven.
(Achen 1982)
ChristopherH.Achen (1982):InterpretingandUsingRegession,SagePublications,BeverlyHills,Calif.,1982,pp.82-83.
Whenstudentsruntheirfirstordinaryleastsquares(OLS)regression,thefirstproblemthat
theyusuallyencounteristhatofmulticollinearity.Manyofthemconcludethatthereis
somethingwrongwithOLS;someresorttonewandoftencreativetechniquestogetaround
theproblem.But,wetellthem,thisiswrong.MulticollinearityisGod’swill,notaproblemof
OLSorstatisticaltechniqueingeneral.
(Balnchard 1967)
Jun.-Prof. Dr. Paul Marx | Universität Siegen
Regressionsanalyse
Folie 208
UmgangmitMultikollinearität
Alternativen:
p Ignorieren
p Multikollinearitätreduzieren
1.
2.
3.
4.
5.
6.
7.
a-prioriInformationnutzen
KombinationvonPaneldatenmitZeitreihen
Eliminieren vonVariablen(Spezifizierungsfehler)
TransformationvonVariablen
Daten-Nacherhebung
Spezialfall:Multikollinearität inpolynominalen Regressionen
AndereMethoden
Jun.-Prof. Dr. Paul Marx | Universität Siegen
Regressionsanalyse
Folie 209
Reduktion von MK: a-priori Information nutzen
yi = β 0 + β1 x1i + β 2 x2i + ui
mit
y
:Konsum,€
x1
:Einkommen
x2
:Vermögen
HoheKollinearität
p (z.B.)AusvorherigenStudienistbekannt,dassEinkommenbeeinflusstKonsum10Mal
stärkeralsVermögen,d.h.
𝛽2 = 0,10 ・ 𝛽1 (*)
Danngilt:
yi = β 0 + β1 x1i + 0,10 β 2 x2i + ui = β 0 + β1 xi + ui (**)
mitxi = x1i + 0,1 ・ x2i
p NachderBerechnungvon𝛽1 aus(**)kann𝛽2 aus(*)bestimmtwerden
Jun.-Prof. Dr. Paul Marx | Universität Siegen
Regressionsanalyse
Folie 210
Reduktion von MK: Kombination von Paneldaten mit
Zeitreihen
Beispiel: AbsatzvonAutosindenUSA
ln yt = β 0 + β1 ln Pt + β 2 I 2t + ut
mit
y
P
I
t
:StückzahlabgesetzterAutos
:durchschnittlicher Preis
:Einkommen
:Zeit
HoheKollinearität
p Ziel:SchätzungderPreiselastizität(𝛽1) undderEinkommenselastizität(𝛽2)
p Tobin‘s Methode:If we have cross-sectional data (for expamle,data generated by consumer
panels,or budget studies conducted by various privateor governmental agencies),we can
obtain afairly reliable estimate of the income elasticity (𝛽2)because insuchdata,which are
atapoint intime,prices donotvary much.
Tobin(1950)
Jun.-Prof. Dr. Paul Marx | Universität Siegen
Regressionsanalyse
Folie 211
ReduktionvonMK:KombinationvonPaneldatenmit
Zeitreihen
ln yt = β 0 + β1 ln Pt + β 2 I 2t + ut
^
p BerechneEinkommenselastizität(𝛽2)ineinervorgeschaltetenRegressionvomAbsatzauf
Einkommen.
p NunkönnenwirdenSchätzerfürdiePreiselastizität(𝛽1)ermitteln:
Yt * = β 0 + β1 ln Pt + ut
mit Y * = ln yt − βˆ2 ln I
p Y* stelltdenWertvon y nachderSubtraktionvomEffektdesEinkommensdar
p Problem:impliziteAnnahme,dass
Jun.-Prof. Dr. Paul Marx | Universität Siegen
Regressionsanalyse
Folie 212
Reduktion von MK: Eliminieren von Variablen
p EliminiereneinerVariableführtzumSpezifizierungsfehler
yi = β 0 + β1 x1i + β 2 x2i + ui
Hohe Kollinearität
yi = b0 + b11 x1i + uˆi
p dann
E(b11 ) = β1 + β2b21
p mitb21 =SteigungskoeffizientinderRegressionvonx2 aufx1.
p b11 wirddahereinfehlerbehafteterSchätzervon𝛽1 sein,solangeb21 ≠0.
• 𝛽2 ≠ 0,dasonstgibteskeinenGrundfürEinschlussvonx2 indieRegressionsfunktion
• Wenn b 21 =0,gibteskeineMultikollinearitätundsomitkeinenGrundfür„Tricks“
p Wenn𝛽2 b21 > 0 → (b11 > 𝛽1 ) → Überschätzungvon𝛽1
p Wenn𝛽2 b21 < 0 → (b11 < 𝛽1 ) → Unterschätzungvon𝛽1
Jun.-Prof. Dr. Paul Marx | Universität Siegen
Regressionsanalyse
Folie 213
Reduktion von MK: Transformation von Variablen
Beispiel: Zeitreihen
p WennderAusdruck yt = β 0 + β1 x1t + β 2 x2t + ut giltfürdenZeitpunktt,danngilterauch
fürdenZeitpunktt-1.
p D.h.esgilt
yt −1 = β 0 + β1 x1t −1 + β 2 x2t −1 + ut −1
p SubtraktionvomzweitenAusdruckausdemerstenreduziertoftdieMultikollinearität
yt − yt −1 = β1 ( x1t − x1t −1 ) + β 2 ( x2t − x2t −1 ) + (ut − ut −1 )
y* = β1 x1* + β 2 x2* + u *
p Probleme
–
–
–
ReduktionderFreiheitsgrade (um1)– besonderswichtigankleinenSampeln
NichtanwendbaraufDatenohnelogischer Anordnung
Fehlertermistoftautokorelliert
Jun.-Prof. Dr. Paul Marx | Universität Siegen
Regressionsanalyse
Folie 214
ReduktionvonMK:TransformationvonVariablen
p Beispiel: pro„…“Größen
p EineSinnvolleRelationkannMKreduzieren.
yt = β 0 + β1 x1t + β 2 x2t + ut
mity =Konsum,x2 =BIP,x2 =Bevölkerung
p Transformationzuper-capita (pro-Kopf)-Größen(teilendurchx2)
⎛ 1
yt
= β 0 ⎜⎜
x2t
⎝ x2t
⎞
⎛x
⎟⎟ + β1 ⎜⎜ 1t
⎠
⎝ x2t
⎞
⎛u
⎟⎟ + β 2 + ⎜⎜ t
⎠
⎝ x2t
⎞
⎟⎟
⎠
p Problem
–
Fehlertermistheteroskedastisch insb.wenn„originaler“ Fehlertermhomoskedastisch
Jun.-Prof. Dr. Paul Marx | Universität Siegen
Regressionsanalyse
Folie 215
ReduktionvonMK:Daten-Nacherhebung
p ZusätzlicheDatenreduzierendieVarianz(undsomitdenStandardfehler)der
Regressionskoeffizienten,wodurchdieGenauigkeitderSchätzungerhöhtwird:
var( β1 ) =
σ2
2
1i
∑x
(1 − r122 )
FürdenFallmit
2Regressoren
p Probleme:
–
–
ProzessderDatengenerierung mussderselbesein:
ÖkonomischeStrukturderbeobachtetenPhänomenebeiderNacherhebungmussdiegleiche sein,
wiebeider„originalen“ Erhebung
Meistensteuer
Jun.-Prof. Dr. Paul Marx | Universität Siegen
Regressionsanalyse
Folie 216
ReduktionvonMK:Multikollinearität inpolynominalen
Regressionen
p Inpolynominalen RegressionenkorrelierendieRegressoren.
y = 𝛽0 + 𝛽1 x + 𝛽2 x2 + 𝛽3 x3
p x, x2 und x3 weisenofthoheKorrelationauf
p MeistenswirddieMultikollinearitätdurchdieDarstellungderRegressoreninFormder
AbweichungvomMittelwertreduziert:
xi* = xi − xi
y = 𝛽0 + 𝛽1 x* + 𝛽2 x*2 + 𝛽3 x*3
p AberauchdannkanndieMultikollinearitätnochhochsein.InsolchenFällenhilftdieTechnik
derorthogonalenPolynomen
Jun.-Prof. Dr. Paul Marx | Universität Siegen
Regressionsanalyse
Folie 217
Reduktion von MK: Andere Methoden
p
p
p
p
p
Faktorenanalyse
Principal components
Ridge regression
Residulae Regression
…
Jun.-Prof. Dr. Paul Marx | Universität Siegen
Regressionsanalyse
Folie 218
Annahmen deslinearenRegressionsmodells(LRM)
1.
Variabilitätinx i
–
2.
Linearität
–
–
3.
4.
ModellenthältdierelevantenerklärendenVariablen
Stichprobeistgrößer,alsdieAnzahlderRegressoren
–
6.
7.
inVariablen
inParametern
MetrischesNiveauderRegressoren
KorrekteSpezifizierungvomModell
–
5.
!
xi müssenvariieren:Var(xi) > 0
ZahlderzuschätzenderParameter(J+1) istkleiner,alsdieZahldervorliegendenBeobachtungen(N)
StörgrößenhabendenErwartungswertNull
KeineKovarianzzwischenx i undui
–
KeineKorrelationzwischendenerklärendenVariablenundderStörgröße
8. Homoscedastizität
–
9.
StörgrößenhabeneinekonstanteVarianz
KeineAutokorrelation
–
Störgrößensindunkorelliert
10. KeineMultikollinearität
–
ZwischendenerklärendenVariablenbestehtkeinelineareAbhängigkeit
11. NormalverteilungderStörgrößen
FixierteWertevonx i imwiederholtenSampling
Jun.-Prof. Dr. Paul Marx | Universität Siegen
Regressionsanalyse
Folie 219
Homoskedastizität
p Homoskedastizität=gleichverteilteResiduen
p DieVarianzderResiduen(ui)istfürallexi identisch,d.h.
E (ui2 ) = σ 2
^
u2
^
y
Jun.-Prof. Dr. Paul Marx | Universität Siegen
Regressionsanalyse
Folie 220
Häufigkeit
Homoskedastizität
β0 + β1 xi
Jun.-Prof. Dr. Paul Marx | Universität Siegen
Regressionsanalyse
Folie 221
Heteroskedastizität
p IstdieAnnahmederHomoskedastizitätverletzt,dannliegtHeteroskedastizitätvor.
p D.h.dieVarianzderResiduen(ui)istverschieden:
E (ui2 ) = σ i2
^
u2
^
y
Jun.-Prof. Dr. Paul Marx | Universität Siegen
Regressionsanalyse
Folie 222
Heteroskedastizität: Ursachen
p BeimgestiegenenEinkommenhabenMenschenmehrAlternativenfürseineDisposition.
DeswegenfindenRegressionsanalysenvonErsparnissenaufEinkommenoft,dassmit
steigendemEinkommen𝜎i2 auchsteigt.
„Incomegrows,and people now barely discern dollars whereas previously they discerned
dimes“
Valavanis (1959)
Ähnlich:
p UmsatzstärkereUnternehmenzeigenhöhereVariabilitätinihrenDividenden-Politik,als
kleinereUnternehmenmitwenigerUmsatz
p AuszahlungenvonDividendenvariierenbeiwachstumsorientiertenUnternehmenstärker,
alsbeietabliertenFirmen
Jun.-Prof. Dr. Paul Marx | Universität Siegen
Regressionsanalyse
Folie 223
Häufigkeit
Heteroskedastizität: Ursachen
β0 + β1 xi
Jun.-Prof. Dr. Paul Marx | Universität Siegen
Regressionsanalyse
Folie 224
Heteroskedastizität: Ursachen
Häufigkeit
Fehler-Lern-Modelle
p ImVerlaufeinesLernprozessessinktdieFehlerrate.
𝜎i2 istdabeitendenziellsinkend.
β0 + β1 xi
Jun.-Prof. Dr. Paul Marx | Universität Siegen
Regressionsanalyse
Folie 225
Heteroskedastizität: Ursachen
p Datenerhebungstechniken
VerbesserungderDatenerhebungstechnikführtzukleinerenStreuungvon𝜎i2 .
Jun.-Prof. Dr. Paul Marx | Universität Siegen
Regressionsanalyse
Folie 226
Heteroskedastizität: Ursachen
p Ausreißer
y
_
y
x
Jun.-Prof. Dr. Paul Marx | Universität Siegen
Regressionsanalyse
Folie 227
Heteroskedastizität: Ursachen
p Ausreißer
y
_
y
ErklärteVarianz*
x
NichterklärteVarianz*
* schematischeDarstellung
Jun.-Prof. Dr. Paul Marx | Universität Siegen
Regressionsanalyse
Folie 228
Heteroskedastizität: Ursachen
Ausreißerverzerrendie
Ergebnisseeiner
Regressionsanalyse
(insb.beikleineren
Sample-Größen)
p Ausreißer
r2 ↑
y
σ i2 ≠ σ 2
_
y
ErklärteVarianz*
Ausreißersind
Beobachtungenauseiner
Population,dievonder
betrachtetenPopulation
substanzionel verschiedenist,
undmüssen/solltendaher
entferntwerden
x
NichterklärteVarianz*
* schematischeDarstellung
Jun.-Prof. Dr. Paul Marx | Universität Siegen
Regressionsanalyse
Folie 229
Heteroskedastizität: Ursachen
p NichtkorrekteModell-Spezifizirung
NichtberücksichtigenvoneinigenwichtigenVariablenimRegressionsmodell
Jun.-Prof. Dr. Paul Marx | Universität Siegen
Regressionsanalyse
Folie 230
Heteroskedastizität: Ursachen
p SchiefeVerteilunginRegressoren
Häufigkeit
z.B.VerteilungvonVermögenundEinkommenistmeistensschief
Vermögen/
Einkommen
Jun.-Prof. Dr. Paul Marx | Universität Siegen
Regressionsanalyse
Folie 231
Heteroskedastizität: Ursachen
p DurchDatenerhebungstechnikinduzierteVerzerrungen(insb.beiHochrechnungen)
z.B.GfKberechnetdieSehbeteiligungeinesProgrammsanhandvonBeobachtungeneines
relativkleinesSamplesunderweitertdieaufdiesemSamplegewonneneAussagenaufdie
Gesamtbevölkerung.
Folge:größereFehlerbeihöherer(berechneten)Sehbeteiligung
Jun.-Prof. Dr. Paul Marx | Universität Siegen
Regressionsanalyse
Folie 232
Heteroskedastizität: Ursachen
p Datenerhebungstechniken,Hochrechnungen
Jun.-Prof. Dr. Paul Marx | Universität Siegen
Regressionsanalyse
Folie 233
Heteroskedastizität: Ursachen
p NichtkorrekteTransformationvonVariablen
p NichtkorrektefunktionaleForm
Jun.-Prof. Dr. Paul Marx | Universität Siegen
Regressionsanalyse
Folie 234
Heteroskedastizität: Folgen
p IneffizienzderSchätzung
p VerfälschungderStandardfehlervonRegressionskoeffizienten
–
–
FormelnfürdieStandardfehlersindnichtverwendbar
VerfälschungvonF- undt-Test-Ergebnissen
• Testverteilungensindnichtmehranwendbar
• F-WertesindnichtF-verteilt
• t-Wertesindnichtt-verteilt
–
UngenaueKonfidenzintervale
Aberdennoch:
p ErwartungstreueRegressionskoeffizienten
–
ErwartungswertdesBetasstimmt,seinStandardfehler– nicht.
Jun.-Prof. Dr. Paul Marx | Universität Siegen
Regressionsanalyse
Folie 235
Heteroskedastizität: Aufdeckung
NaturdesForschungs-Problems
p HeteroskedastizitätliegtoftinderNaturderzuerforschenderFrage.
SoinderRegressionvomKonsumaufEinkommenisteszuerwarten,dassresidualeVarianz
mitdemsteigendenEinkommenauchsteigenwird.(s.Paris/Houthakker,1955)
p BeimSamplingüberheterogeneObjekteisttendenziellHeteroskedastizitätzuerwarten
(z.B.beiRAvonInvestitionsausgabenaufAbsatz,Zinssatz,u.ä. istHeteroskedastizitätzu
erwarteninsb.wennkleine,mittlereundgroßeUnternehmenineinemSampleauftretten)
Jun.-Prof. Dr. Paul Marx | Universität Siegen
Regressionsanalyse
Folie 236
Heteroskedastizität: Aufdeckung
VisuelleInspektion
2
uˆi
p Ex-postvisuelleKontrollederResiduen()aufsystematischeMuster
^
u2
^
u2
Homoskedastizität
^
y
^
u2
^
y
Heteroskedastizität
^
u2
LineareAbhängigkeitzwischen
ResiduenundFunktionswert
^
y
^
u2
^
y
^
y
QuadratischeAbhängigkeitzwischenResiduenund
Funktionswert
Jun.-Prof. Dr. Paul Marx | Universität Siegen
Regressionsanalyse
Folie 237
Heteroskedastizität: Aufdeckung
AnalytischeTests
p
p
p
p
p
p
p
Spearman‘s-Rank-Korrelations-Test
Goldfeld-Quandt-Test
White‘s GeneralHeteroscedasticity Test
ParkTest
Glejser Test
Breusch-Pagan-Godfrey-Test(BPG)
Koenker-Bassett-Test(KB)
Jun.-Prof. Dr. Paul Marx | Universität Siegen
Unterstellen,dassfunktionale
Zusammenhangzwischen
ResiduenundFunktionswert
bekanntist
Regressionsanalyse
Folie 238
Heteroskedastizität: Aufdeckung
Spearman‘s-Rank-Korrelations-Test
1. FühreRegressionvonY aufx undberechnedieResiduen.IgnorieredabeidasVorzeichen–
also||
ûi
2. SortieredenDatensatznachx oderui
3. BerechnedenRank-Korrelations-KoeffizientnachSpearman
rs = 1 −
6 ⋅ ∑ d i2
mitd i2 =DifferenzimRankvonxi undu i
n =anzahlderBeobachtungspunkte
n ⋅ (n 2 − 1)
4. Testers aufSignifikanz(t-test)
temp =
rs n − 2
mitdf = n – 2
1 − rs2
Isttemp > ttab → Heteroskedastizität,sonstHomoskedastizität
SindmehralseineunabhängigeVariableimModellenthalten,soführeSchritte2bis4fürallexi durch
Jun.-Prof. Dr. Paul Marx | Universität Siegen
Regressionsanalyse
Folie 239
Heteroskedastizität: Aufdeckung
Goldfeld-Quandt-Test (vereinfachter Ablauf nach Backhaus)
1. OrdneBeobachtungennachx aufsteigend
2. TeiledenDatensatzaufzweigleichgroßeTeileauf
3. FührefürjedeTeilgruppederDatendieRAdurch
4. FühredenF-TestfürnichterklärteVarianzenbeiderTeilgruppendurch
N1
Femp
s12
= 2 ,
s2
s12 =
2
ˆ
u
∑ n
n =1
N1 − J − 1
N2
,
s22 =
2
ˆ
u
∑ n
n =1
N2 − J −1
N1, N2 =Fallzahleninbeiden
Teilgruppen
J =AnzahlunabhängigerVariablen
Ni – J – 1 =Anzahlder
Freiheitsgrade
s12 ≥ s22
IstFemp > Ftab → Heteroskedastizität,sonstHomoskedastizität
Wichtig:
EshandeltsichumeinenvereinfachtenAblaufvomGoldfeld-Quandt-TestnachBackhaus.
FürBeschreibungeineskorrekterenAblaufsvomGQ-TestsieheGujarati(2003),s.408
Jun.-Prof. Dr. Paul Marx | Universität Siegen
Regressionsanalyse
Folie 240
Heteroskedastizität: Aufdeckung
White‘s General Heteroscedasticity Test
yˆ i = β 0 + β1 x1 + β 2 x2 + ui
p FüreineRegressionsfunktion(z.B.)
1. FühreeineHilfsregressionvonResiduenaufRegressoren,potenzierteRegressorenundihre
Interaktionseffektedurch:
uˆi2 = α 0 + α1 x1 + α 2 x2 + α 3 x12 + α 4 x22 + α 5 x1 x2 + ui
2. N・ r2 ausdieserHilfsregressionfolgt(asymthotisch)der𝜒2-Verteilung
mitAnzahlderFreiheitsgrade=AnzahlderRegressoreninderHilfsregression
n ⋅ r 2 ~ χ df2
3. WennfüreingewähltesSignifikanzniveau
𝜒2emp > 𝜒2tab → Heteroskedastizität,sonstHomoskedastizität
Vorsicht:
DieAnzahlderHilfsregressorenwächstüberproportionalmitsteigenderAnzahlderRegressorenimzu
testendenRA-ModellundkanndiemöglicheAnzahlderFreiheitsgradeübersteigen
Jun.-Prof. Dr. Paul Marx | Universität Siegen
Regressionsanalyse
Folie 241
Heteroskedastizität: Generalized LeastSquares (GLS)
u3
u1
u2
Jun.-Prof. Dr. Paul Marx | Universität Siegen
InKQ-Methode(OLS)jedesui
trägtimgleichenMaßezur
MinimierungdesSchätzfehlers
vonRegressionsfunktionbei.u3
dominiertdabeidengesamten
Minimierungsprozess.
GedankederGLS:
DieBeobachtungenmüssenin
derGesamtfunktion
entsprechendihremBeitragzur
Heteroskedastizitätgewichtet
werden.DieserGewichtstelltdie
Standardabweichunginder
Variabledar.
Regressionsanalyse
Folie 242
Heteroskedastizität: Generslized LeastSquares (GLS)
yˆ i = β 0 + β1 x1 + ui
yˆ i
⎛x ⎞
⎛x ⎞ u
= β 0 ⎜⎜ 0i ⎟⎟ + β1 ⎜⎜ i ⎟⎟ + i ,
σi
⎝ σi ⎠
⎝σi ⎠ σi
mit x0i = 1 für alle i
yˆ i* = β 0* x0*i + β1* xi* + ui*
p Warumgewichten?
2
⎛ ui ⎞
1
*
* 2
⎜
⎟
var(ui ) = E (ui ) = E ⎜ ⎟ = 2 E (ui2 ),
⎝σi ⎠ σi
1
= 2 (σ i2 )
da E (ui2 ) = σ i2
σi
=1 = const
p ResiduenausgewichteterRegressionsindhomoskedastisch
Jun.-Prof. Dr. Paul Marx | Universität Siegen
Regressionsanalyse
Folie 243
Prämisse
Prämissenverletzung
Konsequenz
Aufdeckung
Ausweg
Linearität in den
Parametern
Nichtlinearität
Verzerrung der
Schätzwerte
über statistische Tests
durch Transformation
der Variablen
Vollständigkeit des
Modells
Unvollständigkeit
Verzerrung der
Schätzwerte
Homoskedastizität/
Unabhängigkeit der
Störgrößen (Residuen)
von den UVs
Heteroskedastizität
Ineffizienz
Unabhängigkeit der
Störgrößen
untereinander
Auto-korrelation
Ineffizienz
Residuen optisch auf
Regelmäßigkeiten hin
überprüfen, Durbin-WatsonTest
Regressoren müssen
voneinander unabhängig
sein
Multikollinearität
Ineffizienz
1. durch hohe
Korrelationskoeffizienten
zwischen den Regressoren (>
.85);
2. Alternativrechnungen mit
verschiedenen
Variablenkombinationen
Normalverteilung der
Störgrößen
Nicht
normalverteilt
Ungültigkeit der
Signifikanztests
Jun.-Prof. Dr. Paul Marx | Universität Siegen
1. Entfernung einer/
mehrerer Variablen
aus der Regressionsgleichung;
2. Stichprobe
vergrößern
Regressionsanalyse
Folie 244
Herunterladen