Annahmen deslinearenRegressionsmodells(LRM) 1. Variabilitätinx i – 2. Linearität – – 3. 4. KeineKorrelationzwischendenerklärendenVariablenundderStörgröße Homoscedastizität – 9. ZahlderzuschätzenderParameter(J+1) istkleiner,alsdieZahldervorliegendenBeobachtungen(N) StörgrößenhabendenErwartungswertNull KeineKovarianzzwischenx i undui – 8. ModellenthältdierelevantenerklärendenVariablen Stichprobeistgrößer,alsdieAnzahlderRegressoren – 6. 7. inVariablen inParametern MetrischesNiveauderRegressoren KorrekteSpezifizierungvomModell – 5. ! xi müssenvariieren:Var(xi) > 0 StörgrößenhabeneinekonstanteVarianz KeineAutokorrelation – Störgrößensindunkorelliert 10. KeineMultikollinearität – ZwischendenerklärendenVariablenbestehtkeinelineareAbhängigkeit 11. NormalverteilungderStörgrößen FixierteWertevonx i imwiederholtenSampling Jun.-Prof. Dr. Paul Marx | Universität Siegen Regressionsanalyse Folie 192 NaturderMultikollinearität p PerfekteMultikollinearität=exaktelineareBeziehungzwischeneinigenoderallen erklärendenVariablendesRegressionsmodells: λ0 + λ1 x1 + λ2 x2 + ... + λk xk = 0, mit 𝜆i = const; nichtalle𝜆i=0 gleichzeitig p M.a.W.derpaarweiseKorrelationskoeffizientr=1 p PerfekteMultikollinearitäthatzurFolge,dassdieRegressionskoeffizientenicht bestimmbarsind.DerStandardfehlerderRegressorsistdabeigleichUnendlichkeit. p Z.B.FürdenFalleinerRAmitzweiVariablenmit β1 = (∑ yi x1i )(∑ x22i ) − (∑ yi x2i )(∑ x1i x2i ) β1 = (∑ yi x1i )(∑ [λx1i ]2 ) − (∑ yi λx1i )(∑ x1i λx1i ) x2i = λ ⋅ x1i (∑ x12i )(∑ x22i ) − (∑ x1i x2i ) 2 (∑ x12i )(∑ [λx1i ]2 ) − (∑ x1i [λx1i ]) 2 λ2 (∑ yi x1i )(∑ x1i 2 ) − λ2 (∑ yi x1i )(∑ x1i 2 ) 0 = = λ2 (∑ x12i )(∑ x12i ) − λ2 (∑ x12i ) 2 0 Jun.-Prof. Dr. Paul Marx | Universität Siegen Regressionsanalyse Folie 193 NaturderMultikollinearität p Warumnichtbestimmbar?(LogischeErklärung) p 𝛽i =EinflussstärkedesRegressorsxi,beixj,j≠i = const p BeiperfekterMultikollinearitätverändertsichx2 mitx1 zwingendumdenFaktor𝜆,sodass dieBedingungx2 = const nichterfülltwerdenkann. p x2 undx1 sindfürpraktischeZweckenichtunterscheidbar. p DerEffektderenlinearenKombinationkannjedochermitteltwerden: x2i = λ ⋅ x1i yi = β 0 + β1 x1i + β 2 x2i + ui = β 0 + β1 x1i + β 2 (λx1i ) + ui = β 0 + ( β1 + λβ 2 ) x1i + ui yi = β 0 + α x1i + ui mit α = β1 + λβ 2 Jun.-Prof. Dr. Paul Marx | Universität Siegen Regressionsanalyse Folie 194 NaturderMultikollinearität p PerfekteMKkommtseltenvor.DerMultikollinearitätwirdhoheKorrelationgleichgesetzt: λ1 x1 + λ2 x2 + ... + λk xk +ν i = 0, mit 𝜈i = stochastischer Fehlerterm p BeinahezuperfekterMKkönneneinzelneRegressionskoeffizientengeschätztwerden: x2i = λ ⋅ x1i +ν i 2 β1 = 2 (∑ yi x1i )(λ2 ∑ x1i + ∑ν i2 ) − (λ ∑ yi x1i + ∑ yiν i2 )(λ ∑ x1i ) 2 1i ∑x 2 (λ ∑x 1i 2 2 i 2 + ∑ν ) − (λ ∑ x1i ) ∑x ν 1i i =0 p Regressionskoeffizienteweisendabeieinensehrhohen(imVergleichzudenKoeffizienten selbst)Standardfehlerauf.D.h.siekönnennurmiteinerniedrigenGenauigkeitgeschätzt werden. Jun.-Prof. Dr. Paul Marx | Universität Siegen Regressionsanalyse Folie 195 NaturderMultikollinearität Beispiel: SPSS-Datensatz: Mutikollinearität x1 10 15 18 24 30 x2 x3 50 75 90 120 150 52 75 97 129 152 x1i = 5x2i :perfekteMultikollinearität x3i := x2i + zufällige Zahlen {2, 0, 7, 9, 2} :Multikollinearitätmit r=0,9959 Jun.-Prof. Dr. Paul Marx | Universität Siegen Regressionsanalyse Folie 196 NaturderMultikollinearität p Venn-Diagramma.k.a.Ballentine view of multicollinearity p Akanneindeutig x1 zugeordnetwerden p Information ausdieserFlächewirdfür dieSchätzungvon𝛽1 verwendet p Varianziny, diex1 erklärt y A B p Bkanneindeutigx2 zugeordnetwerden p InformationausBwirdfürdie Schätzungvon𝛽2 verwendet p Varianziny,diex2 erklärt C x1 x2 D StreuungeinerVariablen p Ckannwederx1 nochx2 eindeutigzugeordnet werden p inCundD:Multikollinerität 2 SS y = ∑ ( yk − y ) 2 SS x j = ∑ ( x jk − x ) Jun.-Prof. Dr. Paul Marx | Universität Siegen Regressionsanalyse Folie 197 NaturderMultikollinearität y y x1 x1 x2 KeineMultikollinearität NiedrigeMultikollinearität y x1 x2 y x2 x2 x1 MittlereMultikollinearität Jun.-Prof. Dr. Paul Marx | Universität Siegen SehrhoheMultikollinearität Regressionsanalyse Folie 198 FolgenderMultikollinearität 1. HoheStandardfehlerderSchätzer=>UnmöglichkeitpräziserSchätzungder RegressionskoeffizientenundgenauerVorhersagemittelsRegressionsfunktion 2. BreitereKonfidenzintervalle =>höhereWahrscheinlichkeitderAnnahmefalscherHypothese [FehlerIIArt] 3. t-WerteinesodermehrererKoeffiziententendiertzuNicht-Signifikanz 4. Hohesundsignifikantesr2 trotzNicht-Signifikanzimt-Test 5. RegressionskoeffizientenundStandardfehlersindsehrsensibelzukleinenVeränderungenin denDaten – Ändern/Entfernen/HinzufügenderDatenpunkteund/oderunabhängigerVariablen Jun.-Prof. Dr. Paul Marx | Universität Siegen Regressionsanalyse Folie 199 FolgenderMultikollinearität Beispiel: BoxOffice = 𝛽0 + 𝛽1 ・ Marketingbudget + 𝛽2 ・ Anzahl_Leinwände nichtsignifikant Konsum = 𝛽0 + 𝛽1 ・ Einkommen+ 𝛽2 ・ Vermögen nichtsignifikant Jun.-Prof. Dr. Paul Marx | Universität Siegen Regressionsanalyse Folie 200 QuellenderMultikollinearität 1. InduziertdurchDatenerhebungsmethode – Z.B.SamplingüberbegrenztenWertebereich vonRegressoren 2. Modell- bzw.PopulationsinhärenteGrenzen – Z.BRegressiondesElektrizitätskonsumaufEinkommen:Familien mithöheremeinkommenhaben tendenziell größereHäuser 3. Modellspezifikation – Z.B.hinzufügenpolynomischerRegressoren,insb.beikleiner VarianzinunabhängigerVariable (y = 𝛽0 + 𝛽1 x + 𝛽2 x2 + 𝛽3 x3) 4. ÜberspezifiziertesModell – Z.B.wenndieAnzahlvonRegressorengrößerodernahandieAnzahlvonBeobachtungsfällenist 5. GemeinsamerTrendinZeitreihen – Z.B.inRegressionvomKonsumaufEinkommen,WohlstandundBevölkerungkönnendie unabhängigenVariableneinemehroderwenigergleiche Wachstumsrateaufweisen Jun.-Prof. Dr. Paul Marx | Universität Siegen Regressionsanalyse Folie 201 HeuristikenzumAufdecken derMutlikollinearität p Hohesr2 undvielenichtsignifikantet-Werte p HoheKorrelationskoeffizienten(>|0,8|)zwischenunabhängigenVariablen – nurpaarweiseKorrelation;hochgradigeMKwirdnichtaufgedeckt p HohepartielleKorrelationen – Nichtimmereffizient,dapartielle KorrelationistmiteinigenMK-Muster„kompatibel“ p Hilfsregressionen:RegressionjederunabhängigerVariableaufallerestlichenRegressoren – – rj2 =1inHilfsregression bedeutet,dasseinRegressorsichdurchLinearkombinationanderer Regressorenerzeugenlässtundistsomitüberflüssig rj2 istmultipler Korrelationskoeffizient.Beihohemrj2 inHilfsregression bestehteinehohe hochgradigeMultikollinearität Jun.-Prof. Dr. Paul Marx | Universität Siegen Regressionsanalyse Folie 202 HeuristikenzumAufdecken derMutlikollinearität Toleranz Tj = 1 = 1 − rj2 VIFj 0 < Tj < 1 p JenäherTj an0,destohöheristderGradderMultikollinearitätderbetrachtetenVariable. p JenäherTj an1,destoniedrigeristderGradderMultikollinearitätderbetrachteten Variable. p AufgrunddesdirektenZusammenhangeszuVIF geltenfürTj dieselbenRestriktionen Jun.-Prof. Dr. Paul Marx | Universität Siegen Regressionsanalyse Folie 203 HeuristikenzumAufdecken derMutlikollinearität Variance InflationFactor (VIF)=KehrwertvonToleranz VIFj = 1 1 − rj2 mitrj2 - Bestimmtheitsmaß(r2) derHilfsregressionder unabhängigenVariablexj aufdieübrigenRegressoren inderRegressionsfunktion p BeizunehmenderMKvergrößernsichdieVarianzenvonRegressionskoeffizientenumdiesen Faktor.DieGenauigkeitderSchätzwertenimmtdemzufolgeab. p BeiVIF > 2 wirdMultikollinearitätbeiderbetrachtetenVariablevermutet p BeiVIF > 10 istdieMultikollinearität„zuhoch“ p Nachteil:VIF kanndurchkleinenStandardfehleroderhoheQuadratensummevonxi ausgeglichenwerden.InsofernisthoherVIFwedernotwendignochgenügendfürhohe VarianzoderfürhohenStandardfehler.DiedurchdenVIFgemessenehoheMultikollinearität mussnichtunbedingthoheStandardfehlerverursachen. Jun.-Prof. Dr. Paul Marx | Universität Siegen Regressionsanalyse Folie 204 HeuristikenzumAufdecken derMutlikollinearität EigenwerteundKonditionsindex KI = ma ximaler Eigenwert mi nimaler Eigenwert 10 < KI < 30 – moderateMultikollinearität KI > 30 – hoheMultikollinearität Jun.-Prof. Dr. Paul Marx | Universität Siegen Regressionsanalyse Folie 205 HeuristikenzumAufdecken derMutlikollinearität KonstanteVariable: xi = const füralle i SpeziellerFallderMultikollinearität: p KeineVarianzinderVariable p perfekteMKzumkonstantenGliedderRegressionsgleichung p MöglicheWirkungeinerkonstantenVariablekannnichtfestgestelltwerden – KeineVariation=keineInformation p AuchbeigeringenVariationinderVariablewirddieSchätzungungenauundunzuverlässig sein – ZurErinnerungsieheVariablePreisimMargarinebeispiel Jun.-Prof. Dr. Paul Marx | Universität Siegen Regressionsanalyse Folie 206 AnalysederMultikollinearität inSPSS Korrelationsmatrix PartielleKorrelationen, VIF,Toleranz Eigenwerte, Konditionsindex Jun.-Prof. Dr. Paul Marx | Universität Siegen Regressionsanalyse Folie 207 Multicollinearity:Muchado about nothing? Beginningstudentsofmethodologyoccasionallyworrythattheirindependentvariablesare correlated– theso-calledmulticollinearityproblem.Butmulticollinearityviolatesno regressionassumptions.Unbiased,consistentestimateswilloccur,andtheirstandarderrors willbecorrectlyestimated.Theonlyeffectofmulticollinearityistomakeithardtoget coefficientestimateswithsmallstandarderror.Buthavingasmallnumberofobservations alsohasthateffect,asdoeshavingindependentvariableswithsmallvariances.(Infact,ata theoreticallevel,multicollinearity,fewobservationsandsmallvariancesofindependent variablesareessentiallyallthesameproblem.)Thus„WhatshouldIdoabout multicollinearity?“isaquestionslike„WhatshouldIdoifIdon‘thavemanyobservations?“ Nostatisticalanswercanbegiven. (Achen 1982) ChristopherH.Achen (1982):InterpretingandUsingRegession,SagePublications,BeverlyHills,Calif.,1982,pp.82-83. Whenstudentsruntheirfirstordinaryleastsquares(OLS)regression,thefirstproblemthat theyusuallyencounteristhatofmulticollinearity.Manyofthemconcludethatthereis somethingwrongwithOLS;someresorttonewandoftencreativetechniquestogetaround theproblem.But,wetellthem,thisiswrong.MulticollinearityisGod’swill,notaproblemof OLSorstatisticaltechniqueingeneral. (Balnchard 1967) Jun.-Prof. Dr. Paul Marx | Universität Siegen Regressionsanalyse Folie 208 UmgangmitMultikollinearität Alternativen: p Ignorieren p Multikollinearitätreduzieren 1. 2. 3. 4. 5. 6. 7. a-prioriInformationnutzen KombinationvonPaneldatenmitZeitreihen Eliminieren vonVariablen(Spezifizierungsfehler) TransformationvonVariablen Daten-Nacherhebung Spezialfall:Multikollinearität inpolynominalen Regressionen AndereMethoden Jun.-Prof. Dr. Paul Marx | Universität Siegen Regressionsanalyse Folie 209 Reduktion von MK: a-priori Information nutzen yi = β 0 + β1 x1i + β 2 x2i + ui mit y :Konsum,€ x1 :Einkommen x2 :Vermögen HoheKollinearität p (z.B.)AusvorherigenStudienistbekannt,dassEinkommenbeeinflusstKonsum10Mal stärkeralsVermögen,d.h. 𝛽2 = 0,10 ・ 𝛽1 (*) Danngilt: yi = β 0 + β1 x1i + 0,10 β 2 x2i + ui = β 0 + β1 xi + ui (**) mitxi = x1i + 0,1 ・ x2i p NachderBerechnungvon𝛽1 aus(**)kann𝛽2 aus(*)bestimmtwerden Jun.-Prof. Dr. Paul Marx | Universität Siegen Regressionsanalyse Folie 210 Reduktion von MK: Kombination von Paneldaten mit Zeitreihen Beispiel: AbsatzvonAutosindenUSA ln yt = β 0 + β1 ln Pt + β 2 I 2t + ut mit y P I t :StückzahlabgesetzterAutos :durchschnittlicher Preis :Einkommen :Zeit HoheKollinearität p Ziel:SchätzungderPreiselastizität(𝛽1) undderEinkommenselastizität(𝛽2) p Tobin‘s Methode:If we have cross-sectional data (for expamle,data generated by consumer panels,or budget studies conducted by various privateor governmental agencies),we can obtain afairly reliable estimate of the income elasticity (𝛽2)because insuchdata,which are atapoint intime,prices donotvary much. Tobin(1950) Jun.-Prof. Dr. Paul Marx | Universität Siegen Regressionsanalyse Folie 211 ReduktionvonMK:KombinationvonPaneldatenmit Zeitreihen ln yt = β 0 + β1 ln Pt + β 2 I 2t + ut ^ p BerechneEinkommenselastizität(𝛽2)ineinervorgeschaltetenRegressionvomAbsatzauf Einkommen. p NunkönnenwirdenSchätzerfürdiePreiselastizität(𝛽1)ermitteln: Yt * = β 0 + β1 ln Pt + ut mit Y * = ln yt − βˆ2 ln I p Y* stelltdenWertvon y nachderSubtraktionvomEffektdesEinkommensdar p Problem:impliziteAnnahme,dass Jun.-Prof. Dr. Paul Marx | Universität Siegen Regressionsanalyse Folie 212 Reduktion von MK: Eliminieren von Variablen p EliminiereneinerVariableführtzumSpezifizierungsfehler yi = β 0 + β1 x1i + β 2 x2i + ui Hohe Kollinearität yi = b0 + b11 x1i + uˆi p dann E(b11 ) = β1 + β2b21 p mitb21 =SteigungskoeffizientinderRegressionvonx2 aufx1. p b11 wirddahereinfehlerbehafteterSchätzervon𝛽1 sein,solangeb21 ≠0. • 𝛽2 ≠ 0,dasonstgibteskeinenGrundfürEinschlussvonx2 indieRegressionsfunktion • Wenn b 21 =0,gibteskeineMultikollinearitätundsomitkeinenGrundfür„Tricks“ p Wenn𝛽2 b21 > 0 → (b11 > 𝛽1 ) → Überschätzungvon𝛽1 p Wenn𝛽2 b21 < 0 → (b11 < 𝛽1 ) → Unterschätzungvon𝛽1 Jun.-Prof. Dr. Paul Marx | Universität Siegen Regressionsanalyse Folie 213 Reduktion von MK: Transformation von Variablen Beispiel: Zeitreihen p WennderAusdruck yt = β 0 + β1 x1t + β 2 x2t + ut giltfürdenZeitpunktt,danngilterauch fürdenZeitpunktt-1. p D.h.esgilt yt −1 = β 0 + β1 x1t −1 + β 2 x2t −1 + ut −1 p SubtraktionvomzweitenAusdruckausdemerstenreduziertoftdieMultikollinearität yt − yt −1 = β1 ( x1t − x1t −1 ) + β 2 ( x2t − x2t −1 ) + (ut − ut −1 ) y* = β1 x1* + β 2 x2* + u * p Probleme – – – ReduktionderFreiheitsgrade (um1)– besonderswichtigankleinenSampeln NichtanwendbaraufDatenohnelogischer Anordnung Fehlertermistoftautokorelliert Jun.-Prof. Dr. Paul Marx | Universität Siegen Regressionsanalyse Folie 214 ReduktionvonMK:TransformationvonVariablen p Beispiel: pro„…“Größen p EineSinnvolleRelationkannMKreduzieren. yt = β 0 + β1 x1t + β 2 x2t + ut mity =Konsum,x2 =BIP,x2 =Bevölkerung p Transformationzuper-capita (pro-Kopf)-Größen(teilendurchx2) ⎛ 1 yt = β 0 ⎜⎜ x2t ⎝ x2t ⎞ ⎛x ⎟⎟ + β1 ⎜⎜ 1t ⎠ ⎝ x2t ⎞ ⎛u ⎟⎟ + β 2 + ⎜⎜ t ⎠ ⎝ x2t ⎞ ⎟⎟ ⎠ p Problem – Fehlertermistheteroskedastisch insb.wenn„originaler“ Fehlertermhomoskedastisch Jun.-Prof. Dr. Paul Marx | Universität Siegen Regressionsanalyse Folie 215 ReduktionvonMK:Daten-Nacherhebung p ZusätzlicheDatenreduzierendieVarianz(undsomitdenStandardfehler)der Regressionskoeffizienten,wodurchdieGenauigkeitderSchätzungerhöhtwird: var( β1 ) = σ2 2 1i ∑x (1 − r122 ) FürdenFallmit 2Regressoren p Probleme: – – ProzessderDatengenerierung mussderselbesein: ÖkonomischeStrukturderbeobachtetenPhänomenebeiderNacherhebungmussdiegleiche sein, wiebeider„originalen“ Erhebung Meistensteuer Jun.-Prof. Dr. Paul Marx | Universität Siegen Regressionsanalyse Folie 216 ReduktionvonMK:Multikollinearität inpolynominalen Regressionen p Inpolynominalen RegressionenkorrelierendieRegressoren. y = 𝛽0 + 𝛽1 x + 𝛽2 x2 + 𝛽3 x3 p x, x2 und x3 weisenofthoheKorrelationauf p MeistenswirddieMultikollinearitätdurchdieDarstellungderRegressoreninFormder AbweichungvomMittelwertreduziert: xi* = xi − xi y = 𝛽0 + 𝛽1 x* + 𝛽2 x*2 + 𝛽3 x*3 p AberauchdannkanndieMultikollinearitätnochhochsein.InsolchenFällenhilftdieTechnik derorthogonalenPolynomen Jun.-Prof. Dr. Paul Marx | Universität Siegen Regressionsanalyse Folie 217 Reduktion von MK: Andere Methoden p p p p p Faktorenanalyse Principal components Ridge regression Residulae Regression … Jun.-Prof. Dr. Paul Marx | Universität Siegen Regressionsanalyse Folie 218 Annahmen deslinearenRegressionsmodells(LRM) 1. Variabilitätinx i – 2. Linearität – – 3. 4. ModellenthältdierelevantenerklärendenVariablen Stichprobeistgrößer,alsdieAnzahlderRegressoren – 6. 7. inVariablen inParametern MetrischesNiveauderRegressoren KorrekteSpezifizierungvomModell – 5. ! xi müssenvariieren:Var(xi) > 0 ZahlderzuschätzenderParameter(J+1) istkleiner,alsdieZahldervorliegendenBeobachtungen(N) StörgrößenhabendenErwartungswertNull KeineKovarianzzwischenx i undui – KeineKorrelationzwischendenerklärendenVariablenundderStörgröße 8. Homoscedastizität – 9. StörgrößenhabeneinekonstanteVarianz KeineAutokorrelation – Störgrößensindunkorelliert 10. KeineMultikollinearität – ZwischendenerklärendenVariablenbestehtkeinelineareAbhängigkeit 11. NormalverteilungderStörgrößen FixierteWertevonx i imwiederholtenSampling Jun.-Prof. Dr. Paul Marx | Universität Siegen Regressionsanalyse Folie 219 Homoskedastizität p Homoskedastizität=gleichverteilteResiduen p DieVarianzderResiduen(ui)istfürallexi identisch,d.h. E (ui2 ) = σ 2 ^ u2 ^ y Jun.-Prof. Dr. Paul Marx | Universität Siegen Regressionsanalyse Folie 220 Häufigkeit Homoskedastizität β0 + β1 xi Jun.-Prof. Dr. Paul Marx | Universität Siegen Regressionsanalyse Folie 221 Heteroskedastizität p IstdieAnnahmederHomoskedastizitätverletzt,dannliegtHeteroskedastizitätvor. p D.h.dieVarianzderResiduen(ui)istverschieden: E (ui2 ) = σ i2 ^ u2 ^ y Jun.-Prof. Dr. Paul Marx | Universität Siegen Regressionsanalyse Folie 222 Heteroskedastizität: Ursachen p BeimgestiegenenEinkommenhabenMenschenmehrAlternativenfürseineDisposition. DeswegenfindenRegressionsanalysenvonErsparnissenaufEinkommenoft,dassmit steigendemEinkommen𝜎i2 auchsteigt. „Incomegrows,and people now barely discern dollars whereas previously they discerned dimes“ Valavanis (1959) Ähnlich: p UmsatzstärkereUnternehmenzeigenhöhereVariabilitätinihrenDividenden-Politik,als kleinereUnternehmenmitwenigerUmsatz p AuszahlungenvonDividendenvariierenbeiwachstumsorientiertenUnternehmenstärker, alsbeietabliertenFirmen Jun.-Prof. Dr. Paul Marx | Universität Siegen Regressionsanalyse Folie 223 Häufigkeit Heteroskedastizität: Ursachen β0 + β1 xi Jun.-Prof. Dr. Paul Marx | Universität Siegen Regressionsanalyse Folie 224 Heteroskedastizität: Ursachen Häufigkeit Fehler-Lern-Modelle p ImVerlaufeinesLernprozessessinktdieFehlerrate. 𝜎i2 istdabeitendenziellsinkend. β0 + β1 xi Jun.-Prof. Dr. Paul Marx | Universität Siegen Regressionsanalyse Folie 225 Heteroskedastizität: Ursachen p Datenerhebungstechniken VerbesserungderDatenerhebungstechnikführtzukleinerenStreuungvon𝜎i2 . Jun.-Prof. Dr. Paul Marx | Universität Siegen Regressionsanalyse Folie 226 Heteroskedastizität: Ursachen p Ausreißer y _ y x Jun.-Prof. Dr. Paul Marx | Universität Siegen Regressionsanalyse Folie 227 Heteroskedastizität: Ursachen p Ausreißer y _ y ErklärteVarianz* x NichterklärteVarianz* * schematischeDarstellung Jun.-Prof. Dr. Paul Marx | Universität Siegen Regressionsanalyse Folie 228 Heteroskedastizität: Ursachen Ausreißerverzerrendie Ergebnisseeiner Regressionsanalyse (insb.beikleineren Sample-Größen) p Ausreißer r2 ↑ y σ i2 ≠ σ 2 _ y ErklärteVarianz* Ausreißersind Beobachtungenauseiner Population,dievonder betrachtetenPopulation substanzionel verschiedenist, undmüssen/solltendaher entferntwerden x NichterklärteVarianz* * schematischeDarstellung Jun.-Prof. Dr. Paul Marx | Universität Siegen Regressionsanalyse Folie 229 Heteroskedastizität: Ursachen p NichtkorrekteModell-Spezifizirung NichtberücksichtigenvoneinigenwichtigenVariablenimRegressionsmodell Jun.-Prof. Dr. Paul Marx | Universität Siegen Regressionsanalyse Folie 230 Heteroskedastizität: Ursachen p SchiefeVerteilunginRegressoren Häufigkeit z.B.VerteilungvonVermögenundEinkommenistmeistensschief Vermögen/ Einkommen Jun.-Prof. Dr. Paul Marx | Universität Siegen Regressionsanalyse Folie 231 Heteroskedastizität: Ursachen p DurchDatenerhebungstechnikinduzierteVerzerrungen(insb.beiHochrechnungen) z.B.GfKberechnetdieSehbeteiligungeinesProgrammsanhandvonBeobachtungeneines relativkleinesSamplesunderweitertdieaufdiesemSamplegewonneneAussagenaufdie Gesamtbevölkerung. Folge:größereFehlerbeihöherer(berechneten)Sehbeteiligung Jun.-Prof. Dr. Paul Marx | Universität Siegen Regressionsanalyse Folie 232 Heteroskedastizität: Ursachen p Datenerhebungstechniken,Hochrechnungen Jun.-Prof. Dr. Paul Marx | Universität Siegen Regressionsanalyse Folie 233 Heteroskedastizität: Ursachen p NichtkorrekteTransformationvonVariablen p NichtkorrektefunktionaleForm Jun.-Prof. Dr. Paul Marx | Universität Siegen Regressionsanalyse Folie 234 Heteroskedastizität: Folgen p IneffizienzderSchätzung p VerfälschungderStandardfehlervonRegressionskoeffizienten – – FormelnfürdieStandardfehlersindnichtverwendbar VerfälschungvonF- undt-Test-Ergebnissen • Testverteilungensindnichtmehranwendbar • F-WertesindnichtF-verteilt • t-Wertesindnichtt-verteilt – UngenaueKonfidenzintervale Aberdennoch: p ErwartungstreueRegressionskoeffizienten – ErwartungswertdesBetasstimmt,seinStandardfehler– nicht. Jun.-Prof. Dr. Paul Marx | Universität Siegen Regressionsanalyse Folie 235 Heteroskedastizität: Aufdeckung NaturdesForschungs-Problems p HeteroskedastizitätliegtoftinderNaturderzuerforschenderFrage. SoinderRegressionvomKonsumaufEinkommenisteszuerwarten,dassresidualeVarianz mitdemsteigendenEinkommenauchsteigenwird.(s.Paris/Houthakker,1955) p BeimSamplingüberheterogeneObjekteisttendenziellHeteroskedastizitätzuerwarten (z.B.beiRAvonInvestitionsausgabenaufAbsatz,Zinssatz,u.ä. istHeteroskedastizitätzu erwarteninsb.wennkleine,mittlereundgroßeUnternehmenineinemSampleauftretten) Jun.-Prof. Dr. Paul Marx | Universität Siegen Regressionsanalyse Folie 236 Heteroskedastizität: Aufdeckung VisuelleInspektion 2 uˆi p Ex-postvisuelleKontrollederResiduen()aufsystematischeMuster ^ u2 ^ u2 Homoskedastizität ^ y ^ u2 ^ y Heteroskedastizität ^ u2 LineareAbhängigkeitzwischen ResiduenundFunktionswert ^ y ^ u2 ^ y ^ y QuadratischeAbhängigkeitzwischenResiduenund Funktionswert Jun.-Prof. Dr. Paul Marx | Universität Siegen Regressionsanalyse Folie 237 Heteroskedastizität: Aufdeckung AnalytischeTests p p p p p p p Spearman‘s-Rank-Korrelations-Test Goldfeld-Quandt-Test White‘s GeneralHeteroscedasticity Test ParkTest Glejser Test Breusch-Pagan-Godfrey-Test(BPG) Koenker-Bassett-Test(KB) Jun.-Prof. Dr. Paul Marx | Universität Siegen Unterstellen,dassfunktionale Zusammenhangzwischen ResiduenundFunktionswert bekanntist Regressionsanalyse Folie 238 Heteroskedastizität: Aufdeckung Spearman‘s-Rank-Korrelations-Test 1. FühreRegressionvonY aufx undberechnedieResiduen.IgnorieredabeidasVorzeichen– also|| ûi 2. SortieredenDatensatznachx oderui 3. BerechnedenRank-Korrelations-KoeffizientnachSpearman rs = 1 − 6 ⋅ ∑ d i2 mitd i2 =DifferenzimRankvonxi undu i n =anzahlderBeobachtungspunkte n ⋅ (n 2 − 1) 4. Testers aufSignifikanz(t-test) temp = rs n − 2 mitdf = n – 2 1 − rs2 Isttemp > ttab → Heteroskedastizität,sonstHomoskedastizität SindmehralseineunabhängigeVariableimModellenthalten,soführeSchritte2bis4fürallexi durch Jun.-Prof. Dr. Paul Marx | Universität Siegen Regressionsanalyse Folie 239 Heteroskedastizität: Aufdeckung Goldfeld-Quandt-Test (vereinfachter Ablauf nach Backhaus) 1. OrdneBeobachtungennachx aufsteigend 2. TeiledenDatensatzaufzweigleichgroßeTeileauf 3. FührefürjedeTeilgruppederDatendieRAdurch 4. FühredenF-TestfürnichterklärteVarianzenbeiderTeilgruppendurch N1 Femp s12 = 2 , s2 s12 = 2 ˆ u ∑ n n =1 N1 − J − 1 N2 , s22 = 2 ˆ u ∑ n n =1 N2 − J −1 N1, N2 =Fallzahleninbeiden Teilgruppen J =AnzahlunabhängigerVariablen Ni – J – 1 =Anzahlder Freiheitsgrade s12 ≥ s22 IstFemp > Ftab → Heteroskedastizität,sonstHomoskedastizität Wichtig: EshandeltsichumeinenvereinfachtenAblaufvomGoldfeld-Quandt-TestnachBackhaus. FürBeschreibungeineskorrekterenAblaufsvomGQ-TestsieheGujarati(2003),s.408 Jun.-Prof. Dr. Paul Marx | Universität Siegen Regressionsanalyse Folie 240 Heteroskedastizität: Aufdeckung White‘s General Heteroscedasticity Test yˆ i = β 0 + β1 x1 + β 2 x2 + ui p FüreineRegressionsfunktion(z.B.) 1. FühreeineHilfsregressionvonResiduenaufRegressoren,potenzierteRegressorenundihre Interaktionseffektedurch: uˆi2 = α 0 + α1 x1 + α 2 x2 + α 3 x12 + α 4 x22 + α 5 x1 x2 + ui 2. N・ r2 ausdieserHilfsregressionfolgt(asymthotisch)der𝜒2-Verteilung mitAnzahlderFreiheitsgrade=AnzahlderRegressoreninderHilfsregression n ⋅ r 2 ~ χ df2 3. WennfüreingewähltesSignifikanzniveau 𝜒2emp > 𝜒2tab → Heteroskedastizität,sonstHomoskedastizität Vorsicht: DieAnzahlderHilfsregressorenwächstüberproportionalmitsteigenderAnzahlderRegressorenimzu testendenRA-ModellundkanndiemöglicheAnzahlderFreiheitsgradeübersteigen Jun.-Prof. Dr. Paul Marx | Universität Siegen Regressionsanalyse Folie 241 Heteroskedastizität: Generalized LeastSquares (GLS) u3 u1 u2 Jun.-Prof. Dr. Paul Marx | Universität Siegen InKQ-Methode(OLS)jedesui trägtimgleichenMaßezur MinimierungdesSchätzfehlers vonRegressionsfunktionbei.u3 dominiertdabeidengesamten Minimierungsprozess. GedankederGLS: DieBeobachtungenmüssenin derGesamtfunktion entsprechendihremBeitragzur Heteroskedastizitätgewichtet werden.DieserGewichtstelltdie Standardabweichunginder Variabledar. Regressionsanalyse Folie 242 Heteroskedastizität: Generslized LeastSquares (GLS) yˆ i = β 0 + β1 x1 + ui yˆ i ⎛x ⎞ ⎛x ⎞ u = β 0 ⎜⎜ 0i ⎟⎟ + β1 ⎜⎜ i ⎟⎟ + i , σi ⎝ σi ⎠ ⎝σi ⎠ σi mit x0i = 1 für alle i yˆ i* = β 0* x0*i + β1* xi* + ui* p Warumgewichten? 2 ⎛ ui ⎞ 1 * * 2 ⎜ ⎟ var(ui ) = E (ui ) = E ⎜ ⎟ = 2 E (ui2 ), ⎝σi ⎠ σi 1 = 2 (σ i2 ) da E (ui2 ) = σ i2 σi =1 = const p ResiduenausgewichteterRegressionsindhomoskedastisch Jun.-Prof. Dr. Paul Marx | Universität Siegen Regressionsanalyse Folie 243 Prämisse Prämissenverletzung Konsequenz Aufdeckung Ausweg Linearität in den Parametern Nichtlinearität Verzerrung der Schätzwerte über statistische Tests durch Transformation der Variablen Vollständigkeit des Modells Unvollständigkeit Verzerrung der Schätzwerte Homoskedastizität/ Unabhängigkeit der Störgrößen (Residuen) von den UVs Heteroskedastizität Ineffizienz Unabhängigkeit der Störgrößen untereinander Auto-korrelation Ineffizienz Residuen optisch auf Regelmäßigkeiten hin überprüfen, Durbin-WatsonTest Regressoren müssen voneinander unabhängig sein Multikollinearität Ineffizienz 1. durch hohe Korrelationskoeffizienten zwischen den Regressoren (> .85); 2. Alternativrechnungen mit verschiedenen Variablenkombinationen Normalverteilung der Störgrößen Nicht normalverteilt Ungültigkeit der Signifikanztests Jun.-Prof. Dr. Paul Marx | Universität Siegen 1. Entfernung einer/ mehrerer Variablen aus der Regressionsgleichung; 2. Stichprobe vergrößern Regressionsanalyse Folie 244