Kategoriale abhängige Variablen: Logit-“ und ” Probit“-Modelle ” Statistik II Wiederholung Exkurs Binäre abhängige Variablen Interpretation Zusammenfassung Wiederholung Literatur Annahmen und Annahmeverletzungen Exkurs Funktionen Exponenten, Wurzeln usw. Binäre abhängige Variablen Das Problem Das binäre Logit-Modell Interpretation Zusammenfassung Statistik II Logistische Regression (1/27) Wiederholung Schätzverfahren und ihre Eigenschaften Annahmeverletzungen Zusammenfassung Wiederholung Exkurs Binäre abhängige Variablen Interpretation Zusammenfassung Was sind die Standard-Annahmen? I Literatur Annahmen und Annahmeverletzungen Zufallsstichprobe Wahres Nachlesen/Vorbereiten Modell: y = β + β x + β x · · · + Zum I i 0 1 1i 2 2i i 1. Die 5. Keine abhängige Kovarianz Variable zwischen ist xintervallskaliert und unbeschränkt. ki und (Variablen werden ohne Fehler gemessen) 6. Für jedes beliebige Paar von Beobachtungen i und h sind i 2. Alle unabhängigen haben Varianz und (keine Autokorrelation) h unkorreliert Variablen 3. Für Keine perfekte Multikollineariät 7. jede mögliche Kombination der unabhängigen Variablen 4. Für jede mögliche Kombination Variablen ist die (konditionale) Varianz vonder unabhängigen gleich σ2 und damit ist der (konditionale) Mittelwert von = 0 konstant (Homoskedastizität) 8. Für jede mögliche Kombination der unabhängigen Variablen ist normalverteilt I Agresti ch. 15: Statistik II Annahmen (16/26) Statistik II Logistische Regression (2/27) Wiederholung Schätzverfahren und ihre Eigenschaften Annahmeverletzungen Zusammenfassung Was passiert, wenn Annahme 1 nicht erfüllt ist? Die abhängige Variable ist intervallskaliert und unbeschränkt. ” Variablen werden ohne Fehler gemessen“ I Abhängige Variable hat häufig wenig diskrete Ausprägungen (Ratingskalen) I I I I Erwartete Werte außerhalb des gültigen Wertebereichs Modelle für ordinale Daten In der Literatur wenig diskutiert, häufig wird angenommen, daß Modell relativ robust ist Alle sozialwissenschaftlichen Variablen fehlerbehaftet I I I Relativ unproblematisch, wenn Fehler voneinander unabhängig und Stichprobe groß Fehler bei y wird von absorbiert, OLS weniger effizient Fehler bei x schwächt im bivariaten Fall Zusammenhang ab, multivariat auf jeden Fall bias Statistik II Annahmen (17/26) Wiederholung Exkurs Binäre abhängige Variablen Interpretation Zusammenfassung Literatur Annahmen und Annahmeverletzungen Annahmen und Annahmeverletzungen I Ergebnisse auf Grundlage einer Stichprobe nur Schätzungen I Schätzverfahren setzten Annahmen voraus Wenn Annahmen nicht zutreffen I I I I I Annahmen in Politikwissenschaft häufig verletzt I I I Verzerrte Parameterschätzungen Ineffiziente (und/oder inkonsistente) Parameterschätzungen Zu optimistische Standardfehler Z. B. Abhängigkeiten zwischen Beobachtungen (Zeitreihen, Panel . . . ) Kategoriale abhängige Variablen Erweiterungen/Ergänzungen des linearen Modells Statistik II Logistische Regression (3/27) Wiederholung Exkurs Binäre abhängige Variablen Interpretation Zusammenfassung Funktionen Exponenten, Wurzeln usw. Was ist eine Funktion? I I I Abbildungsvorschrift“ ” ≈ Berechnungsvorschrift Ordnet jedem Wert der x-Variable(n) genau einen Wert zu I I I Allgemeine Formulierung: f (x1 , x2 , · · · ) I I I I I Einstellige Funktionen Mehrstellige Funktionen Lineare Funktion besteht nur aus Konstanten und Produkten von x1 , x2 , · · · Nicht-lineare Funktion: andere Elemente Bisher y als lineare Funktion von x1 , · · · Alle Funktionen graphisch darstellbar (ggf. mehrdimensional) Steigung der Funktion in einem Punkt: (1.) Ableitung Statistik II Logistische Regression (4/27) Wiederholung Exkurs Binäre abhängige Variablen Interpretation Zusammenfassung Funktionen Exponenten, Wurzeln usw. y = f (x) = 4 − x + x 2 Nicht-lineare Funktionen: z. B. Polynome 30 20 10 −6 −4 −2 0 x Statistik II Wiederholung Exkurs Binäre abhängige Variablen Interpretation Zusammenfassung 2 4 6 Logistische Regression (5/27) Funktionen Exponenten, Wurzeln usw. Exponenten I Basis und Exponent I Ganzzahlige positive Exponenten: x 3 = x · x · x I I I Exponent 1 oder 0: x 1 = x; x 0 = 1 Negative Exponenten: x −1 = x1 ; x −3 = Rationale Exponenten I I I I I 4 1 x3 Quadratwurzel aus x: Mit sich selbst multiplizieren, um x zu erhalten n-te Wurzel aus x: n-mal mit sich selbst multiplizieren, um x zu erhalten √ 1 n Nenner = n-te Wurzel: x = xn √ 4 5 Kompletter Bruch: x 4 = x 5 x−5 = 1 x 4 5 = 1 √ 5 4 x Statistik II Logistische Regression (6/27) Wiederholung Exkurs Binäre abhängige Variablen Interpretation Zusammenfassung Funktionen Exponenten, Wurzeln usw. Was ist der natürliche Logarithmus? I Logarithmus Umkehrfunktion zur Exponentialfunktion I Natürlicher“ Logarithmus (Funktionsname ln() oder loge ) ” basiert auf Eulerscher Zahl e = 2.71828182 . . . I e wichtige Konstante in vielen statistischen Verteilungen und Herleitungen (z. B. Normalverteilung) I e 3 = exp(3) ≈ 20.0855 . . . I I ln(20.0855) ≈ 3 Natürlicher Logarithmus von x gibt Antwort auf die Frage: Wie oft muß ich e mit sich selbst multiplizieren, um x zu erhalten? Statistik II Logistische Regression (7/27) Wiederholung Exkurs Binäre abhängige Variablen Interpretation Zusammenfassung Funktionen Exponenten, Wurzeln usw. Potenzen zur Basis e: y = exp(x) y = f (x) = exp(x) 150 100 50 y >0 0 −6 −4 −2 0 x Statistik II 2 4 6 Logistische Regression (8/27) Wiederholung Exkurs Binäre abhängige Variablen Interpretation Zusammenfassung Funktionen Exponenten, Wurzeln usw. Natürlicher Logarithmus = Umkehrfunktion: y = ln(x) y = f (x) = ln(x) 1 0 −1 ln(x) für x 6 0 nicht definiert −2 0 1 2 x Statistik II Wiederholung Exkurs Binäre abhängige Variablen Interpretation Zusammenfassung 3 4 Logistische Regression (9/27) Das Problem Das binäre Logit-Modell Binäre Variablen in der Politikwissenschaft I Wahlabsicht in den USA: Republikanisch (0) vs. Demokratisch (1) I Land in bestimmtem Jahr in Bürgerkrieg verwickelt: ja (1) vs. nein (0) I Parteibindung vorhanden: ja (1) vs. nein (0) I Politisches System eine Demokratie: ja (1) vs. nein (0) I Wertorientierungen: postmaterialistisch (1) vs. nichtpostmaterialistisch (0) I Wahlabsicht zugunsten der CDU: ja (1) vs. nein (0) I Viele relevante Variablen binär (oder dichotom) I Wie modellieren? Statistik II Logistische Regression (10/27) Wiederholung Exkurs Binäre abhängige Variablen Interpretation Zusammenfassung Das Problem Das binäre Logit-Modell Strategie I: Lineares Wahrscheinlichkeitsmodell“ ” I Beispiel: Wahlverhalten für CDU durch Sympathie für Merkel zu erklären? I Zweitstimme in Umfrage → binäre Variable CDU-Wahl I Für jeden Befragten 0 (nein) oder 1 (ja) I Mittelwert der Dummy-Variablen entspricht relativer Häufigkeit bzw. Wahrscheinlichkeit der CDU-Wahl I Warum? Mittelwert cduwahl = 10×1+77×0 ≈ 0.115 = 10 87 87 I Gesamtwahrscheinlichkeit der CDU-Wahl ca. 11.5 Prozent I Mittelwert der Dummy-Variablen in Sympathie-Gruppen = Anteil der CDU-Wähler in Sympathie-Gruppen = I Konditionaler Mittelwert = Konditionale Wahrscheinlichkeit der CDU-Wahl in den Gruppen (n = 80) . tabstat cduwahl,by (polsympangelamerkel) Statistik II Logistische Summary for variables: cduwahl by categories of: polsympangelamerkel (polsymp [Angela Merkel] ) polsympangelamerkel Probleme? mean 0 Wiederholung 0 .1538462 Exkurs .1428571 Binäre abhängige Variablen 0 Interpretation .0666667 .1818182 Zusammenfassung .2857143 .6666667 Total Das Problem Das binäre Logit-Modell .125 Verfahren zur Modellierung konditionaler Mittelwerte: lineare Regression cduwahl = β0 + β1 Sympathie Merkel .3 I 2 3 4 5 6 7 8 9 10 Regression (11/27) I Wahrscheinlichkeit CDU-Wahl 0 .1 .2 . reg cduwahl polsympangelamerkel Source SS df MS Model Residual .63196869 8.11803131 1 78 .63196869 .104077324 Total 8.75 79 .110759494 Coef. polsympang~l _cons .0377295 -.0910012 Std. Err. .0153113 .0947877 t 2.46 -0.96 P>|t| 0.016 0.340 = = = = = = .0072471 -.2797091 2 4 6 CDU-Sympathie 8 hkeit CDU-Wahl .1 .2 .3 0 Statistik II 80 6.07 0.0159 0.0722 0.0603 .32261 [95% Conf. Interval] .0682119 .0977066 -.1 cduwahl Number of obs F( 1, 78) Prob > F R-squared Adj R-squared Root MSE Logistische Regression (12/27) 10 Wiederholung Exkurs Binäre abhängige Variablen Interpretation Zusammenfassung Das Problem Das binäre Logit-Modell Wie kommt man zum Modell? I Problem: CDU-Wahl bzw. deren Wahrscheinlichkeit auf Wertebereich [0;1] beschränkt I Transformation der Variablen 1. Schritt: Statt Wahrscheinlichkeiten odds“ betrachten ” I I I I I I I (Entsprechen in etwa Wettquoten beim Sport) p ; im Beispiel 0.125 odds(p) = 1−p 0.875 ≈ 0.143 Wertebereich von 0 bis (fast) ∞ Variieren über Ausprägungen der unabhängigen z. B. 0.07 (6.6%) und 1.99 (66.6%) 2. Schritt: Von diesen odds wird der natürliche Logarithmus bestimmt (Logarithmierung) Statistik II Wiederholung Exkurs Binäre abhängige Variablen Interpretation Zusammenfassung Logistische Regression (13/27) Das Problem Das binäre Logit-Modell Wie kommt man zum Modell? II I Die logarithmierten Odds werden als Logits bezeichnet I Wertebereich von (fast) −∞ bis (fast) +∞ I Im Beispiel Logits zwischen -2.66 (6.6%) und 0.688 (66.6%) Nicht-lineares Verhältnis zur Wahrscheinlichkeit I I I I I Wahrscheinlichkeit von 50% entspricht Logit von 0 Positiver Logit – größere Wahrscheinlichkeit Negativer Logit – kleinere Wahrscheinlichkeit Logit-Modell: linearer Zusammenhang zwischen x und Logit I I logit(cduwahl) = β0 + β1 × merkelsympathie Schätzung der Koeffizienten/Standardfehler mit speziellem iterativen Verfahren (Maximum Likelihood) Statistik II Logistische Regression (14/27) Wiederholung Exkurs Binäre abhängige Variablen Interpretation Zusammenfassung Das Problem Das binäre Logit-Modell In Stata . logit cduwahl polsympangelamerkel Iteration 0: log likelihood Iteration 1: log likelihood Iteration 2: log likelihood Iteration 3: log likelihood Iteration 4: log likelihood Logistic regression = = = = = -30.141613 -27.289467 -26.993016 -26.991918 -26.991918 Number of obs LR chi2(1) Prob > chi2 Pseudo R2 Log likelihood = -26.991918 cduwahl Coef. polsympang~l _cons .408557 -4.604574 Std. Err. .1822747 1.355321 I Interpretation? I Richtung und Signifikanz Statistik II z 2.24 -3.40 P>|z| 0.025 0.001 = = = = 80 6.30 0.0121 0.1045 [95% Conf. Interval] .0513051 -7.260955 .7658089 -1.948194 Logistische Regression (15/27) Wiederholung Exkurs Binäre abhängige Variablen Interpretation Zusammenfassung Nicht-Linearität I Zusammenhang zwischen x und y nicht-linear, aber monoton I I I I I Mehr x, mehr y (positiver Zusammenhang) bzw. Mehr x, weniger y (negativer) Zusammenhang Aber nicht mit konstanter Rate S-förmiger Zusammenhang Veränderung in Wahrscheinlichkeit nicht proportional zu Veränderung in x I I Großer Effekt, wenn Wahrscheinlichkeit im mittleren Bereich Kleiner Effekt, wenn Wahrscheinlichkeit sehr groß oder sehr gering Statistik II Logistische Regression (16/27) Wiederholung Exkurs Binäre abhängige Variablen Interpretation Zusammenfassung Was ist mit den zufälligen Fehlern? I Im linearen Regressionsmodell zufällige Normalverteilung um konditionalen Mittelwert I Separater Parameter (σ2 ) I Für Logit-Modell Binomialverteilung um konditionale Wahrscheinlichkeit I Varianz hängt ab von erwarteter Wahrscheinlichkeit (Heteroskedastizität) I Ist durch Modell fixiert und wird nicht separat geschätzt I Probit-Modelle sind sehr ähnlich, haben lediglich eine andere Link- bzw. Varianzfunktion Statistik II Logistische Regression (17/27) Wiederholung Exkurs Binäre abhängige Variablen Interpretation Zusammenfassung Interpretation Logit-Koeffizienten I Modell nur in den Logits linear I Interpretation von Richtung (Vorzeichen) I Interpretation von Signifikanz I Logits sind sehr unanschaulich Statistik II Logistische Regression (18/27) Wiederholung Exkurs Binäre abhängige Variablen Interpretation Zusammenfassung Interpretation Odds/Odd-Ratios logit(cduwahl) =β0 + β1 × merkelsympathie e logit(cduwahl) = odds(cduwahl) =e (β0 +β1 ×merkelsympathie) =e β0 × e β1 merkelsympathie I I I I I Multiplikative Darstellung des Modells Für x = 0: odds = anti-logarithmierte Konstante e β1 = exp(β1 ) = Effektkoeffizient“ ” Veränderung von x um eine Einheit multipliziert die odds mit dem Effektkoeffizienten Findet sich manchmal in (älterer) Literatur, nicht sehr anschaulich Statistik II Logistische Regression (19/27) Wiederholung Exkurs Binäre abhängige Variablen Interpretation Zusammenfassung Wie kommt man von Logits zu Wahrscheinlichkeiten? Logit Logit = β0 + β1 x1 = ln p 1−p Wie nach p auflösen? Logarithmus loswerden exp(Logit) = p 1−p p auf eine Seite bringen, ausmultiplizieren Statistik II Logistische exp(Logit) · (1 − Regression p) = p(20/27) Wiederholung Exkurs Binäre abhängige Variablen Interpretation Zusammenfassung Interpretation Wahrscheinlichkeiten e β0 +β1 x1 p= 1 + e β0 +β1 x1 I Odds auch nicht wirklich anschaulich I Klarste Interpretation: erwartete Wahrscheinlichkeiten I 1. Teil der Transformation auch umkehren I Veränderung der Wahrscheinlichkeit nicht proportional zur Veränderung von x bzw. abhängig vom Niveau von x (und ggf. anderer x2 , · · · )→ S-förmiger Zusammenhang Statistik II Logistische Regression (21/27) Wiederholung Exkurs Binäre abhängige Variablen Interpretation Zusammenfassung Erweiterung des Modells logit(y ) = β0 + β1 x1 + β2 x2 + · · · I Logistische Regression ebenfalls multivariat möglich I Mehrere unabhängige Variablen wirken linear-additiv auf den Logit Wirkung einer Veränderung von x1 um eine Einheit auf die Wahrscheinlichkeit von y = 1 hängt ab vom I I I I Niveau von x1 und vom Niveau von x2 , · · · Am besten graphisch darstellbar Statistik II Logistische Regression (22/27) Wiederholung Exkurs Binäre abhängige Variablen Interpretation Zusammenfassung CDU-Wahl II I CDU-Wahl als Funktion von I I I Merkelsympathie Links-Rechts-Selbsteinstufung logit(cduwahl) = β0 + β1 merkelsympathie + β2 LRS Statistik II Logistische Regression (23/27) Wiederholung Exkurs Binäre abhängige Variablen Interpretation Zusammenfassung In Stata . logit cduwahl polsympangelamerkel lrsselbstselbst Iteration 0: log likelihood = -29.870914 Iteration 1: log likelihood = -22.149578 Iteration 2: log likelihood = -19.757701 Iteration 3: log likelihood = -19.605749 Iteration 4: log likelihood = -19.604952 Iteration 5: log likelihood = -19.604952 Logistic regression Number of obs LR chi2(2) Prob > chi2 Log likelihood = -19.604952 Pseudo R2 cduwahl Coef. polsympang~l lrsselbsts~t _cons .3049494 1.106581 -10.40907 Std. Err. .2132139 .3888137 3.036782 Statistik II z 1.43 2.85 -3.43 P>|z| 0.153 0.004 0.001 = = = = 78 20.53 0.0000 0.3437 [95% Conf. Interval] -.1129421 .3445196 -16.36105 Logistische Regression (24/27) .7228409 1.868641 -4.457082 Wiederholung Exkurs Binäre abhängige Variablen Interpretation Zusammenfassung Graphische Darstellung I I 0 2 Wirkung von Sympathie . . . I I I 4 6 Merkelsympathie LRS=2 LRS=8 8 LRS=5 Fast linear für Rechte Schwach bei Zentristen Praktisch nicht vorhanden bei Linken Implizite Interaktion auf der Ebene der Wahrscheinlichkeiten .8 I Prob. CDU-Wahl .4 .6 I Linke (LRS=2) Zentristen (LRS=5) Rechte (LRS=8)? .2 I .8 Wie wirkt Merkelsympathie für 0 I Prob. CDU-Wahl .4 .6 Statistik II Logistische Regression (25/27) Wiederholung Exkurs Binäre abhängige Variablen Interpretation Zusammenfassung 0 .2 Multivariate Nicht-Linearität p(CDU) p(CDU) p(CDU) 0 2 4 6 Merkelsympathie 1 1 1 LRS=2 LRS=8 8 10 LRS=5 0.5 0.5 0.5 0 0 0 10 10 10 8 5 65 4 Symp. Merkel Symp. Merkel Symp. Merkel 2 2 0 00 00 0 Statistik II 4 56 5 8 10 10 10 LRS LRS LRS Logistische Regression (26/27) 10 Wiederholung Exkurs Binäre abhängige Variablen Interpretation Zusammenfassung Zusammenfassung I Viele politikwissenschaftlich interessante Variablen dichotom I Lineares Modell problematisch I Logit-Modell als gute Alternative I Interpretation erfordert Sorgfalt Statistik II Logistische Regression (27/27)