Analyse von Querschnittsdaten Bivariate Regression Warum geht es in den folgenden Sitzungen? Datum Kontinuierliche Variablen Deskriptive Modelle kategoriale Variablen Vorlesung 18.10.2006 Einführung 18.10.2006 Beispiele 25.10.2006 Daten 08.11.2006 Variablen 15.11.2006 Bivariate Regression 22.11.2006 Kontrolle von Drittvariablen 29.11.2006 Multiple Regression 06.12.2006 Statistische Inferenz 13.12.2006 Signifikanztests I 20.12.2006 Signifikanztests II 10.01.2007 Spezifikation der unabhängigen Variablen 17.01.2007 Spezifikation der Regressionsfunktion 24.01.2007 Heteroskedastizität 31.01.2007 Regression mit Dummy-Variablen 07.02.2007 Logistische Regression Gliederung 1. Deskriptive statistische Modelle 2. Lineare Einfachregression (bivariate Regression) 3. Nicht-lineare Beziehungen 4. Regression und Korrelation Zielsetzung • Finde eine Statistik, die das Typische der vorliegenden Daten beschreibt, so dass die einzelnen Daten möglichst wenig von dieser Statistik abweichen. • einzelne Zielvariable y (unbedingte Verteilung) – y = typisch + Rest • Zusammenhang mit einer anderen Variablen x (bedingte Verteilung) – y = typisch|x + Rest • Die Reste werden auch als Residuen r bezeichnet, die typischen Werte auch als Prognosen ŷ Beispiel 1: Was ist das Typische der folgenden Stimmenanteile der CDU? Neuwied Ahrweiler Koblenz Cochem Bad Kreuznach Bitburg Trier Montabaur Mainz Worms Frankenthal Ludwigshafen Neustadt-Speyer Kaiserslautern Pirmasens Südpfalz 44.21 50.13 46.60 50.94 39.10 52.68 44.82 43.42 40.86 37.99 39.71 40.86 46.48 37.68 42.79 45.09 • Sie betragen im Durchschnitt 43,96%. • Die Summe der „Abweichungen“ aller Datenwerte von dieser Zahl ist minimal. • Anders ausgedrückt: Es gibt keine andere Statistik, bei der die Summe der „Abweichungen“ aller Datenwerte kleiner ist. • Definition Abweichung: quadrierte Differenz (xi – 43,96)². • Statistik: arithmetisches Mittel Beispiel 2: Was ist das Typische der folgenden Stimmenanteile der CDU? Kaiserslautern Worms Bad Kreuznach Frankenthal Mainz Ludwigshafen Pirmasens Montabaur Neuwied Trier Südpfalz Neustadt-Speyer Koblenz Ahrweiler Cochem Bitburg 37.68 37.99 39.10 39.71 40.86 40.86 42.79 43.42 44.21 44.82 45.09 46.48 46.60 50.13 50.94 52.68 • Die Hälfte der Wahlkreise hat einen Stimmenanteil unter 43,815% • Die Summe der „Abweichungen“ aller Datenwerte von dieser Zahl ist minimal. • Anders ausgedrückt: Es gibt keine andere Statistik, bei der die Summe der „Abweichungen“ aller Datenwerte kleiner ist. • Definition Abweichung: absolute Differenz |xi – 43,815|. • Statistik: Median 50 CDU-Anteil in % 45 CDU 44.21 50.13 46.60 50.94 39.10 52.68 44.82 43.42 40.86 37.99 39.71 40.86 46.48 37.68 42.79 45.09 40 Katholiken 55.55 81.99 73.14 70.78 32.60 91.40 87.97 50.76 51.36 32.81 31.98 38.01 45.61 34.89 45.98 55.07 35 Wahlkreis Neuwied Ahrweiler Koblenz Cochem Bad Kreuznach Bitburg Trier Montabaur Mainz Worms Frankenthal Ludwigshafen Neustadt-Speyer Kaiserslautern Pirmasens Südpfalz 55 Beispiel 3: Was ist je nach Katholikenanteil das Typische? 20 40 60 Katholikenanteil in % 80 100 Gliederung 1. Deskriptive statistische Modelle 2. Lineare Einfachregression (bivariate Regression) a. Annahmen b. Minimierungsfunktion • • Kleinste-Quadrate Methode Kleinste-Absolutwerte Methode c. Regressionskoeffizienten d. Determinationskoeffizient e. Interpretation 3. Nicht-lineare Beziehungen 4. Regression und Korrelation Annahmen • y und x sind kontinuierliche Variablen im mathematischen Sinne – Wertebereich von -∞ bis +∞ – Zwischen zwei Werten a<b ist auch jeder Zwischenwert im Intervall [a, b] möglich, sei dieses Intervall auch noch so klein. • Linearer Zusammenhang – y = typisch | x + Rest = yˆ + r = β 0 + β1 x + r – β0 und β1 heißen Regressionskoeffizienten Minimierungsfunktion • Berechne die typischen Werte als lineare Funktion von x; und zwar so, dass • Möglichkeit A: – die Summe der quadrierten Reste minimal ist (Kleinste-Quadrate Methode) • Möglichkeit B: – die Summe der Absolutwerte der Reste minimal ist (Kleinste-Absolutwerte Methode) A: Kleinste-Quadrate Methode (1) • Regressionskoeffizienten, Prognosen und Residuen errechnen sich wie folgt: n βˆ1 = ∑ ( x − x )( y i i =1 i − y) = n ∑ (x − x) i =1 βˆ0 = y − βˆ1 x yˆ i = βˆ0 + βˆ1 xi rˆi = yi − yˆ i i 2 SAPyx SAQx Beispiel 3: Arbeitstabelle 1189,07 ˆ β1 = = 0,194 6136,72 βˆ = 43,96 − 0,194 ⋅ 54,99 = 33,3 0 A: Kleinste-Quadrate Methode (2) n • Der Determinationskoeffizient errechnet sich wie folgt: SST total sum of squares SSE explained sum of squares SSR residual sum of squares SST = ∑ ( yi − y ) 2 i =1 n SSE = ∑ ( yˆ i − y ) 2 i =1 n n i =1 i =1 SSR = ∑ ( yˆ i − yi ) 2 = ∑ rˆi SST = SSE + SSR SSE SSR = 1− R = SST SST 2 2 Beispiel 3: Arbeitstabelle SSE E.SAQ y 230,96 = = = 0,73 R = 315,96 SST SAQ y 2 Output eines Statistik-Programms SST SSR SSE R2 . reg cdu kathol Source | SS df MS -------------+-----------------------------Model | 230.42425 1 230.42425 Residual | 85.4443289 14 6.10316635 -------------+-----------------------------Total | 315.868579 15 21.0579053 Number of obs F( 1, 14) Prob > F R-squared Adj R-squared Root MSE = = = = = = 16 37.75 0.0000 0.7295 0.7102 2.4705 -----------------------------------------------------------------------------cdu | Coef. Std. Err. t P>|t| [95% Conf. Interval] -------------+---------------------------------------------------------------kathol | .1937741 .0315362 6.14 0.000 .1261357 .2614125 _cons | 33.30363 1.840984 18.09 0.000 29.35512 37.25215 ------------------------------------------------------------------------------ βˆ0 βˆ1 Interpretation ˆ U = 33,3 + 0,194 ⋅ Katholiken • CD n = 16, R 2 = 0,729 • Es wurden Daten aus insgesamt 16 Wahlkreisen ausgewertet. • 73% der Variation (der Varianz) der Stimmenanteile der CDU kann mit dem Katholikenanteil erklärt werden. • Nimmt der Katholikenanteil um zehn Prozentpunkte zu, erhöht sich der CDU-Anteil um 1,94 Prozentpunkte. • Die Konstante (33,3) interpretiert man nur, wenn x=0 ein sinnvoller Wert ist. Das Typische der Daten ˆ U = 33,3 + 0,194 ⋅ Katholiken • CD n = 16, R 2 = 0,729 • Es wurden Daten aus insgesamt 16 Wahlkreisen ausgewertet. • 73% der Variation (der Varianz) der Stimmenanteile der CDU kann mit dem Katholikenanteil erklärt werden. • Nimmt der Katholikenanteil um zehn Prozentpunkte zu, erhöht sich der CDU-Anteil um 1,94 Prozentpunkte. • Die Konstante (33,3) interpretiert man nur, wenn x=0 ein sinnvoller Wert ist. Passung (Fit) der Beschreibung ˆ U = 33,3 + 0,194 ⋅ Katholiken • CD n = 16, R 2 = 0,729 • Es wurden Daten aus insgesamt 16 Wahlkreisen ausgewertet. • 73% der Variation (der Varianz) der Stimmenanteile der CDU kann mit dem Katholikenanteil erklärt werden. • Nimmt der Katholikenanteil um zehn Prozentpunkte zu, erhöht sich der CDU-Anteil um 1,94 Prozentpunkte. • Die Konstante (33,3) interpretiert man nur, wenn x=0 ein sinnvoller Wert ist. B: Methode der kleinsten Absolutwerte • CDˆ U = 32,5 + 0,215 ⋅ Katholiken n = 16, R 2 = 0,5724 • Eine andere Minimierungsfunktion liefert einen leicht veränderten Zusammenhang. • Kleinste-Quadrate Methode wird üblicherweise vorgezogen, weil die Kleinste-Absolutwerte Methode Nachteile hat: – keine analytische Lösung (iterative Berechnung notwendig) – inferenzstatistische Eigenschaften nicht so gut 55 Was erklärt die Unterschiede? 50 Kleinste Absolutwerte 35 40 CDU-Anteil in % 45 Kleinste Quadrate 20 40 60 Katholikenanteil in % 80 100 Gliederung 1. Deskriptive statistische Modelle 2. Lineare Einfachregression (bivariate Regression) 3. Nicht-lineare Beziehungen 4. Regression und Korrelation Linearität 15 y 10 5 0 0 1 2 3 4 5 4 5 x nicht-linear: y = √(x) 1.5 y 1 .5 0 ¾ Unabhängigkeit von der Größe von x 2 2.5 • Der Effekt der unabhängigen Variablen x ist immer gleich groß, egal welchen Wert die Variable x aufweist. 20 linear: y = 2 + 3*x 0 1 2 3 x Beispiel 4: Absentismus • Es werden insgesamt 12 Beschäftigte untersucht. Folgende Variablen wurden erhoben: y: Anzahl der Tage, an denen die Person fehlte. x1: (Negative) Einstellung gegenüber dem Betrieb (1=sehr positiv, 13=sehr negativ). x2: Beschäftigungsdauer in dem Betrieb in Jahren. x3: Nettoeinkommen in DM. x4: Anforderungen der ausgeübten Tätigkeit (1=niedrig, 2=schwierig). Überprüfe Linearitätsannahme 0 5 10 2000 3000 4000 5000 15 10 Anzahl Fehltage 5 0 10 Negative Einstellung zu Betrieb 5 0 10 Beschaeftigungsdauer in Jahren 5 0 5000 4000 Nettoeinkommen in Euro 3000 2000 10 Anforderungen der Taetigkeit 5 0 0 5 10 15 0 5 10 0 5 10 Lineare Einfachregressionen Regression R2 Konstante Steigung Variable x y mit x1 0,90 -2,31 1,37 NEGATIV y mit x2 0,79 -1,72 1,62 DAUER y mit x3 0,92 25,20 -0,0053 EINKOMM y mit x4 0,001 6,71 -0,08 ANFORD 0 5 Anzahl Fehltage 10 15 Nicht-linearer Zusammenhang 2 4 6 Anforderungen der Taetigkeit 8 10 Gliederung 1. Deskriptive statistische Modelle 2. Lineare Einfachregression (bivariate Regression) 3. Nicht-lineare Beziehungen 4. Regression und Korrelation 50 CDU-Anteil in % 45 CDU 44.21 50.13 46.60 50.94 39.10 52.68 44.82 43.42 40.86 37.99 39.71 40.86 46.48 37.68 42.79 45.09 40 Katholiken 55.55 81.99 73.14 70.78 32.60 91.40 87.97 50.76 51.36 32.81 31.98 38.01 45.61 34.89 45.98 55.07 35 Wahlkreis Neuwied Ahrweiler Koblenz Cochem Bad Kreuznach Bitburg Trier Montabaur Mainz Worms Frankenthal Ludwigshafen Neustadt-Speyer Kaiserslautern Pirmasens Südpfalz 55 Noch einmal Beispiel 3 20 40 60 Katholikenanteil in % 80 100 Kovarianz n Cov( x, y ) = ∑ ( x − x )( y i =1 i n −1 i − y) Korrelationskoeffizient • Kovarianz ist um so größer, je mehr die beiden Variablen x und y streuen. • Korrelationskoeffizient (nach Pearson) ist eine standardisierte Kovarianz n ∑ ( x − x )( y i =1 Cov( x, y ) = r= sx ⋅ s y i i − y) n −1 n = n ∑ (x − x) ∑ ( y 2 i =1 i n −1 n i =1 i − y) 2 ∑ ( x − x )( y i i =1 n i − y) = n ∑ (x − x) ∑ ( y 2 i =1 i i =1 i − y) 2 SAPxy SAQx ⋅ SAQ y n −1 • Achtung: Symbol r nicht verwechseln mit Residuum r Korrelation und bivariate Regression r= βˆ1 = SAPxy SAQx ⋅ SAQ y SAPyx SAQx = SAPyx SAQx SAQx ⋅ SAQ y SAQ y SAQ y βˆ1 = SAPyx SAQx SAQ y ⋅ n −1 = r sy sx SAQx n −1 Korrelation und bivariate Regression Für den Determinationskoeffizienten gilt 2 2 R =r Zum Schluss Literatur • Wooldridge, J. (2003): Introductory econometrics: a modern approach. South Western College Publishing. – Kapitel 2 gibt eine Einführung in die lineare Einfachregression. Allerdings beginnt Wooldridge sofort mit inferenzstatistischen Überlegungen und unterscheidet zwischen Grundgesamtheit und Stichprobe. Das werden wir erst in späteren Sitzungen behandeln. Wir betrachten Regression zunächst nur als eine Methode zur Beschreibung von Variablenzusammenhängen. Dies erklärt auch unsere leicht abweichende Notation (z.B. Residuum r statt Fehlerterm u). Bitte die entsprechenden Passagen (vor allem Abschnitt 2.5) zunächst ignorieren. Es genügt, die Abschnitte bis einschließlich 2.3 zu lesen (WO 22-41). Zusammenfassung Analyseziel finde eine Statistik, die die Daten gut beschreibt, d.h., von der die Einzelwerte möglichst wenig abweichen. Minimierungs- • Summe der Quadrate der Abweichungen funktion • Summe der Absolutwerte der Abweichungen Bivariate Analyse mache eine möglichst gute Prognose von y für unterschiedliche Werte von x Lineare Funktion der Effekt der unabhängigen Variablen x ist immer gleich groß, egal welchen Wert die Variable x aufweist. Annahmen überprüfe Annahme der Linearität durch Streudiagramm Regression Regressionskoeffizienten, Determinationskoeffizient Korrelation ergibt sich aus Regressionskoeffizient durch Multiplikation mit den Standardabweichungen von x und y Wichtige Fachausdrücke Deutsch Englisch Deutsch Englisch Kleinste Quadrate (ordinary) least squares (OLS) Korrelationskoeffizient correlation coefficient Kleinste Absolutwerte least absolute values (LAV) Regressionskoeffizient regression coefficient Determinations -koeffizient coefficient of determination Stata-Befehle reg y x Regression von y auf x (KleinsteQuadrate Methode) qreg y x Regression von y auf x (KleinsteAbsolutwerte Methode) graph twoway scatter y x Streudiagramm graph twoway lfit y x Graphik linearer Regression graph twoway scatter y x || lfit y x beides in einer Graphik graph matrix x1-x5 Matrix von Streudiagrammen (jede Variable mit jeder anderen) corr y x Korrelation von y und x