Statistik: 28.10.04 Relationen zwischen metrischen Merkmalen Beispiel: Wohnungsmarkt Für 16 Angebote von Eigentumswohnungen wurden registriert: Fläche der Wohnung (m2) Angebotspreis (1000 EUR) Fläche 122 71 125 45 100 63 194 85 Preis 530 410 480 170 315 455 885 400 Fläche 164 119 140 109 40 62 84 65 Preis 900 550 790 810 390 440 300 385 28.10.04 PI Statistik, WS 2004/05 (5) 2 Wohnungsmarkt Preis (1000 EUR) Punkte- oder Streudiagramm (scatterplot) 1000 900 800 700 600 500 400 300 200 100 0 0 50 100 150 200 250 Fläche (m2) 28.10.04 PI Statistik, WS 2004/05 (5) 3 Randverteilungen 6 Fläche der Wohnung (m2) Häufigkeit 5 4 3 2 1 0 50 90 130 170 210 250 6 Preis (1000 EUR) Häufigkeit 5 4 3 2 1 0 300 28.10.04 400 500 PI Statistik, WS 2004/05 (5) 600 700 800 900 1000 4 Randverteilungen Kenngrößen Fläche Mittelwert 99,3 513,1 Standardfehler 10,8 54,8 Median 92,5 447,5 Standardabweichung 43,3 219,3 Stichprobenvarianz 1870,6 48109,6 Kurtosis -0,049 -0,547 Schiefe 0,651 0,663 154 730 Minimum 40 170 Maximum 194 900 16 16 Wertebereich Anzahl 28.10.04 Preis PI Statistik, WS 2004/05 (5) 5 Standardisieren Merkmal X : x1, …, xn Stichprobenkennzahlen: x , sx Standardisieren: xi x zi sx Standardisierte Daten: z1, …, zn Stichprobenkennzahlen: z 0, sz 1 28.10.04 PI Statistik, WS 2004/05 (5) 6 Beispiel: Wohnungsmarkt xi x yi y Standardisierte Daten: zxi , z yi sx sy Preis 2 2 1 1 0 -2 -2 -1 -1 -1 0 1 1 2 2 3 -1 -2 -2 28.10.04 PI Statistik, WS 2004/05 (5) Fläche 7 Korrelationskoeffizient Produkt-Moment Korrelationskoeffizient: 1 n xi x yi y 1 n r z xi z yi n i 1 sx sy n i 1 oder r s xy sx s y 1 n mit der Kovarianz sxy ( xi x )( yi y ) n i 1 Beispiel: Fläche (X) und Preis (Y) von angebotenen Wohnungen: sxy = 7342.34, sx= 43.3, sy= 219.3 r = 0.826 28.10.04 PI Statistik, WS 2004/05 (5) 8 Korrelationskoeffizient Korrelationskoeffizient ist ein (durch das Standardisieren) normiertes Maß für den linearen Zusammenhang Eigenschaften: -1 ≤ r ≤ 1 |r| ist Maß für die Stärke des linearen Zusammenhanges |r|=1: perfekte lineare Abhängigkeit |r|<1: Punkte streuen stark (|r|~0) oder schwach (|r|~1) um Gerade Sign(r) ist Maß für Richtung des linearen Zusammenhanges 28.10.04 Sign(r)=1: steigende Gerade Sign(r)=-1: fallende Gerade PI Statistik, WS 2004/05 (5) 9 Beziehungen: Beispiele 0.997 -0.977 -0.289 28.10.04 -0.067 PI Statistik, WS 2004/05 (5) 10 Rang Korrelationskoeffizient nach Spearman Korrelationsmaß für ordinale Merkmale Auch anwendbar auf Rangzahlen für metrische Merkmale Definition wie Produkt-Moment Korrelationskoeffizient rxy, angewendet auf die Ränge der Beobachtungen r rrg ( x ),rg ( y ) sp xy 28.10.04 PI Statistik, WS 2004/05 (5) 11 Berechnung von r 1. sp 3. Sortieren der Stichprobenpaare (xi, yi) nach steigenden Werten von X Ersetzen der Beobachtungen (xi, yi) durch die Rangzahlen (i, Ri) Einsetzen in Formel für Produkt-Moment Korrelationskoeffizient r : i n21 Ri n21 sp i r n 1 2 n 1 2 i R i 2 i i 2 4. Alternative Schreibweise: 2. r 1 sp 28.10.04 6 n(n2 1) 2 ( i R ) i i PI Statistik, WS 2004/05 (5) 12 Beispiel: Schulnoten Math 5 Math Engl Engl Engl-Note 4 3 3 1 1 2 1,5 3,5 4 3 2 1 3 1,5 6,5 1 3 3 2 1 4 1,5 1 3 4 4 2 2 4 3,5 0 3 1 5 2 3 4 6,5 2 3 6 3 1 7 1,5 2 1 7 3 3 7 6,5 1 2 8 3 4 7 9,5 4 4 9 4 3 9,5 6,5 2 2 10 4 4 9,5 9,5 28.10.04 PI Statistik, WS 2004/05 (5) 3 2 0 1 2 3 4 5 Math-Note r sp = 0.430 13 Typen von Beziehungen zwischen Merkmalen Kausaler Zusammenhang Wenn es kalt ist, steigen die Heizkosten Rauchen macht Lungenkrebs Gemeinsame Response Die fleißige Studentin bekommt viele gute Noten Zahl der Babys und der Störche wird weniger Vermengung (confounding) 28.10.04 Sloppy lifestyle Hypothese und Lungenkrebs PI Statistik, WS 2004/05 (5) 14 Typen von Beziehungen zwischen zwei Merkmalen x und y x y x y x y x ist kausal für y z x, y sind gemeinsame Response auf z 28.10.04 PI Statistik, WS 2004/05 (5) z y: Effekte von x und z sind vermengt 15 Vorsicht! Die Interpretation von Korrelation als kausale Beziehung ist oft eine Fehlinterpretation! Zahl der Babys und der Störche sind hoch positiv korreliert!? Einkommen und Konsum sind hoch positiv korreliert Ausreißer haben großen Effekt auf den Wert des Korrelationskoeffizienten Nicht-lineare Beziehungen! 28.10.04 PI Statistik, WS 2004/05 (5) 16 Lineare Regression Gerade, die die Datenwolke im Streudiagramm bzw. die Beziehung zwischen den dargestellten Merkmalen möglichst gut repräsentiert 1000 800 Preis (1000 EUR) Wohnungsmarkt: Daten und Regressionsgerade 600 400 200 0 0 50 100 150 200 250 Fläche (m2) 28.10.04 PI Statistik, WS 2004/05 (5) 17 Lineare Regression, Forts. Abhängiges Merkmal: Y Unabhängiges Merkmal: X Regressionsgerade: Y = a + b X a, b: Regressionskoeffizienten (b: Anstieg, a: Interzept) Methode der kleinsten Quadrate: Wähle die Koeffizienten so, dass die Summe der quadrierten Abstände zwischen Beobachtungen und der Geraden minimiert werden a ,b S (a, b) i 1 yi (a bxi ) min 2 n Schätzer: b r 28.10.04 sy sx , a y bx PI Statistik, WS 2004/05 (5) 18 Wohnungsmarkt, Forts. Geschätzte Regressionsgerade 1000 Preis (1000 EUR) 800 600 400 200 97.59 4.19x 0 0 50 100 150 200 250 Fläche (m2) 28.10.04 PI Statistik, WS 2004/05 (5) 19 Wohnungsmarkt Geschätzte Regressionsgerade yˆ 97.59 4.19 x • Je m2 muss man im Durchschnitt mit Kosten von 4.190 Euro rechnen; • dazu kommt ein fixer Betrag von im Durchschnitt 97.590 Euro • Residuen: yi (a bxi ) • zur Beurteilung der Qualität der Erklärung der Daten durch die Regressionsgerade, insb. des Effekts von einzelnen Beobachtungen 28.10.04 PI Statistik, WS 2004/05 (5) 20 Regression in EXCEL Analysefunktion „Regression“ Statistische Funktionen 28.10.04 RGP: liefert die Koeffizienten der linearen Regression SCHÄTZER: Liefert einen Y-Wert zu einem X-Wert nach Anpassen der linearen Regression Und andere PI Statistik, WS 2004/05 (5) 21 Regression in EXCEL: Ausgabe: Zusammenfassung Regressions-Statistik Multipler Korrelationskoeffizient 0,826 Bestimmtheitsmaß 0,682 Adj. Bestimmtheitsmaß 0,659 Standardfehler 128,12 Beobachtungen 16 Koeffizi enten Standard fehler t-Statistik P-Wert Schnittpunkt 97,59 82,39 1,18 0,256 X Variable 1 4,19 0,76 5,47 8,2E-05 28.10.04 PI Statistik, WS 2004/05 (5) 22