295 i ➊ Zwei oder mehrere metrische Merkmale - Problemstellungen Frage nach dem Zusammenhang Beispiel: Duxbury Press (1. Kapitel) Anzahl der verschenkten Freiexemplare ➜ Verkaufserlös ? Besteht eine direkte Beziehung (ein Zusammenhang) zwischen der Anzahl verschenkter Exemplare und der Anzahl verkaufter Bücher bzw. der Verkaufserlöse? 296 i ➋ Zwei oder mehrere metrische Merkmale - Problemstellungen Frage nach Unterschieden › Beispiel: Einfluß der Helmtragepflicht auf Fahrradfahren • • • • Diskussion über Einführung einer Helmtrageflicht Kritiker behaupten, Pflicht entmutigt Rad zu fahren probeweise Einführung der Tragepflicht in Testorten repräsentative Stichprobe: Wieviele km wurden in der Woche vor und der Woche nach Einführung des Gesetzes mit dem Rad zurückgelegt? ? Hat die Einführung der Helmtragepflicht Einfluß auf die Anzahl der gefahrenen Kilometer? 297 i ➌ Zwei oder mehrere metrische Merkmale - Problemstellungen Frage nach Stärke des Zusammenhangs Wie stark ist der Zusammenhang zwischen zwei metrischen Variablen? › Beispiel: Besteht ein Zusammenhang zwischen den Ausgaben für Alkoholische Getränke und Tabakwaren? 298 i ➍ Zwei oder mehrere metrische Merkmale - Problemstellungen Frage nach Form des Zusammenhangs Welche Form hat der Zusammenhang zwischen zwei Variablen? Läßt sich der Wert einer Variablen anhand des Wertes einer zweiten vorhersagen? › Beispiel: Ist der Preis eines Gebrauchtwagen abhängig von der Zahl der gefahrenen Kilometer? Kann man den Preis des Gebrauchtwagens mit Hilfe des Kilometerstandes vorhersagen? 299 i ➎ Zwei oder mehrere metrische Merkmale - Problemstellungen Frage nach Unterschieden in den Mittelwerten Unterscheiden sich die Mittelwerte zweier Variablen, die an einer Beobachtungseinheit erhoben wurden? › Beispiel: besteht ein Unterschied in der Anzahl der gefahrenen Kilometer vor und nach Einführung der Helmtragepflicht? › Beispiel: Sind Dioptrienzahlen an linken und rechten Augen gleich? 300 i Stärke des Zusammenhangs › Beispiel: Ausgaben für Tabak und Alkohol Durchschnittliche Haushaltsausgaben pro Woche in Pfund für Alkohol und Tabakwaren in 11 britischen Regionen (1981). ? Besteht ein Zusammenhang zwischen den Ausgaben für alkoholische Getränke und Tabakwaren? Variable: Ausgaben für Tabakwaren Ausgaben für Alkohol Graphische Darstellung der Daten mittels Streudiagramm (Scattergram) 301 › Beispiel Aufgaben für Tabak und Alkohol Streudiagramm: Ausgaben für Takakwaren ↔ Alkohol 7.0 • ALCOHOL 6.0 • 5.0 • 4.0 2.5 • 3.0 TOBACCO • • • 3.5 •• • 4.0 • 4.5 5.0 302 i Korrelationskoeffizient Der Korrelationskoeffizient mißt die Stärke des Zusammenhangs. Im Beispiel positiver Zusammenhang: ➜ kleine xi ↔ kleine yi, große xi ↔ große yi 7.0 x̄ II ALCOHOL 6.0 • 5.0 • III 4.0 2.5 I • • 3.0 TOBACCO • • • 3.5 •• Bilden der Produkte ui = (xi − x̄)(yi − ȳ) (xi/yi) ui 4.0 • •IV 4.5 ȳ 303 i Eigenschaften der ui • Liegen die Beobachtungen in I oder in III ➜ ui positiv • in II oder in IV ➜ ui negativ Zusammenhangsmaß: Mittelwert der ui ➜ Kovarianz Cov(x, y) = n X 1 n i=1 (xi − x̄)(yi − ȳ) Die meisten Beobachtungen in I und III Die meisten Beobachtungen in II und IV Beobachtungen gleichmäßig in I,II,III und IV ➜ Cov(x, y) > 0 ➜ Cov(x, y) < 0 ➜ Cov(x, y) ≈ 0 304 i Korrelationskoeffizient Kovarianz abhängig von der Maßeinheit ➜ normieren Korrelationskoeffizient rx,y 1 n P (xi − x̄)(yi − ȳ) Cov(x, y) q P =q P = 1 1 sx · sy 2 2 (x − x̄) (y − ȳ) i i n n Eigenschaften • rx,y ist ein normiertes Zusammenhangsmaß: −1 ≤ rx,y ≤ 1 305 i Eigenschaften des Korrelationskoeffizienten • Bildet nur lineare Zusammenhänge ab ..... . y } . . . . . . . ....... y .} . . . . . . . . ..... y ...} . . . . . . . . ... y ........} rxy = 1 .........} y .......... .....} y .......... .....} y .......... ......} y ...... rxy = −1 • Unkorreliertheit ist nicht das Gleiche wie Unabhängigkeit y ................} ..............} . . . . y } . .y . . ...... . . . . . . .... . . . ...} . y } y . ... .... ... ..y .....} ...y ....} ... .. . ...} . y y .... ..} . . . ..... .... ....} . . . y y } . ..................} . . . y ............ rxy = 0 z.B. exakter nicht-linearer Zusammenhang 306 › Beispiel Zusammenhänge rxy = −0.90 rxy = 0.911 307 › Beispiel Zusammenhänge rxy = 0.492 rxy = −0.50 308 › Beispiel Zusammenhänge rxy = 0.0 rxy = 0.0 309 i Berechnung des Korrelationskoeffizienten › Beispiel: x 3 6 7 9 4 y 9 12 13 16 11 Berechnung von rx,y Summe Mittelwert xi 3 6 7 9 4 29 5.8 yi 9 12 13 16 11 61 12.2 x2i 9 36 49 81 16 191 38.2 yi2 81 144 169 256 121 771 154.2 xi · y i 27 72 91 144 44 378 75.5 310 i Berechnung des Korrelationskoeffizienten rxy 1 n P xiyi − xy q P =q P = 0.979 1 1 2 2 2 2 x − x̄ y − ȳ i i n n 18 y 16 14 y y 12 y 10 y 8 2 3 4 5 6 7 8 9 10 311 › Beispiel Ausgaben für Tabak und Alkohol Besteht ein Zusammenhang zwischen Ausgaben für Alkohol und Tabakwaren? 7.0 • ALCOHOL 6.0 • 5.0 • 4.0 2.5 • 3.0 TOBACCO • • • 3.5 •• • 4.0 Nordirland • ✱ 4.5 5.0 312 › Beispiel Ausgaben für Tabak und Alkohol Nordirland ist ein besonderer Fall ➜ Outlier ! Ausgaben für Tabak hoch, für Alkohol niedrig ? Alkohol in Nordirland billiger? Berechnung des Korrelationskoeffizienten einmal mit und einmal ohne Nordirland rx,y = 0.784 rx,y = 0.224 ohne Nordirland mit Nordirland E Test des Korrelationskoeffizienten 313 i Test des Korrelationskoeffizienten H0 : ρ = 0 HA : ρ 6= 0 oder HA : ρ < 0 oder HA : ρ > 0 rxy Teststatistik T = q 2 1 − rxy √ n−2 ! t-Verteilung mit df = n − 2 H0 verwerfen, wenn |T | größer als kritischer Wert zweiseitig mit SPSS oder R p-value = 0.007 ohne Nordirland p-value = 0.509 mit Nordirland ✔ starker Zusammenhang, wenn Nordirland nicht berücksichtigt wird. 314 i Test des Korrelationskoeffizienten Voraussetzung für Pearson’s rxy Beide Variablen x, y intervallskaliert und normalverteilt. Wenn diese Voraussetzungen nicht erfüllt sind: Ausweichen auf Methoden für ordinale Daten ➜ nichtparametrische oder parameterfreie Methoden E Idee: • Rangreihung der Daten wie bei Median • Diese Zahlen (Ränge) als Daten verwenden • Problem: Bindungen (Ties), wenn mehrere Beobachtungen gleich groß sind und damit die gleichen Ränge erhalten würden. 315 i Rangkorrelation Durchschnittsränge Daten: Ränge: Durchschnittsränge: 1 4 4 6 8 8 8 11 usw. 1 2 3 4 5 6 7 8 ... 1 2.5 2.5 4 6 6 6 8 . . . ! Spearman’s Rangkorrelation • Jede der beiden Variablen rangreihen • Berechnung wie rxy , aber mit den Rängen • Vorgehen beim Testen genauso wie bei rxy 316 ? Fragestellung 2 • Welche Form hat der Zusammenhang zwischen zwei Variablen? • Läßt sich der Wert einer Variablen mittels des Wertes einer zweiten Variaben vorhersagen? › Beispiel: Gebrauchtwagenpreise USA • Ist der Gebrauchtwagenpreis abhängig von der Zahl der gefahrenen Meilen? • Kann der Gebrauchtwagenpreis mit Hilfe des Kilometerstandes vorhergesagt werden? 317 › Beispiel Gebrauchtwagenpreise Richtpreisliste für Gebrauchtwagen 100 Ford Taurus, 3 Jahre alt, x = gefahrene Meilen, y = Preis 6.0 Preis in 1000 $ 5.5 5.0 4.5 15 25 35 gefahrene Meilen (in Tausend) 45 55 318 i Regression Y-Variable abhängige Variable oder Responsevariable X-Variable unabhängige oder erklärende Variable Bei Regression immer folgende Beziehung: WENN ➜ X ➜ unabhängig ➜ DANN Y abhängig › Beispiele • Verkehrsministerium untersucht Beziehung zwischen Strassenunebenheiten und Benzinverbrauch. 319 › Beispiel Regression • Händler, der seine Waren bei Fußballspielen verkauft, möchte seine Verkaufszahlen auf die Anzahl der Siege des Heimteams beziehen. • Soziologe möchte die Beziehung zwischen der Anzahl der Wochenenden, die ein Student zu Hause verbringt, und der Entfernung zwischen Wohn- und Studienort untersuchen. ! Unterscheidung Korrelation ↔ Regression ✔ Kann die Wenn ➜ Dann Beziehung umgedreht werden, sind beide Variablen gleichwertig ➜ Korrelation ✔ kann man das nicht ➜ Regression 320 i Einfache lineare Regression Regressionsmodell Y =a+b·X Preis = a + b · gefahrene Meilen Interessierende Größen: Regressionskoeffizienten a und b Diese müssen aus den Werten für X und Y errechnet werden. Jedem Punkt (xi, yi) wird ein Punkt (xi, ŷi) zugeordnet. 321 Einfache lineare Regression ei yi ŷi a rrrrrr rrrrrr r r r r r rr rrrrrr rrrrrr r u x r r r r rr rrrrrr rrrrrr r r r r r r rrrrrr rrrrrr r r r r r rr rrrrrr rrrrrr r r r r r rrrrr rrrx rrrrrr r r r r r r i i rrrrrr rrrrrr r r r r r r r r r r rr rrrrrr rrrrrr r r r r r r rrrrrr rrrrrr r r r r r rrrrrr n (x i , y i ) }b i (x , ŷ ) xi 1 a . . . Interzept b . . . Anstieg ŷi . . . geschätztes yi ei . . . Residuum 322 i Prinzip der Kleinsten Quadrate beobachtete Punkte (xi, yi) Punkte auf der Geraden (xi, ŷi) yi = a + bxi + ei ŷi = a + bxi Berechnung von a und b ➜ Prinzip der kleinsten Quadrate X X 2 ei = (yi − a − bxi)2 → min E Summe der quadrierten Abstände soll minimal werden. b= Cov(x, y) s2x a = ȳ − bx̄ = rxy sy sx Gerade geht durch den Punkt (x̄, ȳ) 323 › Beispiel Gebrauchtwagenpreise Im Beispiel: a = 6533.38, b = −0.031 Y = 6533.38 − 0.031X ✔ Interpretation Je gefahrener Meile sinkt der Preis um 0.031 Dollar. i Prognose Welchen Preis erzielt ein 3 Jahre alter Ford Taurus mit 40000 Meilen? x = 40000 → ŷ = 6533.38 − 0.031 · 40000 = 5293.38 324 i Testen im linearen Regressionsmodell In der Population: Y = α + βX Testen von β (α meist nicht so interessant) H0 : β = 0 HA : β 6= 0 oder HA : β < 0, HA : β > 0 In SPSS Modell 1 (Konstante) MEILEN Koeffizientena Nicht standardisierte Standard. Koeffizienten Koeff. Standard B fehler Beta 6544.383 84.512 -0.031 0.002 -0.806 a. Abhängige Variable: PREIS T 77.307 -13.495 Signifikanz 0.000 0.000 325 i Testen im linearen Regressionsmodell Modell 1 ✔ ✔ ✔ ✔ ✔ (Konstante) MEILEN Koeffizientena Nicht standardisierte Standard. Koeffizienten Koeff. Standard B fehler Beta 6544.383 84.512 -0.031 0.002 -0.806 B sind die Regressionskoeffizienten Konstante ist das Interzept a Beta hat nichts mit dem obigen β zu tun T ist der Wert der Teststatistik (t-Verteilung) p-Wert < 0.001 zweiseitig: β ist signifikant von Null verschieden. T 77.307 -13.495 Signifikanz 0.000 0.000 326 X Voraussetzungen des linearen Regressionsmodells Voraussetzungen ähnlich wie bei Korrelation Erwarteter Wert von Normal ✗ ✗ ✗ ✗ Linearität der Beziehung Intervallskala für die abhängige Variable Y Y normalverteilt ➜ Residuen ei normalverteilt. Achten auf Outliers! 400 200 QQ-Plot der Residuen zur Überprüfung der Normalverteilungsannahme Punkte sollen entlang einer 45◦ Geraden liegen 0 -200 -400 -400 -200 0 200 400 Beobachteter Wert der Residuen 327 X Voraussetzungen des linearen Regressionsmodells 400 200 Residuen Plot y-Achse: Residuen x-Achse: Progosewerte ŷi Sollen kein Muster zeigen Residuen 0 -200 -400 4800 5200 5600 6000 ! Wenn Voraussetzungen nicht erfüllt: eventuell Daten transformieren, sonst keine einfachen Alternativen. 328 i Erklärungswert eines Regressionsmodells Wie gut ist ein Regressionsmodell? Modell dient dazu, eine abhängige Variable zu erklären oder vorherzusagen. ! Residuen sollen möglichst klein sein y = a + bx + e beobachter Wert = Prognosewert + Rest 2 Bestimmtheitsmaß R = Var(y) − Var(e) Var(y) Quadrat des Korrelationskoeffizienten, Anteil der erklärten Varianz von y. 329 › Beispiel Erklärungswert - Gebrauchtwagen Modellzusammenfassungb Modell 1 R 0.806a a. b. R-Quadrat 0.650 Korrigiertes R-Quadrat 0.647 Standardfehler des Schätzers 151.57 Einflußvariablen: (Konstante), MEILEN Abhängige Variable: PREIS ! Korrigiertes R2 ist R2 um die Freiheitsgrade korrigiert, um die Stichprobengröße zu berücksichtigen. 2 Rkorr 2 =R − k−1 n−k R2 k = Anzahl der erklärenden Variablen einschließlich a. 330 i Multiple Regression Erklärungsgrad kann verbessert werden, wenn man zusätzliche erklärende Variable berücksichtigt. Multiples Regressionsmodell: yi = a + b1xi1 + b2xi2 + . . . + ei Berechnung der Koeffizienten mittels Statistiksoftware. › Beispiel: Gebrauchtwagen zusätzliche Variable: Anzahl der Serviceüberprüfungen 331 › Beispiel Modell 1 Gebrauchtwagenpreise - multiple Regression (Konstante) MEILEN SERVICE Koeffizientena Nicht standardisierte Koeffizienten Standard B fehler 6206.128 24.966 -0.031 0.001 135.837 3.903 Stand. Koeff. Beta -0.814 0.569 T 248.581 -49.788 34.807 Signifikanz 0.000 0.000 0.000 a. Abhängige Variable: PREIS ✔ korrigiertes R2 = 0.974 ✔ beide Variable MEILEN und SERVICE signifikant ✔ pro Service erhöht sich durchschnittlicher Preis um ca. 136 $ 332 ? Fragestellung 3A Unterscheiden sich die Mittelwerte zweier Variablen, die an einer Beobachtungseinheit erhoben wurden? › Beispiel: Helmpflicht für Radfahrer in den USA • Kritiker: Helmpflicht entmutigt, Rad zu fahren • probeweise Einführung der Helmpflicht in Testorten • repäsentative Stichprobe: gefahrene km vor und nach Einführung der Helmpflicht. ? Besteht ein Unterschied in der Anzahl gefahrener km vor und nach Einführung der Helmpflicht? 333 › Beispiel Helmtragepflicht Stichprobe n = 200, x̄ = 0.77, s = 3.07 80 70 60 50 40 30 20 10 0 -6 -4 -2 0 2 Differenz (nach – vor) 4 6 8 10 334 i t-Test für abhängige Stichproben Abhängige Stichproben: zwei oder mehrere Variablen werden an einer Beobachtungseinheit erhoben. In SPSS: gepaarte Stichproben. ! Wie t-Test für eine Stichprobe, allerdings wird nun die Differenz der Mittelwerte geprüft. H0 : µ2 − µ1 = 0 oder H0 : µ1 = µ2 HA : µ1 6= µ2 oder HA : µ1 > µ2 oder HA : µ1 < µ2 ✔ Voraussetzung: Intervallskala und Normalverteilung der Differenzen. 335 › Beispiel Helmtragepflicht: t-Test für abhängige Stichproben Test bei gepaarten Stichproben Gepaarte Differenzen T df Sig. (2-seitig) Mittelwert Standardabweichung Standardfehler des Mittelwerts 95% Konfidenzintervall Untere der Differenz Obere Paare KNNACH–KMVOR 0.7700 3.0650 0.2167 0.3426 1.1974 3.5530 199 0.000 ✔ Ergebnis: Einführung der Helmpflicht hat keine negativen Aus wirkungen, es werden nach Einführung sogar um 0.77 km pro Woche mehr gefahren. 336 ? Fragestellung 3B Unterscheidet sich die Lage zweier Variabler, die an einer Beobachtungseinheit erhoben wurden? › Beispiel: Alkohol und Beurteilung der Attraktivität In einem Club in Ohio wurden Mitglieder gebeten, die Attraktivität der Anwesenden des jeweils anderen Geschlechts auf einer 100-teiligen Skala (0=extrem unattraktiv, 100=extrem attraktiv) zu beurteilen. Die Einschätzungen wurden 3 Stunden vor und unmittelbar vor der Sperrzeit abgegeben. 337 › Beispiel Alkohol und Beurteilung der Attraktivität 120 100 80 60 40 20 0 -20 N= 180 3 Stunden vorher 180 Sperrstunde ? Gibt es einen Unterschied in der Beurteilung vor und nach Alkoholkonsum? 338 i Wilcoxon Test Variable Beurteilung ist nicht intervallskaliert ➜ Voraussetzungen für t-Test nicht erfüllt. E Wilcoxon-Test • Unterschiede in der Lage 2er abhängiger Stichproben, ordinal oder metrisch • wenn Voraussetzungen für den t-Test nicht erfüllt sind. X Voraussetzungen für Wilcoxon-Test ✔ 2 abhängige Stichproben ✔ ordinale Daten oder nicht normalverteilte Differenzen ✔ nicht zuviele Bindungen 339 › Beispiel Alkohol und Beurteilung der Attraktivität -Wilcoxon Test H0 : F (x) = G(x) Lage in beiden Gruppen gleich HA : F (x) > G(x) Ränge Negative Rängea Positive Rängeb Bindungenc Gesamt a. b. c. N 39 138 3 180 Mittlerer Rang 61.67 96.72 Rangsumme 2405.00 13348 Sperrstunde < 3 Stunden vorher Sperrstunde > 3 Stunden vorher 3 Stunden vorher = Sperrstunde 340 › Beispiel Alkohol und Beurteilung der Attraktivität -Wilcoxon Test Statistik für Testb Sperrstunde3 Stunden vorher Za -8.015 Asymptotische Signifikanz (2-seitig) 0.000 a. b. Basiert auf negativen Rängen Wilcoxon-Test ✔ Ergebnis: Angehörige des anderen Geschlechts werden kurz vor Sperrstunde deutlich attraktiver eingeschätzt als 3 Stunden vorher.