Auswertung bivariater Datenmengen Grundbegriffe und Darstellungsweisen Zusammenhang zwischen zwei kardinalen Merkmalen Prof. Kück / Dr. Ricabal Delgado Lehrstuhl Statistik 1 Korrelation I Bibliografie: ¾ Prof. Dr. Kück Universität Rostock Statistik, Vorlesungsskript, Abschnitt 8.1 und 8.2 ¾ Bleymüller / Gehlert / Gülicher Verlag Vahlen 2004 Statistik für Wirtschaftswissenschaftler ¾ Hartung Oldenburg Verlag 2002 Statistik. ¾ http://www.wiwi.uni-rostock.de/~stat/download.htm Prof. Kück / Dr. Ricabal Delgado Lehrstuhl Statistik 2 Korrelation I 1 Ziel der deskriptiven Auswertung bivariater Datenmengen ¾Für die N Einheiten einer Total- oder Teilerhebung liegen zwei Merkmale in ihren Ausprägungen vor, so dass eine bivariate Datenmenge auswertbar ist. ¾Die beiden Merkmale können unterschiedliches Skalenniveau haben. Ist das der Fall, so richten sich Darstellungs- und Auswertungsart nach der niedrigsten Skalenart. ¾Die Auswertung bivariater Datenmengen dient dem Zweck festzustellen, ob ein Zusammenhang zwischen den gemeinsam festgestellten Merkmalen besteht, in welcher Form und wie stark dieser ausgeprägt ist. ¾Aus der tabellarischen oder grafischen Darstellung des bivariaten Datensatzes gewinnt man einen ersten Eindruck, ob zwischen zwei Merkmalen ein Zusammenhang besteht. Die geeignete Tabellenform ist die zweidimensionale Häufigkeitstabelle, die geeignete Grafik ist das dreidimensionale Histogramm sowie für Einzelwerte das Streudiagramm. Prof. Kück / Dr. Ricabal Delgado Lehrstuhl Statistik 3 Korrelation I Auswertungsaspekte bivariater Datenmengen Die betrachteten Merkmale werden –unabhängig vom Skalenniveau- mit X und mit Y bezeichnet. Ein erster Auswertungsaspekt betrifft die Angabe von Maßzahlen für Zusammenhang von X und Y. Sind die betrachteten Merkmale X und Y voneinander unabhängig oder liegt Abhängigkeit vor? Wie ausgeprägt ist eine Abhängigkeit zwischen den Merkmalen? Ist sie schwach oder stark? ⇒Feststellung der Abhängigkeit: Korrelation Gibt es eine Möglichkeit, eine vorhandene Abhängigkeit oder eine generelle Tendenz der Abhängigkeit quantitativ zu beschreiben? Kann man angeben, in welcher Weise die Merkmalswerte X und Y voneinander abhängen? ⇒Beschreibung der Abhängigkeit: Prof. Kück / Dr. Ricabal Delgado Lehrstuhl Statistik Regression 4 Korrelation I 2 Beispiel: Virtuelles Autohaus Für eine Analyse des Automarktes wurden bei 250 Autos verschiedener Hersteller und Modelle die gemeinsamen Merkmale Modell, Karosserie, Preis, Kosten, Leistung, Hubraum, Beschleunigung, Geschwindigkeit und Verbrauch untersucht. Ein Ziel dieser Analyse ist die Feststellung, ob ein Zusammenhang zwischen den untersuchten Merkmalen nachzuweisen ist und wie dessen Ausprägung ist, falls er besteht. Merkmal X: Verbrauch Merkmal Y: Preis Preis Kosten Für die 7 kardinalskalierten Merkmale liefern die paarweisen Streuungsdiagramme (21) in der Matrixanordnung einen ersten Eindruck über „ob“ und „wie“. Hubraum Leistung Beschleunigung Geschw indigkeit Verbrauch Prof. Kück / Dr. Ricabal Delgado Lehrstuhl Statistik Merkmal X: Verbrauch Merkmal Y: Leistung 5 Korrelation I Beispiel: Streuungsdiagramm für die Merkmale Preis und Leistung 120000 100000 80000 60000 Preis [EURO] 40000 20000 0 0 100 200 300 400 Leistung [PS] Es wird ein enger Zusammenhang zwischen dem Preis eines Autos und seiner Motorleistung aus der Grafik der 250 Fahrzeuge erkennbar. Prof. Kück / Dr. Ricabal Delgado Lehrstuhl Statistik 6 Korrelation I 3 Beispiel: Streuungsdiagramm für die Merkmale Preis und Qualität Preis Preisunterschied Qualität Qualitätsunterschied Es wird ein enger Zusammenhang zwischen Preis und Qualitätsmerkmalen eines Verbrauchsgutes (Personalcomputer) erkennbar. Prof. Kück / Dr. Ricabal Delgado Lehrstuhl Statistik 7 Korrelation I Beispiel: Punktbewertungen von Punktrichtern Es wird untersucht, ob die Punktbewertungen unterschiedlicher Punktrichter für die A- und B-Note zusammenhängen. Richter 1 2 3 4 5 6 A-Note 5,7 5,2 5,3 4,8 5,0 5,1 B-Note 5,0 5,5 5,3 5,9 5,8 5,7 Rang A 1 3 2 6 5 4 Rang B 6 4 5 1 2 3 ¾Starker gegenläufiger Zusammenhang der Noten. ¾Perfekter gegenläufiger Zusammenhang der Ränge. Rangk orre lation Note nk orre lation 6 7 5,8 6 5 Rang B B-Note 5,6 5,4 5,2 4 3 2 5 1 0 4,8 4,6 4,8 5 5,2 5,4 5,6 0 5,8 Prof. Kück / Dr. Ricabal Delgado Lehrstuhl Statistik 1 2 3 4 5 6 7 Rang A A-Note 8 Korrelation I 4 Beispiel: Erwerbstätigkeit und Geschlecht Für arbeitsmarktpolitische Analysen im früheren Bundesgebiet sei die Fragestellung von Interesse, ob zwischen Altersgruppe und Geschlecht der Erwerbstätigen ein Zusammenhang besteht. Die Angaben beziehen sich auf das Jahr 2002, Erhebungsquelle: Mikrozensus Prof. Kück / Dr. Ricabal Delgado Lehrstuhl Statistik 9 Korrelation I Beispiel: Erwerbstätigkeit und Geschlecht Ist-Situation, Angaben in 1000 Für arbeitsmarktpolitische Entscheidungen in Deutschland sei die Fragestellung von Interesse, ob zwischen Erwerbsstruktur und Geschlecht ein Zusammenhang besteht. Die Angaben in der hier wiedergegebenen Kontingenztabelle beziehen sich auf das Jahr 2000. Geschlecht Tätigkeit Land-, Forstwirtschaft, Fischerei M F 639 348 Produzierendes Gewerbe 9230 2872 Handel, Gastgewerbe 4399 4018 Sonstige Dienstleistungen 6485 8612 Prof. Kück / Dr. Ricabal Delgado Lehrstuhl Statistik 10 Korrelation I 5 Beispiel: Erwerbstätigkeit und Geschlecht Männer Grafische Darstellung für beide Geschlechter (Ist-Situation) Land- , Forst wir t schaf t , Fischer ei Pr oduzierendes Gewerbes Handel, Gast gewer bes Sonst ige Dienst leist ungen Frauen Land- , Forst wir t schaf t , Fischer ei Pr oduzierendes Gewerbes Handel, Gast gewer bes Sonst ige Dienst leist ungen Prof. Kück / Dr. Ricabal Delgado Lehrstuhl Statistik 11 Korrelation I Beispiel: Erwerbstätigkeit und Geschlecht Geschlecht Tätigkeit in Empirische Häufigkeiten der Beschäftigtenzahlen M F Total 639 348 987 Produzierendes Gewerbe 9230 2872 12102 Handel, Gastgewerbe 4399 4018 8417 Sonstige Dienstleistungen 6485 8612 15097 20753 15850 36603 Land-, Forstwirtschaft, Fischerei Total Geschlecht Tätigkeit in Unter Unabhängigkeit erwartete Häufigkeiten der Beschäftigtenzahlen M F 559,6 427,4 6861,5 5240,5 Handel, Gastgewerbe 4772,2 3644,8 Sonstige Dienstleistungen 8559,6 6537,4 Land-, Forstwirtschaft, Fischerei Produzierendes Gewerbe Prof. Kück / Dr. Ricabal Delgado Lehrstuhl Statistik 12 Korrelation I 6 Grafische Darstellungen der Verteilungen der Erwerbstätigen nach Geschlecht/Branche Empirische Verteilungen nach Geschlecht/Branche L+F PrG H+G DL L+F PrG H+G DL Unter Unabhängigkeit erwartete Verteilungen nach Geschlecht /Branche L+F PrG H+G DL Prof. Kück / Dr. Ricabal Delgado Lehrstuhl Statistik L+F PrG H+G DL 13 Korrelation I Beispiel: Zusammenhang zwischen Legitimität der Geburten und Alter der Mutter (beobachtete absolute Häufigkeiten) Im Jahre 2000 wurden in MV etwa 12.000 Kinder geboren. Die Zahl der Lebendgeborenen lässt sich nach den beiden Merkmalen „Alter der Mutter“ und „Legitimität der Geburt“ in einer bivariaten Häufigkeitstabelle darstellen. Es liegt nahe zu untersuchen, ob ein Zusammenhang zwischen Alter der Mutter und Legitimität der Geburt besteht. Alter der Mutter (Jahre) Legitimität der Geburt (Anzahl) von . . . bis unter . . . ehelich nichtehelich 15 - 20 60 260 20 - 25 900 1.900 25 - 30 2.600 2.200 30 - 35 2.100 900 35 - 40 700 200 40 - 45 140 40 Prof. Kück / Dr. Ricabal Delgado Lehrstuhl Statistik 14 Korrelation I 7 Beispiel: Zusammenhang zwischen Legitimität der Geburten und Alter der Mutter (beobachtete/erwartete Häufigkeiten) Zur Untersuchung des möglichen Zusammenhanges werden zusätzlich die unter Unabhängigkeit zu erwartenden Häufigkeiten berechnet. Beobachtete Häufigkeiten beiEheliche ehelichenGeburte Geburten Unter Unabhängigkeit erwartete Bei Unabhängigkeit Häufigkeiten bei ehelichen Geburten 2% 2% 1% 11% 8% 14% 3% 23% 25% 32% 40% 39% Prof. Kück / Dr. Ricabal Delgado Lehrstuhl Statistik 15 Korrelation I Beispiel: Zusammenhang zwischen Legitimität der Geburten und Alter der Mutter (beobachtete/erwartete Häufigkeiten) Zur Untersuchung des möglichen Zusammenhanges werden zusätzlich die unter Unabhängigkeit zu erwartenden Häufigkeiten berechnet. Beobachtete Häufigkeiten bei Nichteheliche nichtehelichenGeburte Geburten Unter Unabhängigkeit erwartete Beibei Unabhängigkeit Häufigkeiten nichtehelichen Geburten 1% 2% 4% 5% 8% 3% 16% 23% 25% 35% 39% Prof. Kück / Dr. Ricabal Delgado Lehrstuhl Statistik 39% 16 Korrelation I 8 Aufgabenstellungen bivariater Datenauswertung Entsprechend den Auswertungsaspekten bivariater Datenmengen lassen sich nun Aufgabenstellungen für die bivariate Datenauswertung formulieren. 1. Bestimmung von Maßzahlen, die angeben, wie ausgeprägt ein Zusammenhang ist (Korrelation, Kontingenz, Assoziation). Die Maßzahlen werden so definiert, dass sie einen normierten Wert annehmen, welcher eine verbale Einschätzung über die Abhängigkeit ermöglicht. Messung der Abhängigkeit 2. Korrelationsanalyse Bestimmung von Funktionen, welche die durchschnittliche Tendenz eines Zusammenhanges wiedergeben. Das ist nur für kardinalskalierte Merkmale X und Y möglich. Beschreibung der Abhängigkeit Prof. Kück / Dr. Ricabal Delgado Lehrstuhl Statistik Regressionsanalyse 17 Korrelation I Unterschiedliche Korrelationskoeffizienten Mit der Korrelationsanalyse wird die Stärke des statistischen Zusammenhangs zwischen zwei Merkmalen X und Y quantifiziert. Als Zusammenhangsmaße verwendet man - je nach Skalenniveau der beteiligten Merkmale unterschiedliche Korrelationskoeffizienten. X Y metrisch metrisch ordinal nominal Korrelationskoeffizient von Bravais-Pearson r ordinal Rangkorrelations koeffizient von Spearman rsp Kontingenzkoeffizient CKorr nominal Prof. Kück / Dr. Ricabal Delgado Lehrstuhl Statistik 18 Korrelation I 9 Beispiel: Anwendungen der Korrelationsanalyse 1. Leistung des Motors / Preis des Autos (r) 2. Tätigkeitsbereich / Geschlecht (Ckorr) 3. A-Note / B-Note (rsp) 4. Testatpunkte in Statistik / Testatpunkte in BWL (r) 5. Körpergewicht / Körpergröße von Personen (r) 6. Geschwindigkeitsüberschreitung / Alter des Fahrers (r) 7. Note Statistik / Note BWL (rsp) 8. Absatzmenge / Preis des Produktes (r) 9. Benzinverbrauch / Leistung des Autos (r) 10. Rechtsform von Unternehmen / Zahlungsfähigkeit (Ckorr) Prof. Kück / Dr. Ricabal Delgado Lehrstuhl Statistik 19 Korrelation I Korrelationskoeffizient nach Bravais und Pearson Der einfache lineare Korrelationskoeffizient misst den linearen Zusammenhang zwischen zwei kardinalskalierten Merkmalen, denen eine stochastische Beziehung zugrunde liegt. Er wird als Verhältnis aus Streuungskennziffern der beiden Merkmalsgrößen berechnet. Im Zähler steht die Kovarianz beider Merkmale und im Nenner das Produkt der Standardabweichungen der Merkmale. Für die Wertepaare einer Stichprobe im Umfang n gilt: rxy = s xy s ⋅ s 2 x Cov ( X , Y ) = s xy = 2 y = s xy sx ⋅ s y − 1 ≤ r xy ≤ 1 n 1 ⋅ ∑ ( xi − x ) ⋅ ( yi − y ) n − 1 i =1 s x2 = n 1 ⋅ ∑ ( xi − x ) 2 n − 1 i =1 sY2 = n 1 ⋅ ∑ ( yi − y ) 2 n − 1 i =1 Die Kovarianz der Merkmale X und Y wird definiert als arithmetisches Mittel der Abweichungsprodukte. Cov ( X , Y ) = s xy = n 1 ⋅ ∑ ( xi − x ) ⋅ ( y i − y ) n − 1 i =1 Prof. Kück / Dr. Ricabal Delgado Lehrstuhl Statistik Cov ( X , X ) = s xx = s x2 = n 1 ⋅ ∑ ( xi − x ) 2 n − 1 i =1 20 Korrelation I 10 Pearsonsche Produktmomente Für den linearen Korrelationskoeffizienten von Bravais und Pearson gilt: rxy = = n 1 ⋅ ∑ ( xi − x ) ⋅ ( y i − y ) s xy s xy n − 1 i =1 = = 2 2 ⋅ s s sx ⋅ s y sx ⋅ s y x y rxy wird deswegen auch als Pearsonsches Produktmoment bezeichnet. n n ( x − x ) ( yi − y ) 1 1 ⋅∑ i ⋅ = ⋅ ∑ xi* ⋅ y i* n − 1 i =1 s x sy n − 1 i =1 Für die standardisierten Wertepaare: xi* = xi − x sx y i* = yi − y sy gilt bekannter Weise: Standardisierte Werte Mittelwert Standardabweichung x*i 0 1 y*i 0 1 rxy = Prof. Kück / Dr. Ricabal Delgado Lehrstuhl Statistik s x* y * i i 1 ⋅1 Die Kovarianz standardisierter Werte ist die Maßzahl der Korrelation. = s x* y * i i 21 Korrelation I Beispiel: Berechnung des einfachen, linearen Korrelationskoeffizienten zwischen Preis des Autos und Motorleistung Varianz-Kovarianzmatrix SXY Preis [EURO] Leistung [PS] Preis [EURO] 183589632,6 712629,545 Leistung [PS] 712629,545 3296,797 rxy = s xy s ⋅ s 2 x 2 y = s xy sx ⋅ s y 120000 100000 rxy = 80000 712629,54 = 0,916 183589632, 60 ⋅ 3296,79 60000 Preis [EURO] 40000 20000 0 0 100 200 300 400 Es besteht eine starke positive Korrelation zwischen Leistung des Motors (X) und Preis des Autos (Y). Leistung [PS] Prof. Kück / Dr. Ricabal Delgado Lehrstuhl Statistik 22 Korrelation I 11 Eigenschaften des linearen Einfachkorrelationskoeffizienten ¾ ¾ ¾ ¾ rxy liegt zwischen –1 und +1 ( -1 ≤ rxy ≤ +1) Symmetrie bei der Berechnung (rxy= ryx) |rxy|=1 ⇔ alle Punkte liegen auf einer Geraden. rXY= 0 ⇒ kein linearer Zusammenhang nachweisbar. Ein nichtlinearer Zusammenhang ist möglich oder es besteht stochastische Unabhängigkeit. ¾ rxy ist invariant gegenüber linearer Transformationen der Merkmalswerte. ¾ Das Vorzeichen von rxy gibt die Richtung des linearen Zusammenhanges an. Prof. Kück / Dr. Ricabal Delgado Lehrstuhl Statistik 23 Korrelation I Andere Formeln zur Berechnung von r s xy rxy = s ⋅ 2 x s y2 n 1 ⋅ ∑ ( xi − x ) ⋅ ( yi − y ) n − 1 i=1 n n 1 1 ⋅ ∑ ( x i − x )² ⋅ ⋅ ∑ ( x i − y )² n − 1 i=1 n − 1 i=1 = n n = ∑(x i=1 n ∑( x i=1 − x ) ⋅ ( yi − y ) i n ∑(x − x )² ⋅ i n i=1 i ∑x = − y )² i=1 = ∑x i=1 n ∑x i=1 2 i i yi − nx ⋅ y − nx ² n ∑y i=1 Prof. Kück / Dr. Ricabal Delgado Lehrstuhl Statistik 2 i = − ny² yi − i=1 i=1 n n n ∑x i=1 n i n ( ∑ x i )( ∑ y i ) 2 i − ( ∑ x i )² i=1 n xy − x ⋅ y x² − x ² y² − y ² n n ∑y i=1 2 i − ( ∑ y i )² i=1 n Übernehmen in FS! 24 Korrelation I 12 Beispiel: Zusammenhang zwischen Verkaufsfläche und Umsatz Für 10 Filialen einer Handelskette soll untersucht werden, welcher Zusammenhang zwischen Verkaufsfläche (in m²) und Umsatz (in Mill. EUR) besteht. Umsatz (Y) Fläche 1 150 3 2 180 8 3 420 19 4 480 22 5 660 31 6 1000 42 7 1300 48 8 1500 52 9 1600 54 10 1710 61 9000 340 900 34 Summe Mittelwert Streudiagram 70 Umsatz in Mill. EUR Filiale Nr. 60 50 40 30 20 10 0 0 200 400 600 800 1000 1200 1400 1600 1800 Fläche in m² Man erkennt einen starken Zusammenhang zwischen Verkaufsfläche und Umsatz. Die Stärke dieses Zusammenhanges wird mit Hilfe des Korrelationskoeffizienten quantifiziert. Prof. Kück / Dr. Ricabal Delgado Lehrstuhl Statistik 25 Korrelation I Beispiel: Berechnung des Korrelationskoeffizienten zwischen Verkaufsfläche und Umsatz Filiale Nr. Fläche (X) Umsatz (Y) x²i y²i xiyi 1 150 3 22500 9 450 2 180 8 32400 64 1440 3 420 19 176400 361 7980 4 480 22 230400 484 10560 5 660 31 435600 961 20460 6 1000 42 1000000 1764 42000 7 1300 48 1690000 2304 62400 8 1500 52 2250000 2704 78000 9 1600 54 2560000 2916 86400 10 1710 61 2924100 3721 104310 Summe 9000 340 11321400 15288 414000 Mittelwert 900 34 Prof. Kück / Dr. Ricabal Delgado Lehrstuhl Statistik n ∑ x i y i − nx ⋅ y i =1 rxy = n n i =1 i =1 ∑ x i2 − nx ² ∑ y i2 − ny ² = 414000 − 10 ⋅ 900 ⋅ 34 n ∑ i =1 x i2 − 10 ⋅ 900 ² n ∑ y i2 − 10 ⋅ 34 ² i =1 = 0,986 26 Korrelation I 13 Vorzeichen der Kovarianz C ( x , y ) = s xy = 1 ⋅ n −1 n ∑ i =1 (xi − x) ⋅ ( yi − y) Für diese bivariate Verteilung ist die Kovarianz Sxy positiv, da die Mehrheit der Abweichungsprodukte und damit ihre Summe positiv ist. Für diese bivariate Verteilung ist die Kovarianz Sxy negativ, da die Mehrheit der Abweichungsprodukte und damit ihre Summe negativ ist. Sind die Punkte gleichmäßig über alle vier Quadranten verteilt, so heben sich die positiven und negativen Abweichungsprodukte auf und die Summe wird Null bzw. annähernd Null. Prof. Kück / Dr. Ricabal Delgado Lehrstuhl Statistik 27 Korrelation I Stärke des Zusammenhanges Perfekte positive Korrelation Starke positive Korrelation Prof. Kück / Dr. Ricabal Delgado Lehrstuhl Statistik Perfekte negative Korrelation Starke negative Korrelation 28 Korrelation I 14 Schwache Korrelation Schwache oder keine Korrelation (sog. Punktwolke) Schwache oder keine (lineare) Korrelation. Eine starker nichtlinearer Zusammenhang ist aber deutlich erkennbar. Prof. Kück / Dr. Ricabal Delgado Lehrstuhl Statistik 29 Korrelation I Beispiel: Falsche Interpretation des Pearsonschen Korrelationskoeffizienten i xi yi x²i y²i xiyi 1 -3 9 9 81 -27 y=x2 10 2 -2 4 4 16 -8 3 -1 1 1 1 -1 8 4 0 0 0 0 0 6 5 1 1 1 1 1 4 6 2 4 4 16 8 2 7 3 9 9 81 27 Summe 0 28 28 196 0 Mittelwert 0 4 4 28 0 rxy = = xy − x ⋅ y x² − x ² y ² − y ² 0 −0⋅4 4 − 0² 28 − 4² =0 0 -4 -3 -2 -1 0 1 2 3 4 Die Kovarianz (Zähler mal n/(n-1)) und damit der lineare Korrelationskoeffizient der Wertepaare ist gleich Null. Es ist daher kein linearer Zusammenhang zwischen X und Y nachweisbar, aber der quadratische Zusammenhang ist perfekt. Prof. Kück / Dr. Ricabal Delgado Lehrstuhl Statistik 30 Korrelation I 15 Unbestimmte Fälle yi = y ( yi − y ) = 0 Cov ( X , Y ) = s xy = sy = n 1 ⋅ ∑ ( xi − x) ⋅ ( y i − y ) = 0 n − 1 i =1 rxy = xi = x n 1 ⋅ ∑ ( yi − y) 2 = 0 n − 1 i =1 ( xi − x) = 0 Cov ( X , Y ) = s xy = Prof. Kück / Dr. Ricabal Delgado Lehrstuhl Statistik Korrelation I Prof. Kück / Dr. Ricabal Delgado Lehrstuhl Statistik Korrelation I sx = s xy s ⋅ s 2 x 2 y = s xy sx ⋅ s y = 0 0 n 1 ⋅ ∑ ( xi − x ) 2 = 0 n − 1 i =1 1 n ⋅ ∑ ( xi − x) ⋅ ( yi − y ) = 0 n i =1 31 32 16