Marktforschung Sommersemester 2011 Thema 6: Korrelationsanalyse 2 Gliederung 1. 2. 3. 4. 5. Situation Fragestellung Datenlage Funktionstypen Korrelationen 5.1 Korrelationskoeffizient nach Bravais-Pearson 5.2 Rangkorrelationskoeffizient nach Spearman 5.3 Rangkorrelationskoeffizient nach Kendall 6. Zusammenfassung 7. Probleme Marktforschung | SoSe 2011| Universität Siegen 3 1. Situation Den Marketingleiter des Pizzaherstellers interessiert die Frage nach dem Zusammenhang zwischen Verkaufspreis und Absatzmenge von Tiefkühlpizzen im Monat. Zu diesem Zweck wurde die Absatzmenge bei unterschiedlichen Preisen der Tiefkühlpizza im Monat ermittelt. Marktforschung | SoSe 2011| Universität Siegen 4 2. Fragestellung Stellen Sie die erfassten Daten zunächst mit Hilfe eines Streudiagramms dar. Liefert Ihnen das Streudiagramm bereits erste Hinweise auf einen möglichen Zusammenhang. Beschreiben Sie den Zusammenhang mithilfe sog. Korrelationskoeffizienten, wobei Sie einen linearen Zusammenhang zwischen den Werten unterstellen sollten. Gehen Sie bei Ihren Berechnungen davon aus, dass die beiden Merkmale der Stichprobe normalverteilt sind. Marktforschung | SoSe 2011| Universität Siegen 5 3. Datenlage Folgende Daten wurden erfasst: Tiefkühlpizza A B C D E F G H I J Preis in Euro 5,10 1,80 2,10 2,05 1,99 1,90 2,20 1,95 2,50 2,25 Absatzmenge im Monat 110 1200 100 43 910 1000 760 970 685 860 Marktforschung | SoSe 2011| Universität Siegen 6 4. Funktionstypen Ausgewählte Grundformen linearer Funktionen ( f ( x ) ax b ) Beispiel: Beispiel: Zusammenhang zwischen Zahl der Vertreterbesuche und Höhe des Verkäuferumsatzes Zusammenhang zwischen Preis und Absatzmenge Beispiel: Zusammenhang zwischen Preis A und Preis B verschiedener Güter Marktforschung | SoSe 2011| Universität Siegen 7 4. Funktionstypen Ausgewählte Grundformen nicht-linearer Funktionen (z. B.: f ( x ) log a x , f ( x ) a x , f ( x ) ax 2 bx c ) Beispiel: Beispiel: Zusammenhang zwischen Artikelanzahl und Zahlungsbereitschaft Zusammenhang zwischen Mund-zuMund Propaganda und Ausbreitung einer Werbebotschaft Beispiel: Beispiel: Zusammenhang zwischen Preis und Absatz bei bestimmten Gütern Zusammenhang zwischen Vertrautheit und Attraktivität eines Produktes Beispiel: Beispiel: Werbewirkungsfunktion Trendprognose zum Absatz eines Automobils Marktforschung | SoSe 2011| Universität Siegen 8 5. Korrelationen Streu(ungs)diagramme sind grafische Hilfsmittel, die die Anordnung der Beobachtungspunkte veranschaulichen jedes xi/yi - Beobachtungspaar wird in ein x/y-Koordinatensystem eingetragen es lässt sich ein erster Eindruck gewinnen, ob und wie stark zwei Merkmale zusammenhängen Funktionstypen können abgeleitet werden Marktforschung | SoSe 2011| Universität Siegen 9 5. Korrelationen • • • als Korrelation bezeichnet man den wechselseitigen Zusammenhang zwischen Größen Korrelation bedeutet nicht das Vorhandensein von Kausalität. Besteht eine Korrelation zwischen X und Y, so gibt es mindestens drei alternative Möglichkeiten einer Kausalitätsbeziehung: - X bewirkt Y - Y bewirkt X und - X und Y werden durch Z bewirkt (Scheinkorrelation bzw. partielle Korrelation). die Korrelationsanalyse liefert ein Maß für die Stärke des Zusammenhangs; erfasst jedoch nur monotone bzw. lineare Zusammenhänge Marktforschung | SoSe 2011| Universität Siegen 10 5. Korrelationen • • • • die Stärke des Zusammenhangs wird durch den Korrelationskoeffizienten r gemessen r liegt stets in den Grenzen von -1 bis +1 für die Stärke des Zusammenhangs ist allein der Betrag des Korrelationskoeffizienten maßgebend das Vorzeichen gibt an, ob der Zusammenhang gleichläufig (+) oder gegenläufig (–) ist Korrelationskoeffizient │r│≤ 0.25 0.25 <│r│≤ 0.66 0.66 <│r│< 1 │r│= 1 Einstufung schwache Korrelation mittlere Korrelation starke Korrelation perfekte Korrelation Marktforschung | SoSe 2011| Universität Siegen 11 5.1 Korrelationskoeffizient nach Bravais-Pearson Vermutung: Zwischen den Variablen Preis und Verkaufsmenge besteht ein linearer und gegenläufiger Zusammenhang; je höher der Verkaufspreis umso geringer die Absatzmenge. Marktforschung | SoSe 2011| Universität Siegen 12 5.1 Korrelationskoeffizient nach Bravais-Pearson • zur Beschreibung des Zusammenhangs zwischen metrisch skalierten und normalverteilten Variablen • misst die Stärke des linearen Zusammenhangs (xi n r xy es gilt: i 1 (x n i 1 Erläuterung i - x - x )(y - y ) i ) (y ² n i 1 i - y xy s s xs y ² ) sx bzw. sy stehen für die Standardabweichungen der Merkmale X bzw. Y sxy bezeichnet die empirische Kovarianz n s xy 1 / n (x i - x )(y i - y ) i1 Marktforschung | SoSe 2011| Universität Siegen 13 5.1 Korrelationskoeffizient nach Bravais-Pearson zur Kovarianz: • um einen Zusammenhang zwischen zwei Merkmalen zu erfassen, beschreibt man die Lage eines Beobachtungspunktes mit Bezug zu dem Schwerpunkt ( x , y ) des Streudiagramms y • Punkte im ersten und dritten Quadranten y deuten auf einen positiven Zusammenhang hin; Punkte im zweiten und vierten Quadranten auf einen negativen Zusammenhang • formal wird dies für jeden Punkt durch das Produkt (xi- x )(yi- y ) erfasst Marktforschung | SoSe 2011| Universität Siegen IV I x x x x x x x x x x x x (x / y ) x x x x x x x x III x II x 14 5.1 Korrelationskoeffizient nach Bravais-Pearson • • • • Es gilt: Quadrant 1: x i x ; y i y ( x i - x )( y i - y ) 0 Quadrant 2: x i x ; y i y ( x i - x )( y i - y ) 0 Quadrant 3: x i x ; y i y ( x i - x )( y i - y ) 0 Quadrant 4: x i x ; y i y ( x i - x )( y i - y ) 0 Liegen die Punkte hauptsächlich in den Quadranten 1 und 3, so ist die Summe der Produkte stark positiv. Liegen die Punkte hauptsächlich in den Quadranten 2 und 4, so ist die Summe der Produkte stark negativ. Sind die Punkte gleichmäßig verteilt, so heben sich positive und negative Summanden weitgehend auf und die Summe der Produkte wird weitgehend Null. Marktforschung | SoSe 2011| Universität Siegen 15 5.1 Korrelationskoeffizient nach Bravais-Pearson • Kovarianz: durchschnittliche Summe von Abweichungsprodukten • die Kovarianz gibt die Tendenz an, in welche Richtung die Merkmale variieren • sxy > 0 mit x steigt (tendenziell) auch y (und umgekehrt) • sxy < 0 hohe Werte der einen Zufallsvariablen gehen mit niedrigen Werten der anderen Zufallsvariablen einher • sxy = 0 x und y sind unabhängig • Kovarianzen deuten (ggf.) auf lineare Abhängigkeiten hin. Sie sind von den Maßeinheiten der Merkmale abhängig! • Wertebereich : - bis Marktforschung | SoSe 2011| Universität Siegen 16 5.1 Korrelationskoeffizient nach Bravais-Pearson • Normierung der Kovarianz: Korrelationskoeffizienten nach Bravais-Pearson (ProduktMoment-Korrelation) rxy Division der Kovarianz durch die Standardabweichungen beider Merkmale (=Eliminierung der Streuung der einzelnen Verteilungen) Wertebereich von rxy : -1 bis +1 positive rxy negative rxy rxy = 0 die Merkmale variieren tendenziell in der gleichen Richtung die Merkmale variieren tendenziell in entgegengesetzter Richtung kein (linearer) Zusammenhang! Marktforschung | SoSe 2011| Universität Siegen 17 5.1 Korrelationskoeffizient nach Bravais-Pearson Die statistische Absicherung des Korrelationskoeffizienten nach Bravais-Pearson gegen Null erfolgt über die t-verteilte Prüfgröße. t rxy n-2 1 - rxy ² bei df = n-2 Freiheitsgraden Der Korrelationskoeffizient ist dann signifikant, wenn die Prüfgröße größer ist als der kritische Wert der t-Verteilung. Marktforschung | SoSe 2011| Universität Siegen 18 5.1 Korrelationskoeffizient nach Bravais-Pearson Folgende Ergebnisse liefert die Berechnung des Korrelationskoeffizient nach Bravais-Pearson Korrelation Preis Preis Korrelation nach Pearson Absatzmenge 1 Sig. (2-s eitig) N Absatzmenge -,631 ,050 10 10 Korrelation nach Pearson -,631 1 Sig. (2-s eitig) ,050 N 10 10 • rxy = -0,631 • im vorliegenden Fall liegt mit p=0,05 ein nicht signifikanter Wert vor Marktforschung | SoSe 2011| Universität Siegen 19 5.1 Korrelationskoeffizient nach Bravais-Pearson Marktforschung | SoSe 2011| Universität Siegen 20 5.1 Korrelationskoeffizient nach Bravais-Pearson • rxy misst den linearen Zusammenhang zweier Variablen Konsequenz: einzelne Ausreißer, d.h. einzelne extreme Datenpunkte, können einen starken, unerwünschten Effekt auf den numerischen Wert von rxy haben; hohe Korrelationen können als gering erscheinen und umgekehrt. Lösung: Ermittlung von Rangkorrelationskoeffizienten, die von Ausreißern wesentlich weniger beeinflusst werden, da ihre Ermittlung auf den Rängen der Beobachtungen basiert. Marktforschung | SoSe 2011| Universität Siegen 21 5.2 Rangkorrelationskoeffizient nach Spearman (rs) Ausreißer! Marktforschung | SoSe 2011| Universität Siegen 22 5.2 Rangkorrelationskoeffizient nach Spearman (rs) • wird zwischen zwei Variablen berechnet, die mindestens ordinalskaliert sind; für metrisch skalierte Variablen, bei Unsicherheit hinsichtlich der Normalverteilungsanahme • misst die Stärke des monotonen Zusammenhangs • basiert auf Rangzahlen, die den Messwerten zugeordnet sind • für beide Variablen wird eine Rangreihe der Werte erstellt, dem höchsten Wert wird der Rangplatz 1 verliehen; bei gleichen Werten werden gemittelte Rangplätze vergeben • die Differenz di der zugehörigen Rangplatzpaare wird bestimmt n es gilt: 6 di² rs 1 - i 1 n ( n ² - 1) • die Absicherung erfolgt über die t-verteilte Prüfgröße t bei df = n – 2 Freiheitsgraden Marktforschung | SoSe 2011| Universität Siegen rs n-2 1 - rs ² 23 5.2 Rangkorrelationskoeffizient nach Spearman (rs) • Wertebereich von rs: -1 bis +1 • gehen mit steigenden x-Werten auch steigende y-Werte einher, so nimmt rs tendenziell einen großen Wert an • sind die Rangzahlen bei den Merkmalen beider Variablen völlig gleich, so nimmt rs den Wert 1 an (die Rangpaare liegen auf einer Geraden mit positiver Steigung liegen) • bei entgegengesetzt laufenden Rangzahlen wird rs = -1 (die Rangpaare liegen auf einer Geraden mit negativer Steigung) Marktforschung | SoSe 2011| Universität Siegen 5.2 Rangkorrelationskoeffizient nach Spearman (rs) Rechenschritte zur Rangkorrelation nach Spearman rs : Tiefkühlpizza A B C D E F G H I J Preis in Euro 5,10 1,80 2,10 2,05 1,99 1,90 2,20 1,95 2,50 2,25 Absatzmenge im Monat 110 1200 100 43 910 1000 760 970 685 860 Rang Preis 1 10 5 6 7 9 4 8 2 3 Rang Absatzmenge 8 1 9 10 4 2 6 3 7 5 di -7 9 -4 -4 3 7 -2 5 -5 -2 d²i 49 81 16 16 9 49 4 25 25 4 25 5.2 Rangkorrelationskoeffizient nach Spearman (rs) Es ergibt sich rs 1 - 6 * 278 10 * (100 - 1) - 0 , 685 Die Absicherung erfolgt über die t-verteilte Prüfgröße mit t 0 , 685 * 8 1 - 0 , 685 ² 2 , 65 df α =0,05 α =0,01 8 1,860 2,896 9 1,833 2,821 t-Tabelle Nach der t-Tabelle ist dies bei df = 8 Freiheitsgraden und α = 0.05 ein signifikanter Wert. Marktforschung | SoSe 2011| Universität Siegen 26 5.2 Rangkorrelationskoeffizient nach Spearman (rs) Interpretation des Ergebnisses rs= -0,685 => starker Zusammenhang rs< 0 => gegenläufiger monotoner Zusammenhang Es zeigt sich ein mittlerer gegenläufiger Zusammenhang zwischen Preis und Absatzmenge: Je höher der Preis einer Tiefkühlpizza, umso niedriger ist die verkaufte Menge an Tiefkühlpizzen. Marktforschung | SoSe 2011| Universität Siegen 27 5.3 Rangkorrelationskoeffizient nach Kendall (rk) • wird zwischen zwei Variablen berechnet, die mindestens ordinalskaliert sind • misst die Stärke des monotonen Zusammenhangs • stellt darauf ab, ob Rangzahlen in gleicher Richtung oder entgegengesetzter Richtung verlaufen • Rangreihe der ersten Variablen wird in aufsteigender Folge notiert • Rangreihe der zweiten Variablen wird entsprechend zugeordnet; für jeder dieser Rangzahlen wird die Anzahl der Ränge festgestellt, die kleiner oder gleich der Zahl sind und in der Reihe rechts davon stehen (Qi) n 4 Qi • es gilt: rk 1 - i 1 n ( n - 1) Marktforschung | SoSe 2011| Universität Siegen 28 5.3 Rangkorrelationskoeffizient nach Kendall (rk) • nicht die Absolutbeträge der Stichprobenwerte sind entscheidend, sondern nur die relative Anordnung der Ränge • Anwendung insbesondere dann, wenn Daten nicht normalverteilt sind • für kleinere Stichprobenumfänge weniger empfindlich gegen Ausreißer-Rangpaare Marktforschung | SoSe 2011| Universität Siegen 29 6. Zusammenfassung Die Rangkorrelation kann nur dann berechnet werden, wenn die beteiligten Variablen mindestens ordinalskaliert sind; die Korrelation i.e.S (Korrelation nach Bravais-Pearson) allerdings nur für metrische Variablen. Y X nominal ordinal metrisch nominal Kontingenz Kontingenz Kontingenz ordinal Kontingenz Rang-Korrel. Rang-Korrel. metrisch Kontingenz Rang-Korrel. Korrelation i.e.S. Marktforschung | SoSe 2011| Universität Siegen 30 6. Zusammenfassung Übersicht bivariater Korrelationsarten in Abhängigkeit vom Skalenniveau Y ordinal metrisch ordinal Rangkorrelation (Spearman (5.2), Kendall (5.3)) Rangkorrelation (Spearman (5.2), Kendall (5.3)) metrisch Rangkorrelation (Spearman (5.2), Kendall (5.3)) Produkt-MomentKorrelation (Pearson (5.1)) Korrelation i.e.S X Marktforschung | SoSe 2011| Universität Siegen 7. Probleme • für die Korrelation i.e.S gilt: Einzelne Fälle können einen starken Einfluss auf den Korrelationskoeffizienten ausüben. • Korrelationen lassen sich für alle Funktionstypen berechnen; allerdings werden nur monotone bzw. lineare Zusammenhänge erfasst. 32 7. Probleme • Kausalzusammenhänge können nicht erfast werden • Scheinkorrelationen (Korrelation zwischen Merkmalen, die inhaltlich nicht gerechtfertigt ist) können auftreten; Zusammenhänge ergeben sich dann, wenn ein mit beiden beobachtbaren Merkmalen hochkorreliertes drittes Merkmal übersehen wird und unberücksichtigt bleibt. • bleibt ein entscheidendes Merkmal unberücksichtigt, kann dies zudem vorhandene Korrelationen verschleiern oder hinsichtlich des Vorzeichens umkehren Marktforschung | SoSe 2011| Universität Siegen 33 Literatur Berekoven, Ludwig, Eckert, Werner & Ellenrieder, Peter (2004). Marktforschung. Methodische Grundlagen und praktische Anwendung, 10. Auflage, Wiesbaden: Gabler, S.204-206. Bortz, Jürgen (2005). Statistik für Human- und Sozialwissenschaftler, 6. Aufl., Heidelberg: Springer, S.203-207 und S.232-234. Fahrmeir, Ludwig, Künstler, Rita, Pigeot, Iris & Tutz, Gerhard (2004). Statistik, 5. Aufl., Berlin-Heidelberg-New York etc.: Springer, S.134-145 und S.147-152. Zöfel, Peter (2003). Statistik für Wirtschaftswissenschaftler, MünchenBoston-San Francisco etc: Pearson, S.150-161. Marktforschung | SoSe 2011| Universität Siegen