APPLIED MARKET RESEARCH 1 MARKET RESEARCH …IST AUCH EIN PROZESS Definitionsphase Vorbereitung: Worauf will ich Antworten? Und wie bekomme ich sie? Im Feld: Wie sieht der Blick in die Realität aus? • Formulierung des Forschungsproblems • Bestimmung der Erhebungsziele • Desk Research Designphase • Informationsquellen (Primär-/Sekundärerhebung) • Messinstrumente/Operationalisierung • Grobplanung der Datenauswertung • Erhebungseinheiten (Voll-/Teilerhebung, Stichprobenumfang) • Arbeits-, Zeit- und Kostenplanung • Pre-Tests Feldphase • Durchführung • Kontrolle und Dokumentation der Datenerhebung • Eingreifen vs. Standardisierung Analysephase Nachbereitung: Was sind die Antworten? • Vorbereitung der Datenauswertung (Digitalisierung, Kodierung, Logikchecks) • Auswertung und Interpretation Kommunikationsphase • Forschungsbericht • Präsentation 2 MARKET RESEARCH …IST AUCH EIN PROZESS Definitionsphase • Formulierung des Forschungsproblems • Bestimmung der Erhebungsziele • Desk Research Vorbereitung Designphase • Informationsquellen (Primär-/Sekundärerhebung) • Messinstrumente/Operationalisierung • Grobplanung der Datenauswertung • Erhebungseinheiten (Voll-/Teilerhebung, Stichprobenumfang) • Arbeits-, Zeit- und Kostenplanung • Pre-Tests Feldphase Im Feld • Durchführung • Kontrolle und Dokumentation der Datenerhebung • Eingreifen vs. Standardisierung Analysephase Nachbereitung • Vorbereitung der Datenauswertung (Digitalisierung, Kodierung, Logikchecks) • Auswertung und Interpretation Kommunikationsphase • Forschungsbericht • Präsentation 3 MARKET RESEARCH PLAN DER VERANSTALTUNG + EINFÜHRUNG IN DIE VERANSTALTUNG + WAS IST MARKET RESEARCH – UND (WOZU) BRAUCHE ICH DAS? + DATEN SAMMELN + + Definitionsphase, Designphase, Feldphase: Wo die Fragen und Daten herkommen? DR. JAN RUTENBERG Leiter Kundenmanagement & Marktforschung sowie Regal- & Flächenmanagement + DATEN AUSWERTEN + + Analysephase: Wie kommt man von Daten zu Ergebnissen? INSIGHTS GENERIEREN UND KOMMUNIZIEREN + Kommunikationsphase: Wie werden aus Ergebnissen „Insights“? 4 DATEN AUSWERTEN (1) Daten aufbereiten (2) Daten beschreiben: Deskriptive Statistiken (3) Daten testen I: Was ist stat. Signifikanz und wozu brauche ich das überhaupt? (4) Daten testen II: Methoden zur Aufdeckung von Zusammenhängen (5) Daten testen III: Methoden zur Aufdeckung von Gruppenunterschieden 5 (1) Daten aufbereiten Bildquelle: http://www.werbetechnik.schule.bremen.de/ 6 Literatur Backhaus, Klaus, Erichson, Bernd, Plinke, Wulff & Weiber, Rolf (2006). Multivariate Analysemethoden, 11. Auflage, Berlin-Heidelberg-New York etc.: Springer, S.4-6. Berekoven, Ludwig, Eckert, Werner & Ellenrieder, Peter (2004). Marktforschung. Methodische Grundlagen und praktische Anwendung, 10. Auflage, Wiesbaden: Gabler, S.197-202. Bortz, Jürgen (2005). Statistik für Human- und Sozialwissenschaftler, 6. Aufl., Heidelberg: Springer, S.15-47. Fahrmeir, Ludwig, Künstler, Rita, Pigeot, Iris & Tutz, Gerhard (2004). Statistik, 5. Aufl., Berlin-Heidelberg-New York etc.: Springer, S.14-74. Handl, Andreas (2002). Multivariate Analysemethoden: Theorie und Praxis unter besonderer Berücksichtigung von S-Plus, Berlin-Heidelberg-New York etc.: Springer, S.13-21. 7 ANALYSEPHASE DATENAUFBEREITUNG Fragebogen Bearbeiten Kodieren Säubern/ Checken Transformieren Datenanalyse Darstellung der Ergebnisse, Interpretation und Präsentation/ Darstellung 8 ANALYSEPHASE DATENAUFBEREITUNG 9 ANALYSEPHASE DATENAUFBEREITUNG 10 ANALYSEPHASE DATENAUFBEREITUNG Fragebogen Bearbeiten Kodieren Säubern/ Checken Transformieren Datenanalyse Darstellung der Ergebnisse, Interpretation und Präsentation/ Darstellung 11 ANALYSEPHASE DATENAUFBEREITUNG Kodieren + In der Regel notwendig bei + Kategorisieren offener Antworten + Nicht-nummerischen Antworten Zahlen/Kategorien zuweisen + Zusammenfassen (komplexer) Antworten Wie viele Snickers essen Sie normalerweise am Tag? 27 Anzahl Kategorie Code 0 bis 3 wenig 0 4 bis 10 mittel 1 über 10 viel 2 k.A. „missing“ 99 12 ANALYSEPHASE DATENAUFBEREITUNG Kodieren + In der Regel notwendig bei + Kategorisieren offener Antworten + Nicht-nummerischen Antworten Zahlen/Kategorien zuweisen + Zusammenfassen (komplexer) Antworten Wie alt bist Du? 18-30 31-40 41-55 56 und älter Was ist Deine Lieblingsfarbe? braun gelb 1 2 lila bordeaux 2 3 13 ANALYSEPHASE DATENAUFBEREITUNG Kodieren + In der Regel notwendig bei + Kategorisieren offener Antworten + Nicht-nummerischen Antworten Zahlen/Kategorien zuweisen + Zusammenfassen (komplexer) Antworten Was ist Deine Lieblingsfarbe? braun gelb lila bordeaux Antwort Kategorie Code braun erdfarben 1 gelb erdfarben 1 lila rötlich 2 bordeaux rötlich 2 k.A. „missing“ 99 Vergessen Sie den Kodierungsplan nicht! 14 ANALYSEPHASE DATENAUFBEREITUNG Transformieren + Rohdaten so anpassen, dass die gewünschten Auswertungen möglich werden, beispielsweise durch das Zusammenführen von Antworten in eine Variable, + Multi-Item Messungen eines Konstrukts + Zusammenfassende Kennzahlen Sie wollen wissen, wie viele Schokoladenriegel der Proband am Tag insgesamt ist. Wie viele Snickers essen Sie normalerweise am Tag? Wie viele sonstige Schokoladenriegel essen Sie normalerweise am Tag? 27 28 1 15 ANALYSEPHASE DATENAUFBEREITUNG Transformieren 16 + + + Darstellungformen Lageparameter Streuungsparameter (2) Daten beschreiben: Deskriptive Statistiken Bildquelle: http://www.werbetechnik.schule.bremen.de/ 17 ANALYSEPHASE DATEN BESCHREIBEN + Wahl einer geeigneten Betrachtungsform, die die in den Daten steckende Struktur möglichst gut erkennen lässt oder der Fragestellung entspricht + Häufige Darstellungsformen von Daten: + Buchstaben vom Ende unseres Alphabets kennzeichnen Variablen, häufig bspw. X + Die zu einer Variable X zugehörigen Beobachtungswerte werden mit dem entsprechenden Kleinbuchstaben bezeichnet (x) + Unterschiedliche Beobachtungswerte x für ein Merkmal X werden von 1 bis n indiziert (x1, x2, …, xn), wobei n den Stichprobenumfang, die Anzahl an Beobachtungen für das Merkmal X, repräsentiert. + In der Regel wird dem Index auch ein Buchstabe zugeordnet, zum Beispiel i. + Bei n Beobachtungen kann der Index i die Werte von 1 bis n annehmen (i = 1,2, …, n) + Lateinische Buchstaben werden dabei kursiv gesetzt, griechische nicht + vor und nach allen Operatoren (bspw. „+“, „=“) wird ein Leerzeichen eingefügt + Bei Werten, die nicht größer als eins werden können, wird oftmals die Null vor dem Komma weggelassen (bspw. „p = .01“). 18 ANALYSEPHASE DATEN BESCHREIBEN Urliste x1 x2 x3 x4 x5 x6 x7 x8 x8 x10 21 33 41 52 61 28 34 43 53 68 x11 x12 x13 x14 x15 x16 x17 x18 x19 x20 27 36 41 52 34 48 58 38 45 58 x21 x22 x23 x24 x25 x26 x27 x28 x29 x30 37 47 57 34 48 57 33 45 46 41 19 ANALYSEPHASE DATEN BESCHREIBEN Häufigkeitstabellen + Eine Häufigkeitstabelle zeigt, wie häufig eine Merkmalsausprägung – also ein bestimmter tatsächlich beobachteter Wert – in einer Menge von erhobenen Daten vorkommt. Sie liefert somit Informationen über die Häufigkeitsverteilung der erfassten Daten. 20 ANALYSEPHASE DATEN BESCHREIBEN Häufigkeitstabellen + Eine Häufigkeitstabelle zeigt, wie häufig eine Merkmalsausprägung – also ein bestimmter tatsächlich beobachteter Wert – in einer Menge von erhobenen Daten vorkommt. Sie liefert somit Informationen über die Häufigkeitsverteilung der erfassten Daten. 21 ANALYSEPHASE DATEN BESCHREIBEN Säulendiagramm bzw. Stabdiagramm (bei diskreten Merkmalen) + Auf der horizontalen Achse werden die tatsächlich beobachteten Werte yi des Merkmals Y eingetragen. + Die absoluten oder relativen Häufigkeiten bestimmen die Länge der senkrechten Linien über jedem beobachteten Wert yi 22 ANALYSEPHASE DATEN BESCHREIBEN Histogramm (bei kontinuierlichen Merkmalen) + Auf der horizontalen Achse werden die tatsächlich beobachteten Werte yi des Merkmals Y eingetragen. Dabei werden Klassen gebildet. + Die absoluten oder relativen Häufigkeiten bestimmen die Länge der senkrechten Linien über jedem beobachteten Wert yi 23 ANALYSEPHASE DATEN BESCHREIBEN Streckenzugdiagramm (bei kontinuierlichen Merkmalen) 24 ANALYSEPHASE DATEN BESCHREIBEN Deskriptive Statistiken (Beschreibende Kennzahlen) + Situation + Fragestellung + Datenlage + Lageparameter + + + Modus + Median + Mittelwert Streuungsparameter + Spannweite + Varianz + Standardabweichung Zusammenfassende Darstellung 25 ANALYSEPHASE DATEN BESCHREIBEN Situation Eine Befragung von Absolventen des Studiengangs BWL in Göttingen, Hannover und Mannheim sollte Aufschluss über die jeweiligen Studiendauer in Semestern bringen. Im ersten Auswertungsschritt gilt es die Daten und ihre Häufigkeitsverteilung durch Grafiken und geeignete Kennzahlen zu beschreiben. 26 ANALYSEPHASE DATEN BESCHREIBEN Fragestellung Erläutern und berechnen Sie einzelne Lage- und Streuungsparameter auf Grundlage der erfassten Stichprobendaten. Gehen Sie bei der Erläuterung auch auf das Kriterium des Skalenniveaus ein. Abschließend geben Sie bitte eine kurze Beurteilung der Aussagekraft der Lage- und Streuungsmaße. 27 ANALYSEPHASE DATEN BESCHREIBEN Datenlage Die Untersuchung führte zu folgendem Ergebnis (Urliste): 1) Universität Göttingen Person 1 2 3 4 5 6 7 8 9 10 11 Semester 8 11 9 10 8 9 12 10 11 12 10 2) Universität Hannover Person 1 2 3 4 5 6 7 8 9 10 11 Semester 7 9 11 10 10 15 10 15 20 20 38 3) Universität Mannheim Person 1 2 3 4 5 6 7 8 9 10 11 Semester 9 7 9 7 10 7 10 9 7 10 10 28 ANALYSEPHASE DATEN BESCHREIBEN Deskriptive Statistiken (Beschreibende Kennzahlen) + Lage- und Streuungsparameter (stets bezogen auf eine Variable/Merkmal) sind Kennzahlen zur Beschreibung empirischer Merkmalsverteilungen + Sie sollten folgende Kriterien erfüllen: + + große Aussagekraft bei möglichst geringem Informationsverlust, + Sachverhalt muss angemessen repräsentiert werden Wichtige Lageparameter + + + + Modus, Median, (arithmetischer) Mittelwert Wichtige Streuungsparameter + + + Spannweite, Varianz, Standardabweichung 29 ANALYSEPHASE DATEN BESCHREIBEN Säulendiagramme der Studiendauern von Absolventen Universität Göttingen Universität Hannover 3 3 2 4 2 1 Universität Mannheim 5 Häufigkeit 4 Häufigkeit 4 3 2 1 1 0 0 8 9 10 11 Studiendauer in Semestern 12 0 7 9 11 13 15 17 19 21 23 25 27 29 31 33 35 37 Studiendauer in Semestern 7 8 9 10 Studiendauer in Semester 30 ANALYSEPHASE DATEN BESCHREIBEN Deskriptive Statistiken: Lageparameter + Frage nach einer typischen Eigenschaft der betrachteten Häufigkeitsverteilung + Sollen Auskunft darüber geben, wo der „Schwerpunkt“ des Datenbündels liegt + Unterschiedliche Möglichkeiten der Anwendung von Lageparametern in Abhängigkeit vom Skalenniveau der Daten (1) Modus (Modalwert) + Wert eines Datenbündels mit der größten Häufigkeit + da eine Verteilung mehrgipflig (bi- bzw. multimodal) sein kann, können einer Verteilung auch mehrere Modi zugeordnet sein + notwendiges Skalenniveau: schon bei nominalskalierten Variablen zu ermitteln + Aussagekraft: bietet wenig Informationen hinsichtlich der numerischen Verteilung der Werte; insbesondere daher schlechte Eignung bei schiefen Verteilungen 31 ANALYSEPHASE DATEN BESCHREIBEN Deskriptive Statistiken: Lageparameter (1) Modus (Modalwert) 1) Universität Göttingen Person 1 2 3 4 5 6 7 8 9 10 11 Semester 8 11 9 10 8 9 12 10 11 12 10 Modus = 10 2) Universität Hannover Person 1 2 3 4 5 6 7 8 9 10 11 Semester 7 9 11 10 10 15 10 15 20 20 38 Modus = 10 3) Universität Mannheim Person 1 2 3 4 5 6 7 8 9 10 11 Semester 9 7 9 7 10 7 10 9 7 10 10 Modus = 7; 10 32 ANALYSEPHASE DATEN BESCHREIBEN Deskriptive Statistiken: Lageparameter (2) Median (Zentralwert) + Ist der mittlere Wert (50%-Punkt) innerhalb der Rangwertreihe des betrachteten Merkmals + Teilt die Reihe aller Merkmalswerte in zwei Hälften (mindestens 50% der Merkmalswerte liegen unter dem Zentralwert) + Bei einer Reihe mit einer geraden Anzahl von Elementen wird das arithmetische Mittel der beiden mittleren Werte genommen + Notwendiges Skalenniveau: mindestens Ordinalskala + Aussagekraft: + Bezieht als ein Maß der zentralen Tendenz im Gegensatz zum Modalwert die ganze Verteilung mit ein, wobei die Berechnung bei nominalskalierten Variablen nicht möglich ist + Lässt sich auch bei Verteilungen mit offenen Randklassen berechnen + (relative) Stabilität gegenüber extremen Merkmalsausprägungen + Bietet (relativ) wenig Informationsgehalt, da für den Median insbesondere die Anzahl der Messwerte eine große Rolle spielt 33 ANALYSEPHASE DATEN BESCHREIBEN Deskriptive Statistiken: Lageparameter (2) Median (Zentralwert) 1) Universität Göttingen Person 1 5 3 6 4 8 11 2 9 7 10 Semester 8 8 9 9 10 10 10 11 11 12 12 Median = 10 2) Universität Hannover Person 2 3 4 1 5 6 7 8 9 10 11 Semester 7 9 10 10 10 11 15 15 20 20 38 Median = 11 3) Universität Mannheim Person 2 4 6 9 1 3 8 5 7 10 11 Semester 7 7 7 7 9 9 9 10 10 10 10 Median = 9 34 ANALYSEPHASE DATEN BESCHREIBEN Deskriptive Statistiken: Lageparameter (3) (arithmetischer) Mittelwert + Lagemaß zur Kennzeichnung von metrischen (mindestens intervallskalierten) Daten + Wird berechnet, indem die Summe der Einzelwerte (xi) i = 1,…,n des Datenbündels durch die Anzahl der Beobachtungen (n) dividiert wird n x i x i 1 n + notwendiges Skalenniveau: setzt metrisches Skalenniveau voraus + Aussagekraft: reagiert auf Ausreißer und auf Schiefe der Verteilung 35 ANALYSEPHASE DATEN BESCHREIBEN Deskriptive Statistiken: Lageparameter (3) (arithmetischer) Mittelwert 1) Universität Göttingen Person 1 2 3 4 5 6 7 8 9 10 11 Semester 8 11 9 10 8 9 12 10 11 12 10 Mittelwert = 10 2) Universität Hannover Person 1 2 3 4 5 6 7 8 9 10 11 Semester 7 9 11 10 10 15 10 15 20 20 38 Mittelwert = 15 3) Universität Mannheim Person 1 2 3 4 5 6 7 8 9 10 11 Semester 9 7 9 7 10 7 10 9 7 10 10 Mittelwert = 8,6 36 ANALYSEPHASE DATEN BESCHREIBEN Deskriptive Statistiken: Lageparameter (3) (arithmetischer) Mittelwert »Sollen wir das arithmetische Mittel als durchschnittliche Körpergröße nehmen und den Gegner erschrecken, oder wollen wir ihn einlullen und nehmen den Median?« 37 ANALYSEPHASE DATEN BESCHREIBEN Deskriptive Statistiken: Worin unterscheiden sich Mittelwert und Median? Universität Göttingen Universität Hannover Universität Göttingen Universität Mannheim Universität Hannover 4 4 3 3 Universität Mannheim 5 2 1 Häufigkeit Säulendiagramm Häufigkeit Häufigkeit 4 2 3 2 1 1 0 0 8 9 10 11 Studiendauer in Semestern Median Mittelwert 12 0 7 9 11 13 15 17 19 21 23 25 27 29 31 33 35 37 Studiendauer in Semestern 7 8 9 10 Studiendauer in Semester 10 11 9 10 15 8,6 38 ANALYSEPHASE DATEN BESCHREIBEN Deskriptive Statistiken: Worin unterscheiden sich Mittelwert und Median? + Extreme Beobachtungswerte haben einen großen Einfluss auf den Mittelwert; der Median gibt in diesem Fall die Lage der Verteilung besser wieder + Bei symmetrischen Verteilungen nimmt der Mittelwert den gleichen Wert an wie der Median + Bei einer rechtsschiefen (oder linkssteilen) Verteilung ist der Mittelwert immer größer als der Median; für linksschiefe (oder rechtssteile) Verteilungen gilt entsprechend das Gegenteil 39 ANALYSEPHASE DATEN BESCHREIBEN Deskriptive Statistiken: Streuungsparameter + Erfassen, wie eng bzw. weit die einzelnen Merkmalswerte über den Bereich der Merkmalsskala verteilt sind + Geben an, wie gut eine Verteilung durch einen Lageparameter charakterisiert werden kann (1) Spannweite (Range) + Differenz zwischen größtem (xmax) und kleinstem (xmin) Merkmalswert + Notweniges Skalenniveau: zur Kennzeichnung der Streuung bei mindestens ordinalem Skalenniveau + Aussagekraft: im allgemeinen als alleinige Maßzahl zur Verdeutlichung der Streuung nicht gut geeignet, da die Spannweite stark von den betrachteten Werten abhängig ist 40 ANALYSEPHASE DATEN BESCHREIBEN Deskriptive Statistiken: Streuungsparameter (1) Spannweite (Range) 1) Universität Göttingen Person 1 5 3 6 4 8 11 2 9 7 10 Semester 8 8 9 9 10 10 10 11 11 12 12 Spannweite = 4 2) Universität Hannover Person 2 3 4 1 5 6 7 8 9 10 11 Semester 7 9 10 10 10 11 15 15 20 20 38 Spannweite = 31 3) Universität Mannheim Person 2 4 6 9 1 3 8 5 7 10 11 Semester 7 7 7 7 9 9 9 10 10 10 10 Spannweite = 3 41 ANALYSEPHASE DATEN BESCHREIBEN Deskriptive Statistiken: Streuungsparameter (2) Varianz (mittlere quadratische Abweichung) + Summe der quadrierten Abweichungen der einzelnen Werte xi eines Datenbündels vom Mittelwert x , dividiert durch die Anzahl der Beobachtungen n + Berechnung: x x ² n i i 1 n s² + Notwendiges Skalenniveau: setzen metrisches Skalenniveau der Variablen voraus + Aussagekraft: + Maß dafür, wie weit die einzelnen Werte im Durchschnitt vom Mittelwert x entfernt liegen + durch die Quadrierung erhalten Beobachtungswerte mit einer großen Differenz von x ein stärkeres Gewicht 42 ANALYSEPHASE DATEN BESCHREIBEN Deskriptive Statistiken: Streuungsparameter (2) Varianz (mittlere quadratische Abweichung) 1) Universität Göttingen Person 1 2 3 4 5 6 7 8 9 10 11 Semester 8 11 9 10 8 9 12 10 11 12 10 Varianz = 1,82 2) Universität Hannover Person 1 2 3 4 5 6 7 8 9 10 11 Semester 7 9 11 10 10 15 10 15 20 20 38 Varianz = 70 3) Universität Mannheim Person 1 2 3 4 5 6 7 8 9 10 11 Semester 9 7 9 7 10 7 10 9 7 10 10 Varianz = 1,69 43 ANALYSEPHASE DATEN BESCHREIBEN Deskriptive Statistiken: Streuungsparameter (3) Standardabweichung + Quadrat-)Wurzel aus der Varianz eines Datenbündels + Berechnung: + Notweniges Skalenniveau: nur für metrische Daten anwendbar + Aussagekraft: + Eignet sich zur Kennzeichnung von Fehlerintervallen um das arithmetische Mittel + Durch die Wurzelberechnung wird die Quadrierung der Abweichungen "rückgängig gemacht", so dass s die gleiche Maßeinheit hat wie die Datenwerte selbst 44 ANALYSEPHASE DATEN BESCHREIBEN Deskriptive Statistiken: Streuungsparameter (3) Standardabweichung 1) Universität Göttingen Person 1 2 3 4 5 6 7 8 9 10 11 Semester 8 11 9 10 8 9 12 10 11 12 10 Standardabweichung= 1,35 2) Universität Hannover Person 1 2 3 4 5 6 7 8 9 10 11 Semester 7 9 11 10 10 15 10 15 20 20 38 Standardabweichung = 8,37 3) Universität Mannheim Person 1 2 3 4 5 6 7 8 9 10 11 Semester 9 7 9 7 10 7 10 9 7 10 10 Standardabweichung = 1,30 45 ANALYSEPHASE DATEN BESCHREIBEN Deskriptive Statistiken: Streuungsparameter (3) Standardabweichung + Für Normalverteilungen gilt: + zwischen den Werten x+s und xs liegen ca. 2/3 aller Fälle (genau 68,26%) + oder umgekehrt: die Wahrscheinlichkeit dafür, dass ein Messwert um mehr als eine Standardabweichungseinheit vom Mittelwert abweicht ist kleiner als 32% 46 ANALYSEPHASE DATEN BESCHREIBEN Zusammenfasende Darstellung Skalenniveau Lageparameter Nominal Ordinal Metrisch Modus ☺ ☺ ☺ ☺ ☺ Median ☺ Arithmetischer Mittelwert Streuungsparameter Spannweite (☺) ☺ Varianz ☺ Standardabweichung ☺ 47 (3) Daten testen I: Was ist stat. Signifikanz und wozu brauche ich das überhaupt? Bildquelle: http://startistik.csd.univie.ac.at/ 48 ANALYSEPHASE DATEN TESTEN + statistische Kennwerte aus einer Stichprobe reflektieren nicht unbedingt die Grundgesamtheit 22 19 23 22 22 24 37 26 28 41 22 37 21 33 26 28 43 21 38 33 22 21 19 27 31 33 35 19 21 25 38 38 22 21 19 27 31 33 35 19 21 25 41 23 22 37 19 22 22 22 21 20 19 21 19 33 21 19 28 19 21 20 Stichprobe (Mx = 22) Grundgesamtheit (Mx = 26) + Inwieweit lässt sich von den Verhältnissen in der Stichprobe auf die betreffende Grundgesamtheit schließen? (Zulässigkeit und Zuverlässigkeit eines Induktionschlusses) 49 ANALYSEPHASE DATEN TESTEN + + Lösung: Berechnung der Wahrscheinlichkeit, dass der Wert in der Stichprobe/der Unterschied zwischen zwei Stichproben zufällig zustande gekommen ist + Formulierung von Hypothesen und Überprüfung + Die Nullhypothese H0 beinhaltet diejenige Aussage, welche falsifiziert werden soll, während die Alternativhypothese H1 die Aussage enthält, die man aufzeigen möchte Für die praktische Durchführung eines Hypothesentestes ist die Alternativhypothese eher von nebensächlicher Bedeutung. Sie dient lediglich dazu, den Ablehnungsbereich der »Prüfgröße« zu lokalisieren 50 ANALYSEPHASE DATEN TESTEN Hypothesen + + einseitig gerichtete Hypothesen + H0-Hypothese: Der Absatz von Tiefkühlpizza zu Sonderangebotspreisen ist nicht höher im Vergleich zum Absatz von Tiefkühlpizza zu Normalpreisen. + H1-Hypothese: Der Absatz von Tiefkühlpizza zu Sonderangebotspreisen ist höher im Vergleich zum Absatz von Tiefkühlpizza zu Normalpreisen. zweiseitig gerichtete Hypothesen + H0-Hypothese: Es besteht kein Unterschied in der Absatzzahl zwischen dem Angebot von Tiefkühlpizza zu Sonderpreisen und zu Normalpreisen. + H1-Hypothese: Bezüglich der Absatzzahl besteht ein Unterschied zwischen dem Angebot von Tiefkühlpizza zu Sonderpreisen und zu Normalpreisen. 51 ANALYSEPHASE DATEN TESTEN Fehlerarten + beim Prüfen von Hypothesen können zwei Fehler gemacht werden: + Die Nullhypothese wird verworfen, obwohl sie richtig ist (Fehler 1. Art) + Die Nullhypothese wird beibehalten, obwohl sie falsch ist (Fehler 2. Art) + Mit dem Signifikanzniveau α wird die Wahrscheinlichkeit bezeichnet, mit der man einen Fehler 1. Art riskieren will + die Wahrscheinlichkeit für einen Fehler 1. Art entspricht der Irrtumswahrscheinlichkeit p + die Gefahr einem Fehler 2. Art (β-Fehler) zu erliegen, ist umso kleiner, je deutlicher die berechnete Irrtumswahrscheinlichkeit die Signifikanzgrenze übersteigt 52 ANALYSEPHASE DATEN TESTEN Fehlerarten + die Gefahr einem Fehler 2. Art (β-Fehler) zu erliegen, ist umso kleiner, je deutlicher die berechnete Irrtumswahrscheinlichkeit die Signifikanzgrenze übersteigt 53 ANALYSEPHASE DATEN TESTEN Signifikanzniveau + α = 0,1% Nullkommaeins-prozentige Wahrscheinlichkeit, die Nullhypothese zu verwerfen, obwohl die richtig ist (“bei 1000 identischen Tests, maximal einmal ein Fehler erster Art”, sehr konservativ) + α = 1% Ein-prozentige Wahrscheinlichkeit, die Nullhypothese zu verwerfen, obwohl die richtig ist (“bei 100 identischen Tests, maximal einmal ein Fehler erster Art”, konservativ) + α = 5% Fünf-prozentige Wahrscheinlichkeit, die Nullhypothese zu verwerfen, obwohl die richtig ist (“bei 100 identischen Tests, maximal fünf Mal ein Fehler erster Art”, weniger konservativ) 54 ANALYSEPHASE DATEN TESTEN Fehlerarten + wird über die Richtung der Alternativhypothese eine Aussage gemacht, dann wird die Hypothese mit einem einseitigen Test geprüft, andernfalls mit einem zweiseitigen Test + im Fall eines zweiseitigen Tests liegt der Ablehnungsbereich zu gleichen Teilen an beiden Enden der Standardnormalverteilungs-kurve + die sich beim einseitigen Test ergebende Irrtumswahrscheinlichkeit p ist kleiner als die beim zweiseitigen Test (nämlich halb so groß) 55 ANALYSEPHASE DATEN TESTEN Testen + Annahme- und Ablehnungsbereiche bei einseitiger Fragestellung + Annahme- und Ablehnungsbereich bei zweiseitiger Fragestellung 56 ANALYSEPHASE DATEN TESTEN Vorgehensweise beim Signifikanztest + Ermittlung der Wahrscheinlichkeit für eine Prüfgröße unter der Bedingung H0 + Auf der Grundlage der erhobenen Stichprobendaten wird ein standardisierter Kennwert (die Prüfgröße) ermittelt + Häufig verwendete Prüfgrößen 2 (in Abhängigkeit von Fragestellung, Verteilungsannahmen c und Skalenniveau) sind: t, , F + Für diese Kennzahl sind bei einem gegebenen Test zum gewählten Signifikanzniveau Ablehnungsschwellen festgelegt, die den Bereich der möglichen Werte der Prüfgröße in einen Ablehnungs- und einen Annahmebereich der Nullhypothese H0 unterteilen + Die Ablehnungsschwellen werden aus der Verteilung der Teststatistik unter der Bedingung der Gültigkeit von H0 bestimmt + Liegt die Prüfgröße im Ablehnungsbereichs, so wird H0 abgelehnt, sonst wird H0 angenommen 57 ANALYSEPHASE DATEN TESTEN Vorgehensweise beim Signifikanztest + Vergleich des p-Wertes mit dem Signifikanzniveau α + ist p < α, dann ist die Wahrscheinlichkeit für einen Fehler erster Art kleiner als vorher akzeptiert + ist p > α, dann ist die Wahrscheinlichkeit für einen Fehler erster Art größer als vorher akzeptiert + H0 wird dann zugunsten der Alternative verworfen, wenn die Irrtumswahrscheinlichkeit p kleiner als das Signifikanzniveau α ist + + Der p-Wert gibt dabei die Wahrscheinlichkeit an, unter H0 den beobachteten Prüfgrößenwert oder einen in Richtung der Alternative extremeren Wert zu erhalten ein sehr kleiner p-Wert bedeutet, dass es unter H0 sehr unwahrscheinlich ist, den Prüfgrößenwert zu beobachten; dies spricht dafür, H0 zu verwerfen 58 ANALYSEPHASE DATEN TESTEN Chi-Square Tests Prüfgröße As ymp. Sig. Vorgehensweise beim Signifikanztest Value df (2-sided) Pearson Chi-Square Likelihood Ratio Linear-by-Linear As sociation N of Valid Cases 18.563 a 20.190 2 2 .000 .000 18.243 1 .000 “Sig.”, p-Wert 100 a. 0 cells (.0%) have expected count less than 5. The minimum expected count is 6.00. Age ANOVA Sum of Squares Between Groups 1656.490 W ithin Groups 25952.260 Total 27608.750 df 1 98 99 Mean Square 1656.490 264.819 F 6.255 Sig. .014 One-Sample Test Test Value = 25 Age t 7.036 df 99 Sig. (2-tailed) .000 Mean Difference 11.750 95% Confidence Int erval of the Difference Lower Upper 8.44 15.06 59 DATEN AUSWERTEN (1) Daten aufbereiten (2) Daten beschreiben: Deskriptive Statistiken (3) Daten testen I: Was ist stat. Signifikanz und wozu brauche ich das überhaupt? (4) Daten testen II: Methoden zur Aufdeckung von Zusammenhängen (5) Daten testen III: Methoden zur Aufdeckung von Gruppenunterschieden 60 MARKET RESEARCH …IST AUCH EIN PROZESS Definitionsphase • Formulierung des Forschungsproblems • Bestimmung der Erhebungsziele • Desk Research Vorbereitung Designphase • Informationsquellen (Primär-/Sekundärerhebung) • Messinstrumente/Operationalisierung • Grobplanung der Datenauswertung • Erhebungseinheiten (Voll-/Teilerhebung, Stichprobenumfang) • Arbeits-, Zeit- und Kostenplanung • Pre-Tests Feldphase Im Feld • Durchführung • Kontrolle und Dokumentation der Datenerhebung • Eingreifen vs. Standardisierung Analysephase Nachbereitung • Vorbereitung der Datenauswertung (Digitalisierung, Kodierung, Logikchecks) • Auswertung und Interpretation Kommunikationsphase • Forschungsbericht • Präsentation 61 + + + 2 Kreuztabellierung und c -Test Korrelationsanalysen (und Kausalität) Regressionsanalysen (4) Daten testen II: Methoden zur Aufdeckung von Zusammenhängen Bildquelle: Stahel (2002) 62 Literatur Kreuztabellen Bortz, Jürgen (1999). Statistik für Sozialwissenschaftler, 5. Aufl., Berlin u.a.: Springer, S. 150-172; S.218-220 und S.224-226 Fahrmeir, Ludwig; Künstler, Rita; Pigeot, Iris & Tutz, Gerhard (2004). Statistik, 5. Aufl., Berlin-Heidelberg-New York etc. : Springer, S. 411-420 und S. 109-127 Zöfel, Peter (2003). Statistik für Wirtschaftswissenschaftler, München-Boston-San Francisco etc: Pearson, S. 177-187 63 Literatur Korrelationsanalysen Berekoven, Ludwig, Eckert, Werner & Ellenrieder, Peter (2004). Marktforschung. Methodische Grundlagen und praktische Anwendung, 10. Auflage, Wiesbaden: Gabler, S.204-206. Bortz, Jürgen (2005). Statistik für Human- und Sozialwissenschaftler, 6. Aufl., Heidelberg: Springer, S.203-207 und S.232-234. Fahrmeir, Ludwig, Künstler, Rita, Pigeot, Iris & Tutz, Gerhard (2004). Statistik, 5. Aufl., Berlin-Heidelberg-New York etc.: Springer, S.134-145 und S.147-152. Zöfel, Peter (2003). Statistik für Wirtschaftswissenschaftler, München-Boston-San Francisco etc: Pearson, 64 Literatur Regressionsanalysen Skiera, Bernd & Albers, Sönke (2000). Regressionsanalyse, in: Herrmann, Andreas & Homburg, Christian (Hg.) Marktforschung, Wiesbaden: Gabler, S. 203-236 Vertiefung: Backhaus, Klaus, Erichson, Bernd, Plinke, Wulff & Weiber, Rolf (2006). Multivariate Analysemethoden, Berlin, Heidelberg, New York: Springer, S. 45-117 Was tun bei Verletzung der Vorraussetzungen? von Auer, Ludwig (2005). Ökonometrie, Berlin, Heidelberg, New York: Springer, S. 241-498 65 ANALYSEPHASE AUFDECKUNG VON ZUSAMMENHÄNGEN 2 Kreuztabellierung und c -Test + Situation + Fragestellung + Verfahren der Datenanalyse im Überblick + Bivariate Analyse + Die Kreuztabellierung + + Die Kreuztabelle + Bedingte Häufigkeiten Kontingenzmaße + c 2-Koeffizient + Φ -Koeffizient + Kontingenzkoeffizient 66 ANALYSEPHASE AUFDECKUNG VON ZUSAMMENHÄNGEN Situation Der Marketingleiter des Pizzaherstellers interessiert sich für den Zusammenhang zwischen Geschlecht und Kaufabsicht der Tiefkühlpizza Alberta, um die Marke strategisch besser ausrichten zu können. Eine Befragung von insgesamt N = 1229 Personen zu ihrer Kaufabsicht der Tiefkühlpizza sollte Aufschluss über die Frage geben. Die Kaufabsicht der Tiefkühlpizza wurde anhand der Ausprägungen „niedrig“ und „hoch“ bei unterschiedlichen Probanden ermittelt. 67 ANALYSEPHASE AUFDECKUNG VON ZUSAMMENHÄNGEN Fragestellung Werten Sie die Befragungsdaten dahingehend aus, ob es einen signifikanten Zusammenhang zwischen Geschlecht und Kaufabsicht gibt. Formulieren Sie zu diesem Zweck die dem Test zugrunde liegende Nullhypothese und ermitteln Sie die empirische Prüfgröße. Wie lautet Ihre Entscheidung über die Forschungshypothese? Falls es einen signifikanten Zusammenhang gibt, wie beurteilen Sie die Stärke des Zusammenhangs? 68 ANALYSEPHASE AUFDECKUNG VON ZUSAMMENHÄNGEN Datenlage Folgende Daten wurden auf Basis der Befragungen erhoben: Alter Kauffrequenz von Pizza selten oft Kaufabsicht Kaufabsicht 19-30 Jahre 31-50 Jahre Männer Frauen Männer Frauen ∑ ∑ hoch 156 72 114 180 522 714 niedrig 48 48 48 48 192 hoch 78 45 101 72 296 niedrig 39 136 30 14 219 ∑ 321 301 293 314 1229 ∑ 622 607 515 1229 69 ANALYSEPHASE AUFDECKUNG VON ZUSAMMENHÄNGEN Verfahren der Datenanalyse im Überblick Modus Lagemaße Median Mittelwert Univariate Verfahren Spanne Streumaße Varianz Standardabweichung Kreuztabellierung Anzahl Variablen Korrelation Dependenzanalysen Regressionsanalyse Conjointanalyse Bi- und Multivariate Verfahren Varianzanalyse Faktorenanalyse Interdependenzanalysen Multidim. Skalierung Clusteranalyse 70 ANALYSEPHASE AUFDECKUNG VON ZUSAMMENHÄNGEN Bivariate Datenanalyse + Im Mittelpunkt steht hierbei die Frage nach einer möglichen Beziehung zwischen zwei betrachteten Merkmalen + Man unterscheidet zwischen: + + Assoziationsanalysen, die ungerichtete Beziehungen untersuchen und 2. Regressionsanalysen, die sich mit gerichteten Abhängigkeiten befasst + Im Bereich der Assoziationsanalyse bei nominaler Skalierung der Merkmale ist die Kreuztabellierung zu nennen + Im Bereich der Assoziationsanalyse bei metrischer Skalierung der Merkmale ist die Berechnung des Korrelationskoeffizienten zu nennen 71 ANALYSEPHASE AUFDECKUNG VON ZUSAMMENHÄNGEN Kreuztabellierung + Zur Veranschaulichung und Herausarbeitung von Zusammenhängen zwischen zwei (oder auch mehreren) Variablen dient die Kreuztabelle bzw. Kontingenztafel + Es werden in einer Matrix für alle möglichen Kombinationen der Merkmalsausprägungen zweier Merkmale, die (absoluten bzw. relativen) Häufigkeiten angegeben + Zur Darstellung des Zusammenhangs wird nur das Nominalskalenniveau bzw. Ordinalskalenniveau der Merkmale benutzt, auch wenn die Merkmale ein höheres Messniveau aufweisen + Auf Basis der Kreuztabellierung lassen sich dann Maße für die Stärke des Zusammenhangs zwischen den beiden Merkmalen herausarbeiten 72 ANALYSEPHASE AUFDECKUNG VON ZUSAMMENHÄNGEN Vorgehensweise zur Erstellung einer Kreuztabelle + Ausgangspunkt sind zwei Merkmale X und Y mit den möglichen Ausprägungen: a1,…,ak für X und b1,…, bm für Y + man bildet die Häufigkeiten hoij = h(aoi,boj) mit der die möglichen Kombinationen (ai,bj), i = 1,…,k; j = 1,…,m, auftreten + die sich daraus ergebene Häufigkeitstabelle heißt Kreuztabelle oder Kontingenztafel + Kreuztabellen werden durch Zeilen- und Spaltensummen ergänzt + die Zeilensummen ergeben die Randhäufigkeiten des Merkmals X und werden abgekürzt durch: hoi. = hoi1 + … + hoim, i = 1,…, k + die Spaltensummen ergeben die Randhäufigkeiten des Merkmals Y und werden abgekürzt durch: h.oj = ho1j + … + hokj, j = 1,…, m 73 ANALYSEPHASE AUFDECKUNG VON ZUSAMMENHÄNGEN (k x m)-Kreuztabelle der absoluten Häufigkeiten: b1 … bm a1 ho11 … ho1m ho1. a2 ho21 … ho2m ho2. ak hok1 … hokm hok. h.o1 … h.om n + hoii = ho (ai,bj) absolute Häufigkeit der Kombination (ai, bj) + ho1.,...,hok. Randhäufigkeiten von X + h.o1,...,h.om Randhäufigkeiten von Y + da die Prozentangaben häufig anschaulicher sind, betrachtet man auch die relativen Häufigkeiten, die sich ergeben, indem man die Beobachtungen durch n dividiert 74 ANALYSEPHASE DATENAUFBEREITUNG 75 ANALYSEPHASE DATENAUFBEREITUNG 76 ANALYSEPHASE AUFDECKUNG VON ZUSAMMENHÄNGEN Kreuztabelle mit absoluten Häufigkeiten hoii und Randsummen Geschlecht (Y) Kaufabsicht (X) ∑ ∑ männlich (b1) weiblich (b2) hoch (a1) 449 (ho11) 369 (ho12) 818 (ho1.) niedrig (a2) 165 (ho21) 246 (ho22) 411 (ho2.) 614 (h.o1) 615 (h.o2) 1229 (n) 77 ANALYSEPHASE AUFDECKUNG VON ZUSAMMENHÄNGEN Bedingte Häufigkeiten + ein Zusammenhang zwischen Merkmalen ist allein durch die Betrachtung der absoluten und relativen Häufigkeiten noch nicht ersichtlich + zur besseren Beurteilung der Häufigkeiten ist eine Prozentuierung mit Bezug auf die Zeilensummen bzw. Spaltensummen sinnvoll + die Zeilenprozenturierung ist ein Hilfsmittel zum Vergleich der Zeilenkategorie; die Spaltenprozentuierung entsprechend zum Vergleich der Spaltenkategorie 78 ANALYSEPHASE AUFDECKUNG VON ZUSAMMENHÄNGEN Kreuztabelle mit Spaltenprozentuierung Geschlecht (Y) Kaufabsicht (X) ∑ ∑ männlich (b1) weiblich (b2) hoch (a1) 449 (ho11) 73,1% 369 (ho12) 60% 818 (ho1.) niedrig (a2) 165 (ho21) 26,9% 246 (ho22) 40% 411 (ho2.) 614 =100% (h.o1) 615 =100% (h.o2) 1229 (n) 73,1% der männlichen Probanden geben eine hohe Kaufabsicht an, aber nur 60% der weiblichen Studierenden. 79 ANALYSEPHASE AUFDECKUNG VON ZUSAMMENHÄNGEN c2 -Koeffizient + Mithilfe einer c - Analyse kann überprüft werden, ob es signifikant auffällige Kategoriekombinationen gibt 2 + Fragestellung: Unterscheiden sich die absoluten (beobachteten) Häufigkeiten hoii signifikant von den erwarteten Häufigkeiten heij? + Wenn die Merkmale X und Y unabhängig sind, sollten die tatsächlich beobachteten Häufigkeiten von den zu erwarteten Häufigkeiten kaum abweichen + Erwartete Häufigkeiten sind diejenigen, die sich unter Zugrundelegung der gegebenen Randsummen bei Gleichverteilung ergeben (Produkt aus zugehöriger Zeilen- und Spaltensumme, dividiert durch Gesamtsumme) + Berechnung der quadrierten standardisierten Residuen und Aufsummierung über alle Felder der Kreuztabelle zur Prüfgröße c 2 c 2 k m i 1 j 1 h oij heij ² heij mit df = (k-1)(m-1) Freiheitsgraden 81 ANALYSEPHASE AUFDECKUNG VON ZUSAMMENHÄNGEN c2-Koeffizient > c + Ho-Hypothese wird verworfen, wenn c + Sind X und Y unabhängig, dann ist c 2= 0 + c 2 nimmt mit wachsendem Stichprobenumfang zu 2 emp 2 tab 2 ohne zusätzliche Überlegungen lässt sich nicht feststellen, wie groß c sein muss, um auf einen Zusammenhang hinzuweisen + der c 2-Test ist an die Voraussetzung geknüpft, dass die erwarteten Häufigkeiten größer als 5 sind; in 20% der Fälle sind Werte < 5 erlaubt 82 ANALYSEPHASE AUFDECKUNG VON ZUSAMMENHÄNGEN Kreuztabelle mit beobachteten und erwarteten Häufigkeiten Geschlecht (Y) Kaufabsicht (X) ∑ heij ∑ männlich (b1) weiblich (b2) hoch (a1) 449 (ho11) 408,7 (he11) 369 (ho12) 409,3 (he12) 818 (ho1.) niedrig (a2) 165 (ho21) 205,3 (he21) 246 (ho22) 205,7 (he22) 411 (ho2.) 614 (h.o1) 615 (h.o2) 1229 (n) Ho-Hypothese: Es besteht kein Zusammenhang zwischen dem Geschlecht und der Kaufabsicht. 83 ANALYSEPHASE AUFDECKUNG VON ZUSAMMENHÄNGEN 2 Berechnung der Prüfgröße c k m c 2 i 1 j 1 h oij heij ² heij c 2 = 449 408,7 ² 369 409,3² 165 205,3² 246 205,7 ² 23,8 408,7 409,3 205,3 df p = .05 p = .01 p = .001 1 3,841 6,635 10,828 2 5,991 9,210 13,816 205,7 c 2-Tabelle + H0 kann verworfen werden, da die Prüfgröße größer ist als der kritische Tabellenwert 2 der c Tabelle + Zwischen Geschlecht und Kaufabsicht existiert ein (höchst) signifikanter Zusammenhang (p < .001). 84 ANALYSEPHASE DATENAUFBEREITUNG 85 ANALYSEPHASE AUFDECKUNG VON ZUSAMMENHÄNGEN Berechnung der Prüfgröße c 2 Chi-Square Tests Test statistik Pearson Chi-Square Likelihood Ratio Linear-by-Linear As sociation N of Valid Cases Value 18.563 a 20.190 18.243 Sig. 2 2 As ymp. Sig. (2-sided) .000 .000 1 .000 df 100 a. 0 cells (.0%) have expected count less than 5. The minimum expected count is 6.00. + H0 kann verworfen werden, da die Prüfgröße größer ist als der kritische Tabellenwert 2 der c Tabelle + Zwischen Geschlecht und Kaufabsicht existiert ein (höchst) signifikanter Zusammenhang (p < .001). 86 ANALYSEPHASE AUFDECKUNG VON ZUSAMMENHÄNGEN Φ -Koeffizient + Um die Stärke des Zusammenhangs zwischen zwei dichotomen Variablen aufzudecken, kann der Φ–Koeffizient ermittelt werden Φ= + c2 n θ nimmt Werte zwischen 0 (minimaler Zusammenhang) und 1 (maximaler Zusammenhang) an + Das Vorzeichen des Φ–Koeffizienten hängt von der Anordnung der Merkmalsalternativen im 4-Felder-Schema ab eine inhaltliche Interpretation kann deshalb nur aufgrund der angetroffenen Häufigkeiten erfolgen 87 ANALYSEPHASE AUFDECKUNG VON ZUSAMMENHÄNGEN Zur Interpretation des Φ-Koeffizient Interpretation 0 0-0,25 0,25-0,66 0,66-1 1 + schwacher Zusammenhang mittlerer Zusammenhang starker Zusammenhang perfekter Zusammenhang da es einen signifikanten Zusammenhang gibt, kann auch eine Aussage über die Stärke des Zusammenhangs zwischen Geschlecht und Kaufabsicht getroffen werden θ + kein Zusammenhang χ² n 23,8 0,14 1229 zwischen Geschlecht und Kaufabsicht besteht betragsmäßig ein schwacher Zusammenhang dahingehend, dass Männer eine höhere Kaufbereitschaft haben 88 ANALYSEPHASE AUFDECKUNG VON ZUSAMMENHÄNGEN Kontingenzkoeffizient + Maß zur Charakterisierung der Stärke des Zusammenhangs zweier mindestens nominalskalierter Merkmale + Auch für Variablen mit mehr als zwei Ausprägungen geeignet + Ist der c -Test signifikant, gibt der Kontingenzkoeffizient den Grad der Abhängigkeit beider Merkmale wieder c2 K= n+c 2 + K ist nur positiv definiert und bewegt sich zwischen 0 und 1 (wobei 1 nicht erreicht werden kann) + K = 0 bei Unabhängigkeit der beiden Variablen + Kmax ist abhängig von der Zeilen- und Spaltenzahl K max + 2 k 1 k soll K genau zwischen 0 und 1 liegen, so muss er normiert werden; der normierte Kontingenzkoeffizient hängt nicht mehr von der Dimension der Kontingenztafel ab K Kko rr K max 89 ANALYSEPHASE AUFDECKUNG VON ZUSAMMENHÄNGEN Korrelationsanalysen + Situation + Fragestellung + Datenlage + Funktionstypen + Korrelationen + Korrelationskoeffizient nach Bravais-Pearson + Rangkorrelationskoeffizient nach Spearman + Rangkorrelationskoeffizient nach Kendall + Zusammenfassung + Probleme 90 ANALYSEPHASE AUFDECKUNG VON ZUSAMMENHÄNGEN Situation Den Marketingleiter des Pizzaherstellers interessiert die Frage nach dem Zusammenhang zwischen Verkaufspreis und Absatzmenge von Tiefkühlpizzen im Monat. Zu diesem Zweck wurde die Absatzmenge bei unterschiedlichen Preisen der Tiefkühlpizza im Monat ermittelt. 91 ANALYSEPHASE AUFDECKUNG VON ZUSAMMENHÄNGEN Fragestellung Stellen Sie die erfassten Daten zunächst mit Hilfe eines Streudiagramms dar. Liefert Ihnen das Streudiagramm bereits erste Hinweise auf einen möglichen Zusammenhang. Beschreiben Sie den Zusammenhang mithilfe von Korrelationskoeffizienten, wobei Sie einen linearen Zusammenhang zwischen den Werten unterstellen sollten. Gehen Sie bei Ihren Berechnungen davon aus, dass die beiden Merkmale der Stichprobe normalverteilt sind. 92 ANALYSEPHASE AUFDECKUNG VON ZUSAMMENHÄNGEN Datenlage Tiefkühlpizza A B C D E F G H I J Preis in Euro 5,10 1,80 2,10 2,05 1,99 1,90 2,20 1,95 2,50 2,25 Absatzmenge im Monat 110 1200 100 43 910 1000 760 970 685 860 93 ANALYSEPHASE AUFDECKUNG VON ZUSAMMENHÄNGEN Ausgewählte Grundformen linearer Funktionen Beispiel: Beispiel: Zusammenhang zwischen Zahl der Vertreterbesuche und Höhe des Verkäuferumsatzes Zusammenhang zwischen Preis und Absatzmenge Beispiel: Zusammenhang zwischen Preis A und Preis B verschiedener Güter 94 ANALYSEPHASE AUFDECKUNG VON ZUSAMMENHÄNGEN Ausgewählte Grundformen nicht-linearer Funktionen Beispiel: Beispiel: Zusammenhang zwischen Artikelanzahl und Zahlungsbereitschaft Zusammenhang zwischen Mund-zuMund Propaganda und Ausbreitung einer Werbe-botschaft Beispiel: Beispiel: Zusammenhang zwischen Preis und Absatz bei bestimmten Gütern Zusammenhang zwischen Vertraut-heit und Attraktivität eines Produktes Beispiel: Beispiel: Werbewirkungsfunktion Trendprognose zum Absatz eines Automobils 95 ANALYSEPHASE AUFDECKUNG VON ZUSAMMENHÄNGEN Streuungsdiagramme + Streu(ungs)diagramme sind grafische Hilfsmittel, die die Anordnung der Beobachtungspunkte veranschaulichen + Jedes xi/yi - Beobachtungspaar wird in ein x/y-Koordinatensystem eingetragen + Es lässt sich ein erster Eindruck gewinnen, ob und wie stark zwei Merkmale zusammenhängen + Funktionstypen können abgeleitet werden 96 ANALYSEPHASE AUFDECKUNG VON ZUSAMMENHÄNGEN Streuungsdiagramme Bildquelle: Stahel (2002) 97 ANALYSEPHASE AUFDECKUNG VON ZUSAMMENHÄNGEN Korrelationen + Als Korrelation bezeichnet man den wechselseitigen Zusammenhang zwischen Größen + Korrelation bedeutet nicht das Vorhandensein von Kausalität. + Besteht eine Korrelation zwischen X und Y, so gibt es mindestens drei alternative Möglichkeiten einer Kausalitätsbeziehung: + + X bewirkt Y, + Y bewirkt X und + X und Y werden durch Z bewirkt (Scheinkorrelation). die Korrelationsanalyse liefert ein Maß für die Stärke des Zusammenhangs; erfasst jedoch nur monotone bzw. lineare Zusammenhänge 98 ANALYSEPHASE AUFDECKUNG VON ZUSAMMENHÄNGEN Korrelationen + Die Stärke des Zusammenhangs wird durch den Korrelationskoeffizienten r gemessen + Der Korrelationskoeffizient r liegt stets in den Grenzen von -1 bis +1 + Für die Stärke des Zusammenhangs ist allein der Betrag des Korrelationskoeffizienten maßgebend + das Vorzeichen gibt an, ob der Zusammenhang gleichläufig (+) oder gegenläufig (–) ist Korrelationskoeffizient │r│≤ 0.25 Einstufung schwache Korrelation 0.25 <│r│≤ 0.66 mittlere Korrelation 0.66 <│r│< 1 starke Korrelation │r│= 1 perfekte Korrelation 99 ANALYSEPHASE AUFDECKUNG VON ZUSAMMENHÄNGEN Korrelationen Vermutung: Zwischen den Variablen Preis und Verkaufsmenge besteht ein linearer und gegenläufiger Zusammenhang; je höher der Verkaufspreis umso geringer die Absatzmenge. 100 ANALYSEPHASE AUFDECKUNG VON ZUSAMMENHÄNGEN Korrelationskoeffizient nach Bravais-Pearson + Korrelationskoeffizient nach Bravais-Pearson dient der Beschreibung des Zusammenhangs zwischen metrisch skalierten und normalverteilten Variablen + Misst die Stärke des linearen Zusammenhangs, es gilt: n rxy xi x yi y i 1 x x y y n i i 1 + xy s ² s xs y ²n i i 1 Erläuterung: + sx bzw. sy stehen für die Standardabweichungen der Merkmale X bzw. Y + sxy bezeichnet die empirische Kovarianz (COV) n s 1 / n x x y y xy i i i1 101 ANALYSEPHASE AUFDECKUNG VON ZUSAMMENHÄNGEN Korrelationskoeffizient nach Bravais-Pearson Zur Kovarianz: y + + + um einen Zusammenhang zwischen zwei Merkmalen zu erfassen, beschreibt man die Lage eines Beobachtungspunktes mit Bezug zu dem Schwerpunkt des Streudiagramms Punkte im ersten und dritten Quadranten deuten auf einen positiven Zusammenhang hin; Punkte im zweiten und vierten Quadranten auf einen negativen Zusammenhang IV I x x x x x y x x x x x x x x x / y x x x x x x x III x II x formal wird dies für jeden Punkt durch das Produkt (xi - x )(yi - y ) erfasst 102 ANALYSEPHASE AUFDECKUNG VON ZUSAMMENHÄNGEN Korrelationskoeffizient nach Bravais-Pearson Zur Kovarianz: + y Es gilt: Quadrant 1: xi x; yi y ( xi x)( yi y) 0 Quadrant 2: xi x; yi y ( xi x)( yi y) 0 Quadrant 3: Quadrant 4: xi x; yi y ( xi x)( yi y) 0 xi x; yi y ( xi x)( yi y) 0 IV I x x x x x y x x x x x x x x x / y x x x x x x x III x + Liegen die Punkte hauptsächlich in den Quadranten 1 und 3, so ist die Summe der Produkte stark positiv. + Liegen die Punkte hauptsächlich in den Quadranten 2 und 4, so ist die Summe der Produkte stark negativ. + Sind die Punkte gleichmäßig verteilt, so heben sich positive und negative Summanden weitgehend auf und die Summe der Produkte wird weitgehend Null. II x 103 ANALYSEPHASE AUFDECKUNG VON ZUSAMMENHÄNGEN Korrelationskoeffizient nach Bravais-Pearson Zur Kovarianz: + Kovarianz: durchschnittliche Summe von Abweichungsprodukten + Die Kovarianz gibt die Tendenz an, in welche Richtung die Merkmale variieren + sxy > 0 mit x steigt (tendenziell) auch y (und umgekehrt) + sxy < 0 hohe Werte der einen Zufallsvariablen gehen mit niedrigen Werten der anderen Zufallsvariablen einher + sxy = 0 x und y sind unabhängig + Kovarianzen deuten (ggf.) auf lineare Abhängigkeiten hin. Sie sind von den Maßeinheiten der Merkmale abhängig! + Wertebereich: bis 104 ANALYSEPHASE AUFDECKUNG VON ZUSAMMENHÄNGEN Korrelationskoeffizient nach Bravais-Pearson + Normierung der Kovarianz: Korrelationskoeffizienten nach Bravais-Pearson (Produkt-Moment-Korrelation) rxy + Division der Kovarianz durch die Standardabweichungen beider Merkmale ( = Eliminierung der Streuung der einzelnen Verteilungen) + Wertebereich von rxy -1 bis +1 + rxy > 0 die Merkmale variieren tendenziell in der gleichen Richtung + rxy < 0 die Merkmale variieren tendenziell in entgegengesetzter Richtung + rxy = 0 kein (linearer) Zusammenhang! 105 ANALYSEPHASE AUFDECKUNG VON ZUSAMMENHÄNGEN Korrelationskoeffizient nach Bravais-Pearson + Die statistische Absicherung des Korrelationskoeffizienten nach Bravais-Pearson gegen Null erfolgt über die t-verteilte Prüfgröße. t + rxy n 2 1 rxy ² bei df = n-2 Freiheitsgraden Der Korrelationskoeffizient ist dann signifikant, wenn die Prüfgröße größer ist als der kritische Wert der t-Verteilung. 106 ANALYSEPHASE DATENAUFBEREITUNG 107 ANALYSEPHASE DATENAUFBEREITUNG 108 ANALYSEPHASE AUFDECKUNG VON ZUSAMMENHÄNGEN Korrelationskoeffizient nach Bravais-Pearson + Folgende Ergebnisse liefert die Berechnung des Korrelationskoeffizient nach Bravais-Pearson: N Korrelation Preis Preis Abs atzmenge Korrelation nach Pears on Sig. (2-s eitig) N Korrelation nach Pears on Sig. (2-s eitig) N Abs atzmenge 1 -,631 10 ,050 10 -,631 1 ,050 10 10 rxy Statistische Absicherung • rxy = -0,631 • Im vorliegenden Fall liegt mit α =.05 ein nicht signifikanter Wert vor 109 ANALYSEPHASE AUFDECKUNG VON ZUSAMMENHÄNGEN Korrelationskoeffizient nach Bravais-Pearson 110 ANALYSEPHASE AUFDECKUNG VON ZUSAMMENHÄNGEN Korrelationskoeffizient nach Bravais-Pearson + rxy drückt den linearen Zusammenhang zweier Variablen aus + Konsequenz: einzelne Ausreißer, d.h. einzelne extreme Datenpunkte, können einen starken, unerwünschten Effekt auf den numerischen Wert von rxy haben; hohe Korrelationen können als gering erscheinen und umgekehrt. + Lösung: Ermittlung von Rangkorrelationskoeffizienten, die von Ausreißern wesentlich weniger beeinflusst werden, da ihre Ermittlung auf den Rängen der Beobachtungen basiert. 111 ANALYSEPHASE AUFDECKUNG VON ZUSAMMENHÄNGEN Korrelationskoeffizient nach Bravais-Pearson 112 ANALYSEPHASE AUFDECKUNG VON ZUSAMMENHÄNGEN Rangkorrelationskoeffizient nach Spearman + drückt die Stärke des monotonen Zusammenhangs zweier Variablen aus + wird zwischen zwei Variablen berechnet, die mindestens ordinalskaliert sind; für metrisch skalierte Variablen, bei Unsicherheit hinsichtlich der Normalverteilungsanahme + Basiert auf Rangzahlen, die den Messwerten zugeordnet sind + Für beide Variablen wird eine Rangreihe der Werte erstellt, + Dem höchsten Wert wird der Rangplatz 1 verliehen; bei gleichen Werten werden gemittelte Rangplätze vergeben + die Differenz di der zugehörigen Rangplatzpaare wird bestimmt + es gilt: n rs 1 + 6 di ² i 1 n(n² 1) die Absicherung erfolgt über die t-verteilte Prüfgröße bei df = n – 2 Freiheitsgraden t rs n 2 1 rs ² 113 ANALYSEPHASE AUFDECKUNG VON ZUSAMMENHÄNGEN Rangkorrelationskoeffizient nach Spearman + Wertebereich von rs -1 bis +1 + Gehen mit steigenden x-Werten auch steigende y-Werte einher, so nimmt rs tendenziell einen großen Wert an + sind die Rangzahlen bei den Merkmalen beider Variablen völlig gleich, so nimmt rs den Wert 1 an (die Rangpaare liegen auf einer Geraden mit positiver Steigung liegen) + bei entgegengesetzt laufenden Rangzahlen wird rs = -1 (die Rangpaare liegen auf einer Geraden mit negativer Steigung) 114 ANALYSEPHASE AUFDECKUNG VON ZUSAMMENHÄNGEN Rangkorrelationskoeffizient nach Spearman + + Interpretation des Ergebnisses rs = -.685 + starker Zusammenhang + rs < 0 gegenläufiger monotoner Zusammenhang Es zeigt sich ein mittlerer gegenläufiger Zusammenhang zwischen Preis und Absatzmenge: Je höher der Preis einer Tiefkühlpizza, umso niedriger ist die verkaufte Menge an Tiefkühlpizzen. 117 ANALYSEPHASE AUFDECKUNG VON ZUSAMMENHÄNGEN Zusammenfassung von Zusammenhangsmaßen + Die Rangkorrelation kann nur dann berechnet werden, wenn die beteiligten Variablen mindestens ordinalskaliert sind + Die Korrelation i.e.S (Korrelation nach Bravais-Pearson) allerdings nur für metrische Variablen. Y X nominal ordinal metrisch nominal Kontingenz Kontingenz Kontingenz ordinal Kontingenz Rang-Korrel. Rang-Korrel. metrisch Kontingenz Rang-Korrel. Korrelation i.e.S. 118 ANALYSEPHASE AUFDECKUNG VON ZUSAMMENHÄNGEN Grenzen von Zusammenhangsmaßen + die Korrelation i.e.S gilt: Einzelne Fälle können einen starken Einfluss auf den Korrelationskoeffizienten ausüben. + Korrelationen lassen sich für alle Funktionstypen berechnen + allerdings werden nur monotone bzw. lineare Zusammenhänge erfasst. 119 ANALYSEPHASE AUFDECKUNG VON ZUSAMMENHÄNGEN Grenzen von Zusammenhangsmaßen + Kausalzusammenhänge können nicht erfasst werden + Scheinkorrelationen (Korrelation zwischen Merkmalen, die inhaltlich nicht gerechtfertigt ist) können auftreten + Zusammenhänge ergeben sich dann, wenn ein mit beiden beobachtbaren Merkmalen hochkorreliertes drittes Merkmal übersehen wird und unberücksichtigt bleibt. + Bleibt ein entscheidendes Merkmal unberücksichtigt, kann dies zudem vorhandene Korrelationen verschleiern oder hinsichtlich des Vorzeichens umkehren 120 ANALYSEPHASE AUFDECKUNG VON ZUSAMMENHÄNGEN Kausalität r = .62 121 ANALYSEPHASE AUFDECKUNG VON ZUSAMMENHÄNGEN Kausalität + Mögliche Erklärungen für die Korrelation (1) Die Anzahl der Störche beeinflusst tatsächlich die Geburtenrate kausal. (2) Die Geburtenrate beeinflusst das die Anzahl der Störche. (3) Der Zusammenhang zwischen der Anzahl der Störche und der Geburtenrate wird durch eine dritte Variable bestimmt. (4) Der Zusammenhang zwischen Anzahl der Störche und Geburtenrate ist rein zufällig. + Es lassen sich also einige unterschiedliche Erklärung für eine hohe statistische Korrelation zwischen zwei Variablen finden. + Nicht immer ist die einfachste oder offenkundigste Erklärung auch die richtige. + Tatsächlich zeigt die Praxis, dass allzu oft vorschnell von einer Korrelation auf einen Kausalzusammenhang geschlossen wird, ohne weitere, nötige Belege für diese Interpretation anzubringen. Eine statistische Korrelation kann zwar eine kausale Beziehung nahelegen. Sie alleine reicht aber nicht aus, um Kausalität zu begründen. 122 ANALYSEPHASE AUFDECKUNG VON ZUSAMMENHÄNGEN Kausalität + Ein solcher Schluss ist nur dann folgerichtig, wenn diese Kriterien erfüllt werden: + Vorliegen einer statistischen Korrelation. Ein statistischer Zusammenhang ist eine notwendige Bedingung für eine kausale Beziehung. Dabei ist aber zu beachten, dass auch nicht-lineare Zusammenhänge zwischen zwei Variablen bestehen können, die bspw. durch die Produkt-Moment Korrelation nicht erfasst werden. In unserem Beispiel konnten wir aber eine substantielle Korrelation zwischen dem Umsatz und den Werbeausgaben errechnen. + Die unabhängige Variable findet zeitlich vor der abhängigen Variablen statt. Als unabhängige Variable wird diejenige Variable bezeichnet, die einen Einfluss auf die abhängige Variable ausübt. Die Veränderungen in der unabhängigen Variablen müssen logischer weise vor der Veränderung in der abhängigen Variable stattfinden. + Es gibt keine Drittvariablen, die sowohl die unabhängige als auch die abhängige Variable gleichzeitig beeinflussen. Hierfür muss sorgfältig recherchiert werden und möglichst viele Variablen zusätzlich untersucht werden, die einen Einfluss auf beide Variablen ausüben könnten. + Es gibt eine inhaltliche Erklärung für den kausalen Zusammenhang. Bevor eine Korrelation kausal interpretiert werden kann, muss immer auch eine Erklärung für die Richtung des Zusammenhangs existieren. 123 ANALYSEPHASE AUFDECKUNG VON ZUSAMMENHÄNGEN Regressionsanalysen + Situation und Problemstellung + Schritte der linearen Regressionsanalyse + Formulierung des Modells + Schätzung der einfachen Regressionsfunktion + Prüfung der einfachen Regressionsfunktion + Schätzung der multiplen Regressionsfunktion + Prüfung der multiplen Regressionsfunktion + Voraussetzungen der Regressionsanalyse + Grenzen der Regression 124 ANALYSEPHASE AUFDECKUNG VON ZUSAMMENHÄNGEN Situation und Problemstellung Der Verkaufsleiter eines Margarineherstellers ist mit dem mengenmäßigen Absatz seiner Marke nicht zufrieden. Er stellt zunächst fest, dass der Absatz zwischen seinen Verkaufsgebieten differiert: Die Werte liegen zwischen 921 Kartons und 2.585 Kartons. Der Mittelwert beträgt 1.806,8. Er möchte wissen, warum die Werte so stark differieren und deshalb prüfen, von welchen Faktoren, die er beeinflussen kann, im wesentlichen der Absatz abhängt. Zu diesem Zweck nimmt er eine Stichprobe von Beobachtungen aus zehn etwa gleich großen Verkaufsgebieten. Er sammelt für die Untersuchungsperiode Daten über die abgesetzte Menge, den Preis, die Ausgaben für Verkaufsförderung sowie die Anzahl der Vertreterbesuche. 125 ANALYSEPHASE AUFDECKUNG VON ZUSAMMENHÄNGEN Situation und Problemstellung Die Untersuchung soll nun die Antwort auf die Frage geben, ob die genannten Einflussgrößen sich auf die Absatzmenge auswirken. Es soll zunächst eine der in Frage kommenden Variablen (hier: die Besuche) herausgegriffen werden. Im Folgenden sollen auch die weiteren Einflussgrößen (Preis, die Ausgaben für Verkaufsförderung sowie die Anzahl der Vertreterbesuche) in die Untersuchung einbezogen werden. 126 ANALYSEPHASE AUFDECKUNG VON ZUSAMMENHÄNGEN Linearen Regressionsanalyse + Die Folgende Daten erhielt der Verkaufsleiter aus der Stichprobe: Nr. Menge Kartons Preis pro Karton pro Periode (Menge) (Menge) Ausgaben für Zahl der Verkaufsförderung Vertreterbesuche (Ausgaben) (Besuche) 1 2585 12,50 2000 109 2 1819 10,00 550 107 3 1647 9,95 1000 99 4 1496 11,50 800 70 5 921 12,00 0 81 6 2278 10,00 1500 102 7 1810 8,00 800 110 8 1987 9,00 1200 92 9 1612 9,50 1100 87 10 1913 12,50 1300 79 127 ANALYSEPHASE AUFDECKUNG VON ZUSAMMENHÄNGEN Linearen Regressionsanalyse (1) Formulierung des Modells (2) Schätzung der Regressionsfunktion (3) Prüfung der Regressionsfunktion 128 ANALYSEPHASE AUFDECKUNG VON ZUSAMMENHÄNGEN Linearen Regressionsanalyse: Formulierung des Modells + Zunächst geht es darum, das sachlich zugrunde liegende Ursache-Wirkungsmodell in Form einer linearen Regressionsbeziehung zu bestimmen + Hier: Der Verkaufsleiter vermutet aufgrund seiner Erfahrung, dass die Absatzmenge von der Zahl der Vertreterbesuche abhängig ist + Der vermutete Zusammenhang zwischen der Absatzmenge und Zahl der Vertreterbesuche muss der Grundprämisse der Linearität entsprechen. + Linearitätsprämisse der Regressionsanalyse: Y konstant X j 129 ANALYSEPHASE AUFDECKUNG VON ZUSAMMENHÄNGEN Linearen Regressionsanalyse: Formulierung des Modells + Für zwei Variablen lässt sich ein Streudiagramm der Beobachtungswerte erzeugen, das erkennen lässt, ob eine lineare Beziehung unterstellt werden kann 130 ANALYSEPHASE AUFDECKUNG VON ZUSAMMENHÄNGEN Linearen Regressionsanalyse: Schätzung der einfachen Regressionsfunktion + Gesucht ist die genaue Lage einer linearen Funktion im Koordinatensystem (x,y), die man Regressionsgerade nennt. + Zwei Parameter bestimmen die Lage einer Geraden + das konstante Glied b0, Schnittpunkt mit der Ordinate (x = 0) + der Regressionskoeffizient b1, der die Neigung der Geraden bestimmt: b1 + Y X die gesuchte Regressionsfunktion lautet: yˆ bo b1 x Kriterium (AV) Prädiktor (UV) 131 ANALYSEPHASE AUFDECKUNG VON ZUSAMMENHÄNGEN Linearen Regressionsanalyse: Schätzung der einfachen Regressionsfunktion + Ein möglicher Verlauf der Regressionsgeraden 132 ANALYSEPHASE AUFDECKUNG VON ZUSAMMENHÄNGEN Linearen Regressionsanalyse: Schätzung der einfachen Regressionsfunktion + + Die der Regressionsanalyse zugrundeliegende Frage lautet: + „Welcher Anteil aller Abweichungen der Beobachtungswerte von ihrem gemeinsamen Mittelwert lässt sich durch den unterstellten linearen Einfluss der unabhängigen Variablen (Vertreterbesuche) erklären und welcher Anteil verbleibt als unerklärte Residuen?“ + Hier: Lässt sich die gesamte Abweichung von 778,20 Mengeneinheiten bei Beobachtung 1 durch die Zahl der Vertreterbesuche von 109 erklären, oder ist sie auch durch andere Einflussgrößen maßgeblich bestimmt worden? Die Zielsetzung der Regressionsanalyse besteht darin, eine lineare Funktion zu ermitteln, die möglichst viel von den Abweichungen erklärt und somit möglichst geringe Residuen übrig lässt. 135 ANALYSEPHASE AUFDECKUNG VON ZUSAMMENHÄNGEN Linearen Regressionsanalyse: Schätzung der einfachen Regressionsfunktion + Wenn man die Residuen explizit in die Regressionsgleichung einbezieht, erhält man folgende Gleichung Y bo b1 x e + Will man den Zusammenhang zwischen Absatzmenge und Zahl der Vertreterbesuche schätzen, dann gelingt dies umso besser, je kleiner die ek sind. + Es wird ein Rechenverfahren benötigt, das die Parameter der Regressionsgeraden so schätzt, dass die Streuung der Stichprobenwerte um die Gerade möglichst klein wird. Es wird die Summe der quadrierten Residuen minimiert (KQS - Kleinste-Quadrate-Schätzung) 136 ANALYSEPHASE AUFDECKUNG VON ZUSAMMENHÄNGEN Linearen Regressionsanalyse: Schätzung der einfachen Regressionsfunktion + Grafische Veranschaulichung 138 ANALYSEPHASE AUFDECKUNG VON ZUSAMMENHÄNGEN Linearen Regressionsanalyse: Schätzung der einfachen Regressionsfunktion + Eingesetzt in (1) und (2) erhält man b1 10 1.724.403 936 18.068 18,88105 2 10 89.370 (936) b0 1.806,8 18,88105 93,6 39,5337 + Die gesuchte Regressionsgleichung lautet demnach yˆ k 39,5337 18,88105 xk 141 ANALYSEPHASE AUFDECKUNG VON ZUSAMMENHÄNGEN Linearen Regressionsanalyse: Schätzung der einfachen Regressionsfunktion + Die Regressionsfunktion erlaubt die Schätzung der Absatzmenge für jede Zahl von Vertreterbesuchen + Bsp.: Zahl der Vertreterbesuche 110 (Fall 7) yˆ 39.5337 18,88105 110 2.116,45 Beobachtet wurden 1.810. Das Residuum beträgt demnach e7 = -306,45 + Die Regressionsfunktion zeigt an, um wie viel sich die geschätzte Menge ändern wird, wenn die Zahl der Vertreterbesuche um eine Einheit geändert wird + In diesem Beispiel zeigt der Regressionskoeffizient b1 an, dass die geschätzte Menge um 18,88105 Einheiten zunehmen wird, wenn die Zahl der Vertreterbesuche um eine Einheit steigt 142 ANALYSEPHASE DATENAUFBEREITUNG 143 ANALYSEPHASE DATENAUFBEREITUNG 144 ANALYSEPHASE AUFDECKUNG VON ZUSAMMENHÄNGEN Linearen Regressionsanalyse: Prüfung der einfachen Regressionsfunktion + Nachdem die Regressionsfunktion geschätzt wurde, ist deren Güte zu überprüfen, d.h. es ist zu klären, wie gut sie als Modell der Realität geeignet ist + Globale Prüfung der Regressionsfunktion: ob und wie gut die abhängige Variable Y durch das Regressionsmodell erklärt wird + Prüfung der Regressionskoeffizienten (nicht behandelt): ob und wie gut einzelne Variablen des Regressionsmodells zur Erklärung der abhängigen Variablen beitragen 145 ANALYSEPHASE AUFDECKUNG VON ZUSAMMENHÄNGEN Linearen Regressionsanalyse: Prüfung der einfachen Regressionsfunktion + + Globale Prüfung der Regressionsfunktion anhand folgender Gütemaße + das Bestimmtheitsmaß (wird behandelt) + die F-Statistik (nicht behandelt) + der Standardfehler (nicht behandelt) Bestimmtheitsmaß + misst die Güte der Anpassung der Regressionsfunktion an die empirischen Daten („goodness of fit“). + die Basis hierfür bilden die Residualgrößen 146 ANALYSEPHASE AUFDECKUNG VON ZUSAMMENHÄNGEN Linearen Regressionsanalyse: Prüfung der einfachen Regressionsfunktion + Analog zu der beschriebenen Zerlegung der Gesamtabweichung einer Beobachtung gilt folgende Zerlegung der Gesamtstreuung aller Beobachtungen Gesamtstreuung = erklärte Streuung + nicht erklärte Streuung K (y k 1 K k K y ) ( yˆ k y ) ( yk yˆ k ) 2 2 2 k 1 k 1 + Auf Basis der Streuungszerlegung lässt sich das Bestimmtheitsmaß berechnen. + Es wird mit R2 bezeichnet und ergibt sich aus dem Verhältnis von erklärter Streuung zur Gesamtstreuung 149 ANALYSEPHASE AUFDECKUNG VON ZUSAMMENHÄNGEN Linearen Regressionsanalyse: Prüfung der einfachen Regressionsfunktion + Bestimmtheitsmaß K R2 ( yˆ k y)2 (y k y)2 k 1 K k 1 K oder R2 1 (y k 1 K (y k 1 + k k erklärte Streuung Gesamtstre uung yˆ k ) 2 y)2 1 nicht erklärte Streuung Gesamtstre uung Das Bestimmtheitsmaß ist eine normierte Größe, dessen Wertebereich zwischen null und eins liegt. Es ist um so größer, je höher der Anteil der erklärten Streuung an der Gesamtstreuung ist. + R2 = 1 gesamte Streuung erklärt + R2 = 0 gesamte Streuung nicht erklärt 150 ANALYSEPHASE AUFDECKUNG VON ZUSAMMENHÄNGEN Linearen Regressionsanalyse: Prüfung der einfachen Regressionsfunktion + Ergebnis R2 1 + 1.188.684,94 0,3455 1.816.255,60 Das Ergebnis besagt, dass 34,55% der gesamten Streuung auf die erklärende Variable Besuche und 65,45% auf in der Regressionsgleichung nicht erfasste Einflüsse zurückzuführen sind. 152 ANALYSEPHASE AUFDECKUNG VON ZUSAMMENHÄNGEN Linearen Regressionsanalyse: Schätzung der multiplen Regressionsfunktion + Der Verkaufsleiter ist mit einer Varianzaufklärung (vgl. Bestimmtheitsmaß) von 34.6 % gar nicht zufrieden.* + Immerhin bedeutet dies, dass er 65.4 % der Schwankungen des Absatzes auch dann nicht erklären (und beeinflussen) kann, wenn er die Vertreterbesuche berücksichtigt. + Deshalb beschließt er, daneben zwei weitere Einflussgrößen in dem Modell zu betrachten: + + den Preis der Margarine und + die Ausgaben für Verkaufsförderung Er ist davon überzeugt, dass neben den Vertreterbesuchen auch diese beiden Größen Einfluss auf den Absatz nehmen. * Peterson, Robert A., Albaum, Gerald & Beltramini, Richard F. (1985). A Meta-Analysis of Effect Sizes in Consumer Behavior Experiments, in: Journal of Consumer Research, Vol. 12 (1985), No. 1, pp. 97-103, finden, dass im Durchschnitt bei veröffentlichten, signifikanten (α = .05) emp. Ergebnissen zum Käuferverhalten zwischen 1970-1982 nur etwa 11 % der AV durch die UVs aufgeklärt wurde. 153 ANALYSEPHASE AUFDECKUNG VON ZUSAMMENHÄNGEN Linearen Regressionsanalyse: Schätzung der multiplen Regressionsfunktion + Diese Entscheidung verändert das der Regressionsanalyse zu Grunde liegende Modell: 154 ANALYSEPHASE AUFDECKUNG VON ZUSAMMENHÄNGEN Linearen Regressionsanalyse: Schätzung der multiplen Regressionsfunktion + Der Regressionsansatz hat dann folgende (allgemeine) Form Yˆ b0 b1 x1 b2 x2 ... b j x j ... bJ xJ + Auch bei der multiplen Regressionsanalyse lautet die Aufgabe, die Parameter b0, b1, b2, ..., bj so zu bestimmen, dass die Summe der Abweichungsquadrate (nicht erklärte Streuung) minimiert wird e y K k 1 2 K 2 k k 1 k (b0 b1 x1k b2 x2 k ... b j x jk ... bJ xJk ) min! 155 ANALYSEPHASE AUFDECKUNG VON ZUSAMMENHÄNGEN Linearen Regressionsanalyse: Schätzung der multiplen Regressionsfunktion + Für die weiteren Variablen ergibt sich folgendes Modell: yˆ bo b1 Besuche b2 Preis b3 Ausgaben + Die Lösung der Zielfunktion und Bestimmung der Regressionskoeffizienten führt zu einem sog. System von Normalgleichungen, dessen Lösung einen größeren Aufwand als im Fall der linearen Einfachregression verursacht. 156 ANALYSEPHASE AUFDECKUNG VON ZUSAMMENHÄNGEN Linearen Regressionsanalyse: Schätzung der multiplen Regressionsfunktion + Für die weiteren Variablen ergibt sich folgendes Modell: yˆ bo b1 Besuche b2 Preis b3 Ausgaben + Die Lösung der Zielfunktion und Bestimmung der Regressionskoeffizienten führt zu einem sog. System von Normalgleichungen, dessen Lösung einen größeren Aufwand als im Fall der linearen Einfachregression verursacht. + Auf Grundlage der Daten in der Ausgangstabelle ergibt sich folgende Regressionsfunktion yˆ 6,87 11,09 Besuche 9,93 Preis 0,66 Ausgaben 157 ANALYSEPHASE AUFDECKUNG VON ZUSAMMENHÄNGEN Linearen Regressionsanalyse: Schätzung der multiplen Regressionsfunktion + Die multiple Regressionsfunktion erlaubt erneut die Schätzung der Absatzmenge + + Bsp.: Zahl der Vertreterbesuche 110 (Fall 7) Es ergibt sich ein neuer Schätzwert für die Absatzmenge von 1.816,35. Das Residuum beträgt nur noch -6,35 Erweiterung: + Für die multiple Regressionsanalyse ist es interessant, die Einflussstärke der unabhängigen Variablen für die Erklärung der abhängigen Variablen zu erkennen + Durch Umformung der Regressionskoeffizienten kann eine direkte Vergleichbarkeit der numerischen Werte hergestellt werden 158 ANALYSEPHASE AUFDECKUNG VON ZUSAMMENHÄNGEN Linearen Regressionsanalyse: Schätzung der multiplen Regressionsfunktion + Der standardisierte Regressionskoeffizient errechnet sich wie folgt j bj + Standardabweichung von X j Standardabweichung von Y Die Schätzung der Standardabweichung erfolgt nach folgendem Ausdruck K sx + + (x k 1 k x )2 K 1 Die Standardabweichung der Variablen X und Y betragen in unserem Beispiel + sMenge = 449,228 + sBesuche = 13,986 demnach ergibt sich als Wert für Besuche 11,09 13,99 0,345 449,228 159 ANALYSEPHASE AUFDECKUNG VON ZUSAMMENHÄNGEN Linearen Regressionsanalyse: Schätzung der multiplen Regressionsfunktion + + Analog ergeben sich für die Ausgangsdaten mit zehn Beobachtungen und den drei unabhängigen Variablen + sBesuche = 13,986 + sPreis = 1,547 + sAusgaben = 544,289 Besuche 0,345 Preis 0,034 Ausgaben 0,794 Es zeigt sich, dass die Variable Besuche den höchsten unstandardisierten Regressionskoeffizienten, die Variable Ausgaben jedoch den höchsten standardisierten Regressionskoeffizienten aufweist - und damit den höchsten Erklärungsbeitrag liefert. yˆ 6,87 11,09 Besuche 9,93 Preis 0,66 Ausgaben 160 ANALYSEPHASE AUFDECKUNG VON ZUSAMMENHÄNGEN Linearen Regressionsanalyse: Prüfung der multiplen Regressionsfunktion + Bei der multiplen Regressionsfunktion ist zu überprüfen, wie gut sie als Modell der Realität geeignet ist. + Globale Prüfung der Regressionsfunktion: ob und wie gut die abhängige Variable Y durch das Regressionsmodell erklärt wird K r2 ( yˆ k 1 K (y k 1 k y)2 k y) 2 erklärte Streuung Gesamtstre uung r2 = .926 + Das Ergebnis besagt, dass 92,6% der gesamten Streuung auf die erklärenden Variablen Preis, Ausgaben für die Verkaufsförderung sowie Anzahl Vertreterbesuche und 7,4% auf in der Regressionsgleichung nicht erfasste Einflüsse zurückzuführen sind. + Durch die Berücksichtigung der weiteren Einflussgrößen hat sich das Bestimmtheitsmaß und damit die Güte der Anpassung erheblich verbessert. + Test von r2; F-Statistik H0: r2 = 0; also: keine Varianzaufklärung durch die UVs H1: r2 > 0; 161 ANALYSEPHASE AUFDECKUNG VON ZUSAMMENHÄNGEN Linearen Regressionsanalyse: Interpretation der Regressionsanalyse yˆ 6,87 11,09 Besuche 9,93 Preis 0,66 Ausgaben Besuche 0,345 Preis 0,034 Ausgaben 0,794 + Ist das Bestimmtheitsmaß r2 > 0 ? Für welche Prädiktoren gilt: βn > 0 ? + Sind die Voraussetzungen der Regressionsanalyse erfüllt? (folgt) + Sind die Vorzeichen der Regressionskoeffizienten plausibel? Welche Aussagen bzgl. des Zusammenhangs lassen sich bereits so ableiten? + Interpretation der Größe der (stand.) Regressionskoeffizienten 163 ANALYSEPHASE AUFDECKUNG VON ZUSAMMENHÄNGEN Voraussetzungen der Regressionsanalyse + Metrisches Messniveau sowohl für die abhängigen als auch für die unabhängigen Variablen. + Zwischen der abhängigen Variablen und den einzelnen unabhängigen Variablen muss jeweils eine lineare Beziehung bestehen. + Die Variablen müssen additiv verknüpft sein, d.h. der Gesamteinfluss der unabhängigen Variablen auf die abhängige Variable muss gleich der Summe der Einzeleinflüsse sein. + Es darf keine Multikollinearität vorliegen, d.h. die unabhängigen Variablen müssen untereinander unabhängig sein, dürfen also nicht miteinander korrelieren. + Die Residuen sind normalverteilt (ek ~ N(0,σ2)) 164 ANALYSEPHASE AUFDECKUNG VON ZUSAMMENHÄNGEN Grenzen der Regressionsanalyse Regressionsmodell im Regressionsmodell nicht (direkt) abbildbar sind: + intervenierende Variable AV + Interaktionen UV + Schätzer für unabhängige Variable UV + usw. UV => führt zur Kausalmodellierung 165 + + + Student´s t-Test t-Test für abhängige Stichproben Varianzanalysen (5) Daten testen III: Methoden zur Aufdeckung von Gruppenunterschieden Bildquelle: http://www.minitab.com/ 166 Literatur t-Test Bortz, Jürgen (2005). Statistik für Human- und Sozialwissenschaftler, 6. Aufl., Heidelberg: Springer, S.107-123. Fahrmeir, Ludwig, Künstler, Rita, Pigeot, Iris & Tutz, Gerhard (2004). Statistik, 5. Aufl., Berlin-Heidelberg-New York etc.: Springer, S.411-420 und S.434-473. Zöfel, Peter (2003). Statistik für Wirtschaftswissenschaftler, München-Boston-San Francisco etc: Pearson, S.87-102 und S.126-150. 167 Literatur Varianzanalyse Herrmann, Andreas & Seilheimer, Christian (2000). Varianz- und Kovarianzanalyse, in: Herrmann, Andreas & Homburg, Christian (Hg.) Marktforschung, Wiesbaden: Gabler, S. 265-294 Vertiefung: Backhaus, Klaus, Erichson, Bernd, Plinke, Wulff & Weiber, Rolf (2006). Multivariate Analysemethoden, Berlin, Heidelberg, New York: Springer, S. 119-152 Speziell zu Effektstärken und Stichprobengrößen: Bortz, Jürgen & Döring, Nicola (2003). Forschungsmethoden und -evaluation, Berlin, Heidelberg, New York: Springer, S. 603-612 168 ANALYSEPHASE GRUPPENUNTERSCHIEDE Kriterien für die Auswahl des richtigen Tests + + Es gibt drei Kriterien, die bei Tests auf signifikante Unterschiede relevant sind: + Unabhängige – abhängige Stichproben + Vergleich von zwei Stichproben – Vergleich von mehr als zwei Stichproben + Intervallskalierte, normalverteilte Werte – ordinalskalierte oder nicht normalverteilte Werte Tests bei intervallskalierten und normalverteilten Variablen + Anwendung parametrischer Tests + Hypothesen über bestimmte Parameter der Verteilung sollen getestet werden + Gehen davon aus, dass die beobachteten Stichprobendaten einer Grundgesamtheit entstammen, in der die Variablen Intervallskalenniveau und eine bestimmte Wahrscheinlichkeitsverteilung (Normalverteilung) aufweisen Anzahl der Stichproben Art der Abhängigkeit Test 2 unabhängig Student´s t-Test >2 unabhängig einfaktorielle Varianzanalyse 2 abhängig t-Test für abhängige Stichproben 169 ANALYSEPHASE GRUPPENUNTERSCHIEDE Student‘s t-Test + Situation + Fragestellung + Datenlage + Schritte des Student‘s t-Test + t-Test für gepaarte Stichproben 170 ANALYSEPHASE GRUPPENUNTERSCHIEDE Situation Der Verkaufsleiter eines Pizzaherstellers ist mit dem mengenmäßigen Absatz seiner Marke Alberta nicht zufrieden. Ein Marktforschungsinstitut wird von ihm damit beauftragt zu untersuchen, wie stark ein Sonderangebot kurzfristig den Absatz von Tiefkühlpizza der Marke Alberta steigert. Zu diesem Zweck wird in einem Ladengeschäft stichprobenartig an jeweils 10 Tagen der Absatz des Produktes bei Normalpreisen und der Absatz des Produktes bei Sonderpreisen erhoben. 171 ANALYSEPHASE GRUPPENUNTERSCHIEDE Fragestellung Im Folgenden gilt es mit geeigneten statistischen Testverfahren zu untersuchen, ob sich beide Gruppen (hier: Normalpreis G1 und Sonderpreis G2) bezüglich der abgesetzten Stückzahl an Tiefkühlpizza bei einer Ablehnungswahrscheinlichkeit von 5%, signifikant voneinander unterscheiden. Gehen Sie hierbei davon aus, dass die Werte in beiden Stichproben normalverteilt sind. Formulieren Sie zunächst die relevanten Hypothesen für das vorliegende Testproblem Erweiterung: Wählen Sie in einem zweiten Schritt ein nicht-parametrisches Prüfverfahren, um zu ermitteln, ob der Unterschied zwischen beiden Gruppen signifikant ist. 172 ANALYSEPHASE GRUPPENUNTERSCHIEDE Datenlage Normalpreis Tag Sonderpreis Absatz (Stück) 1 0 4 2 1 5 3 2 4 4 5 3 5 0 2 6 2 5 7 2 4 8 3 5 9 2 3 10 5 2 173 ANALYSEPHASE GRUPPENUNTERSCHIEDE Student‘s t-Test + Vergleich zweier unabhängiger Stichproben hinsichtlich ihrer Mittelwerte, wobei die Werte der beiden Stichproben normalverteilt sein müssen + Je nachdem, ob sich die Varianzen in den beiden Stichproben signifikant unterscheiden (Varianzheterogenität), oder nicht, gibt es zwei verschiedene Formeln für eine t-verteilte Prüfgröße t + Man berechnet zunächst die Prüfgröße s ² majo r F s ² mino r mit smajor als größere und sminor als kleinere der beiden Standardabweichungen + Die Prüfgröße F ist F-verteilt mit df = (nmajor - 1, nminor - 1) + Varianzheterogenität wird bei Signifikanz auf der Stufe p < .05 angenommen 174 ANALYSEPHASE GRUPPENUNTERSCHIEDE Student‘s t-Test + im Fall der Varianzhomogenität gilt: t + (n1 1) s1² (n 2 1) s 2² n1 n 2 2 n1n 2 n1 n 2 mit df = n1 + n2 – 2 Freiheitsgraden im Fall der Varianzheterogenität gilt: t + x1 x 2 x1 x 2 mit s1² s 2² n1 n 2 df n1 n 2 2 2 Freiheitsgraden die Nullhypothese kann nicht verworfen werden, wenn der berechnete t-Wert geringer ist als der tabellierte kritische Wert (bei gegebener Anzahl der Freiheitsgrade) 175 ANALYSEPHASE GRUPPENUNTERSCHIEDE Student‘s t-Test + + + Im Schnitt unterscheiden sich die Absatzzahlen der Tiefkühlpizza zum Normalpreis im Vergleich zu den Absatzzahlen zum Sonderpreis Es soll mit dem (Student‘s) t-Test überprüft werden, ob dieser Mittelwertsunterschied statistisch signifikant ist Nullhypothese H0 : Es besteht kein Unterschied in der Absatzzahl zwischen dem Angebot von Tiefkühlpizza zu Sonderpreisen und zu Normalpreisen (d.h. der Mittelwertsunterschied in der Stichprobe ist zufällig zustande gekommen/nicht auf die Grundgesamtheit übertragbar). Normalpreis Tag Sonderpreis Absatz (Stück) 1 0 4 2 1 5 3 2 4 4 5 3 5 0 2 6 2 5 7 2 4 8 3 5 9 2 3 10 5 2 Mittelwert 2,2 3,7 176 ANALYSEPHASE GRUPPENUNTERSCHIEDE Student‘s t-Test + Im ersten Schritt ist zu entscheiden, ob Varianzhomogenität oder Varianzheterogenität vorliegt (F-Test): 10 10 x 2,2² sG2 1 F i 1 10 x 3,7² i i s G2 2 2,76 s ² major i 1 10 1,21 s ² minor s ² majo r 2,76 = 2,28 1 , 21 s ² mino r df1 df2 + 1 2 3 4 5 6 7 8 9 10 8 5,32 4,46 4,07 3,84 3,69 3,58 3,50 3,44 3,39 3,35 9 5,12 4,26 3,86 3,63 3,48 3,37 3,29 3,23 3,18 3,14 F-Tabelle für p = .05 Wie die F-Tabelle ausweist, ist dies bei (9;9) Freiheitsgraden ein nicht signifikanter Wert; Varianzhomogenität ist also gegeben. 177 ANALYSEPHASE GRUPPENUNTERSCHIEDE Student‘s t-Test + Zweiter Schritt: Bestimmung der Prüfgröße t + Im Fall der Varianzhomogenität gilt t 2,2 3,7 100 2,38 20 9 * 2,76 9 *1,21 18 df α = .05 α = .01 18 1,734 2,552 19 1,729 2,539 t-Tabelle + Nach der t-Tabelle ist dies bei df = 10+10-2 Freiheitsgraden ein signifikanter Wert, da t > tkrit. + Die Nullhypothese kann daher verworfen werden. 178 ANALYSEPHASE DATENAUFBEREITUNG 179 ANALYSEPHASE DATENAUFBEREITUNG 180 ANALYSEPHASE GRUPPENUNTERSCHIEDE t-Test für abhängige Stichproben + Vergleich zweier abhängiger Stichproben hinsichtlich ihrer Mittelwerte, wobei die Differenzen zusammengehöriger Messwertpaare aus einer normalverteilten Grundgesamtheit stammen müssen + Prüfgröße + t d n ist t-verteilt mit df = n - 1 Freiheitsgraden s Errechnung des Mittelwerts d der Differenzen di n ∑ di d= i=1 n + + und deren Standardabweichung s die Nullhypothese kann nicht verworfen werden, wenn der berechnete t-Wert geringer ist als der tabellierte kritische Wert (bei gegebener Anzahl der Freiheitsgrade) 181 ANALYSEPHASE DATENAUFBEREITUNG 182 ANALYSEPHASE DATENAUFBEREITUNG 183 ANALYSEPHASE GRUPPENUNTERSCHIEDE Varianzanalyse + Problemstellung + Auswertung der Daten des Experimentes mittels einfaktorieller Varianzanalyse + Entwicklung des einfaktoriellen Untersuchungsdesigns + Schritte der einfaktoriellen Varianzanalyse + Voraussetzungen der Varianzanalyse + Zusammenfassung der wesentlichen Schritte 184 ANALYSEPHASE GRUPPENUNTERSCHIEDE Situation Der Leiter einer Supermarktkette möchte die Wirkung verschiedener Arten der Warenplatzierung auf die Absatzmenge überprüfen. Er wählt dazu Margarine in der Becherverpackung aus. Es stehen drei Möglichkeiten der Regalplatzierung offen: Unabhängige Variable (Faktor): Warenplatzierung I Platzierung nur im Normalregal der Frischwarenabteilung II Platzierung im Normalregal der Frischwarenabteilung und Zweitplatzierung im Fleischmarkt III Platzierung im Kühlregal der Frischwarenabteilung 185 ANALYSEPHASE GRUPPENUNTERSCHIEDE Aufgabenstellung Entwickeln Sie in einem ersten Schritt eine geeignete experimentelle Versuchsanordnung, mit deren Hilfe sich die Frage beantworten lässt, ob die unterschiedlichen Absatzergebnisse in den drei Supermärkten auf die Variation der Warenplatzierung zurückzuführen sind 186 ANALYSEPHASE GRUPPENUNTERSCHIEDE Entwicklung des einfaktoriellen Untersuchungsdesigns Aus den insgesamt vorhandenen Supermärkten werden drei weitgehend vergleichbare Supermärkte des Unternehmens ausgewählt (Quasi-Experiment). In einem Zeitraum von 5 Tagen wird in jedem der drei Supermärkte jeweils eine Form der Margarinepräsentation durchgeführt („Normalregal“, „Zweitplatzierung“ und „Kühlregal“). Die Auswirkungen der Maßnahmen werden jeweils in der Größe „kg Margarineabsatz pro 1000 Kassenvorgänge“ erfasst. Platzierung Normalregal n1 Zweitplatzierung n2 Kühlregal n3 187 ANALYSEPHASE GRUPPENUNTERSCHIEDE Entwicklung des einfaktoriellen Untersuchungsdesigns + Man erhält drei Stichproben mit jeweils genau fünf Beobachtungswerten, die Teilstichproben haben also den gleichen Umfang. Tag 1 Tag 2 Tag 3 Tag 4 Tag 5 Supermarkt 1 „Normalregal“ 47 39 40 46 45 Supermarkt 2 „Zweitplatz.“ 68 65 63 59 67 Supermarkt 3 „Kühlregal“ 59 50 51 48 53 Kg Margarineabsatz pro 1000 Kassenvorgänge in drei Supermärkten in Abhängigkeit von der Platzierung 188 ANALYSEPHASE GRUPPENUNTERSCHIEDE Schritte der einfaktoriellen Varianzanalyse + Mittelwerte des Margarineabsatzes in den drei Supermärkten Mittelwert pro Supermarkt Supermarkt 1 „Normalregal“ y1 =43,4 Supermarkt 2 „Zweitplatz.“ y2 =64,4 Supermarkt 3 „Kühlregal“ y3 =52,2 Gesamtmittelwert y = 53,33 Folgende Notationen werden eingeführt: y = Beobachtungswert mit gk g = Kennzeichnung einer Faktorstufe als Ausprägung einer unabhängigen Variablen (g = 1, 2 ...,G) k = Kennzeichnung des Beobachtungswertes innerhalb einer Faktorstufe (k= 1, 2 ..., K) = Mittelwert der Beobachtungswerte einer Faktorstufe yg = Gesamtmittelwert aller Beobachtungswerte y 189 ANALYSEPHASE GRUPPENUNTERSCHIEDE Schritte der einfaktoriellen Varianzanalyse + Die Fragestellung der einfaktoriellen Varianzanalyse lautet: Hat die Warenplatzierung einen Einfluss auf den Absatz? + Grundprinzip der Varianzanalyse (Streuungszerlegung): + die dargestellte Analyse basiert auf folgendem Grundmodell der einfachen Varianzanalyse y gk g gk g gk Gesamtmittelwert der Grundgesamtheit, Schätzer= Wirkung der Stufe g des Faktors, die sich durch Abweichung vom Gesamtmittelwert der Grundgesamtheit bemerkbar macht, Schätzer= y yg y nicht erklärte Einfluss der Zufallsgrößen in der Grundgesamtheit 190 ANALYSEPHASE GRUPPENUNTERSCHIEDE Schritte der einfaktoriellen Varianzanalyse + Grundprinzip der Varianzanalyse (Streuungszerlegung): + Der Prognosewert für den Margarineabsatz, wenn kein Einfluss der Warenplatzierung vorhanden wäre, ist y . + Nimmt man einen Einfluss der Warenplatzierung auf den Absatz an, dann ist der Prognosewert für den Margarineabsatz je nach Art der Platzierung y1 , y 2 oder y3 . + Die Abweichungen vom Prognosewert ( y gk - y g ) sind auf zufällige äußere Einflüsse zurückzuführen und somit nicht erklärt. 191 ANALYSEPHASE GRUPPENUNTERSCHIEDE Schritte der einfaktoriellen Varianzanalyse + Grundprinzip der Varianzanalyse: 192 ANALYSEPHASE GRUPPENUNTERSCHIEDE Schritte der einfaktoriellen Varianzanalyse + Grundprinzip der Varianzanalyse GesamtErklärte abweichung Abweichung Summe der qua- = Summe der quadrierten Gesamtdrierten Abweiabweichung chungen zwischen den Faktorstufen G K ( y gk y )2 g 1k 1 SSt(otal) = = Nicht erklärte Abweichung + Summe der quadrierten Abweichungen innerhalb der Faktorstufen G K ( y g y )2 g 1 SSb(etween) . + + G K ( y gk y g )2 g 1k 1 SSw(ithin) 193 ANALYSEPHASE GRUPPENUNTERSCHIEDE Schritte der einfaktoriellen Varianzanalyse + Ermittlung der Abweichungsquadrate: SSt SSb SSw G K ( y gk y ) 2 g 1k 1 G K ( y g y) 2 g 1 G K ( y gk y g ) 2 g 1k 1 Normal- (47-53,33)2= 40,11 (43,4-53,33)2= 98,67 (47-43,4)2= 12,96 regal +(39-53,33)2= 205,44 +(43,4-53,33)2= 98,67 +(39-43,4)2= 19,36 +(40-53,33)2= 177,78 +(43,4-53,33)2= 98,67 +(40-43,4)2= 11,56 +(46-53,33)2= 53,78 +(43,4-53,33)2= 98,67 +(46-43,4)2= 6,76 +(45-53,33)2= 69,44 +(43,4-53,33)2= 98,67 +(45-43,4)2= 2,56 (68-53,33)2= 215,11 (64,4-53,33)2= 122,47 (68-64,4)2= 12,96 +(64,4-53,33)2= 122,47 +(65-64,4)2= 0,36 +(63-53,33)2= 93,44 +(64,4-53,33)2= 122,47 +(63-64,4)2= 1,96 +(59-53,33)2= 32,11 +(64,4-53,33)2= 122,47 +(59-64,4)2= 29,16 +(67-53,33)2= 186,78 +(64,4-53,33)2= 122,47 +(67-64,4)2= 6,76 (52,2-53,33)2= 1,28 (59-52,2)2= 46,24 +(50-53,33)2= 11,11 +(52,2-53,33)2= 1,28 +(50-52,2)2= 4,84 +(51-53,33)2= 5,44 +(52,2-53,33)2= 1,28 +(51-52,2)2= 1,44 +(48-53,33)2= 28,44 +(52,2-53,33)2= 1,28 +(48-52,2)2= 17,64 +(53-53,33)2= 0,11 +(52,2-53,33)2= 1,28 +(53-52,2)2= 0,64 SSt= 1287,33 SSb= 1112,13 SSw= 175,20 Zweit- platzierung +(65-53,33)2= 136,11 Kühlregal (59-53,33)2= 32,11 194 ANALYSEPHASE GRUPPENUNTERSCHIEDE Schritte der einfaktoriellen Varianzanalyse + Ermittlung der Varianzen: SS Zahl der Beobachtungen 1 + Varianz = + Mittlere quadratische (Gesamt-) Abweichung MSt = + SSt = G * K 1 1287,33 91,95 15 1 Mittlere quadratische Abweichung zwischen den Faktorstufen SSb 1112,13 556,07 = G 1 3 1 + Mittlere quadratische Abweichung innerhalb der Faktorstufen MSb = MSw = SSw = G * ( K 1) 175,20 14,60 3(5 1) 195 ANALYSEPHASE GRUPPENUNTERSCHIEDE Schritte der einfaktoriellen Varianzanalyse + Statistische Prüfung des Einflusses des Faktors (Waren-platzierung) auf die abhängige Variable (Margarineabsatz): + Ausgangspunkt der Prüfung ist die Nullhypothese (H0): „Es bestehen bezüglich des Margarineabsatzes keine Unterschiede in der Wirkung durch die Art der Warenplatzierung.“ H0: 1 2 3 0 + Die Alternativhypothese H1 lautet: „Es besteht bezüglich des Margarineabsatzes ein Unterschied in den Wirkungen alternativer Arten der Warenplatzierung.“ H1: 0 196 ANALYSEPHASE GRUPPENUNTERSCHIEDE Schritte der einfaktoriellen Varianzanalyse + + Es werden MSb und MSw in folgende Beziehung gesetzt Femp = MS B MSW Femp = 556,07 38,09 14,6 mit Femp = empirischer F-Wert + + + Die Prüfung erfolgt anhand eines Vergleichs des empirischen F-Wertes mit dem theoretischen F-Wert lt. Tabelle. + Die Tabelle der theoretischen F-Werte zeigt für jeweilige Vertrauenswahrscheinlichkeit einen Prüfwert. + Seine Höhe hängt von der Zahl der Freiheitsgrade (df) im Zähler (Spalten der Tabelle) und der Zahl der Freiheitsgrade im Nenner (Zeilen der Tabelle) ab. 197 ANALYSEPHASE GRUPPENUNTERSCHIEDE Schritte der einfaktoriellen Varianzanalyse + Das Signifikanzniveau von 1% und df = 2 im Zähler und df = 12 im Nenner führt zu einem theoretischen F-Wert von 6,93. Freiheitsgrade des Zählers + + Freiheitsgrade des Nenners 1 2 11 9,65 7,21 12 9,33 6,93 Empirischer und theoretischer F-Wert werden verglichen. Ist der empirische Wert größer als der theoretische, dann kann die Nullhypothese verworfen werden. + wenn: Femp. > Ftheo. H0 ist zu verwerfen + hier: 38,09 > 6,93 H0 ist zu verwerfen D.h. mit einer Vertrauenswahrscheinlichkeit von 99% kann der Schluss gezogen werden, dass die Platzierungsarten einen unterschiedlichen Einfluss auf die Absatzmenge haben. 198 ANALYSEPHASE DATENAUFBEREITUNG 199 ANALYSEPHASE DATENAUFBEREITUNG 200 ANALYSEPHASE DATENAUFBEREITUNG 201 ANALYSEPHASE GRUPPENUNTERSCHIEDE Voraussetzungen der Varianzanalyse + Formulierung einer Hypothese über den Wirkungszusammenhang der unabhängigen und der abhängigen Variablen. + Unabhängige Daten können auf nominalen, abhängige müssen auf metrischen Skalenniveau erhoben werden. + Die Restgrößen wirken sich bis auf zufällige Schwankungen in allen Stichprobenzellen gleich aus (sog. Varianzhomogenität). + Die Werte in der Grundgesamtheit sind normalverteilt. + Die Additivität der Einflussgrößen, d.h. der Einfluss eines Faktors auf die Ergebnisvariable ist unabhängig vom Einfluss weiterer Faktoren oder auch Restgrößen. + Strukturgleichheit, d.h. die in die Untersuchung gelangten Teilstich-proben haben die gleiche Struktur der absatzbeeinflussenden Größen wie die Grundgesamtheit. 206 MARKET RESEARCH PLAN DER VERANSTALTUNG + EINFÜHRUNG IN DIE VERANSTALTUNG + WAS IST MARKET RESEARCH – UND (WOZU) BRAUCHE ICH DAS? + DATEN SAMMELN + + Definitionsphase, Designphase, Feldphase: Wo die Fragen und Daten herkommen? DR. JAN RUTENBERG Leiter Kundenmanagement & Marktforschung sowie Regal- & Flächenmanagement + DATEN AUSWERTEN + + Analysephase: Wie kommt man von Daten zu Ergebnissen? INSIGHTS GENERIEREN UND KOMMUNIZIEREN + Kommunikationsphase: Wie werden aus Ergebnissen „Insights“? 207 INSIGHTS GENERIEREN UND KOMMUNIZIEREN 208 MARKET RESEARCH …IST AUCH EIN PROZESS Definitionsphase • Formulierung des Forschungsproblems • Bestimmung der Erhebungsziele • Desk Research Vorbereitung Designphase • Informationsquellen (Primär-/Sekundärerhebung) • Messinstrumente/Operationalisierung • Grobplanung der Datenauswertung • Erhebungseinheiten (Voll-/Teilerhebung, Stichprobenumfang) • Arbeits-, Zeit- und Kostenplanung • Pre-Tests Feldphase Im Feld • Durchführung • Kontrolle und Dokumentation der Datenerhebung • Eingreifen vs. Standardisierung Analysephase Nachbereitung • Vorbereitung der Datenauswertung (Digitalisierung, Kodierung, Logikchecks) • Auswertung und Interpretation Kommunikationsphase • Forschungsbericht • Präsentation 209 Ergebnisse berichten Bildquelle: http://www.portaltideelbe.de/ 210 KOMMUNIKATIONSPHASE ERGEBNISSE BERICHTEN Regeln für die Ergebnispräsentation + Wissenschaftliche Arbeiten haben unter Beachtung von fach- und disziplinspezifischen Regeln nach dem neuesten Stand der Forschung durchgeführt zu werden. Dies setzt voraus, dass man sich vor Beginn der wissenschaftlichen Untersuchung die notwendigen methodischen und theoretischen Fähigkeiten aneignet. + In Publikationen, Vorträgen, Präsentationen von Ergebnissen anderer Art sowie Gutachten und Auftragsforschung sind wirtschaftliche und andere Interessenkonflikte offen zu legen. + Ab 24 Folien pro Sekunde ist es ein Film. Als Faustregel kann gelten: 2-3 Minuten pro Folie. + Ihr Publikum liest Ihre Ergebnisse zum ersten Mal. Zudem sind Sie meist viel tiefer in der Materie als Ihr Zielpublikum. Leiten Sie den Leser also durch den Text. Uns lassen Sie ihm ein wenig Zeit, alle Informationen auch aufzunehmen. + PPPPP 211 KOMMUNIKATIONSPHASE ERGEBNISSE BERICHTEN Wichtige Bestandteile + Abstract/Kurzzusammenfassung mit den wichtigsten Ergebnissen + Management Summary zusätzlich mit den wichtigsten Informationen für die Praxis + Hintergrund/Hinführung zum Thema, in der die Fragestellung in die Forschung eingeordnet wird und deren Relevanz dargelegt wird + Stand der Forschung und theoretische Grundlagen: Was wissen wir zu der Frage aus der Literatur? Was ist noch unbekannt? Und welche Vermutungen kann man aus der Theorie dazu aufstellen (Begründung!)? + Methoden, Organisation und Ablauf, sowie die Resultate wissenschaftlicher Forschungstätigkeit sind zu dokumentieren, zu sichern und aufzubewahren! + Ergebnisse + Diskussion der Ergebnisse + Fazit, Implikationen für Forschung und Praxis sowie Limitationen 212 VIELEN DANK UND VIEL ERFOLG BEI DER KLAUSUR 213