Datenanalyseprojekt 3 Stephan Becker 0205472 Nimmt Werbung in Zeitschriften auf das Bildungsniveau der Leser Rücksicht? Datenquelle: Eine US-Studie hat 30 Zeitschriften ausgewählt um zu untersuchen ob sie dem Bildungsniveau ihrer Leser entsprechen. Dazu sind die Zeitschriften in drei Kategorien nach dem Bildungsniveau ihrer Leser eingeteilt worden. Die erste Gruppe enthält die Zeitschriften mit den bestgebildeten Lesern, Gruppe 2 jene mit Lesern mittleren Bildungsniveaus. In Gruppe 3 wurden die Zeitschriften zusammengefasst, die Leser des untersten Bildungsniveaus ansprechen sollen. In der Analyse wurden Zeitschriften, die das höchste Bildungsniveau ansprechen (Gruppe 1), jenen gegenübergestellt, die als Zielgruppe Leser mit dem vergleichsweise niedrigsten Bildungsniveau haben (Gruppe 3). Aus jeder Gruppe wurden drei Zeitschriften zufällig ausgewählt. Für Gruppe 1 waren das „Scientific American“, „Fortune“ und „The New Yorker Group“. Aus Gruppe 3 wurden „National Enquirer“, „Grit“ und „True Confessions“ zum Vergleich herangezogen. Um die Niveaus der Zeitschriften vergleichen zu können, haben sich die Studienautoren entschieden aus jeder der insgesamt sechs Magazine, drei Werbeeinschaltungen zufällig auszuwählen. Die Annoncen wurden nach verschiedenen Kriterien untersucht (Zahl der verwendeten Wörter, Zahl der Sätze, Zahl der Wörter mit mindestens drei Silben). Erklärung der verwendeten Begriffe • Mittelwert x = „Durchschnittswert“ • Das 95 % Konfidenzintervall definiert durch Obergrenze und Untergrenze einen Bereiche, der 95 % aller Wert enthält. • 5 % getrimmtes Mittel: Die 5 % kleinsten und die 5 % größten Wert werden von der Berechnung ausgeschlossen. Das kann sinnvoll sein um den Einfluss extremer Werte zu reduzieren. • x ist eine Zahl, so dass mindestens die Hälfte der Daten kleiner oder Der Median ~ gleich und mindestens die Hälfte der Daten größer oder gleich sind. • Die Varianz s2 ist ein Maß für die Streuung einer Liste um den Mittelwert. • Die Standardabweichung s misst die durchschnittliche Abweichung vom Mittelwert. • Minimum – kleinster Wer • Maximum – größter Wert • Spannweite = Maximum – Minimum • Der Interquartilbereich gibt den Abstand zwischen dem 0,25- und dem 0,75-Quartil an. 1 Datenanalyseprojekt 3 Stephan Becker 0205472 • Schiefe: Durch die Schiffekoeffizienten wird angegeben wie weit sich die Verteilung von Daten von einer symmetrischen Verteilung unterscheidet. Eine rechtsschiefe Verteilung klingt links ihres Modularwerts schneller ab als rechts. Eine linksschiefe Verteilung klingt rechts ihres Modularwerts schneller ab als links. Wenn die Schiefkoeffizienten postiv sind , deutet dies auf eine Rechtsschiefe hin. Bei negativen Schiffekoeffizienten sprechen wir von einer Linksschiefe. • Kurtosis ist ein Maß für die Art der Verteilung an den Rändern. Verteilungen mit stark ausgeprägten Rändern (hohen Seitenwerten) werden "leptokurtic" genannt, wie z.B. die t-Verteilung. Verteilungen mit wenig ausgeprägten Seiten heißen "platykurtic." Eine Verteilung, die dieselbe Kurtosis wie die Normalverteilung aufweist, wird "mesokurtic" genannt. 1. Aufgabenstellung Betrachten Sie die Variable 3SYL. Erstellen Sie eine explorative Datenanalyse. Erzeugen Sie dazu Boxplots für jede Niveaustufe bzw. Zeitschrift und berechnen Sie geeignete Maßzahlen. Interpretieren Sie die Ergebnisse. Gibt es große Unterschiede zwischen den Zeitschriften? Ist ein Zusammenhang zwischen Niveau d. Zeitschrift und der untersuchten Variablen zu erkennen? 1.1 Magazin 50 40 30 20 10 14 13 SY L3 22 29 0 -10 N= 6 6 6 6 6 6 1 2 3 4 5 6 MAG 2 Datenanalyseprojekt 3 Stephan Becker 0205472 Univariate Statistiken SYL 3 MA G 1 2 3 4 5 6 Mittelw ert Media n Varian zStandardabweic hung Minim um Maxim um Spannwei te Mittelw ert Media n Varian zStandardabweic hung Minim um Maxim um Spannwei te Mittelw ert Media n Varian zStandardabweic hung Minim um Maxim um Spannwei te Mittelw ert Media n Varian zStandardabweic hung Minim um Maxim um Spannwei te Mittelw ert Media n Varian zStandardabweic hung Minim um Maxim um Spannwei te Mittelw ert Media n Varian zStandardabweic hung Minim um Maxim um Spannwei te Statist ik 26,1 7 27,5 0 98,96 7 9,9 5 10 37 27 22,1 7 17,5 0 119,76 7 10,9 4 10 39 29 6,0 0 6,0 0 5,20 02,2 8 3 10 7 10,0 0 10,0 0 18,00 0 4,2 4 3 16 13 9,3 3 10,5 0 18,66 7 4,3 2 1 13 12 23,5 0 19,5 0 145,10 0 12,0 5 13 Standar dfehle r 4,0 6 Gruppe 1 (hohe Bildung): Mag 1 = „Scientific America“ Mag 2 = „Fortune” Mag 3 = „New Yorker Group“ 4,4 7 ,93 1,7 3 Gruppe 3 (niedrige Bildung): Mag 4 = „National Enquirer“ Mag 5 = „Grit“ Mag 6 = „True Confession“ 1,7 6 4,9 2 43 30 Die Erwartungshaltung, dass ein höheres Bildungsniveau eine höhere Anzahl an mehrsilbigen Worten bedeutet, wird bei vier der sechs Magazine bestätigt. Die Magazine „The New Yorker Group“ (Magazin 3 aus Gruppe 1) und „True Confession“ (Magazin 6 aus Gruppe 3) verhalten sich allerdings sowohl gegen den jeweiligen Gruppentrend als auch gegen die Erwartungshaltung. ad Gruppe 1 Die Mittelwerte der Magazine 1 („Scientific America“; x =26,1) und 2 („Fortune“; x =22,1) sind, wie zu erwarten war, relativ hoch. Der „Ausreißer“ in Gruppe 1 - das Magazin 3, „The New Yorker Group“ – hat dagegen nur einen Mittelwert von x =6,0. Ein ähnliches Bild ergibt sich auch bei anderen Werten: Bei Varianz (Mag 1/2: 98 bzw. 119, Mag 3: 5,2), Spannweite (Mag 1/2: 29 bzw 27; Mag 3: 7), Interquartilsbereich (Mag 1/2: 16,50 bzw. 18,50; Mag 3: 2,50) oder Kurtosis (Mag 1/2: -0,23 bzw. –0,722; Mag 3: 2,5) zeigen sich große Unterschiede zwischen „Scientific America“ und „Fortune“ auf der einen und „The New Yorker Group“ auf der anderen Seite. 3 Datenanalyseprojekt 3 Stephan Becker 0205472 Die hohen Varianzwerte von „Scientific America“ und „Fortune“ lassen auf eine unterschiedliche Struktur der Werbeeinschaltungen schließen. Offenbar gibt es auch in diesen Magazin Annoncen mit nur wenigen mehrsilbigen Worten. Ihnen stehen jedoch Werbeeinschaltungen mit vielen mehrsilbigen Worten gegenüber. Diese heben den Mittelwert. Im Gruppenübergreifenden Vergleich liegen die Werte der „New Yorker Group“ näher an der Gruppe 3 (unteres Bildungsniveau) als an den Werten der ersten Gruppe (höchstes Bildungsniveau). ad Gruppe 3 Auch in Gruppe 3 gibt es mit „True Confession“ einen Ausreißer, dessen Werte sich anders verhalten als jene der Magazine 4, „National Enquirer“, und 5, „Grit“. Die „True Confession“-Werte liegen wiederum sehr nahe an den Zahlen der Gruppe-1Zeitschriften „Scientific America“ und „Fortune“. 1.2 Gruppe Univariate Statistiken SYL3 GRUPPE 1 3 Statistik 18,11 17,00 146,340 12,10 3 39 36 14,28 12,00 98,565 9,93 1 43 42 Mittelwert Median Varianz Standardabweichung Minimum Maximum Spannweite Mittelwert Median Varianz Standardabweichung Minimum Maximum Spannweite 4 Standardf ehler 2,85 2,34 Datenanalyseprojekt 3 Stephan Becker 0205472 50 31 40 34 30 35 20 10 29 0 S YL -10 3 N= 18 18 1 3 GRUPPE Die Ausreißer - „The New Yorker Group“ und „True Confession“ - schlagen sich nur leicht auf die Gruppengesamtwertung durch. Es bestätigt sich - wenn auch nicht so eindeutig wie vermutet -, dass Magazine für besser gebildetes Publikum in Werbeeinschaltungen mehrsilbige Worte häufiger verwenden als Zeitschriften für Leser der unteren Bildungsschichen. Die großen Gruppeninternen Unterschiede (entstanden durch die Ausreißer) zeigen sich in der Varianz. Sie ist in beiden Gruppen sehr hoch. Fazit: Durch diese Analyse kann noch nicht eindeutig festgestellt werden, ob durch die Anzahl der mehrsilbigen Worte in Werbeinschaltungen auf das Bildungsniveau der Leserschaft geschlossen werden darf. 2. Aufgabenstellung Ist ein Unterschied der zwei Niveaugruppen hinsichtlich der betrachteten Variablen feststellbar? Führen Sie dazu einen formalen statistischen Test zum Niveau α = 0.05 durch. Erklären Sie das Ergebnis. Besprechen Sie dabei auch kurz das Konzept des Fehlers erster und zweiter Art und kommentieren Sie die Methode der Stichprobenauswahl. Gruppenstatistiken SYL3 GRUPPE 1 3 N 18 18 Mittelwert 18,11 14,28 Standardab weichung 12,10 9,93 5 Standardfe hler des Mittelwertes 2,85 2,34 Datenanalyseprojekt 3 Stephan Becker 0205472 Test bei unabhängigen Stichproben Levene-Test der Varianzgleichheit SYL3 Varianzen sind gleich Varianzen sind nicht gleich F 2,591 Signifikanz ,117 T-Test für die Mittelwertgleichheit T 1,039 34 Sig. (2-seitig) ,306 Mittlere Differenz 3,83 32,754 ,306 3,83 df 1,039 Standardfehle r der Differenz 3,69 3,69 95% Konfidenzintervall der Differenz Untere Obere -3,66 11,33 -3,67 Statistische Tests – die mit einem bestimmten Signifikantsniveau durchgeführt werden (hier: α=0,05 ) – führen zur Nullhypothese H0 und zur Alternativhypothese H1. Bei Tests reichen aber die vorliegenden Daten nicht immer aus, um sich mit Sicherheit für eine der beiden Hypothesen zu entscheiden. Es können zwei Arten von Fehlentscheidungen auftreten: ein fälschliches Ablehnen der Nullhypothese ( Fehler erster Art) oder ein fälschliches Annehmen der Nullhypothese ( Fehler zweiter Art). Die Wahrscheinlichkeit für einen Fehler erster Art nennt man Signifikanzniveau eines Tests. Wenn das Ergebnis der Signifikanz größer ist als das gegebene Signifikanzniveau, das untersucht und verglichen werden soll, kann man die Nullhypothese verwenden. Wichtig ist, dass das Signifikanzniveau vor dem Sammeln der Daten festgelegt wird. So soll sicher gestellt werden, dass die Signifikanz unabhängig von den konkret vorliegenden Daten ist. Unser Fall: Nullhypothese = die Anzahl der 3-silbigen Worte ist in jedem Niveau gleich Alternativhypothese ≠ die Anzahl der 3-silbigen Worte ist in jedem Niveau gleich Signifikanz 0,117 > Signifikantsniveau 0,05 Die Nullhypothese, dass die Anzahl der 3-silbigen Worte in jedem Niveau gleich ist, wird bestätigt. 3. Aufgabenstellung Ist die betrachtete Variable eine sinnvolle Maßzahl für die Einfachheit des Anzeigentextes? Betrachten Sie alternativ die Variable „mittlere Satzlänge“ (Zahl der verwendeten Wörter/ Zahl der Sätze) und führen Sie obige Auswertungsschritte nochmals mit der neuen Variablen durch. Kommentieren Sie die Ergebnisse. Statt der Variablen 3SYL wird jetzt die mittlere Satzlänge (MSL) betrachtet. MSL = Zahl der verwendeten Wörter / Zahl der Sätze Mit der Variablen MSL werden die selben Schritte wie mit 3SYL durchlaufen. Es entsteht also eine neue neue explorative Datenanalyse. 6 11,34 Datenanalyseprojekt 3 Stephan Becker 0205472 1.1 Magazin Univariate Statistiken M.SATZL MAG 1 2 3 4 5 6 Statistik 14,87 13,69 18,999 4,36 * * * 11,71 11,45 30,539 5,53 6 * * 7,24 7,50 2,766 1,66 5 * 5 7,62 7,86 7,510 2,74 4 * 8 9,26 7,09 21,872 4,68 6 * * 9,53 10,25 4,700 2,17 7 * 5 Mittelwert Median Varianz Standardabweichung Minimum Maximum Spannweite Mittelwert Median Varianz Standardabweichung Minimum Maximum Spannweite Mittelwert Median Varianz Standardabweichung Minimum Maximum Spannweite Mittelwert Median Varianz Standardabweichung Minimum Maximum Spannweite Mittelwert Median Varianz Standardabweichung Minimum Maximum Spannweite Mittelwert Median Varianz Standardabweichung Minimum Maximum Spannweite 7 Standardf ehler 1,78 Gruppe 1 (hohe Bildung): Mag 1 = „Scientific America“ Mag 2 = „Fortune” Mag 3 = „New Yorker Group“ 2,26 ,68 1,12 1,91 ,89 Gruppe 3 (niedrige Bildung): Mag 4 = „National Enquirer“ Mag 5 = „Grit“ Mag 6 = „True Confession“ Datenanalyseprojekt 3 Stephan Becker 0205472 30 1 20 10 M. SA TZ L 0 N= 6 6 6 6 6 6 1 2 3 4 5 6 MAG In den verglichenen Magazinen unterscheiden sich die mittleren Satzlängen nicht all zu sehr von einander. In der ersten Gruppe (Magazine 1 – 3, also „Scientific America“, „Fortune” und „New Yorker Group“) weicht wieder Magazin 3, „The New Yorker Group“, von den anderen beiden ab. Die Abweichung ist aber weit weniger groß als in der vorangegangenen Analyse. Der zweite Ausreißer aus der ersten Analyse, die Zeitschrift „True Confession“ aus Gruppe 3, liegt hier ebenfalls näher an den Werte der anderen Zeitschriften für Leser mit niedrigerem Bildungsniveau. Auch der Unterschied zwischen den Gruppen ist bei der mittleren Satzlänge kleiner, als bei den mehrsilbigen Worten. Auffallend groß ist die Varianz – wie in der ersten Analyse – bei „Scientific America“ und „Fortune“. Anders bei der Zeitschrift „Grit“: War die Varianz in der ersten Analyse niedrig, hat das Magazin hier die zweit höchste Varianz (21,8) hinter „Fortune“ (30,5) und noch vor „Scientific America (mit einer Varianz von 19). Bei den übrigen Magazinen liegt die Varianz mit Werten zwischen 2,7 und 4,7 relativ niedrig. 8 Datenanalyseprojekt 3 Stephan Becker 0205472 1.2 Gruppe Univariate Statistiken GRUPPE M.SATZL 1 Mittelwert Median Varianz Standardabweichung Minimum Maximum Spannweite 3 Mittelwert Median Varianz Standardabweichung Minimum Maximum Spannweite Statistik 11,27 9,98 25,772 5,08 5 * * 8,80 8,00 10,779 3,28 4 * * 30 20 10 M. SA TZ L 0 N= 18 18 1 3 GRUPPE 9 Standardf ehler 1,20 ,77 Datenanalyseprojekt 3 Stephan Becker 0205472 In der Gesamtwertung nähern sich die Werte wieder jenen aus der ersten Analyse an. Die Sätze der Gruppe-1-Magazine sind im Mittel um 22 % länger (der Unterschied der im Mittel verwendeten mehrsilbigen Worte betrug 21 %). Ein großer Unterschied zwischen den Gruppen zeigt sich beim Vergleich der Varianzen. Das Maß für die mittlere Abweichung ist in Gruppe 1 um 58 % höher als in Gruppe 3. Die Schiefe (wie weit sich die Verteilungen von einer symmetrischen Verteilung unterscheiden) ist dagegen wieder sehr ähnlich: 0,705 (Gruppe 1) zu 0,657 (Gruppe 2). Hier gibt es also in beiden Fällen eine leichte rechtsschiefe (das heißt, die Verteilung fällt links ihres Modularwerts schneller ab als rechts). 1.3 Signifikantstest Gruppenstatistiken WDSSEN Bildungsniveau bestgebildeten Leser schlechtest gebildete Zielpublikum 18 Mittelwert 11,2736 Standardab weichung 5,0766 18 8,7881 3,2877 N Standardfe hler des Mittelwertes 1,1966 ,7749 Test bei unabhängigen Stichproben Levene-Test der Varianzgleichheit WDSSEN Varianzen sind gleich Varianzen sind nicht gleich F 4,164 Signifikanz ,049 T-Test für die Mittelwertgleichheit T 1,744 1,744 df 34 Sig. (2-seitig) ,090 29,127 ,092 Mittlere Standardfehle Differenz r der Differenz 2,4856 1,4256 2,4856 1,4256 95% Konfidenzintervall der Differenz Untere Obere -,4116 5,3827 -,4295 5,4006 Interessant ist die Aussage des Signifikanztests bei der mittleren Satzlänge. Die Signifikanz 0,049 ist hier kleiner als das Signifikanzniveau 0,05. Damit kann die Alternativhypothese verwendet werden. Das bedeutet, dass es diesem Test zu folge keine Unterschiede zwischen der mittleren Satzlänge bei Niveau 1 und Niveau 3 gibt. Der Boxplot zeigt aber teilweise recht deutliche Unterschiede. Der Schluss daraus: Die Analyse der mittleren Satzlänge führt zu keinem zufriedenstellenden Ergebnis. Die Unterschiede zwischen den einzelnen Niveaugruppen werden nicht eindeutig beschrieben. Im allgemeinen haben wir somit gesehen, dass nicht jede Variable geeignet ist, um eine sinnvolle Aussage über eine Studie zu erhalten. Es ist also wichtig möglichst viele verschiedene Hypothesen aufzustellen und sie auch genau zu analysieren um die wahre Aussage einer Studie zu erkennen. 4. Aufgabenstellung Diskutieren Sie kurz, welche Variable die Einfachheit/Komplexität eines Anzeigentextes besser misst. Zu einem besseren Ergebnis könnte die Zahl der verwendeten Worte führen. Nicht in dieser Untersuchung berücksichtigt, aber möglicherweise dennoch eine gute Maßzahl wäre die Zahl der verwendeten Fremdwörter. 10