Datenanalyseprojekt_.. - AG-BWZ

Werbung
Datenanalyseprojekt 3
Stephan Becker 0205472
Nimmt Werbung in Zeitschriften auf das
Bildungsniveau der Leser Rücksicht?
Datenquelle:
Eine US-Studie hat 30 Zeitschriften ausgewählt um zu untersuchen ob sie dem
Bildungsniveau ihrer Leser entsprechen. Dazu sind die Zeitschriften in drei Kategorien nach
dem Bildungsniveau ihrer Leser eingeteilt worden. Die erste Gruppe enthält die Zeitschriften
mit den bestgebildeten Lesern, Gruppe 2 jene mit Lesern mittleren Bildungsniveaus. In
Gruppe 3 wurden die Zeitschriften zusammengefasst, die Leser des untersten Bildungsniveaus
ansprechen sollen.
In der Analyse wurden Zeitschriften, die das höchste Bildungsniveau ansprechen (Gruppe 1),
jenen gegenübergestellt, die als Zielgruppe Leser mit dem vergleichsweise niedrigsten
Bildungsniveau haben (Gruppe 3). Aus jeder Gruppe wurden drei Zeitschriften zufällig
ausgewählt. Für Gruppe 1 waren das „Scientific American“, „Fortune“ und „The New Yorker
Group“. Aus Gruppe 3 wurden „National Enquirer“, „Grit“ und „True Confessions“ zum
Vergleich herangezogen.
Um die Niveaus der Zeitschriften vergleichen zu können, haben sich die Studienautoren
entschieden aus jeder der insgesamt sechs Magazine, drei Werbeeinschaltungen zufällig
auszuwählen. Die Annoncen wurden nach verschiedenen Kriterien untersucht (Zahl der
verwendeten Wörter, Zahl der Sätze, Zahl der Wörter mit mindestens drei Silben).
Erklärung der verwendeten Begriffe
•
Mittelwert x = „Durchschnittswert“
•
Das 95 % Konfidenzintervall definiert durch Obergrenze und Untergrenze einen
Bereiche, der 95 % aller Wert enthält.
•
5 % getrimmtes Mittel: Die 5 % kleinsten und die 5 % größten Wert werden von der
Berechnung ausgeschlossen. Das kann sinnvoll sein um den Einfluss extremer Werte
zu reduzieren.
•
x ist eine Zahl, so dass mindestens die Hälfte der Daten kleiner oder
Der Median ~
gleich und mindestens die Hälfte der Daten größer oder gleich sind.
•
Die Varianz s2 ist ein Maß für die Streuung einer Liste um den Mittelwert.
•
Die Standardabweichung s misst die durchschnittliche Abweichung vom Mittelwert.
•
Minimum – kleinster Wer
•
Maximum – größter Wert
•
Spannweite = Maximum – Minimum
•
Der Interquartilbereich gibt den Abstand zwischen dem 0,25- und dem 0,75-Quartil
an.
1
Datenanalyseprojekt 3
Stephan Becker 0205472
•
Schiefe: Durch die Schiffekoeffizienten wird angegeben wie weit sich die Verteilung
von Daten von einer symmetrischen Verteilung unterscheidet. Eine rechtsschiefe
Verteilung klingt links ihres Modularwerts schneller ab als rechts. Eine linksschiefe
Verteilung klingt rechts ihres Modularwerts schneller ab als links. Wenn die
Schiefkoeffizienten postiv sind , deutet dies auf eine Rechtsschiefe hin. Bei negativen
Schiffekoeffizienten sprechen wir von einer Linksschiefe.
•
Kurtosis ist ein Maß für die Art der Verteilung an den Rändern. Verteilungen mit
stark ausgeprägten Rändern (hohen Seitenwerten) werden "leptokurtic" genannt, wie
z.B. die t-Verteilung. Verteilungen mit wenig ausgeprägten Seiten heißen
"platykurtic." Eine Verteilung, die dieselbe Kurtosis wie die Normalverteilung
aufweist, wird "mesokurtic" genannt.
1. Aufgabenstellung
Betrachten Sie die Variable 3SYL. Erstellen Sie eine explorative Datenanalyse. Erzeugen Sie
dazu Boxplots für jede Niveaustufe bzw. Zeitschrift und berechnen Sie geeignete Maßzahlen.
Interpretieren Sie die Ergebnisse. Gibt es große Unterschiede zwischen den Zeitschriften? Ist
ein Zusammenhang zwischen Niveau d. Zeitschrift und der untersuchten Variablen zu
erkennen?
1.1 Magazin
50
40
30
20
10
14
13
SY
L3
22
29
0
-10
N=
6
6
6
6
6
6
1
2
3
4
5
6
MAG
2
Datenanalyseprojekt 3
Stephan Becker 0205472
Univariate
Statistiken
SYL
3
MA
G
1
2
3
4
5
6
Mittelw
ert
Media
n
Varian
zStandardabweic
hung
Minim
um
Maxim
um
Spannwei
te
Mittelw
ert
Media
n
Varian
zStandardabweic
hung
Minim
um
Maxim
um
Spannwei
te
Mittelw
ert
Media
n
Varian
zStandardabweic
hung
Minim
um
Maxim
um
Spannwei
te
Mittelw
ert
Media
n
Varian
zStandardabweic
hung
Minim
um
Maxim
um
Spannwei
te
Mittelw
ert
Media
n
Varian
zStandardabweic
hung
Minim
um
Maxim
um
Spannwei
te
Mittelw
ert
Media
n
Varian
zStandardabweic
hung
Minim
um
Maxim
um
Spannwei
te
Statist
ik 26,1
7
27,5
0
98,96
7 9,9
5 10
37
27
22,1
7
17,5
0
119,76
7 10,9
4 10
39
29
6,0
0
6,0
0
5,20
02,2
8 3
10
7
10,0
0
10,0
0
18,00
0 4,2
4 3
16
13
9,3
3
10,5
0
18,66
7 4,3
2 1
13
12
23,5
0
19,5
0
145,10
0 12,0
5 13
Standar
dfehle
r 4,0
6
Gruppe 1 (hohe Bildung):
Mag 1 = „Scientific America“
Mag 2 = „Fortune”
Mag 3 = „New Yorker Group“
4,4
7
,93
1,7
3
Gruppe 3 (niedrige Bildung):
Mag 4 = „National Enquirer“
Mag 5 = „Grit“
Mag 6 = „True Confession“
1,7
6
4,9
2
43
30
Die Erwartungshaltung, dass ein höheres Bildungsniveau eine höhere Anzahl an mehrsilbigen
Worten bedeutet, wird bei vier der sechs Magazine bestätigt. Die Magazine „The New Yorker
Group“ (Magazin 3 aus Gruppe 1) und „True Confession“ (Magazin 6 aus Gruppe 3)
verhalten sich allerdings sowohl gegen den jeweiligen Gruppentrend als auch gegen die
Erwartungshaltung.
ad Gruppe 1
Die Mittelwerte der Magazine 1 („Scientific America“; x =26,1) und 2 („Fortune“; x =22,1)
sind, wie zu erwarten war, relativ hoch. Der „Ausreißer“ in Gruppe 1 - das Magazin 3, „The
New Yorker Group“ – hat dagegen nur einen Mittelwert von x =6,0. Ein ähnliches Bild ergibt
sich auch bei anderen Werten: Bei Varianz (Mag 1/2: 98 bzw. 119, Mag 3: 5,2), Spannweite
(Mag 1/2: 29 bzw 27; Mag 3: 7), Interquartilsbereich (Mag 1/2: 16,50 bzw. 18,50; Mag 3:
2,50) oder Kurtosis (Mag 1/2: -0,23 bzw. –0,722; Mag 3: 2,5) zeigen sich große Unterschiede
zwischen „Scientific America“ und „Fortune“ auf der einen und „The New Yorker Group“
auf der anderen Seite.
3
Datenanalyseprojekt 3
Stephan Becker 0205472
Die hohen Varianzwerte von „Scientific America“ und „Fortune“ lassen auf eine
unterschiedliche Struktur der Werbeeinschaltungen schließen. Offenbar gibt es auch in diesen
Magazin Annoncen mit nur wenigen mehrsilbigen Worten. Ihnen stehen jedoch
Werbeeinschaltungen mit vielen mehrsilbigen Worten gegenüber. Diese heben den
Mittelwert.
Im Gruppenübergreifenden Vergleich liegen die Werte der „New Yorker Group“ näher an der
Gruppe 3 (unteres Bildungsniveau) als an den Werten der ersten Gruppe (höchstes
Bildungsniveau).
ad Gruppe 3
Auch in Gruppe 3 gibt es mit „True Confession“ einen Ausreißer, dessen Werte sich anders
verhalten als jene der Magazine 4, „National Enquirer“, und 5, „Grit“.
Die „True Confession“-Werte liegen wiederum sehr nahe an den Zahlen der Gruppe-1Zeitschriften „Scientific America“ und „Fortune“.
1.2 Gruppe
Univariate Statistiken
SYL3
GRUPPE
1
3
Statistik
18,11
17,00
146,340
12,10
3
39
36
14,28
12,00
98,565
9,93
1
43
42
Mittelwert
Median
Varianz
Standardabweichung
Minimum
Maximum
Spannweite
Mittelwert
Median
Varianz
Standardabweichung
Minimum
Maximum
Spannweite
4
Standardf
ehler
2,85
2,34
Datenanalyseprojekt 3
Stephan Becker 0205472
50
31
40
34
30
35
20
10
29
0
S
YL
-10
3
N=
18
18
1
3
GRUPPE
Die Ausreißer - „The New Yorker Group“ und „True Confession“ - schlagen sich nur leicht
auf die Gruppengesamtwertung durch. Es bestätigt sich - wenn auch nicht so eindeutig wie
vermutet -, dass Magazine für besser gebildetes Publikum in Werbeeinschaltungen
mehrsilbige Worte häufiger verwenden als Zeitschriften für Leser der unteren
Bildungsschichen.
Die großen Gruppeninternen Unterschiede (entstanden durch die Ausreißer) zeigen sich in der
Varianz. Sie ist in beiden Gruppen sehr hoch.
Fazit: Durch diese Analyse kann noch nicht eindeutig festgestellt werden, ob durch die
Anzahl der mehrsilbigen Worte in Werbeinschaltungen auf das Bildungsniveau der
Leserschaft geschlossen werden darf.
2. Aufgabenstellung
Ist ein Unterschied der zwei Niveaugruppen hinsichtlich der betrachteten Variablen
feststellbar? Führen Sie dazu einen formalen statistischen Test zum Niveau α = 0.05 durch.
Erklären Sie das Ergebnis. Besprechen Sie dabei auch kurz das Konzept des Fehlers erster
und zweiter Art und kommentieren Sie die Methode der Stichprobenauswahl.
Gruppenstatistiken
SYL3
GRUPPE
1
3
N
18
18
Mittelwert
18,11
14,28
Standardab
weichung
12,10
9,93
5
Standardfe
hler des
Mittelwertes
2,85
2,34
Datenanalyseprojekt 3
Stephan Becker 0205472
Test bei unabhängigen Stichproben
Levene-Test der
Varianzgleichheit
SYL3
Varianzen sind gleich
Varianzen sind nicht
gleich
F
2,591
Signifikanz
,117
T-Test für die Mittelwertgleichheit
T
1,039
34
Sig. (2-seitig)
,306
Mittlere
Differenz
3,83
32,754
,306
3,83
df
1,039
Standardfehle
r der Differenz
3,69
3,69
95% Konfidenzintervall
der Differenz
Untere
Obere
-3,66
11,33
-3,67
Statistische Tests – die mit einem bestimmten Signifikantsniveau durchgeführt werden (hier:
α=0,05 ) – führen zur Nullhypothese H0 und zur Alternativhypothese H1.
Bei Tests reichen aber die vorliegenden Daten nicht immer aus, um sich mit Sicherheit für
eine der beiden Hypothesen zu entscheiden. Es können zwei Arten von Fehlentscheidungen
auftreten: ein fälschliches Ablehnen der Nullhypothese ( Fehler erster Art) oder ein
fälschliches Annehmen der Nullhypothese ( Fehler zweiter Art).
Die Wahrscheinlichkeit für einen Fehler erster Art nennt man Signifikanzniveau eines Tests.
Wenn das Ergebnis der Signifikanz größer ist als das gegebene Signifikanzniveau, das
untersucht und verglichen werden soll, kann man die Nullhypothese verwenden.
Wichtig ist, dass das Signifikanzniveau vor dem Sammeln der Daten festgelegt wird. So soll
sicher gestellt werden, dass die Signifikanz unabhängig von den konkret vorliegenden Daten
ist.
Unser Fall:
Nullhypothese = die Anzahl der 3-silbigen Worte ist in jedem Niveau gleich
Alternativhypothese ≠ die Anzahl der 3-silbigen Worte ist in jedem Niveau gleich
Signifikanz 0,117 > Signifikantsniveau 0,05
Die Nullhypothese, dass die Anzahl der 3-silbigen Worte in jedem Niveau gleich ist,
wird bestätigt.
3. Aufgabenstellung
Ist die betrachtete Variable eine sinnvolle Maßzahl für die Einfachheit des Anzeigentextes?
Betrachten Sie alternativ die Variable „mittlere Satzlänge“ (Zahl der verwendeten Wörter/
Zahl der Sätze) und führen Sie obige Auswertungsschritte nochmals mit der neuen Variablen
durch. Kommentieren Sie die Ergebnisse.
Statt der Variablen 3SYL wird jetzt die mittlere Satzlänge (MSL) betrachtet.
MSL = Zahl der verwendeten Wörter / Zahl der Sätze
Mit der Variablen MSL werden die selben Schritte wie mit 3SYL durchlaufen. Es entsteht
also eine neue neue explorative Datenanalyse.
6
11,34
Datenanalyseprojekt 3
Stephan Becker 0205472
1.1 Magazin
Univariate Statistiken
M.SATZL
MAG
1
2
3
4
5
6
Statistik
14,87
13,69
18,999
4,36
*
*
*
11,71
11,45
30,539
5,53
6
*
*
7,24
7,50
2,766
1,66
5
*
5
7,62
7,86
7,510
2,74
4
*
8
9,26
7,09
21,872
4,68
6
*
*
9,53
10,25
4,700
2,17
7
*
5
Mittelwert
Median
Varianz
Standardabweichung
Minimum
Maximum
Spannweite
Mittelwert
Median
Varianz
Standardabweichung
Minimum
Maximum
Spannweite
Mittelwert
Median
Varianz
Standardabweichung
Minimum
Maximum
Spannweite
Mittelwert
Median
Varianz
Standardabweichung
Minimum
Maximum
Spannweite
Mittelwert
Median
Varianz
Standardabweichung
Minimum
Maximum
Spannweite
Mittelwert
Median
Varianz
Standardabweichung
Minimum
Maximum
Spannweite
7
Standardf
ehler
1,78
Gruppe 1 (hohe
Bildung):
Mag 1 = „Scientific
America“
Mag 2 = „Fortune”
Mag 3 = „New Yorker
Group“
2,26
,68
1,12
1,91
,89
Gruppe 3 (niedrige
Bildung):
Mag 4 = „National
Enquirer“
Mag 5 = „Grit“
Mag 6 = „True
Confession“
Datenanalyseprojekt 3
Stephan Becker 0205472
30
1
20
10
M.
SA
TZ
L
0
N=
6
6
6
6
6
6
1
2
3
4
5
6
MAG
In den verglichenen Magazinen unterscheiden sich die mittleren Satzlängen nicht all zu sehr
von einander. In der ersten Gruppe (Magazine 1 – 3, also „Scientific America“, „Fortune” und
„New Yorker Group“) weicht wieder Magazin 3, „The New Yorker Group“, von den anderen
beiden ab. Die Abweichung ist aber weit weniger groß als in der vorangegangenen Analyse.
Der zweite Ausreißer aus der ersten Analyse, die Zeitschrift „True Confession“ aus Gruppe 3,
liegt hier ebenfalls näher an den Werte der anderen Zeitschriften für Leser mit niedrigerem
Bildungsniveau.
Auch der Unterschied zwischen den Gruppen ist bei der mittleren Satzlänge kleiner, als bei
den mehrsilbigen Worten.
Auffallend groß ist die Varianz – wie in der ersten Analyse – bei „Scientific America“ und
„Fortune“. Anders bei der Zeitschrift „Grit“: War die Varianz in der ersten Analyse niedrig,
hat das Magazin hier die zweit höchste Varianz (21,8) hinter „Fortune“ (30,5) und noch vor
„Scientific America (mit einer Varianz von 19).
Bei den übrigen Magazinen liegt die Varianz mit Werten zwischen 2,7 und 4,7 relativ niedrig.
8
Datenanalyseprojekt 3
Stephan Becker 0205472
1.2 Gruppe
Univariate Statistiken
GRUPPE
M.SATZL 1
Mittelwert
Median
Varianz
Standardabweichung
Minimum
Maximum
Spannweite
3
Mittelwert
Median
Varianz
Standardabweichung
Minimum
Maximum
Spannweite
Statistik
11,27
9,98
25,772
5,08
5
*
*
8,80
8,00
10,779
3,28
4
*
*
30
20
10
M.
SA
TZ
L
0
N=
18
18
1
3
GRUPPE
9
Standardf
ehler
1,20
,77
Datenanalyseprojekt 3
Stephan Becker 0205472
In der Gesamtwertung nähern sich die Werte wieder jenen aus der ersten Analyse an. Die
Sätze der Gruppe-1-Magazine sind im Mittel um 22 % länger (der Unterschied der im Mittel
verwendeten mehrsilbigen Worte betrug 21 %).
Ein großer Unterschied zwischen den Gruppen zeigt sich beim Vergleich der Varianzen. Das
Maß für die mittlere Abweichung ist in Gruppe 1 um 58 % höher als in Gruppe 3.
Die Schiefe (wie weit sich die Verteilungen von einer symmetrischen Verteilung
unterscheiden) ist dagegen wieder sehr ähnlich: 0,705 (Gruppe 1) zu 0,657 (Gruppe 2). Hier
gibt es also in beiden Fällen eine leichte rechtsschiefe (das heißt, die Verteilung fällt links
ihres Modularwerts schneller ab als rechts).
1.3 Signifikantstest
Gruppenstatistiken
WDSSEN
Bildungsniveau
bestgebildeten Leser
schlechtest gebildete
Zielpublikum
18
Mittelwert
11,2736
Standardab
weichung
5,0766
18
8,7881
3,2877
N
Standardfe
hler des
Mittelwertes
1,1966
,7749
Test bei unabhängigen Stichproben
Levene-Test der
Varianzgleichheit
WDSSEN Varianzen sind gleich
Varianzen sind nicht
gleich
F
4,164
Signifikanz
,049
T-Test für die Mittelwertgleichheit
T
1,744
1,744
df
34
Sig. (2-seitig)
,090
29,127
,092
Mittlere Standardfehle
Differenz r der Differenz
2,4856
1,4256
2,4856
1,4256
95% Konfidenzintervall
der Differenz
Untere
Obere
-,4116
5,3827
-,4295
5,4006
Interessant ist die Aussage des Signifikanztests bei der mittleren Satzlänge. Die Signifikanz
0,049 ist hier kleiner als das Signifikanzniveau 0,05. Damit kann die Alternativhypothese
verwendet werden. Das bedeutet, dass es diesem Test zu folge keine Unterschiede zwischen
der mittleren Satzlänge bei Niveau 1 und Niveau 3 gibt. Der Boxplot zeigt aber teilweise recht
deutliche Unterschiede.
Der Schluss daraus: Die Analyse der mittleren Satzlänge führt zu keinem zufriedenstellenden
Ergebnis. Die Unterschiede zwischen den einzelnen Niveaugruppen werden nicht eindeutig
beschrieben.
Im allgemeinen haben wir somit gesehen, dass nicht jede Variable geeignet ist, um eine
sinnvolle Aussage über eine Studie zu erhalten. Es ist also wichtig möglichst viele
verschiedene Hypothesen aufzustellen und sie auch genau zu analysieren um die wahre
Aussage einer Studie zu erkennen.
4. Aufgabenstellung
Diskutieren Sie kurz, welche Variable die Einfachheit/Komplexität eines Anzeigentextes
besser misst.
Zu einem besseren Ergebnis könnte die Zahl der verwendeten Worte führen.
Nicht in dieser Untersuchung berücksichtigt, aber möglicherweise dennoch eine gute Maßzahl
wäre die Zahl der verwendeten Fremdwörter.
10
Herunterladen