Seminar: Methoden der empirischen Sozialforschung

Werbung
Seminar: Methoden der empirischen Sozialforschung
Leitung: Günter Burkart
Sommersemester 2006
Referenten: Marcel Müller, Anna Tuller, Julian Kracht, Sabrina Thesz
Termin: 11.5. und 18.5.2006
Mittelwert
Definition: Maße der zentralen Tendenz
Maße der zentralen Tendenz sind statistische Kennwerte, die uns in einer Zahl etwas über
einen Satz von Messwerten aussagen.
Typische Werte einer Verteilung sind dabei
Arithmetisches Mittel
Modalwert
Median
Arithmetisches Mittel:
Beim arithmetischen Mittel dividiert man die Summe aller Einzelwerte durch die Anzahl der
Messwerte ( Stichprobenumfang)
Formel:
M =  xi/n
Das arithmetische Mittel gibt also den Durchschnitt an.
Beispiel:
Die Messwerte lauten: 1,3,3,5,5,7,9
Mit M =  xi/n ergibt M = 4,71
Denn:  xi = 1+3+3+5+5+7+9 = 33
 n = 7
 M = 33/7 = 4,71
Dieser Mittelwert wird verwendet, wenn es sich beim Messniveau um ein metrisches Niveau
handelt ( Intervall-, Verhältnisskalenniveau ).
Unkorrekterweise wird das arithmetische Mittel aber auch bei ordinalem Skalenniveau
angewandt ( z.B. Schulnoten ).
Vorteile:
- lässt sich leicht berechnen
- ermöglicht weitere Berechnungen ( z.B. Standardabweichung, Varianz )
Nachteile:
- sehr anfällig für Extremwerte ( Ausreißer )
- bei großem n sehr auswendig zu bestimmen
Modalwert:
Der Modalwert ist der Wert, der in einem Datensatz am häufigsten vorkommt.
Beispiel: Zehn Studenten wurden nach ihrer Semesterzahl befragt:
2, 5, 4, 3, 1, 3, 5, 3, 4, 1, 3
Modalwert: 3
Vorteile:
- der Modalwert kann direkt abgelesen werden ( größte absolute bzw. relative
Häufigkeit )
- ist bei allen Messniveaus verwendbar
- einziges Maß, das bei Nominal-Skalenniveau verwendet werden kann
- sehr stabiles Maß ( reagiert unempfindlich auf Ausreißer )
Nachteile:
- es kann mehrere Modalwerte geben, deshalb nur sinnvoll bei Daten mit wenig
diskreten Ausprägungen
- fehlerhafte Eindeutigkeit bei mehrgipfligen Verteilungen
Verteilungen mit nur einem Modus und keinem weiteren relativen Hochpunkt werden als
unimodal und eingipflig beschrieben.
Beispiel:
Verteilungen mit nur einem Modus und weiteren relativen Hochpunkten werden als unimodal
und mehrgipflig beschrieben.
Haben in einem Datensatz zwei nicht aufeinander folgende Werte die gleiche und zugleich
größte Häufigkeit, so gibt es zwei Modalwerte. Die Verteilung ist in diesem Fall bimodal.
Haben aufeinander folgende Werte die gleiche und auch größte Häufigkeit, so ist die
Verteilung breitgipflig. Der Modalwert berechnet sich aus dem Mittel der maximalen Werte.
Beispiel:
Der Median:
Der Median oder Zentralwert, ist der Wert, der die Verteilung genau in der Mitte in zwei
gleichgroße Hälften teilt, d.h. er ist der Halbierungspunkt einer Menge.
Zur Bestimmung des Medians müssen die Merkmalswerte bzw. Merkmalsträger zuerst in eine
Rangordnung gebracht werden. Der Median kann daher nur dann bestimmt werden, wenn das
Merkmal mindestens ordinalskaliert ist.
Bei der Berechnung des Medianwertes ist es sinnvoll, zwischen gerader und ungerader
Anzahl n zu unterscheiden.
Beispiel: n = ungerade
Für die 23 Beschäftigten der Schulte GmbH wurden die Fehlzeiten ( in Tagen ) für die letzten
sechs Monate festgestellt.
Formel:
M = ( n+1 )/2
 ( 23+1 )/2  Position 12  8
Der Beschäftigte mit der Position 12 hat genau acht Tage gefehlt.
Der Median drückt also aus, dass 50% der Beschäftigten acht oder weniger Tage und 50%
acht oder mehr Tage gefehlt haben.
Beispiel: n = gerade
Für die 20 Beschäftigten der Maier GmbH wurde die Fehlzeit ( in Tagen ) für das letzte halbe
Jahr festgestellt.
Formel:
M = (x(n/2)+x((n/2)+1))/2
x ist der Merkmalswert des Merkmalsträgers
 (x(20/2) + x(20/2)+1))/2
= (Position 10 + Position 11)/2 = (6+7)/2 = 6,5
Der Median drückt also aus, dass 50% der Beschäftigten weniger als 6,5 und 50% mehr als
6,5 Tage gefehlt haben.
Beurteilung: Der Median ist unbeeinflusst von Ausreißern, da er allein von der Anzahl der
Merkmalsträger abhängig ist. Er lässt sich relativ schnell und einfach ermitteln.
Nachteile der Maße der zentralen Tendenz:
Die Maße der zentralen Tendenz beschreiben eine Verteilung nur unvollständig. Sie geben
keine Auskunft über die Streuung der Daten.
Mittelwert mit SPSS:
Gehe unter „Analysieren“ auf „Deskriptive Statistiken“. Dort kann man die Variable wählen
deren Mittelwert man berechnen möchte. Unter „Optionen“ kann man u.a. den Mittelwert, das
Maximum und Minimum etc. auswählen. Klicke auf „OK“ und die gewünschten Angaben
erscheinen in einer Tabelle.
Grafiken
Balkendiagramm:
Das einfache Balkendiagramm stellt die Kategorien einer Variable dar.
Beispiel:
5
Absolute Werte
4
3
2
1
0
18
19
20
22
23
24
25
26
27
29
32
33
53
54
Alter in Jahren
Die Höhe des Balkens gibt die absolute Häufigkeit an, mit der die Werte genannt wurden.
Anstatt der absoluten Häufigkeit können auch relative oder kumulierte Häufigkeiten
dargestellt werden. Die Beschriftung der vertikalen Achse gibt die Bedeutung der Balken an.
Nachteil: Eine genaue Untersuchung der Werte ist nicht möglich, da Häufigkeiten nur grob zu
erkennen sind und nicht explizit genannt werden.
Bei gruppierten Balkendiagrammen sollen Häufigkeiten verschiedener Werte einer Variablen
im Vergleich dargestellt werden.
Beispiel:
Geschlecht
3,0
männlich
weiblich
Blau = männlich
Grün = weiblich
2,5
Absolute Werte
2,0
1,5
1,0
0,5
0,0
18
19 20
22
23
24
25
26
27
29
32
33
53
54
Alter in Jahren
Beim gestapelten Balkendiagramm kennzeichnet die gesamte Balkenhöhe die Häufigkeit, mit
der eine Antwort insgesamt genannt wurde.
Beispiel:
Geschlecht
5
männlich
weiblich
Absolute Werte
4
3
2
1
0
18
19
20
22
23
24
25
26
27
29
Alter in Jahren
32
33
53
54
Beispiel für ein gestapeltes Balkendiagramm mit 100%-Skala:
Geschlecht
1,0
0
0
0
männlich
weiblich
0,8
1
1
Absolute Werte
3
0,6
1
1
1
1
2
2
1
1
1
1
0
0
0
29
32
33
53
1
0,4
1
0,2
1
2
0,0
0
18
19
20
0
0
22
23
24
0
0
25
26
27
54
Alter in Jahren
Dieses Diagramm wird verwendet wenn die absolute Anzahl der Fälle uninteressant und im
wesentlichen die Verteilung der einzelnen Antworten zwischen verschiedenen Gruppen von
Bedeutung ist.
Die Gesamtzahl der Fälle einer Antwort wird dabei auf 100% gesetzt, die unterschiedlichen
Farben kennzeichnen lediglich die Anteile der verschiedenen Gruppen.
Die Angaben sagen allerdings nichts über die absolute Anzahl der Antworten aus, jeder
Balken stellt stattdessen für eine einzelne Antwort die Relation zwischen den verschiedenen
Gruppen dar.
Liniendiagramme:
Einfache Liniendiagramme geben verschiedene Kategorien einer Variablen wieder.
Beispiel:
5
Absolute Werte
4
3
2
1
18
19
20
22
23
24
25
26
27
29
32
33
53
54
Alter in Jahren
Verbundenes Liniendiagramm:
Geschlecht
7
männlich
weiblich
6
Absolute Werte
5
4
3
2
1
0
1
2
3
4
4
Personenanzahl im Haushalt
5
Hier können Unterschiede zwischen zwei Variabeln stärker hervorgehoben werden, die
einander entsprechenden Punkte der verschiedenen Datenreihen werden dafür mit einer
senkrechten Linie verbunden. Die Länge der Linie zeigt die Differenz zwischen den
Datenreihen an.
Flächendiagramm:
Beispiel:
5
Absolute Werte
4
3
2
1
0
18
19
20
22
23
24
25
26
27
29
32
33
53
54
Alter in Jahren
Die obere Begrenzungslinie der Fläche endet mit dem letzten Wert bei 100%.
Da die Abstände der Werte auf der horizontalen Achse nicht immer gleich sind wird die
Darstellung verzerrt.
Wie bei Liniendiagrammen kann man die obere Begrenzungslinie variieren, Flächen- und
Liniendiagramme unterscheiden sich nur darin, dass die Fläche unterhalb der
Begrenzungslinie ausgefüllt ist.
Kreisdiagramm:
Beispiel:
Personenanzahl im
Haushalt
1
2
3
4
4
5
Die Kreissegmente stellen die einzelnen Kategorien einer Variablen dar, die Größe der
Segmente repräsentiert die Anzahl der Fälle mit den verschiedenen Werten.
Kreisdiagramme eignen sich besonders gut, wenn einige wenige Werte miteinander
verglichen werden sollen, v.a. dann wenn die Anteile der einzelnen Werte an der
Gesamtverteilung im Vordergrund des Interesses stehen.
Bei zu vielen Werten wird das Diagramm allerdings unübersichtlich und ist nicht mehr
aussagekräftig.
Erstellen eines Diagramms:
Das Erstellen der Diagramme mit SPSS ist nicht schwer. Man geht auf „Grafiken“ und kann
sich nun die verschiedenen Diagrammtypen aussuchen, z.B. „Balken“. In dem Fenster das
sich nun öffnet kann man zwischen „einfach“, „gruppiert“ und „gestapelt“ wählen. Für die
anderen Diagramme gilt das genauso.
Allgemein: Um fehlende Werte mit in die Grafik aufzunehmen, geht man zunächst auf
„Definieren“ . Es erscheint ein Dialogfeld mit der Schaltfläche „Optionen“, nun lässt man sich
dort die „Fehlenden Werte als Kategorie anzeigen“.
Zugehörige Unterlagen
Herunterladen