Univariate Statistik mit SPSS P

Univariate Statistik mit SPSS 
1
Deskriptive Statistik
Die Deskriptive Statistik bzw. die beschreibende Statistik fasst alle Verfahren
zusammen, die eine Menge von beobachteten Daten aufzeigen.
1.1
Maße der zentralen Tendenz (Lagemaß)
Die zentrale Tendenz gibt - wie die Bezeichnung bereits verrät- Informationen über
die generelle Neigung von Daten. Ein gleichwertiger Ausdruck für die zentrale
Tendenz ist der Mittelwert. Die drei typischen Maße der zentralen Tendenz sind:
der Modus, der Median und das arithmetische Mittel.
1.1.2 Der Modus
Generell bezeichnet man die Ausprägung einer Variablen, die am häufigsten
vorkommt, als den Modus bzw. den Modalwert. Dieser Wert kann direkt aus einer
Häufigkeitstabelle entnommen werden.
Sind die Daten ungruppiert bzw. unsortiert ist der Modus der Wert, der am häufigsten
vorkommt, also „...die größte absolute bzw. relative Häufigkeit...“ 1 besitzt.
Weiterhin kann der Modus, als einziges Maß der zentralen Tendenz, bei nominalem
Messniveau verwendet werden.
Bei gruppierten Daten ist der Modus die Klassenmitte, die am häufigsten vorkommt.
Berechnet durch: mk= uk+ok
2
mk...Klassenmitte
uk....untere Grenze der Klassenmitte
ok....obere Grenze der Klassenmitte
1.1.2 Median
Beschreibt die exakte Mitte einer Verteilung, wobei die einzelnen beobachteten
Werte der Größe nach geordnet sind. Bei ungerader Fallzahl ist der Median der
„ Statistik für die Sozialwissenschaften Grundlagen Methoden Anwendungen“, rowohlts Enzyklopädie,
Steffen- M. Kühnel/ Dagmar Krebs, S.68.
1
1
mittlere Wert. Bei gerader Fallzahl wird der Median ermittelt, indem man die beiden
mittleren Werte, innerhalb der Rangfolge, erst addiert und dann durch zwei dividiert.
1.1.3 Arithmetisches Mittel
Vereinfacht gesehen wird das arithmetische Mittel als Durchschnitt oder Mittelwert
bezeichnet.
1.2
Streuungsmaß
Das Streuungsmaß ist ein Kennwert (Parameter) univariater Verteilung. Zudem ist es
notwendig, weil die Maße der zentralen Tendenz ungenau oder unvollständig
beschreibt. Im Allgemeinen informiert das Streuungsmaß über die Heterogenität
(Ungleichheit) der Werte.
1.2.1 Varianz
Laut dem Deutschen Duden ist die Varianz ein Maß für die Abweichung von einem
Mittelwert.
Des
Weiteren
bezeichnet
man
sie
auch
als
durchschnittliche
mittelwertbereinigte Quadratsumme.
Die Varianz wird wie folgt berechnet: „Die Summe der quadrierten Abweichungen
aller Messwerte vom arithmetischen Mittel, dividiert durch die Anzahl aller
Messwerte, ergibt die Varianz.“2
Symbol: s²=  (Xi - M) ²
n
Der Sinn dieser Berechnung liegt darin, eine fallzahlunabhängige Größe zu erhalten.
Generell gelten folgenden Bedingungen:

Je deutlicher die Realisationen (=empirisch beobachteter Wert einer
Variablen bei einem Fall) vom Mittelwert abweichen, desto größer ist die
Varianz der einzelnen Variablen.

Umso kleiner die Varianz, desto näher liegen die Realisationen beim
Mittelwert.
2
Methoden der empirischen Statistik.S.41.
2

Der kleinstmögliche Wert einer Varianz ist null. Dieser Wert tritt nur dann
auf, wenn alle Werte einer Verteilung identisch sind. In diesem Fall ist die
Varianz eine Konstante.
Im Folgenden soll erklärt werden wie man die Varianz mit Hilfe des SPSSProgramms berechnen kann.

Starten des Programms SPSS

„Analysieren““Deskriptive Statistik““Häufigkeiten“

Links ein Beispiel auswählen“Statistik“ öffnen“Varianz “anklicken
„Weiter“ “o.k.“
Varianz in Häufigkeitstabelle ablesen
Häufigkeiten
Statistiken
Studiengang_L2
N
Gültig
Fehlend
Varianz
1496
0
,089
1.2.2 Standardabweichung
Mittels der Standardabweichung wird der Nachteil der Varianz ausgeglichen. Grund
dafür ist die Verzerrung der Messwerte, in Folge der Quadrierung bei der Varianz.
Die Standardabweichung ist also die Quadratwurzel aus der Varianz. Das daraus
resultierende Ergebnis wird als Standardabweichung bezeichnet. Als Symbol wird
hier „s“ verwendet.
Im Folgenden soll nun der Weg beschrieben werden, wie man mit SPSS die
Standardabweichung berechnen kann:
3
SPSS öffnen und auf „Analysieren“ klicken“Deskriptive Statistik““Häufigkeiten“
ein Beispiel auf der linken Seite markieren und auf dem rechts stehenden Pfeil
klicken; danach „Statistik“ wählen
“Standardabweichung“ markieren und auf „Weiter“ klicken“o.k.“Tabelle öffnet
sich
Geht man davon aus, dass eine Verteilung unimodal, symmetrisch ist und einen
glockenförmigen Kurvenverlauf aufweist, so liegt eine Normalverteilung vor.
Normalverteilungskurve:
4
Eigenschaften:
 glockenförmiger Verlauf
 symmetrische Verteilung
 Modalwert, Median, arithmetisches Mittel fallen zusammen
 Verteilung nähert sich asymptotisch an x- Achse
 zwischen den zu den Wendepunkten gehörenden X-Werten befindet sich ca. 2/3
der Gesamtfläche
Es gilt für die Standardabweichung:
 im Bereich: -1 +1 liegt eine Standardabweichung von 68.3% vor
 im Bereich: -2 +2 liegt eine Standardabweichung von 95.5% vor
 im Bereich: -3 +3 liegt eine Standardabweichung von 99.7% vor
1.2.3 Andere Beispiele
 Spannweite
Die Spannweite erfasst den Abstand zwischen minimalen und maximalen Wert einer
Verteilung. Der Nachteil dabei ist jedoch, dass „Ausreißer“ das Ergebnis stark
verzerren können. Des Weiteren sind sie wenig informativ, d.h. sie geben nur wenig
Auskunft über die Verteilung zwischen den Extremwerten.
 durchschnittliche absolute Abweichung
Die durchschnittliche absolute Abweichung ist notwendig, weil mit steigender Fallzahl
auch die Anzahl der Summanden steigt und damit die Summe der absoluten
Abstände vom Mittelwert. Aufgrund dessen versucht man den Einfluss auf das
Streuungsmaß auszugleichen, indem man die Summe der absoluten Abweichungen
durch die Fallzahl „n“ teilt. Das Symbol der durchschnittlichen Abweichung ist: AD.
 Quartilabstand
Im Allgemeinen betrachtet, beschreibt das Quantil die Einteilung einer Messwertreihe
in vier gleichgroße Abschnitte. Die Quantilwerte, die die jeweiligen
Abschnitte
voneinander trennen, bezeichnet man auch als Quartile. Während das erste oder
untere Quartile den Wert einer Stichprobe, unterhalb dessen 25% der Messwerte
liegen bezeichnet, beschreibt das zweite Quartile (= Median) den Punkt, unterhalb
5
dessen 50% der Messwerte liegen. Das dritte oder oberes Quartile kennzeichnet den
Punkt, unterhalb dessen sich 75% der Messwerte befinden.
 Variationskoeffizient
Der Variationskoeffizient Vx wird gebildet, indem man die Standardabweichung einer
Variablen durch den jeweiligen Mittelwert dividiert. Weiterhin ist bekannt, dass
Variablen mit großen Mittelwerten auch große Standardabweichungen haben. Um
dieses Merkmal zu berücksichtigen ermittelt man den Variationskoeffizienten Vx.
Der Variationskoeffizient ist maßstabunabhängig.
 Devianz
Die Devianz ist ein Streuungsmaß für normalskalierte Variablen. Sie resultiert aus
der
mit
2
multiplizierten
Ausprägungshäufigkeit
nk
Summe
und
der
aus
den
Produkte
aus
Logarithmen
der
absoluten
der
relativen
Ausprägungshäufigkeit pk.
Symbol: Dx
2
Die grafische Darstellung von Verteilungen
Im Allgemeinen liefert die grafische Darstellung kompakte Informationen über die
Verteilung von Häufigkeiten.
2.1
Visualisierung Häufigkeitsverteilungen metrischer Variablen
Bei metrischen Variablen gibt es folgende Methoden der grafischen Darstellung:
a) Stabdiagramm
Hier werden die absoluten oder relativen Häufigkeiten als lange Linien dargestellt,
welche sich nicht berühren.
Kein_Schein
1200
1000
800
600
Häufigkeit
400
200
0
0
1
Kein_Schein
6
b)
Histogramm
Prinzipiell wird das Histogramm bei gruppierten Daten verwendet, wobei alle
Werte als einfache Balken dargestellt werden, die sich aber nicht gegenseitig
berühren. Grundsätzlich gilt für die Balken „(...)das Prinzip der Flächentreue, d.h.
die Fläche ( das Produkt aus Balkenhöhe und Balkenbreite) ist proportional zur
Häufigkeit der Klassen.“3 Demzufolge ist die Balkenhöhe auch proportional zu der
empirischen Häufigkeitsdichte. Die eben erwähnte empirische Häufigkeitsdichte
wird ermittelt durch den Quotienten der relativen Häufigkeit einer Klasse, dividiert
durch die Klassenbreite.
VeranstaltungID
400
300
200
Häufigkeit
100
Std.abw. = 59,49
Mittel = 2970,9
N = 1496,00
,0
80
30 ,0
60
30 ,0
40
30 ,0
20
30 ,0
00
30 ,0
80
29 0 ,0
6
29 ,0
40
29 ,0
20
29 ,0
00
29
0
VeranstaltungID
c)
Kern- Dichte- Schätzer
Der Kern- Dichte- Schätzer ist auch anders ausgedrückt eine Weiterbildung des
Histogramms.
Es gilt :
Für jeden Wert X wird die empirische Dichte berechnet.
Jeder Wert der
Dichte ist abhängig von Realisationen, die in der
Umgebung von einer Variablen X berücksichtigt werden.
Je weiter die Umgebung, desto glatter der Kurvenverlauf. (umgekehrt:
zerklüftet)
Die Dichtewerte sind von der Berechnungsformel abhängig.
3
„Statistik für die Sozialwissenschaften“ Grundlagen Methoden Anwendungen. rowohlts Enzyklopädie. S.58
7
d) Box-Plots
Box-Plots
komprimieren
ebenfalls
zentrale
Aspekte
der
empirischen
Häufigkeitsverteilung.
3200
3100
VeranstaltungID
3000
2900
2800
N =
1496
WS
SEMESTER
Während der rote Kasten den mittleren Teil der Verteilung symbolisiert, beschreiben
die waagerechten Linien, außerhalb der Box, jeweils den kleinsten und größten Wert
einer Verteilung. Alle Werte, die sich auf den waagerechten Linien befinden,
markieren die Extremwerte bzw. die Ausreißer. „Die Grenzen der Box entsprechen in
etwa dem 25%- Quantil (untere Grenze) und dem 75%- Quantil (obere Grenze)“4 Der
mittlere Strich innerhalb der roten Box demonstriert den Mittelwert und entspricht
demnach dem 50%- Quantil.
2.2
Visualisierung normalskalierter Variablen
Möglichkeiten der Darstellung: a) Tortendiagramm
b) Balkendiagramm
c) Kreisdiagramm
d) Säulendiagramm
SCHEIN
KS
Scheinvergabe
a) Tortendiagramm
4
c) Kreisdiagramm
Statistik für die Sozialwissenschaften“ Grundlagen Methoden Anwendungen. rowohlts Enzyklopädie. S.61
8
Studiengang_L5
1400
1200
1000
800
600
Häufigkeit
400
200
0
0
1
Studiengang_L5
b) Balkendiagramm
d) Säulendiagramm
3
Praktische Übungen mit SPSS
3.1
Transformation von Dateien
Anleitung zum Transformieren von Dateien aus Excel in SPSS:
Programm SPSS öffnen und auf „Datei ÖffnenDaten“ gehen
bei „Suche in“ den entsprechenden Ordner mit den Daten suchen und anklicken
Listenfeld „Dateityp“: Excel (*.xls) eingeben
“Öffnen“ anklicken
ist ein Häkchen bei „Variablennamen aus ersten Dateizeile lesen“, werden die
Spaltenüberschriften als Variablennamen eingelesen
„OK“ anklicken
 alle Daten werden transformiert
3.2
Zusammenführen von Dateien
Anleitung zum Hinzufügen von Fällen in SPSS:
 Programm SPSS öffnen und auf „DateiDateien zusammenfügenFälle
hinzufügen“ gehen
 gewünschte Datei eingeben
 „Öffnen“ anklicken
 den hinzuzufügenden Fall angeben
 „OK“ anklicken
 Die Anzahl der Fälle verdoppelt sich
9
Anleitung zum Hinzufügen von Variablen in SPSS:
 Programm SPSS öffnen und auf „DateiDateien zusammenfügenVariablen
hinzufügen“ gehen
 gewünschte Datei eingeben
 „Öffnen“ anklicken
 die hinzuzufügende Variable angeben
 „OK“ anklicken
 Datei erweitert sich um die gewünschte Variable
3.3
Berechnen und Umcodieren von Variablen
Oftmals sind die Daten nicht von Anfang an sinnvoll für Analysen geeignet, weshalb
eine Umcodierung notwendig wird.
Anleitung zum Umcodieren von Dateien:
SPSS öffnen“Transformieren““Umcodieren““in andere Variablen“
neue Werte eingeben und auf o.k.
Das Berechnen von neuen Variablen ist sinnvoll, um die Informationsbreite zu
erweitern.
Anleitung zum Berechnen von neuen Variablen
SPSS öffnen“Transformieren“ “Berechnen“
Zielvariable und numerischer Ausdruck eingeben
o.k.
neue Variable in Datenansicht letzte Spalte erkennbar
3.4
Aufteilen von Dateien
Primär führt die Aufteilung von Dateien zu einer gewissen Übersichtlichkeit in der
grafischen Darstellung von Verteilungen.(z.B. in Häufigkeitstabellen) Es trägt
demnach zur Bildung von Gruppen oder Kategorien bei.
Anleitung zum Aufteilen:
SPSS öffnen“Daten“ “Daten aufteilen“
“Ausgabe nach Gruppen aufteilen“ anklicken
Beispiel in linker Spalte aussuchen“o.k.
“Analysieren“ „Deskriptive Statistik“ “Häufigkeiten“ Beispiel auswähleno.k.
10
4
Quellenverzeichnis

Bücher
-
„Statistik für Sozialwissenschaften“ Grundlagen Methoden Anwendungen.
Rowohlts Enzyklopädie. Steffen Kühnel/ Dagmar Krebs
-
„Aufgabensammlung zur <Statistik für die Sozialwissenschaften>“. Rowohlts
Enzyklopädie. Dagmar Krebs/ Steffen - M. Kühnel/ Marita Jacob
-
Benninghaus, Hans: Einführung in die sozialwissenschaftliche Datenanalyse.
5., vollständig überarbeitete Auflage. München 1998.
-
Clauß,
Günter;
Finze,
Falk-Rüdiger;
Partzsch,
Lothar:
Statistik.
Für
Soziologen, Pädagogen, Psychologen und Mediziner. Grundlagen. 2.,
überarbeitete und erweiterte Auflage. Frankfurt am Main 1995.
11