Nica Boetcher u a Reader Mittelwerte in SPSS

Werbung
Methoden der empirischen Sozialforschung
Univariate Statistik
SPSS I
vom 11.05 und 18.05
bei Dr. Günter Burkart
Daniela Wasmuth
Nica Böttcher
Johannes Wahl
Elisabeth Lange
Methoden der empirischen Sozialforschung (SS 2006)
Univariate Statistik mit SPSS I
Gliederung
1. Mittelwert
1.1
1.2
1.3
1.4
Arithmetische Mittel
Modus
Quantil
Median
2. Datenerfassung in SPSS
2.1 Definieren von Variablen
2.2 Eingabe der Daten
3. Bestimmung von Mittelwerten in SPSS
4. Graphische Darstellung in SPSS
11.05. und 18.05.2006
Seite 2
Methoden der empirischen Sozialforschung (SS 2006)
Univariate Statistik mit SPSS I
1 Mittelwerte
Mittelwerte geben einen Eindruck über die zentrale Tendenz von Daten. Im Folgenden
sollen die wichtigsten Zentralmaße kurz vorgestellt werden.
1.1 Arithmetisches Mittel
Das arithmetische Mittel kann für Einzelwerte, für Häufigkeitsverteilungen und klassierte
Merkmalsausprägungen berechnet werden.
Sinnvollerweise kann das arithmetische Mittel nur für metrisch skalierte Merkmale berechnet werden. Hierbei ist es unerheblich, ob es sich um eine Intervall- oder Verhältnisskala
handelt. Folglich ist die allgemein übliche Berechnung von Durchschnittsnoten von Klausurergebnissen eines Kurses unzulässig, da es sich hierbei um ordinal skalierte Merkmale
handelt. Jedoch wird eine so genannte Pseudometrisierung vorgenommen, in dem einfach
das arithmetische Mittel gebildet wird. Hierbei wird unterstellt, dass zwischen den einzelnen Noten die gleichen Abstände liegen.
Zur Berechnung für Einzelwerte addiert man alle Merkmalsausprägungen zusammen und
dividiert die Summe durch die gesamte Anzahl jener. Für n Einzelwerte berechnet sich das
arithmetische Mittel wie folgt:
n
∑ xi
x=
i=1
n
Die Summe der Abweichungen der einzelnen Merkmalsausprägungen vom arithmetischen
Mittel ist Null, da sich negative und positive Differenzen gegeneinander aufheben:
n
∑ (xi – x) = 0
i=1
Für die quadrierten Abweichungen der einzelnen Ausprägungen von jenem gilt, dass die
Summe dieser minimal wird, also kleiner als von jedem anderen Wert:
n
∑ (xi – x)² = Min
i=1
Zur Berechnung des arithmetischen Mittels von Häufigkeitsverteilungen wird das Gewogene arithmetische Mittel berechnet. Hierbei gewichtet man die verschiedenen Merkmalsausprägungen mit deren Häufigkeiten und addiert die dann die einzelnen Produkte. Diese
11.05. und 18.05.2006
Seite 3
Methoden der empirischen Sozialforschung (SS 2006)
Univariate Statistik mit SPSS I
Summe dividiert man dann durch die Anzahl der Merkmalsausprägungen insgesamt. Formal wird diese Vorgehensweise wie folgt beschrieben:
k
x=
∑ xini
i=1
n
Eine weitere Variante des arithmetischen Mittels ist die Berechnung für klassierte Merkmalsausprägungen. Hierbei wird ähnlich wie bei der Bildung für Häufigkeitsverteilungen
verfahren. Allerdings geht man nun von der Klassenmitte, anstatt den einzelne Ausprägungen aus. Es wird also unterstellt, dass sich die Werte innerhalb einer Klasse symmetrisch um die Klassenmitte verteilen. Folgende Formel wird zur Berechnung verwendet,
wobei xi* die jeweilige Klassenmitte und ni die jeweilige Klassenhäufigkeit beschreibt:
k
x=
∑ xi*ni
i=1
n
Das arithmetische Mittel weist zwei wesentliche Schwächen auf. Zum einen kann dessen
Lage durch so genannte Ausreißer vor allem bei kleinen Datenmengen verzerrt werden.
Sei zum Beispiel folgende Verteilung gegeben: Drei Mal die Merkmalsausprägung eins,
vier Mal die zwei und zwei Mal die zehn. Diese Verteilung hat das arithmetische Mittel
3,44, obwohl sich fast 80 Prozent aller Merkmalsausprägungen auf eins und zwei verteilen.
Zum anderen können zwei Verteilungen ein identisches arithmetisches Mittel haben, diese
jedoch völlig unterschiedlich aussehen können. Zum Beispiel hat die Verteilungen zwölf
Mal die eins und zwölf Mal die sechs ebenso das arithmetische Mittel 3,5 wie die Verteilung mit jeweils zwölf Mal die Ausprägung drei und vier. Somit ist das arithmetische Mittel
zur Beschreibung einer Verteilung bzw. einer Datenmenge nur bedingt geeignet.
Um aussagefähigere Werte zu erhalten, sollte zu einem Mittelwert immer auch die Streuung betrachtet werden. Die einfachste Variante wäre die Spannweite (die Differenz zwischen der größten und kleinsten Ausprägung) und den größten und kleinsten Wert anzugeben. Andere geeignete Maße sind die Varianz und die Standardabweichung. Die Standardabweichung gibt an um wie viel die einzelnen Ausprägungen durchschnittlich vom
Mittelwert abweichen. Zusammen mit dem arithmetischen Mittel gibt sie einen guten ersten Eindruck über die Gestalt der Datenmenge.
11.05. und 18.05.2006
Seite 4
Methoden der empirischen Sozialforschung (SS 2006)
Univariate Statistik mit SPSS I
1.2 Modus
Der Modus ist die häufigste Merkmalsausprägung in einer Datenmenge. Ist die Verteilung
annähernd symmetrisch kann der häufigste Wert schnell einen Anhaltspunkt für die zentrale Tendenz geben.
Diese Maßzahl kann bei allen Skalenniveaus angewendet werden. Seine Anwendung
spielt vor allem bei nominal skalierten Merkmalen eine große Rolle, da er hier der einzig
sinnvolle Wert für die zentrale Tendenz ist.
1.3 Quantile
Die Quantile zerlegen ihre zu untersuchenden Datenmenge in einzelne Gruppen anhand
derer man die entsprechenden Aussagen ableitet.
Man teilt auf in Percentile (100 Abschnitte), Dezile ( 10Abschnitte) und das am häufigsten
angewandte Mittel, die Quartile ( hierbei wird in 4 Bereiche unterteilt)
Bei Gruppierung in zwei Bereiche spricht man vom Median.
1.4 Median (Zentralwert)
Ein anderer Mittelwert ist der Zentralwert. Dies ist der Wert, der genau in der Mitte einer in
Reihenfolge gebrachten Datenmenge liegt. Es liegen genau 50 Prozent der beobachteten
Merkmalsausprägungen ober- und 50 Prozent unterhalb des Median.
Dieser kann im Gegensatz zum arithmetischen Mittel nicht nur bei metrischen Merkmalen,
sondern auch bei Ordinalen angewandt werden. Vor allem beim Vorhandensein von Ausreißern oder bei stark asymmetrischen Verteilungen sollte stets der Median angegeben
werden, um Verzerrungen der Ergebnisse bei der Berechnung des Durchschnittes zu
vermeiden.
Also wäre der Median der Werte 11; 12; 14; 16 in diesem Fall zum Beispiel 13.
11.05. und 18.05.2006
Seite 5
Methoden der empirischen Sozialforschung (SS 2006)
Univariate Statistik mit SPSS I
2 Datenerfassung in SPSS
In der Benutzeroberfläche von SPSS gibt es zwei Ansichten. Die Variablenansicht und die
Datenansicht. In der ersten werden die Variablen näher definiert und in der zweiten werden dann die Daten eingegeben.
2.1 Definieren von Variablen
Zur Definition von Variablen muss man in der Benutzeroberfläche von SPSS unten links
auf den Reiter Variablenansicht klicken. Hier kann man in der ersten Spalte die Variable
benennen. Die Variablen von oben nach unten erscheinen in der Datenansicht als Spaltenköpfe von links nach rechts.
Nun können für jede Variable noch verschiedene Eigenschaften definiert werden. Hierbei
ist darauf zu achten, dass diese zu den späteren Daten passt.
Zunächst kann in der zweiten Spalte der Typ definiert werden. Hier stehen zum Beispiel
numerisch für Zahlen oder String für Texte zur Verfügung. Diese Eigenschaft wird festgelegt, in dem man auf die drei Punkte auf der rechten Seite der Zelle klickt. Nun öffnet sich
ein Dialogfeld.
In der dritten Spalte kann nun die Spaltenbreite der Variablen bestimmt werden, d.h. wie
viele Stellen die Variable hat.
In der vierten Spalte können die Dezimal- also Nachkommastellen festgelegt werden.
Besonders wichtig sind dann noch die Spalten Wertelabels und Messniveau. Bei den Wertelabels können für Werte von Daten Texte definiert werden, in dem auf die drei Punkte an
der Zelle geklickt wird. Im sich öffnenden Dialogfeld kann man dann die Labels festlegen,
zum Beispiel könnte die Variable „Geschlecht“ die Werte 1 und 2 mit den Wertelabels
„Weiblich“ und „Männlich“ annehmen. Wichtig ist, dass die hier definierten Labels zum
Codeplan passt, der für die Eingabe der Daten maßgeblich ist.
In der Spalte Messniveau legt man das Skalenniveau der Variablen fest. Über ein einfaches Pull-down-Menü kann man auswählen, ob die Variable nominal, ordinal oder metrisch skaliert sein soll.
Sollten einmal eine Variable hinzukommen kann die Liste einfach verlängert werden, auch
wenn bereits Daten eingegeben wurden. Soll die zwischen Variablen eine weiter eingefügt
11.05. und 18.05.2006
Seite 6
Methoden der empirischen Sozialforschung (SS 2006)
Univariate Statistik mit SPSS I
werden, so kann dies folgendermaßen geschehen: es wird mit der rechten Maustaste auf
die Zeilenbezeichnung der Zeile geklickt, oberhalb der eine weitere Variable eingefügt
werden soll. Im sich öffnenden Menü wird „Variablen einfügen“ ausgewählt und es wird
eine neue oberhalb der markierten Zeile eingefügt.
Zum Löschen einer Variablen klickt man ebenfalls mit der rechten Maustaste auf die Bezeichnung der zu löschenden Zeile und wählt nun „Löschen“ aus. Die Variable verschwindet darauf.
2.2 Eingabe der Daten
Nachdem die benötigten Variablen definiert wurden, können die Daten eingegeben werden. Hierzu klickt man in der linken unteren Ecke auf den Reiter Datenansicht.
Hier erscheinen nun die definierten Variablen als Spalten und man gibt von links nach
rechts die Werte eines Datensatzes ein. Eine Zeile steht also für einen Datensatz.
Vor der Eingabe, zum Beispiel von Daten aus Fragebögen, muss ein Codeplan erstellt
werden. Dieser gibt genau an, welcher Wert welche Variablen zugeordnet wird und welcher Wert für welche Angabe steht. Hier kann wieder das Beispiel des Geschlechtes angeführt werden. Hier muss der Codeplan angeben, welche Variable die Antwort auf die Frage
nach dem Geschlecht aufnimmt und welche Wert für Männlich und welcher für Weiblich
steht. Der Codeplan ist vor allem bei der Arbeit im Team wichtig, damit alle Mitglieder unabhängig von einander auf gleiche Weise die Daten eingeben.
Nun werden die Daten der Reihe nach eingegeben. Es wird empfohlen auf dem Rohmaterial, zum Beispiel dem Fragebogen, die Nummer des Datensatzes zu vermerken, damit
später bei eventuellen Auffälligkeiten oder Unstimmigkeiten der entsprechende Datensatz
noch einmal mit den Originaldaten abgeglichen werden kann. Die Nummer des Datensatz
entspricht der Zeilennummer in der Datenansicht.
Zur Änderung von Daten werden die zu ändernden Zellen einfach angeklickt und können
dann überschrieben werden. Es können auch ganze Datensätze eingefügt werden. Dies
geschieht wiederum durch klicken auf die Zeilenbezeichnung mit der rechten Maustaste.
Nun wählt man „Fälle einfügen“ aus und es wird ein weiterer, leerer Datensatz oberhalb
eingefügt. Ebenfalls können analog zur Variablenansicht ganze Datensätze gelöscht werden (Vgl. Gliederungspunkt 2.1).
11.05. und 18.05.2006
Seite 7
Methoden der empirischen Sozialforschung (SS 2006)
Univariate Statistik mit SPSS I
Zuletzt sei noch kurz auf die Möglichkeit verwiesen ganze Datenbanken aus Excel oder
Access in SPSS zu laden. Hierzu geht man über das Menü „Datei“  „Datenbank öffnen“
 „Neue Abfrage“. Hier kann man dann mit Hilfe eines Assistenten die gewünschten Daten nach SPSS importieren.
3 Bestimmung von Mittelwerten in SPSS
Sind alle erhobenen Daten eingegeben, können diese mit Hilfe der in SPSS enthaltenen
Methoden analysiert werden. Hier können im ersten Schritt, die in Gliederungspunkt 1 beschriebenen Mittelwerte berechnet werden.
Die Auswertung wird folgendermaßen durchgeführt:
Es wird das Menü „Analysieren“  „Häufigkeiten“ ausgewählt. Es öffnet sich das Dialogfenster Häufigkeiten. Hier können über den Pfeil-Button die durch Anklicken markierten
Variablen ausgewählt werden (Abbildung 1). Diese können auch durch einen Doppelklick
auf die Variable ausgewählt werden. Die Auswertung wird für alle ausgewählten Variablen
durchgeführt. Durch markieren von ausgewählten Variablen und Klicken auf den PfeilButton kann die Auswahl rückgängig gemacht werden.
Abbildung 1: Auswählen von Variablen zur Datenanalyse in SPSS
Durch Klicken auf „Statistik“ in der linken unteren Ecke des Dialogfeldes Häufigkeiten öffnet sich ein weiteres Fenster. Hier können die Mittelwerte durch Anklicken der Kästchen
ausgewählt werden: Arithmetisches Mittel (Mittelwert), Median, Modalwert (Abbildung 2).
11.05. und 18.05.2006
Seite 8
Methoden der empirischen Sozialforschung (SS 2006)
Univariate Statistik mit SPSS I
Abbildung 2: Berechnung von Mittelwerten
Nun klickt man auf „Weiter“ und im Fenster Häufigkeiten auf „Ok“. Es öffnet sich der SPSS
Viewer und zeigt das Ergebnis der Datenauswertung an. Dort ist das Ergebnis in Form
einer Tabelle dargestellt (Abbildung 3). SPSS bietet den Vorteil, dass die Ergebnisse im
Viewer durch Anklicken und Copy und Paste sehr unkompliziert in Powerpoint (für Präsentationen) oder Word (für Berichte) zu übertragen sind.
Statistiken
MDS5
N
Gültig
Fehlend
Mittelwert
Median
Modus
48
0
2,77
3,00
2
Abbildung 3: Auswertung im SPSS Viewer
Über der Tabelle sieht man die Bezeichnung der betrachteten Variablen. In der Tabelle
wird angezeigt wie viele Werte in die Auswertung mit einbezogen wurden. Fehlende Werte
sind als leere Zellen in der Datenansicht zu verstehen. Diese werden von SPSS standardmäßig unberücksichtigt gelassen. Darunter findet man die gewünschten Werte für die
Zentralmaße (Abbildung 3).
11.05. und 18.05.2006
Seite 9
Methoden der empirischen Sozialforschung (SS 2006)
Univariate Statistik mit SPSS I
4 Grafische Darstellungen in SPSS
Neben den Auswertung in Zahlen bietet SPSS ebenfalls die Möglichkeit, Daten grafisch
darzustellen. Im Folgenden sollen die wichtigsten grafischen Darstellungen kurz beschrieben werden.
Eine einfache Möglichkeit gängige Grafiken zu erstellen, ist ebenfalls im Menü „Analysieren“  „Häufigkeiten“ möglich. Hier können analog zur numerischen Analyse der Daten
(Abbildung 1) Variablen ausgewählt werden. Nun klickt man allerdings auf „Diagramme“
anstatt auf „Statistik“. Im sich öffnenden Fenster können dann alternativ Balkendiagramme, Kreisdiagramme und Histogramme als grafische Darstellung gewählt werden Abbildung 4). Bei den Histogrammen kann zusätzlich noch die Linie der Normalverteilung eingeblendet werden.
Abbildung 4: Auswahl von grafischen Darstellungen in SPSS
Nach der Anwahl einer Grafik durch Anklicken wird auf „Weiter“ geklickt und dann wieder
anlog zur numerischen Auswertung auf „Ok“. Die Ergebnisse können dann wieder im
SPSS Viewer angesehen werden.
Die grafischen Darstellungen geben neben den Zentralmaßen weiter Aufschlüsse über die
Verteilung der Ausprägungen, die aus den Mittelwerten nicht hervorgeht.
11.05. und 18.05.2006
Seite 10
Methoden der empirischen Sozialforschung (SS 2006)
Univariate Statistik mit SPSS I
Am Ende dieser Arbeit soll noch eine besondere Darstellungsform, den Boxplot, in SPSS
vorgestellt werden. Dieser kann über das Menü „Grafik“  „Boxplot“ erstellt werden. Hier
gibt es verschiedene Optionen, wobei für einfache Darstellungen die Voreinstellungen
ausreichen (Abbildung 5 links). Es wird auf „Definieren“ geklickt. Danach wählt man die
Variablen aus, und eine Variable für die Kategorie, zum Beispiel das Geschlecht (Abbildung 5, rechts). Nun klickt man auf „Ok“.
Abbildung 5: Erstellung eines Boxplots in SPSS
Die Auswertung erscheint wiederum im SPSS Viewer. Die Grafik ist wie folgt zu interpretieren: Die dicke Linie gibt den Median an. Das graue Rechteck gibt den Bereich an, in
dem jeweils 25 Prozent ober- und unterhalb des Median liegen. Die Linien geben dann
den Bereich des Restes der Verteilung bis zum Maximum bzw. Minimum an, wobei einzelne Ausreißer separat ausgewiesen werden.
Der Boxpolt bietet also den Vorteil, dass Zentralmaß, Streuung und Ausreißer in einer
Grafik gezeigt werden können. Auf diese Weise kann sich schnell ein Überblick über die
Verteilung der Merkmalsausprägungen gewonnen werden.
11.05. und 18.05.2006
Seite 11
Methoden der empirischen Sozialforschung (SS 2006)
Univariate Statistik mit SPSS I
7
7
6
MDS3
5
4
3
2
1
Weiblich
Männlich
GESCHLECHT
Abbildung 6: Boxplot
In Abbildung 6 liegt also bei den weiblichen Probanden der Median bei 3,5. Jeweils 25
Prozent der beobachteten Werte fallen zwischen 3,5 und 4 und 3,5 und 2,5. Die restlichen
Merkmalsausprägungen zwischen 4 und 5 und 2,5 und 1. Datensatz sieben enthält einen
Ausreißer. Außerdem ist die Verteilung offensichtlich unsymmetrisch. Bei den männlichen
Testpersonen liegt der Median bei 3 und die Verteilung ist recht symmetrisch. Jeweils 25
Prozent liegen zwischen 3 und 2 und 3 und 4. Der maximale Wert liegt bei 5 und der minimale bei 1.
Literaturangabe:
-
Helmut Kromrey „Empirische Sozialforschung“ 11.Auflage
-
Prof. Dr. Reinhard Hujer „Reader zur Vorlesung Statistik“ am Fachbereich
Wirtschaftswissenschaften
11.05. und 18.05.2006
Seite 12
Herunterladen