Methoden der empirischen Sozialforschung Univariate Statistik SPSS I vom 11.05 und 18.05 bei Dr. Günter Burkart Daniela Wasmuth Nica Böttcher Johannes Wahl Elisabeth Lange Methoden der empirischen Sozialforschung (SS 2006) Univariate Statistik mit SPSS I Gliederung 1. Mittelwert 1.1 1.2 1.3 1.4 Arithmetische Mittel Modus Quantil Median 2. Datenerfassung in SPSS 2.1 Definieren von Variablen 2.2 Eingabe der Daten 3. Bestimmung von Mittelwerten in SPSS 4. Graphische Darstellung in SPSS 11.05. und 18.05.2006 Seite 2 Methoden der empirischen Sozialforschung (SS 2006) Univariate Statistik mit SPSS I 1 Mittelwerte Mittelwerte geben einen Eindruck über die zentrale Tendenz von Daten. Im Folgenden sollen die wichtigsten Zentralmaße kurz vorgestellt werden. 1.1 Arithmetisches Mittel Das arithmetische Mittel kann für Einzelwerte, für Häufigkeitsverteilungen und klassierte Merkmalsausprägungen berechnet werden. Sinnvollerweise kann das arithmetische Mittel nur für metrisch skalierte Merkmale berechnet werden. Hierbei ist es unerheblich, ob es sich um eine Intervall- oder Verhältnisskala handelt. Folglich ist die allgemein übliche Berechnung von Durchschnittsnoten von Klausurergebnissen eines Kurses unzulässig, da es sich hierbei um ordinal skalierte Merkmale handelt. Jedoch wird eine so genannte Pseudometrisierung vorgenommen, in dem einfach das arithmetische Mittel gebildet wird. Hierbei wird unterstellt, dass zwischen den einzelnen Noten die gleichen Abstände liegen. Zur Berechnung für Einzelwerte addiert man alle Merkmalsausprägungen zusammen und dividiert die Summe durch die gesamte Anzahl jener. Für n Einzelwerte berechnet sich das arithmetische Mittel wie folgt: n ∑ xi x= i=1 n Die Summe der Abweichungen der einzelnen Merkmalsausprägungen vom arithmetischen Mittel ist Null, da sich negative und positive Differenzen gegeneinander aufheben: n ∑ (xi – x) = 0 i=1 Für die quadrierten Abweichungen der einzelnen Ausprägungen von jenem gilt, dass die Summe dieser minimal wird, also kleiner als von jedem anderen Wert: n ∑ (xi – x)² = Min i=1 Zur Berechnung des arithmetischen Mittels von Häufigkeitsverteilungen wird das Gewogene arithmetische Mittel berechnet. Hierbei gewichtet man die verschiedenen Merkmalsausprägungen mit deren Häufigkeiten und addiert die dann die einzelnen Produkte. Diese 11.05. und 18.05.2006 Seite 3 Methoden der empirischen Sozialforschung (SS 2006) Univariate Statistik mit SPSS I Summe dividiert man dann durch die Anzahl der Merkmalsausprägungen insgesamt. Formal wird diese Vorgehensweise wie folgt beschrieben: k x= ∑ xini i=1 n Eine weitere Variante des arithmetischen Mittels ist die Berechnung für klassierte Merkmalsausprägungen. Hierbei wird ähnlich wie bei der Bildung für Häufigkeitsverteilungen verfahren. Allerdings geht man nun von der Klassenmitte, anstatt den einzelne Ausprägungen aus. Es wird also unterstellt, dass sich die Werte innerhalb einer Klasse symmetrisch um die Klassenmitte verteilen. Folgende Formel wird zur Berechnung verwendet, wobei xi* die jeweilige Klassenmitte und ni die jeweilige Klassenhäufigkeit beschreibt: k x= ∑ xi*ni i=1 n Das arithmetische Mittel weist zwei wesentliche Schwächen auf. Zum einen kann dessen Lage durch so genannte Ausreißer vor allem bei kleinen Datenmengen verzerrt werden. Sei zum Beispiel folgende Verteilung gegeben: Drei Mal die Merkmalsausprägung eins, vier Mal die zwei und zwei Mal die zehn. Diese Verteilung hat das arithmetische Mittel 3,44, obwohl sich fast 80 Prozent aller Merkmalsausprägungen auf eins und zwei verteilen. Zum anderen können zwei Verteilungen ein identisches arithmetisches Mittel haben, diese jedoch völlig unterschiedlich aussehen können. Zum Beispiel hat die Verteilungen zwölf Mal die eins und zwölf Mal die sechs ebenso das arithmetische Mittel 3,5 wie die Verteilung mit jeweils zwölf Mal die Ausprägung drei und vier. Somit ist das arithmetische Mittel zur Beschreibung einer Verteilung bzw. einer Datenmenge nur bedingt geeignet. Um aussagefähigere Werte zu erhalten, sollte zu einem Mittelwert immer auch die Streuung betrachtet werden. Die einfachste Variante wäre die Spannweite (die Differenz zwischen der größten und kleinsten Ausprägung) und den größten und kleinsten Wert anzugeben. Andere geeignete Maße sind die Varianz und die Standardabweichung. Die Standardabweichung gibt an um wie viel die einzelnen Ausprägungen durchschnittlich vom Mittelwert abweichen. Zusammen mit dem arithmetischen Mittel gibt sie einen guten ersten Eindruck über die Gestalt der Datenmenge. 11.05. und 18.05.2006 Seite 4 Methoden der empirischen Sozialforschung (SS 2006) Univariate Statistik mit SPSS I 1.2 Modus Der Modus ist die häufigste Merkmalsausprägung in einer Datenmenge. Ist die Verteilung annähernd symmetrisch kann der häufigste Wert schnell einen Anhaltspunkt für die zentrale Tendenz geben. Diese Maßzahl kann bei allen Skalenniveaus angewendet werden. Seine Anwendung spielt vor allem bei nominal skalierten Merkmalen eine große Rolle, da er hier der einzig sinnvolle Wert für die zentrale Tendenz ist. 1.3 Quantile Die Quantile zerlegen ihre zu untersuchenden Datenmenge in einzelne Gruppen anhand derer man die entsprechenden Aussagen ableitet. Man teilt auf in Percentile (100 Abschnitte), Dezile ( 10Abschnitte) und das am häufigsten angewandte Mittel, die Quartile ( hierbei wird in 4 Bereiche unterteilt) Bei Gruppierung in zwei Bereiche spricht man vom Median. 1.4 Median (Zentralwert) Ein anderer Mittelwert ist der Zentralwert. Dies ist der Wert, der genau in der Mitte einer in Reihenfolge gebrachten Datenmenge liegt. Es liegen genau 50 Prozent der beobachteten Merkmalsausprägungen ober- und 50 Prozent unterhalb des Median. Dieser kann im Gegensatz zum arithmetischen Mittel nicht nur bei metrischen Merkmalen, sondern auch bei Ordinalen angewandt werden. Vor allem beim Vorhandensein von Ausreißern oder bei stark asymmetrischen Verteilungen sollte stets der Median angegeben werden, um Verzerrungen der Ergebnisse bei der Berechnung des Durchschnittes zu vermeiden. Also wäre der Median der Werte 11; 12; 14; 16 in diesem Fall zum Beispiel 13. 11.05. und 18.05.2006 Seite 5 Methoden der empirischen Sozialforschung (SS 2006) Univariate Statistik mit SPSS I 2 Datenerfassung in SPSS In der Benutzeroberfläche von SPSS gibt es zwei Ansichten. Die Variablenansicht und die Datenansicht. In der ersten werden die Variablen näher definiert und in der zweiten werden dann die Daten eingegeben. 2.1 Definieren von Variablen Zur Definition von Variablen muss man in der Benutzeroberfläche von SPSS unten links auf den Reiter Variablenansicht klicken. Hier kann man in der ersten Spalte die Variable benennen. Die Variablen von oben nach unten erscheinen in der Datenansicht als Spaltenköpfe von links nach rechts. Nun können für jede Variable noch verschiedene Eigenschaften definiert werden. Hierbei ist darauf zu achten, dass diese zu den späteren Daten passt. Zunächst kann in der zweiten Spalte der Typ definiert werden. Hier stehen zum Beispiel numerisch für Zahlen oder String für Texte zur Verfügung. Diese Eigenschaft wird festgelegt, in dem man auf die drei Punkte auf der rechten Seite der Zelle klickt. Nun öffnet sich ein Dialogfeld. In der dritten Spalte kann nun die Spaltenbreite der Variablen bestimmt werden, d.h. wie viele Stellen die Variable hat. In der vierten Spalte können die Dezimal- also Nachkommastellen festgelegt werden. Besonders wichtig sind dann noch die Spalten Wertelabels und Messniveau. Bei den Wertelabels können für Werte von Daten Texte definiert werden, in dem auf die drei Punkte an der Zelle geklickt wird. Im sich öffnenden Dialogfeld kann man dann die Labels festlegen, zum Beispiel könnte die Variable „Geschlecht“ die Werte 1 und 2 mit den Wertelabels „Weiblich“ und „Männlich“ annehmen. Wichtig ist, dass die hier definierten Labels zum Codeplan passt, der für die Eingabe der Daten maßgeblich ist. In der Spalte Messniveau legt man das Skalenniveau der Variablen fest. Über ein einfaches Pull-down-Menü kann man auswählen, ob die Variable nominal, ordinal oder metrisch skaliert sein soll. Sollten einmal eine Variable hinzukommen kann die Liste einfach verlängert werden, auch wenn bereits Daten eingegeben wurden. Soll die zwischen Variablen eine weiter eingefügt 11.05. und 18.05.2006 Seite 6 Methoden der empirischen Sozialforschung (SS 2006) Univariate Statistik mit SPSS I werden, so kann dies folgendermaßen geschehen: es wird mit der rechten Maustaste auf die Zeilenbezeichnung der Zeile geklickt, oberhalb der eine weitere Variable eingefügt werden soll. Im sich öffnenden Menü wird „Variablen einfügen“ ausgewählt und es wird eine neue oberhalb der markierten Zeile eingefügt. Zum Löschen einer Variablen klickt man ebenfalls mit der rechten Maustaste auf die Bezeichnung der zu löschenden Zeile und wählt nun „Löschen“ aus. Die Variable verschwindet darauf. 2.2 Eingabe der Daten Nachdem die benötigten Variablen definiert wurden, können die Daten eingegeben werden. Hierzu klickt man in der linken unteren Ecke auf den Reiter Datenansicht. Hier erscheinen nun die definierten Variablen als Spalten und man gibt von links nach rechts die Werte eines Datensatzes ein. Eine Zeile steht also für einen Datensatz. Vor der Eingabe, zum Beispiel von Daten aus Fragebögen, muss ein Codeplan erstellt werden. Dieser gibt genau an, welcher Wert welche Variablen zugeordnet wird und welcher Wert für welche Angabe steht. Hier kann wieder das Beispiel des Geschlechtes angeführt werden. Hier muss der Codeplan angeben, welche Variable die Antwort auf die Frage nach dem Geschlecht aufnimmt und welche Wert für Männlich und welcher für Weiblich steht. Der Codeplan ist vor allem bei der Arbeit im Team wichtig, damit alle Mitglieder unabhängig von einander auf gleiche Weise die Daten eingeben. Nun werden die Daten der Reihe nach eingegeben. Es wird empfohlen auf dem Rohmaterial, zum Beispiel dem Fragebogen, die Nummer des Datensatzes zu vermerken, damit später bei eventuellen Auffälligkeiten oder Unstimmigkeiten der entsprechende Datensatz noch einmal mit den Originaldaten abgeglichen werden kann. Die Nummer des Datensatz entspricht der Zeilennummer in der Datenansicht. Zur Änderung von Daten werden die zu ändernden Zellen einfach angeklickt und können dann überschrieben werden. Es können auch ganze Datensätze eingefügt werden. Dies geschieht wiederum durch klicken auf die Zeilenbezeichnung mit der rechten Maustaste. Nun wählt man „Fälle einfügen“ aus und es wird ein weiterer, leerer Datensatz oberhalb eingefügt. Ebenfalls können analog zur Variablenansicht ganze Datensätze gelöscht werden (Vgl. Gliederungspunkt 2.1). 11.05. und 18.05.2006 Seite 7 Methoden der empirischen Sozialforschung (SS 2006) Univariate Statistik mit SPSS I Zuletzt sei noch kurz auf die Möglichkeit verwiesen ganze Datenbanken aus Excel oder Access in SPSS zu laden. Hierzu geht man über das Menü „Datei“ „Datenbank öffnen“ „Neue Abfrage“. Hier kann man dann mit Hilfe eines Assistenten die gewünschten Daten nach SPSS importieren. 3 Bestimmung von Mittelwerten in SPSS Sind alle erhobenen Daten eingegeben, können diese mit Hilfe der in SPSS enthaltenen Methoden analysiert werden. Hier können im ersten Schritt, die in Gliederungspunkt 1 beschriebenen Mittelwerte berechnet werden. Die Auswertung wird folgendermaßen durchgeführt: Es wird das Menü „Analysieren“ „Häufigkeiten“ ausgewählt. Es öffnet sich das Dialogfenster Häufigkeiten. Hier können über den Pfeil-Button die durch Anklicken markierten Variablen ausgewählt werden (Abbildung 1). Diese können auch durch einen Doppelklick auf die Variable ausgewählt werden. Die Auswertung wird für alle ausgewählten Variablen durchgeführt. Durch markieren von ausgewählten Variablen und Klicken auf den PfeilButton kann die Auswahl rückgängig gemacht werden. Abbildung 1: Auswählen von Variablen zur Datenanalyse in SPSS Durch Klicken auf „Statistik“ in der linken unteren Ecke des Dialogfeldes Häufigkeiten öffnet sich ein weiteres Fenster. Hier können die Mittelwerte durch Anklicken der Kästchen ausgewählt werden: Arithmetisches Mittel (Mittelwert), Median, Modalwert (Abbildung 2). 11.05. und 18.05.2006 Seite 8 Methoden der empirischen Sozialforschung (SS 2006) Univariate Statistik mit SPSS I Abbildung 2: Berechnung von Mittelwerten Nun klickt man auf „Weiter“ und im Fenster Häufigkeiten auf „Ok“. Es öffnet sich der SPSS Viewer und zeigt das Ergebnis der Datenauswertung an. Dort ist das Ergebnis in Form einer Tabelle dargestellt (Abbildung 3). SPSS bietet den Vorteil, dass die Ergebnisse im Viewer durch Anklicken und Copy und Paste sehr unkompliziert in Powerpoint (für Präsentationen) oder Word (für Berichte) zu übertragen sind. Statistiken MDS5 N Gültig Fehlend Mittelwert Median Modus 48 0 2,77 3,00 2 Abbildung 3: Auswertung im SPSS Viewer Über der Tabelle sieht man die Bezeichnung der betrachteten Variablen. In der Tabelle wird angezeigt wie viele Werte in die Auswertung mit einbezogen wurden. Fehlende Werte sind als leere Zellen in der Datenansicht zu verstehen. Diese werden von SPSS standardmäßig unberücksichtigt gelassen. Darunter findet man die gewünschten Werte für die Zentralmaße (Abbildung 3). 11.05. und 18.05.2006 Seite 9 Methoden der empirischen Sozialforschung (SS 2006) Univariate Statistik mit SPSS I 4 Grafische Darstellungen in SPSS Neben den Auswertung in Zahlen bietet SPSS ebenfalls die Möglichkeit, Daten grafisch darzustellen. Im Folgenden sollen die wichtigsten grafischen Darstellungen kurz beschrieben werden. Eine einfache Möglichkeit gängige Grafiken zu erstellen, ist ebenfalls im Menü „Analysieren“ „Häufigkeiten“ möglich. Hier können analog zur numerischen Analyse der Daten (Abbildung 1) Variablen ausgewählt werden. Nun klickt man allerdings auf „Diagramme“ anstatt auf „Statistik“. Im sich öffnenden Fenster können dann alternativ Balkendiagramme, Kreisdiagramme und Histogramme als grafische Darstellung gewählt werden Abbildung 4). Bei den Histogrammen kann zusätzlich noch die Linie der Normalverteilung eingeblendet werden. Abbildung 4: Auswahl von grafischen Darstellungen in SPSS Nach der Anwahl einer Grafik durch Anklicken wird auf „Weiter“ geklickt und dann wieder anlog zur numerischen Auswertung auf „Ok“. Die Ergebnisse können dann wieder im SPSS Viewer angesehen werden. Die grafischen Darstellungen geben neben den Zentralmaßen weiter Aufschlüsse über die Verteilung der Ausprägungen, die aus den Mittelwerten nicht hervorgeht. 11.05. und 18.05.2006 Seite 10 Methoden der empirischen Sozialforschung (SS 2006) Univariate Statistik mit SPSS I Am Ende dieser Arbeit soll noch eine besondere Darstellungsform, den Boxplot, in SPSS vorgestellt werden. Dieser kann über das Menü „Grafik“ „Boxplot“ erstellt werden. Hier gibt es verschiedene Optionen, wobei für einfache Darstellungen die Voreinstellungen ausreichen (Abbildung 5 links). Es wird auf „Definieren“ geklickt. Danach wählt man die Variablen aus, und eine Variable für die Kategorie, zum Beispiel das Geschlecht (Abbildung 5, rechts). Nun klickt man auf „Ok“. Abbildung 5: Erstellung eines Boxplots in SPSS Die Auswertung erscheint wiederum im SPSS Viewer. Die Grafik ist wie folgt zu interpretieren: Die dicke Linie gibt den Median an. Das graue Rechteck gibt den Bereich an, in dem jeweils 25 Prozent ober- und unterhalb des Median liegen. Die Linien geben dann den Bereich des Restes der Verteilung bis zum Maximum bzw. Minimum an, wobei einzelne Ausreißer separat ausgewiesen werden. Der Boxpolt bietet also den Vorteil, dass Zentralmaß, Streuung und Ausreißer in einer Grafik gezeigt werden können. Auf diese Weise kann sich schnell ein Überblick über die Verteilung der Merkmalsausprägungen gewonnen werden. 11.05. und 18.05.2006 Seite 11 Methoden der empirischen Sozialforschung (SS 2006) Univariate Statistik mit SPSS I 7 7 6 MDS3 5 4 3 2 1 Weiblich Männlich GESCHLECHT Abbildung 6: Boxplot In Abbildung 6 liegt also bei den weiblichen Probanden der Median bei 3,5. Jeweils 25 Prozent der beobachteten Werte fallen zwischen 3,5 und 4 und 3,5 und 2,5. Die restlichen Merkmalsausprägungen zwischen 4 und 5 und 2,5 und 1. Datensatz sieben enthält einen Ausreißer. Außerdem ist die Verteilung offensichtlich unsymmetrisch. Bei den männlichen Testpersonen liegt der Median bei 3 und die Verteilung ist recht symmetrisch. Jeweils 25 Prozent liegen zwischen 3 und 2 und 3 und 4. Der maximale Wert liegt bei 5 und der minimale bei 1. Literaturangabe: - Helmut Kromrey „Empirische Sozialforschung“ 11.Auflage - Prof. Dr. Reinhard Hujer „Reader zur Vorlesung Statistik“ am Fachbereich Wirtschaftswissenschaften 11.05. und 18.05.2006 Seite 12