Univariate Statistik mit SPSS 1 Deskriptive Statistik Die Deskriptive Statistik bzw. die beschreibende Statistik fasst alle Verfahren zusammen, die eine Menge von beobachteten Daten aufzeigen. 1.1 Maße der zentralen Tendenz (Lagemaß) Die zentrale Tendenz gibt - wie die Bezeichnung bereits verrät- Informationen über die generelle Neigung von Daten. Ein gleichwertiger Ausdruck für die zentrale Tendenz ist der Mittelwert. Die drei typischen Maße der zentralen Tendenz sind: der Modus, der Median und das arithmetische Mittel. 1.1.2 Der Modus Generell bezeichnet man die Ausprägung einer Variablen, die am häufigsten vorkommt, als den Modus bzw. den Modalwert. Dieser Wert kann direkt aus einer Häufigkeitstabelle entnommen werden. Sind die Daten ungruppiert bzw. unsortiert ist der Modus der Wert, der am häufigsten vorkommt, also „...die größte absolute bzw. relative Häufigkeit...“ 1 besitzt. Weiterhin kann der Modus, als einziges Maß der zentralen Tendenz, bei nominalem Messniveau verwendet werden. Bei gruppierten Daten ist der Modus die Klassenmitte, die am häufigsten vorkommt. Berechnet durch: mk= uk+ok 2 mk...Klassenmitte uk....untere Grenze der Klassenmitte ok....obere Grenze der Klassenmitte 1.1.2 Median Beschreibt die exakte Mitte einer Verteilung, wobei die einzelnen beobachteten Werte der Größe nach geordnet sind. Bei ungerader Fallzahl ist der Median der „ Statistik für die Sozialwissenschaften Grundlagen Methoden Anwendungen“, rowohlts Enzyklopädie, Steffen- M. Kühnel/ Dagmar Krebs, S.68. 1 1 mittlere Wert. Bei gerader Fallzahl wird der Median ermittelt, indem man die beiden mittleren Werte, innerhalb der Rangfolge, erst addiert und dann durch zwei dividiert. 1.1.3 Arithmetisches Mittel Vereinfacht gesehen wird das arithmetische Mittel als Durchschnitt oder Mittelwert bezeichnet. 1.2 Streuungsmaß Das Streuungsmaß ist ein Kennwert (Parameter) univariater Verteilung. Zudem ist es notwendig, weil die Maße der zentralen Tendenz ungenau oder unvollständig beschreibt. Im Allgemeinen informiert das Streuungsmaß über die Heterogenität (Ungleichheit) der Werte. 1.2.1 Varianz Laut dem Deutschen Duden ist die Varianz ein Maß für die Abweichung von einem Mittelwert. Des Weiteren bezeichnet man sie auch als durchschnittliche mittelwertbereinigte Quadratsumme. Die Varianz wird wie folgt berechnet: „Die Summe der quadrierten Abweichungen aller Messwerte vom arithmetischen Mittel, dividiert durch die Anzahl aller Messwerte, ergibt die Varianz.“2 Symbol: s²= (Xi - M) ² n Der Sinn dieser Berechnung liegt darin, eine fallzahlunabhängige Größe zu erhalten. Generell gelten folgenden Bedingungen: Je deutlicher die Realisationen (=empirisch beobachteter Wert einer Variablen bei einem Fall) vom Mittelwert abweichen, desto größer ist die Varianz der einzelnen Variablen. Umso kleiner die Varianz, desto näher liegen die Realisationen beim Mittelwert. 2 Methoden der empirischen Statistik.S.41. 2 Der kleinstmögliche Wert einer Varianz ist null. Dieser Wert tritt nur dann auf, wenn alle Werte einer Verteilung identisch sind. In diesem Fall ist die Varianz eine Konstante. Im Folgenden soll erklärt werden wie man die Varianz mit Hilfe des SPSSProgramms berechnen kann. Starten des Programms SPSS „Analysieren““Deskriptive Statistik““Häufigkeiten“ Links ein Beispiel auswählen“Statistik“ öffnen“Varianz “anklicken „Weiter“ “o.k.“ Varianz in Häufigkeitstabelle ablesen Häufigkeiten Statistiken Studiengang_L2 N Gültig Fehlend Varianz 1496 0 ,089 1.2.2 Standardabweichung Mittels der Standardabweichung wird der Nachteil der Varianz ausgeglichen. Grund dafür ist die Verzerrung der Messwerte, in Folge der Quadrierung bei der Varianz. Die Standardabweichung ist also die Quadratwurzel aus der Varianz. Das daraus resultierende Ergebnis wird als Standardabweichung bezeichnet. Als Symbol wird hier „s“ verwendet. Im Folgenden soll nun der Weg beschrieben werden, wie man mit SPSS die Standardabweichung berechnen kann: 3 SPSS öffnen und auf „Analysieren“ klicken“Deskriptive Statistik““Häufigkeiten“ ein Beispiel auf der linken Seite markieren und auf dem rechts stehenden Pfeil klicken; danach „Statistik“ wählen “Standardabweichung“ markieren und auf „Weiter“ klicken“o.k.“Tabelle öffnet sich Geht man davon aus, dass eine Verteilung unimodal, symmetrisch ist und einen glockenförmigen Kurvenverlauf aufweist, so liegt eine Normalverteilung vor. Normalverteilungskurve: 4 Eigenschaften: glockenförmiger Verlauf symmetrische Verteilung Modalwert, Median, arithmetisches Mittel fallen zusammen Verteilung nähert sich asymptotisch an x- Achse zwischen den zu den Wendepunkten gehörenden X-Werten befindet sich ca. 2/3 der Gesamtfläche Es gilt für die Standardabweichung: im Bereich: -1 +1 liegt eine Standardabweichung von 68.3% vor im Bereich: -2 +2 liegt eine Standardabweichung von 95.5% vor im Bereich: -3 +3 liegt eine Standardabweichung von 99.7% vor 1.2.3 Andere Beispiele Spannweite Die Spannweite erfasst den Abstand zwischen minimalen und maximalen Wert einer Verteilung. Der Nachteil dabei ist jedoch, dass „Ausreißer“ das Ergebnis stark verzerren können. Des Weiteren sind sie wenig informativ, d.h. sie geben nur wenig Auskunft über die Verteilung zwischen den Extremwerten. durchschnittliche absolute Abweichung Die durchschnittliche absolute Abweichung ist notwendig, weil mit steigender Fallzahl auch die Anzahl der Summanden steigt und damit die Summe der absoluten Abstände vom Mittelwert. Aufgrund dessen versucht man den Einfluss auf das Streuungsmaß auszugleichen, indem man die Summe der absoluten Abweichungen durch die Fallzahl „n“ teilt. Das Symbol der durchschnittlichen Abweichung ist: AD. Quartilabstand Im Allgemeinen betrachtet, beschreibt das Quantil die Einteilung einer Messwertreihe in vier gleichgroße Abschnitte. Die Quantilwerte, die die jeweiligen Abschnitte voneinander trennen, bezeichnet man auch als Quartile. Während das erste oder untere Quartile den Wert einer Stichprobe, unterhalb dessen 25% der Messwerte liegen bezeichnet, beschreibt das zweite Quartile (= Median) den Punkt, unterhalb 5 dessen 50% der Messwerte liegen. Das dritte oder oberes Quartile kennzeichnet den Punkt, unterhalb dessen sich 75% der Messwerte befinden. Variationskoeffizient Der Variationskoeffizient Vx wird gebildet, indem man die Standardabweichung einer Variablen durch den jeweiligen Mittelwert dividiert. Weiterhin ist bekannt, dass Variablen mit großen Mittelwerten auch große Standardabweichungen haben. Um dieses Merkmal zu berücksichtigen ermittelt man den Variationskoeffizienten Vx. Der Variationskoeffizient ist maßstabunabhängig. Devianz Die Devianz ist ein Streuungsmaß für normalskalierte Variablen. Sie resultiert aus der mit 2 multiplizierten Ausprägungshäufigkeit nk Summe und der aus den Produkte aus Logarithmen der absoluten der relativen Ausprägungshäufigkeit pk. Symbol: Dx 2 Die grafische Darstellung von Verteilungen Im Allgemeinen liefert die grafische Darstellung kompakte Informationen über die Verteilung von Häufigkeiten. 2.1 Visualisierung Häufigkeitsverteilungen metrischer Variablen Bei metrischen Variablen gibt es folgende Methoden der grafischen Darstellung: a) Stabdiagramm Hier werden die absoluten oder relativen Häufigkeiten als lange Linien dargestellt, welche sich nicht berühren. Kein_Schein 1200 1000 800 600 Häufigkeit 400 200 0 0 1 Kein_Schein 6 b) Histogramm Prinzipiell wird das Histogramm bei gruppierten Daten verwendet, wobei alle Werte als einfache Balken dargestellt werden, die sich aber nicht gegenseitig berühren. Grundsätzlich gilt für die Balken „(...)das Prinzip der Flächentreue, d.h. die Fläche ( das Produkt aus Balkenhöhe und Balkenbreite) ist proportional zur Häufigkeit der Klassen.“3 Demzufolge ist die Balkenhöhe auch proportional zu der empirischen Häufigkeitsdichte. Die eben erwähnte empirische Häufigkeitsdichte wird ermittelt durch den Quotienten der relativen Häufigkeit einer Klasse, dividiert durch die Klassenbreite. VeranstaltungID 400 300 200 Häufigkeit 100 Std.abw. = 59,49 Mittel = 2970,9 N = 1496,00 ,0 80 30 ,0 60 30 ,0 40 30 ,0 20 30 ,0 00 30 ,0 80 29 0 ,0 6 29 ,0 40 29 ,0 20 29 ,0 00 29 0 VeranstaltungID c) Kern- Dichte- Schätzer Der Kern- Dichte- Schätzer ist auch anders ausgedrückt eine Weiterbildung des Histogramms. Es gilt : Für jeden Wert X wird die empirische Dichte berechnet. Jeder Wert der Dichte ist abhängig von Realisationen, die in der Umgebung von einer Variablen X berücksichtigt werden. Je weiter die Umgebung, desto glatter der Kurvenverlauf. (umgekehrt: zerklüftet) Die Dichtewerte sind von der Berechnungsformel abhängig. 3 „Statistik für die Sozialwissenschaften“ Grundlagen Methoden Anwendungen. rowohlts Enzyklopädie. S.58 7 d) Box-Plots Box-Plots komprimieren ebenfalls zentrale Aspekte der empirischen Häufigkeitsverteilung. 3200 3100 VeranstaltungID 3000 2900 2800 N = 1496 WS SEMESTER Während der rote Kasten den mittleren Teil der Verteilung symbolisiert, beschreiben die waagerechten Linien, außerhalb der Box, jeweils den kleinsten und größten Wert einer Verteilung. Alle Werte, die sich auf den waagerechten Linien befinden, markieren die Extremwerte bzw. die Ausreißer. „Die Grenzen der Box entsprechen in etwa dem 25%- Quantil (untere Grenze) und dem 75%- Quantil (obere Grenze)“4 Der mittlere Strich innerhalb der roten Box demonstriert den Mittelwert und entspricht demnach dem 50%- Quantil. 2.2 Visualisierung normalskalierter Variablen Möglichkeiten der Darstellung: a) Tortendiagramm b) Balkendiagramm c) Kreisdiagramm d) Säulendiagramm SCHEIN KS Scheinvergabe a) Tortendiagramm 4 c) Kreisdiagramm Statistik für die Sozialwissenschaften“ Grundlagen Methoden Anwendungen. rowohlts Enzyklopädie. S.61 8 Studiengang_L5 1400 1200 1000 800 600 Häufigkeit 400 200 0 0 1 Studiengang_L5 b) Balkendiagramm d) Säulendiagramm 3 Praktische Übungen mit SPSS 3.1 Transformation von Dateien Anleitung zum Transformieren von Dateien aus Excel in SPSS: Programm SPSS öffnen und auf „Datei ÖffnenDaten“ gehen bei „Suche in“ den entsprechenden Ordner mit den Daten suchen und anklicken Listenfeld „Dateityp“: Excel (*.xls) eingeben “Öffnen“ anklicken ist ein Häkchen bei „Variablennamen aus ersten Dateizeile lesen“, werden die Spaltenüberschriften als Variablennamen eingelesen „OK“ anklicken alle Daten werden transformiert 3.2 Zusammenführen von Dateien Anleitung zum Hinzufügen von Fällen in SPSS: Programm SPSS öffnen und auf „DateiDateien zusammenfügenFälle hinzufügen“ gehen gewünschte Datei eingeben „Öffnen“ anklicken den hinzuzufügenden Fall angeben „OK“ anklicken Die Anzahl der Fälle verdoppelt sich 9 Anleitung zum Hinzufügen von Variablen in SPSS: Programm SPSS öffnen und auf „DateiDateien zusammenfügenVariablen hinzufügen“ gehen gewünschte Datei eingeben „Öffnen“ anklicken die hinzuzufügende Variable angeben „OK“ anklicken Datei erweitert sich um die gewünschte Variable 3.3 Berechnen und Umcodieren von Variablen Oftmals sind die Daten nicht von Anfang an sinnvoll für Analysen geeignet, weshalb eine Umcodierung notwendig wird. Anleitung zum Umcodieren von Dateien: SPSS öffnen“Transformieren““Umcodieren““in andere Variablen“ neue Werte eingeben und auf o.k. Das Berechnen von neuen Variablen ist sinnvoll, um die Informationsbreite zu erweitern. Anleitung zum Berechnen von neuen Variablen SPSS öffnen“Transformieren“ “Berechnen“ Zielvariable und numerischer Ausdruck eingeben o.k. neue Variable in Datenansicht letzte Spalte erkennbar 3.4 Aufteilen von Dateien Primär führt die Aufteilung von Dateien zu einer gewissen Übersichtlichkeit in der grafischen Darstellung von Verteilungen.(z.B. in Häufigkeitstabellen) Es trägt demnach zur Bildung von Gruppen oder Kategorien bei. Anleitung zum Aufteilen: SPSS öffnen“Daten“ “Daten aufteilen“ “Ausgabe nach Gruppen aufteilen“ anklicken Beispiel in linker Spalte aussuchen“o.k. “Analysieren“ „Deskriptive Statistik“ “Häufigkeiten“ Beispiel auswähleno.k. 10 4 Quellenverzeichnis Bücher - „Statistik für Sozialwissenschaften“ Grundlagen Methoden Anwendungen. Rowohlts Enzyklopädie. Steffen Kühnel/ Dagmar Krebs - „Aufgabensammlung zur <Statistik für die Sozialwissenschaften>“. Rowohlts Enzyklopädie. Dagmar Krebs/ Steffen - M. Kühnel/ Marita Jacob - Benninghaus, Hans: Einführung in die sozialwissenschaftliche Datenanalyse. 5., vollständig überarbeitete Auflage. München 1998. - Clauß, Günter; Finze, Falk-Rüdiger; Partzsch, Lothar: Statistik. Für Soziologen, Pädagogen, Psychologen und Mediziner. Grundlagen. 2., überarbeitete und erweiterte Auflage. Frankfurt am Main 1995. 11