Seminar: Methoden der empirischen Sozialforschung Leitung: Günter Burkart Sommersemester 2006 Referenten: Marcel Müller, Anna Tuller, Julian Kracht, Sabrina Thesz Termin: 11.5. und 18.5.2006 Mittelwert Definition: Maße der zentralen Tendenz Maße der zentralen Tendenz sind statistische Kennwerte, die uns in einer Zahl etwas über einen Satz von Messwerten aussagen. Typische Werte einer Verteilung sind dabei Arithmetisches Mittel Modalwert Median Arithmetisches Mittel: Beim arithmetischen Mittel dividiert man die Summe aller Einzelwerte durch die Anzahl der Messwerte ( Stichprobenumfang) Formel: M = xi/n Das arithmetische Mittel gibt also den Durchschnitt an. Beispiel: Die Messwerte lauten: 1,3,3,5,5,7,9 Mit M = xi/n ergibt M = 4,71 Denn: xi = 1+3+3+5+5+7+9 = 33 n = 7 M = 33/7 = 4,71 Dieser Mittelwert wird verwendet, wenn es sich beim Messniveau um ein metrisches Niveau handelt ( Intervall-, Verhältnisskalenniveau ). Unkorrekterweise wird das arithmetische Mittel aber auch bei ordinalem Skalenniveau angewandt ( z.B. Schulnoten ). Vorteile: - lässt sich leicht berechnen - ermöglicht weitere Berechnungen ( z.B. Standardabweichung, Varianz ) Nachteile: - sehr anfällig für Extremwerte ( Ausreißer ) - bei großem n sehr auswendig zu bestimmen Modalwert: Der Modalwert ist der Wert, der in einem Datensatz am häufigsten vorkommt. Beispiel: Zehn Studenten wurden nach ihrer Semesterzahl befragt: 2, 5, 4, 3, 1, 3, 5, 3, 4, 1, 3 Modalwert: 3 Vorteile: - der Modalwert kann direkt abgelesen werden ( größte absolute bzw. relative Häufigkeit ) - ist bei allen Messniveaus verwendbar - einziges Maß, das bei Nominal-Skalenniveau verwendet werden kann - sehr stabiles Maß ( reagiert unempfindlich auf Ausreißer ) Nachteile: - es kann mehrere Modalwerte geben, deshalb nur sinnvoll bei Daten mit wenig diskreten Ausprägungen - fehlerhafte Eindeutigkeit bei mehrgipfligen Verteilungen Verteilungen mit nur einem Modus und keinem weiteren relativen Hochpunkt werden als unimodal und eingipflig beschrieben. Beispiel: Verteilungen mit nur einem Modus und weiteren relativen Hochpunkten werden als unimodal und mehrgipflig beschrieben. Haben in einem Datensatz zwei nicht aufeinander folgende Werte die gleiche und zugleich größte Häufigkeit, so gibt es zwei Modalwerte. Die Verteilung ist in diesem Fall bimodal. Haben aufeinander folgende Werte die gleiche und auch größte Häufigkeit, so ist die Verteilung breitgipflig. Der Modalwert berechnet sich aus dem Mittel der maximalen Werte. Beispiel: Der Median: Der Median oder Zentralwert, ist der Wert, der die Verteilung genau in der Mitte in zwei gleichgroße Hälften teilt, d.h. er ist der Halbierungspunkt einer Menge. Zur Bestimmung des Medians müssen die Merkmalswerte bzw. Merkmalsträger zuerst in eine Rangordnung gebracht werden. Der Median kann daher nur dann bestimmt werden, wenn das Merkmal mindestens ordinalskaliert ist. Bei der Berechnung des Medianwertes ist es sinnvoll, zwischen gerader und ungerader Anzahl n zu unterscheiden. Beispiel: n = ungerade Für die 23 Beschäftigten der Schulte GmbH wurden die Fehlzeiten ( in Tagen ) für die letzten sechs Monate festgestellt. Formel: M = ( n+1 )/2 ( 23+1 )/2 Position 12 8 Der Beschäftigte mit der Position 12 hat genau acht Tage gefehlt. Der Median drückt also aus, dass 50% der Beschäftigten acht oder weniger Tage und 50% acht oder mehr Tage gefehlt haben. Beispiel: n = gerade Für die 20 Beschäftigten der Maier GmbH wurde die Fehlzeit ( in Tagen ) für das letzte halbe Jahr festgestellt. Formel: M = (x(n/2)+x((n/2)+1))/2 x ist der Merkmalswert des Merkmalsträgers (x(20/2) + x(20/2)+1))/2 = (Position 10 + Position 11)/2 = (6+7)/2 = 6,5 Der Median drückt also aus, dass 50% der Beschäftigten weniger als 6,5 und 50% mehr als 6,5 Tage gefehlt haben. Beurteilung: Der Median ist unbeeinflusst von Ausreißern, da er allein von der Anzahl der Merkmalsträger abhängig ist. Er lässt sich relativ schnell und einfach ermitteln. Nachteile der Maße der zentralen Tendenz: Die Maße der zentralen Tendenz beschreiben eine Verteilung nur unvollständig. Sie geben keine Auskunft über die Streuung der Daten. Mittelwert mit SPSS: Gehe unter „Analysieren“ auf „Deskriptive Statistiken“. Dort kann man die Variable wählen deren Mittelwert man berechnen möchte. Unter „Optionen“ kann man u.a. den Mittelwert, das Maximum und Minimum etc. auswählen. Klicke auf „OK“ und die gewünschten Angaben erscheinen in einer Tabelle. Grafiken Balkendiagramm: Das einfache Balkendiagramm stellt die Kategorien einer Variable dar. Beispiel: 5 Absolute Werte 4 3 2 1 0 18 19 20 22 23 24 25 26 27 29 32 33 53 54 Alter in Jahren Die Höhe des Balkens gibt die absolute Häufigkeit an, mit der die Werte genannt wurden. Anstatt der absoluten Häufigkeit können auch relative oder kumulierte Häufigkeiten dargestellt werden. Die Beschriftung der vertikalen Achse gibt die Bedeutung der Balken an. Nachteil: Eine genaue Untersuchung der Werte ist nicht möglich, da Häufigkeiten nur grob zu erkennen sind und nicht explizit genannt werden. Bei gruppierten Balkendiagrammen sollen Häufigkeiten verschiedener Werte einer Variablen im Vergleich dargestellt werden. Beispiel: Geschlecht 3,0 männlich weiblich Blau = männlich Grün = weiblich 2,5 Absolute Werte 2,0 1,5 1,0 0,5 0,0 18 19 20 22 23 24 25 26 27 29 32 33 53 54 Alter in Jahren Beim gestapelten Balkendiagramm kennzeichnet die gesamte Balkenhöhe die Häufigkeit, mit der eine Antwort insgesamt genannt wurde. Beispiel: Geschlecht 5 männlich weiblich Absolute Werte 4 3 2 1 0 18 19 20 22 23 24 25 26 27 29 Alter in Jahren 32 33 53 54 Beispiel für ein gestapeltes Balkendiagramm mit 100%-Skala: Geschlecht 1,0 0 0 0 männlich weiblich 0,8 1 1 Absolute Werte 3 0,6 1 1 1 1 2 2 1 1 1 1 0 0 0 29 32 33 53 1 0,4 1 0,2 1 2 0,0 0 18 19 20 0 0 22 23 24 0 0 25 26 27 54 Alter in Jahren Dieses Diagramm wird verwendet wenn die absolute Anzahl der Fälle uninteressant und im wesentlichen die Verteilung der einzelnen Antworten zwischen verschiedenen Gruppen von Bedeutung ist. Die Gesamtzahl der Fälle einer Antwort wird dabei auf 100% gesetzt, die unterschiedlichen Farben kennzeichnen lediglich die Anteile der verschiedenen Gruppen. Die Angaben sagen allerdings nichts über die absolute Anzahl der Antworten aus, jeder Balken stellt stattdessen für eine einzelne Antwort die Relation zwischen den verschiedenen Gruppen dar. Liniendiagramme: Einfache Liniendiagramme geben verschiedene Kategorien einer Variablen wieder. Beispiel: 5 Absolute Werte 4 3 2 1 18 19 20 22 23 24 25 26 27 29 32 33 53 54 Alter in Jahren Verbundenes Liniendiagramm: Geschlecht 7 männlich weiblich 6 Absolute Werte 5 4 3 2 1 0 1 2 3 4 4 Personenanzahl im Haushalt 5 Hier können Unterschiede zwischen zwei Variabeln stärker hervorgehoben werden, die einander entsprechenden Punkte der verschiedenen Datenreihen werden dafür mit einer senkrechten Linie verbunden. Die Länge der Linie zeigt die Differenz zwischen den Datenreihen an. Flächendiagramm: Beispiel: 5 Absolute Werte 4 3 2 1 0 18 19 20 22 23 24 25 26 27 29 32 33 53 54 Alter in Jahren Die obere Begrenzungslinie der Fläche endet mit dem letzten Wert bei 100%. Da die Abstände der Werte auf der horizontalen Achse nicht immer gleich sind wird die Darstellung verzerrt. Wie bei Liniendiagrammen kann man die obere Begrenzungslinie variieren, Flächen- und Liniendiagramme unterscheiden sich nur darin, dass die Fläche unterhalb der Begrenzungslinie ausgefüllt ist. Kreisdiagramm: Beispiel: Personenanzahl im Haushalt 1 2 3 4 4 5 Die Kreissegmente stellen die einzelnen Kategorien einer Variablen dar, die Größe der Segmente repräsentiert die Anzahl der Fälle mit den verschiedenen Werten. Kreisdiagramme eignen sich besonders gut, wenn einige wenige Werte miteinander verglichen werden sollen, v.a. dann wenn die Anteile der einzelnen Werte an der Gesamtverteilung im Vordergrund des Interesses stehen. Bei zu vielen Werten wird das Diagramm allerdings unübersichtlich und ist nicht mehr aussagekräftig. Erstellen eines Diagramms: Das Erstellen der Diagramme mit SPSS ist nicht schwer. Man geht auf „Grafiken“ und kann sich nun die verschiedenen Diagrammtypen aussuchen, z.B. „Balken“. In dem Fenster das sich nun öffnet kann man zwischen „einfach“, „gruppiert“ und „gestapelt“ wählen. Für die anderen Diagramme gilt das genauso. Allgemein: Um fehlende Werte mit in die Grafik aufzunehmen, geht man zunächst auf „Definieren“ . Es erscheint ein Dialogfeld mit der Schaltfläche „Optionen“, nun lässt man sich dort die „Fehlenden Werte als Kategorie anzeigen“.