Fribourg, 3. Mai 2005 Einführung in die Methoden der empirischen Sozialforschung Forschungsmethoden Masse der zentralen Tendenz Horst Biedermann Departement Erziehungswissenschaften, Universität Fribourg Fribourg, 3. Mai 2005 Einführung in die Methoden der empirischen Sozialforschung Deskriptive vs. Inferenz-Statistik Deskriptive Statistik Beschreibung von Daten mit Hilfe statistischer Kennwerte: anhand der Masse der zentralen Tendenz (Masse der „Mitte“) und der Dispersion (Variabilität) beschreibende Statistik Schliessende Statistik (Inferenzstatistik) Beurteilung von Daten, ob sie den Hypothesen entsprechen: Schätzen von Parametern und Berechnung statistischer Signifikanz schlussfolgernde Statistik Fribourg, 3. Mai 2005 Einführung in die Methoden der empirischen Sozialforschung Häufigkeiten Geschlecht der Teilnehmenden an der Veranstaltung „Einführung in die Methoden der empirischen Sozialforschung im SS 2005 Kategorie f (x) cumf(x) % cum% weiblich 18 18 85,7 82,1 männlich 3 21 14,3 100,0 Total 21 absolute Häufigkeiten 100.0 kumulierte absolute Häufigkeiten relative Häufigkeiten in Prozent kum. relative Häufigkeiten in Prozent Fribourg, 3. Mai 2005 Einführung in die Methoden der empirischen Sozialforschung Kategorien Problem: sehr viele Merkmalsausprägungen Lösung: Zusammenfassung der beobachteten Daten aus bestimmten Wertbereichen zu Gruppen bzw. Kategorien Beispiel: „12 Minutenlauf“ im Rahmen eines Fitnesstests 2000 m ≤ x ≤ 2250 m 2250 m ≤ x ≤ 2500 m ... 3750 m ≤ x ≤ 4000 m Vorteil übersichtliche Anzahl an Kategorien, innerhalb derer die Anzahl der zugehörigen Fälle zusammengefasst wird Nachteil Reduktion der Informationen Fribourg, 3. Mai 2005 Einführung in die Methoden der empirischen Sozialforschung Kategorien: Breite und Anzahl Regeln zur Kategorienbreite und –anzahl: Ausschliesslichkeit der Kategorien (disjunkt) jedes beobachtete Ereignis (bzw. jeder Wert kann nur einer Kategorie zugeordnet werden Benachbarte Konzipierung der Kategorien es darf keine „Lücke“ zwischen zwei Kategorien entstehen, in der ein Wert liegen könnte (geschlossene) Kategorien müssen gleich breit sein Sinnvolle Anzahl zu bildender Kategorien Faustregel: m = 1 + 3.32 x lg (N) m = Kategorien N = Versuchspersonen maximale Anzahl an Kategorien = 20 Offene Kategorien bei Ausreissern und Extremwerten eine offene Kategorie hat keine obere oder untere Grenze (z.B. x ≤ 300) Fribourg, 3. Mai 2005 Einführung in die Methoden der empirischen Sozialforschung Masse der zentralen Tendenz Drei Kennwerte (Masse), die bestimmte Eigenschaften von Daten zusammenfassen und beschreiben. Damit können auch verschiedene Stichproben miteinander verglichen werden. Modus / Modalwert Wert, der am häufigsten vorkommt Median / Zentralwert Wert, der in der Mitte der Verteilung liegt und diese halbiert Arithmetisches Mittel / Mittelwert Durchschnittlicher Wert einer Verteilung Achtung: jedes Mass setzt bestimmte Mindestanforderungen an das Skalenniveau voraus! Fribourg, 3. Mai 2005 Einführung in die Methoden der empirischen Sozialforschung Modus / Modalwert Definition Der Modalwert (Mo) ist derjenige Wert einer Verteilung, welcher am häufigsten besetzt ist. Vorteil sehr stabil gegenüber Extremwerten Voraussetzungen auf allen Skalenniveaus berechenbar Achtung: es können mehrere Modalwerte vorherrschen bimodal = zwei Modalwerte multimodal = mehr als zwei Modalwerte in solchen Fällen geben gewisse Statistikprogramme (z. B. SPSS) nur den kleinsten dieser Werte und eine zusätzliche Warnung aus Beispiel: Test mit maximal 10 Punkten (n=14) 2, 3, 4, 4, 5, 5, 6, 7, 7, 7, 8, 8, 9, 10 4 Häufigkeiten Fribourg, 3. Mai 2005 Einführung in die Methoden der empirischen Sozialforschung Modus / Modalwert: Beispiel 3 3 2 2 1 0 1 1 2 3 2 2 1 Modalwert: 1 1 9 10 0 1 4 5 6 7 Punkte im Test 8 Mo = 7 Fribourg, 3. Mai 2005 Einführung in die Methoden der empirischen Sozialforschung Median / Zentralwert Definition Der Median (Md) ist derjenige Wert der die geordnete Reihe der Messwerte in die oberen und unteren 50 Prozent aufteilt. Somit ist die Anzahl der Messwerte über und unter dem Median gleich. Vorteil ebenfalls sehr stabil gegenüber Extremwerten Voraussetzung mindestens Ordinalskalenniveau Berechnung - Für ungerades N: Md = x N + 1 - Für gerades N: Md = x N + x 2 2 2 - Wert (x) von Person N+1 2 N +1 2 N - cum f -1 k . Kat.breite 2 Für grupp. Daten: Md = untere Grenze fk + fk Fribourg, 3. Mai 2005 Einführung in die Methoden der empirischen Sozialforschung Median / Zentralwert: Beispiel Medianbestimmung bei ungerader Anzahl Werte: 4 7 9 Md = 9 13 17 Medianbestimmung bei gerader Anzahl Werte: 4 7 9 13 17 30 Md = (9+13) / 2 = 11 Drei Beobachtungen haben einen kleineren, drei einen grösseren Wert als der Median angibt (Wert existiert nicht in den Daten). Fribourg, 3. Mai 2005 Einführung in die Methoden der empirischen Sozialforschung Arithmetisches Mittel Definition Der arithmetische Mittel (μ bzw. x, AM) ist die Summe aller Messwerte geteilt durch deren Anzahl N. Durchschnitt aller Messwerte Nachteil empfindlich gegenüber Extremwerten Voraussetzung mindestens Intervallskalenniveau Berechnung AM = x = Summe aller Werte Gesamtanzahl (n) x 1 x 2 xn 1 n x xi n n i 1 Fribourg, 3. Mai 2005 Einführung in die Methoden der empirischen Sozialforschung Drei Masse der zentralen Tendenz Fribourg, 3. Mai 2005 Einführung in die Methoden der empirischen Sozialforschung AM, Mo und Md bei verschiedenen Verteilungsformen Modalwert, Median und arithmetisches Mittel hängen von der Verteilungsform ab. Fribourg, 3. Mai 2005 Einführung in die Methoden der empirischen Sozialforschung Wie verteilen sich die Daten? Fribourg, 3. Mai 2005 Einführung in die Methoden der empirischen Sozialforschung Masse der Dispersion Die Masse der Dispersion beschreiben die Variabilität bzw. Streuung der beobachteten Werte. Variationsbreite (Range, Spannweite) Quartile, Interquartilsabstand (Perzentile) AD-Streuung („average deviation“) Varianz Standardabweichung (standard deviation) Fribourg, 3. Mai 2005 Einführung in die Methoden der empirischen Sozialforschung Variationsbreite (Range, Spannweite) Definition Die Spannweite bzw. der Range beschreibt bei kontinuierlichen Daten die Grösse des Intervalls, in welchem die unterschiedlichen Werte einer Variable lieben. Bei nominalskalierten Variablen gibt der Range die Anzahl der Kategorien an. Nachteile bei kontinuierlichen Daten werden nur die minimalsten und maximalsten Messwerte berücksichtigt sehr empfindlich gegenüber Extremwerten / Ausreissern daher werden oft Extremwerte weggelassen (z.B. statt Spannweite nur mittlere 90 Prozent darstellen) Berechnung - kontinuierliche Daten: Range = maximaler Wert – minimaler Wert diskrete Daten (d.h. aus getrennten Einheiten bestehende Daten wie z.B. Kategorien): Range = maximaler Wert – minimaler Wert +1 Fribourg, 3. Mai 2005 Einführung in die Methoden der empirischen Sozialforschung Perzentile, Quartile, Interquartilabstand Definition Die Perzentile teilen die Datenverteilung in mehrere Teile (bei Perzentilen 100, entsprechend den Prozenträngen) ein. Als Quartile werden jene Punkte bezeichnet, welche eine Verteilung in vier gleich grosse Abschnitte aufteilen. Das mittlere Quartil (Q2) entspricht dabei dem Median (Prozentrang von 50), während das untere Quartil (Q1) den 25. Prozentrang und das obere Quartil (Q3) den 75. Prozentrang erfasst. Die Differenz der beiden Quartile Q1 und Q2 wird als Interquartilsabstand (IQA) bezeichnet. Vorteil Ausreisser wirken sich nicht so sehr auf Kennwerte aus, da mit den Quartilen Q1 und Q3 nur die mittleren 50 Prozent der Verteilung berücksichtigt werden Nachteil Der Interquartilsabstand beinhaltet nur Informationen der mittleren 50 Prozent der Verteilung. Fribourg, 3. Mai 2005 Einführung in die Methoden der empirischen Sozialforschung Perzentile, Quartile, Interquartilabstand: Beispiel Spezialfall Median: Teilt Verteilung in zwei gleich grosse Teile (je 50%) beim 50. Perzentil. 2, 4, 4, 5, 5, 5, 6, 6, 6, 6, 7, 7, 7, 7, 8, 8, 9, 9, 10, 10 (Md = 6,5) Für die Einteilung in vier gleich grosse Teile werden drei Quartile (das 25., 50. & 75. Perzentil) bestimmt. 2, 4, 4, 5, 5, 5, 6, 6, 6, 6, 7, 7, 7, 7, 8, 8, 9, 9, 10, 10 P25 = 5 P50 = 6.5 P75 = 8 Fribourg, 3. Mai 2005 Einführung in die Methoden der empirischen Sozialforschung AD-Streuung („average deviation“) Definition Die AD-Streuung gibt den Durchschnitt der absoluten Abweichungen aller Messwerte vom Mittelwert an. Merkmale die aufsummierten Werte ergeben immer null daher müssen negative Werte stets in positive Werte transformiert werden, so dass die aufsummierten Werte immer positiv sind je grösser die AD-Streuung ist, desto grösser ist die Variabilität der Variablenwerte alle Abweichungen haben den exakt gleichen Einfluss auf die ADStreuung Berechnung i = 1 xi x N AD N Definition Die Varianz (σ2 bzw. s2) ist die durchschnittliche quadrierte Abweichung vom Mittelwert. Berechnung + + + + (x – x1)2 (x – x2)2 (x – x3)2 ........ (x – xn)2 dividiert durch n 8 Abweichung vom Mittelwert im Quadrat 7 Punkte im Test Fribourg, 3. Mai 2005 Einführung in die Methoden der empirischen Sozialforschung Varianz 6 5 x=3.5 4 3 2 1 0 n 1 s 2 ( xi x ) 2 n i 1 Werte der Schüler/innen s2 = (6.25 + 6.25 + 0.25 + 2.25 + 12.25 + 2.25 + 0.25 + 2.25) / 8 = 32 / 8 = 4 Fribourg, 3. Mai 2005 Einführung in die Methoden der empirischen Sozialforschung Varianz Warum Quadrierung? Summe aller Werte ist nie Null (d.h. immer positiv) grössere Abweichungen vom arithmetischen Mittelwert werden stärker berücksichtigt (kleinere Abweichungen können eher zufällig entstehen, wodurch grössere Abweichungen statistisch bedeutsamer zu betrachten sind siehe Beispiel „Gewichtsschwankungen“ Freiheitsgrade die Freiheitsgrade ergeben sich aus der Stichprobengrösse, welche um die Anzahl der als bekannt vorausgesetzten Kennwerte reduziert wird Warum wird Quadratsumme durch Freiheitsgrade (N-1) und nicht durch N geteilt? Gefahr der Unterschätzung der Populationsvarianz konservative Schätzung durch N-1 Fribourg, 3. Mai 2005 Einführung in die Methoden der empirischen Sozialforschung Standardabweichung („standard deviation“) Definition Die Standardabweichung (σ bzw. s, SD) entspricht der Wurzel aus der Varianz. Berechnung 1 n 2 2 s ( x i x) s n i 1 Beispiel (vgl. Beispiel von der Varianzberechnung) s 4 2 Fribourg, 3. Mai 2005 Einführung in die Methoden der empirischen Sozialforschung Literatur Aron, A. & Aron E. N. (1999). Statistics for Psychology. New Jersey: Prentice Hall. Leonhard, R. (2004). Lehrbuch Statistik: Einstieg und Vertiefung. Bern: Hans Huber. Shavelson, R. J. (1995). Statistical Reasoning for the Behavioral Sciences. Boston: Allyn and Bacon. Wosnitza, M., & Jäger, R. S. (2000; Hrsg.). Daten erfassen, auswerten und präsentieren - aber wie? Landau: Verlag Empirische Pädagogik.