PowerPoint-Präsentation

Werbung
Fribourg, 3. Mai 2005
Einführung in die Methoden der empirischen Sozialforschung
Forschungsmethoden
Masse
der zentralen Tendenz
Horst Biedermann
Departement
Erziehungswissenschaften, Universität
Fribourg
Fribourg, 3. Mai 2005
Einführung in die Methoden der empirischen Sozialforschung
Deskriptive vs. Inferenz-Statistik
Deskriptive Statistik
 Beschreibung von Daten mit Hilfe statistischer
Kennwerte: anhand der Masse der zentralen Tendenz
(Masse der „Mitte“) und der Dispersion (Variabilität)
 beschreibende Statistik
Schliessende Statistik (Inferenzstatistik)
 Beurteilung von Daten, ob sie den Hypothesen
entsprechen: Schätzen von Parametern und Berechnung
statistischer Signifikanz
 schlussfolgernde Statistik
Fribourg, 3. Mai 2005
Einführung in die Methoden der empirischen Sozialforschung
Häufigkeiten
Geschlecht der Teilnehmenden an der Veranstaltung „Einführung in die
Methoden der empirischen Sozialforschung im SS 2005
Kategorie
f (x)
cumf(x)
%
cum%
weiblich
18
18
85,7
82,1
männlich
3
21
14,3
100,0
Total
21
absolute
Häufigkeiten
100.0
kumulierte
absolute
Häufigkeiten
relative
Häufigkeiten
in Prozent
kum. relative
Häufigkeiten
in Prozent
Fribourg, 3. Mai 2005
Einführung in die Methoden der empirischen Sozialforschung
Kategorien
Problem: sehr viele Merkmalsausprägungen
Lösung: Zusammenfassung der beobachteten Daten aus
bestimmten Wertbereichen zu Gruppen bzw.
Kategorien
Beispiel: „12 Minutenlauf“ im Rahmen eines Fitnesstests




2000 m ≤ x ≤ 2250 m
2250 m ≤ x ≤ 2500 m
...
3750 m ≤ x ≤ 4000 m
Vorteil
 übersichtliche Anzahl an Kategorien, innerhalb derer die
Anzahl der zugehörigen Fälle zusammengefasst wird
Nachteil
 Reduktion der Informationen
Fribourg, 3. Mai 2005
Einführung in die Methoden der empirischen Sozialforschung
Kategorien: Breite und Anzahl
Regeln zur Kategorienbreite und –anzahl:
 Ausschliesslichkeit der Kategorien (disjunkt)
 jedes beobachtete Ereignis (bzw. jeder Wert kann nur
einer Kategorie zugeordnet werden
 Benachbarte Konzipierung der Kategorien
 es darf keine „Lücke“ zwischen zwei Kategorien entstehen,
in der ein Wert liegen könnte
 (geschlossene) Kategorien müssen gleich breit sein
 Sinnvolle Anzahl zu bildender Kategorien
 Faustregel: m = 1 + 3.32 x lg (N)  m = Kategorien
N = Versuchspersonen
 maximale Anzahl an Kategorien = 20
 Offene Kategorien bei Ausreissern und Extremwerten
 eine offene Kategorie hat keine obere oder untere Grenze
(z.B. x ≤ 300)
Fribourg, 3. Mai 2005
Einführung in die Methoden der empirischen Sozialforschung
Masse der zentralen Tendenz
Drei Kennwerte (Masse), die bestimmte Eigenschaften von
Daten zusammenfassen und beschreiben. Damit können auch
verschiedene Stichproben miteinander verglichen werden.
Modus / Modalwert
Wert, der am häufigsten vorkommt
Median / Zentralwert
Wert, der in der Mitte der Verteilung liegt und diese halbiert
Arithmetisches Mittel / Mittelwert
Durchschnittlicher Wert einer Verteilung
Achtung:
jedes Mass setzt bestimmte Mindestanforderungen an das
Skalenniveau voraus!
Fribourg, 3. Mai 2005
Einführung in die Methoden der empirischen Sozialforschung
Modus / Modalwert
Definition
Der Modalwert (Mo) ist derjenige Wert einer Verteilung,
welcher am häufigsten besetzt ist.
Vorteil
 sehr stabil gegenüber Extremwerten
Voraussetzungen
 auf allen Skalenniveaus berechenbar
Achtung: es können mehrere Modalwerte vorherrschen
 bimodal = zwei Modalwerte
 multimodal = mehr als zwei Modalwerte
 in solchen Fällen geben gewisse Statistikprogramme (z. B.
SPSS) nur den kleinsten dieser Werte und eine zusätzliche
Warnung aus
Beispiel: Test mit maximal 10 Punkten (n=14)
2, 3, 4, 4, 5, 5, 6, 7, 7, 7, 8, 8, 9, 10
4
Häufigkeiten
Fribourg, 3. Mai 2005
Einführung in die Methoden der empirischen Sozialforschung
Modus / Modalwert: Beispiel
3
3
2
2
1
0
1
1
2
3
2
2
1
Modalwert:
1
1
9
10
0
1
4
5
6
7
Punkte im Test
8
Mo = 7
Fribourg, 3. Mai 2005
Einführung in die Methoden der empirischen Sozialforschung
Median / Zentralwert
Definition
Der Median (Md) ist derjenige Wert der die geordnete Reihe der
Messwerte in die oberen und unteren 50 Prozent aufteilt. Somit ist
die Anzahl der Messwerte über und unter dem Median gleich.
Vorteil
 ebenfalls sehr stabil gegenüber Extremwerten
Voraussetzung
 mindestens Ordinalskalenniveau
Berechnung
-
Für ungerades N: Md = x N + 1
-
Für gerades N: Md = x N + x
2
2
2
-
 Wert (x) von Person
N+1
2
N +1
2
N - cum f -1
k
. Kat.breite
2
Für grupp. Daten: Md = untere Grenze fk +
fk
Fribourg, 3. Mai 2005
Einführung in die Methoden der empirischen Sozialforschung
Median / Zentralwert: Beispiel
Medianbestimmung bei ungerader Anzahl Werte:
4 7 9
Md = 9
13
17
Medianbestimmung bei gerader Anzahl Werte:
4 7 9 13 17 30
Md = (9+13) / 2 = 11
Drei Beobachtungen haben einen kleineren, drei einen grösseren
Wert als der Median angibt (Wert existiert nicht in den Daten).
Fribourg, 3. Mai 2005
Einführung in die Methoden der empirischen Sozialforschung
Arithmetisches Mittel
Definition
Der arithmetische Mittel (μ bzw. x, AM) ist die Summe aller
Messwerte geteilt durch deren Anzahl N.
 Durchschnitt aller Messwerte
Nachteil
 empfindlich gegenüber Extremwerten
Voraussetzung
 mindestens Intervallskalenniveau
Berechnung
AM =
x =
Summe aller Werte
Gesamtanzahl (n)
x 1  x 2    xn 1 n
x
  xi
n
n i 1
Fribourg, 3. Mai 2005
Einführung in die Methoden der empirischen Sozialforschung
Drei Masse der zentralen Tendenz
Fribourg, 3. Mai 2005
Einführung in die Methoden der empirischen Sozialforschung
AM, Mo und Md bei verschiedenen
Verteilungsformen
Modalwert, Median und arithmetisches Mittel hängen von der
Verteilungsform ab.
Fribourg, 3. Mai 2005
Einführung in die Methoden der empirischen Sozialforschung
Wie verteilen sich die Daten?
Fribourg, 3. Mai 2005
Einführung in die Methoden der empirischen Sozialforschung
Masse der Dispersion
Die Masse der Dispersion beschreiben die Variabilität
bzw. Streuung der beobachteten Werte.

Variationsbreite (Range, Spannweite)

Quartile, Interquartilsabstand (Perzentile)

AD-Streuung („average deviation“)

Varianz

Standardabweichung (standard deviation)
Fribourg, 3. Mai 2005
Einführung in die Methoden der empirischen Sozialforschung
Variationsbreite (Range, Spannweite)
Definition
Die Spannweite bzw. der Range beschreibt bei kontinuierlichen Daten
die Grösse des Intervalls, in welchem die unterschiedlichen Werte
einer Variable lieben. Bei nominalskalierten Variablen gibt der Range
die Anzahl der Kategorien an.
Nachteile
 bei kontinuierlichen Daten werden nur die minimalsten und
maximalsten Messwerte berücksichtigt
 sehr empfindlich gegenüber Extremwerten / Ausreissern
daher werden oft Extremwerte weggelassen (z.B. statt
Spannweite nur mittlere 90 Prozent darstellen)
Berechnung
-
kontinuierliche Daten:  Range = maximaler Wert – minimaler Wert
diskrete Daten (d.h. aus getrennten Einheiten bestehende
Daten wie z.B. Kategorien):
 Range = maximaler Wert – minimaler Wert +1
Fribourg, 3. Mai 2005
Einführung in die Methoden der empirischen Sozialforschung
Perzentile, Quartile,
Interquartilabstand
Definition
Die Perzentile teilen die Datenverteilung in mehrere Teile (bei
Perzentilen 100, entsprechend den Prozenträngen) ein.
Als Quartile werden jene Punkte bezeichnet, welche eine Verteilung
in vier gleich grosse Abschnitte aufteilen. Das mittlere Quartil (Q2)
entspricht dabei dem Median (Prozentrang von 50), während das
untere Quartil (Q1) den 25. Prozentrang und das obere Quartil (Q3)
den 75. Prozentrang erfasst.
Die Differenz der beiden Quartile Q1 und Q2 wird als
Interquartilsabstand (IQA) bezeichnet.
Vorteil
Ausreisser wirken sich nicht so sehr auf Kennwerte aus, da mit den
Quartilen Q1 und Q3 nur die mittleren 50 Prozent der Verteilung
berücksichtigt werden
Nachteil
Der Interquartilsabstand beinhaltet nur Informationen der mittleren
50 Prozent der Verteilung.
Fribourg, 3. Mai 2005
Einführung in die Methoden der empirischen Sozialforschung
Perzentile, Quartile,
Interquartilabstand: Beispiel
Spezialfall Median: Teilt Verteilung in zwei gleich
grosse Teile (je 50%) beim 50. Perzentil.
2, 4, 4, 5, 5, 5, 6, 6, 6, 6, 7, 7, 7, 7, 8, 8, 9, 9, 10, 10
(Md = 6,5)
Für die Einteilung in vier gleich grosse Teile werden
drei Quartile (das 25., 50. & 75. Perzentil) bestimmt.
2, 4, 4, 5, 5, 5, 6, 6, 6, 6, 7, 7, 7, 7, 8, 8, 9, 9, 10, 10
P25 = 5
P50 = 6.5
P75 = 8
Fribourg, 3. Mai 2005
Einführung in die Methoden der empirischen Sozialforschung
AD-Streuung („average deviation“)
Definition
Die AD-Streuung gibt den Durchschnitt der absoluten Abweichungen
aller Messwerte vom Mittelwert an.
Merkmale
 die aufsummierten Werte ergeben immer null  daher müssen
negative Werte stets in positive Werte transformiert werden, so
dass die aufsummierten Werte immer positiv sind
 je grösser die AD-Streuung ist, desto grösser ist die Variabilität
der Variablenwerte
 alle Abweichungen haben den exakt gleichen Einfluss auf die ADStreuung
Berechnung
i = 1 xi x
N
AD 
N
Definition
Die Varianz (σ2 bzw. s2) ist die durchschnittliche quadrierte
Abweichung vom Mittelwert.
Berechnung
+
+
+
+
(x – x1)2
(x – x2)2
(x – x3)2
........
(x – xn)2
dividiert
durch n
8
Abweichung vom Mittelwert
im Quadrat
7
Punkte im Test
Fribourg, 3. Mai 2005
Einführung in die Methoden der empirischen Sozialforschung
Varianz
6
5
x=3.5
4
3
2
1
0
n
1
s 2   ( xi  x ) 2
n i 1
Werte der Schüler/innen
s2 = (6.25 + 6.25 + 0.25 + 2.25 +
12.25 + 2.25 + 0.25 + 2.25) / 8
= 32 / 8 = 4
Fribourg, 3. Mai 2005
Einführung in die Methoden der empirischen Sozialforschung
Varianz
Warum Quadrierung?
 Summe aller Werte ist nie Null (d.h. immer positiv)
 grössere Abweichungen vom arithmetischen Mittelwert werden
stärker berücksichtigt (kleinere Abweichungen können eher
zufällig entstehen, wodurch grössere Abweichungen statistisch
bedeutsamer zu betrachten sind  siehe Beispiel
„Gewichtsschwankungen“
Freiheitsgrade
 die Freiheitsgrade ergeben sich aus der Stichprobengrösse,
welche um die Anzahl der als bekannt vorausgesetzten Kennwerte
reduziert wird
 Warum wird Quadratsumme durch Freiheitsgrade (N-1) und nicht
durch N geteilt?
Gefahr der Unterschätzung der Populationsvarianz 
konservative Schätzung durch N-1
Fribourg, 3. Mai 2005
Einführung in die Methoden der empirischen Sozialforschung
Standardabweichung
(„standard deviation“)
Definition
Die Standardabweichung (σ bzw. s, SD) entspricht der Wurzel aus der
Varianz.
Berechnung
1 n
2
2
s
(
x
i  x)

s

n i 1
Beispiel (vgl. Beispiel von der Varianzberechnung)
s 4 2
Fribourg, 3. Mai 2005
Einführung in die Methoden der empirischen Sozialforschung
Literatur




Aron, A. & Aron E. N. (1999). Statistics for Psychology.
New Jersey: Prentice Hall.
Leonhard, R. (2004). Lehrbuch Statistik: Einstieg und
Vertiefung. Bern: Hans Huber.
Shavelson, R. J. (1995). Statistical Reasoning for the
Behavioral Sciences. Boston: Allyn and Bacon.
Wosnitza, M., & Jäger, R. S. (2000; Hrsg.). Daten
erfassen, auswerten und präsentieren - aber wie? Landau:
Verlag Empirische Pädagogik.
Herunterladen