02.12.13 1

Werbung
02.12.13 DAS THEMA: VERTEILUNGEN – LAGEMAßE STREUUUNGSMAßE
• 
• 
• 
• 
Anteile – Häufigkeiten – Verteilungen
Lagemaße
Streuungsmaße
Merkmale von Verteilungen
VL Methodenlehre I WS13/14 Schäfer
Anteile – Häufigkeiten – Verteilungen
•  Anteile und Häufigkeiten
•  Darstellung von Anteilen und
Häufigkeiten
•  Nicht alle sind gleich – Verteilungen
von Daten
VL Methodenlehre I WS13/14 Schäfer
1 02.12.13 ANTEILE UND HÄUFIGKEITEN
• 
das Skalenniveau, auf dem Daten gemessen wurden, entscheidet über
das Format der Daten und damit über ihre weitere „Verwertbarkeit“
• 
schon ab Nominalskalenniveau können Anteile und Häufigkeiten
bestimmt werden
• 
Beispiele für Nominalskalen: von 50 Probanden sind 20 weiblich à
Frauenanteil = 40%; von 50 Personen bevorzugen (aus Rock, Rap und
Klassik) 30 Rockmusik à 60%, 15 Rap à 30% und 5 Klassik à 10%
Häufigkeit Anteil VL Methodenlehre I WS13/14 Schäfer
ANTEILE UND HÄUFIGKEITEN
• 
Beispiele für Ordinaldaten: von 50 Probanden wählen (wenn sie für
Rock, Rap, Klassik eine Rangreihen angeben sollen) 25 Rock auf Platz
1à 50%, 15 auf Platz 2 à 30%, 10 auf Platz 3 à 20%, usw.
• 
Beispiele für Intervalldaten: von 50 Probanden kreuzen 5 einen Wert
von 5 an à 10%, 4 einen Wert von 4 à 8% usw. usw.
• 
ab Ordinalskalenniveau ist es offenbar nicht mehr besonders effizient,
Daten in Anteilen und Häufigkeiten darzustellen
VL Methodenlehre I WS13/14 Schäfer
2 02.12.13 DARSTELLUNG VON ANTEILEN UND HÄUFIGKEITEN
• 
im Text: „Frauenanteil von 40 Prozent“
• 
in Tabellen:
• 
in Abbildungen:
Kreisdiagramm
Histogramm (Häufigkeitsdiagramm)
VL Methodenlehre I WS13/14 Schäfer
NICHT ALLE SIND GLEICH – VERTEILUNGEN
• 
Personen verteilen sich in ihren Messwerten, Urteilen usw. auf die
möglichen Ausprägungen einer gemessenen Variable
• 
es entstehen Verteilungen von Daten
• 
sie beinhalten die wertvolle Information über die Variabilität von
Merkmalen
• 
in Häufigkeitsverteilungen sind die Werte einzelner Personen
abgetragen
z.B. für die Nominalskala: z.B. für die Intervallskala: usw. Person 3 Person 2 Person 1 VL Methodenlehre I WS13/14 Schäfer
3 02.12.13 Lagemaße
• 
• 
• 
• 
Modus
Median
Mittelwert
der Sinn der Lagemaße
VL Methodenlehre I WS13/14 Schäfer
LAGEMAßE
• 
Häufigkeitsverteilungen konzentrieren sich (meist) bei bestimmten
Ausprägungen
• 
man spricht auch von der zentralen Tendenz
• 
man kann daher die „Lage“ von Verteilungen auf der Achse der
möglichen Ausprägungen eines Merkmals bestimmen und dafür
Lagemaße angeben
• 
je nach Skalenniveau können drei Lagemaße angegeben werden:
Modus, Median, Mittelwert
VL Methodenlehre I WS13/14 Schäfer
4 02.12.13 MODUS (MODALWERT)
Welche Merkmalsausprägung kommt am häufigsten vor?
möglich ab: Nominalskalenniveau
Modalwert VL Methodenlehre I WS13/14 Schäfer
MEDIAN (MD)
Welche Merkmalsausprägung liegt in der Mitte der Verteilung?
sinnvoll ab: Ordinalskalenniveau
wie findet man den Median?
1.  alle Werte der Größe nach aufschreiben
2.  der Wert in der Mitte ist der Median
3.  (liegt die Mitte zwischen 2 Werten, gilt der Mittelwert dieser beiden)
Median VL Methodenlehre I WS13/14 Schäfer
5 02.12.13 MEDIAN (MD)
der Median ist gegenüber der Schiefe einer Verteilung relativ unanfällig
(robust)
Modus: 3; Md: 3
Modus: 4; Md: 3
VL Methodenlehre I WS13/14 Schäfer
MITTELWERT (ARITHMETISCHES MITTEL, M)
Wo ist die mathematische Mitte der Verteilung?
Mittelwert = Summe aller Einzelwerte, geteilt durch die Anzahl dieser Werte
sinnvoll ab: Intervallskalenniveau
Querstrich weist auf MiJelwert hin X oder M stehen für MiJelwert Summenzeichen x steht für Einzelwerte i ist der Index für das mehrfache Vorhandensein von Werten N ist die SPchprobengröße für das Beispiel:
à der Mittelwert liefert die exakteste Angabe der Lage einer Verteilung
VL Methodenlehre I WS13/14 Schäfer
6 02.12.13 MITTELWERT (ARITHMETISCHES MITTEL, M)
VL Methodenlehre I WS13/14 Schäfer
MITTELWERT (ARITHMETISCHES MITTEL, M)
Aber: der Mittelwert ist anfällig gegenüber Ausreißern (besonders
ungewöhnliche Werte) und schiefen Verteilungen
Modus: 1; Md: 1; M = 1,3
Modus: 1; Md: 1; M = 1,9
à Modalwert und Median sind robuster und können daher manchmal
sinnvoller sein
VL Methodenlehre I WS13/14 Schäfer
7 02.12.13 MITTELWERT (ARITHMETISCHES MITTEL, M)
Warum ist die Berechnung des Mittelwertes auf Ordinalskalenniveau nicht
sinnvoll?
Noten von 1-­‐4 Wie unterscheiden sich zwei Noten? 1 1 2 2 Was genau würde man also miJeln? à Der MiJelwert gibt eine Präzision vor, die auf Ordinalskalenniveau schlicht nicht vorhanden ist. sehr gut 1 2 „wahre“ Leistung eines Schülers (empirisches RelaPv) 3 4 eher schlecht VL Methodenlehre I WS13/14 Schäfer
DER SINN DER LAGEMAßE
Warum sind Lagemaße so wichtig, wenn man sich auch einfach die
Häufigkeitsverteilungen der Daten ansehen könnte?
à  die Lagemaße sollen Verteilungen zusammenfassen und stellvertretend
für ihre zentrale Tendenz stehen; sie sind daher auch sparsamer
à  für weitere Berechnungen
Anzahl
Personen wird oft nur der Mittelwert gebraucht (z.B.
Anzahl Personen
35
Musikstil
Rating für Klassik
Rock
1 2 Rap
3 4 Klassik
5
5
4
Rating
30
25
20
15
5
10
0
wenn es um Gruppenunterschiede geht)
3
2
1
0
Klassik
Rock
Rap
Musikstile
VL Methodenlehre I WS13/14 Schäfer
8 02.12.13 Streuungsmaße
• 
• 
• 
• 
• 
• 
Warum Streuungsmaße?
Spannweite
Interquartilsabstand
Varianz
Standardabweichung
Kennwerte und Parameter
VL Methodenlehre I WS13/14 Schäfer
WARUM STREUUNGSMAßE?
Warum sollte man Lagemaßen nicht ohne Weiteres vertrauen?
à  Lagemaße geben zwar die zentrale Tendenz einer Verteilung wieder,
nicht aber ihre Streuung
à  Informationen über die Varianz – und damit über die Verlässlichkeit des
Lagemaßes – gehen verloren
VL Methodenlehre I WS13/14 Schäfer
9 02.12.13 WARUM STREUUNGSMAßE?
Beispiele für gleiche Mittelwerte und verschiedene Streuungen
VL Methodenlehre I WS13/14 Schäfer
WARUM STREUUNGSMAßE?
• 
Fazit: zu jedem Lagemaß gehört ein Streuungsmaß!
• 
Streuungsmaße sind erst ab Ordinalskalenniveau sinnvoll
• 
je nach Skalenniveau können verschiedene Streuungsmaße bestimmt
werden: Spannweite, Interquartilsabstand, Varianz,
Standardabweichung
VL Methodenlehre I WS13/14 Schäfer
10 02.12.13 SPANNWEITE (RANGE)
• 
• 
Differenz aus kleinstem und größtem Wert
wird z.B. bei der Angabe des Alters verwendet, um zu zeigen, wie die
extremen Ausprägungen aussehen
5 – 1 = 4 3 – 3 = 0 5 – 1 = 4 5 – 1 = 4 VL Methodenlehre I WS13/14 Schäfer
INTERQUARTILSABSTAND (IA)
• 
Differenz aus dem 75%- und dem 25%-Quartil
• 
wird verwendet um Ausreißer unberücksichtigt zu lassen
• 
wird oft als Streuungsmaß zusammen mit dem Median angegeben
Wie bestimmt man den Interquartilsabstand (IA)?
1. alle Werte der Größe nach aufschreiben
2. die Zahlenreihe in vier gleich große Abschnitte teilen à Quartile
3. der IA bestimmt sich aus den Werten, die bei 25 und 75 Prozent liegen
1. QuarPl 2. QuarPl 3. QuarPl 4. QuarPl 1
2
2
3
3
3
3
4
4
5 IA = 4 – 2 = 2 VL Methodenlehre I WS13/14 Schäfer
11 02.12.13 INTERQUARTILSABSTAND (IA)
4 – 2 = 2 3 – 3 = 0 5 – 1 = 4 4 – 2 = 2 VL Methodenlehre I WS13/14 Schäfer
VARIANZ (S2)
• 
die durchschnittliche quadrierte Abweichung aller Werte von ihrem
gemeinsamen Mittelwert
• 
• 
liefert die exakteste Angabe über die Streuung
das Quadrieren verhindert, dass sich positive und negative
Abweichungen aufheben
• 
Beispiel:
VL Methodenlehre I WS13/14 Schäfer
12 02.12.13 STANDARDABWEICHUNG (S)
• 
durch das Quadrat lässt sich die Varianz oft schwer interpretieren
• 
man verwendet daher die Wurzel, die Standardabweichung
• 
diese drückt die Streuung in den Rohwerten der Skala aus
• 
sie wird in der Regel durch SD abgekürzt (Standard Deviation)
• 
die übliche Darstellung von Lage- und Streuungsmaßen in
Forschungsarbeiten geschieht mit Hilfe von Mittelwert und
Standardabweichung: M = ... (SD = ...)
VL Methodenlehre I WS13/14 Schäfer
STANDARDABWEICHUNG (S)
1,41 0 2,0 1,0 VL Methodenlehre I WS13/14 Schäfer
13 02.12.13 KENNWERTE UND PARAMETER
• 
Angaben über Stichprobendaten heißen Kennwerte
• 
ihre Symbole stehen in lateinischen Buchstaben
• 
Angaben über Populationswerte heißen Parameter
• 
ihre Symbole stehen in griechischen Buchstaben
FÜR DIE PRAXIS
VL Methodenlehre I WS13/14 Schäfer
Merkmale von Verteilungen
•  das Gesetz der großen Zahl
•  Formen von Verteilungen
•  die Normalverteilung
VL Methodenlehre I WS13/14 Schäfer
14 02.12.13 DAS GESETZ DER GROßEN ZAHL
• 
Lage- und Streuungsmaße sind nur dann sinnvoll interpretierbar, wenn
die Stichprobe, aus der sie stammen, die Population gut wiederspiegelt
• 
das ist dann der Fall, wenn die Häufigkeitsverteilung die gleiche Form
hat wie die Populationsverteilung
Beispiel für Stichprobenziehungen
aus einer Population
• 
(Achtung 1: die Population ist simuliert,
normalerweise kennen wir die
Populationsverteilung nicht!)
• 
(Achtung 2: die gezeigten Stichproben
sind zufällig und können jedes Mal
anders aussehen!)
VL Methodenlehre I WS13/14 Schäfer
DAS GESETZ DER GROßEN ZAHL
DEFINITION
Das Gesetz der großen Zahl:
Je größer eine Stichprobe ist, desto stärker nähert sich die Verteilung der
enthaltenden Daten (Häufigkeitsverteilung) der wahren Verteilung in der
Population an.
Daher gilt...
• 
für Sie als Wissenschaftler/in: je größer die Stichprobe, desto besser!
• 
für Sie als Leser/in: trauen Sie Daten aus großen Stichproben mehr als
Daten aus kleinen Stichproben!
VL Methodenlehre I WS13/14 Schäfer
15 02.12.13 FORMEN VON VERTEILUNGEN
• 
normalerweise verteilen sich Werte etwa symmetrisch um ihre zentrale
Tendenz (Glockenform)
• 
Abweichungen können zufällig (z.B. durch Ausreißer) oder systematisch
sein (z.B. durch Decken- oder Bodeneffekte: an einem der beiden Pole
treten viele oder sogar die meisten Werte auf) und führen zu schiefen
(unsymmetrischen) Verteilungen
• 
besonders relevant bei Werten mit einem definierten Nullpunkt (z.B.
Reaktionszeiten)
• 
Beispiel für eine rechts-schiefe Verteilung:
à die Berechnung von Mittelwerten ist bei
sehr schiefen Verteilungen nicht sinnvoll
VL Methodenlehre I WS13/14 Schäfer
FORMEN VON VERTEILUNGEN
• 
normalerweise konzentrieren sich die Werte einer Verteilung an einer
Stelle à unimodale (eingipflige) Verteilung
• 
oft gibt es aber zwei solche Stellen à bimodale Verteilung
• 
oder noch mehr à multimodale Verteilung
• 
entsprechend gibt es mehrere Modalwerte
• 
besonders relevant bei polarisierenden
Skalen (z.B. Einstellungen)
• 
Beispiel für eine bimodale Verteilung:
à die Berechnung von Mittelwerten ist nur
bei unimodalen Verteilungen sinnvoll
VL Methodenlehre I WS13/14 Schäfer
16 02.12.13 FORMEN VON VERTEILUNGEN
der Zusammenhang zwischen Symmetrie, Gipfligkeit und Lagemaßen
VL Methodenlehre I WS13/14 Schäfer
DIE NORMALVERTEILUNG
• 
die meisten Variablen folgen in der Population der Verteilung einer
Gauss‘schen Glockenkurve, der Normalverteilung
• 
sie ist symmetrisch und die Wahrscheinlichkeit von Werten sinkt zu
beiden Seiten des Mittelwertes immer mehr ab
à legt man die Annahme der Normalverteilung zugrunde, haben
Mittelwert und Standardabweichung immer eine einheitliche Bedeutung
à die meisten Analyseverfahren in der Statistik beruhen auf dieser
Annahme
VL Methodenlehre I WS13/14 Schäfer
17 02.12.13 VERTEILUNGEN - LAGE-/STREUUNGSMAßE
STECKBRIEF
• 
quantitative Daten lassen sich immer durch Häufigkeiten und Anteile darstellen
• 
es entstehen Häufigkeitsverteilungen (Daten einzelner Personen oder Objekte)
• 
Häufigkeitsverteilungen lassen sich durch ihre Lage auf der Merkmalsachse
(Lagemaße) und ihre Streuung (Streuungsmaße) kennzeichnen
• 
• 
Lage- und Streuungsmaße sollen die Verteilung stellvertretend repräsentieren
in Forschungsarbeiten werden meist Mittelwert und Standardabweichung
angegeben
• 
Gesetz der großen Zahl: Häufigkeitsverteilungen aus größeren Stichproben
gleichen eher der Populationsverteilung
• 
Verteilungen können symmetrisch oder schief sein
• 
Verteilungen können unimodal, bimodal oder multimodal sein
• 
die meisten Variablen sind in der Population normalverteilt und lassen sich daher
mit Mittelwert und Standardabweichung sinnvoll repräsentieren
VL Methodenlehre I WS13/14 Schäfer
18 
Herunterladen