Deskriptive Statistik 1. Verteilungsformen symmetrisch

Werbung
Deskriptive Statistik
1. Verteilungsformen
•
symmetrisch/asymmetrisch
•
unimodal(eingipflig) / bimodal (zweigipflig
•
schmalgipflig / breitgipflig
•
linkssteil / rechtssteil
•
U-förmig / abfallend
Statistische Kennwerte - Wieso braucht man diese
überhaupt?
Sie geben eine summarische Auskunft über die Verteilung. Alle Meßwerte sind zusammenfassend in einem
Kennwert repräsentiert.
Zwei Arten von deskriptiven Maßen:
1. Maße der zentralen Tendenz
2. Streuungsmaße (Dispersionsmaße)
1. Maße der zentralen Tendenz
Beispiel: Variable Anzahl der Geschwister aus Jugend '92
V189
ANZAHL GESCHWISTER
Value Label
TNZ
1 Geschwister
6 Geschwister
KA
Mean
Sum
1,295
5177,000
Value
Frequency
Percent
Valid
Percent
0
1
2
3
4
5
6
9
861
1824
854
296
89
49
26
6
------4005
1,000
21,5
45,5
21,3
7,4
2,2
1,2
,6
,1
------100,0
Mode
21,5
45,6
21,4
7,4
2,2
1,2
,7
Missing
------100,0
1,000
Total
Median
Modalwert oder Modus:
================ Deskriptive Statistik Seite 1 ======================
Cum
Percent
21,5
67,1
88,5
95,9
98,1
99,3
100,0
derjenige Wert einer Verteilung, der am häufigsten auftritt.
Wenn die Meßwerte in Kategorien zusammengefaßt
werden, gilt die Kategorienmitte der am häufigsten besetzten Kategorie als Modalwert. Die Angabe eines Modalwertes ist nur bei solchen Verteilungen üblich, die tatsächlich
ein Maximum besitzen (rechts und links vom Maximum
flacht der Verlauf ab).
Median
Der Wert einer mindestens ordinalskalierten Variable, der
die Häufigkeitsverteilung in zwei gleiche Hälften teilt.
Bei einer ungeraden Anzahl N der Daten ist der Median
der (N+1)/2te Wert.
Beispiel: N=7, d.h. 7 Werte: 4, 7, 1, 3, 9, 2, 11
Median ⇒ (7+1)/2 = 4. Wert
geordnete Werte 1, 2, 3, 4, 7, 9, 11
Bei einer geraden Anzahl N der Daten liegt der Median
zwischen dem N/2ten und dem (N+2)/2ten Wert.
Beispiel: N=8, d. h. 8 Werte: 4, 5, 7, 1, 3, 9, 2, 11
Median ⇒
zwischen N/2 =8/2= 4. Wert
und (N+2)/2= (8+2)/2= 10/2 = 5. Wert
geordnete Werte 1, 2, 3, 4, 5, 7, 9, 11
Der Median ist unempfindlich gegenüber Ausreißern.
Arithmetisches Mittel
Das gebräuchlichste Maß zur Kennzeichnung der zentralen
Tendenz.
================ Deskriptive Statistik Seite 2 ======================
Formel zur Berechnung - Summe aller Werte dividiert durch
die Anzahl der Werte:
_
n
Σ Xi
i=1
AM= x = 
n
Die Summe aller Abweichungen vom Mittelwert ergibt Null.
_
n
Σi=1 (Xi - X) = 0
Beispielberechnung
Mittelwert bei gruppierten Daten
_
m
Σ fk xk
AM= x = 
i=1
m
Σ fk
i=1
fk = Häufigkeit in der Kategorie k
xk = Kategorienmitte der Kategorie k
m = Anzahl der Kategorien
================ Deskriptive Statistik Seite 3 ======================
2.Streuungsmaße (Dispersionsmaße)
1. Variationsbreite, Variationsweite, Spannweite (range)
Variationsbreite = Maximum - Minimum
Nachteil dieses Maßes: es hängt nur von den Extremwerten ab
2. Perzentile (Prozentwerte der Verteilung)
Perzentile (1 bis 100) schneiden einen entsprechenden
Teil der Verteilungsfläche ab: das 5. Perzentil schneidet
die unteren 5%, das 95. Perzentil die oberen 5% ab.
Quartile teilen die Verteilung in vier gleich große Gruppen
(25., 50. und 75. Perzentil).
3. Die durchschnittliche Abweichung, AD-Streuung
)
Σ fk (Xk-X
m
i=1
AD=
n
Vorteil: Alle Werte werden berücksichtigt.
4. Varianz und Standardabweichung
Die Summe aller quadrierten Abweichungen aller Meßwerte vom arithmetischen Mittel, dividiert durch die Anzahl
aller Meßwerte.
================ Deskriptive Statistik Seite 4 ======================
Der Ausdruck im Zähler ⇒ Summe der Abweichungsquadrate, Quadratsumme (QS), sum of squares
In der Inferenzstatistik, wo die Stichprobenvarianz eine
Schätzung der Populationsvarianz ist, wird die Varianz so
berechnet:
VAR= S2 = = 
n -1
Die Standardabweichung
================ Deskriptive Statistik Seite 5 ======================
Die Streuungsbereiche der Normalverteilung:
Im Bereich x + s ⇒ ca. 2/3 aller Fälle = 68%
Im Bereich x + s ⇒ ca. 95% aller Fälle
================ Deskriptive Statistik Seite 6 ======================
Z-Transformation
Sinn und Zweck: Zwei Werte unterschiedlicher Skalen
dadurch vergleichbar machen, daß sie in Relation zum
Mittelwert und zur Standardabweichung gesetzt werden.
Standardisierung durch z-Transformation. Eine ztransformierte Verteilung hat einen Mittelwert von 0 und eine
Standardabweichung von 1.
Ein z-Wert (z-score) wird so berechnet:
_
(Xi - X)
zi = 
s
Schiefe und Exzeß
Schiefe ⇒ Maß für den Grad der Abweichung einer Verteilung von der Symmetrie
Schiefe= (Mittelwert - Modus) / Standardabweichung
Sch = 0 ⇒ symmetrische Verteilung
Sch < 0 ⇒ rechtssteile Verteilung
Sch > 0 ⇒ linkssteile Verteilung
Exzeß ⇒ Maß für den Grad der Häufung der Meßwerte um
einen Zentralpunkt, d.h. breitgipflig versus schmalgipflig.
================ Deskriptive Statistik Seite 7 ======================
Der Exzeß einer Normalverteilung beträgt 0,263, je größer
der Wert für den Exzeß, desto breitgipfliger ist der Verlauf
der Verteilung.
================ Deskriptive Statistik Seite 8 ======================
Herunterladen