Teil1

Werbung
Kennwerte eindimensionaler Häufigkeitsverteilungen
- Einführung Statistische Kennwerte von Verteilungen sind numerische Maße mit der Funktion,
zusammenfassend einen Eindruck von 1) dem „Schwerpunkt“, 2) der Variabilität
und 3) der Form einer Merkmalsverteilung zu geben.
Man unterteilt statistische Kennwerte dazu in Maße der:
1)
Zentralen Tendenz
Leitfrage: Welcher Wert kennzeichnet die Lage des Zentrums einer
Merkmalsverteilung am besten?
2)
Dispersion (Variabilität)
Leitfrage: Wie kann das Ausmaß an Unterschiedlichkeit (Variabilität)
in den Messwerten gekennzeichnet werden?
3)
Verteilungsform
Leitfrage: Welche Werte kennzeichnen die Merkmalsverteilung
hinsichtlich Symmetrie und Schmalheit/Breite?
Maße der zentralen Tendenz (1)
- Modalwert I Modus (auch: Modalwert, Gipfelwert, Modalklasse)
[abgekürzt: Mo oder Mod]
Der Modus einer Verteilung ist der Wert, der am häufigsten gemessen
wurde.
Der Modus ist bereits ab Nominalskalenniveau ein sinnvolles Maß der
zentralen Tendenz.
Bei kategorisierten, ursprünglich mindestens intervallskalierten Merkmalen
(z.B. Altersklassen) gilt die Kategorienmitte der am häufigsten besetzten
Kategorie als Modalwert, nicht der Zahlenwert der Klasse.
Merke:
Der Modus ändert sich leicht, wenn die Definition der Klassen- bzw.
Kategorieneinteilung verändert wird!
Maße der zentralen Tendenz (2)
- Modalwert II Beispiel nominalskaliertes Merkmal:
Familienstand
Werte (k)
Häufigkeit (fk)
ledig=1
25
verheiratet=2
15
Modus=1
(und nicht 25!)
geschieden=3
6
verwitwet=4
1
Beispiel künstlich diskretes Merkmal:
Altersklassen
Werte (k)
Häufigkeit (fk)
10 - 20 =1
10
21 - 25 =2
31
Modus=23
(und nicht 2!)
26 - 30 =3
12
31 - 40 =4
5
Die Angabe des Modus macht keinen Sinn, wenn ein kontinuierliches
Merkmal sehr genau gemessen wird (z.B. Reaktionszeiten) oder wenn alle
Merkmalskategorien nur mit sehr kleinen Häufigkeiten besetzt sind (im
Extremfall nur mit einer Person), z.B. bei der Verteilung des genauen
Geburtsdatums in einer Schulklasse.
Maße der zentralen Tendenz (3)
- Median I Median (auch: Zentralwert, 50%-Wert, mittlerer Wert)
[abgekürzt: Md]
Ordnet man alle Messwerte einer Verteilung in einer aufsteigenden
Reihenfolge an (wobei mehrfach vorkommende Werte auch mehrfach
aufgeführt werden), dann ist der Median einer Verteilung der Wert,
unterhalb dessen genausoviele Fälle liegen wie oberhalb. Der Median
halbiert die Stichprobenverteilung.
Der Median kann bei mindestens ordinalskalierten Merkmalen sinnvoll
als Maß der zentralen Tendenz angegeben werden.
Sind einzelne Merkmalsausprägungen mehrfach besetzt, so wird der
Median als der Wert xi angegeben, bei dem die Verteilungsfunktion
(kumulierte rel. Häufigkeit) den Wert 0.5 überspringt (Medianklasse).
Zusätzlich gilt: Ist die Zahl aller Messwerte geradzahlig, gilt der
Durchschnittswert der beiden mittleren Werte als der Median.
Maße der zentralen Tendenz (4)
- Median II Beispiel: Merkmal Altersangaben
a)
ungeradzahlige Anzahl Messwerte (N=7):
x1=35; x2=15; x3=18; x4=24; x5=18; x6=26; x7=40
in Reihenfolge geordnet:
15; 18; 18; 24; 26; 35; 40
Md=24
geradzahlige Anzahl Messwerte (N=8):
15; 18; 18; 24; 26; 35; 40; 43
Md=(24+26): 2=25
Bei kategorisierten, ursprünglich kontinuierlichen Merkmalen
kann der Median als das 50. Centil (C50) interpoliert werden.
Exkurs: das Summenzeichen Σ (1)
N
Buchstabe des
Laufindexes
i =1
letzter Wert, den der Laufindex annimmt
xi
Summandenausdruck
erster Wert, den der Laufindex annimmt
Das Summenzeichen Σ (grosses griechisches Sigma) ist ein in der Statistik sehr
gebräuchliches Operationszeichen. Es ist als eine Rechenvorschrift zu interpretieren,
derzufolge eine Summe gebildet werden soll.
- Woraus jeder Summand besteht, wird hinter dem Summenzeichen angegeben (im
Ausdruck oben: Messwert x einer Person i).
- Wieviele Summanden aufsummiert werden sollen, ist unter- bzw. oberhalb des
Summenzeichens im sogenannten Laufindex (hier mit dem Buchstaben i bezeichnet)
festgelegt.
Der oben stehende Ausdruck wird gelesen als „die Summe der xi-Werte für i gleich 1 bis N“.
Unterhalb des Summenzeichens steht der erste Wert, den i annimmt (hier 1), und oberhalb
des Sigma der letzte Wert (hier N). Das N bedeutet, dass der letzte Summand für den letzten
Messwert der Messwertreihe (Stichprobe) gebildet wird. Wurde z.B. an einer Stichprobe von
N=8 Personen das Merkmal x erhoben, so bildet der Messwert der 8. Person (x8) den letzten
Summanden dieser Summe.
Exkurs: das Summenzeichen Σ (2)
- Rechenregeln I Vorbemerkung: In den meisten Fällen werden in statistischen Analysen die
Summe aller Werte
können. Die
benötigt,
so
dass
die
Indizes
i und
!N
entfallen
"
Schreibweise
Regel 1:
(X + Y ) =
X+
Y
Regel 2:
(X −Y) =
X−
Y
Regel 3:
( X ⋅Y ) ≠
X⋅
Y
Regel 4:
X ≠
2
(
X)
Erst multiplizieren, dann addieren
erst addieren, dann multiplizieren.
Erst quadrieren, dann addieren
erst addieren, dann quadrieren.
2
Exkurs: das Summenzeichen Σ (3)
- Rechenregeln II Die folgenden Regeln gelten, wenn k eine Konstante ist:
Regel 5:
k = N ⋅k
mit k = Konstante (fester Wert)
Regel 6:
(X + k) =
X+
Regel 7:
(X − k) =
X − N ⋅k
Regel 8:
k⋅X =k⋅
X
k=
X + N ⋅k
Maße der zentralen Tendenz (5)
- Arithmetisches Mittel I Arithmetisches Mittel (auch: Mittelwert, Durchschnitt)
[abgekürzt: AM oder x (lies: „x-quer“)]
Das arithmetische Mittel einer Verteilung berechnet sich aus der Summe der
Messwerte geteilt durch die Anzahl der Messwerte:
N
AM = x =
i =1
xi
N
xi ist der i-te Messwert, i.d.R. also der Messwert der i-ten Person der Stichprobe;
N ist die Zahl der Messwerte, für die der Durchschnitt gebildet werden soll.
Die Berechnung des arithmetischen Mittels als Maß der zentralen Tendenz ist
sinnvoll, wenn ein Merkmal mindestens Intervallskalenniveau aufweist.
Bei natürlich diskreten Merkmalen wie Kinderzahl sollte die Sinnhaftigkeit der
Berechnung eines AM zumindest hinterfragt werden.
Maße der zentralen Tendenz (6)
- Arithmetisches Mittel II Beispiel Durchschnittsalter für die folgenden Altersmesswerte
x1=35; x2=15; x3=18; x4=24; x5=18; x6=26; x7=40
N
AM = x =
i =1
xi
N
=
35 + 15 + 18 + 24 + 18 + 26 + 40
≅ 25.14
7
Maße der zentralen Tendenz (7)
- Arithmetisches Mittel III Wichtige Eigenschaften des arithmetischen Mittels
(1)
Die Summe der (mit Vorzeichen versehenen) Abweichungen der Messwerte
xi vom Mittelwert ist immer 0, d.h. die Abweichungen nach oben und unten
vom Mittelwert heben sich in der Summe auf.
N
i =1
(2)
( xi − x ) = 0
Werden die Messwerte xi linear transformiert, dann unterliegt das
arithmetische Mittel der gleichen Transformation, d.h. das arithmetische
Mittel macht lineare Transformationen mit.
Formal:
y = a⋅x +b y = a⋅x +b
i
i
Beispiel:
Will man eine Durchschnittstemperatur, die auf Messwerten in Co beruht, in Fo
angeben, dann gilt für die Transformation des Durchschnittswerts die gleiche
Transformationsgleichung wie bei den Einzelmesswerten:
Fo = 1.8 ⋅ Co + 32
AM(Fo ) = 1.8 ⋅ AM(Co ) + 32
Maße der zentralen Tendenz (8)
- Arithmetisches Mittel IV Berechnung des AM bei kategorisierten Daten
Die Berechnung des arithmetischen Mittels bei kategorisierten Daten erfolgt dadurch,
dass pro Kategorie die Kategorienmitte mit der Besetzungshäufigkeit der Kategorie
multipliziert wird, dieses Produkt über alle Kategorien aufsummiert und durch die
Gesamtzahl aller Messwerte geteilt wird. Dieses Vorgehen kann man verkürzen,
wenn man gleich die Kategorienmitte mit der relativen Besetzungshäufigkeit
multipliziert und dies über alle Kategorien aufsummiert.
m
AM = x =
k =1
xk ⋅ fk
N
=
m
k =1
xk ⋅ pk
xk : Kategorienmitte der Kategorie k
fk : Häufigkeit in der Kategorie k
pk : relative Häufigkeit in der Kategorie k
m : Anzahl der Kategorien ist
Maße der zentralen Tendenz (9)
- Arithmetisches Mittel V Berechnung des AM bei kategorisierten Daten (Beispiel)
Alter kategorisiert (N=50)
Alter
k
xk
fk
16-20
21-25
26-30
31-35
1
2
3
4
18
23
28
33
3
20
17
10
N=50
Σ
xk ⋅ fk
54
460
476
330
1320
pk
0.06
0.40
0.34
0.20
1.00
xk ⋅ pk
1.08
9.20
9.52
6.60
AM=26.40
Herunterladen