Unterschiedlichkeit

Werbung
FB 1
Grundlagen
Häufigkeiten
Lagemaße
Streuung
Inferenzstatistik
Kovarianz/
Korrelation
Kreuztabellen
Gruppenunterschiede
Lineare
Regression
W. Ludwig-Mayerhofer
Statistik – Streuung
Herzlich willkommen zur
Vorlesung Statistik
Streuungsmaße
oder
die „Unterschiedlichkeit“ der
Daten
nebst kurzen Ausführungen zu Schiefe
und Wölbung
1
FB 1
W. Ludwig-Mayerhofer
Grundlagen
Häufigkeiten
Lagemaße
Streuung
Spannweite
Quartile/Quantile
Varianz/Standardabweichung
Schiefe, Steilheit
Inferenzstatistik
Kovarianz/
Korrelation
Kreuztabellen
Gruppenunterschiede
Lineare
Regression
Statistik – Streuung
Streuungsmaße
•
•
Ihr Ziel ist, zu zeigen, wie nahe die Daten
insgesamt am „Zentrum“ liegen (oder
auch nicht).
Noch mehr als bei den Lagemaßen kann
es sinnvoll sein, differenziert zu arbeiten
(nicht nur eine einzige Kennzahl).
2
FB 1
Grundlagen
Häufigkeiten
Lagemaße
Streuung
Spannweite
Quartile/Quantile
Varianz/Standardabweichung
Schiefe, Steilheit
Inferenzstatistik
Kovarianz/
Korrelation
Kreuztabellen
Gruppenunterschiede
Lineare
Regression
W. Ludwig-Mayerhofer
Statistik – Streuung
Spannweite (Range) bzw. Minimum
und Maximum
•
•
•
•
Minimum: Kleinster Wert der Urliste
Maximum: Größter Wert der Urliste
Spannweite: Max – Min
Im Beispiel (Einkommensdaten):
Min = 620, Max = 14580
Spannweite = 13960
•
Da alle anderen Datenwerte
vernachlässigt werden, sind diese
Angaben nur beschränkt von Interesse.
3
FB 1
Grundlagen
Häufigkeiten
Lagemaße
Streuung
Spannweite
Quartile/Quantile
Varianz/Standardabweichung
Schiefe, Steilheit
Inferenzstatistik
Kovarianz/
Korrelation
Kreuztabellen
Gruppenunterschiede
Lineare
Regression
W. Ludwig-Mayerhofer
Statistik – Streuung
Quartile und Quartilabstand
Quartile trennen (geordnete) Datenwerte in
vier gleich große Gruppen:
•
•
•
•
¼ der Datenwerte sind kleiner oder
gleich dem Wert des 25-%-Quartils (Q1)
Die Hälfte der Datenwerte ist kleiner oder
gleich dem Wert des 50-%-Quartils (Q2)
liegt (= ...........).
...........
3/4 der Datenwerte sind kleiner oder
gleich dem Wert des 75-%-Quartils (Q3)
Der Quartilabstand (oder Interquartilabstand, IQR) ist die Differenz Q3- Q1.
4
FB 1
Grundlagen
Häufigkeiten
Lagemaße
Streuung
Spannweite
Quartile/Quantile
Varianz/Standardabweichung
Schiefe, Steilheit
Inferenzstatistik
Kovarianz/
Korrelation
Kreuztabellen
Gruppenunterschiede
Lineare
Regression
W. Ludwig-Mayerhofer
Statistik – Streuung
Quartile und Quartilabstand
Im Beispiel:
Q1= 3860 DM
Q2= 4625 DM
Q3= 5935 DM
Interquartilabstand (IQR): 2075 DM
IQR von englisch InterQuartile Range
5
FB 1
Grundlagen
Häufigkeiten
Lagemaße
Streuung
Spannweite
Quartile/Quantile
Varianz/Standardabweichung
Schiefe, Steilheit
Inferenzstatistik
Kovarianz/
Korrelation
Kreuztabellen
Gruppenunterschiede
Lineare
Regression
W. Ludwig-Mayerhofer
Statistik – Streuung
6
Five-Point-Summary (Tukey)
Neben den Quartilwerten werden Min und
Max angegeben.
Min
620
0
2000
Q1
Q2
Q3
Max
3860 4625 5935 14580
4000
6000
8000
i k
10000
12000
14000
FB 1
Grundlagen
Häufigkeiten
Lagemaße
Streuung
Spannweite
Quartile/Quantile
Varianz/Standardabweichung
Schiefe, Steilheit
Inferenzstatistik
Kovarianz/
Korrelation
Kreuztabellen
Gruppenunterschiede
Lineare
Regression
W. Ludwig-Mayerhofer
Statistik – Streuung
Allgemein: Perzentile (oder
Quantile), insbesondere Dezile
Im Prinzip kann man Werte für jedes
beliebige Perzentil bestimmen. Relativ
häufig werden Dezile bestimmt.
Dezile teilen die Daten in 10 gleich große
Teile. Das unterste Dezil (Grenze
zwischen den unteren 10 % und den
oberen 90 % der Daten) heißt erstes
Dezil, das oberste (Grenze zu den
obersten 10 %) heißt neuntes Dezil.
7
FB 1
Grundlagen
Häufigkeiten
Lagemaße
Streuung
Spannweite
Quartile/Quantile
Varianz/Standardabweichung
Schiefe, Steilheit
Inferenzstatistik
Kovarianz/
Korrelation
Kreuztabellen
Gruppenunterschiede
Lineare
Regression
W. Ludwig-Mayerhofer
Statistik – Streuung
Erstes und neuntes Dezil
8
FB 1
Grundlagen
Häufigkeiten
Lagemaße
Streuung
Spannweite
Quartile/Quantile
Varianz/Standardabweichung
Schiefe, Steilheit
Inferenzstatistik
Kovarianz/
Korrelation
Kreuztabellen
Gruppenunterschiede
Lineare
Regression
W. Ludwig-Mayerhofer
Statistik – Streuung
Hinweis zu Perzentilen/Quantilen
Wie beim Median, wird es auch bei anderen
Quantilen oft vorkommen, dass der
gesuchte Wert „zwischen“ zwei
Datenpunkten liegt.
Eine mögliche Regel für den Umgang mit
diesem Problem lautet wie folgt Æ Æ Æ
9
FB 1
Grundlagen
Häufigkeiten
Lagemaße
Streuung
Spannweite
Quartile/Quantile
Varianz/Standardabweichung
Schiefe, Steilheit
Inferenzstatistik
Kovarianz/
Korrelation
Kreuztabellen
Gruppenunterschiede
Lineare
Regression
W. Ludwig-Mayerhofer
Statistik – Streuung
Eine Regel zur Berechnung von
Quantilen
1. Wir berechnen np, d.h. Stichprobenumfang mal gesuchtes Quantil p.
Bsp. Q1: n=14, p=0,25. 14*0,25 = 3,5.
2. Ist das Ergebnis keine ganze Zahl, wird
der Wert trunkiert und 1 hinzu addiert:
3[,5]+1=4
Æ Q1=x(4) (d.h. der vierte Wert
[,5]
im geordneten Datensatz).
3. Ist das Ergebnis eine ganze Zahl, so liegt
das Ergebnis zwischen x(np) und x(np+1). In
diesem Fall muss interpoliert werden.
10
FB 1
Grundlagen
Häufigkeiten
Lagemaße
Streuung
Spannweite
Quartile/Quantile
Varianz/Standardabweichung
Schiefe, Steilheit
Inferenzstatistik
Kovarianz/
Korrelation
Kreuztabellen
Gruppenunterschiede
Lineare
Regression
W. Ludwig-Mayerhofer
Statistik – Streuung
11
Eine Regel zur Berechnung von
Quantilen
Beispiel (nach Jann 2002, S. 36):
(i) 1 2 3 4 5 6 7 8 9 10 11 12 13 14
x 0 0 3 6 6 8 9 10 12 14 18 18 22 23
Q1 ist also der 4. Wert (x = 6). Das entspricht der
Definition, dass mindestens 25 % der Daten
kleiner oder gleich 6 und mindestens
75 % größer oder gleich 6 sind.
Der Median liegt zwischen dem 7. und 8. Wert;
nach der Regel aus der Vorlesung „Lagemaße“ beträgt der Wert des Medians 9,5.
FB 1
Grundlagen
Häufigkeiten
Lagemaße
Streuung
Spannweite
Quartile/Quantile
Varianz/Standardabweichung
Schiefe, Steilheit
Inferenzstatistik
Kovarianz/
Korrelation
Kreuztabellen
Gruppenunterschiede
Lineare
Regression
W. Ludwig-Mayerhofer
Statistik – Streuung
Abschließendes zu
Perzentilen/Quantilen
Es gibt eine Reihe anderer Regeln zur
Berechnung, vielfach sind das Interpolationsregeln.
Die Details müssen nur Spezialisten kennen ...
12
FB 1
W. Ludwig-Mayerhofer
Grundlagen
Häufigkeiten
Lagemaße
Streuung
13
Boxplot / Box-and-Whisker-Plot
Spannweite
Quartile/Quantile
Varianz/Standardabweichung
Schiefe, Steilheit
12000
Einkommen
Inferenzstatistik
Kovarianz/
Korrelation
Kreuztabellen
Gruppenunterschiede
Lineare
Regression
Statistik – Streuung
Ausreißer
Q3+1,5 IQR
8000
Y o u rte x t
Q3
M e d ia n
4000
Q 1
Q1-1,5 IQR
0
Ausreißer
FB 1
Grundlagen
Häufigkeiten
Lagemaße
Streuung
Spannweite
Quartile/Quantile
Varianz/Standardabweichung
Schiefe, Steilheit
Inferenzstatistik
Kovarianz/
Korrelation
Kreuztabellen
Gruppenunterschiede
Lineare
Regression
W. Ludwig-Mayerhofer
Statistik – Streuung
Die Varianz
Ein Maß, welches durch eine einzige Zahl
die Streuung der Daten ausdrückt.
Gleichzeitig werden alle Datenwerte
berücksichtigt.
Sie wird berechnet als durchschnittliche
quadrierte Abweichung vom
aríthmetischen Mittel:
1
1
2
2
2
s = ∑ ( xi − x ) =  ∑ xi  − x
n i =1
 n i =1 
2
x
n
n
14
FB 1
Grundlagen
Häufigkeiten
Lagemaße
Streuung
Spannweite
Quartile/Quantile
Varianz/Standardabweichung
Schiefe, Steilheit
Inferenzstatistik
Kovarianz/
Korrelation
Kreuztabellen
Gruppenunterschiede
Lineare
Regression
W. Ludwig-Mayerhofer
Statistik – Streuung
15
Die Standardabweichung
Als Folge der Quadrierens der Abweichungen hat die Varianz eine andere
Dimension als die Ausgangswerte. In der
Standardabweichung wird das Quadrieren wieder rückgängig gemacht.
sx = s
2
x
Man beachte: Varianz und Standardabweichung
dürfen (ebenso wie die nachfolgenden Größen)
nur bei metrischen Daten berechnet werden.
FB 1
Grundlagen
Häufigkeiten
Lagemaße
Streuung
W. Ludwig-Mayerhofer
Varianz und Standardabweichung
im Beispiel
Spannweite
Quartile/Quantile
Varianz/Standardabweichung
Schiefe, Steilheit
Inferenzstatistik
Kovarianz/
Korrelation
Kreuztabellen
Gruppenunterschiede
Lineare
Regression
Statistik – Streuung
Summe
Ar. Mittel
Xi
Xi –Xquer
(Xi –Xquer )²
2000
-1000
1.000.000
5000
2000
4.000.000
4000
1000
1.000.000
1500
-1500
2.250.000
2500
-500
250.000
15000
(0)!
8.500.000
3000
Varianz:
1.700.000
Std.abw.:
1.304
16
FB 1
Grundlagen
Häufigkeiten
Lagemaße
Streuung
Spannweite
Quartile/Quantile
Varianz/Standardabweichung
Schiefe, Steilheit
Inferenzstatistik
Kovarianz/
Korrelation
Kreuztabellen
Gruppenunterschiede
Lineare
Regression
W. Ludwig-Mayerhofer
Statistik – Streuung
Wichtiger Hinweis
Die hier (nach K & K) angegebenen Formeln
für die Varianz bzw. die Standardabweichung gelten nur, wenn diese die
vorhandenen Daten beschreiben sollen.
Sollen die Werte dieser beiden Größen
jedoch für eine Grundgesamtheit
geschätzt werden, muss die Varianz
nach einer anderen Formel berechnet
werden (s. nächste Seite).
17
FB 1
Grundlagen
Häufigkeiten
Lagemaße
Streuung
Spannweite
Quartile/Quantile
Varianz/Standardabweichung
Schiefe, Steilheit
Inferenzstatistik
Kovarianz/
Korrelation
Kreuztabellen
Gruppenunterschiede
Lineare
Regression
W. Ludwig-Mayerhofer
Statistik – Streuung
18
Varianz und Standardabweichung
als Schätzer für Wert in der
Grundgesamtheit
1
 1
2
2
2
ˆ
xi  − x
( xi − x ) = 
σ =
∑
∑
n −1 i=1
 n −1 i=1 
2
x
n
n
2
ˆ
ˆ
σx = σx
Beachte: SPSS berechnet Varianz und
Standardabweichung nur als Schätzung für
die GG;
GG Excel erlaubt beide Berechnungen.
FB 1
Grundlagen
Häufigkeiten
Lagemaße
Streuung
Spannweite
Quartile/Quantile
Varianz/Standardabweichung
Schiefe, Steilheit
Inferenzstatistik
Kovarianz/
Korrelation
Kreuztabellen
Gruppenunterschiede
Lineare
Regression
W. Ludwig-Mayerhofer
Statistik – Streuung
19
Varianz und Standardabweichung:
Nachtrag zur Terminologie
Die Terminologie der verschiedenen Bücher ist in diesem
Punkt leider unterschiedlich.
Die Varianz, die gegebene Daten charakterisiert, wird bei
Fahrmeir et al. „empirische Varianz“ genannt, heißt aber bei
Kühnel & Krebs „Stichprobenvarianz“. Dieser Begriff wird in
anderen Büchern (etwa bei Fahrmeir!) wiederum
verwendet, um die geschätzte Varianz in der
Grundgesamtheit zu kennzeichnen.
Aus diesem Grund versuche ich, auf die Begriffe
„empirische Varianz“ und „Stichprobenvarianz“ künftig ganz
zu verzichten (Analoges gilt für die Standardabweichung).
Statt dessen sprechen wir von „Varianz der gegebenen
Daten“ und „geschätzte Populationsvarianz“ (oder
„Schätzung der Varianz in der Grundgesamtheit“).
FB 1
Grundlagen
Häufigkeiten
Lagemaße
Streuung
Spannweite
Quartile/Quantile
Varianz/Standardabweichung
Schiefe, Steilheit
Inferenzstatistik
Kovarianz/
Korrelation
Kreuztabellen
Gruppenunterschiede
Lineare
Regression
W. Ludwig-Mayerhofer
Statistik – Streuung
Der Variationskoeffizient
Verschiedene Merkmale können ganz
unterschiedliche Größenordnungen
aufweisen. Die Standardabweichungen
können dann nicht sinnvoll verglichen
werden.
Der Variationskoeffizient
sx
Vx =
x
drückt die Standardabweichung als Anteil des
Mittelwerts aus (im Bsp.: ca. 0,43).
Voraussetzung: Mittelwert > 0
20
FB 1
Grundlagen
Häufigkeiten
Lagemaße
Streuung
Spannweite
Quartile/Quantile
Varianz/Standardabweichung
Schiefe, Steilheit
Inferenzstatistik
Kovarianz/
Korrelation
Kreuztabellen
Gruppenunterschiede
Lineare
Regression
W. Ludwig-Mayerhofer
Statistik – Streuung
Schiefe
Die Schiefe einer Verteilung (einer
metrischen Variablen) kann durch die
Maßzahl
1 n
3
(
)
x
x
−
∑
n i =1
s x3
beschrieben werden („Schiefekoeffizient“). Ist
dieser größer als 0, ist die Verteilung
rechtsschief, ist sie kleiner als 0, ist die
Verteilung linksschief.
21
FB 1
Grundlagen
Häufigkeiten
Lagemaße
Streuung
Spannweite
Quartile/Quantile
Varianz/Standardabweichung
Schiefe, Steilheit
Inferenzstatistik
Kovarianz/
Korrelation
Kreuztabellen
Gruppenunterschiede
Lineare
Regression
W. Ludwig-Mayerhofer
Statistik – Streuung
Steilheit, Wölbung, Exzess,
Kurtosis
Die Wölbung einer Verteilung kann durch die
Maßzahl
1 n
4
(
)
x
x
−
∑
n i =1
−3
4
sx
beschrieben werden. Ist diese größer als 0,
ist die Verteilung eher steil, ist sie kleiner als
0, ist die Verteilung flach.
22
FB 1
Grundlagen
Häufigkeiten
Lagemaße
Streuung
Spannweite
Quartile/Quantile
Varianz/Standardabweichung
Schiefe, Steilheit
Inferenzstatistik
Kovarianz/
Korrelation
Kreuztabellen
Gruppenunterschiede
Lineare
Regression
W. Ludwig-Mayerhofer
Statistik – Streuung
Hinweis zu Schiefe und Wölbung
Statistik-Software (u.a. SPSS und Excel)
verwendet etwas andere Maßzahlen (die
nicht immer [leicht zugänglich]
dokumentiert sind!).
Die Tendenz der Ergebnisse ist aber ähnlich
wie bei den hier vorgestellten Formeln.
23
FB 1
Grundlagen
Häufigkeiten
Lagemaße
Streuung
Spannweite
Quartile/Quantile
Varianz/Standardabweichung
Schiefe, Steilheit
Inferenzstatistik
Kovarianz/
Korrelation
Kreuztabellen
Gruppenunterschiede
Lineare
Regression
W. Ludwig-Mayerhofer
Statistik – Streuung
24
Epilog I
Wozu das Alles? Weil Lagemaße alleine oft
wenig aussagekräftig sind ...
8
Die Grafik zeigt
die Verteilung
der Punkte, die
bei einer
Klausur erzielt
wurden.
6
4
2
Std.abw . = 9,77
Mittel = 23,8
N = 60,00
0
5,0
10,0 15,0 20,0 25,0 30,0 35,0 40,0
7,5 12,5 17,5 22,5 27,5 32,5 37,5 42,5
PUNKTE
FB 1
Grundlagen
Häufigkeiten
Lagemaße
Streuung
Spannweite
Quartile/Quantile
Varianz/Standardabweichung
Schiefe, Steilheit
Inferenzstatistik
Kovarianz/
Korrelation
Kreuztabellen
Gruppenunterschiede
Lineare
Regression
W. Ludwig-Mayerhofer
Statistik – Streuung
Epilog II
Das Buch von Kühnel & Krebs enthält –
ebenso wie andere Bücher – Wege zur
Berechnung vieler Größen im Falle
gruppierter Daten. Diese sind nicht
Gegenstand der Klausur.
25
Herunterladen