Verfahren für metrische Variable

Werbung
Verfahren für metrische Variable
Grafische Methoden
√ Histogramm
Mittelwertsplot
Boxplot
Lagemaße
Mittelwert, Median, Quantile
Streuungsmaße
Standardabweichung, Interquartilsabstand
Lagemaße und Streumaße
Üblicherweise wird der Mittelwert
gemeinsam mit der Standardabweichung
und der Median gemeinsam mit dem
Interquartilsabstand präsentiert.
Speziell für schief verteilte Daten ist der
Median zu bevorzugen.
Arithmetisches Mittel, Varianz und
Standardabweichung
Stichprobe der Größe = n
Daten der Stichprobe: x1, x2, …, xn
Mittelwert:
Varianz:
1 n
x = ∑ xi
n i =1
n
1
2
2
( xi −x )
s =
∑
n − 1 i =1
Standardabweichung:
s= s
2
Rechenbeispiel:
Die Zahl der Kühe von 4 Bauern sei: 3 , 6, 7, 4
2
Stichprobenumfang: n=4
(x − x)
i
1
20
x = (3 + 6 + 7 + 4) =
=5
4
4
1
10
s = (4 + 1 + 4 + 1) =
= 3,333
3
3
2
s = 1,826
Drei Dörfer
Dorf 1
Dorf 2
Dorf 3
5, 5, 5, 5
3, 6, 7, 4
x =5
x =5
x =5
s=0
s = 1,826
s = 8,66
0, 0, 0, 20
Variationskoeffizient
Setzt die Standardabweichung in Relation
zum arithmetischen Mittel
s
v = ⋅100
x
Rechenbeispiel:
1,826
v=
⋅ 100 = 36,52 %
5
Beispiel Kleber
1
x=
⋅ (2,80 + 3,63 + ... + 14,01 + 14,48) = 8,82 MPa
43
1
2
s = ⋅ [(2,80 − 8,82)2 + (3,63 − 8,82)2 + ... + (14,48 − 8,82)2 ]
42
= 9,63 MPa2
s=
9 , 63 = 3 ,10 MPa
Grafische Darstellung
M itte lw e rt und Standardabw e ichung
14
12
MPa
10
8
6
4
2
0
Kleber 2
Der Median
Ist ein anderes Lagemaß für metrische sowie
auch ordinale Merkmale.
Definition:
~
Der Median ist eine Zahl x, so dass
mindestens die Hälfte der Daten größer
oder gleich
und mindestens die Hälfte der Daten kleiner
~
oder gleich dem Wert x sind.
n gerade
In diesem Fall liegt der Median zwischen
zwei Datenpunkten.
An welcher Stelle der Rangliste?
unterer Datenpunkt: Stelle = n/2
obere Datenpunkt: Stelle = (n/2)+1
Median = (unterer + oberer Datenpunkt)/2
Rechenbeispiel zum Median
(n gerade, d.h. n/2 eine ganze Zahl)
Daten: 2,1 3,4
untere Stelle: 2
obere Stelle: 3
7,3
8,9
Wert: 3,4
Wert: 7,3
Median = (3,4 + 7,3)/2 = 5,35
n ungerade
In diesem Fall ist der Median einer der
Datenpunkte!
An welcher Stelle der Rangliste liegt der Median?
Stelle = n/2 aufgerundet auf die nächste
ganze Zahl.
z.B. n = 5 n/2= 2,5 Stelle = 3
Rechenbeispiel zum Median
(n ungerade , d.h. n/2 keine ganze Zahl)
Daten
3/5=60%
3/5=60%
1,3 2,6 3,6 4,3 5,1
Median
~
x = 3,6
Median der Haftstärke
Rangliste: (n = 43)
2,80; 3,63; 4,14; 4,20; 4,58; 5,22; 5,28; 5,51; 6,05; 6,11;
6,49; 6,88; 7,19; 7,26; 7,32; 7,32; 7,39; 7,86; 7,89; 8,02;
8,21; 8,72; 8,88; 8,98; 9,33; 9,39; 10,19; 10,19; 10,25; 11,05;
11,05; 11,08; 11,46; 11,71; 11,90; 12,10; 12,51; 12,70; 13,18; 13,31;
13,43; 14,01; 14,48.
43/2 = 21,5
Daher ist Median die 22-te
Beobachtung der Rangliste
Das erste und dritte Quartil
Das 1. Quartil:
(25%-Percentil)
eine Zahl, so dass
mind. 25% der
Beobachtungen kleiner
gleich
und
mind. 75%
der Beobachtungen
größer gleich
dieser Zahl sind.
Das 3. Quartil:
(75%-Percentil)
eine Zahl, so dass
mind. 75%
der Beobachtungen
kleiner gleich
und
mind. 25%
der Beobachtungen
größer gleich dieser
Zahl sind.
Das 2. Quartil ist der Median
Berechnung des 1. Quartils
(25%-Percentil)
n·(1/4) eine ganze
Zahl:
untere Stelle: n·(1/4)
obere Stelle:
n·(1/4)+1
z.B. n = 4, n·(1/4)=1
untere Stelle = 1
obere Stelle = 2
n·(1/4) keine ganze Zahl:
Stelle =
n·(1/4) aufgerundet auf
die nächste ganze Zahl
z.B. n=5
n·(1/4)=1,25 Stelle = 2
Rechenbeispiele zum 1. Quartil
Beispiel 1:
2/5=40%
4/5=80%
1,3; 2,6; 3,6; 4,3; 5,1
n/4=1.25
1. Quartil = 2,6
Rechenbeispiele zum 1. Quartil
Beispiel 2:
2,1; 3,4 ; 7,3 ; 8,9
n/4=1
1. Quartil = (2,1 + 3,4 )/2 = 2.75
Berechnung des 3-ten Quartils
(75%-Percentil)
n·(3/4) eine ganze Zahl:
n·(3/4) keine ganze Zahl:
untere Stelle: n·(3/4)
obere Stelle: n·(3/4)+1
Stelle =
n·(3/4) aufgerundet auf
die nächste ganze Zahl
z.B. n = 4, n·(3/4)=3
untere Stelle = 3
obere Stelle = 4
z.B. n=5
n·(3/4)=3,75 Stelle = 4
Rechenbeispiele zum 3. Quartil
4/5=80%
2/5=40%
Beispiel 1:
1,3; 2,6; 3,6; 4,3; 5,1
3. Quartil = 4,3
n·(3/4)=3,75
Rechenbeispiele zum 3. Quartil
Beispiel 2:
2,1; 3,4 ; 7,3 ; 8,9
n·(3/4)=3
3. Quartil = (7,3 + 8,9 )/2 = 8,1
1. Und 3.Quartil der Haftstärke
Rangliste: (n = 43)
2,80; 3,63; 4,14; 4,20; 4,58; 5,22; 5,28; 5,51; 6,05; 6,11;
6,49; 6,88; 7,19; 7,26; 7,32; 7,32; 7,39; 7,86; 7,89; 8,02;
8,21; 8,72; 8,88; 8,98; 9,33; 9,39; 10,19; 10,19; 10,25; 11,05;
11,05; 11,08; 11,46; 11,71; 11,90; 12,10; 12,51; 12,70; 13,18; 13,31;
13,43; 14,01; 14,48.
43·(1/4)
43·(3/4) =10,75
=32,25
Daher
Daher ist
ist das
das 1.
3. Quartil
Quartil die
die 11-te
33-te Beobachtung
Beobachtung der
der Rangliste
Rangliste
Berechnung des q-Quantils
(q·100 %-Percentil)
n·q eine ganze Zahl:
n·q keine ganze Zahl:
untere Stelle: n·q
obere Stelle: n·q+1
Stelle =
n·q aufgerundet auf
die nächste ganze
Zahl
q- Quantil ist der
Mittelwert
der entsprechenden
Werte aus der
Rangliste
q-Quantil ist der Wert
aus der Rangliste an
dieser Stelle
Box & Whisker - Plot
Max = 14,48
14
Haftstärke [MPa]
12
3. Quartil = 11,46
10
Median = 8,72
8
1. Quartil = 6,49
6
4
Min = 2,80
2
0
Kleber 2
Interquartilsabstand
Interquartilsabstand = 3. Quartil – 1. Quartil
ist ein Streuungsmaß. Wird im
Zusammenhang mit Median verwendet.
Haftstärke in Beispiel 1.2:
Interquartilsabstand = 11,46 – 6,49 = 4,97
Vergleich der grafischen
Methoden für metrische Variable
Zeigt die detailierte Verteilung der Daten.
„Ausreißer“ sind gut erkennbar
0,3
R e la tiv e H äu fig ke it
Histogramm
0,25
0,2
0,15
0,1
0,05
0
3
5
7
9
11
Haftstärke [MPa]
Mittelwertsplot
Mittelw e rt und Standardfehle r
14
12
10
MPa
sehr starke Reduktion der Information
8
6
4
2
0
Boxplot
Kleber 2
Gibt einen guten Eindruck der Verteilung der
Daten,
Minimum, Maximum, Median, Quartile und
Quartilsabstand sind direkt ablesbar
Platzsparender als Histogramme
14
Haftstärke [MPa]
12
10
8
6
4
2
0
Kleber 2
13
15
Vergleich der Lage- und
Streuungsmaße
Mittelwert und Varianz
Nur für metrische Variable
Instabil gegenüber Ausreißern
Interpretierbar als durchschnittlicher Wert
Spezielle Interpretation für Normalverteilung
Der Mittelwert beschreibt das Zentrum der
Verteilung von schiefverteilten Daten schlecht.
Median und Interquartilsabstand
Für metrische und ordinale Variable
Robust gegenüber Ausreißern
Robustheit gegen „Ausreißer“
Anzahl der täglich gerauchten Zigaretten (7
Personen wurden befragt)
Beispiel 1:
0 5 5 10 8 15 20
Mittelwert: 9 Median: 8
Beispiel 2:
0 5 5 10 8 15 100 Mittelwert: 20.4 Median: 8
Symmetrie
(Rechts-)Schiefe
Verteilung
Verteilung
30
30
Anzahl
Anzahl
20
20
10
10
0
-2,00
-1,00
0,00
norm
1,00
2,00
3,00
0
1,00
2,00
absnorm
3,00
Mittelwert und Median bei einer
symmetrischen Verteilung
150
F
r
e
100
q
u
e
n
50
c
y
0
1.25
2.75
4.25
5.75
Ery
Mean=4.025 Median=4.02 Mode=3.67
7.25
Mittelwert und Median bei einer
schiefen Verteilung
40
35
Häufigkeit
30
25
20
15
10
5
0
10
30
50
Mittelwert=23.9 Median=3.5
70
90
Die Momente einer Verteilung
Um die Schiefe einer Verteilung mathematisch
zu beschreiben definieren wir zunächst die
Momente.
n
Definition:
Beachte:
1
k
mk = ∑ (xi − x )
n i =1
m1 = 0
n 2
m2 =
s
n −1
Die Schiefe
Die Schiefe ist proportional dem dritten Moment
n
n ∑ (xi − x ) 3
m3
i =1
α 3 = 3/ 2 =
3/ 2
n
m2

2
∑ (xi − x ) 
 i =1

Verteilung symmetrisch:
α 3= 0
rechts schief:
α 3> 0
links schief:
α 3< 0
Alternatives Maß für Schiefe
Wie bereits gesehen befindet sich bei einer
rechtsschiefen (linksschiefen)Verteilung der
Mittlewert rechts (links) vom Median.
Bei symmetrischen Verteilung sind Mittelwert
und Median gleich.
Dieser Zusammenhang kann für folgende
Definition genutzt werden:
x)
3( x − ~
α 3′ =
s
Herunterladen