Spannweite, Median Quartilsabstand, Varianz und

Werbung
Rudolf Brinkmann http://brinkmann-du.de
Seite 1
08.04.2017
Spannweite, Median Quartilsabstand, Varianz und Standardabweichung.
Streuung um den Mittelwert.
In den folgenden Säulendiagrammen ist die Notenverteilung zweier Schülergruppen
(Mädchen, Jungen) dargestellt, deren Mittelwert gleich ist.
Schüler Nr.
1
2
3
4
5
6
7
8
9 10
Note Mädchen 3,2 3,5 2,9 3,3 3,4 2,5 2,7 2,8 3,1 2,6 x  3,0
Note Jungen
1,0
1,0
2,0 2,5 3,2 2,8 3,5 2,0 6,0 6,0 x  3,0
Notenverteilung Mädchen
4
x  3,0
Note
3
2
1
0
1
2
3
4
5
6
7
8
9
10
Schüler Nr.
Notenverteilung Jungen
7
6
Note
5
4
x  3,0
3
2
1
0
1
2
3
4
5
6
7
8
9
10
Schüler Nr.
Bei den Mädchen liegen die Noten alle sehr nahe am Mittelwert
Sie streuen wenig um den Mittelwert.
Bei den Jungen sind die Abweichungen vom Mittelwert sehr groß.
Sie streuen stark um den Mittelwert.
Die Statistik bietet Möglichkeiten, die Streuung näher zu untersuchen.
Erstellt von Rudolf Brinkmann 481352720
08.04.17 04:09
Seite: 1 von 10
Rudolf Brinkmann http://brinkmann-du.de
Seite 2
08.04.2017
Die Spannweite.
Berechnet man den Unterschied zwischen dem größten und kleinsten
Beobachtungswert, so erhält man die Spannweite.
Sie ist ein Maß für die Breite des Streubereichs einer Häufigkeitsverteilung.
Die Spannweite
Spannweite = größter Beobachtungswert - kleinster Beobachtungswert
R  xmax  xmin
Beispiel:
Schüler Nr.
1
2
3
4
5
6
7
8
9
10
Note Mädchen 3,2 3,5 2,9 3,3 3,4 2,5 2,7 2,8 3,1 2,6 x  3,0
Note Jungen
1,0
1,0
2,0 2,5 3,2 2,8 3,5 2,0 6, 0 6,0 x  3,0
Spannweite Mädchen: RM  3,5  2,5  1
Spannweite Jungen:
RJ  6,0  1,0  5
Der Quartilsabstand.
Zur Erinnerung: Der Median teilt einen nach Größe sortierten Datensatz in der Mitte.
Das bedeutet, links und rechts vom Median liegen gleich viele Beobachtungswerte.
höchstens 50% aller B - Werte  Median  höchstens 50% aller B - Werte
links vom Median
 Median 
rechts vom Median
Unterteilt man die linke und die rechte Hälfte nach gleicher Vorschrift, wie man den
Median bestimmt, so erhält man vier gleich große Bereiche, die durch drei Quartile
aufgeteilt werden.
Beispiel:
Die Liste enthält von 13 Schülern die Körpergröße.
Die Merkmalsausprägungen (Beobachtungswerte) wurden nach der Größe geordnet.
xi
x1
x2
x3
x4
x5
x6
x7
x8
x9
x10 x11 x12 x13
KG 1,60 1,67 1,67 1,68 1,68 1,70 1,70 1,72 1,73 1,75 1,76 1,78 1,84
xi  Beobachtungswert x i ; KG  Körpergröße in m
Median / 2. Quartil: Q2  x 7  1,70
1. Quartil:
3. Quartil:
1
1
 x3  x 4   1,67  1,68   1,675
2
2
1
1
Q3   x10  x11   1,75  1,76   1,755
2
2
Q1 
Erstellt von Rudolf Brinkmann 481352720
08.04.17 04:09
Seite: 2 von 10
Rudolf Brinkmann http://brinkmann-du.de
Seite 3
08.04.2017
xi
x1
x2
x3
x4
x5
x6
x7
x8
x9
x10
x11 x12 x13
KG 1,60 1,67 1,67 1,68 1,68 1,70 1,70 1,72 1,73 1,75 1, 76 1,78 1,84
25%
25%
25%
2. Quartil
Q2 = 1,70
50%
1. Quartil
Q1=1,675
25%
3. Quartil
Q3 = 1,755
Quartilsabstand
Definition: 25% aller geordneten Beobachtungswerte sind kleiner als das 1. Quartil
50% aller geordneten Beobachtungswerte sind kleiner als das 2. Quartil.
75% aller geordneten Beobachtungswerte sind kleiner als das 3. Quartil.
Wie leicht zu erkennen ist, liegen zwischen dem 1. und 3. Quartiel 50% aller
Beobachtungswerte. Dieser Bereich wird auch Quartilsabstand genannt.
Quartilsabstand
Der mittlere 50% - Bereich aller Beobachtungswerte heißt Quartilsabstand.
Berechnung:
QA  Q3  Q1
Weitere Auswertung des Beispiels:
Quartilsabstand: QA  Q3  Q1  1,755  1,675  0,08
50% der Daten liegen in einem Bereich der Bandbreite von 0,08 m bzw. 8 cm.
Etwa 50% der Körpergrößen liegen zwischen 1,675 m und 1,755 m.
Vergleich zwischen Quartilsabstand und Spannweite
Quartilsabstand
Spannweite
Von Ausreißern unabhängig
Vom kleinsten und größten Wert
Gibt die Breite des mittleren Bereichs an, abhängig
in dem ca. 50% aller Werte liegen
Gibt die Gesamtbreite an
in dem alle Werte liegen
Beispiel:
Ein Landwirt misst im Monat April jeweils mittags um 12 Uhr die Außentemperatur
und trägt sie in eine Tabelle ein.
Berechnen Sie den Mittelwert, Spannweite und Median.
Berechnen Sie das 1. und 3. Quartil und den Quartilsabstand.
Tag
1 2 3 4 5 6 7 8 9 10
Temperatur 7 10 12
Tag
11 12 13
Temperatur 23 19 20
Tag
21 22 23
Temperatur 8 25 24
16
14
21
24
23
Erstellt von Rudolf Brinkmann 481352720
16
15
18
25
23
17
16
17
26
25
18
17
15
27
26
20
18
29
28
27
08.04.17 04:09
22
19
22
29
19
29
20
23
30
16
Seite: 3 von 10
Rudolf Brinkmann http://brinkmann-du.de
x
Mittelwert:
Seite 4
08.04.2017
1 30
1
590
xi 
 19,6
7  10  ...  19  16  

30 i 1
30
30
0 7 8
1 0 2 5 6 6 6 7 7 8 8 9 9
2 0 0 1 2 2 3 3 3 3 4 5 5 6 7 9 9
Spannweite: R  x max  x min  29  7  22
1. Quartil:
1
1
 x15  x16   20  20   20 (2. Quartil)
2
2
Q1  x 8  16
3. Quartil:
Q 3  x 23  23
Quartilsabstand:
Q A  Q3  Q1  23  16  7
x Med 
Median:
Temperatur in 0C
Die Ergebnisse lassen sich in einem Boxplot – Diagramm darstellen:
30
xmax
25
Q3
20
xMed
15
Q1
50%
10
xmin
5
0
Temperaturen im April
Varianz und Standardabweichung.
Wir betrachten noch mal die Notenverteilung von Mädchen und Jungen aus dem
vorigen Beispiel.
Schüler Nr.
1
2
3
4
5
6
7
8
9 10
Note Mädchen 3,2 3,5 2,9 3,3 3,4 2,5 2,7 2,8 3,1 2,6 x  3,0
Note Jungen
1,0
1,0
2,0 2,5 3,2 2,8 3,5 2,0 6,0 6,0 x  3,0
Der Mittelwert ist in beiden Fällen gleich, die Streuung um diesen ist unterschiedlich.
Erstellt von Rudolf Brinkmann 481352720
08.04.17 04:09
Seite: 4 von 10
Seite 5
Mädchen
6
Jungen
6
5
5
x  3,0
Mittelwert
3
Spannweite
R 1
2
x  3,0
Mittelwert
4
Note
4
Note
08.04.2017
Spannweite
Rudolf Brinkmann http://brinkmann-du.de
3
R5
2
1
1
1 2 3 4 5 6 7 8 9 10
Schüler Nr.
1 2 3 4 5 6 7 8 9 10
Schüler Nr.
Abweichung
Die beiden Diagramme veranschaulichen die Abweichungen vom Mittelwert.
Abwichung: xi  x
In der beschreibenden Statistik berechnet man das arithmetische Mittel der
Abweichungsquadrate und nennt dieses die Varianz.
Varianz einer Datenreihe

1 n
s2   x i  x
n i1

2
x

1
x
  x
2
2
x

2

 ...  xn  x

2
n
n: Anzahl der Beobachtungswerte, xi : i - ter Beobachtungswert, x : Mittelwert
Für unser Beispiel gilt:
Mädchen
Jungen
i
xi
xi  x
x  x
1
2
3
4
5
6
7
8
9
10
3,2
3,5
2,9
3,3
3,4
2,5
2,7
2,8
3,1
2,6
30
0,2
0,5
0,1
0,3
0,4
0,5
0,3
0,2
0,1
0,4
0
0,04
0,25
0,01
0,09
0,16
0,25
0,09
0,04
0,01
0,16
1,10

2
i
2
Varianz Mädchen: sM

i
xi
xi  x
x  x
1
2
3
4
5
6
7
8
9
10
1,0
1,0
2,0
2,5
3,2
2,8
3,5
2,0
6,0
6,0
30
2,0
2,0
1,0
0,5
0,2
0,2
0,5
1,0
3,0
3,0
0
4,0
4,0
1,0
0,25
0,04
0,04
0,25
1,0
9,0
9,0
28,58

2
i
1
1
 1,1  0,11 Varianz Jungen: s2J 
 28,58  2,858
10
10
Erstellt von Rudolf Brinkmann 481352720
08.04.17 04:09
Seite: 5 von 10
Rudolf Brinkmann http://brinkmann-du.de
Seite 6
08.04.2017
Viele Daten sind mit Einheiten behaftet, z.B. Meter (m) oder kg.
Die Einheit für die Varianz wäre in diesen Fällen m2 bzw. (kg)2.
Um wieder auf die ursprüngliche Einheit zu kommen, zieht man die Wurzel aus
der Varianz. Dieser Wert wird Standardabweichung genannt.
s  s2  Varianz
Standardabweichung:
Zur praktischen Berechnung fertigt man wie oben gezeigt eine entsprechende
Tabelle an. Sie dient auch zur Kontrolle der Daten.
Die Summe der Abweichungen muss Null ergeben.
Bemerkung zur Varianz:
Handelt es sich bei den zu untersuchenden Daten um die Population (Grundgesamtheit),
dann wird mit 1/ n gewichtet:
2
1 n
s2   x i  x
n i 1
Wird hingegen eine Stichprobe (Teil einer Population) untersucht,
so wird mit 1/ n  1 gewichtet:
2
1 n
2
s 
xi  x

n  1 i 1




Berechnung der Standardabweichung aus einer Häufigkeitstabelle.
Hier geht man ähnlich vor wie bei der Mittelwertbildung.
Zur Erinnerung:
Fall I: Absolute Häufigkeit ni
x
1 j
1
xi  ni  x1  n1  x 2  n2  ....  x j  n j

n i 1
n

Fall II: Relative Häufigkeit hi 
j

i 1

ni : absolute Häufigkeit der Merkmalsausprägung x i
hi : relative Häufigkeit der Merkmalsausprägung x i
Erstellt von Rudolf Brinkmann 481352720
j
n   ni  n1  n2  ...  n j
ni
n
x   xi  hi  x1  h1  x 2  h2  ....  x j  h j
i 1

08.04.17 04:09
n : Summe der absoluten Häufigkeiten
j : Anzahl der Merkmalsausprägungen x i
Seite: 6 von 10
Rudolf Brinkmann http://brinkmann-du.de
Seite 7
08.04.2017
Berechnung der Varianz aus einer Häufigkeitstabelle
Fall I: Absolute Häufigkeit ni
j
n   ni  n1  n2  ...  n j
i 1

1 j
s2   x i  x
n i 1

2
x
n 
1
x

2
j

s   xi  x
i 1

2

i
2

 n2  ...  x j  x

2
 nj
n
Fall II: Relative Häufigkeit hi 
2

 n1  x 2  x

 hi  x1  x

2
ni
n

 h1  x 2  x

2

 h2  ...  x j  x

2
 hj
Standardabweichung: s  s2
ni : absolute Häufigkeit der Merkmalsausprägung x i
n : Summe der absoluten Häufigkeiten
hi : relative Häufigkeit der Merkmalsausprägung x i
j : Anzahl der Merkmalsausprägungen x i
Beispiel:
Note  xi 
1 2 3 4 5 6
Anz. d. Schüler ni  5 8 14 16 5 2
Note  xi 
1 2 3 4 5 6
Anz. d. Schüler ni  5 8 14 16 5 2
6
Schüler insgesamt: n   ni  50
i 1
x  x
2
xi  ni
x
xi  x
1 5
2 8
3 14
5
16
42
3,28
3,28
3,28
2,28
1,28
0,28
25,992
13,1072
1,0976
4
5
6
4 16
5 5
6 2
64
25
12
3,28
3,28
3,28
0,72
1,72
2,72
8,2944
14,792
14,7968

50
164
i
xi
1
2
3
ni
x
i
164
 3,28
50

78,08
1 6
 xi  x
50 i 1

2
 ni 
78,08
 1,5616
50
Varianz:
s2 
Standardabweichung:
s  s 2  1,5616  1,2496
Erstellt von Rudolf Brinkmann 481352720
 ni
08.04.17 04:09
Seite: 7 von 10
Rudolf Brinkmann http://brinkmann-du.de
Beispiel:
Note  xi 
Anz. d. Schüler  ni 
n
rel. Häufigkeit hi  i
n
Seite 8
1
5
2
8
3
14
4
16
08.04.2017
5
5
6
2
0,1 0,16 0,28 0,32 0,1 0,04
6
Schüler insgesamt: n   ni 50
i 1
x  x
xi
hi
xi  hi
1
1
0,1
0,1
3,28 2,28
0,51984
2
3
2
3
0,16
0,28
0,32
0,84
3,28 1,28
3,28 0,28
0,262144
0,021952
4
5
6
4
5
6
0,32
0,1
0,04
1,28
0,50
0,24
3,28
3,28
3,28
0,165888
0,29584
0,295936
1
x  3,28

xi  x
2
i
x

s2   x i  x
i 1
Standardabweichung:
0,72
1,72
2,72
 hi
s2  1,5616
6
Varianz:
i

2
 hi  1,5616
s  s2  1,5616  1,2496
Das Beispiel zeigt, dass es sich mit den relativen Häufigkeiten leichter rechnen lässt.
Berechnung der Standardabweichung aus einer klassierten Häufigkeitstabelle.
Zur Erinnerung:
Fall I: Absolute Häufigkeit ni
x
1 k
1
mi  ni   m1  n1  m2  n2  ...  mk  nk 

n i 1
n
Fall II: Relative Häufigkeit hi 
k
n   ni  n1  n2  ...  nk
i 1
ni
n
k
x   mi  hi  m1  h1  m2  h2  ...  mk  hk
i 1
ni : absolute Häufigkeit der i - ten Klasse
n : Summe der absoluten Häufigkeiten
hi : relative Häufigkeit der i - ten Klasse
k:
Anzahl der Klassen
mi : Klassenmitte der i -ten Klasse
Erstellt von Rudolf Brinkmann 481352720
08.04.17 04:09
Seite: 8 von 10
Rudolf Brinkmann http://brinkmann-du.de
Seite 9
08.04.2017
Berechnung der Varianz aus einer klassierten Häufigkeitstabelle
Fall I: Absolute Häufigkeit ni
k
n   ni  n1  n2  ...  nk
i 1

1 k
s2   mi  x
n i1

2
m  x 
n 
k

i 1

2

 n1  m2  x
i
Fall II: Relative Häufigkeit hi 
s2   mi  x
2
1

 hi  m1  x

2

2

 n2  ...  mk  x

2
 nk
n
ni
n

 h1  m2  x

2

 h2  ...  mk  x

2
 hk
Standardabweichung: s  s2
ni : absolute Häufigkeit der i - ten Klasse
n : Summe der absoluten Häufigkeiten
hi : relative Häufigkeit der i - ten Klasse
k:
Anzahl der Klassen
mi : Klassenmitte der i -ten Klasse
Beispiel :
Bestimmen Sie aus der klassierten Häufigkeitstabelle für die Körpergröße die
Standardabweichung.
Klasse xi
150  x  160 160  x  170 170  x  180 180  x  190
abs. Häufigkeit ni
Klassenmitte mi
n
rel. Häufigkeit hi  i
n
Klassenmitte 
9
155
12
165
7
175
2
185
0,3
0,4
0,23
0,06
Klassenanfang  Klassenende
160  170
z.B.
 165
2
2
Berechnung über die absolute Häufigkeit
m  x 
2
i
mi
ni
mi  ni
x
mi  x
1
155
9
1395
165,6
10,6
1023,9
2
165
12
1980
165,6
0,6
5,3
3
175
7
1225
165,6
9,3
609,7
4
185
2
370
165,6
4970
 165,6
30
19,3
747,5

n  30 4970
Varianz: s2 
2386,6
 79,5
30
Erstellt von Rudolf Brinkmann 481352720
i
 ni
2386,6
Standardabweichung: s  79,5  8,9194
08.04.17 04:09
Seite: 9 von 10
Rudolf Brinkmann http://brinkmann-du.de
Seite 10
08.04.2017
Berechnung über die relative Häufigkeit
2
mi
hi
mi  hi
1
155
0,3
46,5
165,6 10,6
34,13
2
165
0, 4
66,0
165,6
0,6
0,17
3
175 0,23 40,83 165,6
9,3
20,3259
4
185 0,06
19,3
24,91

1
12,3
x
165,6
mi  x
m  x 
i
165,6
Varianz: s2  79,5
i
 hi
79,5
Standardabweichung: s  79,5  8,9194
Auch hier lässt sich das Problem einfacher über die relative Häufigkeit lösen.
Die Standardabweichung ist ein Maß dafür, wie hoch die Aussagekraft des
Mittelwertes ist.
Eine kleine Standardabweichung bedeutet, alle Beobachtungswerte liegen nahe am
Mittelwert.
Eine große Standardabweichung bedeutet, die Beobachtungswerte sind weit um den
Mittelwert gestreut.
kleine Streuung
x
Mittelwert
große Streuung
x
Erstellt von Rudolf Brinkmann 481352720
08.04.17 04:09
Seite: 10 von 10
Herunterladen