1 Beschreibende Statistik (Deskriptive Statistik) für univariate Daten

Werbung
Die deskriptive (beschreibende) Statistik dient zur Zusammenfassung, Aufbereitung und
Präsentation von meist riesiger und unüberschaubarer Datenmengen durch Tabellen,
Diagrammen, Verlaufskurven sowie Kenngrößen. Zusätzlich dient die deskriptive Statistik
auch zur Datenvalidierung. Mit Hilfe der Aufbereitung der Daten lassen sich Fehler im
Datensatz leicht entdecken. Daten, die aus Beobachtungen eines einzelnen Merkmals
bestehen, werden univariate oder eindimensionale Daten genannt.
• Sammeln von Daten
• Präsentation von Daten
• Kenngrößen von Daten
1
Für eine Zusammenfassung und Darstellung von Daten eines Merkmals werden diese in
Form Häufigkeitstabellen und Diagrammen angegeben.
Eine Datenerhebung über die Lieferzeiten (in Tagen) von 40 Bestellungen eines
Unternehmens ergab folgende Liste.
2
5
3
6
3
2
4
1
1
4
2
3
6
2
1
2
2
1
7
3
2
3
2
1
4
1
3
4
1
5
2
2
1
7
3
7
5
2
10
2
Benennen Sie das Merkmal und geben Sie den Merkmalstypen an.
Merkmal : Liefertage
Merkmalstyp : Quantitativ und Diskret , Skalen-Niveau : metrische Skala
Fassen Sie für eine bessere Übersicht die obige Datenreihe in eine Häufigkeitstabelle
zusammen und stellen sie graphisch dar.
j
1
2
3
4
5
6
7
8
Anzahl verschiedener
Liefertage: M = 8
h
Liefertage:
aj
1
2
3
4
5
6
7
10
Häufigkeit der
Liefertage: h j
8
12
7
4
3
2
3
1
Gesamtzahl:
N = 40
Prozentsatz der der Häufigkeiten:
fj
8 / 40 = 0,2 = 20 %
12 / 40 = 0,3 = 30 %
7 / 40 = 0,175 = 17,5 %
4 / 40 = 0,1
= 10 %
3 / 40 = 0,075 = 7,5 %
2 / 40 = 0,05 = 5 %
3 / 40 = 0,075 = 7,5 %
1 / 40 = 0,025 = 2,5 %
40 / 40 = 1,0
= 100 %
j
12
10
8
6
4
2
0
1
2
3
4
5
6
7
8
9
10
a
j
2
Ausprägungen sowie Absolute und Relative Häufigkeiten
N : Anzahl der statistischen Elementen (Merkmalsträgern, Stichprobenwerte) bei einer
Datenerhebung
X: Das Merkmal
x1 ; x2 ; . . .
Datenerhebung
; xN : Die N Beobachtungswerte der Urliste (Stichprobe) bei der
x i : Das i-te Element der Datenreihe, wobei i = 1 ; . . . ; N ist.
M: Anzahl der verschiedenen Ausprägungen des Merkmals in der Datenreihe
a1 ; a2 ; . . .
Datenreihe
; aM : verschiedene Ausprägungen des Merkmals in der
a j : Die j-te Ausprägung des Merkmals X , wobei
j = 1 , . . . , M ist.
h j : Absolute Häufigkeit : Anzahl der Elemente der Datenreihe mit einer bestimmten
Ausprägung a j
hj
fj =
f j : Relative Häufigkeit:
N
Die Summe der absoluten bzw. relativen Häufigkeiten ergibt N bzw. 1 .
M
M
hj = N
fj = 1
bzw .
j =1
j =1
Die Anzahl von täglichen Ausfällen eines Servers einer Firma innerhalb von 8 Tagen ist in
der folgenden Datenliste dargestellt.
i
x i [Anzahl der Ausfälle]
1
5
2
5
3
3
4
3
5
1
6
3
7
1
8
3
Benennen Sie das Merkmal X und geben Sie den Merkmalstypen an.
Geben Sie die Anzahl der statistischen Elemente N an.
Geben Sie die Anzahl der verschiedenen Merkmalausprägungen M der Stichprobe an.
Erstellen Sie eine Häufigkeitstabelle für die absoluten bzw. relativen Häufigkeiten.
X :
N =
j
1
2
3
M =
Ausprägung: a j
Absolute Häufigkeit: h j
Relative Häufigkeit: f j
3
!
Die Lebensdauern (in Jahren) von 40 baugleichen Autobatterien einer Serienproduktion
wurden gemessen. Die Ergebnisse sind in der folgenden Tabelle dargestellt.
2,2
3,4
2,5
3,3
4,1
1,6
4,3
3,1
3,5
3,1
3,4
3,7
4,5
3,3
3,6
4,4
3,2
3,8
2,9
3,2
3,7
3,1
3,3
4,1
3,0
4,7
3,9
1,9
2,6
3,7
3,1
3,4
4,7
3,8
3,2
2,6
3,9
3,0
4,2
3,5
Benennen Sie das Merkmal und die Ausprägungen. Geben Sie ferner den Merkmalstyp
an.
Merkmal : Lebensdauer von Batterien in Jahren
Ausprägungen : Sehr viele unterschiedliche
Merkmalstyp : Quantitativ, Stetig ; Skalen-Niveau : metrische Skala
Erstellen Sie eine klassierte Häufigkeitstabelle mit 7 Klasse der jeweiligen Breite 0,5.
Bei einem stetigen Merkmal erhalten wir in der Regel sehr viele verschiedene
Merkmalausprägungen. Daher ist es sinnvoll diese in Klassen aufzuteilen. Ebenfalls bei sehr
großen Mengen an Ausgangsdaten ist es sinnvoll die Daten in Klassen aufzuteilen.
Klassierten Häufigkeiten
Spannweite
=
Neue Spannweite
=
Jeweilige Klassenbreite
=
Jeweilige Klassenmitte
= ½ [ (Obere Klassengrenze) + (Untere Klassengrenze) ]
Spannweite: 4,7 – 1,6 = 3,1
Anzahl der Klassen: 7
Neue Spannweite: 7 · 0,5 = 3,5
j
1
2
3
4
5
6
7
Klasse: K j
Lebensdauer
[ 1,5 ; 2,0 )
[ 2,0 ; 2,5 )
[ 2,5 ; 3,0 )
[ 3,0 ; 3,5 )
[ 3,5 ; 4,0 )
[ 4,0 ; 4,5 )
[ 4,5 ; 5,0 )
(größte Zahl der Urliste) – (kleinste Zahl der Urliste)
(Anzahl der Klassen) · (Klassenbreite)
(Obere Klassengrenze) – (Untere Klassengrenze)
Jeweilige Klassenbreiten: 0,5
Neue Spannweite: 3,5 = 5,0 – 1,5
Klassenbreite:
dj
2,0 – 1,5 = 0,5
2,5 – 2,0 = 0,5
3,0 – 2,5 = 0,5
3,5 – 3,0 = 0,5
4,0 – 3,5 = 0,5
4,5 – 4,0 = 0,5
5,0 – 4,5 = 0,5
Klassenmitte: m j
hj
fj
½ (1,5 + 2) = 1,75
½ (2,0 + 2,5) = 2,25
½ (2,5 + 3,0) = 2,75
½ (3,0 + 3,5) = 3,25
½ (3,5 + 4,0) = 3,75
½ (4,0 + 4,5) = 4,25
½ (4,5 + 5,0) = 4,75
2
1
4
15
10
5
3
0,05
0,025
0,1
0,375
0,25
0,125
0,075
4
h
"
j
##
f
0,375
14
j
"
##
12
10
0,250
8
6
0,125
4
2
0
1,5
0
3,2 3,7 4,2 4,7
5
Lebensdauer [Jahre]
1,7 2,2
2,7
1,7 2,2 2,7 3,2 3,7 4,2 4,7
1,5
5
Lebensdauer [Jahre]
Klassen
Das Intervall [ a j , b j ) heißt die j-te Klasse K j . Die Klassen bilden also eine lückenlose
sich nicht überlappende Zerlegung des gesamten Wertebereichs von X .
Die Differenz aus der unteren und oberen Grenze einer Klasse heißt die Klassenbreite:
dj = bj – aj
Die Klassenmitte einer Klasse ist:
mj = ½ ( b j + a j )
Die absoluten bzw. relativen Häufigkeiten der Klassen können auch als Rechteckflächen
gedeutet werden, somit ergeben
Rechteckhö he : =
h *j : =
absolute Häufigkeit
bzw.
Klassenbre ite
hj
d
j
bzw.
Rechteckhö he : =
f
*
j
:=
relative Häufigkeit
Klassenbre ite
f
j
d
j
die Klassendichten. Dabei ist die Summe der Rechteckflächen für die absoluten bzw.
relativen Häufigkeiten der Klassen gleich N bzw. gleich 1.
5
!!
Geben Sie für das Bsp. 2) die Dichte-Histogramme für die absoluten bzw. relativen
Häufigkeiten an. Und überprüfen Sie, dass die Summe der Rechteckflächen der beiden
Histogrammen gleich N = 40 bzw. gleich 1 ist.
dj
mj
0,5
0,5
0,5
0,5
0,5
0,5
0,5
1,75
2,25
2,75
3,25
3,75
4,25
4,75
h
Klassendichte
hj
h *j : =
dj
hj
j
2
1
4
15
10
5
3
40
$
4
2
8
30
20
10
6
$
"
Rechtecks- f j
Fläche
2
1
4
15
10
5
3
40
RechtecksFläche
0,1
0,05
0,2
0,75
0,5
0,25
0,15
0,05
0,025
0,1
0,375
0,25
0,125
0,075
1
0,05
0,025
0,1
0,375
0,25
0,125
0,075
1
##
f
0,75
28
Klassendichte
f j
f *j : =
d j
j
$
$
"
##
24
20
0,50
16
12
0,25
8
4
0
1,7 2,2 2,7 3,2 3,7 4,2 4,7
1,5
5
Lebensdauer [Jahre]
0
1,7 2,2 2,7 3,2 3,7 4,2 4,7
1,5
5
Lebensdauer [Jahre]
Folgende Liste zeigt die Wochenlöhne in $ von 10 Angestellten der Firma P&R.
{ 241 ; 244 ; 244,1 ; 248 ; 248 ; 250,4 ; 251,9 ; 254 ; 255 ; 256,2 }
Benennen Sie das Merkmal X und geben Sie den Merkmalstypen an.
Erstellen Sie eine Häufigkeitstabelle mit identischen Klassenbreiten der Breite d = 4.
X:
R : Spannweite:
M : Anzahl der Klassen:
j
1
Wochenlohn [$]
Klasse: K j
Neue Spannweite:
Jeweilige Klassenbreiten:
Klassenmitte:
mj
Absolute Häufigkeit:
hj
Relative Häufigkeit:
fj
2
3
4
5
6
% #
&#
'
$
"
Häufig interessiert man sich dafür, wie viele Beobachtungswerte oder welcher Anteil der
statistischen Elemente einer Datenreihe unterhalb oder oberhalb einer gewissen Grenze
liegen.
% #
(
Wie viel Prozent der 40 Autobatterien im vorigen Beispiel Bsp. 2) haben eine Lebensdauer
weniger als 3,5 Jahren?
j
1
2
3
4
Klasse: K j
Lebensdauer [Jahre]
[ 1,5 ; 2,0 )
[ 2,0 ; 2,5 )
[ 2,5 ; 3,0 )
[ 3,0 ; 3,5 )
5
6
7
[3,5 ; 4,0 )
[4,0 ; 4,5 )
[4,5 ; 5,0 )
hj
fj
2
1
4
15
0,05
0,025
0,1
0,375
10
5
3
0,25
0,125
0,075
Prozentsatz aller Lebensdauer
unterhalb von b j Jahren
0,05 + 0,025 + 0,1 + 0,375 = 0,55
55% aller Autobatterien hatten
eine Lebensdauer unter 3,5 Jahre.
Kumulierte Häufigkeiten
Seien h C und f C die absoluten und relativen Häufigkeiten der Markmalsausprägung a C
oder der Klasse K C . Dann heißt:
C
HC =
h1 + h 2 +
+ hC =
hj
j =1
die kumulierte absolute Häufigkeit der Ausprägung a C bzw. der Klasse K C und analog:
C
FC =
f1 + f2 +
+ fC =
fj
j =1
ihre kumulierte relative Häufigkeit.
7
(
Berechnen Sie alle kumulierte absolute bzw. kumulierte relative Häufigkeiten für die
Lieferzeiten aus Bsp. 1.
j
aj
1
2
3
4
5
6
7
8
1
2
3
4
5
6
7
10
Absolute
Häufigkeit: h j
8
12
7
4
3
2
3
1
Kumulierte absolute
Häufigkeit: H j
8
20
27
31
34
36
39
40
") "
&#
Relative Häufigkeit:
fj
8 / 40 = 0,2
12 / 40 = 0,3
7 / 40 = 0,175
4 / 40 = 0,1
3 / 40 = 0,075
2 / 40 = 0,05
3 / 40 = 0,075
1 / 40 = 0,025
Kumulierte relative
Häufigkeit: F j
$ '
"
Ein Häufgikeitspolygon ist ein Liniendiagram, bei dem die Klassenmitten auf den Spitzen
der Rechtecke im Histogramm mit einander verbunden werden. Der Inhalt der Fläche unter
dem Polygon ist gleich dem der Rechtecke des Histograms.
Das Diagramm, das die relativen kumulierten Häufigkeiten darstellt, wird die Empirische
Verteilungsfunktion genannt.
Das Diagramm für relativen kumulierten Häufigkeiten von klassierten
Häufigkeitsverteilungen wird auch kumulatives relatives Häufigkeitspolygon oder
Summenkurve genannt.
Für die relativen kumulierten Häufigkeiten von unklassierten Häufigkeiten erhält man als
Empirische Verteilungsfunktion eine monoton wachsende Treppenfunktion.
*
Zeichnen Sie für die Daten der Lieferzeiten aus Bsp. 1) die empirische Verteilungsfunktion
(Treppenfunktion).
j
aj
hj
fj
Fj
1
2
3
4
5
6
7
8
1
2
3
4
5
6
7
10
8
12
7
4
3
2
3
1
0,2
0,3
0,175
0,1
0,075
0,05
0,075
0,025
0,2
0,5
0,675
0,775
0,85
0,9
0,975
1,0
8
F
&#
j
$
'
"
1,0
0,8
0,6
0,4
0,2
0
1
2
3
4
5
6
7
8
9
10
a
j
+
Aus den Daten für die Lebensdauer (in Jahren) der N = 40 Batterien der Serienproduktion
aus Bsp. 2) ergab sich folgende Tabelle der klassierten Häufigkeitsverteilung für die
Lebensdauer.
j
Kj
1
2
3
4
5
6
7
dj
[ 1,5
[ 2,0
[ 2,5
[ 3,0
[ 3,5
[ 4,0
[ 4,5
;
;
;
;
;
;
;
2,0 )
2,5 )
3,0 )
3,5 )
4,0 )
4,5 )
5,0 )
mj
0,5
0,5
0,5
0,5
0,5
0,5
0,5
1,75
2,25
2,75
3,25
3,75
4,25
4,75
hj
fj
2
1
4
15
10
5
3
f
0,05
0,025
0,1
0,375
0,25
0,125
0,075
*
j
f
:=
d
Fj
j
j
0,1
0,05
0,2
0,75
0,5
0,25
0,15
0,05
0.075
0,175
0,55
0,8
0,925
1
Zeichnen Sie
das Histogramm der relativen Häufigkeiten.
das Dichte-Histogramm (ein Histogramm der Klassendichten der relativen Häufigkeiten)
und ein Häufigkeitspolygon
die Empirische Verteilungsfunktion (ein Kumulatives relatives Häufigkeitspolygon)
Wie kann man anhand des Dichtehistogramms den Anteil von Batterien bestimmen, die
eine Lebensdauer weniger als 3,5 Jahre haben?
Relative Häufigkeiten
f
j
"
##
0,375
0,250
0,125
0
1,75 2,25 2,75 3,25 3,75 4,25 4,75
1,5
5
Lebensdauer [Jahre]
Klassendichte der relative Häufigkeiten
Wie kann man anhand des Graphen der Verteilungsfunktion den Anteil von Batterien
bestimmen, die eine Lebensdauer weniger als 3,5 Jahre haben?
f *j
0,75
,
") "
$
$
"
##
0,50
0,25
0
1,25 1,75 2,25 2,75 3,25 3,75 4,25 4,75 5,25
1,5
5
Lebensdauer [Jahre]
9
Häufigkeiten
F
j
&#
$ '
"
Der Anteil von Batterien, die eine
Lebensdauer weniger als 3,5 Jahre haben,
ist der Flächeninhalt des 1. , 2. , 3. und
4. Rechteckes ( d.h. 0,5 · 0,1 + 0,5 · 0,05
+ 0,5 · 0,2 + 0,5 · 0,75 = 0,55 ) oder der
Flächeninhalt
unterhalb
des
Häufigkeitspolygons
Durch Ablesen des kumulierten Häufigkeit
an der Stelle 3,5 aus dem Graphen.
1,0
0,75
0,50
0,25
0
1,5
2,0
2,5
3,0
3,5
4,0
4,5
5,0
Lebensdauer [Jahre]
*
Aus der Liste der Aufgabe 2) für die Wochenlöhne in $ von 10 Angestellten der Firma P&R
ergibt sich folgende klassierte Häufigkeitstabelle
M = 5 ; N = 10 ; Spannweite:
j Wochenlohn KlassenKlasse:
Breite:
Kj
dj
1
2
3
4
5
[ 240 ; 244 )
[ 244 ; 248 )
[ 248 ; 252 )
[ 252 ; 256 )
[ 256 ; 260 )
4
4
4
4
4
256,2 – 241 = 15,2
Neue Spannweite: 260 – 240 = 20
Klassen- Abs.
Rel.
Klassendichte
Kumulierte.
Mitte:
Häufig Häufig.:
Rel.
f j
f *j : =
mj
hj
fj
Häufig.
d j
Fj
242
1
0,1
0,025
246
2
0,2
0,05
250
4
0,4
0,1
254
2
0,2
0,05
258
1
0,1
0,025
$
"
##
Häufigkeiten
Häufig.
Erstellen Sie ein Häufigkeitspolygon und die empirische Verteilungsfunktion
0,1
0,075
&#
$ '
"
Kumulatives Relatives Häufigkeitspolygon
Fj
1
0,8
0,05
0,6
0,4
0,025
0,2
238
242
246
250
254
258
262
240
244
248
252
256
260
10
( %
-
. / $
" '
Durch grafische Darstellungen lassen sich die Eigenschaften der Lage und Form von
Häufigkeitsverteilungen erkennen. Mit Hilfe der Maßzahlen kann z.B. das Zentrum der Daten
und die Stärke der Streuung der Daten um das Zentrum durch Werte (meist Zahlen)
angegeben werden.
(
#
Lagemaße (Lageparameter) beschreiben das Zentrum einer Verteilung bzw. einer Datenliste
durch einen einzigen Wert (meist eine Zahl).
0
Geben Sie die durchschnittliche Lieferzeit (in Tagen) für die Daten aus Bsp. 1)
2
5
3
6
3
2
4
1
-
1
4
2
3
6
2
1
2
2
1
7
3
x1 + x 2 + x 3 +
N
xi
Liefertage: a j
1
2
3
4
5
6
7
10
Absolute Häufig: h j
8
12
7
4
3
2
3
1
N = 40
+ 10 ⋅ 1
40
8
40
1
5
2
2
1
7
3
7
5
2
10
2
2 + 3 + 1+
+ 2
40
1
40
40
xi
⋅
=
i = 1
1
40
⋅ 127 = 3 , 175
!!
1 ⋅ 8 + 2 ⋅ 12 +
= 1⋅
=
=
N
i = 1
-
+ xN
N
=
x =
4
1
3
4
!
x =
j
1
2
3
4
5
6
7
8
M=8
2
3
2
1
+
2⋅
12
40
+
+ 10 ⋅
=
1
40
1⋅ 8
40
+
Relative Häufig: f j
0,2
0,3
0,175
0,1
0,075
0,05
0,075
0,025
2 ⋅ 12
40
= 1⋅ 0,2
+
+
+
10 ⋅ 1
40
2 ⋅ 0,3 +
+ 10 ⋅ 0 , 025 = 3 , 175
11
h1
x = a1 ⋅
N
1
=
h
+
N
a
2
⋅
2
N
M
h
+ a
+
M
a j ⋅hj
⋅
=
j = 1
j = 1
aj ⋅
M
⋅
M
a 1 ⋅f 1 + a
=
N
2
⋅f
2
+
+ a
⋅f
M
M
hj
a j ⋅f
=
N
j = 1
j
Der Mittelwert (Das arithmetische Mittel)
Das arithmetische Mittel x oder der Mittelwert entsteht, indem man alle
statistische Elemente (Stichprobenwerte) x i einer Urliste (Stichprobe) aufaddiert und
durch die Anzahl N der Elemente dividiert.
x1 + x 2 +
N
x =
+ xN
N
xi
i =1
N
=
=
1
N
N
xi
i =1
Aus der Häufigkeitstabelle erhält man das arithmetische Mittel durch:
x
=
1
N
M
M
⋅
j = 1
a j ⋅hj
bzw.
x
a j ⋅f
=
j = 1
j
Dabei bezeichnet M die Anzahl der verschiedenen Ausprägungen, h j die absoluten
und f j die relativen Häufigkeiten der Ausprägung a j.
Aus klassierten Häufigkeitstabellen kann das arithmetische Mittel wegen der
Klassenbildung nur ungefähr durch folgende Formel angegeben werden. Dabei wird
die Ausprägung a j durch die Klassenmitte m j ersetzt. Und M gibt die Anzahl der
verschiedenen Klassen K j an.
x
≈
1
N
M
M
m
⋅
j = 1
j
⋅hj
bzw.
x ≈
m
j = 1
j
⋅f
j
#
Wegen der Klassenbildung liefern diese Formeln nur einen Näherungswert für den
Mittelwert.
12
M
1
Geben Sie die durchschnittliche Lebensdauer der Autobatterien aus Bsp. 2) mit Hilfe der
klassierten Häufigkeitsverteilungen.
j
1
2
3
4
5
6
7
x
≈
1
N
Kj
[ 1,5
[ 2,0
[ 2,5
[ 3,0
[3,5
[4,0
[4,5
M
j = 1
2,0 )
2,5 )
3,0 )
3,5 )
4,0 )
4,5 )
5,0 )
M=7
m
⋅
;
;
;
;
;
;
;
mj
1,75
2,25
2,75
3,25
3,75
4,25
4,75
j
⋅hj
=
N = 40
1
40
hj
fj
2
1
4
15
10
5
3
0,05
0,025
0,1
0,375
0,25
0,125
0,075
7
⋅
j = 1
m j ⋅hj
1
[ 1, 75 ⋅ 2 + 2 , 25 ⋅ 1 + 2 , 75 ⋅ 4 + 3 , 25 ⋅ 15 + 3 , 75 ⋅ 10 + 4 , 25 ⋅ 5 + 4 , 75 ⋅ 3
40
= 3 , 4625 ≈ 3 , 5 Jahre
=
]
Der Median
Der Median xMed ist der mittlere Wert der nach der Größe geordneten Reihe der
statistischen Elemente.
Die Elemente x i einer Urliste werden zunächst der Größe nach geordnet. Ist die Anzahl N
der Stichprobenwerte ungerade, so ergibt sich immer ein mittleres Element. Ist sie gerade
wählt man für xMed das arithmetische Mittel der beiden benachbarten Werte in der Mitte.
#
Der Median ist gegenüber Extremwerte (Ausreißer) einer Datenreihe resistent
(unempfindlich). Dagegen ist der Mittelwert gegenüber Ausreißer empfindlich.
Der Median kann im Gegensatz zum Mittelwert auch für rein ordinalen Merkmale
bestimmt werden.
Der Median aus Häufigkeitstabellen
Bei Häufigkeitstabellen wird erst der Wert N /2 bestimmt und dann berechnet man die
kumulierten Häufigkeiten H j bis der Wert N /2 erreicht oder überschritten ist. Wird er genau
erreicht, so ist der Median das arithmetische Mittel der erreichte Ausprägung a j und der
nächstfolgenden. Wird er aber überschritten, so ist xMed die ereichte Ausprägung. Anstatt
den Wert N /2 kann man auch die kumulierten relativen Häufigkeiten F j berechnen bis der
Wert 0,5 erreicht oder überschritten wird.
13
Der Median aus Histogrammen und Summenkurven
In einem Histogramm ist der Median derjenige Wert, der der Senkrechte entspricht, die
das Histogramm in 2 Teile mit gleichen Flächeninhalten teilt.
In der empirischen Verteilungsfunktion (Summenkurve) ist der Median derjenige Wert, für
den die Summenkurve die Höhe 0,5 besitzt.
#
Wegen der Klassenbildung liefern diese Methoden nur eine Schätzung des Medianen.
2!
Das monatliche Einkommen (in €) von 5 Angestellten der Firma P&R ist in der folgenden
Datenliste dargestellt. Bestimmen Sie den Median dieser Datenliste.
i
x i [€]
1
1880
2
1940
3
2000
4
2100
5
2120
x Med = 2000 [€]
2 !!
Das monatliche Einkommen (in €) von 6 Angestellten der Firma P&R ist in der folgenden
Datenliste dargestellt. Bestimmen Sie den Median dieser Datenliste.
i
x i [€]
1
1880
2
1940
3
2000
4
2100
5
2120
6
2150
x Med = ½ ·[ 2000 + 2100 ] = 2050
+
Die Stundenlöhne in € von 5 Angestellten einer Firma sind:
{ 12,6 ; 19,8 ; 16,4 ; 76,0 ; 18,75 }
Bestimmen Sie den Median der Stundenlöhne sowie den Mittelwert des Stundenlohns.
Welches der beiden Angaben beschreibt den durchschnittlichen Stundenlohn in dieser Firma
besser?
x Med =
x =
14
3
Geben Sie den Median für die Lieferzeiten (in Tagen) aus Bsp. 1) mit Hilfe der
Häufigkeitstabelle an.
1
3
1
3
1
3
1
3
1
3
Bestimmung von N / 2:
j
aj
1
2
3
4
5
6
7
8
1
2
3
4
5
6
7
10
1
3
1
3
1
4
N/2 =
Absolute
Häufigkeit: h j
8
12
7
4
3
2
3
1
2
4
2
4
2
4
2
5
2
5
2
5
2
6
2
6
2
7
2
7
2
7
2
10
40 / 2 = 20
Kumulierte absolute
Häufigkeit: H j
8
20
27
31
34
36
39
40
Relative Häufigkeit:
fj
0,2
0,3
0,175
0,1
0,075
0,05
0,075
0,025
Kumulierte relative
Häufigkeit: F j
0,2
0,5
0,675
0,775
0,85
0,9
0,975
1,0
Also ist der Median: x Med = ½ ( 2 + 3 ) = 2,5
0
Bestimmen Sie für die Lebensdauer der Autobatterien (aus Bsp. 2) den Schätzwert für den
Median aus der Summenkurve.
Häufigkeiten
F
&#
j
$ '
"
1,0
0,75
0,50
Median
0,25
0 1,5
2,0
2,5 3,0 3,5 4,0 4,5
Lebensdauer [Jahre]
5,0
15
Der Modus
Der Modus x Mod ist dasjenige statistische Element, das am häufigsten vorkommt, oder
diejenige Merkmalausprägung mit der größten absoluten bzw. relativen Häufigkeit. Bei
klassierten Daten spricht man von der Modalklasse.
Sind die Klassenbreiten einer Häufigkeitstabelle nicht alle gleich so ist die Modalklasse
diejenige mit der größten Klassendichte.
4
Die Anzahl von täglichen Ausfällen eines Servers einer Firma innerhalb einer Woche ist in
der folgenden Datenliste dargestellt. Geben Sie den Modus für die Datenreihe an.
1
8
i
x i [Anzahl der Ausfälle]
1
3
3
3
2
5
4
3
3
5
4
3
5
4
6
3
7
1
8
x Mod = 3 [Ausfälle]
(
#
Streuparameter sind Maßzahlen, die die Streuungen von Daten um ihr Zentrum
beschreiben.
(
!
'
5
-
$
!
Die Studenten Alice und Bob haben am Ende des Studienjahres in 8 Fächern folgende
Leistungen erbracht.
Alice : = { 2 ; 3 ; 3 ; 3 ; 3 ; 3 ; 3 ; 4 }
Bob : = { 1 ; 1 ; 1 ; 2 ; 4 ; 5 ; 5 ; 5 }
Die Durchschnittsnote (arithmetisches Mittel) der beiden Studenten lautet jeweils:
xA= 3
xB = 3
Alice und Bob unterscheiden sich aber in der Verteilung ihrer Noten sehr stark.
Um die Mittelwerte sinnvoll zu ergänzen benötigt man weitere Maßzahlen, die etwas über die
Streuung der einzelnen Datenelemente x i um den Mittelwert x aussagen.
16
Die Varianz und die Standarabweichung
Die aus den Abweichungsquadraten
(
)
xi − x
2
gebildete Größe:
N
(
s2 =
x1 − x
)
2
+
(
x2 − x
)
2
+
+
(xN
− x
2
)
i = 1
=
N − 1
(xi
− x
)2
N − 1
heißt Varianz der Daten { x1 ; x2 ; . . . ; xN } . Dabei ist x der Mittelwert.
Die Standardabweichung ist: s =
2
s
!!
Berechnen Sie die Standardabweichung für die beiden Daten von Alice und Bob vom Bsp.
11-I).
Alice : = { 2 ; 3 ; 3 ; 3 ; 3 ; 3 ; 3 ; 4 }
xA= 3
Bob : = { 1 ; 1 ; 1 ; 2 ; 4 ; 5 ; 5 ; 5 }
xB = 3
N = 8
(2
2
s Alice
=
− 3
)
2
2
(3
+
− 3) +
8 − 1
+
(4
− 3
)
2
2
s Bob
=
5
4
3
(1 −
3
)
2
+
(1 −
3
)
2
+
8 − 1
+
(5
− 3
)
2
≈ 0,28
8 − 1
)
2
(x
i
− 3
i = 1
=
8 − 1
)
2
≈ 3,71
= 1,92
hj
Stabdiagramm
x − s
=
3 − 0,53 =
2,47
x + s
=
3 + 0,53 =
3,53
6
5
4
Alice
2
1
1
1
2
3
x =3
4
5
6
Note
hj
Stabdiagramm
=
x − s
3 − 1,92 =
1,08
=
x + s
+
=
3 1,92
4,92
3
2
0
− 3
i = 1
=
N = 8
6
i
= 0,53
sAlice
sBob
(x
0
Bob
1
2
3
4
5
6
Note
x =3
17
$
'
5
6#
"
"
5-
Die Varianz kann wie der Mittelwert auch mit Hilfe von absoluten oder relativen
Häufigkeiten berechnet werden.
N
s2 =
=
i = 1
(xi
)
− x
M
2
h
N − 1
N
N− 1
h
M
j = 1
=
⋅
j
⋅
N
j = 1
(a
j
Absolute
Häufigkeit
⋅ a j − x
(
)
N − 1
j
)2
− x
=
M
2
h
=
Ausprägung
N
N− 1
j = 1
(a
− x
j
)2
⋅
N − 1
N
N
relative
Häufigkeit
M
f
⋅
⋅
j
j = 1
j
⋅
(a
j
− x
)2
Dabei bezeichnet N die Anzahl der Elemente in der Stichprobe (Urliste), M die Anzahl der
verschiedenen Ausprägungen, h j die absoluten und f j die relativen Häufigkeiten der
Ausprägung a j.
Formeln für die Berechnung der Varianz
!
Die Varianz s² lässt sich mit Hilfe der N Elemente x i der Stichprobe berechnen
durch:
s2 =
!!
N
1
N − 1
⋅
i = 1
(xi
)2
−x
Dabei ist x der Mittelwert
Aus der Häufigkeitstabelle erhält man die Varianz s² durch folgende Formeln:
s2 =
1
N −1
M
h
⋅
j = 1
j
⋅
(a j
− x
)2
bzw.
s2 =
M
N
N− 1
(
fj ⋅ aj −x
⋅
)2
j = 1
Dabei bezeichnet x den Mittelwert, M die Anzahl der verschiedenen
Ausprägungen, h j die absoluten und f j die relativen Häufigkeiten der
Ausprägung a j.
!!!
Aus klassierten Häufigkeitstabellen kann die Varianz s² wegen der
Klassenbildung nur ungefähr durch folgende Formeln angegeben werden. Dabei
wird die Ausprägung a j durch die Klassenmitte m j ersetzt. Und M gibt die Anzahl
der verschiedenen Klassen K j an.
s2 ≈
1
N −1
M
⋅
(
hj ⋅ m
j = 1
j
− x
)2
bzw.
s2 ≈
N
N −1
M
⋅
fj ⋅
j = 1
(mj
−x
)2
#
Wegen der Klassenbildung liefern diese Formeln nur einen Näherungswert für die
Varianz.
18
#
Aus den obigen Formeln lassen sich leicht folgende Formeln zur bequemeren Berechnung
der Varianz herleiten:
!
s
2
=
1
N
N −1
i = 1
x i2
− N⋅x
2
!!
s
2
=
M
1
N −1
⋅
j = 1
h j ⋅ a 2j
− N⋅x
s2 =
bzw.
2
M
1
⋅
N −1
N⋅
f
j = 1
j
⋅ a 2j
− N⋅x
2
!!!
s
2
≈
M
1
N −1
⋅
bzw.
j = 1
h j ⋅ m 2j
− N⋅x
s2 ≈
2
1
N −1
M
N⋅
i =1
f j ⋅ m 2j
− N⋅x
2
#
Wenn man diese bequemeren Formeln benutzt, sollte der Mittelwert, falls er mehr als 3
Nachkommastellen enthält, nicht auf weniger als 4 Nachkommastellen gerundet werden.
Berechnen Sie die Standardabweichung für die Daten der Lieferzeiten aus Bsp. 1).
j
1
2
3
4
5
6
7
8
M=8
Liefertage: a j
1
2
3
4
5
6
7
10
Absolute Häufig: h j
8
12
7
4
3
2
3
1
N = 40
Relative Häufig: f j
0,2
0,3
0,175
0,1
0,075
0,05
0,075
0,025
Mittelwert: x = 3 , 175 (s . Bsp. 6 zur Berechnung des Mittelwerts)
19
s2 =
=
M=8
1
40 − 1
1
40 − 1
h
⋅
j = 1
(
⋅ a
j
j
[ 8 ⋅ ( 1 − 3 , 175 )
− 3 , 175
2
)2
+ 12 ⋅ ( 2 − 3 , 175 ) 2 + . . . + 1 ⋅ ( 10 − 3 , 175 ) 2
]
= 4 , 4557
s = 2,1108
1
Berechnen Sie mit Hilfe von absoluten oder relativen Häufigkeiten die Standardabweichung
für die folgenden Daten
{ 2400 ; 3200 ; 4000 ; 2400 ; 2400 ; 3200 ; 3200 ; 3200 }
M =3
x
=
j = 1
s
2
=
=
aj ⋅
hj
8
=
1
8
( 3 ⋅ 2400 + 4 ⋅ 3200 + 1 ⋅ 4000 ) = 3000
M =3
1
h j ⋅ a j − 3000
⋅
8− 1 j =1
(
1
8− 1
[ 3 ⋅ (2400 − 3000 )
= 320000
2
)
2
2
+ 4 ⋅ (3200 − 3000 ) + 1 ⋅ (4000 − 3000 )
2
]
s = 565,68
2
Berechnen Sie mit Hilfe von absoluten oder relativen Häufigkeiten die Standardabweichung
für die Daten aus der Aufg.2.
{ 241 ; 242,5 ; 242 ; 244 ; 248 ; 249,1 ; 250 ; 250 ; 250 ; 255,9 ; 256 ; 256,2}
M = 5 ; N = 12
j
Wochenlohn [$]
Klasse: K j
1
[ 240 ; 244 )
2
[ 244 ; 248 )
3
[248 ; 252 )
4
[252 ; 256 )
5
[256 ; 260 )
Klassenmitte:
mj
242
246
250
254
258
Absolute Häufigkeit:
hj
3
1
5
1
2
Relative Häufigkeit:
fj
3 / 12 = 0,250
1 / 12 = 0,083
5 / 12 = 0,416
1 / 12 = 0,083
2 / 12 = 0,166
20
M =5
x
m
≈
j = 1
s
2
≈
=
1
12 − 1
1
12 − 1
⋅
j
hj
12
!!
12
M=5
h
⋅
j = 1
j
⋅
(m
( 3 ⋅ 242 + 1 ⋅ 246 + 5 ⋅ 250 + 1 ⋅ 254 + 2 ⋅ 258 ) = 249 , 3333 $
j
− 249 , 3333
[ 3 ⋅ ( 242 − 249 , 3333 )
= 31,515
(
1
=
2
+
)2
+ 2 ⋅ ( 258 − 249 , 3333
)2
]
s = 5,61
7
-
Das q %-Quantil (die q-te Perzentile) trennt die Daten einer Verteilung in zwei Teile, so dass
etwa q % der Elemente einer nach der Größe geordneten Datenreihe darunter und
(100 – q )% der Elemente darüber liegen.
Quantile / Perzentile
Das q%-Quantil (die q-te Perzentile) trennt die Daten einer Verteilung in zwei Teile, so dass
etwa q % der Elemente einer nach der Größe geordneten Datenreihe darunter und
(100 – q )% der Elemente darüber liegen.
Zur Bestimmung des q%-Quantils ordnet man die N Elemente der Urliste nach der Größe.
Und berechnet den Index
i = q% ⋅N
!
!!
Falls i eine ganze Zahl ist, dann ist das q%-Quantil der Mittelwert der beiden
Elemente an der i-ten und (i + 1)-ten Position
Falls i keine ganze Zahl ist, rundet man die Zahl auf. Das q%-Quantil ist dann das
Element an der aufgerundeten Position.
21
Die Quartilen
Für eine nach der Größe geordnete Reihe von statistischen Elementen einer Urliste sind die
verschiedenen Quantilen wie folgt:
Q1 : Das 25%-Quantil (Das erste Quartil)
Das 25%-Quantil ist das Element (der Wert), unterhalb von ihm höchstens 25% der
Elemente und oberhalb von ihm 75% der Elemente liegen.
Q2 : Das 50%-Quantil (Das zweite Quartil = Der Median)
Das 50%-Quantil (der Median) ist das Element (der Wert), unterhalb von ihm 50%
der Elemente und oberhalb von ihm 50% der Elemente liegen.
Q3 : Das 75%-Quantil (Das dritte Quartil)
Das 75%-Quantil ist das Element (der Wert), unterhalb von ihm höchstens 75% der
Elemente und oberhalb von ihm 25% der Elemente liegen.
(
Eine Studentin hat am Ende des Studienjahres in 8 Fächern folgende Leistungen erbracht.
Geben Sie das 80%-Quantil (die 80-te Perzentile) und das 50%-Quantil (die 50-te Perzentile
, den Median) an.
i
x i [Note]
i =
80
100
⋅8 = 6,4
1
1,0
2
1,0
3
2,0
4
3,0
5
3,0
6
3,0
7
4,0
8
4,0
ist keine ganze Zahl. Aufrunden ergibt die Position : i = 7
Somit ist das 80%-Quantil das 7-te Element der geordneten Datenreihe: x 0,8 = 4,0
i =
50
100
⋅8 = 4
ist eine ganze Zahl. Somit ist: i + 1 = 5
Somit ist das 50%-Quantil der Mittelwert aus dem 4-ten und 5-ten Element der
geordneten Datenreihe: xMed = x 0,5 = ½ (3,0 + 3,0) = 3,0
22
3
Die Anzahl von täglichen Ausfällen eines Servers einer Firma innerhalb einer Woche ist in
der folgenden Datenliste dargestellt. Geben Sie das 1. und das 3. Quartil für die Anzahl von
Ausfällen an.
1
8
i
x i [Anzahl der Ausfälle]
2
5
3
3
4
3
5
4
6
3
7
1
2
3
3
3
4
3
5
4
6
5
7
8
N=7
Der Größe nach geordneter Datenreihe
1
1
i
x i [Anzahl der Ausfälle]
Q1 = 3
Q2 = 3
Q3 = 5
Quantilen/Perzentilen aus klassierten Häufigkeiten
Bei klassierten Häufigkeiten wird das q%-Quantil durch lineare Interpolationen bestimmt.
Man bestimmt die relative kumulierte Häufigkeit F j bis der Wert q% · N erreicht oder
überschritten wird. Dies liefert die Klasse [ a j , b j ) , in der das q%-Quantil liegen muss. Mit
Hilfe der linearen Interpolation wird das q%-Quantil wie folgt dann bestimmt
q
xq% ≈ a
j
+
100
− F j −1
F j − F j −1
(
⋅ bj −a
j
)
#
Wegen der Klassenbildung liefern diese Formeln nur eine Schätzung des Medianen.
Man könnte auch das q%-Quantil von klassierten Häufigkeiten aus dem Histogramm
oder der Verteilungsfunktion ablesen.
Quantilen/Perzentilen aus Histogrammen und Summenkurven
In einem Histogramm ist das q%-Quantil derjenige Wert, der der Senkrechte entspricht,
die das Histogramm in 2 Teile teilt, so dass der Flächeninhalt eines Teils q% und der des
anderen Teils (100 – q )% beträgt.
In der empirischen Verteilungsfunktion (Summenkurve) ist das q%-Quantil derjenige
Wert , für den die Summenkurve die Höhe q% besitzt.
#
Wegen der Klassenbildung liefern diese Methoden nur eine Schätzung für die Quantilen/
Perzentilen.
23
Spannweite und Quartilsabstand
Spannweite: R
Die Spannweite R ist die Differenz zwischen dem größten und kleinsten Wert der
Elemente einer Datenreihe.
R = xMax – xMin
Interquartilsabstand (Quartilsabstand) : Q
Der Quartilsabstand Q ist die Differenz zwischen dem 3-ten Quartil und dem 1-ten
Quartil.
Q = Q3 – Q1
Box-Plot
Anfang der Box (Schachtel) ist bei Q1 .
Ende der Box ist bei Q3 .
Die Länge Q der Box wird mit IQR (Inter Quartil Range) bezeichnet.
Der Median Q2 wird durch eine Linie in der Box gezeichnet.
Zwei Linien (Whiskers) außerhalb der Box gehen bis zu xMin und xMax .
Whiskers
Q (IQR)
xMax
xMin
Q1
Q2
Q3
Median
*
Bestimmen Sie für die Lieferzeiten aus Bsp. 1).
das 1. Quartil: 25%-Quantil
das 2. Quartil: 50%-Quantil (Median)
das 3. Quartil: 75%-Quantil
den Quartilsabstand Q
xMax und xMin
!! Zeichnen Sie für die Lieferzeiten aus Bsp. 1) einen Boxplot.
!
2
5
3
6
3
2
4
1
1
4
2
3
6
2
1
2
2
1
7
3
2
3
2
1
4
1
3
4
1
5
2
2
1
7
3
7
5
2
10
2
24
!
N = 40
Der Größe nach geordneter Datenreihe
1
3
1
3
1
3
1
3
1
3
1
3
1
3
1
4
25%-Quantil:
2
4
2
4
2
4
2
5
2
5
2
5
2
6
2
6
2
7
i = N ·0,25 = 40 . 0,25 = 10
i + 1 = 11
i = N ·0,50 = 40 . 0,50 = 20
i + 1 = 21
i = N · 0,75 = 40 . 0,75 = 30
i + 1 = 31
2
7
2
7
2
10
Q 1 = ½ ( 2 + 2) = 2
50%-Quantil (Median):
Q 2 = ½ ( 2 + 3) = 2,5
75%-Quantil :
Q 3 = ½ ( 4 + 4) = 4
Q = Q3 – Q1 =2
xMin = 1 ; xMax = 10
!!
Q (IQR)
xMin
0
1
Q1
Q2
2
3
xMax
Q3
10
4
Liefertage
*
'
" #
Graphische Darstellungen von Verteilungen können auch im Bezug auf Symmetrie oder
Schiefe unterscheiden werden.
.224
Fraction
Symmetrische
Verteilung
0
-3.19068
3.16666
z
.1995
Linksschiefe
Verteilung
Rechtsschiefe
Verteilung
Fraction
.1955
0
0
-29.644
x
-.540257
.397801
z
31.7841
25
*** Momentenkoeffizienten der Schiefe ***
Der Momentenkoeffizient der Schiefe gm ist eine Maßzahl für die Schiefe einer Verteilung.
Dieser Koeffizient lässt sich berechnen durch:
gm =
1
( N − 1) ⋅ ( N − 2 )
N
xi − x
i = 1
s
⋅
3
Dabei ist N die Anzahl der Elemente, x der Mittelwert und s die Standardabweichung der
Stichprobe.
Für eine symmetrische Verteilung ist gm = 0 .
Für eine linksschiefe Verteilung ist gm < 0 .
Für eine rechtschiefe Verteilung ist gm > 0 .
#
Für eine symmetrische Verteilung ist der Mittelwert gleich dem Median.
Für eine linksschiefe Verteilung ist der Mittelwert kleiner als der Median.
Für eine rechtschiefe Verteilung ist der Mittelwert größer als der Median.
4
Durch welche Verteilungsform werden die Daten für die Lieferzeiten aus Bsp. 1)
beschrieben?
***Berechnen Sie den Momentenkoeffizienten der Schiefe gm .
Verifizieren Sie, dass für diese Verteilung x > xMed ist.
h
12
10
8
6
4
2
##
j
a
0
1
2
3
4
5
6
7
8
10
xMax
xMin
Q1 Q2
0
9
j
1
2
3
Q3
4
5
"8
6
"
7
8
9 10
Liefertage
26
Herunterladen