PI04_3

Werbung
Statistik: 19.10.04
Quantitative Merkmale
Metrische Merkmale
Beispiel: 50 Rechnungsbeträge in der Elektroabteilung
eines Einkaufszentrums (in Euro)
227
1848
462
1318
579
912
482
696
1631
536
979
718
799
740
371
576
655
660
800
750
949
478
566
718
538
658
788
878
979
1047
537
1226
781
654
593
896
719
1234
561
665
368
1973
267
618
756
711
836
602
943
348
19.10.04
PI Statistik, WS 2004
2
Metrisches Merkmal
Das Merkmal wird als (reelles) Vielfaches
einer Maßeinheit gemessen
Stetig, z.B. Rechnungsbeträge
Diskret, z.B. beim Test erzielte Punkte
19.10.04
PI Statistik, WS 2004
3
Metrisches Merkmal: Tabelle
Beispiel: Rechnungsbeträge
in der Elektroabteilung eines
Einkaufszentrums (in Euro)
19.10.04
Klasse
Häufig
keit
0-200
0
200-400
5
400-600
11
600-800
19
800-1000
8
1000-1200
1
1200-1400
3
1400-1600
0
1600-1800
1
1800-2000
2
größer
0
PI Statistik, WS 2004
4
Metr. Merkmal: Histogramm
Beispiel: Rechnungsbeträge
Verteilung der Rechnungsbeträge
20
15
10
5
0
100 300 500 700 900 1100 1300 1500 1700 1900 2100
Rechnungsbeträge
19.10.04
PI Statistik, WS 2004
5
Histogramm
Klassenhäufigkeiten: Häufigkeiten, mit der die
Klassen der Merkmalsausprägungen besetzt sind
Darstellung der Klassenhäufigkeiten als Flächen
Größe der Fläche ist proportional zur Häufigkeit
Am einfachsten sind Klassen gleicher Breite (dann ist
Höhe proportional zu Häufigkeit)
Histogramm (für stetige Merkmale) <->
Balkendiagramm (für diskrete Merkmale)
19.10.04
PI Statistik, WS 2004
6
„Histogramm“ in EXCEL
Beispiel: Rechnungsbeträge
Verteilung der Rechnungsbeträge
20
15
10
5
10
00
12
00
14
00
16
00
18
00
20
un
00
d
gr
öß
er
80
0
60
0
40
0
20
0
0
Rechnungsbeträge
19.10.04
PI Statistik, WS 2004
7
Histogramm in EXCEL
Teil der Analyse-Funktionen
Probleme und deren Lösung:
Balken (vergl. Balkendiagramm) statt Flächen

Anklicken eines Stabes -> „Datenreihen formatieren“ ->
„Optionen“ -> Abstandsbreite auf „0“ setzen
Klassengrenzen werden als Klassenmitten angezeigt



19.10.04
Bereich mit Klassenmitten erzeugen
Diagramm anklicken -> „Datenquelle“ -> als „Beschriftung
der Rubrikenachse (X)“: Bereich mit Klassenmitten angeben
X-Achse anklicken -> Muster -> Hauptstriche auf „innen“
setzen -> Hilfsstriche auf „außen“ setzen ->
PI Statistik, WS 2004
8
Verbessertes Histogramm
Beispiel: 50 Rechnungsbeträge
Verteilung der Rechnungsbeträge
20
15
10
5
0
100 300 500 700 900 1100 1300 1500 1700 1900 2100
Rechnungsbeträge
19.10.04
PI Statistik, WS 2004
9
Histogramm-Konstruktion
1. Ordne die n Beobachtungen nach steigender Größe,
bestimme die Spannweite der Häufigkeitsverteilung.
2. Zur Festlegung der Klassen unterteile die Spannweite
in Intervalle gleicher Länge; die Zahl k der Klassen
soll zwischen fünf und 20 liegen. Die Klassenmitten
sollen „einfache“ Zahlen sein.
3. Bestimme die Zahl der Beobachtungen jeder Klasse,
d.s. die (absoluten) Klassenhäufigkeiten.
4. Zeichne das Histogramm. Bei gleichen Klassenbreiten
sind die Höhen der Flächen proportional den
Häufigkeiten; bei ungleichen Klassenbreiten sind die
Höhen proportional den Quotienten aus Häufigkeit
und Klassenbreite (gesamte Fläche: n oder 100%)
19.10.04
PI Statistik, WS 2004
10
Zahl k der Klassen
• kleinstes k mit 2  n
k
• k ≤ √n
k soll
• nicht kleiner als 5
• nicht größer als 20
sein (siehe Demo)
19.10.04
n
20
30
40
50
75
100
150
200
PI Statistik, WS 2004
2k  n √n
5
5
6
6
7
7
8
8
4
5
6
7
9
10
12
14
11
Altersverteilung aus „College“
Häufigkeit
18
16
14
12
10
8
6
4
2
0
20
25
30
35
40
45
50
55
60
65
70
75
Alter
19.10.04
PI Statistik, WS 2004
12
Nochmals „College“
Häufigkeit
35
30
25
20
15
10
5
0
15
25
35
45
55
65
75
Alter
19.10.04
PI Statistik, WS 2004
13
„College“ 3
Häufigkeit
Häufigkeit
10
60
9
50
8
7
40
6
5
30
Häufigkeit
4
20
3
2
10
1
70
66
62
58
54
50
46
42
38
34
30
26
0
22
18
0
Alter
19.10.04
0
20
40
60
Alter
PI Statistik, WS 2004
14
„College“ 4
Männliche Mitarbeiter
Alter
Weibliche Mitarbeiter
75
75
70
70
65
65
60
60
55
55
50
Alter
45
50
45
40
40
35
35
30
30
25
25
20
20
0
19.10.04
2
4
6
8
10
PI Statistik, WS 2004
0
2
4
6
8
10
12
15
Beispiele von Verteilungen
Rechnungsbeträge
CO-Emission von PKWs
Lebensalter
Schäden durch Wirbelstürme (in Mio USD)
19.10.04
PI Statistik, WS 2004
16
Schäden durch Wirbelstürme
Anzahl der Schäden
25
20
15
10
5
1650
1450
1250
1050
850
650
450
250
50
0
Schadenshöhe (in Mio USD)
19.10.04
PI Statistik, WS 2004
17
Schäden durch Wirbelstürme
Klasse
Kl.-Breite
Häufigk't
rel.Häufigk't
Dichte
0 – 50
50
19
0,50
0,010000
50 – 100
50
4
0,11
0,002105
100 – 500
400
10
0,26
0,000658
500 - 2000
1500
5
0,13
0,000088
38
1,00
Dichte: Relative Häufigkeit/Klassenbreite
Dichtehistogramm: Fläche beträgt 1
19.10.04
PI Statistik, WS 2004
18
Schuh- und Körpergröße
Nach R. Hatzinger, 2003
19.10.04
PI Statistik, WS 2004
19
Charakteristika von Verteilungen
Beschreiben durch Kennzahlen wesentliche
Eigenschaften der Verteilung
Dazu gehören:
Quantile, Minimum, Maximum
Lagemaße
Streuungsmaße
Schiefe: charakterisiert Symmetrie
Wölbung (Kurtosis): Vergleich von symmetrischer
Verteilung mit Gauss‘scher Glockenform
19.10.04
PI Statistik, WS 2004
20
Populationskenngrößen
Analyse-Funktion in
EXCEL
Rechnungsbeträge
Mittelwert
Standardfehler
50,10
Median
714,62
Modus
718,46
Standardabweichung
354,29
Stichprobenvarianz
125518,49
Kurtosis
3,29
Schiefe
1,60
Wertebereich
1746,15
Minimum
226,92
Maximum
1973,08
Summe
Anzahl
19.10.04
772,46
PI Statistik, WS 2004
38623,15
50
21
Lage- und Streuungsmaße
Lagemaße



Mittelwert x
Median x , getrimmter Mittelwert
Modus
Streuungsmaße




19.10.04
Standardabweichung s
Varianz s 2
Interquartilsabstand I
Spannweite R
PI Statistik, WS 2004
22
Lagemaße
Mittelwert:
x
1
n

n
x
i 1 i
Median:
nach der Größe geordnete Beobachtungen:
x(1) , x(2) ,..., x( n )
den Index i nennen wir den Rang von x( i )
Median: wenn n=2m+1 ungerade (m ist Rang der
mittleren Beobachtung): x  x( m )
wenn n=2m gerade: x  ( x( m )  x( m1) ) / 2
19.10.04
PI Statistik, WS 2004
23
Robuste Lagemaße
Median: extreme Werte („Ausreißer“) haben
keinen Effekt
Getrimmter Mittelwert: Mittelwert von 80% der
Beobachtungen, je 10% größte und kleinste
Beobachtungen bleiben unberücksichtigt
19.10.04
PI Statistik, WS 2004
24
Quantil (Perzentil)
Quantil der Ordnung p aus n Beobachtungen
x1, …, xn ist die Beobachtung x(r) mit Rang
r = (n+1)p
wenn (n+1)p keine ganze Zahl ist:


Mittel der benachbarten Beobachtungen
Runden des Ranges (n+1)p
Beispiel: Rechnungsbeträge (50 Beobachtungen)


19.10.04
Quantil der Ordnung 0.8 (oder 0.8-Quantil): Mittel aus
Beobachtungen mit Rängen 40 und 41
1. Quartil oder 0.25-Quantil: Mittel aus Beobachtungen
mit Rängen 12 und 13
PI Statistik, WS 2004
25
Einige Quantile
Quartile:



0.25-Quantil oder 1. Quartil (Q1, Qu)
0.75-Quantil oder 3. Quartil (Q3, Qo)
0.5-Quantil ist der Median
Dezile


19.10.04
Unteres Dezil oder 0.1-Quantil
Oberes Dezil oder 0.9-Quantil
PI Statistik, WS 2004
26
Standardabweichung
Ist die Wurzel aus der Varianz s 2:
s s
2
Varianz oder Stichprobenvarianz:
s 
2
1
n
2
2
2
1
(
x

x
)

x

x
i1 i
n i 1
n
Eigenschaften der Standardabweichung:
• s kann nicht negativ sein
• s = 0: alle Beobachtungen haben gleichen Wert
• s wird in den gleichen Einheiten gemessen wie X
19.10.04
PI Statistik, WS 2004
27
Überdeckung
Intervall
Anteil der
Beobachtungen
x  s, x  s
x  2 s, x  2 s
x  3s, x  3s
2/3
95%
~ 100%
• Gilt für die Normalverteilung exakt
• Gilt weitgehend für alle symmetrischen, unimodalen
Verteilungen
19.10.04
PI Statistik, WS 2004
28
Andere Streuungsmaße
Interquartilsabstand
I = Qo – Qu = Q3 – Q1
überdeckt die zentralen 50% der Beobachtungen
Spannweite (range)
R = x(n) – x(1)
Variationskoeffizient (s in Prozent des Mittelwertes): CV
für nicht-neg. Merkmale; unabhängig von Maßeinheit
s

x
MAD (mean absolute deviation)
MAD 
19.10.04
1
n

n
i 1
| xi  x |
PI Statistik, WS 2004
29
Schiefe und Wölbung
Schiefe: Maß für Asymmetrie (unimodale
Verteilung)
rechtsschief: Modus < x < x
m
Momentkoeffizient (Fisher): g1  33
s
mit m3  1n  i ( xi  x )3
m4
Wölbung: g 2  4  3
s
g2 = 0: Gauss‘sche Glockenkurve
g2 < 0: abgeplattet, platykurtisch, heavy tail
g2 > 0: spitz, leptokurtisch, light tail
19.10.04
PI Statistik, WS 2004
30
Box Plot
Darstellung einer Häufigkeitsverteilung; gibt die
wesentlichen Charakteristika wieder.
(siehe Hackl & Katzenbeisser, S. 29-30)
80
Ausreißer
70
60
Whisker
Median
Qu
HMU
Qo
50
40
30
20
10
50% der
Daten
0
Whisker
19.10.04
PI Statistik, WS 2004
31
Beispiel: Heilmittelkosten
Heilmittelkosten je Patient (in Euro) bei
• 1682 Praktischen Ärzten (AM)
• 176 Internisten (IN)
400
• 242 Orthopäden (OP)
WGKG, 2002
HMU
300
200
100
0
AM
19.10.04
PI Statistik, WS 2004
IN
OP
32
Box Plot: Elemente
Box: mittlere 50% der Beobachtungen;
Begrenzungen sind Quartile; Median als Mittellinie
Innere Grenzen (inner fences): Qu - 1.5I, Qu + 1.5I
Äußere Grenzen (outer fences): Qu - 3I, Qu + 3I
Beobachtungen innerhalb der Inneren Grenzen
werden verbunden (whiskers)
Beobachtungen außerhalb der Inneren Grenzen und
innerhalb der Äußeren Grenzen: einzeln mit einem +
einzeichnen (outlier)
Beobachtungen außerhalb der Äußeren Grenzen:
einzeln mit einem * einzeichnen (far outlier)
19.10.04
PI Statistik, WS 2004
33
Fragestellungen
In welchem Bereich kann man einen Mittelwert in der
Grundgesamtheit erwarten ?
Ist ein Mittelwert anders (kleiner, größer, oder
ungleich) als eine bestimmte Vorgabe ?
19.10.04
PI Statistik, WS 2004
34
Herunterladen