pi04_3

Werbung
Statistik: 1.3.04
Quantitative Merkmale
Metrische Merkmale
Beispiel: 50 Rechnungsbeträge in der Elektroabteilung
eines Einkaufszentrums (in Euro)
227
1848
462
1318
579
912
482
696
1631
536
979
718
799
740
371
576
655
660
800
750
949
478
566
718
538
658
788
878
979
1047
537
1226
781
654
593
896
719
1234
561
665
368
1973
267
618
756
711
836
602
943
348
1.3.04
PI Statistik, SS 2004
2
Metrisches Merkmal: Tabelle
Beispiel: Rechnungsbeträge
in der Elektroabteilung eines
Einkaufszentrums (in Euro)
1.3.04
Klasse
Häufig
keit
0-200
0
200-400
5
400-600
11
600-800
19
800-1000
8
1000-1200
1
1200-1400
3
1400-1600
0
1600-1800
1
1800-2000
2
größer
0
PI Statistik, SS 2004
3
Metr. Merkmal: Histogramm
Beispiel: Rechnungsbeträge
Verteilung der Rechnungsbeträge
20
15
10
5
0
100 300 500 700 900 1100 1300 1500 1700 1900 2100
Rechnungsbeträge
1.3.04
PI Statistik, SS 2004
4
Histogramm
Klassenhäufigkeiten: Häufigkeiten, mit der die
Klassen der Merkmalsausprägungen besetzt sind
Darstellung der Klassenhäufigkeiten als Flächen
Größe der Fläche ist proportional zur Häufigkeit
Am einfachsten sind Klassen gleicher Breite (dann ist
Höhe proportional zu Häufigkeit)
Histogramm (für stetige Merkmale) <->
Balkendiagramm (für diskrete Merkmale)
1.3.04
PI Statistik, SS 2004
5
„Histogramm“ in EXCEL
Beispiel: Rechnungsbeträge
Verteilung der Rechnungsbeträge
20
15
10
5
10
00
12
00
14
00
16
00
18
00
20
un
00
d
gr
öß
er
80
0
60
0
40
0
20
0
0
Rechnungsbeträge
1.3.04
PI Statistik, SS 2004
6
Histogramm in EXCEL
Teil der Analyse-Funktionen
Probleme und deren Lösung:
Balken (vergl. Balkendiagramm) statt Flächen

Anklicken eines Stabes -> Datenpunkt formatieren ->
Optionen -> Abstandsbreite auf „0“ setzen
Klassengrenzen werden als Klassenmitten angezeigt



1.3.04
Bereich mit Klassenmitten erzeugen
Diagramm anklicken -> als „Beschriftung der Rubrikenachse
(X)“ den Bereich mit Klassenmitten angeben
X-Achse anklicken -> Muster -> Hauptstriche auf „innen“
setzen -> Hilfsstriche auf „außen“ setzen ->
PI Statistik, SS 2004
7
Verbessertes Histogramm
Beispiel: Rechnungsbeträge
Verteilung der Rechnungsbeträge
20
15
10
5
0
100 300 500 700 900 1100 1300 1500 1700 1900 2100
Rechnungsbeträge
1.3.04
PI Statistik, SS 2004
8
Histogramm-Konstruktion
1. Ordne die n Beobachtungen nach steigender Größe,
bestimme die Spannweite der Häufigkeitsverteilung.
2. Zur Festlegung der Klassen unterteile die Spannweite
in Intervalle gleicher Länge; die Zahl k der Klassen
soll zwischen fünf und 20 liegen. Die Klassenmitten
sollen „einfache“ Zahlen sein.
3. Bestimme die Zahl der Beobachtungen jeder Klasse,
d.s. die (absoluten) Klassenhäufigkeiten.
4. Zeichne das Histogramm. Bei gleichen Klassenbreiten
sind die Höhen der Flächen proportional den
Häufigkeiten; bei ungleichen Klassenbreiten sind die
Höhen proportional den Quotienten aus Häufigkeit
und Klassenbreite.
1.3.04
PI Statistik, SS 2004
9
Zahl k der Klassen
• k so, dass 2  n
k
• k ≤ √n
k soll
• nicht kleiner als 5
• nicht größer als 20
sein
1.3.04
n
20
30
40
50
75
100
150
200
PI Statistik, SS 2004
2k  n √n
5
5
6
6
7
7
8
8
4
5
6
7
9
10
12
14
10
Beispiele von Verteilungen
Rechnungsbeträge
CO-Emission von PKWs
Lebensalter
Schäden durch Wirbelstürme (in Mio USD)
1.3.04
PI Statistik, SS 2004
11
Schäden durch Wirbelstürme
Anzahl der Schäden
25
20
15
10
5
1650
1450
1250
1050
850
650
450
250
50
0
Schadenshöhe (in Mio USD)
1.3.04
PI Statistik, SS 2004
12
Schäden durch Wirbelstürme
Klasse
Kl.-Breite
Häufigk't
rel.Häufigk't
Dichte
0 – 50
50
19
0,50
0,010000
50 – 100
50
4
0,11
0,002105
100 – 500
400
10
0,26
0,000658
500 - 2000
1500
5
0,13
0,000088
38
1,00
Dichte: Relative Häufigkeit/Klassenbreite
Dichtehistogramm: Fläche beträgt 1
1.3.04
PI Statistik, SS 2004
13
Schuh- und Körpergröße
Nach R. Hatzinger, 2003
1.3.04
PI Statistik, SS 2004
14
Charakteristika von Verteilungen
Beschreiben durch Kennzahlen wesentliche
Eigenschaften der Verteilung
Dazu gehören:
Quantile, Minimum, Maximum
Lagemaße
Streuungsmaße
Schiefe: charakterisiert Symmetrie
Wölbung (Kurtosis): Vergleich von symmetrischer
Verteilung mit Gauss‘scher Glockenform
1.3.04
PI Statistik, SS 2004
15
Populationskenngrößen
Analyse-Funktion in
EXCEL
Rechnungsbeträge
Mittelwert
Standardfehler
50,10
Median
714,62
Modus
718,46
Standardabweichung
354,29
Stichprobenvarianz
125518,49
Kurtosis
3,29
Schiefe
1,60
Wertebereich
1746,15
Minimum
226,92
Maximum
1973,08
Summe
Anzahl
1.3.04
772,46
PI Statistik, SS 2004
38623,15
50
16
Lage- und Streuungsmaße
Lagemaße



Mittelwert x
Median x , getrimmter Mittelwert
Modus
Streuungsmaße




1.3.04
Standardabweichung s
Varianz s 2
Interquartilsabstand I
Spannweite R
PI Statistik, SS 2004
17
Lagemaße
Mittelwert:
x
1
n

n
x
i 1 i
Median:
nach der Größe geordnete Beobachtungen:
x(1) , x(2) ,..., x( n )
den Index i nennen wir den Rang von x( i )
Median: wenn n=2m+1 ungerade (m ist Rang der
mittleren Beobachtung): x  x( m )
wenn n=2m gerade: x  ( x( m )  x( m 1) ) / 2
1.3.04
PI Statistik, SS 2004
18
Robuste Lagemaße
Median: extreme Werte („Ausreißer“) haben
keinen Effekt
Getrimmter Mittelwert: Mittelwert von 80% der
Beobachtungen, je 10% größte und kleinste
Beobachtungen bleiben unberücksichtigt
1.3.04
PI Statistik, SS 2004
19
Quantil (Perzentil)
Quantil der Ordnung p aus n Beobachtungen
x1, …, xn ist die Beobachtung x(r) mit Rang
r = (n+1)p
wenn (n+1)p keine ganze Zahl ist:


Mittel der benachbarten Beobachtungen
Runden des Ranges (n+1)p
Beispiel: Rechnungsbeträge (50 Beobachtungen)


1.3.04
Quantil der Ordnung 0.8 (oder 0.8-Quantil): Mittel aus
Beobachtungen mit Rängen 40 und 41
1. Quartil oder 0.25-Quantil: Mittel aus Beobachtungen
mit Rängen 12 und 13
PI Statistik, SS 2004
20
Einige Quantile
Quartile:



0.25-Quantil oder 1. Quartil (Q1, Qu)
0.75-Quantil oder 3. Quartil (Q3, Qo)
0.5-Quantil ist der Median
Dezile


1.3.04
Unteres Dezil oder 0.1-Quantil
Oberes Dezil oder 0.9-Quantil
PI Statistik, SS 2004
21
Standardabweichung
Ist die Wurzel aus der Varianz s 2:
s s
2
Varianz oder Stichprobenvarianz:
s 
2
1
n
2
2
2
1
(
x

x
)

x

x
i1 i
n i 1
n
Eigenschaften der Standardabweichung:
• s kann nicht negativ sein
• s = 0: alle Beobachtungen haben gleichen Wert
• s wird in den gleichen Einheiten gemessen wie X
1.3.04
PI Statistik, SS 2004
22
Überdeckung
Intervall
Anteil der
Beobachtungen
x  s, x  s
x  2 s, x  2 s
x  3s , x  3s
2/3
95%
~ 100%
• Gilt für die Normalverteilung exakt
• Gilt weitgehend für alle symmetrischen, unimodalen
Verteilungen
1.3.04
PI Statistik, SS 2004
23
Andere Streuungsmaße
Interquartilsabstand
I = Qo – Qu = Q3 – Q1
überdeckt die zentralen 50% der Beobachtungen
Spannweite (range)
R = x(n) – x(1)
Variationskoeffizient (s in Prozent des Mittelwertes): CV
für nicht-neg. Merkmale; unabhängig von Maßeinheit
s

x
MAD (mean absolute deviation)
MAD 
1.3.04
1
n

n
i 1
| xi  x |
PI Statistik, SS 2004
24
Schiefe und Wölbung
Schiefe: Maß für Asymmetrie (unimodale
Verteilung)
rechtsschief: Modus < x < x
m3
Momentkeoffizient (Fisher): g1  3
s
mit m3  1n  i ( xi  x )3
m4
Wölbung: g 2  4  3
s
g2 = 0: Gauss‘sche Glockenkurve
g2 < 0: abgeplattet, platykurtisch, heavy tail
g2 > 0: spitz, leptokurtisch, light tail
1.3.04
PI Statistik, SS 2004
25
Box Plot
Darstellung einer Häufigkeitsverteilung; gibt die
wesentlichen Charakteristika wieder.
(siehe Hackl & Katzenbeisser, S. 29-30)
80
Ausreißer
70
60
Whisker
Median
Qu
HMU
Qo
50
40
30
20
10
50% der
Daten
0
Whisker
1.3.04
PI Statistik, SS 2004
26
Beispiel: Heilmittelkosten
Heilmittelkosten je Patient (in Euro) bei
• 1682 Praktischen Ärzten (AM)
• 176 Internisten (IN)
400
• 242 Orthopäden (OP)
WGKG, 2002
HMU
300
200
100
0
AM
1.3.04
PI Statistik, SS 2004
IN
OP
27
Box Plot: Elemente
Box: mittlere 50% der Beobachtungen;
Begrenzungen sind Quartile; Median als Mittellinie
Innere Grenzen (inner fences): Qu - 1.5I, Qu + 1.5I
Äußere Grenzen (outer fences): Qu - 3I, Qu + 3I
Beobachtungen innerhalb der Inneren Grenzen
werden verbunden (whiskers)
Beobachtungen außerhalb der Inneren Grenzen und
innerhalb der Äußeren Grenzen: einzeln mit einem +
einzeichnen (outlier)
Beobachtungen außerhalb der Äußeren Grenzen:
einzeln mit einem * einzeichnen (far outlier)
1.3.04
PI Statistik, SS 2004
28
Fragestellungen
In welchem Bereich kann man einen Mittelwert in der
Grundgesamtheit erwarten ?
Ist ein Mittelwert anders (kleiner, größer, oder
ungleich) als eine bestimmte Vorgabe ?
1.3.04
PI Statistik, SS 2004
29
Herunterladen