Folien6(Lagemasse1)

Werbung
4. Lagemaße
Häufigkeitsverteilungen: Detaillierter Einblick in die Datenstruktur
Maßzahlen (Kennzahlen): Beschreibung bestimmter Eigenschaften von
Daten durch eine Zahl beschreiben.
Eine Maßzahl ist eine Kennzahl zur Beschreibung der Merkmalswerte.
Lagemaße: spezielle Maßzahlen (Mittelwerte und Quantile)
Lagemaße geben über die zentrale Tendenz eines Merkmals Auskunft.
Abbildung 4.1: Lagemaße in Abhängigkeit vom Skalenniveau
Skalenniveau des Merkmals
Nominalskala
Ordinalskala
Intervallskala
Verhältnis-/
Absolutskala
Modus
Modus
Modus
Modus
Median/Quantile
Median/Quantile
Median/Quantile
Arithmetische Mittel
Arithmetische Mittel
Geometrische Mittel
Harmonische Mittel
Kriterien für die Auswahl von Lagemaßen:
 Skalenniveau: Nicht alle Lagemaße sind anwendbar, wenn das
Merkmal nicht die Anforderungen an das Skalenniveau erfüllt.
 Aussagezweck: Interessiert ein Mittelwert oder beispielsweise das
erste Quartil, das die kleinsten 25% der Merkmalswerte von den
größten 75% der Daten trennt?
 Sachlogik: Ist z.B. das arithmetische oder geometrische Mittel zur
Bestimmung einer durchschnittlichen Wachstumsrate der sachlich
korrekte Mittelwert?
4.1 Modus
Der Modus (Modelwert) D ist als häufigster oder typischer Wert zu
interpretieren.
Voraussetzung hinsichtlich des Skalenniveaus: beliebiges Skalenniveau
Modus: Gipfel der Häufigkeitsverteilung zusammen.
- zwei Maxima: bimodale Verteilung (Modalwerte D1 und D2)
- mehrere Maxima: multimodale Verteilung (Modalwerte D1, D2, …)
Abbildung 4.2: Uni- und bimodale Verteilung
hx 
hx 
D
a) unimodal
x
D1
D2
x
b) bimodal
Berechnung des Modus:
- bei unklassierten Häufigkeitsverteilungen,
- bei klassierten Häufigkeitsverteilungen
Bei Einzelwerten x1, x2, …, xn muss zur Bestimmung des Modus stets
eine Häufigkeitsverteilung gebildet werden.
 Berechnung bei unklassierten Häufigkeitsverteilungen
Der Modus D ist die Merkmalsausprägung mit der maximalen (absoluten und relativen) Häufigkeit:
(4.1)
ℓ:
D  x*
Laufindex,
 
h   max h j
der
mit
der
maximalen
 
Häufigkeit
korrespondiert
(bzw. n   max n j )
Beispiel 4.1:
Fünf Studenten werden nach ihrer Lieblingsmusik gefragt. Somit liegen
folgende Einzelwerte vor:
x1  Volksmusik,
x 5  Klassik.
x 2  Volksmusik,
x 3  Jazz,
x 4  Volksmusik,
Die größte absolute Häufigkeit weist die Volksmusik auf, da diese
Ausprägung dreimal gemessen wird (übrige Musikrichtungen jeweils einmal):
j
1
2
3
∑
Absolute Häufigkeiten
nj
x *j
Volksmusik
3
Jazz
1
Klassik
1
n=5
Berechnung des Modus
 
ℓ=1, da n   n1  max n j
D  x*  x*1  Volksmusik
Interpretation: Die meisten befragten Studenten hören am liebsten
Volksmusik. Die Volksmusik ist deshalb eine typische Musikrichtung.

Beispiel 4.2:
Beim Merkmal "Kinderzahl" ist bekannt, dass 5 Studenten kein Kind, vier
Studenten ein Kind und ein Befragter zwei Kinder besitzen. Wie groß ist
die typische Kinderzahl?
Berechnung des Modus
Grafische Darstellung
hj
j
1
2
3
∑
x *j
nj
hj
0
1
2
5
4
1
n = 10
0,5
0,4
0,1
1
 
ℓ=1, da h   h1  max h j
D  x*
0,5
0,4
0,3
0,2
0,1
0,0
0
 x1  0
*
1
2
x
D

Beispiel 4.3:
Die Häufigkeitsverteilung vom Merkmal "Haushaltsgröße" weist zwei
Gipfel auf (bimodale Verteilung). Somit müssen zwei Modalwerte
ausgewiesen werden:
j
1
2
3
∑
Berechnung des Modus
nj
hj
x *j
1
2
0,4
2
2
0,4
3
1
0,2
n=5
1
D1  x1*  1 und D2  x*2  2 , da
die ersten beiden Merkmalsausprägungen die maximale Häufigkeit
aufweisen.
und
Grafische Darstellung
hj
0,4
0,3
0,2
0,1
0,0
1
2
D1
D2
3

x
 Berechnung bei klassierten Häufigkeitsverteilungen
Der Modus D liegt in der Klasse mit der maximalen Häufigkeitsdichte
(=Modalklasse k*).
Klassenmitte der k-ten Klasse: m k 

1 '
 x k 1  x 'k
2

D wird durch die Klassenmitte der Modalklasse repräsentiert:
D  m k * mit m k * 
(4.2)

1 '
 x k *1  x 'k *
2

k * : Laufindex, der mit der maximalen Häufigkeitsdichte korrespondiert:
d k *  max d k  .
Beispiel 4.4:
Den Modus der Rendite erhält man als Klassenmitte der Modalklasse:
 k*=3, weil die dritte Klasse die maximale Häufigkeitsdichte aufweist.
 D




1 '
1
1
 x k *1  x 'k *   x '2  x 3'   2  2,5  2,25 .
2
2
2
Interpretation: Die meisten Aktien verzeichnen eine (näherungsweise)
Rendite von 2,25 %. Hierbei handelt es sich um eine typische
Aktienrendite.
Häufigkeitsdichten
Grafische Darstellung
dk
k
1
2
3
4
∑
von
über…
bis zu …
0,5 – 1,5
1,5 – 2
2 – 2,5
2,5 – 3,5
hk
0,3
0,2
0,3
0,2
1,0
dk
0,3
0,4
0,6
0,2
0,6
0,5
0,4
0,3
0,2
0,1
0
0,5
1
1,5
2
D 2,5
3

3,5 x
Beispiel 4.5:
In der Qualitätskontrolle wird der Durchmesser von gefertigten Schrauben mit einem Solldurchmesser von 0,5 µm kontrolliert. Bei 40 Schrauben ist ein Durchmesser zwischen 0,25 und 0,45 µm gemessen worden,
bei 30 Schrauben zwischen 0,45 und 0,55 µm und bei 30 Schrauben
zwischen 0,55 und 0,65 µm. Welcher Schraubendurchmesser ist typisch?
Zu berechnen ist der Modus (typischer Wert). Die Häufigkeitsdichten
werden in einer Häufigkeitstabelle bestimmt:
k
1
2
3
∑
von über… bis zu …
0,25 – 0,45
0,45 – 0,55
0,55 – 0,65
nk
hk
bk
d k (in 10)
40
30
30
n = 100
0,4
0,3
0,3
1
0,2
0,1
0,1
0,2
0,3
0,3
n
40
h1  1 
 0,4 , b1  x1'  x '0  0,45  0,25  0,2 ,
n 100
h
0,4
d1  1 
 0,2 (10)
b1 0,2
Da zwei Klassen mit maximaler Häufigkeitsdichte vorhanden sind, liegen
zwei Modalwerte (typische Werte) vor:
*
*
 k1  2 und k 2  3 (Klassen mit maximaler Häufigkeitsdichte)




1 '
1
 x1  x '2   0,45  0,55  0,5 (1. Modalwert),
2
2
1
1
D 2   x '2  x 3'   0,55  0,65  0,6 (2. Modalwert). 
2
2
 D1 
 Eigenschaften des Modus
- anschaulicher Mittelwert (häufig beobachteter Wert),
- nutzt bei ordinalskalierten und metrischen Merkmalen nur einen
geringen Teil der Informationen aus
4.2 Median
Der Median (Zentralwert) ~
x teilt die Merkmalswerte in zwei gleich
große Hälften:
- mindestens 50 % der Merkmalswerte sind kleiner oder gleich ~
x und
- mindestens 50 % der Merkmalswerte sind größer oder gleich ~
x
( ̂ Medianeigenschaft).
Voraussetzung: mindestens ordinalskaliertes Merkmal
 Berechnung bei Einzelwerten
1. Schritt: Erstellung einer geordneten Reihe (in aufsteigender Reihenfolge):
x (1) , x ( 2) ,  , x ( n )
mit
x (1)  x (2)    x (n ) .
2. Schritt: Bestimmung des Medians aus der geordneten Reihe
- bei ungerader Anzahl n:
Der Median ~
x ist der mittlere Wert mit der Odnungszahl (n+1)/2
- bei gerader Anzahl n
Es gibt zwei mittlere Werte mit den Ordnungszahlen n / 2 und n / 2  1
Alle Werte zwischen den beiden mittleren Werten erfüllen die
Medianeigenschaft. Als Median verwendet man die Intervallmitte.
Berechnungsformel:
(4.3)

x
  n 1 
  2 

~
x
 


1 

x

x

n
n 
2
 
 1 

   2 
2 
falls n ungerade
.
falls n gerade
Beispiel 4.6:
Ein Unternehmen misst die Krankheitstage von fünf Mitarbeitern:
x1  2 , x 2  3 , x 3  8 , x 4  5 , x 5  1 .
Wo liegt die 50 %-Trennmarke? Zu berechnen ist der Median:
 Geordnete Reihe: x (1)  1 , x ( 2)  2 , x (3)  3 , x ( 4)  5 , x (5)  8
 n = 5 (ungerade)
 ~
x  x  n 1   x  5 1   x  6   x (3)  3 .




 
 2 
 2 
2
0
×
×
×
1
2
3
×
4
5
×
6
7
8
9 x
mittlerer Wert  ~
x
Wie ändert sich der Median, wenn ein sechster Mitarbeiter mit sieben
Krankheitstagen ebenfalls einbezogen wird? Dann gibt es zwei mittlere
Werte, deren Durchschnitt zu bilden ist:
 Geordnete Reihe: x (1)  1 , x ( 2)  2 , x (3)  3 , x ( 4)  5 , x (5)  7 ,
x ( 6)  8
 n = 6 (gerade)







 1
1
1
x    x  n   x  n      x  6   x  6     x (3)  x ( 4)
 ~
2   
 1   2   
 1   2
2 
2  
 2
 2

1
 3  5  4 .
2
×
×
×

0
1
2
3
×
4
5
6
×
×
7
8
9 x
~
x
mittlere Werte


Beispiel 4.7:
In einem Unternehmen wird die Arbeitszeit pro Tag von vier Managern in
Stunden gemessen. Mit den Merkmalswerten
x1  11,9 , x 2  12,1, x 3  12,3 , x 4  11,9
lässt sich der Median bestimmen:
 Geordnete Reihe: x (1)  11,9 , x ( 2)  11,9 , x (3)  12,1 , x ( 4)  12,3
 n = 4 (gerade)







 1
1
1
 ~
x    x  n   x  n      x  4   x  4     x ( 2)  x (3)
2   
 1   2   
 1   2
2 
2  
 2
 2



1
 11,9  12,1  12 h  .
2
Interpretation: Die 50 %-Marke der Arbeitszeit liegt bei 12 Stunden. Hier
haben 50 % der Manager eine Arbeitszeit, die kleiner oder gleich 12
Stunden ist. Ebenso weisen 50 % der Manager eine Arbeitszeit auf, die
größer oder gleich 12 Stunden beträgt.

 Berechnung bei unklassierten Häufigkeitsverteilungen
1. Schritt: Bestimmung der kumulierten relativen Häufigkeiten (zumindest
bis zur 50%-Marke)
H1, H2, …, Hm=1
2. Schritt: Bestimmung des Medians bei Orientierung an der 50%-Marke
der kumulierten relativen Häufigkeiten
- falls die 50%-Marke bei einer Merkmalsausprägung durchlaufen wird,
stimmt der Median mit dieser Merkmalsausprägung überein,
- falls die 50%-Marke exakt bei einer Merkmalsausprägung erreicht wird,
ist diese mit der nachfolgenden Merkmalsausprägung zu mitteln
Berechnungsformel:
(4.4)

x*

~
x
1 *
*
 2  x   x  1

falls H   0,5 und H  1  0,5

ℓ:
falls H   0,5
Merkmalsausprägung, bei der die relativen kumulierten Häufigkeiten 0,5
erreichen oder durchlaufen
Beispiel 4.8:
Bei einer Statistik-Klausur im Schwerpunktstudium liegt folgende
Benotung vor:
x1 = 5, x2 = 3, x3 = 4, x4 = 5, x5 = 3, x6 = 2, x7 = 4, x8 = 5.
Der Median soll aus der unklassierten Häufigkeitsverteilung bestimmt
werden:
j
1
2
3
4
∑
x *j
nj
2
3
4
5
1
2
2
3
n=8
hj
Hj
1/8 = 0,125
0,125
2/8 = 0,25 0,125+0,25=0,375
2/8 = 0,25 0,375+0,25=0,625
3/8 = 0,375 0,625+0,375=1,0
1
Hier ist
 ℓ=3, weil die relativen kumulierten Häufigkeiten bei der dritten
Merkmalsausprägung, d.h. der Note 4, die 50%-Marke durchlaufen
(überschreiten)
 Da H 3  0,6  0,5 und H 2  0,2  0,5 sind, muss keine Mittelung
durchgeführt werden.
x  x*  x*3  4 .
 ~

 Berechnung bei klassierten Häufigkeitsverteilungen
Medianeigenschaft:
(4.5) H( ~
x ) = 0,5
Abbildung 4.1: Bestimmung des Median durch Interpolation (p=3)
Hx 
H3  1
H2
H~
x   0,5
H1
x '0 x1' ~
x
x '2
x 3'
x
1. Schritt: Bestimmung der Medianklasse
Medianklasse k*: Klasse, in der die 50%-Marke der kumulierten relativen
Häufigkeiten durchlaufen wird
in Abb. 4.1: k*=2 (Medianklasse = zweite Klasse)
2. Schritt: Approximative Berechnung des Medians:
Annahme: Gleichverteilung der Merkmalswerte innerhalb der Medianklasse
Berechnungsformel:
0,5  H k *1
x  x 'k *1 
 b k* .
(4.6) ~
h k*
k*: Klasse, bei der die relativen kumulierten Klassenhäufigkeiten 0,5
durchlaufen
0,5  H1
in Abb. 4.1: ~
x  x1' 
 b2
h2
Herleitung von Gleichung (4.6):
Bei stetigen und quasi-stetigen Merkmalen ist der Median ~
x durch den
Punkt auf der x-Achse bestimmt, in dem die approximative empirische
Verteilungsfunktion den Wert 0,5 erreicht:
(4.5)
H~
x   0,5 .
Deshalb kann die Formel (4.5) unmittelbar aus der approximativen
empirischen Verteilungsfunktion abgeleitet werden. Setzt man in (3.11),
x  x 'k 1
Hx   H k 1 
 h k (empirische Verteilungsfunktion),
bk
~
x  x , dann muss auch der Klassenindex k dem Klassenindex der
Medianklasse k * entsprechen:
~
x  x 'k *1
~
Hx   H k *1 
 h k*.
b k*
Diese Gleichung ist jetzt unter Beachtung von (4.5) nur noch nach ~
x
aufzulösen. Vertauscht man beide Seiten, ergibt sich mit (4.5):(4.5)
~
x  x 'k *1
 H k *1
H k *1 
 h k *  0,5
b k*
~
x  x 'k *1
b
 k*
 h k *  0,5  H k *1
h k*
b k*
0,5  H k *1
~
x  x 'k *1 
 b k*.
h k*
'
Nach Addition von x k *1 auf beiden Seiten erhält man schließlich die
Medianformel (4.6) für klassierte Daten:
Beispiel 4.9:
Ein IT-Unternehmen misst die Anzahl der Zugriffe auf die Website pro
Tag. Bei 20 % der Messungen werden von über 1 bis zu 2 Mio. Zugriffe,
bei 40 % der Messungen von über 2 Mio. bis zu 3 Mio. Zugriffe und bei
den restlichen Messungen von über 3 Mio. bis zu 3,5 Mio. Zugriffe
registriert.
Zu bestimmen ist der Median:
 Es ist k*=2, da die kumulierten relativen Häufigkeiten H k die 50%Marke in der zweiten Klasse durchlaufen (überschreiten).
0,5  H k*1
0,5  H1
 ~
x  x 'k*1 
 b k* x1' 
 b2
h k*
 2
h2
0,5  0,2
 1  2  0,75  2,75 Mio..
0,4
Kumulierte relative Häufigkeiten
Grafische Darstellung
Hx 
k
1
2
3
∑
von über…
bk
bis zu …
1–2
1
2–3
1
3 – 3,5
0,5
1
hk
Hk
0,2
0,4
0,4
1
0,2
0,6
1
-
b1  x1'  x '0  2  1  1 ,
H 2  H1  h 2  0,2  0,4  0,6
0,75
0,5
0,25
0
1
2
3

4
x
 Eigenschaften des Median
- Unempfindlichkeit (Resistenz) gegenüber Ausreißern
Beispiel 4.10:
Ein Souvenirladen in Sachsens Landeshauptstadt habe in den Jahren
vor dem Elbhochwasser recht konstante Umsatzzahlen im September
ausgewiesen: 3.200€, 3.000€, 3.250€, 3.100€. Im Jahr des
Elbhochwassers sank der Umsatz im angegebenen Monat auf 900€. Mit
diesen Werten soll der Median berechnet werden.
Wie aus der folgenden Tabelle hervorgeht, verändert sich der Median
nur um 50 €, wenn der Ausreißerwert berücksichtigt wird.
Median mit Ausreißer
 Geordnete Reihe: x 1  900 ,
x 2  3.000 ,
x 4  3.200 ,
x 3  3.100 ,
x 5  3.250
 n = 5 (ungerade)
 ~
x  x  n 1   x  5 1   x  6 




 
 2 
 2 
2
 x 3  3.100 € .
Median ohne Ausreißer
 Geordnete Reihe: x 1  3.000 ,
x 2  3.100 , x 3  3.200 ,
x 4  3.250
 n = 4 (gerade)




1
x    x n   x n  
 ~
2   
 1 
2
2 
  
1
  x 2   x 3
2
1
  3.100  3.200  3.150 € 
2


.

- Minimumeigenschaft
Die Summe der absoluten Abweichungen um eine beliebige reelle
Zahl c,
n
(4.7)  x i  c ,
i 1
nimmt ein Minimum an, wenn c  ~
x ist:
n
n
i 1
i 1
x   xi  c .
(4.8)  x i  ~
Beispiel 4.11:
Gegeben sind Entfernungsdaten von einem Ausgangspunkt A,
x1 = 0, x2 = 50, x3 = 110, x4 = 155, x5 = 200,
die zugleich eine geordnete Reihe wiedergeben.
Der Median ist gleich dem mittleren Wert mit der Ordnungszahl (n+1)/2 =
(5+1)/2 = 3:
~
x  x  n 1   x  51   x 3  110


 2 


 2 
Vergleich der Summe der absoluten Abweichungen von
~
x  110 und c = 100:
i
xi
x i  (~
x  110)
x i  (c  100)
1
0
110
100
2
50
60
50
3
110
0
10
4
155
45
55
5
200
90
100
305
315


Beispiel 4.12:
Die Reinigungsfirma "Sauber" hat sich auf Autobahnraststätten
spezialisiert. Der Firmenchef möchte einen neuen Standort für die
Reinigungsfirma finden, der die minimalen Anfahrtswege zu den
Raststätten aufweist. Bei der Standortfindung sind zwei Feststellungen
zu beachten:
 Jeder Reinigungstrupp trifft sich am Sitz der Reinigungsfirma, fährt
jeweils eine Raststätte an und beendet die Tätigkeit am Sitz der
Reinigungsfirma.
 Jede Raststätte wird gleich häufig – nämlich einmal pro Tag –
gereinigt.
Die Raststätten R1 und R 5 bilden jeweils die beiden äußeren Punkte.
Die Entfernung zu R1 beträgt bei R 2 50 km, bei R 3 110 km, bei R 4
155 km und bei R 5 200 km.
R1
R2
0
50
R3
100
R4
150
R5
200 x
Median der Entfernung von R1 :
 Geordnete Reihe: x 1  0 , x 2  50 , x 3  110 , x 4  155 ,
x 5  200
 n=5 (ungerade), deshalb muss nicht gemittelt werden.
x  x  n 1   x  5 1   x  6   x (3)  110km .
 ~




 
 2 
 2 
2
Bei R 3 , also 110 km entfernt von R 1, muss der Sitz der Firma errichtet
werden, um die Fahrtwege zu minimieren.

Herunterladen