4. Lagemaße Häufigkeitsverteilungen: Detaillierter Einblick in die Datenstruktur Maßzahlen (Kennzahlen): Beschreibung bestimmter Eigenschaften von Daten durch eine Zahl beschreiben. Eine Maßzahl ist eine Kennzahl zur Beschreibung der Merkmalswerte. Lagemaße: spezielle Maßzahlen (Mittelwerte und Quantile) Lagemaße geben über die zentrale Tendenz eines Merkmals Auskunft. Abbildung 4.1: Lagemaße in Abhängigkeit vom Skalenniveau Skalenniveau des Merkmals Nominalskala Ordinalskala Intervallskala Verhältnis-/ Absolutskala Modus Modus Modus Modus Median/Quantile Median/Quantile Median/Quantile Arithmetische Mittel Arithmetische Mittel Geometrische Mittel Harmonische Mittel Kriterien für die Auswahl von Lagemaßen: Skalenniveau: Nicht alle Lagemaße sind anwendbar, wenn das Merkmal nicht die Anforderungen an das Skalenniveau erfüllt. Aussagezweck: Interessiert ein Mittelwert oder beispielsweise das erste Quartil, das die kleinsten 25% der Merkmalswerte von den größten 75% der Daten trennt? Sachlogik: Ist z.B. das arithmetische oder geometrische Mittel zur Bestimmung einer durchschnittlichen Wachstumsrate der sachlich korrekte Mittelwert? 4.1 Modus Der Modus (Modelwert) D ist als häufigster oder typischer Wert zu interpretieren. Voraussetzung hinsichtlich des Skalenniveaus: beliebiges Skalenniveau Modus: Gipfel der Häufigkeitsverteilung zusammen. - zwei Maxima: bimodale Verteilung (Modalwerte D1 und D2) - mehrere Maxima: multimodale Verteilung (Modalwerte D1, D2, …) Abbildung 4.2: Uni- und bimodale Verteilung hx hx D a) unimodal x D1 D2 x b) bimodal Berechnung des Modus: - bei unklassierten Häufigkeitsverteilungen, - bei klassierten Häufigkeitsverteilungen Bei Einzelwerten x1, x2, …, xn muss zur Bestimmung des Modus stets eine Häufigkeitsverteilung gebildet werden. Berechnung bei unklassierten Häufigkeitsverteilungen Der Modus D ist die Merkmalsausprägung mit der maximalen (absoluten und relativen) Häufigkeit: (4.1) ℓ: D x* Laufindex, h max h j der mit der maximalen Häufigkeit korrespondiert (bzw. n max n j ) Beispiel 4.1: Fünf Studenten werden nach ihrer Lieblingsmusik gefragt. Somit liegen folgende Einzelwerte vor: x1 Volksmusik, x 5 Klassik. x 2 Volksmusik, x 3 Jazz, x 4 Volksmusik, Die größte absolute Häufigkeit weist die Volksmusik auf, da diese Ausprägung dreimal gemessen wird (übrige Musikrichtungen jeweils einmal): j 1 2 3 ∑ Absolute Häufigkeiten nj x *j Volksmusik 3 Jazz 1 Klassik 1 n=5 Berechnung des Modus ℓ=1, da n n1 max n j D x* x*1 Volksmusik Interpretation: Die meisten befragten Studenten hören am liebsten Volksmusik. Die Volksmusik ist deshalb eine typische Musikrichtung. Beispiel 4.2: Beim Merkmal "Kinderzahl" ist bekannt, dass 5 Studenten kein Kind, vier Studenten ein Kind und ein Befragter zwei Kinder besitzen. Wie groß ist die typische Kinderzahl? Berechnung des Modus Grafische Darstellung hj j 1 2 3 ∑ x *j nj hj 0 1 2 5 4 1 n = 10 0,5 0,4 0,1 1 ℓ=1, da h h1 max h j D x* 0,5 0,4 0,3 0,2 0,1 0,0 0 x1 0 * 1 2 x D Beispiel 4.3: Die Häufigkeitsverteilung vom Merkmal "Haushaltsgröße" weist zwei Gipfel auf (bimodale Verteilung). Somit müssen zwei Modalwerte ausgewiesen werden: j 1 2 3 ∑ Berechnung des Modus nj hj x *j 1 2 0,4 2 2 0,4 3 1 0,2 n=5 1 D1 x1* 1 und D2 x*2 2 , da die ersten beiden Merkmalsausprägungen die maximale Häufigkeit aufweisen. und Grafische Darstellung hj 0,4 0,3 0,2 0,1 0,0 1 2 D1 D2 3 x Berechnung bei klassierten Häufigkeitsverteilungen Der Modus D liegt in der Klasse mit der maximalen Häufigkeitsdichte (=Modalklasse k*). Klassenmitte der k-ten Klasse: m k 1 ' x k 1 x 'k 2 D wird durch die Klassenmitte der Modalklasse repräsentiert: D m k * mit m k * (4.2) 1 ' x k *1 x 'k * 2 k * : Laufindex, der mit der maximalen Häufigkeitsdichte korrespondiert: d k * max d k . Beispiel 4.4: Den Modus der Rendite erhält man als Klassenmitte der Modalklasse: k*=3, weil die dritte Klasse die maximale Häufigkeitsdichte aufweist. D 1 ' 1 1 x k *1 x 'k * x '2 x 3' 2 2,5 2,25 . 2 2 2 Interpretation: Die meisten Aktien verzeichnen eine (näherungsweise) Rendite von 2,25 %. Hierbei handelt es sich um eine typische Aktienrendite. Häufigkeitsdichten Grafische Darstellung dk k 1 2 3 4 ∑ von über… bis zu … 0,5 – 1,5 1,5 – 2 2 – 2,5 2,5 – 3,5 hk 0,3 0,2 0,3 0,2 1,0 dk 0,3 0,4 0,6 0,2 0,6 0,5 0,4 0,3 0,2 0,1 0 0,5 1 1,5 2 D 2,5 3 3,5 x Beispiel 4.5: In der Qualitätskontrolle wird der Durchmesser von gefertigten Schrauben mit einem Solldurchmesser von 0,5 µm kontrolliert. Bei 40 Schrauben ist ein Durchmesser zwischen 0,25 und 0,45 µm gemessen worden, bei 30 Schrauben zwischen 0,45 und 0,55 µm und bei 30 Schrauben zwischen 0,55 und 0,65 µm. Welcher Schraubendurchmesser ist typisch? Zu berechnen ist der Modus (typischer Wert). Die Häufigkeitsdichten werden in einer Häufigkeitstabelle bestimmt: k 1 2 3 ∑ von über… bis zu … 0,25 – 0,45 0,45 – 0,55 0,55 – 0,65 nk hk bk d k (in 10) 40 30 30 n = 100 0,4 0,3 0,3 1 0,2 0,1 0,1 0,2 0,3 0,3 n 40 h1 1 0,4 , b1 x1' x '0 0,45 0,25 0,2 , n 100 h 0,4 d1 1 0,2 (10) b1 0,2 Da zwei Klassen mit maximaler Häufigkeitsdichte vorhanden sind, liegen zwei Modalwerte (typische Werte) vor: * * k1 2 und k 2 3 (Klassen mit maximaler Häufigkeitsdichte) 1 ' 1 x1 x '2 0,45 0,55 0,5 (1. Modalwert), 2 2 1 1 D 2 x '2 x 3' 0,55 0,65 0,6 (2. Modalwert). 2 2 D1 Eigenschaften des Modus - anschaulicher Mittelwert (häufig beobachteter Wert), - nutzt bei ordinalskalierten und metrischen Merkmalen nur einen geringen Teil der Informationen aus 4.2 Median Der Median (Zentralwert) ~ x teilt die Merkmalswerte in zwei gleich große Hälften: - mindestens 50 % der Merkmalswerte sind kleiner oder gleich ~ x und - mindestens 50 % der Merkmalswerte sind größer oder gleich ~ x ( ̂ Medianeigenschaft). Voraussetzung: mindestens ordinalskaliertes Merkmal Berechnung bei Einzelwerten 1. Schritt: Erstellung einer geordneten Reihe (in aufsteigender Reihenfolge): x (1) , x ( 2) , , x ( n ) mit x (1) x (2) x (n ) . 2. Schritt: Bestimmung des Medians aus der geordneten Reihe - bei ungerader Anzahl n: Der Median ~ x ist der mittlere Wert mit der Odnungszahl (n+1)/2 - bei gerader Anzahl n Es gibt zwei mittlere Werte mit den Ordnungszahlen n / 2 und n / 2 1 Alle Werte zwischen den beiden mittleren Werten erfüllen die Medianeigenschaft. Als Median verwendet man die Intervallmitte. Berechnungsformel: (4.3) x n 1 2 ~ x 1 x x n n 2 1 2 2 falls n ungerade . falls n gerade Beispiel 4.6: Ein Unternehmen misst die Krankheitstage von fünf Mitarbeitern: x1 2 , x 2 3 , x 3 8 , x 4 5 , x 5 1 . Wo liegt die 50 %-Trennmarke? Zu berechnen ist der Median: Geordnete Reihe: x (1) 1 , x ( 2) 2 , x (3) 3 , x ( 4) 5 , x (5) 8 n = 5 (ungerade) ~ x x n 1 x 5 1 x 6 x (3) 3 . 2 2 2 0 × × × 1 2 3 × 4 5 × 6 7 8 9 x mittlerer Wert ~ x Wie ändert sich der Median, wenn ein sechster Mitarbeiter mit sieben Krankheitstagen ebenfalls einbezogen wird? Dann gibt es zwei mittlere Werte, deren Durchschnitt zu bilden ist: Geordnete Reihe: x (1) 1 , x ( 2) 2 , x (3) 3 , x ( 4) 5 , x (5) 7 , x ( 6) 8 n = 6 (gerade) 1 1 1 x x n x n x 6 x 6 x (3) x ( 4) ~ 2 1 2 1 2 2 2 2 2 1 3 5 4 . 2 × × × 0 1 2 3 × 4 5 6 × × 7 8 9 x ~ x mittlere Werte Beispiel 4.7: In einem Unternehmen wird die Arbeitszeit pro Tag von vier Managern in Stunden gemessen. Mit den Merkmalswerten x1 11,9 , x 2 12,1, x 3 12,3 , x 4 11,9 lässt sich der Median bestimmen: Geordnete Reihe: x (1) 11,9 , x ( 2) 11,9 , x (3) 12,1 , x ( 4) 12,3 n = 4 (gerade) 1 1 1 ~ x x n x n x 4 x 4 x ( 2) x (3) 2 1 2 1 2 2 2 2 2 1 11,9 12,1 12 h . 2 Interpretation: Die 50 %-Marke der Arbeitszeit liegt bei 12 Stunden. Hier haben 50 % der Manager eine Arbeitszeit, die kleiner oder gleich 12 Stunden ist. Ebenso weisen 50 % der Manager eine Arbeitszeit auf, die größer oder gleich 12 Stunden beträgt. Berechnung bei unklassierten Häufigkeitsverteilungen 1. Schritt: Bestimmung der kumulierten relativen Häufigkeiten (zumindest bis zur 50%-Marke) H1, H2, …, Hm=1 2. Schritt: Bestimmung des Medians bei Orientierung an der 50%-Marke der kumulierten relativen Häufigkeiten - falls die 50%-Marke bei einer Merkmalsausprägung durchlaufen wird, stimmt der Median mit dieser Merkmalsausprägung überein, - falls die 50%-Marke exakt bei einer Merkmalsausprägung erreicht wird, ist diese mit der nachfolgenden Merkmalsausprägung zu mitteln Berechnungsformel: (4.4) x* ~ x 1 * * 2 x x 1 falls H 0,5 und H 1 0,5 ℓ: falls H 0,5 Merkmalsausprägung, bei der die relativen kumulierten Häufigkeiten 0,5 erreichen oder durchlaufen Beispiel 4.8: Bei einer Statistik-Klausur im Schwerpunktstudium liegt folgende Benotung vor: x1 = 5, x2 = 3, x3 = 4, x4 = 5, x5 = 3, x6 = 2, x7 = 4, x8 = 5. Der Median soll aus der unklassierten Häufigkeitsverteilung bestimmt werden: j 1 2 3 4 ∑ x *j nj 2 3 4 5 1 2 2 3 n=8 hj Hj 1/8 = 0,125 0,125 2/8 = 0,25 0,125+0,25=0,375 2/8 = 0,25 0,375+0,25=0,625 3/8 = 0,375 0,625+0,375=1,0 1 Hier ist ℓ=3, weil die relativen kumulierten Häufigkeiten bei der dritten Merkmalsausprägung, d.h. der Note 4, die 50%-Marke durchlaufen (überschreiten) Da H 3 0,6 0,5 und H 2 0,2 0,5 sind, muss keine Mittelung durchgeführt werden. x x* x*3 4 . ~ Berechnung bei klassierten Häufigkeitsverteilungen Medianeigenschaft: (4.5) H( ~ x ) = 0,5 Abbildung 4.1: Bestimmung des Median durch Interpolation (p=3) Hx H3 1 H2 H~ x 0,5 H1 x '0 x1' ~ x x '2 x 3' x 1. Schritt: Bestimmung der Medianklasse Medianklasse k*: Klasse, in der die 50%-Marke der kumulierten relativen Häufigkeiten durchlaufen wird in Abb. 4.1: k*=2 (Medianklasse = zweite Klasse) 2. Schritt: Approximative Berechnung des Medians: Annahme: Gleichverteilung der Merkmalswerte innerhalb der Medianklasse Berechnungsformel: 0,5 H k *1 x x 'k *1 b k* . (4.6) ~ h k* k*: Klasse, bei der die relativen kumulierten Klassenhäufigkeiten 0,5 durchlaufen 0,5 H1 in Abb. 4.1: ~ x x1' b2 h2 Herleitung von Gleichung (4.6): Bei stetigen und quasi-stetigen Merkmalen ist der Median ~ x durch den Punkt auf der x-Achse bestimmt, in dem die approximative empirische Verteilungsfunktion den Wert 0,5 erreicht: (4.5) H~ x 0,5 . Deshalb kann die Formel (4.5) unmittelbar aus der approximativen empirischen Verteilungsfunktion abgeleitet werden. Setzt man in (3.11), x x 'k 1 Hx H k 1 h k (empirische Verteilungsfunktion), bk ~ x x , dann muss auch der Klassenindex k dem Klassenindex der Medianklasse k * entsprechen: ~ x x 'k *1 ~ Hx H k *1 h k*. b k* Diese Gleichung ist jetzt unter Beachtung von (4.5) nur noch nach ~ x aufzulösen. Vertauscht man beide Seiten, ergibt sich mit (4.5):(4.5) ~ x x 'k *1 H k *1 H k *1 h k * 0,5 b k* ~ x x 'k *1 b k* h k * 0,5 H k *1 h k* b k* 0,5 H k *1 ~ x x 'k *1 b k*. h k* ' Nach Addition von x k *1 auf beiden Seiten erhält man schließlich die Medianformel (4.6) für klassierte Daten: Beispiel 4.9: Ein IT-Unternehmen misst die Anzahl der Zugriffe auf die Website pro Tag. Bei 20 % der Messungen werden von über 1 bis zu 2 Mio. Zugriffe, bei 40 % der Messungen von über 2 Mio. bis zu 3 Mio. Zugriffe und bei den restlichen Messungen von über 3 Mio. bis zu 3,5 Mio. Zugriffe registriert. Zu bestimmen ist der Median: Es ist k*=2, da die kumulierten relativen Häufigkeiten H k die 50%Marke in der zweiten Klasse durchlaufen (überschreiten). 0,5 H k*1 0,5 H1 ~ x x 'k*1 b k* x1' b2 h k* 2 h2 0,5 0,2 1 2 0,75 2,75 Mio.. 0,4 Kumulierte relative Häufigkeiten Grafische Darstellung Hx k 1 2 3 ∑ von über… bk bis zu … 1–2 1 2–3 1 3 – 3,5 0,5 1 hk Hk 0,2 0,4 0,4 1 0,2 0,6 1 - b1 x1' x '0 2 1 1 , H 2 H1 h 2 0,2 0,4 0,6 0,75 0,5 0,25 0 1 2 3 4 x Eigenschaften des Median - Unempfindlichkeit (Resistenz) gegenüber Ausreißern Beispiel 4.10: Ein Souvenirladen in Sachsens Landeshauptstadt habe in den Jahren vor dem Elbhochwasser recht konstante Umsatzzahlen im September ausgewiesen: 3.200€, 3.000€, 3.250€, 3.100€. Im Jahr des Elbhochwassers sank der Umsatz im angegebenen Monat auf 900€. Mit diesen Werten soll der Median berechnet werden. Wie aus der folgenden Tabelle hervorgeht, verändert sich der Median nur um 50 €, wenn der Ausreißerwert berücksichtigt wird. Median mit Ausreißer Geordnete Reihe: x 1 900 , x 2 3.000 , x 4 3.200 , x 3 3.100 , x 5 3.250 n = 5 (ungerade) ~ x x n 1 x 5 1 x 6 2 2 2 x 3 3.100 € . Median ohne Ausreißer Geordnete Reihe: x 1 3.000 , x 2 3.100 , x 3 3.200 , x 4 3.250 n = 4 (gerade) 1 x x n x n ~ 2 1 2 2 1 x 2 x 3 2 1 3.100 3.200 3.150 € 2 . - Minimumeigenschaft Die Summe der absoluten Abweichungen um eine beliebige reelle Zahl c, n (4.7) x i c , i 1 nimmt ein Minimum an, wenn c ~ x ist: n n i 1 i 1 x xi c . (4.8) x i ~ Beispiel 4.11: Gegeben sind Entfernungsdaten von einem Ausgangspunkt A, x1 = 0, x2 = 50, x3 = 110, x4 = 155, x5 = 200, die zugleich eine geordnete Reihe wiedergeben. Der Median ist gleich dem mittleren Wert mit der Ordnungszahl (n+1)/2 = (5+1)/2 = 3: ~ x x n 1 x 51 x 3 110 2 2 Vergleich der Summe der absoluten Abweichungen von ~ x 110 und c = 100: i xi x i (~ x 110) x i (c 100) 1 0 110 100 2 50 60 50 3 110 0 10 4 155 45 55 5 200 90 100 305 315 Beispiel 4.12: Die Reinigungsfirma "Sauber" hat sich auf Autobahnraststätten spezialisiert. Der Firmenchef möchte einen neuen Standort für die Reinigungsfirma finden, der die minimalen Anfahrtswege zu den Raststätten aufweist. Bei der Standortfindung sind zwei Feststellungen zu beachten: Jeder Reinigungstrupp trifft sich am Sitz der Reinigungsfirma, fährt jeweils eine Raststätte an und beendet die Tätigkeit am Sitz der Reinigungsfirma. Jede Raststätte wird gleich häufig – nämlich einmal pro Tag – gereinigt. Die Raststätten R1 und R 5 bilden jeweils die beiden äußeren Punkte. Die Entfernung zu R1 beträgt bei R 2 50 km, bei R 3 110 km, bei R 4 155 km und bei R 5 200 km. R1 R2 0 50 R3 100 R4 150 R5 200 x Median der Entfernung von R1 : Geordnete Reihe: x 1 0 , x 2 50 , x 3 110 , x 4 155 , x 5 200 n=5 (ungerade), deshalb muss nicht gemittelt werden. x x n 1 x 5 1 x 6 x (3) 110km . ~ 2 2 2 Bei R 3 , also 110 km entfernt von R 1, muss der Sitz der Firma errichtet werden, um die Fahrtwege zu minimieren.