Beschreibende Statistik Daten zusammenfassen: Statistische Kennzahlen im Vergleich 28. April 2009 Dr. Katja Krüger Universität Paderborn Grundlagen der Schulmathematik SoSe 2009 1 Inhalt ¾ Lagemaße L ß − Arithmetisches Mittel − Median − Mittelwerte im Vergleich ¾ Streuungsmaße − Spannweite und Quartile − Varianz und Standardabweichung ¾ Boxplot p 2 Statistische Kennzahlen als Überblickshilfe bei Massendaten sollen ll spezifische ifi h Eigenschaften Ei h f von HäufigkeitsH fi k i verteilungen kennzeichnen und deren Vergleich ermöglichen: ¾ Lagemaße geben Aufschluss über das „Zentrum“ einer Häufigkeitsverteilung. ¾ Streuungsmaße geben an, wie breit die Daten um das „Zentrum“ streuen. 3 Lagemaße – W Welcher l h W Wert tritt i am häufigsten h fi auf?→Modalwert f – Welcher Wert liegt im „Zentrum“? → Zentralwert, Median – Wo liegt der Durchschnitt? →arithmetisches Mittel Bei diesem Notenspiegel ( 20) iistt (n=20) − der Modalwert 2 − der Median 2,5 , − das arithmetische Mittel 2,9 4 Arithmetisches Mittel 5 Das arithmetische Mittel x Das arithmetische Mittel der Daten x1 , x2 ,,...,, xn ist der n - te Teil der Summe dieser Daten x1 + x2 + ... + xn 1 ⎛ n ⎞ x= = ⎜ ∑ xi ⎟ n n ⎝ i =1 ⎠ ¾ kann nur bei quantitativen Merkmalen verwendet werden ¾ braucht nicht als Beobachtungswert aufzutreten z.B. die mittlere Augenzahl g beim Würfeln f ((1+2+3+4+5+6):6 ) = 3,5 , ¾ lässt unterschiedliche anschauliche Deutungen zu - Ausgleichswert - Schwerpunktwert 6 x als Ausgleichswert Alle Werte werden auf ein Mittelmaß „zurechtgestutzt“ unter Erhaltung der Summe x 4 3 6 a b c x1 x2 2 d 5 x1 + x2 + ... + xn = n ⋅ x e x5 x 4 a b c d im Beispiel 4 + 3 + 6 + 2 + 5 = 5⋅ x e 7 x als Ausgleichswert Müller und Wittmann: Das Zahlenbuch 4. Cornelsen 2005, S. 108 8 x als Schwerpunkt Das arithmetische D ith ti h Mittel Mitt l gibt ibt den d Schwerpunkt der Häufigkeitsverteilung eines Merkmals an. Ein „Balken“ mit den Daten als Gewichte ist in der „Waage Waage“ , wenn er im arithmetischen Mittel fixiert wird. 0 1 2 3 4 5 6 7 9 Der Mittelwertabakus Wie viele Schüler wären bei möglichst gleichmäßiger Verteilung in jeder Klasse? (Spiegel in Mathematik lehren (1985), S. 16f.) 23 24 25 26 27 28 29 Klassengröße 30 31 32 33 23 24 25 26 27 28 29 Klassengröße 30 31 32 33 23 24 25 26 27 28 29 Klassengröße 30 31 32 33 27,5 10 Das arithmetische Mittel ist empfindlich gegen „Ausreißer“. 26 28 30 32 Klassengröße 34 36 38 28 30 32 Klassengröße 34 36 38 aMittel ( ) = 27,5 26 aMittel ( ) = 28 11 Eigenschaften g des arithmetischen Mittels (Beweise werden an der Tafel geführt) 1 1. Schwerpunkteigenschaft: S h kt i h ft Di Die Summe S aller ll Ab Abweichungen i h der Daten xi von ihrem arithmetischen Mittel ist 0. ( x1 − x) + ( x2 − x) + ... + ( xn − x) = 0 2. Minimumseigenschaft: Die Summe der quadratischen Ab i h Abweichungen aller ll D Daten t von ih ihrem arithmetischen ith ti h Mittel ist ein Minimum. ( x1 − x) 2 + ... + ( xn − x) 2 < ( x1 − c) 2 + ... + ( xn − c) 2 , c ∈ IR, c ≠ x 12 Näherungsweise Bestimmung des arithmetischen Mittels mit Hilfe des Klassenmittels bei gruppierten Daten G h lt t ti tik eines Gehaltsstatistik i B Betriebes ti b G h lt t ti tik eines Gehaltsstatistik i B Betriebes ti b Gehaltsklassen Anzahl der Mitarbeiter Gehaltsklassen Anzahl der Mitarbeiter [1000 € ; 1400 €) 8 [1000 € ; 1400 €) 8 [1400 € ; 1600 €) 10 [1400 € ; 2600 €) 10 [1600 € ; 1800 €) 10 [1600 € ; 1800 €) 10 [1800 € ; 2000 €) 10 [1800 € ; 3000 €) 12 [2000 € ; 3000 €) 2 x≈ 1 (8 ⋅1200 + 10 ⋅1500 + 10 ⋅1700 + 10 ⋅1900 + 2 ⋅ 2500) ≈ 1640 40 1 x ≈ (8 ⋅ 1200 + 10 ⋅ 1500 + 10 ⋅ 1700 + 12 ⋅ 2400 ) ≈ 1740 40 Vorsicht 13 Median 14 Median oder Zentralwert Der Median D M di oder d Z Zentralwert t l t iistt d dadurch d hf festgelegt, t l t d dass er in der Mitte einer der Größe nach geordneten Datenreihe liegt: x ≤ x ≤ ... ≤ ~ x ≤ ... ≤ x ≤x (1) (2 ) ( n −1) (n ) x⎛ n +1 ⎞ falls n ungerade g ⎧ ⎜ ⎟ ⎪ ⎝ 2 ⎠ ⎪ ~ x = ⎨1 ⎛ ⎞ ⎜ gerade ⎪ x⎛ n ⎞ + x⎛ n ⎞ ⎟ falls n g ⎜ ⎟ ⎪⎩ 2 ⎝ ⎜⎝ 2 ⎟⎠ ⎜⎝ 2 +1⎟⎠ ⎠ ¾ Höchstens die Hälfte der Daten ist kleiner (größer) als der Median. ¾ Z Zur Bestimmung B stimm d dess M Medians di s werden d m metrisch t is h oder d ordinal-skalierte di l sk li t Merkmale benötigt. 15 Der Median ist unempfindlich p gegen „Ausreißer“ 26 28 30 32 Klassengröße 34 36 38 28 30 32 Klassengröße 34 36 38 27,5 5 Median ( ) = 27 26 Median ( ) = 27,5 16 Minimumseigenschaft des Medians Die Summe der Di d absoluten b l Abweichungen b i h aller ll Daten vom Median ist ein Minimum: x1 − ~ x + ... + xn − ~ x < x1 − c + ... + xn − c , c ∈ IR, c ≠ ~ x W Warum gilt l diese d Eigenschaft? E h f x(1) x(2) x(3) x(4) x(5) x(6) Median Bei einer Verschiebung der Marke c nach rechts werden die fünf Abstände zu x(2),…, x(5) um jeweils den gleichen Betrag kleiner, um den der Abstand zu x(1) zunimmt. W Wenn c sich i h zwischen i h x(3) und d x(4) bewegt, b d dann bl bleibt ib di die Summe der absoluten Abweichungen konstant. 17 Mitt l rt im Vergleich Mittelwerte V r l ich 18 Welches Lagemaß verwenden? M k l Merkmal qualitativ lit ti qualitativ lit ti quantitativ tit ti Skala Nominalskala Ordinalskala Metrische Skala Mittelwert •Modalwert •Modalwert •Median •Modalwert •Median •Arithmetisches Mittel 19 Vergleich von Mittelwerten ¾ B Beide id Verteilungen V t il h haben b d das selbe arithmetische Mittel 3 jjedoch unterschiedliche Mediane 2,5 und 3 ¾ B Beii symmetrischen, t i h eingipfligen (unimodalen) Verteilungen stimmen arithmetisches Mittel und Median überein. ¾ Bei schiefen Verteilungen ist der Median verschieden vom arithmetischen ith ti h Mittel. Mitt l 20 Alter von HR –Lehramtsstudierenden (Vorlesung im 6. Semester SoSe 2008 in Ffm) Histogramm Kollektion Stochastik SI 50 40 30 22 23¼ 20 10 18 20 22 24 26 28 30 Alter 32 34 36 38 40 21 Lagemaße bei schiefen Verteilungen Häufigkeitsverteilungen H fi k it t il k können unterschiedliche t hi dli h F Formen h haben: b eingipflig (unimodal) oder mehrgipflig, symmetrisch, rechtsschief f oder linksschief. f xmod < ~ x<x x<~ x < xmod ¾ Fasst man Datensätze durch Lagemaße zusammen, so verliert man Informationen über die Verteilungsform g und die Streuung der Daten. 22 Beispiel: p Durchschnittliches und Außergewöhnliches beim Wetter 23 Ermittlung von Tagesdurchschnittstemperaturen „Die Mittelwerte werden aus den jeweiligen Wetterstationen … ermittelt. Abgesehen von den Anfangsjahren der Messreihe wurde die Temperatur einheitlich in zwei Meter Höhe über Grund in der Englischen Hütte gemessen. Die Englische Hütte ist ein weiß angestrichener, ti h iin M Messhöhe höh angebrachter b ht K Kasten, t d der mit it Schlitzen zur Luftzirkulation versehen ist …. Die Ermittlung der Tagesdurchschnittstemperatur war im Beobachtungszeitraum nicht immer einheitlich, basiert aber fast durchgängig auf der Berechnung mit den Mannheimer Stunden. gewichtetes Dazu wird zu den Beobachtungszeiten um 7, 14 und 21 Uhr arithmetisches Ot Ortszeit it di die T Temperatur t ermittelt. itt lt Diese Di Messwerte M t werden d Mittell addiert, wobei der 21-Uhr-Wert doppelt in die Berechnung eingeht, und durch vier geteilt …. S it dem Seit d 1 1. A Aprilil 2001 wird i d di die T Tagesmitteltemperatur itt lt t aus 24 24Stunden-Sätzen ermittelt.“ http://de.wikipedia.org/wiki/Zeitreihe_der_Lufttemperatur_in_Deutschland (Zugriff: 15.4.08) 24 Mittlere Jahrestemperatur in Deutschland „gleitende“ Mittelwerte http://de.wikipedia.org/wiki/Zeitreihe_der_Lufttemperatur_ in_Deutschland (Zugriff: 15.4.08) 25 Klimaänderung (Meteorologisches) Klima: Statistische Beschreibung der Wetterelemente über eine relativ lange Zeit. Diese Zeit hat die WMO willkürlich aber praktikabel auf mindestens 30 Jahre festgelegt festgelegt. Lufttemperatur, Luftfeuchte, Sonnenschein, Bewölkung, Niederschlag und Wind „Kern der statistischen Beschreibung ist die Häufigkeitsverteilung der Wetterelemente … Sie wird durch den Mittelwert und die Streuung charakterisiert. Allerdings gibt es außer der … gezeigten „Normalverteilung“ noch kompliziertere (z.B. asymmetrische) Verteilungen, die beispielsweise auf den Niederschlag anzuwenden sind, …“ Schönwiese: Globaler und regionaler Klimawandel. Eine aktuelle wissenschaftliche Übersicht. www.geo.uni-frankfurt.de/iau/klima/ 26 Streuungsmaße 27 Ein Mensch, der von Statistik hört, denkt dabei nur an Mittelwert. Er glaubt nicht dran und ist dagegen, ein Beispiel soll es gleich belegen: Ein Jäger Ei J auf f der d E Entenjagd j d hat einen ersten Schuss gewagt. Der Schuss, zu hastig aus dem Rohr, l eine lag i gute t H Handbreit db it vor. Der zweite Schuss mit lautem Krach lag g eine gute g Handbreit nach. Der Jäger spricht ganz unbeschwert voll Glauben an den Mittelwert: Statistisch ist die Ente tot. Doch wär‘ er klug und nähme Schrot - dies sei gesagt, ihn zu bekehren es würde seine Chancen mehren: Der Schuss geht ab, die Ente stürzt, weil Streuung ihr das Leben kürzt. P H List P.H. zitiert nach Henze 2008, S. 33 28 Streuung messen Unter Streuung in U i einer i Datenreihe D ih x1, x2, … , xn versteht man allgemein die Abweichungen der Daten untereinander oder vom jeweiligen Mittelwert. 29 Spannweite Die Spannweite Di i wird i d als l Diff Differenz zwischen i h d dem größten und den kleinsten Merkmalswert in einer Datenreihe definiert. definiert Spannweite = x(max) - x(min) 30 Quartilsabstand Durch die Quartile (Viertelwerte) wird ein Intervall festgelegt, in dem die mittleren 50 % aller Daten liegen. Der Quartilsabstand ist definiert als Differenz aus dem oberen und unterem Q Quartil: Q3/4 - Q1/4 . Q1/4 Q3/4 Quartilsabstand = Q3/4 - Q1/4 ¾ Mindestens 25% der Daten sind kleiner oder gleich Q1/4 und mindestens 75% der Daten sind größer oder gleich Q1/4 31 Streuungsmaße im Überblick 11. 2. 3 3. Spannweite S it = x(max) - x(min) Quartilsabstand = Q3/4 - Q1/4 Mi l Mittlere quadratische d i h Ab Abweichung i h vom arithmetischen Mittel 2 ( x1 − x) + ... + ( xn − x) n 4. 2 Mittlere absolute Abweichung vom Median x1 − ~ x + ... + xn − ~ x n 32 Varianz und Standardabweichung Varianz der Datenreihe x1 ,..., xn mit Mittelwert x 1 n 2 s = ∑ ( xi − x ) n i =1 Standardabweichung der Datenreihe 2 1 n 2 ( ) x − x s= ∑ i n i =1 Durch das Quadieren werden positive und negative Abweichungen der Daten vom arithmetischen Mittel in gleicher l h Weise W berücksichtigt. b k h 33 Standardabweichung g verschiedene Häufigkeitsverteilungen mit gleichem arith. Mittel s= sr ≈ 1,09 1 09 r 1 ∑H n n i =1 (ai )(ai − x ) 2 sg ≈ 1,79 1 79 34 Deutung der Standardabweichung s bei glockenförmigen Verteilungen Bei diesen beiden annähernd glockenglocken förmigen Verteilungen liegen im Bereich [x-s ;x+s] rund 70% der Daten. Ineichen: Stochastik. Vandenhoeck & Ruprecht 1984, S. 133 35 Sigmaregel(n) g g ( ) für die Normalverteilung g (Gaußsche Glockenkurve) f (x ) = 1 ⋅e 2π − ( x− x )2 2s 2 Ineichen: Stochastik. Vandenhoeck & Ruprecht 1984, S. 20 36 Vergleich g von Verteilungen g mit dem Boxplot 37 Einfacher Box-Plot (Länge in km) Einteilung in vier Viertel Welche Information über die Länge der Schweizer Alpenpässe kann man aus dem Boxplot p entnehmen? Polasek: Explorative Datenanalyse. Springer 1994, S. 52 38 Name Höhe Länge g Umbrail 2503 14 Bernardino 2066 17 Sattelegg 1190 17 C ld l F l Col de la Forclaz 1527 21 Albula 2312 24 Flüela 2383 26 St. Gotthard 2108 27 Brünig 1007 28 Col Pillon 1545 31 Furka 2436 31 Grimsel 2165 31 Col des Mosses 1445 32 Oberalp 2045 32 Ofenpass 2149 36 Bernina 2328 37 Nufenen 2478 37 Lukmanier 1941 41 Julier 2284 44 Klausenpass 1940 45 Susten 2224 45 Maloja 1815 49 Simplon 2005 64 St. Bernard 2473 87 Schweizer Alpenpassstraßen Daten aus Polasek (1994), S. 50 39 Punktierter Box-Plot Box Plot (nach Tukey) 1,5*Quartilsabstand Die Antennen werden bis zum letzten Datenwert innerhalb der „Zäune“ gezeichnet Quartilsabstand Polasek: Explorative Datenanalyse. Springer 1994, S. 55 40 Boxplot p in einem Schulbuch der Sek I Neue Wege 7, Hessen. Schroedel 2007, S. 229 41 42 Vergleich g von Notenspiegeln p g verschiedener Klassen (Notendurchschnitt 3,0) 9 9 8 8 7 7 6 6 5 5 4 4 3 3 2 2 1 1 0 0 1 2 3 4 5 1 6 2 3 4 5 6 0,4 9 0,35 , 8 0,3 rel. Häufigkeit 7 6 5 4 3 2 0,25 0,2 0,15 0,1 1 0,05 0 1 2 3 4 5 6 0 1 2 3 4 5 6 43 Vergleich von Notenspiegeln mit dem Boxplot 9 8 7 6 5 4 3 2 1 0 1 2 3 4 5 0 6 1 2 3 Note_rot 4 5 6 9 8 Halbiert der Median die Box und sind die Antennen etwa gleich lang, dann beschreibt der p eine Boxplot symmetrische Häufigkeitsverteilung. g 7 6 Rechtsschiefe Verteilung 5 4 3 2 1 0 0 1 2 3 4 5 6 1 2 3 4 Note_gelb 5 6 44 Vergleich von Notenspiegeln mit dem Boxplot 9 8 7 6 5 4 3 Gleicher Boxplot trotz unterschiedlicher Verteilungsform 2 1 0 1 2 3 4 5 6 9 8 0 7 1 2 3 Note_rot 4 5 6 6 5 4 3 2 1 0 1 2 3 4 5 6 45