Datenanalyse 4: Kennzahlen, Boxplot BMZ, Mathematik • • T. Hunziker, dipl. math., dipl. ML DA4 www.hunziker.jimdo.com 2016 Hilfsmittel: Taschenrechner, gelbes Formelblatt Resultate wenn nötig auf 2 Nachkommastellen runden. Robustheit Eine Kennzahl wird als robust bezeichnet, wenn das Verändern, Hinzufügen oder Weglassen einer einzelnen (extremen) Beobachtung ihren Wert nicht stark beeinflusst. Mittelwert x = Der Mittelwert x der Stichprobe x1, x2, …, xn ist der Durchschnittswert: x1 + x 2 + ... + x n n Minimum, Maximum, Spannweite Das Minimum xmin eines Datensatzes ist die kleinste auftretende Zahl. Das Maximum xmax eines Datensatzes ist die grösste auftretende Zahl. Die Spannweite SW eines Datensatzes ist die Differenz zwischen Maximum und Minimum: x max − xmin Modus Der Modus (Modalwert) xmod ist diejenige Ausprägung, welche in der Stichprobe am häufigsten vorkommt. Der Modus wird oft bei nicht-quantitativen Daten benutzt. Median, Quartile, Interquartilsabstand, Boxplot x einer geordneten Stichprobe ist der Wert, der an der mittleren Stelle steht. Der Median (Zentralwert) ~ Ist der Stichprobenumfang n eine gerade Zahl, ist der Median der Durchschnitt der beiden in der Mitte liegenden Werte. Quartile zerlegen eine sortierte Datenreihe in vier (annähernd) gleich grosse Abschnitte. 1. Das erste Quartil Q1 teilt die geordnete Datenreihe in das untere Viertel und das obere Dreiviertel. 2. Das zweite Quartil Q2 ist der Median (siehe oben) 3. Das dritte Quartil Q3 teilt die geordnete Datenreihe in das untere Dreiviertel und das obere Viertel. Berechnung von Q1 und Q3 (Voraussetzung: man hat eine geordnete Stichprobe von n Zahlen): Teile n durch 4, runde wenn nötig auf die nächste ganze Zahl auf. Nenne die erhaltene Zahl p. >> Q1 steht an der p-ten Stelle von links, Q3 steht an der p-ten Stelle von rechts! Der Interquartilsabstand IQR einer Stichprobe ist der Abstand zwischen dem ersten und dem dritten Quartil: IQR = Q3 − Q1. In einem Boxplot werden folgende fünf Kennzahlen auf einer horizontalen oder vertikalen Achse abgetragen: Minimum, erstes Quartil Q1, Median (=Q2), drittes Quartil Q3, Maximum Standardabweichung (englisch: standard deviation) Die Standardabweichung SD der Stichprobe x1, x2, …, xn ist wie folgt definiert: SD = √ 2 2 2 (x 1− x ) + ( x 2− x) + ... + ( x n−x ) n−1 Die Standardabweichung ist ein wichtiges Mass für die mittlere Abweichung vom Mittelwert. Statistik auf dem Taschenrechner TI-30 ECO RS TI-30X IIS Statistikmodus aktivieren: nicht nötig 2nd Daten eingeben: Zahl eingeben, dann Σ+ DATA , Zahl eingeben, dann 2x Pfeil nach unten STAT , dann 1-VAR auswählen Stichprobenumfang n: 2nd EE STATVAR , dann n wählen Mittelwert x : 2nd x2 STATVAR , dann x wählen Standardabweichung SD: 2nd √x (= σxn−1) STATVAR , dann Sx wählen Für alle anderen statistischen Kennzahlen gibt es keine Taschenrechnerfunktion! Aufgabe 1 Auf dem Blatt DA2 haben Sie einige Fragen zum Beispiel „Smartphone“ (Blatt DA1) beantwortet. Welche statistischen Grössen haben Sie dort angegeben? Frage statistische Grösse a) „Wie viele Lernende wurden befragt?“ (Antwort: 21) Stichprobenumfang b) „Welches ist die kleinste, welches die grösste erfasste Zahl?“ (Antworten:2h, 25h) Minimum / Maximum c) „Wie gross ist der Durchschnitt aller erfassten Zeiten?“ (Antwort: 14.19 h) Mittelwert d) „Welche Zeit liegt so, dass es gleich viele kleinere wie grössere Zeiten gibt?“ (Antwort: 15 h) Median Aufgabe 2 Der Lehrer Hunziker macht eine Matheprüfung. Die Noten der Klasse 1A sind: 3.9, 4.3, 4.1, 5.3, 4.5, 3.1, 3.4, 4.9, 4.7, 4.0, 4.3, 4.2, 3.5, 5.0, 4.0, 5.6, 4.8 a) Bilden Sie aus der obigen Urliste eine geordnete Stichprobe: 3.1 3.4 3.5 3.9 4.0 4.0 4.1 4.2 4.3 4.3 4.5 4.7 4.8 4.9 5.0 5.3 5.6 b) Bestimmen Sie das Minimum, das Maximum, die Spannweite und den Median des Datensatzes: ~ x = 4.3 xmin = 3.1 xmax = 5.6 SW = 2.5 c) Berechnen Sie mithilfe der Statistikfunktion Ihres Taschenrechners den Mittelwert x und die Standardabweichung σ des Datensatzes. Runden Sie auf zwei Nachkommastellen. x = 4.33 σ= 0.67 Aufgabe 3 Auf dem Blatt DA2 haben Sie in der Aufgabe 3 Pulsfrequenzen von Feld- und Ersatzspielerinnen eines Volleyballspiels in einem Streifenplot dargestellt. Bestimmen Sie für beide Gruppen je den Median, den Mittelwert und die Standardabweichung (Genauigkeit: 2 Nachkommastellen). Hier nochmals die Daten: Feld: 144, 156, 128, 132, 116, 140 geordnet: 116, 128, 132, 140, 144, 156 ~ x = 132+140 = 136 x =136 σ= 13.86 ~ x = 96 x =94.4 σ= 20.71 2 Bank: 64, 104, 88, 120, 96 geordnet: 64, 88, 96, 104, 120 Aufgabe 4 Zum Beispiel „Smartphone“ (siehe DA1, Beispiel 1): geordnete Stichprobe: 2 2 5 6 8 9 9 12 12 12 15 16 17 18 19 19 21 21 25 25 25 n = 21 Median a) Bestimmen Sie Minimum, Maximum, Median, erstes und drittes Quartil, Interquartilsabstand. xmin = 2 xmax = 25 ~ x = 15 Q1 = 9 Q3 = 19 IQR = 10 (Berechnung von Q1 und Q3: teile den Stichprobenumfang 21 durch 4, ergibt 5.25. Aufrunden, ergibt 6. Dann steht Q1 in der Liste an der 6. Stelle von links, Q3 an der 6. Stelle von rechts.) b) Skizzieren Sie mit den in Aufgabe a) bestimmten Kennzahlen den Boxplot. xmin Q1 x Q3 xmax Aufgabe 5 Einer Spitalpatientin wird regelmässig die Körpertemperatur gemessen. Sobald der Mittelwert der letzten fünf Messungen unter 37.5° fällt, darf das fiebersenkende Medikament abgesetzt werden. Bei der vorletzten Messung machte der Pflegefachmann einen Fehler und schrieb eine Temperatur von 39.6° anstatt 36.9° ins Pflegeprotokoll. Mit Messfehler: Ohne Messfehler: 38.4 38.4 37.2 37.2 36.8 36.8 39.6 36.9 37.2 37.2 a) Bestimmen Sie von beiden Stichproben den Mittelwert und den Median. Mit Messfehler: Ohne Messfehler: Mittelwert 37.84 37.3 Median 37.2 37.2 b) Was zeigt dieses Beispiel? Das Beispiel zeigt, dass der Mittelwert anfällig auf Messfehler ist. Der Median ist deutlich robuster als der Mittelwert. Aufgabe 6 Wir betrachten das Beispiel „Lohn“ auf dem Blatt DA1 (Beispiel 12). Die Umfrage ergab folgende Stundenlöhne: 12 12 12 23 23 23 23 23 33 33 179 a) Bestimmen Sie den Mittelwert und den Median dieser Datenreihe Mittelwert: 36 Fr. Median: 23 Fr. b) Was zeigt dieses Beispiel? Das Beispiel zeigt, dass der Mittelwert anfällig auf Ausreisser ist. Der Median ist deutlich robuster als der Mittelwert. Aufgabe 7 Sie wollen mit einem E-Bike von Zürich nach Luzern fahren. Die Streckenlänge beträgt 53 km. Welches der beiden im Beispiel „E-Bike“ (Blatt DA1, Beispiel 9) beschriebenen Modelle wählen Sie für Ihre Velofahrt aus? Argumentieren Sie mithilfe von Kennzahlen. Einheit: km x ~ x SD IQR Modell A 54.87 55.05 1.69 1.95 Modell B 57.46 53.85 15.4 19.28 Obwohl der Mittelwert von Modell B über demjenigen von Modell A liegt, ist das Modell A zu bevorzugen. Die deutlich höhere Streuung der Reichweite von Modell B erhöht das Risiko, dass Sie den letzten Streckenteil mit der eigenen Beinarbeit bewältigen müssen. Aufgabe 8 Geben Sie ein Beispiel einer Stichprobe vom Umfang n mit der angegebenen Beziehung zwischen Mittelwert und Median an. a) n=3, x> ~ x 1 2 10 b) n=3, x<~ x 1 c) n=4, x >~ x 1 2 3 10 d) n=4, x <~ x 1 8 9 10 9 10 Aufgabe 9 Statistische Kennzahlen werden häufig mithilfe des Begriffs Robustheit charakterisiert. Kreuzen Sie an: robust nicht robust Mittelwert O O X Median, Quantile O X O Modus O X O Minimum, Maximum O Standardabweichung O O X O X Interquartilsabstand O X O Spannweite O O X Aufgabe 10 Bei 61 Mittelschülerinnen und Mittelschülern wurde die Körpergrösse in der Einheit Zentimeter in einer Strichliste erfasst. Da beim Erfassen der Daten nur eine Strichliste erstellt wurde, sind die exakten Körpergrössen nicht bekannt. Dennoch können Kennzahlen, wie z.B. der Mittelwert, näherungsweise rekonstruiert werden. a) Was kann man über den Median ~ x sowie die Quartile Q1 und Q3 sagen? Der Median muss im Intervall ]170; 180] liegen. Q1 muss ebenfalls im Intervall ]170; 180] liegen. Q3 muss im Intervall ]180; 190] liegen. b) Bestimmen Sie näherungsweise den Mittelwert x . Einheit: cm 1⋅145 + 2⋅155 + 10⋅165 + 23⋅175 + 19⋅185 + 6⋅195 = 177.3 61