Datenanalyse 4: Kennzahlen, Boxplot DA4

Werbung
Datenanalyse 4: Kennzahlen, Boxplot
BMZ, Mathematik
•
•
T. Hunziker, dipl. math., dipl. ML
DA4
www.hunziker.jimdo.com
2016
Hilfsmittel: Taschenrechner, gelbes Formelblatt
Resultate wenn nötig auf 2 Nachkommastellen runden.
Robustheit
Eine Kennzahl wird als robust bezeichnet, wenn das Verändern, Hinzufügen oder Weglassen einer
einzelnen (extremen) Beobachtung ihren Wert nicht stark beeinflusst.
Mittelwert
x =
Der Mittelwert x der Stichprobe x1, x2, …, xn ist der Durchschnittswert:
x1 + x 2 + ... + x n
n
Minimum, Maximum, Spannweite
Das Minimum xmin eines Datensatzes ist die kleinste auftretende Zahl.
Das Maximum xmax eines Datensatzes ist die grösste auftretende Zahl.
Die Spannweite SW eines Datensatzes ist die Differenz zwischen Maximum und Minimum: x max − xmin
Modus
Der Modus (Modalwert) xmod ist diejenige Ausprägung, welche in der Stichprobe am häufigsten
vorkommt. Der Modus wird oft bei nicht-quantitativen Daten benutzt.
Median, Quartile, Interquartilsabstand, Boxplot
x einer geordneten Stichprobe ist der Wert, der an der mittleren Stelle steht.
Der Median (Zentralwert) ~
Ist der Stichprobenumfang n eine gerade Zahl, ist der Median der Durchschnitt der beiden in der Mitte
liegenden Werte.
Quartile zerlegen eine sortierte Datenreihe in vier (annähernd) gleich grosse Abschnitte.
1. Das erste Quartil Q1 teilt die geordnete Datenreihe in das untere Viertel und das obere Dreiviertel.
2. Das zweite Quartil Q2 ist der Median (siehe oben)
3. Das dritte Quartil Q3 teilt die geordnete Datenreihe in das untere Dreiviertel und das obere Viertel.
Berechnung von Q1 und Q3 (Voraussetzung: man hat eine geordnete Stichprobe von n Zahlen):
Teile n durch 4, runde wenn nötig auf die nächste ganze Zahl auf. Nenne die erhaltene Zahl p.
>> Q1 steht an der p-ten Stelle von links, Q3 steht an der p-ten Stelle von rechts!
Der Interquartilsabstand IQR einer Stichprobe ist der Abstand zwischen dem ersten und dem dritten
Quartil: IQR = Q3 − Q1.
In einem Boxplot werden folgende fünf Kennzahlen
auf einer horizontalen oder vertikalen Achse
abgetragen:
Minimum, erstes Quartil Q1, Median (=Q2),
drittes Quartil Q3, Maximum
Standardabweichung (englisch: standard deviation)
Die Standardabweichung SD der Stichprobe x1, x2, …, xn ist wie folgt definiert:
SD
=
√
2
2
2
(x 1− x ) + ( x 2− x) + ... + ( x n−x )
n−1
Die Standardabweichung ist ein wichtiges Mass für die mittlere Abweichung vom Mittelwert.
Statistik auf dem Taschenrechner
TI-30 ECO RS
TI-30X IIS
Statistikmodus aktivieren:
nicht nötig
2nd
Daten eingeben:
Zahl eingeben, dann Σ+
DATA , Zahl eingeben, dann 2x Pfeil nach unten
STAT , dann 1-VAR auswählen
Stichprobenumfang n:
2nd
EE
STATVAR , dann n wählen
Mittelwert x :
2nd
x2
STATVAR , dann x wählen
Standardabweichung SD:
2nd
√x
(= σxn−1)
STATVAR , dann Sx wählen
Für alle anderen statistischen Kennzahlen gibt es keine Taschenrechnerfunktion!
Aufgabe 1
Auf dem Blatt DA2 haben Sie einige Fragen zum Beispiel „Smartphone“ (Blatt DA1) beantwortet.
Welche statistischen Grössen haben Sie dort angegeben?
Frage
statistische Grösse
a) „Wie viele Lernende wurden befragt?“ (Antwort: 21)
Stichprobenumfang
b) „Welches ist die kleinste, welches die grösste erfasste Zahl?“ (Antworten:2h, 25h)
Minimum / Maximum
c) „Wie gross ist der Durchschnitt aller erfassten Zeiten?“ (Antwort: 14.19 h)
Mittelwert
d) „Welche Zeit liegt so, dass es gleich viele kleinere wie grössere Zeiten gibt?“ (Antwort: 15 h)
Median
Aufgabe 2
Der Lehrer Hunziker macht eine Matheprüfung. Die Noten der Klasse 1A sind:
3.9, 4.3, 4.1, 5.3, 4.5, 3.1, 3.4, 4.9, 4.7, 4.0, 4.3, 4.2, 3.5, 5.0, 4.0, 5.6, 4.8
a) Bilden Sie aus der obigen Urliste eine geordnete Stichprobe:
3.1 3.4 3.5 3.9 4.0 4.0 4.1 4.2 4.3 4.3 4.5 4.7 4.8 4.9 5.0 5.3 5.6
b) Bestimmen Sie das Minimum, das Maximum, die Spannweite und den Median des Datensatzes:
~
x = 4.3
xmin = 3.1
xmax = 5.6
SW = 2.5
c) Berechnen Sie mithilfe der Statistikfunktion Ihres Taschenrechners den Mittelwert x und die
Standardabweichung σ des Datensatzes. Runden Sie auf zwei Nachkommastellen.
x =
4.33
σ=
0.67
Aufgabe 3
Auf dem Blatt DA2 haben Sie in der Aufgabe 3 Pulsfrequenzen von Feld- und Ersatzspielerinnen eines
Volleyballspiels in einem Streifenplot dargestellt. Bestimmen Sie für beide Gruppen je den Median, den
Mittelwert und die Standardabweichung (Genauigkeit: 2 Nachkommastellen). Hier nochmals die Daten:
Feld: 144, 156, 128, 132, 116, 140
geordnet: 116, 128, 132, 140, 144, 156
~
x
= 132+140 = 136
x =136
σ=
13.86
~
x
= 96
x =94.4
σ=
20.71
2
Bank: 64, 104, 88, 120, 96
geordnet: 64, 88, 96, 104, 120
Aufgabe 4
Zum Beispiel „Smartphone“ (siehe DA1, Beispiel 1):
geordnete Stichprobe: 2 2 5 6 8 9 9 12 12 12 15 16 17 18 19 19 21 21 25 25 25
n = 21
Median
a) Bestimmen Sie Minimum, Maximum, Median, erstes und drittes Quartil, Interquartilsabstand.
xmin = 2
xmax = 25
~
x
= 15
Q1 = 9
Q3 = 19
IQR = 10
(Berechnung von Q1 und Q3: teile den Stichprobenumfang 21 durch 4, ergibt 5.25. Aufrunden,
ergibt 6. Dann steht Q1 in der Liste an der 6. Stelle von links, Q3 an der 6. Stelle von rechts.)
b) Skizzieren Sie mit den in Aufgabe a) bestimmten Kennzahlen den Boxplot.
xmin
Q1
x
Q3
xmax
Aufgabe 5
Einer Spitalpatientin wird regelmässig die Körpertemperatur gemessen. Sobald der Mittelwert der
letzten fünf Messungen unter 37.5° fällt, darf das fiebersenkende Medikament abgesetzt werden. Bei
der vorletzten Messung machte der Pflegefachmann einen Fehler und schrieb eine Temperatur von
39.6° anstatt 36.9° ins Pflegeprotokoll.
Mit Messfehler:
Ohne Messfehler:
38.4
38.4
37.2
37.2
36.8
36.8
39.6
36.9
37.2
37.2
a) Bestimmen Sie von beiden Stichproben den Mittelwert und den Median.
Mit Messfehler:
Ohne Messfehler:
Mittelwert
37.84
37.3
Median
37.2
37.2
b) Was zeigt dieses Beispiel?
Das Beispiel zeigt, dass der Mittelwert anfällig auf Messfehler ist.
Der Median ist deutlich robuster als der Mittelwert.
Aufgabe 6
Wir betrachten das Beispiel „Lohn“ auf dem Blatt DA1 (Beispiel 12). Die Umfrage ergab folgende
Stundenlöhne:
12 12 12 23 23 23 23 23 33 33 179
a) Bestimmen Sie den Mittelwert und den Median dieser Datenreihe
Mittelwert: 36 Fr.
Median: 23 Fr.
b) Was zeigt dieses Beispiel?
Das Beispiel zeigt, dass der Mittelwert anfällig auf Ausreisser ist.
Der Median ist deutlich robuster als der Mittelwert.
Aufgabe 7
Sie wollen mit einem E-Bike von Zürich nach Luzern fahren. Die Streckenlänge beträgt 53 km.
Welches der beiden im Beispiel „E-Bike“ (Blatt DA1, Beispiel 9) beschriebenen Modelle wählen Sie für
Ihre Velofahrt aus? Argumentieren Sie mithilfe von Kennzahlen.
Einheit: km
x
~
x
SD
IQR
Modell A
54.87
55.05
1.69
1.95
Modell B
57.46
53.85
15.4
19.28
Obwohl der Mittelwert von Modell B über demjenigen von Modell A liegt, ist das
Modell A zu bevorzugen. Die deutlich höhere Streuung der Reichweite von Modell B
erhöht das Risiko, dass Sie den letzten Streckenteil mit der eigenen Beinarbeit
bewältigen müssen.
Aufgabe 8
Geben Sie ein Beispiel einer Stichprobe vom Umfang n mit der angegebenen Beziehung zwischen
Mittelwert und Median an.
a) n=3, x> ~
x
1 2 10
b) n=3, x<~
x
1
c) n=4, x >~
x
1 2 3 10
d) n=4, x <~
x
1 8 9 10
9 10
Aufgabe 9
Statistische Kennzahlen werden häufig mithilfe des Begriffs Robustheit charakterisiert.
Kreuzen Sie an:
robust
nicht robust
Mittelwert
O
O
X
Median, Quantile
O
X
O
Modus
O
X
O
Minimum, Maximum
O
Standardabweichung
O
O
X
O
X
Interquartilsabstand
O
X
O
Spannweite
O
O
X
Aufgabe 10
Bei 61 Mittelschülerinnen und Mittelschülern wurde die Körpergrösse in der Einheit Zentimeter
in einer Strichliste erfasst.
Da beim Erfassen der Daten nur eine Strichliste erstellt wurde, sind die exakten Körpergrössen nicht
bekannt. Dennoch können Kennzahlen, wie z.B. der Mittelwert, näherungsweise rekonstruiert werden.
a) Was kann man über den Median ~
x sowie die Quartile Q1 und Q3 sagen?
Der Median muss im Intervall ]170; 180] liegen.
Q1 muss ebenfalls im Intervall ]170; 180] liegen.
Q3 muss im Intervall ]180; 190] liegen.
b) Bestimmen Sie näherungsweise den Mittelwert x .
Einheit: cm
1⋅145 + 2⋅155 + 10⋅165 + 23⋅175 + 19⋅185 + 6⋅195
= 177.3
61
Herunterladen