Vorlesung vom 28.04.2009

Werbung
Beschreibende Statistik
Daten zusammenfassen:
Statistische Kennzahlen im Vergleich
28. April 2009
Dr. Katja Krüger
Universität Paderborn
Grundlagen der Schulmathematik
SoSe 2009
1
Inhalt
¾ Lagemaße
L
ß
− Arithmetisches Mittel
− Median
− Mittelwerte im Vergleich
¾ Streuungsmaße
− Spannweite und Quartile
− Varianz und Standardabweichung
¾ Boxplot
p
2
Statistische Kennzahlen
als Überblickshilfe bei Massendaten
sollen
ll spezifische
ifi h Eigenschaften
Ei
h f
von HäufigkeitsH fi k i
verteilungen kennzeichnen und deren Vergleich
ermöglichen:
¾ Lagemaße geben Aufschluss über das „Zentrum“ einer
Häufigkeitsverteilung.
¾ Streuungsmaße geben an, wie breit die Daten um das „Zentrum“
streuen.
3
Lagemaße
– W
Welcher
l h W
Wert tritt
i am häufigsten
h fi
auf?→Modalwert
f
– Welcher Wert liegt im „Zentrum“? → Zentralwert, Median
– Wo liegt der Durchschnitt? →arithmetisches Mittel
Bei diesem Notenspiegel
( 20) iistt
(n=20)
− der Modalwert 2
− der Median 2,5
,
− das arithmetische Mittel 2,9
4
Arithmetisches Mittel
5
Das arithmetische Mittel
x
Das arithmetische Mittel der Daten x1 , x2 ,,...,, xn ist
der n - te Teil der Summe dieser Daten
x1 + x2 + ... + xn 1 ⎛ n ⎞
x=
= ⎜ ∑ xi ⎟
n
n ⎝ i =1 ⎠
¾ kann nur bei quantitativen Merkmalen verwendet werden
¾ braucht nicht als Beobachtungswert aufzutreten
z.B. die mittlere Augenzahl
g
beim Würfeln
f
((1+2+3+4+5+6):6
) = 3,5
,
¾ lässt unterschiedliche anschauliche Deutungen zu
- Ausgleichswert
- Schwerpunktwert
6
x als Ausgleichswert
Alle Werte werden auf ein
Mittelmaß „zurechtgestutzt“ unter
Erhaltung der Summe
x
4
3
6
a
b
c
x1
x2
2
d
5
x1 + x2 + ... + xn = n ⋅ x
e
x5
x
4
a
b
c
d
im Beispiel
4 + 3 + 6 + 2 + 5 = 5⋅ x
e
7
x als Ausgleichswert
Müller und Wittmann: Das Zahlenbuch 4.
Cornelsen 2005, S. 108
8
x als Schwerpunkt
Das arithmetische
D
ith ti h Mittel
Mitt l gibt
ibt den
d
Schwerpunkt der Häufigkeitsverteilung eines Merkmals an.
Ein „Balken“ mit den Daten als
Gewichte ist in der „Waage
Waage“ ,
wenn er im arithmetischen Mittel
fixiert wird.
0
1
2
3
4
5
6
7
9
Der Mittelwertabakus
Wie viele Schüler wären bei möglichst gleichmäßiger Verteilung in jeder Klasse?
(Spiegel in Mathematik lehren (1985), S. 16f.)
23
24
25
26
27
28
29
Klassengröße
30
31
32
33
23
24
25
26
27
28
29
Klassengröße
30
31
32
33
23
24
25
26
27
28
29
Klassengröße
30
31
32
33
27,5
10
Das arithmetische Mittel ist
empfindlich gegen „Ausreißer“.
26
28
30
32
Klassengröße
34
36
38
28
30
32
Klassengröße
34
36
38
aMittel ( ) = 27,5
26
aMittel ( ) = 28
11
Eigenschaften
g
des arithmetischen Mittels
(Beweise werden an der Tafel geführt)
1
1.
Schwerpunkteigenschaft:
S
h
kt i
h ft Di
Die Summe
S
aller
ll Ab
Abweichungen
i h
der Daten xi von ihrem arithmetischen Mittel ist 0.
( x1 − x) + ( x2 − x) + ... + ( xn − x) = 0
2.
Minimumseigenschaft: Die Summe der quadratischen
Ab i h
Abweichungen
aller
ll D
Daten
t von ih
ihrem arithmetischen
ith ti h
Mittel ist ein Minimum.
( x1 − x) 2 + ... + ( xn − x) 2 < ( x1 − c) 2 + ... + ( xn − c) 2 , c ∈ IR, c ≠ x
12
Näherungsweise Bestimmung des arithmetischen Mittels
mit Hilfe des Klassenmittels bei gruppierten Daten
G h lt t ti tik eines
Gehaltsstatistik
i
B
Betriebes
ti b
G h lt t ti tik eines
Gehaltsstatistik
i
B
Betriebes
ti b
Gehaltsklassen
Anzahl der
Mitarbeiter
Gehaltsklassen
Anzahl der
Mitarbeiter
[1000 € ; 1400 €)
8
[1000 € ; 1400 €)
8
[1400 € ; 1600 €)
10
[1400 € ; 2600 €)
10
[1600 € ; 1800 €)
10
[1600 € ; 1800 €)
10
[1800 € ; 2000 €)
10
[1800 € ; 3000 €)
12
[2000 € ; 3000 €)
2
x≈
1
(8 ⋅1200 + 10 ⋅1500 + 10 ⋅1700 + 10 ⋅1900 + 2 ⋅ 2500) ≈ 1640
40
1
x ≈ (8 ⋅ 1200 + 10 ⋅ 1500 + 10 ⋅ 1700 + 12 ⋅ 2400 ) ≈ 1740
40
Vorsicht
13
Median
14
Median oder Zentralwert
Der Median
D
M di oder
d Z
Zentralwert
t l
t iistt d
dadurch
d
hf
festgelegt,
t l t d
dass er
in der Mitte einer der Größe nach geordneten Datenreihe
liegt:
x ≤ x ≤ ... ≤ ~
x ≤ ... ≤ x
≤x
(1)
(2 )
( n −1)
(n )
x⎛ n +1 ⎞ falls n ungerade
g
⎧
⎜
⎟
⎪
⎝ 2 ⎠
⎪
~
x = ⎨1 ⎛
⎞
⎜
gerade
⎪ x⎛ n ⎞ + x⎛ n ⎞ ⎟ falls n g
⎜
⎟
⎪⎩ 2 ⎝ ⎜⎝ 2 ⎟⎠ ⎜⎝ 2 +1⎟⎠ ⎠
¾ Höchstens die Hälfte der Daten ist kleiner (größer) als der Median.
¾ Z
Zur Bestimmung
B stimm
d
dess M
Medians
di s werden
d m
metrisch
t is h oder
d ordinal-skalierte
di l sk li t
Merkmale benötigt.
15
Der Median ist unempfindlich
p
gegen „Ausreißer“
26
28
30
32
Klassengröße
34
36
38
28
30
32
Klassengröße
34
36
38
27,5
5
Median ( ) = 27
26
Median ( ) = 27,5
16
Minimumseigenschaft des Medians
Die Summe der
Di
d absoluten
b l
Abweichungen
b i h
aller
ll
Daten vom Median ist ein Minimum:
x1 − ~
x + ... + xn − ~
x < x1 − c + ... + xn − c , c ∈ IR, c ≠ ~
x
W
Warum
gilt
l diese
d
Eigenschaft?
E
h f
x(1)
x(2)
x(3)
x(4)
x(5)
x(6)
Median
Bei einer Verschiebung der Marke c nach rechts werden die
fünf Abstände zu x(2),…, x(5) um jeweils den gleichen Betrag
kleiner, um den der Abstand zu x(1) zunimmt.
W
Wenn
c sich
i h zwischen
i h x(3) und
d x(4) bewegt,
b
d
dann bl
bleibt
ib di
die
Summe der absoluten Abweichungen konstant.
17
Mitt l rt im Vergleich
Mittelwerte
V r l ich
18
Welches Lagemaß verwenden?
M k l
Merkmal
qualitativ
lit ti
qualitativ
lit ti
quantitativ
tit ti
Skala
Nominalskala
Ordinalskala
Metrische Skala
Mittelwert
•Modalwert
•Modalwert
•Median
•Modalwert
•Median
•Arithmetisches
Mittel
19
Vergleich von Mittelwerten
¾ B
Beide
id Verteilungen
V t il
h
haben
b d
das
selbe arithmetische Mittel 3
jjedoch unterschiedliche
Mediane 2,5 und 3
¾ B
Beii symmetrischen,
t i h
eingipfligen (unimodalen)
Verteilungen stimmen
arithmetisches Mittel und
Median überein.
¾ Bei schiefen Verteilungen ist
der Median verschieden vom
arithmetischen
ith ti h Mittel.
Mitt l
20
Alter von HR –Lehramtsstudierenden
(Vorlesung im 6. Semester SoSe 2008 in Ffm)
Histogramm
Kollektion Stochastik SI
50
40
30
22
23¼
20
10
18
20
22
24
26
28
30
Alter
32
34
36
38
40
21
Lagemaße bei schiefen Verteilungen
Häufigkeitsverteilungen
H
fi k it
t il
k
können unterschiedliche
t
hi dli h F
Formen h
haben:
b
eingipflig (unimodal) oder mehrgipflig, symmetrisch,
rechtsschief
f
oder
linksschief.
f
xmod < ~
x<x
x<~
x < xmod
¾ Fasst man Datensätze durch Lagemaße zusammen, so
verliert man Informationen über die Verteilungsform
g
und
die Streuung der Daten.
22
Beispiel:
p
Durchschnittliches und
Außergewöhnliches beim Wetter
23
Ermittlung von Tagesdurchschnittstemperaturen
„Die Mittelwerte werden aus den jeweiligen Wetterstationen …
ermittelt. Abgesehen von den Anfangsjahren der Messreihe wurde
die Temperatur einheitlich in zwei Meter Höhe über Grund in der
Englischen Hütte gemessen. Die Englische Hütte ist ein weiß
angestrichener,
ti h
iin M
Messhöhe
höh angebrachter
b ht K
Kasten,
t
d
der mit
it
Schlitzen zur Luftzirkulation versehen ist ….
Die Ermittlung der Tagesdurchschnittstemperatur war im
Beobachtungszeitraum nicht immer einheitlich, basiert aber fast
durchgängig auf der Berechnung mit den Mannheimer Stunden.
gewichtetes
Dazu wird zu den Beobachtungszeiten um 7, 14 und 21 Uhr
arithmetisches
Ot
Ortszeit
it di
die T
Temperatur
t ermittelt.
itt lt Diese
Di
Messwerte
M
t werden
d
Mittell
addiert, wobei der 21-Uhr-Wert doppelt in die Berechnung eingeht,
und durch vier geteilt ….
S it dem
Seit
d
1
1. A
Aprilil 2001 wird
i d di
die T
Tagesmitteltemperatur
itt lt
t aus 24
24Stunden-Sätzen ermittelt.“
http://de.wikipedia.org/wiki/Zeitreihe_der_Lufttemperatur_in_Deutschland
(Zugriff: 15.4.08)
24
Mittlere Jahrestemperatur in Deutschland
„gleitende“
Mittelwerte
http://de.wikipedia.org/wiki/Zeitreihe_der_Lufttemperatur_
in_Deutschland (Zugriff: 15.4.08)
25
Klimaänderung
(Meteorologisches) Klima: Statistische Beschreibung
der Wetterelemente über eine relativ lange Zeit. Diese
Zeit hat die WMO willkürlich aber praktikabel auf
mindestens 30 Jahre festgelegt
festgelegt.
Lufttemperatur, Luftfeuchte, Sonnenschein, Bewölkung, Niederschlag und Wind
„Kern der statistischen Beschreibung ist die
Häufigkeitsverteilung der Wetterelemente
… Sie wird durch den Mittelwert und die
Streuung charakterisiert.
Allerdings gibt es außer der … gezeigten
„Normalverteilung“ noch kompliziertere
(z.B. asymmetrische) Verteilungen, die
beispielsweise auf den Niederschlag
anzuwenden sind, …“
Schönwiese: Globaler und regionaler Klimawandel. Eine aktuelle wissenschaftliche Übersicht.
www.geo.uni-frankfurt.de/iau/klima/
26
Streuungsmaße
27
Ein Mensch, der von Statistik hört,
denkt dabei nur an Mittelwert.
Er glaubt nicht dran und ist dagegen,
ein Beispiel soll es gleich belegen:
Ein Jäger
Ei
J
auf
f der
d E
Entenjagd
j d
hat einen ersten Schuss gewagt.
Der Schuss, zu hastig aus dem Rohr,
l eine
lag
i gute
t H
Handbreit
db it vor.
Der zweite Schuss mit lautem Krach
lag
g eine gute
g
Handbreit nach.
Der Jäger spricht ganz unbeschwert
voll Glauben an den Mittelwert:
Statistisch ist die Ente tot.
Doch wär‘ er klug und nähme Schrot
- dies sei gesagt, ihn zu bekehren es würde seine Chancen mehren:
Der Schuss geht ab, die Ente stürzt,
weil Streuung ihr das Leben kürzt.
P H List
P.H.
zitiert nach Henze 2008, S. 33
28
Streuung messen
Unter Streuung in
U
i einer
i
Datenreihe
D
ih x1, x2, … , xn
versteht man allgemein die Abweichungen der
Daten untereinander oder vom jeweiligen
Mittelwert.
29
Spannweite
Die Spannweite
Di
i wird
i d als
l Diff
Differenz zwischen
i h d
dem
größten und den kleinsten Merkmalswert in einer
Datenreihe definiert.
definiert
Spannweite = x(max) - x(min)
30
Quartilsabstand
Durch die Quartile (Viertelwerte) wird ein Intervall
festgelegt, in dem die mittleren 50 % aller Daten liegen. Der
Quartilsabstand ist definiert als Differenz aus dem oberen
und unterem Q
Quartil: Q3/4 - Q1/4 .
Q1/4
Q3/4
Quartilsabstand = Q3/4 - Q1/4
¾ Mindestens 25% der Daten sind kleiner oder gleich Q1/4
und mindestens 75% der Daten sind größer oder gleich Q1/4
31
Streuungsmaße im Überblick
11.
2.
3
3.
Spannweite
S
it = x(max) - x(min)
Quartilsabstand = Q3/4 - Q1/4
Mi l
Mittlere
quadratische
d i h Ab
Abweichung
i h
vom
arithmetischen Mittel
2
( x1 − x) + ... + ( xn − x)
n
4.
2
Mittlere absolute Abweichung vom Median
x1 − ~
x + ... + xn − ~
x
n
32
Varianz und Standardabweichung
Varianz der Datenreihe x1 ,..., xn mit Mittelwert x
1 n
2
s = ∑ ( xi − x )
n i =1
Standardabweichung der Datenreihe
2
1 n
2
(
)
x
−
x
s=
∑
i
n i =1
Durch das Quadieren werden positive und negative
Abweichungen der Daten vom arithmetischen Mittel in
gleicher
l h Weise
W
berücksichtigt.
b
k h
33
Standardabweichung
g
verschiedene Häufigkeitsverteilungen mit gleichem arith. Mittel
s=
sr ≈ 1,09
1 09
r
1 ∑H
n
n
i =1
(ai )(ai − x )
2
sg ≈ 1,79
1 79
34
Deutung der Standardabweichung s bei
glockenförmigen Verteilungen
Bei diesen beiden
annähernd glockenglocken
förmigen Verteilungen
liegen im Bereich
[x-s ;x+s]
rund 70% der Daten.
Ineichen: Stochastik. Vandenhoeck & Ruprecht 1984, S. 133
35
Sigmaregel(n)
g
g ( ) für die Normalverteilung
g
(Gaußsche Glockenkurve)
f (x ) =
1
⋅e
2π
−
( x− x )2
2s 2
Ineichen: Stochastik. Vandenhoeck & Ruprecht 1984, S. 20
36
Vergleich
g
von Verteilungen
g
mit dem Boxplot
37
Einfacher Box-Plot
(Länge in km)
Einteilung in
vier Viertel
Welche Information über die Länge der Schweizer Alpenpässe
kann man aus dem Boxplot
p
entnehmen?
Polasek: Explorative Datenanalyse. Springer 1994, S. 52
38
Name
Höhe
Länge
g
Umbrail
2503
14
Bernardino
2066
17
Sattelegg
1190
17
C ld l F l
Col de la Forclaz
1527
21
Albula
2312
24
Flüela
2383
26
St. Gotthard
2108
27
Brünig
1007
28
Col Pillon
1545
31
Furka
2436
31
Grimsel
2165
31
Col des Mosses
1445
32
Oberalp
2045
32
Ofenpass
2149
36
Bernina
2328
37
Nufenen
2478
37
Lukmanier
1941
41
Julier
2284
44
Klausenpass
1940
45
Susten
2224
45
Maloja
1815
49
Simplon
2005
64
St. Bernard
2473
87
Schweizer Alpenpassstraßen
Daten aus Polasek (1994), S. 50
39
Punktierter Box-Plot
Box Plot (nach Tukey)
1,5*Quartilsabstand
Die Antennen
werden bis zum
letzten
Datenwert
innerhalb der
„Zäune“
gezeichnet
Quartilsabstand
Polasek: Explorative Datenanalyse. Springer 1994, S. 55
40
Boxplot
p
in einem Schulbuch der Sek I
Neue Wege 7, Hessen. Schroedel 2007, S. 229
41
42
Vergleich
g
von Notenspiegeln
p g
verschiedener Klassen (Notendurchschnitt 3,0)
9
9
8
8
7
7
6
6
5
5
4
4
3
3
2
2
1
1
0
0
1
2
3
4
5
1
6
2
3
4
5
6
0,4
9
0,35
,
8
0,3
rel. Häufigkeit
7
6
5
4
3
2
0,25
0,2
0,15
0,1
1
0,05
0
1
2
3
4
5
6
0
1
2
3
4
5
6
43
Vergleich von Notenspiegeln mit dem Boxplot
9
8
7
6
5
4
3
2
1
0
1
2
3
4
5
0
6
1
2
3
Note_rot
4
5
6
9
8
Halbiert der
Median die Box
und sind die
Antennen etwa
gleich lang, dann
beschreibt der
p
eine
Boxplot
symmetrische
Häufigkeitsverteilung.
g
7
6
Rechtsschiefe
Verteilung
5
4
3
2
1
0
0
1
2
3
4
5
6
1
2
3
4
Note_gelb
5
6
44
Vergleich von Notenspiegeln mit dem Boxplot
9
8
7
6
5
4
3
Gleicher Boxplot
trotz
unterschiedlicher
Verteilungsform
2
1
0
1
2
3
4
5
6
9
8
0
7
1
2
3
Note_rot
4
5
6
6
5
4
3
2
1
0
1
2
3
4
5
6
45
Herunterladen