Theorie - Educanet.ch

Werbung
Fachgruppe Mathematik der Kantonsschule am Burggraben, St.Gallen
Mathematik-Repetitorium für den Maturastoff
4.1.1 Beschreibende Statistik (Theorie)
Ziel der Beschreibenden Statistik
12
Alter
Anzahl
Anzahl
Mit den Mitteln der
22
ll
2
10
23
l
1
Beschreibenden Statistik soll
8
24
lllll
5
eine u.U. sehr grosse
25
lllll lll
8
6
26
lllll ll
7
Datenmenge übersichtlich und
4
27
lllll lllll
10
28
ll
2
2
kompakt beschrieben werden.
29
lllll l
6
0
Dabei soll der wesentliche
30
0
22
23
24
25
26
27
28
29
30
31
l
1
Informationsgehalt
Beispiel: Die Altersstruktur in einem Sportverein wurde mit einer
herauskristallisiert werden
Strichliste erfasst und das Resultat grafisch dargestellt.
können.
Die wichtigsten Instrumente sind grafische Darstellungen und Kennzahlen über die
Verteilung der erhobenen Daten, z.B. zu deren Lage, Streuung oder Zusammenhängen.
31
Grafische Darstellungen
Es gibt eine Unzahl von Möglichkeiten zur grafischen Darstellung von erhobenen Daten. Die
häufigsten sind das Histogramm (hauptsächlich zur Darstellung von Zähldaten) und das
Streudiagramm (oft für Messdaten). Ihre Hauptaufgabe besteht darin, rein optisch einen
qualitativen Überblick über die Daten zu bekommen: Grösste Häufigkeiten, Gegensätze,
Gemeinsamkeiten, evtl. Zusammenhänge etc.
Histogramm
In einem Histogramm werden die relativen
Häufigkeiten, d.h. der prozentuale Anteil,
von Zähldaten dargestellt. Die Summe aller
relativen Häufigkeiten ist 1. Das ergibt eine
Normierung, die Vergleiche zwischen
verschiedenen Gruppen (auch
unterschiedlicher Grösse) zulassen.
0.25
0.2
0.15
0.1
0.05
0
22
23
24
25
26
27
28
29
30
31
Beispiel: Obige Altersstruktur mit relativen
Häufigkeiten. Beachte die Einheiten auf der y-Achse.
Streudiagramm
In einem Streudiagramm werden
haupsächlich Messdaten dargestellt. Es ist
das altbekannte xy-Koordinatensystem, in
welchem Zusammenhänge zwischen
gemessenen Daten sichtbar werden.
110
100
90
80
70
60
50
40
1.5
1.6
1.7
1.8
1.9
2
2.1
Beispiel: Das Körpergewicht [kg] auf der y-Achse und
die Körpergrösse [m] auf der x-Achse für eine zufällig
ausgewählte Gruppe von Zuschauern an einem
Basketballspiel.
Fachgruppe Mathematik der Kantonsschule am Burggraben, St.Gallen
Mathematik-Repetitorium für den Maturastoff
Kennzahlen
Kennzahlen sollen quantitative Aussagen über charakterisierende Eigenschaften und
Zusammenhänge von erhobenen Daten erlauben, die in Grafiken nur qualitativ erahnt werden
können. Über sie werden Vergleiche mit anderen Daten aussagekräftiger.
Wir betrachten Stichproben der Grösse n, und summiert wird über alle Klassen.
(In unserem Altersstrukturbeispiel wäre n = 42 und i = 1,…10.)
Mittelwert μ (oder )
Der Mittelwert ist ein sogenannter
Lageparameter, weil er eine Aussage
über den Schwerpunkt der
Datenverteilung macht.
Mit absoluten Häufigkeiten fi:
μ = 1n ∑ f i ⋅ xi , wobei ∑ f i = n
i
i
Mit relativen Häufigkeiten hi:
μ = ∑ hi ⋅ xi
, wobei hi =
i
2
Varianz var (oder σ ) und
Standardabweichung s (oder σ)
Varianz und Standardabweichung sind
sogenannte Streuparameter, weil sie
eine Aussage darüber machen, wie
eng sich die Daten um den Mittelwert
scharen.
Kovarianz cov und
Korrelation cor (oder ρ)
Kovarianz und Korrelation machen
eine Aussage über den (linearen)
Zusammenhang zwischen zwei
Merkmalen x und y.
fi
und damit
n
∑h
i
=1
i
(In unserem Beispiel ist μ = 26.2.)
σ 2 = n1−1 ∑ f i ⋅ ( xi − μ ) 2
i
( In unserem Beispiel ist σ2 = 4.01.)
Die Varianz ist also so etwas wie die
durchschnittliche quadratische Abweichung vom
Mittelwert.
Die Standardabweichung ist die Wurzel aus der
Varianz.
Dass der Nenner n-1 lautet, hat mit höheren
Anforderungen der Statistik zu tun und soll uns
nicht weiter stören. Für den (seltenen) Fall einer
Vollerhebung (im Gegensatz zu einer Stichprobe)
wird der Nenner zu n.
cov( x, y ) =
n
1
n −1
∑ (x
i =1
i
− μ x )( xi − μ y )
Die Kovarianz ist analog zur Varianz aufgebaut. Da
wir jetzt aber zwei Merkmale betrachten, nehmen
wir einmal den Mittelwert des Merkmals x (μx) und
einmal denjenigen von y (μy), um die
Abweichungen zu bestimmen.
Viel interessanter ist aber die Korrelation:
cov( x, y )
ρ xy = cor ( x, y ) =
σ x ⋅σ y
Sie ist eine normierte Kovarianz und hat einen Wert
zwischen –1 und +1, da die Kovarianz durch die
Standardabweichungen der einzelnen Merkmale
geteilt wird.
( In unserem Beispiel der Basketballzuschauer ist ρxy = 0.95.
Das bedeutet, dass ein sehr hoher Zusammenhang zwischen
Körpergrösse und Gewicht besteht, und zwar „je grösser desto
schwerer“. Ein Minuszeichen hätte bedeutet: „je grösser desto
leichter“. Wäre die Korrelation um 0 herum, so würde das
bedeuten, dass praktisch kein Zusammenhang bestünde.)
Herunterladen