Mathematische Statistik Zur Notation

Werbung
Mathematische Statistik
dient dazu, anhand von Stichproben Informationen zu
gewinnen. Während die Wahrscheinlichkeitsrechnung
Prognosen über das Eintreten zufälliger (zukünftiger)
Ereignisse macht, werden in der Statistik beobachtete Daten
betrachtet.
Diese erhält man z. B. als
Realisierungen
von Zufallsvariablen
(z. B. beobachtete Augenzahlen bei 10 mal Würfeln) oder
durch Ziehen einer
Stichprobe
aus einer Grundgesamtheit
(z. B. Meinungsumfrage).
Zur Notation
Während Zufallsvariablen meist mit Groÿbuchstaben
(typischerweise
X, Y , Z)
benannt werden, werden für ihre
Realisierungen Kleinbuchstaben benutzt.
statistik.pdf, Seite 1
Teilgebiete der Statistik
Es wird unterschieden zwischen
I
Beschreibende (deskriptive) Statistik:
übersichtliche
Darstellung, Ermittlung von Kenngröÿen wie Mittelwert,
Varianz
I
Explorative Statistik:
Suche nach Strukturen und
Zusammenhängen mit Hilfe von Stichproben
I
Induktive (schlieÿende) Statistik:
Ziehen von
allgemeineren Schlussfolgerungen aus einer Stichprobe
mit Mitteln der Wahrscheinlichkeitsrechnung
statistik.pdf, Seite 2
Eine Stichprobe
besteht aus Realisierungen von Zufallsvariablen bzw. wird aus
einer
Grundgesamtheit
(die mathematisch eine Menge
darstellt, von der die Stichprobe eine Teilmenge ist) gezogen.
Dabei werden bestimmte
Der Umfang der
Merkmale
Stichprobe
(oder
Variablen)
erfasst.
ist die Zahl ihrer Elemente, d. h.
die Zahl der in der Stichprobe erfassten Einheiten aus der
Grundgesamtheit. Man spricht von einer
Zufallsstichprobe,
wenn sie als Teilmenge der Grundgesamtheit zufällig
ausgewählt wird.
Beispiel
Grundgesamtheit:
Stichprobe:
Merkmale:
Alle Studierenden der h_da
Teilnehmer einer Umfrage
Studienfach, Alter, Schuhgröÿe, Körpergewicht, ...
statistik.pdf, Seite 3
Ausprägungen
sind die Werte, die ein Merkmal annehmen kann.
Beispiel
I Das Merkmal Geschlecht hat die Ausprägungen männlich
und weiblich.
I Das Merkmal Lebensalter hat die Ausprägungen
0, 1, 2, 3, 4, ...
Diskret und stetig
I Ein
diskretes
Merkmal hat nur endlich oder abzählbar
viele Ausprägungen.
Beispiel: Geschlecht, Alter in Jahren
I Ein
stetiges Merkmal
⊂ R liegen.
hat Ausprägungen, die in einem
Intervall
Beispiel: Körpergewicht (bei beliebig hoher Messgenauigkeit)
statistik.pdf, Seite 4
Skalenniveaus
Ein Merkmal heiÿt
I
nominalskaliert,
wenn es für seine Ausprägungen keine
natürliche Reihenfolge gibt. In der Regel sind die
Ausprägungen keine Zahlenwerte.
Beispiel: Geschlecht, Lieblingsfarbe, Partei, Lottozahlen
I
ordinalskaliert,
wenn es für die Ausprägungen eine
natürliche Ordnung gibt.
Beispiel: Dienstgrad, HotelSterne
I
intervallskaliert,
wenn die Ausprägungen Zahlen sind und
die Dierenz zweier Ausprägungen als Abstand
interpretiert werden kann.
Beispiel: Zeitpunkt, Temperatur
I
verhältnisskaliert,
wenn es zusätzlich einen absoluten
Nullpunkt gibt.
Beispiel: Gewicht, Kontostand
statistik.pdf, Seite 5
Bemerkungen
I Nominal- und ordinalskalierrte Merkmale werden auch als
qualitative
Merkmale bezeichnet, während intervall- und
verhältnisskalierte Merkmale als
bezeichnet werden.
Im erstenen Fall liegt eine
eine
metrische Skala
quantitative
Kardinalskala,
Merkmale
im zweiten Fall
vor.
I Die vorgestellten Begrie sind nicht immer klar
voneinander abgegrenzt.
statistik.pdf, Seite 6
Stichproben
Man unterscheidet zwischen der Erhebung von
univariaten
multivariaten
Daten, wo nur ein Merkmal betrachtet wird, und
Daten, wo mehrere Merkmale gleichzeitig betrachtet werden.
Bei einer univariaten Stichprobe vom Umfang
eine
Urliste x1 , ..., xn
n
erhält man
der beobachteten Werte.
Häugkeiten
Bei diskreten Merkmalen kann man zählen, wie oft eine
bestimmte Ausprägung vorkommt.
absolute Häugkeit hi einer
xk aus der Urliste mit xk = ai ,
Die
Ausprägung
die relative Häugkeit ist gegeben durch fi
ai
ist die Zahl der
= n1 hi .
statistik.pdf, Seite 7
Beispiel
Bei einer Umfrage zur Lieblingsfarbe erhält man die Antworten
x1 =
x6 =
rot,
x2 = grün, x3 = grün, x4 = gelb, x5 = rot,
x7 = blau, x8 = gelb, welche die Urliste bilden.
grün,
Es treten die Ausprägungen
a1 =
rot,
a4 = blau auf mit den absoluten
h1 = h3 = 2, h2 = 3 und h4 = 1.
und
a2 =
grün,
a3 =
gelb
Häugkeiten
Die relativen Häugkeiten sind
f1 = f3 =
2
8
= 25%, f2 =
3
8
= 37, 5%
und f4
=
1
8
= 12, 5%.
statistik.pdf, Seite 8
Bemerkungen
I Die Reihenfolge der Daten spielt für die Häugkeiten
keine Rolle. Daher empehlt es sich, die Urliste zunächst
zu ordnen, im Beispiel
rot, rot, grün, grün, grün, gelb, gelb, blau
I Die absoluten Häugkeiten können mit Hilfe einer
Strichliste ermittelt werden.
I Die Häugkeitsverteilung einer Stichprobe (d. h. die
relativen Häugkeiten aller aufgetretenen Ausprägungen)
kann in einem
Stabdiagramm
dargestellt werden.
statistik.pdf, Seite 9
Stabdiagramm zur Lieblingsfarbe
statistik.pdf, Seite 10
Klassierung
Bei vielen verschiedenen Ausprägungen (die typischerweise bei
stetigen Merkmalen auftreten) teilt man diese in
Man spricht dann von einer
klassierten
Klassen
ein.
Stichprobe.
Eine Klasse ist eine Teilmenge der Menge aller möglichen
Ausprägungen (typischerweise ein Intervall).
Häugkeiten von Klassen
Die
absolute Häugkeit hi
der
i ten
Klasse ist die Zahl der
beobachteten Werte aus der Urliste, die in dieser Klasse liegen.
Die
relative Häugkeit fi = hi /n
ist auch hier die absolute
Häugkeit geteilt durch den Umfang der Stichprobe.
statistik.pdf, Seite 11
Histogramme
Die Häugkeitsverteilung einer klassierten Stichprobe wird oft
in einem
Histogramm
dargestellt. Dort gehört zu jeder Klasse
ein Rechteck, dessen Fläche gleich der relativen Häugkeit ist.
Die Klassen werden dabei im Normalfall gleich breit gewählt.
Bemerkung
Eine Klassierung erhöht die Übersichtlichkeit der Darstellung,
bedeutet aber einen Verlust von Information, da nicht mehr
die genauen Ausprägungen, sondern nur noch die
Klassenzugehörigkeiten betrachtet werden.
Faustregel
Die Zahl der Klassen sollte im Normalfall zwischen 5 und 20
gewählt werden und nicht deutlich gröÿer als
√
n
sein.
statistik.pdf, Seite 12
Beispiel
Körpergröÿe im cm (gerundet) der deutschen
FuÿballNationalspieler (WMKader 2014) liefert die Urliste
193, 188, 188, 192, 183, 190, 187, 187, 191, 198, 184, 187,
189, 190, 182, 170, 182, 183, 171, 182, 186, 182, 183.
Für die 6 Klassen k1 = [170; 175), k2 = [175; 180),
k3 = [180; 185), k4 = [185; 190), k5 = [190; 195) und
k6 = [195; 200) erhält man die folgenden absoluten und
relativen Häugkeiten hi und fi :
i
ki
hi
fi
fi
1
2
3
4
5
6
[170;175)
[175;180)
[180;185)
[185;190)
[190;195)
[195;200)
2
0
8
7
5
1
2/23
0
8/23
7/23
5/23
1/23
8, 7
%
0
%
34, 8
%
30, 4
%
21, 8
%
4, 3
statistik.pdf, Seite 13
%
Histogramm zum Beispiel Körpergröÿe
Die Höhe jedes Rechtecks ist gleich
1
5 fi , so dass die Fläche der
relativen Häugkeit fi der jeweiligen Klasse entspricht. Die
Gesamtäche ist somit gleich 1.
statistik.pdf, Seite 14
Kenngröÿen einer Stichprobe
charakterisieren die wichtigsten Eigenschaften von
Stichproben, deren Ausprägungen Zahlen sind.
Lagekennwerte
geben an, in welchem Bereich sich die
typischen Werte einer Stichprobe benden. Dazu gehören
das arithmetische, geometrische und das harmonische Mittel,
der Median sowie die Quantile.
Streuungsmaÿe
geben an, wie weit diese Werte
auseinanderliegen. Dazu gehören die empirische Varianz, die
Standardabweichung, die Spannweite und der
Interquartilsabstand.
statistik.pdf, Seite 15
Das arithmetisches Mittel
oder einfach der
Mittelwert x
einer Stichprobe vom Umfang
n
ist deniert als
x = x arithm = n1 (x1 + ... + xn ).
Beispiel
Bei einer Stichprobe (Körperlänge von
n = 10
Fuÿballspielern)
erhält man die (geordnete) Urliste
183, 187, 187, 188, 188, 190, 191, 192, 193, 198.
Das arithmetische Mittel ist die Durchschnittsgröÿe
x =
=
1
10
1
10
· (183 + 187 + 187 + 188 + 188 + 190 + 191 + 192 + 193 + 198)
· 1897 = 189, 7.
Weitere Anwendungsbeispiele für das arithmetische Mittel sind
mittleres Einkommen oder eine Durchschnittsnote.
statistik.pdf, Seite 16
Das geometrische Mittel
x geom =
√
n
x1 · ... · xn
kommt zur Anwendung bei der Berechnung von
durchschnittlichen Wachstumsraten, Kursgewinnen und
ähnlichem.
Es ist nur dann sinnvoll deniert, wenn
Stichprobenwerte
xk > 0
für alle
xk .
Beispiel
Das geometrische Mittel der Stichprobe
x1 = 1, 2, x2 = 0, 8, x3 = 1, 1, x4 = 1, 3, x5 = 0, 7, x6 = 1, 2
ist
x geom = (1, 2 · 0, 8 · 1, 1 · 1, 3 · 0, 7 · 1, 2)1/6
≈ 1, 1531/6 ≈ 1, 024
statistik.pdf, Seite 17
Das harmonische Mittel
einer Stichprobe mit
x har =
1
x1
xk > 0
n
+ ... +
1
k ist
für alls
=1
xn
deniert als
1
1
n
x1
+ ... +
1
xn
,
d. h. es wird zunächst das arithmetische Mittel der Kehrwerte
1
xk
berechnet und davon wiederum der Kehrwert gebildet.
Eine typische Anwendung ist die Berechnung einer
Durchschnittsgeschwindigkeit.
Beispiel
x1 = 50, x2 = 150 und x3 = 100 hat die
1
1
1
1
1
= 150
= 100
y1 = x1 = 50
, y2 =
und y3 =
.
x
x
Die Stichprobe
Kehrwerte
1
2
3
Diese haben das arithmetische Mittel
y =
1
3
·
1
50
+
1
150
+
1
100
=
1
3
·
11
300
=
11
900
≈ 0, 012.
Das harmonische Mittel der ursprünglichen Stichprobe ist
somit
x har = 1/y =
900
11
≈ 81, 8.
statistik.pdf, Seite 18
Anwendung/Interpretation
Ein Fahrzeug legt eine Strecke von 120 km zurück, davon
s = 40 km) mit einer Geschwindigkeit
v2 = 50 km/h und v3 = 150 km/h.
jeweils ein Drittel (also
von
v1 = 100
km/h,
Wie groÿ ist dann die Durchschnittsgeschwindigkeit?
Dazu können zunächst die Fahrzeiten für die einzelnen
s
= 0, 4 Stunden
Streckenabschnitte bestimmt werden: t1 =
v1
= 24 Minuten für das erste Drittel sowie
t2 = vs2 = 48 Minuten und t3 = vs3 = 16 Minuten für das
zweite bzw. dritte Drittel. Die Gesamtfahrzeit ist damit
t = t1 + t2 + t3 .
Auf der Gesamtstrecke 3s
= 120
km erhält
man die Durchschnittsgeschwindigkeit
3s
t
=
3s
t1 + t2 + t3
= v har ≈ 81, 8
=
s
v1
3s
+ vs2
+
s
v3
=
1
1
3
·
1
v1
+
1
v2
+
1
v3
km/h.
statistik.pdf, Seite 19
Der Median
oder Zentralwert
x̃
einer Stichprobe ist der Wert in der Mitte
der geordneten Urliste.
Hat die Urliste die Form
so ist
x̃ =
1
2
x1 , x2 , ..., xn
falls
x n+21
x 2n + x 2n +1
xk ≤ xk+1
mit
n
falls
für alle
k,
ungerade
n
gerade
Beispiel
Die Stichprobe 1, 2, 4, 5, 8, 9 hat den Umfang
n = 6,
also ist
der Median gleich
x̃ = 21 (x3 + x4 ) = 21 (4 + 5) = 4 21 .
Bei der Stichprobe -1; 0; 0,2; 0,9; 1,6; 3,8; 6,1 ist
also ist der Median
n = 7,
x̃ = x4 = 0, 9.
statistik.pdf, Seite 20
Bemerkungen
I Im Gegensatz zum (arithmetischen) Mittel ist der Median
unempndlich gegenüber starken Ausreiÿern.
I Sind alle Elemente der Urliste verschieden, so liegen
links und rechts vom Median jeweils gleich viele
Elemente.
I Eine Verallgemeinerung sind
Links vom
p Quantil x̃p
Quantile
für
liegt der Anteil
p
p ∈ (0, 1):
aller
Stichprobenwerte, rechts davon der Anteil 1
I Der
Modalwert
− p.
einer Stichprobe ist die Ausprägung mit
der gröÿten Häugkeit.
Beispiel: Lieblingsfarbe grün
statistik.pdf, Seite 21
Quantile
Zu einer Stichprobe vom Umfang
man das
p Quantil x̃p
n
und
p ∈ (0, 1)
deniert
wie folgt:
k = n · p eine ganze Zahl, so nimmt man einen Wert
zwischen xk und xk+1 :
x̃p = 12 · (xk + xk+1 )
Ist np 6∈ Z, so wählt man die nächstgröÿere ganze Zahl k
und setzt x̃p = xk .
I Ist
I
Für
p = 0, 5
entspricht dies der Denition des Medians,
p = 0, 25 und p = 0, 75
Quartil bezeichnet.
die Quantile für
und oberes
werden als unteres
statistik.pdf, Seite 22
Beispiel
n = 10 liegt das
x3 und x4 , genauer
Für eine Stichprobe vom Umfang
30%Quantil x̃0,3 zwischen
x̃0,3 = 12 (x3 + x4 ).
Sind
x3
und
x4
x1 , x2 und x3 (also genau
von x̃0,3 und die übrigen
verschieden, so liegen
30% aller Stichprobenwerte) links
70% rechts von
x̃0,3 .
Konkretes Beispiel: Bei einer Stichprobe mit
Urliste 1, 2, 2, 3, 4, 6, 6, 7, 9, 10 ist
der geordneten
x̃0,3 = 12 (2 + 3) = 2 12 .
statistik.pdf, Seite 23
Fortsetzung Beispiel mit n = 10
Urliste 1, 2, 2, 3, 4, 6, 6, 7, 9, 10 ist
Mit
p = 0, 75
ist
n · p = 7, 5 6∈ Z,
aufgerundet erhält man 8.
Damit ist das obere Quartil (= 75%Quantil) der 8. Wert der
geordneten Stichprobe
x̃0,75 = x8 = 7.
x = x8
ist die kleinste Zahl, für die mindestens 75% der
Stichprobenwerte
≤x
sind und gleichzeitig die gröÿte Zahl,
für die mindestens 25% der Stichprobenwerte
Darüber hinaus ist für jedes
p Quantil x̃p = x8 ,
< p < 0, 4.
p
≥x
sind.
mit 0, 7
analog ist z. B.
< p < 0, 8 das
x̃p = x4 für alle p mit
0, 3
statistik.pdf, Seite 24
Empirische Verteilungsfunktion
Die empirische Verteilungsfunktion einer Stichprobe vom
Umfang
n
ist deniert als
F (x) =
d. h. für
x ∈R
ist
Stichprobenwerte,
F
ist eine
1
n
# k : xk ≤ x ,
F (x) der relative
die ≤ x sind.
Treppenfunktion,
Anteil der
d. h. sie ist auf Teilintervallen
konstant mit Sprungstellen dazwischen.
statistik.pdf, Seite 25
Beispiel Stichprobe 1, 2, 2, 3, 4, 6, 6, 7, 9, 10
Empirische Verteilungsfunktion
F (x)
mit 30%- und
75%Quantil
statistik.pdf, Seite 26
Quantile und empirische Verteilungsfunktion
Bei der Bestimmung des Quantils
Verteilungsfunktion
1. Der Wert
p
F (x)
x̃p
durch die empirische
sind zwei Fälle zu unterscheiden:
wird von der empirschen Verteilungsfunktion
angenommen, d. h. es gibt ein Teilintervall
mit
x ∈ [x1 , x2 ).
In diesem Fall wird das p Quantil als Mittelpunkt dieses
1
Intervall gewählt, also x̃p = (x1 + x2 ).
2
Der Wert p wird von der empirschen Verteilungsfunktion
F (x) = p
2.
[x1 , x2 )
für alle
nicht angenommen.
Dann ist
x̃p
die Sprungstelle von
F (x),
an der der Wert
p
übersprungen wird.
In diesem Fall gilt
für alle
F (x) < p
für alle
x < x̃p
und
F (x) > p
x ≥ x̃p .
statistik.pdf, Seite 27
Varianz
Ein Maÿ für die Streuung der Werte einen Stichprobe vom
n ≥ 2 um den Mittelwert x
Varianz oder Stichprobenvarianz
Umfang
1
2
s =
s=
n−1
√
s2
n
X
(xk − x)2 =
k=1
wird als
1
n−1
ist die
(empirische)
2
2
(x1 − x) + ... + (xn − x)
empirische Standardabweichung
bezeichnet.
Eine kleine Rechnung zeigt (mit der Denition von
s2 =
1
n−1
x12 + x22 + ... + xn2 − n · x 2
x)
Achtung: Im Unterschied zur Varianz einer Zufallsvariable ist
bei der Stichprobenvarianz der Vorfaktor
1
n−1
statt
1
n
.
statistik.pdf, Seite 28
Weitere Streuungsmaÿe
I
Spannweite:
Dierenz zwischen dem gröÿten und dem
kleinsten Wert der Stichprobe.
I
Interquartilsabstand dQ = x̃0,75 − x̃0,25 : Dierenz
dem 75%Quantil und dem 25%Quantil.
zwischen
Interpretation: Die Hälfte der Stichprobenwerte liegt
innerhalb des Interquartilsabstandes, jeweils ein Viertel
sind Ausreiÿer nach oben bzw. nach unten, die keinen
Einuss auf den Interquartilsabstand haben.
statistik.pdf, Seite 29
Beispiel
Die Stichprobe 0, 1, 1, 2, 3, 5, 8, 12, 13 hat
x = 19 (0 + 1 + 1 + 2 + 3 + 5 + 8 + 12 + 13) = 5
x̃ = x̃0,5 = x5 = 3
I Mittelwert
I Median
I Modalwert (häugster Wert) 1
x̃0,25 = x3 = 1 und x̃0,75 = x7 = 8
2
empirische Varianz s =
1
2
2
2
2
2
2
2
2
2
2
8 (0 + 1 + 1 + 2 + 3 + 5 + 8 + 12 + 13 − 9 · 5 )
= 18 (0 − 3)2 + (1 − 3)2 + (1 − 3)2 + (2 − 3)2
I Quartile
I
+(3 − 3)2 + (5 − 3)2 + (8 − 3)2 + (12 − 3)2 + (13 − 3)2
I
I
I
= 18 (9 + 4 + 4 + 1 + 0 + 4 + 25 + 81 + 100) = 24
√
√
Standardabweichung s =
s 2 = 24 ≈ 4, 9
Spannweite 13 − 0 = 13
Interquartilsabstand 8 − 1 = 7
statistik.pdf, Seite 30
Boxplots
dienen der graphischen Darstellung statistischer Kennzahlen
einer Stichprobe. Der zentrale Teil ist ein Rechteck (die
Box), die vom unteren bis zum oberen Quartil reicht und am
Median in zwei Teile unterteilt ist. Die Gesamtbreite der Box
ist somit der Interquartilsabstand. Verlängert die Box an
beiden Seiten durch Linien, welche die Daten jenseits der
Quartile kennzeichnen.
statistik.pdf, Seite 31
Herunterladen