Kapitel 2, Beschreibende Statistik

Werbung
2
Beschreibende Statistik
Erfasse die Schwankungen, den Einfluß des Zufalls. Erster Schritt in diese Richtung: Beschreibende Statistik. Es geht darum, empirische Daten durch Tabellen und Graphiken darzustellen, durch grundlegende Kenngrößen quantitativ
zu beschreiben.
2.1
Grundbegriffe
Bei einer Datenerhebung werden an ausgewählten Versuchseinheiten mehrere
Merkmale festgestellt. Die beobachteten Werte heißen Merkmalsausprägungen.
Versuchseinheit
Merkmal
Merkmalsausprägung
Tiere einer Population Gewicht
g∈R
Geschlecht
m/w
Cholesterinkonz.
c∈R
Rang in Hierarchie
n∈N
Bäume eines Waldes
Schädlingsbefall
keiner, gering, mittel, stark
Höhe, Gewicht
h, g ∈ R
transgene Arabidopsis Wurzellänge
l∈R
2.2
Stichproben und Grundgesamtheit
Grundgesamtheit heißt die Menge der Merkmalsträger, über die eine Aussage getroffen werden soll, z.B. Tiere einer Herde, Menschen einer Region oder
Stadt. Sie muß bei jeder Datenerhebung genau definiert werden.
Eine gesamte Untersuchung ist in der Regel nicht möglich, man wertet
repräsentative Teilauswahlen oder Stichproben aus.
Eine Möglichkeit, eine repräsentative Teilauswahl zu bekommen, ist die
Zufallsstichprobe, in die jedes Element der Grundgesamtheit mit der gleichen
Wahrscheinlichkeit aufgenommen wird.
2.3
2.3.1
Darstellungsmethoden für empirische Daten
Urliste
Genaue, detaillierte Liste, in die jedes Element der Stichprobe eingetragen
wird, z.B. durchnumeriert, mit jeweiligen Merkmalsausprägungen.
2.3.2
Häufigkeiten der Merkmalsausprägungen
Absolute Häufigkeiten: Merkmalsausprägung i kommt ni -mal vor, bzw. mit
Häufigkeit ni . Stichprobengröße
X
ni
(11)
n=
i
Relative Häufigkeiten: Häufigkeit von Merkmalsausprägung i relativ zur
Stichprobengröße
ni
ni
hi = P
=
(12)
n
j nj
4
2.3.3
Graphische Darstellungen
Stab- oder Balkendiagramm, Kuchendiagramm. Beispiel: Erststimmen der Bundestagswahl 2005 im Wahlkreis Bonn, 6 Kandidaten. Höhe der Balken und
Winkelanteil im Kuchen entsprechen dem relativen Anteil an gültigen Stimmen.
0.45
Schubert
Kandzia
0.4
Westerwelle
0.35
Malborn
0.3
Kelber
0.25
0.2
0.15
0.1
Eisel
0.05
0
1
2
3
4
5
6
Kelber Eisel Westerwelle Kandzia Schubert Malborn
Aufteilung ist unmittelbar einsichtig, es gibt 6 Klassen, auf die sich die Daten
verteilen.
Diese vorgegebene Aufteilung muß nicht immer sinnvoll sein. Betrachte
die Verteilung der Stimmen, die der gewählte Kandidat U. Kelber in den 230
Stimmbezirken jeweils erhalten hat.
5
4
3
2
1
0
100
200
300
400
500
600
700
200
300
400
500
600
700
0.025
0.02
0.015
0.01
0.005
0
100
Wie ist das obere Diagramm zu lesen? Auf der waagrechten Achse stehen die
Anzahl der Stimmen j, auf der Senkrechen die Anzahl der Bezirke nj , in denen U.K. genau j Stimmen erhalten hat. Das Untere Diagramm? Genauso, nur
daß auf der senkrechten Achse hj = nj /n aufgetragen ist, der relative Anteil an
Stimmbezirken, in denen genau j Stimmen erzielt wurden. Unpraktisch, weil
5
es aus lauter dünnen Nadeln besteht, den genau j Stimmen treten sehr selten
auf. Besser wäre, Stimmbezirke mit ähnlicher Stimmenzahl in eine Gruppe zusammenzufügen.
Histogramm und Klasseneinteilung. Betrachte hier den relativen Stimmenanteil von U.K. in den Bezirken, Werte zwischen 0.29 und 0.62. Dieser Bereich
wird in 10 (obere Graphik) bzw. 100 (untere Graphik) gleich große Intervalle
der Breite g eingeteilt. Bei 10 Intervallen g ≈ 0.03, bei 100 g ≈ 0.003. Dann
wird gezählt, in wievielen ni Stimmbezirken Kelbers Anteil in jedem Intervall
i liegt.
6
4
2
0
0.25
0.3
0.35
0.4
0.45
0.5
0.55
0.6
0.65
0.3
0.35
0.4
0.45
0.5
0.55
0.6
0.65
10
8
6
4
2
0
0.25
Zeichne nun die Balken in jedem Intervall mit einer Länge
li =
g
n
Pi
j
nj
=
hi
g
(13)
Die Balkenlänge li entspricht der Häufigkeitsdichte. Sie hat die Eigenschaft
X
g li = 1 (überprüfe!)
(14)
i
Die Gesamtfläche der Balken ist damit gleich 1. Das wird wichtig bei der empirischen Bestimmung von Wahrscheinlichkeitsdichten (kriejen wir später).
Bisher nur noch ein Schönheitsfehler. Jeder der n = 230 Stimmbezirke wird
im oberen Diagramm gleich stark mitgezählt, mit relativem Gewicht 1/n =
1/230. Mit der richtigen Gewichtung, jeder Stimmbezirk proportional zur Zahl
der gültigen Stimmen, ergibt sich ein leicht geändertes Bild
6
8
6
4
2
0
0.25
0.3
0.35
0.4
0.45
0.5
0.55
0.6
0.65
0.3
0.35
0.4
0.45
0.5
0.55
0.6
0.65
15
10
5
0
0.25
Siehe z.B. höherer Anteil an Bezirken mit ∼ 35%, geringerer an solchen mit
∼ 50%.
Wichtig bei der Darstellung: Geeignete Klasseneinteilung. Zu fein: Stark
schwankende Balkenhöhen, “Nadeln”, zu grob: Aussagekraft, Feinstruktur der
Verteilung kann verloren gehen.
Histogramm von zirkulären Daten (Kreisstatistik). Manche Daten liegen
nicht als ganze oder reelle Zahlen vor, sondern als Winkel im Kreis. Wichtig:
359◦ liegt nicht ganz weit weg von 0◦ , sondern gleich daneben, genauso weit
weg wie 1◦ .
Beispiel: M. Müller und R. Wehner haben die Orientierungsfähigkeit von
Wüstenameisen (Cataglyphis fortis) untersucht (Proc. Natl. Acad. Sci. 85,
5287–5290 (1988)). Sie merken sich bei (teils über 100m langen) Wegen auf Futtersuche die Nestposition, Richtung und Entfernung, und finden meist zentioder dezimetergenau zurück. Sie machen jedoch auch systematische Fehler,
z.B. wenn sie in einem Kanal gezwungen werden, um eine Ecke zu laufen.
Nach 15m Lauf im Kanal, 10m vor, 5m nach der Biegung, nahmen Müller &
Wehner die Richtungen auf, in denen die Ameisen liefen. Es zeigt sich eine
Abweichung von der korrekten (0◦ ) Heimrichtung.
7
90
1
60
120
0.8
0.6
150
30
0.4
0.2
180
0
330
210
240
300
270
Neben dem Streudiagramm, zeigt auch ein zirkuläres Histogramm die Verteilung der Beobachtungsergebnisse,
90
10
120
6
60
8
30
6
30
150
4
4
2
180
2
0
210
0
330
240
300
270
links den gesamten Kreis von 0 bis 360◦ , rechts den interessanten Ausschnitt.
2.4
Quantifizierung empirischer Verteilungen
Ziel ist, wesentliche Charakteristika von Meßreihen durch wenige charakteristische Größen zu beschreiben. Dazu gehört
• die Lage der Meßwerte, z.B. Mittelwert
• ihre Streuung, z.B. Varianz
• Gestalt ihrer Verteilung, z.B. Symmetrie oder Schiefe
2.4.1
Arithmetisches Mittel
Zu einer Datenreihe x1 , . . . , xn heißt die Zahl
n
1 X
x1 + . . . + x n
x̄ =
xi =
n i=1
n
8
(15)
arithmetisches Mittel. Alle Beobachtungen fließen mit dem gleichen Gewicht
1/n ein.
x̄ minimiert die Summe der quadratischen Abstände zu den Meßergebnissen.
D.h. die Summe
n
X
S=
(xi − y)2
(16)
i=1
wird für y = x̄ minimal. Überprüfen: Es muß die Ableitung von S nach y für
y = x̄ gleich Null sein.
!
0=
X
∂S X
=
2(xi − y) = 2
xi − 2ny
∂y
i
i
(17)
was offensichtlich gerade für y = x̄ erfüllt ist.
Verbindung zwischen arithmetischem Mittel und Häufigkeitsdichte. Angenommen, wir haben die Meßwerte x1 , . . . , xn in k Intervalle mit Mittelpunkten
a1 , . . . , ak der Breite g eingeteilt, um eine Häufigkeitsdichte zu bestimmen. Das
j-te Intervall reicht also von aj − g/2 bis aj + g/2, es fallen nj Meßwerte hinein,
relative Häufigkeit hj und Balkenhöhe lj (s.o.). Dann ist
k
k
k
X
X
1X
aj nj =
aj h j =
aj glj
n j=1
j=1
j=1
(18)
eine Näherung an x̄, die umso besser wird, je feiner die Intervalle gewählt sind,
also je kleiner g ist.
7
6
5
4
3
2
1
0
−1
−3
−2
−1
0
1
2
3
Siehe Graphik mit zufällig ausgewürfelten Wetten (rote Sterne) und Klassenintervallen [n/2, (n + 1)/2). Bei der approximativen Berechnung des Mittelwerts
nach Gl. (18) wird für jeden Meßpunkt nicht der tatsächliche Wert xi sondern
der Mittelpunkt der zugehörigen Klasse aj genommen. nicht der
9
Verhalten unter linearen Transformationen. Beispiel: Körpertermperaturen von Patienten in ◦ C und ◦ F gemessen. Seien x1 , . . . , xn die Celsius- und
y1 , . . . , yn die Fahrenheit-Werte. Beziehung für alle i
9
yi = xi + 32
5
(19)
(20)
Daher ist
1X
1X
ȳ =
yi =
n i
n i
9
xi + 32
5
=
91X
9
xi + 32 = x̄ + 32
5n i
5
Das gilt natürlich auch für beliebige lineare Transformationen, a statt 9/5 und
b statt 32. Fazit: Das arithmetische Mittel der linear transformierten Werte ist
gleich der linearen Transformation des arithmetischen Mittels.
2.4.2
Median
Der “mittlere Meßpunkt” einer Stichprobe, mit der Eigenschaft, daß genausoviele Punkte unterhalb wie oberhalb liegen. Genauer: Bei n Meßwerten, wenn
n ungerade, d.h. n = 2k + 1, ist
xmed = xk+1
(21)
und, wenn n gerade, d.h. n = 2k, ist
xmed = (xk + xk+1 )/2.
(22)
Der Median ist robust unter Veränderung der Minimal- und Maximalwerte
einer Datenreihe, d.h. robust gegen sogenannte Ausreißer.
Beispiel: Berechne den Median bei Wurfgrößen von Kaninchen, (3, 3, 4, 6).
Nimm an, statt 6 habe der größte Wurf 9 Junge gehabt. Der Median bleibt
gleich, der Mittelwert steigt an.
Minimaleigenschaften: xmed minimiert die Summe der absoluten Abstände
zu den Punkten einer Meßreihe, d.h. die Summe
S=
n
X
i=1
|xi − y|
(23)
wird für y = xmed minimal. Überprüfen: Es muß die Ableitung von S nach y
für y = xmed gleich Null sein.
!
0=
∂S X
=
sign(xi − y)
∂y
i
(24)
wobei die Vorzeichenfunktion signz = 1 für z > 0, = −1 für z < 0, und = 0
für z = 0. Gleichung (24) ist gerade dann erfüllt, wenn gleich viele xi größer
und kleiner als y sind, was die Bedingung für den Median ist.
Evtl.: Monotone Transformationen.
10
2.4.3
Streuung
Im allgemeinen liegen die Meßwerte nicht genau auf dem Mittelwert oder Median, sondern streuen um das Lagemaß. Wie kann man die Streuung charakterisieren?
2.4.4
Empirische Varianz und Standardabweichung
Ein Maß für die Streuung sind die quadratischen Abstände zum Mittelwert,
(x1 − x̄)2 , . . . , (xn − x̄)2 . Sie sind immer positiv und umso größer, je weiter die
Daten streuen. Sie setzen sich zusammen zur empirischen Varianz
n
1 X
(xi − x̄)2
s =
n − 1 i=1
2
(25)
Achtung: Hier wird durch n − 1, nicht durch n geteilt, was einen zu kleinen
Wert geben würde. Grund dafür ist, daß die Meßergebnisse auch in die Bestimmung von x̄ eingegangen sind, bei ausreißenden Meßwerten unser x̄ auch
zu nah an diesen liegt, wir also tendenziell die Varianz unterschätzen würden.
Genaueres später.
Folgende Formel hilft bei der Berechnung der Varianz
n
1 X 2
n
s =
x̄2
xi −
n − 1 i=1
n−1
2
(26)
Beweis durch Nachrechnen mit binomischer Formel
(n − 1)s
2
=
n
X
(xi − x̄) =
=
n
X
x2i
i=1
i=1
2
n
X
i=1
x2i − 2x̄ xi + x̄2
2
− 2x̄nx̄ + nx̄ =
n
X
i=1
x2i − nx̄2
(27)
s2 hat eine andere Dimension als die Meßwerte, nämlich deren Quadrat. Daher
betrachtet man die Standardabweichung
√
s = s2
(28)
2.4.5
Mittlere absolute Abweichung
Arithmetisches Mittel minimiert die Summe der quadratischen Abstände, Median die Summe der Abstandsbeträge zu den Meßwerten. Erstere definiert
die Varianz, zweitere ebenfalls ein Streumaß, die mittlere absolute Abweichung
(mean absolute deviation, MAD)
n
1 X
|xi − xmed |
m=
n i=1
(29)
Ist die MAD robust gegen Ausreißer? Nein. Überlege! Ein robustes Streumaß
ist der auch manchmal verwendete Median der Abweichungen
med(|x1 − xmed |, . . . , |xn − xmed |)
11
(30)
2.4.6
Quantile
Zu einer Zahl p ∈ (0, 1) ist als p–Quantil der Wert a definiert mit folgender
Eigenschaft: Einen zufälligen Wert der Meßreihe ist mit Wahrscheinlichkeit p
kleiner als a.
Zu einer gegebenen Meßreihe der Länge n definieren wir das empirische
p–Quantil wie folgt. Wenn np nicht ganzzahlig
x̃p = x[np]+1 ,
(31)
und Wenn np ganzzahlig
x̃p =
xnp + xnp+1
.
2
(32)
Quantile sind also eine Verallgemeinerung des Medians, man sieht sofort, daß
xmed = x̃1/2 . In Darstellungen sind vor allem die 1/4– und 3/4–Quantile wichtig, die auch unteres und oberes Quartil heißen.
Figur: Empirische Häufigkeitsdichte der Stimmen von U. Kelber in den 230
Bonner Stimmbezirken, mit Mittelwert, Median, Intervall der Standardabweichung um den Mittelwert, sowie 1/4−3/4– und 1/6−5/6–Interquantilintervallen.
10
MittelwertMedian
8
6
4
2
0
−2
0.25
2.4.7
Standardabweichung
1/4−3/4−Interquantil
1/6−5/6−Interquantil
0.3
0.35
0.4
0.45
0.5
0.55
0.6
0.65
Box-Plots
Graphische Darstellung von Median, 1/4–Interquantil, 3/4–Interquantil, maximalem und minimalem Extremwert, wobei die drei mittleren Werte in Kastenform gezeichnet werden. Sie gibt eine gute, schnell faßliche Übersicht über
das Streuverhalten von Daten.
Figur: Boxplot mit Kelbers Stimmen in den Bezirken. Vergleiche mit Interquantilintervallen in der vorhergehenden Abbildung.
12
0.6
0.55
Values
0.5
0.45
0.4
0.35
0.3
1
Column Number
2.4.8
Symmetrie empirischer Verteilungen
Eingipflige und zwei- oder mehrgipflige Verteilungen, unimodal und bimodal.
Beispiel: Größen von Lachsen in Britisch Kolumbien, spontane Aufteilung der
Population in große und kleine (A.P. Hendry & al., Science 290, 516 (2000)).
0.02
0.018
0.016
0.014
0.012
0.01
0.008
0.006
0.004
0.002
0
360
380
400
420
440
460
480
Körperlänge der Weibchen [mm]
500
520
Symmetrische und schiefe Verteilungen. Beispiel für schiefe: Flugweite von
Schmetterlingen auf der Suche nach Wirtspflanzen für Eiablage. Wie weit kommen sie innerhalb von einer Stunde. Ausreißer nach oben sind sehr wahrscheinlich, wenn starker Wind die Tiere wegträgt. Bei einer schiefen sind Median und
Mittelwert verschieden.
13
−3
3.5
x 10
Mittwelwert: 435 m
3
Median: 187 m
2.5
2
1.5
1
0.5
0
0
1000
2000
3000
Flugweite [m]
4000
Definition der Schiefe oder Skewness.
P
P
3
3
i (xi − x̄)
i (xi − x̄)
γ= P
=
s3
( i (xi − x̄)2 )3/2
14
5000
(33)
Herunterladen