1.1 Graphische Darstellung von Messdaten und unterschiedliche

Werbung
1.1 Graphische Darstellung von Messdaten und
unterschiedliche Mittelwerte
D. Horstmann: Oktober 2014
4
Graphische Darstellung von Daten und unterschiedliche Mittelwerte
Eine Umfrage nach der Körpergröße wurde von 87 weiblichen Personen beantwortet, die folgende
Angaben machten:
Das untersuchte Merkmal“Körpergröße” ist ein metrisch messbares Merkmal. Das bedeutet, die
Messung bzw. die Unterscheidung der Merkmalsausprägungen erfolgt anhand einer metrischen
Skala, auf der die aufeinanderfolgenden Skalenpunkte gleichlange Intervalle begrenzen (man
denke hierbei einfach an einen Zollstock).
Aber welche möglichen graphischen Darstellungen gibt es hierfür?
D. Horstmann: Oktober 2014
5
Darstellung der erhobenen Daten mit Hilfe eines Säulendiagramms.
Wenn man die Daten mit Hilfe eines Säulendiagramms darstellen will, so trägt man die
Ausprägungen des untersuchten Merkmals (in unserem Fall der Körpergröße) gegen die absolute
Häufigkeit Hxi der entsprechenden Merkmalsausprägung xi (Anzahl der Individuen, die xi cm
groß sind) auf. Hierbei kann die absolute Häufigkeit Hxi auch durch die relative Häufigkeit
hxi =
Hxi
N
=
absolute Häufigkeit
Gesamtzahl der klassifizierten Objekte
ersetzt werden.
D. Horstmann: Oktober 2014
6
Darstellung der erhobenen Daten mit Hilfe eines Säulendiagramms.
D. Horstmann: Oktober 2014
7
Darstellung der erhobenen Daten mittels eines Strecken- bzw. Flächendiagramms.
Eine Fläche mit einer Grundseite der Länge L wird in Teilabschnitte der Längen lxi = L · hxi
unterteilt, die dann den Merkmalsausprägungen zugewiesen werden.
D. Horstmann: Oktober 2014
8
Kuchen- bzw. Kreisdiagramme.
Man ordnet der Merkmalsausprägung xi einen Kreissektor mit Öffnungswinkel αxi = 360◦ ·hxi
zu.
D. Horstmann: Oktober 2014
9
Illustration der Daten mit Hilfe eines Boxplots.
Achtung!! Besonders klausurrelevant !!
D. Horstmann: Oktober 2014
10
Illustration der Daten mit Hilfe eines Boxplots.
1. Zunächst ordnen wir die Messdaten der Größe nach und nennen sie um, so dass x1 den
kleinsten und xN den größten Wert bezeichnet.
2. Nun ermitteln wir zunächst das arithmetische Mittel xM der Messdaten (den im üblichen
Sprachgebrauch als Durchschnittswert bezeichneten Wert). Dies macht man wie folgt: Man
addiert alle Messwerte xi auf und teilt die so entstehende Summe durch die Anzahl an
vorliegenden Messdaten, d.h.
xM =
1
(x1 + x2 + .... + xN −1 + xN ) .
N
Der Mathematiker verwendet hierfür eine andere Schreibweise. Statt der Klammer schreibt
man
xM
=
N
1 X
xi.
N i=1
Dies bedeutet also nichts anderes, als dass man alle Werte xi anfangend mit x1 bis xN
aufaddiert und dann durch den Wert N teilt.
D. Horstmann: Oktober 2014
11
Das Summenzeichen
Das Symbol
X
bedeutet, dass alle hinter diesem Symbol vorkommenden “Objekte” aufaddiert werden sollen.
Hierbei werden die einzelnen “Objekte” mit Hilfe eines Laufindex durchnummeriert (bzw. falls
möglich hierdurch ausgedrückt), der von einem beliebigen (gegebenen) Wert aus beginnen kann
und mit einem gegebenen Wert endet. Somit ergibt sich also die Notation:
Endwert des
XLaufindex
SummandLaufindex
Laufindex=Startwert des Laufindex
bzw.
N
X
xi = xk + xk+1 + ... + xN −1 + xN
i=k
D. Horstmann: Oktober 2014
12
Das Summenzeichen
Beispiele:
10
X
i=1
10
X
1 = 1 + 1 + 1 + 1 + 1 + 1 + 1 + 1 + 1 + 1 = 10
i = 1 + 2 + 3 + 4 + 5 + 6 + 7 + 8 + 9 + 10 = 55
i=1
N
X
i = 1 + 2 + ... + (N − 1) + N =
i=1
N
+1
X
N · (N + 1)
2
i = 1 + 2 + ... + (N − 1) + N + (N + 1) =
i=1
N
X
i = 2 + ... + (N − 1) + N =
i=2
N
X
(N + 1) · (N + 2)
2
N · (N + 1) − 2
2
xi = x1 + x2 + ... + xN −1 + xN
i=1
D. Horstmann: Oktober 2014
13
Das α-Quantil
Als nächstes müssen wir einen weiteren Begriff einführen: das sogenannte α-Quantil (wobei hier
die Zahl α einen Wert zwischen Null und 1 annimmt, d.h. 0 < α < 1) der Beobachtungsreihe
x1, ..., xN des metrischen Merkmals X (in unserem Fall der Körpergröße). Das α-Quantil wird
mit dem Symbol xα notiert und ist der Wert der Beobachtungsreihe, der wie folgt ermittelt
wird:
Die uns vorliegende Beobachtungsreihe ist nach aufsteigender Größe geordnet. Wir bilden den
Ausdruck r = N · α. Wenn r nicht ganzzahlig ist, gehen wir zur nächst grösseren ganzen
Zahl r über und setzen xα gleich dem Wert unserer geordneten Beobachtungsreihe, der an
der r -ten Stelle in der geordneten Reihe steht. Ist r jedoch ganzzahlig, so setzen wir xα gleich
dem arithmetischen Mittel aus dem r -ten und dem (r + 1)-ten Wert unserer geordneten Reihe.
D. Horstmann: Oktober 2014
14
Das α-Quantil
Beispiel:
Es sei 0 < α < 1.
x1 = 1, x2 = 1, x3 = 2, x4 = 3, x5 = 15, x6 = 1, x7 = 4, x8 = 26, x9 = 5,
x10 = 4, x11 = 1, x12 = 9, x13 = 2, x14 = 4, x15 = 4, x16 = 9, x17 = 2, x18 = 1
1. Schritt: Sortieren der gegebenen Werte der Größe nach aufsteigend.
x1 = 1, x2 = 1, x6 = 1, x11 = 1, x18 = 1, x3 = 2, x13 = 2, x17 = 2, x4 = 3,
x7 = 4, x15 = 4, x10 = 4, x14 = 4, x9 = 5, x12 = 9, x16 = 9, x5 = 15, x8 = 26
2. Schritt: Umbenennen der Werte.
x1 = 1, x2 = 1, x3 = 1, x4 = 1, x5 = 1, x6 = 2, x7 = 2, x8 = 2, x9 = 3, x10 = 4,
x11 = 4, x12 = 4, x13 = 4, x14 = 5, x15 = 9, x16 = 9, x17 = 15, x18 = 26
D. Horstmann: Oktober 2014
15
Das α-Quantil
3. Schritt: Bestimmung der Stelle, an der sich das α-Qunatil befindet, in dem man N · α =: r
berechnet.
x1 = 1, x2 = 1, x3 = 1, x4 = 1, x5 = 1, x6 = 2, x7 = 2, x8 = 2, x9 = 3, x10 = 4,
x11 = 4, x12 = 4, x13 = 4, x14 = 5, x15 = 9, x16 = 9, x17 = 15, x18 = 26
In unserem Beispiel ist N = 18. Bislang hatten wir α nicht konkret bestimmt, sondern nur
angenommen, dass es ein Wert zwischen 0 und 1 ist. Um nun das Beispiel konkret werden zu
lassen, setzen wir für α zwei beliebige konkrete Werte ein. Zunächst setzen wir als Beispiel
α = 0.125 = 18 . Damit ist
N · α = 18 ·
1
18
=
= 2.25
8
8
Da 2.25 keine ganze Zahl ist, rundet man diesen Wert zur nächsten ganzen Zahl auf und nimmt
als α-Qunatil (hier als 0.125-Quantil oder als 12.5%-Quantil) den Wert, der in der aufsteigend
geordneten und umbenannten Datenreihe an der 3. Stelle liegt. In unserem Fall ist es somit der
Wert x3 = 1.
D. Horstmann: Oktober 2014
16
Das α-Quantil
x1 = 1, x2 = 1, x3 = 1, x4 = 1, x5 = 1, x6 = 2, x7 = 2, x8 = 2, x9 = 3, x10 = 4,
x11 = 4, x12 = 4, x13 = 4, x14 = 5, x15 = 9, x16 = 9, x17 = 15, x18 = 26
Nun setzen wir als konkretes zweites Beispiel α = 0.5 = 12 . Damit ist
N · α = 18 ·
18
1
=
=9
2
2
Hier erhält man nun mit 9 eine ganze Zahl. Anstatt nun den Wert an der neunten Stelle in der
aufsteigend geordneten und umbenannten Datenreihe zu nehmen, bildet man das arithmetische
Mittel der Werte, die sich an ihrer neunten und zehnten Stelle befinden. Das heißt, man
berechnet den Wert
x9 + x10
3+4
=
= 3.5
2
2
auch wenn sich der Wert 3.5 nicht in der aufsteigend geordneten und umbenannten Datenreihe
befindet, so ist dieser Wert das zu der Datenreihe gehörige 0.5-Quantil bzw. das 50%-Quantil,
das man auch den Median der gegebenen Datenreihe nennt.
D. Horstmann: Oktober 2014
17
Illustration der Daten mit Hilfe eines Boxplots.
Für den Boxplot bestimmen wir nun die 3 Quartile der geordneten Beobachtungsreihe. Die
Quartile sind die α-Quantile der Beobachtungsreihe für die Werte α = 0.25, α = 0.5, α =
0.75.
Die Besonderheit dieser Werte sind die folgenden Eigenschaften, die sie besitzen. Durch die oben
beschriebene Berechnung der Quartile ist sichergestellt, dass 25% der Werte der geordneten
Beobachtungsreihe kleiner oder gleich dem 25%-Quantil sind. Analog bedeutet das für das
75%-Quantil, dass 75% der Werte der geordneten Beobachtungsreihe kleiner oder gleich sind.
Für das 50%-Quantil gilt, dass genau die Hälfte der Werte der geordneten Beobachtungsreihe
kleiner und die andere Hälfte größer diesem sind. Das 50%-Quantil ist also ein besonderer
“Mittelwert”, der Median genannt wird.
Ein Boxplot ist nun ein Kasten bzw. eine “Schachtel”, dessen bzw. deren beide äußeren Grenzen
am Ort des 1. und des 3. Quartils liegen. Im Inneren der Schachtel befindet sich eine Linie,
die die Lage des Medians angibt. Von den Grenzen der Schachtel ausgehend zeichnet man je
einen Stempel. Diese erstrecken sich bis zu den Extremstellen xmin und xmax der geordneten
Beobachtungsreihe. Der arithmetische Mittelwert wird mit einem Kreuz dargestellt.
D. Horstmann: Oktober 2014
18
In unserem Beispiel mit den Körpergrößen ergeben sich nun folgende Werte:
xM
=
168.59, x0.25 = 164, x0.75 = 173,
x0.50
=
168, xmin = 150, xmax = 181.
Die folgende Abbildung zeigt einen solchen Boxplot für unser konkretes Beispiel.
Anmerkung 1. In der Regel weichen Median und arithmetischer Mittelwert weit voneinander
ab.
D. Horstmann: Oktober 2014
19
1.2 Weitere Analyse der vorliegenden Messdaten
D. Horstmann: Oktober 2014
20
Die Stichprobenvarianz
Interessant ist sicherlich die Frage, wie sehr die einzelnen Messdaten von dem durchschnittlichen
Wert der Messreihe (dem arithmetischen Mittel) abweichen. Das heißt, man ist daran interessiert,
die Streuung der Messdaten zu beschreiben.
Ein hierbei verwendetes Hilfsmittel ist die sogenannte Stichprobenvarianz oder kurz die Varianz
der Messreihe.
Definition 1. Die Varianz s2x einer N Daten umfassenden Messreihe ist die durch N −
1 geteilte Summe der quadratischen Abweichungen der Messdaten vom durchschnittlichen
Messwert, d.h.
2
sx
:=
”
1 “
2
2
2
2
(x1 − xM ) + (x2 − xM ) + ... + (xN −1 − xM ) + (xN − xM )
N −1
=
1 X
2
(xi − xM ) .
N − 1 i=1
N
!! Klausurrelevant !!
D. Horstmann: Oktober 2014
21
Die Stichprobenvarianz
Die Varianz einer Messreihe ist also ein Streuungsmaß. Die Bezeichnung s2x soll darauf hinweisen,
dass die Varianz als Summe von quadratischen Termen immer größer oder gleich Null ist.
Berechnet man die Varianz in unserem Beispiel für die Körpergröße, so ergibt sich:
87
1 X
2
sx =
86 i=1
D. Horstmann: Oktober 2014
„
«
16859 2
30749247
xi −
=
≈ 35.75.
100
860000
22
Der Verschiebungssatz für die Stichprobenvarianz
Oftmals ist es nützlicher, eine andere Formel zur Berechnung der Varianz heranzuziehen. Wir
sehen, dass:
N
2
sx
1 X
2
(xi − xM )
n − 1 i=1
=
N
”
1 X“ 2
2
xi − 2 · xi · xM + xM
n − 1 i=1
!
!
N
N
X
X
1
2
xi −
2 · xi · xM +
n−1
i=1
i=1
=
=
N
X
!!
2
xM
.
i=1
Hieraus ergibt sich:
2
sx
=
D. Horstmann: Oktober 2014
1
n−1
N
X
i=1
!
2
xi
− 2 · xM ·
N
X
!
xi
!
2
+ N · xM
.
i=1
23
Nun haben wir bereits gesehen, dass die Summe der Messdaten geteilt durch die Gesamtzahl
der Messdaten gleich dem Wert xM ist. Somit gilt:
2
sx
=
=
=
=
D. Horstmann: Oktober 2014
1
N −1
N
X
1
N −1
N
X
1
N −1
N
X
1
N −1
N
X
!
2
xi
i=1
− 2 · xM
2
i=1
−2·
N
· xM
N
!
2
2
xi
i=1
2
xi
!
2
+ N · xM
N
X
!
xi
i=1
!
2
+ N · xM
!
2
− 2 · N · xM + N · xM
!
xi
!
i=1
!
xi
N
X
!
2
− N · xM
.
i=1
24
Der Verschiebungssatz für die Stichprobenvarianz
Lemma 1. [Verschiebungssatz für die Stichprobenvarianz] Die Stichprobenvarianz s2x
bzw. die Varianz einer Messreihe läßt sich auch mit Hilfe der nachfolgenden Formel berechnen:
2
sx
=
1
N −1
N
X
!
2
xi
!
2
− N · xM
.
i=1
Oft ist es nützlich, von diesem Verschiebungssatz Gebrauch zu machen, wenn man die Varianz
berechnen soll.
D. Horstmann: Oktober 2014
25
Herunterladen