Häufigkeiten

Werbung
3
Häufigkeiten
3.1
Häufigkeiten bei diskreten Merkmalen 39
3.1.1
Absolute und relative Häufigkeiten 39
3.1.2
Graphische Darstellungen 40
3.2
Häufigkeiten bei stetigen Merkmalen 42
3.2.1
Das Prinzip der Klassenbildung 42
3.2.2
Graphische Darstellungen 44
3.3
Die empirische Verteilungsfunktion 46
3.4
2-dimensionale Häufigkeiten 49
3.4.1
Die Kontingenztafel 49
3.4.2
Die Beschreibung einer Assoziation 50
3.4.3
Ausblick auf die induktive Statistik 52
Schlüsselbegriffe:
Basiswissen Medizinische Statistik
sind fett und kursiv
hervorgehoben
Inhaltliche Struktur:
klare Gliederung durch
alle Kapitel
38
Leitsystem: schnelle
Orientierung über alle
Kapitel
3
Kapitel 3 · Häufigkeiten
3.1
Häufigkeiten bei diskreten Merkmalen
3.1.1
Absolute und relative Häufigkeiten
Um sich einen Überblick bezüglich wesentlicher Eigenschaften eines
Merkmals anzueignen, beginnt man mit der Häufigkeitsverteilung.
Diese Verteilung beschreibt, wie häufig die einzelnen Merkmalsausprägungen in der Stichprobe zu finden sind.
k
¦n
Info: zusätzliche
i =1
Informationen zum
jeweiligen Thema
i
=n
(3.1)
i Bei dem Summen-Zeichen ƶ handelt es sich um den griechischen
z
Buchstaben Sigma. Damit werden Summen in verkürzter Schreibweise
k
dargestellt. Der Ausdruck
¦n
i =1
Verweise auf Kapitel,
Tabellen, Herleitungen und Beispiele:
i
entspricht der Summe n1 + n2 + ... + nk .
In der Praxis gewinnt man die Häufigkeiten am einfachsten durch
das Erstellen einer Strichliste oder – weniger mühsam – mittels einer
› Beispiel 3.1).
geeigneten Software (z
z
deutlich herausgestellt
und leicht zu finden
Beispiel 3.1
Wir betrachten das qualitative Merkmal „Blutgruppe“ mit den Daten der in
Tabelle 2.1 aufgelisteten Stichprobe von n = 71 Beobachtungseinheiten. Es ergeben sich folgende Häufigkeiten:
Ausprägung
absolute Häufigkeiten
relative Häufigkeiten
n1 = 28
A1 =Blutgruppe 0
h1 = 39 %
Beispiele: zum
besseren Verständnis
des Stoffes
Tabellen: klar
und übersichtlich
gegliedert
A2 =Blutgruppe A
n2 = 31
h2 = 44 %
A3 =Blutgruppe B
n3 = 9
h3 = 13 %
A4 =Blutgruppe AB
n4 = 3
h4 = 4 %
Summe
n = 71
100%
! Die relative Häufigkeit wird oft in Prozentwerten angegeben. Da der
z
Ausdruck Prozent „von Hundert“ bedeutet, sind derlei Angaben nur bei
einem hinreichend großen Stichprobenumfang sinnvoll. Wenn man bei
kleineren Stichproben mit weniger als 50 Beobachtungseinheiten Prozente berechnet, täuscht man eine höhere Genauigkeit vor als in Wirklichkeit vorhanden ist. In diesen Fällen sollte man anstelle der Prozentangaben einfache Quotienten bevorzugen – wie z. B.: Die relative Häufigkeit der Blutgruppe A bei den männlichen Studenten beträgt 10/23.
Cave:
Vorsicht Fallstricke!
Navigation: Seitenzahl
und Kapitelnummer für
die schnelle Orientierung
3
39
3.1 Häufigkeiten bei diskreten Merkmalen
Abb. 3.1
Kreisdiagramm;
Darstellung der
Häufigkeiten des
Merkmals „Blutgruppe“
(Beispiel 3.1)
Zahlreiche Abbildungen: veranschaulichen
komplizierte und komplexe Sachverhalte
Mathematische Herleitung des Korrelationskoeffizineten nach Pearson
Es ist offenkundig, dass die Kovarianz sxy genau dann maximal wird, wenn
der Zusammenhang funktional ist und durch eine lineare Gleichung
y = a + bx exakt beschrieben werden kann. Dann erhält man nach den
Definitionen der Kovarianz und der Varianz in (5.1) und (4.6):
n
s xy =
¦x y
i
i
− nxy
n
¦ x (a + bx ) − nx (a + bx )
i
=
n −1
Für die Varianz s y 2 ergibt sich:
i =1
n
¦( y
i
i =1
− y )2
i
n −1
n
=
b( ¦ xi2 − nx 2 )
i =1
n −1
= bsx 2
n
b2 ¦ ( xi − x )2
= i =1
= b sx
s y = i =1
n −1
n −1
Für positives b ist s y = bsx und s xy = bs x 2 = sx ⋅ s y . Für negatives b folgt ana2
2
2
Herleitungen:
Logisches Nachvollziehen einer Formel zum
besseren Verständnis
log: s y = − bsx und sxy = − sx ⋅ s y . Da es sich hierbei um die beiden Extremfälle
handelt, folgt für die Kovarianz: − sx ⋅ s y ≤ sxy ≤ sx ⋅ s y . Daraus ergibt sich für
sxy
den Korrelationskoeffizienten r =
: −1 ≤ r ≤ 1 .
sx ⋅ s y
Merke
Anhand eines Diagramms lassen sich bei quantitativen Merkmalen folgende Eigenschaften ablesen:
ŷ Lage:
In welchem Bereich konzentrieren sich die Werte?
Welches ist der größte, welches der kleinste Wert?
Welche Ausprägungen sind häufig, welche selten oder
gar nicht vertreten?
ŷ Streuung: Streuen die Werte weit um den Mittelwert?
Gibt es Ausreißer?
ŷ Form:
Hat die Verteilung eine besondere Form?
Ist sie symmetrisch oder schief?
Wie viele Gipfel sind erkennbar?
Aufzählungen: Lerninhalte
übersichtlich präsentiert
Merke:
das Wichtigste auf den
Punkt gebracht
Sagen Sie uns Ihre Meinung!
⇒ www.lehrbuch-medizin.de
3
39
3.1 Häufigkeiten bei diskreten Merkmalen
3.1
Häufigkeiten bei diskreten Merkmalen
3.1.1
Absolute und relative Häufigkeiten
Um sich einen Überblick bezüglich wesentlicher Eigenschaften eines
Merkmals anzueignen, beginnt man mit der Häufigkeitsverteilung.
Diese Verteilung beschreibt, wie häufig die einzelnen Merkmalsausprägungen in der Stichprobe zu finden sind.
Häufigkeiten lassen sich für jedes Merkmal und jedes Skalenniveau ermitteln. In den Abschnitten 3.1 und 3.2 werden – getrennt
für diskrete und stetige Merkmale – Häufigkeitsbegriffe erörtert und
graphische Darstellungen vorgestellt.
Zu den diskreten Merkmalen zählen alle qualitativen sowie die
quantitativ-diskreten Merkmale. Die Anzahl der Ausprägungen ist in
der Regel wesentlich kleiner als der Stichprobenumfang und damit
überschaubar. So gehören beispielsweise zum qualitativen Merkmal
„Blutgruppe“ die vier Ausprägungen 0, A, B und AB. Durch einfaches Abzählen lässt sich ermitteln, wie häufig die einzelnen Ausprägungen in der Stichprobe vertreten sind.
Allgemein formuliert man diesen Sachverhalt folgendermaßen:
Ein diskretes Merkmal A habe k verschiedene Ausprägungen
A1 ,..., Ak . Die absolute Häufigkeit einer Ausprägung Ai wird mit ni
bezeichnet. Der Buchstabe i ist der so genannte Laufindex, der zwischen 1 und k variiert. Die Summe aller absoluten Häufigkeiten ni
entspricht der Anzahl der Beobachtungseinheiten in der Stichprobe
– das ist der Stichprobenumfang n:
k
∑n
i =1
i
=n
(3.1)
i Bei dem Summen-Zeichen Σ handelt es sich um den griechischen
z
Buchstaben Sigma. Damit werden Summen in verkürzter Schreibweise
k
dargestellt. Der Ausdruck
∑n
i =1
i
entspricht der Summe n1 + n2 + ... + nk .
Unter der relativen Häufigkeit hi einer Ausprägung Ai versteht man
den Quotienten
´
hi =
ni
n
(3.2)
40
Kapitel 3 · Häufigkeiten
Aus dieser Definition folgt, dass 0 ≤ hi ≤ 1, und dass sich die relativen
Häufigkeiten aller Ausprägungen zu 1 aufaddieren:
k
k
∑n
i =1
n
∑ hi =
3
i =1
i
=
n
=1
n
(3.3)
In der Praxis gewinnt man die Häufigkeiten am einfachsten durch
das Erstellen einer Strichliste oder – weniger mühsam – mittels einer
› Beispiel 3.1).
geeigneten Software (z
Beispiel 3.1
Wir betrachten das qualitative Merkmal „Blutgruppe“ mit den Daten der in
Tabelle 2.1 aufgelisteten Stichprobe von n = 71 Beobachtungseinheiten. Es ergeben sich folgende Häufigkeiten:
Ausprägung
absolute Häufigkeiten
relative Häufigkeiten
n1 = 28
A1 =Blutgruppe 0
h1 = 39 %
n2 = 31
h2 = 44 %
A3 =Blutgruppe B
n3 = 9
h3 = 13 %
A4 =Blutgruppe AB
n4 = 3
h4 = 4 %
Summe
n = 71
100%
A2 =Blutgruppe A
! Die relative Häufigkeit wird oft in Prozentwerten angegeben. Da der
z
Ausdruck Prozent „von Hundert“ bedeutet, sind derlei Angaben nur bei
einem hinreichend großen Stichprobenumfang sinnvoll. Wenn man bei
kleineren Stichproben mit weniger als 50 Beobachtungseinheiten Prozente berechnet, täuscht man eine höhere Genauigkeit vor als in Wirklichkeit vorhanden ist. In diesen Fällen sollte man anstelle der Prozentangaben einfache Quotienten bevorzugen – wie z. B.: Die relative Häufigkeit der Blutgruppe A bei den männlichen Studenten beträgt 10/23.
3.1.2
Graphische Darstellungen
Graphische Darstellungen bringen die oben beschriebenen Sachverhalte prägnant zum Ausdruck.
• Kreisdiagramm. Bei dieser Darstellung geben die einzelnen
„
Kreissektoren die Häufigkeiten ni wieder. Anstelle der absoluten
Häufigkeiten ni lassen sich auch die relativen Häufigkeiten hi darstellen; dabei ändert sich nur der Maßstab des Diagramms, nicht jedoch dessen Aussehen. Bei einem Kreisdiagramm kommt allerdings
41
3
3.1 Häufigkeiten bei diskreten Merkmalen
nicht (zumindest nicht auf den ersten Blick) zur Geltung, welches
die kleinste oder die größte Ausprägung ist – deshalb eignet sich
›
diese Art der Darstellung nur für nominal skalierte Merkmale (z
Abbildung 3.1).
• Rechteckdiagramm (oder Blockdiagramm). Hier ist ein Rechteck
„
entsprechend der einzelnen Häufigkeiten unterteilt. Diese Darstellung eignet sich auch für ordinal skalierte Merkmale, da die kleinste
und die größte Ausprägung zu erkennen sind.
• Balkendiagramm. Diese Art von Diagrammen eignet sich für alle
„
diskreten Merkmale. Die Längen der einzelnen Balken entsprechen
› Abbildung 3.2). Dabei sind zahlreiden Häufigkeiten ni oder hi (z
che Varianten denkbar. Die 2-dimensionalen Balken lassen sich
durch 1-dimensionale Striche oder 3-dimensionale Säulen ersetzen.
Bei senkrechter Anordnung spricht man auch von einem Säulendiagramm; wenn anstelle der Säulen 1-dimensionale Striche verwendet
werden, bezeichnet man dies als Stabdiagramm. Darüber hinaus
können die Balken horizontal anstatt vertikal angeordnet werden;
bezüglich Farben, Mustern und Hintergründen sind – nicht zuletzt
dank geeigneter Software- und Hardwareprodukte – der Phantasie
keine Grenzen gesetzt. Man sollte jedoch bei solchen Darstellungen
vor allem darauf achten, dass die wesentlichen Eigenschaften der
Häufigkeitsverteilung optimal zur Geltung kommen und nicht zugunsten optischer Effekte in den Hintergrund treten.
Abb. 3.1
Kreisdiagramm;
Darstellung der
Häufigkeiten des
Merkmals „Blutgruppe“
(Beispiel 3.1)
Abb. 3.2
Balkendiagramm;
Darstellung der
Häufigkeiten des Merkmals „Anzahl richtig
gelöster Klausuraufgaben“
42
3
Kapitel 3 · Häufigkeiten
• Punktediagramm. Dies ist eine Darstellung einfachster Art für
„
quantitative Merkmale. Die Stichprobenwerte werden entlang einer
Achse (die waagrecht oder senkrecht angeordnet sein kann) als einzelne Punkte eingetragen. Diese Art der Darstellung eignet sich weniger zu Präsentationszwecken als vielmehr dazu, schnell und einfach einen Überblick über die Häufigkeitsverteilung zu gewinnen.
3.2
Häufigkeiten bei stetigen Merkmalen
3.2.1
Das Prinzip der Klassenbildung
Bei der Erfassung eines stetigen Merkmals (z. B. der Körpergröße)
werden – bedingt durch die begrenzte Messgenauigkeit – die gemessenen Werte im Einzelfall auf- oder abgerundet. Im Vergleich zum
Stichprobenumfang ergeben sich zahlreiche Ausprägungen, deren
Häufigkeiten meist gering und daher wenig informativ sind. So
schwankt beispielsweise die Körpergröße der Studenten in Tabelle
2.1 zwischen 156 cm und 196 cm – dies sind 41 verschiedene Werte
für 71 Beobachtungseinheiten. Davon haben 14 Ausprägungen die
Häufigkeit 0, neun sind nur einmal vertreten.
Es erweist sich in solchen Fällen als sinnvoll, mehrere nebeneinander liegende Ausprägungen zusammenzufassen und Klassen zu
bilden. Dies ist auch bei einem quantitativ-diskreten Merkmal mit
extrem vielen, fein abgestuften Ausprägungen gerechtfertigt (z. B.
die Leukozytenanzahl). Ein solches Merkmal kann für praktische
Analysen wie ein stetiges Merkmal behandelt werden.
Damit verbindet sich die Frage, wie die Anzahl der Klassen und
deren Breiten festzulegen sind. Bei sehr vielen, schmalen Klassen ist
die Darstellung unübersichtlich und der Verteilungstyp schwer erkennbar. Dagegen ist eine geringe Anzahl von breiten Klassen mit
einem hohen Informationsverlust verbunden; charakteristische
Eigenschaften der Verteilung werden eventuell verdeckt.
Es gibt bezüglich der Klassenbildung zwar keine strengen Vorschriften, jedoch einige Faustregeln, die einen Kompromiss zwischen
einer übersichtlichen Darstellung einerseits und einem geringen Informationsverlust andererseits beinhalten:
▬ Die Klassenanzahl k richtet sich nach dem Stichprobenumfang n.
Als Anhaltspunkt gilt: k ≈ n . Für größere Stichprobenumfänge
n ≥ 1000 verwendet man k ≈ 10 ⋅ lg n (wobei lg der Zehnerlogarithmus bedeutet), damit die Klassenanzahl nicht zu groß wird.
3
43
3.2 Häufigkeiten bei stetigen Merkmalen
▬ Weniger als drei Klassen sind generell nicht sinnvoll.
▬ Am übersichtlichsten ist die Darstellung, wenn die Klassenbreiten gleich sind. Wenn jedoch Ausreißer vorhanden sind, ist es
eventuell sinnvoll, am jeweiligen Rand eine breite Klasse zu bilden. Klassen mit den Grenzen -∞ oder +∞ sind zu vermeiden.
▬ Es muss eindeutig geklärt sein, welcher Klasse ein Datum zugeordnet wird, das auf eine Klassengrenze fällt. Man umgeht dieses
Problem, indem man die Grenzen so definiert, dass sie nicht mit
Werten der Stichprobe zusammenfallen. Ansonsten muss man
die Klassen als halboffene Intervalle festlegen (meist benutzt
man Intervalle, die links offen und rechts abgeschlossen sind).
Bei klassierten Daten ermittelt man die absolute Häufigkeit oder die
Besetzungszahl einer Klasse und bezeichnet diese als ni . Der Laufindex i kennzeichnet die Klassen in aufsteigender Reihenfolge ( i = 1
bezeichnet also die erste Klasse mit den kleinsten Messwerten, i = k
die letzte Klasse mit den größten Werten). Basierend auf den absoluten Häufigkeiten ni berechnet man die relativen Klassenhäufigkeiten hi ebenso wie bei diskreten Merkmalen.
Beispiel 3.2
Die Messwerte für die Körpergröße der 71 Studenten in Tabelle 2.1 variieren
zwischen 156 und 196 cm. Das Intervall (152,5 cm; 197,5 cm) wird in 9 Klassen
der Klassenbreite 5 cm eingeteilt. Dadurch ist gewährleistet, dass kein Messwert
auf eine Klassengrenze fällt.
relative
absolute
relative
absolute
Laufindex Klassengrenzen
Häufigkeit Häufigkeit Summenh. Summenh.
i
in cm
ni
hi
Ni
Hi
1
2
3
4
5
6
7
8
9
(152,5 ; 157,5)
(157,5 ; 162,5)
(162,5 ; 167,5)
(167,5 ; 172,5)
(172,5 ; 177,5)
(177,5 ; 182,5)
(182,5 ; 187,5)
(187,5 ; 192,5)
(192,5 ; 197,5)
5
2
10
18
12
17
3
1
3
0,07
0,03
0,14
0,25
0,17
0,24
0,04
0,01
0,04
5
7
17
35
47
64
67
68
71
0,07
0,10
0,24
0,49
0,66
0,90
0,94
0,96
1
Um die Häufigkeitsbegriffe zu verdeutlichen, betrachten wir die 4. Klasse. Die
absolute und die relative Häufigkeit n4 bzw. h4 bedeuten: 18 Studenten (das entspricht 25 %) haben eine Körpergröße zwischen 167,5 cm und 172,5 cm. Die ab› Abschnitt 3.3) N 4 bzw. H 4 besasolute und die relative Summenhäufigkeit (z
gen, dass 35 insgesamt Studenten bzw. 49 % kleiner als 172,5 cm sind.
44
Kapitel 3 · Häufigkeiten
i Wenn eine Intervallgrenze durch eine runde Klammer angegeben wird,
z
bedeutet dies, dass der Grenzwert nicht im Intervall enthalten ist. Eine
eckige Klammer ([ oder ]) zeigt an, dass der Grenzwert zum Intervall gehört.
! In früheren Zeiten – als man einen Mittelwert noch per Hand oder mit
z
3
einem Taschenrechner ermittelte – erleichterte man sich bei umfangreichem Datenmaterial die Arbeit, indem man die Daten in eine überschaubare Anzahl von Klassen zusammenfasste und den Mittelwert und andere
Kenngrößen aus den Klassenmitten ermittelte. Deshalb legte man Wert
darauf, dass die Klassenmitten rechentechnisch günstige Werte waren.
Heute – im Zeitalter benutzerfreundlicher Statistiksoftware – ist dieses
Argument obsolet. Die Einteilung in Klassen wird hauptsächlich vorgenommen, um die Daten übersichtlich graphisch darzustellen.
3.2.2
Graphische Darstellungen
• Histogramm. Bei dieser Darstellung wird jede Klasse durch ein
„
Rechteck repräsentiert, dessen Flächen proportional zu den jeweiligen Klassenhäufigkeiten sind. Am übersichtlichsten ist ein
› Abbildung 3.3); dann
Histogramm mit gleichen Klassenbreiten (z
sind auch die Höhen der Rechtecke proportional zu den Häufigkeiten. Falls Daten auf eine Klassengrenze fallen, muss gekennzeichnet
werden, welcher Klasse diese Daten zugerechnet werden (üblicherweise wählt man die untere Klasse). Die mathematische Funktion,
die ein Histogramm beschreibt, bezeichnet man als empirische
Dichte. Sie ist definiert als:
0 für x ≤ a0

 hi
f ( x) = 
für ai −1 < x ≤ ai (i = 1,..., k )
 ai − ai −1
0 für x > ak
(3.4)
Dabei sind a i −1 und a i die untere bzw. die obere Grenze der i.
Klasse, k ist die Klassenanzahl. Dieses Histogramm besteht aus k
Rechtecken der Fläche hi . Die Gesamtfläche hat den Wert 1.
• Häufigkeitspolygon. Diese Darstellung erhält man, indem man
„
senkrecht auf die Klassenmitten Strecken in Höhe der entsprechenden Häufigkeiten aufträgt und deren Endpunkte miteinander ver› Abbildung 3.4).
bindet (z
45
3
3.2 Häufigkeiten bei stetigen Merkmalen
• Stamm-und-Blatt-Diagramm. Hier werden die Daten zunächst
„
nach ihrer Größe geordnet und dann von unten nach oben aufgetragen. Der Stamm besteht aus den ersten Stellen der Stichproben› Abbildung
werte, die Blätter stellen die folgenden Ziffern dar (z
3.5). Diese Darstellung benutzt man, um sich einen schnellen Überblick über die Häufigkeitsverteilung zu verschaffen. Für Präsentationszwecke ist sie weniger geeignet.
Eine graphische Darstellung liefert zwar auf einen Blick wesentliche
Informationen; sie allein ist jedoch für eine statistische Datenanalyse
unzureichend. Kenngrößen, die die oben genannten Eigenschaften
quantitativ beschreiben, sind Gegenstand des Kapitels 4.
Abb. 3.3
Histogramm für das
Merkmal „Körpergröße“ (Beispiel
3.2), Einteilung in 9
Klassen
Abb. 3.4
Häufigkeitspolygon
für das Merkmal
„Körpergröße“
(Beispiel 3.2)
Abb. 3.5
Stamm- und
Blattdiagramm;
Darstellung der
Körpergewichte der
männlichen Studenten
46
3
Kapitel 3 · Häufigkeiten
Merke
Anhand eines Diagramms lassen sich bei quantitativen Merkmalen folgende Eigenschaften ablesen:
▬ Lage:
In welchem Bereich konzentrieren sich die Werte?
Welches ist der größte, welches der kleinste Wert?
Welche Ausprägungen sind häufig, welche selten oder
gar nicht vertreten?
▬ Streuung: Streuen die Werte weit um den Mittelwert?
Gibt es Ausreißer?
▬ Form:
Hat die Verteilung eine besondere Form?
Ist sie symmetrisch oder schief?
Wie viele Gipfel sind erkennbar?
3.3
Die empirische Verteilungsfunktion
Bei quantitativen oder ordinal skalierten Merkmalen mag es sinnvoll
sein, die Häufigkeiten beginnend bei der kleinsten Ausprägung in
aufsteigender Reihenfolge aufzuaddieren. Dadurch erhält man die
Anzahl der Daten, die eine bestimmte obere Grenze nicht überschreiten. Diese Häufigkeiten nennt man kumulative oder Summenhäufigkeiten. Unter der Annahme, dass die Ausprägungen sortiert
sind mit A1 < A2 < ...< Ak , gilt für die absoluten Summenhäufigkeiten:
i
N i = ∑ n j (für i = 1,..., k )
(3.5)
j =1
Die relativen Summenhäufigkeiten sind entsprechend definiert als:
i
H i = ∑ h j (für i = 1,..., k )
(3.6)
j =1
Die zu den einzelnen Ausprägungen gehörenden relativen Summenhäufigkeiten H i werden durch die empirische Verteilungsfunktion
F (x ) mathematisch beschrieben:
0 für x < A1

F ( x ) =  H i für Ai ≤ x < Ai +1 (i = 1,..., k − 1)
1 für x ≥ A

k
(3.7)
3
47
3.3 Die empirische Verteilungsfunktion
Beispiel 3.3
Für die Körpergrößen der Studenten ergeben sich mit den Daten aus Tabelle 2.1
folgende Summenhäufigkeiten, auf denen die empirische Verteilungsfunktion
› Abbildung 3.6). Angegeben sind die absoluten und relativen Häufigbasiert (z
keiten ni und hi sowie die Summenhäufigkeiten N i und Hi .
Ausprägung Körpergröße
ni
hi
Ni
Hi
A1
A2
A3
A4
A5
A6
A7
A8
A9
A10
A11
A12
A13
A14
A15
A16
A17
A18
A19
A20
A21
A22
A23
A24
A25
A26
A27
156
157
160
162
163
164
165
166
167
168
169
170
172
173
174
175
176
177
178
179
180
182
185
186
190
193
196
3
2
1
1
2
2
4
1
1
6
2
4
6
3
3
2
3
1
5
3
8
1
1
2
1
2
1
0,04
0,03
0,01
0,01
0,03
0,03
0,06
0,01
0,01
0,08
0,03
0,06
0,08
0,04
0,04
0,03
0,04
0,01
0,07
0,04
0,11
0,01
0,01
0,03
0,01
0,03
0,01
3
5
6
7
9
11
15
16
17
23
25
29
35
38
41
43
46
47
52
55
63
64
65
67
68
70
71
0,04
0,07
0,08
0,10
0,13
0,15
0,21
0,23
0,24
0,32
0,35
0,41
0,49
0,54
0,58
0,61
0,65
0,66
0,73
0,77
0,89
0,90
0,92
0,94
0,96
0,99
1
F (x) gibt die relativen Häufigkeiten an, mit der in der Stichprobe
Werte vorhanden sind, die gleich x oder kleiner als x sind. Für das
obige Beispiel 3.3 gilt etwa: F (172) = 0,49 . Das bedeutet: Knapp die
Hälfte der Studenten ist 172 cm groß oder kleiner; 51 % sind größer
als 172 cm.
48
3
Kapitel 3 · Häufigkeiten
Abb. 3.6
empirische Verteilungsfunktion F ( x )
für das Merkmal
„Körpergröße“
(Beispiel 3.3)
Die Abbildung 3.6 verdeutlicht wesentliche Eigenschaften der Verteilungsfunktion F (x) :
▬ F (x) ist eine Treppenfunktion;
▬ F ( x) = 0 für alle x, die kleiner als der kleinste Stichprobenwert
x min sind;
▬ F (x) wächst ab x min monoton von 0 bis 1;
▬ F ( x) = 1 ab dem größten Wert x max .
i Eine Funktion heißt monoton wachsend, wenn für zwei x-Werte mit
z
x1 < x2 gilt: F ( x1 ) ≤ F ( x2 ) . Falls sogar gilt: F ( x1 ) < F ( x2 ) für x1 < x2 ,
heißt die Funktion streng monoton wachsend. Die empirische Verteilungsfunktion F ( x ) ist demnach monoton, aber nicht streng monoton
wachsend.
Bei fein abgestuften Ausprägungen ist die Anzahl der Treppen zahlreich und die Stufen sind entsprechend niedrig; die Treppenfunktion
nähert sich einer glatten Kurve.
In der Pharmakologie werden Verteilungsfunktionen zur Analyse der dosisabhängigen Wirksamkeit eines Pharmakons verwendet.
Dabei beschreibt die empirische Funktion F (x) den relativen Anteil
der Untersuchungseinheiten, bei denen ein Effekt der Dosis x erkennbar ist. Die graphische Darstellung von F (x) bezeichnet man
als Dosiswirkungskurve. Auch in der Labormedizin arbeitet man
häufig mit der Verteilungsfunktion. Wenn etwa für einen Cholesterinwert x gilt F ( x) = 0,98 , informiert diese Angabe darüber, dass
dieser Wert im oberen 2%-Bereich liegt.
http://www.springer.com/978-3-540-71460-6
Herunterladen