3 Häufigkeiten 3.1 Häufigkeiten bei diskreten Merkmalen 39 3.1.1 Absolute und relative Häufigkeiten 39 3.1.2 Graphische Darstellungen 40 3.2 Häufigkeiten bei stetigen Merkmalen 42 3.2.1 Das Prinzip der Klassenbildung 42 3.2.2 Graphische Darstellungen 44 3.3 Die empirische Verteilungsfunktion 46 3.4 2-dimensionale Häufigkeiten 49 3.4.1 Die Kontingenztafel 49 3.4.2 Die Beschreibung einer Assoziation 50 3.4.3 Ausblick auf die induktive Statistik 52 Schlüsselbegriffe: Basiswissen Medizinische Statistik sind fett und kursiv hervorgehoben Inhaltliche Struktur: klare Gliederung durch alle Kapitel 38 Leitsystem: schnelle Orientierung über alle Kapitel 3 Kapitel 3 · Häufigkeiten 3.1 Häufigkeiten bei diskreten Merkmalen 3.1.1 Absolute und relative Häufigkeiten Um sich einen Überblick bezüglich wesentlicher Eigenschaften eines Merkmals anzueignen, beginnt man mit der Häufigkeitsverteilung. Diese Verteilung beschreibt, wie häufig die einzelnen Merkmalsausprägungen in der Stichprobe zu finden sind. k ¦n Info: zusätzliche i =1 Informationen zum jeweiligen Thema i =n (3.1) i Bei dem Summen-Zeichen ƶ handelt es sich um den griechischen z Buchstaben Sigma. Damit werden Summen in verkürzter Schreibweise k dargestellt. Der Ausdruck ¦n i =1 Verweise auf Kapitel, Tabellen, Herleitungen und Beispiele: i entspricht der Summe n1 + n2 + ... + nk . In der Praxis gewinnt man die Häufigkeiten am einfachsten durch das Erstellen einer Strichliste oder – weniger mühsam – mittels einer › Beispiel 3.1). geeigneten Software (z z deutlich herausgestellt und leicht zu finden Beispiel 3.1 Wir betrachten das qualitative Merkmal „Blutgruppe“ mit den Daten der in Tabelle 2.1 aufgelisteten Stichprobe von n = 71 Beobachtungseinheiten. Es ergeben sich folgende Häufigkeiten: Ausprägung absolute Häufigkeiten relative Häufigkeiten n1 = 28 A1 =Blutgruppe 0 h1 = 39 % Beispiele: zum besseren Verständnis des Stoffes Tabellen: klar und übersichtlich gegliedert A2 =Blutgruppe A n2 = 31 h2 = 44 % A3 =Blutgruppe B n3 = 9 h3 = 13 % A4 =Blutgruppe AB n4 = 3 h4 = 4 % Summe n = 71 100% ! Die relative Häufigkeit wird oft in Prozentwerten angegeben. Da der z Ausdruck Prozent „von Hundert“ bedeutet, sind derlei Angaben nur bei einem hinreichend großen Stichprobenumfang sinnvoll. Wenn man bei kleineren Stichproben mit weniger als 50 Beobachtungseinheiten Prozente berechnet, täuscht man eine höhere Genauigkeit vor als in Wirklichkeit vorhanden ist. In diesen Fällen sollte man anstelle der Prozentangaben einfache Quotienten bevorzugen – wie z. B.: Die relative Häufigkeit der Blutgruppe A bei den männlichen Studenten beträgt 10/23. Cave: Vorsicht Fallstricke! Navigation: Seitenzahl und Kapitelnummer für die schnelle Orientierung 3 39 3.1 Häufigkeiten bei diskreten Merkmalen Abb. 3.1 Kreisdiagramm; Darstellung der Häufigkeiten des Merkmals „Blutgruppe“ (Beispiel 3.1) Zahlreiche Abbildungen: veranschaulichen komplizierte und komplexe Sachverhalte Mathematische Herleitung des Korrelationskoeffizineten nach Pearson Es ist offenkundig, dass die Kovarianz sxy genau dann maximal wird, wenn der Zusammenhang funktional ist und durch eine lineare Gleichung y = a + bx exakt beschrieben werden kann. Dann erhält man nach den Definitionen der Kovarianz und der Varianz in (5.1) und (4.6): n s xy = ¦x y i i − nxy n ¦ x (a + bx ) − nx (a + bx ) i = n −1 Für die Varianz s y 2 ergibt sich: i =1 n ¦( y i i =1 − y )2 i n −1 n = b( ¦ xi2 − nx 2 ) i =1 n −1 = bsx 2 n b2 ¦ ( xi − x )2 = i =1 = b sx s y = i =1 n −1 n −1 Für positives b ist s y = bsx und s xy = bs x 2 = sx ⋅ s y . Für negatives b folgt ana2 2 2 Herleitungen: Logisches Nachvollziehen einer Formel zum besseren Verständnis log: s y = − bsx und sxy = − sx ⋅ s y . Da es sich hierbei um die beiden Extremfälle handelt, folgt für die Kovarianz: − sx ⋅ s y ≤ sxy ≤ sx ⋅ s y . Daraus ergibt sich für sxy den Korrelationskoeffizienten r = : −1 ≤ r ≤ 1 . sx ⋅ s y Merke Anhand eines Diagramms lassen sich bei quantitativen Merkmalen folgende Eigenschaften ablesen: ŷ Lage: In welchem Bereich konzentrieren sich die Werte? Welches ist der größte, welches der kleinste Wert? Welche Ausprägungen sind häufig, welche selten oder gar nicht vertreten? ŷ Streuung: Streuen die Werte weit um den Mittelwert? Gibt es Ausreißer? ŷ Form: Hat die Verteilung eine besondere Form? Ist sie symmetrisch oder schief? Wie viele Gipfel sind erkennbar? Aufzählungen: Lerninhalte übersichtlich präsentiert Merke: das Wichtigste auf den Punkt gebracht Sagen Sie uns Ihre Meinung! ⇒ www.lehrbuch-medizin.de 3 39 3.1 Häufigkeiten bei diskreten Merkmalen 3.1 Häufigkeiten bei diskreten Merkmalen 3.1.1 Absolute und relative Häufigkeiten Um sich einen Überblick bezüglich wesentlicher Eigenschaften eines Merkmals anzueignen, beginnt man mit der Häufigkeitsverteilung. Diese Verteilung beschreibt, wie häufig die einzelnen Merkmalsausprägungen in der Stichprobe zu finden sind. Häufigkeiten lassen sich für jedes Merkmal und jedes Skalenniveau ermitteln. In den Abschnitten 3.1 und 3.2 werden – getrennt für diskrete und stetige Merkmale – Häufigkeitsbegriffe erörtert und graphische Darstellungen vorgestellt. Zu den diskreten Merkmalen zählen alle qualitativen sowie die quantitativ-diskreten Merkmale. Die Anzahl der Ausprägungen ist in der Regel wesentlich kleiner als der Stichprobenumfang und damit überschaubar. So gehören beispielsweise zum qualitativen Merkmal „Blutgruppe“ die vier Ausprägungen 0, A, B und AB. Durch einfaches Abzählen lässt sich ermitteln, wie häufig die einzelnen Ausprägungen in der Stichprobe vertreten sind. Allgemein formuliert man diesen Sachverhalt folgendermaßen: Ein diskretes Merkmal A habe k verschiedene Ausprägungen A1 ,..., Ak . Die absolute Häufigkeit einer Ausprägung Ai wird mit ni bezeichnet. Der Buchstabe i ist der so genannte Laufindex, der zwischen 1 und k variiert. Die Summe aller absoluten Häufigkeiten ni entspricht der Anzahl der Beobachtungseinheiten in der Stichprobe – das ist der Stichprobenumfang n: k ∑n i =1 i =n (3.1) i Bei dem Summen-Zeichen Σ handelt es sich um den griechischen z Buchstaben Sigma. Damit werden Summen in verkürzter Schreibweise k dargestellt. Der Ausdruck ∑n i =1 i entspricht der Summe n1 + n2 + ... + nk . Unter der relativen Häufigkeit hi einer Ausprägung Ai versteht man den Quotienten ´ hi = ni n (3.2) 40 Kapitel 3 · Häufigkeiten Aus dieser Definition folgt, dass 0 ≤ hi ≤ 1, und dass sich die relativen Häufigkeiten aller Ausprägungen zu 1 aufaddieren: k k ∑n i =1 n ∑ hi = 3 i =1 i = n =1 n (3.3) In der Praxis gewinnt man die Häufigkeiten am einfachsten durch das Erstellen einer Strichliste oder – weniger mühsam – mittels einer › Beispiel 3.1). geeigneten Software (z Beispiel 3.1 Wir betrachten das qualitative Merkmal „Blutgruppe“ mit den Daten der in Tabelle 2.1 aufgelisteten Stichprobe von n = 71 Beobachtungseinheiten. Es ergeben sich folgende Häufigkeiten: Ausprägung absolute Häufigkeiten relative Häufigkeiten n1 = 28 A1 =Blutgruppe 0 h1 = 39 % n2 = 31 h2 = 44 % A3 =Blutgruppe B n3 = 9 h3 = 13 % A4 =Blutgruppe AB n4 = 3 h4 = 4 % Summe n = 71 100% A2 =Blutgruppe A ! Die relative Häufigkeit wird oft in Prozentwerten angegeben. Da der z Ausdruck Prozent „von Hundert“ bedeutet, sind derlei Angaben nur bei einem hinreichend großen Stichprobenumfang sinnvoll. Wenn man bei kleineren Stichproben mit weniger als 50 Beobachtungseinheiten Prozente berechnet, täuscht man eine höhere Genauigkeit vor als in Wirklichkeit vorhanden ist. In diesen Fällen sollte man anstelle der Prozentangaben einfache Quotienten bevorzugen – wie z. B.: Die relative Häufigkeit der Blutgruppe A bei den männlichen Studenten beträgt 10/23. 3.1.2 Graphische Darstellungen Graphische Darstellungen bringen die oben beschriebenen Sachverhalte prägnant zum Ausdruck. • Kreisdiagramm. Bei dieser Darstellung geben die einzelnen Kreissektoren die Häufigkeiten ni wieder. Anstelle der absoluten Häufigkeiten ni lassen sich auch die relativen Häufigkeiten hi darstellen; dabei ändert sich nur der Maßstab des Diagramms, nicht jedoch dessen Aussehen. Bei einem Kreisdiagramm kommt allerdings 41 3 3.1 Häufigkeiten bei diskreten Merkmalen nicht (zumindest nicht auf den ersten Blick) zur Geltung, welches die kleinste oder die größte Ausprägung ist – deshalb eignet sich › diese Art der Darstellung nur für nominal skalierte Merkmale (z Abbildung 3.1). • Rechteckdiagramm (oder Blockdiagramm). Hier ist ein Rechteck entsprechend der einzelnen Häufigkeiten unterteilt. Diese Darstellung eignet sich auch für ordinal skalierte Merkmale, da die kleinste und die größte Ausprägung zu erkennen sind. • Balkendiagramm. Diese Art von Diagrammen eignet sich für alle diskreten Merkmale. Die Längen der einzelnen Balken entsprechen › Abbildung 3.2). Dabei sind zahlreiden Häufigkeiten ni oder hi (z che Varianten denkbar. Die 2-dimensionalen Balken lassen sich durch 1-dimensionale Striche oder 3-dimensionale Säulen ersetzen. Bei senkrechter Anordnung spricht man auch von einem Säulendiagramm; wenn anstelle der Säulen 1-dimensionale Striche verwendet werden, bezeichnet man dies als Stabdiagramm. Darüber hinaus können die Balken horizontal anstatt vertikal angeordnet werden; bezüglich Farben, Mustern und Hintergründen sind – nicht zuletzt dank geeigneter Software- und Hardwareprodukte – der Phantasie keine Grenzen gesetzt. Man sollte jedoch bei solchen Darstellungen vor allem darauf achten, dass die wesentlichen Eigenschaften der Häufigkeitsverteilung optimal zur Geltung kommen und nicht zugunsten optischer Effekte in den Hintergrund treten. Abb. 3.1 Kreisdiagramm; Darstellung der Häufigkeiten des Merkmals „Blutgruppe“ (Beispiel 3.1) Abb. 3.2 Balkendiagramm; Darstellung der Häufigkeiten des Merkmals „Anzahl richtig gelöster Klausuraufgaben“ 42 3 Kapitel 3 · Häufigkeiten • Punktediagramm. Dies ist eine Darstellung einfachster Art für quantitative Merkmale. Die Stichprobenwerte werden entlang einer Achse (die waagrecht oder senkrecht angeordnet sein kann) als einzelne Punkte eingetragen. Diese Art der Darstellung eignet sich weniger zu Präsentationszwecken als vielmehr dazu, schnell und einfach einen Überblick über die Häufigkeitsverteilung zu gewinnen. 3.2 Häufigkeiten bei stetigen Merkmalen 3.2.1 Das Prinzip der Klassenbildung Bei der Erfassung eines stetigen Merkmals (z. B. der Körpergröße) werden – bedingt durch die begrenzte Messgenauigkeit – die gemessenen Werte im Einzelfall auf- oder abgerundet. Im Vergleich zum Stichprobenumfang ergeben sich zahlreiche Ausprägungen, deren Häufigkeiten meist gering und daher wenig informativ sind. So schwankt beispielsweise die Körpergröße der Studenten in Tabelle 2.1 zwischen 156 cm und 196 cm – dies sind 41 verschiedene Werte für 71 Beobachtungseinheiten. Davon haben 14 Ausprägungen die Häufigkeit 0, neun sind nur einmal vertreten. Es erweist sich in solchen Fällen als sinnvoll, mehrere nebeneinander liegende Ausprägungen zusammenzufassen und Klassen zu bilden. Dies ist auch bei einem quantitativ-diskreten Merkmal mit extrem vielen, fein abgestuften Ausprägungen gerechtfertigt (z. B. die Leukozytenanzahl). Ein solches Merkmal kann für praktische Analysen wie ein stetiges Merkmal behandelt werden. Damit verbindet sich die Frage, wie die Anzahl der Klassen und deren Breiten festzulegen sind. Bei sehr vielen, schmalen Klassen ist die Darstellung unübersichtlich und der Verteilungstyp schwer erkennbar. Dagegen ist eine geringe Anzahl von breiten Klassen mit einem hohen Informationsverlust verbunden; charakteristische Eigenschaften der Verteilung werden eventuell verdeckt. Es gibt bezüglich der Klassenbildung zwar keine strengen Vorschriften, jedoch einige Faustregeln, die einen Kompromiss zwischen einer übersichtlichen Darstellung einerseits und einem geringen Informationsverlust andererseits beinhalten: ▬ Die Klassenanzahl k richtet sich nach dem Stichprobenumfang n. Als Anhaltspunkt gilt: k ≈ n . Für größere Stichprobenumfänge n ≥ 1000 verwendet man k ≈ 10 ⋅ lg n (wobei lg der Zehnerlogarithmus bedeutet), damit die Klassenanzahl nicht zu groß wird. 3 43 3.2 Häufigkeiten bei stetigen Merkmalen ▬ Weniger als drei Klassen sind generell nicht sinnvoll. ▬ Am übersichtlichsten ist die Darstellung, wenn die Klassenbreiten gleich sind. Wenn jedoch Ausreißer vorhanden sind, ist es eventuell sinnvoll, am jeweiligen Rand eine breite Klasse zu bilden. Klassen mit den Grenzen -∞ oder +∞ sind zu vermeiden. ▬ Es muss eindeutig geklärt sein, welcher Klasse ein Datum zugeordnet wird, das auf eine Klassengrenze fällt. Man umgeht dieses Problem, indem man die Grenzen so definiert, dass sie nicht mit Werten der Stichprobe zusammenfallen. Ansonsten muss man die Klassen als halboffene Intervalle festlegen (meist benutzt man Intervalle, die links offen und rechts abgeschlossen sind). Bei klassierten Daten ermittelt man die absolute Häufigkeit oder die Besetzungszahl einer Klasse und bezeichnet diese als ni . Der Laufindex i kennzeichnet die Klassen in aufsteigender Reihenfolge ( i = 1 bezeichnet also die erste Klasse mit den kleinsten Messwerten, i = k die letzte Klasse mit den größten Werten). Basierend auf den absoluten Häufigkeiten ni berechnet man die relativen Klassenhäufigkeiten hi ebenso wie bei diskreten Merkmalen. Beispiel 3.2 Die Messwerte für die Körpergröße der 71 Studenten in Tabelle 2.1 variieren zwischen 156 und 196 cm. Das Intervall (152,5 cm; 197,5 cm) wird in 9 Klassen der Klassenbreite 5 cm eingeteilt. Dadurch ist gewährleistet, dass kein Messwert auf eine Klassengrenze fällt. relative absolute relative absolute Laufindex Klassengrenzen Häufigkeit Häufigkeit Summenh. Summenh. i in cm ni hi Ni Hi 1 2 3 4 5 6 7 8 9 (152,5 ; 157,5) (157,5 ; 162,5) (162,5 ; 167,5) (167,5 ; 172,5) (172,5 ; 177,5) (177,5 ; 182,5) (182,5 ; 187,5) (187,5 ; 192,5) (192,5 ; 197,5) 5 2 10 18 12 17 3 1 3 0,07 0,03 0,14 0,25 0,17 0,24 0,04 0,01 0,04 5 7 17 35 47 64 67 68 71 0,07 0,10 0,24 0,49 0,66 0,90 0,94 0,96 1 Um die Häufigkeitsbegriffe zu verdeutlichen, betrachten wir die 4. Klasse. Die absolute und die relative Häufigkeit n4 bzw. h4 bedeuten: 18 Studenten (das entspricht 25 %) haben eine Körpergröße zwischen 167,5 cm und 172,5 cm. Die ab› Abschnitt 3.3) N 4 bzw. H 4 besasolute und die relative Summenhäufigkeit (z gen, dass 35 insgesamt Studenten bzw. 49 % kleiner als 172,5 cm sind. 44 Kapitel 3 · Häufigkeiten i Wenn eine Intervallgrenze durch eine runde Klammer angegeben wird, z bedeutet dies, dass der Grenzwert nicht im Intervall enthalten ist. Eine eckige Klammer ([ oder ]) zeigt an, dass der Grenzwert zum Intervall gehört. ! In früheren Zeiten – als man einen Mittelwert noch per Hand oder mit z 3 einem Taschenrechner ermittelte – erleichterte man sich bei umfangreichem Datenmaterial die Arbeit, indem man die Daten in eine überschaubare Anzahl von Klassen zusammenfasste und den Mittelwert und andere Kenngrößen aus den Klassenmitten ermittelte. Deshalb legte man Wert darauf, dass die Klassenmitten rechentechnisch günstige Werte waren. Heute – im Zeitalter benutzerfreundlicher Statistiksoftware – ist dieses Argument obsolet. Die Einteilung in Klassen wird hauptsächlich vorgenommen, um die Daten übersichtlich graphisch darzustellen. 3.2.2 Graphische Darstellungen • Histogramm. Bei dieser Darstellung wird jede Klasse durch ein Rechteck repräsentiert, dessen Flächen proportional zu den jeweiligen Klassenhäufigkeiten sind. Am übersichtlichsten ist ein › Abbildung 3.3); dann Histogramm mit gleichen Klassenbreiten (z sind auch die Höhen der Rechtecke proportional zu den Häufigkeiten. Falls Daten auf eine Klassengrenze fallen, muss gekennzeichnet werden, welcher Klasse diese Daten zugerechnet werden (üblicherweise wählt man die untere Klasse). Die mathematische Funktion, die ein Histogramm beschreibt, bezeichnet man als empirische Dichte. Sie ist definiert als: 0 für x ≤ a0 hi f ( x) = für ai −1 < x ≤ ai (i = 1,..., k ) ai − ai −1 0 für x > ak (3.4) Dabei sind a i −1 und a i die untere bzw. die obere Grenze der i. Klasse, k ist die Klassenanzahl. Dieses Histogramm besteht aus k Rechtecken der Fläche hi . Die Gesamtfläche hat den Wert 1. • Häufigkeitspolygon. Diese Darstellung erhält man, indem man senkrecht auf die Klassenmitten Strecken in Höhe der entsprechenden Häufigkeiten aufträgt und deren Endpunkte miteinander ver› Abbildung 3.4). bindet (z 45 3 3.2 Häufigkeiten bei stetigen Merkmalen • Stamm-und-Blatt-Diagramm. Hier werden die Daten zunächst nach ihrer Größe geordnet und dann von unten nach oben aufgetragen. Der Stamm besteht aus den ersten Stellen der Stichproben› Abbildung werte, die Blätter stellen die folgenden Ziffern dar (z 3.5). Diese Darstellung benutzt man, um sich einen schnellen Überblick über die Häufigkeitsverteilung zu verschaffen. Für Präsentationszwecke ist sie weniger geeignet. Eine graphische Darstellung liefert zwar auf einen Blick wesentliche Informationen; sie allein ist jedoch für eine statistische Datenanalyse unzureichend. Kenngrößen, die die oben genannten Eigenschaften quantitativ beschreiben, sind Gegenstand des Kapitels 4. Abb. 3.3 Histogramm für das Merkmal „Körpergröße“ (Beispiel 3.2), Einteilung in 9 Klassen Abb. 3.4 Häufigkeitspolygon für das Merkmal „Körpergröße“ (Beispiel 3.2) Abb. 3.5 Stamm- und Blattdiagramm; Darstellung der Körpergewichte der männlichen Studenten 46 3 Kapitel 3 · Häufigkeiten Merke Anhand eines Diagramms lassen sich bei quantitativen Merkmalen folgende Eigenschaften ablesen: ▬ Lage: In welchem Bereich konzentrieren sich die Werte? Welches ist der größte, welches der kleinste Wert? Welche Ausprägungen sind häufig, welche selten oder gar nicht vertreten? ▬ Streuung: Streuen die Werte weit um den Mittelwert? Gibt es Ausreißer? ▬ Form: Hat die Verteilung eine besondere Form? Ist sie symmetrisch oder schief? Wie viele Gipfel sind erkennbar? 3.3 Die empirische Verteilungsfunktion Bei quantitativen oder ordinal skalierten Merkmalen mag es sinnvoll sein, die Häufigkeiten beginnend bei der kleinsten Ausprägung in aufsteigender Reihenfolge aufzuaddieren. Dadurch erhält man die Anzahl der Daten, die eine bestimmte obere Grenze nicht überschreiten. Diese Häufigkeiten nennt man kumulative oder Summenhäufigkeiten. Unter der Annahme, dass die Ausprägungen sortiert sind mit A1 < A2 < ...< Ak , gilt für die absoluten Summenhäufigkeiten: i N i = ∑ n j (für i = 1,..., k ) (3.5) j =1 Die relativen Summenhäufigkeiten sind entsprechend definiert als: i H i = ∑ h j (für i = 1,..., k ) (3.6) j =1 Die zu den einzelnen Ausprägungen gehörenden relativen Summenhäufigkeiten H i werden durch die empirische Verteilungsfunktion F (x ) mathematisch beschrieben: 0 für x < A1 F ( x ) = H i für Ai ≤ x < Ai +1 (i = 1,..., k − 1) 1 für x ≥ A k (3.7) 3 47 3.3 Die empirische Verteilungsfunktion Beispiel 3.3 Für die Körpergrößen der Studenten ergeben sich mit den Daten aus Tabelle 2.1 folgende Summenhäufigkeiten, auf denen die empirische Verteilungsfunktion › Abbildung 3.6). Angegeben sind die absoluten und relativen Häufigbasiert (z keiten ni und hi sowie die Summenhäufigkeiten N i und Hi . Ausprägung Körpergröße ni hi Ni Hi A1 A2 A3 A4 A5 A6 A7 A8 A9 A10 A11 A12 A13 A14 A15 A16 A17 A18 A19 A20 A21 A22 A23 A24 A25 A26 A27 156 157 160 162 163 164 165 166 167 168 169 170 172 173 174 175 176 177 178 179 180 182 185 186 190 193 196 3 2 1 1 2 2 4 1 1 6 2 4 6 3 3 2 3 1 5 3 8 1 1 2 1 2 1 0,04 0,03 0,01 0,01 0,03 0,03 0,06 0,01 0,01 0,08 0,03 0,06 0,08 0,04 0,04 0,03 0,04 0,01 0,07 0,04 0,11 0,01 0,01 0,03 0,01 0,03 0,01 3 5 6 7 9 11 15 16 17 23 25 29 35 38 41 43 46 47 52 55 63 64 65 67 68 70 71 0,04 0,07 0,08 0,10 0,13 0,15 0,21 0,23 0,24 0,32 0,35 0,41 0,49 0,54 0,58 0,61 0,65 0,66 0,73 0,77 0,89 0,90 0,92 0,94 0,96 0,99 1 F (x) gibt die relativen Häufigkeiten an, mit der in der Stichprobe Werte vorhanden sind, die gleich x oder kleiner als x sind. Für das obige Beispiel 3.3 gilt etwa: F (172) = 0,49 . Das bedeutet: Knapp die Hälfte der Studenten ist 172 cm groß oder kleiner; 51 % sind größer als 172 cm. 48 3 Kapitel 3 · Häufigkeiten Abb. 3.6 empirische Verteilungsfunktion F ( x ) für das Merkmal „Körpergröße“ (Beispiel 3.3) Die Abbildung 3.6 verdeutlicht wesentliche Eigenschaften der Verteilungsfunktion F (x) : ▬ F (x) ist eine Treppenfunktion; ▬ F ( x) = 0 für alle x, die kleiner als der kleinste Stichprobenwert x min sind; ▬ F (x) wächst ab x min monoton von 0 bis 1; ▬ F ( x) = 1 ab dem größten Wert x max . i Eine Funktion heißt monoton wachsend, wenn für zwei x-Werte mit z x1 < x2 gilt: F ( x1 ) ≤ F ( x2 ) . Falls sogar gilt: F ( x1 ) < F ( x2 ) für x1 < x2 , heißt die Funktion streng monoton wachsend. Die empirische Verteilungsfunktion F ( x ) ist demnach monoton, aber nicht streng monoton wachsend. Bei fein abgestuften Ausprägungen ist die Anzahl der Treppen zahlreich und die Stufen sind entsprechend niedrig; die Treppenfunktion nähert sich einer glatten Kurve. In der Pharmakologie werden Verteilungsfunktionen zur Analyse der dosisabhängigen Wirksamkeit eines Pharmakons verwendet. Dabei beschreibt die empirische Funktion F (x) den relativen Anteil der Untersuchungseinheiten, bei denen ein Effekt der Dosis x erkennbar ist. Die graphische Darstellung von F (x) bezeichnet man als Dosiswirkungskurve. Auch in der Labormedizin arbeitet man häufig mit der Verteilungsfunktion. Wenn etwa für einen Cholesterinwert x gilt F ( x) = 0,98 , informiert diese Angabe darüber, dass dieser Wert im oberen 2%-Bereich liegt. http://www.springer.com/978-3-540-71460-6