Statistik Definition: Statistik ist die Zusammenfassung bestimmter Methoden, um Massenerscheinungen zu quantifizieren und zu interpretieren. Man unterscheidet verschiedene Teilgebiete: Deskriptiv: Beschreibende Statistik Daten werden in geeigneter Weise beschrieben und zusammengefasst. Darstellung in Tabellen oder graphischen Diagrammen. Induktiv: mathematische Statistik Ableitung von Eigenschaften der Grundgesamtheit aus den Daten einer Stichprobe. Wahrscheinlichkeitstheorie: Sie befasst sich mit den mathematisch-theoretischen Gesetzmäßigkeiten, auf denen die Verfahren der induktiven Statistik beruhen. Anwendungsgebiete: medizinische Statistik, Qualitätssicherung Induktive Statistik und Wahrscheinlichkeitstheorie werden unter dem Oberbegriff Stochastik zusammengefasst. Grundgesamtheit Stichprobe Deskriptive Statistik 1. Induktive Statistik Geschichte der Statistik Bis zum 18. Jahrhundert wurde Statistik fast ausschließlich für staatliche und bevölkerungspolitische Zwecke benutzt. Ethymologie: status – Zustand, statisticum – den Staat betreffend Im 17. – 19. Jahrhundert wurden erste Lehrstühle für Statistik an deutschen Universitäten eingerichtet. Statistik galt als Wissenschaft, die die Besonderheiten eines Staates, der Bevölkerung, des Heeres und des Gewerbes erfassen und beschreiben soll. (deskriptive Statistik). Des weiteren wurden statistische Methoden benutzt, um Gewinnchancen bei Glücksspielen zu berechnen. Dadurch wurden bedeutende Mathematiker wie Galileo Galilei (1564 – 1642), Blaise Pascal (1623 – 1662), Christiaan Huygens (1629 – 1695), Pierre Simon Marquis de Laplace (1749 – 1827) zur Berechnung von Wahrscheinlichkeiten und theoretischen Abhandlungen angeregt. Auch Carl Friedrich Gauß (1777 – 1855) gehört zu den Mitbegründern der angewandten Statistik (Gaußsche Normalverteilung). Die Naturwissenschaft baute nun auf objektiven Beobachtungen und nachvollziehbaren Experimenten auf. Naturvorgänge wurden nicht mehr nur theologisch oder philosophisch hergeleitet, sondern durch Naturgesetze erklärt. Dies wirkte sich bald auch auf die Medizin aus. Beobachtungen am Kranken waren nicht mehr subjektiv, sondern wurden durch objektive Messwerte ersetzt oder ergänzt. Die Erkenntnisse, die man dadurch gewann, waren nachvollziehbar und Grundlage für weitere Forschungen. Dadurch entwickelte sich ein besseres Verständnis der Vorgänge im gesunden und kranken Menschen. Außerdem wurden technische Geräte entwickelt, die die exakte Messung von physiologischen Parametern erlaubten. Die Beobachtung zahlreicher Einzelfälle, die lückenlose Aufzeichnung der erhobenen Daten und die rechnerische Auswertung folgte im 18. Jahrhundert. So begann die Statistik langsam Einzug in die Medizin zu halten. Heute herrscht allgemein Konsens, dass die Beobachtung von Individuen und die damit verbundene Datenanalyse für die medizinische Forschung unverzichtbar sind. 2. Anwendungen der Statistik in der Medizin 17./18. Jahrhundert: John Graunt (1620 – 1674) versuchte, aus den Daten der Londoner Geburts- und Sterberegister Gesetzmäßigkeiten bezüglich der Bevölkerungsentwicklung herzuleiten. John Arbuthnot (1667 – 1735) widerlegte die These, dass Mädchen- und Jungengeburten gleich häufig seien. Edward Jenner (1749 – 1823) belegte statistisch die Wirkung der Kuhpockenimpfung. 19. Jahrhundert: Pierre Charles Alexandre Louis (1787 – 1872) überprüfte die Wirkung des Aderlasses und wies mittels statistischer Analysen nach, dass der Aderlass oft nutzlos oder sogar schädlich war. John Snow (1813 – 1858) entdeckte, dass das Cholera-Risiko in London mit der Aufnahme von Trinkwasser in Verbindung stand. Ignaz Philipp Semmelweis (1818 – 1865) bewies den Wert der Händedesinfektion mit der statistischen Auswertung der Mortalitätsraten der Wöchnerinnenstationen. Gregor Johann Mendel (1822 – 1884) stellte die Vererbungsgesetze vor, die er statistisch verifiziert hatte. 20. Jahrhundert: Es wurden Methoden entwickelt, mit denen sich anhand einer relativ kleinen Stichprobe allgemeingültige Zusammenhänge und Unterschiede nachweisen lassen. Leistungsfähige Computer und benutzerfreundliche Software führten zu einer Vereinfachung und Beschleunigung und damit zu besserer Akzeptanz der Statistik in der Medizin. 3. Deskriptive Statistik 3.1 Theoretische Grundlagen Grundgesamtheit: Gesamte Population, auf die sich die Ergebnisse beziehen sollen, statistische Masse Total-, Vollerhebung: Auswertung aller Daten der Grundgesamtheit (Bsp.: Todesursachenstatistik) Stichprobe: Untersuchung einer kleinen Teilmenge Repräsentativ: die charakteristischen Eigenschaften der Stichprobe stimmen mit denen der Grundgesamtheit überein (abgesehen von zufälligen Abweichungen). Urliste: Ergebnis der Stichprobe Rohdaten: alle in der Urliste enthaltenen Daten Erhebungsumfang: Anzahl der untersuchten Objekte (Merkmalsträger) Merkmal: Eigenschaft, die untersucht werden soll (Bsp.: Blutgruppe) Merkmalsträger: Untersuchungseinheit (Bsp.: Schüler der MTA-Schule) Merkmalsausprägung: Alle möglichen Werte, die ein Merkmal annehmen kann (Bsp.: Blutgruppe A, B, O, AB) Merkmalswert xi (i = 1,2,3,…,n): Beobachteter Wert (Bsp.: Blutgruppe A bei Schüler X) 3.2 Merkmale 3.2.1 Qualitativ Das Vorhandensein einer Eigenschaft wird beschrieben (Bsp.: Geschlecht, Blutgruppe) Wenn ein Merkmal nur 2 Ausprägungen haben Kann (Geschlecht), nennt man auch binäres Merkmal. Qualitative Merkmal können durch Zahlen angeben werden (Bsp.: Geschlecht. M = 1, W = 2). Diese Zahlen haben dann aber keine numerische Bedeutung. Für die Weiterverarbeitung wichtig ist das Skalenniveau. Die Nominalskala hat das niedrigste Niveau und stellt Daten dar, die sich nur begrifflich unterscheiden (Bsp.: Augenfarbe). Es gibt keinen Vergleich und keine Wertung. Man kann die Daten nicht ordnen. Mit der Ordinal- oder Rangskala können Merkmale nach Rangfolge geordnet werden (Bsp.: Schuhgröße). Die Merkmale lassen sich ordnen und vergleichen. 3.2.2 Quantitativ Messbare Merkmale sind quantitativ (Bsp.: Größe, Gewicht). Die Daten können metrisch dargestellt werden. Dazu eignet sich eine Intervallskala (Abstandsskala), bei der der Nullpunkt willkürlich festgelegt ist und der Abstand definiert ist. (Bsp.: Temperatur in °C) Die Skala mit dem höchsten Niveau ist die Ratioskala (Verhältnisskala), die einen absoluten Nullpunkt besitzt. Die Messwerte sind alle positiv. Außer der Differenz kann auch das Verhältnis zwischen Ausprägungen bestimmt werden. (A : B, wenn B 0) (Bsp.: Größe: A = 170, B = 182; A : B = 0,93, d.h Schüler A ist 0,93 mal so groß wie Schüler B) Merkmalsart Skalenniveau qualitativ nicht-metrisch Nominalskala Ordinalskala quantitativ metrisch Intervallskala (Abstandsskala) Ratioskala (Verhältnisskala) Beispiele Hinweise Geschlecht, Augenfarbe, Blutgruppe Schuhgröße Niedrigstes Niveau Vergleich 2er Ausprägungen A=B AB Rangfolge ist definiert A=B AB Temperatur in °C, IQ Größe, Gewicht, Alter Willkürlicher Nullpunkt, Abstand ist definiert Höchstes Niveau, absoluter Nullpunkt, definiertes Verhältnis A=B A>B A<B A=B AB A=B A>B A<B d=A-B A=B AB A=B A>B A<B d=A–B c = A : B (B 0) 3.2.3 Diskret Diskrete Merkmal können abzählbar viele Merkmalsausprägungen annehmen. Alle qualitativen Merkmale sind daher auch diskret. Quantitative Merkmale sind dann diskret, wenn die Merkmalsausprägungen durch Abzählen ermittelt werden können. 3.2.4 Stetig Stetige Merkmale können alle Werte innerhalb eines Intervalls annehmen. Dies wird durch einen Messvorgang ermittelt. Merkmal Geschlecht Alter Größe in cm Gewicht in kg Augenfarbe Schuhgröße Blutgruppe Ausprägung M, W 17 bis 40 Jahre 0 bis 200 cm 0 bis 150 kg Blau, braun, grün, grau 20, 21, …. 48 A, B, O, AB Skala Nominalskala Ratioskala (Verhältnisskala) Ratioskala (Verhältnisskala) Ratioskala (Verhältnisskala) Nominalskala Ordinalskala Nominalskala stetig/diskret diskret diskret stetig stetig diskret diskret diskret In der Praxis sind letzten Endes alle Merkmale diskret, da die begrenzte Messgenauigkeit nur abzählbar viele Ausprägungen zulässt. So wird die Körpergröße (eigentlich stetig, da unendlich viele Ausprägungen möglich sind) meist ganzzahlig in cm angegeben (diskret). 3.3 Skalentransformation Ein höheres Skalenniveau kann zu einem niedrigeren Niveau transformiert werden. Dabei hat man immer einen Informationsverlust. Ausprägungen Menge des pro Jahr konsumierten Tabaks in Gramm Anzahl der pro Jahr gerauchten Zigaretten Nichtraucher – schwacher Raucher – mäßiger Raucher – starker Raucher Nichtraucher – Raucher Merkmalsart Quantitativ - stetig Skala Verhältnisskala Quantitativ – diskret Verhältnisskala Qualitativ Ordinalskala Qualitativ – binär Nominalskala Die Wahl des Skalenniveaus ist nicht immer einfach, wie folgendes Beispiel verdeutlichen soll: Schulnoten werden in der Regel als quantitativ-diskrete Merkmale angesehen und man berechnet Mittelwerte. Dies ist eigentlich nicht korrekt, denn die Differenz zwischen den Noten ist nicht genau definiert. Der Unterschied zwischen 4 und 6 ist nicht gleich dem Unterschied zwischen 2 und 4. MAN kann auch kein Verhältnis bilden, 2 ist nicht doppelt so gut wie 4. Sinnvoll ist nur die Rangfolge, 1 ist besser als 2, 2 ist besser als 3, usw. Deshalb handelt es sich bei Schulnoten um ein ordinal-skaliertes Merkmal, also qualitativ. Bei ordinal-skalierten qualitativen Merkmalen kann es durch unscharfe Abgrenzung zwischen den Ausprägungen (Bsp.: Nichtraucher – schwacher Raucher – mäßiger Raucher – starker Raucher) zu ungenauen Ergebnissen und fehlerhaften Schlussfolgerungen kommen. Deshalb muss man darauf achten, dass die Abgrenzungen möglichst scharf sind oder mit quantitativen oder nominalskalierten Merkmalen arbeiten. 4. Listen und Tabellen Die erhobenen Daten werden in Listen dokumentiert. Für jede Beobachtungseinheit (Bsp.: Schüler, Nummer) ist eine Liste notwendig. In diese Liste müssen auch alle sonstigen relevanten Informationen eingetragen werden (Bsp.: Ort und Zeit der Erhebung). Falls ein Merkmal nicht erhoben werden kann, muss auch dies mit Grund notiert werden, damit zu einem späteren Zeitpunkt nachvollziehbar ist, warum ein Wert fehlt. Statistisch relevante Daten werden in einer Tabelle zusammengefasst. Eine Tabelle besteht aus Zeilen und Spalten. Angaben zum Inhalt der Spalten stehen in der ersten Tabellenzeile (Tabellenkopf). Angaben zu den Zeilen stehen in der ersten Spalte (Vorspalte). Charakteristische Eigenschaften und Zusammenhänge der erhobenen Merkmale sind in der Tabelle nicht gut ersichtlich. Deshalb müssen die Daten grafisch aufbereitet werden. 5. Häufigkeiten 5.1 Absolute Häufigkeit Bei allen diskreten (qualitativen und quantitativ-diskreten) Merkmalen kann man die Häufigkeit bestimmen, da die Ausprägungen abzählbar sind und meist kleiner als der Stichprobenumfang. Das Merkmal G (Blutgruppe) hat k verschiedene Ausprägungen: G1 = O, G2 = A, G3 = B, G4 = AB. Mit i bezeichnet man den Laufindex, der zwischen 1 und k variiert. Die absolute Häufigkeit ni einer Ausprägung Gi (Bsp.: G2 = A) erhält man durch Abzählen. n1 =11, n2 =12, n3 =5, n4 =2 Die Summe aller absoluten Häufigkeiten ni entspricht dem Stichprobenumfang n: k n i 1 5.2 i n (Bsp.: 11 + 12 + 5 + 2 = 30) Relative Häufigkeit Unter der relativen Häufigkeit hi versteht man den Quotienten aus der absoluten Häufigkeit ni und dem Stichprobenumfang n: h ni n (Bsp.: n2 = 12, n = 30; h2 = 12 / 30 = 0,4 ) Man kann die relative Häufigkeit auch in Prozent ausdrücken, 0,4 = 40%. Die Summe der relativen Häufigkeiten einer Stichprobe ergibt 1 bzw. 100%. 5.3 Summenhäufigkeit Manchmal ist es sinnvoll, die Häufigkeiten in aufsteigender Reihenfolge aufzuaddieren. Bei geordneten ordinalen oder metrischen Merkmalen (Bsp.: Größe in cm) erhält man dadurch die Anzahl der Merkmale, die eine bestimmte Obergrenze nicht überschreiten. Bsp.: Alter Ausprägung Wert Absolute Häufigkeit Relative Häufigkeit Absolute Summenhäufigkeit Relative Summenhäufigkeit A1 19 7 A2 20 9 A3 21 7 A4 22 2 A5 23 2 A6 24 1 A7 25 1 A8 26 1 0,23 23% 7 0,3 30% 16 0,23 23% 23 0,07 7% 25 0,07 7% 27 0,03 3% 28 0,03 3% 29 0,03 3% 30 0,23 23% 0,53 53% 0,77 77% 0,83 83% 0,9 90% 0,93 93% 0,97 97% 1 100% 90% aller Schüler sind jünger als 24 Jahre. 5.4 Klassenbildung Bei stetigen Merkmalen (Bsp.: Größe, Gewicht) werden aufgrund der beschränkten Messgenauigkeit die Werte auf- oder abgerundet. Es ergeben sich zahlreiche Ausprägungen mit meist sehr geringer Häufigkeit. Es ist daher sinnvoll, mehrere nebeneinander liegende Ausprägungen in eine Klasse zusammenzufassen. (Bsp.: Körpergröße: 151 – 160 cm, 161 – 170 cm, 171 – 180 cm, ...) Die Klassenbreite sollte konstant sein, oft ist es jedoch sinnvoll, an den Rändern breitere Klassen zu bilden. Weniger als 3 Klassen zu bilden, ist nicht sinnvoll. Man kann statt der Häufigkeit der einzelnen Ausprägungen nun die Klassenhäufigkeit berechnen. 6. Grafische Darstellungen 6.1 Kreisdiagramm Ein Kreisdiagramm eignet sich für die Darstellung der absoluten und relativen Häufigkeit. Dabei ändert sich nur der Maßstab des Diagramms, nicht die Form. Der Nachteil dieser Darstellung besteht darin, dass sich nicht erkennen lässt, welches die größte oder kleinste Ausprägung ist, außer man beschriftet die Kreissegmente. Daher eignet sich diese Darstellung vor allem für nominale Merkmale. (Kein Vergleich der Merkmale, nur Aufzählung) 2; 7% 2; 7% 5; 17% 11; 37% O 5; 17% 11; 37% O A A B B AB AB 12; 39% 12; 39% 6.2 Blockdiagramm (Rechteckdiagramm) Ein Rechteck ist entsprechend der Häufigkeiten unterteilt. Da ein Anfang und ein Ende erkennbar ist, eignet sich diese Darstellung auch für ordinale Merkmale. (Bsp.: Blutgruppe, Schuhgröße) 100% 80% 60% 2 5 12 40% 20% 11 AB 2 1 5 5 6 4 2 2 111 A O 0% 1 6.3 1 B 0% 20% 40% 60% 80% 100% Gr. 41 Gr. 36 Gr. 37 Gr. 38 Gr. 39 Gr. 40 Gr. 42 Gr. 43 Gr. 44 Gr. 45 Gr. 46 Balkendiagramm, Säulendiagramm Bei dieser Darstellung zeigen die Längen der Balken oder Säulen die Häufigkeiten der Merkmale. Alle diskreten Merkmale lassen sich darstellen. (Bsp.: Schuhgröße) 7 6 5 4 1 3 2 1 0 Gr. Gr. Gr. Gr. Gr. Gr. Gr. Gr. Gr. Gr. Gr. 36 37 38 39 40 41 42 43 44 45 46 Gr. 36 Gr. 37 Gr. 38 Gr. 39 Gr. 40 Gr. 42 Gr. 43 Gr. 44 Gr. 45 Gr. 46 Gr. 41 6.4 Punktediagramm Dies ist die einfachste Art der Darstellung für quantitative Merkmale. Die Werte werden als Punkte eingetragen. (Bsp.: Körpergröße, Gewicht, Analysenergebnisse) Diese Art der Darstellung ist üblich in der Qualitätskontrolle der Laborparameter. Hierbei werden die Werte in Reihenfolge in eine Tabelle und ein Punktediagramm eingetragen. Man erhält dabei einen Überblick über die Verteilung der Werte. Häufigkeiten lassen sich nicht erkennen. Körpergröße: geordnet nach Größe in der Reihenfolge der Werte 200 200 190 190 180 180 170 170 160 160 150 150 140 140 0 6.5 5 10 15 20 25 0 30 5 10 15 20 25 30 Stamm-und-Blatt-Diagramm Dazu werden Stichprobenwerte (quantitativ) zuerst geordnet und dann von unten nach oben aufgetragen. Den Stamm bilden die ersten Stellen der Werte, die Blätter bestehen aus den folgenden Ziffern. Auch hierbei lassen sich keine Häufigkeiten erkennen, die Darstellung gibt nur einen Überblick über die Merkmalsverteilung. (Bsp.: Größe in cm) 19 18 17 16 15 6.6 0 0 0 0 3 2 0 0 8 5 8 0 3 3 4 5 5 8 8 1 3 3 3 5 6 8 8 9 9 9 Histogramm Ein Histogramm wird bei klassierten Daten erstellt. Meist werden gleiche Klassenbreiten angenommen. An den Enden können die Klassen auch breiter sein und damit die Ausreißer miterfassen. Histogramme sind sinnvoll bei stetigen und diskreten Merkmalen mit sehr vielen Ausprägungen (Bsp.: Blutzellzählung, Körpergröße, Gewicht) Klasse Häufigkeit 150-160 2 161-165 4 166-170 6 171-175 10 176-180 8 181-185 4 10 8 6 4 2 150 160 170 180 190 200 cm 186-190 2 191-200 1 Lagemaße 7. Lagemaße geben an, in welchem Bereich sich Stichprobenwerte konzentrieren. Sie werden aus den Stichprobenwerten ermittelt und dienen als Schätzwerte für die Grundgesamtheit. 7.1 Arithmetisches Mittel = Mittelwert Der Mittelwert x oder Durchschnitt ist das bekannteste Lagemaß. Alle Stichprobenwerte werden addiert und durch den Stichprobenumfang n dividiert. n x x i 1 i n (Bsp.: Durchschnittliches Gewicht: 1950,9kg 65,03kg 30 In eine leere Zelle klicken – „Einfügen“ – „Funktion“ – MITTELWERT – Zellbereich markieren - ok 7.2 Median Durch den Median ~ x oder Zentralwert werden die Stichprobenwerte in zwei Hälften geteilt. Dazu müssen die Stichprobenwerte der Größe nach sortiert sein. Bei ungerader Anzahl der Stichprobenwerte ist der mittlere Wert der Median, bei gerader Anzahl wird der Mittelwert der beiden inneren Werte berechnet. (Geordnete Stichprobenwerte erhalten den Zusatz (n), um sie von den ursprünglichen Stichprobenwerten zu unterscheiden, z.B. x(1), x(2), usw.) Bsp.: 2,3,3,4,5,5,6,6,7 ~ x 5 2,3,3,4,5,5,6,6 45 ~ x 4,5 2 Da bei nominalskalierten Merkmalen (z.B. Blutgruppe) keine Rangfolge ermittelt werden kann, kann auch kein Median ermittelt werden. Bei ordinalskalierten Merkmalen (Schuhgröße) kann kein Mittelwert gebildet werde, der median als Lagemaß ist jedoch zulässig. Der große Vorteil des Medians liegt darin, dass er weitgehend unabhängig von Ausreißern ist. Bsp.: 1,2,3,3,4,5,5,6,13 x 4,7 ~ x 4 Daten ordnen: Daten (Zeilen) markieren – „Daten“ – „Sortieren“ –Spalte angeben – ok In eine leere Zelle klicken – „Einfügen“ – „Funktion“ – „MEDIAN“ – Zellbereich markieren (Text wird ignoriert) - ok 7.3 Quartile und Quantile Mit Quartilen untereilt man die Stichprobenwerte in Viertel. Das untere Quartil Q1 bedeutet, dass 25 % aller Stichprobenwerte kleiner oder gleich Q 1 sind und 75 % aller Werte größer oder gleich Q1. Für das dritte Quartil Q3 gilt entsprechend, 75 % aller Werte sind kleiner oder gleich und 25 % sind größer oder gleich. Das zweite Quartil entspricht dem Median. Oft ist es sinnvoll, von einer Stichprobe die äußeren Werte abzutrennen, um den Einfluss von Ausreißern zu verhindern. Dazu werden aber nur wenige Prozent der Werte nicht in die weiteren x , wobei α alle Werte zwischen 0 Berechnungen einbezogen. Diese Quantile bezeichnet man mit ~ und 1 annehmen kann. (Alle Prozentzahlen kann man auch als Bruch x ausdrücken und erhält 100 dann immer eine Zahl zwischen 0 und 1. Bsp.: 10% = 0,1) In geordneten Datenreihen wird ~ x und die entsprechende Rangzahl k (der k-te Werte der geordneten Reihe) nach folgender Formel bestimmt: k n falls n keine ganze Zahl ist, sei k die direkt folgende ganze Zahl und es gilt: ~ x x k falls n Bsp.: also k 5 also 5.Wert 6.Wert 2 eine ganze Zahl ist, gilt: xk xk 1 ~ x 2 7.4 n 0,1 45 4,5 Bsp.: n 0,1 50 5 Modalwert Der Modalwert D ist die Ausprägung mit der größten Häufigkeit. Er kann bei allen Skalentypen ermittelt werden. In der grafischen Darstellung der Stichprobenwerte kann man den Modalwert meist gut erkennen, man erkennt auch, ob die Verteilung eingipfelig (unimodal), zweigipfelig (bimodal) oder mehrgipfelig (multimodal) bei heterogenen Populationen ist. In eine leere Zelle klicken – „Einfügen“ – „Funktion“ – „MODALWERT“ – Zellbereich markieren (Text wird ignoriert) - ok 7.5 Geometrisches Mittel Das geometrische Mittel wird bei relativen Änderungen verwendet, bei denen sich der Unterscheid zweier Merkmale besser durch einen Quotienten als durch eine Differenz beschreiben lässt, z.B. Wachstumsraten. Es ist die n-te Wurzel des Produkts der relativen Änderungen. xG n x1 ... xn Bsp.: Schüler einer Schule Jahr Anzahl Relative Änderung Prozentuale Zunahme 2000 1000 2001 1020 2002 1055 2003 1030 2004 1040 1020 1,02 1000 1055 1,03 1020 1030 0,98 1055 1040 1,01 1030 2% 3% -2% 1% xG 4 1,02 *1,03 * 0,98 *1,01 1,01 1% 8. Streuungsmaße Zwei Stichproben können sich hinsichtlich der Lagemaße sehr ähnlich sein, aber sich dennoch anhand der Streuungsmaße unterscheiden. Die Streuungsmaße geben Auskunft über die Variabilität der Werte. 8.1 Varianz n Var x i 1 i Die Varianz Var beschreibt die Abweichung der Einzelwerte vom Mittelwert der Stichprobe anhand der mittleren quadratischen Abweichung. 2 Berechnet man die Varianz aus der Grundgesamtheit (und nicht aus einer Stichprobe der Grundgesamtheit), wird nur durch n geteilt. n 1 n Var x 2 x i 1 i x n In eine leere Zelle klicken – „Einfügen“ – „Funktion“ – „VARIANZ“ – Zellbereich markieren (Text wird ignoriert) – ok (Grundgesamtheit: „VARIANZEN“) 8.2 Standardabweichung Die Varianz ist schwer zu interpretieren, da sie eine quadratische Dimension hat. Um ein Streuungsmaß mit gleicher Dimension wie die Stichprobenwerte zu erhalten zieht man die Wurzel aus der Varianz und erhält die Standardabweichung. Je größer die Standardabweichung, desto heterogener die Stichprobe. (Auch hier kann man zwischen der Berechnung aus einer Stichprobe und aus der Grundgesamtheit unterscheiden.) n s Var x i 1 i x n 2 s Var n 1 x i 1 i x 2 n In eine leere Zelle klicken – „Einfügen“ – „Funktion“ – „STABW“ – Zellbereich markieren (Text wird ignoriert) – ok (Grundgesamtheit: „STABWN“) Bei Normalverteilungen liegen etwa 2/3 aller Werte im Bereich zwischen x s und x s . Bei eingipfeligen symmetrischen Verteilungen liegen mindestens 8/9 (etwa 90%) aller Werte in Bereich x 2s und sogar 95% im Bereich x 3s . Auch bei nicht symmetrischen Verteilungen liegen 75% aller Werte im Bereich x 2s und 90% im Bereich x 3s . 8.3 V Variationskoeffizient s x falls x 0 Der gleiche Wert der Standardabweichung kann unterschiedliche Bedeutung haben, z.B. beträgt eine Standardabweichung von 6,5 cm bei einer Durchschnittsgröße von 182 cm wesentlich weniger als bei der Durchschnittsgröße von 90 cm. Der Variationskoeffizient beschreibt diese Abhängigkeit. 8.4 Relativer Variationskoeffizient Als relativen Variationskoeffizient bezeichnet man V in Prozent s V 100% x 8.5 Variationsbreite R xmax xmin 8.6 Die Variationsbreite oder Spannweite R ist das am einfachsten zu berechnende Streuungsmaß und sie bezeichnet den Abstand der beiden Extremwerte. Sie ist extrem stark abhängig von Ausreißern. Interquartilsbereich, Interdezilsbereich Der Interquartilsbereich (Quartilsabstand) I50 enthält die mittleren 50% aller Werte, beim Interdezilsbereich werden jeweils die unteren und oberen 10% abgeschnitten und er enthält die mittleren 80% der Werte. 9. Übersicht univariate Datenbeschreibung – geeignete Maßzahlen und grafische Darstellung Skala Nominalskala Lagemaße Modalwert Streuungsmaße Ordinalskala Modalwert Median Quartile Quantile Modalwert Median Quartile Quantile Mittelwert Spannweite (Inter)quartilsabstand Interquantilsabstand Intervallskala Ratioskala Verhältnisskala Spannweite (Inter)quartilsabstand Interquantilsabstand Standardabweichung Spannweite (Inter)quartilsabstand Interquantilsabstand Standardabweichung Variationskoeffizient Grafische Darstellung Kreisdiagramm Rechteckdiagramm Balkendiagramm Rechteckdiagramm Balkendiagramm Diskrete Daten: Balkendiagramm Stamm-Blatt-Diagramm Stetige Daten, klassierte Daten: Histogramm 9.1 Box-and-Whisker-Plot Für jede Stichprobe wird eine Box gezeichnet, die oben und unten vom 1. und 3. Quartil begrenzt ist. 50 % aller Stichprobenwerte sind also innerhalb der Box. Ein Strich innerhalb der Box bezeichnet den Median, ein „Plus“ oder Kreuz markiert den Mittelwert. Der Mittelwert kann auch außerhalb der Box liegen. Je weiter Mittelwert und Median auseinanderliegen, desto größer ist der Einfluss von Ausreißern, desto schiefer ist die Verteilung. Mit der Box als „Whisker“ (Schnurrhaare) verbunden, sind der tiefste und der höchste Wert. Natürlich ist es auch möglich, statt den Quartilen andere Abstände zu wählen bzw. die äußeren Extremwerte abzugrenzen (z.B. um 5 %), um den Einfluss von Ausreißern zu minimieren. Bsp.: Körpergröße männlicher Studenten Der Mittelwert ist von wenigen sehr großen Werten beeinflusst, während die meisten Werte im unteren Bereich liegen (siehe Median). 200 Maximum 3. Quartil 190 Mittelwert 180 Median 1. Quartil 170 Minimum Männliche Studenten 10. Bivariate Datenbeschreibung Bei vielen Merkmalen möchte man wissen, ob sie in einem Zusammenhang stehen, so kennt man einen Zusammenhang zwischen Körpergröße und Gewicht, dem Auftreten von bestimmten Krankheiten (z.B. Hämophilie) und Geschlecht usw. Oft ist der Zusammenhang aber erst eine Theorie, die man mithilfe von statistischer Auswertung von Daten beweisen möchte. Mit Hilfe von Tabellen und Grafiken, Korrelationsanalyse und Regressionsanalyse lassen sich diese Zusammenhänge darstellen und/oder berechnen. Die Zusammenhänge in der Medizin werden oft vom Zufall beeinflusst (sie sind stochastisch). Man kann deshalb keine exakten Aussagen oder Vorhersagen treffen, nur Wahrscheinlichkeiten. 10.1 Zweidimensionale Häufigkeiten Wenn man an n Einheiten zwei Merkmale betrachten möchte und das Merkmal A hat k verschiedene Ausprägungen, das Merkmal B hat l verschiedene Ausprägungen, dann beträgt die Anzahl der denkbaren Ausprägungskombinationen k mal l. 10.2 Kontingenztafel, Korrelationstabelle Die Häufigkeiten lassen sich übersichtlich in einer Kontingenztafel darstellen. Dabei werden im Kopf und in der 1. Spalte (Vorspalte) die Ausprägungen aufgelistet. Das Innere der Tafel enthält k mal l Felder mit de jeweiligen Häufigkeiten. Die einfachste Form der Kontingenztafel ist die Vierfeldertafel mit jeweils zwei Ausprägungen pro Merkmal. Erstellt man eine Tafel mit klassierten Daten, nennt man sie Korrelationstabelle. Bsp.: Kontingenztafel mit der Merkmalskombination Geschlecht und Rauchen Absolute Häufigkeiten (relative Häufigkeiten) Raucher Nichtraucher gesamt Männlich 19 (0,28 = 28%) 20 (0,29 = 29%) 39 (0,57 = 57%) Weiblich 10 (0,15 = 15%) 20 (0,29 = 29%) 30 (0,43 = 43%) gesamt 29 (0,42 = 42%) 40 (0,58 = 58%) 69 (100%) Bsp.: Korrelationstabelle für die Kombination Körpergröße / Gewicht (absolute Häufigkeiten) Größe in cm 165-174 175-184 185-194 195-204 Summe 60-69 3 6 70-79 1 11 6 18 80-89 2 6 8 90-99 1 2 1 4 20 14 1 39 Gewicht in kg Summe 4 9 Anhand der Korrelationstabelle kann man oft schon Zusammenhänge erkennen. So liegen im Beispiel die am stärksten besetzten Felder auf der Hauptdiagonalen (von links oben nach rechts unten). 10.3 Grafische Darstellung 10.3.1 Balkendiagramm 2-dimensionales Balkendiagramm 45 40 35 30 25 Nichtraucher 20 Raucher 15 10 5 0 Männlich Weiblich 3-dimensionales Balkendiagramm 20 15 10 Raucher Nichtraucher 5 Nichtraucher 0 Raucher Männlich Weiblich 10.3.2 Punktwolke Für jede Beobachtungseinheit wird ein Merkmalspaar (x/y) in ein Koordinatensystem eingetragen. Je dichter die Punkte beieinander liegen, desto stärker der Zusammenhang. Mit Hilfe der Regressionsanalyse versucht man, eine mathematische Funktion anzugeben, die diesen Zusammenhang am besten beschreibt. Lässt sich er sich bei metrischen Werten durch eine Gerade charakterisieren, spricht man von einem linearen Zusammenhang und die dazugehörende Gerade Regressionsgerade. Größe in cm/Gewicht in kg 100 90 80 70 60 50 40 150 160 170 180 190 200 Die zugrunde liegende Tabelle: Nummer Größe in cm Gewicht in kg 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 170 182 166 168 153 188 175 163 169 174 170 159 173 178 160 163 168 173 160 185 175 65,3 93,1 58,5 53,2 47,9 75,6 68,9 75,2 70,3 66,2 79,3 49,3 75,6 65,9 55,4 61,2 56,6 65,8 54,5 65,4 72,5 163 180 190 169 178 165 158 161 170 59,3 72,1 75,3 55,1 80,6 54,2 47,3 60,4 70,9 Tabelle in Excel kopieren Datenspalten (Größe, Gewicht) markieren – Icon für Grafik anklicken – Diagrammtyp „Punkt (XY)“ – „weiter“ – Reihe in „Spalten“ – „weiter“ – Diagrammtitel eingeben, Legende ausblenden – „weiter“ – „fertig stellen“ In der Grafik die Größenachse x anklicken – Recktsklick „Achse formatieren“ – „Skalierung“: Minimum: 150 – „ok“ Dasselbe bei der y-Achse – Minimum: 40 – „ok“ Einen Datenpunkt anklicken – Rechtsklick: „Trendlinie hinzufügen“ – Linear – „ok“ 10.4 Korrelationsanalyse Mit der Korrelationsanalyse kann man die Stärke eines Zusammenhangs berechnen. Voraussetzung dafür ist, dass beide Merkmale, die untersucht werden sollen, metrisch skaliert (und stetig) sind. Der Zusammenhang soll vorab theoretisch geklärt werden und annähernd linear sein. Dies lässt sich durch die oben genannte Punktwolke darstellen. Liegen die Punkte so, dass sich eine Gerade (Regressionsgerade) legen lässt, um die die Punkte elliptisch liegen, kann man von einem linearen Zusammenhang ausgehen. 10.4.1 Kovarianz Mit der Kovarianz kann man den Zusammenhang zweier Merkmale berechnen. Ist der Wert > 0, besteht ein gleichsinniger Zusammenhang, ist er < 0, ein gegensinniger. Eine Kovarianz , die etwa 0 beträgt, bedeutet, dass kein linearer Zusammenhang besteht. Das bedeutet allerdings nicht, dass überhaupt kein Zusammenhang besteht. s xy 1 n xi x y i y n i 1 Die Einheit ist das Produkt der beiden Einheiten der Merkmale, im Bsp. oben: sxy = 69,2 cm*kg In eine leere Zelle klicken – „Einfügen“ – „Funktion“ – „KOVAR“ – Zellbereich1 markieren (Text wird ignoriert) – Zellbereich2 markieren (Text wird ignoriert) – ok 10.4.2 Korrelationskoeffizient nach Pearson Der Korrelationskoeffizient r ist ein normiertes Maß, das den Zusammenhang zweier Merkmale beschreibt. Zur Berechnung werden Kovarianz und die beiden Standardabweichungen benötigt. r s xy Bsp. oben: r = 0,72 sx s y In eine leere Zelle klicken – „Einfügen“ – „Funktion“ – „KORREL“ – Zellbereich1 markieren (Text wird ignoriert) – Zellbereich2 markieren (Text wird ignoriert) – ok Der Wert hat keine Dimension (Einheit) und kann nur Werte zwischen -1 und +1 annehmen. Je näher der Wert bei +1 (oder -1) liegt, desto stärker ist der Zusammenhang. Erhält man den Extremwert +1 (oder -1), liegen alle Punkte auf der Regressionsgeraden.