Handout Einführung in die Statistik mit Beispielen aus der Biologie Thomas Fabbro Version 2013-12-05 (213) “The aim of computing is insight, not numbers.” 1 Was ist Statistik? Die Statistik als Disziplin (“statistics” Mehrzahl) beschäftigt sich mit dem Sammeln, Organisieren, Analysieren, Interpretieren und Präsentieren von Daten (nach Dodge, Cox und Commenges 2006). Abbildung 1: Die Abbildung zeigt den Zusammenhang der wichtigsten Grundbegriffe der Statistik: Population, zufälliges Ziehen, Stichprobe, Untersuchungseinheit, Variable und Messwert. 2 2 Variablen Es gibt viele verschiedene Möglichkeiten, wie man Variablen in verschiedene Typen einteilen kann. Je nach Typ gibt es dann unterschiedliche statistische Verfahren die man anwenden kann. Wir werden hier die Einteilung kennen lernen, wie sie von unserer Software R verwendet wird. Messbare und Zählbare Variablen numeric für kontinuierlich Variablen, alle Zwischenschritte sind möglich integer für Ganze Zahlen Kategorielle Variablen factor für Kategorien (z. B. “Fabaceae”, “Rosaceae”, “Apiaceae”). Kategorien lassen sich weiter unterteilen in solche die man ordnen kann nach Grösse (z. B. Schulnoten: “schlecht”, “genügend”, “gut”) und in solche die sich nicht ordnen lassen (z. B. “Rhamnus alpina”, “Sorbus aucuparia”, “Quercus pubescens”). Leider ist es sehr schwierig geordnete kategorielle Daten als solche zu analysisren und darum ist für uns diese Unterteilung nur nebensächlich. logical Eine Variable die nur die Werte TRUE oder FALSE annehmen kann (z. B. “männlich”, “weiblich”). Für die statistischen Belange kann man sagen, dass dies ein spezieller factor mit genau zwei Kategorien ist. 2.1 Beschreiben von kontinuierlichen Variablen Es gibt zwei Arten wie man Variablen beschreiben kann entweder durch Kenngrössen oder mit graphischen Darstellungen. Oft erlauben graphische Darstellungen eine bessere Charakterisierung. Bevor wir jedoch uns die einzelnen graphischen Darstellungen genauer ansehen, wollen wir uns überlegen, welche Charakteristika wir beschreiben könnten. In der folgenden Liste sind für die wichtigsten 3 Charakteristika auch gleich die bekanntesten Kenngrössen angegeben. Lage Mittelwert, Median, Modus Streuung Spannweite, Quartilsabstand, Varianz Form Schiefe: z. B. rechtsschief (=linkssteil), linksschief (=rechtssteil) Wölbung: steilgipflig, flachgipflig weitere Begriffe: symmetrisch, unimodal, bimodal, multimodal Häufung (”cluster”) Werte treten in Klumpen auf. Körnung (”granularity”) Nur bestimmte Werte treten auf. Nicht alle Kenngrössen sind gleich robust gegenüber Ausreissern. Ein Mass wie robust die Kenngrössen sind ist der sogenannte “Breakdown Point”. 3 Boxplot Das Originalrezept von Tukey, dem Erfinder des Boxplots, lautet : Drawing the box: Find the median. Then find the median of the data values whose ranks are less than or equal to the rank of the median. This will be a data value or it will be half way between two data values. Drawing the whiskers: The maximum length of each whisker is 1.5 times the interquartile range (IQR). To draw the whisker above the 3rd quartile, draw it to the largest data value that is less than or equal to the value that is 1.5 IQRs above the 3rd quartile. Any data value larger than that should be marked as an outlier. Heute gibt es viel verschiedene Formen, wie man einen Boxplot zeichnen kann. Es gibt Leute die verwenden anstelle des Median den Mittelwert. Es ist daher gut, wenn man immer angibt wie man den Boxplot konstruiert hat. Boxplot ● 0 1 2 3 4 5 6 gemessene Werte Abbildung 2: Boxplot: Histogramm Der grosse Vorteil eines Histogramms ist, dass diese Form der Abbildung sehr intuitiv verständlich ist. 4 Dichte 0.0 0.1 0.2 0.3 0.4 Histogramm 0 1 2 3 4 5 6 gemessene Werte Abbildung 3: Histogramm Ein grosser Nachteil ist jedoch, dass das Aussehen eines Histogramms sehr stark von der Wahl der Kästchenbreite und des Startpunktes abhängig ist. Anzahl Kästchen: 4 Startpunkt: 0 4 6 8 10 12 2 4 6 8 10 12 0.20 0.15 Density 0.05 0.00 0 2 4 6 8 10 12 6 8 10 12 4 6 8 10 0.20 x 12 Density 0.15 0.05 Density 0 2 4 6 8 10 12 0.00 0.05 0.00 0.05 0.00 4 2 Startpunkt: −1.8 0.10 0.20 0.10 0.15 frequency 0.15 0.10 frequency 0.05 2 0 x Startpunkt: −1.2 0.25 0.20 0.30 Anzahl Kästchen: 16 0.00 0 0.10 0.10 Density 0.05 0 0.15 2 Anzahl Kästchen: 8 0.10 0 0.00 0.00 0.00 0.05 0.10 frequency 0.15 0.15 0.15 0.10 0.05 frequency Startpunkt: −0.6 0.20 Anzahl Kästchen: 2 0 2 4 6 8 10 12 −2 0 2 4 6 8 10 12 Abbildung 4: Vier Ansichten der selben Messwerte die durch eine unterschiedliche Wahl der Kästchenbreite und des Startpunktes entstanden sind. Empirische Dichte Der Vorteil dieser Abbildung gegenüber einem Histogramm ist, dass man keinen Startpunkt mehr wählen muss. 5 0.0 0.1 0.2 0.3 0.4 Dichte Dichte "gaussian kernel" 0.0 0.1 0.2 0.3 0.4 "uniform kernel" 0 1 2 3 4 5 6 0 1 gemessene Werte 2 3 4 5 6 gemessene Werte Abbildung 5: Empirische Dichte: Links mit einem uniformen Kernel (hier nur abgebildet um zu verstehen, was ein Kernel ist), rechts mit einem gaussschen Kernel. 2.2 Wahrscheinlichkeitsverteilung In der Statistik gehen wir davon aus, dass eine Population unendlich gross ist. Um die Werte in einer Population beschreiben zu können verwenden wir Wahrscheinlichkeitsverteilungen. Das ist eine mathematische Beschreibung welche die Form, die Streuung und die Lage exakt festlegt. 0.25 χ2df=3 Dichte 0.20 6.25 0.15 0.10 0.05 0.1 0.04 0.00 0 1 2 3 4 5 6 7 8 9 x Abbildung 6: Wir sehen die Wahrscheinlichkeitsverteilung für einen Wert der χ2df=3 verteilt ist. χ2 ist der Name der Verteilung und der Parameter dieser Verteilung heisst “df” und ist im Beispiel drei. 6 2.3 Quantile-Quantile-Diagramm Theoretische Quantile (der Normalverteilung) ● ● 1 ● ● ● 0 ● ● ● −1 ● ● 0 1 2 3 4 5 6 Empirische Quantile entstprechen den geordneten Beobachtungen Abbildung 7: Quantile-Quantile-Diagramm, Normalverteilungs-Diagramm 2.4 Verteilung einer Statistik Dichte Varianz P n 1 2 s2 = n−1 i=1 (xi − x̄) Dichte Mittelwert Pn x̄ = n1 i=1 xi s2 x • Jede Statistik folgt einer “eigenen” Verteilung • Die Streuung ist von der Grösse, n, der Stichprobe abhängig • Die Form der Verteilung ist von der Grösse der Stichprobe unabhängig 2.4.1 Der Zentrale Grenzwertsatz Die Verteilung des Mittelwertes aus n-Messwerten nähert sich für wachsende n immer mehr einer Normalverteilung und dies unabhängig von der Verteilung aus welcher die Messwerte gezogen wurden. 7 1.0 0.8 0.8 Dichte Dichte 1.0 0.6 0.6 0.4 0.4 0.2 0.2 2 4 6 8 10 2 1.0 1.0 0.8 0.8 0.6 0.4 0.2 0.2 4 6 8 6 8 10 0.6 0.4 2 4 Mittelwerte aus 5 Messwerten Dichte Dichte Mittelwerte aus 1 Messwerten 10 2 Mittelwerte aus 25 Messwerten 4 6 8 10 Mittelwerte aus 50 Messwerten Abbildung 8: Empirische Dichte des Mittelwertes einer Stichprobe der Grösse 1, 5, 25 und 50 aus einer χ2 -Verteilung mit λ = 3, jeweils mit 9999 Ziehungen. 2.5 Vertrauensintervall Vertrauensintervalle nehmen eine sehr wichtige Stellung in der Statistik ein da Ihnen zwei sehr wichtige Funktionen zukommen. Erstens erlauben sie die Genauigkeit eines Schätzers zu beschreiben und zweitens erlauben sie eine Interpretation ensprechend einem statistischen Test. Ich finde ein Schätzer darf nie alleine stehen und muss immer von einem (meist 95% -)Vertrauensintervall begleitet werden. Nur so kann man beurteilen, wie genau die Schätzung ist. 3 Design 3.1 Zusammenhänge In der Wissenschaft dreht sich alles um Zusammenhänge. Daher ist es wichtig, dass wir ein Vokabular haben um Zusammenhänge zu beschreiben. Folgende Liste beschreibt einige Aspekte von Zusammenhängen. • Stärke • Folgerichtigkeit • Spezifität • Zeitlichkeit • Biologischer Gradient 8 • Plausibilität • Stimmigkeit • Experiment • Analogie Um einen Zusammenhang zu untersuchen gibt es zwei grundsätzlich unterschiedliche Wege, die sich darin unterscheiden, ob das “Exposure” zugeteilt wird oder ob die “Exposure”-Zuteilung nur gemessen oder beobachtet wird. 3.2 Fehler: zufällige und systematische Die Wahl des richtigen Designs zum Untersuchen eines Zusammenhanges hängt in erster Linie davon ab, welche Fehler erwartet werden. Man unterscheidet zufällige und systematische Fehler. Zufälliger Fehler Systematischer Fehler, Bias Diese beiden Fehler treten in Kombination auf, zwei Beispiele: Für die zufälligen Fehler haben wir die Statistik, welche es uns erlaubt, die Stichprobengrösse zu berechnen. Viel schwieriger ist der Umgang mit systematischen Fehlern und diese können bei allen Schritten des wissenschaftlichen Arbeitens auftreten: 9 • Literatursuche • Festlegen und Auswählen der Studienpopulation • Durchführen der experimentellen Intervention (“Exposure”) • Messen von “Exposure” und “Outcome” • Analysieren der Daten • Interpretieren der Analyse • Publizieren der Resultate Anhand ihrer Struktur kann man die systematischen Fehler folgendermassen einteilen. Confounding Bias “Exposure” und “Outcome” haben eine gemeinsame Ursache. Selection Bias Ein gemeinsamer Effekt von “Exposure” und “Outcome” wird berücksichtigt. Information Bias Systematisch fehlerhafte Information über“Exposure”,“Outcome” oder andere Variabeln welche für die Studie herangezogen werden. Confounding Bias Zufällige“Exposure”-Zuweisung erlaubt es,“Confounding” durch bekannte und unbekannte Variablen zu verhindern. Dies ist ein grosser Vorteil von experimenteller Wissenschaft. Durch das Anpassen der Datenanalyse lässt sich confounding Bias nur sehr beschränkt “korrigieren”. Es braucht dazu sehr viel Fachwissen, welches oft nicht vorhanden ist, um mögliche “Confounder” zu identifizieren, zu messen und mit gewissen Annahmen in der Analyse zu berücksichtigen. gemeinsame Ursache "Exposure" "Outcome" Abbildung 9: Struktur welche zu einem Confounding Bias führt. 10 Selection Bias Selection Bias kann bei allen wissenschaftlichen Arbeiten auftreten. Selbst bei einem experimentellen Design kann es durch fehlende Werte zu Selection Bias kommen. gemeinsame Ursache "Exposure" "Outcome" Abbildung 10: Struktur welche zu einem selection Bias führt. Information Bias Information Bias ist unabhängig von der kausalen Struktur und kommt durch fehlerhafte Informationen über Exposure, Outcome oder andere Variablen zustande. Wenn kategoriale Messgrössen handelt spricht man auch von “Missclassification Bias”. 4 Testen Ein Wissenschaftler nutzt alle Informationen die er hat (dazu gehört in der Regel viel Fachwissen) und Beobachtungen (eigentlich Stichprobe) um eine Hypothese zu formulieren. Um eine Hypothese zu testen werden entweder weitere Beobachtungen (hoffentlich in einer strukturierten, vordefinierten Form) gemacht oder es wird ein Experiment durchgeführt. Lange war es die Ansicht, dass es die Aufgabe der Wissenschaft sei Hypothesen zu beweisen. Die Wissenschaftstheorie des Falsifikationismus, nach Karl R. Popper, verlangt jedoch, dass man statt Hypothese zu beweisen, diese hinterfragen soll. So genügt zum Beispiel ein schwarzer Schwan um die Hypothese zu verwerfen, dass alle Schwäne weiss sind. In der Statistik nutzt man diesen Mechanismus indem man nicht eine Hypothese testet, sondern indem man ein sich gegenseitige ausschliessendes Paar von Null- und Alternativhypothese aufstellt. H0 H0 akzeptieren verwerfen H0 wahr (1-α) Typ I Fehler, α 1 − α: Vertrauensniveau 1 − β: Power 11 HA wahr Typ II Fehler, β (1-β) Glossar “Breakdown Point” Der “Breakdown Point” ist ein Mass dafür, wie robust ein Schätzwert ist. Er entspricht dem Anteil an falschen (z. B. beliebig grossen) Messwerten welche es erträgt, bevor ein Schätzwert ein beliebig falsches (z. B. grosses) Resultat annimmt. Mittelwert 0 Median 0.5 - Seite(n) 3 Daten Die Statistik beschäftigt sich in der Regel mit Messungen von mehreren Untersuchungseinheiten, daher gilt immer “data is plural”. - Seite(n) 2 Ganze Zahl . . . , −4, −3, −2, −1, 0, 1, 2, 3, 4, . . .- Seite(n) 3 Hypothese Eine Hypothese ist ein Erklärungsvorschlag für ein Phänomen. In der Wissenschaft beschäftigt man sich mit Hypothesen welche getestet werden können. Gemäss der Wissenschaftstheorie des Falsifikationismus kann eine Hypothese mit empirischer Forschung nicht bewiesen, sondern nur wiederlegt werden. Daher treten in der Statistik Hypothesen immer als sich gegenseitg ausschliessendes Gegensatzpaar auf. Nullhypothese, H0 : In der Regel die langweilige Version, z. B. es gibt keinen Unterschied. Alternativhypothese, H1 oder HA In der Regel innovativ. Es ist wichtig sich immer wieder klar zu werden, dass die Hypothesen sich auf die Population beziehen, daher formuliert man die Nullhypothese auch als H0 : µa − µb = 0 mit dem griechischen Alphabet.- Seite(n) 11 kontinuierlich 3 Median auch Zentralwert, “median” Sind alle Werte einer Stichprobe sortiert, steht der Median in der Mitte, der Median teilt die Stichprobe in zwei gleich grosse Hälften. Hat die Stichprobe eine gerade Anzahl an Untersuchungseinheiten, dann wählt man in der 12 Regel den Mittelwert der beiden mittleren Werte. Der Median ist ein sehr robustes Mass für die Lage. x[(n+1)/2] wenn n ungerade ist m= (1) 1 2 (x[n/2] + x[n/2+1] ) wenn n gerade ist - Seite(n) 3, 4 Messwert (auch Beobachtung, Merkmalsausprägung, Wert der Variable, “variate”) Eine einzelne Messung einer Variable. Ein Beispiel: Population = alle erwachsenen Menschen, Untersuchungseinheit = einzelne Personen, Variable = Körpergewicht, Messwert = 182cm - Seite(n) 2 Mittelwert auch Mittel, Durchschnitt, “mean” Der arithmetische Mittelwert entspricht der Summe aller Messwerte geteilt durch die Anzahl der Messwerte. n 1X xi (2) x̄ = n i=1 - Seite(n) 3, 4 Modus auch Modalwert, “mode” Entspricht dem häufigsten Wert in einer Stichprobe.- Seite(n) 3 Parameter Ein Parameter ist eine Grösse welche normalerweise eine Verteilung oder eine Charakteristik der Population beschreibt. Wir werden das griechische Alphabet verwenden um die Parameter zu bezeichnen und dadurch betonen, dass es sich um eine Charakteristik der Population handelt.- Seite(n) 6 Population auch Grundgesamtheit, statistische Population, “population” Die Gesamtheit aller Untersuchungseinheiten für die ein Rückschluss gezogen werden soll. Auch wenn die Populationen in den meisten biologischen Anwendungen endlich gross sind, werden wir sie “de facto” als unendlich gross behandeln.- Seite(n) 2, 6 Quantil Wie der Median eine Stichprobe teilt so dass die Hälfte der Messwert kleiner und die Hälfte grösser sind, so unterteilt ein α Quantil die Stichprobe im Verhältnis α zu 1 − α. x[αn+1/2] wenn αn ungerade ist m= (3) 1 (x + x ) wenn αn gerade ist [αn] [αn+1] 2 - Seite(n) 7 13 Quartilsabstand auch Interquartilsabstand, Quartils-Differenz, “interquartile range” - Seite(n) 3 Schiefe - Seite(n) 3 Schätzwert auch Schätzer, “estimate” Wendet man eine Statistik auf die Beobachtungen einer Stichprobe an, erhält man einen Schätzwert.- Seite(n) 6 Spannweite - Seite(n) 3 Statistik Die Statistik als Disziplin (“statistics” Mehrzahl) beschäftigt sich mit dem Sammeln, Organisieren, Analysieren, Interpretieren und Präsentieren von Daten (nach Dodge, Cox und Commenges 2006).- Seite(n) 1 Statistik Eine Statistik (auch Schätzfunktion, Stichprobenfunktion, “statistic” in der Einzahl) ist eine Funktion der Daten. Wendet man diese auf die Beobachtungen einer Stichprobe an, erhält man einen Schätzwert.- Seite(n) 7 Stichprobe Eine Stichprobe ist eine Teilmenge der Population. Die Anhahl der Untersuchungseinheiten einer Stichprobe bezeichnet man als Stichprobengrösse oder als Stichprobenumfang. Wenn eine Stichprobe durch zufälliges Ziehen aus der Population gezogen wird bezeichnet man sie auch als Zufallsstichprobe. Eine Zufallsstichprobe ist die Voraussetzung für die meisten statistischen Verfahren. - Seite(n) 2, 11 Untersuchungseinheit (auch Einheit, Elemente, Erhebungseinheit, Merkmalsträger, “sampling unit”) Sie sind die Grundeinheit einer statistischen Analyse. Dabei kann eine Untersuchungseinheit einer Person, einem Versuch, einem Betrieb, einer Pflanze einer Zelle oder einer Probefläche entsprechen. Wichtig für die Wahl einer Untersuchungseinheit ist, dass diese hinsichtlich dem Zusammenhang den man untersuchen möchte unabhängig sind, sonst muss man spezielle statistische Verfahren anwenden. An einer Untersuchungseinheit werden oft mehrere Variable gemessen. In einem einfachen Datenset entspricht jeweils eine Zeile einer Untersuchungseinheit. - Seite(n) 2 14 Variable auch Messgrösse, Merkmal, statistische Variable Eine Variable ist eine Eigenschaft hinsichtlich derer sich die Untersuchungseinheiten einer Stichprobe unterscheiden. Der Philosoph und Mathematiker René Descartes hat eingeführt, dass man Buchstaben am Anfang des Alphabetes, z.B. a, b, c für Konstanten und Buchstaben am Ende des Alphabetes, z.B. x, y, z für Variablen verwendet. Beide, Konstanten und Variablen werden in der Regel kursiv verwendet. Die Auswahl der Variablen liegt in der Verantwortung des Wissenschaflters, z. B. dem Biologen und nicht in der Verantwortung des Statistikers.- Seite(n) 2, 3 Varianz Die Varianz einer Stichprobe misst die Streuung einer kontinuierlichen Variable. n 1 X (xi − x̄)2 (4) s2 = n − 1 i=1 Die Masseinheit der Varianz entspricht dem Quadrat der Masseinheit der Variable (z. B. m2 für die Varianz wenn die Variable in m gemessen wurde).- Seite(n) 3 Vertrauensintervall auch Konfidenzintervall, “confidence interval” Das Vertrauensintervall ist ein Intervall-Schätzer für einen Parameter. Es wird häufig verwendet um anzugeben wie verlässlich ein Schätzer ist. Das Vertrauensintervall wird aus den Messwerten einer Stichprobe berechnet. Es variert daher von Stichprobe zu Stichprobe. Wenn wir mehrmals ein Stichprobe ziehen und jeweils das Vertrauensintervall berechnen, dann gibt uns das Vertrauensniveau (häufig 0.95 oder 95%) an, welcher Anteil an solchen Vertrauensintervallen den Parameter enthalten. Häufiger wird fälschlicherweise angenommen, dass das Vertrauensintervall den Parameter mit der Wahrscheinlichkeit des Vertrauensniveaus, z. B. 95%, enthält. Sobald wir eine Stichprobe gezogen haben und das Vertrauensintervall berechnet haben, dann enthält dieses Intervall den Parameter oder nicht.- Seite(n) 8 Wölbung - Seite(n) 3 15 Literatur Dodge, Y., D. Cox und D. Commenges (2006). The Oxford dictionary of statistical terms. Oxford University Press, USA. 16