Vorlesung Statistik 1 für Biowissenschaften (Bachelor) Freie Universität Berlin WS 2016/17 K. Neumann Begleitmaterial zu der Vorlesung und den Übungen (Übungsblätter, Skript, aktuelle Folien zu der Vorlesung und Übungsdatensätze) finden Sie unter http://biometrie.charite.de/studium/bioinformatik/statistik_i/ Dort wird auch der Klausurtermin bekanntgegeben. 1 Ablauf: Die ersten Übungen finden nächste Woche (24-28.10.) statt. Dort werden Sie in die Programmiersprache R eingeführt. 2 Inhalt 1. Was ist Statistik? (a) Deskriptive Statistik (b) Schließende (konfirmatorische) Statistik 2. Elementare Wahrscheinlichkeitsrechnung (a) Der Wahrscheinlichkeitsraum (b) Bedingte Wahrscheinlichkeiten und der Satz von Bayes (c) Zufallsvariablen 3. Der statistische Test (a) Prinzip des statistischen Tests (b) Die klassischen statistischen Tests 4. Korrelation und Regression 5. Konfidenzintervalle 3 Vorlesung 19.10.2016 4 1. Was ist Statistik? 5 • Der Begriff “Statistik“ wird im allgemeinen Sprachgebrauch für sehr unterschiedliche Dinge benutzt. In der Regel wird unter Statistik die möglichst prägnante Beschreibung von Daten verstanden. Daten wiederum entstehen – als Ergebnis wissenschaftlicher Experimente, – bei Erhebungen (z.B. systematische Befragungen) – oder durch Beobachtungen von wiederkehrenden Ereignissen (z.B. Resultate aus dem Sport). • Daten werden oft in Form einer oder mehrerer Tabellen präsentiert. 6 • Die erste offensichtliche Aufgabe von Statistik ist die Beschreibung der großen und daher unhandlichen Menge von Daten durch wenige charakteristische Werte. Die wichtigsten sind: Mittelwert, Standardabweichung, Median, Häufigkeiten und Perzentile. • Eine andere wichtige Darstellungsform von Daten sind Diagramme, deren wichtigste Typen das Histogramm, der Boxplot, das Balkendiagramm und das Streudiagramm sind. • In Laufe der Vorlesung und in den Übungen werden Sie die Definitionen wichtiger statistischen Größen und der gängigsten Diagrammformen kennenlernen. • Statistik beschäftigt sich aber nicht nur mit Aufbereitung und Darstellung von Daten. Fast ebenso wichtig ist die Frage, welche Aussagen aufgrund der Daten gemacht werden dürfen. 7 Statistik gliedert sich deshalb in zwei große Teilbereiche: • Beschreibende (deskriptive) Statistik. • Schließende (konfirmatorische) Statistik 8 1.1 Deskriptive Statistik 1.1.1 Wichtige Lageparameter und statistische Größen Beispiel: Erhebung der schulischen Leistungen von Schülern (Simulierte Daten, Auszug aus Schueler.txt). > Schueler <- read.table("Schueler.txt", header=TRUE) > head(Schueler) 1 2 3 4 5 6 lnr Klasse Gesch Alter Groesse Gewicht Mathe Physik Deutsch Bio Fehltage 1 6 w 12 124 42 3 NA 2 3 2 2 5 w 12 146 39 4 NA 2 2 3 3 10 w 17 174 64 4 3 5 2 4 4 8 w 15 138 53 5 6 4 3 0 5 8 w 15 147 56 5 4 3 2 3 6 9 m 16 162 65 2 2 4 2 2 9 Die Spalten einer Datentabelle werden oft Variablen genannt. Sind die Einträge einer Variablen V = (x1, x2, . . . , xn) numerisch (Zahlen), können folgende statistische Größen berechnet werden: • (Arithmetischer) Mittelwert: n 1X 1 xi V̄ = (x1 + x2 + · · · + xn) = n n i=1 Beispiele: V = (1, 34, 2, 3, −2, 3, 3, 4, 7, 1, 0, 4) 1 60 V̄ = =5 (1 + 34 + 2 + 3 − 2 + 3 + 3 + 4 + 7 + 1 + 0 + 4) = 12 12 10 Mittelwert der Körpergröße der Schulkinder in Schueler.txt: > mean(Schueler$Groesse) [1] 157.1944 • Varianz: n 1 X (xi − V̄ )2 Var(V ) = n−1 i=1 11 Beispiel: Varianz von V = (1, 34, 2, 3, −2, 3, 3, 4, 7, 1, 0, 4): 1 ((1 − 5)2 + (34 − 5)2 + (2 − 5)2 + (3 − 5)2 + 11 + (−2 − 5)2 + (3 − 5)2 + (3 − 5)2 + (4 − 5)2 + Var(V ) = + (7 − 5)2 + (1 − 5)2 + (0 − 5)2 + (4 − 5)2) = 974 = ≈ 88.5 11 Varianz der Körpergröße der Schulkinder in Schueler.txt: > var(Schueler$Groesse) [1] 177.2845 12 • Standardabweichung: p sd(V ) = Var(V ) • Median: Sei (x(1), x(2), . . . , x(n)) das aufsteigend geordnete Tupel der Einträge von V . Es gilt also x(1) ≤ x(2) ≤ · · · ≤ x(n). Der Median ist dann durch x((n+1)/2), wenn n ungerade Median(V ) = (x(n/2) + x(n/2+1))/2, wenn n gerade definiert. Beispiel: Median von V : Die Einträge von V nach Sortierung: −2, 0, 1, 1, 2, 3, 3, 3, 4, 4, 7, 34 Der Median ist der Mittelwert des sechs- und siebtkleinsten Eintrages: Median(V ) = 3. 13 Die mediane Körpergröße der Schulkinder in Schueler.txt ist: > median(Schueler$Groesse) [1] 157 14 • α ∗ 100% Perzentil 0 < α < 1: Ist k = (n + 1) ∗ α eine ganze Zahl, dann wählt man x(k) als α ∗ 100% Perzentil. Ist k keine ganze Zahl, dann wird eine Linearkombination Pα(V ) := x([k])(1 − γ) + x([k]+1)γ als α ∗ 100% Perzentil gewählt. [k] ist der ganzzahlige Anteil von k und γ = k − [k]. Es sei darauf hingewiesen, dass die Definition des α-Perzentils nicht einheitlich ist! Es kommen verschiedene γ aus dem Intervall [0, 1] infrage. Das α-Perzentil liegt aber immer zwischen x[k] und x[k+1]. Beispiel: Das 25% Perzentil von V liegt zwischen dem dritt- und viertgrößten Eintrag von V : P0.25(V ) = 1 Das 25% Perzentil der Körpergröße der Schulkinder, kann in R folgendermaßen berechnet werden: 15 > quantile(Schueler$Groesse, 0.25) 25% 149 16 • Sind die Einträge einer Variable (Spalte der Datenmatrix) nicht numerisch (z.B. die Variable“Geschlecht“ im Beispieldatensatz), dann werden gerne absolute und relative Häufigkeiten der einzelnen Ausprägungen angegeben. Beispiel: V = (m, w, w, w, w, m, w, m, w, m) Absolute Häufigkeit (w)=6, Relative Häufigkeit (w)=60% Absolute Häufigkeit(m)=4, Relative Häufigkeit (m)=40% 17 Darüber hinaus gibt es noch viele andere statistische Größen, die in speziellen Situationen eine gewisse Bedeutung haben können: Z.B. spielt neben dem arithmetischen auch noch das • geometrische, quadratische und harmonische Mittel eine Rolle. Manchmal ist es auch sinnvoll, vor der Mittelung die • größten und kleinsten Werte wegzulassen (gestutztes Mittel). Für numerische Variablen werden auch gerne der • maximale und minimale Wert, 18 für nicht numerische Variablen der • Modalwert (=Ausprägung, die in der Variable am häufigsten vorkommt) angegeben. 19 1.1.2 Diagramme Für die bildliche Darstellung eines Datensatzes gibt es verschiedene Diagrammtypen, deren wichtigste hier kurz vorgestellt werden sollen. • Histogramm: Das Histogramm gibt eine Gesamtübersicht der Werte einer Variable V . Seien A = min(V ) und B = max(V ) der kleinste bzw. größte Wert der Variable V = (v1, . . . , vn). Das Intervall [A, B] wird disjunkt in k gleich große Teilintervalle I1, . . . , Ik aufgeteilt. [A, B] = I1 ] · · · ] Ik . 20 Für jedes Teilintervall Ij bestimme man die Anzahl nj von Werten aus V , die in Ij liegen. Schließlich zeichnet man über den Ij Säulen der Höhe nj . Die Anzahl k der Säulen kann frei gewählt werden. Wird sie zu klein gewählt, gibt das Histogramm nur einen groben Eindruck der Werteverteilung wider, ist sie zu groß, dann können benachbarte Säulen stark voneinander abweichende Höhen haben, was auch zu einem wenig informativen Diagramm führt. 21 Beispiel: Histogramme des Körpergewichts der Schulkinder in Schueler.txt: Gewicht der Schulkinder 40 30 20 Häufigkeit 100 0 10 50 0 Häufigkeit 50 60 150 70 Gewicht der Schulkinder 40 50 60 Gewicht[kg] 70 80 40 50 60 70 Gewicht[kg] 22 • Balkendiagramm: Im Balkendiagramm werden die absoluten oder relativen Häufigkeiten von Ausprägungen nicht numerischer Variablen dargestellt. Beispiel: Verteilung Geschlecht 60 0 20 40 relative Häufigkeit 400 200 0 absolute Häufigkeit 600 80 800 Verteilung Geschlecht Jungen Mädchen Jungen Mädchen 23 • Boxplot: Der Boxplot ist eine beliebte Darstellungsform von Median, 25% und 75% Perzentile, Minimum und Maximum. Größe Schulkinder 200 Gewicht Schulkinder Maximum Ausreißer ● ● ● ● 180 70 Maximum (nicht Ausreißer) Minimum 160 Größe [cm] 75% Perzentil Median 25% Perzentil 140 25% Perzentil 120 60 50 Median 40 Gewicht [kg] 75% Perzentil Ausreißer ● ● ● ● Minimum (nicht Ausreißer) 24 Im Boxplot werden Werte, die aus dem Rahmen fallen (Ausreißer), einzeln eingezeichnet. Die genaue Definition von Ausreißer ist nicht einheitlich. Oft findet man folgende Festlegung: Ausreißer nach oben > 75% Perzentil + 1.5*(75% Perzentil - 25% Perzentil) Ausreißer nach unten < 25% Perzentil - 1.5*(75% Perzentil - 25% Perzentil) Die Größe (75% Perzentil - 25% Perzentil) heißt auch der Interquartilsabstand. 25 Vorlesung 26.10.2016 26 • Streudiagramm: Soll die Beziehung von zwei numerischen Variablen V1 = (x1, x2, . . . , xn) und V2 = (y1, y2, . . . , yn) aus einer Tabelle graphisch untersucht werden, können die Wertepaare (x1, y1), (x2, y2), . . . , (xn, yn) in einem X − Y -Diagramm dargestellt werden. Eine solche Darstellung heißt Streudiagramm (engl. scatter-plot). 27 Beispiel: 160 120 140 Größe[cm] 180 200 Gewicht und Größe von Schulkindern 40 50 60 70 Gewicht[kg] Offensichtlich besteht ein Zusammenhang zwischen der Größe und dem Gewicht der Schüler. Eine systematische Untersuchung solcher Zusammenhänge wird im Rahmen der Korrelations- und Regressionsanalyse erfolgen. 28 1.2 Schließende Statistik • Bisher beschränkten wir uns darauf, eine konkret vorliegende Stichprobe (Datensatz) durch statistische Größen wie Mittelwert, Standardabweichung usw. möglichst prägnant zu beschreiben. • Im außerwissenschaftlichen Bereich ist das im Allgemeinen ausreichend und Statistik wird deshalb mit Datenbeschreibung gleichgesetzt. • In der Wissenschaft interessiert man sich weniger für die Verhältnisse in der konkreten Stichprobe, sondern für die Gesamtpopulation, aus der die Stichprobe stammt. Entsprechend sind Experimente nur dann interessant, wenn aus ihnen auf allgemeine Gesetzmäßigkeiten geschlossen werden können. 29 Auf folgende Fragen hat die deskriptive Statistik keine Antworten: • Was passiert bei Wiederholung des Versuchs? Wie reproduzierbar sind die Ergebnisse, die aus der Stichprobe gewonnen wurden? • Welche Aussagen darf man aufgrund der Stichprobe über die Population (=Grundgesamtheit, aus der die Stichprobe gezogen wurde) treffen? 30 Beispiel: Im Datensatz Schueler.txt wurde festgestellt, dass in der Stichprobe mehr Mädchen als Jungen vorkommen. > > > > Schueler <- read.table("Schueler.txt", header=TRUE) Freq <- table(Schueler$Gesch) n <- sum(Freq) Freq m w 465 538 31 Für die relativen Häufigkeiten ergibt das: > RelFreq <- paste(round(Freq/n*100,1), "%") > RelFreq [1] "46.4 %" "53.6 %" Die beschreibende Statistik muss bei der Feststellung, dass in der Stichprobe der Anteil der weiblichen Schüler überwiegt, stehen bleiben. 32 • Die schließende Statistik will einen Schritt weitergehen und behandelt folgende Fragen: – Kann aus der Stichprobe geschlossen werden, dass unter allen Schülern (=Grundpopulation) der Mädchenanteil überwiegt? – Können aufgrund der Stichprobe irgendwelche Aussagen über die Geschlechtsverteilung getroffen werden? • Man kann sich leicht klarmachen, dass beide Fragen negativ beantwortet werden müssen: Von einer Stichprobe, die immer nur endlich viele (hier n=1003) Individuen (hier Schüler) enthält, kann logisch sicher nie auf die Gesamtheit geschlossen werden. Es könnte ja sein, dass durch Zufall die Mädchen in der Stichprobe überrepräsentiert sind. Bei einer Wiederholung der Erhebung könnten bei einer neuen Stichprobe ganz andere Zahlen herauskommen. 33 • Die Erfahrung zeigt jedoch, dass große Stichproben dazu neigen, die Verhältnisse in der Population doch relativ gut wiederzugeben. Mit anderen Worten: Es ist recht unwahrscheinlich, dass bei großer Fallzahl die Verhältnisse in der Stichprobe stark von denen in der Population abweichen. • Diese Tatsache heißt das Gesetz der großen Zahlen. 34 • Hat z.B. eine Stichprobe von Studenten die Größe n = 100 und es befinden sich k = 60 Frauen darunter. Kann aus diesem empirischen Befund geschlossen werden, dass es in der Gesamtpopulation (alle Studenten) mehr Frauen als Männer gibt? • Die schließende Statistik versucht mit Hilfe der Wahrscheinlichkeitsrechnung auf diese Frage eine Antwort zu geben. • Man berechnet zunächst die Wahrscheinlichkeiten, k = 0, 1, 2, . . . , 100 Frauen in der Stichprobe zu finden, unter der Bedingung, dass es in der Population genauso viele Männer wie Frauen gibt. Ob diese Annahme (Hypothese) zutrifft oder nicht, soll keine Rolle spielen. 35 • Da die Annahme gemacht wurde, dass es in der Grundpopulation genauso viele Männer wie Frauen gibt, können die Wahrscheinlichkeiten für k = 0, . . . , 100 Frauen in der Stichprobe explizit ausgerechnet werden. Die Berechnungsformeln werden im folgenden Kapitel erarbeitet. In R können diese Wahrscheinlichkeiten mit der Funktion dbinom berechnet werden: > dbinom(x=0:100,size=100, prob=0.5) [1] [7] [13] [19] [25] [31] [37] [43] 7.888609e-31 9.403635e-22 8.286361e-16 2.419003e-11 6.293223e-08 2.317069e-05 1.559739e-03 2.229227e-02 7.888609e-29 1.262774e-20 5.609229e-15 1.043991e-10 1.913140e-07 5.232091e-05 2.697928e-03 3.006864e-02 3.904861e-27 1.467975e-19 3.485735e-14 4.228163e-10 5.518672e-07 1.128170e-04 4.472880e-03 3.895256e-02 1.275588e-25 1.500596e-18 1.998488e-13 1.610729e-09 1.512525e-06 2.324713e-04 7.110732e-03 4.847430e-02 36 3.093301e 1.365543e 1.061697e 5.783981e 3.943369e 4.581053e 1.084387e 5.795840e [49] [55] [61] [67] [73] [79] [85] [91] [97] 7.352701e-02 5.795840e-02 1.084387e-02 4.581053e-04 3.943369e-06 5.783981e-09 1.061697e-12 1.365543e-17 3.093301e-24 7.802866e-02 4.847430e-02 7.110732e-03 2.324713e-04 1.512525e-06 1.610729e-09 1.998488e-13 1.500596e-18 1.275588e-25 7.958924e-02 3.895256e-02 4.472880e-03 1.128170e-04 5.518672e-07 4.228163e-10 3.485735e-14 1.467975e-19 3.904861e-27 7.802866e-02 3.006864e-02 2.697928e-03 5.232091e-05 1.913140e-07 1.043991e-10 5.609229e-15 1.262774e-20 7.888609e-29 7.352701e 2.229227e 1.559739e 2.317069e 6.293223e 2.419003e 8.286361e 9.403635e 7.888609e • Wir machen uns im Moment noch keine Gedanken, wie diese Wahrscheinlichkeiten ausgerechnet werden. Dazu gibt es eine Berechnungsformel, die im nächsten Kapitel hergeleitet wird. In R ist diese Formel in der Funktion dbinom implementiert. • Nun kann man sich überlegen, wie wahrscheinlich es ist, dass sich in der Stichprobe 60 oder mehr Frauen befinden. Es wird immer noch angenommen, dass in der Grundpopulation Männer und Frauen gleich häufig auftreten. • Dazu summieren wir die einzelnen Wahrscheinlichkeiten für k = 60, 61, . . . , 100 Frauen in der Stichprobe. In R kann das bequem mit der Funktion sum erfolgen: > sum(dbinom(x=60:100,size=100,prob=0.5)) [1] 0.02844397 37 • Die Wahrscheinlichkeit für k = 60 oder mehr Frauen in der Stichprobe ist also mit 2.8% recht klein. Es ist deshalb vernünftig, die Hypothese (Annahme) von gleich viel oder weniger Frauen in der Population zu verwerfen. Man wird nun davon ausgehen, dass es auch in der Grundpopulation tatsächlich mehr weibliche als männliche Studenten gibt. • Es wurde also von den Verhältnissen in der Stichprobe auf die Population, aus der die Stichprobe gezogen wurde, geschlossen. • Eine solche Argumentationskette ist typisch für die schließende Statistik und heißt statistischer Test. 38 • Wie man an diesem einfachen Beispiel sieht, mussten an ganz zentraler Stelle der Argumentation Wahrscheinlichkeiten ausgerechnet werden. Die schließende Statistik benutzt die Wahrscheinlichkeitsrechnung als ihr wichtigstes Hilfsmittel. • Im Kapitel 2 werden wir uns deshalb mit den Grundbegriffen der elementaren Stochastik (Wahrscheinlichkeitsrechnung) beschäftigen. 39 1.3. Statistische Software Berechnungen in der Statistik sind oft aufwändig und werden mit geeigneter Software durchgeführt. Die gebräuchlichsten Programme sind: • SPSS: Weite Verbreitung besonders in der Medizin und den Sozialwissenschaften. Besitzt eine Bedienoberfläche, die eine Benutzung auch ohne größere Vorkenntnisse ermöglicht. Erlaubt nur eine sehr eingeschränkte Möglichkeit der Programmierung. Moderne statistische Methoden sind oft (noch) nicht implementiert. • SAS: Weite Verbreitung in der Industrie. Es besteht die Möglichkeit der Programmierung, die allerdings recht umständlich ist. 40 • STATA: Ähnlich wie SPSS, aber größerer Leistungsumfang. • R: Die Programmiersprache R darf kostenfrei genutzt werden und bietet gerade für wissenschaftliche Anwendung die größte Flexibilität. Viele neue Algorithmen sind zunächst nur in R verfügbar. R kann von http://www.r-project.org/ für die Betriebssystem Linux, Mac OS und Windows heruntergeladen werden. In den Übungen erhalten Sie eine kurze Einführung in R. Ein Großteil der Übungsaufgaben wird auch mit R bearbeitet. 41 2. Elementare Wahrscheinlichkeitsrechnung 2.1. Der endliche Wahrscheinlichkeitsraum Ein endlicher Wahrscheinlichkeitsraum ist eine endliche Menge Ω = {ω1, . . . , ωn} zusammen mit einer Funktion P, die jedem ωi eine nicht negative reelle Zahl pi zuordnet, also für die P(ωi) = pi ≥ 0 i = 1, . . . , n gilt. Zusätzlich fordert man noch die Normierungsbedingung p1 + · · · + pn = n X pi = 1. i=1 42 Die Zahlen pi heißen die (Elementar)wahrscheinlichkeiten der Wahrscheinlichkeitsverteilung P. Jede Teilmenge A⊂Ω heißt Ereignis des Wahrscheinlichkeitsraums (Ω, P). Jedem Ereignis A wird durch die Formel P(A) = X P (ω) ω∈A eine Wahrscheinlichkeit zugeordnet. 43 Bemerkung 1: Auch A = Ω und A = ∅ (leere Menge) sind Ereignisse. Das Symbol ⊂ steht sowohl für echte Mengeninklusion als auch für Mengengleichheit. Definitionen: 1. Die Teilmengen {ω1}, . . . , {ωn}, die genau ein Element enthalten, heißen Elementarereignisse. 2. Für jedes Ereignis A in einem Wahrscheinlichkeitsraum Ω sei AC := Ω\A := {ω ∈ Ω|ω ∈ / A}. das komplimentäre Ereignis zu A. 44 Wichtige Rechenregeln: Im endlichen Wahrscheinlichkeitsraum (Ω, P) gilt für alle A, B ⊂ Ω: 1. P(∅) = 0 2. P(Ω) = 1 3. P(AC ) = 1 − P(A) für A ⊂ Ω 4. P(A ∪ B) = P(A) + P(B), wenn A ∩ B = ∅ 5. P(A) ≥ 0 45 Beweis: Für A = ∅ gilt P(∅) = X P(ω) = 0, ω∈∅ da die Summe ohne Summanden definitionsgemäß 0 ist. Aus der Normierungsbedingung folgt anderseits für A = Ω X P(Ω) = P(ω) = p1 + · · · + pn = 1 ω∈Ω Die drei letzten Aussagen folgen mit ähnlichen Argumenten. 46 Bemerkung 2: Der Wahrscheinlichkeitsraum ist das Paar bestehend aus der Menge Ω und der Verteilungsfunktion P und wird deshalb in der Regel als (Ω, P) angegeben. Manchmal wird auch Ω selbst als Wahrscheinlchkeitsraum bezeichnet. Das ist aber nur dann zulässig, wenn die Verteilung P stillschweigend als bekannt vorausgesetzt werden kann. Bemerkung 3: Der Wahrscheinlichkeitsraum ist ein rein mathematisches Konstrukt. Man muss sich deshalb zunächst keine Gedanken machen, was Wahrscheinlichkeit eigentlich bedeutet. Wir werden aber sehen, dass einige Wahrscheinlichkeitsräume Zufallsexperimente gut beschreiben. Der abstrakte Wahrscheinlichkeitsraum dient dann als Modell für einen Vorgang (Experiment) in der “realen“ Welt. 47 2.2 Beispiele für endliche Wahrscheinlichkeitsräume 2.2.1 Münzwurf, Würfelspiel und Lotterie Beispiel 1 (faire Münze): Der Wahrscheinlichkeitsraum Ω = {K, Z} mit 1 1 und P(Z) = 2 2 wird zur Modellierung des Zufallsexperiments “einmaliger Wurf einer fairen Münze“ benutzt. Die Elemente“K“ (Kopf) und“Z“ (Zahl) sind die beiden möglichen Ausgänge des Experiments. Die spezielle Wahl der Verteilung P ist wegen der symmetrischen Form der Münze plausibel. Die Begründung für die Wahl dieses Wahrscheinlichkeitsraums als geegnetes Modell für das Münzwurfexperiment kommt also nicht aus der Mathematik sondern aus der Physik! P(K) = 48 Welche Ereignisse gibt es in diesem Wahrscheinlichkeitsraum (Ω, P ) und welche Wahrscheinlichkeiten haben sie? Die Ereignisse sind ∅, {K}, {Z} und {K, Z} mit den Wahrscheinlichkeiten 0, 1/2, 1/2 und 1. 49 Beispiel 2 (fairer Würfel): Für das Experiment “einmaliges Werfen eines fairen Würfels“ bietet sich folgender Wahrscheinlichkeitsraum an: Ω = {1, 2, 3, 4, 5, 6} mit P(1) = P(2) = P(3) = P(4) = P(5) = P(6) = 1/6. Die spezielle Wahl der Verteilungsfunktion P erklärt sich wieder daraus, dass keine der sechs Seiten des Würfels ausgezeichnet ist (Würfel ist “fair“). 50 Beispiel 3 (zweimaliges Werfen eines fairen Würfels): Hier wählt man Ω = {1, 2, 3, 4, 5, 6} × {1, 2, 3, 4, 5, 6} = {(1, 1), (1, 2), (1, 3), (1, 4), (1, 5), (1, 6), (2, 1), (2, 2), (2, 3), (2, 4), (2, 5), (2, 6), (3, 1), (3, 2), (3, 3), (3, 4), (3, 5), (3, 6), (4, 1), (4, 2), (4, 3), (4, 4), (4, 5), (4, 6), (5, 1), (5, 2), (5, 3), (5, 4), (5, 5), (5, 6), (6, 1), (6, 2), (6, 3), (6, 4), (6, 5), (6, 6)} mit P(i, j) = 1/36 i = 1, . . . , 6, j = 1, . . . , 6 als Wahrscheinlichkeitsverteilung. 51 Bemerkung 4: Das Symbol “ד steht für das kartesische Produkt von Mengen. Das kartesische Produkt von zwei Mengen A und B ist allgemein als A × B = {(a, b)|a ∈ A und b ∈ B} definiert. Mit anderen Worten, man bildet alle möglichen Paare aus Elementen von A mit Elementen aus B. 52 Beispiel 4: Bei vielen Würfelspielen mit zwei Würfeln ist die Reihenfolge der Würfe ohne Bedeutung. Es bietet sich deshalb an, die Elemente (i, j) und (j, i) zu identifizieren. Der Wahrscheinlichkeitsraum Ω aus Beispiel 3 wird dadurch auf 21 Elemente verkleinert. Die zusammengelegten Elementarereignisse erhalten dann das doppelte Gewicht. Ω0 = {[1, 1], [1, 2], [1, 3], [1, 4], [1, 5], [1, 6], [2, 2], [2, 3], [2, 4], [2, 5], [2, 6], [3, 3], [3, 4], [3, 5], [3, 6], [4, 4], [4, 5], [4, 6], [5, 5], [5, 6], [6, 6]} Das Symbol [i, j] stehe für das ungeordnete Paar [i, j] = {(i, j), (j, i)}. Da [i, j] für i 6= j aus zwei, für i = j aber nur aus einem Elementarereignis von Ω besteht, bietet sich für die Wahrscheinlichkeitsverteilung von Ω0 folgende Definition an: 1/36 für i = j P([i, j]) = 1/18 für i 6= j. 53 Vorlesung 2.11.2016 54 Beispiel 5 (Lotto “Sechs aus 49“): Beim Zahlenlotto werden sechs Kugeln aus einer Urne mit 49 Kugeln ohne Zurücklegen gezogen. Da alle Kugeln gleich sind, ist es auch hier sinnvoll anzunehmen, dass alle Möglichkeiten die gleiche Wahrscheinlichkeit haben. Auf wie viele Weisen kann man sechs Kugeln aus 49 ziehen? Werden die Kugeln hintereinander gezogen, dann wird man für die erste Kugel 49, für die zweite 48 usw. Möglichkeiten haben. Insgesamt gibt es also 49 ∗ 48 ∗ · · · ∗ 44 Möglichkeiten. Spielt die Reihenfolge keine Rolle, wird man Ziehungen, die sich nur in der Anordnung unterscheiden, zusammenfassen. 55 Auf wie vielen Weisen kann man sechs unterschiedliche Objekte anordnen? Für die erste Position gibt es sechs Möglichkeiten, für die zweite nur noch fünf und für die sechste Position gibt es schließlich nur noch eine Möglichkeit. Insgesamt kann man also sechs unterscheidbare Objekte auf 6∗5∗4∗3∗2∗1 Weisen verschieden anordnen. Da dieses Produkt in der Wahrscheinlichkeitsrechnung häufig vorkommt, führt man eine neu Bezeichnung ein: 6! = 6 ∗ 5 ∗ 4 ∗ 3 ∗ 2 ∗ 1 (gesprochen “Sechs Fakultät“). Allgemein definiere man n! = n ∗ (n − 1) ∗ (n − 2) ∗ · · · ∗ 1 (n Fakultät). 56 Ohne Berücksichtigung der Reihenfolge gibt es also 49 ∗ 48 ∗ · · · ∗ 44 49 ∗ 48 ∗ · · · ∗ 44 43! 49! = ∗ = 6! 6! 43! 6! ∗ 43! Möglichkeiten sechs aus 49 Kugeln zu ziehen, wenn die Reihenfolge keine Rolle spielt. Da auch dieser Ausdruck oft vorkommt, erhält er ein eigenes Symbol 49 49! = 6 6! ∗ 43! und wird mit Binomialkoeffizient bezeichnet. Mit den gleichen Argumenten kann man zeigen, dass es n n! = k! ∗ (n − k)! k Möglichkeiten gibt k Objekte aus n verschiedenen Objekten ohne Zurücklegen zu ziehen, wenn Ziehungen, die sich nur in der Reihenfolge unterscheiden, als gleich angesehen werden. 57 In R ist der Binomialkoeffizient in der Funktion choose, die Fakultät in factorial implementiert: > choose(49,6) [1] 13983816 ist die Anzahl der Möglichkeiten, sechs Kugeln aus 49 ohne Zurücklegen zu ziehen. 58 Spielt die Reihenfolge eine Rolle, dann sind es sogar > choose(49,6)*factorial(6) [1] 10068347520 Möglichkeiten. Da sowohl choose als auch factorial schnell große Werte annimmt, ist in R auch der natürliche Logarithmus dieser Funktionen in lchoose und lfactorial implementiert. 59 Die Wahrscheinlichkeit für eine spezielle Ziehung ist daher 1 , 49 6 ∗ 6! wenn die Reihenfolge der Ziehung beachtet wird und 1 49 6 , wenn die Reihenfolge keine Rolle spielt. Bemerkung 5: Anders als beim zweimaligen Würfeln werden beim Übergang vom Wahrscheinlichkeitsraum “mit Reihenfolge“ zum Wahrscheinlichkeitsraum “ohne Reihenfolge“ immer genau 6! = 720 Elemente zusammengefasst. Die Elementarwahrscheinlichkeiten sind deshalb auch im Wahrscheinlichkeitsraum “ohne Reihenfolge“ alle gleich. 60 Die bisherigen Beispiele legen nahe, dass Wahrscheinlichkeitsräume, in denen alle Elementarwahrscheinlichkeiten gleich sind, oft als Modelle für reale Vorgänge dienen. Aus diesem Grund habe sie einen eigenen Namen: Definition: Ein endlicher Wahrscheinlichkeitsraum Ω = {ω1, . . . , ωn} heißt Laplaceraum, wenn P(ωi) = 1/n für i = 1, . . . , n gilt. Mit anderen Worten: Jedes Elementarereignis hat die gleiche Eintrittswahrscheinlichkeit. 61 Bemerkung 6: Die Annahme gleicher Elementarwahrscheinlichkeiten heißt auch die Laplacehypothese. Sie kann mathematisch nicht bewiesen, sondern nur angenommen werden. Aus physikalischen Gründen, wie Symmetrie der Münze, Gleichartigkeit der Lottokugeln usw., ist sie oft eine plausible und sinnvolle Annahme. 62 2.2.2 Wahrscheinlichkeitstheoretische Modelle in der Genetik 2.2.2.1 Mendelscher Erbgang und Hardy-Weinberg Gesetz Manche Eigenschaften werden dominant-rezessiven (Mendelscher Erbgang) an die nächste Generation weitergegeben. Dabei wird ein Merkmal (Erbkrankheit, Haarfarbe,...), der sogenannte Phänotyp nur von einem Gen bestimmt wird, für das es zwei Allele A und a geben soll. Jedes Individuum besitzt zwei Allele, eines von der mütterlichen und eines von der väterlichen Seite. A sei das dominante Allel, d.h es bestimmt den Phänotyp (das Merkmal) vollständig. (A, A), (A, a) und (a, A) −→ Phänotyp A (a, a) −→ Phänotyp a 63 In der Regel wird zwischen den Genotypen (A, a) und (a, A) nicht unterschieden, da es schwierig ist festzustellen, welches Allel vom Vater und welches von der Mutter kommt. Der Wahrscheinlichkeitsraum für die Genotypen ist dann Ωgeno = {(a, a), (A, a), (A, A)} und für die Phänotypen Ωphäno = {A, a}. Für die Bestimmung der Wahrscheinlichkeitsverteilungen nimmt man an, dass jedes Individuum zufällig und unabhängig zwei Allele von der Elterngeneration erhält. 64 Setzt man den Anteil der A Allele in der Elterngeneration mit pA an, dann muss der Anteil der a Allele in der Elterngeneration bei pa = 1 − pA liegen. Wie bei den Modellen für Glücksspiele können wir uns Vererbung anhand eines Urnenmodells klarmachen: • Die “väterliche“ Urne UV enthält pA ∗ N Allele vom Typ A und (1 − pA) ∗ N Allele von Typ a. • Die “mütterliche“ Urne UM enthält pA ∗N Allele vom Typ A und (1−pA)∗N Allele von Typ a. Die Zahl N soll die Gesamtzahl aller Allele im männlichen bzw. weiblichen Teil der Population sein. 65 Ein Individuum erhält nun seinen Genotyp durch unabhängiges Ziehen eines Allels aus der mütterlichen Urne UM und eines Allels aus der väterlichen Urne UV . Macht man die Annahme, dass alle Kombinationen aus Allelen aus UM mit denen aus UV mit der gleichen Wahrscheinlichkeit gezogen werden (Hardy-Weinberg Annahme), dann ist der Laplaceraum Ω = UM × UV der Wahrscheinlichkeitsraum für das genetische Modell. Um die Wahrscheinlichkeiten für die einzelnen Genotypen ausrechnen zu können, müssen wir nur noch die Größe von Ω und die Häufigkeiten der Genotypen in Ω bestimmen. 66 |Ω| = N 2 Ω enthält - N pA ∗ N pA Elemente vom Genotyp (A, A), - N (1 − pA) ∗ N pA vom Genotyp (a, A), - N pA ∗ N (1 − pA) vom Genotyp (A, a) und - N (1 − pA) ∗ N (1 − pA) vom Genotyp (a, a). 67 Da die Genotypen (A, a) und (a, A) nicht unterschieden werden sollen, besteht Ω aus • N 2 p2 A Elementen vom Typ (A, A). • 2N 2pA(1 − pA) Elementen vom Typ (A, a) • N 2(1 − pA)2 Elementen vom Typ (a, a). Ω enthält insgesamt N 2 Elemente und ist ein Laplaceraum. Damit ergibt sich für die Verteilungen der Genotypen (Hardy-Weinberg Gesetz): 68 Genotyp: 2 P((a, a)) = p2 a = (1 − pA ) P((A, a)) = 2pA(1 − pA) P((A, A)) = p2 A. Nimmt man zusätzlich an, dass das Allel A dominant ist, dann ergeben die Genotypen (A, A) und (A, a) den gleichen Phänotyp. In diesem Fall ergibt sich dann für die Verteilung der Phänotypen a und A: Phänotyp: P(a) = (1 − pA)2 P(A) = 2pA(1 − pA) + p2 A. 69 Bemerkung 7: Diese Verteilungen der Geno- bzw. Phänotypen wird sich aber nur dann einstellen, wenn jedes Individuum die zwei Allele zufällig und unabhängig von der Elterngeneration erhält. Für die Herleitung mussten wir annehmen, dass Ω ein Laplaceraum ist. Diese Bedingung der zufälligen Durchmischung heißt die Hardy-Weinberg Bedingung. Eine exakte Begründung des Hardy-Weinberg Gesetzes führt zum Begriff der Unabhängigkeit von Ereignissen, der im nächsten Kapitel eingeführt wird. 70 Beispiel 6: Das dominante Allel A komme in der Population mit Wahrscheinlichkeit pA = 0.9 vor. Befindet sich die Population im Hardy-Weinberg Gleichgewicht, dann folgt für die Verteilung der Genotypen: P((a, a)) = 0.12 = 0.01 P((A, a)) = 2 ∗ 0.1 ∗ 0.9 = 0.18 P((A, A)) = 0.92 = 0.81. Der Phänotyp A kommt dann mit einer Wahrscheinlichkeit von 99% und der Phänotyp a mit nur 1% vor. Verursacht das rezessive Allel a eine Krankheit, dann sind nur 1% der Population betroffen, obwohl das Allel a mit 10% doch recht häufig auftritt. 71 2.2.2.1 Mendelsche Gesetze Durch gezielte Kreuzungsexperimente kann man erreichen, dass die Verteilung der Allele A und a in der Elterngeneration einen bekannten Wert annimmt. Kreuzt man beispielsweise ein Individuum mit Genotyp (A,A) mit einem vom Genotyp (a,a), dann können in der Tochtergeneration (F1) nur Individuen vom Genotyp (A,a) auftreten. Nimmt man wieder an, dass das Allel A dominant für ein bestimmtes Merkmal ist, dann tritt in der F1 ausschließlich Phänotyp A auf. Die Population der F1 befindet sich also nicht im Hardy-Weinberg Gleichgewicht. Was folgt dann für die Verteilung der Geno- und Phänotypen in der nächsten Generation (F2)? Diese Verteilung wurde von Gregor Mendel (1866) bestimmt und die zugrunde liegende Gesetzmäßigkeiten heißen deshalb Mendelsche Regeln. 72 Ein Individuum aus der Generation F2 erbt von der väterlichen wie von der mütterlichen Seite mit Wahrscheinlichkeit 1/2 das Allel A. Es liegt die Situation des vorigen Abschnitts vor. Durch die gezielte Kreuzung ist aber die Wahrscheinlichkeit pA = 1/2 bekannt. Damit folgt für die Verteilung der Genotypen in der F2: - P((a, a)) = (1 − pA)2 = (1/2)2 = 1/4, - P((a, A)) = 2 ∗ 1/2 ∗ (1 − 1/2) = 1/2, - P((A, A)) = (1 − pA)2 = (1/2)2 = 1/4 73 Da (A,A) und (a,A) vom gleichen Phänotyp sind, verhält sich das Verhältnis von Phänotyp a zu Phänotyp A wie 1:3. Bemerkung: Im Gegensatz zur F1 befindet sich die F2 im Hardy-Weinberg Gleichgewicht mit einem bekannten pA = 1/2. Tatsächlich hat Gregor Mendel in seinem Kreuzungsexperiment von Erbsenpflanzen mit runden (Phänotyp A) und eckigen (Phänotyp a) Erbsen in der F2 eine Verteilung von Phänotypen beobachtet, die diesen Zahlen sehr nahe kommen, und dann auf das zugrunde liegende Gesetz geschlossen. 74 Vorlesung 9.11.2016 76 2.3 Unabhängigkeit, bedingte Wahrscheinlichkeit und die Bayes-Formel 2.3.1 Unabhängige Ereignisse Zwei Zufallsexperimente sind unabhängig, wenn der Ausgang des einen den des anderen nicht beeinflusst. Die formale Definition von Unabhängigkeit lautet: Definition (Unabhängigkeit von Ereignissen): Zwei Ereignisse A und B des Wahrscheinlichkeitsraums (Ω, P) heißen unabhängig, wenn P(A ∩ B) = P(A)P(B) gilt. Beispiel 7: Man betrachte im Laplaceraum Ω = {1, 2, 3, 4, 5, 6} × {1, 2, 3, 4, 5, 6} für zweimaliges Würfeln mit Berücksichtigung der Reihenfolge die Ereignisse: A: erster Wurf ist eine 3 und B: zweiter Wurf ist eine 5. 77 In Mengenschreibweise ergibt das für A und B: A = {(3, 1), (3, 2), (3, 3), (3, 4), (3, 5), (3, 6)} und B = {(1, 5), (2, 5), (3, 5), (4, 5), (5, 5), (6, 5)}. Weiter folgt A ∩ B = {(3, 5)}. 78 Da jedes Elementarereignis die Wahrscheinlichkeit 1/36 besitzt, gilt P(A) = 1/6 = P(B) und P(A ∩ B) = 1/36. Daraus folgt durch direktes Nachrechnen P(A ∩ B) = 1/36 = 1/6 ∗ 1/6 = P(A) ∗ P(B) die Unabhängigkeit von A und B. Der Wurf des ersten Würfels beeinflusst den des zweiten nicht. 79 Beispiel 8 (nicht unabhängige Ereignisse): Man betrachte im Laplaceraum Ω = {1, 2, 3, 4, 5, 6}, der als Modell für einmaliges Würfeln mit einem fairen Würfel eingeführt wurde, folgende Ereignisse: A: Es wird eine gerade Zahl gewürfelt. B: Es wird eine 4 gewürfelt. 80 In Mengenschreibweise ergibt sich A = {2, 4, 6}, B = {4} und A ∩ B = {4}. Damit ergeben sich die Wahrscheinlichkeiten P(A) = 1/2, P(B) = 1/6 und P(A ∩ B) = 1/6. Offensichtlich gilt hier P(A ∩ B) = 1/6 6= 1/2 ∗ 1/6 = P(A)P(B). 81 Für den endlichen Wahrscheinlichkeitsraum kann man leicht zeigen: 1. Die Ereignisse ∅ und Ω sind von allen Ereignissen A ⊂ Ω unabhängig. 2. Sind A und B unabhängig, dann sind auch (a) A und B C (b) AC und B und (c) AC und B C unabhängig. 82 2.3.2 Bedingte Wahrscheinlichkeiten Definition: Für zwei Ereignisse A und B eines Wahrscheinlichkeitsraums (Ω, P) mit P(B) > 0 heißt P(A ∩ B) P(A|B) := P(B) die bedingte Wahrscheinlichkeit von A unter der Bedingung B. Die Wahrscheinlichkeit P(A) heißt die absolute Wahrscheinlichkeit von A. Zwei Ereignisse A und B (P(B) > 0) sind genau dann unabhängig, wenn P(A|B) = P(A) gilt. 83 Beweis: Sind A und B unabhängig, dann gilt nach Definition P(A ∩ B) = P(A)P(B). Daraus folgt P(A ∩ B) P(A)P(B) P(A|B) = = = P(A). P(B) P(B) 84 Umgekehrt folgt aus P(A|B) := P(A ∩ B) = P(A) P(B) sofort P(A ∩ B) = P(A)P(B). 85 Beispiel 9: Im Laplaceraum Ω = {1, . . . , 6} (einmaliges Würfeln) seien A := {4, 5, 6}: Es wird eine Zahl ≥ 4 gewürfelt. B := {2, 4, 6}: Es wird eine gerade Zahl gewürfelt. Die absolute Wahrscheinlichkeit von A beträgt P(A) = 1/2. Für die bedingte Wahrscheinlichkeit gilt jedoch P(A|B) = 2/3. Die Zusatzinformation, dass eine gerade Zahl gewürfelt wurde, erhöht anscheinend die Wahrscheinlichkeit, eine Zahl ≥ 4 zu würfeln. 86 2.3.3 Die Formel von Bayes In welchem Verhältnis stehen die beiden bedingten Wahrscheinlichkeiten P(A|B) und P(B|A) zueinandert? Für die Ereignisse in Beispiel 9 gilt P(A|B) = P(B|A). Das das im Allgemeinen nicht gelten kann, sieht man an Beispiel 8: Die Wahrscheinlichkeit, eine gerade Zahl zu würfeln unter der Bedingung eine Vier gewürfelt zu haben, ist 1. Dagegen beträgt die Wahrscheinlichkeit eine Vier zu würfeln unter der Bedingung eine gerade Zahl zu würfeln 1 3. Der korrekte Zusammenhang von P(A|B) mit P(B|A) wird durch die Formel von Bayes hergestellt: 87 Aus der Definition für bedingte Wahrscheinlichkeiten folgt durch einfaches Umstellen: P(A ∩ B) = P(A|B)P(B) und P(A ∩ B) = P(B|A)P(A) Daraus folgt P(B|A) = P(A|B)P(B) P(A) (∗). 88 Oft wird der Nenner dieser Formel noch umgeschrieben: Aus A = A ∩ Ω = A ∩ (B ∪ B C ) = (A ∩ B) ∪ (A ∩ B C ) folgt P(A) = P((A ∩ B) ∪ (A ∩ B C )) = P(A ∩ B) + P(A ∩ B C ) = P(A|B)P(B) + P(A|B C )P(B C ). Das vorletzte Gleichheitszeichen gilt wegen (A ∩ B) ∩ (A ∩ B C ) = ∅. 89 Setzt man diesen Ausdruck in den Nenner von Gleichung (*) ein, dann erhält man die Bayes Formel: P(A|B)P(B) P(B|A) = P(A|B)P(B) + P(A|B C )P(B C ) (Bayes Formel) P(B|A) kann also aus P(A|B) ausgerechnet werden, wenn zusätzlich noch die absoluten Wahrscheinlichkeiten • P(A) und P(B) oder • P(B) und die bedingten Wahrscheinlichkeiten P(A|B) und P(A|B C ) bekannt sind. 90 2.3.4 Ein Beispiel aus der medizinischen Statistik: Sensitivität, Spezifität und prädiktive Werte Der Umgang mit bedingten Wahrscheinlichkeiten ist in der Praxis oft schwierig, da absolute mit bedingten Wahrscheinlichkeiten und bei den bedingten Wahrscheinlichkeiten die Bedingungsrichtungen, d.h. P(A|B) mit P(B|A), verwechselt werden. Beispiel: In der medizinischen Diagnostik spielen die Begriffe Sensitivität, Spezifität, Prävalenz und die prädiktiven Werte eine zentrale Rolle. Jeder dieser Begriffe stellt eine absolute bzw. bedingte Wahrscheinlichkeit dar, die über der Bayes Formel in Beziehung zueinander stehen. 91 Beispiel (Fortsetzung): Jeder diagnostischer Test in der Medizin ist fehlerbehaftet. Er kann • die Krankheit nicht erkennen (Fehler 1. Art) • einen Gesunden als krank diagnostizieren (Fehler 2. Art). Zur Beschreibung dieser Fehler bietet sich eine wahrscheinlichkeitstheoretische Modellierung an. 92 Beispiel für einen diagnostischen Test: Aus der Konzentration des Prostata spezifischen Antigens (PSA) im Blut eines Patienten soll auf eine Krebserkrankung der Prostata geschlossen werden. Ab einem gewissen Wert (Schwellenwert) gilt der Patient als positiv und der Arzt geht von einem pathologischen (kranken) Befund aus. Allerdings bedeutet ein erhöhter PSA Wert nicht zwangsläufig, dass eine Krebserkrankung besteht. Nur mit einer gewissen Wahrscheinlichkeit kann auf einen Tumor in der Prostata geschlossen werden. Umgekehrt kann aber bei einem nicht erhöhten PSA Wert auch nicht mit letzter Sicherheit ein Prostatakarzinom ausgeschlossen werden. 93 Zur Modellierung definieren wir zwei Ereignisse mit ihren Gegenereignissen: 1. K: Patient ist krank (leidet an einem Prostatakarzinom) 2. G = K C : Patient ist gesund (leidet nicht an einem Prostatakarzinom) 3. P : Der Test ist positiv (PSA Wert ist erhöht). 4. N = P C : Der Test ist negativ (PSA Wert liegt im normalen Bereich). 94 Die Güte (Trennschärfe) des diagnostischen Tests (hier die Bestimmung des PSA Werts) kann nun durch zwei bedingte Wahrscheinlichkeiten modelliert werden: • P(P |K) heißt die Sensitivität und • P(N |G) = P(P C |K C ) heißt die Spezifität des diagnostischen Tests. Die absolute Wahrscheinlichkeit • P(K) heißt die Prävalenz der Erkrankung. 95 • Die Sensitivität ist die Fähigkeit eines Tests, einen Kranken positiv (krank) zu diagnostizieren. • Die Spezifität ist die Fähigkeit, einen Gesunden negativ, also nicht fälschlicherweise positiv, zu diagnostizieren. • Die Prävalenz ist die Häufigkeit der Erkrankung in einer Population. 96 Obwohl Sensitivität und Spezifität die Qualität eines diagnostischen Tests gut beschreiben, geben Sie keine Antwort auf die Frage, welchen Aussagewert eine positive bzw. negative Diagnose hat. Ist der Test positiv, will Arzt und Patient wissen, mit welcher Wahrscheinlichkeit der Patient tatsächlich krank ist. Bei einer negativer Diagnose erhebt sich die Frage, mit welcher Sicherheit die Krankheit ausgeschlossen werden kann. Es interessiert also nicht die bedingte Wahrscheinlichkeit P(P |K) (Sensitivität) sondern die Wahrscheinlichkeit mit umgekehrter Bedingungsrichtung P(K|P ). Entsprechend ist nicht P(N |G) (Spezifität) sondern P(G|N ) die für den Praktiker bedeutsame Wahrscheinlichkeit. 97 Aus diesem Grund erhalten die bedingten Wahrscheinlichkeiten P(K|P ) und P(G|N ) eigene Namen: • Die bedingte Wahrscheinlichkeit P(K|P ) heißt der positive prädiktive Wert. • Die bedingte Wahrscheinlichkeit P(G|N ) heißt der negative prädiktive Wert. Positiver und negativer prädiktiver Wert können mit Hilfe der Bayes Formel aus Sensitivität, Spezifität und Prävalenz ausgerechnet werden. 98 Für den positiven prädiktiven Wert gilt: P(P |K) ∗ P(K) P(K|P ) = = P(P |K) ∗ P(K) + P(P |G) ∗ P(G) = P(P |K) ∗ P(K) = P(P |K) ∗ P(K) + (1 − P(N |G)) ∗ (1 − P(K)) = Sensitivität ∗ Prävalenz Sensitivität ∗ Prävalenz + (1 − Spezifität) ∗ (1 − Prävalenz) 99 Ganz entsprechend gilt für den negativen prädiktiven Wert: P(G|N ) = P(N |G) ∗ P(G) = = P(N |G) ∗ P(G) + P(N |K) ∗ P(K) = P(N |G) ∗ (1 − P(K)) = P(N |G) ∗ (1 − P(K)) + (1 − P(P |K)) ∗ P(K) Spezifität ∗ (1 − Prävalenz) = Spezifität ∗ (1 − Prävalenz) + (1 − Sensitivität) ∗ Prävalenz 100 Vorlesung 16.11.2016 101 Die Summanden in den Nennern der beiden Formeln haben eine anschauliche Bedeutung: • Sensitivität ∗ Prävalenz: Wahrscheinlichkeit für richtig positiv (RP) • (1 − Sensitivität) ∗ Prävalenz: Wahrscheinlichkeit für falsch negativ (FN) • (1 − Spezifität) ∗ (1 − Prävalenz): Wahrscheinlichkeit für falsch positiv (FP) • Spezifität ∗ (1 − Prävalenz): Wahrscheinlichkeit für richtig negativ (RN) 102 Die Formeln für die prädiktiven Werte können dann auch wie • Positiver prädiktiver Wert = RP RP+FP • Negativer prädiktiver Wert = RN RN+FN geschrieben werden. 103 Offensichtlich hängen die prädiktiven Werte nicht nur von Sensitivität und Spezifität des diagnostischen Tests, sondern auch von der Prävalenz der Erkrankung ab. Man sieht leicht, dass der positive prädiktive Wert bei kleiner Prävalenz abnimmt, wohingegen der negative prädiktive Wert bei großer Prävalenz klein wird. Da Krankheiten in der Normalbevölkerung selten vorkommen, sind die prädiktiven Werte diagnostischer Tests insbesondere bei Vorsorgeuntersuchungen oder wenn beim Patienten keine krankheitsspezifische Symptomatik vorliegt, trotz hoher Sensitivität und Spezifität oft sehr klein. 104 Beispiel: Die Spezifität eines diagnostischen Tests sei 90% und seine Sensitivität sei 80%. Für eine Prävalenz von 1% beträgt der positive prädiktive Wert: > > > > > Sp <- 0.9 Sen <- 0.8 Pr <- 0.01 PosPr <- Sen*Pr/(Sen*Pr+(1-Sp)*(1-Pr)) PosPr [1] 0.07476636 105 Liegt die Prävalenz bei nur 0.1%, dann verringert sich der positive prädiktive zu > Pr <- 0.001 > PosPr <- Sen*Pr/(Sen*Pr+(1-Sp)*(1-Pr)) > PosPr [1] 0.007944389 106 2.4 Wichtige Wahrscheinlichkeitsverteilungen 2.4.1 Die Binomialverteilung Oft will man Zufallsexperimente modellieren, die aus n unabhängigen gleichartigen Teilexperimenten bestehen. Jedes der Teilexperimente kann nur zwei verschiedene Ausgänge haben (“Treffer“ und ”Nicht-Treffer“). Die Wahrscheinlichkeit p für “Treffer“ sei für alle Teilexperimente gleich. Die Wahrscheinlichkeit für k “Treffer“ soll bestimmt werden. Beispiel: Eine Münze (nicht notwendig fair) wird n mal unabhängig geworfen. Die Wahrscheinlichkeit für“Kopf“ sei p (0 ≤ p ≤ 1). Wie groß ist die Wahrscheinlichkeit für genau k mal “Kopf“? 107 Beispiel: Für eine medizinische Studie werden n Patienten, die an einer bestimmten Krankheit leiden, “rekrutiert“ (in die Studie eingeschlossen). Die anschließende Behandlung heilt einen Patienten mit der für alle Patienten gleichen Wahrscheinlichkeit p. Es sollen nur die Möglichkeiten “Heilung“ oder ”Nicht-Heilung“ geben (Responder oder Nicht-Responder). Außerdem nimmt man an, dass die Patienten unabhängig voneinander geheilt oder nicht geheilt werden. Auch hier interessiert man sich für die Wahrscheinlichkeit von genau k (k = 0, 1, . . . , n) Heilungen. 108 Der Wahrscheinlichkeitsraum Ω für solche Experimente kann als Ω = {(z1, . . . , zn)|zi = 0, 1; i = 1, . . . n} geschrieben werden. Er besteht aus den n-Tupeln mit den Einträgen 0 (=keine Heilung) oder 1 (=Heilung). Ω hat 2n Elemente. Die Wahrscheinlichkeit für eine 1 in jedem der n Einzelexperimente sei p. Die Wahrscheinlichkeit für eine 0 muss dann 1−p sein. Da die Einzelexperimente unabhängig voneinander ausgeführt werden, ist es naheliegend, P((z1, . . . , zn)) = n Y pzi (1 − p)1−zi i=1 zu setzen. Das Produkt in der Formel hat n Faktoren. Wenn in zi = 1 gilt, ist der entsprechende Faktor p, bei zi = 0 ist der Faktor 1 − p. 109 Ein Tupel mit genau k Einsen als Einträge erhält also die Wahrscheinlichkeit pk (1 − p)n−k . Hinweis: Der Wahrscheinlichkeitsraum (Ω, P) ist nur für p = 0.5 ein Laplaceraum. In der Regel spielt die Reihenfolge der Einzelexperimente keine Rolle. Man wird deshalb alle Tupel mit k Einsen zu einem Ereignis zusammenfassen wollen. Wie viele n-Tupel mit genau k Einsen gibt es? 110 Beispiel: n = 4 und p beliebig. Die Elementarereignisse für vierfache unabhängige Versuchswiederholung mit möglichen Ausgängen 0 und 1 sind: Ω = {(0, 0, 0, 0), (1, 0, 0, 0), (0, 1, 0, 0), (1, 1, 0, 0), (0, 0, 1, 0), (1, 0, 1, 0), (0, 1, 1, 0), (1, 1, 1, 0), (0, 0, 0, 1), (1, 0, 0, 1), (0, 1, 0, 1), (1, 1, 0, 1), (0, 0, 1, 1), (1, 0, 1, 1), (0, 1, 1, 1), (1, 1, 1, 1)} Die Wahrscheinlichkeiten für die Vierertupel können leicht angegeben werden, wenn man beachtet, dass die Versuchswiederholungen unabhängig voneinander durchgeführt werden sollen, und daher die Wahrscheinlichkeit eines jeden Elementarereignisses das Produkt der Wahrscheinlichkeiten für die Ergebnisse der vier Versuchsausgänge ist. 111 P({(0, 0, 0, 0)}) P({(1, 0, 0, 0)}) ... P({(1, 0, 1, 0)}) P({(0, 1, 1, 0)}) ... P({(1, 1, 1, 1)}) = (1 − p) ∗ (1 − p) ∗ (1 − p) ∗ (1 − p) = (1 − p)4 = p ∗ (1 − p) ∗ (1 − p) ∗ (1 − p) = p(1 − p)3 ... = p ∗ (1 − p) ∗ p ∗ (1 − p) = p2(1 − p)2 = (1 − p) ∗ p ∗ p ∗ (1 − p) = p2(1 − p)2 ... = p ∗ p ∗ p ∗ p = p4 Die Wahrscheinlichkeiten hängen also nur von der Anzahl und nicht von der Position der Einsen ab. Insgesamt erhält man für alle 16 Wahrscheinlichkeiten: (1−p)4, p(1−p), p(1−p)3, p2(1−p)2, p(1−p)3, p2(1−p)2, p2(1−p)2, p3(1−p), p(1−p)3, p2(1−p)2, p2(1−p)2, p3(1−p), p2(1−p)2, p3(1−p), p3(1−p), p4 112 Für k = 0, 1, 2, 3, 4 Einsen erhält man folgende Wahrscheinlichkeiten: k 0 1 2 3 4 Einzelwahrscheinlichkeit (1 − p)4 p(1 − p)3 p2(1 − p)2 p3(1 − p)1 p4 Anzahl Möglichkeiten 4 0 = 1 4 1 = 4 4 2 = 6 4 3 = 4 4 4 =1 P(k) 4 4 (1 − p) 0 4 3 p(1 − p) 1 4 2 2 p (1 − p) 2 4 3 − p)1 3 p (1 4 4 4 p 113 Allgemein kann die Anzahl der n-Tupel mit genau k Einsen durch folgendes Gedankenexperiment bestimmt werden: Man stelle sich eine Urne mit n Kugeln vor, deren Kugeln mit den Zahlen 1 bis n durchnummeriert sind. Jede der Kugeln steht für eine Position im n Tupel. Jeder Möglichkeit, aus dieser Urne k Kugeln ohne Zurücklegen zu ziehen, kann man ein n-Tupel mit genau k Einsen zuordnen, indem die Komponenten, die den Nummern der gezogenen Kugeln entsprechen, mit Eins besetzen werden und alle anderen mit Null. n k (gleiche Die Anzahl der Möglichkeiten für k aus n ohne Zurücklegen beträgt Begründung wie beim Lotto “6 aus 49“!). Die Wahrscheinlichkeit für genau k Einsen ist deshalb n b(n, p, k) := pk (1 − p)n−k . k 114 Definition: Der Wahrscheinlichkeitsraum Ω = {0, 1, . . . , n} mit P(k) = b(n, p, k) = n pk (1 − p)n−k , k = 0, . . . , n k ist der Wahrscheinlichkeitsraum der Binomialverteilung mit n unabhängigen Wiederholungen und Trefferwahrscheinlichkeit p. 115 In R sind viele Wahrscheinlichkeitsverteilungen implementiert. Die b(n, p, k) erhält man durch die Funktion dbinom: > > > > n <- 10 p <- 0.3 k <- 0:10 dbinom(x=k, size=n, prob=p) [1] 0.0282475249 0.1210608210 0.2334744405 0.2668279320 0.2001209490 0 [7] 0.0367569090 0.0090016920 0.0014467005 0.0001377810 0.0000059049 116 0.00 0.10 0.20 > y <- dbinom(x=k, size=n, prob=p) > plot(x=k, y=y, type="h", cex.axis=1.8, cex.lab=1.8, ylab="") 0 2 4 6 8 10 k 117 Neben dbinom gibt es noch • pbinom: Kumulierte Wahrscheinlichkeitsverteilung Pk i=0 b(n, p, i). • qbinom: Umkehrfunktion von pbinom. • rbinom Zufallszahlengenerator zur Erzeugung von binomialverteilten Zufallszahlen. 118 Beispiel: Eine faire Münze wird 50 mal geworfen. Die Wahrscheinlichkeit für genau 26 mal “Kopf“ ist dann b(50, 0.5, 26). Mit R ergibt das > dbinom(x=26,size=50,prob=0.5) [1] 0.1079569 119 Wie groß ist die Wahrscheinlichkeit für höchstens 20 mal “Kopf“? > pbinom(q=20,size=50,prob=0.5) [1] 0.1013194 120 Vorlesung 23.11.2016 121 2.4.2 Wahrscheinlichkeitsverteilungen auf abzählbar unendlichen Wahrscheinlichkeitsräumen Bisher waren alle Wahrscheinlichkeitsräume endliche Mengen. Die meisten für die Anwendung bedeutsamen Wahrscheinlichkeitsräume sind jedoch unendlich. Besonders wichtig sind die Verteilungen, die auf den Mengen IN , IN 0, Z Z oder IR definiert sind. Bevor diese Verteilungen eingeführt werden, muss der Begriff des Wahrscheinlichkeitsraums auf abzählbar unendliche Mengen ausgedehnt werden. 122 Definition: Eine abzählbar unendliche Menge Ω = {ω1, ω2, . . .} zusammen mit einer Funktion P(ωk ) = pk ≥ 0, k ∈ IN , für die die Normierungsbedingung ∞ X pk = 1 k=0 gilt, heißt abzählbar unendlicher Wahrscheinlichkeitsraum. 123 Eine Teilmenge A ⊂ Ω heißt Ereignis des Wahrscheinlichkeitsraums (Ω, P). Es gilt X P(A) := P (ω). ω∈A Die Ereignisse können jetzt endliche oder unendliche Mengen sein. Die Summe P ω∈A P (ω) konvergiert wegen der Normierungsbedingung für jede Teilmenge A von Ω. Alle Rechenregeln, die für endliche Wahrscheinlichkeitsräume gelten, können auf abzählbar unendliche Räume wortwörtlich übertragen werden. Der einzige neue Aspekt ist, dass nun statt endlicher auch unendliche Summen (=Reihen) auftreten. Der Nachweis der Normierungsbedingung kann deshalb mathematisch anspruchsvoller sein. 124 2.4.2.1 Die Poisson Verteilung Das wichtigste Beispiel für eine Wahrscheinlichkeitsverteilung auf einem abzählbar unendlichen Raum, ist die Poisson Verteilung. Definition: Sei λ > 0 eine reelle Zahl. Die Wahrscheinlichkeitsverteilung auf Ω = IN 0 = {0, 1, 2, . . .} mit λk −λ P(k) := p(λ, k) = e , k! k = 0, 1, 2, . . . heißt Poisson Verteilung zum Parameter λ. 125 In R ist die Poisson Verteilung in den Funktionen • dpois: p(λ, k) • ppois: Kumulierte Poisson Verteilung Pk i=0 p(λ, i) • qpois: Umkehrfunktion von ppois • rpois: Poissonverteilte Zufallszahlen implementiert. 126 > dpois(x=0:8,lambda=1.5) [1] 0.2231301601 0.3346952402 0.2510214302 0.1255107151 0.0470665182 0. [7] 0.0035299889 0.0007564262 0.0001418299 127 > > > + x <- 0:8 y <- dpois(x=x, lambda=1.5) plot(x=x,y=y, type="h", cex.axis=1.8, cex.lab=1.8, cex.main=2, main="Poisson Verteilung", xlab=expression(lambda==1.5)) 0.00 0.10 y 0.20 0.30 Poisson Verteilung 0 2 4 λ = 1.5 6 8 128 > > > + x <- 0:15 y <- dpois(x=x, lambda=5.1) plot(x=x,y=y, type="h", cex.axis=1.8, cex.lab=1.8, cex.main=2, main="Poisson Verteilung", xlab=expression(lambda==5.1)) 0.00 0.05 y 0.10 0.15 Poisson Verteilung 0 5 10 15 λ = 5.1 129 Aufgabe: Zeigen Sie die Normierungsbedingung für die Poisson Verteilung. P∞ Hinweis: Zeigen Sie Exponentialfunktion. k=0 p(λ, k) = 1. Benutzen Sie die Taylorentwicklung der 130 Die Poisson Verteilung wird zur Modellierung seltener aber häufig wiederkehrender Ereignisse benutzt. Der Grund hierfür liegt am Poissonschen Grenzwertsatz, der einen Zusammenhang der Poissonverteilung mit der Binomialverteilung herstellt. Poissonscher Grenzwertsatz: Sei λ > 0 eine reelle Zahl und λ pn := n für n > λ. Dann gilt lim b(n, pn, k) = p(λ, k). n→∞ 131 Immer wenn ein Experiment mit zwei möglichen Ausgängen oft unabhängig wiederholt wird (n groß), die Trefferwahrscheinlichkeit p aber klein ist, kann die Binomialverteilung durch die Poisson Verteilung mit Parameter λ = np angenähert werden. Viele natürliche und nicht natürliche Vorgänge können aus diesem Grund mit einer Poisson Verteilung beschrieben werden. 132 Beispiel: Die Anzahl der jährlichen Unfälle in einem Autobahnabschnitt ist näherungsweise poissonverteilt. Begründung: Man nehme an, dass sich im fraglichen Autobahnabschnitt durchschnittlich λ Unfälle im Jahr ereignen. Dieser Durchschnitt λ kann durch Beobachtung des Unfallgeschehens über viele Jahre geschätzt werden. Man denkt sich nun das Jahr T in n gleichlange disjunkte Teilintervalle T1, . . . , Tn zerlegt. Wenn n groß ist, dann ist die Wahrscheinlichkeit für einen Unfall in einem bestimmten Teilintervall λ/n. Die Wahrscheinlichkeit für zwei oder mehr Unfälle in einem Teilintervall kann bei großen n vernachlässigt werden. In einem Teilintervall Ti ereignet sich mit der Wahrscheinlichkeit pn = λ/n ein Unfall und mit 1 − pn kein Unfall. Macht man noch die Annahme, dass sich in den Ti die Unfälle unabhängig voneinander ereignen, dann ist man in der Situation der Binomialverteilung. 133 Die Wahrscheinlichkeit für genau k Unfälle in T ist daher b(n, k, pn). Da n beliebig groß gemacht werden darf (entsprechend wird pn = λ/n klein), kann der Poissonsche Grenzwertsatz angewandt werden, und die Wahrscheinlichkeit für k Unfälle ist p(λ, k). Ist beispielsweise bekannt, dass sich durchschnittlich λ = 3.4 Unfälle im Jahr ereignen, dann ist die Wahrscheinlichkeit, dass sich im nächsten Jahr kein Unfall ereignet 3.40 −3.4 p(3.4, 0) = e = e−3.4. 0! > exp(-3.4) [1] 0.03337327 134 Beispiel (DNA-Sequenzanalyse): Im Genom gibt es charakteristische Abschnitte, sogenannte “Anker“, deren Position bekannt ist. DNA-Fragmente, die einen Anker enthalten, können deshalb lokalisiert werden. Man geht nun davon aus, dass im Mittel λ Anker pro 1000 bp (Basenpaare) auftreten. In einem DNA Fragment der Länge L werden sich im Mittel Lλ Anker befinden (die Länge des Fragments wird in Einheiten 1000 bp gemessen). Die tatsächliche Anzahl in einem beliebigen DNS Teilstück der Länge L wird zufallsbedingt mehr oder weniger von diesem Mittelwert abweichen. Unter idealen Modellannahmen (Welchen?) kann man mit einer ähnlichen Argumentation wie beim vorigen Beispiel zeigen, dass die Anzahl der Anker in einem DNA Fragment der Länge L einer Poisson Verteilung mit Parameter Lλ gehorcht. 135 Beispiel: In der Epidemiologie wird eine Gruppe (Kohorte) von n = 10000 gesunden Personen durchschnittlich ein Jahr lang beobachtet. Es sei bekannt, dass die Inzidenz einer Erkrankung ein Fall pro 1000 Personen und Jahr beträgt. Die Anzahl der tatsächlich beobachteten Krankheitsfällen in der Kohorte im nächsten Jahr wird dann gerne durch die Poissonverteilung mit λ = 10 beschrieben, da die Wahrscheinlichkeit im nächsten Jahr zu erkranken für jede einzelne Person der 1 recht klein ist, die Anzahl der unabhängigen Versuche mit Kohorte mit p = 1000 n = 10000 aber groß ist. 136 2.4.2.2 Die geometrische Verteilung Ein Zufallsexperiment mit den beiden möglichen Ausgängen “Treffer“ oder “Niete“ wird unabhängig so lange wiederholt, bis das erste Mal “Treffer“ beobachtet wird. Die Wahrscheinlichkeit für einen “Treffer“ sei p. Wie groß ist die Wahrscheinlichkeit g(p, k), dass das Experiment nach k Versuchen abbricht? Antwort: Das Experiment bricht nach k Versuchen genau dann ab, wenn die ersten k − 1 Versuche Nieten ergeben und der k-te Versuch ein Treffer ist. Da die Versuche unabhängig voneinander ausgeführt werden, gilt g(p, k) = (1 − p)k−1p, k = 1, 2, . . . , 137 Definition: Die Wahrscheinlichkeitsverteilung Ω = IN = {1, 2, . . .}, mit P(k) = (1 − p)k−1p, k∈Ω heißt geometrische Verteilung. Aufgabe: Beweisen Sie die Normierungsbedingung für die geometrische Verteilung. Warum heißt die Verteilung “geometrisch“? 138 Vorlesung 30.11.2016 139 2.4.3 Überabzählbare Wahrscheinlichkeitsräume: Die reellen Zahlen IR als Wahrscheinlichkeitsraum 2.4.3.1 IR als Wahrscheinlichkeitsraum Bisher wurden nur endliche und abzählbar unendliche Wahrscheinlichkeitsräume betrachtet. Abzählbar unendliche Mengen sind z.B. IN , Z Z oder sogar die rationalen Zahlen Q, nicht aber die reellen Zahlen IR. Eine ganz wichtige Klasse von Verteilungen sind aber Verteilungen auf den reellen Zahlen IR. Die Ergebnisse vieler Zufallsexperimente werden durch reelle Zahlen beschrieben. Der Begriff des Wahrscheinlichkeitsraums muss deshalb auf die Menge Ω = IR erweitert werden. 140 Beispiel: Eine wichtige Klasse von Zufallsexperimenten mit Ergebnissen in IR sind alle Messungen. Da jeder Messprozess mehr oder weniger durch zufällige Fehler gestört ist, sind die Ergebnisse einer jeden Messung in einem gewissen Rahmen zufallsbedingt. Beispiel: Man wähle aus einer Population von Menschen zufällig einen aus und bestimme seine Körpergröße. Das Ergebnis ist eine reelle Zahl, die“vom Zufall“ abhängt. Zum einen ist die Auswahl des Individuums zufällig, aber auch die Messung selbst hat eine zufallsbedingte Unschärfe. 141 Man kann zeigen, dass IR nicht wie die natürlichen oder ganzen Zahlen in der Form {ω1, ω2, . . .} darstellbar ist. Man sagt auch, dass IR nicht abzählbar oder überabzählbar ist. Das Konzept, die Wahrscheinlichkeitsverteilung P zunächst für die Elementarereignisse ω ∈ Ω zu definieren und dann durch X P(A) = P(ω) ω∈A auf jede Teilmenge A ⊂ Ω zu erweitern, ist für Ω = IR undurchführbar, da die Summation für die meisten Teilmengen A ⊂ IR nicht definierbar ist. A kann so “groß“ sein (z.B. IR selbst), dass bei jeder auch unendlichen Summation immer unendlich viele Elemente von A ausgelassen werden. 142 Um auf IR Wahrscheinlichkeitsverteilungen zu definieren, muss man sich von der Idee, jeder Teilmenge A ⊂ Ω eine Wahrscheinlichkeit zuzuordnen, verabschieden. Man begnügt sich zunächst, allen Intervallen [a, b] ⊂ IR Wahrscheinlichkeiten P([a, b]) zuzuordnen. Das geschieht mit Hilfe der Integralrechnung. 143 Definition: Eine Wahrscheinlichkeitsdichte ist eine reelle integrierbare Funktion φ(t) ≥ 0 φ : IR −→ IR mit Z ∞ φ(t)dt = 1 (Normierungsbedingung). −∞ Jede solche Funktion φ definiert auf IR eine stetige Wahrscheinlichkeitsverteilung auf IR, indem jedem Intervall [a, b] ⊂ IR die Wahrscheinlichkeit Z b φ(t)dt. P([a, b]) = a zugeordnet wird. 144 Bemerkung: Auf gleiche Weise kann auch für offene, halboffene oder die unendlichen Intervalle (−∞, b], [a, ∞) und ganz IR die Wahrscheinlichkeit P definiert werden. Bemerkung: Zunächst ist P nur für beliebige Teilintervalle von IR definiert. Man kann zeigen, dass P noch für viel mehr Mengen sinnvoll definiert werden kann. Diese Mengen heißen messbare Mengen. In dieser Vorlesung ist es aber nur wichtig zu wissen, wie P für Intervalle und endliche Vereinigungen von Intervallen berechnet wird. 145 Sei A = I1 ∪ I2 ∪ · · · ∪ In die Vereinigung von paarweise disjunkten abgeschlossenen, offenen oder halboffenen Intervallen (Ij = (aj , bj ), [aj , bj ], [aj , bj ) oder (aj , bj ]). P(A) sei dann als P(A) = n Z X bi φ(t)dt. i=1 ai definiert. Auch für Mengen A, die Vereinigung einer unendlichen Folge von paarweise disjunkten Intervallen ist, kann eine Wahrscheinlichkeit zugeordnet werden: 146 Sei A = I1 ∪ I2 ∪ · · · = ∪∞ i=1 Ii mit Ii ∩Ij = ∅ für i, j ∈ IN die Vereinigung einer unendlichen Folge von paarweise disjunkten Intervallen. Dann definiert man ∞ Z X P(A) = φ(t)dt. i=1 Ii R Ii bezeichne das Integral von der unteren bis zur oberen Grenze des Intervalls Ii . Die Mengen A, die als endliche oder abzählbar unendliche Vereinigungen von Intervallen geschrieben werden können, heißen die Borelmengen von IR. Eine genauere Untersuchung dieser Mengen ist Gegenstand der Maßtheorie. 147 2.4.3.2 Die Standardnormalverteilung Das wichtigste Beispiel für eine auf IR definierte stetige Wahrscheinlichkeitsverteilung ist die Standardnormalverteilung. Definition: Die auf IR durch die Wahrscheinlichkeitsdichte (Gaußsche Glockenkurve) 2 1 φ(t) := √ e−t /2 2π definierte Wahrscheinlichkeitsverteilung heißt die Standardnormalverteilung. 148 Die Wahrscheinlichkeit P([a, b]) für ein beliebiges Intervall [a, b] ist für die Standardnormalverteilung Z b 2 1 √ e−t /2dt, P([a, b]) = 2π a die Fläche unter der Kurve φ(t) zwischen a und b. 149 Beispiel: Für [1, 2] ist P([1, 2]) die schraffierte Fläche unter der Kurve der Wahrscheinlichkeitsdichte. 0.2 0.1 0.0 dnorm 0.3 0.4 a=1 und b=2 −3 −2 −1 0 1 2 3 x 150 Um Wahrscheinlichkeiten von Intervallen für eine stetige Verteilung auf IR ausrechnen zu können, müssen Integrale berechnet werden. Da das oft schwierig oder wie im Fall der Standardnormalverteilung mit elementaren Funktionen nicht möglich ist, definiert man zu jeder Wahrscheinlichkeitsdichte φ(t) die Verteilungsfunktion Z x F (x) := φ(t)dt. −∞ Die Verteilungsfunktion ist eine Stammfunktion der Dichtefunktion: F 0(x) = φ(x). 151 Aus den Regeln der Integralrechnung (Additivität des Integrals) folgt nun: Z b P([a, b]) = φ(t) dt = Zab Z a Z a = φ(t) dt + φ(t) dt − φ(t) dt = −∞ Z a a b Z φ(t) dt − = −∞ −∞ φ(t) dt = −∞ = F (b) − F (a) Man muss also nur die Verteilungsfunktion F (x) kennen, um die Wahrscheinlichkeit für beliebige Intervalle ausrechnen zu können. 152 Die Verteilungsfunktion Z x 1 −t2/2 Φ(x) = e dt −∞ 2π der Standardnormalverteilung ist in R aber auch in vielen anderen Softwarepaketen implementiert. In der Regel wird sie mit Φ bezeichnet. In R ist die Dichte der Standardnormalverteilung die Funktion dnorm und die Verteilungsfunktion Φ erhält man mit pnorm. 153 Die Wahrscheinlichkeit P([a, b]) (schraffierte Fläche unter der Kurve im vorigen Diagramm) kann daher in R mit > pnorm(2)-pnorm(1) [1] 0.1359051 berechnet werden. 154 0.00 0.0 0.1 0.05 0.2 0.10 0.3 0.15 0.4 Stetige Verteilung versus diskrete Verteilung: −3 −1 1 2 3 0 2 4 6 8 10 155 2.4.3.3 Die allgemeine Normalverteilung Definition: Die durch die Dichte φ(t) := √ 1 2πσ 2 t−µ 2 1 −2 σ e definierte Wahrscheinlichkeitsverteilung heißt Normalverteilung mit Erwartungswert µ und Varianz σ 2. Bemerkung: Erwartungswert und Varianz werden erst im nächsten Abschnitt definiert. Zunächst sollen sie nur Bezeichnungen für die Parameter µ und σ 2 sein. Bemerkung: Offensichtlich ist die Standardnormalverteilung die Normalverteilung mit Erwartungswert 0 und Varianz 1. 156 Bemerkung: Der Beweis der Normierungsbedingung Z ∞ t−µ 2 1 1 −2 σ √ e dt = 1 2 −∞ 2πσ für die Normalverteilung ist nicht ganz einfach und soll hier übergangen werden. Die allgemeine Normalverteilung ist in R auch in den Funktionen dnorm und pnorm implementiert: > pnorm(2,mean=1,sd=2) [1] 0.6914625 157 ergibt beispielsweise P((−∞, 2]) für die Normalverteilung mit Erwartungswert 1 und Varianz 4. Das optionale Argument sd erwartet die Eingabe der Standardabweichung (=Quadratwurzel aus der Varianz). In der folgenden Graphik werden Dichtefunktionen der Normalverteilung für einige ausgewählte Parameter dargestellt. 158 1.5 Normalverteilungen (Dichten) 0.0 0.5 1.0 Erwartungswert −1 und Varianz 1 Erwartungswert 1 und Varianz 4 Erwartungswert 0 und Varianz 1/9 −4 −2 0 2 4 159 2.4.3.4 Die Gleichverteilung Definition: Seien a < b zwei reelle Zahlen. Die durch die Wahrscheinlichkeitsdichte 1 , t ∈ [a, b] b−a φ(t) := 0 sonst definierte Wahrscheinlichkeitsverteilung auf IR heißt Gleichverteilung zwischen a und b. Man überzeuge sich, dass für jedes Teilintervall [c, d] ⊂ [a, b] d−c P([c, d]) = b−a gilt. Insbesondere erhalten gleichlange Teilintervalle von [a, b] die gleiche Wahrscheinlichkeit zugeordnet. 160 3.0 Gleichverteilungen (Dichten) 1.5 1.0 0.5 0.0 y1 2.0 2.5 a=0 und b=1 a=2 und b=2.5 161 −1 0 1 2 x 3 4 Mit den R-Funktionen dunif und punif können Werte der Dichte- bzw. Verteilungsfunktion der Gleichverteilung berechnet werden. > punif(2.1,min=2,max=2.5) [1] 0.2 > dunif(2.1,min=2,max=2.5) [1] 2 162 Bemerkung: Die Werte von Wahrscheinlichkeitsdichten sind keine Wahrscheinlichkeiten! Für eine stetige Verteilung ist die Wahrscheinlichkeit einer einzelnen reellen Zahl a ∈ IR stets Z a P(a) = φ(t) dt = 0 a und nicht φ(a). Bemerkung: Da die Werte von Wahrscheinlichkeitsdichten keine Wahrscheinlichkeiten sind, müssen sie auch nicht auf [0, 1] beschränkt sein. Wahrscheinlichkeitsdichten können beliebige Werte ≥ 0 annehmen. Es gibt sogar Wahrscheinlichkeitsdichten, die nicht beschränkt sind! Jede nicht negative integrierbare Funktion, die die Normierungsbedingung erfüllt, ist erlaubt. 163 2.4.3.5 Die χ2-Verteilung mit einem Freiheitsgrad Eine für die Praxis wichtige Verteilung mit unbeschränkter Dichte ist die χ2-Verteilung mit einem Freiheitsgrad. Ihre Bedeutung für statistische Tests werden wir später kennenlernen. 0.0 0.5 1.0 1.5 Dichte der Chiquadratverteilung mit 1 Freiheitsgrad −1 0 1 2 x 3 4 ( φ(t) = −t/2 √1 e √ t 2π t>0 . 0 sonst 164 2.4.3.6 Die Familie der t-Verteilungen Für jede positive ganze Zahl ν wird durch die Wahrscheinlichkeitsdichte − ν+1 ν+1 2 2 Γ( 2 ) t fν (t) = √ , ν) 1 + ν νπΓ( 2 t ∈ IR die t-Verteilung mit ν Freiheitsgraden definiert. Hier bezeichnet Γ die Gammafunktion. In R sind die Wahrscheinlichkeitsdichten der t-Verteilung in dt und die (kumulative) Wahrscheinlichkeitsverteilung der t-Verteilung in pt implementiert. Die Umkehrfunktion von pt erhält man durch qt und den Zufallszahlengenerator durch rt. Die Freiheitsgrade ν müssen immer über das Argument df angegeben werden. 165 0.0 0.1 0.2 0.3 0.4 ν=1 ν=5 ν = 20 ν = ∞ (=N(0, 1)) 166 −6 −4 −2 0 t 2 4 6 2.4.3.7 Die Exponentialverteilung Sei λ > 0. Die durch die Wahrscheinlichkeitsdichte λe−λt t ≥ 0 fλ(t) = 0 t<0 definierte Verteilung heiß Exponentialverteilung mit Parameter λ. Man kann zeigen, dass die Zeit T , die bis zum ersten Eintreffen eines bestimmet Ereignisses verstreicht, unter bestimmen idealisierten Bedingungen exponentialverteilt ist. 167 2.4.4 Zusammenfassung 1. Endliche Wahrscheinlichkeitsräume (a) Laplaceraum Ω mit n Elementen. Jede Elementarwahrscheinlichkeit ist gleich groß = 1/|Ω|. (b) Binomialverteilung mit n Wiederholungen und Trefferwahrscheinlichkeit p. Wahrscheinlichkeitsraum Ω = {0, . . . , n} mit n P(k) = b(n, p, k) = pk (1 − p)n−k , k = 0, . . . , n. k 168 2. Verteilungen auf abzählbar unendlichen Mengen (a) Poissonverteilung mit Parameter λ. Ω = IN 0 und die Elementarwahrscheinlichkeiten sind durch λk −λ p(λ, k) = e , k = 0, 1, . . . k! gegeben. (b) Geometrische Verteilung mit Trefferwahrscheinlichkeit p. Ω = IN und die Elementarwahrscheinlichkeiten sind durch g(k) = (1 − p)k−1p, k = 1, 2, . . . gegeben. 169 3. Stetige Verteilungen auf IR. (a) Normalverteilung mit Erwartungswert µ und Varianz σ 2. Die Verteilung ist über ihre Dichte φ(t) = √ 1 2πσ 2 t−µ 2 1 −2 σ e definiert. (b) Gleichverteilung auf [a, b]. Die Dichte der Gleichverteilung ist 1 , t ∈ [a, b] b−a . φ(t) := 0 sonst (c) χ2 Verteilung mit einem Freiheitsgrad ( φ(t) = −t/2 √1 e √ t 2π t>0 0 sonst 170 (d) t-Verteilung mit ν Freiheitsgraden − ν+1 ν+1 2 2 Γ( 2 ) t fν (t) = √ , ν) 1 + ν νπΓ( 2 (e) Exponentialverteilung mit Parameter λ λe−λt t ≥ 0 fλ(t) = 0 t<0 t ∈ IR Vorlesung 7.12.2016 171 2.5 Zufallsvariable, Erwartungswert, Varianz und Unabhängigkeit von Zufallsvariablen 172 2.5.1 Zufallsvariablen Definition: Eine (reelle) Zufallsvariable X ist eine Abbildung von einem Wahrscheinlichkeitsraum Ω in die reellen Zahlen IR. X : Ω −→ IR. Beispiel: Sei Ω = {1, 2, 3, 4, 5, 6} × {1, 2, 3, 4, 5, 6} mit P((i, j)) = 1/36 der Wahrscheinlichkeitsraum, der das Zufallsexperiment des zweimaligen Würfelns mit einem fairen Würfel beschreibt. X((i, j)) = i + j sei die Zufallsvariable, die die Summe der Augenzahlen beider Würfe angibt. 173 2.5.2 Erwartungswert und Varianz Definition: Der Erwartungswert E(X) einer reellen Zufallsvariable X auf einem Wahrscheinlichkeitsraum Ω ist folgendermaßen definiert: a) Ω ist ein diskreter (=endlicher oder abzählbar unendlicher) Wahrscheinlichkeitsraum. X E(X) = X(ω)P(ω) ω∈Ω b) Ω = IR ist ein stetiger Wahrscheinlichkeitsraum mit Wahrscheinlichkeitsdichte φ. Z ∞ E(X) = X(t)φ(t) dt −∞ 174 Definition: Sei X eine Zufallsvariable auf einem Wahrscheinlichkeitsraum Ω, für die der Erwartungswert E(X) existiert. Die Varianz Var(X) von X ist folgendermaßen definiert: 1. Ω ist ein diskreter (=endlicher oder abzählbar unendlicher) Wahrscheinlichkeitsraum. X (X(ω) − E(X))2P(ω) Var(X) = ω∈Ω 2. Ω = IR ist ein stetiger Wahrscheinlichkeitsraum mit Wahrscheinlichkeitsdichte φ. Z ∞ Var(X) = (X(t) − E(X))2φ(t) dt −∞ 175 Bemerkung: Erwartungswert und Varianz müssen nicht für jede Zufallsvariable X existieren. Der Erwartungswert existiert nur, wenn die Summe bzw. das Integral in der Definition konvergiert bzw. existiert. Entsprechend existiert die Varianz einer Zufallsvariable nur dann, wenn ihr Erwartungswert existiert und wenn die Summe bzw. das Integral in der Definition konvergiert bzw. existiert. 176 Für viele wichtige Verteilungen wie z.B. die Binomialverteilung, Poissonverteilung, geometrische Verteilung, Gleich- und Normalverteilung gilt Ω ⊂ IR. In diesem Fall ist die identische Abbildungen X X : Ω −→ IR x 7−→ x eine wichtige Zufallsvariable. Man sagt dann, dass X gemäß der Verteilung von Ω verteilt ist. 177 Beispiel: Spricht man beispielsweise von einer poissonverteilten Zufallsvariable X mit Parameter λ, dann versteht man darunter die Abbildung X : Ω −→ IR k 7−→ k, wobei Ω = IN 0 der diskrete Wahrscheinlichkeitsraum mit den Elementarwahrk scheinlichkeiten p(λ, k) = e−λ λk! ist. 178 Erwartungswert und Varianz sind dann E(X) = ∞ X k=0 λ ke−λ k k! und Var(X) = ∞ X k=0 λk 2 −λ . (k − E(X)) e k! Man kann zeigen, dass beide Summen λ sind. Der Parameter λ ist deshalb sowohl Erwartungswert als auch Varianz der Poissonverteilung. Definition: Unter Erwartungswert und Varianz einer Wahrscheinlichkeitsverteilung auf Ω ⊂ IR versteht man Erwartungswert und Varianz der identischen Abbildung von Ω nach IR. 179 Bemerkung: Der Begriff Varianz tauchte auch schon im Zusammenhang mit der Beschreibung von Stichproben auf. Was ist der Zusammenhang von Stichprobenvarianz und arithmetischer Mittelwert mit Erwartungswert und Varianz von Wahrscheinlichkeitsverteilungen? Zunächst handelt es sich um unterschiedliche Begriffe. Der Bezug zwischen beiden wird durch das Gesetz der großen Zahlen hergestellt: In einer großen Stichprobe mit n unabhängigen Elementen wird der Mittelwert nahe am Erwartungswert und die Varianz der Stichprobe nahe an der Varianz der zugrunde liegenden Verteilung liegen. Für n → ∞ ist der arithmentische Mittelwert exakt der Erwartungswert und die Stichprobenvarianz exakt die Varianz der Verteilung. Da aber immer endliche Stichproben vorliegen, sind Stichprobenvarianz und arithmetischer Mittelwert mehr oder wenig gute Schätzer für Erwartungswert und Varianz der zugrunde liegenden Verteilung. 180 2.5.3 Unabhängigkeit von Zufallsvariablen Definition: Zwei Zufallsvariablen X und Y , die auf dem gleichen diskreten Wahrscheinlichkeitsraum Ω definiert sind, heißen unabhängig, wenn für alle x1, x2 ∈ IR die Mengen (Ereignisse) X −1(x1) und Y −1(x2) unabhängig sind. Bemerkung: Auch für Zufallsvariablen auf stetigen Warscheinlichkeitsräumen kann der Begriff der unabhängigen Zufallsvariablen definiert werden. Dazu benötigt man aber Grundbegriffe der mehrdimensionalen Integrationsrechnung, die den Rahmen dieser Vorlesung sprengen würden. 181 Beispiel: Sei Ω = {1, 2, 3, 4, 5, 6} × {1, 2, 3, 4, 5, 6} mit P((i, j)) = 1/36 der Wahrscheinlichkeitsraum (Laplaceraum), der das Zufallsexperiment des zweimaligen Würfelns mit einem fairen Würfel beschreibt. Dann sind die Zufallsvariablen X : Ω −→ IR (ω1, ω2) 7→ ω1 und Y : Ω −→ IR (ω1, ω2) 7→ ω2 unabhängig. 182 Sei Z die Zufallsvariable mit Z : Ω −→ IR (ω1, ω2) 7→ ω1 + ω2, dann ist Z weder von X noch von Y unabhängig. Wählt man x1 = 1 und x2 = 2, dann gilt X −1(x1) = {(1, 1), . . . , (1, 6)} und Z −1(x2) = {(1, 1)}. Die Ereignisse {(1, 1), . . . , (1, 6)} und {(1, 1)} sind aber nicht unabhängig, da aus {(1, 1)} das Ereignis {(1, 1), . . . , (1, 6)} folgt. 183 Bemerkung: Die Unabhängigkeit von Zufallsvariablen wird oft nicht bewiesen, sondern vorausgesetzt. Werden beispielsweise Messungen an unabhängigen statistischen Einheiten (z.B. Personen, Probanden, Patienten, Zellkulturen,...) durchgeführt, dann werden die Messergebnisse X1, . . . , Xn in der Regel als unabhängige Zufallsvariablen angesehen. Die Unabhängigkeit folgt dann nicht aus der Mathematik, sondern sie wird aus der Versuchsanlage plausibel. Das Experiment (Studie) muss so durchgeführt werden, dass sich die Versuche an den einzelnen statistischen Einheiten nicht gegenseitig beeinflussen können. 184 2.5.4 Wichtige Rechenregeln für Erwartungswert und Varianz Seien X und Y zwei Zufallsvariablen, deren Erwartungswerte existieren. 1. E(X + Y ) = E(X) + E(Y ) 2. E(aX) = aE(X) für a ∈ IR 3. Var(aX) = a2Var(X) für a ∈ IR 4. Var(X) = E(X 2) − E(X)2 185 5. Sind X und Y unabhängig, dann gilt E(XY ) = E(X)E(Y ) und Var(X + Y ) = Var(X) + Var(Y ). 6. Für die konstante Zufallsvariable X = a (a ∈ IR) gilt: E(X) = E(a) = a und Var(X) = Var(a) = 0. 186 Vorlesung 14.12.2016 187 2.5.5 Erwartungswert und Varianz einiger wichtiger Verteilungen 1. Die Binomialverteilung auf Ω = {0, 1, . . . , n} mit Trefferwahrscheinlichkeit p hat (a) Erwartungswert np (b) Varianz np(1 − p) 2. Die Poissonverteilung auf Ω = IN 0 mit Parameter λ > 0 hat (a) Erwartungswert λ (b) Varianz λ 188 3. Die geometrische Verteilung auf Ω = IN mit Trefferwahrscheinlichkeit p > 0 hat (a) Erwartungswert 1/p (b) Varianz 1−p 2 p 4. Die Normalverteilung mit Dichte φ(t) = √ 1 2πσ 2 t−µ 2 1 −2 σ e hat (a) Erwartungswert µ (b) Varianz σ 2 189 5. Die Gleichverteilung auf (a, b) hat (a) Erwartungswert (a + b)/2 (b) Varianz (b − a)2/12 190 2.5.6 Die standardisierte Zufallsvariable Sei X eine Zufallsvariable, für die Erwartungswert und Varianz existieren, dann heißt X − E(X) Z= p Var(X) p die standardisierte Zufallsvariable für X. Der Nenner Var(X) heißt die Standardabweichung von X und wird oft mit σ(X) bezeichnet. Aufgabe: Zeige, dass die standardisierte Zufallsvariable Z von X Erwartungswert 0 und Varianz 1 hat. 191 3. Der statistische Hypothesentest 3.1 Der Binomialtests 3.1.1 Wann ist eine Münze fair? In der Wahrscheinlichkeitsrechnung nimmt man bestimmte Verteilungen als gegeben an und benutzt sie, um Voraussagen über die Wahrscheinlichkeit von Ereignissen zu treffen. Beispiel: Wird eine faire Münze n mal unabhängig geworfen und sei X die Anzahl der Würfe mit “Kopf“, dann ist X binomialverteilt mit n Versuchswiederholungen und Trefferwahrscheinlichkeit 1/2 (X ∼ B(n, p)). Unter diesen Modellannahmen kann nun beispielsweise ausgerechnet werden, wie groß die Wahrscheinlichkeit ist, dass X in einem bestimmten vorgegebenen Bereich liegt. 192 > > > > n <- 100 k1 <- 40 k2 <- 60 pbinom(k2,n,0.5)-pbinom(k1-1,n,0.5) [1] 0.9647998 ist die Wahrscheinlichkeit, dass eine 100 mal geworfene faire Münze zwischen 40 und 60 mal Kopf zeigt. 193 In der schließenden Statistik wird nun die Fragerichtung umgekehrt. Eine typisches Problem wäre folgende Fragestellung: Eine Münze wurde n = 100 mal geworfen und es wurde k = 30 mal Kopf beobachtet. Ist die Münze eine faire Münze (p = 1/2)? Was kann über die Trefferwahrscheinlichkeit p ausgesagt werden? 194 Zunächst ist klar, dass aus der Beobachtung k = 30 vom logischen Standpunkt aus nichts über p ausgesagt werden kann. Für jedes 0 < p < 1 sind alle k = 0, . . . , n mögliche Ergebnisse des Münzwurfexperiments. Trotzdem ist es recht unwahrscheinlich, dass z.B. bei 100 Würfen kein einziges mal Kopf erscheint, wenn die Münze fair ist (p = 1/2). Die Wahrscheinlichkeit für dieses Ereignis kann sogar leicht zu > (1/2)^100 [1] 7.888609e-31 berechnet werden. Da sie so klein ist, erscheint es vernünftig, nach einem solch extremen Versuchsausgang (k = 100) nicht mehr zu glauben, dass die Münze fair (p = 1/2) ist. 195 Wie schaut die Situation bei k = 30 aus? Wird man auch bei k = 30 nicht mehr an p = 1/2 glauben? Um diese Frage zu beantworten, ist es sinnvoll, sich die Binomialverteilung B(100, 1/2) graphisch darzustellen: 196 0.00 0.02 0.04 0.06 Wahrscheinlichkeit 0.08 B(100,0.5) 197 0 20 40 60 k 80 100 Auch k = 30 liegt in einem Bereich, der wenn p = 1/2 gilt (faire Münze), mit einer sehr geringen Wahrscheinlichkeit angenommen wird. Die Wahrscheinlichkeit P(X ≤ 30) beträgt > pbinom(30,100,0.5) [1] 3.92507e-05 Auch hier wird man wohl nicht mehr glauben, dass p = 1/2 gilt. Wie oft darf Kopf höchstens auftreten, dass man sich gegen die Annahme p = 1/2 entscheidet? 198 Es ist also nach einer Entscheidungsregel gefragt. Jedem Versuchsausgang (=Anzahl k = 0, . . . , n) soll nach einer vor dem Versuch festgelegten Regel entschieden werden, ob man p = 1/2 (statistisch) ausschließt oder nicht. Diese Entscheidungsregel wird durch Festlegung eines Ablehnungsbereichs, auch kritischer Bereich genannt, definiert: 199 Vorgehensweise bei der Festlegung eines Ablehnungsbereichs für p = 1/2 (faire Münze): 1. Zunächst wird der Bereich identifiziert, der nur mit einer geringen Wahrscheinlichkeit angenommen wird, wenn p = 1/2 wahr ist. Hier sind das offensichtlich die kleinen Werte für k, also k = 0, 1, 2, . . . und die großen Werte für k, also k = n, n − 1, . . .. Fällt k in den Bereich nahe um den Erwartungswert n/2, wird man p = 1/2 nicht ausschließen können. Der Ablehnungsbereich ist also A = {0, . . . , K1} ∪ {K2, . . . , n} mit noch zu bestimmenden K1 und K2. 2. Um K1 und K2 ausrechnen zu können, muss angegeben werden, welche Wahrscheinlichkeiten als “klein“ angesehen werden. Man gibt sich dafür eine Zahl 0 < α < 1 vor. Wahrscheinlichkeiten < α gelten dann als klein. 200 3. K1 und K2 werden so bestimmt, dass für X ∼ B(n, 1/2) P(X ≤ K1) ≤ α/2 und P(X ≤ K1 + 1) > α/2 und P(X ≥ K2) ≤ α/2 und P(X ≤ K2 − 1) > α/2 gilt. 201 4. Für α = 0.05 erhält man wegen > pbinom(39,100,0.5); pbinom(40,100,0.5) [1] 0.0176001 [1] 0.02844397 K1 = 39 und wegen > 1-pbinom(60,100,0.5); 1-pbinom(59,100,0.5) [1] 0.0176001 [1] 0.02844397 K2 = 61. 202 5. Der Ablehnungsbereich ist somit A = {0, 1, . . . , 39} ∪ {61, 62, . . . , 100}. Immer wenn die Anzahl von “Kopf“ in A liegt, wird man nicht mehr glauben, dass die Münze fair ist. Liegt dagegen k in {40, 41, . . . , 60}, dann wird man sagen, dass das Versuchsergebnis nicht gegen die Annahme p = 1/2 spricht. Es wird weiter für möglich gehalten, dass die Münze fair ist. 203 k ≥ 61 0.02 0.04 k ≤ 39 0.00 Wahrscheinlichkeit 0.06 0.08 Ablehnungsbereich 204 0 20 40 60 Anzahl Kopf α = 0.05 80 100 Der Ablehnungsbereich hängt von der Wahl für α ab. Für α = 0.001 erhält man beispielsweise mit K1 = 33 und K2 = 67 einen kleineren Ablehnungsbereich als für α = 0.05. Je kleiner α gewählt wird, desto extremer muss der Versuchsausgang sein, um sich gegen p = 1/2 entscheiden zu können. 205 3.1.2 Der zweiseitige Binomialtest Diese Entscheidungsregel kann zum zweiseitigen Binomialtest verallgemeinert werden: Definition (Binomialtest, zweiseitig): Sei X ∼ B(n, p) eine binomial verteilte Zufallsvariable mit n unabhängigen Versuchswiederholungen und Trefferwahrscheinlichkeit p. Für den zweiseitigen Binomialtest werden folgende Schritte durchgeführt: 206 1. Schritt: Wahl eines p0 ∈ (0, 1) und Aufstellen der Nullhypothese H 0 : p = p0 . Die Nullhypothese ist eine Annahme über die Trefferwahrscheinlichkeit p. Im Beispiel (ist die Münze fair?) wurde angenommen, dass die Münze fair war, d.h. p0 = 1/2 gilt. Die Nullhypothese lautet in diesem Fall H0 : p = 1/2. In der Regel wird die Nullhypothese mit H0 bezeichnet. Warnung! Wir behaupten weder, dass die Nullhypothese wahr, noch dass sie falsch ist. Sie ist vielmehr der Ausgangspunkt eines Gedankenexperiments. 2. Schritt: Festlegung eines Signifikanzniveaus α. Im Prinzip ist jede Zahl zwischen 0 und 1 eine zulässige Wahl für α. Sinnvoll sind allerdings nur kleine Werte für α. Üblich ist α = 0.1, 0.05, 0.01 und 0.001. In der medizinischen Forschung ist α = 0.05 die Standardwahl für das Signifikanzniveau. 207 3. Schritt: Berechnung der Grenzen K1 und K2 des zweiseitigen Ablehnungsbereichs A = {0, 1, . . . , K1} ∪ {K2, . . . , n}. Für die Berechnung von K1 und K2 wird nun angenommen, dass die Nullhypothese H0 wahr ist, d.h. X ∼ B(n, p0). Unter dieser Annahme werden K1 und K2 so bestimmt, dass X höchstens mit Wahrscheinlichkeit α Werte in A annimmt und dass A möglichst groß ist: P(X ≤ K1) ≤ α/2 und P(X ≤ K1 + 1) > α/2 und P(X ≥ K2) ≤ α/2 und P(X ≤ K2 − 1) > α/2 gelten. 208 4. Schritt: Prüfe, ob X (genauer, die Realisierung von X) im Ablehnungsbereich liegt. Gilt X ∈ A wird die Nullhypothese abgelehnt. Man sagt auch, dass H0 statistisch widerlegt oder ausgeschlossen wurde. Gilt X ∈ / A, dann behält man die Nullhypothese bei. Man sagt auch, dass die H0 mit den Daten verträglich ist. Warnung: Kann die H0 nicht abgelehnt werden, dürfen wir nicht behaupten, dass die H0 statistisch bewiesen sei. Ob H0 wahr oder falsch ist, bleibt dann weiterhin offen. 209 3.1.3 Der P-Wert des zweiseitigen Binomialtests Wir haben gesehen, dass die Aussage “H0 wird abgelehnt“ immer nur im Zusammenhang mit der Angabe des Signifikanzniveaus α sinnvoll ist. Beispielsweise würde ein Versuchsausgang k = 34 mal “Kopf“ auf dem Niveau α = 0.05 zu einer Ablehnung der H0 : p = 1/2 führen, auf dem Niveau α = 0.001 muss jedoch H0 beibehalten werden. Für die Vorgabe von α gibt es keine mathematisch-statistisch begründbare Regel. Der oft verwendete Wert α = 0.05 ist nur eine übliche Konvention. 210 Deshalb ist es sinnvoll, den statistischen Test unabhängig von der Vorgabe eines speziellen α-Niveaus zu machen. Das führt zum Begriff des P-Werts. Definition: Der P-Wert ist das kleinste Signifikanzniveau, auf dem die Nullhypothese abgelehnt werden kann. Zur Bestimmung des P-Werts muss also neben der Nullhypothese und dem Hypothesentest auch das Versuchsergebnis bekannt sein. 211 Beispiel: H0 : p = 1/2 kann mit dem Versuchsausgang k = 34 mal “Kopf“ auf dem Niveau α = 0.05 abgelehnt werden, auf dem Niveau α = 0.001 jedoch nicht mehr. Der P-Wert für k = 34 muss also zwischen 0.001 und 0.05 liegen. Das kleinste Signifikanzniveau, auf dem die Nullhypothese bei k = 34 gerade noch abgelehnt werden kann, beträgt α = 2P(X ≤ 34) für X ∼ B(100, 1/2). > 2*pbinom(34,100,1/2) [1] 0.00178993 212 Berechnet man für dieses α = 0.00178993 den Ablehnungsbereich A, dann ist die linke Seite von A genau die Menge {0, 1, . . . , 34}. Bei jedem kleineren Signifikanzniveau würde k = 34 schon nicht mehr zum Ablehnungsbereich gehören. 213 Erhält man eine Anzahl “Kopf“ k, die zu einer Ablehnung der H0 : p = 1/2 führt, weil k im rechten Teil des Ablehnungsbereichs liegt (große k), dann muss der P-Wert auf 2P(X ≥ k) für X ∼ B(100, 1/2) gesetzt werden, da das die kleinste Wahl für das Signifikanzniveau ist, für die k noch im rechten Teil des Ablehnungsbereichs liegt. Eine geschlossene Formel für den P-Wert des zweiseitigen Binomialtests lautet: 214 P-Wert (zweiseitiger Binomialtest): Sei k die Realisierung (Versuchsausgang) einer binomial verteilten Zufallsvariable X ∼ B(n, p) und H0 : p = p0 die zweiseitige Nullhypothese für ein p0 ∈ (0, 1). Der P-Wert P ist dann P = min{2P(X ≤ k), 2P(X ≥ k)}, wobei angenommen wird, dass die H0 wahr ist, also X ∼ B(n, p0) gilt. 215 In R kann diese Definition folgendermaßen umgesetzt werden: > > > > > n <- 100 p0 <- 0.5 k <- 33 P <- min(c(2*pbinom(k,n,p0), 2*(1-pbinom(k-1,n,p0)))) P [1] 0.0008737198 216 Der Binomialtest ist in R in der Funktion binom.test implementiert: > binom.test(k,n,p0) Exact binomial test data: k and n number of successes = 33, number of trials = 100, p-value = 0.0008737 alternative hypothesis: true probability of success is not equal to 0.5 95 percent confidence interval: 0.2391985 0.4311728 sample estimates: probability of success 0.33 217 Aus der Definition des P-Werts folgt: Sei P der P-Wert eines Hypothesentests für einen Versuchsausgang. Die Nullhypothese kann genau dann auf dem Niveau α abgelehnt werden, wenn P ≤α gilt. In der Praxis wird man daher zunächst P-Werte berechnen und dann erst durch einen einfachen Vergleich mit dem Signifikanzniveau feststellen, ob ein auf α signifikantes Resultat vorliegt oder nicht. Die Berechnung von P-Werten ermöglicht auch eine nachträgliche Veränderung des Signifikanzniveaus ohne nochmaliges Durchführen des statistischen Tests. 218 Vorlesung 4.1.2017 219 3.1.4 Der einseitige Binomialtest Beispiel: Es werden n Patienten mit einem neuen Heilmittel behandelt. Die Heilwahrscheinlichkeit für jeden Patienten sei p und man nehme an, dass der Heilerfolg bei den einzelnen Patienten unabhängig ist. Unter diesen Voraussetzungen ist die Anzahl der Heilungen X ∼ B(n, p) binomialverteilt mit n Wiederholungen und Heilwahrscheinlichkeit p. Die Spontanheilungsrate sei p0. Aus biologisch-medizinischen Gründen kann ausgeschlossen werden, dass das neue Medikament die Heilungswahrscheinlichkeit verschlechtert. Die Nullhypothese soll deshalb nur abgelehnt werden, wenn besonders viele Heilungen beobachtet werden. Man wird dann auf den unteren Teil des Ablehnungsbereichs verzichten. 220 Definition (einseitiger Binomialtest): Sei X ∼ B(n, p) eine binomial verteilte Zufallsvariable. Sei weiter H0 : p ≤ p 0 die einseitige Nullhypothese, die genau dann auf dem Niveau α ∈ (0, 1) abgelehnt wird, wenn X ≥ K gilt. K wird so bestimmt, dass P(X ≥ K) ≤ α und P(X ≥ K − 1) > α unter der Voraussetzung X ∼ B(n, p0) gilt. 221 Im Gegensatz zum zweiseitigen Testen wird die H0 nur abgelehnt, wenn besonders viele Heilungen beobachtet werden. Beliebig wenig Heilungen sind mit der H0 : p ≤ p0 immer verträglich. Beispiel: Für n = 100, H0 : p ≤ 0.5 und α = 0.05 ist K = 59: > 1-pbinom(58,100,0.5); 1-pbinom(57,100,0.5) [1] 0.04431304 [1] 0.06660531 Der Ablehnungsbereich ist daher A = {59, 60, . . . , 100} 222 0.04 0.02 k ≥ 59 0.00 y 0.06 0.08 B (0.5, 100) 223 0 20 40 60 x 80 100 Hinweis: Obwohl die Nullhypothese für den einseitigen Test H0 : p ≤ p0 lautet, wird für die Berechnung des Ablehnungsbereichs A nur der Fall p = p0 angenommen. Das ist deshalb sinnvoll, da für alle p < p0 die Wahrscheinlichkeit für X ∈ A kleiner als für p = p0 ist. Kann p = p0 abgelehnt werden, dann kann auch p < p0 abgelehnt werden. Hinweis: Es gibt auch den einseitigen Test für die Nullhypothese H0 : p ≥ p 0 . Diese Nullhypothese wird abgelehnt, wenn X ≤ K gilt. Für ein Signifikanzniveau α ∈ (0, 1) wird dann K so bestimmt, dass P(X ≤ K) ≤ α und P(X ≤ K + 1) > α gilt. 224 Genauso wie für den zweiseitigen Test kann auch für die einseitigen Tests ein P-Wert berechnet werden. Wieder überlegt man sich, wie klein das Signifikanzniveau gewählt werden darf, so dass man die H0 gerade noch ablehnen darf. P-Wert (Binomialtest): Sei X ∼ B(n, p) und p0 ∈ (0, 1). Für das Versuchsergebnis X = k ergeben sich folgende P-Werte: 1. H0 : p = p0 (zweiseitiger Test): P = min{2P(X ≤ k), 2P(X ≥ k)}, X ∼ B(n, p0) 2. H0 : p ≤ p0 (einseitiger Test): P = P(X ≥ k), X ∼ B(n, p0) 3. H0 : p ≥ p0 (einseitiger Test): P = P(X ≤ k), X ∼ B(n, p0) 225 In R könne mit der Funktion binom.test sowohl P-Werte für zwei, als auch einseitige Tests berechnet werden: 226 > n <- 100; p0 <- 0.5; k <- 60 > binom.test(k,n,p0,alternative="greater") Exact binomial test data: k and n number of successes = 60, number of trials = 100, p-value = 0.02844 alternative hypothesis: true probability of success is greater than 0.5 95 percent confidence interval: 0.5129758 1.0000000 sample estimates: probability of success 0.6 227 > binom.test(k,n,p0,alternative="less") Exact binomial test data: k and n number of successes = 60, number of trials = 100, p-value = 0.9824 alternative hypothesis: true probability of success is less than 0.5 95 percent confidence interval: 0.000000 0.682474 sample estimates: probability of success 0.6 228 3.1.5 Die Power des Binomialtests Der statistische Test ist so konstruiert, dass wenn die Nullhypothese wahr ist, sie nur mit einer (kleinen) Wahrscheinlichkeit ≤ α fälschlicherweise abgelehnt wird. Allerdings ist es umgekehrt wünschenswert, dass H0 abgelehnt wird, wenn sie falsch ist. Nur in diesem Fall hat man einen Effekt statistisch nachgewiesen. Das führt zur Definition des Begriffs der statistischen Power: 229 Definition (Power des Binomialtests): Die Power 1 − β des Binomialtests ist die Wahrscheinlichkeit, eine falsche H0 abzulehnen. Genauer: Sei X ∼ B(n, p) eine binomial verteilte Zufallsvariable, H0 : p = p0, H0 : p ≤ p0 oder H0 : p ≥ p0 die Nullhypothese für zwei- bzw. einseitiges Testen. Sei weiter α das Signifikanzniveau, auf dem getestet werden soll und A der zu H0 und α gehörige Ablehnungsbereich. Die Power 1 − β des Binomialtests ist dann die Wahrscheinlichkeit, dass X Werte in A annimmt unter der Bedingung, dass H0 nicht wahr ist: Power = 1 − β = P(X ∈ A) mit X ∼ B(n, p). 230 Die Power ist umso größer, je mehr sich p vom p0 der Nullhypothese unterscheidet. Für eine konkrete Berechnung der Power muss eine spezielle Alternative H1 : p = p1 zur H0 angenommen werden. Ohne Formulierung einer speziellen Alternative bleibt die Power des Tests unbestimmt. Die Berechnung der Power erfolgt in drei Schritten: 231 1. Aufstellen der Nullhypothese und Wahl des Signifikanzniveaus. 2. Berechnung des Ablehnungsbereichs A 3. Bestimmung von 1 − β = P(X ∈ A) für X ∼ B(n, p), wobei p = p1 für ein spezielles p1 angenommen wird (spezielle Alternative). 232 Beispiel: Sei X ∼ B(n, p) mit n = 100, α = 0.025 und H0 : p ≤ 0.2. Die Grenze des Ablehnungsbereichs ist: > K <- qbinom(0.975,100,0.2) +1 > K [1] 29 233 Die Nullhypothese wird abgelehnt, wenn X ≥ 29 gilt. Die Wahrscheinlichkeit für eine Ablehnung im Falle p = 0.3 ist in den Ablehnungsbereich hinein verschoben. p = 0.3 0.00 0.00 0.02 0.02 0.04 0.04 0.06 0.06 0.08 0.08 0.10 p = 0.2 0 20 40 60 X 80 100 0 20 40 60 80 100 X 234 Für eine spezielle Alternative p = 0.3 beträgt die Power dann > 1 - pbinom(K-1,100,0.3) [1] 0.6232218 Das heißt, ist die Trefferwahrscheinlichkeit in Wahrheit p = 0.3 statt p = 0.2, dann wird man mit über 62% Wahrscheinlichkeit die Nullhypothese p ≤ 0.2 ablehnen können. 235 Die Power hängt von folgenden Parametern ab: 1. Signifikanzniveau α 2. Fallzahl n 3. Nullhypothese H0 (einseitig oder zweiseitig) 4. Alternative H1 (tatsächliche Trefferwahrscheinlichkeit p1) 236 1. Abhängigkeit der Power vom Signifikanzniveau. H0 : p ≤ p0 = 0.2, n = 100 und spezielle Alternative H1 : p = p1 = 0.3: 0.08 Ablehnungsgrenzen: α = 0.05 α = 0.01 α = 0.001 0.02 0.00 0.00 0.02 0.04 α = 0.05 α = 0.01 α = 0.001 0.06 Ablehnungsgrenzen: 0.04 0.06 0.08 0.10 p = 0.3 0.10 p = 0.2 0 20 40 60 X 80 100 0 20 40 60 80 100 X 237 2. Abhängigkeit der Power von der Fallzahl n. H0 : p ≤ p0 = 0.2, spezielle Alternative H1 : p = p1 = 0.3 und α = 0.05: n = 100: 0.08 0.06 0.06 0.08 0.10 p1 = 0.3 0.10 p0 = 0.2 0.02 0.04 Ablehnungsgrenze: 0.00 0.00 0.02 0.04 Ablehnungsgrenze: 0 20 40 60 X 80 100 0 20 40 60 80 100 X 238 n = 200: 0.08 0.06 0.06 0.08 0.10 p = 0.3 0.10 p = 0.2 0.02 0.04 Ablehnungsgrenze: 0.00 0.00 0.02 0.04 Ablehnungsgrenze: 0 50 100 X 150 200 0 50 100 150 200 X 239 Vorlesung 11.1.2017 240 3. Abhängigkeit der Power von der Art der Nullhypothese (einseitig oder zweiseitig): α = 0.1, n = 100, p0 = 0.2 und p1 = 0.3: 0.08 Ablehnungsgrenzen: einseitig zweiseitig 0.02 0.00 0.00 0.02 0.04 einseitig zweiseitig 0.06 Ablehnungsgrenzen: 0.04 0.06 0.08 0.10 p1 = 0.3 0.10 p0 = 0.2 0 20 40 60 X 80 100 0 20 40 60 80 100 X 241 4. Abhängigkeit der Power von der Alternative (p1). H0 : p ≤ p0 = 0.2, spezielle Alternativen: H1 : p1 = 0.3, 0.5 und n = 100: 0.08 0.06 0.08 0.06 0.06 0.08 0.10 p = p1 = 0.5 0.10 p = p1 = 0.3 0.10 p = p0 = 0.2 0 20 40 60 X 80 100 0.02 0.04 Ablehnungsgrenze: 0.00 0.02 0.04 Ablehnungsgrenze: 0.00 0.00 0.02 0.04 Ablehnungsgrenze: 0 20 40 60 X 80 100 0 20 40 60 80 100 X 242 Die Abhängigkeit der Power von n, p1 und α kann auch graphisch in Liniendiagrammen dargestellt werden: 0.2 0.2 0.4 0.6 Power 0.4 Power 0.6 0.8 0.8 1.0 H0:p=0.5 (zweiseitig) 1.0 H0:p=0.3 (zweiseitig) 0.0 n=20 n=100 n=1000 0.0 0.2 0.4 0.6 p1 α = 0.05 0.8 1.0 n=20 n=100 n=1000 0.0 0.2 0.4 0.6 0.8 1.0 p1 α = 0.05 243 3.1.6 Fehler 1. und 2. Art Die Power wird oft mit 1−β bezeichnet. β ist dann die Gegenwahrscheinlichkeit zur Power, d.h. die Wahrscheinlichkeit, kein signifikantes Ergebnis zu erhalten, obwohl die Nullhypothese falsch ist. β ist eine Wahrscheinlichkeit, einen Fehler zu begehen. Im Gegensatz zum Fehler erster Art (= eine wahre H0 wird fälschlicherweise abgelehnt) wird β als Fehlerwahrscheinlichkeit zweiter Art bezeichnet. 244 Über den Fehler erster bzw. zweiter Art kann man sich mit folgender Vierfeldertafel einen Überblick verschaffen: H0 wird abgelehnt H0 wird nicht abgelehnt H0 ist wahr Fehler erster Art beschränkt durch α kein Fehler H0 ist falsch Effekt wurde nachgewiesen Fehler zweiter Art mit Wahrscheinlichkeit β 245 3.1.7 Fallzahlplanung (Poweranalyse) Der Fehler erster Art ist immer durch das Signifikanzniveau α beschränkt. Die Größe der Fehlerwahrscheinlichkeit β hängt im Wesentlichen von der Größe des Signifikanzniveaus, des Effekts und der Fallzahl ab. In der Praxis liegen Effekt und Signifikanzniveau fest. Eine Beschränkung des Fehlers 2. Art geschieht deshalb in der Regel durch Wahl einer hinreichend großen Fallzahl n. 246 Beispiel: Es soll der Verdacht statistisch getestet werden, dass ein Würfel “gezinkt“ ist. Man vermutet, dass die Sechs nicht mit der Wahrscheinlichkeit 1/6, sondern mit der etwas größeren Wahrscheinlichkeit p1 = 1/5 auftritt. Trifft der Verdacht zu, soll der Binomialtest eine minimale Power von 80% haben. Wie oft muss der Würfel mindestens geworfen werden? Lösung: Die Nullhypothese lautet H0 : p = 1/6 (=der Würfel ist fair). Sie soll mit dem zweiseitigen Binomialtest auf dem Signifikanzniveau α = 0.05 getestet werden. Gesucht ist die kleinste Anzahl n von Wurfwiederholungen, für die die Power über 80% liegt. Wir gehen in drei Schritten vor: 247 1. Wir berechnen für eine beliebige Anzahl n von Wurfwiederholungen die Grenzen des zweiseitigen Ablehnungsbereichs. Dafür nehmen wir an, dass die Nullhypothese wahr ist: > > > > > alpha <- 0.05 p0 <- 1/6 n <- 1:2000 K1 <- qbinom(alpha/2,n,p0) - 1 K2 <- qbinom(1-alpha/2,n,p0) + 1 2. Nun wird angenommen, dass die spezielle Alternative H1 : p = 1/5 wahr ist, und die Wahrscheinlichkeit berechnet, dass die Anzahl der Sechsen im zuvor berechneten Ablehnungsbereich liegt. > p1 <- 1/5 > Power <- pbinom(K1,n,p1) + (1-pbinom(K2-1,n,p1)) 248 3. Wir haben für einen weiten Bereich von n (1 ≤ n ≤ 2000) die Power berechnet. Das gesuchte n ist nun der kleinste Wert, für den die Power über 80% liegt. > min(which(Power>=0.8)) [1] 1058 Der gesamte Verlauf der Power hat folgende Gestalt: 0.0 0.2 0.4 Power 0.6 0.8 1.0 > plot(x=n,y=Power, type="l", ylim=c(0,1), + xlab="Anzahl Würfe (n)") > abline(h=0.8) 0 500 1000 1500 2000 Anzahl Würfe (n) 249 0.06 0.04 0.02 0.00 Power 0.08 0.10 Hinweis: Wie man an der Graphik erkennt, steigt die Power des Binomialtests im Großen und Ganzen monoton an. Ein genauerer Blick, insbesondere auf kleine n, zeigt, dass der Verlauf eher an eine Sägezahnkurve erinnert: 2 4 6 8 10 Anzahl Würfe (n) 250 Der Grund für dieses “Powerparadoxon“ liegt daran, dass die Binomialverteilung eine diskrete Wahrscheinlichkeitsverteilung ist. Berechnen wir für n = 4 und n = 5 die tatsächlichen Wahrscheinlichkeiten für einen Fehler erster Art, erhalten wir: > pbinom(K1[4], 4, 1/6) + 1-pbinom(K2[4]-1, 4, 1/6) [1] 0.0162037 > pbinom(K1[5], 5, 1/6) + 1-pbinom(K2[5]-1, 5, 1/6) [1] 0.003343621 251 Das vorgeschriebene Signifikanzniveau von α = 0.05 kann nicht völlig ausgeschöpft werden. Jede Vergrößerung des Ablehnungsbereichs würde schon eine Fehlerwahrscheinlichkeit erster Art von mehr als 5% mit sich bringen. Das vorgegebene Signifikanzniveau von α = 0.05 wird aber für n = 5 viel schlechter ausgeschöpft als für n = 4 und man ist so gezwungen, bei n = 5 auf einem kleineren Signifikanzniveau zu testen als bei n = 4. Das führ zu einem Absinken der Power, das durch die um eins größere Fallzahl nicht vollständig kompensiert wird. Bemerkung: Die Festlegung der Fallzahl (Poweranalyse) ist eine wichtiges Element bei der Planung jeder Studie. Zu geringe Fallzahlen führen zu “unterpowerten“ Studien, die nicht in der Lage sind die oft kleinen Effekte signifikant nachzuweisen (= die H0 abzulehnen). Bei Studien mit Menschen (klinische Studien) in der medizinischen Forschung ist eine biometrische Fallzahlplanung von der Ethikkommission zwingend vorgeschrieben. 252 3.1.8 Konfidenzintervalle für relative Häufigkeiten Bisher wurde immer nur eine Nullhypothese wie z.B. H0 : p = p0 mit einem festen p0 betrachtet. Nach Ablehnung von H0 durfte man behaupten, dass p 6= p0 ist. Für die Praxis ist diese Aussage über p aber oft zu schwach. Es wäre wünschenswert, wenn ein Bereich angegeben werden könnte, in dem p mit großer Wahrscheinlichkeit liegt. 253 Einen solchen Bereich erhält man durch Variation von p0. Alle p0, für die die Nulhypothese H0 : p = p0 auf einem Niveau α nicht abgelehnt werden kann, werden in diesem Bereich zusammengefasst. Definition: Sei X ∼ B(n, p) eine binomial verteilte Zufallsvariable. Sei X = k die Realisierung (Versuchsergebnis) von X. Das (1 − α)100% zweiseitige Konfidenzintervall für die relative Häufigkeit k/n ist die Menge aller p0 ∈ [0, 1], für die die Nullhypothese H0 : p = p0 auf dem Signifikanzniveau α nicht abgelehnt werden kann. 254 Beispiel: Bei einem Münzwurfexperiment erhält man von n = 100 unabhängigen Würfe k = 55 mal “Kopf“. Es soll das zweiseitige 95% Konfidenzintervall angegeben werden. Die Grenzen pu und po des Konfidenzintervalls sind so charakterisiert, dass die P-Werte des zweiseitigen Binomialtests der Nullhypothesen H0 : p = pu und H0 : p = po genau 0.05 betragen. Durch systematisches Probieren erhält man CI95% = (0.44728, 0.64968). 255 Probe: > pbinom(55,100,0.64968); 1 - pbinom(54,100,0.44728) [1] 0.02499971 [1] 0.02499978 256 Anhand des (1 − α)100% Konfidenzintervall kann sofort beurteilt werden, welche Nullhypothesen der Form H0 : p = p0 mit dem zweiseitigen Binomialtest abgelehnt werden können: Die Nullhypothese H0 : p = p0 kann mit dem zweiseitigen Binomialtest genau dann abgelehnt werden, wenn p0 außerhalb des (1 − α)100% Konfidenzintervalls liegt. Weitere Eigenschaften des Konfidenzintervalls sind: 257 1. Je größer n desto schmaler ist das (1 − α)100% Konfidenzintervall. 2. Je kleiner α desto breiter ist das Konfidenzintervall. 258 3.2 Der Z-Test 3.2.1 Die Standardnormalverteilung als Teststatistik Bisher wurden nur binomial verteilte Zufallsvariablen getestet. Viele Experimente haben aber stetig metrische Messwerte als Ergebnis. Oft können sie als normalverteilt angenommen werden. Auch für diese Verteilungen gibt es statistische Tests. Der einfachste ist der Z-Test. Definition (Z-Test, 1. Version): Sei X eine normalverteilte Zufallsvariable mit bekannter Varianz σ 2 und Erwartungswert µ (X ∼ N (µ, σ 2)). Der zweiseitige Z-Test ist ein Test der Nullhypothese H 0 : µ = µ0 . µ0 sei eine vorgegebene Zahl ∈ IR. Der Test wird in drei Schritten durchgeführt: 259 1. Wahl von µ0 und des Signifikanzniveaus α. 2. Berechnung der Teststatistik Z= X − µ0 . σ 3. Ablehnung der Nullhypothese H0 genau dann, wenn |Z| ≥ z1−α/2 := Φ−1(1 − α/2). Φ−1 sei die Umkehrfunktion der kumulierten Standardnormalverteilung Φ. z1−α/2 := Φ−1(1 − α/2) heißt das 1 − α/2 Perzentil der Standardnormalverteilung Φ. In R kann man die Perzentile der Standardnormalverteilung mit der Funktion qnorm (=Umkehrfunktion von pnorm) berechnen. Die Teststatistik Z ist die Standardisierung von X, wenn die Nullhypothese wahr ist. 260 Will man sich vor dem Test nicht auf ein bestimmtes Signifikanzniveau festlegen, kann auch der P-Wert P = 2 ∗ Φ(−|Z|) berechnet werden. H0 darf dann auf dem Niveau α abgelehnt werden, genau dann, wenn P ≤ α gilt. Ganz ähnlich kann auch einseitig getestet werden. Die Nullhypothesen H0 : µ ≤ µ0 bzw. H0 : µ ≥ µ0 werden abgelehnt, wenn Z ≥ z1−α bzw. Z ≤ zα gilt. Die einseitigen P-Werte werden durch P = 1 − Φ(Z) bzw. P = Φ(Z) berechnet. 261 0.1 0.2 0.3 0.4 Einseitiger Ablehnungsbereich für alpha=0.05 0.0 0.0 0.1 0.2 0.3 0.4 Zweiseitiger Ablehnungsbereich für alpha=0.05 −4 −2 0 Z 2 4 −4 −2 0 2 4 Z 262 Da die Varianz σ 2 in der Regel unbekannt ist, spielt der Z-Test in der Praxis eine untergeordnete Rolle. Er kann aber im Zusammenhang mit dem Zentralen Grenzwertsatz angewandt werden. Viele Teststatistiken können für große Fallzahlen als annähernd normalverteilt mit bekannter Varianz angenommen werden. 263 3.2.2 Der Zentrale Grenzwertsatz Die Bedeutung der Normalverteilung für die Wahrscheinlichkeitsrechnung und Statistik ist zu einem wesentlichen Teil im zentralen Grenzwertsatz begründet. Satz: Seien X1, X2, . . . (i=1,2,. . . ) unabhängige Zufallsvariablen, mit Erwartungswert µ und Varianz σ 2. Weiter nehme man an, dass die Xi (i = 1, 2, . . .) identisch verteilt sind. Sei n X Sn = Xi i=1 die Summenvariable und 264 Sn − nµ Zn = √ nσ 2 die zugehörige standardisierte Zufallsvariable. Dann gilt für jedes x ∈ IR lim P(Zn < x) = Φ(x) n→∞ 2 −t /2 mit Φ(x) = −∞ e√ dt die Verteilungsfunktion der Standardnormalverteilung. 2π Rx 265 Bemerkung: Unter identisch verteilten Zufallsvariablen Xi (i = 1, 2, . . .) versteht man Zufallsvariablen mit gleicher Verteilung. Z.B. könnten alle Xi poissonverteilt mit einem gemeinsamen Parameter λ sein oder die Xi sind alle binomialverteilt mit gleicher Anzahl der Versuchswiederholung n und Trefferwahrscheinlichkeit p. Dabei spielt es keine Rolle, ob die Xi diskret oder stetig verteilt sind. 266 Bemerkung: Der Zentrale Grenzwertsatz gilt auch unter viel allgemeineren Voraussetzungen. So sind oft auch Summen von unabhängigen aber nicht identisch verteilten Zufallsvariablen annähernd normalverteilt. Aus diesem Grund können Ergebnisse von Messungen oft als normalverteilt angenommen werden. Man kann sich den gesamten Messfehler in Komponenten zerlegt vorstellen, die für die einzelnen Fehlerquellen stehen: X = x + F1 + F2 + F3 + · · · 267 F1 könnte beispielsweise der Fehler sein, der durch Mängel der Messapparatur auftreten, F2 steht für den Fehler bei der Probenaufbereitung usw. x wäre in diesem Modell der “wahre“ Messwert, der durch die verschiedenen Fehler F1, F2, . . . gestört wird. Selbst wenn die Fi nicht normalverteilt sind, ist X wegen des Zentralen Grenzwertsatzes zumindest näherungsweise normalverteilt. Aus diesem Grund können viele statistische Methoden, die normalverteilte Daten voraussetzen, in der Praxis oft angewandt werden. 268 Beispiel (Zentraler Grenzwertsatz): Sei Yn binomialverteilt mit n Wiederholungen und Trefferwahrscheinlichkeit p (wir schreiben auch Yn ∼ B(n, p)). Seien X1, X2, . . . , Xn Zufallsvariablen, die den Ausgang des i-ten Teilexperiments (i = 1, 2, . . . , n) beschreiben. 1 wenn i-te Wiederholung ein Treffer Xi = 0 sonst Die Xi sind unabhängig (Voraussetzung) und selbst binomialverteilt mit einer Wiederholung und Trefferwahrscheinlichkeit p (Xi ∼ B(1, p)). Außerdem gilt Yn = X1 + · · · + Xn. 269 Somit sind alle Voraussetzungen des Zentralen Grenzwertsatzes erfüllt und wir erhalten den folgenden Satz: Satz (Moivre-Laplace): Für binomialverteilte Zufallsvariablen Yn mit n Wiederholungen und Trefferwahrscheinlichkeit p (Yn ∼ B(n, p)) gilt ! Yn − np ≤ x = Φ(x) für x ∈ IR. lim P p n→∞ np(1 − p) Φ(x) = verteilung. 2 −t /2 e√ sei wie immer die Verteilungsfunktion der Standardnormal−∞ 2π Rx 270 Praktischer Umgang mit dem Zentralen Grenzwertsatz: Die Verteilung der Zufallsvariablen X = teilt angenommen. Pn i=1 Xi wird als annähernd normalver- 1. Berechne Erwartungswert M und Varianz Σ2 von X. 2. Jede Wahrscheinlichkeit P(X ≤ t) kann approximativ durch X −M t−M t−M ≈Φ ≤ P(X ≤ t) = P Σ Σ Σ berechnet werden. Φ ist die kumulative Verteilungsfunktion der Standardnormalverteilung (pnorm). Alternativ kann auch gleich pnorm(t, mean=M, sd=Sigma) berechnet werden (Sigma = Σ). 271 Beispiel: Für eine binomialverteilte Zufallsvariable Y mit n = 600 Versuchswiederholungen und Trefferwahrscheinlichkeit p = 0.3 soll P(Y ≤ 171) mit Hilfe des Zentralen Grenzwertsatzes bestimmt werden. ! Y − np 171 − np P(Y ≤ 171) = P p ≤p ≈Φ np(1 − p) np(1 − p) 171 − np p np(1 − p) 272 ! > > > > n <- 600 p <- 0.3 k <- 171 pnorm((k-n*p)/sqrt(n*p*(1-p))) [1] 0.211339 Mit exakter Rechnung erhält man > pbinom(k,size=n,prob=p) [1] 0.2252241 273 Beispiel: Seien Z1, . . . , Zn auf (0, 1) gleichverteilte unabhängige Zufallsvariablen. Die Verteilung der Summenvariable Z = Z1 + · · · + Zn ist schwer zu bestimmen. Da die Zi unabhängig sind, kann aber Erwartungswert und Varianz von Z leicht ausgerechnet werden: E(Z) = n/2 und Var(Z) = n/12 274 Die Wahrscheinlichkeit P(Z ≤ k) kann nun mit Hilfe des Zentralen Grenzwertsatzes zu ! ! Z − E(Z) k − E(Z) k − E(Z) P(Z ≤ k) = P p ≤p ≈Φ p Var(Z) Var(Z) Var(Z) geschätzt werden. 275 Für n = 150 und k = 70 ergibt das konkret: > > > > > n <- 150 k <- 70 E <- n/2 Var <- n/12 pnorm((k-E)/sqrt(Var)) [1] 0.0786496 277 Beispiel (Approximation der Poissonverteilung durch die Normalverteilung): Nicht nur die Binomialverteilung für große n sondern auch die Poissonverteilung für große λ kann durch die Normalverteilung angenähert werden. Satz: Sei X poissonverteilt mit Erwartungswert λ > 0. Dann kann X durch die Normalverteilung mit Erwartungswert und Varianz λ approximiert werden. k−λ X −λ k−λ √ √ P(X ≤ k) = P ≤ √ ≈Φ λ λ λ √ für große λ. Der Ausdruck X−λ ist die Standardisierung von X. λ 278 Einschub: Eine Simulation in R Da die Güte der Näherung durch den Zentralen Grenzwertsatz schwer zu bestimmen ist, bietet sich die Überprüfung dieses Ergebnisses durch eine Simulation mit Zufallszahlen in R an. Die Werte der n = 150 gleichverteilten Zufallszahlen können durch die Funktion runif simuliert werden. 279 > n <- 150 > V <- runif(100) > V[1:10] [1] 0.896598467 0.926609315 0.115015196 0.001582151 0.876620390 0.5142 [7] 0.681288025 0.098290650 0.590570149 0.725363473 ergibt einen Vektor von n = 150 auf (0, 1) gleichverteilten Zufallszahlen. Der Aufruf des Zufallszahlengenerators runif simuliert dabei das tatsächliche Durchführen des Zufallsexperiments. 280 Der Wert der Summenvariable Z wird dann durch > Z <- sum(runif(n)) simuliert. Die Wahrscheinlichkeit p für Z < k kann nun folgendermaßen bestimmt werden: 281 > > > > + + + set.seed(1976) N <- 100000 ERG <- numeric(N) for(i in 1:N){ Z <- sum(runif(n)) ERG[i] <- Z } Der Vektor ERG enthält nun N unabhängige Realisierungen von Z. Der relative Anteil seiner Komponenten ≤ k nähert sich für großes N der Wahrscheinlichkeit P(Z ≤ k) an. 282 Man erhält mit > sum(ERG<=k)/N [1] 0.07832 eine gute Übereinstimmung mit der durch den Zentralen Grenzwert berechneten Näherung für P(Z ≤ k). 283 3.2.3 Näherung des Binomialtests durch den Z-Test Eine Münze werde n = 1000 mal geworfen. Es ergeben sich k = 510 mal Kopf. Kann die Nullhypothese, dass die Münze fair ist, auf dem Signifikanzniveau α = 0.05 abgelehnt werden? Da n groß ist, kann die Zufallsvariable X (Anzahl Kopf) als normalverteilt angenommen werden. Unter der Nullhypothese gilt dann E(X) = µ = 500 und Var(X) = σ 2 = 250. Wir testen statt mit dem Binomialtest die Nullhypothese H0 : p = 0.5 nun die äqivalente Nullhypothese H0 : µ = 500 mit dem Z-Test. Das ist möglich, da mit σ 2 = 250 die Varianz von X bekannt ist. 284 Die Z Statistik ist dann X − 500 510 − 500 Z= √ = √ = 0.6324555. 250 250 Das ergibt einen zweiseitigen P-Wert von > P <- 2*pnorm(-0.6324555) > P [1] 0.5270893 Die Nullhypothese kann also auf dem Niveau α = 0.05 nicht abgelehnt werden. 285 Zum Vergleich berechnen wir den P-Wert des exakten Binomialtests: > binom.test(510,1000,0.5)$p.value [1] 0.5479727 286 3.2.4 Der Z-Test für eine Stichprobe Oft wird das gleiche Experiment an n verschiedenen statistischen Einheiten unabhängig wiederholt. Man hat dann nicht eine sondern n Messungen, die oft durch normalverteilte Zufallsvariablen wiedergegeben werden: Definition (Einstichproben Z-Test, 2.Version): Seien X1, . . . , Xn unabhängige normalverteilte Zufallsvariablen mit unbekanntem Erwartungswert µ und bekannter Varianz σ 2. Der zweiseitige Einstichproben Z-Test testet für ein festes µ0 ∈ IR die Nullhypothese H0 : µ = µ0. Er wird in folgenden Schritten ausgeführt: 287 1. Berechnung von 1 Pn i=1 Xi − µ0 √ n Z := n. σ Z heißt die Statistik des Einstichproben Z-Tests. Wenn die Nullhypothese µ = µ0 wahr ist, ist Z standardnormalverteilt. 2. Festlegung des Ablehnungsbereichs. Da unter der Nullhypothese Z ∼ N (0, 1) gilt, werden die Ablehnungsbereiche ähnlich wie beim Binomialtest in die “Randbereiche“ der Standardnormalverteilung gelegt: A = (−∞, K1] ∪ [K2, ∞) 288 3. Vorgabe eines Signifikanzniveaus α ∈ (0, 1) und Bestimmung von K1 und K2: Unter Annahme, dass H0 wahr ist (d.h. Z ∼ N (0, 1)), werden K1 und K2 so bestimmt, dass P(Z ≤ K1) = α/2 = P(Z ≥ K2) gilt. Ist Φ(x) die Verteilungsfunktion der Standardnormalverteilung, dann gilt K1 = Φ−1(α/2) und K2 = −Φ−1(α/2). 4. Wenn die Realisierung Z = z im Ablehnungsbereich A liegt, dann wird die Nullhypothese abgelehnt, sonst wird sie beibehalten. Die “Realisierung“ z von Z erhält man, indem man die tatsächlichen Versuchsergebnisse X1 = x1, X2 = x2, . . . , Xn = xn in die Formel für die Statistik einsetzt. 289 5. Wie beim Binomialtest kann auch für den zweiseitigen Z-Test alternativ zur Bestimmung von Ablehnungsbereichen ohne vorherige Festlegung eines Signifikanzniveaus α der P-Wert berechnet werden. Sei z der Wert der Z-Statistik, dann ist der P-Wert P = P(Z ≤ −|z|) + P(Z ≥ |z|) = 2P(Z ≤ −|z|), unter der Voraussetzung, dass H0 wahr ist, also Z ∼ N (0, 1) gilt. Wenn Rx 1 −t2 /2 dt die Verteilungsfunktion der Standardnormal√ Φ(x) = e 2π −∞ verteilung ist, dann ergibt sich für den P-Wert des zweiseitigen Z-Test: P = 2Φ(−|z|) 290 Bemerkung: Die Statistik Z des Z-Tests ist die standardisierte Zufallsvariable zu 1P i=1 Xi , wenn die Nullhypothese H0 : µ = µ0 wahr ist. n Einseitiger Einstichproben Z-Test: Seien X1, . . . , Xn unabhängige normalverteilte Zufallsvariablen mit unbekanntem Erwartungswert µ und bekannter Varianz σ 2 (Xi ∼ N (µ, σ 2), i = 1, . . . , n). Die einseitigen Nullhypothesen für den Z-Test sind H 0 : µ ≥ µ0 und H 0 : µ ≤ µ0 für ein fest vorgegebenes µ0 ∈ IR. 291 Der einseitige Z-Test wird ähnlich wie der zweiseitige durchgeführt. Im Gegensatz zum zweiseitigen Test hat der Ablehnungsbereich die Form A = (−∞, K] bzw. A = [K, ∞). Für ein vorgegebenes Signifikanzniveau α gilt dann K = Φ−1(α) bzw. K = −Φ−1(α). Φ−1 ist die Umkehrfunktion der Verteilungsfunktion Φ der Standardnormalverteilung. Der P-Wert des einseitigen Z-Tests ist P = Φ(Z) für H0 : µ ≥ µ0 und P = 1 − Φ(Z) für H0 : µ ≤ µ0. 292 In R sind Verteilungsfunktion der Standardnormalverteilung und ihre Umkehrfunktion in den Funktionen pnorm und qnorm implementiert. Ablehnungsgrenzen für übliche Signifikanzniveaus sind: Zweiseitiges Testen: > alpha <- c(0.001, 0.01, 0.05, 0.1) > qnorm(alpha/2) # linker Bereich [1] -3.290527 -2.575829 -1.959964 -1.644854 > -qnorm(alpha/2) # rechter Bereich [1] 3.290527 2.575829 1.959964 1.644854 293 Entsprechend ergibt sich für einseitiges Testen: > alpha <- c(0.001, 0.01, 0.05, 0.1) > qnorm(alpha) # H0: p>=p0 [1] -3.090232 -2.326348 -1.644854 -1.281552 > -qnorm(alpha) # H0: p<=p0 [1] 3.090232 2.326348 1.644854 1.281552 294 0.2 2.5% 0.1 2.5% 0.0 y 0.3 0.4 α = 0.05, H0 : µ = µ0 295 −4 −2 0 Z 2 4 0.2 0.1 5% 0.0 y 0.3 0.4 α = 0.05, H0 : µ ≤ µ0 296 −4 −2 0 Z 2 4 0.2 0.1 5% 0.0 y 0.3 0.4 α = 0.05, H0 : µ ≥ µ0 297 −4 −2 0 Z 2 4 Bemerkung: Der Z-Test für eine Stichprobe spielt in der Praxis nur eine untergeordnete Rolle, da die Varianz σ 2 der Zufallsvariablen X1, . . . , Xn im Allgemeinen unbekannt ist. Da jedoch viele Verteilungen wegen des Zentralen Grenzwertsatzes näherungsweise normalverteilt sind, können für große Fallzahlen n Tests oft durch den Z-Test angenähert werden. 298 Vorlesung 18.1.2017 299 Beispiel (Z-Test): Es wurde in einer 20-jährigen Studie die jährlichen Inzidenzraten für Lungenkrebs in Deutschland bestimmt. In den Jahren 1991 bis 2010 traten unter den 82 000 000 Einwohnern jeweils 40954, 40457, 40707, 40439, 40657, 41001, 40925, 40494, 40379, 40731, 40588, 40580, 40673, 40443, 40621, 40662, 40407, 40974, 40726, 40413 Neuerkrankungen auf. Für die jährliche Inzidenz von Lungenkrebs wird weltweit ein Wert von 0.05 % angegeben. Unterscheidet sich die Inzidenz von Lungenkrebs in Deutschland signifikant von 0.05%? 300 Lösung: Wir führen einen zweiseitigen Z-Test für µ0 = 41000 und σ 2 = 41000 durch. Da die Anzahl der jährlichen Neuerkrankungen als poissonverteilt angenommen werden kann die Varianz als bekannt gleich µ0 vorausgesetzt werden. Da der Erwartungswert der Poissonverteilung sehr groß ist, ist es zulässig, die Poissonverteilung durch die Normalverteilung N (µ0, µ0) anzunähern. Damit sind alle Voraussetzungen des Z-Tests erfüllt. 301 Berechnung der Statistik Z: > + + + + > > > Stichprobe <- c( 40954, 40457, 40707, 40439, 40657, 41001, 40925, 40494, 40379, 40731, 40588, 40580, 40673, 40443, 40621, 40662, 40407, 40974, 40726, 40413 ) sigma <- sqrt(41000) mu0 <- 41000 n <- 20 302 > M <- mean(Stichprobe) > M [1] 40641.55 > Z <- (M-mu0)/sigma*sqrt(n) > Z [1] -7.916836 Berechnung des P-Werts: 303 > P <- 2*pnorm(-abs(Z)) > P [1] 2.436306e-15 Ergebnis: Die durchschnittliche jährliche Inzidenzrate in Deutschland unterscheidet sich auf dem Niveau α = 0.001 signifikant von 0.05%. 3.3 Der t-Test 3.3.1 Der t-Test für eine Stichprobe Schätzung der unbekannten Varianz aus den Daten: Die Anwendungsmöglichkeiten des Z-Tests sind beschränkt, da in der Regel die Varianz σ 2 der Zufallsvariablen X1, . . . , Xn nicht bekannt ist. Die Idee, die zum t-Test führt, ist nun, die unbekannte Varianz σ 2 durch den Varianzschätzer ! n X 1 2 σ̂ = (Zi − µ̂)2 n−1 i=1 1 Pn mit µ̂ = n i=1 Xi zu ersetzen. 304 Bemerkung: Der Schätzer σ̂ 2 ist nun keine Zahl sondern selbst eine Zufallsvariable deren Erwartungswert σ 2 ist. Die Zufallsvariable σˆ2 wird um ihren Erwartungswert schwanken. Je kleiner n ist, umso stärkere Abweichungen von σ 2 sind wahrscheinlich. p Ersetzt man in der Formel der Z-Statistik σ durch σˆ2, erhält man die t-Statistik: 305 Die t-Statistik für eine Stichprobe: Seien X1, . . . , Xn unabhängige normalverteilte Zufallsvariablen mit unbekanntem Erwartungswert µ und unbekannter Varianz σ 2, dann ist µ̂ − µ0 √ n T = p σˆ2 t-verteilt mit n − 1 Freiheitsgraden, wenn µ = µ0 gilt. Die t-Verteilung mit ν Freiheitsgraden hat die Dichte − ν+1 Γ ν+1 2 2 t 2 1+ fν (t) = √ ν ν νπΓ 2 ν ∈ IN 306 Bemerkung: Mit Γ(x) wird die Gammafunktion bezeichnet, die für alle positiven reellen Zahlen x ∈ IR+ definiert ist und zur Fakultätsfunktion wegen Γ(n + 1) = n!, n ∈ IN in enger Beziehung steht. Bemerkung: Die t-Statistik hängt im Gegensatz zur Z-Statistik von der Fallzahl n ab. Zu jedem Freiheitsgrad ν = n − 1 gibt es eine eigene t-Statistik. 307 0.0 0.1 0.2 0.3 0.4 ν=1 ν=5 ν = 20 ν = ∞ (=N(0, 1)) 308 −6 −4 −2 0 T 2 4 6 Bemerkung: Für große Freiheitsgrade ν geht die t-Verteilung in die Standardnormalverteilung über. Das liegt daran, dass mit steigendem n der Varianzschätzer σˆ2 eine immer kleinere Varianz hat und deshalb mit großer Wahrscheinlichkeit Werte nahe bei σ 2 annimmt. Für große n geht deshalb die t-Statistik in die Z-Statistik über. Bemerkung: In R ist die Dichte der t-Verteilungen in der Funktion dt, die Verteilungsfunktion und ihre Umkehrfunktion in pt bzw. qt und der Zufallszahlengenerator in rt implementiert. Die notwendige Angabe der Freiheitsgrade erfolgt durch das Argument df (für “degrees of freedom“). 309 Durchführung des Einstichproben t-Test: Voraussetzungen: Seien Z1, . . . , Zn unabhängige normalverteilte Zufallsvariablen mit Erwartungswert µ und unbekannter Varianz σ 2. Der zweiseitige Einstichproben t-Test testet für ein festes µ0 ∈ IR die Nullhypothese H 0 : µ = µ0 . Er wird in folgenden Schritten ausgeführt: 1. Berechnung von µ̂ − µ √ T := p 0 n σˆ2 Pn Pn 1 1 ˆ 2 mit µ̂ = n i=1 Zi und σ = n−1 i=1(Zi − µ̂)2. T heißt die Statistik des Einstichproben T-Tests. Wenn die Nullhypothese µ = µ0 wahr ist, ist T t-verteilt mit n − 1 Freiheitsgraden. 310 2. Festlegung des Ablehnungsbereichs. Da unter der Nullhypothese T t-verteilt ist, werden die Ablehnungsbereiche ähnlich wie beim Z-Test in die “Randbereiche“ der t-Verteilung gelegt: A = (−∞, K1] ∪ [K2, ∞) 3. Vorgabe eines Signifikanzniveaus α ∈ (0, 1) und Bestimmung von K1 und K2: Unter Annahme, dass H0 wahr ist, werden K1 und K2 bestimmt, für die P(T ≤ K1) = α/2 = P(T ≥ K2) gilt. Ist Fn−1 die Verteilungsfunktion der t-Verteilung mit n − 1 Freiheitsgra−1 −1 den, dann ist K1 = Fn−1 (α/2) und K2 = −Fn−1 (α/2) (±qt(α/2, df=n-1)). 311 4. Wenn der Wert (Realisierung) von T im Ablehnungsbereich A liegt, dann wird die Nullhypothese abgelehnt, sonst wird sie beibehalten. Die “Realisierung“ von T erhält man, indem man die tatsächlichen Versuchsergebnisse Z1 = z1, Z2 = z2, . . . , Zn = zn in die Formel für die Statistik T einsetzt. 312 5. Wie beim Binomial- und Z-Test kann auch für den zweiseitigen t-Test alternativ zur Bestimmung von Ablehnungsbereichen ohne vorherige Festlegung eines Signifikanzniveaus α der P-Wert berechnet werden. Sei t der Wert der T-Statistik, dann ist der P-Wert P = P(T ≤ −|t|) + P(T ≥ |t|) = 2P(T ≤ −|t|), unter der Voraussetzung, dass H0 wahr ist. Wenn Fn−1 die Verteilungsfunktion der t-Verteilung mit n − 1 Freiheitsgrade ist, dann ergibt sich für den P-Wert des zweiseitigen t-Test: P = 2Fn−1(−|t|) In R: 2*pt(-abs(t), df=n-1). 313 Bemerkung: Ganz analog zu den einseitigen Z-Tests kann auch beim t-Test einseitig getestet werden (Übung). Bemerkung: Die T-Statistik hängt von der Fallzahl n, aber nicht von der unbekannten Varianz σ 2 ab, wenn die Nullhypothese wahr ist. Begründung: Kürzt man µ̂ − µ0 √ n T = p σˆ2 mit σ, dann erhält man (µ̂ − µ0)/σ √ T = p n. σˆ2/σ Der Zähler kann als n 1X (Zi − µ0)/σ (µ̂ − µ0)/σ = n i=1 314 geschrieben werden. Gilt die H0 : µ = µ0, dann hängt er nicht von σ ab, da die Zufallsvariablen (Zi − µ0)/σ, i = 1, . . . , n standardnormalverteilt sind. Für den Nenner gilt v u n p u 1 X σˆ2/σ = t n−1 i=1 Auch p Zi − µ0 1 − σ n n X i=1 Zi − µ0 σ !2 σˆ2/σ hängt nur von standardisierten Zufallsvariablen ab. 315 Die wichtigste Anwendung für den Einstichproben t-Test ist der Test für verbundene oder gepaarte Stichproben. t-Test für verbundene Stichproben: Seien (X1, Y1), . . . , (Xn, Yn) n Paare von Zufallsvariablen, für die die Differenzvariablen Zi = Xi − Yi, i = 1, . . . , n normalverteilt mit unbekanntem Erwartungswert µ und unbekannter Varianz σ 2 sind. Der verbundene t-Test ist der Einstichproben t-Test für Z1, . . . , Zn der Nullhypothes H0 : µ0 = 0. Bemerkung: Haben die Xi Erwartungswert µ1 und die Yi den Erwartungswert µ2, dann gilt µ = µ1 −µ2 und die zweiseitige Nullhypothese des verbundenen t-Tests ist H0 : µ1 = µ2. Die Nullhypothesen für einseitiges Testen sind dann entsprechend H0 : µ1 ≤ µ2 bzw. H0 : µ1 ≥ µ2. 316 Beispiel: Ein verbundenes Stichprobendesign liegt immer dann vor, wenn an jedem Individuum (Patient, Proband, Versuchstier,...) zwei gleichartige Messungen vorgenommen werde. Zwischen den beiden Messungen erfolgt die Intervention (z.B. Verabreichung eines Medikaments). Der verbundene t-Test prüft dann, ob die Intervention wirksam war. Kann die Nullhypothese abgelehnt werden, hat man statistisch nachgewiesen, dass die Erwartungswerte vor und nach der Intervention unterschiedlich sind. Verbundene Stichproben treten auch auf, wenn erste und zweite Messung gleichzeitig aber an verschiedenen Orten stattfinden: Beispiel: In einem landwirtschaftlichen Versuch zur Ertragssteigerung durch einen bestimmten Dünger könnten n Testfelder mit einer bestimmten Nutzpflanze bestellt werden. Jedes der n Testfelder wird in zwei gleich große Teile geteilt, von denen nur eines mit dem Dünger versehen wird. Die Daten des Versuchs sind dann die n Paare (X1, Y1), . . . , (Xn, Yn) der Ernteerträge. Die Werte X1, . . . , Xn sind die Erträge aus den ungedüngten und die Y1, . . . , Yn die aus den gedüngten Hälften. 317 Der t-Test für verbundene Stichproben prüft nun, ob sich das Mittel der Ernteerträge der ungedüngten Hälften von dem Mittel der gedüngten signifikant unterscheidet. Nur bei einem signifikanten Unterschied darf man behaupten, dass der Dünger wirksam die Erträge steigert. Bemerkung: Die Voraussetzung des verbundene t-Tests ist, dass die Differenzen der beiden Messungen normalverteilt sind. Es ist nicht notwendig, dass erste und zweite Messung selbst aus normalverteilten Grundgesamtheiten stammen. 318 3.3.2 Zweistichproben t-Test Für viele Fragestellungen sind verbundene Stichproben ungeeignet. Immer dann, wenn die Notwendigkeit besteht, eine aktive Behandlung mit einer Kontrollbehandlung zu vergleichen, kann ein verbundenes Design nicht angewandt werden. Beispiel: Es soll die Wirksamkeit eines Blutdrucksenkers nachgewiesen werden. Es besteht der Verdacht, dass allein schon die Verabreichung eines Placebos (Scheinmedikaments) den Blutdruck senkt. In einem Experiment (Studie) mit verbundenen Stichprobendesign kann der Placeboeffekt nicht vom tatsächlichen Effekt getrennt werden. Eine statistisch signifikante Senkung des Blutdrucks könnte allein dem Placeboeffekt zuzurechnen sein. 319 Es besteht deshalb das Bedürfnis, in der Studie den Blutdrucksenker direkt mit einem Placebo zu vergleichen. Das geschieht durch Zweistichproben Tests. Zweistichproben Z-Test: Seien X1, . . . , Xn1 (Stichprobe 1) normalverteilte Zufallsvariablen mit unbekanntem Erwartungswert µ1 und bekannter Varianz σ 2. Seien weiter Y1, . . . , Yn2 (Stichprobe 2) normalverteilte Zufallsvariablen mit unbekanntem Erwartungswert µ2 und Varianz σ 2. Die Variablen X1, . . . , Xn1 , Y1, . . . , Yn2 Pn1 1 Pn2 Y die empiX und µ ˆ = seien unabhängig. Seien µˆ1 = n1 2 i=1 i i=1 i n2 1 rischen Mittel der beiden Stichproben. Die Statistik des Zweistichproben Z-Tests ist r µˆ1 − µˆ2 n1n2 . Z= σ n1 + n2 Die Nullhypothesen des Zweistichproben Z-Tests sind: 320 1. H0 : µ1 = µ2 (zweiseitige Nullhypothese) 2. H0 : µ1 ≤ µ2 oder H0 : µ1 ≥ µ2 (einseitige Nullhypothesen) Gilt µ1 = µ2, dann ist Z standardnormalverteilt. 321 Man zeigt leicht, dass Z die standardisierte Zufallsvariable zu µˆ1 − µˆ2 ist, wenn µ1 = µ2 gilt. Die Nullhypothese 1. H0 : µ1 = µ2 (zweiseitig) wird auf dem Niveau α abgelehnt, wenn |Z| ≥ z1−α/2 gilt. 2. H0 : µ1 ≤ µ2 wird auf dem Niveau α abgelehnt, wenn Z ≥ z1−α gilt. 3. H0 : µ1 ≥ µ2 wird auf dem Niveau α abgelehnt, wenn Z ≤ −z1−α gilt. z1−α ist das (1 − α)100% Perzentil der Standardnormalverteilung. Ist Φ die Verteilungsfunktion der Standardnormalverteilung, dann gilt z1−α = Φ−1(1−α). 322 Vorlesung 25.1.2017 323 Da die Streuung σ im Allgemeinen unbekannt ist, hat der Z-Test keine praktische Bedeutung. Um zu einem anwendbaren Test zu gelangen, muss die p in der Regel unbekannte Streuung (Standardabweichung) σ durch einen Schätzer σˆ2 ersetzt werden. Für eine Stichprobe Z1, . . . , Zn von unabhängigen Zufallsvariablen mit gemeinsamen Erwartungswert µ und gemeinsamer Varianz σ 2 ist der “richtige“ Varianzschätzer n n X X 1 1 σˆ2 = (Zi − µ̂)2, µ̂ = Zi. n−1 n i=1 i=1 “Richtig“ bedeutet hier, dass E σˆ2 = σ 2 gilt. Man sagt auch, dass σˆ2 ein erwartungstreuer Schätzer von σ 2 ist. 324 Für unabhängige normalverteilte Zufallsvariablen X1, . . . , Xn1 , Y1, . . . , Yn2 mit Xi ∼ N (µ1, σ 2), i = 1, . . . , n1 und Yi ∼ N (µ2, σ 2), i = 1, . . . , n2 ist der “richtige“ (erwartungstreue) Schätzer ! n n 1 2 X X 1 2 σˆ2 = (Xi − µˆ1) + (Yi − µˆ2)2 n1 + n2 − 2 i=1 i=1 Pn1 Pn1 1 1 mit µˆ1 = n i=1 Xi und µˆ2 = n i=1 Yi . 1 2 1 Bemerkung: Die 2 im Vorfaktor n +n ist notwendig, da sowohl µ1 als auch 1 2 −2 µ2 durch µˆ1 bzw. µˆ2 geschätzt werden müssen. Nur mit diesem Vorfaktor ist σˆ2 ein erwartungstreuer Schätzer von σ 2. 325 Zweistichproben t-Test (Student’s t-Test): Seien X1, . . . , Xn1 (Stichprobe 1) normalverteilte Zufallsvariablen mit unbekanntem Erwartungswert µ1 und unbekannter Varianz σ 2. Seien weiter Y1, . . . , Yn2 (Stichprobe 2) normalverteilte Zufallsvariablen mit unbekanntem Erwartungswert µ2 und Varianz σ 2. Die Variablen X1, . . . , Xn1 , Y1, . . . , Yn2 Pn1 Pn2 1 1 seien unabhängig. Seien µˆ1 = n i=1 Xi und µˆ2 = n2 i=1 Yi die em1 pirischen Mittel der beiden Stichproben. Die Statistik des Zweistichproben t-Tests ist r µˆ − µˆ n1n2 T = 1p 2 . n1 + n2 σˆ2 Die Nullhypothesen des Zweistichproben t-Tests sind: 326 1. H0 : µ1 = µ2 (zweiseitige Nullhypothese) 2. H0 : µ1 ≤ µ2 oder H0 : µ1 ≥ µ2 (einseitige Nullhypothesen) Gilt µ1 = µ2, dann ist T t-verteilt mit ν = n1 + n2 − 2 Freiheitsgraden. Bemerkung: Die t-Statistik ist unabhängig vom Parameter σ. Die Fallzahlen n1 und n2 gehen aber über die Freiheitsgrade ν = n1 + n2 − 2 in die t-Statistik ein. 327 Ganz analog zum Zweistichproben Z-Test gilt nun: Die Nullhypothese 1. H0 : µ1 = µ2 (zweiseitig) wird auf dem Niveau α abgelehnt, wenn |T | ≥ t1−α/2,ν gilt. 2. H0 : µ1 ≤ µ2 wird auf dem Niveau α abgelehnt, wenn T ≥ t1−α,ν gilt. 3. H0 : µ1 ≥ µ2 wird auf dem Niveau α abgelehnt, wenn T ≤ −t1−α,ν gilt. t1−α,ν ist das (1 − α)100% Perzentil der t-Verteilung mit ν = n1 + n2 − 2 Freiheitsgraden. Ist Fν die Verteilungsfunktion der t-Verteilung mit ν Freiheitsgraden, dann gilt t1−α,ν = Fν−1(1 − α). 328 Der P-Wert des Zweistichproben t-Tests ist wieder als das kleinste Signifikanzniveau, auf dem die H0 gerade noch abgelehnt werden kann, definiert. Damit ergibt sich: 1. Für H0 : µ1 = µ2 (zweiseitig) ist der P-Wert P = 2Fν (−|T |). 2. Für H0 : µ1 ≤ µ2 gilt P = Fν (−T ). und für 3. H0 : µ1 ≥ µ2 gilt P = Fν (T ). T sei die T-Statistik für den Zweistichproben t-Test und Fν die Verteilungsfunktion der t-Verteilung mit ν = n1 + n2 − 2 Freiheitsgraden. 329 Beispiel: In einer Studie zur Wirksamkeit eines Medikaments gegen Bluthochdruck wird eine Gruppe von 10 Patienten ein Placebo verabreicht und eine andere Gruppe von 10 Patienten werden mit dem Testmedikament behandelt. Nach zwei Wochen wird bei allen 20 Patienten der systolische Blutdruck bestimmt. Man erhält folgendes Ergebnis: P lacebo = {188, 178, 179, 202, 178, 179, 164, 175, 181, 174} und M edikament = {185, 177, 158, 187, 162, 173, 169, 208, 169, 160} Die empirischen Mittel der beiden Gruppen sind: > Placebo <- c(188, 178, 179, 202, 178, 179, 164, 175, 181, 174) > Medikament <- c(185, 177, 158, 187, 162, 173, 169, 208, 169, 160) > mu_P <- mean(Placebo) 330 > mu_M <- mean(Medikament) > mu_P [1] 179.8 > mu_M [1] 174.8 Offensichtlich ist der mittlere Blutdruck in der Medikamentengruppe tiefer in der Placebogruppe. Da die Daten aber streuen, könnte das auch zufällig zustande gekommen sein. Für den Wirksamkeitsnachweis muss ein statistischer Test durchgeführt werden. Wir testen die Differenz mit dem zweiseitigen Zweistichproben t-Test: > sigma2 <- 1/18*(sum((Placebo-mu_P)^2)+sum((Medikament-mu_M)^2)) > T <- (mu_P-mu_M)/sqrt(sigma2)*sqrt(10*10/20) > T [1] 0.8702125 Die Anzahl der Freiheitsgrade ist 18. Wir berechne für das Signifikanzniveau von α = 0.05 die Grenze t0.975,18 des zweiseitigen Ablehnungsbereichs. 331 > t <- qt(0.975,df=18) > t 0.4 [1] 2.100922 t0.975,18 0.1 y 0.2 0.3 − t0.975,18 0.0 T −4 −2 0 x 2 4 332 Die Nullhypothese kann nicht abgelehnt werden. Der beobachtete Unterschied zwischen Placebo und Medikamentengruppe ist nicht signifikant auf dem Niveau α = 0.05. Man kann nicht ausschließen, dass der Unterschied durch Zufall zustande gekommen ist und in Wahrheit das Medikament sich in seiner Wirkung nicht von einem Placebo unterscheidet. Um die Frage zu beantworten, ob man vielleicht auf einem anderen Signifikanzniveau hätte ablehnen können, berechnet man den P-Wert: > P <- 2*pt(-abs(T), df=18) > P [1] 0.3956415 333 Man kann den P-Wert des t-Tests direkt durch die Funktion t.test berechnen. > t.test(Placebo,Medikament, var.equal=TRUE) Two Sample t-test data: Placebo and Medikament t = 0.87021, df = 18, p-value = 0.3956 alternative hypothesis: true difference in means is not equal to 0 95 percent confidence interval: -7.071316 17.071316 sample estimates: mean of x mean of y 179.8 174.8 334 Bemerkung: Um den klassischen t-Test (Student’s Test) zu erhalten, muss das Argument var.equal=TRUE angegeben werden. Sonst wird von R eine andere Version des t-Tests durchgeführt (Welch-Test), bei dem nicht Varianzgleichheit in den Gruppen vorausgesetzt wird. 335 > t.test(Placebo,Medikament) Welch Two Sample t-test data: Placebo and Medikament t = 0.87021, df = 15.403, p-value = 0.3975 alternative hypothesis: true difference in means is not equal to 0 95 percent confidence interval: -7.218866 17.218866 sample estimates: mean of x mean of y 179.8 174.8 336 3.4 Nichtparametrische Tests Für alle Varianten des t-Tests muss vorausgesetzt werden, dass die Daten normalverteilt sind. Diese Voraussetzung kann allerdings nicht bewiesen werden. In der Praxis muss man sich damit begnügen, diese Voraussetzung plausibel zu machen. Das kann durch Betrachtung von Histogrammen geschehen. Hat der Graph eine glockenförmige Gestalt, dann nimmt man oft an, dass die Voraussetzungen für den t-Test erfüllt sind. 337 Eine weitere Möglichkeit ist die Beurteilung der Verteilung anhand von Größen wie der Schiefe und dem Exzess. Unterscheiden sie sich nicht zu stark von 0, dann geht man von normalverteilten Daten aus und benutzt den t-Test. Wie testet man aber Variablen, deren Histogramm nicht glockenförmig ist oder deren Schiefe und Exzess stark von 0 abweichen? Auch diskret verteilte Variablen mit nur wenig Stufen sind sicher nicht normalverteilt. In allen diesen Fällen soll der t-Test nicht angewandt werden, sondern ein Test, der ohne die Normalverteilungsannahme auskommt. Solche Tests heißen nicht-parametrische Tests. Sowohl für den verbundenen als auch unverbundenen t-Test gibt es nichtparametrische Alternativen. 338 3.4.1 Der Vorzeichen Test Der Median µ̄ einer Verteilung ist ihr 50% Perzentil. Ist eine Zufallsvariable gemäß einer beliebigen stetigen Verteilung mit Median µ̄ verteilt, dann gilt P(X < µ̄) = 0.5 = P(X > µ̄). Für eine allgemeine, möglicherweise nicht stetigen, Verteilung mit Median µ̄ gilt 1 1 P(X < µ̄) + P(X = µ̄) = 0.5 = P(X > µ̄) + P(X = µ̄). 2 2 Die Zufallsvariable X nimmt also mit der gleichen Wahrscheinlichkeit Werte < µ̄ wie Werte > µ̄ an. 339 Vorzeichentest: Seien X1, . . . , Xn unabhängige Zufallsvariablen, die gemäß einer beliebigen Verteilung F mit Median µ̄ verteilt sind. Der Vorzeichentest prüft nun die Nullhypothese H0 : µ̄ = µ¯0 für ein fest vorgegebenes µ¯0 ∈ IR. Seien −1 wenn Xi − µ¯0 < 0 Vi = sign(Xi − µ¯0) = 0 wenn X − µ¯ = 0 1 wenn Xi − µ¯0 > 0 0 i für i = 1, . . . , n die Vorzeichen der Variablen X1 − µ¯0, . . . , Xn − µ¯0. 340 Sie n0 die Anzahl der Vi, die nicht 0 sind und P die Anzahl der Vi, die = 1 sind: n0 = #{i|Vi 6= 0} P = #{i|Vi = 1} Ist die H0 : µ̄ = µ¯0 wahr, dann ist P binomialverteilt mit Trefferwahrscheinlichkeit p = 0.5 und Anzahl der Wiederholungen n0: P ∼ B(n0, 1/2) Der Vorzeichentest ist nun der zweiseitige Binomialtest für P der Nullhypothese H0 : p = 1/2. Der Vorzeichentest wird hauptsächlich auf verbundene Stichproben angewandt. 341 Vorzeichentest für verbundene Stichproben: Sei (X1, Y1), . . . , (Xn, Yn) eine verbundene Stichpobe. Die Differenzen Di = Xi − Yi, i = 1, . . . , n seien unabhängig gemäß einer Verteilung F mit Median µ̄ verteilt. Der Vorzeichentest für verbundene Stichproben ist der Vorzeichentest für die Variablen D1, . . . , Dn mit Nullhypothese H0 : µ̄ = 0. 342 Beispiel (Blutdruckstudie mit einer Stichprobe): PatNr. 1 2 3 4 5 6 7 8 9 10 vorher 205 206 166 160 204 186 194 165 190 196 nachher 198 206 143 149 179 174 189 160 194 187 diff 7 0 23 11 25 12 5 5 -4 9 343 Für die Variable diff soll der Vorzeichentest der Nullhypothese H0 : µ̄ = 0 durchgeführt werden. Eine wahre Nullhypothese würde bedeuten, dass eine Blutdrucksteigerung genauso wahrscheinlich ist wie eine Blutdrucksenkung, das Medikament also wirkungslos ist. Unter den 10 Differenzen ist eine 0, acht sind positiv und eine ist negativ. Damit ergibt sich n0 = 9 und P = 8. Wir führen den zweiseitigen Binomialtest durch: 344 > binom.test(8,9,p=0.5,alternative="two.sided") Exact binomial test data: 8 and 9 number of successes = 8, number of trials = 9, p-value = 0.03906 alternative hypothesis: true probability of success is not equal to 0.5 95 percent confidence interval: 0.5175035 0.9971909 sample estimates: probability of success 0.8888889 Zum Vergleich berechnen wir den verbundenen t-Test: 345 > vorher <- c(205, 206, 166, 160, 204, 186, 194, 165, 190, 196) > nachher <- c(198, 206, 143, 149, 179, 174, 189, 160, 194, 187) > t.test(vorher, nachher, paired=TRUE) Paired t-test data: vorher and nachher t = 3.2214, df = 9, p-value = 0.01047 alternative hypothesis: true difference in means is not equal to 0 95 percent confidence interval: 2.769279 15.830721 sample estimates: mean of the differences 9.3 Der P-Wert des verbundenen t-Tests ist kleiner als der des Vorzeichentests. 346 McNemar Test: Haben die Variablen Xi und Yi nur die Ausprägungen 0 und 1 wird der Vorzeichentest für die verbundene Stichprobe (X1, Y1), . . . , (Xn, Yn) auch als Test nach McNemar bezeichnet. Beispiel: In einer Studie soll untersucht werden, ob eine Wahlwerbeaktion die Einstellung zu einer bestimmten gesellschaftlichen Fragestellung verändert. Dazu wird jedem Studienteilnehmer vor und nach der Aktion eine Aussage vorlegt, der er zustimmen oder die er ablehnen kann. 0 i-ter Teinehmer stimmt Aussage vor der Aktion zu Xi = 1 i-ter Teinehmer lehnt Aussage vor der Aktion ab Yi = 0 i-ter Teinehmer stimmt Aussage nach der Aktion zu 1 i-ter Teinehmer lehnt Aussage nach der Aktion ab 347 Nr. 1 2 3 4 5 6 7 8 9 10 vorher 1 1 1 1 0 0 0 0 0 0 nachher 1 1 0 0 1 0 0 1 0 0 diff 0 0 1 1 -1 0 0 -1 0 0 Insgesamt haben n0 = 4 Probanden ihre Meinung geändert. Jeweils zwei von Zustimmung zu Ablehnung und umgekehrt. Der Binomialtest ergibt in diesem Fall einen P-Wert von 1. 348 Da beim Vorzeichentest nur die Vorzeichen nicht aber die absolute Größe der Differenzen in die Teststatistik eingehen, ist die Power des Vorzeichentests oft kleiner als die des verbundenen t-Tests. Sind die Differenzen normalverteilt, ist der t-Test unbedingt vorzuziehen. Bestehen dagegen Zweifel an der Gültigkeit der Normalverteilungsannahme, ist der Vorzeichentest die bessere Wahl. 349 3.4.2 Vorzeichen-Rang-Test nach Wilcoxon Ein Test, der auch ohne Normalverteilungsannahme auskommt, ist der VorzeichenRang-Test nach Wilcoxon. In die Teststatistik des Vorzeichen-Rang-Tests gehen neben dem Vorzeichen auch noch die Ränge ein. Er vergröbert daher weniger als der Vorzeichentest und hat deshalb im Allgemeinen eine höhere Power. 350 Eine Wahrscheinlichkeitsverteilung F mit Median µ̄ ist symmetrisch um den Median, wenn PF ((−∞, µ̄ − λ)) = PF ((µ̄ + λ, ∞)) für jedes λ > 0 gilt. Vorzeichen-Rang-Test nach Wilcoxon: Seien X1, . . . , Xn unabhängige Zufallsvariablen, die gemäß F verteilt sind. F sei eine stetige um ihren Median µ̄ symmetrische Verteilung. Die Nullhypothese sei H0 : µ̄ = µ¯0 für ein fest vorgegebenes µ¯0 ∈ IR. 351 Seien Di = |Xi − µ¯0| für i = 1, . . . , n die Beträge von Xi − µ¯0 und D(1) ≤ . . . ≤ D(n) die aufsteigende Anordnung der Di. Zu jedem D(i) gehört genau ein Xi0 − µ¯0. Sei Si = sign(Xi0 − µ¯0) das Vorzeichen dieses Xi0 − µ¯0. 0 wenn Si ≤ 0 Ri = i wenn Si = 1 Die Summe der “positiven“ Ränge ist dann P = n X Ri. i=1 352 Die exakte Verteilung von P unter der Nullhypothese ist schwer anzugeben. Für große n kann aber wegen des Zentralen Grenzwertsatzes angenommen werden, dass die Standardisierung von P annähernd standardnormalverteilt ist. Wir berechnen also Erwartungswert und Varianz von P unter der Annahme, dass H0 wahr ist. Aus E(Ri) aus E(Ri2) Pn 1 . Für die Varianz folgt = i/2 folgt E(P ) = 2 i=1 i = n(n+1) 4 = i2/2 sofort Var(Ri) = i2/4 und damit n 1X 2 n(n + 1)(2n + 1) Var(P ) = i = , 4 24 i=1 da die Ri unabhängig sind. 353 Die Testgröße Z=q P − n(n+1) 4 n(n+1)(2n+1) 24 ist die Standardisierung von P und wegen des Zentralen Grenzwertsatzes für große n annähernd standardnormalverteilt. Die Nullhypothese wird daher auf dem Niveau α abgelehnt, wenn |Z| ≥ z1−α/2 gilt (Z-Test gegen µ = 0 mit bekannter Varianz σ 2 = 1). 354 Beispiel (Vorzeichen-Rang-Test für verbundene Stichprobe): Nr. 1 2 3 4 5 6 7 8 9 10 Summe (P) vorher 110 151 156 149 134 155 122 101 156 199 nachher 120 140 171 130 133 146 178 154 181 167 D -10 11 -15 19 1 9 -56 -53 -25 32 |D| 10 11 15 19 1 9 56 53 25 32 Rang 3 4 5 6 1 2 10 9 7 8 R 0 4 0 6 1 2 0 0 0 8 21 Auf die Differenz D soll der Vorzeichen-Rang-Test der Nullhypothese H0 : µ̄ = 0 angewandt werden. 355 > > > > P <- 21 n <- 10 Z <- (P-n*(n+1)/4)/sqrt(n*(n+1)*(2*n+1)/24) Z [1] -0.6625413 > 2*pnorm(-abs(Z)) # P-Wert des Z-Tests. [1] 0.5076243 356 > > > + vorher <- c(110,151,156,149,134,155,122,101,156,199) nachher <- c(120,140,171,130,133,146,178,154,181,167) wilcox.test(vorher, nachher, paired=TRUE, correct=FALSE, exact=FALSE) Wilcoxon signed rank test data: vorher and nachher V = 21, p-value = 0.5076 alternative hypothesis: true location shift is not equal to 0 357 Da n = 10 noch keine große Zahl ist, ist die Näherung durch die Normalverteilung nicht gut. In R wird auch ein exakter Test angeboten: > wilcox.test(vorher, nachher, paired=TRUE, exact=TRUE) Wilcoxon signed rank test data: vorher and nachher V = 21, p-value = 0.5566 alternative hypothesis: true location shift is not equal to 0 358 Bemerkung: Da wir vorausgesetzt haben, dass F eine stetige Verteilung ist, kommen gleiche Ränge oder Di = 0 nur mit Wahrscheinlichkeit 0 vor. In der Praxis wird der Vorzeichen-Rang-Test aber auch bei diskreten Verteilungen angewandt. Selbst bei stetigen Variablen können durch Rundung gleiche Ränge (Bindungen) auftreten. Es ist möglich, den Vorzeichen-Rang-Test so zu modifizieren, dass er auch auf diese Fälle angewandt werden kann. Bemerkung: Eine wichtige Voraussetzung für den Vorzeichen-Rang-Test ist die Annahme, dass die Verteilung symmetrisch um ihren Median ist. Ist sie verletzt, dann wird die wahre Nullhypothese mit einer größeren Wahrscheinlichkeit als das vorgegebene α abgelehnt. Der Test hält das Signifikanzniveau nicht mehr ein, d.h. er beschränkt die Fehlerwahrscheinlichkeit 1. Art nicht durch α. 359 Vorlesung 1.2.2017 360 3.4.3 Mann-Whitney-Wilcoxon-U Test (U-Test) Auch für den Zweistichproben t-Test gibt es ein nicht-parametrisches alternatives Testverfahren, das auch auf nicht normalverteilte Daten angewandt werden kann. Ähnlich wie beim Vorzeichen-Rang-Test wird die Teststatistik des U Tests aus Summen von Rängen abgeleitet. Voraussetzungen und Nullhypothese für den U-Test: Seien X1, . . . , Xn1 gemäß einer beliebigen stetigen Verteilung mit Wahrscheinlichkeitsdichte f (t) und Y1, . . . , Yn2 gemäß der um eine unbekannten Parameter a ∈ IR verschobenen Verteilung mit Wahrscheinlichkeitsdichte f (t − a) verteilt. Die Variablen der Gesamtstichprobe X1, . . . , Xn1 , Y1, . . . , Yn2 seien unabhängig. 361 Die Nullhypothesen für den U-Test sind nun Bedingungen an den unbekannten Parameter a: H0 : a = 0 (zweiseitig) H0 : a ≤ 0 (einseitig) H0 : a ≥ 0 (einseitig) 362 Bemerkung: Der U-Test wird wie der Zweistichproben t-Test auf die unabhängigen Stichproben S1 = {X1, . . . , Xn1 } und S2 = {Y1, . . . , Yn2 } angewandt. Im Gegensatz zum t-Test kann die Wahrscheinlichkeitsdichte f beliebig sein. Der UTest kommt ohne Normalverteilungsannahme aus. Bemerkung: Die Voraussetzung der Stetigkeit kann fallen gelassen werden. Die Formeln zur Berechnung der Teststatistik des Mann-Whitney-U Tests müssen dann allerdings modifiziert werden, da Bindungen (=gleich große Werte) in den Stichproben auftreten können. In der Praxis wird der U-Test sogar besonders gerne auf ordinale Daten, wie z.B. Schulnoten oder allgemeiner Bewertungsscores mit nur wenigen Ausprägungen, angewandt. 363 Durchführung des U-Tests: Die vereinigte Stichprobe S = {X1, . . . , Xn1 , Y1, . . . , Yn2 } wird aufsteigend angeordnet. Jedem Element aus S wird dadurch ein Rang, d.h. eine ganze Zahl zwischen 1 und n1 + n2, zugeordnet. Das kleinste Element aus S erhält den Rang 1, das zweitkleinste Rang 2 und schließlich das größte den Rang n1 +n2. Im Gegensatz zum Vorzeichen-Rang-Test werden nicht die Beträge sondern die Werte aus der Stichprobe selbst aufsteigend sortiert. Sind die Verteilungen für X1, . . . , Xn1 und Y1, . . . , Yn2 stetig, dann sind alle Werte aus S mit Wahrscheinlichkeit 1 verschieden und die Zuordnung der Elemente aus S zu den Rängen ist eindeutig. 364 Lässt man die Annahme der Stetigkeit fallen (z.B. Variablen sind Scores oder stark gerundet stetige Variablen), dann können gleiche Ränge auftreten. Man ordnet dann den betreffenden Werten durchschnittliche Ränge zu: Beispiel: Hat die Stichprobe S nach aufsteigender Sortierung die Gestalt 1, 2, 2, 2, 2, 3, 3.1, . . . , dann gibt es vier zweitkleinste Elemente. Die 2 besetzt den zweiten bis fünften Rang. Ihr wird ihr deshalb der durchschnittliche Rang 2+3+4+5 = 3.5 zugeordnet. 4 In einem nächsten Schritt bildet man die Summe R1 der Ränge, die zu Elementen aus der ersten Stichprobe, und entsprechend die Summe der Ränge R2, die zur zweiten Stichprobe gehören. 365 Beispiel: Gruppe 1 1 1 1 2 2 2 2 2 2 Summe Wert 4.4 0.0 -0.6 -2.3 -0.1 -11.1 3.0 5.6 1.8 -1.5 Rang 9 6 4 2 5 1 8 10 7 3 Ränge zu Gruppe 1 9 6 4 2 21 Ränge zu Gruppe 2 5 1 8 10 7 3 34 Damit ist R1 = 21 und R2 = 34. 366 Bemerkung: Die Rangsummen R1 und R2 sind nicht unabhängig, sondern es gilt (n + n2)(n1 + n2 + 1) R1 + R2 = 1 . 2 Ist die H0 wahr, dann erhält jedes Element aus S alle Ränge mit der gleichen Wahrscheinlichkeit. Gilt dagegen die H1, dann erhalten die Elemente aus einer der beiden Stichproben eher die kleinen Ränge und die andere die hohen Ränge. Exakte Statistik des U-Tests: Seien n (n + 1) − R1 . U1 = n1n2 + 1 1 2 und n2(n2 + 1) U2 = n1n2 + − R2 , 2 dann kann für jedes Paar n1 und n2 die exakte Verteilung der Statistik U = min(U1, U2) 367 bestimmt werden. Für kleine n1, n2 und den gängigen Signifikanzniveaus wurden früher Tabellen mit exakten Ablehnungsgrenzen benutzt. Heute sind exakte Versionen des U-Tests in vielen Statistikprogrammen implementiert (z.B. wilcox.test mit Option exact=TRUE). Asymptotische Statistik des U-Tests: Wie beim Vorzeichen-Rang-Test, ist die exakte Verteilung von U unter H0 für große n1, n2 schwer zu bestimmen. Eine für großes n1 + n2 asymptotisch gültige Prüfgröße erhält man durch folgende Transformation von R1: 368 Sei n1(n1 + 1) U1 = n1n2 + − R1 . 2 Die Zufallsvariable Z=q U1 − n12n2 n1 n2 (n1 +n2 +1) 12 ist für großes n1 + n2 annähernd standardnormalverteilt. Der U-Test ist dann schließlich der Z-Test für die Variable Z mit bekannter Varianz σ 2 = 1 und Nullhypothese H0 : µ = 0. Die Nullhypothese des U-Tests wird dann abgelehnt, wenn µ = 0 abgelehnt werden kann. Für ein Signifikanzniveau α ist das bekanntlich genau dann der Fall, wenn |Z| ≥ z1−α/2 gilt. 369 Bemerkung: Die Näherung liefert für n1 + n2 > 60 brauchbare Resultate. Bemerkung: Benutzt man U2 statt U1, dann dreht sich das Vorzeichen der Teststatistik Z um. Auf das Ergebnis des zweiseitigen Z-Tests hat das keinen Einfluss. Bemerkung: In R ist in der Funktion wilcox.test für kleine Stichprobenumfänge der exakte U-Test implementiert. Für große Stichproben wird die asymptotische Formel benutzt. Nur bei Vorliegen von Bindungen (Elemente mit gleichen Rängen) muss auch bei kleinen Stichproben auf asymptotische Formeln zurückgegriffen werden, die in der Regel aber auch brauchbare Ergebnisse liefern. 370 Beispiel: > S1 <- c(4.4, 0, -0.6, -2.3) > S2 <- c(-0.1, -11.1, 3.0, 5.6, 1.8,-1.5) > wilcox.test(S1,S2, paired=FALSE) Wilcoxon rank sum test data: S1 and S2 W = 11, p-value = 0.9143 alternative hypothesis: true location shift is not equal to 0 371 Bemerkung: So wie viele Autoren wird auch in R der U-Test Wilcoxon zugeschrieben. Um ihn vom Vorzeichen-Rang-Test nach Wilcoxon zu unterscheiden, bezeichnet man ihn oft als Wilcoxon Test für unabhängige Stichproben. Bemerkung: Die Funktion wilcox.test verwendet für kleine Stichprobenumfänge die exakte Statistik und für n1 + n2 ≥ 50 die Approximation der Verteilung von Z durch die Normalverteilung. 372 Vorlesung 8.2.2017 373 3.4.4 Der χ2-Test Ein in der Praxis oft verwendeter Test ist der χ2-Test. Er soll hier in der einfachsten Form besprochen werden. Voraussetzungen des χ2 Test für zwei Stichproben: Seien X1, . . . , Xn1 und Y1, . . . , Yn2 zwei unabhängige Stichproben von dichotom (binomial mit n = 1) verteilten Zufallsvariablen. Dichotom bedeutet, dass Xi und Yi nur die Werte 0 oder 1 annehmen können. Es gelte nun, dass X1, . . . , Xn1 , Y1, . . . , Yn2 unabhängig sind. Weiter gelte P(Xi = 1) = p1 i = 1, . . . , n1 und P(Yi = 1) = p2 i = 1, . . . , n2. 374 Beispiel: Es soll in einer Studie eine Placebo mit einem Medikament verglichen werden. Die Patienten der Gesamtstichprobe werden vor der Behandlung durch Zufall zwei Gruppen S1 und S2 zugeordnet. Die Patienten in S1 erhalten ein Placebo, wohingegen die Patienten in S2 mit dem Medikament behandelt werden. Für die n1 Patienten in der Placebogruppe S1 wird in den X1, . . . , Xn1 der Heilerfolg codiert: 0 keine Heilung beim i-ten Patienten der Placebogruppe. Xi = i = 1, . . . , n1 1 Heilung beim i-ten Patienten der Placebogruppe. Entsprechend definiert man für die Medikamentengruppe: 0 keine Heilung beim i-ten Patienten der Medikamentengr. Yi = 1 Heilung beim i-ten Patienten der Medikamentengr. i = 1, . . . , n2 375 Die Heilwahrscheinlichkeit in der Placebogruppe ist also p1 und in der Medikamentengruppe p2. “Wirkt“ Medikament und Placebo gleich gut, dann gilt p1 = p2. Die Nullhypothese des χ2-Tests lautet deshalb: Nullhypothese und Alternative des χ2-Tests: Die Nullhypothese des χ2-Tests lautet H 0 : p 1 = p2 . Die Alternative ist damit H1 : p1 6= p2. 376 Die Realisierung (Ergebnis des Experiments) der X1, . . . , Xn1 , Y1, . . . , Yn2 kann kompakt in einer Vierfeldertafel oder allgemeiner Kreuztabelle zusammengefasst werden. Dazu berechnet man n1 X N11 = Xi i=1 und N21 = n2 X Yi i=1 die Anzahl der Heilungen in den beiden Gruppen. Entsprechend sind dann N12 = n1 − N11 und N22 = n2 − N21 die Anzahl der Nicht-Heilungen in der Placebo- bzw. Medikamentengruppe. 377 Die Darstellung Placebo Medikament Heilung N11 N21 keine Heilung N12 N22 heißt Kreuztabelle oder Vierfeldertafel und fasst das Ergebnis des Experiments in prägnanter Form zusammen. Die Nullhypothese H0 : p1 = p2 wird nun auf folgende Art getestet: 378 Ist H0 wahr, dann ist die Heilwahrscheinlichkeit in beiden Gruppen gleich p = p 1 = p2 . Die gemeinsame Heilwahrscheinlichkeit p wird nun aus der Gesamtstichprobe geschätzt: Anzahl der Heilungen in beiden Gruppen N11 + N21 = Anzahl aller Studienteilnehmer N11 + N21 + N12 + N22 Aus diesem p̂ können nun die erwarteten Häufigkeiten für die Besetzung der vier Zellen berechnet werden: p̂ = 379 E11 := E21 := E12 := E21 := N11 + N21 n1p̂ = (N11 + N12) N11 + N21 + N12 + N22 N11 + N21 n2p̂ = (N21 + N22) N11 + N21 + N12 + N22 N12 + N22 n1(1 − p̂) = (N11 + N12) N11 + N21 + N12 + N22 N12 + N22 n2(1 − p̂) = (N21 + N22) N11 + N21 + N12 + N22 Die Idee des χ2 Tests ist nun, die erwarteten Zellhäufigkeiten E11, E21, E12 und E22 mit den tatsächlich beobachteten N11, N21, N12 und N22 zu vergleichen. Große Abweichungen sprechen gegen die Nullhypothese. 380 Das führt zu folgender Definition der Teststatistik X für den χ2 Test: (N11 − E11)2 (N21 − E21)2 (N12 − E12)2 (N22 − E22)2 X= + + + E11 E21 E12 E22 Für kleine Fallzahlen n1 bzw. n2 ist die Verteilung von X unter H0 schwierig zu bestimmen. Für große n1 und n2 kann eine Näherung der Verteilung von X angegeben werden. Es ist die χ2-Verteilung mit einem Freiheitsgrad. 381 Die χ2-Verteilung mit einem Freiheitsgrad: Die χ2-Verteilung mit einem Freiheitsgrad ist eine stetige Verteilung mit der Dichtefunktion ( 0 t≤0 t 1 . f1(t) := √1 t− 2 e− 2 t > 0 2π Die Dichte der χ2-Verteilung mit einem Freiheitsgrad ist nicht beschränkt. 382 0.0 0.5 f 1.0 1.5 Dichte der Chiquadratverteilung mit einem Freiheitsgrad 383 0 1 2 3 x 4 5 Die Nullhypothese H0 : p1 = p2 wird nur abgelehnt, wenn die Statistik X groß ist. Für das Signifikanzniveau α = 0.05 ist der Schwellenwert > qchisq(0.95,df=1) [1] 3.841459 384 Beispiel: Placebo Medikament Heilung 30 50 keine Heilung 70 150 Zunächst berechne man p̂ unter H0: p̂ = 80/300 = 0.267. Die erwartete Anzahl der Heilungen in der Placebogruppe ist daher 80/3 und in der Medikamentengruppe 160/3. Entsprechend ist die erwartete Anzahl der NichtHeilungen in der Placebogruppe 220/3 und in der Medikamentengruppe 440/3. 385 Daraus folgt X= 2 (30 − 80 ) 3 80 3 + 2 ) (50 − 160 3 160 3 + 2 ) (70 − 220 3 220 3 + 2 ) (150 − 440 3 440 3 > X <- (30-80/3)^2/(80/3)+(50-160/3)^2/(160/3)+ + (70-220/3)^2/(220/3)+(150-440/3)^2/(440/3) > X [1] 0.8522727 Da X < 3.841459 ist, kann die Nullhypothese nicht auf dem 5% Niveau abgelehnt werden. 386 Der P-Wert des χ2-Tests kann wieder nach der allgemeinen Regel bestimmt werden, dass der P-Wert das kleinste Signifikanzniveau ist, auf dem die H0 gerade noch abgelehnt werden kann. Er ist demnach die Fläche unter der Dichtefunktion der χ2-Verteilung mit einem Freiheitsgrad im Bereich (X, ∞). > P.Wert <- 1-pchisq(X,df=1) > P.Wert [1] 0.3559102 387 Natürlich ist der χ2-Test in R als Funktion implementiert: > M <- matrix(c(30,50,70,150), ncol=2) > chisq.test(M, correct=FALSE) Pearson's Chi-squared test data: M X-squared = 0.85227, df = 1, p-value = 0.3559 Da beim χ2-Test eine diskrete Verteilung durch die stetige χ2-Verteilung approximiert wird, erhält man insbesondere für kleine Fallzahlen bessere Resultat, wenn der Wert der Statistik korrigiert wird (Stetigkeitkorrektur nach Yates). 388 > chisq.test(M) Pearson's Chi-squared test with Yates' continuity correction data: M X-squared = 0.61577, df = 1, p-value = 0.4326 Für ganz kleine Fallzahlen ist der χ2-Test ungeeignet. Er wird dann in der Regel durch den exakten Test nach Fisher ersetzt. 389 > fisher.test(M) Fisher's Exact Test for Count Data data: M p-value = 0.4063 alternative hypothesis: true odds ratio is not equal to 1 95 percent confidence interval: 0.723193 2.261002 sample estimates: odds ratio 1.284584 390 Ende der Vorlesung Statistik I 391 4. Konfidenzintervalle Konfidenzintervalle für eine Stichprobe normalverteilter Daten Sei S = {X1, . . . , Xn} eine Stichprobe unabhängiger normalverteilter Zufallsvariablen mit Erwartungswert µ und Varianz σ 2. Eine Aufgabe der beschreibenden Statistik ist die möglichst genaue Bestimmung der unbekannten Größen µ und σ 2. 392 Die Ausdrücke (Schätzer) n n X 1X 1 µ̂ = Xi und σˆ2 = (Xi − µ̂)2 n n−1 i=1 i=1 werden für große n nahe bei µ bzw. σ 2 liegen (Gesetz der großen Zahlen). Da n in der Regel eine fest vorgegebene Zahl ist, erhebt sich die Frage, wie gut diese Punktschätzer für beliebige n sind. Ziel ist die Angabe eines Bereichs (Intervalls), in dem die unbekannten Parameter mit hoher Wahrscheinlichkeit liegen. Ein solcher Bereich heißt Konfidenzintervall. 393 Bestimmung des Konfidenzintervalls mit Hilfe des Einstichproben t-Tests: Definition: Das zweiseitige (1 − α)100% Konfidenzintervall besteht aus allen reellen Zahlen µ0 ∈ IR, für die der zweiseitige Einstichproben t-Test die Nullhypothese H0 : µ = µ0 nicht auf dem Niveau α ablehnen kann. Umgekehrt werden damit alle reellen Zahlen µ0, die außerhalb des Konfidenzintervalls liegen, als mögliche Werte für µ auf dem Niveau α ausgeschlossen. Die Wahrscheinlichkeit, dass µ nicht im Konfidenzintervall liegt ist deshalb gleich der Irrtumswahrscheinlichkeit 1. Art des t-Tests und damit gleich α. 394 Zur praktischen Berechnung des Konfidenzintervalls stellt man folgende Überlegung an: Die Nullhypothese H0 : µ = µ0 wird genau dann auf dem Niveau α abgelehnt, wenn der Betrag der t-Statistik µ̂ − µ0 √ n T = p σˆ2 größer als der kritische Wert t1− α ;n−1 ist. 2 Die Zahl t1− α ;n−1 ist das 1 − α 2 Perzentil der t-Verteilung mit n − 1 Freiheits2 graden. In R wird es mit qt(1-alpha/2,df=n-1) berechnet. 395 H0 wird also genau dann nicht abgelehnt, wenn µ̂ − µ0 √ < p n < t1− α ;n−1 2 σˆ2 gilt. Löst man diese Ungleichungen nach µ0 auf, erhält man die Grenzen des zweiseitigen (1 − α)100% Konfidenzintervalls: p p σˆ2 σˆ2 µ̂ − t1− α ;n−1 √ < µ0 < µ̂ + t1− α ;n−1 √ 2 2 n n −t1− α ;n−1 2 396 Das Intervall p p σˆ2 σˆ2 CI(1 − α)100% = (µ̂ − t1− α ;n−1 √ , µ̂ + t1− α ;n−1 √ ) 2 2 n n heißt das zweiseitige (1 − α)100% Konfidenzintervall für µ. 397 Beispiel: Sei S = {1, 4.5, 10, −1, −1.2, 0.1} eine Stichprobe aus einer normalverteilten Population. Berechnung der 90%, 95% und 99% Konfidenzintervalle. > S <- c(1,4.5,10,-1,-1.2,0.1) > t95 <- qt(0.95,5) > t95 [1] 2.015048 > t97.5 <- qt(0.975,5) > t97.5 398 [1] 2.570582 > t99.5 <- qt(0.995,5) > t99.5 [1] 4.032143 > mu <- mean(S) > mu [1] 2.233333 > sd <- sd(S) > sd [1] 4.330666 > # 90\% Konfidenzintervall: > paste("(",mu-sd/sqrt(n)*t95,",", mu+sd/sqrt(n)*t95, ")", sep="") [1] "(-0.526228636079019,4.99289530274569)" > # 95\% Konfidenzintervall: > paste("(",mu-sd/sqrt(n)*t97.5,",", mu+sd/sqrt(n)*t97.5, ")", sep="") [1] "(-1.28701881640229,5.75368548306895)" > # 99\% Konfidenzintervall > paste("(",mu-sd/sqrt(n)*t99.5,",", mu+sd/sqrt(n)*t99.5, ")", sep="") [1] "(-3.28859287940922,7.75525954607589)" Direkt aus der Formel für das Konfidenzintervall folgt: • Je größer die Streuung σ der Daten, umso breiter ist das Konfidenzintervall. • Je höher die Sicherheit (1−α)100%, desto breiter ist das Konfidenzintervall. • Mit steigenden n strebt die Breite des Konfidenzintervalls gegen Null. 399 Der letzte Punkt ist eine Bestätigung des Gesetzes der großen Zahlen. Da der Einfluss von n auf t1− α ;n−1 für große n immer kleiner wird, ist die Breite des Konfidenz2 √ intervalls umgekehrt proportional zu n. Will man beispielsweise die Genauigkeit der Schätzung von µ̂ um den Faktor 10 steigern, muss die Fallzahl n um das 100 fache erhöht werden. Der Schätzer µ̂ wird mit steigenden n nur sehr langsam besser! 400 Bemerkung: Für n ≥ 30 unterscheiden sich die Perzentile der t-Verteilung und die der Standardnormalverteilung nur unwesentlich > qt(0.975,30) [1] 2.042272 > qnorm(0.975) [1] 1.959964 401 Insbesondere für das 95% Konfidenzintervall wird oft t0.975;n−1 ≈ z0.975 ≈ 1.96 ≈ 2 angenommen. Das zweiseitige 95% Konfidenzintervall ist dann in dieser Näherung p ! p σˆ2 σˆ2 µ̂ − 2 √ , µ̂ + 2 √ n n 402 5. Korrelationsanalyse 5.1 Die Kovarianz von zwei Zufallsvariablen Definition Kovarianz: Seien X : Ω −→ IR und Y : Ω −→ IR zwei Zufallsvariablen auf dem gleichen Wahrscheinlichkeitsraum Ω. Existieren E(XY ), E(X) und E(Y ), dann ist die Kovarianz von X und Y als Cov(X, Y ) := E(XY ) − E(X)E(Y ) definiert. 403 Die Kovarianz ist eine Größe, die den Zusammenhang der Variablen X und Y beschreibt. Beispiel: Man betrachte den Laplaceraum Ω = {1, 2, 3, 4, 5, 6} und die Zufallsvariablen X(i) = i und Y (i) = i2. 7 1 (1 + 2 + 3 + 4 + 5 + 6) = 6 2 1 2 (1 + 22 + 32 + 42 + 52 + 62) = E(Y ) = 6 1 3 E(XY ) = (1 + 23 + 33 + 43 + 53 + 63) = 6 Daraus folgt 147 7 91 245 Cov(X, Y ) = − ∗ = . 2 2 6 12 E(X) = 91 6 147 2 404 Bemerkung: Sind X und Y unabhängige Variablen, dann gilt Cov(X, Y ) = 0. Die Umkehrung dieser Aussage gilt im Allgemeinen nicht. Bemerkung: Es gilt Var(X) = Cov(X, X). Schätzung der Kovarianz aus einer Stichprobe: Seien (X1, Y1), . . . , (Xn, Yn) unabhängige identisch wie (X, Y ) verteilte Paare von Zufallsvariablen, dann ist n X 1 c Cov((X (Xi − X̄)(Yi − Ȳ ) 1 , Y1 ), . . . , (Xn , Yn )) = n−1 i=1 ein Schätzer für Cov(X, Y ). 405 In R kann die Kovarianz mit cov aus einer Stichprobe berechnet werden: > x <- c(1,2.1,3,4,5.5,6.6,6.3) > y <- c(0,10,11,45,46,47,80) > cov(x,y) [1] 54.6881 406 Beispiel: Kovarianz zwischen Gewicht und Größe in Schueler.txt: 200 > Schueler <- read.table("Schueler.txt", header=TRUE) > plot(Schueler$Gewicht,Schueler$Groesse, + xlab="Gewicht [kg]", ylab="Größe [cm]") ● ● ●● ●● ● ● ● ●● ● ●●●● ●● ●● ●●● ●● ●● ● ● ● ●●● ● ● ●●●● ● ● ● ● ● ●● ● ●● ● ●●● ● ● ● ● ● ● ●●● ●● ● ● ●●● ● ● ●● ● ● ● ●●● ●●● ●●●●●● ● ●● ●● ●● ● ● ●●● ● ● ● ● ●●● ●● ● ● ● ●● ●● ● ● ●● ● ●● ●● ● ● ● ●● ●●● ●● ● ● ● ●● ●● ●●● ●●● ●● ●● ● ●● ●● ●●● ● ●● ● ● ●●● ●● ● ● ● ● ● ● ● ● ● ●●● ●● ●● ●● ● ●● ●● ●●●● ●● ● ●● ● ●●● ● ● ●● ●● ●● ●● ●● ● ●● ●● ●● ● ●●● ●● ● ● ● ● ● ●●● ● ●● ● ●●●● ● ● ● ● ●● ●●●● ●● ●● ●● ●● ●●●● ●● ●● ● ●●● ●●● ●● ●● ● ● ● ● ● ●●●●● ● ● ● ●● ● ● ●● ● ● ● ●●● ● ●●● ● ●● ●● ●● ●● ● ● ● ● ● ● ● ● ● ● ● ● ●● ●●● ●● ●● ●● ●● ● ●●● ● ●● ●●● ● ●● ●● ● ●●● ●● ● ●● ●● ●● ●●● ● ●●● ● ●● ●● ●● ● ●● ● ● ●● ●●●● ●●● ● ●● ●● ● ●● ●● ● ●● ●● ●●●● ●● ●● ●● ●● ●●● ●● ●● ●● ●● ●●● ●● ● ● ● ● ● ● ●● ●●● ● ●●● ●●●●●●● ● ● ● ●● ●●● ● ● ● ● ● ● ● ●● ●● ●● ●●●● ●● ●● ●● ● ● ● ● ● ●●●● ●● ● ● ●● ● ● ● ●● ●● ●●●● ●● ● ● ●● ●● ●● ● ●●● ● ●● ● ●● ●● ● ●● ●● ● ●● ●● ●● ●● ●● ● ● ● ● ● ● ●● ●● ●● ●● ● ●●● ● ● ●● ● ● ●●●●● ● ●●● ● ● ● ● ●● ● ●● ● ●● ● ● ●● ● ●●● ● ● ● ● ● ● ● ● ● ● ● ● ● ● 160 140 120 Größe [cm] 180 ● 40 50 ● ● ● 60 ● ● 70 Gewicht [kg] 407 Im Streudiagramm ist ein deutlicher Zusammenhang zwischen Gewicht und Größe ersichtlich. Die Kovarianz beträgt: > cov(Schueler$Gewicht,Schueler$Groesse) [1] 84.31632 Die Kovarianz ist linear sowohl in X als auch in Y : Cov(X, λY + Z) = λCov(X, Y ) + Cov(X, Z) und Cov(λX + Z, Y ) = λCov(X, Y ) + Cov(Z, Y ) für beliebiges λ ∈ IR und eine beliebige auf Ω definierte Zufallsvariable Z, für die Cov(Z, Y ) und Cov(Z, X) existieren. Daraus folgt insbesondere, dass Cov(λX, Y ) = λCov(X, Y ) gilt. Die Kovarianz ist also von der Skalierung der Variablen X und Y abhängig. Ist beispielsweise X eine Messgröße, die in Metern gemessen wird, dann vergrößert sich die Kovarianz um den Faktor 100, wenn X in cm umgerechnet wird. 408 5.2 Korrelationskoeffizient nach Pearson Da die Kovarianz von der Skalierung der Variablen abhängt, ist sie als Maß für den Zusammenhang zweier Variablen schlecht geeignet. Die normierte Version der Kovarianz ist der Korrelationskoeffizient nach Pearson: Definition: Die Größe r = r(X, Y ) = p Cov(X, Y ) Var(X)Var(Y ) heißt der Korrelationskoeffizient nach Pearson der Variablen X und Y . r ist stets eine dimensionslose Größe zwischen −1 und 1. 409 Es gilt: 1. Sind X und Y unabhängig, dann gilt r = 0. 2. Gilt X = aY + b mit a, b ∈ IR und a 6= 0, dann ist r = 1 für a > 0 und r = −1 für a < 0. r = ±1 heißt perfekte Korrelation. Sie liegt vor, wenn die eine Variable ein linearer Ausdruck der anderen ist. Bemerkung: Ist Y = f (X) und f ist eine nicht lineare Funktion, dann gilt im Allgemeinen r = r(X, Y ) 6= ±1. Ist beispielsweise X ∼ N (0, 1) standardnormalverteilt und Y = X 2, dann gilt r(X, Y ) = 0 (Übung). 410 Die Berechnung (Schätzung) des Korrelationskoeffizienten nach Pearson für eine verbundene Stichprobe (X1, Y1), . . . , (Xn, Yn) c erfolgt, indem man zunächst die Kovarianz Cov((X 1 , Y1 ), . . . , (Xn , Yn )) und die Varianzen σˆ2(X1, . . . , Xn) und σˆ2(Y1, . . . , Yn) aus den Stichproben berechnet. c Cov((X 1 , Y1 ), . . . , (Xn , Yn )) r̂ = q σˆ2(X1, . . . , Xn)σˆ2(Y1, . . . , Yn) ist dann der empirische Korrelationskoeffizient nach Pearson. 411 In R wird der Pearson Korrelationskoeffizient mit der Funktion cor berechnet: > x <- c(1,2.1,3,4,5.5,6.6,6.3) > y <- c(0,10,11,45,46,47,80) > cor(x,y) [1] 0.8960473 Der Korrelationskoeffizient r ist empfindlich gegenüber Ausreißern, d.h. Wertepaaren, die stark “aus dem Rahmen fallen“. Ein einziger solcher Datenpunkt kann den Wert von r stark verändern: 412 > x <- c(1,2.1,3,4,5.5,6.6,6.3,200) > y <- c(0,10,11,45,46,47,80,0) > cor(x,y) [1] -0.394641 Hier wurde durch den einen zusätzlichen Punkt (200, 0) eine positive zu einer negativen Korrelation. Da in der empirischen Forschung oft Daten erzeugt und analysiert werden, die Ausreißer enthalten, ist der Pearson Korrelationskoeffizient oft ein ungeeignetes Maß für den Zusammenhang von zwei Variablen. 413 5.3 Der Korrelationskoeffizient nach Spearman Die nicht-parametrische Alternative ist der Korrelationskoeffizient nach Spearman. Wie bei den nicht-parametrischen Tests wird er aus den Rängen der Variablenwerten berechnet: Sei Rang:Xi 7−→ rXi und Rang:Yi 7−→ rYi die Abbildung, die X1, . . . , Xn bzw, Y1, . . . , Yn ihre Ränge zuordnet. Der Spearman Korrelationskoeffizient ρ ist dann der Pearson Korrelationskoeffizient der rangtransformierten Stichprobe (rX1 , rY1 ), . . . , (rXn , rYn ). 414 Für die Berechnung des Spearman Korrelationskoeffizienten müssen die ursprünglichen Daten also zunächst in Ränge transformiert werden. Beispiel: > > > > > x <- c(1,2.1,3,4,5.5,6.6,6.3,200) y <- c(0,10,11,45,46,47,80,0) r_x <- rank(x) r_y <- rank(y) r_x [1] 1 2 3 4 5 7 6 8 > r_y [1] 1.5 3.0 4.0 5.0 6.0 7.0 8.0 1.5 415 > cor(r_x,r_y) [1] 0.3952167 > cor(x,y,method="spearman") [1] 0.3952167 Die Auswirkung eines Ausreißers auf den Spearman Korrelationskoeffizienten ist nicht ganz so gravierend wie auf den von Pearson: > #ohne Ausreißer: > x <- c(1,2.1,3,4,5.5,6.6,6.3); y <- c(0,10,11,45,46,47,80) > cor(x,y, method="pearson") [1] 0.8960473 > cor(x,y, method="spearman") [1] 0.9642857 416 > #mit Ausreißer: > x <- c(1,2.1,3,4,5.5,6.6,6.3,200); y <- c(0,10,11,45,46,47,80,0) > cor(x,y, method="pearson") [1] -0.394641 > cor(x,y, method="spearman") [1] 0.3952167 417 • Beide Korrelationskoeffizienten beschreiben den Zusammenhang von zwei Zufallsvariablen. Ein |r| ≥ 0.9 gilt als hohe und |r| ≤ 0.5 als mäßige oder schlechte Korrelation. Gilt r = 0, dann sind die Variablen unkorreliert. • Ist der Korrelationskoeffizient positiv, dann ist der Zusammenhang gleichsinnig, d.h. wenn die eine Variable einen großen Wert annimmt, dann wird auch die andere einen großen Wert annehmen. Bei einem negativen Korrelationskoeffizienten verhalten sich die beiden Variablen gegensinnig. Nimmt die eine Variable große Werte an, dann nimmt die andere mit hoher Wahrscheinlichkeit kleine Werte an. • Sind X und Y negativ korreliert, dann sind X und −Y positiv korreliert. 418 6. Regressionsanalyse 6.1 Die Modellgleichung der einfachen Regressionsanalyse Bisher bestanden unsere Stichproben aus Daten, die durch unabhängige Zufallsvariablen Y1, . . . , Yn aus der gleichen Verteilung beschrieben wurden. Insbesondere wurde angenommen, dass alle Yi gleichen Erwartungswert haben. Von dieser Voraussetzung soll nun abgegangen werden. Wir nehmen an, dass Yi = a + bXi + i i = 1, . . . , n gilt. Die 1, . . . , n seien unabhängig und normalverteilt mit Erwartungswert 0 und Varianz σ 2. 419 Die X1, . . . , Xn seien keine Zufallsvariablen, sondern bekannte feste Werte. Die Erwartungswerte der Yi hängen dann wegen E(Yi) = a + bXi i = 1, . . . , n deterministisch von den Werten Xi ab. Beispiel: Es soll der Zusammenhang zwischen Dosisstufen eines Antibiotikums und der Anzahl von Keimen in einem Nährmedium untersucht werden. Die Dosisstufen (Xi) des Antibiotikums werden vom Experimentator vorgegeben. Die Anzahl der Keime (Yi) wird gemessen. Die Dosierung ist deshalb nicht zufällig, die Anzahl der Keime jedoch schon. 420 ProbNr. 1 2 3 4 5 6 7 8 9 10 Dosis (µg/ml): X 0.01 0.02 0.03 0.04 0.05 0.06 0.07 0.08 0.09 0.1 log10(Anzahl Keime/ml): Y 9.7 8.4 6.4 6.9 4.6 4.1 3.0 3.9 0.9 -0.5 Eine graphische Darstellung (Streudiagramm) legt einen Zusammenhang zwischen der Dosierung und der Keimanzahl nahe: 421 > > > + + Dosis <- seq(0.01,0.1,0.01) AnzKeime <- c(9.7, 8.4, 6.4, 6.9, 4.6, 4.1, 3.0, 3.9, 0.9, -0.5) plot(x=Dosis,y=AnzKeime, xlab=expression(paste("Dosis [",mu,"g/ml]")), ylab=expression(paste(log[10],"(Anzahl Keime)"))) 422 10 ● 8 ● 6 ● ● 4 ● ● 2 ● ● 0 log10(Anzahl Keime) ● ● 423 0.02 0.04 0.06 Dosis [µg/ml] 0.08 0.10 Auch die Korrelationskoeffizienten nach Pearson und Spearman legen einen engen Zusammenhang zwischen Dosierung und Keimanzahl nahe: > cor(Dosis, AnzKeime) [1] -0.9710604 > cor(Dosis, AnzKeime, method="spearman") [1] -0.9757576 424 Eine weitere Beobachtung am Streudigramm ist, dass die Punkte nahe an einer Geraden liegen. Das legt die Vermutung nahe, dass die Voraussetzungen der linearen Regressionsanalyse erfüllt sind: log10 (AnzKeime)i = a + b ∗ Dosisi + i i = 1, . . . , 10 mit unabhängigen i ∼ N (0, σ 2). Die Größen a, b und σ 2 sind feste aber unbekannte reelle Zahlen. Sie heißen die Modellparameter der Regressionsgleichung. Die Geradenparameter a und b beschreiben das lineare “Gesetz“, das einem erlaubt, aus einer Dosierung des Antibiotikums auf die erwartete logarithmierte Keimanzahl zu schließen. Die Varianz σ 2 kann als Maß für die Güte des Modells angesehen werden. Je kleiner σ 2 ist, umso besser kann aus der Dosierung die Keimanzahl ausgerechnet werden. 425 6.2 Die Kleinste-Quadrate-Schätzung der Modellparameter Da die Modellparameter a, b und σ 2 unbekannt sind, müssen sie aus den Daten (Stichprobe) geschätzt werden. Die wichtigste Strategie zur Bestimmung von Schätzern von a und b ist die Methode der kleinsten Quadrate. Die Idee ist, aus allen Geraden der Ebene diejenige auszuwählen, die am besten die Abhängigkeit der Y- von den X-Werten wiedergibt. 426 Kleinstquadrateschätzung: Seien (x1, y1), . . . , (xn, yn) ∈ IR2 Paare reeller Zahlen. Für jede Gerade in der Ebene La,b : y = a + bx ist die Summe der Quadrate der vertikalen Abstände der Punkte zur Gerade durch S(a, b) := n X (yi − a − bxi)2 i=1 gegeben. Die Kleinstquadrateschätzung ist das Parameterpaar (â, b̂), für das S minimal wird. Da S(a, b) selbst ist eine auf IR2 definierte Funktion ist, kann das Minimum (â, b̂) mit Hilfsmitteln aus der Analysis bestimmt werden. 427 Ein wichtiges Resultat der höherdimensionalen Analysis besagt, dass unter gewissen Voraussetzungen an die mehrdimensionale Funktion die ersten Ableitungen an Maxima und Minima verschwinden. Für die Funktion S können die partiellen Ableitungen leicht bestimmt werden: n X ∂S = −2 (yi − a − bxi) ∂a ∂S = −2 ∂b i=1 n X xi(yi − a − bxi) i=1 428 Daraus folgen sofort die notwendige Bedingung n X (yi − â − b̂xi) = 0 (1) xi(yi − â − b̂xi) = 0 (2) i=1 n X i=1 an ein Minimum (â, b̂) von S. Aus (1) folgt nȳ − nâ − nb̂x̄ = 0 und damit â = ȳ − b̂x̄ (3) 429 Zieht man von Gleichung (2) das x̄ fache von Gleichung (1) ab und setzt anschließend (3) ein, folgt: 0 = = n X i=1 n X i=1 = = n X i=1 n X xi(yi − â − b̂xi) = xi(yi − â − b̂xi) − x̄ n X (yi − â − b̂xi) = |i=1 {z =0 (1) } (xi − x̄)(yi − â − b̂xi) = (xi − x̄)(yi − ȳ + b̂x̄ − b̂xi) = i=1 430 = n X (xi − x̄)(yi − ȳ − b̂(xi − x̄)) = i=1 = (n − 1)sxy − b̂(n − 1)sxx s xy Daraus folgt b̂ = sxx . sxx und sxy heißen die empirische Varianz von x bzw. Kovarianz von x mit y. Sie sind folgendermaßen definiert: n 1X x̄ = xi n (4) 1 ȳ = n (5) i=1 n X yi i=1 n 1 X sxx = (xi − x̄)2 n−1 (6) 1 sxy = n−1 (7) i=1 n X (xi − x̄)(yi − ȳ) i=1 Die Funktion S hat nur den einen Extrempunkt (â, b̂) bei sxy b̂ = und â = ȳ − b̂x̄. sxx 431 Bemerkung: S(a, b) ist die Summe der Quadrate der vertikalen Abstände der Punkte zur Geraden L : y = a + bx. Die Variablen X und Y sind deshalb nicht austauschbar! Oft wird die X Variable als unabhängige und die Y Variable als abhängige Variable bezeichnet. Das spiegelt die Situation der linearen Regressionsanalyse wider, in der davon ausgegangen wird, dass die X-Werte bekannt, oft vom Experimentator vorgegeben, sind. Bemerkung: Die spezielle Wahl der Funktion S(a, b) ist die üblichste, aber nicht die einzige Möglichkeit. So kann es z.B. durchaus sinnvoll sein, statt der Summe der Abweichungsquadrate die Summe der Beträge der vertikalen Abweichungen zu betrachten. Auch die Quadratsumme der Abstände wäre eine mögliche Wahl für S. Jede Wahl für S führt zu einem anderen Optimierungsproblem und damit auch zu einer anderen Regeressionsgeraden. 432 Für das Beispiel, das die Abhängigkeit der Keimanzahl von der Dosierung des Antibiotikums untersucht erhält man: > > > > > > > Dosis <- seq(0.01,0.1,0.01) AnzKeime <- c(9.7, 8.4, 6.4, 6.9, 4.6, 4.1, 3.0, 3.9, 0.9, -0.5) s_xx <- var(Dosis) s_xy <- cov(Dosis, AnzKeime) b <- s_xy/s_xx a <- mean(AnzKeime) - b*mean(Dosis) a; b [1] 10.37333 [1] -102.4242 433 In R können lineare Regressionsmodelle bequem mit der Funktion lm berechnet werden: > lm(AnzKeime~Dosis) Call: lm(formula = AnzKeime ~ Dosis) Coefficients: (Intercept) 10.37 Dosis -102.42 434 Der Graph der Geraden y = â + b̂x wird oft zusammen mit den Punkten (xi, yi), gramm eingezeichnet. i = 1, . . . , n in ein Streudia- 435 10 > plot(x=Dosis,y=AnzKeime) > abline(a=a,b=b) ● 8 ● ● ● 4 ● ● 2 ● ● 0 AnzKeime 6 ● ● 0.02 0.04 0.06 0.08 0.10 Dosis 436 6.3 Der t-Test für die Geradensteigung b Man darf nie außer Acht lassen, dass â und b̂ Schätzungen der Geradenparameter a und b sind. Insbesondere bei kleinem Stichprobenumfang n können sie stark von den tatsächlichen Parametern a und b abweichen. Besonders interessant ist der Fall b = 0. In diesem Fall gilt yi = a + i i = 1, . . . , n mit unabhängigen i ∼ N (0, σ 2). Die Erwartungswerte aller yi sind in diesem Fall a und sie hängen also nicht mehr von den xi ab. Dieser Fall besagt, dass die y-Werte unabhängig von den x-Werten sind. 437 Gesucht ist somit ein Test der Nullhypothese H0 : b = 0. Kann diese H0 abgelehnt werden, dann ist statistisch nachgewiesen, dass die Erwartungswerte E(yi) von den xi abhängen. Um eine geeignete Teststatistik der Hypothese b = 0 aufstellen zu können, muss zunächst σ 2, der dritte unbekannte Parameter der Regressionsgleichung, geschätzt werden. σ 2 ist die Varianz der Fehlerterme i und steuert die Streuung der y-Werte um ihren Erwartungswert. 438 Die vertikalen Abstände der Punkte zur Gerade y = â + b̂x heißen die Residuen ri der Regressionsgleichung: ri = yi − â − b̂xi Die Größen yˆi = â + b̂xi, gesagten Werte. i = 1, . . . , n sind die durch die Regression vorher- Die Residuen ri sind wiederum Schätzer für die unbekannten Fehlerterme i. 439 Man kann zeigen, dass die unbekannte Varianz σ 2 der Fehlerterme i durch n n X X 1 1 σˆ2 = ri2 = (yi − â − b̂xi)2 n−2 n−2 i=1 i=1 1 begründet sich darin, dass die Schätzungeschätzt werden kann. Der Vorfaktor n−2 Pn gen â und b̂ der beiden Modellparameter in der Quadratsumme i=1 ri2 enthalten 1 notwendig ist, um einen erwartungssind. Man kann zeigen, dass der Faktor n−2 treuen Schätzer für σ 2 zu erhalten. Es gilt E(b̂) = b (8) b̂ ist damit ein erwartungstreuer Schätzer von b. Aus E(yi) = a + bxi i = 1, . . . , n folgt E(ȳ) = a + bx̄ und damit E(yi − ȳ) = b(xi − x̄) Damit folgt Gleichung (8) aus (9) 440 E(b̂) = E = sxy sxx = 1 E sxx(n − 1) n X ! (xi − x̄)(yi − ȳ) = i=1 n X 1 (xi − x̄) E(y − ȳ)} = = i{z | sxx(n − 1) b = sxx(n − 1) i=1 n X =b(xi −x̄) (9) (xi − x̄)2 = i=1 = b Ist H0 : b = 0 wahr, dann bedeutet das insbesondere, dass b̂ eine normalverteilte Zufallsvariable mit Erwartungswert 0 ist. Die Varianz von b̂ kann ähnlich ausgerechnet werden: 441 Var(b̂) = Var sxy sxx = n X 1 = 2 Var( (xi − x̄)(yi − ȳ)) = 2 sxx(n − 1) 1 = 2 Var( 2 sxx(n − 1) i=0 n X (xi − x̄)yi − ȳ i=0 n X (xi − x̄)) = |i=0 {z =0 } n X 1 2 2= = 2 σ (x − x̄) i sxx(n − 1)2 i=0 σ2 = sxx(n − 1) Damit kann die Zufallsvariable b̂ zu einer standardnormalverteilten Zufallsvariable 442 Z=r standardisiert werden. b̂ σ2 sxx (n−1) b̂ =q σ2 sxx √ n−1 Ersetzt man schließlich den unbekannten Parameter σ 2 durch den bekannten Schätzer σˆ2, dann erhält man mit b̂ T =q σˆ2 sxx √ n−1 eine Teststatistik, die unter H0 t-verteilt mit n − 2 Freiheitsgraden ist. 443 Für unser Beispiel erhalten wir: > > > > > sigma2 <- 1/8*sum((AnzKeime-a-b*Dosis)^2) SE <- sqrt(sigma2/sum((Dosis-mean(Dosis))^2)) T <- b/SE P <- 2*pt(-abs(T), df=8) T; P [1] -11.49993 [1] 2.963368e-06 444 Direkt mit lm erhält man das gleiche Ergebnis: > summary(lm(AnzKeime~Dosis)) Call: lm(formula = AnzKeime ~ Dosis) Residuals: Min 1Q Median -0.9006 -0.5370 -0.1658 3Q 0.2820 Max 1.7206 Coefficients: Estimate Std. Error t value Pr(>|t|) (Intercept) 10.3733 0.5526 18.77 6.70e-08 *** 445 Dosis -102.4242 8.9065 -11.50 2.96e-06 *** --Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1 Residual standard error: 0.809 on 8 degrees of freedom Multiple R-squared: 0.943, Adjusted R-squared: F-statistic: 132.2 on 1 and 8 DF, p-value: 2.963e-06 0.9358 Wiederholung der wichtigsten in der Vorlesung besprochenen Themen. • Kenntnis wichtiger Lageparameter wie arithmetischer Mittelwert, empirische Varianz, Standardabweichung, Median und das allgemeine α ∗ 100% Perzentil (1.1, S. 10 ff). • Die wichtigsten Diagrammtypen: Histogramm, Balkendiagramm, Boxplot (Was bedeutet die Box, die Antennen und die Ausreißer?) und Streudiagramm (1.1.2. S. 21 ff) 446 • Begründung, warum man schließende Statistik braucht. Gesetz der großen Zahlen. • Elementare Wahrscheinlichkeitsrechnung (2., S. 43 ff): Endlicher Wahrscheinlichkeitsraum, Elementarereignis, Ereignis und wichtige Rechenregeln für Ereignisse (S. 46). • Explizite Angabe des Wahrscheinlichkeitsraums und Anwendung der Rechenregeln für einfache Beispiele (2.2 S. 49 ff) 447 • Definition und Anwendung des Binomialkoeffizenten auf die Berechnung von Wahrscheinlichkeiten im Lotto “6 aus 49“ (S. 56). • Definition des Laplaceraums (S. 62). • Wahrscheinlichkeitstheoretische Modelle in der Genetik: Mendelscher Erbgang (dominant, rezessiv, Genotyp und Phänotyp, S. 64 ff). 448 • Hardy-Weinberg Bedingung und Gesetz. Was muss erfüllt sein, damit sich eine Population im Hardy-Weinberg Gleichgewicht befindet? Wie muss dann die Verteilung der Genotypen sein (S. 70-72)? • Mendelregeln (S. 74 ff) 449 • Unabhängige Ereignisse. Einfache Beispiele für abhängige und unabhängige Ereignisse (S. 77 ff). • Bedingte Wahrscheinlichkeiten (S. 84). Zusammenhang zwischen bedingten Wahrscheinlichkeiten und unabhängigen Ereignissen (S. 85). Berechnung von bedingten Wahrscheinlichkeiten in einfachen Wahrscheinlichkeitsräumen (S. 87). • Zusammenhang von P(A|B) mit P(B|A): Die Formel von Bayes (S. 91). Herleitung der Formel von Bayes (S. 88 ff). 450 • Anwendung der Bayes Formel in der medizinischen Diagnostik. Definition der Begriffe Sensitivität, Spezifität, Prävalenz, positiver und negativer prädiktiver Wert (S. 93 ff). • Welchen Einfluss haben hohe bzw. niedrige Werte von Prävalenz, Sensitivität und Spezifität auf die prädiktiven Werte (S. 105 ff)? 451 • Die Binomialverteilung (S. 108 ff). • Anwendung der Binomialverteilung (Münzwurf, Heilungen in der Medizin,...). Man sollte erkennen, in welchen Situationen eine Modellierung mit der Binomialverteilung sinnvoll ist. • Implementierung der Binomialverteilung in R (dbinom, pbinom, qbinom und rbinom S. 119 ff). 452 • Abzählbar unendliche Wahrscheinlichkeitsräume (S. 123 ff) • Die Poissonverteilung (S.126 ff). • Implementation der Poissonverteilung in R (dpois, ppois, qpois und rpois) (S. 127). • Zusammenhang der Binomialverteilung mit der Poissonverteilung: Der Poissonsche Grenzwertsatz (S. 132). • Anwendung der Poissonverteilung auf die Modellierung von Ereignishäufigkeiten. Begründung durch den Poissonschen Grenzwertsatz (Beispiele S. 134 ff, Unfallhäufigkeit und DNA-Sequenzanalyse). 453 • Geometrische Verteilung (S. 138 ff). • Der überabzählbare Wahrscheinlichkeitsraum IR (S. 141). • Definition von Wahrscheinlichkeitsräumen durch Wahrscheinlichkeitsdichten. (S. 145). • Berechnung von Wahrscheinlichkeiten durch Integration über die Wahrscheinlichkeitsdichte (S. 147). • Zusammenhang zwischen Wahrscheinlichkeitsdichte und Wahrscheinlichkeitsverteilung (kumulative Verteilungsfunktion) (S. 152). 454 • Die Standardnormalverteilung, allgemeine Normalverteilung (S. 149 ff). • Die Gleichverteilung (S. 161 ff). • Zusammenfassung der wichtigsten Verteilungen (S. 169 ff). Man sollte wissen, wie man die Definitionen der Verteilungen benutzt, um Wahrscheinlichkeiten für beliebige Ereignisse auszurechnen. 455 • Zufallsvariablen (S. 156). • Erwartungswert und Varianz von Zufallsvariablen (S.174) 456 • Unabhängigkeit von Zufallsvariablen (S. 182 ff). • Wichtige Rechenregeln für Zufallsvariablen, insbesondere wenn sie unabhängig sind (S. 186 ff). • Erwartungswert und Varianz von wichtigen Verteilungen (S. 170-172). Insbesondere für die Binomialverteilung, Poissonverteilung und Normalverteilung sollte man Erwartungswert und Varianz kennen (S. 188 ff). • Die Standardisierung einer Zufallsvariable. Definition? Welche Voraussetzungen müssen erfüllt sein, damit die Standardisierung möglich ist? (S. 191 ff) 457 • Der statistische Hypothesentest am Beispiel des Binomialtests (S.193). • Durchführung des Binomialtests: Aufstellen der Nullhypothese, Festlegung des Signifikanzniveaus, Berechnung des Ablehnungsbereichs und Verwerfen oder Beibehaltung der Nullhypothese (S. 208 ff). • Berechnung des P-Werts für den Binomialtest. • Einseitiges und zweiseitiges Testen. 458 • Die Power eines statistischen Tests (S. 230). • Abhängigkeit der Power vom Signifikanzniveau, der Fallzahl, der Nullhypothese und der speziellen Alternative (S. 237). • Fehler 1. und 2. Art (S. 244 ff). • Ein Beispiel für eine Poweranalyse (S. 246 ff). 459 • Der Z-Test. Voraussetzungen, Nullhypothese, Teststatistik und Berechnung des P-Werts (S. 259 ff). • Der Zentrale Grenzwertsatz (S. 265 ff) • Der Zentrale Grenzwertsatz für eine binomial verteilte Zufallsvariable (S. 271 ff). • Praktische Anwendung des Zentralen Grenzwertsatzes (S. 272 ff). 460 • Vom Z-Test zum t-Test: Ersatz der unbekannten Varianz durch die empirische Varianz. Übergang von der Standardnormalverteilung zur t-Verteilung (S. 304 ff). • Der t-Test für eine Stichprobe (S. 304 ff). • Der Zweistichproben t-Test (S. 321 ff): gepoolte Varianz, Freiheitsgrade der t-Statistik. • P-Wert des t-Tests für ein- und zweiseitiges Testen (S. 330 ff). 461 • Nichtparametrische Tests. Welche Voraussetzungen des t-Tests können entfallen? Welche Voraussetzungen müssen gemacht werden? (S. 339 ff) • Der Vorzeichen Test (S. 341 ff). • Test nach McNemar (S. 349 ff): Anwendung des Vorzeichnetest auf dichotome gepaarte Daten (verbundene Stichproben). • Vorzeichen-Rang-Test nach Wilcoxon (S. 352 ff). Voraussetzungen? Durchführung? 462 • Mann-Whitney-U Test: Nicht-parametrischer Test für zwei unverbundene Stichproben. Nullhypothese, Alternative und Voraussetzungen. Durchführung (S. 363 ff). • Die Implementierung wilcox.test des Vorzeichen-Rang-Tests nach Wilcoxon und des Mann-Whitney-U Tests in R (S. 372 ff). • Der χ2-Test für Vierfeldertafeln (S. 376). Nullhypothese, Alternative und Teststatistik (erwartete und beobachtete Häufigkeiten). • Der χ2-Test in R (chsiq.test). 463 • Konfidenzintervalle für normalverteilte Daten (S. 392 ff). • Abhängigkeit des Konfidenzintervalls von der Streuung, der Sicherheit ((1 − α) ∗ 100%) und der Fallzahl (S.399). 464