Statistik 1, WiSe 08/09, Martus Teil A Wahrscheinlichkeitsrechnung 1 Wahrscheinlichkeitsraum und Wahrscheinlichkeitsverteilung Dieses Kapitel behandelt die grundlegenden Begriffe der Wahrscheinlichkeitsrechnung, elementare Beispiele sowie die Berechnung von Wahrscheinlichkeiten mit kombinatorischen Methoden. Ergänzende Informationen finden Sie in Kapitel 1, Abschnitt 1.1 bis 1.4 im Buch von Bosch. 1.1 Vorbemerkung (Wahrscheinlichkeitsrechnung und Statistik) Die Wahrscheinlichkeitsrechnung erlaubt es, Phänomene zu beschreiben, die durch den Zufall gesteuert sind. Der zugrunde liegende Zufallsmechanismus wird dabei als bekannt vorausgesetzt. In der Statistik versucht man dagegen, aufgrund von Beobachtungen auf den zugrunde liegenden Zufallsmechanismus zurückzuschließen. 1.2 Beispiel (Einmaliger Münzwurf) Eine unverfälschte Münze wird einmal geworfen. Die Wahrscheinlichkeit für „Kopf“ oder „Zahl“ liegt bei jeweils 1/2. Wenn die Münze verfälscht ist, schreiben wir allgemein P(Kopf) = p, P(Zahl) = 1-p. 1.3 Beispiel (Einmaliges Würfeln) Ein unverfälschter Würfel wird einmal geworfen. Die Wahrscheinlichkeit für jede Augenzahl von 1 bis 6 ist dann jeweils 1/6. Wenn der Würfel verfälscht ist, wird der Zufallsmechanismus durch 5 Wahrscheinlichkeiten P(1), P(2), ..., P(5) festgelegt, die sechste ergibt sich durch die Bedingung P(1) + P(2) + ... + P(6) = 1. 1.4 Beispiel (Zweimaliges Würfeln) Ein unverfälschter Würfel wird zweimal geworfen. Die möglichen Versuchsergebnisse sind also die 36 Paare (1,1), (1,2), ..., (6,6). Die Wahrscheinlichkeit P(i,j) ist für festes i,j = 1/36 (i,j = 1,...,6). Wenn die Reihenfolge egal ist, gibt es 21 mögliche Ausgänge. Diese sind nicht gleich wahrscheinlich: P(i,i) = 1/36 und P(i,j) = 1/18 für i ≠ j. 1.5 Definition (Zufallsexperiment, endlicher Wahrscheinlichkeitsraum und -verteilung) Ein Experiment, bei dem man den Ausgang vorher nicht festlegen kann wird als Zufallsexperiment bezeichnet. Münzwurf und Würfeln sind also Zufallsexperimente. Das mathematische Objekt, mit dem Zufallsexperimente beschrieben werden ist der Wahrscheinlichkeitsraum. 1 Statistik 1, WiSe 08/09, Martus Eine endliche Menge Ω = {ω1, ω2,... ωm} zusammen mit einer Funktion P, für die gilt P(ωi) ≥ 0 für i = 1,...,m und ∑ P(ω i ) = 1 m i =1 bezeichnen wir als endlichen Wahrscheinlichkeitsraum. Einelementige Teilmengen von Ω heißen Elementarereignisse, beliebige Teilmengen heißen Ereignisse. Die Funktion P heißt Wahrscheinlichkeitsverteilung. Die Funktion P wird für beliebige Ereignisse A durch die Definition P ( A) = ∑ω ∈A P (ω ) auf die Potenzmenge von Ω fortgesetzt. Für die leere Menge setzen wir P(∅) = 0. Manchmal bezeichnet man nicht nur das Paar (Ω,P) sondern die Komponente Ω alleine als Wahrscheinlichkeitsraum. Wir werden immer vom Raum Ω und vom Wahrscheinlichkeitsraum (Ω,P) sprechen. Die Zuordnung eines Wahrscheinlichkeitsraums zu einem Zufallsexperiment wird als Modellierung bezeichnet. 1.6 Definition (Laplaceraum) Ein endlicher Wahrscheinlichkeitsraum Ω = {ω1, ω2,... ωm} mit P(ωi) = 1/m für i = 1,...,m heißt Laplaceraum. Bei bekanntem m können die Wahrscheinlichkeiten direkt angegeben werden (einmaliger Münzwurf, einmaliges Würfeln). Bei komplizierterem Ω kann m in vielen Fällen mit kombinatorischen Methoden berechnet werden. 1.7 Beispiel (Lotto ohne Zusatzzahl, sechs richtige) Beim Zahlenlotto werden aus einer Urne mit 49 Kugeln sechs Kugeln ohne Zurücklegen gezogen. Die Wahrscheinlichkeit für sechs richtige ergibt sich als 1 ⎛ 49 ⎞ ⎜ ⎟ ⎝6⎠ wobei allgemein 2 Statistik 1, WiSe 08/09, Martus ⎛n⎞ n! ⎜ ⎟= ⎝ k ⎠ k!( n − k )! und n! = n•(n-1) •...•2•1 definiert wird. 1.8 Übungsaufgabe (Lotto ohne Zusatzzahl, drei richtige) Berechnen Sie die Wahrscheinlichkeit, genau drei richtige zu ziehen (Formel und Implementierung in R). 1.9 Anwendungsbeispiel (Mendelgesetze) Ein Gen hat nur die Allele A und a, A ist dominant. In einem Kreuzungsexperiment werden Individuen mit Genotyp (A,A) und Genotyp (a,a) gekreuzt. In der ersten (F1-) Generation werden nur Nachkommen mit Genotyp (A,a) entstehen. Diese haben alle Phänotyp A. Werden die Individuen der F1-Generation miteinander gekreuzt entsteht die F2-Generation. 1.10 Übungsaufgabe (Häufigkeiten in der F2-Generation) Bestimmen Sie die Wahrscheinlichkeit, dass ein zufällig aus der F2-Generation ausgewähltes Individuum Phänotyp a besitzt. 1.11 Übungsaufgabe (Hardy Weinberg Gesetz) Ein Gen kommt in einer Population mit zwei Allelen, A und a, mit den relativen Häufigkeiten p und q:=1-p vor. Mit welchen Häufigkeiten treten bei zufälliger Durchmischung die Genotypen AA, Aa, aa auf? 1.12 Hinweis (Unendliche Wahrscheinlichkeitsräume) Wahrscheinlichkeiten lassen sich auch für Wahrscheinlichkeitsräume mit unendlich vielen Elementarereignissen definieren. Beispiele wären Wahrscheinlichkeiten für Anzahlen (z.B. Zahl der Lebewesen einer Population) oder Messwerte (Intensitätsmessungen bei Genexpressionsanalysen), die zumindest theoretisch unendlich viele Werte annehmen können. Man unterscheidet zwischen abzählbar und überabzählbar unendlichen Mengen: Für abzählbares Ω lässt sich 1.5 direkt übertragen. Für alle Teilmengen von Ω lässt sich P(A) durch Aufsummieren berechnen (ggf. als unendliche Reihe). Für überabzählbares Ω gibt es im allgemeinen drei Abweichungen zur Definition 1.5: (1) (2) (3) Es existieren Teilmengen, denen man keine Wahrscheinlichkeiten zuordnen kann Die Einzelwahrscheinlichkeiten P(ω) sind gleich null Die Wahrscheinlichkeiten für Teilmengen werden durch Integrale berechnet. 3 Statistik 1, WiSe 08/09, Martus 1.13 Beispiel (Gleichverteilung von Zufallszahlen) Zumindest theoretisch kann man durch ein Zufallsexperiment eine Zahl aus dem Intervall [0,1] so auswählen, dass jedes Intervall der Länge d (0 ≤ d ≤ 1) die Wahrscheinlichkeit d erhält. Offenbar hat jede einzelne Zahl die Wahrscheinlichkeit 0. Die Menge aller rationalen Zahlen hat unendlich viele Elemente aber Wahrscheinlichkeit 0. 1.14* Ausblick (Spezielle Teilmengen von [0,1]) Es gibt überabzählbare Mengen mit Wahrscheinlichkeit 0 (Cantor-Menge) und Mengen, denen keine Wahrscheinlichkeit widerspruchsfrei zugeordnet werden kann (Vitali-Mengen). Recht verständliche Darstellungen sind z.B. in Wikipedia zu finden. 1.15 Die Kolmogoroff Axiome Allgemeine Wahrscheinlichkeitsräume kann man also nicht einfach über Elementarereignisse definieren. Die allgemeine Definition erfolgt durch die Axiome von Kolmogoroff: Eine Menge Ω = {ω1, ω2,.. } zusammen mit einer Funktion P, die für eine Teilmenge Α der Potenzmenge Π von Ω definiert ist: P(A) ≥ 0 für A ∈Α P(Ω) = 1 für A∩B = ∅ P(A∪B) = P(A) + P(B) Die letzte Bedingung gilt auch für Summen mit mehr als zwei Summanden, insbesondere auch für abzählbar unendlich viele paarweise disjunkte Mengen. Aus der Summe wird dann analog zu 1.5 eine unendliche Reihe. Wir werden im Folgenden immer voraussetzen, dass den betrachteten Mengen A, B etc. Wahrscheinlichkeiten zugeordnet werden können. 1.16 Direkte Folgerungen aus den Axiomen von Kolmogoroff P(Ac) = 1-P(A) P(∅) = 0. A ⊆ B ⇒ P(A) ≤ P(B) P(B\A) = P(B) - P(A ∩ B) (Ac bezeichnet das Komplement von A in Ω) (B\A umfasst alle Elemente von B, die nicht in A liegen) Literatur für dieses Kapitel Bosch, Karl. Elementare Einführung in die Wahrscheinlichkeitsrechnung, Vieweg Verlag, 9.Auflage 2006. (19.90 €). 4 Statistik 1, WiSe 08/09, Martus 2. Unabhängigkeit, Bedingte Wahrscheinlichkeit und die Bayes-Formel Dieses Kapitel behandelt die Begriffe der Unabhängigkeit von Ereignissen und der bedingten Wahrscheinlichkeit. Zwei Zufallsexperimente sind unabhängig, wenn das Ergebnis des einen Experiments keine Prognose für das Ergebnis des zweiten Experiments erlaubt. Zwei Ereignisse desselben Zufallsexperiments sind unabhängig, wenn das Auftreten des einen Ereignisses keinen Rückschluss darauf zulässt, ob das andere Ereignis aufgetreten ist. Wenn es aber Abhängigkeiten zwischen Zufallsexperimenten oder Ereignissen gibt, können diese durch bedingte Wahrscheinlichkeiten quantifiziert werden. Die Bayes Formel erlaubt das Vertauschen des zuerst eingetretenen und des prognostizierten Ereignisses. Ein wichtiges Anwendungsbeispiel ist die Bewertung diagnostischer Tests. Ergänzende Informationen finden Sie in Kapitel 1, Abschnitt 1.8 sowie im Buch von Harms , Kapitel 3, Abschnitt 3.4. 2.1 Definition (Unabhängigkeit von Ereignissen) Zwei Ereignisse A und B heißen unabhängig, wenn gilt P(A∩B) = P(A)•P(B) 2.2 Beispiel (zweifaches Würfeln) Beim zweifachen Würfeln bezeichne A ein Ereignis, das nur den ersten Wurf betrifft (z.B. Augenzahl des ersten Wurfs = 6) und B ein Ereignis, das nur den zweiten Wurf betrifft (z.B. Augenzahl des zweiten Wurfs = 6). Offenbar gilt für unverfälschte Würfel P(A) = 1/6, P(B) = 1/6 und P(A∩B) = 1/36. 2.3* Ausblick (Produkträume) Formal ist der in der Einleitung zu Kapitel 2 beschriebene Unterschied zwischen Ereignissen desselben oder unterschiedlicher Zufallsexperimente irrelevant. Man kann zwei Zufallsexperimente mit Räumen Ω1 und Ω2 als ein Experiment mit Raum Ω1 X Ω2 (kartesisches Produkt) auffassen. Man legt zunächst fest: P(A X Ω2) • P(Ω1 X B) = P(A) • P(B) (Die ersten beiden Symbole P beziehen sich auf die neue Wahrscheinlichkeitsverteilung in Ω1 X Ω2 , das dritte auf die Verteilung in Ω1 und das vierte auf die Verteilung in Ω2) Mit dieser Festlegung kennt man noch nicht die Wahrscheinlichkeiten der Mengen A X B für beliebiges A und B. Wenn man diese aber kennt, kann man die Wahrscheinlichkeiten für beliebige Mengen herleiten. Wenn immer gilt P(A X B) = P(A X Ω2) • P(Ω1 X B) (= P(A) • P(B)) sind die beiden Experimente unabhängig. 5 Statistik 1, WiSe 08/09, Martus 2.4 Definition (Bedingte Wahrscheinlichkeit) Für zwei Ereignisse A und B mit P(B) > 0 heißt P( A | B) = P( A ∩ B ) P( B) die bedingte Wahrscheinlichkeit von A unter der Bedingung B und wird mit P(A|B) bezeichnet. Man sagt auch kurz P von A unter der Bedingung B. Für P(B) = 0 definiert man i.a. keine bedingten Wahrscheinlichkeiten. 2.5 Direkte Folgerungen aus der Definition der Unabhängigkeit Die leere Menge und Ω sind von allen Ereignissen unabhängig. Mit A und B sind auch die Paare (A,Bc), (Ac,B) und (Ac,Bc) unabhängig. Zwei Ereignisse sind genau dann unabhängig, wenn P(A|B) = P(A) Die letzte Folgerung rechtfertigt die mathematische Definition der Unabhängigkeit inhaltlich. Die Äquivalenz gilt natürlich nur für P(B) > 0, da sonst P(A|B) nicht definiert ist. 2.6 Beispiel (Würfeln) Die Ereignisse „gerade Augenzahl“ und „Augenzahl unter 3“ sind unabhängig. Die Ereignisse „gerade Augenzahl“ und „Augenzahl unter 4“ sind dagegen abhängig. 2.7 Satz (Totale Wahrscheinlichkeit) Stellt man die Definition der bedingten Wahrscheinlichkeit um, erhält man P(A∩B) = P(A|B)•P(B). Zusammen mit P(A) = P(A∩B) + P(A∩Bc) ergibt sich der Satz von der Totalen Wahrscheinlichkeit P(A) = P(A∩B) + P(A∩Bc) = P(A|B)•P(B) + P(A|Bc)•P(Bc). 6 Statistik 1, WiSe 08/09, Martus 2.8 Satz (Bayes Formel) Durch Einsetzen in die Formel der bedingten Wahrscheinlichkeit erhält man die berühmte Formel von Bayes: P (B | A) = P ( A | B) • P ( B) ( ) ( ) P ( A | B ) • P ( B ) + P A | Bc • P Bc Diese Formel erlaubt es sozusagen, die Denkrichtung umzukehren: Aus den bedingten Wahrscheinlichkeiten B → A lassen sich die bedingten Wahrscheinlichkeiten A → B berechnen. Allerdings muss man hierfür die unbedingte Wahrscheinlichkeit P(B) kennen (P(Bc) = 1-P(B)). 2.9* Ausblick (allgemeine Form der Formel von Bayes) Die Verallgemeinerung von 2.7 und 2.8 auf sog. Partitionen, also Systeme paarweise disjunkter Mengen B1, B2, ..., Bm mit Ω = B1 ∪ B2 ∪ ... ∪ Bm erfolgt ganz analog. 2.10 Anwendungsbeispiel (Diagnostische Tests in der Medizin) Für dieses wichtige Beispiel gehen wir von folgender Situation aus: In einer Gruppe von n Personen konnte aufgrund aufwändiger Diagnostik festgestellt werden, wer krank (Ereignis D+) und wer gesund war (Ereignis D-). Das D steht für die (wahre) Diagnose. Ein neues Testverfahren lieferte ebenfalls nur zwei Ergebnisse, K und G für krank und gesund (Ereignis T+ und T-). Insgesamt wurden die folgenden Häufigkeiten beobachtet: K Testergebnis G Gesamt Wahrer Zustand laut Enddiagnose K G Gesamt T+ T+ ∩ D+ T+ ∩ DTest positiv falsch positiv richtig positiv TT- ∩ DT- ∩ D+ Test negativ richtig negativ falsch negativ D+ DΩ krank gesund Die Bezeichnungen „richtig positiv“ etc. entsprechen den in der Medizin üblichen Konventionen. 2.11* Ausblick („Modellierung“) In dieser Studie wird ein Wahrscheinlichkeitsraum modelliert, indem die relativen Häufigkeiten gleich den Wahrscheinlichkeiten des Raums Ω gesetzt werden. Man könnte also sagen, die „Elementarereignisse“ sind die einzelnen Personen, die Ereignisse sind Mengen von Personen. Man könnte aber auch abstrakt sagen, dass ein Wahrscheinlichkeitsraum betrachtet wird, der durch Schnitte und Vereinigungen aus den Erzeugenden Mengen D+, D-, T+, T- durch beliebige Schnitt und Vereinigungsoperationen erzeugt wird. 7 Statistik 1, WiSe 08/09, Martus 2.13 Fortsetzung des Anwendungsbeispiels 2.10 (Diagnostische Tests in der Medizin) Die Güte eines diagnostischen Tests lässt sich anhand der bedingten Wahrscheinlichkeiten P(D...|T...) und P(T...|D...) bemessen. Ein Test ist gut, wenn für viele Personen Diagnose und Test übereinstimmen. Die folgenden Bezeichnungen sind üblich: P(TK|DK) := Sensitivität des Tests P(TG|DG) := Spezifität des Tests P(DK|TK) := Positiver Prädiktiver Wert des Tests P(DG|TG) := Negativer Prädiktiver Wert des Tests Eine weitere Bezeichnung ist in der Medizin „allgegenwärtig“: P(DK) := Prävalenz 2.14 Übungsaufgabe (Bayessche Formel) Zeigen Sie mit Hilfe der Bayes Formel wie man aus Sensitivität, Spezifität und Prävalenz den positiven und negativen prädiktiven Wert berechnen kann. 2.15 Übungsaufgabe Gehen Sie davon aus, dass ein diagnostischer Test eine Sensitivität von 90% und eine Spezifität von 80% aufweist. Berechnen Sie nun mit Hilfe der Bayes Formel für Prävalenzen 0.5, 0.1, 0.01 und 0.001 jeweils den Positiven Prädiktiven Wert. Literatur für dieses Kapitel Bosch, Karl. Elementare Einführung in die Wahrscheinlichkeitsrechnung, Vieweg Verlag, 9.Auflage 2006. (19.90 €). Harms, Volker. Biomathematik, Statistik und Dokumentation. Harms Verlag, 6. Auflage 1992. (ca. 20 €). 8 Statistik 1, WiSe 08/09, Martus 3 Diskrete und Stetige Wahrscheinlichkeitsverteilungen Dieses Kapitel behandelt drei wichtige Beispiele diskreter Wahrscheinlichkeitsverteilungen, also solcher Verteilungen, die auf endlich oder abzählbar unendlichen Räumen definiert sind und zwei Beispiele stetiger Verteilungen. Diskrete Wahrscheinlichkeitsverteilungen lassen sich - im Gegensatz zu stetigen Verteilungen - vollständig durch die Wahrscheinlichkeiten der Elementarereignisse beschreiben. Ergänzende Informationen finden Sie in Kapitel 1.7, Abschnitt 1.7.1, 1.7.3, im Kapitel 2.4, Abschnitt 2.4.1 sowie im Kapitel 5, Abschnitt 2.5.1 und 2.5.2 im Buch von Bosch. 3.1. Anwendungsbeispiel (klinische Studie) In einer klinischen Studie wird ein Medikament an n Patienten überprüft. Die Heilungswahrscheinlichkeit für jeden Patienten beträgt p. Man interessiert sich für die Wahrscheinlichkeit, dass genau k Patienten (0 ≤ k ≤ n) geheilt werden. Lösung: Die gesuchte Wahrscheinlichkeit wird mit b(n,p,k) abgekürzt und lautet ⎛n⎞ n −k b( n, p, k ) := ⎜⎜ ⎟⎟ ⋅ p k ⋅ (1 − p ) . ⎝k ⎠ Der Binomialkoeffizient ist definiert als ⎛n⎞ ⎜⎜ ⎟⎟ := ⎝k ⎠ n! . k ! ⋅ (n − k ) ! Wenn Sie sich dafür interessieren, wie Medikamentenstudien wirklich ablaufen, können Sie das im Buch „Methodik klinischer Studien“ von M. Schumacher und G.Schulgen nachlesen (Springer Verlag 2. Auflage 2007, ca. 30 Euro). 3.2 Definition (Binomialverteilung) Die Wahrscheinlichkeitsverteilung b(n,p,k) heißt Binomialwahrscheinlichkeit. Der zugehörige Raum ist Ω = {0, 1,2,...,n}. Die Binomialverteilung beschreibt die Wahrscheinlichkeit dafür, k Treffer zu erzielen, wenn ein Zufallsexperiment n mal unabhängig wiederholt wird, das Ergebnis jeweils Treffer oder Niete ist und die Wahrscheinlichkeit für einen Treffer bei jeder Wiederholung identisch gleich p ist. Die Formel für b(n,p,k) lässt sich in zwei Schritten herleiten: Die Wahrscheinlichkeit, dass die ersten k Versuche Treffer sind und die restlichen n-k Versuche Nieten ist aufgrund der Unabhängigkeit der Wiederholungen p k ⋅ (1 − p ) n −k . 9 Statistik 1, WiSe 08/09, Martus Die Anzahl der Möglichkeiten, die k Treffer auf die n Versuche zu verteilen ist ⎛n⎞ ⎜ ⎟. ⎝k⎠ 3.3 Übungsaufgabe (Lösung mit R) In einer Studie werden 15 Patienten behandelt. Wie groß ist die Wahrscheinlichkeit, dass mindestens 11 Patienten geheilt werden, obwohl die Heilungswahrscheinlichkeit für jeden Patienten nur 0.5 beträgt? Berechnen Sie auch die Wahrscheinlichkeit für mindestens 12 Heilungen. In einer anderen Studie werden 150 Patienten behandelt. Wie groß ist die Wahrscheinlichkeit, dass mindestens 110 Patienten geheilt werden, obwohl die Heilungswahrscheinlichkeit für jeden Patienten nur 0.5 beträgt? Berechnen Sie auch die Wahrscheinlichkeit für mindestens 120 Heilungen. 3.4* Zum Weiterdenken: In einer Studie mit einem neuen Medikament werden von 15 Patienten 11 geheilt. Es ist bekannt, dass das herkömmliche Medikament 50% aller Patienten heilt. Sollte man aus dieser Studie ableiten, dass das neue Medikament besser ist? Zwei konkurrierende Pharmafirmen A und B entwickeln jeweils neue, etwa gleich teure Medikamente, Aventix und Boehrix. Das herkömmliche Medikament Cibix ist billiger und hat bekanntermaßen eine Heilungswahrscheinlichkeit von 50%. In einer Studie mit 15 Patienten werden von Aventix 12 geheilt. In einer anderen Studie werden von 150 Patienten 110 mit Boehrix geheilt. Eine Krankenkasse will nur eines der beiden Medikamente finanzieren. Welches der beiden Medikamente sollte von der Kasse bezahlt werden? 3.5 Anwendungsbeispiel (DNA-Sequenzanalyse, vgl. Ewens und Grant, 2005) Bei der DNA-Sequenzanalyse betrachtet man sogenannte Anker, kurze DNA-Sequenzen, die im Genom eindeutig sind und deren Positionen bekannt sind. DNA-Fragmente, die Anker enthalten, sind somit im Genom lokalisierbar. In einer einfachen Modellierung geht man von folgenden Annahmen aus: Die Anzahl von Ankern in einer DNA-Sequenz ist an jeder Stelle des Genoms proportional zur Länge L dieser Sequenz mit identischem Proportionalitätsfaktor. Beim Durchlaufen der Sequenz ist das Neuauftreten eines Ankers unabhängig davon, wieviele Anker bereits aufgetreten sind. Wie groß ist die Wahrscheinlichkeit für das Auftreten von k Ankern in einer Sequenz der Länge L? Lösung: Die Zahl der Anker ist angenähert Poisson-verteilt 10 Statistik 1, WiSe 08/09, Martus 3.6 Definition (Poissonverteilung) Eine Wahrscheinlichkeitsverteilung auf dem abzählbar unendlichen Raum Ω = {0,1,2,3,...} (natürliche Zahlen einschließlich 0) heißt Poissonverteilung mit Parameter λ, wenn für jedes k ∈ Ω die Wahrscheinlichkeit λk p(λ, k) := e −λ ⋅ k! beträgt. 3.6 Übungsaufgabe Berechnen Sie für beliebiges λ p(λ,1) / p(λ, 0) und allgemein p(λ, k) / p(λ, k − 1) Geben Sie Bedingungen dafür an, dass p(λ,k) genau ein oder genau zwei Maxima hat. 3.7 Geometrische Verteilung Ein Zufallsexperiment mit den beiden möglichen Ausgängen „Treffer“ oder „Niete“ wird unter identischen Bedingungen solange wiederholt, bis der erste Treffer beobachtet wird. Die Wahrscheinlichkeit für einen Treffer betrage wieder p. Das zugehörige Ω ist die Menge {1,2,3,...} (natürliche Zahlen ohne 0). Die Wahrscheinlichkeit nach genau k Versuchen zum Erfolg zu kommen beträgt g(k) = (1 − p ) k −1 p. (k=1,2,...) Begründung: Dem Treffer in Versuch k müssen k-1 Nieten vorausgehen. Die Wiederholungen sind unabhängig, jede Niete hat Wahrscheinlichkeit 1-p, der Treffer Wahrscheinlichkeit p. 3.8 Beispiel (Gleichverteilung) Das Beispiel 1.13 kann verallgemeinert werden zum Zufallsexperiment „zufällige Auswahl einer Zahl im Intervall [a,b]“. Man spricht von Gleichverteilung, wenn gleichlange Teilintervalle von [a,b] gleiche Wahrscheinlichkeiten erhalten. Für ein Intervall [c,d] ⊆ [a,b] gilt dann offenbar P ([ c, d ]) = d−c . b−a 11 Statistik 1, WiSe 08/09, Martus Diese Wahrscheinlichkeit lässt sich geometrisch veranschaulichen: Wir definieren f(x) = 1/(b-a) für x ∈ [a,b] und f(x) = 0 sonst. Dann ist die Fläche des Rechtecks, das durch f definiert wird, gleich eins und die Wahrscheinlichkeiten der Teilintervalle sind die Teilflächen über diesen Intervallen. Wir bezeichnen die Intervalllänge d-c mit Δx und erhalten: P ([ c, d ]) = 1 • ( d − c ) = f (x) • ( d − c ) = f (x)Δx b−a Diese Gleichung lässt sich auch als Integral schreiben P ([ c, d ]) = ∫ f ( x ) dx d c Diese Definition „funktioniert“ auch, wenn [c,d] nicht oder nicht vollständig in [a,b] enthalten ist, weil f für alle reellen Zahlen definiert wurde. 3.9 Definition (Dichtefunktion stetiger Wahrscheinlichkeitsverteilungen) Für eine Wahrscheinlichkeitsverteilung P auf Ω = ℜ mit P ([ c, d ]) = ∫ f ( x ) dx d c für alle c ≤ d heißt f die Dichtefunktion von P. Es gilt dann notwendigerweise ∫ +∞ −∞ f ( x ) dx = 1 Umgekehrt erhält man aus jeder nichtnegativen Funktion mit Gesamtintegral = 1 eine stetige Wahrscheinlichkeit durch Gleichung 3.9-1. Durch Normierung erhält man für jede nichtnegative Funktion f mit Gesamtintegral = S < ∞ eine Wahrscheinlichkeitsverteilung mit Dichtefunktion f/S. 3.10 Normalverteilung Die wichtigste Wahrscheinlichkeitsverteilung ist zweifellos die (Standard-) Normalverteilung. Ihre Dichtefunktion lautet 2 1 − x2 f (x) = e 2π * Diese Funktion heißt auch Glockenkurve. 12 Statistik 1, WiSe 08/09, Martus 3.11 Definition (Verteilungsfunktion) Sowohl bei diskreten als auch bei stetigen Wahrscheinlichkeitsverteilungen interessiert man sich besonders für die Wahrscheinlichkeiten P(]-∞,C]) und bezeichnet diese mit F(C). Die Funktion F, die wiederum auf ganz ℜ definiert ist, heißt Verteilungsfunktion der betreffenden Wahrscheinlichkeitsverteilung. Für diskrete Wahrscheinlichkeitsverteilungen auf Räumen Ω = {ω1, ω2, ... } erhält man F ( C ) = ∑ ω≤C P ( ω) für kontinuierliche Wahrscheinlichkeiten mit Dichtefunktionen f erhält man C F ( C ) = ∫ f ( x )dx −∞ In Übungsaufgabe 3.3 sollen für Binomialverteilungen Wahrscheinlichkeiten der Form 1-F(C) berechnet werden. 3.12 Übungsaufgabe Geben Sie für a < b die Verteilungsfunktion der Gleichverteilung auf dem Intervall [a,b] an. 3.13 Hinweise* Die Verteilungsfunktion der Normalverteilung lässt sich nicht explizit berechnen, ist aber tabelliert in Büchern und als Funktion in Statistikprogrammen abrufbar. Für alle Wahrscheinlichkeitsverteilungen auf den reellen Zahlen lässt sich eine Verteilungsfunktion angeben, aber nicht für alle stetigen Verteilungen eine Dichtefunktion. In Anwendungen spielen aber nur stetige Verteilungen mit Dichtefunktion eine Rolle. 3.14 Übungsaufgabe Berechnen Sie mit Hilfe von R für die Standard-Normalverteilung die Wahrscheinlichkeiten der Intervalle ]-∞,1], ]-2, ∞] und [-2,2]. Literatur für dieses Kapitel Bosch, Karl. Elementare Einführung in die Wahrscheinlichkeitsrechnung, Vieweg Verlag, 9.Auflage 2006. (19.90 €). 13 Statistik 1, WiSe 08/09, Martus 4. Zufallsvariablen, Erwartungswert und Varianz Dieses Kapitel führt als letzten Grundbegriff der Wahrscheinlichkeitsrechnung die Zufallsvariable ein. Zufallsvariablen sind Funktionen auf Wahrscheinlichkeitsräumen (Ω,P) mit Bildbereich ℜ. Sie definieren auf ℜ Wahrscheinlichkeitsverteilungen, die man durch die Parameter Erwartungswert (Durchschnitt) und Varianz (Abweichung vom Durchschnitt) beschreibt. Ergänzende Informationen finden Sie in Abschnitt 2.1, 2.2 und 2.4 im Buch von Bosch. 4.1 Definition (Zufallsvariable)* Eine Funktion X von einem Wahrscheinlichkeitsraum (Ω,P0) in die reellen Zahlen heißt reelle Zufallsvariable. Die Verteilung der reellen Zufallsvariable wird definiert als ( P ([ a, b ]) = P 0 X −1 [ a, b ] ) 4.2 Beispiel Beim zweimaligen unverfälschten Würfeln ist das kartesische Produkt {1,...,6} X {1,...,6} = Ω und P0(i,j) = 1/36. X sei die Augensumme der beiden Würfe. X-1(k) = {(i,j); i,j = 1,...,6; i+j = k}. Es gilt z.B. P(2) = 1/36, P(7) = 1/6. 4.3 Hinweis Bei stetigen Zufallsvariablen ist es egal, ob man die Intervallgrenzen zum Intervall hinzunimmt oder nicht, das geschlossene Intervall [a,b], die halboffenen Intervalle ]a,b], [a,b[ und das offene Intervall ]a,b[ haben die gleiche Wahrscheinlichkeit. Bei diskreten Wahrscheinlichkeitsverteilungen gilt dies nicht, wenn a oder b positive Wahrscheinlichkeit haben. 4.4 Hinweise* Es gibt auch Mischformen aus stetigen und diskreten Wahrscheinlichkeitsverteilungen bzw. Zufallsvariablen: Im Rahmen einer onkologischen Studie wird für jeden Patienten die Zeit von der Diagnose bis zum Tod dokumentiert. Die Studie endet nach 10 Jahren. Für die verstorbenen Patienten ist die Zeit bis zum Tod im Prinzip eine stetige Zufallsvariable. Für die dann noch lebenden Patienten kann lediglich das diskrete Ereignis „lebt länger als 10 Jahre“ gemessen werden. Für stetige Zufallsvariablen kann man auch komplizierteren Mengen als den Intervallen Wahrscheinlichkeiten zuordnen. Bezeichnet man eine derartige Menge mit A muss man zusätzlich verlangen, dass der Menge X-1(A) in Ω überhaupt eine Wahrscheinlichkeit zugeordnet werden kann (die Menge X-1(A) muss messbar in Ω sein). 14 Statistik 1, WiSe 08/09, Martus 4.5 Definition (Erwartungswert und Varianz) Für eine diskrete Zufallsvariable X mit Verteilung P ist der Erwartungswert μ(X) und die Varianz σ2(X) definiert durch (ersetze P(X(ω)) durch P0(X-1(ω))) μ(X) := ∑ X( ω) X(ω) • P ( X ( ω) ) := ∑ x • P(x) (Summation im letzten Term nur über x - Werte mit positiver Wahrscheinlichkeit) und durch ∑ ( x − μ) P ( x ) 2 σ 2 (X) := falls die entsprechenden Reihen konvergieren. Für eine stetige Zufallsgröße X mit Dichtefunktion f(x) ist der Erwartungswert μ(X) und die Varianz σ2(X) definiert durch μ(X) := σ 2 (X) := ∫ ∞ −∞ t f (t)dt ∞ ∫ [ t − μ(X)] 2 −∞ f (t)dt . falls die entsprechenden Integrale existieren. 4.6 Beispiel Aus der Funktion f(x) = 1/x (für x ≥ 1) und f(x) = 0 für x < 1 lässt sich auch durch Normierung keine Wahrscheinlichkeitsverteilung definieren, weil ∞ ∫ (1/ t ) dt = ∞ . 1 4.7 Beispiel (Erwartungswert der geometrischen Verteilung)* Wir erhalten für die geometrische Verteilung (3.7) μ = ∑ k =1 (1 − p ) ∞ p• ( k −1 p • k = p • ∑ k =1 (1 − p ) ∞ ) k −1 ∞ k • k = p • ⎡ ∑ k =1 −∂ / ∂p (1 − p ) ⎤ ⎣ ⎦ = ( ) ⎡ ∂ ⎤ ∂ ∂ 1 ∞ ∞ k k − ⎡ ∑ k =1 (1 − p ) ⎤ = p • − ⎡ ∑ k =0 (1 − p ) ⎤ = p • ⎢ − ⎥ ⎦ ⎦ ∂p ⎣ ∂p ⎣ ⎢⎣ ∂p 1 − (1 − p ) ⎥⎦ = ⎡ ∂ p • ⎢− ⎣ ∂p 1⎤ 1 1 = p• 2 = ⎥ p⎦ p p Das vierte Gleichheitszeichen ist eine Grenzwertvertauschung, die man eigentlich rechtfertigen müsste, das fünfte verwendet (1-p)0 = 1 , d.h. konstant als Funktion von p und deswegen mit Ableitung nach p= 0, das sechste verwendet die Formel der geometrischen Reihe. 15 Statistik 1, WiSe 08/09, Martus 4.8 Übungsaufgabe Berechnen Sie den Erwartungswert der Poissonverteilung. 4.9 Übungsaufgabe Zeigen Sie: Die Funktion f(x) = 1/x2 (für x ≥ 1) und f(x) = 0 für x < 1 definiert eine Wahrscheinlichkeitsverteilung. Diese hat aber keinen Erwartungswert (und damit auch keine Varianz). Die Funktion f(x) = 1/x3 (für x ≥ 1) und f(x) = 0 für x < 1 lässt sich durch Normierung in eine Dichtefunktion überführen. Diese hat zwar einen Erwartungswert, aber keine Varianz. Die Funktion f(x) = 1/x4 (für x ≥ 1) und f(x) = 0 für x < 1 lässt sich durch Normierung in eine Dichtefunktion überführen. Diese hat Erwartungswert und Varianz. 4.10 Satz (Erwartungswert und Varianz von Summen von Zufallsvariablen) Seien X und Y beliebige reelle Zufallsvariable, für die Erwartungswert und Varianz existieren. Dann gilt μ(X+Y) = μ(X) + μ(Y), μ(aX) = aμ(x) und σ2(aX) = a2σ2(X) für a beliebig aus R. Für unabhängige X, Y gilt σ2(X+Y) = σ2(X) + σ2(Y). Beweis: Bis auf die letzte Aussage folgt alles direkt aus den Definitionen von Erwartungswert und Varianz. Ein Beweis für die letzte Aussage findet sich z.B. bei Bosch, Abschnitt 2.2.6 für diskrete Zufallsvariable und in Abschnitt 2.4.4 für stetige Zufallsvariablen. 4.11 Beispiel (Binomialverteilung) Der Erwartungswert der Binomialverteilung b(n,p,k) ist np, die Varianz ist npq. Dies folgt sofort aus Satz 4.10 und μ(X) = p und σ2(X) = p(1-p) für n= 1. 4.12 Beispiel (Normalverteilung) Man kann zeigen, dass der Erwartungswert der Normalverteilung 0 und die Varianz 1 ist. Literatur für dieses Kapitel Bosch, Karl. Elementare Einführung in die Wahrscheinlichkeitsrechnung, Vieweg Verlag, 9.Auflage 2006. (19.90 €). 16 Statistik 1, WiSe 08/09, Martus 5 Grenzwertsätze und Standardisierung Dieses Kapitel behandelt die wichtigsten Grenzwertsätze der Wahrscheinlichkeitsrechnung. Diese haben einerseits theoretische Bedeutung, erlauben es aber auch, die Berechnung von Wahrscheinlichkeiten zu vereinfachen. Ergänzende Informationen finden Sie in Kapitel 2, Abschnitt 2.3.5 sowie in Kapitel 3, Abschnitt 3.3 im Buch von Bosch. Die mit * versehenen Beweise dieses Abschnitts (kein Klausurstoff) finden Sie in theoretischeren Lehrbüchern wie z.B. dem Lehrbuch von Chung. 5.1 Poissonscher Grenzwertsatz Wir betrachten eine Folge Xn (n=1,2, ... ∞) von Zufallsgrößen, die alle nach b(n,pn,k) verteilt sind mit konstantem Erwartungswert npn= λ für beliebiges n. Dann gilt für alle k lim n→∞ b(n, p n , k ) = p(λ , k ). Bemerkung: Es genügt vorauszusetzen, dass npn→ λ für n→∞. Beweis:* Wir betrachten λ ⎛n⎞ ⎛ λ ⎞ ⎛ λ ⎞ b(n, , k ) := ⎜⎜ ⎟⎟ • ⎜ ⎟ • ⎜1 − ⎟ n ⎝k ⎠ ⎝ n ⎠ ⎝ n ⎠ k n−k ⎡⎛ λ ⎞ n − k ⎤ n − k + 1⎤ ⎡ 1 ⎤ ⎡n n −1 k = ⎢ ⎥•⎢ • •K• • λ • ⎢⎜1 − ⎟ ⎥. n n ⎥⎦ ⎣ k !⎦ ⎣ n ⎣⎢⎝ n ⎠ ⎦⎥ [ ] Die erste und die dritte Klammer haben bereits die gewünschte Form. Die zweite Klammer geht (bei festem k) für n→∞ gegen 1, die letzte Klammer erfüllt ⎡ ⎛ λ ⎞ n − k ⎤ ⎡⎛ λ ⎞ n ⎤ ⎡⎛ λ ⎞ − k ⎤ ⎢ ⎜ 1 − ⎟ ⎥ = ⎢⎜ 1 − ⎟ ⎥ • ⎢⎜ 1 − ⎟ ⎥ . n ⎠ ⎥⎦ ⎢⎣⎝ n ⎠ ⎥⎦ ⎢⎣⎝ n ⎠ ⎥⎦ ⎢⎣⎝ Die erste Klammer geht gegen e-λ, die zweite gegen 1 weil k fest ist und λ/n = pn → 0. 5.2 Diskussion des Anwendungsbeispiels 3.5 Im Beispiel zur DNA-Sequenzierung kann man sich vorstellen, dass in immer zahlreicheren und immer kleineren Teilsequenzen des untersuchten DNA-Strangs immer nur ein oder kein Anker auftritt. Bei Aufteilung in n gleichlange Teilsequenzen ist also die Zahl der Anker nach b(1,pn,k) verteilt, die Gesamtzahl der Anker nach b(n,pn,k). 17 Statistik 1, WiSe 08/09, Martus Der vorhergehende Satz rechtfertigt also die Annahme einer Poissonverteilung für die Gesamtzahl der Anker. Die Gesamtzahl der Anker kann natürlich nie größer als die Zahl der Basenpaare in der untersuchten Gensequenz sein. Außerdem ist die Unabhängigkeitsannahme in 1.4 sehr problematisch. Dennoch eignet sich das Modell zur einfachen Beschreibung der Verteilung von Ankerpunkten. 5.3 Definition (Standardisierung) Es sei X eine reelle Zufallsvariable, für die μ (X) und σ2(X) existieren. Dann heißt die Zufallsvariable Z mit Z= X − μ(X ) σ 2 (X ) die standardisierte Zufallsvariable für X. Für Z gilt μ(X) = 0 und σ2 (X) = 1. Der Nenner σ 2 ( X ) heißt auch Standardabweichung oder Streuung und wird mit σ (X) bezeichnet. 5.4 Definition (Allgemeine Normalverteilung) Wir haben bislang nur die Standardnormalverteilung behandelt mit μ (X) = 0 und σ2(X) = 1. Ersetzt man μ (X) durch eine beliebige Zahl führt dies zu einer Verschiebung der Dichtefunktion (Glockenkurve) auf der x-Achse. Ersetzt man erhält man σ2(X) durch eine beliebige positive Zahl führt dies zu einer Verbreiterung oder Verschmälerung der Glockenkurve. Die zugehörigen kumulativen Wahrscheinlichkeiten werden nicht in Tabellen angegeben, weil man durch Standardisierung jederzeit auf die Standardnormalverteilung zurückrechnen kann. 5.5 Übungsaufgabe Eine Zufallsvariable X sei normalverteilt mit Erwartungswert 1 und Varianz 4. Berechnen Sie die Wahrscheinlichkeit dafür, dass X im Intervall von -1 bis 5 liegt. Stellen Sie dabei die Schritte der Standardisierung detailliert da. Berechnen Sie die notwendigen kumulierten Wahrscheinlichkeiten für die Standardnormalverteilung mithilfe von R. 5.6 Satz (de Moivre Laplace) Es sei Xn, n→∞ eine Folge von binomial verteilten Zufallsgrößen mit festem p, also Xn ~ b(n,p,k) und es sei Zn die zugehörige Folge standardisierter Zufallsgrößen 18 Statistik 1, WiSe 08/09, Martus Zn = X n − np npq . Dann lässt sich die Verteilung von Zn durch die Normalverteilung annähern. Damit ist gemeint: Für beliebige Konstanten -∞ < a < b < +∞ gilt lim n→∞ P(a < Z n ≤ b ) = 1 2π ∫ b a e − x2 2 dx Beweisskizze* Im ersten Schritt nähert man die Fakultäten in der Binomialverteilung ⎛n⎞ k ⎜⎜ ⎟⎟ ⋅ p ⋅ (1 − p )n −k ⎝k ⎠ mit der Stirlingschen Formel an: ⎛n⎞ n!≈ ⎜ ⎟ ⎝e⎠ n 2π n . Setzt man für die drei Fakultäten des Binomialkoeffizienten die entsprechenden Terme der Stirlingformel ein, so erhält man n ⎛n⎞ k ⎜⎜ ⎟⎟ ⋅ p ⋅ (1 − p )n − k ≈ k ⎝k ⎠ ⎛k⎞ ⎜ ⎟ ⎝e⎠ ⎛n⎞ ⎜ ⎟ 2π n n−k ⎝e⎠ p k ⋅ (1 − p ) n −k ⎛n−k⎞ 2π k ⎜ 2π (n − k ) ⎟ ⎝ e ⎠ und daraus durch Kürzen n−k k ⎛n⎞ k n−k ⎜⎜ ⎟⎟ ⋅ p ⋅ (1 − p ) ⎝k ⎠ ⎛n⎞ ⎛ n ⎞ ⎜ ⎟ ⎜ ⎟ k⎠ ⎝n−k⎠ n−k ⎝ ≈ p k ⋅ (1 − p ) . 2π n p (1 − p ) Man zeigt weiterhin, dass k ⎛n⎞ ⎛ n ⎞ ⎜ ⎟ ⎜ ⎟ ⎝k⎠ ⎝n−k⎠ n−k p ⋅ (1 − p ) k n−k ≈e − zk 2 2 erfüllt, wobei zk der standardisierte Wert für k ist. Insgesamt erhalten wir also 19 Statistik 1, WiSe 08/09, Martus k ⎛n⎞ ⎛ n ⎞ ⎟ ⎜ ⎟ ⎜ ⎝k⎠ ⎝n−k⎠ n−k p ⋅ (1 − p ) k n−k 1 ≈ 2π n p (1 − p ) e − zk 2 2 Durch Aufsummieren der Wahrscheinlichkeiten aller Trefferzahlen k, für die zk im gewünschten Intervall ]a,b] liegt, erhalten wir eine Riemannsumme, die gegen das im Satz genannte Integral konvergiert (vgl. Chung, 1978, Seite 228-230). Der Satz von de Moivre Laplace ist ein Spezialfall des Zentralen Grenzwertsatzes. 5.7 Satz (Zentraler Grenzwertsatz für identisch verteilte unabhängige Zufallsvariable) Es sei X eine reelle Zufallsvariable, für die Erwartungswert und Varianz existiert, Xi (i=1,...,n) seien identisch verteilte, unabhängige Zufallsvariable mit der Verteilung von X. Mit Sn bezeichnen wir die Summe der Xi S n = ∑i =1 X i n und mit Zn die Standardisierung von Sn, also Zn = S n − nμ ( X ) nσ 2 ( X ) Dann ist lim n→∞ P(a < Z n ≤ b ) = 1 2π ∫ b a e − x2 2 dx . Beweis*: z.B. Chung, 1978, Seite 236-238. 5.8 Bemerkung* Der Zentrale Grenzwertsatz lässt sich noch allgemeiner formulieren. Es genügt z.B., dass für nicht identisch verteilte, aber unabhängige Zufallsvariable Xi die Erwartungswerte μ (Xi) und Varianzen σ2(Xi) existieren und für die Varianzen σ2(Sn) der Summenvariable S n = ∑i =1 X i n die folgende Summe von Integralen 2 1 n ( ) x − E ( X PX i dx ∑ i ∫ Var (S n ) i =1 | xi − E ( X i )|≥εS n für beliebiges ε > 0 gegen Null konvergiert (Lindeberg-Bedingung, Bauer, 1991, Seite 238245). 20 Statistik 1, WiSe 08/09, Martus 5.9 Schlussbemerkung Der Zentrale Grenzwertsatz stellt bei vielen statistischen Anwendungen die "Rechtfertigung" für den Gebrauch der Normalverteilung dar. So kann man aus der Formulierung in 5.7 ableiten, dass wiederholte Messungen derselben Größe am selben Individuum, wenn sie unabhängig erfolgen, zu normalverteilten Durchschnittswerten führen (Normalverteilung der gemittelten Messfehler). Aus der allgemeineren Formulierung in 5.8 kann man folgern, dass die wahren (Messfehlerbereinigten) Werte von unterschiedlichen Individuen in einer Population normalverteilt sind wenn der gesuchte Wert sich additiv aus vielen kleinen Einflüssen zusammensetzt, die unabhängig sind und von denen keiner dominiert (Normalverteilung der „tatsächlichen“ biologischen Variabilität). Analog kann man (aus 5.8, nicht aber aus 5.7) folgern, dass bereits die nicht gemittelten Messfehler normalverteilt sind, wenn man davon ausgehen, dass sich diese Messfehler ebenfalls additiv aus vielen kleinen Einflüssen zusammensetzt, die unabhängig sind und von denen keiner dominiert (Normalverteilung der „ungewollten“ Messfehler). Die wichtigste Konsequenz aus dem Zentralen Grenzwertsatz ist aber, dass sich ganz allgemein Normalverteilung durch Summierung bzw. Mittelung von nicht normalverteilten Variablen erzielen lässt. 5.10 Übungen 1. Programmieren Sie die Binomialverteilung für n =10 p = 0.4, n = 100, p = 0.04 und n = 1.000, p = 0.004 jeweils für k = 0,1,..., 10. Bestimmen Sie den Fehler der Poissonapproximation. 2. Programmieren Sie die Binomialverteilung für p = 0.4 und n =10, 20, und n = 50. Stellen Sie die gefundenen Wahrscheinlichkeiten in einem Stabdiagramm dar. 3. Stellen Sie die Wahrscheinlichkeiten aus 2. für die drei standardisierten Zufallsgrößen dar. Literatur für dieses Kapitel Bauer, Heinz. Wahrscheinlichkeitstheorie. De Gruyter, 4. Auflage 1991.* Bosch, Karl. Elementare Einführung in die Wahrscheinlichkeitsrechnung, Vieweg Verlag, 9.Auflage 2006. (19.90 €). Chung, K.L. Elementare Wahrscheinlichkeitstheorie und stochastische Prozesse. Springer 1978.* (*: betrifft nur nicht Prüfungsrelevanten Stoff) 21 Statistik 1, WiSe 08/09, Martus Teil B Statistische Hypothesentests Vorbemerkungen Die Wahrscheinlichkeitsrechnung erlaubt es, Phänomene zu beschreiben, die durch den Zufall gesteuert werden. Der zugrunde liegende Zufallsmechanismus wird als bekannt vorausgesetzt, es werden Aussagen über die zu erwartenden Daten abgeleitet. Die Statistik kehrt diese Schlussrichtung um. Anhand von Daten wird ein bestimmtes Wahrscheinlichkeitsmodell konstruiert. Auf Basis dieses Modells werden dann Entscheidungen über den zugrundeliegenden Zufallsmechanismus getroffen. Eigentlich deckt diese Charakterisierung der Statistik nur die sog. „konfirmatorische“ (= schließende oder Inferenz-) Statistik ab. Andere statistische Methoden behandeln lediglich die Beschreibung - insbesondere die Visualisierung - von Daten und werden daher „deskriptive“ Statistik genannt. Diese Methoden sind für die praktische Arbeit von großer Bedeutung, können aber hier nur am Rande behandelt werden. Auch in der Statistik werden manchmal bestimmte Annahmen als bekannt vorausgesetzt. Man spricht dann von Modellannahmen. Typische Modellannahmen sind z.B. die Binomialverteilung oder Poissonverteilung für Häufigkeiten und die Normalverteilung für Messdaten. Eine statistischen Analyse ermöglicht es beispielsweise, Entscheidungen über den unbekannten Erwartungswert dieser Verteilungen zu treffen. 6 Statistische Hypothesentests 6.1 Vorbemerkungen Statistische Hypothesentests stellen das wichtigste Hilfsmittel der konfirmatorischen Statistik dar. Sie ermöglichen, Entscheidungen über wissenschaftliche Hypothesen aufgrund empirischer Daten zu treffen. Dabei können zwar Fehlentscheidungen nicht ausgeschlossen werden, aber deren Wahrscheinlichkeit kann begrenzt werden. Die Anwendung statistischer Tests ist aber nicht frei von Fehlerquellen: • Man muss sich über die "Natur" der Fehlerwahrscheinlichkeiten im Klaren sein, wenn man statistische Tests korrekt anwendet. Eine Hauptaufgabe des Statistikers besteht darin, dem Anwender die korrekte Interpretation von Testergebnissen zu ermöglichen. • Wird die zu testende Hypothese oder die akzeptierte Fehlerwahrscheinlichkeit erst nachträglich, nach Kenntnis aller oder eines Teils der Daten, festgelegt, bricht diese Absicherung ganz oder teilweise zusammen. • Im Rahmen dieses Teils der Vorlesung wird der frequentistische Ansatz dargestellt. In anderen Veranstaltungen wird die Bayesianische Sichtweise dargestellt. 22 Statistik 1, WiSe 08/09, Martus 6.2 Anwendungsbeispiel (Klinische Studie, vgl. 3.1-3.4) Für ein neues Medikament soll gezeigt werden, dass die Heilungswahrscheinlichkeit π größer als 0.5 ist. Hierfür werden n = 15 Patienten mit diesem Medikament behandelt und die Häufigkeit k von Heilungen beobachtet. Wie viele Patienten müssen mindestens geheilt werden, um mit einer Fehlerwahrscheinlichkeit von α=0.05 den Nachweis von π > 0.5 zu erbringen? Gemeint ist der Fehler, sich irrtümlich zugunsten des neuen Medikaments zu entscheiden: Die Heilungswahrscheinlichkeit wäre dann maximal 0.5, in der Studie würden aber zufällig sehr viele Patienten geheilt, d.h. die beobachtete relative Häufigkeit k/n wäre deutlich größer als 0.5. Die Mindestzahl K von Heilungen, ab der der Nachweis von π > 0.5 erbracht ist, muss also so hoch liegen, dass die Wahrscheinlichkeit für das Ereignis k ≥ K entsprechend gering, d.h. maximal 0.05 ist. Diese Wahrscheinlichkeit kann für beliebiges π mit Hilfe der Binomialverteilung berechnet werden. Sie ist sicher für jede Wahl von K am größten, wenn π exakt gleich 0.5 ist. Wir werden uns also für diesen Fall absichern und können uns darauf verlassen, dass die Fehlerwahrscheinlichkeit nur geringer werden kann, wenn π sogar kleiner als 0.5 ist. 6.3 Beispiel (Fortsetzung) Im folgenden Diagramm sind die Binomialwahrscheinlichkeiten b(15,0.5,k) dargestellt: 15 Patienten - H0: Heilungsrate 50% Wahrscheinlichkeit [%] 25 98.2% 20 1.8% 15 10 5 0 0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 Anzahl geheilter Patienten 23 Statistik 1, WiSe 08/09, Martus Unter der Annahme π = 0.5 ist die Wahrscheinlichkeit, 12 oder mehr Patienten zu heilen, 0.018. Man sieht leicht durch Nachrechnen, dass b(15,0.5,11) = 0.042 und somit b(15,0.5,k ≥ 11) = 0.06 > 0.05. Man muss also mindestens 12 Patienten heilen, um π > 0.5 statistisch zu „beweisen“. 6.4 Beispiel (Fortsetzung) Für den Nachweis von π > 0.5 wird eine beobachtete Heilungshäufigkeit von 12/15 = 80%, also deutlich mehr als 50%, verlangt! Die beschriebene Studie wird natürlich mit der Absicht durchgeführt, diesen Nachweis zu erbringen (andernfalls müsste der statistische Ansatz geändert werden!). Den Initiator der Studie interessiert also, wie groß die Wahrscheinlichkeit für den Erfolg der Studie ist. Diese Wahrscheinlichkeit hängt nun aber von der tatsächlichen Heilungswahrscheinlichkeit des Medikaments ab. Die folgenden Grafiken zeigen, wie groß für unterschiedliches π die Wahrscheinlichkeit eines Studienerfolgs (k ≥ 12) ist. Aus den Grafiken geht klar hervor, dass die Studie eigentlich nur für π = 0.9 (oder größer) erfolgversprechend ist. Die Bezeichnung H0 und H1 in den Grafiken wird später erklärt. 24 Statistik 1, WiSe 08/09, Martus 15 Patienten - H1: Heilungsrate 60% Wahrscheinlichkeit [%] 25 90.9% 20 9.1% 15 10 5 0 0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 Anzahl geheilter Patienten 15 Patienten - H1: Heilungsrate 70% Wahrscheinlichkeit [%] 25 70.3% 20 29.7% 15 10 5 0 0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 Anzahl geheilter Patienten 25 Statistik 1, WiSe 08/09, Martus 15 Patienten - H1: Heilungsrate 80% Wahrscheinlichkeit [%] 30 35.2% 25 64.8% 20 15 10 5 0 0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 Anzahl geheilter Patienten 15 Patienten - H1: Heilungsrate 90% Wahrscheinlichkeit [%] 45 5.6% 40 94.4% 35 30 25 20 15 10 5 0 0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 Anzahl geheilter Patienten 26 Statistik 1, WiSe 08/09, Martus 6.5 Bemerkung Für den Initiator der Studie ist die zweite Fehlerwahrscheinlichkeit entscheidend: Die Wahrscheinlichkeit β dafür, dass die Studie nicht das Ziel von mindestens 12 Heilungen erreicht, obwohl die Heilungswahrscheinlichkeit π größer als 0.5 ist. Ist die tatsächliche Heilungswahrscheinlichkeit also z.B. π = 0.6, dann können wir aus der entsprechenden Grafik ablesen, dass β = 1-0.091 = 0.909. Diese Studie wäre also unsinnig. Der Ausweg besteht darin, die Zahl der Patienten zu erhöhen. 6.6 Beispiel (Fortsetzung) Es werden n = 150 Patienten behandelt. Wegen b(150,0.5,k≥86) = 0.043 und b(150,0.5,k≥85) > 0.05 müssen mindestens 86 Patienten geheilt werden. Aus den folgenden Grafiken kann abgelesen werden, dass diese Studie recht erfolgversprechend ist: 150 Patienten - H0: Heilungsrate 50% Wahrscheinlichkeit [%] 7 6 95.7% 4.3% 5 4 3 2 1 0 50 55 60 65 70 75 80 85 90 95 100 105 110 115 120 Anzahl geheilter Patienten 150 Patienten - H1: Heilungsrate 60% Wahrscheinlickeit [%] 7 6 22.6% 77.4% 5 4 3 2 1 0 50 55 60 65 70 75 80 85 90 95 100 105 110 115 120 Anzahl geheilter Patienten 27 Statistik 1, WiSe 08/09, Martus 6.7 Algorithmus (Anwendung des Zentralen Grenzwertsatzes) Zur Berechnung der Binomialwahrscheinlichkeiten in 6.6 benutzt man nicht die Binomialverteilung (für die Zahl der Heilungen k) sondern die Normalverteilung der standardisierten Zufallsgröße Z= X − μ (k ) σ 2 (k ) mit μ(k) = nπ und σ2 (k) = nπ(1-π). Mit dem Zentralen Grenzwertsatz erhält man 1 b(n, p, k ≥ K ) ≈ 2π ∫ − ∞ Z (K ) e z2 2 dz ⎛ ⎜= ⎜ ⎝ 1 2π np(1 − p) ∫ ∞ K − e ( x − np ) 2 2 np (1− p ) ⎞ dx ⎟ . ⎟ ⎠ 6.8 Beispiel (Fortsetzung) In Medikamentenstudien ist man dazu verpflichtet, auch immer mit zu überprüfen, ob die Studie (entgegen der Intention des Initiators) statistisch beweist, dass das neue Medikament sogar deutlich schlechter als erwartet ist. Dies bedeutet, dass man auch den Fall π < 0.5 berücksichtigen muss. Praktisch erfolgt dies dadurch, dass man den zulässigen Fehler von 0.05 zu gleichen Teilen auf besonders hohe und besonders niedrige Heilungshäufigkeiten verteilt: 150 Patienten - H0: Heilungsrate 50% Zweiseitiger Test Wahrscheinlichkeit [%] 7 6 2.04% 2.04% 5 4 3 2 1 0 50 55 60 65 70 75 80 85 90 95 100 105 110 115 120 Anzahl geheilter Patienten Man verlangt jetzt mindestens 87 Heilungen, statt 86. 28 Statistik 1, WiSe 08/09, Martus 6.9 Bemerkung Wenn in der Studie statt der geforderten 87 Patienten z.B. 78 Patienten geheilt werden, hat man den geforderten Nachweis von π > 0.5 nicht erbracht. Werden z.B. 90 Patienten geheilt, hat man ihn erbracht. Um zu demonstrieren, wie "nahe" das Ergebnis an der vorgeschriebenen Grenze K = 87 lag, betrachtet man die Fehlerwahrscheinlichkeit, die zum beobachteten k gehört. Im ersten Fall mit k = 87 gilt b(150,0.5,k≥78) = 0.342, im zweiten Fall b(150,0.5,k≥90) = 0.0012. Beachtet man die in 6.8 geforderte Erweiterung auf den Nachweis von π < 0.5, so kann man folgende Aussage treffen: Wäre die zulässige Fehlerwahrscheinlichkeit α = 0.682 gewesen, hätten die 78 Patienten zum Nachweis π > 0.5 ausgereicht, wäre die Fehlerwahrscheinlichkeit dagegen α = 0.0024 gewesen, hätten 90 Patienten zum Nachweis π > 0.5 ausgereicht (vgl. Abschnitt 6.17). 6.10 Definition (Formalisierung des statistischen Tests) Ziel eines statistischen Tests ist es, eine Forschungshypothese zu „beweisen“. Gemeinsam ist allen Tests: • • Der Beweis ist nie zwingend sondern immer mit einer Fehlerwahrscheinlichkeit behaftet. Der Beweis wir immer indirekt geführt, man wiederlegt die Verneinung der Forschungshypothese. In der folgenden Tabelle werden die wichtigsten Begriffe aufgeführt: Tabelle: Formalisierung des statistischen Tests Abkürzung H0 Name Nullhypothese H1 Alternative keine allgemein übliche Abkürzung Testentscheidung α-Fehler Fehler 1. Art α Signifikanzniveau β-Fehler Fehler 2. Art β --- 1-β Macht Interpretation Aussage, die wiederlegt werden soll Aussage, die bewiesen werden soll Ablehnung oder Beibehaltung der Nullhypothese aufgrund der Studiendaten Nullhypothese wird abgelehnt, obwohl sie zutrifft Wahrscheinlichkeit, den Fehler erster Art zu begehen Nullhypothese wird nicht abgelehnt, obwohl die Alternative zutrifft Wahrscheinlichkeit, den Fehler zweiter Art zu begehen Gegenwahrscheinlichkeit zum 29 Statistik 1, WiSe 08/09, Martus α, β je nach Test unterschiedliche, aber einheitliche Bezeichnungen (z, t, F, χ2) Bezeichnungen analog zur Prüfgröße (z.B. t-Verteilung) keine allgemein übliche Abkürzung Power Fehlerwahrscheinlichkeiten, Irrtumswahrscheinlichkeiten Prüfgröße Prüfverteilung Kritischer Bereich Fehler 2. Art Oberbegriff für Fehler 1. und Fehler 2. Art Zufallsvariable, mit der die Studiendaten zusammengefasst werden Wahrscheinlichkeitsverteilungen der Prüfgröße. Unterschiedlich, je nachdem ob H0 oder H1 zutrifft Ergebnisse der Prüfgröße, die eine Ablehnung der Nullhypothese erlauben Den Zusammenhang zwischen den Fehlern erster und zweiter Art zeigt die folgende Tabelle Tabelle: Fehlermatrix des statistischen Tests Realität Testentscheidung Nullhypothese wird nicht abgelehnt Nullhypothese wird abgelehnt Nullhypothese trifft zu Alternative trifft zu Korrekte Entscheidung 1-α Fehler 1. Art α Fehler 2. Art β Korrekte Entscheidung 1-β Anmerkungen • • • Wenn kein Missverständnis möglich ist, sagt man auch „Der Fehler erster Art beträgt 5%“ obwohl eigentlich gemeint ist „Die Wahrscheinlichkeit für den Fehler erster Art beträgt 5%“. Die Alternative kann allgemein (z.B. „Heilungswahrscheinlichkeit > 50%“) oder konkret („Heilungswahrscheinlichkeit = 60%“) formuliert werden. Die Fehlerwahrscheinlichkeit β hängt von der konkreten Alternative ab, für α spielt es keine Rolle, ob man sich auf eine konkrete Alternative festlegt oder nicht. Es bezeichne K den Kritischen Bereich und T die Prüfgröße. Dann gilt P(K) = α falls die Nullhypothese zutrifft und P(K) = 1-β, falls die (konkrete!) Alternative zutrifft. 6.11* Zum Weiterdenken Vergleichen Sie die Begriffsbildungen zum statistischen Test mit denjenigen zum diagnostischen Test. Begründen Sie, inwiefern man den Fehler erster Art mit 1- Sensitivität und den Fehler zweiter Art mit 1-Spezifität vergleichen kann. Wie würde man beim statistischen Test das Analogon für die beiden prädiktiven Werte interpretieren? Was würde der Prävalenz entsprechen? Welches Problem würde sich also bei Anwendung der Bayesschen Formel ergeben? Man spricht im Rahmen der Medikamentenzulassung vom Fehler 1. Art als Patientenrisiko und vom Fehler 2. Art als Herstellerrisiko. Auf welches Risiko wird somit das Patientenrisiko reduziert? Gibt es auch andere Risiken für den Patienten? 30 Statistik 1, WiSe 08/09, Martus 6.11 Beispiel (Fortsetzung) In der klinischen Studie mit 15 Patienten lautet das einseitige Testproblem H0: P ∈ ]0,0.5], H1: P ∈ ]0.5, 1[ und das zweiseitige Testproblem H0: P ∈ {0.5}, H1: P ∈]0 , 0.5[ ∪ ]0.5, 1[. Die Testentscheidung ordnet jedem möglichen Studienergebnis aus {0,1,...,15} die Beibehaltung oder Ablehnung von H0 zu. Beim einseitigen Testproblem hatten wir uns entschieden, H0 abzulehnen, falls k ≥ 12. Der kritische Wert K war also 12. Die Wahl von K war aufgrund der Vorgabe erfolgt, dass die Wahrscheinlichkeit, H0 abzulehnen, obwohl H0 zutrifft, maximal 0.05 sein sollte. 6.12 Bemerkungen Das Testproblem ist bewusst asymmetrisch formuliert: Wenn man die Nullhypothese ablehnen kann, gilt die Alternative als statistisch bewiesen. Wenn man die Nullhypothese nicht ablehnen kann, gilt sie deswegen noch lange nicht als statistisch bewiesen. In den folgenden Abschnitten werden die bisher eher verwendeten Begriffsbildungen in einer Serie von mathematischen Definitionen präzisiert (kein Prüfungsstoff). 6.13* Definition (statistischer Raum) Gegeben sei eine Menge Ω zusammen mit einer Menge von Wahrscheinlichkeitsverteilungen P auf Ω. Dann heißt das Paar (Ω ,P) statistischer Raum. Wir sprechen von einem parametrischen statistischen Raum, wenn sich die Wahrscheinlichkeitsverteilungen in P durch einen (üblicherweise reellwertigen) Parameter (oder Parametervektor im Rn) beschreiben lassen, d.h. wenn man schreiben kann P = {Pθ | θ ∈ Θ}. 6.14* Definition (Testprobleme, Nullhypothese und Alternative, Entscheidungsfunktion, kritischer Bereich, kritischer Wert) Es sei (Ω, P) ein statistischer Raum mit P = {Pθ | θ ∈ Θ}. Θ0 und Θ1 seien zwei Teilmengen von Θ mit Θ0 ∩ Θ1=∅. 31 Statistik 1, WiSe 08/09, Martus Als Testproblem bezeichnet man die Aufgabe, aufgrund von Stichprobendaten zu entscheiden, ob man die Annahme H0: P∈ Θ0 zugunsten der Annahme H1: P∈ Θ1 ablehnen kann. H0 heißt Nullhypothese und H1 heißt Alternative. Falls Θ = R, Θ0 = ]a,b] und Θ1 = ]b,c[, spricht man von einem einseitigen Testproblem, falls Θ0={b} und Θ1 = ]a,b[∪]b,c[ spricht man von einem zweiseitigen Testproblem (-∞ ≤ a < b < c ≤ ∞). Als Entscheidungsfunktion bezeichnet man diejenige Funktion δ:Ω→{0,1}, die jedem möglichen Versuchsergebnis ω den Wert 0 (keine Ablehnung der Nullhypothese) oder 1 (Ablehnung der Nullhypothese) zuordnet. Als kritischen Bereich K bezeichnet man die Menge δ -1(1), also diejenigen Versuchsergebnisse, die zur Ablehnung der Nullhypothese führen. Ist Ω reell und hat der kritische Bereich die Gestalt eines Intervalls K = [K,∞[, bezeichnet man K als kritischen Wert. Wenn man vor die Entscheidungsfunktion eine Zufallsgröße X von Ω in einen einfacheren Ω' "zwischenschaltet", bezeichnet man X als Prüfgröße und spricht dann analog vom kritischen Wert für die Prüfgröße. 6.15* Definition (Fehler erster und Fehler zweiter Art, Macht, Machtfunktion) Bei gegebenem Testproblem nennt man Maxθ ∈Θ0 Pθ ( K ) den Fehler erster Art oder Signifikanzniveau und bezeichnet es mit α. (K ist der kritische Bereich). Für festes θ ∈ Θ1 nennt man 1 − Pθ ( K ) den Fehler zweiter Art. Die Funktion M : Θ → [0,1], M (θ ) = Pθ ( K ) bezeichnet man als Machtfunktion. 6.16 Beispiel (Fortsetzung) Im Beispiel mit 15 Patienten wurde der Fehler erster Art auf 0.05 begrenzt. Für den einseitigen Test wurden der Fehler zweiter Art für die speziellen Alternativen θ = 0.60, θ = 0.70, θ = 0.80 und θ = 0.90 bestimmt. Die Machtfunktion ordnet jeder Alternative die Macht des Tests zu. Sie hat auf ]0.5,1[ die Gestalt 32 Statistik 1, WiSe 08/09, Martus 1,00 0,80 macht 0,60 0,40 0,20 0,00 0,50 0,60 0,70 0,80 0,90 1,00 p 6.17 Definition (Überschreitungswahrscheinlichkeit) Bei bekanntem Versuchsergebnis kann man das niedrigste Signifikanzniveau angeben, für das das Studienergebnis noch signifikant gewesen wäre (vgl. Bemerkung 6.9). Es liegt bei maximal α, wenn das Studienergebnis signifikant für α war und bei größer α, wenn das Studienergebnis nicht signifikant für α war. Dieses "optimale" Signifikanzniveau bezeichnet man als Überschreitungswahrscheinlichkeit oder kürzer als p-Wert. 6.18 Beispiel (Fortsetzung) Der p-Wert für k = 11 Heilungen war 0.06, derjenige für k = 12 Heilungen 0.018. 6 .19 Algorithmus (Fallzahlschätzung)* Wenn man für eine Studie den Fehler zweiter Art begrenzen will, muss man die notwendige Mindestfallzahl bestimmen. Dabei geht man folgendermaßen vor: (0) Man legt Nullhypothese, Alternative und das Signifikanzniveau α fest. Für eine spezielle Alternative legt man den gewünschten Fehler zweiter Art β fest. (1) Für eine initiale Festlegung n der Fallzahl bestimmt man zunächst den kritischen Wert K (2) Für das gefundene K und eine spezielle Alternative bestimmt man den Fehler zweiter Art β(n) . 33 Statistik 1, WiSe 08/09, Martus (3) Wenn β(n) > β muss n erhöht werden, wenn β(n) < β kann n verringert werden. Schritt (1)-(3) wird solange wiederholt, bis man die notwendige Fallzahl gefunden hat. Analog kann man auch für eine feste Fallzahl die mit dem vorgegebenen Fehler zweiter Art „nachweisbare“ Alternative bestimmen. Nur bei sehr einfachen Testproblemen kann man für diese Fragestellungen geschlossene Formeln angeben. 6.20 Beispiel (Fortsetzung)* Für die Approximation der Binomial- durch die Normalverteilung lautet die geschlossene Form der Fallzahlschätzung für den einseitigen Test {z n= 1−α [π 0 (1 − π 0 )] + z1−β [π 1 (1 − π 1 )]} (π 1 − π 0 )2 2 Dabei bezeichnet zγ das γ-Quantil der Standardnormalverteilung, also den z-Wert für den gilt: 1 2π ∫ zγ −∞ − e z2 2 dz = γ Es gilt z0.95 = 1.645 und z0.80 = 0.893. Die notwendige Fallzahl für π0 = 0.50 und π1 = 0.60 ist {1.645 n= [0.5 • (1 − 0.5)] + 0.893 [0.6 • (1 − 0.6)]} (0.6 − 0.5)2 2 ≈ 157 . Für den zweiseitigen Test muss man α halbieren, also mit z0.975 (=1.96) statt z0.95 a(=1.645) arbeiten. 6.21 Übungen 1. Diskutieren Sie das Beispiel 3.4 mit Hilfe der in Kapitel 6 definierten Begriffe. 2. Programmieren Sie die Machtfunktion wie in Beispiel 6.16 aber für n = 150 (Näherung der Binomialverteilung durch die Normalverteilung verwenden!) 3. Simulieren Sie 3000 Durchläufe für die Studie aus Beispiel 6.2 jeweils mit p = 0.5 und p = 0.8. Bestimmen Sie, wie oft die Nullhypothese abgelehnt wird. 4. Simulieren Sie 3000 Durchläufe für die Studie aus Beispiel 6.6 mit p = 0.5. Bestimmen Sie die beobachtete kumulierte Verteilungsfunktion der p-Werte. 34 Statistik 1, WiSe 08/09, Martus 7 Methodenkatalog 7.1 Vorbemerkungen und Überblick In den folgenden Abschnitten werden wir einige statistische Tests vorstellen, die für medizinisch / biologische Anwendungen von Bedeutung sind. Die zugrunde liegende Theorie werden wird nur andeutungsweise behandeln, den Fehler erster Art immer auf 0.05 fixieren. Wenn nicht anders angegeben wird immer zweiseitig getestet. Für die Auswahl des korrekten statistischen Tests ist vor allem die Stichprobenstruktur von Bedeutung. Wir werden uns mit den drei wichtigsten Situationen beschäftigen: • • • Eine Stichprobe wird gegen einen bekannten Wert verglichen. Zwei Stichproben werden gegeneinander verglichen. Alle Werte können als unabhängig betrachtet werden (meistens, weil sie von verschiedenen Patienten stammen, die z.B. unterschiedliche Therapien erhalten oder zu unterschiedlichen Diagnosegruppen gehören). Zwei Stichproben werden gegeneinander verglichen. Jeweils ein Wert der ersten und der zweiten Stichprobe sind voneinander abhängig. Ansonsten sind die Werte unabhängig (meistens zwei Messungen am selben Patienten unter verschiedenen Bedingungen, z.B. unter zwei Therapien, von der linken und rechten Körperseite, an gesundem und krankem Gewebe). Aus der Stichprobenstruktur und der Verteilung des zu untersuchenden Merkmals ergibt sich dann jeweils der anzuwendende Test. Wir werden sehen, dass der dritte Fall auf den ersten zurückgeführt werden kann. Die in diesem Abschnitt vorgestellten Beispiele sollen lediglich den Rechenweg verdeutlichen und stammen nicht aus realistischen Anwendungen. In der Übung werden reale Anwendungsbeispiele behandelt. 7.2 Binomialtest Dieser Test wurde in Kapitel 6 ausführlich behandelt. Wir analysieren eine Stichprobe, bei der die Häufigkeit eines bestimmten Ereignisses interessiert: Notation n k Nullhypothese: π = π0 Alternative: π > π0 (einseitig) π < π0 (einseitig) π ≠ π0, (zweiseitig, d.h. π > π0 oder π < π0 ) Prüfgröße k Verteilung der Prüfgröße unter der Nullhypothese b(n,π0,k) Stichprobenumfang Häufigkeit des Ereignisses 35 Statistik 1, WiSe 08/09, Martus Kritischer Wert (einseitig) Das kleinste K mit ∑ n k =K b(n, π 0 , k ) ≤ 0.05 Wenn nicht die exakte Formel der Binomialverteilung sondern die Näherung des Zentralen Grenzwertsatzes verwendet wird, ändert sich die Prüfgröße: Notation beobachtete Häufigkeit k/n Dichtefunktion der Standardnormalverteilung p −π0 Z= n π 0 • (1 − π 0 ) p f Prüfgröße Verteilung der Prüfgröße unter der Nullhypothese Normalverteilung N(0,1) Kritischer Wert (einseitig) Das Z mit ∫ +∞ f ( z )dz = 0.05 Z 7.3 z-Test Wir analysieren eine Stichprobe des Umfangs n von normalverteilten Daten. Wir wollen zeigen, dass sich der Erwartungswert μ der zugrundeliegenden Wahrscheinlichkeitsverteilung von einem vorgegebenen Wert μ0 unterscheidet. Wir gehen davon aus, dass die Varianz σ2 bekannt ist (in realen Beispielen eher die Ausnahme!). Nullhypothese: μ = μ0 Alternative: μ > μ0 (einseitig) μ < μ0 (einseitig) μ ≠ μ0, (zweiseitig, d.h. μ > μ0 oder μ < μ0 ) _ x− μ 0 _ Prüfgröße Z= Verteilung der Prüfgröße unter der Nullhypothese Normalverteilung N(0,1) f ( z) Kritischer Wert (μ > μ0) Kritischer Wert (μ < μ0) Kritischer Wert (μ ≠ μ0) σ2 1 = 2π ∫ Das Z mit ∫ Das Z mit ∫ Das Z mit ( x = Mittelwert der Stichprobe) n − e z2 2 dz +∞ Z Z f ( z )dz = 0.05 , also Z = 1.645 −∞ Z −Z f ( z )dz = 0.05 , also Z = -1.645 f ( z )dz = 0.95 , also Z = 1.96 d.h. ∫ +∞ Z f ( z )dz = 0.025 und ∫ −Z −∞ f ( z )dz = 0.025 36 Statistik 1, WiSe 08/09, Martus Beispiel (S bezeichne die Stichprobe): S = (1.5,2.5,1.5,2.5), μ0 = 1, σ2 = 0.25, Z = (2-1)/√0.25)√4 = 1/0.5*2 = 4 > 1.96. Wir können also die Nullhypothese ablehnen. Wir haben (statistisch) gezeigt, dass der tatsächliche Erwartungswert größer als μ0 = 1 ist. Sie kennen den z-Test schon aus Abschnitt 7.2. Nach Transformation der Häufigkeit auf eine normalverteilte Variable wurde in 7.2 genau wie im jetzigen Abschnitt 7.3 weitergerechnet. 7.4 t-Test (für eine Stichprobe) Im Gegensatz zu 7.3 kennen wir die Varianzen nicht, sondern schätzen sie aus der Stichprobe. Wir behandeln hier nur den zweiseitigen Test, die einseitige Variante ist analog, Die Varianz lässt sich aus der Stichprobe durch s2 = _ n ⎛ 1 ⎞ x x − ⎟ ⎜ i ∑ i =1 n −1 ⎠ ⎝ 2 schätzen. Nullhypothese: μ = μ0 Alternative: μ ≠ μ0, (zweiseitig, d.h. μ > μ0 oder μ < μ0) _ x− μ 0 Prüfgröße t= Verteilung der Prüfgröße unter der Nullhypothese t-Verteilung mit ν = n-1 Freiheitsgraden = tν (für beliebiges σ2!) n s2 ⎛ν + 1 ⎞ Γ⎜ ⎟ ⎝ 2 ⎠ ⎛ν ⎞ Γ⎜ ⎟ πν ⎝2⎠ f (t ,ν ) = ⎛ t2 ⎜⎜1 + ⎝ ν ⎞ ⎟⎟ ⎠ ν +1 − 2 * Es gilt Γ(0.5) = √π, Γ(n+0.5) = (n-0.5)• Γ(n-0.5) und Γ(n) = (n-1)! (jeweils n>0, ganzzahlig). Dadurch lassen sich die Werte der Γ-Funktion für alle Freiheitsgrade bestimmen. Kritischer Wert (μ ≠ μ0) Das T mit ∫ T −T f (t )dt = 0.95 , im Beispiel T = 3.18 Beispiel: S = (1.5,2.5,1.5,2.5), μ0 = 1, s2 = 1/3 = 0.33, t = (2-1)/√0.33)√4 = 2/0.57 = 3.46 > 3.18. Wir können also die Nullhypothese ablehnen. Es ist statistisch bewiesen, dass der tatsächliche Erwartungswert μ0 größer als 1 ist. 37 Statistik 1, WiSe 08/09, Martus 7.5 Chi-Quadrat Test (für zwei Stichproben) Wir analysieren zwei nicht unbedingt gleichgroße, unabhängige Stichproben und beobachten das Eintreten eines bestimmten Ereignisses. Z.B. könnte es sich um Patienten handeln, die zufällig einer von zwei Therapien zugeordnet wurden und für die der Heilungserfolg beobachtet wurde. Wir stellen hier nur den zweiseitigen Fall des Tests vor. Notation n1 ; n2 ; n k1,obs ; k2,obs ; kobs _ Stichprobenumfang Stichprobe 1, Stichprobe 2, Gesamtstichprobe Beobachtete Häufigkeit Stichprobe 1, Stichprobe 2, Gesamtstichprobe p Relative Häufigkeit in der Gesamtstichprobe = kobs / n k1,exp Erwartete Häufigkeit erste Stichprobe, falls π = p , also p • n1 k2,exp Erwartete Häufigkeit, zweite Stichprobe, falls π = p , also p • n2 _ _ _ Nullhypothese: π1 = π2 Alternative: π1 ≠ π2, (zweiseitig) _ Prüfgröße (k χ2 = − k1,obs ) 2 1,exp Verteilung der Prüfgröße unter der Nullhypothese k1,exp (k + n1 − k1,exp (k + − k 2,obs ) 2 2 ,exp k 2,exp (k + − k 2,obs ) 2 2 ,exp n2 − k 2,exp * Chi-Quadrat-Verteilung mit einem Freiheitsgrad (asymptotisch) 1 X mit t 1 −2 −2 t e 2π f (x) = Kritischer Wert − k1,obs ) 2 1,exp ∫ X −∞ * f (t )dt = 0.95 , also X = 3.84 Beispiel: In beiden Gruppen werden jeweils 40 Patienten behandelt. In der ersten Gruppe werden 10, in der zweiten werden 30 Patienten geheilt. In beiden Gruppen wären somit je 20 Heilungen zu erwarten. Wir erhalten χ2 = 1/20•(100+100+100+100) = 20, wir haben also (statistisch) nachgewiesen, dass π1 > π2. 7.6 t-Test (für zwei unabhängige Stichproben) Wir gehen davon aus, dass ein Merkmal in zwei Gruppen normalverteilt ist und dass die Varianzen zwar unbekannt, aber in beiden Gruppen gleich sind. Forschungshypothese ist, dass sich die beiden Erwartungswerte unterscheiden. Die Normalverteilung der Daten und die identische Varianz in beiden Gruppen sind dagegen Modellannahmen, die, egal ob H0 oder H1 zutrifft, als gegeben angenommen werden (aber gegebenenfalls mit statistischen Methoden überprüft werden können). 38 Statistik 1, WiSe 08/09, Martus Notation: n1 ; n2 ; n _ _ Stichprobenumfang Stichprobe 1, Stichprobe 2, Gesamtstichprobe x1 ; x 2 Mittelwert Stichprobe 1, Stichprobe 2 s12 ; s 22 (empirische) Varianz Stichprobe 1, Stichprobe 2 Die als identisch angesehene wahre Varianz σ2 lässt sich aus den beiden Stichproben durch s 2 ( n1 − 1) s12 + (n2 − 1) s 22 = n1 + n2 − 2 * schätzen. Nullhypothese: μ1 = μ2 Alternative: μ1 ≠ μ2, _ _ x1 − x 2 t= Verteilung der Prüfgröße unter der Nullhypothese t-Verteilung mit ν = n1 + n2 - 2 Freiheitsgraden (für beliebiges σ2!) Kritischer Wert (μ ≠ μ0) Das T mit s2 • n1 • n2 n1 + n 2 Prüfgröße ∫ T −T f (t )dt = 0.95 , im Beispiel T = 2.57 Beispiel: _ _ S 1 = (1.5,2.5,1.5,2.5), S 2 = (2.5,3,3.5), x 1 = 2, s12 = 1/3 = 0.33, x 2 = 3, s 22 = 0.25, s2 = 1/5*(3*0.33+2*0.25) = 0.3, t = (2-3)/√0.3*√(12/7) = - 2.39 > - 2.57. Wir können also die Nullhypothese nicht ablehnen. Wir haben aber deswegen nicht bewiesen, dass der Erwartungswert in beiden Gruppen gleich groß ist. 7.7 t-Test (t-Test für abhängige = verbundene = paarige Stichproben) Wir führen pro Proband zwei Messungen durch. Man könnte z.B. die Schmerzschwelle unter zwei verschiedenen Schmerzmitteln messen oder den Blutdruck vor und nach Therapie miteinander vergleichen. In diesem Abschnitt gehen wir von Messungen einer kontinuierlichen Zufallsgröße aus, im folgenden Abschnitt von ja/nein Messungen. Wir bezeichnen die beiden Zufallsvariablen mit X1 und mit X2, die Stichproben entsprechend mit S1 und S2. 39 Statistik 1, WiSe 08/09, Martus Notation: Stichprobenumfang Stichprobe 1 (= Stichprobenumfang Stichprobe 2) n _ _ x1 ; x 2 Mittelwert Stichprobe 1, Stichprobe 2 di (i=1,...,n) Individuelle Differenzen aus Stichprobe 1 und Stichprobe 2 _ _ _ _ d Mittelwert der individuellen Differenzen, d = x1 − x 2 s d2 (empirische) Varianz der individuellen Differenzen Nullhypothese: μ1 = μ2 Alternative: μ1 ≠ μ2 (zweiseitig, d.h. μ1 < μ2 oder μ1 > μ2) Die Varianz lässt sich aus der Stichprobe durch _ 1 n ⎛ ⎞ s = d d − ∑ ⎟ i =1 ⎜ i n −1 ⎝ ⎠ 2 2 schätzen. _ d Prüfgröße t= Verteilung der Prüfgröße t-Verteilung mit ν = n-1 Freiheitsgraden Kritischer Wert (μ ≠ μ0) Das T mit n s d2 ∫ T −T f (t )dt = 0.95 Wir setzen nicht voraus, dass X1 und X2 unabhängig sind, das wäre auch extrem unrealistisch. Es wird auch nicht verlangt, dass X1 und X2 normalverteilt sein müssen. Wir setzen aber voraus dass die Differenzen XD normalverteilt sind. Beispiel: X1 X2 XD 1 1 0 3 5 2 4 3 -1 3 5 2 5 6 1 4 6 2 2 2 0 4 6 2 5 4 -1 4 6 2 6 7 1 5 7 2 Wenn wir in die Prüfgröße einsetzen ist das genauso als würden wir auf SD den Test aus Abschnitt 7.4 mit μ0 = 0 anwenden. Dies zeigt, dass der (abhängige) Zweitstichprobenfall eigentlich ein Spezialfall des Einstichprobenfalls ist. 40 Statistik 1, WiSe 08/09, Martus Mittlere Differenz: Stichprobenvarianz der Differenzen: Fallzahlfaktor √12 Prüfgröße t Kritischer Wert (ν = 11) 1.0 1.455 3.46 2.872 2.20 Es ist statistisch gezeigt, dass die Werte der zweiten Stichprobe größer sind als diejenigen der ersten. Zum Vergleich: Wenn X1 und X2 aus unabhängigen Stichproben kämen, wäre t = 1.44 und das Ergebnis nicht signifikant. Der Grund liegt darin, dass die Varianz von X1 und X2 größer ist als diejenige von D. Außerdem ist der Fallzahlfaktor bei unabhängigen Stichproben √[(12*12)/(12+12)] = √(12/2) = √6 und bei abhängigen Stichproben √(12). Die Zahl der Freiheitsgrade ist allerdings bei unabhängigen Stichproben größer als bei abhängigen (2n-2 gegenüber n-1). 7.8 Vorzeichentest (Vergleich zweier abhängiger Stichproben - Häufigkeiten) Bei dichotomen (ja/nein) Variablen erhält man pro Proband ebenfalls zwei Messungen, die wir als Zufallsvariablen mit X1 und mit X2 bezeichnen, also z.B. Heilung ja (1), nein (0). Sowohl X1 als auch X2 können nur die Werte 0 und 1 annehmen. Die Differenzenvariable D = X1 - X2 kann somit nur die Werte -1, 0 und 1 annehmen. Zur Signifikanztestung ignoriert man die Null-Differenzen und vergleicht die positiven mit den negativen Differenzen mit Hilfe des Binomialtests für π0 = 0.5 . Die Wahl von π0 ist dadurch begründet, dass bei gleichen Heilungswahrscheinlichkeiten die Differenzen -1 und +1 jeweils etwa gleichhäufig auftreten müssten. Der Binomialtest wurde in Kapitel 6 ausführlich behandelt. Die Notation zeigt, dass man den Vorzeichentest als Spezialfall des Binomialtests auffassen kann – ganz analog wie man den tTest für abhängige Stichproben als Spezialfall des t-Tests für eine Stichprobe auffassen kann. Notation n k π Stichprobenumfang (nach Streichung von X1 = X2) Beobachtete Häufigkeit von X1 > X2. ( falls X1 ≠ X2) Wahrscheinlichkeit für X1 > X2. ( falls X1 ≠ X2) Nullhypothese: π = 0.5 Alternative: π > 0.5 (einseitig) π < 0.5 (einseitig) π ≠ 0.5, (zweiseitig, d.h. π > 0.5 oder π < 0.5) Prüfgröße k (also identische Abbildung) Verteilung der Prüfgröße unter der Nullhypothese b(n,0.5,k) Kritischer Wert (einseitig) Das kleinste K mit ∑ n k =K b ( n, 0.5, k ) ≤ 0.05 41 Statistik 1, WiSe 08/09, Martus Wenn nicht die exakte Formel der Binomialverteilung sondern die Näherung des Zentralen Grenzwertsatzes verwendet wird, ändert sich die Prüfgröße: beobachtete Häufigkeit k/n Dichtefunktion der Standardnormalverteilung p − 0.5 p − 0.5 Z= n= n 0.5 0.5 • 0.5 Normalverteilung N(0,1) Notation p f Prüfgröße Verteilung der Prüfgröße unter der Nullhypothese Kritischer Wert (einseitig) Das Z mit ∫ +∞ Z f ( z )dz = 0.05 Beispiel: X1 1 1 0 1 0 1 1 0 1 1 1 1 X2 0 0 0 0 1 0 0 0 0 1 0 0 D 1 1 (0) 1 -1 1 1 (0) 1 (0) 1 1 Wir erhalten acht positive und eine negative Differenz. Drei Nulldifferenzen werden gestrichen. Insgesamt müssen wir also einen Binomialtest mit n = 9, π0 = 0.5 und k = 8 rechnen. Es gilt ∑ b(9,0.5, k ) + ∑k =8 b(9,0.5, k ) = 0.039. k =0 1 9 Wir haben also (statistisch) nachgewiesen, dass die Heilungswahrscheinlichkeit unter der ersten Therapie größer ist als unter der zweiten. 7.9 Vorbemerkung zu den Tests für nichtnormalverteilte Daten Falls die Daten aufgrund der Skalierung von vornherein nicht normalverteilt sein können wie z.B. bei Schulnoten (1-6) oder Erkrankungsstadien (sogenannte „Ordinalskalen“ ) der Fall oder falls die beobachtete Werteverteilung bei Messwerten zu deutlich von der Normalverteilung abweicht (z.B. unsymmetrische Verteilung von Labordaten) kann man für die Analyse Tests verwenden, die auf der Rangtransformation der Daten beruhen (vgl. Abschnitt 7.10). Die Frage, ab wann Daten als normalverteilt anzusehen sind oder mit welchen Methoden dies beurteilt werden sollte, kann leider nicht eindeutig beantwortet werden – eine der Grauzonen der angewandten Statistik.... Für den Fall von unsymmetrisch verteilten Messwerten helfen manchmal Transformationen (z.B. Logarithmusfunktion, Wurzelfunktion, Arcus Sinus Funktion für Prozentwerte). 42 Statistik 1, WiSe 08/09, Martus 7.10 Rangsummentest (=Mann-Whitney Test = Wilcoxon Test für unabhängige Stichproben) Zur Durchführung des Rangsummentests muss zunächst eine Rangtransformation durchgeführt werden. Bei der Zuordnung von Rängen erhält der kleinste Wert der Stichprobe den Rang 1, der zweitkleinste den Rang 2 und bei einer Stichprobe vom Umfang n der größte Wert den Rang n. Tritt der gleiche Wert in einer Stichprobe mehrfach auf, werden mittlere Ränge vergeben (s.u.). Beispiel: Durch zwei Antihypertensiva A und B soll der systolische Blutdruck gesenkt werden (Skala: mmHg). 20 Patienten wurden randomisiert in zwei Gruppen mit jeweils 10 Patienten aufgeteilt. Die erste Gruppe erhielt Medikament A, die zweite Gruppe Medikament B. In der folgenden Tabelle sind die Differenzen vorher-nachher angegeben. Positive Werte sind also erwünscht, da sie die Senkung des Blutdrucks zeigen. A B Patient Wert Rang Patient Wert Rang 1 13 6.5 11 17 14 2 11 3 12 19,5 18 3 17 14 13 18 16.5 4 18 16.5 14 16 12 5 14 8.5 15 17 14 6 9 2 16 13 6.5 7 15 11 17 11,5 4 8 0 1 18 32,5 20 9 14 8.5 19 21 19 10 12 5 20 14,5 10 Die angegebenen Rangwerte beziehen sich auf die Gesamtstichprobe. Der Wert 13 trat zwei mal auf (Rangplätze 6 und 7), vergeben wurde zweimal der mittlere Rang 6.5 (analog für Werte 14 und 18). Der Wert 17 trat drei mal auf, vergeben wurden nicht die Ränge 13, 14 und 15 sondern der mittlere Rang 14. Weitere Durchführung: (1) Berechnung der Rangsummen RA und RB in beiden Stichproben. RA = 76, RB = 134 (2) Berechnung der beiden abgeleiteten Größen UA = n1*n2 + n1*(n1+1)/2-RA UB = n1*n2 + n2*(n2+1)/2-RB UA = 10*10+10*11/2-76 = 79 UB = 10*10+10*11/2-134 = 21 (3) Berechnung des Minimums von UA und UB Min(UA,UB) = 21 (4) Vergleich mit dem kritischen Wert (für Signifikanzniveau 5%, zweiseitig: 23). 43 Statistik 1, WiSe 08/09, Martus Liegt der Wert der Stichprobe unter dem kritischen Wert, ist ein Unterschied zwischen beiden Therapien nachgewiesen. Im vorliegenden Beispiel konnte also gezeigt werden, dass tatsächlich ein signifikanter Unterschied zwischen beiden Therapien vorliegt. 7.11 Hinweise zum Rangsummentest* Streng genommen prüft der Rangsummentest die Nullhypothese „Kumulierte Verteilungsfunktion in beiden Gruppen identisch“ vs. die Alternative „Kumulierte Verteilungsfunktion in beiden Gruppen unterschiedlich“. Damit wäre er theoretisch auch zum Vergleich der Varianzen zweier Stichproben mit gleichen Erwartungswerten geeignet. Für diese Fragestellungen ist er aber gerade nicht gedacht. Es geht vielmehr darum, zu prüfen, ob „im Schnitt“ in der einen Stichprobe die Werte größer sind als in der anderen Stichprobe. (Nur) für den Fall, dass die beiden Verteilungen durch Verschieben ineinander übergeführt werden können (also insbesondere dass die beiden Varianzen identisch sind), prüft der Rangsummentest die Nullhypothese „Gleichheit der Mittelwerte“. Dennoch wird das Ergebnis für gewöhnlich im letztgenannten Sinn interpretiert! 7.12 Vorzeichenrangtest (= Wilcoxon Test für abhängige Stichproben) Beispiel: In einer Studie an 10 Patienten wurde der Einfluss eines Antihypertensivums auf die Reduktion des linksventrikulären Masseindex untersucht. Die folgenden Ergebnisse wurden gemessen: Pat. Nr. 1 2 3 4 5 6 7 8 9 10 vorher 119.2 156.0 145.0 137.2 124.8 160.4 141.3 144.1 151.5 130.8 nachher 107.8 156.0 137.0 142.7 112.4 125.7 135.6 125.1 143.4 136.5 Differenz -11.4 0 -8.0 5.5 -12.4 -34.7 -5.7 -19 -7.7 5.7 Vorzeichen - fällt - + - - - - - + Rang 6 weg 5 1 7 9 2.5 8 4 2.5 Man bestimmt nun die Summe der Ränge positiver Differenzen, die Summe der Ränge negativer Differenzen und das Minimum aus beiden: R- = 6+5+7+9+2.5+8+4 = 41.5 R+ = 1+2.5 =3.5 Min(R-,R+) = 3.5 Man vergleicht das Ergebnis mit tabellierten bzw. aus Softwarepaketen abrufbaren kritischen Werten. Das Ergebnis ist signifikant, wenn die der Stichprobenwert kleiner oder gleich dem kritischen Wert ist. Im Beispiel ist der kritische Wert 5, sodass das Ergebnis signifikant wird. 44 Statistik 1, WiSe 08/09, Martus 7.13 Hinweise zum Vorzeichenrangtest* Der Vorzeichenrangtest hat im Vergleich zum Rangsummentest ungünstigere theoretische Eigenschaften. Der Test ist nur dann valide, wenn die Verteilung der Differenzen unter der Nullhypothese symmetrisch ist. Dann wird die Nullhypothese „mittlere Differenz = 0“ getestet. Manche Autoren empfehlen daher, die Ränge zu ignorieren und einfach den Vorzeichentest anzuwenden. 7.14 Zum Weiterdenken* Ein gängiges Verfahren zur Prüfung der Normalverteilung ist die Anwendung eines Signifikanztests (z.B. Kolmogoroff Smirnov Test). Ein Test kann aber die Frage, ab wann Daten als normalverteilt anzusehen sind, nicht beantworten. Die Anwendung eines Tests mit H0: H1: Daten sind normalverteilt Daten sind nicht normalverteilt widerspricht der Logik des statistischen Tests, denn im allgemeinen will man ja beweisen, dass die Daten normalverteilt sind. Hinzukommt, dass die Macht eines derartigen Tests mit zunehmender Fallzahl steigt, obwohl gerade bei großen Fallzahlen die Abweichung von der Normalverteilung weniger gravierend ist als bei kleinen Fallzahlen. Tests, die H0 und H1 einfach vertauschen sind nicht möglich, Modifikationen werfen methodische Probleme auf, die über den Stoff dieser Vorlesung hinausgehen. Für die praktische Arbeit empfiehlt es sich, die Entscheidung für oder gegen die Normalverteilung von zwei Parametern abhängig zu machen, der Schiefe (Prüfung auf Symmetrie der Dichtefunktion) und der Wölbung (= Kurtosis, Vergleich der Krümmung der Dichtefunktion mit derjenigen einer Normalverteilung.) Eine Faustregel besagt, dass beide Parameter zwischen –1 und +1 liegen sollten. 7.15 Übersicht der statistischen Tests Die folgende Tabelle stellt alle statistischen Tests dar, die wir behandelt haben. Der Exakte Fisher Test wird hier nur genannt, er ist nicht Thema der Vorlesung. Stichprobe(n) Skalierung kategorielle Daten ordinale Daten nicht normalverteilte stetige Daten normalverteilte Daten Zwei unverbundene Stichproben Chi-Quadrat-Test (n<20: Exakter Fisher Test*) Rangsummentest t-Test für unverbundene Stichproben Zwei verbundene Stichproben Binomialtest mit p = 0.5 Eine Stichprobe Binomialtest mit p beliebig Vorzeichenrangtest oder Vorzeichentest t-Test für verbundene Stichproben t-Test für eine Stichprobe 45 Statistik 1, WiSe 08/09, Martus 7.16 Übungsaufgabe Ein Dozent will, dass Statistik Spaß macht und gibt 30 Studenten die Hausaufgabe, 100 mal eine Münze zu werfen. Wir gehen davon aus, dass die Münzen tatsächlich unverfälscht sind. Folgende Ergebnisse werden in der Übung präsentiert: 50 mal Kopf 50 mal Zahl 49 mal Kopf 51 mal Zahl 51 mal Kopf 49 mal Zahl 20 6 4 Studenten Studenten Studenten Welcher Verdacht würde sich einem misstrauischen Übungsleiter aufdrängen? Wie könnte man diesen Verdacht mit Hilfe eines statistischen Tests prüfen? 7.17 Bemerkungen Es ist wichtig, die Formeln der Prüfgrößen der einzelnen Tests zu verstehen (im Gegensatz zu den Formeln der Dichtefunktionen!), weil sie die Rationale dieser Tests verdeutlichen. Die Chi-Quadrat Verteilung mit einem Freiheitsgrad ist die Verteilung des Quadrats einer normalverteilten Zufallsgröße. Insbesondere gilt für die kritischen Werte 1.962 = 3.84. 7.18 Übungsaufgabe Ein Dozent will die Leistungen von zwei Jahrgängen vergleichen. Welche Tests werden verwendet, wenn die Leistungen - lediglich nach bestanden/nicht bestanden bewertet werden - mit Hilfe von Schulnoten (1-6) bewertet werden - mit Hilfe normalverteilter Punktzahlen (0-100) bewertet werden? Welche Tests würden verwendet, wenn die Leistungen derselben Studenten in zwei verschiedenen Fächern beurteilt werden sollten? 7.19 Übungsaufgabe Berechnen Sie den t-Test aus Abschnitt 7.7 so, als wären die Stichproben unabhängig. 7.20 Zum Weiterdenken* Im ersten Jahrgang von Aufgabe 7.18 gab es Proteste, dass die Veranstaltung A zu schwer sei. Daher wurde sie im nächsten Jahrgang deutlich vereinfacht angeboten. Eine zweite Veranstaltung B wurde dagegen unverändert angeboten. Wie könnte man die Ergebnisse der Veranstaltung B nutzen, um zu überprüfen, ob eine Änderung der Ergebnisse von Veranstaltung A tatsächlich auf dem geänderten Konzept beruht und nicht einfach auf Unterschieden zwischen den Jahrgängen? 46 Statistik 1, WiSe 08/09, Martus Teil C Korrelation und Regression, Konfidenzintervalle 8.1 Vorbemerkung Bei der Regressionsanalyse untersuchen wir die Möglichkeit, den Wert einer Zufallsgröße Y aus dem Wert einer oder mehrerer anderer zufälliger oder deterministischer Variablen X bzw. X1, X2,...,Xp vorherzusagen. Der hier behandelte, einfachste Fall ist durch vier Kriterien charakterisiert: • • • • Zur Vorhersage von Y wird nur eine Variable X verwendet. Der Erwartungswert von Y hängt vom Vektor (β0, β1) linear ab, d.h. E(Y|X) = β0+β1X. X wird als deterministisch angenommen. Bei gegebenen X ist Y normalverteilt mit von x unabhängiger, also konstanter Varianz σ2. Insgesamt ergibt sich also die Modellgleichung bzw. Yi = β0 + β1Xi + εi mit εi ~ N(0,σ2) Yi = E(Y|Xi) + εi mit εi ~ N(0,σ2). Man beachte, dass σ2 nicht von i abhängt (entspricht dem vierten Kriterium der Aufzählung oben). 8.2 Anwendungsbeispiel (Diagnose des grünen Stars) Grüner Star (Glaukom) ist eine Krankheit, bei der es zu Gesichtsfeldverlust kommt, der in vielen Fällen verursacht ist durch Erhöhung des intraokularen Drucks und darauf folgende Schädigung des Sehnervs. Die Entwicklung von Methoden zur Früherkennung dieser Krankheit ist ein zentrales Forschungsgebiet der Augenheilkunde, weil die Schädigung des Sehnerven irreversibel ist. Die Perimetrie gilt als "Goldstandard" für die Erkennung funktioneller Schäden beim grünen Star. Der Erlanger Flimmertest ist ein Schnelltest, der z.B. in Screeninguntersuchungen von Risikogruppen verwendet werden soll. Man interessiert sich dafür, ob dieser Test die Ergebnisse der Perimetrie grob vorhersagen kann. Y: Perimetrie (Abweichung der Lichtunterscheidungsempfindlichkeit [dB], gemittelt über 59 Punkte des Gesichtsfeldes, gegenüber Normalwerten) X: Erlanger Flimmertest (Kontrastempfindlichkeitsmessung [%] auf Flimmerreiz, Stimulus im gesamten Gesichtsfeld) 47 Statistik 1, WiSe 08/09, Martus Klinische Fragestellung: Lässt sich das Ergebnis der Perimetrie aus dem Ergebnis des Erlanger Flimmertests durch eine lineare Gleichung vorhersagen? Stichprobe (verkleinert): 10 Augen von 10 Patienten mit beginnendem grünen Star aus dem Erlanger Glaukomregister (Klinisches Register an der Universitäts-Augenklinik mit Poliklinik der Friedrich AlexanderUniversität Erlangen-Nürnberg). Rohdaten: Nr (=i) Yi Xi 1 6.1 13.2 2 9.7 12.5 3 4.1 15.5 4 8.8 10.1 5 4.0 12.5 6 7.9 11.9 7 7.4 8.9 8 6.4 10.2 9 10.4 5.4 10 10.3 8.3 Y: Stichprobe der Perimetriemessungen, X: Stichprobe der Flimmertestmessungen Grafische Darstellung mit Regressionsgerade: Gesichtsfeld Mittlerer Defekt (MD) 11 10 9 8 7 6 5 4 3 4 6 8 10 12 14 16 Erlanger Flimmertest 48 Statistik 1, WiSe 08/09, Martus 8.3 Die Kleinstquadrate Schätzung der Regressionsgerade _ Der Mittelwert y einer Stichprobe ist derjenige Wert, der den Ausdruck _ 1 n ⎛ ⎞ s = y y − ⎟ ⎜ ∑ i i =1 n −1 ⎠ ⎝ 2 2 _ minimiert. y minimiert den quadrierten Abstand zu den beobachteten Werten. Man sagt auch dass in der (einfachsten) Regressionsgleichung E(Y) = β0 eine Kleinstquadrateschätzung des Parameters β0 darstellt, also _ ^ y = β0 . Für die Schätzung der Regressionsgerade kommt ein weiterer Parameter, β1, dazu. Ziel ist es jetzt, die Abstandsquadrate ∑ [ y − (β i i 0 + β1 ⋅ xi )] 2 zu minimieren. Man kann mit Methoden der Differentialrechnung zeigen, dass die Lösung durch die folgenden Gleichungen gegeben ist: ^ β1 = s yx s xx , ^ β0 = ^ y − β1 ⋅ x In diesen Gleichungen bedeutet sxx die (Stichproben-) Varianz von X und syx die Kovarianz von Y und X. In der Formel der Kovarianz von Y und X wird der quadratische Term _ ⎞ ⎛ ⎜ xi − x ⎟ ⎠ ⎝ 2 durch den gemischten Term _ _ ⎞ ⎛ ⎞⎛ ⎜ xi − x ⎟⎜ y i − y ⎟ ⎠ ⎝ ⎠⎝ ersetzt, COV(X,Y) = syx = s2 = _ _ 1 n ⎛ ⎞ ⎞⎛ x x y y − − ⎜ ⎟. ⎜ ⎟ ∑ i i i =1 n −1 ⎠ ⎝ ⎠⎝ 49 Statistik 1, WiSe 08/09, Martus 8.4 Fortsetzung des Beispiels, Berechnung der Stichprobenparameter Nr (=i) 1 2 3 4 5 6 7 8 9 10 Σ Σ/10 Σ/9 Yi Xi 6.1 9.7 4.1 8.8 4.0 7.9 7.4 6.4 10.4 10.3 75.1 7.51 13.2 12.5 15.5 10.1 12.5 11.9 8.9 10.2 5.4 8.3 108.50 10.85 _ _ _ (Yi- y )2 1.99 4.80 11.63 1.66 12.32 0.15 0.01 1.23 8.35 7.78 49.93 --5.55 Yi- y -1.41 2.19 -3.41 1.29 -3.51 0.39 -0.11 -1.11 2.89 2.79 0 0 Xi- x 2.35 1.65 4.65 -0.75 1.65 1.05 -1.95 -0.65 -5.45 -2.55 0 0 _ (Xi- x )2 5.52 2.72 21.62 0.56 2.72 1.10 3.80 0.42 29.70 6.50 74.69 --8.30 _ _ (Yi- y )(Xi- x ) -3.31 3.61 -15.86 -0.97 -5.79 0.41 0.21 0.72 -15.75 -7.11 -43.84 ---4.87 _ Mittelwerte x , _ Varianzen s y2 = s yy , s x2 = s xx Kovarianz s yx y Y: Stichprobe der Perimetriemessungen, X: Stichprobe der Flimmertestmessungen ^ β1 = s yx s xx = − 4.87 8.30 = − 0.59, ^ β0 = ^ y − β1 ⋅ x = 7.51 − (−0.59) • 10.85 = 13.88 Also lautet die Gleichung der geschätzten Regressionsgerade Y = 13.88 - 0.59•X. 8.5 Bemerkung: Gütemaße für die Anpassung der Regressionsgerade Bisher haben wir noch keine Aussage darüber treffen können, wie „gut“ die Regressionsgerade zu den Daten passt. Dies ist Thema der folgenden Abschnitte. Wir untersuchen insgesamt fünf Gütemaße, die im Folgenden motiviert und beschrieben werden. Es handelt sich um • • • • • das Quadrat des Korrelationskoeffizienten den Korrelationskoeffizienten die Kovarianz die Residualquadratsumme die mittlere Wurzel aus der Residualquadratsumme. Alle fünf Maße basieren auf den Residuen der Regressionsanalyse. 50 Statistik 1, WiSe 08/09, Martus 8.6 Definition (Vorhergesagte Werte, Residuen) Für eine Regressionsanalyse heißen die Ergebnisse, die man durch Einsetzen der x-Werte in ^ die Regressionsgleichung erhält, „vorhergesagte Werte“. Man bezeichnet sie mit y i : ^ yi ^ ^ = β0 + β 1 xi , Die Differenzen aus beobachteten und vorhergesagten Werten ^ yi − yi ⎛ ^ yi − ⎜ β 0 ⎝ = + ⎞ ⎠ ^ β1 xi ⎟ heißen Residuen. Je größer (absolut) die Residuen, desto schlechter die Anpassung der Regressionsgerade. 8.7 Fortsetzung des Beispiels: Berechnung der Residuen und der Residuenquadrate Nr. (=i) 1 2 3 4 5 6 7 8 9 10 Σ Σ/10 Σ/8 Yi Xi 6.1 9.7 4.1 8.8 4.0 7.9 7.4 6.4 10.4 10.3 75.1 7.51 --- 13.2 12.5 15.5 10.1 12.5 11.9 8.9 10.2 5.4 8.3 108.50 10.85 --- ^ Yi 6.1 6.5 4.8 8.0 6.5 6.9 8.7 7.9 10.7 9.0 75.1 7.51 --- ^ Yi - Yi -0 3.2 -0.7 0.8 -2.5 1.0 -1.3 -1.5 -0.3 1.3 0 ----- ^ (Yi - Yi )2 ,00 10.0 0.5 0.7 6.5 1.0 1.6 2.2 0.1 1.7 24.2 --3.0 ^ _ Yi - y -1.4 -1.0 -2.7 0.4 -1.0 -0.6 1.1 0.4 3.2 1.5 0 ----- ^ _ ( Yi - y )2 1.9 0.9 7.5 0.2 0.9 0.4 1.3 0.2 10.2 2.2 25.7 ----- 8.8 Definition: (quadrierter Korrelationskoeffizient, r2) Da man ja immer die waagerechte Gerade y = y als triviale Regressionsgerade verwenden könnte, weiß man, dass auf jeden Fall 2 2 ⎛ ⎞ ∑ ⎜⎝ yi − yi ⎟⎠ ≤ ∑ ( yi − y ) . ^ 51 Statistik 1, WiSe 08/09, Martus Man kann sogar noch mehr zeigen: 2 2 2 ∑ ⎛⎜⎝ yi − yi ⎞⎟⎠ + ∑ ⎛⎜⎝ yi − y ⎞⎟⎠ = ∑ ( yi − y ) ^ ^ Bei dieser Gleichung handelt es sich um eine typische Varianzzerlegung. Rechts steht (bis auf den Faktor 1/[n-1]) die Stichprobenvarianz der y-Werte. Ganz links steht die Quadratsumme der Residuen, also die „nicht erklärte“ Restvarianz. Der zweite Summand links beschreibt den Anteil der Varianz, der durch die Regression erklärt wird. Je weiter die vorhergesagten yWerte vom Mittelwert entfernt sind, desto „wichtiger“ ist die Vorhersage durch die x-Werte. ∑ (y 2 Die Idee hinter r ist es, zu messen, welcher Anteil der Variabilität 2 i − y ) durch die Regressionsanalyse erklärt wird. Man definiert daher 2 ∑ ⎛⎜⎝ y − y ⎞⎟⎠ 2 ^ = r2 i 2 ∑ ( yi − y ) = 1− ∑ ⎛⎜⎝ y − yi ⎞⎟ ⎠ ^ i 2 ∑ ( yi − y ) und bezeichnet diese Zahl als „Quadrat des Korrelationskoeffizienten“. r2 liegt zwischen 0 und 1 und kann als Prozentwert interpretiert werden. Im Beispiel erhalten wir mit Hilfe der Tabellen aus 8.4 und 8.7 r2 = 25.7/49.9 = 0.51. 8.9 Definition: (Korrelationskoeffizient r) Der Korrelationskoeffizient ist definiert durch r = s yx s yy s xx = ∑ ( y − y )(x − x ) ∑ ( y − y ) ∑ (x − x ) i i 2 i 2 i Man kann zeigen, dass das in 8.8 definierte r2 tatsächlich das Quadrat von r ist. Insbesondere liegt r zwischen -1 und +1. Im Gegensatz zu r2 kann man an r erkennen, ob die Regressionsgerade steigt oder fällt. Dafür lässt sich r aber nicht als Prozentwert interpretieren. Im Beispiel erhalten wir mit Hilfe der Tabelle aus 8.4 r = -43.8/√(49.9•74.7) = -0.72. Es gilt in der Tat (-0.72)2 = 0.51 52 Statistik 1, WiSe 08/09, Martus 8.10 Definition (Kovarianz, COV) Die Kovarianz wurde bereits in 8.3 zur Schätzung der Regressionsgeraden eingeführt. Wie man leicht sieht, hängt die Kovarianz von der Skalierung der Merkmale ab, im Gegensatz zur Korrelation r oder zu r2. Die Kovarianz ist in den meisten Anwendungen der einfachen linearen Regressionsanalyse nicht von Interesse. Sie stellt jedoch eine wichtige Größe in der multivariaten Analyse dar und wird dort ausführlicher diskutiert. In Abschnitt 8.3 hatten wir bereits die Kovarianz als syx = -4.87 berechnet. 8.11 Definition (Residualquadratsumme, RSSQ)* Die Residualquadratsumme ^ Σ (yi - y i )2 ist besonders für den Vergleich unterschiedlich komplexer Modelle geeignet und wird im Rahmen der multiplen Regression (Statistik 2) diskutiert. Im Beispiel war RSSQ = 24.2. 8.12 Definition (Mittlere Wurzel aus der Residualquadratsumme, RRSSQ)* Die mittlere Wurzel aus der Residualquadratsumme ist definiert als RRSSQ = 2 1 n ˆ ( ) y − y . ∑ i i n − 2 i =1 Sie ist offenbar analog zur Standardabweichung definiert. Das bedeutet insbesondere, dass im Bereich ±2•RRSSQ etwa 95% aller Residuen liegen. Insofern gibt die RRSSQ die „direkteste“ Information über die Güte der Anpassung. In unserem Beispiel war RRSSQ = 2.8. Das bedeutet, dass die Ergebnisse der Perimetrie in etwa mit einer maximalen Abweichung von ± 5.6 dB durch den Flimmertest vorhersagbar sind. Dies ist allerdings nur eine sehr grobe Interpretation. In Wahrheit ist die Anpassung im Zentrum des Definitionsbereichs der x-Werte besser als am Rande. 53 Statistik 1, WiSe 08/09, Martus 8.13 Zusammenfassung In der folgenden Tabelle sind die Gütemaße für die Regressionsgerade zusammengefasst: Maß Kriterium Symbol Dimension abhängig von der Skala von X abhängig von der Skala von Y Interpretation quadrierter Korrelationskoeffizient r2 dimensionslos nein Korrelationskoeffizient Kovarianz ResidualQuadratsumme* r dimensionslos nein Cov dim(X)•dim(Y) ja RSSQ dim(Y)2 nein Wurzel der Residualquadratsumme* RRSSQ dim(Y) nein nein nein ja ja ja Prozentwert Cosinus Skalarprodukt quadrierte Vektornorm Vektornorm 8.14 Signifikanztestung für einfache Regressionsanalysen (t-Test)* Die statistischen Tests in Regressionsanalysen der Form E(Y) = β0+β1X können sich entweder auf β0 oder auf β1 oder auf beide Parameter zusammen beziehen. Im allgemeinen interessiert man sich vor allem für den Test der Nullhypothese β1 = 0 gegen die Alternative β1 ≠ 0. Nur dieser Test wird hier dargestellt. Notation: n Stichprobenumfang sxx syy sxy Stichprobenvarianz von X Strichprobenvarianz von Y Stichprobenkovarianz von X und Y RSSQ Residuale Quadratsumme Σ (yi - y i )2 MRSSQ mittlere residuale Quadratsumme ^ 1/(n-Anzahl alle Modellparameter)*RSSQ hier: 1/(n-2)*RSSQ 54 Statistik 1, WiSe 08/09, Martus _ ^ SSQ Quadratsumme des „korrigierten Modells“, Σ( y i - y )2 MSSQ mittlere Quadratsumme des korrigierten Modells ^ _ 1/{Anzahl getestete Modellparameter} * Σ( y i - y )2 ^ _ 1/{1} * Σ( y i - y )2 ^ _ = Σ( y i - y )2 Nullhypothese: β1 =0 Alternative: β1 ≠ 0 Prüfgröße t= Verteilung der Prüfgröße unter der Nullhypothese t-Verteilung mit ν = n-2 Freiheitsgraden Kritischer Wert Das T mit MSSQ MRSSQ ∫ T −T f (t )dt = 0.95 , im Beispiel T = 2.31 Beispiel (Fortsetzung): Im Beispiel ergibt sich t = √[25.7/(24.2/8.0)] = 2.93. Wir können also die Nullhypothese ablehnen. Wir haben bewiesen, dass das Ergebnis der Perimetrie vom Flimmerwert abhängt. 8.15 Schlussbemerkungen* • • • • Bei zwei Diagnoseverfahren stellt die statistische Signifikanz der Abhängigkeit eine Minimalforderung dar. Es reicht also nicht, nachzuweisen, dass überhaupt ein Zusammenhang existiert, sondern es kommt darauf an, wie gut die Vorhersage im Einzelfall ist. Der in 8.14 angegebene Ausdruck SSQ muss im allgemeinen durch die Zahl der getesteten Parameter dividiert werden um MSSQ zu erhalten. Da β0 nicht getestet wird, sondern nur ein Parameter, β1, ist diese Anzahl = 1 und somit MSSQ = SSQ. ^ Die beobachteten Residuen Yi - Yi sind nicht identisch mit den Fehlertermen der Modellgleichung εi sondern sind Schätzungen dieser Fehlerterme. Im Gegensatz zu den wahren Werten εi haben die beobachteten Residuen nicht konstante Varianz! Die Meinungen, ob grundsätzlich r oder r2 das „bessere“ Zusammenhangsmaß ist, gehen auseinander... 8.16 Übungen 8.17 Literatur 55 Statistik 1, WiSe 08/09, Martus 9. Konfidenzintervalle 9.1 Vorbemerkung Wir haben bislang den Begriff der Schätzung intuitiv verwendet, ohne ihn mathematisch zu präzisieren: Aus Zufallsexperimenten (Studien) erhalten wir relative Häufigkeiten von Ereignissen und Mittelwerte kontinuierlicher Messgrößen. Diese Stichprobenparameter interpretieren wir als Informationen über die dem Experiment zugrundeliegenden theoretischen Parameter wie z.B. Wahrscheinlichkeiten oder Erwartungswerte. Wenn man die Parameter „direkt“ berechnen kann, sind die Formeln für beobachtete Stichproben und theoretische Wahrscheinlichkeitsräume praktisch identisch. Muss man zur Berechnung eines Parameters der Stichprobe (z.B. Varianz) zuerst einen anderen ausrechnen (für die Varianzberechnung braucht man den Mittelwert der Stichprobe) ändern sich die Formeln geringfügig (Faktor 1/(n-1) statt 1/n). Bislang wurden die Schätzungen entweder zur Beschreibung der Versuchsergebnisse oder als Zwischenergebnisse für statistische Tests verwendet. Wir haben uns aber bisher keine Gedanken über die Genauigkeit der Schätzungen gemacht, obwohl klar ist, dass größere Stichproben genauere Schätzungen liefern als kleinere. Wir erwarten natürlich von einer Schätzung, dass bei einer großen Zahl von Wiederholungen der korrekte Wert beliebig genau angenähert werden kann. In diesem Kapitel lernen wir Methoden kennen, die es erlauben, die Genauigkeit von Schätzungen zu bestimmen. Diese Methoden sind eng verwandt mit dem Vorgehen beim statistischen Test. 9.2 Beispiel Wir hatten in Abschnitt 7.3 den z-Test kennen gelernt. Anhand einer Stichprobe sollte geprüft werden, ob bei bekannter Varianz für normalverteilte Daten die Nullhypothese μ = μ0 zugunsten der Alternative μ ≠ μ0 abgelehnt werden kann. Der Test erfolgt mit Hilfe der Prüfgröße z= x − μ0 n σ wobei σ die bekannte Streuung und n die Fallzahl der Studie bezeichnet. Falls z ≥ 1.96 oder z ≤ -1.96 kann die Nullhypothese zum zweiseitigen Signifikanzniveau 5% abgelehnt werden. Man kann die Formel für z im Prinzip nach jeder anderen Größe auflösen. Von besonderem Interesse ist die Auflösung nach μ0. Es gilt z ≥ 1.96 ⇔ x − μ0 σ n ≥ 1.96 ⇔ x − μ 0 ≥ • 1.96 σ n und dies wiederum ist äquivalent zu 56 Statistik 1, WiSe 08/09, Martus x− σ • 1.96 ≥ μ 0 . n Analog erhalten wir für z ≤ -1.96 die Bedingung x+ σ • 1.96 ≤ μ 0 . n Insgesamt ist also genau dann ein signifikantes Ergebnis beobachtet worden, wenn gilt μ0 ≤ x − σ • 1.96 n oder μ0 ≥ x + σ • 1.96 n bzw. σ σ ⎡ ⎤ μ0 ∉ ⎢ x − • 1.96, x + • 1.96 ⎥ . n n ⎣ ⎦ Dieses Intervall bezeichnet man als Konfidenzbereich (Confidence Region) oder Konfidenzintervall (Confidence Interval, CI), die Ränder als Konfidenzgrenzen (Confidence limits). Die Interpretation ist folgende: Im Konfidenzintervall für x liegen diejenigen Werte von μ0, die man aufgrund der Stichprobe nicht ablehnen kann, die als mögliche wahre Werte von μ0 angesehen werden können, also als Werte, denen man „vertraut“. Je kleiner dieses Intervall ist, desto genauer ist die Schätzung. Im Beispiel 7.3 erhält man CI = [2-0.5/√4*1.96, 2+0.5/√4*1.96] ≈ [1.5, 2.5]. 9.3 Verallgemeinerung auf beliebiges α. Wenn man analog zum Signifikanztest mit Niveau α = 5% das Konfidenzintervall berechnet, sagt man auch das Vertrauens- oder Konfidenzniveau ist 95%, also 1-α. Da zweiseitig getestet werden sollte, erhält man den Wert für z als 97.5%-Quantil der Normalverteilung. Diese Quantil bezeichnet man mit z0.975 bzw. allgemein mit z 1− α 2 . Man kann Konfidenzintervalle natürlich auch für andere Niveaus berechnen, die allgemeine Formel lautet ⎡ ⎤ σ σ •z α, x + •z α ⎥ ⎢x − n 1− 2 n 1− 2 ⎦ ⎣ Wir werden Konfidenzintervalle immer zweiseitig zum Niveau 95% berechnen. 57 Statistik 1, WiSe 08/09, Martus 9.4 Konfidenzintervall für den Erwartungswert normalverteilter Daten bei unbekannter Varianz Ganz analog wie für den z-Test kann man auch die Formel für den t-Test (Abschnitt 7.4.) umstellen. Man ersetzt dann die theoretische Streuung s durch die beobachtete (geschätzte) Streuung s und das Quantil z der Normalverteilung durch das entsprechende Quantil t der jeweiligen t-Verteilung. Dieses Quantil ist nicht fix sondern hängt zusätzlich noch von der Stichprobengröße ab. ⎡ ⎤ s s •t •t ⎢x − α, x+ α⎥ n n −1, 1− 2 n n −1, 1− 2 ⎦ ⎣ Im Beispiel erhält man zunächst s = 0.57, t = 3.18 und daraus als neues Konfidenzintervall CI = [1.09, 2.91]. Für große Stichproben macht man keinen großen Fehler, wenn man mit t = 2 rechnet. Die Größe s/√n bezeichnet man auch als Standardfehler, weil sie den Fehler der Schätzung des Parameters quantifiziert. Im Gegensatz dazu bezeichnet die Standardabweichung s „neutraler“ die Abweichung eines Werts vom Mittelwert oder Erwartungswert. Diese Abweichung ist sozusagen „wahr“. 9.5 Exakte Konfidenzintervalle für Wahrscheinlichkeiten* Die bisherigen Konfidenzintervalle beruhen alle auf dem Prinzip „welche Nullhypothesen kann man ablehnen, welche nicht?“. Die Formeln waren recht einfach, weil sich die Prüfgrößen z bzw. t ohne Probleme nach dem Parameter μ0 (der Nullhypothese) auflösen ließen. Das Prinzip gilt genauso für Häufigkeiten, aber die Formeln sind deutlich schwieriger. Wird ein Experiment n mal wiederholt und beträgt die Trefferhäufigkeit k1, dann lässt sich nach folgender Formel prüfen, ob die Nullhypothese π = π0 zugunsten der Alternative π > π0 abgelehnt werden kann: n ∑ k =k b(n, π0 , k) 1 Liegt der Wert dieser Wahrscheinlichkeit bei maximal 5% darf die Nullhypothese verworfen werden. Analog würde man die Summe von 0 bis k1 betrachten, wenn die Alternative π < π0 wäre. Wenn man zweiseitig testet, muss man das größte k2 bestimmen, für das k2 ∑ b(n, π k =0 0 , k) ≤ n ∑ b(n, π k = k1 0 , k) gilt und dann beide Summen zusammenzählen. Für allgemeine n und k1 kann man die Gleichung ∑ n k = k1 b(n, π0 , k) =α nicht nach π0 auflösen. 58 Statistik 1, WiSe 08/09, Martus Für konkrete n und k1 kann man numerisch (=systematisches Ausprobieren) dasjenige π0 finden, für das obige Gleichung für α=0.05 bzw. 0.025 erfüllt ist. Weil man nicht mit angenäherten Wahrscheinlichkeiten sondern mit den exakten Formeln rechnet, bezeichnet man die so bestimmten Konfidenzintervalle als „exakt“. Diese sind nicht schwer zu programmieren, aber etwas unhandlich. Deswegen werden sie nur für kleine Stichproben verwendet. Zwei Möglichkeiten mit Näherungsformeln zu rechnen werden in den nächsten Abschnitten vorgestellt. 9.6 Angenäherte Konfidenzintervalle für Wahrscheinlichkeiten auf Basis der Normalverteilung* Die in 9.5 beschriebene Methodik ist sehr mühselig. Wenn man bei festem π für wachsendes n die Annäherung der Binomialverteilung durch die Normalverteilung verwendet ist man im Prinzip wieder in der Situation des z-basierten Konfidenzintervalls aus 9.2 / 9.3. Wir erhalten: Die Häufigkeit k/n schätzt die Wahrscheinlichkeit π und entsprechend schätzt (n-k)/n die Wahrscheinlichkeit 1-π. Daraus ergibt sich für eine Beobachtung die Varianzschätzung π*(1π) und die Streuung √[π*(1-π)], für die Summe aus allen Beobachtungen die Varianzschätzung n*π*(1-π), für den Mittelwert dieser Beobachtungen die Varianzschätzung (1/n2)*n*π*(1-π) = 1/ n*π*(1-π) und die Streuung 1/√n*√[π*(1-π)]. Wenn wir also die Häufigkeit k/n als Schätzung für π verwenden, können wir das Konfidenzintervall für π einfach mit der Formel ⎡ 1 ⎢ πˆ − n ⎣ πˆ (1 − πˆ ) • z α 1− 2 , x+ 1 n πˆ (1 − πˆ ) • z α 1− 2 ⎤ ⎥ ⎦ berechnen. Liegt die beobachtete relative Häufigkeit genau bei 0.5, ist die Formel angenähert 1 1 1 1 ⎤ ⎡ ⎤ ⎡ 0.5 • 2, 0.5 + 0.5 • 2 ⎥ = ⎢0.5 − , 0.5 + ⎢ 0.5 − ⎥. n n n n⎦ ⎣ ⎦ ⎣ Liegt die beobachtete relative Häufigkeit nur nahe bei 0.5, so erhält man mit π̂ ± 1/√n immer noch eine passable Näherung. Für n = 100 und k = 50 ergibt sich also eine beobachtete relative Häufigkeit von 0.5 mit einem Vertrauensbereich von 0.4 bis 0.6. 59 Statistik 1, WiSe 08/09, Martus 9.7 Eine Faustregel für die Zufallsschwankung beobachteter absoluter Häufigkeiten Wenn bei großem n ein „kleines“ k beobachtet wird, kann man auch die Poisson-Näherung der Binomialverteilung für statistische Tests und Konfidenzintervalle verwenden. Diese Methode wird hier nicht dargestellt. Für größeres k (entweder Poisson-verteilt oder binomialverteilt mit sehr großem n und daher kleinem k/n) lässt sich aber folgende grobe Näherung verwenden: (1) k ist Schätzung des Erwartungswerts μ der Poissonverteilung (2) Bei Poissonverteilungen gilt μ = σ2 (Erwartungswert und Varianz sind identisch) ⇒ (3) k ist auch Schätzung der Varianz der Poissonverteilung ⇒ (4) √k ist Schätzung der Streuung der Poissonverteilung (5) Für große μ ist die Poissonverteilung angenähert normalverteilt N(μ,μ) ⇒ (6) Ein angenähertes Konfidenzintervall für μ ist also [μ-2√μ, μ+2√μ] ⇒ (7) Ein „Konfidenzintervall“ für k ist [k-2√k, k+2√k]. Beispiel: Werden in einem Jahr 50 Verkehrsunfälle beobachtet, liegt das Konfidenzintervall auf Basis der Poissonverteilung bei etwa 36 bis 64 Verkehrsunfällen. Zum Vergleich: Werden von 100 Patienten 50 geheilt, liegt das Konfidenzintervall mit Näherung durch die Normalverteilung bei 40% bis 60%, was 40 bis 60 Heilungen entspricht. Dieses Intervalls hat also eine Breite, die 20 Heilungen entspricht. Das Intervall für die Verkehrsunfälle hatte eine Breite von 28, also fast das 1.5-fache. 9.8 Zum Weiterdenken Was ergibt sich im Beispiel mit den Verkehrsunfällen und den Heilungen, wenn jede Zahl mit 100 multipliziert wird? Wie ändern sich die Diskrepanzen beider Methoden, wenn man Absolutzahlen betrachtet, wie, wenn man Prozentwerte berechnet? 60 Statistik 1, WiSe 08/09, Martus 9.9 Abgeleitete Konfidenzintervalle für andere Parameter* Konfidenzintervalle können analog für Varianzen, Korrelationskoeffizienten und Regressionskoeffizienten berechnet werden, weil entsprechende Signifikanztests zur Verfügung stehen. Der Test für den Regressionskoeffizienten in Abschnitt 8.14 zeigt z.B., wie man ein Konfidenzintervall für diesen Parameter mit Hilfe der t-Verteilung berechnen kann. Wenn man durch eine Funktion aus einem Parameter einen neuen generieren kann (z.B. durch Wurzelziehen die Streuung s aus der Varianz s2 oder durch Quadrieren r2 aus dem Korrelationskoeffizienten r) darf man einfach die Grenzen der Konfidenzintervalle entsprechend transformieren. Wäre beispielsweise das Konfidenzintervall für s2 gleich [a,b], dann wäre das Konfidenzintervall für s gleich [√a, √b]. Dieses Vorgehen klappt aber nicht, wenn mehrere Parameter benötigt werden, um einen neuen Parameter zu berechnen. So kann man z.B. aus den Konfidenzintervallen für sx, sy und sxy nicht direkt das Konfidenzintervall für r berechnen. 9.10 Schlussbemerkung* Beim statistischen Test werden Nullhypothese und Signifikanzniveau vorher festgelegt. PWert und Konfidenzintervall stellen Erweiterungen dieses Konzepts dar. Der P-Wert gibt an, für welche Signifikanzniveaus die unveränderte Nullhypothese abgelehnt werden kann. Das Konfidenzintervall gibt an, welche Nullhypothesen man bei unverändertem Signifikanzniveau ablehnen kann. Allerdings verletzt das nachträgliche Ändern von Signifikanzniveaus oder Nullhypothesen die Logik des statistischen Tests. 61