Statistik für Biologen Skript zur Vorlesung Prof. Dr. Burkhard Morgenstern Dr. Mario Stanke Sommersemester 2006 Vorbemerkung Dies ist ein vorläufiges Skript zur Vorlesung Einführung in die Statistik für Biologen im SS 2006. Im Lauf des Semesters wird es wahrscheinlich noch die eine oder andere Veränderung im Skript geben; die jeweils neuste Version ist immer über die Homepage der Vorlesung erhältlich (s.u.). Für Kommentare, Kritik, Verbesserungsvorschläge etc. sind wir immer dankbar – am besten direkt in oder nach der Vorlesung oder per Email an mich oder an Isabelle Heinemeyer. BM, Göttingen 3. Mai 2006 Homepage der Vorlesung: http://gobics.de/lectures/ss06/statistik bio.php Email: B. Morgenstern: [email protected] I. Heinemeyer: [email protected] 1 Inhaltsverzeichnis 1 Einleitung 3 2 Grundbegriffe der Wahrscheinlichkeitstheorie 2.1 Mengen und Ereignisse . . . . . . . . . . . 2.2 Die Axiome der Wahrscheinlichkeit . . . . 2.3 Die bedingte Wahrscheinlichkeit . . . . . . 2.4 Der Satz von Bayes . . . . . . . . . . . . . 2.5 Unabhängigkeit . . . . . . . . . . . . . . . 2.6 Zufallsvariable . . . . . . . . . . . . . . . . . . . . . . . . . . . 5 6 8 10 10 14 16 3 Beschreibende Statistik 3.1 Häufigkeitsverteilung von Stichproben . . . . . . . . . . . . . . . . 3.2 Regression . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3.2.1 Approximation an eine lineare Funktion (lineare Regression) 3.2.2 Approximation an eine Exponentialfunktion . . . . . . . . . 3.2.3 Approximation an eine Potenzfunktion . . . . . . . . . . . 3.3 Korrelation und Kovarianz . . . . . . . . . . . . . . . . . . . . . . . . . . . . 23 23 28 28 30 31 32 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4 Statistische Tests 4.1 Ein paar allgemeine, nicht Klausur-relevante Bemerkungen über statistische Tests . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4.2 Der Ein-Stichproben-t-Test . . . . . . . . . . . . . . . . . . . . . . . 4.3 Der Zwei-Stichproben-t-Test . . . . . . . . . . . . . . . . . . . . . . 4.4 Der Chi-Quadrat-Anpassungstest . . . . . . . . . . . . . . . . . . . . 2 34 34 36 38 39 Kapitel 1 Einleitung Die wenigsten Eigenschaften biologischer Systeme sind eindeutig durch eine überschaubare Anzahl von Faktoren determiniert; fast alle Merkmale von Zellen, Organismen oder Populationen hängen auf die eine oder andere Weise vom Zufall ab. Das heißt natürlich nicht, dass man über diese Systeme keine vernünftigen Vorhersagen machen könnte. Vorhersagen über Stoffwechselprozesse, physikalische Merkmale von Organismen oder die Dynamik von Populationen können allerdings nur in gewissen Grenzen - eben mit einer bestimmten Wahrscheinlichkeit gemacht werden. Daher sind gewisse Grundkenntnisse über das Verhalten zufälliger Größen in allen Bereichen der Biologie unverzichtbar. Die elementare Wahrscheinlichkeitstheorie hat zunächst die Aufgabe, vernünftige mathematische Definitionen für Ereignis, Wahrscheinlichkeit, Erwartungswert, bedingte Wahrscheinlichkeit, Abhängigkeit von Ereignissen u.ä. einzuführen. Ausgehend von einfachen Ereignissen, deren Wahrscheinlichkeit als bekannt vorausgesetzt wird, können dann Wahrscheinlichkeiten von komplizierteren Ereignissen berechnet werden. In einem sehr vereinfachten Modell kann man z.B. annehmen, dass die Wahrscheinlichkeit für das Auftreten der Basen A, T, C und G in nicht-codierenden Bereichen in einem bakteriellen Genom an jeder Position gleich 1/4 ist, und dass diese Positionen unabhängig voneinander sind. Auf Grund dieser Annahmen kann man dann etwa die Wahrscheinlichkeit dafür berechnen, dass ein zufällig herausgegriffenes Codon eines der drei Stop-Codons (TAG, TAA, TGA) ist. Hierdurch kann man wiederum berechnen, wie (un)wahrscheinlich es ist, das ein nicht-kodierender DNA-Abschnitt, der aus N Tripletts besteht, kein Stop-Codon enthält, d.h. ein so genanntes Open Reading Frame (ORF) ist. Es ist klar, dass diese Wahrscheinlichkeit für große N sehr klein ist, d.h. es ist sehr unwahrscheinlich, dass man in nicht-kodierenden Bereichen der DNA einfach per Zufall ein langes ORF findet. Längere DNA-Abschnitte ohne Stop-Codons sind daher mit großer Wahrscheinlichkeit kodierend, d.h. Bestandteil von Genen. Dieser einfache Sachverhalt spielt in der Genvorhersage bei Prokaryoten eine wichtige Rolle. Mit Hilfe der Wahrscheinlichkeitstheorie kann man dann z.B. berechen, welche Länge ein ORF haben muss, damit man davon ausgehen kann, dass es sich um ein Gen handelt. Während man in der Wahrscheinlichkeitstheorie von bekannten Wahrscheinlich3 keits- oder Häufigkeitsverteilungen ausgeht, um die Wahrscheinlichkeiten von speziellen Ereignissen zu berechnen, hat man in der Statistik genau das umgekehrte Problem: Hier ist das Ziel, Aussagen über zunächst unbekannte Wahrscheinlichkeitsverteilungen zu machen, indem man einige zufällig herausgegriffene Ereignisse, so genannte Stichproben, betrachtet. Um beim Beispiel der Genvorhersage zu bleiben: kodierende und nicht-kodierende Abschnitte von Genomen unterscheiden sich in ihrer statistischen Zusammensetzung erheblich; diese Unterschiede werden für die Erkennung von Genen benützt. Auf Grund von begrenzten Stichproben kann man nun z.B. versuchen, die Wahrscheinlichkeit für das Auftreten bestimmter Muster innerhalb und ausserhalb von Genen zu bestimmen. Diese Wahrscheinlichkeiten werden in GenvorhersageProgrammen verwendet. In dieser Vorlesung werden zunächst die Grundbegriffe der Wahrscheinlichkeitstheorie geklärt. Dann werden spezielle, besonders einfache, Wahrscheinlichkeitsräume betrachtet, nämlich Räume mit endlich vielen so genannten Elementarereignissen, die alle mit der gleichen Wahrscheinlichkeit auftreten. Schließlich werden die Kapitel Beschreibende Statistik und Schließende Statistik behandelt. 4 Kapitel 2 Grundbegriffe der Wahrscheinlichkeitstheorie In diesem Kapitel führen wir einige Begriffe aus der Wahrscheinlichkeitstheorie ein, die in der Statistik eine wichtige Rolle spielen. Erste W-theoretische Studien stammen von den französischen Mathematikern Pascal und Fermat. Hierbei ging es vor allem um Glücksspiele. Laplace (1749 - 1827) entwickelte eine allgemeinere Theorie der Wahrscheinlichkeit. Er definierte die “Wahrscheinlichkeit” eines Ereignisses als das Verhältnis Anzahl der “günstigen” Fälle . Anzahl aller möglichen Fälle Diese Definition geht allerdings von sehr einfachen Voraussetzungen aus: Man nimmt an, dass es eine Menge von “möglichen Fällen” gibt, die alle die gleiche Wahrscheinlichkeit besitzen. Das gilt z.B. wenn man N mal einen fairen Würfel wirft, oder wenn man DNA-Sequenzen betrachtet und vereinfachend annimmt, dass alle vier Basen gleich häufig vorkommen (siehe Beispiel in der Einleitung). Schon in einfachen Anwendungen ist diese Bedingung offensichtlich nicht mehr erfüllt. Beispiel 2.1 Man rollt zwei Würfel; dabei interessiert man sich für die Wahrscheinlichkeit, dass die Summe der Augen mindestens 10 ist. Werden beide Würfel voneinander unterschieden, sind folgende Ereignisse möglich: (1, 1), (1, 2), (1, 3), . . . , (2, 1), (2, 2), (2, 3), . . . , (6, 1), (6, 2), . . . , (6, 5), (6, 6). Die Zahl der “möglichen Fälle” ist also 36. Die Augensumme ist dabei mindestens 10 für die Fälle (4, 6), (5, 5), (5, 6), (6, 4), (6, 5), (6, 6); die Anzahl der “günstigen Fälle” ist also 6. Nach der obigen Definition ist die Wahr6 = 16 = 16, 666%. scheinlichkeit dieses Ereignisses also 36 5 Eine weit allgemeinere Theorie der Wahrscheinlichkeit wurde 1933 von dem russische Mathematiker Kolmogorow eingeführt. Wie in der Mathematik üblich basiert dieser Ansatz auf einem System von Axiomen, d.h. von Aussagen die als gültig angesehen werden, ohne dass sie weiter bewiesen werden müssen. Aus diesen Axiomen wird die gesamte Theorie abgeleitet. Die moderne W-Theorie basiert auf einfachen Begriffen der Mengenlehre. “Ereignisse” werden dabei abstrakt als Teilmengen einer Grundmenge Ω aufgefasst. Ω ist dabei die Menge aller möglichen Ausgänge eines Zufallsexperiments. Jedem Ereignis wird eine Zahl zwischen 0 und 1 zugeordnet, die als die Wahrscheinlichkeit des Eintretens dieses Ereignisses interpretiert wird. 2.1 Mengen und Ereignisse Im Folgenden werden Grundbegriffe aus der Mengenlehre wiederholt und es wird eine W-theoretische Interpretation dieser Begriffe gegeben. Ω ist dabei stets die Grundmenge, in der W-theoretischen Interpretation also die Menge aller möglichen Ausgänge des betrachteten Zufallsexperiments. Eine Menge A ist eine Zusammenfassung von Elementen von Ω. Einfache Mengen werden häufig durch Aufzählung ihrer Elemente in geschweiften Klammern angegeben. Man schreibt also z.B. G = {2, 4, 6, . . .}, um die Menge der geraden Zahlen zu bezeichnen. Alternativ kann man eine Menge durch bestimmte Eigenschaften ihrer Elemente angeben, in unserem Beispiel also z.B. als G = {n ∈ Ω|n gerade}. Definition 2.2 Seien A und B Mengen einer Grundmenge Ω. 1. Mit ∅ bezeichnen wir die leere Menge, d.h. die Menge die kein Element enthält. W-theoretisch ist ∅ das unmögliche Ereignis. Offensichtlich gilt ∅ ⊂ A für jede beliebige Menge A. 2. Man schreibt A ⊂ B oder B ⊃ A, wenn A in B enthalten ist, d.h. wenn jedes Element von A auch Element von B ist. In der W-theoretischen Interpretation bedeutet A ⊂ B, dass Ereignis A Ereignis B impliziert, dass also aus A B folgt. Ω 3. A ∪ B bezeichnet die Vereinigung von A und B, d.h. die Menge aller Elemente, die in A oder in B enthalten sind (einschließlich der Elemente, die sowohl zu A als auch zu B gehören). In der W-Theorie ist A ∪ B das Ereignis, dass A oder B (oder beides) eintritt. A 6 Β Ω 4. A ∩ B ist der Durchschnitt von A und B, also die Menge der Elemente, die sowohl zu A als auch zu B gehören. Wtheoretisch gesehen, ist A ∩ B das Ereignis, dass sowohl A als auch B eintreten. A Β Ω 5. Ā ist das Komplement von A, d.h. die Menge aller Elemente von Ω, die nicht in A enthalten sind. Wir interpretieren Ā als das Ereignis, dass A nicht eintritt. A Ω 6. A \ B ist die Menge aller Elemente von A, die nicht gleichzeitig zu B gehören. In der W-Theorie bezeichnet das das Ereignis, dass A, nicht aber B eintritt. A Β 7. A und B heißen disjunkt, wenn ihr Durchschnitt leer ist, d.h. wenn A ∩ B = ∅ gilt. In der W-Theorie bedeutet dass A und B unvereinbar sind, d.h. dass sie sich gegenseitig ausschließen. 8. Enthält A nur ein Element, d.h. ist A = {a}, dann heißt A Elementarereignis. 9. Für eine endliche Menge A = {a1 , . . . , ak } bezeichnet |A| = k die Zahl ihrer Elemente. Bemerkung: Beachte, dass die Definition des Komplements A einer Menge A von der Grundmenge Ω abhängt. Beispiel: Ein Zufallsexperiment besteht darin, dass ein Würfel geworfen wird; wir interessieren uns für die Zahl der Augen. Die Gesamtmenge Ω ist hier gegeben durch Ω = {1, 2, 3, 4, 5, 6}. Weiter betrachten wir die Ereignisse G = {2, 4, 6}, U = {1, 3, 5} und H = {4, 5, 6}. Dann haben wir G∪H G∩H G G\H = = = = {2, 4, 6} ∪ {4, 5, 6} {2, 4, 6} ∩ {4, 5, 6} {2, 4, 6} {2, 4, 6} \ {4, 5, 6} = = = = {2, 4, 5, 6} {4, 6} {1, 3, 5} = U {2}. Beispiel: Als nächstes betrachten wir ein Zufallsexperiment mit unendlich vielen möglichen Ausgängen: Wir messen die Körpergröße x einer zufällig ausgewählten Person. Hierfür kann man z.B. Ω = R definieren (mit R = Menge der reellen Zahlen). Wir 7 betrachten das Ereignis A, dass x zwischen 175 cm und 185 cm liegt, und das Ereignis B, dass x zwischen 170 cm und 180 cm liegt. In der Mengenschreibweise haben wir also A = {x|175 ≤ x ≤ 185} B = {x|170 ≤ x ≤ 180}. Damit haben wir z.B. A∪B A∩B A A\B = = = = {x|170 ≤ x ≤ 185} {x|175 ≤ x ≤ 180} {x|x < 175 oder x > 185.} {x|180 < x ≤ 185}. Satz 2.3 (Morgansche Regeln) Seien A und B Mengen (bzw. Ereignisse). Dann gilt (a) A ∪ B = A ∩ B (b) A ∩ B = A ∪ B 2.2 Die Axiome der Wahrscheinlichkeit Um ein Maß für die “Wahrscheinlichkeit” oder “Unwahrscheinlichkeit” von Ereignissen zu bekommen, ist es in manchen Fällen sinnvoll, die relative Häufigkeit dieser Ereignisse bestimmen. Man führt dafür ein Zufallsexperiment n mal aus und zählt nach, wie oft ein Ereignis A eintritt. Die Zahl der Experimente, bei denen A eintritt heißt absolute Häufigkeit hn (A) von A; die relative Häufigkeit rn (A) von A ist definiert als der Quotient hnn(A) . Die relative Häufigkeit hat folgende drei Eigenschaften: (a) 0 ≤ rn (A) ≤ 1 (b) rn (Ω) = 1 (c) für disjunkte Ereignisse A und B gilt rn (A ∪ B) = rn (A) + rn (B) Hierdurch motiviert definiert man die folgenden Axiome der Wahrscheinlichkeit: Definition 2.4 (Axiome von Kolmogorow, 1933) Eine auf einem System von Ereignissen definierte Funktion P heißt Wahrscheinlichkeit, wenn sie folgende Axiome erfüllt: Axiom 1 0 ≤ P (A) ≤ 1 Axiom 2 P (Ω) = 1 Axiom 3 für disjunkte Ereignisse A und B gilt P (A ∪ B) = P (A) + P (B) Satz 2.5 Aus den Axiomen der Wahrscheinlichkeit lassen sich leicht weitere Eigenschaften von P folgern: 8 1. Für jedes Ereignis A gilt P (A) = 1 − P (A). 2. Für das unmögliche Ereignis ∅ gilt P (∅) = 0. 3. Aus A ⊂ B folgt P (A) ≤ P (B). 4. für alle Ereignisse A und B gilt P (B \ A) = P (B ∩ A) = P (B) − P (B ∩ A). 5. für alle Ereignisse A und B gilt P (A ∪ B) = P (A) + P (B) − P (A ∩ B) Definition 2.6 Seien A1 , A2 , . . . , An Ereignisse. 1. A1 , A2 , . . . , An heißen paarweise unvereinbar, wenn jeweils zwei von ihnen nicht gleichzeitig eintreten können, d.h. wenn gilt Ai ∩ Aj = ∅ für alle i 6= j. 2. A1 , A2 , . . . , An heißen vollständig unvereinbar, wenn A1 , A2 , . . . , An nicht alle gleichzeitig eintreten können, d.h. wenn gilt A1 ∩ A2 ∩ . . . ∩ An = ∅. Aus paarweiser Unvereinbarkeit folgt offensichtlich vollständige Unvereinbarkeit. Der Umkehrschluß gilt jedoch i.A. nicht. Satz 2.7 Seien A1 , A2 , . . . , An paarweise unvereinbare Ereignisse. Dann gilt P (A1 ∪ A2 ∪ . . . ∪ An ) = P (A1 ) + P (A2 ) + . . . + P (An ) Beispiel 2.8 Sei Ω = {ω1 , ω2 , . . . , ωn } endlich. Jedes Elementarereignis {ωi } habe die gleiche Wahrscheinlichkeit P (ωi ). Weil Elementarereignisse paarweise unvereinbar sind, muss wegen Axiom 2 und Satz 2.7 P (ωi ) = 1/n gelten. Ein solches Zufallsexperiment heißt auch Laplace-Experiment. Ein Ereignis A bestehe aus r Elementarereignissen, d.h. man hat A = {a1 , a2 , . . . , ar }, ai ∈ Ω. Daraus folgt A = {a1 } ∪ {a2 } . . . ∪ {ar } und daher P (A) = P ({a1 }) + P ({a2 }) + . . . + P ({ar }) = r · P ({a1 }) = Man hat also P (A) = |A| r = n |Ω| |A| Anzahl der “günstigen” Fälle = . |Ω| Anzahl aller möglichen Fälle Dies entspricht genau der in der Einleitung gegebenen Definition von Laplace. Beispiel: Sei Ω = N = {1, 2, . . .} und sei P ({i}) = 1 2i . Wegen ∞ X 1 =1 2i i=1 definiert P eine Wahrscheinlichkeit. Beispiel 2.9 Seien a, b ∈ R, a < b und Ω = [a, b]. f : Ω → R sei eine Funktion mit Rb f (x) ≥ 0 für alle x ∈ R und a f (x)dx = 1. Für A ⊂ [a, b] sei P (A) der Flächeninhalt unter f im Bereich von A. Dann ist die Funktion P eine Wahrscheinlichkeit. 9 2.3 Die bedingte Wahrscheinlichkeit Oft interessiert man sich für die Wahrscheinlichkeit eines Ereignisses A unter der Bedingung, dass ein Ereigniss B eintritt (oder bereits eingetreten ist). Betrachte z.B. das Glücksspiel in Beispiel 2.1; A sei das Ereignis, dass die Summe der Augen der beiden Würfel ≥ 10 ist. Insgesamt haben wir 36 mögliche Ausgänge des Experiments (die alle gleich wahrscheinlich sind), davon sind 6 Ausgänge für das Ereignis A “günstig”. 6 Die Wahrscheinlichkeit von A ist also 36 = 0, 1666. Nun nehmen wir an, dass wir das Ergebnis des ersten Würfels bereits kennen, wir nehmen an, der erste Würfel zeige eine 5. Dieses Ereignis nennen wir B, d.h. wir haben B = {(5, 1), (5, 2), (5, 3), (5, 4), (5, 5), (5, 6)}. Was ist nun die Wahrscheinlichkeit von A unter der Voraussetzung, dass B eingetreten ist? Die für uns “günstigen” Elementarereignisse sind in diesem Fall (5, 5) und (5, 6). Wenn B vorausgesetzt ist, d.h. wenn bekannt ist, dass der erste Würfel bereits eine 5 gewürfelt hat, sind insgesamt nur noch die Ereignisse (5, 1), . . . , (5, 6) möglich. Wir können dies als ein neues Zufallsexperiment betrachten; die Zahl der möglichen Ausgänge ist dabei 6. Die Wahrscheinlichkeit von A unter der Annahme B ist also 2 6 = 0, 333. Diese nennen wir die bedingte Wahrscheinlichkeit von A unter der Annahme B und schreiben P (A|B). Allgemein betrachten wir ein Laplace-Experiment mit n möglichen Ausgängen; wir interessieren uns für Ereignisse A und B. Im Fall |B| = 6 0 ist die Wahrscheinlichkeit P (A|B) gegeben durch |A ∩ B| . |B| P (A|B) = Dividiert man Zähler und Nenner durch n = |Ω|, erhält man P (A|B) = |A∩B| |Ω| |B| |Ω| = P (A ∩ B) . P (B) Hierdurch motiviert definiert man Definition 2.10 Seien A und B Ereignisse mit P (B) 6= 0. Dann heisst die Zahl P (A|B) = P (A ∩ B) P (B) die bedingte Wahrscheinlichkeit von A unter der Bedingung B. 2.4 Der Satz von Bayes Aus der letzten Definition folgt P (A ∩ B) = P (A|B) · P (B). 10 (2.1) Falls auch P (A) > 0 ist, gilt in gleicher Weise P (B|A) = P (B ∩ A) , P (A) man hat also auch P (B ∩ A) = P (B|A) · P (A). (2.2) Gleichungen (2.1) und (2.2) zusammen ergeben P (A|B) · P (B) = P (B|A) · P (A), woraus der nächste Satz folgt. Satz 2.11 (Bayes I) Für Ereignisse A, B mit P (A) > 0 und P (B) > 0 gilt P (A|B) = P (B|A) · P (A) . P (B) Der letzte Satz spielt in der so genannten Bayesschen Statistik eine zentrale Rolle. Man benützt ihn, um die Wahrscheinlichkeit einer Hypothese H zu auf der Grundlage von gemessenen Daten D zu berechnen. Dabei geht man davon aus, dass man die bedingte Wahrscheinlichkeit P (D|H) kennt, mann weiß also, mit welcher Wahrscheinlichkeit man die Daten D beobachtet, wenn die Hypothese H zutrifft. Ausserdem geht man davon aus, dass man die A-priori-Wahrscheinlichkeit P (H) kennt, also die Wahrscheinlichkeit der Hypothese, wenn man keine Daten gesehen hat. Schließlich nimmt man an, dass man die Wahrscheinlichkeit der Daten P (D) kennt. Was man wissen will, ist die Wahrscheinlichkeit P (H|D) der Hypothese unter der Annahme, dass die Daten D bekannt sind; diese Wahrscheinlichkeit nennt man die A-posteriori-Wahrscheinlichkeit der Hypothese H. Mit dem Satz von Bayes gilt dann P (H|D) = P (D|H) · P (H) . P (D) Dieser Satz spielt in der medizinischen Diagnostik eine wichtige Rolle. Die Hypothese H ist hier z.B. die Annahme, dass ein Patient an einer bestimmten Krankheit leidet, D bedeutet, dass man ein bestimmtes Symptom beobachtet. Die A-priori-Wahrscheinlichkeit P (H) der Hypothese H ist dann die Wahrscheinlichkeit, dass eine zufällige Person an der Krankheit leidet, d.h. die Wahrscheinlichkeit, die mit der man rechnen würde, bevor man das Symptom beobachtet hat. P (D|H) wäre die Wahrscheinlichkeit dafür, dass ein Patient, der an der Krankhekt leidet, das Symptom zeigt, und P (D) ist die Wahrscheinlichkeit, dass das Symptom auftritt, wenn man nicht weiß, ob die betreffende Person krank ist. Was man wissen will ist, ist die Wahrscheinlichkeit P (H|D), d.h. die Wahrscheinlichkeit, mit der eine Person an der Krankheit leidet, wenn man das Symptom D beobachtet. Diese Wahrscheinlichkeit kann man mit der obigen Gleichung berechnen. Beispiel 2.14 demonstriert dieses Prinzip am beispiel von fairen bzw. gezinkten Würfeln. Um dieses Beispiel rechen zu können, müssen wir allerdings eine weitere Definition einführen. 11 Die bedingte Wahrscheinlichkeit P (A|B) eines Ereignisses A unter der Bedingung B sieht komplizierter aus als die “einfache” Wahrscheinlichkeit P (A) von A. In der Praxis ist es aber oft so, dass bestimmte bedingte Wahrscheinlichkeiten P (A|B) bekannt sind oder einfach berechnet werden können, die Wahrscheinlichkeit P (A) aber nicht von Anfang an klar ist. Daher ist es nützlich, wenn man weiß, wie man “einfache” Wahrscheinlichkeiten aus “bedingten Wahrscheinlichkeiten” berechnen kann. Man definiert hierfür Definition 2.12 n Ereignisse A1 , . . . , An heißen eine vollständige Ereignisdisjunktion von Ω, wenn (a) A1 , . . . , An paarweise disjunkt sind, d.h. wenn Ai ∩ Aj = ∅ gilt für alle i, j ∈ {1, . . . , n} mit i 6= j, und wenn (b) A1 ∪ . . . ∪ An = Ω gilt. Im Zusammenhang mit der bedingten Wahrscheinlichkeit sind die folgenden beiden Sätze wichtig. Satz 2.13 (Totale Wahrscheinlichkeit) Seien A1 , . . . , An eine vollständige Ereignisdisjunktion von Ω mit P (Ai ) > 0 für alle i ∈ {1, . . . , n}. Dann gilt für jedes beliebige Ereignis B P (B) = P (B|A1 ) · P (A1 ) + . . . + P (B|An ) · P (An ). Beweis: Es gilt Ω = A1 ∪ . . . ∪ An . Daraus folgt: P (B) = P (B ∩ Ω) = P (B ∩ (A1 ∪ . . . ∪ An )) = P ((B ∩ A1 ) ∪ . . . ∪ (B ∩ An )) = P (B ∩ A1 ) + . . . + P (B ∩ An ) = P (B|A1 ) · P (A1 ) + . . . + P (B|An ) · P (An ). Beispiel: Man hat 10 Würfel. Davon sind die ersten 7 fair, d.h. alle Ergebnisse 1, . . . , 6 haben die gleiche Wahrscheinlichkeit 16 . Zwei Würfel dagegen sind unfair, bei diesen Würfeln ist es unmöglich, eine gerade Zahl zu würfeln, die ungeraden Zahlen sind gleich wahrscheinlich (jeweils mit Wahrscheinlichkeit 13 ). Beim letzten Würfel ist es unmöglich, eine 1 oder eine 2 zu würfeln, die restlichen Ergebnisse sind wieder gleich wahrscheinlich (jeweils mit Wahrscheinlichkeit 41 ). Man nimmt nun zufällig einen Würfel. Was ist die Wahrscheinlichkeit, eine 1 zu würfeln? Wir betrachten die Ereignisse F (fairer Würfel), U 1 (erste Art unfaire Würfel) und U 2 (zweite Art unfaire Würfel). Wir haben P (F ) = 0, 7, P (U 1) = 0, 2 und P (U 2) = 0, 1. Ausserdem kennen wir die bedingten Wahrscheinlichkeiten P (1|F ) = P (1|U 1) = P (1|U 2) = 12 1 6 1 3 0 Damit ist die Wahrscheinlichkeit, eine 1 zu würfeln gegeben als 1 1 + 0, 2 · + 0, 1 · 0 = 0, 18333 6 3 0, 7 · Beispiel 2.14 Bei einem Spiel gibt es 10 Würfel, 9 davon sind fair, d.h. jede Augenzahl tritt mit Wahrscheinlichkeit 61 auf. Ein Würfel ist unfair, so dass die 6 mit Wahrschein1 lichkeit 21 und alle anderen Augenzahlen jeweils mit Wahrscheinlichkeit 10 auftreten. Einer der Würfel wird zufällig gezogen und es wird damit gewürfelt. Das Ergebnis ist eine 6. Mit welcher Wahrscheinlichkeit ist dieser Würfel der unfaire Würfel? Da sowohl die gewüerfelte Augenzahl als auch der gezogene Würfel vom Zufall abhängen, kann man einen W-Raum mit 12 verschiedenen Elementarereignissen definieren: Ω = {(F, 1), (U, 1), (F, 2), (U, 2), . . . , (F, 6), (U, 6)} Dabei ist (F, 1) das Ereignis, dass der Würfel fair ist und eine 1 gewürfelt wird u.s.w. Dabei betrachten wir zwei Ereignisse, nämlich Ereignis A (Würfel unfair) und Ereignis B (es wird eine 6 geworfen). Man hat A = {(U, 1), . . . , (U, 6)} B = {(F, 6), (U, 6).} Unsere Frage ist jezt: Mit welcher Wahrscheinlichkeit ist der Würfel unfair, wenn ich weiß, dass eine 6 gewürfelt wurde? Oder anders ausgedrückt: Was ist die bedingte Wahrscheinlichkeit P (A|B) für Ereignis A (Würfel unfair) - unter der Bedingung, dass Ereignis B eingetreten ist (6 gewürfelt)? Mit Satz 2.11 haben wir: P (A|B) = P (B|A) · P (A) P (B) P (B|A) – also die Wahrscheinlichkeit für eine 6, wenn man weiß, dass der Würfel unfair ist – ist bekannt, es gilt P (B|A) = 21 . P (B) – also die Wahrscheinlichkeit, eine 6 zu würfeln, wenn man nichts weiter weiß – kann man mit dem Satz von der totalen Wahrscheinlichkeit (Satz 2.13) ausrechnen. Wir haben eine Ereignisdisjunktion die aus A und A besteht. Daher gilt P (B) = P (B|A) · P (A) + P (B|A) · P (A) also P (B) = 1 9 1 3 4 1 1 · + · = + = . 2 10 6 10 20 20 20 Insgesamt hat man also P (A|B) = 1 2 13 · 1 10 4 20 = 1 4 2.5 Unabhängigkeit Man interessiert sich bei der “bedingten Wahrscheinlichkeit” dafür, wie weit ein Ereignis A von von einem anderen Ereignis B beeinflusst wird, d.h. ob die Information, dass B eingetreten ist, die Wahrscheinlichkeit von A verändert. Darauf aufbauend definiert man Definition 2.15 Sei B ein Ereignis mit 0 < P (B) < 1. Dann sagt man, dass ein Ereignis A von B (stochastisch) unabhängig ist, wenn P (A|B) = P (A|B) gilt. Hieraus folgt Satz 2.16 Seien A und B Ereignisse mit 0 < P (B) < 1. (a) A ist von B genau dann (stochastisch) unabhängig, wenn gilt P (A|B) = P (A) (b) A ist von B genau dann (stochastisch) unabhängig, wenn gilt P (A ∩ B) = P (A) · P (B) (2.3) “Unabhängigkeit” sagt also, dass die Information, dass B eintritt (oder eingetreten ist oder eintreten wird), die Wahrscheinlichkeit von A nicht beeinflusst. Beispiel 2.17 Wir kommen zum Beispiel 2.1 zurück (zwei Würfel werden geworfen). Dabei betrachten wir die folgenden Ereignisse: A : Die Augenzahl des ersten Würfels ist gerade. B : Die Augenzahl des zweiten Würfels ist ungerade. C : Die Augensumme ist gerade. Offenbar sind A und B (stochastisch) unabhängig voneinander. Dasselbe gilt für die Ereignisse A und C sowie für die Ereignisse B und C. Wir überlegen nun, wie der Begriff der Unabhängigkeit auf mehrere Ereignisse übertragbar ist. In Anlehnung an (2.3) könnte man definieren, dass A1 , . . . , An unabhängig sind, wenn gilt P (A1 ∩ . . . ∩ An ) = P (A1 ) · . . . · P (An ) Im obigen Beispiel haben wir z.B. A ∩ B ∩ C = ∅, 14 (2.4) also P (A ∩ B ∩ C) = 0. Andererseits gilt P (A) = P (B) = P (C) = 1 , 2 also 1 1 1 1 · · = 6= 0. 2 2 2 8 Von den Ereignissen A, B und C sind also jeweils zwei (stochastisch) unabhängig, Gleichung (2.4) gilt aber nicht. Hierdurch motiviert definiert man P (A) · P (B) · P (C) = Definition 2.18 Ereignisse A1 , . . . , An heißen (a) paarweise (stoch.) unabhängig, wenn für jedes Paar Ai , Aj mit i 6= j gilt P (Ai ∩ Aj ) = P (Ai ) · P (Aj ) (b) vollständig (stoch.) unabhängig, wenn für jede Auswahl von Ereignissen Ai1 , . . . , Aik gilt P (Ai1 ∩ . . . ∩ Aik ) = P (Ai1 ) · . . . · P (Aik ). Bemerkung: Vollständige Unabhängigkeit inpliziert paarweise Unabhängigkeit, der Umkehrschluss gilt jedoch i.A. nicht, wie das obige Beispiel zeigt. 15 2.6 Zufallsvariable Bisher haben wir uns für die Wahrscheinlichkeit von Ereignissen bei einem Zufallsexperiment interessiert. Bei solchen Experimenten will man oft nicht nur wissen, mit welcher Wahrscheinlichkeit ein Ereignis eintritt oder nicht eintritt, sondern man hat oft auch bestimmte Zahlenwerte, die von den zufälligen Ereignissen abhängen. Bei den Würfelspielen, die wir als Beispiele genommen haben, kann man z.B. festlegen, dass ein Spieler je nach Ausgang des Zufallsexperiments einen bestimmten Geldbetrag gewinnt oder verliert. Man hat damit also Zahlenwerte, die vom Zufall abhängen. Anders als mit den ursprünglich betrachteten Ereignissen, kann man mit solchen Zahlen rechnen; man kann sich z.B. für Summen, Durchschnittswerte, Abweichungen vom Durchschnitt etc. interessieren. Eine Zuordnung, die jedem möglichen Ausgang eines Zufallsexperiments eine Zahl zuordnen, ist mathematisch gesehen eine Funktion X, die auf der Menge Ω der möglichen Ausgänge des Experiments definiert ist und Werte in den reellen Zahlen hat. Jedem Element ω ∈ Ω wird also eine reelle Zahl X(ω) zugeordnet. Daher definiert man: Definition 2.19 Sei (Ω, P ) ein Wahrscheinlichkeitsraum. (a) Eine Zufallsvariable (ZV) ist eine Funktion X:Ω→R (b) Der Wertevorrat (Wertebereich) einer Zufallsvariablen X ist die Menge {x ∈ R : es gibt ein ω ∈ Ω mit X(ω) = x} (c) Man schreibt P (X = x) := P (X < x) P (X ∈ A) := := P ({ω ∈ Ω : X(ω) = x}) P ({ω ∈ Ω : X(ω) < x}) P ({ω ∈ Ω : X(ω) ∈ A}) (2.5) (2.6) (2.7) u.s.w. Beispiel 2.20 Wir nehmen wieder das Zufallsexperiment aus Beispiel 2.1, d.h. es werden zwei Würfel geworfen. Die Menge Ω der möglichen Ausgänge des Experiments besteht also aus Paaren von ganzen Zahlen zwischen 1 und 6, man hat also Ω = {(i, j) : i, j ∈ {1, . . . , 6}}. Die Zufallsvariable X definieren wir so, dass jedem möglichen Ausgang des Experiments – also jedem möglichen Zahlenpaar – die Summe der beiden Zahlen zugeordnet wird. X ist also gegeben durch X : Ω → R, X(i, j) = i + j 16 Bei einer Zufallsvariablen interessiert man sich vor allem dafür, mit welcher Wahrscheinlichkeit sie bestimmte Werte “annimmt”. Beim Glücksspiel kann man sich z.B. fragen, mit welcher Wahrscheinlichkeit man mindestens einen bestimmten Betrag gewinnt, oder mit welcher Wahrscheinlichkeit der Gewinn oder Verlust in bestimmten Grenzen sein wird. Die Zufallsvariable X aus dem letzten Beispiel kann Werte zwischen 2 und 12 annehmen. Mit der oben eingeführten Schreibweise ist z.B. P (X = 2) die Wahrscheinlichkeit dafür, dass die Summe der beiden Würfel gleich 2 ist. Diese Wahrscheinlich1 keit ist 36 – denn es gibt insgesamt 6 · 6 = 36 mögliche Paare von Zahlen, die alle die gleiche Wahrscheinlichkeit haben, und die Summe 2 wird dabei von genau einem Paar realisiert, nämlich von dem Paar (1, 1). P (X = 3) – also die Wahrscheinlichkeit, 1 2 = 18 , denn es gibt genau zwei dass die Summe der Zahlen 3 ist –, ist dagegen 36 Paare – (1, 2) und (2, 1), bei denen die Summe gleich 3 ist. Die Wahrscheinlichkeit, dass die Summe gleich 17 oder gleich 2,5 ist, ist dagegen gleich 0, weil die Summe der Augenzahlen nur eine ganze Zahl zwischen 2 und 12 sein kann. Auf diese Weise wird also jeder möglichen Zahl x ∈ R eine Wahrscheinlichkeit zugeordnet. Ebenso kann man Teilmengen von R Wahrscheinlichkeiten zuordnen. Betrachte z.B. die Menge A aller Zahlen, die größer als 10 sind; wir interessieren uns für die Wahrscheinlichkeit, mit der unsere Zufallsvariable Werte in A annimmt. Mit der Bezeichnung aus Definition 2.19 schreiben wir hierfür P (X > 10) oder P (X ∈ A). Um diese Wahrscheinlichkeit zu berechnen, überlegen wir, dass es genau zwei Werte in A gibt, die X annehmen kann, nämlich 11 und 12. Man kann leicht sehen, dass diese 1 2 bzw. 36 angenommen werden. Insgesamt bekommt Werte mit Wahrscheinlichkeiten 36 man also 1 2 3 1 P (X > 10) = P (X ∈ A) = + = = . 36 36 36 12 Allgemein definiert man: Definition 2.21 Sei X eine Zufallsvariable. (a) Durch (2.5), (2.6), (2.7) u.s.w. wird Teilmengen von R eine Wahrscheinlichkeit zugeordnet, d.h. man kann z.B. für ein Intervall [a, b] sagen, mit welcher Wahrscheinlichkeit die Funktion X Werte zwischen a und b annimmt. Diese Wahrscheinlichkeit auf R heißt die Verteilung von X. (b) Die Funktion F (x) = P (X ≤ x) heißt Verteilungsfunktion von X. Für jede reelle Zahl x ist F (x) also die Wahrscheinlichkeit dafür, dass X Werte kleiner oder gleich x annimmt. Die Zufallsvariable X in Beispiel 2.20 konnte nur endlich viele Werte annehmen (ganze Zahlen zwischen 2 und 12). Man hat jedoch oft Zufallsvariablen, die alle möglichen Werte zwischen bestimmten Grenzen annehmen können. Das gilt für die meisten Meßwerte in der Biologie. Hier macht es keinen Sinn, einzelnen Zahlen bestimmte Wahrscheinlichkeiten zuzuordnen. Statt dessen kann man eine so genannte Dichtefunktion f definieren, die einem sagt, wie wahrscheinlich es ist, dass X Werte in einem 17 bestimmten Bereich der Zahlengerade annimmt. Für einen Abschnitt A auf der Zahlengerade, betrachtet man dafür die Fläche unter der Funktion f im Bereich A – mathematisch gesehen das Integral von f im Bereich A. Die Wahrscheinlichkeit, dass X Werte in A annimmt ist dann genau durch diese Fläche bestimmt. Einen Spezialfall hat man, wenn A die Menge aller Zahlen ist, die kleiner als eine bestimmte Zahl a sind. Die Fläche zwischen A und f ist dann das “unbestimmte Integral” Z a f (x)dx. ∞ Formal definiert man: Definition 2.22 Sei X eine Zufallsvariable. (a) Falls X einen endlichen oder abzählbar unendlichen Wertevorrat hat, heißt X diskret. (b) X heißt stetig, wenn es eine Funktion f : R → R+ 0 gibt mit Z x f (u)du. F (x) = −∞ R+ 0 ist dabei die Menge der nicht-negativen reellen Zahlen. In diesem Fall heißt f die Dichte der Zufallsvariablen X. Es gilt also P (a < X ≤ b) = F (b) − F (a). Beispiel 2.23 Eine Uhr bleibt zu einem zufälligen Zeitpunkt stehen. Die Zufallsvariable X beschreibt den Punkt auf dem Ziffernblatt, auf dem der große Zeiger stehengeblieben ist. X ist stetig mit der Verteilungsfunktion x<0 0 x 0 ≤ x < 12 F (x) = 12 1 x≥1 In diesem Beispiel ist z.B. die Wahrscheinlichkeit, dass der Zeiger zwischen 2 und 3 stehen bleibt genau so groß wie die Wahrscheinlichkeit, dass er zwischen 7 und 8 stehen bleibt. Mit der obigen Definition kann man das ausdrücken als P (1 ≤ X ≤ 2) = P (7 ≤ X ≤ 8). Generell ist die Wahrscheinlichkeit dafür, dass der Zeiger in einem Bereich mit einer vorgegebenen Länge stehen bleibt, überall gleich groß. Daher ist die Dichtefunktion f in diesem Fall zwischen 0 und 12 konstant. Außerhalb dieses Bereichs ist sie natürlich 0, denn es können keine Werte kleiner als 0 oder größer als 12 angenommen werden. 18 Beispiel 2.24 Eine Urne enthält N Kugeln, M davon sind weiß, die restlichen Kugeln sind schwarz. Die Wahrscheinlichkeit, eine weiße Kugel zu ziehen, ist also p = M N . Ein Zufallsexperiment besteht darin, n Kugeln zufällig zu ziehen; jede Kugel, die gezogen wurde, wird danach wieder in die Urne zurückgelegt. Die Zufallsvariable X beschreibt die Zahl der weißen Kugeln. Die Wahrscheinlichkeit P (X = k) ist dann die Wahrscheinlichkeit dafür, dass man genau k weiße Kugeln zieht. Es gilt n k P (X = k) = p (1 − p)n−k . (2.8) k Der Faktor n! n = k k!(n − k)! heißt Binomialkoeffizient; man sagt auch “n über k”. Definition 2.25 Die durch 2.8 gegebene Verteilung heißt Binomialverteilung mit Parametern n und p; eine Zufallsvariable mit dieser Verteilung heißt binomial-verteilt. Statt P (X = k) schreibt man auch b(k, n, p). Die wichtigsten Eigenschaften einer Zufallsvariablen sind (a) ihr “durchschnittlicher” Wert und (b) ihre “Variabilität”. hierfür definiert man Erwartunswert und Varianz von diskreten und stetigen Zufallsvariablen. Definition 2.26 (Erwartungswert, Varianz) Sei X eine diskrete Zufallsvariable mit Wertevorrat {x1 , x2 , . . .}. (a) Die Zahl E(X) = µ = X xi P (X = xi ) i heißt der Erwartungswert von X. (b) Die Zahl σ 2 = E[(X − µ)2 ] = heißt die Varianz von X. X i (xi − µ)2 P (X = xi ) Der Erwartungswert E(X) ist der Wert, den eine Zufallsvariable “im Durchschnitt” annimmt; die Varianz σ 2 ist ein Maß dafür, wie breit die Werte von X “gestreut” sind. Erwartungswert und Varianz sind auch für stetige Zufallsvariablen definiert und haben dort die gleiche Bedeutung. Die mathematische Definition wollen wir hier allerdings weglassen. Beispiel 2.27 Man wirft einen Würfel einmal, die Zufallsvariable X beschreibt die Zahl der Augen. Der Erwartungswert von X ist dann µ= X i xi P (X = xi ) = 1 ∗ 1 21 1 + ...+ 6 ∗ = = 3, 5 6 6 6 19 Die Varianz von X ist X (xi − µ)2 P (X = xi ) σ 2 (X) = i 1 = ∗ [(−2, 5)2 + (−1.5)2 + (−0.5)2 + (0.5)2 + (1.5)2 + (2, 5)2 ] 6 1 = ∗ [6.25 + 2, 25 + 0, 25 + 0, 25 + 2, 25 + 6.25] 6 = 2, 91 . . . Satz 2.28 Eine binomialverteilte Zufallsvariable X mit Parametern n und p hat den Erwartungswert E(X) = np und die Varianz σ 2 = np(1 − p). Beispiel 2.29 Sei X die Anzahl der 6en bei 100 Würfen mit einem Würfel. Dann ist X binomialverteilt mit Parametern n = 100 und p = 16 . Es ist E(X) ≈ 16, 67 und die Varianz von X ist ungefähr σ 2 ≈ 13,89. Definition 2.30 (a) Eine Zufallsvariable heißt normalverteilt oder N (µ, σ 2 )-verteilt, wenn sie eine Dichte f hat mit (x−µ)2 1 e− 2σ2 f (x) = √ 2πσ 2 (b) Falls µ = 0 und σ = 1 ist, heißt X standard-normalverteilt. Die Dichte f ist dann also 1 x2 f (x) = √ e− 2 2π Satz 2.31 Sei X eine N (µ, σ 2 )-verteilte Zufallsvariable. Sei F die Verteilungsfunktion der Standard-Normalverteilung (siehe Tabelle auf Seite 42). (a) Der Erwartungswert von X ist µ. (b) Die Varianz von X ist σ 2 . (c) Die Zufallsvariable X∗ = X −µ σ ist standard-normalverteilt. (d) Für eine Zahl b ist P (X ≤ b) = P (X < b) = F ( b−µ ) σ (e) Für Zahlen a ≤ b ist P (a ≤ X ≤ b) = F ( 20 b−µ a−µ ) − F( ) σ σ 0.4 0.3 0.2 0.1 -2 2 4 6 8 Abbildung 2.1: Dichte der Standardnormalverteilung N (0, 1) (links) und der Normalverteilung N (2, 4) mit Erwartungswert 4 und Varianz 4 (rechts) 0.4 1 0.3 0.8 0.6 Hz,FHzLL 0.2 FHzL 0.4 0.1 0.2 -3 -2 -1 z 1 2 3 -3 -2 -1 z 1 2 3 Abbildung 2.2: Links ist die Dichte f der Standardnormalverteilung abgebildet. Die Größe der grauen Fläche ist die Wahrscheinlichkeit F (z) = P (X ≤ z), daß der Wert einer standardnormalverteilten Zufallsvariablen X kleiner oder gleich z ist. Rechts ist die Verteilungsfunktion F abgebildet. Angenommen, wir wollten in Beispiel 2.29 die Wahrscheinlichkeit P (10 ≤ X ≤ 20) berechnen, also die Wahrscheinlichkeit, daß bei 100 Würfen zwischen 10 und 20 6en fallen. Dies geht zwar mit Formel (2.8), aber wir müssten die Formel für jeden Wert k von 10 bis 20 ausrechnen, was recht umständlich ist. Man kann die Binomialverteilung für große n und ein p, was nicht zu nahe an 0 oder 1 liegt, gut durch eine Normalverteilung mit geeigneten Parametern approximieren (annähern). Dies kann die Rechnung sehr erleichtern. Satz 2.32 Sei X binomialverteilt mit Parametern n und p. Sei F die Verteilungsfunktion der Standard-normalverteilung (Seite 42). Seien a und b natürliche Zahlen mit 0 ≤ a ≤ b ≤ n. Dann ist a − 0,5 − np b + 0,5 − np ) − F( p ) P (a ≤ X ≤ b) ≈ F ( p np(1 − p) np(1 − p) wenn n groß ist und p nicht zu nahe an 0 oder 1. 21 (2.9) Die Approximation ist dabei umso genauer je größer np(1 − p) ist. Faustregel: np(1 − p) sollte größer als 9 sein. Beispiel 2.33 Für n = 100, p = 1/6, a = 10, b = 20 ist np(1−p) ≈ 13,89, die Faustregel ist also erfüllt. Er ergibt sich also P (10 ≤ X ≤ 20) ≈ F (1,03) − F (−1,92) ≈ 0,8485 − 0,0274 = 0,8211. Hätte man hier mit der genauen Formel (2.8) gerechnet, hätte sich die Wahrscheinlichkeit 0,8268 ergeben. Der Fehler ist also tatsächlich relativ gering. Eine weitere Verteilung, die in der Statistik eine wichtige Rolle spielt, ist die Poissonverteilung. Die Bedeutung besteht z.B. darin, dass die in (2.8) beschriebene Binomialverteilung B(n, p) für große n und kleine p durch die Poissonverteilung angenähert werden kann. Definition 2.34 Eine diskrete Zufallsvariable X heißt Poisson-verteilt (mit Parameter λ), falls gilt λk −λ P (X = k) = e . k! Wenn n groß und p klein ist, gilt dabei b(k, n, p) ≈ wobei λ = n · p gesetz ist. 22 λk −λ e , k! Kapitel 3 Beschreibende Statistik In der W.-Theorie (Kapitel 2) betrachtet man Zufallsexperimente, bei denen man die Wahrscheinlichkeiten von ,,einfachen” Ereignissen kennt. Daraus kann man dann die Wahrscheinlichkeiten von ,,komplizierteren” Ereignissen berechnen. Wenn das Ergebnis von einem solchen Experiment ein Zahlenwert ist, kann man das Experiment als Zufallsvariable X beschreiben, d.h. als eine Funktion, deren Werte vom Zufall abhängen. Im letzten Abschnitt haben wir uns mit Wahrscheinlichkeitsverteilungen solcher Zufallsvariablen beschäftigt. In der schließenden Statistik (Kapitel 4) hat man es mit Zufallsexperimenten zu tun, bei denen man die Wahrscheinlichkeitsverteilungen nicht kennt. Man will dann auf Grund von Beobachtungen von einzelen Ereignissen Aussagen über ,,dahinter liegende” Wahrscheinlichkeitsverteilungen machen. Z.B. kann man einen Würfel betrachten, von dem man nicht weiß, ob er fair ist, d.h. man weiß nicht, ob die Wahrscheinlichkeit für jede der sechs möglichen Augenzahlen wirklich 1/6 ist. Das Zufallsexperiment kann man durch eine (diskrete) Zufallsvariable X beschreiben, die die Werte 1, . . . , 6 annehmen kann. Das Problem ist dabei, dass man die Verteilung von X nicht kennt, d.h. man weiß nicht, mit welcher Wahrscheinlichkeit z.B. eine 1 oder eine 4 gewürfelt wird. Im nächsten Kapitel werden wir zwei verschiedene statistische Tests kennen lernen, mit denen man auf Grund von Stichproben Aussagen über eine unbekannte Zufallsvariable X machen kann. Die Entwicklung von solchen Tests kann man als das eigentliche Ziel der Statistik ansehen. In diesem Kapitel beschäftigen wir uns zunächst einmal mit der Beschreibung von Stichproben. Es geht darum, wie man Beobachtungen von zufälligen Ereignissen einigermaßen systematisch und übersichtlich darstellen kann, wie man bestimmte Kenngrößen definiert, mit denen man Ergebnisse von Zufallsexperimenten beschreiben kann u.s.w. 3.1 Häufigkeitsverteilung von Stichproben Definition 3.1 Eine Stichprobe vom Umfang n ist ein Satz von beobachteten Zahlenwerten x = (x1 , . . . , xn ). Man nennt x auch eine Urliste. Die in der Stichprobe x 23 vorkommenden Zahlenwerte heißen Merkmale von x; man bezeichnet diese Merkmale auch mit X ∗ = (x∗1 , . . . , x∗N ). hk ist die Häufigkeit, mit der das Merkmal x∗k vorkommt. Man nennt hk auch die absolute Häufigkeit von x∗k . Dagegen ist rk = hk n die relative Häufigkeit von x∗k . Der Unterschied zwischen der Urliste x und der Liste von Merkmalen x∗ ist also, dass bei der Urliste ein Wert mehr als einmal vorkommen kann, während in der Merkmalsliste jeder Wert nur einmal vorkommt. Für hk und rk gilt N X hk = n rk = 1 i=1 N X i=1 Beispiel 3.2 Man interessiert sich für die Mathematik-Kenntnisse der Schüler an einer Schule; als Stichprobe nimmt man die Zeugnisnoten bei einer Klasse mit 25 Schülern. Die Stichprobe (bzw. Urliste) besteht aus den Zahlen x = (2, 3, 4, 3, 1, 5, 2, 2, 3, 1, 2, 4, 2, 3, 1, 1, 3, 3, 2, 4, 5, 2, 2, 3, 2). Die Merkmale dieser Stichprobe sind damit x∗ = (1, 2, 3, 4, 5) (Es kommen alle Noten vor außer 6), die Stichprobe hat also den Umfang n = 25, und die Zahl der Merkmale ist N = 5. Die absoluten Häufikeiten sind h1 = 4 h2 h3 = = 9 7 h4 h5 = = 3 2 h6 = 0 und die relativen Häufigkeiten sind r1 r2 r3 r4 r5 r6 = = = = = = 4 25 9 25 7 25 3 25 2 25 0 25 24 = = = = = = 0, 16 0, 36 0, 28 0, 12 0, 08 0, 00 Die erste Frage, die wir uns stellen ist: Wie kann man die Ergebnisse einer Stichprobe übersichtlich darstellen, so dass man die wesentlichen Ergebnisse möglichst auf einen Blick erkennen kann? Bei sehr kleinen Stichproben (wie im letzten Beispiel) reicht es aus, die absoluten oder relativen Häufigkeiten der Merkmale anzugeben. Bei Stichproben mit einer größeren Zahl von möglichen Merkmalen ist es aber schwieriger, aus den Häufigkeitstabellen noch irgendwelche nützlichen Informationen herauszufiltern. Daher stellt man die Ergebnisse von Stichproben meistens graphisch dar. Wenn die Zahl der Merkmale der Stichprobe (also die Zahl der verschiedenen Werte) nicht all zu groß ist, kann man die Stichprobe übersichtlich als Stabdiagramm oder als Häufigkeitspolygon darstellen. Diese Möglichkeiten sind in den Abbildung 3.1 dargestellt. 3 3 2 2 1 1 3 4 5 6 7 8 9 3 10 4 5 6 7 8 9 10 Abbildung 3.1: Links: Ein Stabdiagramm der Urliste (7, 3, 5, 6, 8, 5, 4, 7, 10, 7). Die Höhe der Stäbe gibt die absolute Häufigkeit der Merkmale an. Rechts: Ein Häufigkeitspolygon derselben Daten. Wenn man eine große Zahl von Merkmalen hat, Wird die Darstellung durch Stabdiagramme oder Häufigkeitspolygone allerdings unübersichtlich. Wenn z.B. 50 Studierende eine Klausur schreiben, bei der man bis zu 100 Punkten bekommen kann, dann macht es keinen Sinn mehr ein Stabdiagramm zu zeichnen, bei dem für jede Punktzahl k eingezeichnet ist, wie viele Studierende k Punkte bekommen haben. Für die meisten Zahlen k hätte man dann wahrscheinlich 0, 1 oder 2 Studierende, die genau k Punkte bekommen haben. Man hätte also ein Stabdiagramm mit vielen sehr kurzen Strichen, und es wäre sehr umständlich, daraus brauchbare Informationen zu bekommen. In solchen Fällen faßt man Gruppen von Ergebnissen zusammen und trägt die entsprechenden Häufigkeiten in ein so genanntes Histogramm ein. Man würde dabei z.B. einzeichnen, wie viele Studierende 0 - 10 Punkte haben, wie viele 11 - 20 Punkte haben u.s.w. Ein Beispiel ist in Abbildung 3.2 gegeben. Wir definieren jetzt noch einige Kenngrößen, mit denen man das Ergebnis einer Stichprobe x = (x1 , . . . , xn ) charakterisieren kann: Definition 3.3 (a) Die Zahl x1 + . . . + xn n heißt Mittelwert oder arithmetisches Mittel von x. x= (b) Falls die Werte x1 , . . . , xn der Größe nach geordnet sind , d.h. falls x1 ≤ x2 ≤ . . . ≤ xn 25 6 3 5 2.5 4 2 3 1.5 2 1 1 0.5 10 12 14 16 18 20 10 22 12 14 16 18 20 22 Abbildung 3.2: Links: Ein Histogramm mit äquidistanter Klasseneinteilung der geordneten Urliste (8, 10, 11, 12, 13, 13, 14, 14, 14, 14, 15, 15, 16, 17, 17, 17, 17, 18, 20, 21). Die Klassengrenzen sind 8, 10, 12, 14, 16, 18, 20, 22. Äquidistant heißt, daß benachbarte Klassengrenzen jeweils den gleichen Abstand (hier 2) voneinander haben. Die Klassen sind jeweils die Intervalle zwischen zwei benachbarten Klassengrenzen, wobei die Intervallgrenze hier jeweils zur rechten Klasse gehört. Die Höhe des Balkens über einer Klasse ist die Häufigkeit der Stichprobenwerte dieser Klasse. Also z.B. in der Klasse [14, 16) liegen 6 Stichprobenwerte: 14,14,14,14,15 und 15. Rechts: Ein Histogramm mit nicht äquidistanter Klasseneinteilung derselben Daten. Die Klassengrenzen sind 8, 12, 14, 16, 18, 22. Die Höhe des Balkens über einer Klasse ist hier: (Häufigkeit der Stichprobenwerte dieser Klasse)/(Klassenbreite). Also z.B. der Balken über der Klasse [8, 12) hat die Höhe 3/4. gilt, nennt man den mittleren Wert Median von x, falls n eine ungerade Zahl ist. Falls n gerade ist, ist der Median der Durchschnitt der beiden mittleren Werte. Den Median bezeichnet man mit x̃. Man hat also ( falls n ungerade ist x n+1 2 x̃ = (3.1) x n +x( n +1) 2 2 falls n gerade ist 2 (c) Der Modalwert von x ist der Wert, der am häufigsten in der Stichprobe vorkommt, d.h. das Merkmal mit der größten absoluten Häufigkeit. (d) Der Wert n s2x = heißt Varianz der Stichprobe x 1 X (xi − x)2 n − 1 i=1 (e) Der Wert v u p u 2 sx = sx = t n 1 X (xi − x)2 n − 1 i=1 heißt Standardabweichung x. Die oben definierten Begriffe sollen am Beispiel der Zeugnisnoten (Beispiel 3.2) erklärt werden. 26 (a) Der Mittelwert der Zeugnisnoten ist 2 + 3 + 4 + 3 + ... + 2 + 3 + 2 = 2, 6 25 Falls man die absoluten Häufigkeiten der Merkmale von x kennt, kann man auch schreiben h1 · x∗1 + . . . + hN · x∗N x= n In unserem Beispiel haben wir also x= 4·1+9·2+7·3+3·4+2·5 = 2, 6 25 (b) Wenn wir annehmen, dass die Urliste x der Größe nach geordnet ist, haben wir x = (1, 1, 1, 1, 2, 2, 2, 2, 2, 2, 2, 2, 2, 3, 3, 3, 3, 3, 3, 3, 4, 4, 4, 5, 5) Der mittlere Wert dieser liste ist die fett gedruchte 2, das ist also der Median der Stichprobe x. Mit Formel (3.1) hätten wir x̃ = x 25+1 = x13 = 2 2 denn n ist ungerade. Für den Fall, dass n gerade ist, nehmen wir an, dass wir einen Schüler mehr hätten; wir nehmen an, dass dieser Schüler die Note 4 hat. In diesem Fall haben wir also n = 26 und x = (1, 1, 1, 1, 2, 2, 2, 2, 2, 2, 2, 2, 2, 3, 3, 3, 3, 3, 3, 3, 4, 4, 4, 4, 5, 5) In diesem Fall ist der Median der Durchschnitt der beiden mittleren Werte (die fett gedruchten 2 und 3), also ist x̃ = 2, 5. Mit Formel (3.1) bekommt man x̃ = x 262 + x( 26 2 +1) 2 = x13 + x(13+1) 2 (c) Der Modalwert in unserem Beispiel ist 2, da die Note 2 am häufigsten vorkommt (9 mal). (d) Die Varianz gibt an, wie stark die Werte der Stichproben vom Mittelwert abweichen. Wenn N die Zahl der vorkommenden Werte bei der Stichprobe x ist, und falls man die absoluten Häufigkeiten hi dieser Werte kennt, kann man die Varianz auch berechnen als N s2x = 1 X hi (x∗i − x)2 n − 1 i=1 (3.2) In unserem Beispiel ist n = 25 und h1 · (x∗1 − x)2 h3 · (x∗2 − x)2 h2 · (x∗3 − x)2 h4 · (x∗4 − x)2 h5 · (x∗5 − x)2 = = = = = 4 · (1 − 2, 6)2 7 · (3 − 2, 6)2 9 · (2 − 2, 6)2 3 · (4 − 2, 6)2 2 · (5 − 2, 6)2 27 = = = = = 10, 24 1, 12 3, 24 5, 88 11, 52 Die Varianz von x ist also s2x = 32 1 (10, 24 + 1, 12 + 3, 24 + 5, 88 + 11, 52) = = 1, 3333 . . . 25 − 1 24 (e) Die Standardabweichung von x ist demnach p sx = 1, 33333 = 1, 154 3.2 Regression Bisher hatten wir Stichproben betrachtet, bei denen eine bestimmte Größe mehrmals gemessen wurde, z.B. die Note in einem bestimmten Fach. Oft hat man aber die Situation, dass man sich für zwei verschiedene Größen interessiert, z.B. für die Noten in zwei verschiedenen Fächern. Eine Stichprobe, bei der zwei verschiedene Größen gemessen werden, nennt man eine zweidimensionale Stichprobe. Eine wichtige Frage ist dann, ob es irgend einen Zusammenhang zwischen den gemessenen Werten gibt, oder ob die beiden Werte ,,unabhängig” voneinander sind. Falls es einen Zusammenhang gibt, will man wissen, ob man das Verhältnis zwischen den beiden Größen durch eine mathematische Funktion beschreiben kann. Das Problem dabei ist, dass die wirklichen Werte normalerweise nicht genau einer mathematischen Funktion entsprechen, sondern nur ungefähr. Außerdem macht man natürlich auch Messfehler. Man kann also nicht erwarten, dass sich der Zusammenhang zwischen den beobachteten Werten exakt durch eine mathematische Funktion beschreiben läßt. Daher sucht man eine Funktion, die die gemessenen Werte nicht unbedingt exakt, aber doch so genau wie möglich approximiert (d.h. annähert). Eine solche Annäherung nennt man in der Statistik auch Regression. Dafür definiert man zuerst Definition 3.4 Eine zweidimensionale Stichprobe vom Umfang n ist ein Satz von n Paaren von Beobachtungswerten (x1 , y1 ), . . . (xn , yn ) Um festzustellen, ob bzw. was für ein Zusammenhang zwischen den Werten xi und yi besteht, kann man ein Schaubild zeichnen, in dem die yi gegen xi aufgetragen wird. Eine solche graphische Darstellung kann schon sehr deutlich zeigen, ob oder wie xi mit yi zusammenhängt. 3.2.1 Approximation an eine lineare Funktion (lineare Regression) Der einfachste mathematische Zusammenhang zwischen den gemessenen Werten, den man sich vorstellen kann, ist ein linearer Zusammenhang, d.h. die Werte yi sind proportional zu xi . Wenn man z.B. Indiviuen i einer Population untersucht und dabei Körpervolumen xi und Gewicht yi misst, sollte man erwarten, dass diese Werte ungefähr proportional zueinander sind, d.h. im Idealfall hätte man einen Zusammenhang yi = α · xi 28 mit irgend einer Konstanten α. Das Schaubild, das man bekommt, wenn man xi und yi gegeneinander aufträgt, wäre dann eine Gerade, die durch den Ursprung (0, 0) geht. Dieser Zusammenhang gilt in Wirklichkeit natürlich nicht exakt, sondern nur ungefähr, außerdem muß man natürlich immer mit ungenauen Messungen rechnen. Man sucht also einen Wert α, so dass die Annäherung yi ≈ α · xi möglichst ,,gut” ist. Etwas allgemeiner nehmen wir an, dass zwischen den Werten xi und yi ein affinlinearer Zusammenhang besteht. Wenn man die Werte gegeneinander aufträgt, sollte man also eine Gerade bekommen, die aber nicht unbedingt durch den Ursprung gehen muß. So ein Zusammenhang wird durch yi = α · xi + β (3.3) beschrieben. Einen solchen Zusammenhang kann man z.B. auf Grund von theoretischen Überlegungen erwarten (wie bei dem Beisipiel mit Gewicht und Volumen - in diesem Fall war β = 0); man kann aber auch einfach aus dem Schaubild erkennen, dass ein affin-linearer Zusammenhang besteht. In jedem Fall ist die Aufgabe dann, die Konstanten α und β aus den Messdaten (xi , yi ) zu bestimmen. Graphisch kann man sich dieses Problem so veranschaulichen, dass man eine Gerade sucht, die möglichst genau zu den gemessenen Werten ,,paßt”. y yi xi x Abbildung 3.3: Eine zweidimensionale Stichprobe vom Umfang 15 und ihre Regressionsgerade. Um gute Werte für α und β zu finden, kann man folgendermaßen vorgehen. Angenommen, der (theoretische) Zusammenhang zwischen xi und yi wird durch (3.3) beschrieben. Für jeden Wert xi ist dann α·xi +β der theoretisch zu erwartende Messwert. 29 Dagegen ist yi der wirklich gemessene Wert. Um zu beurteilen, wie gut (3.3) den Zusammenhang beschreibt – d.h. wie gut der theoretisch erwartete Wert mit dem wirklich gemessenen übereinstimmt –, nimmt man das Quadrat der Differenz (α · xi + β − yi )2 Je besser die theoretische Berechnung ist, desto kleiner sollten die Quadrate der Differenzen sein. Als Maß dafür, wie gut (3.3) den Zusammenhang beschreibt, nimmt man die Summe über alle Messwerte xi , d.h. man nimmt den Wert Q= n X i=1 (α · xi + β − yi )2 Für jede Wahl von α und β bekommt man also eine Wert Q, der sagt, wie gut die Messwerte durch die Gerade 3.3 approximiert werden. Man sucht dann Werte α̂ und β̂, so dass Q minimal ist. Dieses Verfahren nennt man die Methode der kleinsten Quadrate. Um solche Werte α̂ und β̂ zu finden, definiert man zunächst: xx = xy = x21 + . . . + x2n n x1 · y1 + . . . + xn · yn n Dann setzt man α̂ = und xy − x · y xx − x · x β̂ = y − α̂x Man kann beweisen, dass die Werte α̂ und β̂ die optimalen Werte für α β sind, d.h diejenigen Werte, bei denen die Summe der Quadrate Q minimal ist. 3.2.2 Approximation an eine Exponentialfunktion Viele biologische Zusammenhänge lassen sich durch die Exponentialfunktion f (x) = ex oder, etwas allgemeiner, f (x) = α · eβ·x beschreiben. Zum Beispiel wachsen Bakterienkulturen exponentiell, bis sie an gewisse Schranken stoßen. Man hat daher oft die Situation, dass man Paare (xi , yi ) von Messwerten hat und annimmt, dass ein exponentieller Zusammenhang besteht. Wie bei der linearen Regression sucht man daher Konstanten α und β, so dass yi ≈ α · eβxi 30 (3.4) gilt. Das Problem ist wieder, Werte für α und β zu finden, so dass die Approximation (3.4) möglichst gut ist. Man kann dieses Problem lösen, indem man es auf die lineare Regression zurückführt, die im letzten Teilabschnitt behandelt wurde. Dafür setzt man b = ln y bzw., was gleichbedeutend damit ist, y = eb und entsprechend bi = ln yi u.s.w. Aus der Gleichung y = α · eβ·x bekommt man, wenn man von beiden Seiten den Logarithmus nimmt, ln y = ln α · eβ·x b = ln α + ln eβ·x b ln α + β · x = Damit hat man das Problem, ,,gute” Werte für α und β zu finden, so dass bi ≈ ln α + β · xi gilt bzw., wenn man ln yi = bi einsetzt: ln yi ≈ ln α + β · xi . Wir haben also jetzt das Problem, eine lineare Approximation für die Werte xi und ln yi zu finden. Dieses Problem haben wir aber schon im letzten Abschnitt (linearer Regression) gelöst. Wir nehmen also einfach statt yi die Werte ln yi und wenden die Methode aus Abschnitt 3.2.1 an. 3.2.3 Approximation an eine Potenzfunktion Andere Zusammenhänge in der Biologie lassen sich durch die Potenzfunktion f (x) = α · xβ beschreiben. In diesem Fall gehen wir ganz ähnlich wie bei der Exponentialfunktion vor. Der einzige Unterschied ist, dass wir diesmal von beiden Werten xi und yi den Logarithmus nehmen. Dafür setzen wir a = ln x und b = ln y 31 (bzw. ai = ln xi und bi = ln yi ). Aus yi ≈ α · xβ bekommt man dann y ln y = = b = b b = = α · xβ ln α · xβ ln α + ln xβ ln α + β · ln x ln α + β · a Wir haben daher bi ≈ ln α + β · ai Alles, was wir jetzt machen müssen, um ,,gute” Werte für α und β zu finden, ist den Logarithmus von xi und yi zu nehmen; zwischen diesen Werten sollte dann ein linearer Zusammenhang bestehen, und gute Werte für die Konstanten α und β finden wir dann einfach wieder wie in Abschnitt 3.2.1. 3.3 Korrelation und Kovarianz Wenn man eine zweidimensionale Stichprobe hat (d.h. wenn man zwei verschiedene Größen mehrmals gemessen hat) ist es oft nicht möglich, einen mathematischen Funktionszusammenhang zwischen diesen Größen anzugeben. Trotzdem kann man sich fragen, ob die Größen irgendwie etwas miteinander zu tun haben, d.h. ob z.B. xi (im Allgemeinen) groß ist, wenn yi auch groß ist, oder ob das Verhältnis umgekehrt ist, oder ob man überhaupt keinen solchen Zusammenhang erkennen kann. Z.B. würde man erwarten, dass Schüler mit guten Mathematiknoten oft auch gute Noten in Physik habeni – und umgekehrt–, auch wenn man natürlich keine mathematische Funktion angeben kann, die den Zusammenhang beschreibt. Man sagt dann, dass die beiden Messwerte korreliert sind. Unser Ziel in diesem Abschnitt ist, ein Maß für die ,,Korrelation” zwischen zwei Messgrößen anzugeben. Dafür definiert man Definition 3.5 Sei (x, y) eine zweidimensionale Stichprobe vom Umfang n, d.h. man hat einen Satz von n Paaren von Beobachtungen x = y = Die Größe sxy = n P i=1 (x1 , . . . , xn ) (y1 , . . . , yn ) (xi − x) · (yi − y) n−1 32 heißt Kovarianz von x und y. Die Zahl ρ(x, y) = sxy sx · sy heißt Korrelationskoeffizient von x und y. Korrelation bzw. Korrelationskoeffizient beschreiben, wie ,,gut” die Werte von x und y korreliert sind. Bei Stichproben, bei denen große Werte xi häufig bedeuten, dass auch yi groß ist (und umgekehrt), sind Korrellation bzw. Korrelationskoeffizient positiv. Wenn dagegen bei großen Werten xi die Werte yi meistens klein sind, sind σxy und ρ(x, y) negativ. Falls zwischen x und y überhaupt kein erkennbarer Zusammenhang besteht, sind σxy und ρ(x, y) gleich Null. y y x x y y x x Abbildung 3.4: Streudiagramme von zweidimensionalen Stichproben. Es sind jeweils die Punkte (x1 , y1 ), (x2 , y2 ), . . . , (xn , yn ) eingezeichnet. Die Korrelationskoeffizienten sind: ρ(x, y) = 0, 25 (oben links), ρ(x, y) = −0, 95 (oben rechts), ρ(x, y) = 0 (unten links), ρ(x, y) = 1 (unten rechts). Bemerkung: Der Korrelationskoeffizient ist unabhängig von der Wahl der Einheiten. Deswegen sind hier keine Einheiten an den Achsen angegeben. 33 Kapitel 4 Statistische Tests 4.1 Ein paar allgemeine, nicht Klausur-relevante Bemerkungen über statistische Tests In diesem Kapitel wollen wir zwei Methoden beschreiben, mit denen man feststellen kann, ob die Werte, die bei einer Stichprobe beobachtet werden, einer theoretisch vorgegebenen Wahrscheinlichkeitsverteilung entsprechen. Man stellt dabei eine so genannte Nullhypothese H0 auf, die besagt, dass die wirkliche Wahrscheinlichkeitsverteilung bei dem Experiment und die ,,theoretische” Verteilung übereinstimmen. Die gegenteilige Hypothese – also die Annahme, dass die wirkliche Verteilung nicht mit der theoretischen Verteilung übereinstimmt – nennt man Alternative und schreibt auch H1 . Wenn die Abweichung zwischen den gemessenen und den theoretisch erwarteten Werten zu groß ist, lehnt man die Nullhypothese ab. Ein statistischer Test liefert einem ein Entscheidungskriterium dafür, wann man H0 ablehnen soll und wann nicht. Grundsätzlich kann man hierbei zwei verschiedene Fehler machen: 1. Man lehnt die Nullhypothese H0 ab, obwohl sie in Wirklichkeit richtig ist. Diesen Fehler nennt man einen Fehler erster Art. 2. Man lehnt die Nullhypothese nicht ab, obwohl sie falsch ist. Das nennt man einen Fehler zweiter Art. Man könnte meinen, dass die ,,Nullhypothese” H0 und die ,,Alternative” H1 eigentlich gleichberechtigt sein sollten. Man will ja nicht voreingenommen sein, und eine der beiden Hypothesen irgendwie bevorzugen, bevor man die Ergebnisse der Stichprobe gesehen hat. Wenn das so wäre, d.h. wenn H0 und H1 wirklich gleichwertig wären, wäre schon die Bezeichnung ,,Nullhypothese” und ,,Alternative” ziemlich willkürlich, und ,,Fehler erster Art” und ,,Fehler zweiter Art” wären prinzipiell gleich schlecht. Man würde in diesem Fall versuchen beide Fehler möglichst zu minimieren. In praktischen Anwendungen ist es aber oft so, dass man hauptsächlich daran interessiert ist einen der beiden möglichen Fehler zu vermeiden, weil er vielleicht schwerwiegendere Konsequenzen hätte. Dafür nimmt man in Kauf, dass der andere Fehler 34 mit größerer Wahrscheinlichkeit eintreten kann. Viele statistische Tests werden etwa gemacht, weil man eine bestimmte Aussage belegen will, z.B. will man zeigen dass ein Zusammenhang zwischen zwei biologischen Größen besteht. So eine Behauptung will man aber nur dann aufstellen, wenn man sich wirklich einigermaßen sicher ist, dass sie auch richtig ist. Die Nullhpyothese H0 ist dann, dass die zu zeigende Aussage falsch ist. Zwischen H0 und der Alternative H1 (,,Aussage richtig”) will man eine Entscheidung treffen – und zwar so, dass man das Risiko minimiert, einen Fehler erster Art zu machen. Mit anderen Worten, man will vermeiden, die fragliche Behauptung aufzustellen, obwohl sie in Wirklichkeit falsch ist. In Blatt 9, Aufgabe 4, will man z.B. wissen, ob bestimmte gentechnisch veränderte Kartoffeln größer sind als die ursprünglich vorkommenden Kartoffeln. Dafür macht man eine Stichprobe und mißt das Gewicht von einer Anzahl der veränderten Kartoffeln. Die Behauptung, dass die gentechnisch veränderten Kartoffeln größer sind, würde man nur dann aufstellen, wenn man sich wirklich ziemlich sicher ist, dass das auch so ist, und die gemessenen Werte nicht einfach Zufall sind. In diesem Fall stellt man die Nullhypothese H0 auf, dass beide Kartoffelsorten gleich schwer sind. Der Schluss, dass die gentechnisch veränderten Kartoffeln schwerer sind, wenn sie in Wirklichkeit gleich schwer sind, ist der Fehler erster Art (Nullhypothese abgelehnt, obwohl sie richtig ist). Diesen Fehler will man in unsererm Beispiel möglichst vermeiden. Der Fehler zweiter Art wäre dagegen die Behauptung, dass beide Kartoffelsorten gleich schwer wären (Nullhypothese richtig) auch wenn die gentechnisch veränderten in Wirklichkeit schwerer sind. Diesen Fehler nimmt man eher in Kauf. Diese ,,unsymmetrische” Situation ist typisch für viele Entscheidungssituationen, in denen man statistische Tests anwendet. Das Ziel bei unseren statistischen Tests ist daher, die Wahrscheinlichkeit für einen Fehler erster Art zu minimieren. Dafür geben wir uns eine so genannte Irrtumswahrscheinlichkeit α vor. Das ist normalerweise eine kleine Wahrscheinlichkeit, z.B. 5 % (0,05) oder 1 % (0.001). Wir treffen dann die Entscheidung über Ablehnung oder nichtAblehnung der Nullhpothese so, dass dabei die Wahrscheinlichkeit für einen Fehler erster Art kleiner als α ist. Das sagt wohlgemerkt nichts darüber aus, wie groß die Wahrscheinlichkeit für einen Fehler zweiter Art ist. Wenn wir H0 nicht ablehnen, kann man daraus nicht umgekehrt schließen, dass H0 mit großer Wahrscheinlichkeit richtig sein muß. Es kann auch sein, dass man einfach nicht genug Daten hat, um das zu entscheiden. Bei den Tests, die im folgenden beschrieben sind, geht man so vor: Man macht eine Stichprobe vom Umfang n, d.h. man misst einen Satz von n Werten x = (x1 , . . . , xn ). Dann definiert man eine Testgröße T (auch Statistik genannt), die aus den gemessenen Werten berechnet wird. T hängt damit vom Zufall ab, kann also als eine Zufallsvariable angesehen werden. T ist so definiert, dass – unter der Annahme, dass die Nullhypothese H0 richtig ist – die Wahrscheinlichkeitsverteilung von T bekannt ist. Das heißt, man kann berechnen, welche Werte von T eher wahrscheinlich oder eher unwahrscheinlich sind. Wenn T einen Wert hat, der sehr unwahrscheinlich ist – unter der Annahme dass H0 richtig ist –, dann lehnt man H0 ab. Genauer gesagt: Man bestimmt einen (oder zwei) Grenzwerte c1 (bzw. c2 ) und lehnt H0 ab, wenn T außerhalb dieser Grenzwerte liegt. Dabei bestimmen wir die Gernzwerte so, dass – unter der Annahme, dass H0 gilt – die Wahrscheinlichkeit dafür, dass T zufällig außerhalb der Gernzwerte liegt, kleiner 35 als α ist. α ist dabei die vorher festgelegte Irrtumswahrscheinlichkeit. Damit erreicht man, dass die Wahrscheinlichkeit für einen Fehler erster Art (H0 abgelehnt, obwohl H0 richtig ist) kleiner als α ist. 4.2 Der Ein-Stichproben-t-Test Beim t-Test nehmen wir an, dass eine zufällige Größe, die wir messen, normalverteilt ist. Zur Erinnerung: Sehr viele biologische Größen sind nach der Normalverteilung N (µ, σ 2 ) verteilt, die in Definition 2.30 beschrieben wurde; dabei ist µ der Erwartungswert (oder Mittelwert), und σ ist die Standardabweichung, sagt also etwas darüber aus, wie stark die betreffenden Werte von dem Erwartungswert abweichen (streuen). Wir interessieren wir uns in diesem Abschnitt nur für den Erwartungswert µ. Dabei gibt es prinzipiell zwei verschiedene Fragen (a) Zweiseitiger t-Test: Hier ist die Nullhypothese H0 , dass µ = µ0 ist für einen vorgegebenen Wert µ0 . Die Alternative ist, dass µ 6= µ0 ist. H0 wird dabei abgelehnt, wenn der Mittelwert der Stichprobe entweder nach oben oder nach unten zu stark von µ0 abweicht. (b) Einseitiger t-Test: Hier interessiert man sich nur dafür, ob µ in eine bestimmte Richtung von µ0 abweicht. Die Nullhypothese ist dann z.B. µ ≥ µ0 , die Alternative dazu ist µ < µ0 (Umgekehrt kann die Nullhypothese sein, dass µ ≤ µ0 ist, die Alternative ist dann µ > µ0 ). Um die Nullhypothese zu testen, macht man eine Stichprobe vom Umfang n, man hat also die Messwerte x = (x1 , . . . , xn ) Der zweiseitige t-Test funktioniert dann folgendermaßen. Man betrachtet den Mittelwert x und die Standardabweichung sx der Stichprobe x. Zur Erinnerung: In Kapitel 3 sind Mittelwert und Standardabweichung definiert worden als x= und Dann setzt man v u u sx = t x1 + . . . + xn n n 1 X (xi − x)2 n − 1 i=1 T = x − µ0 √ · n sx Die Zahl T ist unsere Testgröße. Falls die Nullhypothese H0 richtig ist, d.h. falls µ0 wirklich der Erwartungswert bei unserem Zufallsexperiment ist, dann sollte man annehmen, dass der Mittelwert x ungefähr gleich µ0 ist. Es wäre also x − µ0 ≈ 0 36 und daher wäre T ≈ 0. Beim zweiseitigen t-Test wäre es bei richtiger Nullhypothese daher sehr unwahrscheinlich, dass T stark von 0 abweicht. – falls das trotzdem der Fall wäre, würde man H0 ablehnen. Beim einseitigen t-Test mit Nullhypothese µ ≥ µ0 würde man entsprechend erwarten, dass T ≥ 0 wäre, falls H0 richtig ist. Man würde H0 dann ablehnen, falls T deutlich kleiner als 0 wäre (und analog für die Nullhypothese µ ≤ µ0 ). Um eine gute Entscheidung über Ablehnung oder nicht Ablehnung der Nullhypothese zu treffen, muß man deshalb wissen, wie unwahrscheinlich es ist, dass T sehr große oder sehr kleine Werte annimmt. Um zu entscheiden, ob wir H0 ablehnen oder nicht, geben wir uns wie im letzten Abschnitt eine Irrtumswahrscheinlichkeit α vor. α ist dabei eine kleine Wahrscheinlichkeit, z.B. 5%. xα heißst auch das Niveau des Tests. Aus der Theorie weiß man, wie die Zufallsvariable T verteilt ist. Ihre Verteilung ist die so genannte t-Verteilung mit n − 1 Freiheitsgraden (n war der Umfang der Stichprobe). In Tabelle 4.2 auf Seite 43 sind die sogenannten Quantile der t-Verteilung tabelliert. Für eine stetige Zufallsvariable mit Verteilungsfunktion F und eine Wahrscheinlichkeit p heißt die Zahl tp ein p-Quantil der Verteilung, wenn F (tp ) = p ist. Das Quantil tp ist also so gewählt, dass die Wahrscheinlichkeit gleich p ist, dass die Zufallsvariable höchstens tp ist. Beispiel: Das 21 -Quantil der Standardnormalverteilung ist 0, weil eine standardnormalverteilte Zufallsvariable mit Wahrscheinlichkeit 12 kleiner oder gleich 0 ist. Die Testentscheidung wird aufgrund des Wertes, den T annimmt wie folgt getroffen. (a) zweiseitiger Test Testentscheidung: |T | > t1− α2 |T | ≤ t1− α2 ⇒ ⇒ H0 ablehnen H0 nicht ablehnen (b1) einseitiger Test, H0 : µ ≤ µ0 Testentscheidung: T > t1−α T ≤ t1−α ⇒ ⇒ H0 ablehnen H0 nicht ablehnen (b2) einseitiger Test, H0 : µ ≥ µ0 Testentscheidung: T < −t1−α T ≥ −t1−α ⇒ ⇒ H0 ablehnen H0 nicht ablehnen Das Quantil t1− α2 bzw. t1−α steht in Tabelle 4.2. Dort liest man in der Spalte für p = 1 − α2 bzw. p = 1 − α und der Zeile mit Freiheitsgrad n − 1 das entsprechende p-Quantil ab. 37 4.3 Der Zwei-Stichproben-t-Test Der Ein-Stichproben-t-Test hat den Nachteil, dass die Zahl µ0 eine fest vorgebene Zahl ist. In vielen Fällen will man aber wissen, ob der Erwartungswert der Verteilung einer Stichprobe x1 , x2 , . . . , xn gleich dem Erwartungswert einer zweiten Stichprobe y1 , y2 , . . . , ym ist. Man kennt beide Erwartungswerte nicht. Dies wäre zum Beispiel der Fall, wenn man n Felder hat, auf denen man ein Düngemittel einsetzt und m andere Felder, auf denen man kein Düngemittel einsetzt. n und m dürfen verschieden sein. x1 , x2 , . . . , xn seien die Erträge auf den gedüngten Feldern und y1 , y2 , . . . , ym seien die Erträge auf den ungedüngten Feldern. Man spricht hier von unverbundenen Stichproben, weil die Zufallsvariablen aus den verschiedenen Stichproben als unabhängig angesehen werden können. Andernfalls würde man von verbundenen Stichproben sprechen. Ein typisches Beispiel für verbundene Stichproben ist folgendes. Man hat n Patienten, bei denen man einen Wert jeweils vor und nach einer Behandlung misst. Die eine Stichprobe besteht dann aus den Werten vor der Behandlung und die andere aus den Werten nach der Behandlung. Diese Stichproben wären dann abhängig und somit verbunden. Im Beispiel mit dem Dünger würde natürlicherweise die Frage aufgeworfen, ob das Düngen den mittleren Ertrag verändert, also ob die Erwartungswerte des Ertrags verschieden sind in den beiden Fällen. Voraussetzung zur Anwendung des Zwei-Stichproben-t-Tests: Man hat zwei Stichproben x1 , x2 , . . . , xn und y1 , y2 , . . . , ym . n und m müssen mindestens 2 sein. Alle n + m Zufallsvariable sind unabhängig. Die Zufallsvariablen aus der ersten Stichprobe sind N (µ1 , σ12 )-verteilt und die Zufallsvariablen aus der zweiten Stichprobe sind N (µ2 , σ22 )-verteilt. Es muß gelten σ1 = σ2 . In diesem Fall ist die Teststatistik r nm x̄ − ȳ , (4.1) T = s n+m wobei x̄ und ȳ die Mittelwerte der beiden Stichproben sind und s die geschätzte gemeinsame Standardabweichung: x̄ ȳ s 1 (x1 + x2 + · · · + xn ) n 1 = (y1 + y2 + · · · + ym ) m v ! u m n X X u 1 t 2 2 (yi − ȳ) . (xi − x̄) + = n + m − 2 i=1 i=1 = Wenn µ1 = µ2 ist, hat die Statistik T eine t-verteilung mit n + m − 2 Freiheitsgraden. Bezeichne wieder tp das p-Quantil der t-Verteilung diesmal mit n + m − 2 Freiheitsgraden, das man wieder aus einer Tabelle ablesen kann (Seite 43). Sei wieder eine Fehlerschranke α für den Fehler 1. Art vorgegeben. Man unterscheidet wieder wie oben den einseitigen Test von den zweiseitigen Tests. (a) zweiseitiger Test, H0 : µ1 = µ2 38 Testentscheidung: |T | > t1− α2 |T | ≤ t1− α2 ⇒ ⇒ H0 ablehnen H0 nicht ablehnen (b1) einseitiger Test, H0 : µ1 ≤ µ2 Testentscheidung: ⇒ ⇒ T > t1−α T ≤ t1−α H0 ablehnen H0 nicht ablehnen (b2) einseitiger Test, H0 : µ1 ≥ µ2 Testentscheidung: T < −t1−α T ≥ −t1−α ⇒ ⇒ H0 ablehnen H0 nicht ablehnen Bemerkung: Ob man annehmen kann, dass die Varianzen σ1 und σ2 gleich sind, muß man mit evtl. mit einem weiteren Test vorher prüfen (sogenannter F -Test). Beispiel 4.1 n = 5 gedüngte Felder ergaben die Erträge x1 = 23,4 x2 = 27,3 x3 = 24,0 x4 = 22,0 x5 = 23,3 und m = 4 ungedüngte Felder ergaben die Erträge y1 = 25,4 y2 = 21,1 y3 = 22,3 y4 = 22,4. Wir nehmen hier ohne Überprüfung an, dass die Erträge normalverteilt sind und die Varianzen gleich. Es soll zum Niveau α = 5% die Frage beantwortet werden, ob der Dünger den Ertrag im Mittel erhöht. Wir machen hierzu einen einseitigen Test mit der Hypothese H0 : µ1 ≤ µ2 und der Alternative H1 : µ1 > µ2 . Hier ist x̄ = 24,0, ȳ = 22,8, s2 = 17 (15,74 + 10,06), also s ≈ 1,92. Es ergibt sich r 24,0 − 22,8 4 · 5 T = ≈ 0,93. 1,92 4+5 Wir lesen das 0,95- Quantil für n + m − 2 = 7 Freiheitsgrade ab: t0,95 = 1,8946. Jetzt müssen wir prüfen, ob T > t0,95 ist. Da das nicht der Fall ist, können wir die Nullhypothese, dass der Ertrag der ungedüngten Felder mindestens so hoch ist wie der der gedüngten Felder, nicht ablehnen. 4.4 Der Chi-Quadrat-Anpassungstest Wir gehen von folgender Situation aus: Bei einem Zufallsexperiment haben wir Ereignisse A1 , . . . , Ar 39 Wir nehmen an, dass eines von diesen Ereignissen auf jeden Fall eintritt, und dass sich die Ereignisse nicht überschneiden, d.h. es können keine zwei verschiedenen Ereignisse gleichzeitig eintreten. Mit Definition 2.12 sind die Ereignisse {A1 , . . . , Ar } also eine vollständige Ereignisdisjunktion. Beispiel 4.2 Man kann sich z.B. dafür interessieren, an welchem Tag eine zufällig ausgewählte Person Geburtstag hat (Siehe Übungsblatt 8). Das Ereignis A1 könnte dann z.B. das Ereignis sein, dass die Person im Januar Geburtstag hat, A2 das Ereignis, dass sie im Februar Geburtstag hat u.s.w. Die Ereignisse A1 , . . . , A12 sind offensichtlich disjunkt, d.h. zwei verschiedene Ereignisse Ai und Aj , i 6= j können nicht gleichzeitig eintreten, weil niemand in zwei verschiedenen Monaten Geburtstag hat. Ausserdem umfassen die Ereignisse A1 bis A12 alle möglichen Ausgänge des Experiments, weil ja jeder in einem der 12 Monate Geburtstag haben muß. Die Ereignisse A1 bis A12 sind daher eine vollständige Ereignisdisjunktion. Als Nullhypothese H0 nehmen wir jetzt an, dass für die Ereignisse Ai die Wahrscheinlichkeiten gegeben sind; die Wahrscheinlichkeit P (Ai ) dafür, dass Ereignis Ai eintritt, nennen wir kurz pi . Der Chi-Quadrat-Anpassungstest gibt eine Möglichkeit, diese Nullhypothese zu überprüfen. Wir betrachten dazu eine Stichprobe x = (x1 , . . . , xn ) vom Umfang n und zählen für jedes Ereignis Ai , wie oft vorkommt. Die (absolute) Häufigkeit von Ereignis Ai bezeichnen wir dabei mit hi . Falls unsere Nullhypothese richtig ist, würden wir erwarten, dass die relative Häufigkeit von Ai hi n ungefähr gleich pi ist, d.h. man hätte hi n ≈ pi (4.2) Für den Chi-Quadrat-Test ist es wichtig, dass man eine ausreichend große Stichprobe hat, d.h. dass die Zahl n der gemessenen Werte groß genug ist. Man geht davon aus, dass n groß genug ist, wenn für jedes Ereignis Ai n · pi ≥ 5 (4.3) ist. Wenn das nicht der Fall ist, gibt es zwei Möglichkeiten: (a) Entweder macht man die Werte n · pi größer, indem man eine größere Stichprobe nimmt, falls das möglich ist. D.h. man vergrößert einfach n. 40 (b) Falls das nicht geht, faßt man Ereignisse Ai und Aj mit kleinen Wahrscheinlichkeiten pi und pj zu einem neuen Ereignis Ak zusammen. Man setzt also Ak = Ai ∪ Aj und ersetzt Ai und Aj durch Ak . Die Wahrscheinlichkeit von Ak ist dann gegeben als pk = pi + pj Auf diese Weise bekommt man Ereignisse mit größeren Wahrscheinlichkeiten. (a) oder (b) wendet man an, bis die Ungleichung (4.3) erfüllt ist. Wenn man damit eine Stichprobe hat, bei der (4.3) erfüllt ist, geht man folgendermaßen vor: Man definiert die Testgröße T durch T = r X h2i −n n · pi i=1 (4.4) Das kann man auch schreiben als T = r X (hi − n · pi )2 n · pi i=1 (4.5) (Man kann leicht ausrechnen, dass (4.4) und (4.5) gleichbedeutend sind.) Aus (4.5) sieht man sofort, dass T ≥ 0 ist, denn im Zähler stehen Quadrate, die alle größer oder gleich Null sind. Falls unsere Nullhypothese richtig ist – d.h. falls die Wahrscheinlichkeit von Ereignis Ai wirklich pi ist –, sollte hi ≈ n · p i gelten (weil die relative Häufigkeit von Ai ungefähr pi sein sollte). In diesem Fall wäre also der Wert T klein, denn die Zahlen, die in (4.4) im Zähler stehen, sind dann alle nahe bei Null. Umgekehrt: Falls der Wert T groß ist, würden wir annehmen, dass die Nullhypothese wahrscheinlich falsch ist. Die Frage ist jetzt wieder: Wie groß muß T sein, damit wir die Nullhypothese ablehnen? Die Zahl T hängt von Zufall ab, d.h. man kann sie als Zufallsvariable ansehen. Wenn die Nullhypothese H0 richtig ist, ist die Wahrscheinlichkeits-Verteilung von T bekannt. Diese Verteilung heißt χ2 -Verteilung mit r − 1 Freiheitsgraden (r war die Zahl der Ereignisse A1 , . . . , Ar ); ihre Quantile kann man in Tabelle 4.3 auf Seite 44 nachlesen. Wir geben uns wieder eine Irrtumswahrscheinlichkeit α vor. Dann betrachten wir das (1 − α) - Quantil der χ2 -Verteilung; dieses Quantil bezeichen wir mit χ21−α . Damit kommen wir zu folgender Testentscheidung: T > χ21−α T ≤ χ21−α ⇒ ⇒ H0 ablehnen H0 nicht ablehnen 41 Anhang z 0,0 0,1 0,2 0,3 0,4 0,5 0,6 0,7 0,8 0,9 1,0 1,1 1,2 1,3 1,4 1,5 1,6 1,7 1,8 1,9 2,0 2,1 2,2 2,3 2,4 2,5 2,6 2,7 2,8 2,9 3,0 0.00 0,5000 0,5398 0,5793 0,6179 0,6554 0,6915 0,7257 0,7580 0,7881 0,8159 0,8413 0,8643 0,8849 0,9032 0,9192 0,9332 0,9452 0,9554 0,9641 0,9713 0,9772 0,9821 0,9861 0,9893 0,9918 0,9938 0,9953 0,9965 0,9974 0,9981 0,9987 0.01 0,5040 0,5438 0,5832 0,6217 0,6591 0,6950 0,7291 0,7611 0,7910 0,8186 0,8438 0,8665 0,8869 0,9049 0,9207 0,9345 0,9463 0,9564 0,9649 0,9719 0,9778 0,9826 0,9864 0,9896 0,9920 0,9940 0,9955 0,9966 0,9975 0,9982 0,9987 0.02 0,5080 0,5478 0,5871 0,6255 0,6628 0,6985 0,7324 0,7642 0,7939 0,8212 0,8461 0,8686 0,8888 0,9066 0,9222 0,9357 0,9474 0,9573 0,9656 0,9726 0,9783 0,9830 0,9868 0,9898 0,9922 0,9941 0,9956 0,9967 0,9976 0,9982 0,9987 0.03 0,5120 0,5517 0,5910 0,6293 0,6664 0,7019 0,7357 0,7673 0,7967 0,8238 0,8485 0,8708 0,8907 0,9082 0,9236 0,9370 0,9484 0,9582 0,9664 0,9732 0,9788 0,9834 0,9871 0,9901 0,9925 0,9943 0,9957 0,9968 0,9977 0,9983 0,9988 0.04 0,5160 0,5557 0,5948 0,6331 0,6700 0,7054 0,7389 0,7704 0,7995 0,8264 0,8508 0,8729 0,8925 0,9099 0,9251 0,9382 0,9495 0,9591 0,9671 0,9738 0,9793 0,9838 0,9875 0,9904 0,9927 0,9945 0,9959 0,9969 0,9977 0,9984 0,9988 0.05 0,5199 0,5596 0,5987 0,6368 0,6736 0,7088 0,7422 0,7734 0,8023 0,8289 0,8531 0,8749 0,8944 0,9115 0,9265 0,9394 0,9505 0,9599 0,9678 0,9744 0,9798 0,9842 0,9878 0,9906 0,9929 0,9946 0,9960 0,9970 0,9978 0,9984 0,9989 0.06 0,5239 0,5636 0,6026 0,6406 0,6772 0,7123 0,7454 0,7764 0,8051 0,8315 0,8554 0,8770 0,8962 0,9131 0,9279 0,9406 0,9515 0,9608 0,9686 0,9750 0,9803 0,9846 0,9881 0,9909 0,9931 0,9948 0,9961 0,9971 0,9979 0,9985 0,9989 0.07 0,5279 0,5675 0,6064 0,6443 0,6808 0,7157 0,7486 0,7794 0,8078 0,8340 0,8577 0,8790 0,8980 0,9147 0,9292 0,9418 0,9525 0,9616 0,9693 0,9756 0,9808 0,9850 0,9884 0,9911 0,9932 0,9949 0,9962 0,9972 0,9979 0,9985 0,9989 0.08 0,5319 0,5714 0,6103 0,6480 0,6844 0,7190 0,7517 0,7823 0,8106 0,8365 0,8599 0,8810 0,8997 0,9162 0,9306 0,9429 0,9535 0,9625 0,9699 0,9761 0,9812 0,9854 0,9887 0,9913 0,9934 0,9951 0,9963 0,9973 0,9980 0,9986 0,9990 0.09 0,5359 0,5753 0,6141 0,6517 0,6879 0,7224 0,7549 0,7852 0,8133 0,8389 0,8621 0,8830 0,9015 0,9177 0,9319 0,9441 0,9545 0,9633 0,9706 0,9767 0,9817 0,9857 0,9890 0,9916 0,9936 0,9952 0,9964 0,9974 0,9981 0,9986 0,9990 Abbildung 4.1: Tabellierte Verteilungsfunktion F (z) der Standardnormalverteilung. Der Eintrag in der erste Spalte gibt z an bis zur ersten Nachkommastelle, der Eintrag in der ersten Zeile gibt die zweite Nachkommastelle an. Beispiel: F (0, 12) = 0, 5478. Für z < 0 benutzt man F (−z) = 1 − F (z). Freiheitsgrade 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 50 60 75 100 ∞ p 0,75 1,0000 0,8165 0,7649 0,7407 0,7267 0,7176 0,7111 0,7064 0,7027 0,6998 0,6974 0,6955 0,6938 0,6924 0,6912 0,6901 0,6892 0,6884 0,6876 0,6870 0,6864 0,6858 0,6853 0,6848 0,6844 0,6840 0,6837 0,6834 0,6830 0,6828 0,6825 0,6822 0,6820 0,6818 0,6816 0,6814 0,6812 0,6810 0,6808 0,6807 0,6794 0,6786 0,6778 0,6770 0,6745 0,80 1,3764 1,0607 0,9785 0,9410 0,9195 0,9057 0,8960 0,8889 0,8834 0,8791 0,8755 0,8726 0,8702 0,8681 0,8662 0,8647 0,8633 0,8620 0,8610 0,8600 0,8591 0,8583 0,8575 0,8569 0,8562 0,8557 0,8551 0,8546 0,8542 0,8538 0,8534 0,8530 0,8526 0,8523 0,8520 0,8517 0,8514 0,8512 0,8509 0,8507 0,8489 0,8477 0,8464 0,8452 0,8416 0,85 1,9626 1,3862 1,2498 1,1896 1,1558 1,1342 1,1192 1,1081 1,0997 1,0931 1,0877 1,0832 1,0795 1,0763 1,0735 1,0711 1,0690 1,0672 1,0655 1,0640 1,0627 1,0614 1,0603 1,0593 1,0584 1,0575 1,0567 1,0560 1,0553 1,0547 1,0541 1,0535 1,0530 1,0525 1,0520 1,0516 1,0512 1,0508 1,0504 1,0500 1,0473 1,0455 1,0436 1,0418 1,0364 0,90 3,0777 1,8856 1,6377 1,5332 1,4759 1,4398 1,4149 1,3968 1,3830 1,3722 1,3634 1,3562 1,3502 1,3450 1,3406 1,3368 1,3334 1,3304 1,3277 1,3253 1,3232 1,3212 1,3195 1,3178 1,3163 1,3150 1,3137 1,3125 1,3114 1,3104 1,3095 1,3086 1,3077 1,3070 1,3062 1,3055 1,3049 1,3042 1,3036 1,3031 1,2987 1,2958 1,2929 1,2901 1,2816 0,95 6,3137 2,9200 2,3534 2,1318 2,0150 1,9432 1,8946 1,8595 1,8331 1,8125 1,7959 1,7823 1,7709 1,7613 1,7531 1,7459 1,7396 1,7341 1,7291 1,7247 1,7207 1,7171 1,7139 1,7109 1,7081 1,7056 1,7033 1,7011 1,6991 1,6973 1,6955 1,6939 1,6924 1,6909 1,6896 1,6883 1,6871 1,6860 1,6849 1,6839 1,6759 1,6706 1,6654 1,6602 1,6449 0,975 12,706 4,3027 3,1824 2,7765 2,5706 2,4469 2,3646 2,3060 2,2622 2,2281 2,2010 2,1788 2,1604 2,1448 2,1315 2,1199 2,1098 2,1009 2,0930 2,0860 2,0796 2,0739 2,0687 2,0639 2,0595 2,0555 2,0518 2,0484 2,0452 2,0423 2,0395 2,0369 2,0345 2,0322 2,0301 2,0281 2,0262 2,0244 2,0227 2,0211 2,0086 2,0003 1,9921 1,9840 1,9600 0,980 15,895 4,8487 3,4819 2,9985 2,7565 2,6122 2,5168 2,4490 2,3984 2,3593 2,3281 2,3027 2,2816 2,2638 2,2485 2,2354 2,2238 2,2137 2,2047 2,1967 2,1894 2,1829 2,1770 2,1715 2,1666 2,1620 2,1578 2,1539 2,1503 2,1470 2,1438 2,1409 2,1382 2,1356 2,1332 2,1309 2,1287 2,1267 2,1247 2,1229 2,1087 2,0994 2,0901 2,0809 2,0537 0,990 31,821 6,9645 4,5407 3,7469 3,3649 3,1427 2,9979 2,8965 2,8214 2,7638 2,7181 2,6810 2,6503 2,6245 2,6025 2,5835 2,5669 2,5524 2,5395 2,5280 2,5176 2,5083 2,4999 2,4922 2,4851 2,4786 2,4727 2,4671 2,4620 2,4573 2,4528 2,4487 2,4448 2,4411 2,4377 2,4345 2,4314 2,4286 2,4258 2,4233 2,4033 2,3901 2,3771 2,3642 2,3263 0,995 63,656 9,9250 5,8408 4,6041 4,0321 3,7074 3,4995 3,3554 3,2498 3,1693 3,1058 3,0545 3,0123 2,9768 2,9467 2,9208 2,8982 2,8784 2,8609 2,8453 2,8314 2,8188 2,8073 2,7970 2,7874 2,7787 2,7707 2,7633 2,7564 2,7500 2,7440 2,7385 2,7333 2,7284 2,7238 2,7195 2,7154 2,7116 2,7079 2,7045 2,6778 2,6603 2,6430 2,6259 2,5758 0,9975 127,32 14,089 7,4532 5,5975 4,7733 4,3168 4,0294 3,8325 3,6896 3,5814 3,4966 3,4284 3,3725 3,3257 3,2860 3,2520 3,2224 3,1966 3,1737 3,1534 3,1352 3,1188 3,1040 3,0905 3,0782 3,0669 3,0565 3,0470 3,0380 3,0298 3,0221 3,0149 3,0082 3,0020 2,9961 2,9905 2,9853 2,9803 2,9756 2,9712 2,9370 2,9146 2,8924 2,8707 2,8070 0,9990 318,29 22,329 10,214 7,1729 5,8935 5,2075 4,7853 4,5008 4,2969 4,1437 4,0248 3,9296 3,8520 3,7874 3,7329 3,6861 3,6458 3,6105 3,5793 3,5518 3,5271 3,5050 3,4850 3,4668 3,4502 3,4350 3,4210 3,4082 3,3963 3,3852 3,3749 3,3653 3,3563 3,3480 3,3400 3,3326 3,3256 3,3190 3,3127 3,3069 3,2614 3,2317 3,2024 3,1738 3,0902 Abbildung 4.2: Quantile tp der t-Verteilung. Der Eintrag in der Zeile mit n Freiheitsgraden und der Spalte mit Wahrscheinlichkeit p ist tp mit P (T ≤ tp ) = p, wobei T eine t-Verteilung mit n Freiheitsgraden besitze. 43 Freiheitsgrade 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 40 50 60 70 80 90 100 x 0,90 2.7055 4.6052 6.2514 7.7794 9.2363 10.6446 12.017 13.3616 14.6837 15.9872 17.275 18.5493 19.8119 21.0641 22.3071 23.5418 24.769 25.9894 27.2036 28.412 29.6151 30.8133 32.0069 33.1962 34.3816 35.5632 36.7412 37.9159 39.0875 40.256 51.805 63.1671 74.397 85.527 96.5782 107.565 118.498 0,95 3.8415 5.9915 7.8147 9.4877 11.0705 12.5916 14.0671 15.5073 16.919 18.307 19.6752 21.0261 22.362 23.6848 24.9958 26.2962 27.5871 28.8693 30.1435 31.4104 32.6706 33.9245 35.1725 36.415 37.6525 38.8851 40.1133 41.3372 42.5569 43.773 55.7585 67.5048 79.082 90.5313 101.8795 113.1452 124.3421 0,975 5.0239 7.3778 9.3484 11.1433 12.8325 14.4494 16.0128 17.5345 19.0228 20.4832 21.92 23.3367 24.7356 26.1189 27.4884 28.8453 30.191 31.5264 32.8523 34.1696 35.4789 36.7807 38.0756 39.3641 40.6465 41.9231 43.1945 44.4608 45.7223 46.9792 59.3417 71.4202 83.2977 95.0231 106.6285 118.1359 129.5613 0,99 6.6349 9.2104 11.3449 13.2767 15.0863 16.8119 18.4753 20.0902 21.666 23.2093 24.725 26.217 27.6882 29.1412 30.578 31.9999 33.4087 34.8052 36.1908 37.5663 38.9322 40.2894 41.6383 42.9798 44.314 45.6416 46.9628 48.2782 49.5878 50.8922 63.6908 76.1538 88.3794 100.4251 112.3288 124.1162 135.8069 0,995 7.8794 10.5965 12.8381 14.8602 16.7496 18.5475 20.2777 21.9549 23.5893 25.1881 26.7569 28.2997 29.8193 31.3194 32.8015 34.2671 35.7184 37.1564 38.5821 39.9969 41.4009 42.7957 44.1814 45.5584 46.928 48.2898 49.645 50.9936 52.3355 53.6719 66.766 79.4898 91.9518 104.2148 116.3209 128.2987 140.1697 Abbildung 4.3: Quantile χ2x der χ2 -Verteilung. Der Eintrag in der Zeile mit n Freiheitsgraden und der Spalte mit Wahrscheinlichkeit x ist das Quantil χ2x für n Freiheitsgrade. 44 Literatur Die Vorlesung orientiert sich an folgenden Büchern: • Karl Bosch, Elementare Einführung in die Wahrscheinlichkeitsrechnung, Vieweg 1999. • Karl Bosch, Elementare Einführung in die elementare Statistik, Vieweg 2000. 45