Statistik f¨ur Biologen Skript zur Vorlesung

Werbung
Statistik für Biologen
Skript zur Vorlesung
Prof. Dr. Burkhard Morgenstern
Dr. Mario Stanke
Sommersemester 2006
Vorbemerkung
Dies ist ein vorläufiges Skript zur Vorlesung Einführung in die Statistik für Biologen
im SS 2006. Im Lauf des Semesters wird es wahrscheinlich noch die eine oder andere
Veränderung im Skript geben; die jeweils neuste Version ist immer über die Homepage
der Vorlesung erhältlich (s.u.).
Für Kommentare, Kritik, Verbesserungsvorschläge etc. sind wir immer dankbar –
am besten direkt in oder nach der Vorlesung oder per Email an mich oder an Isabelle
Heinemeyer.
BM, Göttingen 3. Mai 2006
Homepage der Vorlesung:
http://gobics.de/lectures/ss06/statistik bio.php
Email:
B. Morgenstern: [email protected]
I. Heinemeyer: [email protected]
1
Inhaltsverzeichnis
1 Einleitung
3
2 Grundbegriffe der Wahrscheinlichkeitstheorie
2.1 Mengen und Ereignisse . . . . . . . . . . .
2.2 Die Axiome der Wahrscheinlichkeit . . . .
2.3 Die bedingte Wahrscheinlichkeit . . . . . .
2.4 Der Satz von Bayes . . . . . . . . . . . . .
2.5 Unabhängigkeit . . . . . . . . . . . . . . .
2.6 Zufallsvariable . . . . . . . . . . . . . . .
.
.
.
.
.
.
.
.
.
.
.
.
5
6
8
10
10
14
16
3 Beschreibende Statistik
3.1 Häufigkeitsverteilung von Stichproben . . . . . . . . . . . . . . . .
3.2 Regression . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
3.2.1 Approximation an eine lineare Funktion (lineare Regression)
3.2.2 Approximation an eine Exponentialfunktion . . . . . . . . .
3.2.3 Approximation an eine Potenzfunktion . . . . . . . . . . .
3.3 Korrelation und Kovarianz . . . . . . . . . . . . . . . . . . . . . .
.
.
.
.
.
.
23
23
28
28
30
31
32
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
4 Statistische Tests
4.1 Ein paar allgemeine, nicht Klausur-relevante Bemerkungen über statistische Tests . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
4.2 Der Ein-Stichproben-t-Test . . . . . . . . . . . . . . . . . . . . . . .
4.3 Der Zwei-Stichproben-t-Test . . . . . . . . . . . . . . . . . . . . . .
4.4 Der Chi-Quadrat-Anpassungstest . . . . . . . . . . . . . . . . . . . .
2
34
34
36
38
39
Kapitel 1
Einleitung
Die wenigsten Eigenschaften biologischer Systeme sind eindeutig durch eine überschaubare Anzahl von Faktoren determiniert; fast alle Merkmale von Zellen, Organismen oder Populationen hängen auf die eine oder andere Weise vom Zufall ab. Das heißt
natürlich nicht, dass man über diese Systeme keine vernünftigen Vorhersagen machen
könnte. Vorhersagen über Stoffwechselprozesse, physikalische Merkmale von Organismen oder die Dynamik von Populationen können allerdings nur in gewissen Grenzen
- eben mit einer bestimmten Wahrscheinlichkeit gemacht werden. Daher sind gewisse
Grundkenntnisse über das Verhalten zufälliger Größen in allen Bereichen der Biologie
unverzichtbar.
Die elementare Wahrscheinlichkeitstheorie hat zunächst die Aufgabe, vernünftige mathematische Definitionen für Ereignis, Wahrscheinlichkeit, Erwartungswert, bedingte Wahrscheinlichkeit, Abhängigkeit von Ereignissen u.ä. einzuführen. Ausgehend
von einfachen Ereignissen, deren Wahrscheinlichkeit als bekannt vorausgesetzt wird,
können dann Wahrscheinlichkeiten von komplizierteren Ereignissen berechnet werden.
In einem sehr vereinfachten Modell kann man z.B. annehmen, dass die Wahrscheinlichkeit für das Auftreten der Basen A, T, C und G in nicht-codierenden Bereichen in
einem bakteriellen Genom an jeder Position gleich 1/4 ist, und dass diese Positionen
unabhängig voneinander sind. Auf Grund dieser Annahmen kann man dann etwa die
Wahrscheinlichkeit dafür berechnen, dass ein zufällig herausgegriffenes Codon eines
der drei Stop-Codons (TAG, TAA, TGA) ist. Hierdurch kann man wiederum berechnen, wie (un)wahrscheinlich es ist, das ein nicht-kodierender DNA-Abschnitt, der aus
N Tripletts besteht, kein Stop-Codon enthält, d.h. ein so genanntes Open Reading Frame (ORF) ist. Es ist klar, dass diese Wahrscheinlichkeit für große N sehr klein ist,
d.h. es ist sehr unwahrscheinlich, dass man in nicht-kodierenden Bereichen der DNA
einfach per Zufall ein langes ORF findet. Längere DNA-Abschnitte ohne Stop-Codons
sind daher mit großer Wahrscheinlichkeit kodierend, d.h. Bestandteil von Genen. Dieser einfache Sachverhalt spielt in der Genvorhersage bei Prokaryoten eine wichtige
Rolle. Mit Hilfe der Wahrscheinlichkeitstheorie kann man dann z.B. berechen, welche
Länge ein ORF haben muss, damit man davon ausgehen kann, dass es sich um ein Gen
handelt.
Während man in der Wahrscheinlichkeitstheorie von bekannten Wahrscheinlich3
keits- oder Häufigkeitsverteilungen ausgeht, um die Wahrscheinlichkeiten von speziellen Ereignissen zu berechnen, hat man in der Statistik genau das umgekehrte Problem:
Hier ist das Ziel, Aussagen über zunächst unbekannte Wahrscheinlichkeitsverteilungen zu machen, indem man einige zufällig herausgegriffene Ereignisse, so genannte
Stichproben, betrachtet. Um beim Beispiel der Genvorhersage zu bleiben: kodierende
und nicht-kodierende Abschnitte von Genomen unterscheiden sich in ihrer statistischen
Zusammensetzung erheblich; diese Unterschiede werden für die Erkennung von Genen benützt. Auf Grund von begrenzten Stichproben kann man nun z.B. versuchen,
die Wahrscheinlichkeit für das Auftreten bestimmter Muster innerhalb und ausserhalb von Genen zu bestimmen. Diese Wahrscheinlichkeiten werden in GenvorhersageProgrammen verwendet.
In dieser Vorlesung werden zunächst die Grundbegriffe der Wahrscheinlichkeitstheorie geklärt. Dann werden spezielle, besonders einfache, Wahrscheinlichkeitsräume
betrachtet, nämlich Räume mit endlich vielen so genannten Elementarereignissen, die
alle mit der gleichen Wahrscheinlichkeit auftreten. Schließlich werden die Kapitel Beschreibende Statistik und Schließende Statistik behandelt.
4
Kapitel 2
Grundbegriffe der
Wahrscheinlichkeitstheorie
In diesem Kapitel führen wir einige Begriffe aus der Wahrscheinlichkeitstheorie ein,
die in der Statistik eine wichtige Rolle spielen.
Erste W-theoretische Studien stammen von den französischen Mathematikern Pascal und Fermat. Hierbei ging es vor allem um Glücksspiele. Laplace (1749 - 1827)
entwickelte eine allgemeinere Theorie der Wahrscheinlichkeit. Er definierte die “Wahrscheinlichkeit” eines Ereignisses als das Verhältnis
Anzahl der “günstigen” Fälle
.
Anzahl aller möglichen Fälle
Diese Definition geht allerdings von sehr einfachen Voraussetzungen aus: Man nimmt
an, dass es eine Menge von “möglichen Fällen” gibt, die alle die gleiche Wahrscheinlichkeit besitzen. Das gilt z.B. wenn man N mal einen fairen Würfel wirft, oder wenn
man DNA-Sequenzen betrachtet und vereinfachend annimmt, dass alle vier Basen
gleich häufig vorkommen (siehe Beispiel in der Einleitung). Schon in einfachen Anwendungen ist diese Bedingung offensichtlich nicht mehr erfüllt.
Beispiel 2.1 Man rollt zwei Würfel; dabei interessiert man sich für die Wahrscheinlichkeit, dass die Summe der Augen mindestens 10 ist. Werden beide Würfel voneinander
unterschieden, sind folgende Ereignisse möglich:
(1, 1), (1, 2), (1, 3), . . . , (2, 1), (2, 2), (2, 3), . . . , (6, 1), (6, 2), . . . , (6, 5), (6, 6).
Die Zahl der “möglichen Fälle” ist also 36. Die Augensumme ist dabei mindestens 10
für die Fälle
(4, 6), (5, 5), (5, 6), (6, 4), (6, 5), (6, 6);
die Anzahl der “günstigen Fälle” ist also 6. Nach der obigen Definition ist die Wahr6
= 16 = 16, 666%.
scheinlichkeit dieses Ereignisses also 36
5
Eine weit allgemeinere Theorie der Wahrscheinlichkeit wurde 1933 von dem russische Mathematiker Kolmogorow eingeführt. Wie in der Mathematik üblich basiert
dieser Ansatz auf einem System von Axiomen, d.h. von Aussagen die als gültig angesehen werden, ohne dass sie weiter bewiesen werden müssen. Aus diesen Axiomen
wird die gesamte Theorie abgeleitet. Die moderne W-Theorie basiert auf einfachen
Begriffen der Mengenlehre. “Ereignisse” werden dabei abstrakt als Teilmengen einer
Grundmenge Ω aufgefasst. Ω ist dabei die Menge aller möglichen Ausgänge eines Zufallsexperiments. Jedem Ereignis wird eine Zahl zwischen 0 und 1 zugeordnet, die als
die Wahrscheinlichkeit des Eintretens dieses Ereignisses interpretiert wird.
2.1 Mengen und Ereignisse
Im Folgenden werden Grundbegriffe aus der Mengenlehre wiederholt und es wird eine
W-theoretische Interpretation dieser Begriffe gegeben. Ω ist dabei stets die Grundmenge, in der W-theoretischen Interpretation also die Menge aller möglichen Ausgänge des
betrachteten Zufallsexperiments.
Eine Menge A ist eine Zusammenfassung von Elementen von Ω. Einfache Mengen
werden häufig durch Aufzählung ihrer Elemente in geschweiften Klammern angegeben. Man schreibt also z.B.
G = {2, 4, 6, . . .},
um die Menge der geraden Zahlen zu bezeichnen. Alternativ kann man eine Menge
durch bestimmte Eigenschaften ihrer Elemente angeben, in unserem Beispiel also z.B.
als
G = {n ∈ Ω|n gerade}.
Definition 2.2 Seien A und B Mengen einer Grundmenge Ω.
1. Mit ∅ bezeichnen wir die leere Menge, d.h. die Menge die kein Element enthält.
W-theoretisch ist ∅ das unmögliche Ereignis. Offensichtlich gilt ∅ ⊂ A für jede
beliebige Menge A.
2. Man schreibt A ⊂ B oder B ⊃ A, wenn A in B enthalten ist, d.h. wenn jedes
Element von A auch Element von B ist. In der W-theoretischen Interpretation
bedeutet A ⊂ B, dass Ereignis A Ereignis B impliziert, dass also aus A B folgt.
Ω
3. A ∪ B bezeichnet die Vereinigung von A und B, d.h. die
Menge aller Elemente, die in A oder in B enthalten sind
(einschließlich der Elemente, die sowohl zu A als auch
zu B gehören). In der W-Theorie ist A ∪ B das Ereignis,
dass A oder B (oder beides) eintritt.
A
6
Β
Ω
4. A ∩ B ist der Durchschnitt von A und B, also die Menge
der Elemente, die sowohl zu A als auch zu B gehören. Wtheoretisch gesehen, ist A ∩ B das Ereignis, dass sowohl
A als auch B eintreten.
A
Β
Ω
5. Ā ist das Komplement von A, d.h. die Menge aller Elemente von Ω, die nicht in A enthalten sind. Wir interpretieren Ā als das Ereignis, dass A nicht eintritt.
A
Ω
6. A \ B ist die Menge aller Elemente von A, die nicht
gleichzeitig zu B gehören. In der W-Theorie bezeichnet
das das Ereignis, dass A, nicht aber B eintritt.
A
Β
7. A und B heißen disjunkt, wenn ihr Durchschnitt leer ist, d.h. wenn A ∩ B = ∅
gilt. In der W-Theorie bedeutet dass A und B unvereinbar sind, d.h. dass sie sich
gegenseitig ausschließen.
8. Enthält A nur ein Element, d.h. ist A = {a}, dann heißt A Elementarereignis.
9. Für eine endliche Menge A = {a1 , . . . , ak } bezeichnet |A| = k die Zahl ihrer
Elemente.
Bemerkung: Beachte, dass die Definition des Komplements A einer Menge A von der
Grundmenge Ω abhängt.
Beispiel: Ein Zufallsexperiment besteht darin, dass ein Würfel geworfen wird; wir interessieren uns für die Zahl der Augen. Die Gesamtmenge Ω ist hier gegeben durch Ω =
{1, 2, 3, 4, 5, 6}. Weiter betrachten wir die Ereignisse G = {2, 4, 6}, U = {1, 3, 5} und
H = {4, 5, 6}. Dann haben wir
G∪H
G∩H
G
G\H
=
=
=
=
{2, 4, 6} ∪ {4, 5, 6}
{2, 4, 6} ∩ {4, 5, 6}
{2, 4, 6}
{2, 4, 6} \ {4, 5, 6}
=
=
=
=
{2, 4, 5, 6}
{4, 6}
{1, 3, 5} = U
{2}.
Beispiel: Als nächstes betrachten wir ein Zufallsexperiment mit unendlich vielen möglichen Ausgängen: Wir messen die Körpergröße x einer zufällig ausgewählten Person.
Hierfür kann man z.B. Ω = R definieren (mit R = Menge der reellen Zahlen). Wir
7
betrachten das Ereignis A, dass x zwischen 175 cm und 185 cm liegt, und das Ereignis
B, dass x zwischen 170 cm und 180 cm liegt. In der Mengenschreibweise haben wir
also
A = {x|175 ≤ x ≤ 185}
B = {x|170 ≤ x ≤ 180}.
Damit haben wir z.B.
A∪B
A∩B
A
A\B
=
=
=
=
{x|170 ≤ x ≤ 185}
{x|175 ≤ x ≤ 180}
{x|x < 175 oder x > 185.}
{x|180 < x ≤ 185}.
Satz 2.3 (Morgansche Regeln) Seien A und B Mengen (bzw. Ereignisse). Dann gilt
(a) A ∪ B = A ∩ B
(b) A ∩ B = A ∪ B
2.2 Die Axiome der Wahrscheinlichkeit
Um ein Maß für die “Wahrscheinlichkeit” oder “Unwahrscheinlichkeit” von Ereignissen zu bekommen, ist es in manchen Fällen sinnvoll, die relative Häufigkeit dieser Ereignisse bestimmen. Man führt dafür ein Zufallsexperiment n mal aus und zählt nach,
wie oft ein Ereignis A eintritt. Die Zahl der Experimente, bei denen A eintritt heißt
absolute Häufigkeit hn (A) von A; die relative Häufigkeit rn (A) von A ist definiert als
der Quotient hnn(A) .
Die relative Häufigkeit hat folgende drei Eigenschaften:
(a) 0 ≤ rn (A) ≤ 1
(b) rn (Ω) = 1
(c) für disjunkte Ereignisse A und B gilt rn (A ∪ B) = rn (A) + rn (B)
Hierdurch motiviert definiert man die folgenden Axiome der Wahrscheinlichkeit:
Definition 2.4 (Axiome von Kolmogorow, 1933) Eine auf einem System von Ereignissen definierte Funktion P heißt Wahrscheinlichkeit, wenn sie folgende Axiome erfüllt:
Axiom 1 0 ≤ P (A) ≤ 1
Axiom 2 P (Ω) = 1
Axiom 3 für disjunkte Ereignisse A und B gilt P (A ∪ B) = P (A) + P (B)
Satz 2.5 Aus den Axiomen der Wahrscheinlichkeit lassen sich leicht weitere Eigenschaften von P folgern:
8
1. Für jedes Ereignis A gilt P (A) = 1 − P (A).
2. Für das unmögliche Ereignis ∅ gilt P (∅) = 0.
3. Aus A ⊂ B folgt P (A) ≤ P (B).
4. für alle Ereignisse A und B gilt P (B \ A) = P (B ∩ A) = P (B) − P (B ∩ A).
5. für alle Ereignisse A und B gilt P (A ∪ B) = P (A) + P (B) − P (A ∩ B)
Definition 2.6 Seien A1 , A2 , . . . , An Ereignisse.
1. A1 , A2 , . . . , An heißen paarweise unvereinbar, wenn jeweils zwei von ihnen nicht
gleichzeitig eintreten können, d.h. wenn gilt Ai ∩ Aj = ∅ für alle i 6= j.
2. A1 , A2 , . . . , An heißen vollständig unvereinbar, wenn A1 , A2 , . . . , An nicht alle
gleichzeitig eintreten können, d.h. wenn gilt A1 ∩ A2 ∩ . . . ∩ An = ∅.
Aus paarweiser Unvereinbarkeit folgt offensichtlich vollständige Unvereinbarkeit. Der
Umkehrschluß gilt jedoch i.A. nicht.
Satz 2.7 Seien A1 , A2 , . . . , An paarweise unvereinbare Ereignisse. Dann gilt
P (A1 ∪ A2 ∪ . . . ∪ An ) = P (A1 ) + P (A2 ) + . . . + P (An )
Beispiel 2.8 Sei Ω = {ω1 , ω2 , . . . , ωn } endlich. Jedes Elementarereignis {ωi } habe
die gleiche Wahrscheinlichkeit P (ωi ). Weil Elementarereignisse paarweise unvereinbar sind, muss wegen Axiom 2 und Satz 2.7 P (ωi ) = 1/n gelten. Ein solches Zufallsexperiment heißt auch Laplace-Experiment. Ein Ereignis A bestehe aus r Elementarereignissen, d.h. man hat A = {a1 , a2 , . . . , ar }, ai ∈ Ω. Daraus folgt A =
{a1 } ∪ {a2 } . . . ∪ {ar } und daher
P (A) = P ({a1 }) + P ({a2 }) + . . . + P ({ar }) = r · P ({a1 }) =
Man hat also
P (A) =
|A|
r
=
n
|Ω|
|A|
Anzahl der “günstigen” Fälle
=
.
|Ω|
Anzahl aller möglichen Fälle
Dies entspricht genau der in der Einleitung gegebenen Definition von Laplace.
Beispiel: Sei Ω = N = {1, 2, . . .} und sei P ({i}) =
1
2i .
Wegen
∞
X
1
=1
2i
i=1
definiert P eine Wahrscheinlichkeit.
Beispiel 2.9 Seien a, b ∈ R, a < b und Ω = [a, b]. f : Ω → R sei eine Funktion mit
Rb
f (x) ≥ 0 für alle x ∈ R und a f (x)dx = 1. Für A ⊂ [a, b] sei P (A) der Flächeninhalt unter f im Bereich von A. Dann ist die Funktion P eine Wahrscheinlichkeit.
9
2.3 Die bedingte Wahrscheinlichkeit
Oft interessiert man sich für die Wahrscheinlichkeit eines Ereignisses A unter der Bedingung, dass ein Ereigniss B eintritt (oder bereits eingetreten ist). Betrachte z.B. das
Glücksspiel in Beispiel 2.1; A sei das Ereignis, dass die Summe der Augen der beiden
Würfel ≥ 10 ist. Insgesamt haben wir 36 mögliche Ausgänge des Experiments (die
alle gleich wahrscheinlich sind), davon sind 6 Ausgänge für das Ereignis A “günstig”.
6
Die Wahrscheinlichkeit von A ist also 36
= 0, 1666. Nun nehmen wir an, dass wir das
Ergebnis des ersten Würfels bereits kennen, wir nehmen an, der erste Würfel zeige eine
5. Dieses Ereignis nennen wir B, d.h. wir haben
B = {(5, 1), (5, 2), (5, 3), (5, 4), (5, 5), (5, 6)}.
Was ist nun die Wahrscheinlichkeit von A unter der Voraussetzung, dass B eingetreten
ist?
Die für uns “günstigen” Elementarereignisse sind in diesem Fall (5, 5) und (5, 6).
Wenn B vorausgesetzt ist, d.h. wenn bekannt ist, dass der erste Würfel bereits eine
5 gewürfelt hat, sind insgesamt nur noch die Ereignisse (5, 1), . . . , (5, 6) möglich.
Wir können dies als ein neues Zufallsexperiment betrachten; die Zahl der möglichen
Ausgänge ist dabei 6. Die Wahrscheinlichkeit von A unter der Annahme B ist also
2
6 = 0, 333. Diese nennen wir die bedingte Wahrscheinlichkeit von A unter der Annahme B und schreiben P (A|B).
Allgemein betrachten wir ein Laplace-Experiment mit n möglichen Ausgängen;
wir interessieren uns für Ereignisse A und B. Im Fall |B| =
6 0 ist die Wahrscheinlichkeit P (A|B) gegeben durch
|A ∩ B|
.
|B|
P (A|B) =
Dividiert man Zähler und Nenner durch n = |Ω|, erhält man
P (A|B) =
|A∩B|
|Ω|
|B|
|Ω|
=
P (A ∩ B)
.
P (B)
Hierdurch motiviert definiert man
Definition 2.10 Seien A und B Ereignisse mit P (B) 6= 0. Dann heisst die Zahl
P (A|B) =
P (A ∩ B)
P (B)
die bedingte Wahrscheinlichkeit von A unter der Bedingung B.
2.4 Der Satz von Bayes
Aus der letzten Definition folgt
P (A ∩ B) =
P (A|B) · P (B).
10
(2.1)
Falls auch P (A) > 0 ist, gilt in gleicher Weise
P (B|A) =
P (B ∩ A)
,
P (A)
man hat also auch
P (B ∩ A)
= P (B|A) · P (A).
(2.2)
Gleichungen (2.1) und (2.2) zusammen ergeben
P (A|B) · P (B) = P (B|A) · P (A),
woraus der nächste Satz folgt.
Satz 2.11 (Bayes I) Für Ereignisse A, B mit P (A) > 0 und P (B) > 0 gilt
P (A|B) =
P (B|A) · P (A)
.
P (B)
Der letzte Satz spielt in der so genannten Bayesschen Statistik eine zentrale Rolle.
Man benützt ihn, um die Wahrscheinlichkeit einer Hypothese H zu auf der Grundlage von gemessenen Daten D zu berechnen. Dabei geht man davon aus, dass man die
bedingte Wahrscheinlichkeit P (D|H) kennt, mann weiß also, mit welcher Wahrscheinlichkeit man die Daten D beobachtet, wenn die Hypothese H zutrifft. Ausserdem geht
man davon aus, dass man die A-priori-Wahrscheinlichkeit P (H) kennt, also die Wahrscheinlichkeit der Hypothese, wenn man keine Daten gesehen hat. Schließlich nimmt
man an, dass man die Wahrscheinlichkeit der Daten P (D) kennt.
Was man wissen will, ist die Wahrscheinlichkeit P (H|D) der Hypothese unter der
Annahme, dass die Daten D bekannt sind; diese Wahrscheinlichkeit nennt man die
A-posteriori-Wahrscheinlichkeit der Hypothese H. Mit dem Satz von Bayes gilt dann
P (H|D) =
P (D|H) · P (H)
.
P (D)
Dieser Satz spielt in der medizinischen Diagnostik eine wichtige Rolle. Die Hypothese
H ist hier z.B. die Annahme, dass ein Patient an einer bestimmten Krankheit leidet, D
bedeutet, dass man ein bestimmtes Symptom beobachtet. Die A-priori-Wahrscheinlichkeit
P (H) der Hypothese H ist dann die Wahrscheinlichkeit, dass eine zufällige Person an
der Krankheit leidet, d.h. die Wahrscheinlichkeit, die mit der man rechnen würde, bevor man das Symptom beobachtet hat. P (D|H) wäre die Wahrscheinlichkeit dafür,
dass ein Patient, der an der Krankhekt leidet, das Symptom zeigt, und P (D) ist die
Wahrscheinlichkeit, dass das Symptom auftritt, wenn man nicht weiß, ob die betreffende Person krank ist. Was man wissen will ist, ist die Wahrscheinlichkeit P (H|D),
d.h. die Wahrscheinlichkeit, mit der eine Person an der Krankheit leidet, wenn man
das Symptom D beobachtet. Diese Wahrscheinlichkeit kann man mit der obigen Gleichung berechnen. Beispiel 2.14 demonstriert dieses Prinzip am beispiel von fairen bzw.
gezinkten Würfeln. Um dieses Beispiel rechen zu können, müssen wir allerdings eine
weitere Definition einführen.
11
Die bedingte Wahrscheinlichkeit P (A|B) eines Ereignisses A unter der Bedingung
B sieht komplizierter aus als die “einfache” Wahrscheinlichkeit P (A) von A. In der
Praxis ist es aber oft so, dass bestimmte bedingte Wahrscheinlichkeiten P (A|B) bekannt sind oder einfach berechnet werden können, die Wahrscheinlichkeit P (A) aber
nicht von Anfang an klar ist. Daher ist es nützlich, wenn man weiß, wie man “einfache” Wahrscheinlichkeiten aus “bedingten Wahrscheinlichkeiten” berechnen kann.
Man definiert hierfür
Definition 2.12 n Ereignisse A1 , . . . , An heißen eine vollständige Ereignisdisjunktion
von Ω, wenn
(a) A1 , . . . , An paarweise disjunkt sind, d.h. wenn Ai ∩ Aj = ∅ gilt für alle i, j ∈
{1, . . . , n} mit i 6= j, und wenn
(b) A1 ∪ . . . ∪ An = Ω gilt.
Im Zusammenhang mit der bedingten Wahrscheinlichkeit sind die folgenden beiden Sätze wichtig.
Satz 2.13 (Totale Wahrscheinlichkeit) Seien A1 , . . . , An eine vollständige Ereignisdisjunktion von Ω mit P (Ai ) > 0 für alle i ∈ {1, . . . , n}. Dann gilt für jedes beliebige
Ereignis B
P (B) = P (B|A1 ) · P (A1 ) + . . . + P (B|An ) · P (An ).
Beweis: Es gilt Ω = A1 ∪ . . . ∪ An . Daraus folgt:
P (B) = P (B ∩ Ω) = P (B ∩ (A1 ∪ . . . ∪ An )) = P ((B ∩ A1 ) ∪ . . . ∪ (B ∩ An ))
= P (B ∩ A1 ) + . . . + P (B ∩ An ) = P (B|A1 ) · P (A1 ) + . . . + P (B|An ) · P (An ).
Beispiel: Man hat 10 Würfel. Davon sind die ersten 7 fair, d.h. alle Ergebnisse
1, . . . , 6 haben die gleiche Wahrscheinlichkeit 16 . Zwei Würfel dagegen sind unfair, bei
diesen Würfeln ist es unmöglich, eine gerade Zahl zu würfeln, die ungeraden Zahlen
sind gleich wahrscheinlich (jeweils mit Wahrscheinlichkeit 13 ). Beim letzten Würfel
ist es unmöglich, eine 1 oder eine 2 zu würfeln, die restlichen Ergebnisse sind wieder gleich wahrscheinlich (jeweils mit Wahrscheinlichkeit 41 ). Man nimmt nun zufällig
einen Würfel. Was ist die Wahrscheinlichkeit, eine 1 zu würfeln? Wir betrachten die
Ereignisse F (fairer Würfel), U 1 (erste Art unfaire Würfel) und U 2 (zweite Art unfaire Würfel). Wir haben P (F ) = 0, 7, P (U 1) = 0, 2 und P (U 2) = 0, 1. Ausserdem
kennen wir die bedingten Wahrscheinlichkeiten
P (1|F ) =
P (1|U 1) =
P (1|U 2) =
12
1
6
1
3
0
Damit ist die Wahrscheinlichkeit, eine 1 zu würfeln gegeben als
1
1
+ 0, 2 · + 0, 1 · 0 = 0, 18333
6
3
0, 7 ·
Beispiel 2.14 Bei einem Spiel gibt es 10 Würfel, 9 davon sind fair, d.h. jede Augenzahl
tritt mit Wahrscheinlichkeit 61 auf. Ein Würfel ist unfair, so dass die 6 mit Wahrschein1
lichkeit 21 und alle anderen Augenzahlen jeweils mit Wahrscheinlichkeit 10
auftreten.
Einer der Würfel wird zufällig gezogen und es wird damit gewürfelt. Das Ergebnis ist
eine 6. Mit welcher Wahrscheinlichkeit ist dieser Würfel der unfaire Würfel?
Da sowohl die gewüerfelte Augenzahl als auch der gezogene Würfel vom Zufall
abhängen, kann man einen W-Raum mit 12 verschiedenen Elementarereignissen definieren:
Ω = {(F, 1), (U, 1), (F, 2), (U, 2), . . . , (F, 6), (U, 6)}
Dabei ist (F, 1) das Ereignis, dass der Würfel fair ist und eine 1 gewürfelt wird u.s.w.
Dabei betrachten wir zwei Ereignisse, nämlich Ereignis A (Würfel unfair) und Ereignis B (es wird eine 6 geworfen). Man hat
A = {(U, 1), . . . , (U, 6)}
B = {(F, 6), (U, 6).}
Unsere Frage ist jezt: Mit welcher Wahrscheinlichkeit ist der Würfel unfair, wenn
ich weiß, dass eine 6 gewürfelt wurde? Oder anders ausgedrückt: Was ist die bedingte
Wahrscheinlichkeit P (A|B) für Ereignis A (Würfel unfair) - unter der Bedingung, dass
Ereignis B eingetreten ist (6 gewürfelt)?
Mit Satz 2.11 haben wir:
P (A|B) =
P (B|A) · P (A)
P (B)
P (B|A) – also die Wahrscheinlichkeit für eine 6, wenn man weiß, dass der Würfel
unfair ist – ist bekannt, es gilt P (B|A) = 21 . P (B) – also die Wahrscheinlichkeit, eine
6 zu würfeln, wenn man nichts weiter weiß – kann man mit dem Satz von der totalen
Wahrscheinlichkeit (Satz 2.13) ausrechnen. Wir haben eine Ereignisdisjunktion die aus
A und A besteht. Daher gilt
P (B) = P (B|A) · P (A) + P (B|A) · P (A)
also
P (B) =
1 9
1
3
4
1 1
·
+ ·
=
+
=
.
2 10 6 10
20 20
20
Insgesamt hat man also
P (A|B) =
1
2
13
·
1
10
4
20
=
1
4
2.5 Unabhängigkeit
Man interessiert sich bei der “bedingten Wahrscheinlichkeit” dafür, wie weit ein Ereignis A von von einem anderen Ereignis B beeinflusst wird, d.h. ob die Information, dass
B eingetreten ist, die Wahrscheinlichkeit von A verändert. Darauf aufbauend definiert
man
Definition 2.15 Sei B ein Ereignis mit 0 < P (B) < 1. Dann sagt man, dass ein
Ereignis A von B (stochastisch) unabhängig ist, wenn
P (A|B) = P (A|B)
gilt.
Hieraus folgt
Satz 2.16 Seien A und B Ereignisse mit 0 < P (B) < 1.
(a) A ist von B genau dann (stochastisch) unabhängig, wenn gilt
P (A|B) = P (A)
(b) A ist von B genau dann (stochastisch) unabhängig, wenn gilt
P (A ∩ B)
= P (A) · P (B)
(2.3)
“Unabhängigkeit” sagt also, dass die Information, dass B eintritt (oder eingetreten
ist oder eintreten wird), die Wahrscheinlichkeit von A nicht beeinflusst.
Beispiel 2.17 Wir kommen zum Beispiel 2.1 zurück (zwei Würfel werden geworfen).
Dabei betrachten wir die folgenden Ereignisse:
A : Die Augenzahl des ersten Würfels ist gerade.
B : Die Augenzahl des zweiten Würfels ist ungerade.
C : Die Augensumme ist gerade.
Offenbar sind A und B (stochastisch) unabhängig voneinander. Dasselbe gilt für die
Ereignisse A und C sowie für die Ereignisse B und C.
Wir überlegen nun, wie der Begriff der Unabhängigkeit auf mehrere Ereignisse übertragbar ist. In Anlehnung an (2.3) könnte man definieren, dass A1 , . . . , An unabhängig
sind, wenn gilt
P (A1 ∩ . . . ∩ An ) =
P (A1 ) · . . . · P (An )
Im obigen Beispiel haben wir z.B.
A ∩ B ∩ C = ∅,
14
(2.4)
also
P (A ∩ B ∩ C) = 0.
Andererseits gilt
P (A) = P (B) = P (C) =
1
,
2
also
1
1 1 1
· · = 6= 0.
2 2 2
8
Von den Ereignissen A, B und C sind also jeweils zwei (stochastisch) unabhängig,
Gleichung (2.4) gilt aber nicht. Hierdurch motiviert definiert man
P (A) · P (B) · P (C) =
Definition 2.18 Ereignisse A1 , . . . , An heißen
(a) paarweise (stoch.) unabhängig, wenn für jedes Paar Ai , Aj mit i 6= j gilt
P (Ai ∩ Aj ) = P (Ai ) · P (Aj )
(b) vollständig (stoch.) unabhängig, wenn für jede Auswahl von Ereignissen Ai1 , . . . , Aik
gilt
P (Ai1 ∩ . . . ∩ Aik ) = P (Ai1 ) · . . . · P (Aik ).
Bemerkung: Vollständige Unabhängigkeit inpliziert paarweise Unabhängigkeit, der
Umkehrschluss gilt jedoch i.A. nicht, wie das obige Beispiel zeigt.
15
2.6 Zufallsvariable
Bisher haben wir uns für die Wahrscheinlichkeit von Ereignissen bei einem Zufallsexperiment interessiert. Bei solchen Experimenten will man oft nicht nur wissen, mit
welcher Wahrscheinlichkeit ein Ereignis eintritt oder nicht eintritt, sondern man hat
oft auch bestimmte Zahlenwerte, die von den zufälligen Ereignissen abhängen. Bei
den Würfelspielen, die wir als Beispiele genommen haben, kann man z.B. festlegen,
dass ein Spieler je nach Ausgang des Zufallsexperiments einen bestimmten Geldbetrag
gewinnt oder verliert. Man hat damit also Zahlenwerte, die vom Zufall abhängen. Anders als mit den ursprünglich betrachteten Ereignissen, kann man mit solchen Zahlen
rechnen; man kann sich z.B. für Summen, Durchschnittswerte, Abweichungen vom
Durchschnitt etc. interessieren.
Eine Zuordnung, die jedem möglichen Ausgang eines Zufallsexperiments eine Zahl
zuordnen, ist mathematisch gesehen eine Funktion X, die auf der Menge Ω der möglichen Ausgänge des Experiments definiert ist und Werte in den reellen Zahlen hat. Jedem Element ω ∈ Ω wird also eine reelle Zahl X(ω) zugeordnet. Daher definiert man:
Definition 2.19 Sei (Ω, P ) ein Wahrscheinlichkeitsraum.
(a) Eine Zufallsvariable (ZV) ist eine Funktion
X:Ω→R
(b) Der Wertevorrat (Wertebereich) einer Zufallsvariablen X ist die Menge
{x ∈ R : es gibt ein ω ∈ Ω mit X(ω) = x}
(c) Man schreibt
P (X = x)
:=
P (X < x)
P (X ∈ A)
:=
:=
P ({ω ∈ Ω : X(ω) = x})
P ({ω ∈ Ω : X(ω) < x})
P ({ω ∈ Ω : X(ω) ∈ A})
(2.5)
(2.6)
(2.7)
u.s.w.
Beispiel 2.20 Wir nehmen wieder das Zufallsexperiment aus Beispiel 2.1, d.h. es werden zwei Würfel geworfen. Die Menge Ω der möglichen Ausgänge des Experiments
besteht also aus Paaren von ganzen Zahlen zwischen 1 und 6, man hat also
Ω = {(i, j) : i, j ∈ {1, . . . , 6}}.
Die Zufallsvariable X definieren wir so, dass jedem möglichen Ausgang des Experiments – also jedem möglichen Zahlenpaar – die Summe der beiden Zahlen zugeordnet
wird. X ist also gegeben durch
X : Ω → R,
X(i, j) = i + j
16
Bei einer Zufallsvariablen interessiert man sich vor allem dafür, mit welcher Wahrscheinlichkeit sie bestimmte Werte “annimmt”. Beim Glücksspiel kann man sich z.B.
fragen, mit welcher Wahrscheinlichkeit man mindestens einen bestimmten Betrag gewinnt, oder mit welcher Wahrscheinlichkeit der Gewinn oder Verlust in bestimmten
Grenzen sein wird.
Die Zufallsvariable X aus dem letzten Beispiel kann Werte zwischen 2 und 12 annehmen. Mit der oben eingeführten Schreibweise ist z.B. P (X = 2) die Wahrscheinlichkeit dafür, dass die Summe der beiden Würfel gleich 2 ist. Diese Wahrscheinlich1
keit ist 36
– denn es gibt insgesamt 6 · 6 = 36 mögliche Paare von Zahlen, die alle
die gleiche Wahrscheinlichkeit haben, und die Summe 2 wird dabei von genau einem
Paar realisiert, nämlich von dem Paar (1, 1). P (X = 3) – also die Wahrscheinlichkeit,
1
2
= 18
, denn es gibt genau zwei
dass die Summe der Zahlen 3 ist –, ist dagegen 36
Paare – (1, 2) und (2, 1), bei denen die Summe gleich 3 ist. Die Wahrscheinlichkeit,
dass die Summe gleich 17 oder gleich 2,5 ist, ist dagegen gleich 0, weil die Summe der
Augenzahlen nur eine ganze Zahl zwischen 2 und 12 sein kann.
Auf diese Weise wird also jeder möglichen Zahl x ∈ R eine Wahrscheinlichkeit
zugeordnet. Ebenso kann man Teilmengen von R Wahrscheinlichkeiten zuordnen. Betrachte z.B. die Menge A aller Zahlen, die größer als 10 sind; wir interessieren uns für
die Wahrscheinlichkeit, mit der unsere Zufallsvariable Werte in A annimmt. Mit der
Bezeichnung aus Definition 2.19 schreiben wir hierfür P (X > 10) oder P (X ∈ A).
Um diese Wahrscheinlichkeit zu berechnen, überlegen wir, dass es genau zwei Werte
in A gibt, die X annehmen kann, nämlich 11 und 12. Man kann leicht sehen, dass diese
1
2
bzw. 36
angenommen werden. Insgesamt bekommt
Werte mit Wahrscheinlichkeiten 36
man also
1
2
3
1
P (X > 10) = P (X ∈ A) =
+
=
=
.
36 36
36
12
Allgemein definiert man:
Definition 2.21 Sei X eine Zufallsvariable.
(a) Durch (2.5), (2.6), (2.7) u.s.w. wird Teilmengen von R eine Wahrscheinlichkeit
zugeordnet, d.h. man kann z.B. für ein Intervall [a, b] sagen, mit welcher Wahrscheinlichkeit die Funktion X Werte zwischen a und b annimmt. Diese Wahrscheinlichkeit auf R heißt die Verteilung von X.
(b) Die Funktion
F (x) = P (X ≤ x)
heißt Verteilungsfunktion von X.
Für jede reelle Zahl x ist F (x) also die Wahrscheinlichkeit dafür, dass X Werte
kleiner oder gleich x annimmt.
Die Zufallsvariable X in Beispiel 2.20 konnte nur endlich viele Werte annehmen
(ganze Zahlen zwischen 2 und 12). Man hat jedoch oft Zufallsvariablen, die alle möglichen Werte zwischen bestimmten Grenzen annehmen können. Das gilt für die meisten
Meßwerte in der Biologie. Hier macht es keinen Sinn, einzelnen Zahlen bestimmte
Wahrscheinlichkeiten zuzuordnen. Statt dessen kann man eine so genannte Dichtefunktion f definieren, die einem sagt, wie wahrscheinlich es ist, dass X Werte in einem
17
bestimmten Bereich der Zahlengerade annimmt. Für einen Abschnitt A auf der Zahlengerade, betrachtet man dafür die Fläche unter der Funktion f im Bereich A – mathematisch gesehen das Integral von f im Bereich A. Die Wahrscheinlichkeit, dass X
Werte in A annimmt ist dann genau durch diese Fläche bestimmt. Einen Spezialfall hat
man, wenn A die Menge aller Zahlen ist, die kleiner als eine bestimmte Zahl a sind.
Die Fläche zwischen A und f ist dann das “unbestimmte Integral”
Z a
f (x)dx.
∞
Formal definiert man:
Definition 2.22 Sei X eine Zufallsvariable.
(a) Falls X einen endlichen oder abzählbar unendlichen Wertevorrat hat, heißt X
diskret.
(b) X heißt stetig, wenn es eine Funktion f : R → R+
0 gibt mit
Z x
f (u)du.
F (x) =
−∞
R+
0 ist dabei die Menge der nicht-negativen reellen Zahlen. In diesem Fall heißt
f die Dichte der Zufallsvariablen X.
Es gilt also
P (a < X ≤ b) = F (b) − F (a).
Beispiel 2.23 Eine Uhr bleibt zu einem zufälligen Zeitpunkt stehen. Die Zufallsvariable X beschreibt den Punkt auf dem Ziffernblatt, auf dem der große Zeiger stehengeblieben ist. X ist stetig mit der Verteilungsfunktion

x<0
 0
x
0 ≤ x < 12
F (x) =
12

1
x≥1
In diesem Beispiel ist z.B. die Wahrscheinlichkeit, dass der Zeiger zwischen 2 und
3 stehen bleibt genau so groß wie die Wahrscheinlichkeit, dass er zwischen 7 und 8
stehen bleibt. Mit der obigen Definition kann man das ausdrücken als
P (1 ≤ X ≤ 2) = P (7 ≤ X ≤ 8).
Generell ist die Wahrscheinlichkeit dafür, dass der Zeiger in einem Bereich mit einer
vorgegebenen Länge stehen bleibt, überall gleich groß. Daher ist die Dichtefunktion f
in diesem Fall zwischen 0 und 12 konstant. Außerhalb dieses Bereichs ist sie natürlich
0, denn es können keine Werte kleiner als 0 oder größer als 12 angenommen werden.
18
Beispiel 2.24 Eine Urne enthält N Kugeln, M davon sind weiß, die restlichen Kugeln
sind schwarz. Die Wahrscheinlichkeit, eine weiße Kugel zu ziehen, ist also p = M
N . Ein
Zufallsexperiment besteht darin, n Kugeln zufällig zu ziehen; jede Kugel, die gezogen
wurde, wird danach wieder in die Urne zurückgelegt. Die Zufallsvariable X beschreibt
die Zahl der weißen Kugeln. Die Wahrscheinlichkeit P (X = k) ist dann die Wahrscheinlichkeit dafür, dass man genau k weiße Kugeln zieht. Es gilt
n k
P (X = k) =
p (1 − p)n−k .
(2.8)
k
Der Faktor
n!
n
=
k
k!(n − k)!
heißt Binomialkoeffizient; man sagt auch “n über k”.
Definition 2.25 Die durch 2.8 gegebene Verteilung heißt Binomialverteilung mit Parametern n und p; eine Zufallsvariable mit dieser Verteilung heißt binomial-verteilt.
Statt P (X = k) schreibt man auch b(k, n, p).
Die wichtigsten Eigenschaften einer Zufallsvariablen sind (a) ihr “durchschnittlicher”
Wert und (b) ihre “Variabilität”. hierfür definiert man Erwartunswert und Varianz von
diskreten und stetigen Zufallsvariablen.
Definition 2.26 (Erwartungswert, Varianz) Sei X eine diskrete Zufallsvariable mit
Wertevorrat {x1 , x2 , . . .}.
(a) Die Zahl
E(X) = µ =
X
xi P (X = xi )
i
heißt der Erwartungswert von X.
(b) Die Zahl
σ 2 = E[(X − µ)2 ] =
heißt die Varianz von X.
X
i
(xi − µ)2 P (X = xi )
Der Erwartungswert E(X) ist der Wert, den eine Zufallsvariable “im Durchschnitt”
annimmt; die Varianz σ 2 ist ein Maß dafür, wie breit die Werte von X “gestreut” sind.
Erwartungswert und Varianz sind auch für stetige Zufallsvariablen definiert und haben
dort die gleiche Bedeutung. Die mathematische Definition wollen wir hier allerdings
weglassen.
Beispiel 2.27 Man wirft einen Würfel einmal, die Zufallsvariable X beschreibt die
Zahl der Augen. Der Erwartungswert von X ist dann
µ=
X
i
xi P (X = xi ) = 1 ∗
1
21
1
+ ...+ 6 ∗ =
= 3, 5
6
6
6
19
Die Varianz von X ist
X
(xi − µ)2 P (X = xi )
σ 2 (X) =
i
1
=
∗ [(−2, 5)2 + (−1.5)2 + (−0.5)2 + (0.5)2 + (1.5)2 + (2, 5)2 ]
6
1
=
∗ [6.25 + 2, 25 + 0, 25 + 0, 25 + 2, 25 + 6.25]
6
= 2, 91 . . .
Satz 2.28 Eine binomialverteilte Zufallsvariable X mit Parametern n und p hat den
Erwartungswert E(X) = np und die Varianz σ 2 = np(1 − p).
Beispiel 2.29 Sei X die Anzahl der 6en bei 100 Würfen mit einem Würfel. Dann ist X
binomialverteilt mit Parametern n = 100 und p = 16 . Es ist E(X) ≈ 16, 67 und die
Varianz von X ist ungefähr σ 2 ≈ 13,89.
Definition 2.30 (a) Eine Zufallsvariable heißt normalverteilt oder N (µ, σ 2 )-verteilt,
wenn sie eine Dichte f hat mit
(x−µ)2
1
e− 2σ2
f (x) = √
2πσ 2
(b) Falls µ = 0 und σ = 1 ist, heißt X standard-normalverteilt. Die Dichte f ist dann
also
1
x2
f (x) = √ e− 2
2π
Satz 2.31 Sei X eine N (µ, σ 2 )-verteilte Zufallsvariable. Sei F die Verteilungsfunktion
der Standard-Normalverteilung (siehe Tabelle auf Seite 42).
(a) Der Erwartungswert von X ist µ.
(b) Die Varianz von X ist σ 2 .
(c) Die Zufallsvariable
X∗
=
X −µ
σ
ist standard-normalverteilt.
(d) Für eine Zahl b ist
P (X ≤ b) = P (X < b) = F (
b−µ
)
σ
(e) Für Zahlen a ≤ b ist
P (a ≤ X ≤ b) = F (
20
b−µ
a−µ
) − F(
)
σ
σ
0.4
0.3
0.2
0.1
-2
2
4
6
8
Abbildung 2.1: Dichte der Standardnormalverteilung N (0, 1) (links) und der Normalverteilung N (2, 4) mit Erwartungswert 4 und Varianz 4 (rechts)
0.4
1
0.3
0.8
0.6
Hz,FHzLL
0.2
FHzL
0.4
0.1
0.2
-3
-2
-1
z
1
2
3
-3
-2
-1
z
1
2
3
Abbildung 2.2: Links ist die Dichte f der Standardnormalverteilung abgebildet. Die
Größe der grauen Fläche ist die Wahrscheinlichkeit F (z) = P (X ≤ z), daß der Wert
einer standardnormalverteilten Zufallsvariablen X kleiner oder gleich z ist. Rechts ist
die Verteilungsfunktion F abgebildet.
Angenommen, wir wollten in Beispiel 2.29 die Wahrscheinlichkeit P (10 ≤ X ≤
20) berechnen, also die Wahrscheinlichkeit, daß bei 100 Würfen zwischen 10 und 20
6en fallen. Dies geht zwar mit Formel (2.8), aber wir müssten die Formel für jeden
Wert k von 10 bis 20 ausrechnen, was recht umständlich ist. Man kann die Binomialverteilung für große n und ein p, was nicht zu nahe an 0 oder 1 liegt, gut durch eine
Normalverteilung mit geeigneten Parametern approximieren (annähern). Dies kann die
Rechnung sehr erleichtern.
Satz 2.32 Sei X binomialverteilt mit Parametern n und p. Sei F die Verteilungsfunktion der Standard-normalverteilung (Seite 42). Seien a und b natürliche Zahlen mit
0 ≤ a ≤ b ≤ n. Dann ist
a − 0,5 − np
b + 0,5 − np
) − F( p
)
P (a ≤ X ≤ b) ≈ F ( p
np(1 − p)
np(1 − p)
wenn n groß ist und p nicht zu nahe an 0 oder 1.
21
(2.9)
Die Approximation ist dabei umso genauer je größer np(1 − p) ist. Faustregel:
np(1 − p) sollte größer als 9 sein.
Beispiel 2.33 Für n = 100, p = 1/6, a = 10, b = 20 ist np(1−p) ≈ 13,89, die Faustregel ist also erfüllt. Er ergibt sich also P (10 ≤ X ≤ 20) ≈ F (1,03) − F (−1,92) ≈
0,8485 − 0,0274 = 0,8211. Hätte man hier mit der genauen Formel (2.8) gerechnet,
hätte sich die Wahrscheinlichkeit 0,8268 ergeben. Der Fehler ist also tatsächlich relativ
gering.
Eine weitere Verteilung, die in der Statistik eine wichtige Rolle spielt, ist die Poissonverteilung. Die Bedeutung besteht z.B. darin, dass die in (2.8) beschriebene Binomialverteilung B(n, p) für große n und kleine p durch die Poissonverteilung angenähert
werden kann.
Definition 2.34 Eine diskrete Zufallsvariable X heißt Poisson-verteilt (mit Parameter
λ), falls gilt
λk −λ
P (X = k) =
e .
k!
Wenn n groß und p klein ist, gilt dabei
b(k, n, p) ≈
wobei λ = n · p gesetz ist.
22
λk −λ
e ,
k!
Kapitel 3
Beschreibende Statistik
In der W.-Theorie (Kapitel 2) betrachtet man Zufallsexperimente, bei denen man die
Wahrscheinlichkeiten von ,,einfachen” Ereignissen kennt. Daraus kann man dann die
Wahrscheinlichkeiten von ,,komplizierteren” Ereignissen berechnen. Wenn das Ergebnis von einem solchen Experiment ein Zahlenwert ist, kann man das Experiment als Zufallsvariable X beschreiben, d.h. als eine Funktion, deren Werte vom Zufall abhängen.
Im letzten Abschnitt haben wir uns mit Wahrscheinlichkeitsverteilungen solcher Zufallsvariablen beschäftigt.
In der schließenden Statistik (Kapitel 4) hat man es mit Zufallsexperimenten zu
tun, bei denen man die Wahrscheinlichkeitsverteilungen nicht kennt. Man will dann auf
Grund von Beobachtungen von einzelen Ereignissen Aussagen über ,,dahinter liegende” Wahrscheinlichkeitsverteilungen machen. Z.B. kann man einen Würfel betrachten,
von dem man nicht weiß, ob er fair ist, d.h. man weiß nicht, ob die Wahrscheinlichkeit für jede der sechs möglichen Augenzahlen wirklich 1/6 ist. Das Zufallsexperiment
kann man durch eine (diskrete) Zufallsvariable X beschreiben, die die Werte 1, . . . , 6
annehmen kann. Das Problem ist dabei, dass man die Verteilung von X nicht kennt, d.h.
man weiß nicht, mit welcher Wahrscheinlichkeit z.B. eine 1 oder eine 4 gewürfelt wird.
Im nächsten Kapitel werden wir zwei verschiedene statistische Tests kennen lernen, mit
denen man auf Grund von Stichproben Aussagen über eine unbekannte Zufallsvariable
X machen kann. Die Entwicklung von solchen Tests kann man als das eigentliche Ziel
der Statistik ansehen.
In diesem Kapitel beschäftigen wir uns zunächst einmal mit der Beschreibung von
Stichproben. Es geht darum, wie man Beobachtungen von zufälligen Ereignissen einigermaßen systematisch und übersichtlich darstellen kann, wie man bestimmte Kenngrößen definiert, mit denen man Ergebnisse von Zufallsexperimenten beschreiben kann
u.s.w.
3.1 Häufigkeitsverteilung von Stichproben
Definition 3.1 Eine Stichprobe vom Umfang n ist ein Satz von beobachteten Zahlenwerten x = (x1 , . . . , xn ). Man nennt x auch eine Urliste. Die in der Stichprobe x
23
vorkommenden Zahlenwerte heißen Merkmale von x; man bezeichnet diese Merkmale
auch mit X ∗ = (x∗1 , . . . , x∗N ). hk ist die Häufigkeit, mit der das Merkmal x∗k vorkommt.
Man nennt hk auch die absolute Häufigkeit von x∗k . Dagegen ist
rk =
hk
n
die relative Häufigkeit von x∗k .
Der Unterschied zwischen der Urliste x und der Liste von Merkmalen x∗ ist also, dass bei der Urliste ein Wert mehr als einmal vorkommen kann, während in der
Merkmalsliste jeder Wert nur einmal vorkommt. Für hk und rk gilt
N
X
hk
= n
rk
= 1
i=1
N
X
i=1
Beispiel 3.2 Man interessiert sich für die Mathematik-Kenntnisse der Schüler an einer
Schule; als Stichprobe nimmt man die Zeugnisnoten bei einer Klasse mit 25 Schülern.
Die Stichprobe (bzw. Urliste) besteht aus den Zahlen
x = (2, 3, 4, 3, 1, 5, 2, 2, 3, 1, 2, 4, 2, 3, 1, 1, 3, 3, 2, 4, 5, 2, 2, 3, 2).
Die Merkmale dieser Stichprobe sind damit
x∗ = (1, 2, 3, 4, 5)
(Es kommen alle Noten vor außer 6), die Stichprobe hat also den Umfang n = 25, und
die Zahl der Merkmale ist N = 5. Die absoluten Häufikeiten sind
h1
=
4
h2
h3
=
=
9
7
h4
h5
=
=
3
2
h6
=
0
und die relativen Häufigkeiten sind
r1
r2
r3
r4
r5
r6
=
=
=
=
=
=
4
25
9
25
7
25
3
25
2
25
0
25
24
=
=
=
=
=
=
0, 16
0, 36
0, 28
0, 12
0, 08
0, 00
Die erste Frage, die wir uns stellen ist: Wie kann man die Ergebnisse einer Stichprobe
übersichtlich darstellen, so dass man die wesentlichen Ergebnisse möglichst auf einen
Blick erkennen kann? Bei sehr kleinen Stichproben (wie im letzten Beispiel) reicht es
aus, die absoluten oder relativen Häufigkeiten der Merkmale anzugeben. Bei Stichproben mit einer größeren Zahl von möglichen Merkmalen ist es aber schwieriger, aus den
Häufigkeitstabellen noch irgendwelche nützlichen Informationen herauszufiltern. Daher stellt man die Ergebnisse von Stichproben meistens graphisch dar. Wenn die Zahl
der Merkmale der Stichprobe (also die Zahl der verschiedenen Werte) nicht all zu groß
ist, kann man die Stichprobe übersichtlich als Stabdiagramm oder als Häufigkeitspolygon darstellen. Diese Möglichkeiten sind in den Abbildung 3.1 dargestellt.
3
3
2
2
1
1
3
4
5
6
7
8
9
3
10
4
5
6
7
8
9
10
Abbildung 3.1: Links: Ein Stabdiagramm der Urliste (7, 3, 5, 6, 8, 5, 4, 7, 10, 7). Die
Höhe der Stäbe gibt die absolute Häufigkeit der Merkmale an. Rechts: Ein Häufigkeitspolygon derselben Daten.
Wenn man eine große Zahl von Merkmalen hat, Wird die Darstellung durch Stabdiagramme oder Häufigkeitspolygone allerdings unübersichtlich. Wenn z.B. 50 Studierende eine Klausur schreiben, bei der man bis zu 100 Punkten bekommen kann, dann
macht es keinen Sinn mehr ein Stabdiagramm zu zeichnen, bei dem für jede Punktzahl k eingezeichnet ist, wie viele Studierende k Punkte bekommen haben. Für die
meisten Zahlen k hätte man dann wahrscheinlich 0, 1 oder 2 Studierende, die genau
k Punkte bekommen haben. Man hätte also ein Stabdiagramm mit vielen sehr kurzen
Strichen, und es wäre sehr umständlich, daraus brauchbare Informationen zu bekommen. In solchen Fällen faßt man Gruppen von Ergebnissen zusammen und trägt die
entsprechenden Häufigkeiten in ein so genanntes Histogramm ein. Man würde dabei
z.B. einzeichnen, wie viele Studierende 0 - 10 Punkte haben, wie viele 11 - 20 Punkte
haben u.s.w. Ein Beispiel ist in Abbildung 3.2 gegeben.
Wir definieren jetzt noch einige Kenngrößen, mit denen man das Ergebnis einer
Stichprobe x = (x1 , . . . , xn ) charakterisieren kann:
Definition 3.3
(a) Die Zahl
x1 + . . . + xn
n
heißt Mittelwert oder arithmetisches Mittel von x.
x=
(b) Falls die Werte x1 , . . . , xn der Größe nach geordnet sind , d.h. falls
x1 ≤ x2 ≤ . . . ≤ xn
25
6
3
5
2.5
4
2
3
1.5
2
1
1
0.5
10
12
14
16
18
20
10
22
12
14
16
18
20
22
Abbildung 3.2: Links: Ein Histogramm mit äquidistanter Klasseneinteilung der geordneten Urliste (8, 10, 11, 12, 13, 13, 14, 14, 14, 14, 15, 15, 16, 17, 17, 17, 17, 18, 20, 21).
Die Klassengrenzen sind 8, 10, 12, 14, 16, 18, 20, 22. Äquidistant heißt, daß benachbarte Klassengrenzen jeweils den gleichen Abstand (hier 2) voneinander haben. Die Klassen sind jeweils die Intervalle zwischen zwei benachbarten Klassengrenzen, wobei die
Intervallgrenze hier jeweils zur rechten Klasse gehört. Die Höhe des Balkens über einer
Klasse ist die Häufigkeit der Stichprobenwerte dieser Klasse. Also z.B. in der Klasse
[14, 16) liegen 6 Stichprobenwerte: 14,14,14,14,15 und 15. Rechts: Ein Histogramm
mit nicht äquidistanter Klasseneinteilung derselben Daten. Die Klassengrenzen sind
8, 12, 14, 16, 18, 22. Die Höhe des Balkens über einer Klasse ist hier: (Häufigkeit der
Stichprobenwerte dieser Klasse)/(Klassenbreite). Also z.B. der Balken über der Klasse
[8, 12) hat die Höhe 3/4.
gilt, nennt man den mittleren Wert Median von x, falls n eine ungerade Zahl ist.
Falls n gerade ist, ist der Median der Durchschnitt der beiden mittleren Werte.
Den Median bezeichnet man mit x̃. Man hat also
(
falls n ungerade ist
x n+1
2
x̃ =
(3.1)
x n +x( n +1)
2
2
falls n gerade ist
2
(c) Der Modalwert von x ist der Wert, der am häufigsten in der Stichprobe vorkommt, d.h. das Merkmal mit der größten absoluten Häufigkeit.
(d) Der Wert
n
s2x =
heißt Varianz der Stichprobe x
1 X
(xi − x)2
n − 1 i=1
(e) Der Wert
v
u
p
u
2
sx = sx = t
n
1 X
(xi − x)2
n − 1 i=1
heißt Standardabweichung x.
Die oben definierten Begriffe sollen am Beispiel der Zeugnisnoten (Beispiel 3.2) erklärt
werden.
26
(a) Der Mittelwert der Zeugnisnoten ist
2 + 3 + 4 + 3 + ... + 2 + 3 + 2
= 2, 6
25
Falls man die absoluten Häufigkeiten der Merkmale von x kennt, kann man auch
schreiben
h1 · x∗1 + . . . + hN · x∗N
x=
n
In unserem Beispiel haben wir also
x=
4·1+9·2+7·3+3·4+2·5
= 2, 6
25
(b) Wenn wir annehmen, dass die Urliste x der Größe nach geordnet ist, haben wir
x = (1, 1, 1, 1, 2, 2, 2, 2, 2, 2, 2, 2, 2, 3, 3, 3, 3, 3, 3, 3, 4, 4, 4, 5, 5)
Der mittlere Wert dieser liste ist die fett gedruchte 2, das ist also der Median der
Stichprobe x. Mit Formel (3.1) hätten wir
x̃ = x 25+1 = x13 = 2
2
denn n ist ungerade. Für den Fall, dass n gerade ist, nehmen wir an, dass wir
einen Schüler mehr hätten; wir nehmen an, dass dieser Schüler die Note 4 hat. In
diesem Fall haben wir also n = 26 und
x = (1, 1, 1, 1, 2, 2, 2, 2, 2, 2, 2, 2, 2, 3, 3, 3, 3, 3, 3, 3, 4, 4, 4, 4, 5, 5)
In diesem Fall ist der Median der Durchschnitt der beiden mittleren Werte (die
fett gedruchten 2 und 3), also ist x̃ = 2, 5. Mit Formel (3.1) bekommt man
x̃ =
x 262 + x( 26
2 +1)
2
=
x13 + x(13+1)
2
(c) Der Modalwert in unserem Beispiel ist 2, da die Note 2 am häufigsten vorkommt
(9 mal).
(d) Die Varianz gibt an, wie stark die Werte der Stichproben vom Mittelwert abweichen. Wenn N die Zahl der vorkommenden Werte bei der Stichprobe x ist,
und falls man die absoluten Häufigkeiten hi dieser Werte kennt, kann man die
Varianz auch berechnen als
N
s2x =
1 X
hi (x∗i − x)2
n − 1 i=1
(3.2)
In unserem Beispiel ist n = 25 und
h1 · (x∗1 − x)2
h3 · (x∗2 − x)2
h2 · (x∗3 − x)2
h4 · (x∗4 − x)2
h5 · (x∗5 − x)2
=
=
=
=
=
4 · (1 − 2, 6)2
7 · (3 − 2, 6)2
9 · (2 − 2, 6)2
3 · (4 − 2, 6)2
2 · (5 − 2, 6)2
27
=
=
=
=
=
10, 24
1, 12
3, 24
5, 88
11, 52
Die Varianz von x ist also
s2x =
32
1
(10, 24 + 1, 12 + 3, 24 + 5, 88 + 11, 52) =
= 1, 3333 . . .
25 − 1
24
(e) Die Standardabweichung von x ist demnach
p
sx = 1, 33333 = 1, 154
3.2 Regression
Bisher hatten wir Stichproben betrachtet, bei denen eine bestimmte Größe mehrmals
gemessen wurde, z.B. die Note in einem bestimmten Fach. Oft hat man aber die Situation, dass man sich für zwei verschiedene Größen interessiert, z.B. für die Noten in
zwei verschiedenen Fächern. Eine Stichprobe, bei der zwei verschiedene Größen gemessen werden, nennt man eine zweidimensionale Stichprobe. Eine wichtige Frage ist
dann, ob es irgend einen Zusammenhang zwischen den gemessenen Werten gibt, oder
ob die beiden Werte ,,unabhängig” voneinander sind. Falls es einen Zusammenhang
gibt, will man wissen, ob man das Verhältnis zwischen den beiden Größen durch eine
mathematische Funktion beschreiben kann.
Das Problem dabei ist, dass die wirklichen Werte normalerweise nicht genau einer mathematischen Funktion entsprechen, sondern nur ungefähr. Außerdem macht
man natürlich auch Messfehler. Man kann also nicht erwarten, dass sich der Zusammenhang zwischen den beobachteten Werten exakt durch eine mathematische Funktion beschreiben läßt. Daher sucht man eine Funktion, die die gemessenen Werte nicht
unbedingt exakt, aber doch so genau wie möglich approximiert (d.h. annähert). Eine
solche Annäherung nennt man in der Statistik auch Regression. Dafür definiert man
zuerst
Definition 3.4 Eine zweidimensionale Stichprobe vom Umfang n ist ein Satz von n
Paaren von Beobachtungswerten
(x1 , y1 ), . . . (xn , yn )
Um festzustellen, ob bzw. was für ein Zusammenhang zwischen den Werten xi und yi
besteht, kann man ein Schaubild zeichnen, in dem die yi gegen xi aufgetragen wird.
Eine solche graphische Darstellung kann schon sehr deutlich zeigen, ob oder wie xi
mit yi zusammenhängt.
3.2.1 Approximation an eine lineare Funktion (lineare Regression)
Der einfachste mathematische Zusammenhang zwischen den gemessenen Werten, den
man sich vorstellen kann, ist ein linearer Zusammenhang, d.h. die Werte yi sind proportional zu xi . Wenn man z.B. Indiviuen i einer Population untersucht und dabei Körpervolumen xi und Gewicht yi misst, sollte man erwarten, dass diese Werte ungefähr
proportional zueinander sind, d.h. im Idealfall hätte man einen Zusammenhang
yi = α · xi
28
mit irgend einer Konstanten α. Das Schaubild, das man bekommt, wenn man xi und
yi gegeneinander aufträgt, wäre dann eine Gerade, die durch den Ursprung (0, 0) geht.
Dieser Zusammenhang gilt in Wirklichkeit natürlich nicht exakt, sondern nur ungefähr,
außerdem muß man natürlich immer mit ungenauen Messungen rechnen. Man sucht
also einen Wert α, so dass die Annäherung
yi ≈ α · xi
möglichst ,,gut” ist.
Etwas allgemeiner nehmen wir an, dass zwischen den Werten xi und yi ein affinlinearer Zusammenhang besteht. Wenn man die Werte gegeneinander aufträgt, sollte
man also eine Gerade bekommen, die aber nicht unbedingt durch den Ursprung gehen
muß. So ein Zusammenhang wird durch
yi = α · xi + β
(3.3)
beschrieben. Einen solchen Zusammenhang kann man z.B. auf Grund von theoretischen Überlegungen erwarten (wie bei dem Beisipiel mit Gewicht und Volumen - in
diesem Fall war β = 0); man kann aber auch einfach aus dem Schaubild erkennen,
dass ein affin-linearer Zusammenhang besteht. In jedem Fall ist die Aufgabe dann, die
Konstanten α und β aus den Messdaten (xi , yi ) zu bestimmen. Graphisch kann man
sich dieses Problem so veranschaulichen, dass man eine Gerade sucht, die möglichst
genau zu den gemessenen Werten ,,paßt”.
y
yi
xi
x
Abbildung 3.3: Eine zweidimensionale Stichprobe vom Umfang 15 und ihre Regressionsgerade.
Um gute Werte für α und β zu finden, kann man folgendermaßen vorgehen. Angenommen, der (theoretische) Zusammenhang zwischen xi und yi wird durch (3.3) beschrieben. Für jeden Wert xi ist dann α·xi +β der theoretisch zu erwartende Messwert.
29
Dagegen ist yi der wirklich gemessene Wert. Um zu beurteilen, wie gut (3.3) den Zusammenhang beschreibt – d.h. wie gut der theoretisch erwartete Wert mit dem wirklich
gemessenen übereinstimmt –, nimmt man das Quadrat der Differenz
(α · xi + β − yi )2
Je besser die theoretische Berechnung ist, desto kleiner sollten die Quadrate der Differenzen sein. Als Maß dafür, wie gut (3.3) den Zusammenhang beschreibt, nimmt man
die Summe über alle Messwerte xi , d.h. man nimmt den Wert
Q=
n
X
i=1
(α · xi + β − yi )2
Für jede Wahl von α und β bekommt man also eine Wert Q, der sagt, wie gut die
Messwerte durch die Gerade 3.3 approximiert werden. Man sucht dann Werte α̂ und
β̂, so dass Q minimal ist. Dieses Verfahren nennt man die Methode der kleinsten Quadrate.
Um solche Werte α̂ und β̂ zu finden, definiert man zunächst:
xx
=
xy
=
x21 + . . . + x2n
n
x1 · y1 + . . . + xn · yn
n
Dann setzt man
α̂ =
und
xy − x · y
xx − x · x
β̂ = y − α̂x
Man kann beweisen, dass die Werte α̂ und β̂ die optimalen Werte für α β sind, d.h
diejenigen Werte, bei denen die Summe der Quadrate Q minimal ist.
3.2.2 Approximation an eine Exponentialfunktion
Viele biologische Zusammenhänge lassen sich durch die Exponentialfunktion
f (x) = ex
oder, etwas allgemeiner,
f (x) = α · eβ·x
beschreiben. Zum Beispiel wachsen Bakterienkulturen exponentiell, bis sie an gewisse Schranken stoßen. Man hat daher oft die Situation, dass man Paare (xi , yi ) von
Messwerten hat und annimmt, dass ein exponentieller Zusammenhang besteht. Wie
bei der linearen Regression sucht man daher Konstanten α und β, so dass
yi
≈
α · eβxi
30
(3.4)
gilt. Das Problem ist wieder, Werte für α und β zu finden, so dass die Approximation
(3.4) möglichst gut ist. Man kann dieses Problem lösen, indem man es auf die lineare
Regression zurückführt, die im letzten Teilabschnitt behandelt wurde. Dafür setzt man
b = ln y
bzw., was gleichbedeutend damit ist,
y = eb
und entsprechend bi = ln yi u.s.w. Aus der Gleichung
y = α · eβ·x
bekommt man, wenn man von beiden Seiten den Logarithmus nimmt,
ln y = ln α · eβ·x
b = ln α + ln eβ·x
b
ln α + β · x
=
Damit hat man das Problem, ,,gute” Werte für α und β zu finden, so dass
bi ≈ ln α + β · xi
gilt bzw., wenn man ln yi = bi einsetzt:
ln yi ≈ ln α + β · xi .
Wir haben also jetzt das Problem, eine lineare Approximation für die Werte xi und
ln yi zu finden. Dieses Problem haben wir aber schon im letzten Abschnitt (linearer
Regression) gelöst. Wir nehmen also einfach statt yi die Werte ln yi und wenden die
Methode aus Abschnitt 3.2.1 an.
3.2.3 Approximation an eine Potenzfunktion
Andere Zusammenhänge in der Biologie lassen sich durch die Potenzfunktion
f (x) = α · xβ
beschreiben. In diesem Fall gehen wir ganz ähnlich wie bei der Exponentialfunktion
vor. Der einzige Unterschied ist, dass wir diesmal von beiden Werten xi und yi den
Logarithmus nehmen. Dafür setzen wir
a = ln x
und
b = ln y
31
(bzw. ai = ln xi und bi = ln yi ). Aus
yi ≈ α · xβ
bekommt man dann
y
ln y
=
=
b
=
b
b
=
=
α · xβ
ln α · xβ
ln α + ln xβ
ln α + β · ln x
ln α + β · a
Wir haben daher
bi ≈ ln α + β · ai
Alles, was wir jetzt machen müssen, um ,,gute” Werte für α und β zu finden, ist den
Logarithmus von xi und yi zu nehmen; zwischen diesen Werten sollte dann ein linearer
Zusammenhang bestehen, und gute Werte für die Konstanten α und β finden wir dann
einfach wieder wie in Abschnitt 3.2.1.
3.3 Korrelation und Kovarianz
Wenn man eine zweidimensionale Stichprobe hat (d.h. wenn man zwei verschiedene
Größen mehrmals gemessen hat) ist es oft nicht möglich, einen mathematischen Funktionszusammenhang zwischen diesen Größen anzugeben. Trotzdem kann man sich fragen, ob die Größen irgendwie etwas miteinander zu tun haben, d.h. ob z.B. xi (im
Allgemeinen) groß ist, wenn yi auch groß ist, oder ob das Verhältnis umgekehrt ist,
oder ob man überhaupt keinen solchen Zusammenhang erkennen kann.
Z.B. würde man erwarten, dass Schüler mit guten Mathematiknoten oft auch gute
Noten in Physik habeni – und umgekehrt–, auch wenn man natürlich keine mathematische Funktion angeben kann, die den Zusammenhang beschreibt. Man sagt dann, dass
die beiden Messwerte korreliert sind. Unser Ziel in diesem Abschnitt ist, ein Maß für
die ,,Korrelation” zwischen zwei Messgrößen anzugeben. Dafür definiert man
Definition 3.5 Sei (x, y) eine zweidimensionale Stichprobe vom Umfang n, d.h. man
hat einen Satz von n Paaren von Beobachtungen
x =
y =
Die Größe
sxy =
n
P
i=1
(x1 , . . . , xn )
(y1 , . . . , yn )
(xi − x) · (yi − y)
n−1
32
heißt Kovarianz von x und y. Die Zahl
ρ(x, y) =
sxy
sx · sy
heißt Korrelationskoeffizient von x und y.
Korrelation bzw. Korrelationskoeffizient beschreiben, wie ,,gut” die Werte von x
und y korreliert sind. Bei Stichproben, bei denen große Werte xi häufig bedeuten, dass
auch yi groß ist (und umgekehrt), sind Korrellation bzw. Korrelationskoeffizient positiv. Wenn dagegen bei großen Werten xi die Werte yi meistens klein sind, sind σxy und
ρ(x, y) negativ. Falls zwischen x und y überhaupt kein erkennbarer Zusammenhang
besteht, sind σxy und ρ(x, y) gleich Null.
y
y
x
x
y
y
x
x
Abbildung 3.4: Streudiagramme von zweidimensionalen Stichproben. Es sind jeweils
die Punkte (x1 , y1 ), (x2 , y2 ), . . . , (xn , yn ) eingezeichnet. Die Korrelationskoeffizienten sind: ρ(x, y) = 0, 25 (oben links), ρ(x, y) = −0, 95 (oben rechts), ρ(x, y) = 0
(unten links), ρ(x, y) = 1 (unten rechts). Bemerkung: Der Korrelationskoeffizient ist
unabhängig von der Wahl der Einheiten. Deswegen sind hier keine Einheiten an den
Achsen angegeben.
33
Kapitel 4
Statistische Tests
4.1 Ein paar allgemeine, nicht Klausur-relevante Bemerkungen über statistische Tests
In diesem Kapitel wollen wir zwei Methoden beschreiben, mit denen man feststellen kann, ob die Werte, die bei einer Stichprobe beobachtet werden, einer theoretisch
vorgegebenen Wahrscheinlichkeitsverteilung entsprechen. Man stellt dabei eine so genannte Nullhypothese H0 auf, die besagt, dass die wirkliche Wahrscheinlichkeitsverteilung bei dem Experiment und die ,,theoretische” Verteilung übereinstimmen. Die
gegenteilige Hypothese – also die Annahme, dass die wirkliche Verteilung nicht mit
der theoretischen Verteilung übereinstimmt – nennt man Alternative und schreibt auch
H1 . Wenn die Abweichung zwischen den gemessenen und den theoretisch erwarteten
Werten zu groß ist, lehnt man die Nullhypothese ab. Ein statistischer Test liefert einem ein Entscheidungskriterium dafür, wann man H0 ablehnen soll und wann nicht.
Grundsätzlich kann man hierbei zwei verschiedene Fehler machen:
1. Man lehnt die Nullhypothese H0 ab, obwohl sie in Wirklichkeit richtig ist. Diesen Fehler nennt man einen Fehler erster Art.
2. Man lehnt die Nullhypothese nicht ab, obwohl sie falsch ist. Das nennt man einen
Fehler zweiter Art.
Man könnte meinen, dass die ,,Nullhypothese” H0 und die ,,Alternative” H1 eigentlich gleichberechtigt sein sollten. Man will ja nicht voreingenommen sein, und eine
der beiden Hypothesen irgendwie bevorzugen, bevor man die Ergebnisse der Stichprobe gesehen hat. Wenn das so wäre, d.h. wenn H0 und H1 wirklich gleichwertig wären,
wäre schon die Bezeichnung ,,Nullhypothese” und ,,Alternative” ziemlich willkürlich,
und ,,Fehler erster Art” und ,,Fehler zweiter Art” wären prinzipiell gleich schlecht.
Man würde in diesem Fall versuchen beide Fehler möglichst zu minimieren.
In praktischen Anwendungen ist es aber oft so, dass man hauptsächlich daran interessiert ist einen der beiden möglichen Fehler zu vermeiden, weil er vielleicht schwerwiegendere Konsequenzen hätte. Dafür nimmt man in Kauf, dass der andere Fehler
34
mit größerer Wahrscheinlichkeit eintreten kann. Viele statistische Tests werden etwa
gemacht, weil man eine bestimmte Aussage belegen will, z.B. will man zeigen dass
ein Zusammenhang zwischen zwei biologischen Größen besteht. So eine Behauptung
will man aber nur dann aufstellen, wenn man sich wirklich einigermaßen sicher ist,
dass sie auch richtig ist. Die Nullhpyothese H0 ist dann, dass die zu zeigende Aussage
falsch ist. Zwischen H0 und der Alternative H1 (,,Aussage richtig”) will man eine Entscheidung treffen – und zwar so, dass man das Risiko minimiert, einen Fehler erster
Art zu machen. Mit anderen Worten, man will vermeiden, die fragliche Behauptung
aufzustellen, obwohl sie in Wirklichkeit falsch ist.
In Blatt 9, Aufgabe 4, will man z.B. wissen, ob bestimmte gentechnisch veränderte Kartoffeln größer sind als die ursprünglich vorkommenden Kartoffeln. Dafür macht
man eine Stichprobe und mißt das Gewicht von einer Anzahl der veränderten Kartoffeln. Die Behauptung, dass die gentechnisch veränderten Kartoffeln größer sind, würde
man nur dann aufstellen, wenn man sich wirklich ziemlich sicher ist, dass das auch
so ist, und die gemessenen Werte nicht einfach Zufall sind. In diesem Fall stellt man
die Nullhypothese H0 auf, dass beide Kartoffelsorten gleich schwer sind. Der Schluss,
dass die gentechnisch veränderten Kartoffeln schwerer sind, wenn sie in Wirklichkeit
gleich schwer sind, ist der Fehler erster Art (Nullhypothese abgelehnt, obwohl sie richtig ist). Diesen Fehler will man in unsererm Beispiel möglichst vermeiden. Der Fehler
zweiter Art wäre dagegen die Behauptung, dass beide Kartoffelsorten gleich schwer
wären (Nullhypothese richtig) auch wenn die gentechnisch veränderten in Wirklichkeit schwerer sind. Diesen Fehler nimmt man eher in Kauf. Diese ,,unsymmetrische”
Situation ist typisch für viele Entscheidungssituationen, in denen man statistische Tests
anwendet.
Das Ziel bei unseren statistischen Tests ist daher, die Wahrscheinlichkeit für einen
Fehler erster Art zu minimieren. Dafür geben wir uns eine so genannte Irrtumswahrscheinlichkeit α vor. Das ist normalerweise eine kleine Wahrscheinlichkeit, z.B. 5 %
(0,05) oder 1 % (0.001). Wir treffen dann die Entscheidung über Ablehnung oder nichtAblehnung der Nullhpothese so, dass dabei die Wahrscheinlichkeit für einen Fehler
erster Art kleiner als α ist. Das sagt wohlgemerkt nichts darüber aus, wie groß die
Wahrscheinlichkeit für einen Fehler zweiter Art ist. Wenn wir H0 nicht ablehnen, kann
man daraus nicht umgekehrt schließen, dass H0 mit großer Wahrscheinlichkeit richtig sein muß. Es kann auch sein, dass man einfach nicht genug Daten hat, um das zu
entscheiden.
Bei den Tests, die im folgenden beschrieben sind, geht man so vor: Man macht eine
Stichprobe vom Umfang n, d.h. man misst einen Satz von n Werten x = (x1 , . . . , xn ).
Dann definiert man eine Testgröße T (auch Statistik genannt), die aus den gemessenen
Werten berechnet wird. T hängt damit vom Zufall ab, kann also als eine Zufallsvariable
angesehen werden. T ist so definiert, dass – unter der Annahme, dass die Nullhypothese
H0 richtig ist – die Wahrscheinlichkeitsverteilung von T bekannt ist. Das heißt, man
kann berechnen, welche Werte von T eher wahrscheinlich oder eher unwahrscheinlich
sind. Wenn T einen Wert hat, der sehr unwahrscheinlich ist – unter der Annahme dass
H0 richtig ist –, dann lehnt man H0 ab. Genauer gesagt: Man bestimmt einen (oder
zwei) Grenzwerte c1 (bzw. c2 ) und lehnt H0 ab, wenn T außerhalb dieser Grenzwerte
liegt. Dabei bestimmen wir die Gernzwerte so, dass – unter der Annahme, dass H0 gilt
– die Wahrscheinlichkeit dafür, dass T zufällig außerhalb der Gernzwerte liegt, kleiner
35
als α ist. α ist dabei die vorher festgelegte Irrtumswahrscheinlichkeit. Damit erreicht
man, dass die Wahrscheinlichkeit für einen Fehler erster Art (H0 abgelehnt, obwohl
H0 richtig ist) kleiner als α ist.
4.2 Der Ein-Stichproben-t-Test
Beim t-Test nehmen wir an, dass eine zufällige Größe, die wir messen, normalverteilt
ist. Zur Erinnerung: Sehr viele biologische Größen sind nach der Normalverteilung
N (µ, σ 2 ) verteilt, die in Definition 2.30 beschrieben wurde; dabei ist µ der Erwartungswert (oder Mittelwert), und σ ist die Standardabweichung, sagt also etwas darüber
aus, wie stark die betreffenden Werte von dem Erwartungswert abweichen (streuen).
Wir interessieren wir uns in diesem Abschnitt nur für den Erwartungswert µ. Dabei
gibt es prinzipiell zwei verschiedene Fragen
(a) Zweiseitiger t-Test: Hier ist die Nullhypothese H0 , dass µ = µ0 ist für einen
vorgegebenen Wert µ0 . Die Alternative ist, dass µ 6= µ0 ist. H0 wird dabei
abgelehnt, wenn der Mittelwert der Stichprobe entweder nach oben oder nach
unten zu stark von µ0 abweicht.
(b) Einseitiger t-Test: Hier interessiert man sich nur dafür, ob µ in eine bestimmte
Richtung von µ0 abweicht. Die Nullhypothese ist dann z.B. µ ≥ µ0 , die Alternative dazu ist µ < µ0 (Umgekehrt kann die Nullhypothese sein, dass µ ≤ µ0
ist, die Alternative ist dann µ > µ0 ).
Um die Nullhypothese zu testen, macht man eine Stichprobe vom Umfang n, man
hat also die Messwerte
x = (x1 , . . . , xn )
Der zweiseitige t-Test funktioniert dann folgendermaßen. Man betrachtet den Mittelwert x und die Standardabweichung sx der Stichprobe x. Zur Erinnerung: In Kapitel
3 sind Mittelwert und Standardabweichung definiert worden als
x=
und
Dann setzt man
v
u
u
sx = t
x1 + . . . + xn
n
n
1 X
(xi − x)2
n − 1 i=1
T =
x − µ0 √
· n
sx
Die Zahl T ist unsere Testgröße. Falls die Nullhypothese H0 richtig ist, d.h. falls µ0
wirklich der Erwartungswert bei unserem Zufallsexperiment ist, dann sollte man annehmen, dass der Mittelwert x ungefähr gleich µ0 ist. Es wäre also
x − µ0 ≈ 0
36
und daher wäre T ≈ 0. Beim zweiseitigen t-Test wäre es bei richtiger Nullhypothese
daher sehr unwahrscheinlich, dass T stark von 0 abweicht. – falls das trotzdem der
Fall wäre, würde man H0 ablehnen. Beim einseitigen t-Test mit Nullhypothese µ ≥ µ0
würde man entsprechend erwarten, dass T ≥ 0 wäre, falls H0 richtig ist. Man würde
H0 dann ablehnen, falls T deutlich kleiner als 0 wäre (und analog für die Nullhypothese µ ≤ µ0 ). Um eine gute Entscheidung über Ablehnung oder nicht Ablehnung der
Nullhypothese zu treffen, muß man deshalb wissen, wie unwahrscheinlich es ist, dass
T sehr große oder sehr kleine Werte annimmt. Um zu entscheiden, ob wir H0 ablehnen
oder nicht, geben wir uns wie im letzten Abschnitt eine Irrtumswahrscheinlichkeit α
vor. α ist dabei eine kleine Wahrscheinlichkeit, z.B. 5%. xα heißst auch das Niveau des
Tests.
Aus der Theorie weiß man, wie die Zufallsvariable T verteilt ist. Ihre Verteilung
ist die so genannte t-Verteilung mit n − 1 Freiheitsgraden (n war der Umfang der
Stichprobe). In Tabelle 4.2 auf Seite 43 sind die sogenannten Quantile der t-Verteilung
tabelliert.
Für eine stetige Zufallsvariable mit Verteilungsfunktion F und eine Wahrscheinlichkeit p heißt die Zahl tp ein p-Quantil der Verteilung, wenn F (tp ) = p ist. Das
Quantil tp ist also so gewählt, dass die Wahrscheinlichkeit gleich p ist, dass die Zufallsvariable höchstens tp ist. Beispiel: Das 21 -Quantil der Standardnormalverteilung
ist 0, weil eine standardnormalverteilte Zufallsvariable mit Wahrscheinlichkeit 12 kleiner oder gleich 0 ist.
Die Testentscheidung wird aufgrund des Wertes, den T annimmt wie folgt getroffen.
(a) zweiseitiger Test
Testentscheidung:
|T | > t1− α2
|T | ≤ t1− α2
⇒
⇒
H0 ablehnen
H0 nicht ablehnen
(b1) einseitiger Test, H0 : µ ≤ µ0
Testentscheidung:
T > t1−α
T ≤ t1−α
⇒
⇒
H0 ablehnen
H0 nicht ablehnen
(b2) einseitiger Test, H0 : µ ≥ µ0
Testentscheidung:
T < −t1−α
T ≥ −t1−α
⇒
⇒
H0 ablehnen
H0 nicht ablehnen
Das Quantil t1− α2 bzw. t1−α steht in Tabelle 4.2. Dort liest man in der Spalte für
p = 1 − α2 bzw. p = 1 − α und der Zeile mit Freiheitsgrad n − 1 das entsprechende
p-Quantil ab.
37
4.3 Der Zwei-Stichproben-t-Test
Der Ein-Stichproben-t-Test hat den Nachteil, dass die Zahl µ0 eine fest vorgebene Zahl
ist. In vielen Fällen will man aber wissen, ob der Erwartungswert der Verteilung einer Stichprobe x1 , x2 , . . . , xn gleich dem Erwartungswert einer zweiten Stichprobe
y1 , y2 , . . . , ym ist. Man kennt beide Erwartungswerte nicht. Dies wäre zum Beispiel
der Fall, wenn man n Felder hat, auf denen man ein Düngemittel einsetzt und m andere Felder, auf denen man kein Düngemittel einsetzt. n und m dürfen verschieden sein.
x1 , x2 , . . . , xn seien die Erträge auf den gedüngten Feldern und y1 , y2 , . . . , ym seien
die Erträge auf den ungedüngten Feldern. Man spricht hier von unverbundenen Stichproben, weil die Zufallsvariablen aus den verschiedenen Stichproben als unabhängig
angesehen werden können. Andernfalls würde man von verbundenen Stichproben sprechen. Ein typisches Beispiel für verbundene Stichproben ist folgendes. Man hat n Patienten, bei denen man einen Wert jeweils vor und nach einer Behandlung misst. Die
eine Stichprobe besteht dann aus den Werten vor der Behandlung und die andere aus
den Werten nach der Behandlung. Diese Stichproben wären dann abhängig und somit
verbunden. Im Beispiel mit dem Dünger würde natürlicherweise die Frage aufgeworfen, ob das Düngen den mittleren Ertrag verändert, also ob die Erwartungswerte des
Ertrags verschieden sind in den beiden Fällen.
Voraussetzung zur Anwendung des Zwei-Stichproben-t-Tests: Man hat zwei Stichproben x1 , x2 , . . . , xn und y1 , y2 , . . . , ym . n und m müssen mindestens 2 sein. Alle
n + m Zufallsvariable sind unabhängig. Die Zufallsvariablen aus der ersten Stichprobe sind N (µ1 , σ12 )-verteilt und die Zufallsvariablen aus der zweiten Stichprobe sind
N (µ2 , σ22 )-verteilt. Es muß gelten σ1 = σ2 .
In diesem Fall ist die Teststatistik
r
nm
x̄ − ȳ
,
(4.1)
T =
s
n+m
wobei x̄ und ȳ die Mittelwerte der beiden Stichproben sind und s die geschätzte gemeinsame Standardabweichung:
x̄
ȳ
s
1
(x1 + x2 + · · · + xn )
n
1
=
(y1 + y2 + · · · + ym )
m
v
!
u
m
n
X
X
u
1
t
2
2
(yi − ȳ) .
(xi − x̄) +
=
n + m − 2 i=1
i=1
=
Wenn µ1 = µ2 ist, hat die Statistik T eine t-verteilung mit n + m − 2 Freiheitsgraden. Bezeichne wieder tp das p-Quantil der t-Verteilung diesmal mit n + m − 2
Freiheitsgraden, das man wieder aus einer Tabelle ablesen kann (Seite 43). Sei wieder
eine Fehlerschranke α für den Fehler 1. Art vorgegeben. Man unterscheidet wieder wie
oben den einseitigen Test von den zweiseitigen Tests.
(a) zweiseitiger Test, H0 : µ1 = µ2
38
Testentscheidung:
|T | > t1− α2
|T | ≤ t1− α2
⇒
⇒
H0 ablehnen
H0 nicht ablehnen
(b1) einseitiger Test, H0 : µ1 ≤ µ2
Testentscheidung:
⇒
⇒
T > t1−α
T ≤ t1−α
H0 ablehnen
H0 nicht ablehnen
(b2) einseitiger Test, H0 : µ1 ≥ µ2
Testentscheidung:
T < −t1−α
T ≥ −t1−α
⇒
⇒
H0 ablehnen
H0 nicht ablehnen
Bemerkung: Ob man annehmen kann, dass die Varianzen σ1 und σ2 gleich sind,
muß man mit evtl. mit einem weiteren Test vorher prüfen (sogenannter F -Test).
Beispiel 4.1 n = 5 gedüngte Felder ergaben die Erträge
x1 = 23,4 x2 = 27,3 x3 = 24,0 x4 = 22,0 x5 = 23,3
und m = 4 ungedüngte Felder ergaben die Erträge
y1 = 25,4 y2 = 21,1 y3 = 22,3 y4 = 22,4.
Wir nehmen hier ohne Überprüfung an, dass die Erträge normalverteilt sind und die
Varianzen gleich. Es soll zum Niveau α = 5% die Frage beantwortet werden, ob der
Dünger den Ertrag im Mittel erhöht.
Wir machen hierzu einen einseitigen Test mit der Hypothese H0 : µ1 ≤ µ2 und der
Alternative H1 : µ1 > µ2 . Hier ist x̄ = 24,0, ȳ = 22,8, s2 = 17 (15,74 + 10,06), also
s ≈ 1,92. Es ergibt sich
r
24,0 − 22,8 4 · 5
T =
≈ 0,93.
1,92
4+5
Wir lesen das 0,95- Quantil für n + m − 2 = 7 Freiheitsgrade ab: t0,95 = 1,8946.
Jetzt müssen wir prüfen, ob T > t0,95 ist. Da das nicht der Fall ist, können wir die
Nullhypothese, dass der Ertrag der ungedüngten Felder mindestens so hoch ist wie der
der gedüngten Felder, nicht ablehnen.
4.4 Der Chi-Quadrat-Anpassungstest
Wir gehen von folgender Situation aus: Bei einem Zufallsexperiment haben wir Ereignisse
A1 , . . . , Ar
39
Wir nehmen an, dass eines von diesen Ereignissen auf jeden Fall eintritt, und dass sich
die Ereignisse nicht überschneiden, d.h. es können keine zwei verschiedenen Ereignisse gleichzeitig eintreten. Mit Definition 2.12 sind die Ereignisse {A1 , . . . , Ar } also
eine vollständige Ereignisdisjunktion.
Beispiel 4.2 Man kann sich z.B. dafür interessieren, an welchem Tag eine zufällig ausgewählte Person Geburtstag hat (Siehe Übungsblatt 8). Das Ereignis A1 könnte dann
z.B. das Ereignis sein, dass die Person im Januar Geburtstag hat, A2 das Ereignis, dass
sie im Februar Geburtstag hat u.s.w. Die Ereignisse
A1 , . . . , A12
sind offensichtlich disjunkt, d.h. zwei verschiedene Ereignisse Ai und Aj , i 6= j können
nicht gleichzeitig eintreten, weil niemand in zwei verschiedenen Monaten Geburtstag
hat. Ausserdem umfassen die Ereignisse A1 bis A12 alle möglichen Ausgänge des Experiments, weil ja jeder in einem der 12 Monate Geburtstag haben muß. Die Ereignisse
A1 bis A12 sind daher eine vollständige Ereignisdisjunktion.
Als Nullhypothese H0 nehmen wir jetzt an, dass für die Ereignisse Ai die Wahrscheinlichkeiten gegeben sind; die Wahrscheinlichkeit P (Ai ) dafür, dass Ereignis Ai
eintritt, nennen wir kurz pi . Der Chi-Quadrat-Anpassungstest gibt eine Möglichkeit,
diese Nullhypothese zu überprüfen. Wir betrachten dazu eine Stichprobe
x = (x1 , . . . , xn )
vom Umfang n und zählen für jedes Ereignis Ai , wie oft vorkommt. Die (absolute)
Häufigkeit von Ereignis Ai bezeichnen wir dabei mit hi . Falls unsere Nullhypothese
richtig ist, würden wir erwarten, dass die relative Häufigkeit von Ai
hi
n
ungefähr gleich pi ist, d.h. man hätte
hi
n
≈ pi
(4.2)
Für den Chi-Quadrat-Test ist es wichtig, dass man eine ausreichend große Stichprobe
hat, d.h. dass die Zahl n der gemessenen Werte groß genug ist. Man geht davon aus,
dass n groß genug ist, wenn für jedes Ereignis Ai
n · pi
≥
5
(4.3)
ist. Wenn das nicht der Fall ist, gibt es zwei Möglichkeiten:
(a) Entweder macht man die Werte n · pi größer, indem man eine größere Stichprobe
nimmt, falls das möglich ist. D.h. man vergrößert einfach n.
40
(b) Falls das nicht geht, faßt man Ereignisse Ai und Aj mit kleinen Wahrscheinlichkeiten pi und pj zu einem neuen Ereignis Ak zusammen. Man setzt also
Ak = Ai ∪ Aj
und ersetzt Ai und Aj durch Ak . Die Wahrscheinlichkeit von Ak ist dann gegeben als
pk = pi + pj
Auf diese Weise bekommt man Ereignisse mit größeren Wahrscheinlichkeiten. (a) oder
(b) wendet man an, bis die Ungleichung (4.3) erfüllt ist.
Wenn man damit eine Stichprobe hat, bei der (4.3) erfüllt ist, geht man folgendermaßen vor: Man definiert die Testgröße T durch
T
=
r
X
h2i
−n
n · pi
i=1
(4.4)
Das kann man auch schreiben als
T
=
r
X
(hi − n · pi )2
n · pi
i=1
(4.5)
(Man kann leicht ausrechnen, dass (4.4) und (4.5) gleichbedeutend sind.) Aus (4.5)
sieht man sofort, dass T ≥ 0 ist, denn im Zähler stehen Quadrate, die alle größer oder
gleich Null sind. Falls unsere Nullhypothese richtig ist – d.h. falls die Wahrscheinlichkeit von Ereignis Ai wirklich pi ist –, sollte
hi ≈ n · p i
gelten (weil die relative Häufigkeit von Ai ungefähr pi sein sollte). In diesem Fall wäre
also der Wert T klein, denn die Zahlen, die in (4.4) im Zähler stehen, sind dann alle
nahe bei Null. Umgekehrt: Falls der Wert T groß ist, würden wir annehmen, dass die
Nullhypothese wahrscheinlich falsch ist. Die Frage ist jetzt wieder: Wie groß muß T
sein, damit wir die Nullhypothese ablehnen?
Die Zahl T hängt von Zufall ab, d.h. man kann sie als Zufallsvariable ansehen.
Wenn die Nullhypothese H0 richtig ist, ist die Wahrscheinlichkeits-Verteilung von T
bekannt. Diese Verteilung heißt χ2 -Verteilung mit r − 1 Freiheitsgraden (r war die
Zahl der Ereignisse A1 , . . . , Ar ); ihre Quantile kann man in Tabelle 4.3 auf Seite 44
nachlesen.
Wir geben uns wieder eine Irrtumswahrscheinlichkeit α vor. Dann betrachten wir
das (1 − α) - Quantil der χ2 -Verteilung; dieses Quantil bezeichen wir mit χ21−α . Damit
kommen wir zu folgender
Testentscheidung:
T > χ21−α
T ≤ χ21−α
⇒
⇒
H0 ablehnen
H0 nicht ablehnen
41
Anhang
z
0,0
0,1
0,2
0,3
0,4
0,5
0,6
0,7
0,8
0,9
1,0
1,1
1,2
1,3
1,4
1,5
1,6
1,7
1,8
1,9
2,0
2,1
2,2
2,3
2,4
2,5
2,6
2,7
2,8
2,9
3,0
0.00
0,5000
0,5398
0,5793
0,6179
0,6554
0,6915
0,7257
0,7580
0,7881
0,8159
0,8413
0,8643
0,8849
0,9032
0,9192
0,9332
0,9452
0,9554
0,9641
0,9713
0,9772
0,9821
0,9861
0,9893
0,9918
0,9938
0,9953
0,9965
0,9974
0,9981
0,9987
0.01
0,5040
0,5438
0,5832
0,6217
0,6591
0,6950
0,7291
0,7611
0,7910
0,8186
0,8438
0,8665
0,8869
0,9049
0,9207
0,9345
0,9463
0,9564
0,9649
0,9719
0,9778
0,9826
0,9864
0,9896
0,9920
0,9940
0,9955
0,9966
0,9975
0,9982
0,9987
0.02
0,5080
0,5478
0,5871
0,6255
0,6628
0,6985
0,7324
0,7642
0,7939
0,8212
0,8461
0,8686
0,8888
0,9066
0,9222
0,9357
0,9474
0,9573
0,9656
0,9726
0,9783
0,9830
0,9868
0,9898
0,9922
0,9941
0,9956
0,9967
0,9976
0,9982
0,9987
0.03
0,5120
0,5517
0,5910
0,6293
0,6664
0,7019
0,7357
0,7673
0,7967
0,8238
0,8485
0,8708
0,8907
0,9082
0,9236
0,9370
0,9484
0,9582
0,9664
0,9732
0,9788
0,9834
0,9871
0,9901
0,9925
0,9943
0,9957
0,9968
0,9977
0,9983
0,9988
0.04
0,5160
0,5557
0,5948
0,6331
0,6700
0,7054
0,7389
0,7704
0,7995
0,8264
0,8508
0,8729
0,8925
0,9099
0,9251
0,9382
0,9495
0,9591
0,9671
0,9738
0,9793
0,9838
0,9875
0,9904
0,9927
0,9945
0,9959
0,9969
0,9977
0,9984
0,9988
0.05
0,5199
0,5596
0,5987
0,6368
0,6736
0,7088
0,7422
0,7734
0,8023
0,8289
0,8531
0,8749
0,8944
0,9115
0,9265
0,9394
0,9505
0,9599
0,9678
0,9744
0,9798
0,9842
0,9878
0,9906
0,9929
0,9946
0,9960
0,9970
0,9978
0,9984
0,9989
0.06
0,5239
0,5636
0,6026
0,6406
0,6772
0,7123
0,7454
0,7764
0,8051
0,8315
0,8554
0,8770
0,8962
0,9131
0,9279
0,9406
0,9515
0,9608
0,9686
0,9750
0,9803
0,9846
0,9881
0,9909
0,9931
0,9948
0,9961
0,9971
0,9979
0,9985
0,9989
0.07
0,5279
0,5675
0,6064
0,6443
0,6808
0,7157
0,7486
0,7794
0,8078
0,8340
0,8577
0,8790
0,8980
0,9147
0,9292
0,9418
0,9525
0,9616
0,9693
0,9756
0,9808
0,9850
0,9884
0,9911
0,9932
0,9949
0,9962
0,9972
0,9979
0,9985
0,9989
0.08
0,5319
0,5714
0,6103
0,6480
0,6844
0,7190
0,7517
0,7823
0,8106
0,8365
0,8599
0,8810
0,8997
0,9162
0,9306
0,9429
0,9535
0,9625
0,9699
0,9761
0,9812
0,9854
0,9887
0,9913
0,9934
0,9951
0,9963
0,9973
0,9980
0,9986
0,9990
0.09
0,5359
0,5753
0,6141
0,6517
0,6879
0,7224
0,7549
0,7852
0,8133
0,8389
0,8621
0,8830
0,9015
0,9177
0,9319
0,9441
0,9545
0,9633
0,9706
0,9767
0,9817
0,9857
0,9890
0,9916
0,9936
0,9952
0,9964
0,9974
0,9981
0,9986
0,9990
Abbildung 4.1: Tabellierte Verteilungsfunktion F (z) der Standardnormalverteilung.
Der Eintrag in der erste Spalte gibt z an bis zur ersten Nachkommastelle, der Eintrag
in der ersten Zeile gibt die zweite Nachkommastelle an. Beispiel: F (0, 12) = 0, 5478.
Für z < 0 benutzt man F (−z) = 1 − F (z).
Freiheitsgrade
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
50
60
75
100
∞
p
0,75
1,0000
0,8165
0,7649
0,7407
0,7267
0,7176
0,7111
0,7064
0,7027
0,6998
0,6974
0,6955
0,6938
0,6924
0,6912
0,6901
0,6892
0,6884
0,6876
0,6870
0,6864
0,6858
0,6853
0,6848
0,6844
0,6840
0,6837
0,6834
0,6830
0,6828
0,6825
0,6822
0,6820
0,6818
0,6816
0,6814
0,6812
0,6810
0,6808
0,6807
0,6794
0,6786
0,6778
0,6770
0,6745
0,80
1,3764
1,0607
0,9785
0,9410
0,9195
0,9057
0,8960
0,8889
0,8834
0,8791
0,8755
0,8726
0,8702
0,8681
0,8662
0,8647
0,8633
0,8620
0,8610
0,8600
0,8591
0,8583
0,8575
0,8569
0,8562
0,8557
0,8551
0,8546
0,8542
0,8538
0,8534
0,8530
0,8526
0,8523
0,8520
0,8517
0,8514
0,8512
0,8509
0,8507
0,8489
0,8477
0,8464
0,8452
0,8416
0,85
1,9626
1,3862
1,2498
1,1896
1,1558
1,1342
1,1192
1,1081
1,0997
1,0931
1,0877
1,0832
1,0795
1,0763
1,0735
1,0711
1,0690
1,0672
1,0655
1,0640
1,0627
1,0614
1,0603
1,0593
1,0584
1,0575
1,0567
1,0560
1,0553
1,0547
1,0541
1,0535
1,0530
1,0525
1,0520
1,0516
1,0512
1,0508
1,0504
1,0500
1,0473
1,0455
1,0436
1,0418
1,0364
0,90
3,0777
1,8856
1,6377
1,5332
1,4759
1,4398
1,4149
1,3968
1,3830
1,3722
1,3634
1,3562
1,3502
1,3450
1,3406
1,3368
1,3334
1,3304
1,3277
1,3253
1,3232
1,3212
1,3195
1,3178
1,3163
1,3150
1,3137
1,3125
1,3114
1,3104
1,3095
1,3086
1,3077
1,3070
1,3062
1,3055
1,3049
1,3042
1,3036
1,3031
1,2987
1,2958
1,2929
1,2901
1,2816
0,95
6,3137
2,9200
2,3534
2,1318
2,0150
1,9432
1,8946
1,8595
1,8331
1,8125
1,7959
1,7823
1,7709
1,7613
1,7531
1,7459
1,7396
1,7341
1,7291
1,7247
1,7207
1,7171
1,7139
1,7109
1,7081
1,7056
1,7033
1,7011
1,6991
1,6973
1,6955
1,6939
1,6924
1,6909
1,6896
1,6883
1,6871
1,6860
1,6849
1,6839
1,6759
1,6706
1,6654
1,6602
1,6449
0,975
12,706
4,3027
3,1824
2,7765
2,5706
2,4469
2,3646
2,3060
2,2622
2,2281
2,2010
2,1788
2,1604
2,1448
2,1315
2,1199
2,1098
2,1009
2,0930
2,0860
2,0796
2,0739
2,0687
2,0639
2,0595
2,0555
2,0518
2,0484
2,0452
2,0423
2,0395
2,0369
2,0345
2,0322
2,0301
2,0281
2,0262
2,0244
2,0227
2,0211
2,0086
2,0003
1,9921
1,9840
1,9600
0,980
15,895
4,8487
3,4819
2,9985
2,7565
2,6122
2,5168
2,4490
2,3984
2,3593
2,3281
2,3027
2,2816
2,2638
2,2485
2,2354
2,2238
2,2137
2,2047
2,1967
2,1894
2,1829
2,1770
2,1715
2,1666
2,1620
2,1578
2,1539
2,1503
2,1470
2,1438
2,1409
2,1382
2,1356
2,1332
2,1309
2,1287
2,1267
2,1247
2,1229
2,1087
2,0994
2,0901
2,0809
2,0537
0,990
31,821
6,9645
4,5407
3,7469
3,3649
3,1427
2,9979
2,8965
2,8214
2,7638
2,7181
2,6810
2,6503
2,6245
2,6025
2,5835
2,5669
2,5524
2,5395
2,5280
2,5176
2,5083
2,4999
2,4922
2,4851
2,4786
2,4727
2,4671
2,4620
2,4573
2,4528
2,4487
2,4448
2,4411
2,4377
2,4345
2,4314
2,4286
2,4258
2,4233
2,4033
2,3901
2,3771
2,3642
2,3263
0,995
63,656
9,9250
5,8408
4,6041
4,0321
3,7074
3,4995
3,3554
3,2498
3,1693
3,1058
3,0545
3,0123
2,9768
2,9467
2,9208
2,8982
2,8784
2,8609
2,8453
2,8314
2,8188
2,8073
2,7970
2,7874
2,7787
2,7707
2,7633
2,7564
2,7500
2,7440
2,7385
2,7333
2,7284
2,7238
2,7195
2,7154
2,7116
2,7079
2,7045
2,6778
2,6603
2,6430
2,6259
2,5758
0,9975
127,32
14,089
7,4532
5,5975
4,7733
4,3168
4,0294
3,8325
3,6896
3,5814
3,4966
3,4284
3,3725
3,3257
3,2860
3,2520
3,2224
3,1966
3,1737
3,1534
3,1352
3,1188
3,1040
3,0905
3,0782
3,0669
3,0565
3,0470
3,0380
3,0298
3,0221
3,0149
3,0082
3,0020
2,9961
2,9905
2,9853
2,9803
2,9756
2,9712
2,9370
2,9146
2,8924
2,8707
2,8070
0,9990
318,29
22,329
10,214
7,1729
5,8935
5,2075
4,7853
4,5008
4,2969
4,1437
4,0248
3,9296
3,8520
3,7874
3,7329
3,6861
3,6458
3,6105
3,5793
3,5518
3,5271
3,5050
3,4850
3,4668
3,4502
3,4350
3,4210
3,4082
3,3963
3,3852
3,3749
3,3653
3,3563
3,3480
3,3400
3,3326
3,3256
3,3190
3,3127
3,3069
3,2614
3,2317
3,2024
3,1738
3,0902
Abbildung 4.2: Quantile tp der t-Verteilung. Der Eintrag in der Zeile mit n Freiheitsgraden und der Spalte mit Wahrscheinlichkeit p ist tp mit P (T ≤ tp ) = p, wobei T
eine t-Verteilung mit n Freiheitsgraden besitze.
43
Freiheitsgrade
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
40
50
60
70
80
90
100
x
0,90
2.7055
4.6052
6.2514
7.7794
9.2363
10.6446
12.017
13.3616
14.6837
15.9872
17.275
18.5493
19.8119
21.0641
22.3071
23.5418
24.769
25.9894
27.2036
28.412
29.6151
30.8133
32.0069
33.1962
34.3816
35.5632
36.7412
37.9159
39.0875
40.256
51.805
63.1671
74.397
85.527
96.5782
107.565
118.498
0,95
3.8415
5.9915
7.8147
9.4877
11.0705
12.5916
14.0671
15.5073
16.919
18.307
19.6752
21.0261
22.362
23.6848
24.9958
26.2962
27.5871
28.8693
30.1435
31.4104
32.6706
33.9245
35.1725
36.415
37.6525
38.8851
40.1133
41.3372
42.5569
43.773
55.7585
67.5048
79.082
90.5313
101.8795
113.1452
124.3421
0,975
5.0239
7.3778
9.3484
11.1433
12.8325
14.4494
16.0128
17.5345
19.0228
20.4832
21.92
23.3367
24.7356
26.1189
27.4884
28.8453
30.191
31.5264
32.8523
34.1696
35.4789
36.7807
38.0756
39.3641
40.6465
41.9231
43.1945
44.4608
45.7223
46.9792
59.3417
71.4202
83.2977
95.0231
106.6285
118.1359
129.5613
0,99
6.6349
9.2104
11.3449
13.2767
15.0863
16.8119
18.4753
20.0902
21.666
23.2093
24.725
26.217
27.6882
29.1412
30.578
31.9999
33.4087
34.8052
36.1908
37.5663
38.9322
40.2894
41.6383
42.9798
44.314
45.6416
46.9628
48.2782
49.5878
50.8922
63.6908
76.1538
88.3794
100.4251
112.3288
124.1162
135.8069
0,995
7.8794
10.5965
12.8381
14.8602
16.7496
18.5475
20.2777
21.9549
23.5893
25.1881
26.7569
28.2997
29.8193
31.3194
32.8015
34.2671
35.7184
37.1564
38.5821
39.9969
41.4009
42.7957
44.1814
45.5584
46.928
48.2898
49.645
50.9936
52.3355
53.6719
66.766
79.4898
91.9518
104.2148
116.3209
128.2987
140.1697
Abbildung 4.3: Quantile χ2x der χ2 -Verteilung. Der Eintrag in der Zeile mit n Freiheitsgraden und der Spalte mit Wahrscheinlichkeit x ist das Quantil χ2x für n Freiheitsgrade.
44
Literatur
Die Vorlesung orientiert sich an folgenden Büchern:
• Karl Bosch, Elementare Einführung in die Wahrscheinlichkeitsrechnung, Vieweg
1999.
• Karl Bosch, Elementare Einführung in die elementare Statistik, Vieweg 2000.
45
Herunterladen