Vorlesung Statistik 1 für Biowissenschaften

Vorlesung Statistik 1 für Biowissenschaften
(Bachelor)
Freie Universität Berlin
WS 2016/17
K. Neumann
Begleitmaterial zu der Vorlesung und den Übungen (Übungsblätter, Skript, aktuelle
Folien zu der Vorlesung und Übungsdatensätze) finden Sie unter
http://biometrie.charite.de/studium/bioinformatik/statistik_i/
Dort wird auch der Klausurtermin bekanntgegeben.
1
Ablauf:
Die ersten Übungen finden nächste Woche (24-28.10.) statt. Dort werden Sie in die
Programmiersprache R eingeführt.
2
Inhalt
1. Was ist Statistik?
(a) Deskriptive Statistik
(b) Schließende (konfirmatorische) Statistik
2. Elementare Wahrscheinlichkeitsrechnung
(a) Der Wahrscheinlichkeitsraum
(b) Bedingte Wahrscheinlichkeiten und der Satz von Bayes
(c) Zufallsvariablen
3. Der statistische Test
(a) Prinzip des statistischen Tests
(b) Die klassischen statistischen Tests
4. Korrelation und Regression
5. Konfidenzintervalle
3
Vorlesung 19.10.2016
4
1. Was ist Statistik?
5
• Der Begriff “Statistik“ wird im allgemeinen Sprachgebrauch für sehr unterschiedliche Dinge benutzt. In der Regel wird unter Statistik die möglichst prägnante
Beschreibung von Daten verstanden. Daten wiederum entstehen
– als Ergebnis wissenschaftlicher Experimente,
– bei Erhebungen (z.B. systematische Befragungen)
– oder durch Beobachtungen von wiederkehrenden Ereignissen (z.B. Resultate
aus dem Sport).
• Daten werden oft in Form einer oder mehrerer Tabellen präsentiert.
6
• Die erste offensichtliche Aufgabe von Statistik ist die Beschreibung der großen
und daher unhandlichen Menge von Daten durch wenige charakteristische Werte. Die wichtigsten sind: Mittelwert, Standardabweichung, Median, Häufigkeiten
und Perzentile.
• Eine andere wichtige Darstellungsform von Daten sind Diagramme, deren wichtigste Typen das Histogramm, der Boxplot, das Balkendiagramm und das Streudiagramm sind.
• In Laufe der Vorlesung und in den Übungen werden Sie die Definitionen wichtiger
statistischen Größen und der gängigsten Diagrammformen kennenlernen.
• Statistik beschäftigt sich aber nicht nur mit Aufbereitung und Darstellung von
Daten. Fast ebenso wichtig ist die Frage, welche Aussagen aufgrund der Daten
gemacht werden dürfen.
7
Statistik gliedert sich deshalb in zwei große Teilbereiche:
• Beschreibende (deskriptive) Statistik.
• Schließende (konfirmatorische) Statistik
8
1.1 Deskriptive Statistik
1.1.1 Wichtige Lageparameter und statistische Größen
Beispiel: Erhebung der schulischen Leistungen von Schülern (Simulierte Daten, Auszug aus Schueler.txt).
> Schueler <- read.table("Schueler.txt", header=TRUE)
> head(Schueler)
1
2
3
4
5
6
lnr Klasse Gesch Alter Groesse Gewicht Mathe Physik Deutsch Bio Fehltage
1
6
w
12
124
42
3
NA
2
3
2
2
5
w
12
146
39
4
NA
2
2
3
3
10
w
17
174
64
4
3
5
2
4
4
8
w
15
138
53
5
6
4
3
0
5
8
w
15
147
56
5
4
3
2
3
6
9
m
16
162
65
2
2
4
2
2
9
Die Spalten einer Datentabelle werden oft Variablen genannt. Sind die Einträge einer
Variablen V = (x1, x2, . . . , xn) numerisch (Zahlen), können folgende statistische
Größen berechnet werden:
• (Arithmetischer) Mittelwert:
n
1X
1
xi
V̄ = (x1 + x2 + · · · + xn) =
n
n
i=1
Beispiele:
V = (1, 34, 2, 3, −2, 3, 3, 4, 7, 1, 0, 4)
1
60
V̄ =
=5
(1 + 34 + 2 + 3 − 2 + 3 + 3 + 4 + 7 + 1 + 0 + 4) =
12
12
10
Mittelwert der Körpergröße der Schulkinder in Schueler.txt:
> mean(Schueler$Groesse)
[1] 157.1944
• Varianz:
n
1 X
(xi − V̄ )2
Var(V ) =
n−1
i=1
11
Beispiel: Varianz von V = (1, 34, 2, 3, −2, 3, 3, 4, 7, 1, 0, 4):
1
((1 − 5)2 + (34 − 5)2 + (2 − 5)2 + (3 − 5)2 +
11
+ (−2 − 5)2 + (3 − 5)2 + (3 − 5)2 + (4 − 5)2 +
Var(V ) =
+ (7 − 5)2 + (1 − 5)2 + (0 − 5)2 + (4 − 5)2) =
974
=
≈ 88.5
11
Varianz der Körpergröße der Schulkinder in Schueler.txt:
> var(Schueler$Groesse)
[1] 177.2845
12
• Standardabweichung:
p
sd(V ) = Var(V )
• Median: Sei (x(1), x(2), . . . , x(n)) das aufsteigend geordnete Tupel der Einträge von V . Es gilt also x(1) ≤ x(2) ≤ · · · ≤ x(n). Der Median ist dann
durch
x((n+1)/2), wenn n ungerade
Median(V ) =
(x(n/2) + x(n/2+1))/2, wenn n gerade
definiert.
Beispiel: Median von V : Die Einträge von V nach Sortierung:
−2, 0, 1, 1, 2, 3, 3, 3, 4, 4, 7, 34
Der Median ist der Mittelwert des sechs- und siebtkleinsten Eintrages:
Median(V ) = 3.
13
Die mediane Körpergröße der Schulkinder in Schueler.txt ist:
> median(Schueler$Groesse)
[1] 157
14
• α ∗ 100% Perzentil 0 < α < 1: Ist k = (n + 1) ∗ α eine ganze Zahl,
dann wählt man x(k) als α ∗ 100% Perzentil. Ist k keine ganze Zahl, dann
wird eine Linearkombination
Pα(V ) := x([k])(1 − γ) + x([k]+1)γ
als α ∗ 100% Perzentil gewählt. [k] ist der ganzzahlige Anteil von k und
γ = k − [k]. Es sei darauf hingewiesen, dass die Definition des α-Perzentils
nicht einheitlich ist! Es kommen verschiedene γ aus dem Intervall [0, 1] infrage.
Das α-Perzentil liegt aber immer zwischen x[k] und x[k+1].
Beispiel: Das 25% Perzentil von V liegt zwischen dem dritt- und viertgrößten
Eintrag von V :
P0.25(V ) = 1
Das 25% Perzentil der Körpergröße der Schulkinder, kann in R folgendermaßen
berechnet werden:
15
> quantile(Schueler$Groesse, 0.25)
25%
149
16
• Sind die Einträge einer Variable (Spalte der Datenmatrix) nicht numerisch (z.B.
die Variable“Geschlecht“ im Beispieldatensatz), dann werden gerne absolute und
relative Häufigkeiten der einzelnen Ausprägungen angegeben.
Beispiel:
V = (m, w, w, w, w, m, w, m, w, m)
Absolute Häufigkeit (w)=6, Relative Häufigkeit (w)=60%
Absolute Häufigkeit(m)=4, Relative Häufigkeit (m)=40%
17
Darüber hinaus gibt es noch viele andere statistische Größen, die in speziellen Situationen eine gewisse Bedeutung haben können: Z.B. spielt neben dem arithmetischen
auch noch das
• geometrische, quadratische und harmonische Mittel
eine Rolle. Manchmal ist es auch sinnvoll, vor der Mittelung die
• größten und kleinsten Werte wegzulassen (gestutztes Mittel).
Für numerische Variablen werden auch gerne der
• maximale und minimale Wert,
18
für nicht numerische Variablen der
• Modalwert (=Ausprägung, die in der Variable am häufigsten vorkommt)
angegeben.
19
1.1.2 Diagramme
Für die bildliche Darstellung eines Datensatzes gibt es verschiedene Diagrammtypen,
deren wichtigste hier kurz vorgestellt werden sollen.
• Histogramm:
Das Histogramm gibt eine Gesamtübersicht der Werte einer Variable V . Seien
A = min(V ) und B = max(V ) der kleinste bzw. größte Wert der Variable
V = (v1, . . . , vn). Das Intervall [A, B] wird disjunkt in k gleich große
Teilintervalle I1, . . . , Ik aufgeteilt.
[A, B] = I1 ] · · · ] Ik .
20
Für jedes Teilintervall Ij bestimme man die Anzahl nj von Werten aus V , die in Ij
liegen. Schließlich zeichnet man über den Ij Säulen der Höhe nj .
Die Anzahl k der Säulen kann frei gewählt werden. Wird sie zu klein gewählt, gibt das
Histogramm nur einen groben Eindruck der Werteverteilung wider, ist sie zu groß,
dann können benachbarte Säulen stark voneinander abweichende Höhen haben, was
auch zu einem wenig informativen Diagramm führt.
21
Beispiel: Histogramme des Körpergewichts der Schulkinder in Schueler.txt:
Gewicht der Schulkinder
40
30
20
Häufigkeit
100
0
10
50
0
Häufigkeit
50
60
150
70
Gewicht der Schulkinder
40
50
60
Gewicht[kg]
70
80
40
50
60
70
Gewicht[kg]
22
• Balkendiagramm:
Im Balkendiagramm werden die absoluten oder relativen Häufigkeiten von Ausprägungen nicht numerischer Variablen dargestellt.
Beispiel:
Verteilung Geschlecht
60
0
20
40
relative Häufigkeit
400
200
0
absolute Häufigkeit
600
80
800
Verteilung Geschlecht
Jungen
Mädchen
Jungen
Mädchen
23
• Boxplot:
Der Boxplot ist eine beliebte Darstellungsform von Median, 25% und 75% Perzentile, Minimum und Maximum.
Größe Schulkinder
200
Gewicht Schulkinder
Maximum
Ausreißer
●
●
●
●
180
70
Maximum
(nicht Ausreißer)
Minimum
160
Größe [cm]
75% Perzentil
Median
25% Perzentil
140
25% Perzentil
120
60
50
Median
40
Gewicht [kg]
75% Perzentil
Ausreißer
●
●
●
●
Minimum
(nicht Ausreißer)
24
Im Boxplot werden Werte, die aus dem Rahmen fallen (Ausreißer), einzeln eingezeichnet. Die genaue Definition von Ausreißer ist nicht einheitlich. Oft findet man
folgende Festlegung:
Ausreißer nach oben > 75% Perzentil + 1.5*(75% Perzentil - 25% Perzentil)
Ausreißer nach unten < 25% Perzentil - 1.5*(75% Perzentil - 25% Perzentil)
Die Größe (75% Perzentil - 25% Perzentil) heißt auch der Interquartilsabstand.
25
Vorlesung 26.10.2016
26
• Streudiagramm:
Soll die Beziehung von zwei numerischen Variablen
V1 = (x1, x2, . . . , xn)
und
V2 = (y1, y2, . . . , yn)
aus einer Tabelle graphisch untersucht werden, können die Wertepaare
(x1, y1), (x2, y2), . . . , (xn, yn)
in einem X − Y -Diagramm dargestellt werden. Eine solche Darstellung heißt
Streudiagramm (engl. scatter-plot).
27
Beispiel:
160
120
140
Größe[cm]
180
200
Gewicht und Größe von Schulkindern
40
50
60
70
Gewicht[kg]
Offensichtlich besteht ein Zusammenhang zwischen der Größe und dem Gewicht der
Schüler. Eine systematische Untersuchung solcher Zusammenhänge wird im Rahmen
der Korrelations- und Regressionsanalyse erfolgen.
28
1.2 Schließende Statistik
• Bisher beschränkten wir uns darauf, eine konkret vorliegende Stichprobe (Datensatz) durch statistische Größen wie Mittelwert, Standardabweichung usw.
möglichst prägnant zu beschreiben.
• Im außerwissenschaftlichen Bereich ist das im Allgemeinen ausreichend und Statistik wird deshalb mit Datenbeschreibung gleichgesetzt.
• In der Wissenschaft interessiert man sich weniger für die Verhältnisse in der
konkreten Stichprobe, sondern für die Gesamtpopulation, aus der die Stichprobe
stammt. Entsprechend sind Experimente nur dann interessant, wenn aus ihnen
auf allgemeine Gesetzmäßigkeiten geschlossen werden können.
29
Auf folgende Fragen hat die deskriptive Statistik keine Antworten:
• Was passiert bei Wiederholung des Versuchs? Wie reproduzierbar sind die Ergebnisse, die aus der Stichprobe gewonnen wurden?
• Welche Aussagen darf man aufgrund der Stichprobe über die Population (=Grundgesamtheit, aus der die Stichprobe gezogen wurde) treffen?
30
Beispiel:
Im Datensatz Schueler.txt wurde festgestellt, dass in der Stichprobe mehr Mädchen als Jungen vorkommen.
>
>
>
>
Schueler <- read.table("Schueler.txt", header=TRUE)
Freq <- table(Schueler$Gesch)
n <- sum(Freq)
Freq
m
w
465 538
31
Für die relativen Häufigkeiten ergibt das:
> RelFreq <- paste(round(Freq/n*100,1), "%")
> RelFreq
[1] "46.4 %" "53.6 %"
Die beschreibende Statistik muss bei der Feststellung, dass in der Stichprobe der
Anteil der weiblichen Schüler überwiegt, stehen bleiben.
32
• Die schließende Statistik will einen Schritt weitergehen und behandelt folgende
Fragen:
– Kann aus der Stichprobe geschlossen werden, dass unter allen Schülern
(=Grundpopulation) der Mädchenanteil überwiegt?
– Können aufgrund der Stichprobe irgendwelche Aussagen über die Geschlechtsverteilung getroffen werden?
• Man kann sich leicht klarmachen, dass beide Fragen negativ beantwortet werden müssen: Von einer Stichprobe, die immer nur endlich viele (hier n=1003)
Individuen (hier Schüler) enthält, kann logisch sicher nie auf die Gesamtheit
geschlossen werden. Es könnte ja sein, dass durch Zufall die Mädchen in der
Stichprobe überrepräsentiert sind. Bei einer Wiederholung der Erhebung könnten bei einer neuen Stichprobe ganz andere Zahlen herauskommen.
33
• Die Erfahrung zeigt jedoch, dass große Stichproben dazu neigen, die Verhältnisse in der Population doch relativ gut wiederzugeben. Mit anderen Worten:
Es ist recht unwahrscheinlich, dass bei großer Fallzahl die Verhältnisse in der
Stichprobe stark von denen in der Population abweichen.
• Diese Tatsache heißt das Gesetz der großen Zahlen.
34
• Hat z.B. eine Stichprobe von Studenten die Größe n = 100 und es befinden
sich k = 60 Frauen darunter. Kann aus diesem empirischen Befund geschlossen werden, dass es in der Gesamtpopulation (alle Studenten) mehr Frauen als
Männer gibt?
• Die schließende Statistik versucht mit Hilfe der Wahrscheinlichkeitsrechnung
auf diese Frage eine Antwort zu geben.
• Man berechnet zunächst die Wahrscheinlichkeiten, k = 0, 1, 2, . . . , 100
Frauen in der Stichprobe zu finden, unter der Bedingung, dass es in der Population genauso viele Männer wie Frauen gibt. Ob diese Annahme (Hypothese)
zutrifft oder nicht, soll keine Rolle spielen.
35
• Da die Annahme gemacht wurde, dass es in der Grundpopulation genauso viele
Männer wie Frauen gibt, können die Wahrscheinlichkeiten für k = 0, . . . , 100
Frauen in der Stichprobe explizit ausgerechnet werden. Die Berechnungsformeln
werden im folgenden Kapitel erarbeitet. In R können diese Wahrscheinlichkeiten
mit der Funktion dbinom berechnet werden:
> dbinom(x=0:100,size=100, prob=0.5)
[1]
[7]
[13]
[19]
[25]
[31]
[37]
[43]
7.888609e-31
9.403635e-22
8.286361e-16
2.419003e-11
6.293223e-08
2.317069e-05
1.559739e-03
2.229227e-02
7.888609e-29
1.262774e-20
5.609229e-15
1.043991e-10
1.913140e-07
5.232091e-05
2.697928e-03
3.006864e-02
3.904861e-27
1.467975e-19
3.485735e-14
4.228163e-10
5.518672e-07
1.128170e-04
4.472880e-03
3.895256e-02
1.275588e-25
1.500596e-18
1.998488e-13
1.610729e-09
1.512525e-06
2.324713e-04
7.110732e-03
4.847430e-02
36
3.093301e
1.365543e
1.061697e
5.783981e
3.943369e
4.581053e
1.084387e
5.795840e
[49]
[55]
[61]
[67]
[73]
[79]
[85]
[91]
[97]
7.352701e-02
5.795840e-02
1.084387e-02
4.581053e-04
3.943369e-06
5.783981e-09
1.061697e-12
1.365543e-17
3.093301e-24
7.802866e-02
4.847430e-02
7.110732e-03
2.324713e-04
1.512525e-06
1.610729e-09
1.998488e-13
1.500596e-18
1.275588e-25
7.958924e-02
3.895256e-02
4.472880e-03
1.128170e-04
5.518672e-07
4.228163e-10
3.485735e-14
1.467975e-19
3.904861e-27
7.802866e-02
3.006864e-02
2.697928e-03
5.232091e-05
1.913140e-07
1.043991e-10
5.609229e-15
1.262774e-20
7.888609e-29
7.352701e
2.229227e
1.559739e
2.317069e
6.293223e
2.419003e
8.286361e
9.403635e
7.888609e
• Wir machen uns im Moment noch keine Gedanken, wie diese Wahrscheinlichkeiten ausgerechnet werden. Dazu gibt es eine Berechnungsformel, die im nächsten
Kapitel hergeleitet wird. In R ist diese Formel in der Funktion dbinom implementiert.
• Nun kann man sich überlegen, wie wahrscheinlich es ist, dass sich in der Stichprobe 60 oder mehr Frauen befinden. Es wird immer noch angenommen, dass
in der Grundpopulation Männer und Frauen gleich häufig auftreten.
• Dazu summieren wir die einzelnen Wahrscheinlichkeiten für k = 60, 61, . . . , 100
Frauen in der Stichprobe. In R kann das bequem mit der Funktion sum erfolgen:
> sum(dbinom(x=60:100,size=100,prob=0.5))
[1] 0.02844397
37
• Die Wahrscheinlichkeit für k = 60 oder mehr Frauen in der Stichprobe ist
also mit 2.8% recht klein. Es ist deshalb vernünftig, die Hypothese (Annahme)
von gleich viel oder weniger Frauen in der Population zu verwerfen. Man wird
nun davon ausgehen, dass es auch in der Grundpopulation tatsächlich mehr
weibliche als männliche Studenten gibt.
• Es wurde also von den Verhältnissen in der Stichprobe auf die Population, aus
der die Stichprobe gezogen wurde, geschlossen.
• Eine solche Argumentationskette ist typisch für die schließende Statistik und
heißt statistischer Test.
38
• Wie man an diesem einfachen Beispiel sieht, mussten an ganz zentraler Stelle
der Argumentation Wahrscheinlichkeiten ausgerechnet werden. Die schließende
Statistik benutzt die Wahrscheinlichkeitsrechnung als ihr wichtigstes Hilfsmittel.
• Im Kapitel 2 werden wir uns deshalb mit den Grundbegriffen der elementaren
Stochastik (Wahrscheinlichkeitsrechnung) beschäftigen.
39
1.3. Statistische Software
Berechnungen in der Statistik sind oft aufwändig und werden mit geeigneter Software
durchgeführt. Die gebräuchlichsten Programme sind:
• SPSS: Weite Verbreitung besonders in der Medizin und den Sozialwissenschaften. Besitzt eine Bedienoberfläche, die eine Benutzung auch ohne größere Vorkenntnisse ermöglicht. Erlaubt nur eine sehr eingeschränkte Möglichkeit der
Programmierung. Moderne statistische Methoden sind oft (noch) nicht implementiert.
• SAS: Weite Verbreitung in der Industrie. Es besteht die Möglichkeit der Programmierung, die allerdings recht umständlich ist.
40
• STATA: Ähnlich wie SPSS, aber größerer Leistungsumfang.
• R: Die Programmiersprache R darf kostenfrei genutzt werden und bietet gerade
für wissenschaftliche Anwendung die größte Flexibilität. Viele neue Algorithmen
sind zunächst nur in R verfügbar. R kann von http://www.r-project.org/
für die Betriebssystem Linux, Mac OS und Windows heruntergeladen werden. In den Übungen erhalten Sie eine kurze Einführung in R. Ein Großteil
der Übungsaufgaben wird auch mit R bearbeitet.
41
2. Elementare Wahrscheinlichkeitsrechnung
2.1. Der endliche Wahrscheinlichkeitsraum
Ein endlicher Wahrscheinlichkeitsraum ist eine endliche Menge
Ω = {ω1, . . . , ωn}
zusammen mit einer Funktion P, die jedem ωi eine nicht negative reelle Zahl pi
zuordnet, also für die
P(ωi) = pi ≥ 0 i = 1, . . . , n
gilt. Zusätzlich fordert man noch die Normierungsbedingung
p1 + · · · + pn =
n
X
pi = 1.
i=1
42
Die Zahlen pi heißen die (Elementar)wahrscheinlichkeiten der Wahrscheinlichkeitsverteilung P.
Jede Teilmenge
A⊂Ω
heißt Ereignis des Wahrscheinlichkeitsraums (Ω, P).
Jedem Ereignis A wird durch die Formel
P(A) =
X
P (ω)
ω∈A
eine Wahrscheinlichkeit zugeordnet.
43
Bemerkung 1: Auch A = Ω und A = ∅ (leere Menge) sind Ereignisse. Das Symbol
⊂ steht sowohl für echte Mengeninklusion als auch für Mengengleichheit.
Definitionen:
1. Die Teilmengen
{ω1}, . . . , {ωn},
die genau ein Element enthalten, heißen Elementarereignisse.
2. Für jedes Ereignis A in einem Wahrscheinlichkeitsraum Ω sei
AC := Ω\A := {ω ∈ Ω|ω ∈
/ A}.
das komplimentäre Ereignis zu A.
44
Wichtige Rechenregeln: Im endlichen Wahrscheinlichkeitsraum (Ω, P) gilt für alle
A, B ⊂ Ω:
1. P(∅) = 0
2. P(Ω) = 1
3. P(AC ) = 1 − P(A) für A ⊂ Ω
4. P(A ∪ B) = P(A) + P(B),
wenn A ∩ B = ∅
5. P(A) ≥ 0
45
Beweis: Für A = ∅ gilt
P(∅) =
X
P(ω) = 0,
ω∈∅
da die Summe ohne Summanden definitionsgemäß 0 ist.
Aus der Normierungsbedingung folgt anderseits für A = Ω
X
P(Ω) =
P(ω) = p1 + · · · + pn = 1
ω∈Ω
Die drei letzten Aussagen folgen mit ähnlichen Argumenten.
46
Bemerkung 2: Der Wahrscheinlichkeitsraum ist das Paar bestehend aus der Menge Ω
und der Verteilungsfunktion P und wird deshalb in der Regel als (Ω, P) angegeben.
Manchmal wird auch Ω selbst als Wahrscheinlchkeitsraum bezeichnet. Das ist aber
nur dann zulässig, wenn die Verteilung P stillschweigend als bekannt vorausgesetzt
werden kann.
Bemerkung 3: Der Wahrscheinlichkeitsraum ist ein rein mathematisches Konstrukt.
Man muss sich deshalb zunächst keine Gedanken machen, was Wahrscheinlichkeit
eigentlich bedeutet. Wir werden aber sehen, dass einige Wahrscheinlichkeitsräume
Zufallsexperimente gut beschreiben. Der abstrakte Wahrscheinlichkeitsraum dient
dann als Modell für einen Vorgang (Experiment) in der “realen“ Welt.
47
2.2 Beispiele für endliche Wahrscheinlichkeitsräume
2.2.1 Münzwurf, Würfelspiel und Lotterie
Beispiel 1 (faire Münze): Der Wahrscheinlichkeitsraum
Ω = {K, Z}
mit
1
1
und P(Z) =
2
2
wird zur Modellierung des Zufallsexperiments “einmaliger Wurf einer fairen Münze“
benutzt. Die Elemente“K“ (Kopf) und“Z“ (Zahl) sind die beiden möglichen Ausgänge
des Experiments. Die spezielle Wahl der Verteilung P ist wegen der symmetrischen
Form der Münze plausibel. Die Begründung für die Wahl dieses Wahrscheinlichkeitsraums als geegnetes Modell für das Münzwurfexperiment kommt also nicht aus der
Mathematik sondern aus der Physik!
P(K) =
48
Welche Ereignisse gibt es in diesem Wahrscheinlichkeitsraum (Ω, P ) und welche
Wahrscheinlichkeiten haben sie?
Die Ereignisse sind
∅, {K}, {Z} und {K, Z}
mit den Wahrscheinlichkeiten 0, 1/2, 1/2 und 1.
49
Beispiel 2 (fairer Würfel): Für das Experiment “einmaliges Werfen eines fairen Würfels“ bietet sich folgender Wahrscheinlichkeitsraum an:
Ω = {1, 2, 3, 4, 5, 6}
mit
P(1) = P(2) = P(3) = P(4) = P(5) = P(6) = 1/6.
Die spezielle Wahl der Verteilungsfunktion P erklärt sich wieder daraus, dass keine
der sechs Seiten des Würfels ausgezeichnet ist (Würfel ist “fair“).
50
Beispiel 3 (zweimaliges Werfen eines fairen Würfels): Hier wählt man
Ω = {1, 2, 3, 4, 5, 6} × {1, 2, 3, 4, 5, 6} =
{(1, 1), (1, 2), (1, 3), (1, 4), (1, 5), (1, 6),
(2, 1), (2, 2), (2, 3), (2, 4), (2, 5), (2, 6),
(3, 1), (3, 2), (3, 3), (3, 4), (3, 5), (3, 6),
(4, 1), (4, 2), (4, 3), (4, 4), (4, 5), (4, 6),
(5, 1), (5, 2), (5, 3), (5, 4), (5, 5), (5, 6),
(6, 1), (6, 2), (6, 3), (6, 4), (6, 5), (6, 6)}
mit
P(i, j) = 1/36 i = 1, . . . , 6, j = 1, . . . , 6
als Wahrscheinlichkeitsverteilung.
51
Bemerkung 4: Das Symbol “×“ steht für das kartesische Produkt von Mengen. Das
kartesische Produkt von zwei Mengen A und B ist allgemein als
A × B = {(a, b)|a ∈ A und b ∈ B}
definiert. Mit anderen Worten, man bildet alle möglichen Paare aus Elementen von
A mit Elementen aus B.
52
Beispiel 4: Bei vielen Würfelspielen mit zwei Würfeln ist die Reihenfolge der Würfe ohne Bedeutung. Es bietet sich deshalb an, die Elemente (i, j) und (j, i) zu
identifizieren. Der Wahrscheinlichkeitsraum Ω aus Beispiel 3 wird dadurch auf 21
Elemente verkleinert. Die zusammengelegten Elementarereignisse erhalten dann das
doppelte Gewicht.
Ω0 = {[1, 1], [1, 2], [1, 3], [1, 4], [1, 5], [1, 6],
[2, 2], [2, 3], [2, 4], [2, 5], [2, 6], [3, 3],
[3, 4], [3, 5], [3, 6], [4, 4], [4, 5], [4, 6],
[5, 5], [5, 6], [6, 6]}
Das Symbol [i, j] stehe für das ungeordnete Paar [i, j] = {(i, j), (j, i)}. Da
[i, j] für i 6= j aus zwei, für i = j aber nur aus einem Elementarereignis von Ω
besteht, bietet sich für die Wahrscheinlichkeitsverteilung von Ω0 folgende Definition
an:
1/36 für i = j
P([i, j]) =
1/18 für i 6= j.
53
Vorlesung 2.11.2016
54
Beispiel 5 (Lotto “Sechs aus 49“): Beim Zahlenlotto werden sechs Kugeln aus einer
Urne mit 49 Kugeln ohne Zurücklegen gezogen. Da alle Kugeln gleich sind, ist es
auch hier sinnvoll anzunehmen, dass alle Möglichkeiten die gleiche Wahrscheinlichkeit
haben.
Auf wie viele Weisen kann man sechs Kugeln aus 49 ziehen?
Werden die Kugeln hintereinander gezogen, dann wird man für die erste Kugel 49,
für die zweite 48 usw. Möglichkeiten haben. Insgesamt gibt es also
49 ∗ 48 ∗ · · · ∗ 44
Möglichkeiten.
Spielt die Reihenfolge keine Rolle, wird man Ziehungen, die sich nur in der Anordnung
unterscheiden, zusammenfassen.
55
Auf wie vielen Weisen kann man sechs unterschiedliche Objekte anordnen?
Für die erste Position gibt es sechs Möglichkeiten, für die zweite nur noch fünf und
für die sechste Position gibt es schließlich nur noch eine Möglichkeit. Insgesamt kann
man also sechs unterscheidbare Objekte auf
6∗5∗4∗3∗2∗1
Weisen verschieden anordnen. Da dieses Produkt in der Wahrscheinlichkeitsrechnung
häufig vorkommt, führt man eine neu Bezeichnung ein:
6! = 6 ∗ 5 ∗ 4 ∗ 3 ∗ 2 ∗ 1 (gesprochen “Sechs Fakultät“).
Allgemein definiere man
n! = n ∗ (n − 1) ∗ (n − 2) ∗ · · · ∗ 1 (n Fakultät).
56
Ohne Berücksichtigung der Reihenfolge gibt es also
49 ∗ 48 ∗ · · · ∗ 44
49 ∗ 48 ∗ · · · ∗ 44 43!
49!
=
∗
=
6!
6!
43!
6! ∗ 43!
Möglichkeiten sechs aus 49 Kugeln zu ziehen, wenn die Reihenfolge keine Rolle spielt.
Da auch dieser Ausdruck oft vorkommt, erhält er ein eigenes Symbol
49
49!
=
6
6! ∗ 43!
und wird mit Binomialkoeffizient bezeichnet.
Mit den gleichen Argumenten kann man zeigen, dass es
n
n!
=
k! ∗ (n − k)!
k
Möglichkeiten gibt k Objekte aus n verschiedenen Objekten ohne Zurücklegen zu
ziehen, wenn Ziehungen, die sich nur in der Reihenfolge unterscheiden, als gleich
angesehen werden.
57
In R ist der Binomialkoeffizient in der Funktion choose, die Fakultät in factorial
implementiert:
> choose(49,6)
[1] 13983816
ist die Anzahl der Möglichkeiten, sechs Kugeln aus 49 ohne Zurücklegen zu ziehen.
58
Spielt die Reihenfolge eine Rolle, dann sind es sogar
> choose(49,6)*factorial(6)
[1] 10068347520
Möglichkeiten.
Da sowohl choose als auch factorial schnell große Werte annimmt, ist in R
auch der natürliche Logarithmus dieser Funktionen in lchoose und lfactorial
implementiert.
59
Die Wahrscheinlichkeit für eine spezielle Ziehung ist daher
1
,
49
6 ∗ 6!
wenn die Reihenfolge der Ziehung beachtet wird und
1
49
6
,
wenn die Reihenfolge keine Rolle spielt.
Bemerkung 5: Anders als beim zweimaligen Würfeln werden beim Übergang vom
Wahrscheinlichkeitsraum “mit Reihenfolge“ zum Wahrscheinlichkeitsraum “ohne Reihenfolge“ immer genau 6! = 720 Elemente zusammengefasst. Die Elementarwahrscheinlichkeiten sind deshalb auch im Wahrscheinlichkeitsraum “ohne Reihenfolge“
alle gleich.
60
Die bisherigen Beispiele legen nahe, dass Wahrscheinlichkeitsräume, in denen alle
Elementarwahrscheinlichkeiten gleich sind, oft als Modelle für reale Vorgänge dienen.
Aus diesem Grund habe sie einen eigenen Namen:
Definition: Ein endlicher Wahrscheinlichkeitsraum
Ω = {ω1, . . . , ωn}
heißt Laplaceraum, wenn
P(ωi) = 1/n für i = 1, . . . , n
gilt. Mit anderen Worten: Jedes Elementarereignis hat die gleiche Eintrittswahrscheinlichkeit.
61
Bemerkung 6: Die Annahme gleicher Elementarwahrscheinlichkeiten heißt auch die
Laplacehypothese. Sie kann mathematisch nicht bewiesen, sondern nur angenommen
werden. Aus physikalischen Gründen, wie Symmetrie der Münze, Gleichartigkeit der
Lottokugeln usw., ist sie oft eine plausible und sinnvolle Annahme.
62
2.2.2 Wahrscheinlichkeitstheoretische Modelle in der Genetik
2.2.2.1 Mendelscher Erbgang und Hardy-Weinberg Gesetz
Manche Eigenschaften werden dominant-rezessiven (Mendelscher Erbgang) an die
nächste Generation weitergegeben. Dabei wird ein Merkmal (Erbkrankheit, Haarfarbe,...), der sogenannte Phänotyp nur von einem Gen bestimmt wird, für das es
zwei Allele A und a geben soll. Jedes Individuum besitzt zwei Allele, eines von der
mütterlichen und eines von der väterlichen Seite. A sei das dominante Allel, d.h es
bestimmt den Phänotyp (das Merkmal) vollständig.
(A, A), (A, a) und (a, A) −→ Phänotyp A
(a, a) −→ Phänotyp a
63
In der Regel wird zwischen den Genotypen (A, a) und (a, A) nicht unterschieden,
da es schwierig ist festzustellen, welches Allel vom Vater und welches von der Mutter
kommt.
Der Wahrscheinlichkeitsraum für die Genotypen ist dann
Ωgeno = {(a, a), (A, a), (A, A)}
und für die Phänotypen
Ωphäno = {A, a}.
Für die Bestimmung der Wahrscheinlichkeitsverteilungen nimmt man an, dass jedes
Individuum zufällig und unabhängig zwei Allele von der Elterngeneration erhält.
64
Setzt man den Anteil der A Allele in der Elterngeneration mit pA an, dann muss der
Anteil der a Allele in der Elterngeneration bei pa = 1 − pA liegen.
Wie bei den Modellen für Glücksspiele können wir uns Vererbung anhand eines Urnenmodells klarmachen:
• Die “väterliche“ Urne UV enthält pA ∗ N Allele vom Typ A und (1 − pA) ∗ N
Allele von Typ a.
• Die “mütterliche“ Urne UM enthält pA ∗N Allele vom Typ A und (1−pA)∗N
Allele von Typ a.
Die Zahl N soll die Gesamtzahl aller Allele im männlichen bzw. weiblichen Teil der
Population sein.
65
Ein Individuum erhält nun seinen Genotyp durch unabhängiges Ziehen eines Allels
aus der mütterlichen Urne UM und eines Allels aus der väterlichen Urne UV .
Macht man die Annahme, dass alle Kombinationen aus Allelen aus UM mit denen aus UV mit der gleichen Wahrscheinlichkeit gezogen werden (Hardy-Weinberg
Annahme), dann ist der Laplaceraum
Ω = UM × UV
der Wahrscheinlichkeitsraum für das genetische Modell.
Um die Wahrscheinlichkeiten für die einzelnen Genotypen ausrechnen zu können,
müssen wir nur noch die Größe von Ω und die Häufigkeiten der Genotypen in Ω
bestimmen.
66
|Ω| = N 2
Ω enthält
- N pA ∗ N pA Elemente vom Genotyp (A, A),
- N (1 − pA) ∗ N pA vom Genotyp (a, A),
- N pA ∗ N (1 − pA) vom Genotyp (A, a) und
- N (1 − pA) ∗ N (1 − pA) vom Genotyp (a, a).
67
Da die Genotypen (A, a) und (a, A) nicht unterschieden werden sollen, besteht Ω
aus
• N 2 p2
A Elementen vom Typ (A, A).
• 2N 2pA(1 − pA) Elementen vom Typ (A, a)
• N 2(1 − pA)2 Elementen vom Typ (a, a).
Ω enthält insgesamt N 2 Elemente und ist ein Laplaceraum. Damit ergibt sich für
die Verteilungen der Genotypen (Hardy-Weinberg Gesetz):
68
Genotyp:
2
P((a, a)) = p2
a = (1 − pA )
P((A, a)) = 2pA(1 − pA)
P((A, A)) = p2
A.
Nimmt man zusätzlich an, dass das Allel A dominant ist, dann ergeben die Genotypen
(A, A) und (A, a) den gleichen Phänotyp. In diesem Fall ergibt sich dann für die
Verteilung der Phänotypen a und A:
Phänotyp:
P(a) = (1 − pA)2
P(A) = 2pA(1 − pA) + p2
A.
69
Bemerkung 7: Diese Verteilungen der Geno- bzw. Phänotypen wird sich aber nur
dann einstellen, wenn jedes Individuum die zwei Allele zufällig und unabhängig von
der Elterngeneration erhält. Für die Herleitung mussten wir annehmen, dass Ω ein
Laplaceraum ist.
Diese Bedingung der zufälligen Durchmischung heißt die Hardy-Weinberg Bedingung.
Eine exakte Begründung des Hardy-Weinberg Gesetzes führt zum Begriff der Unabhängigkeit von Ereignissen, der im nächsten Kapitel eingeführt wird.
70
Beispiel 6: Das dominante Allel A komme in der Population mit Wahrscheinlichkeit
pA = 0.9 vor. Befindet sich die Population im Hardy-Weinberg Gleichgewicht,
dann folgt für die Verteilung der Genotypen:
P((a, a)) = 0.12 = 0.01
P((A, a)) = 2 ∗ 0.1 ∗ 0.9 = 0.18
P((A, A)) = 0.92 = 0.81.
Der Phänotyp A kommt dann mit einer Wahrscheinlichkeit von 99% und der Phänotyp a mit nur 1% vor.
Verursacht das rezessive Allel a eine Krankheit, dann sind nur 1% der Population
betroffen, obwohl das Allel a mit 10% doch recht häufig auftritt.
71
2.2.2.1 Mendelsche Gesetze
Durch gezielte Kreuzungsexperimente kann man erreichen, dass die Verteilung der
Allele A und a in der Elterngeneration einen bekannten Wert annimmt. Kreuzt man
beispielsweise ein Individuum mit Genotyp (A,A) mit einem vom Genotyp (a,a), dann
können in der Tochtergeneration (F1) nur Individuen vom Genotyp (A,a) auftreten.
Nimmt man wieder an, dass das Allel A dominant für ein bestimmtes Merkmal ist,
dann tritt in der F1 ausschließlich Phänotyp A auf. Die Population der F1 befindet
sich also nicht im Hardy-Weinberg Gleichgewicht.
Was folgt dann für die Verteilung der Geno- und Phänotypen in der nächsten Generation (F2)?
Diese Verteilung wurde von Gregor Mendel (1866) bestimmt und die zugrunde liegende Gesetzmäßigkeiten heißen deshalb Mendelsche Regeln.
72
Ein Individuum aus der Generation F2 erbt von der väterlichen wie von der mütterlichen Seite mit Wahrscheinlichkeit 1/2 das Allel A.
Es liegt die Situation des vorigen Abschnitts vor. Durch die gezielte Kreuzung ist
aber die Wahrscheinlichkeit pA = 1/2 bekannt. Damit folgt für die Verteilung der
Genotypen in der F2:
- P((a, a)) = (1 − pA)2 = (1/2)2 = 1/4,
- P((a, A)) = 2 ∗ 1/2 ∗ (1 − 1/2) = 1/2,
- P((A, A)) = (1 − pA)2 = (1/2)2 = 1/4
73
Da (A,A) und (a,A) vom gleichen Phänotyp sind, verhält sich das Verhältnis von
Phänotyp a zu Phänotyp A wie 1:3.
Bemerkung: Im Gegensatz zur F1 befindet sich die F2 im Hardy-Weinberg Gleichgewicht mit einem bekannten pA = 1/2.
Tatsächlich hat Gregor Mendel in seinem Kreuzungsexperiment von Erbsenpflanzen
mit runden (Phänotyp A) und eckigen (Phänotyp a) Erbsen in der F2 eine Verteilung
von Phänotypen beobachtet, die diesen Zahlen sehr nahe kommen, und dann auf das
zugrunde liegende Gesetz geschlossen.
74
Vorlesung 9.11.2016
76
2.3 Unabhängigkeit, bedingte Wahrscheinlichkeit und die
Bayes-Formel
2.3.1 Unabhängige Ereignisse
Zwei Zufallsexperimente sind unabhängig, wenn der Ausgang des einen den des anderen nicht beeinflusst. Die formale Definition von Unabhängigkeit lautet:
Definition (Unabhängigkeit von Ereignissen): Zwei Ereignisse A und B des Wahrscheinlichkeitsraums (Ω, P) heißen unabhängig, wenn
P(A ∩ B) = P(A)P(B)
gilt.
Beispiel 7: Man betrachte im Laplaceraum
Ω = {1, 2, 3, 4, 5, 6} × {1, 2, 3, 4, 5, 6}
für zweimaliges Würfeln mit Berücksichtigung der Reihenfolge die Ereignisse:
A: erster Wurf ist eine 3
und
B: zweiter Wurf ist eine 5.
77
In Mengenschreibweise ergibt das für A und B:
A = {(3, 1), (3, 2), (3, 3), (3, 4), (3, 5), (3, 6)}
und
B = {(1, 5), (2, 5), (3, 5), (4, 5), (5, 5), (6, 5)}.
Weiter folgt
A ∩ B = {(3, 5)}.
78
Da jedes Elementarereignis die Wahrscheinlichkeit 1/36 besitzt, gilt
P(A) = 1/6 = P(B)
und
P(A ∩ B) = 1/36.
Daraus folgt durch direktes Nachrechnen
P(A ∩ B) = 1/36 = 1/6 ∗ 1/6 = P(A) ∗ P(B)
die Unabhängigkeit von A und B. Der Wurf des ersten Würfels beeinflusst den des
zweiten nicht.
79
Beispiel 8 (nicht unabhängige Ereignisse): Man betrachte im Laplaceraum
Ω = {1, 2, 3, 4, 5, 6},
der als Modell für einmaliges Würfeln mit einem fairen Würfel eingeführt wurde,
folgende Ereignisse:
A: Es wird eine gerade Zahl gewürfelt.
B: Es wird eine 4 gewürfelt.
80
In Mengenschreibweise ergibt sich
A = {2, 4, 6},
B = {4}
und
A ∩ B = {4}.
Damit ergeben sich die Wahrscheinlichkeiten P(A) = 1/2, P(B) = 1/6 und
P(A ∩ B) = 1/6. Offensichtlich gilt hier
P(A ∩ B) = 1/6 6= 1/2 ∗ 1/6 = P(A)P(B).
81
Für den endlichen Wahrscheinlichkeitsraum kann man leicht zeigen:
1. Die Ereignisse ∅ und Ω sind von allen Ereignissen A ⊂ Ω unabhängig.
2. Sind A und B unabhängig, dann sind auch
(a) A und B C
(b) AC und B und
(c) AC und B C
unabhängig.
82
2.3.2 Bedingte Wahrscheinlichkeiten
Definition: Für zwei Ereignisse A und B eines Wahrscheinlichkeitsraums (Ω, P) mit
P(B) > 0 heißt
P(A ∩ B)
P(A|B) :=
P(B)
die bedingte Wahrscheinlichkeit von A unter der Bedingung B.
Die Wahrscheinlichkeit P(A) heißt die absolute Wahrscheinlichkeit von A. Zwei
Ereignisse A und B (P(B) > 0) sind genau dann unabhängig, wenn
P(A|B) = P(A)
gilt.
83
Beweis: Sind A und B unabhängig, dann gilt nach Definition
P(A ∩ B) = P(A)P(B).
Daraus folgt
P(A ∩ B)
P(A)P(B)
P(A|B) =
=
= P(A).
P(B)
P(B)
84
Umgekehrt folgt aus
P(A|B) :=
P(A ∩ B)
= P(A)
P(B)
sofort
P(A ∩ B) = P(A)P(B).
85
Beispiel 9: Im Laplaceraum Ω = {1, . . . , 6} (einmaliges Würfeln) seien
A := {4, 5, 6}: Es wird eine Zahl ≥ 4 gewürfelt.
B := {2, 4, 6}: Es wird eine gerade Zahl gewürfelt.
Die absolute Wahrscheinlichkeit von A beträgt P(A) = 1/2. Für die bedingte
Wahrscheinlichkeit gilt jedoch P(A|B) = 2/3.
Die Zusatzinformation, dass eine gerade Zahl gewürfelt wurde, erhöht anscheinend
die Wahrscheinlichkeit, eine Zahl ≥ 4 zu würfeln.
86
2.3.3 Die Formel von Bayes
In welchem Verhältnis stehen die beiden bedingten Wahrscheinlichkeiten P(A|B)
und P(B|A) zueinandert? Für die Ereignisse in Beispiel 9 gilt P(A|B) = P(B|A).
Das das im Allgemeinen nicht gelten kann, sieht man an Beispiel 8: Die Wahrscheinlichkeit, eine gerade Zahl zu würfeln unter der Bedingung eine Vier gewürfelt zu
haben, ist 1. Dagegen beträgt die Wahrscheinlichkeit eine Vier zu würfeln unter der
Bedingung eine gerade Zahl zu würfeln 1
3.
Der korrekte Zusammenhang von P(A|B) mit P(B|A) wird durch die Formel von
Bayes hergestellt:
87
Aus der Definition für bedingte Wahrscheinlichkeiten folgt durch einfaches Umstellen:
P(A ∩ B) = P(A|B)P(B)
und
P(A ∩ B) = P(B|A)P(A)
Daraus folgt
P(B|A) =
P(A|B)P(B)
P(A)
(∗).
88
Oft wird der Nenner dieser Formel noch umgeschrieben: Aus
A = A ∩ Ω = A ∩ (B ∪ B C ) = (A ∩ B) ∪ (A ∩ B C )
folgt
P(A) = P((A ∩ B) ∪ (A ∩ B C ))
= P(A ∩ B) + P(A ∩ B C )
= P(A|B)P(B) + P(A|B C )P(B C ).
Das vorletzte Gleichheitszeichen gilt wegen (A ∩ B) ∩ (A ∩ B C ) = ∅.
89
Setzt man diesen Ausdruck in den Nenner von Gleichung (*) ein, dann erhält man
die Bayes Formel:
P(A|B)P(B)
P(B|A) =
P(A|B)P(B) + P(A|B C )P(B C )
(Bayes Formel)
P(B|A) kann also aus P(A|B) ausgerechnet werden, wenn zusätzlich noch die
absoluten Wahrscheinlichkeiten
• P(A) und P(B) oder
• P(B) und die bedingten Wahrscheinlichkeiten P(A|B) und P(A|B C )
bekannt sind.
90
2.3.4 Ein Beispiel aus der medizinischen Statistik: Sensitivität, Spezifität und prädiktive Werte
Der Umgang mit bedingten Wahrscheinlichkeiten ist in der Praxis oft schwierig, da
absolute mit bedingten Wahrscheinlichkeiten und bei den bedingten Wahrscheinlichkeiten die Bedingungsrichtungen, d.h. P(A|B) mit P(B|A), verwechselt werden.
Beispiel: In der medizinischen Diagnostik spielen die Begriffe Sensitivität, Spezifität,
Prävalenz und die prädiktiven Werte eine zentrale Rolle. Jeder dieser Begriffe stellt
eine absolute bzw. bedingte Wahrscheinlichkeit dar, die über der Bayes Formel in
Beziehung zueinander stehen.
91
Beispiel (Fortsetzung): Jeder diagnostischer Test in der Medizin ist fehlerbehaftet.
Er kann
• die Krankheit nicht erkennen (Fehler 1. Art)
• einen Gesunden als krank diagnostizieren (Fehler 2. Art).
Zur Beschreibung dieser Fehler bietet sich eine wahrscheinlichkeitstheoretische Modellierung an.
92
Beispiel für einen diagnostischen Test: Aus der Konzentration des Prostata spezifischen Antigens (PSA) im Blut eines Patienten soll auf eine Krebserkrankung der
Prostata geschlossen werden. Ab einem gewissen Wert (Schwellenwert) gilt der Patient als positiv und der Arzt geht von einem pathologischen (kranken) Befund aus.
Allerdings bedeutet ein erhöhter PSA Wert nicht zwangsläufig, dass eine Krebserkrankung besteht. Nur mit einer gewissen Wahrscheinlichkeit kann auf einen Tumor
in der Prostata geschlossen werden. Umgekehrt kann aber bei einem nicht erhöhten
PSA Wert auch nicht mit letzter Sicherheit ein Prostatakarzinom ausgeschlossen
werden.
93
Zur Modellierung definieren wir zwei Ereignisse mit ihren Gegenereignissen:
1. K: Patient ist krank (leidet an einem Prostatakarzinom)
2. G = K C : Patient ist gesund (leidet nicht an einem Prostatakarzinom)
3. P : Der Test ist positiv (PSA Wert ist erhöht).
4. N = P C : Der Test ist negativ (PSA Wert liegt im normalen Bereich).
94
Die Güte (Trennschärfe) des diagnostischen Tests (hier die Bestimmung des PSA
Werts) kann nun durch zwei bedingte Wahrscheinlichkeiten modelliert werden:
• P(P |K) heißt die Sensitivität und
• P(N |G) = P(P C |K C ) heißt die Spezifität
des diagnostischen Tests. Die absolute Wahrscheinlichkeit
• P(K) heißt die Prävalenz der Erkrankung.
95
• Die Sensitivität ist die Fähigkeit eines Tests, einen Kranken positiv (krank) zu
diagnostizieren.
• Die Spezifität ist die Fähigkeit, einen Gesunden negativ, also nicht fälschlicherweise positiv, zu diagnostizieren.
• Die Prävalenz ist die Häufigkeit der Erkrankung in einer Population.
96
Obwohl Sensitivität und Spezifität die Qualität eines diagnostischen Tests gut beschreiben, geben Sie keine Antwort auf die Frage, welchen Aussagewert eine positive
bzw. negative Diagnose hat.
Ist der Test positiv, will Arzt und Patient wissen, mit welcher Wahrscheinlichkeit der
Patient tatsächlich krank ist. Bei einer negativer Diagnose erhebt sich die Frage, mit
welcher Sicherheit die Krankheit ausgeschlossen werden kann.
Es interessiert also nicht die bedingte Wahrscheinlichkeit P(P |K) (Sensitivität)
sondern die Wahrscheinlichkeit mit umgekehrter Bedingungsrichtung P(K|P ). Entsprechend ist nicht P(N |G) (Spezifität) sondern P(G|N ) die für den Praktiker
bedeutsame Wahrscheinlichkeit.
97
Aus diesem Grund erhalten die bedingten Wahrscheinlichkeiten P(K|P ) und P(G|N )
eigene Namen:
• Die bedingte Wahrscheinlichkeit P(K|P ) heißt der positive prädiktive Wert.
• Die bedingte Wahrscheinlichkeit P(G|N ) heißt der negative prädiktive Wert.
Positiver und negativer prädiktiver Wert können mit Hilfe der Bayes Formel aus
Sensitivität, Spezifität und Prävalenz ausgerechnet werden.
98
Für den positiven prädiktiven Wert gilt:
P(P |K) ∗ P(K)
P(K|P ) =
=
P(P |K) ∗ P(K) + P(P |G) ∗ P(G)
=
P(P |K) ∗ P(K)
=
P(P |K) ∗ P(K) + (1 − P(N |G)) ∗ (1 − P(K))
=
Sensitivität ∗ Prävalenz
Sensitivität ∗ Prävalenz + (1 − Spezifität) ∗ (1 − Prävalenz)
99
Ganz entsprechend gilt für den negativen prädiktiven Wert:
P(G|N ) =
P(N |G) ∗ P(G)
=
=
P(N |G) ∗ P(G) + P(N |K) ∗ P(K)
=
P(N |G) ∗ (1 − P(K))
=
P(N |G) ∗ (1 − P(K)) + (1 − P(P |K)) ∗ P(K)
Spezifität ∗ (1 − Prävalenz)
=
Spezifität ∗ (1 − Prävalenz) + (1 − Sensitivität) ∗ Prävalenz
100
Vorlesung 16.11.2016
101
Die Summanden in den Nennern der beiden Formeln haben eine anschauliche Bedeutung:
• Sensitivität ∗ Prävalenz: Wahrscheinlichkeit für richtig positiv (RP)
• (1 − Sensitivität) ∗ Prävalenz: Wahrscheinlichkeit für falsch negativ (FN)
• (1 − Spezifität) ∗ (1 − Prävalenz): Wahrscheinlichkeit für falsch positiv (FP)
• Spezifität ∗ (1 − Prävalenz): Wahrscheinlichkeit für richtig negativ (RN)
102
Die Formeln für die prädiktiven Werte können dann auch wie
• Positiver prädiktiver Wert =
RP
RP+FP
• Negativer prädiktiver Wert =
RN
RN+FN
geschrieben werden.
103
Offensichtlich hängen die prädiktiven Werte nicht nur von Sensitivität und Spezifität
des diagnostischen Tests, sondern auch von der Prävalenz der Erkrankung ab.
Man sieht leicht, dass der positive prädiktive Wert bei kleiner Prävalenz abnimmt,
wohingegen der negative prädiktive Wert bei großer Prävalenz klein wird.
Da Krankheiten in der Normalbevölkerung selten vorkommen, sind die prädiktiven
Werte diagnostischer Tests insbesondere bei Vorsorgeuntersuchungen oder wenn
beim Patienten keine krankheitsspezifische Symptomatik vorliegt, trotz hoher Sensitivität und Spezifität oft sehr klein.
104
Beispiel: Die Spezifität eines diagnostischen Tests sei 90% und seine Sensitivität sei
80%. Für eine Prävalenz von 1% beträgt der positive prädiktive Wert:
>
>
>
>
>
Sp <- 0.9
Sen <- 0.8
Pr <- 0.01
PosPr <- Sen*Pr/(Sen*Pr+(1-Sp)*(1-Pr))
PosPr
[1] 0.07476636
105
Liegt die Prävalenz bei nur 0.1%, dann verringert sich der positive prädiktive zu
> Pr <- 0.001
> PosPr <- Sen*Pr/(Sen*Pr+(1-Sp)*(1-Pr))
> PosPr
[1] 0.007944389
106
2.4 Wichtige Wahrscheinlichkeitsverteilungen
2.4.1 Die Binomialverteilung
Oft will man Zufallsexperimente modellieren, die aus n unabhängigen gleichartigen
Teilexperimenten bestehen. Jedes der Teilexperimente kann nur zwei verschiedene
Ausgänge haben (“Treffer“ und ”Nicht-Treffer“). Die Wahrscheinlichkeit p für “Treffer“
sei für alle Teilexperimente gleich. Die Wahrscheinlichkeit für k “Treffer“ soll bestimmt
werden.
Beispiel: Eine Münze (nicht notwendig fair) wird n mal unabhängig geworfen. Die
Wahrscheinlichkeit für“Kopf“ sei p (0 ≤ p ≤ 1). Wie groß ist die Wahrscheinlichkeit
für genau k mal “Kopf“?
107
Beispiel: Für eine medizinische Studie werden n Patienten, die an einer bestimmten
Krankheit leiden, “rekrutiert“ (in die Studie eingeschlossen). Die anschließende Behandlung heilt einen Patienten mit der für alle Patienten gleichen Wahrscheinlichkeit
p. Es sollen nur die Möglichkeiten “Heilung“ oder ”Nicht-Heilung“ geben (Responder
oder Nicht-Responder). Außerdem nimmt man an, dass die Patienten unabhängig
voneinander geheilt oder nicht geheilt werden. Auch hier interessiert man sich für die
Wahrscheinlichkeit von genau k (k = 0, 1, . . . , n) Heilungen.
108
Der Wahrscheinlichkeitsraum Ω für solche Experimente kann als
Ω = {(z1, . . . , zn)|zi = 0, 1; i = 1, . . . n}
geschrieben werden. Er besteht aus den n-Tupeln mit den Einträgen 0 (=keine
Heilung) oder 1 (=Heilung). Ω hat 2n Elemente.
Die Wahrscheinlichkeit für eine 1 in jedem der n Einzelexperimente sei p. Die Wahrscheinlichkeit für eine 0 muss dann 1−p sein. Da die Einzelexperimente unabhängig
voneinander ausgeführt werden, ist es naheliegend,
P((z1, . . . , zn)) =
n
Y
pzi (1 − p)1−zi
i=1
zu setzen. Das Produkt in der Formel hat n Faktoren. Wenn in zi = 1 gilt, ist der
entsprechende Faktor p, bei zi = 0 ist der Faktor 1 − p.
109
Ein Tupel mit genau k Einsen als Einträge erhält also die Wahrscheinlichkeit
pk (1 − p)n−k .
Hinweis: Der Wahrscheinlichkeitsraum (Ω, P) ist nur für p = 0.5 ein Laplaceraum.
In der Regel spielt die Reihenfolge der Einzelexperimente keine Rolle. Man wird
deshalb alle Tupel mit k Einsen zu einem Ereignis zusammenfassen wollen.
Wie viele n-Tupel mit genau k Einsen gibt es?
110
Beispiel: n = 4 und p beliebig. Die Elementarereignisse für vierfache unabhängige
Versuchswiederholung mit möglichen Ausgängen 0 und 1 sind:
Ω = {(0, 0, 0, 0), (1, 0, 0, 0), (0, 1, 0, 0), (1, 1, 0, 0),
(0, 0, 1, 0), (1, 0, 1, 0), (0, 1, 1, 0), (1, 1, 1, 0),
(0, 0, 0, 1), (1, 0, 0, 1), (0, 1, 0, 1), (1, 1, 0, 1),
(0, 0, 1, 1), (1, 0, 1, 1), (0, 1, 1, 1), (1, 1, 1, 1)}
Die Wahrscheinlichkeiten für die Vierertupel können leicht angegeben werden, wenn
man beachtet, dass die Versuchswiederholungen unabhängig voneinander durchgeführt werden sollen, und daher die Wahrscheinlichkeit eines jeden Elementarereignisses das Produkt der Wahrscheinlichkeiten für die Ergebnisse der vier Versuchsausgänge ist.
111
P({(0, 0, 0, 0)})
P({(1, 0, 0, 0)})
...
P({(1, 0, 1, 0)})
P({(0, 1, 1, 0)})
...
P({(1, 1, 1, 1)})
= (1 − p) ∗ (1 − p) ∗ (1 − p) ∗ (1 − p) = (1 − p)4
= p ∗ (1 − p) ∗ (1 − p) ∗ (1 − p) = p(1 − p)3
...
= p ∗ (1 − p) ∗ p ∗ (1 − p) = p2(1 − p)2
= (1 − p) ∗ p ∗ p ∗ (1 − p) = p2(1 − p)2
...
= p ∗ p ∗ p ∗ p = p4
Die Wahrscheinlichkeiten hängen also nur von der Anzahl und nicht von der Position
der Einsen ab. Insgesamt erhält man für alle 16 Wahrscheinlichkeiten:
(1−p)4, p(1−p), p(1−p)3, p2(1−p)2, p(1−p)3, p2(1−p)2, p2(1−p)2, p3(1−p),
p(1−p)3, p2(1−p)2, p2(1−p)2, p3(1−p), p2(1−p)2, p3(1−p), p3(1−p), p4
112
Für k = 0, 1, 2, 3, 4 Einsen erhält man folgende Wahrscheinlichkeiten:
k
0
1
2
3
4
Einzelwahrscheinlichkeit
(1 − p)4
p(1 − p)3
p2(1 − p)2
p3(1 − p)1
p4
Anzahl Möglichkeiten
4
0 = 1
4
1 = 4
4
2 = 6
4
3 = 4
4
4 =1
P(k)
4
4
(1
−
p)
0
4
3
p(1
−
p)
1
4 2
2
p
(1
−
p)
2
4 3
− p)1
3 p (1
4 4
4 p
113
Allgemein kann die Anzahl der n-Tupel mit genau k Einsen durch folgendes Gedankenexperiment bestimmt werden:
Man stelle sich eine Urne mit n Kugeln vor, deren Kugeln mit den Zahlen 1 bis n
durchnummeriert sind. Jede der Kugeln steht für eine Position im n Tupel. Jeder
Möglichkeit, aus dieser Urne k Kugeln ohne Zurücklegen zu ziehen, kann man ein
n-Tupel mit genau k Einsen zuordnen, indem die Komponenten, die den Nummern
der gezogenen Kugeln entsprechen, mit Eins besetzen werden und alle anderen mit
Null.
n
k (gleiche
Die Anzahl der Möglichkeiten für k aus n ohne Zurücklegen beträgt
Begründung wie beim Lotto “6 aus 49“!). Die Wahrscheinlichkeit für genau k Einsen
ist deshalb
n
b(n, p, k) :=
pk (1 − p)n−k .
k
114
Definition: Der Wahrscheinlichkeitsraum
Ω = {0, 1, . . . , n}
mit
P(k) = b(n, p, k) =
n
pk (1 − p)n−k ,
k = 0, . . . , n
k
ist der Wahrscheinlichkeitsraum der Binomialverteilung mit n unabhängigen Wiederholungen und Trefferwahrscheinlichkeit p.
115
In R sind viele Wahrscheinlichkeitsverteilungen implementiert. Die b(n, p, k) erhält
man durch die Funktion dbinom:
>
>
>
>
n <- 10
p <- 0.3
k <- 0:10
dbinom(x=k, size=n, prob=p)
[1] 0.0282475249 0.1210608210 0.2334744405 0.2668279320 0.2001209490 0
[7] 0.0367569090 0.0090016920 0.0014467005 0.0001377810 0.0000059049
116
0.00
0.10
0.20
> y <- dbinom(x=k, size=n, prob=p)
> plot(x=k, y=y, type="h", cex.axis=1.8, cex.lab=1.8, ylab="")
0
2
4
6
8
10
k
117
Neben dbinom gibt es noch
• pbinom: Kumulierte Wahrscheinlichkeitsverteilung
Pk
i=0 b(n, p, i).
• qbinom: Umkehrfunktion von pbinom.
• rbinom Zufallszahlengenerator zur Erzeugung von binomialverteilten Zufallszahlen.
118
Beispiel: Eine faire Münze wird 50 mal geworfen. Die Wahrscheinlichkeit für genau
26 mal “Kopf“ ist dann b(50, 0.5, 26). Mit R ergibt das
> dbinom(x=26,size=50,prob=0.5)
[1] 0.1079569
119
Wie groß ist die Wahrscheinlichkeit für höchstens 20 mal “Kopf“?
> pbinom(q=20,size=50,prob=0.5)
[1] 0.1013194
120
Vorlesung 23.11.2016
121
2.4.2 Wahrscheinlichkeitsverteilungen auf abzählbar unendlichen Wahrscheinlichkeitsräumen
Bisher waren alle Wahrscheinlichkeitsräume endliche Mengen. Die meisten für die
Anwendung bedeutsamen Wahrscheinlichkeitsräume sind jedoch unendlich. Besonders wichtig sind die Verteilungen, die auf den Mengen IN , IN 0, Z
Z oder IR definiert
sind. Bevor diese Verteilungen eingeführt werden, muss der Begriff des Wahrscheinlichkeitsraums auf abzählbar unendliche Mengen ausgedehnt werden.
122
Definition: Eine abzählbar unendliche Menge
Ω = {ω1, ω2, . . .}
zusammen mit einer Funktion
P(ωk ) = pk ≥ 0,
k ∈ IN ,
für die die Normierungsbedingung
∞
X
pk = 1
k=0
gilt, heißt abzählbar unendlicher Wahrscheinlichkeitsraum.
123
Eine Teilmenge A ⊂ Ω heißt Ereignis des Wahrscheinlichkeitsraums (Ω, P). Es gilt
X
P(A) :=
P (ω).
ω∈A
Die Ereignisse können jetzt endliche oder unendliche Mengen sein. Die Summe
P
ω∈A P (ω) konvergiert wegen der Normierungsbedingung für jede Teilmenge A
von Ω.
Alle Rechenregeln, die für endliche Wahrscheinlichkeitsräume gelten, können auf
abzählbar unendliche Räume wortwörtlich übertragen werden.
Der einzige neue Aspekt ist, dass nun statt endlicher auch unendliche Summen (=Reihen) auftreten. Der Nachweis der Normierungsbedingung kann deshalb mathematisch
anspruchsvoller sein.
124
2.4.2.1 Die Poisson Verteilung
Das wichtigste Beispiel für eine Wahrscheinlichkeitsverteilung auf einem abzählbar
unendlichen Raum, ist die Poisson Verteilung.
Definition: Sei λ > 0 eine reelle Zahl. Die Wahrscheinlichkeitsverteilung auf
Ω = IN 0 = {0, 1, 2, . . .}
mit
λk
−λ
P(k) := p(λ, k) = e
,
k!
k = 0, 1, 2, . . .
heißt Poisson Verteilung zum Parameter λ.
125
In R ist die Poisson Verteilung in den Funktionen
• dpois: p(λ, k)
• ppois: Kumulierte Poisson Verteilung
Pk
i=0 p(λ, i)
• qpois: Umkehrfunktion von ppois
• rpois: Poissonverteilte Zufallszahlen
implementiert.
126
> dpois(x=0:8,lambda=1.5)
[1] 0.2231301601 0.3346952402 0.2510214302 0.1255107151 0.0470665182 0.
[7] 0.0035299889 0.0007564262 0.0001418299
127
>
>
>
+
x <- 0:8
y <- dpois(x=x, lambda=1.5)
plot(x=x,y=y, type="h", cex.axis=1.8, cex.lab=1.8, cex.main=2,
main="Poisson Verteilung", xlab=expression(lambda==1.5))
0.00
0.10
y
0.20
0.30
Poisson Verteilung
0
2
4
λ = 1.5
6
8
128
>
>
>
+
x <- 0:15
y <- dpois(x=x, lambda=5.1)
plot(x=x,y=y, type="h", cex.axis=1.8, cex.lab=1.8, cex.main=2,
main="Poisson Verteilung", xlab=expression(lambda==5.1))
0.00
0.05
y
0.10
0.15
Poisson Verteilung
0
5
10
15
λ = 5.1
129
Aufgabe: Zeigen Sie die Normierungsbedingung für die Poisson Verteilung.
P∞
Hinweis: Zeigen Sie
Exponentialfunktion.
k=0 p(λ, k) = 1. Benutzen Sie die Taylorentwicklung der
130
Die Poisson Verteilung wird zur Modellierung seltener aber häufig wiederkehrender
Ereignisse benutzt.
Der Grund hierfür liegt am Poissonschen Grenzwertsatz, der einen Zusammenhang
der Poissonverteilung mit der Binomialverteilung herstellt.
Poissonscher Grenzwertsatz: Sei λ > 0 eine reelle Zahl und
λ
pn :=
n
für n > λ.
Dann gilt
lim b(n, pn, k) = p(λ, k).
n→∞
131
Immer wenn ein Experiment mit zwei möglichen Ausgängen oft unabhängig wiederholt wird (n groß), die Trefferwahrscheinlichkeit p aber klein ist, kann die Binomialverteilung durch die Poisson Verteilung mit Parameter λ = np angenähert
werden.
Viele natürliche und nicht natürliche Vorgänge können aus diesem Grund mit einer
Poisson Verteilung beschrieben werden.
132
Beispiel: Die Anzahl der jährlichen Unfälle in einem Autobahnabschnitt ist näherungsweise poissonverteilt.
Begründung: Man nehme an, dass sich im fraglichen Autobahnabschnitt durchschnittlich λ Unfälle im Jahr ereignen. Dieser Durchschnitt λ kann durch Beobachtung des Unfallgeschehens über viele Jahre geschätzt werden.
Man denkt sich nun das Jahr T in n gleichlange disjunkte Teilintervalle T1, . . . , Tn
zerlegt. Wenn n groß ist, dann ist die Wahrscheinlichkeit für einen Unfall in einem
bestimmten Teilintervall λ/n. Die Wahrscheinlichkeit für zwei oder mehr Unfälle in
einem Teilintervall kann bei großen n vernachlässigt werden. In einem Teilintervall Ti
ereignet sich mit der Wahrscheinlichkeit pn = λ/n ein Unfall und mit 1 − pn kein
Unfall. Macht man noch die Annahme, dass sich in den Ti die Unfälle unabhängig
voneinander ereignen, dann ist man in der Situation der Binomialverteilung.
133
Die Wahrscheinlichkeit für genau k Unfälle in T ist daher b(n, k, pn). Da n beliebig
groß gemacht werden darf (entsprechend wird pn = λ/n klein), kann der Poissonsche Grenzwertsatz angewandt werden, und die Wahrscheinlichkeit für k Unfälle ist
p(λ, k).
Ist beispielsweise bekannt, dass sich durchschnittlich λ = 3.4 Unfälle im Jahr
ereignen, dann ist die Wahrscheinlichkeit, dass sich im nächsten Jahr kein Unfall
ereignet
3.40
−3.4
p(3.4, 0) = e
= e−3.4.
0!
> exp(-3.4)
[1] 0.03337327
134
Beispiel (DNA-Sequenzanalyse): Im Genom gibt es charakteristische Abschnitte, sogenannte “Anker“, deren Position bekannt ist. DNA-Fragmente, die einen Anker enthalten, können deshalb lokalisiert werden.
Man geht nun davon aus, dass im Mittel λ Anker pro 1000 bp (Basenpaare) auftreten.
In einem DNA Fragment der Länge L werden sich im Mittel Lλ Anker befinden (die
Länge des Fragments wird in Einheiten 1000 bp gemessen). Die tatsächliche Anzahl
in einem beliebigen DNS Teilstück der Länge L wird zufallsbedingt mehr oder weniger
von diesem Mittelwert abweichen. Unter idealen Modellannahmen (Welchen?) kann
man mit einer ähnlichen Argumentation wie beim vorigen Beispiel zeigen, dass die
Anzahl der Anker in einem DNA Fragment der Länge L einer Poisson Verteilung mit
Parameter Lλ gehorcht.
135
Beispiel: In der Epidemiologie wird eine Gruppe (Kohorte) von n = 10000 gesunden Personen durchschnittlich ein Jahr lang beobachtet. Es sei bekannt, dass die
Inzidenz einer Erkrankung ein Fall pro 1000 Personen und Jahr beträgt.
Die Anzahl der tatsächlich beobachteten Krankheitsfällen in der Kohorte im nächsten
Jahr wird dann gerne durch die Poissonverteilung mit λ = 10 beschrieben, da
die Wahrscheinlichkeit im nächsten Jahr zu erkranken für jede einzelne Person der
1 recht klein ist, die Anzahl der unabhängigen Versuche mit
Kohorte mit p = 1000
n = 10000 aber groß ist.
136
2.4.2.2 Die geometrische Verteilung
Ein Zufallsexperiment mit den beiden möglichen Ausgängen “Treffer“ oder “Niete“
wird unabhängig so lange wiederholt, bis das erste Mal “Treffer“ beobachtet wird.
Die Wahrscheinlichkeit für einen “Treffer“ sei p. Wie groß ist die Wahrscheinlichkeit
g(p, k), dass das Experiment nach k Versuchen abbricht?
Antwort: Das Experiment bricht nach k Versuchen genau dann ab, wenn die ersten
k − 1 Versuche Nieten ergeben und der k-te Versuch ein Treffer ist. Da die Versuche
unabhängig voneinander ausgeführt werden, gilt
g(p, k) = (1 − p)k−1p,
k = 1, 2, . . . ,
137
Definition: Die Wahrscheinlichkeitsverteilung
Ω = IN = {1, 2, . . .}, mit P(k) = (1 − p)k−1p,
k∈Ω
heißt geometrische Verteilung.
Aufgabe: Beweisen Sie die Normierungsbedingung für die geometrische Verteilung.
Warum heißt die Verteilung “geometrisch“?
138
Vorlesung 30.11.2016
139
2.4.3 Überabzählbare Wahrscheinlichkeitsräume: Die reellen Zahlen IR
als Wahrscheinlichkeitsraum
2.4.3.1 IR als Wahrscheinlichkeitsraum
Bisher wurden nur endliche und abzählbar unendliche Wahrscheinlichkeitsräume betrachtet. Abzählbar unendliche Mengen sind z.B. IN , Z
Z oder sogar die rationalen
Zahlen Q, nicht aber die reellen Zahlen IR.
Eine ganz wichtige Klasse von Verteilungen sind aber Verteilungen auf den reellen
Zahlen IR. Die Ergebnisse vieler Zufallsexperimente werden durch reelle Zahlen beschrieben. Der Begriff des Wahrscheinlichkeitsraums muss deshalb auf die Menge
Ω = IR erweitert werden.
140
Beispiel: Eine wichtige Klasse von Zufallsexperimenten mit Ergebnissen in IR sind
alle Messungen. Da jeder Messprozess mehr oder weniger durch zufällige Fehler
gestört ist, sind die Ergebnisse einer jeden Messung in einem gewissen Rahmen
zufallsbedingt.
Beispiel: Man wähle aus einer Population von Menschen zufällig einen aus und bestimme seine Körpergröße. Das Ergebnis ist eine reelle Zahl, die“vom Zufall“ abhängt.
Zum einen ist die Auswahl des Individuums zufällig, aber auch die Messung selbst
hat eine zufallsbedingte Unschärfe.
141
Man kann zeigen, dass IR nicht wie die natürlichen oder ganzen Zahlen in der
Form {ω1, ω2, . . .} darstellbar ist. Man sagt auch, dass IR nicht abzählbar oder
überabzählbar ist.
Das Konzept, die Wahrscheinlichkeitsverteilung P zunächst für die Elementarereignisse ω ∈ Ω zu definieren und dann durch
X
P(A) =
P(ω)
ω∈A
auf jede Teilmenge A ⊂ Ω zu erweitern, ist für Ω = IR undurchführbar, da
die Summation für die meisten Teilmengen A ⊂ IR nicht definierbar ist. A kann
so “groß“ sein (z.B. IR selbst), dass bei jeder auch unendlichen Summation immer
unendlich viele Elemente von A ausgelassen werden.
142
Um auf IR Wahrscheinlichkeitsverteilungen zu definieren, muss man sich von der
Idee, jeder Teilmenge A ⊂ Ω eine Wahrscheinlichkeit zuzuordnen, verabschieden.
Man begnügt sich zunächst, allen Intervallen [a, b] ⊂ IR Wahrscheinlichkeiten
P([a, b]) zuzuordnen.
Das geschieht mit Hilfe der Integralrechnung.
143
Definition: Eine Wahrscheinlichkeitsdichte ist eine reelle integrierbare Funktion φ(t) ≥
0
φ : IR −→ IR
mit
Z
∞
φ(t)dt = 1 (Normierungsbedingung).
−∞
Jede solche Funktion φ definiert auf IR eine stetige Wahrscheinlichkeitsverteilung
auf IR, indem jedem Intervall [a, b] ⊂ IR die Wahrscheinlichkeit
Z b
φ(t)dt.
P([a, b]) =
a
zugeordnet wird.
144
Bemerkung: Auf gleiche Weise kann auch für offene, halboffene oder die unendlichen
Intervalle (−∞, b], [a, ∞) und ganz IR die Wahrscheinlichkeit P definiert werden.
Bemerkung: Zunächst ist P nur für beliebige Teilintervalle von IR definiert. Man
kann zeigen, dass P noch für viel mehr Mengen sinnvoll definiert werden kann. Diese
Mengen heißen messbare Mengen.
In dieser Vorlesung ist es aber nur wichtig zu wissen, wie P für Intervalle und endliche
Vereinigungen von Intervallen berechnet wird.
145
Sei
A = I1 ∪ I2 ∪ · · · ∪ In
die Vereinigung von paarweise disjunkten abgeschlossenen, offenen oder halboffenen
Intervallen (Ij = (aj , bj ), [aj , bj ], [aj , bj ) oder (aj , bj ]). P(A) sei dann als
P(A) =
n Z
X
bi
φ(t)dt.
i=1 ai
definiert. Auch für Mengen A, die Vereinigung einer unendlichen Folge von paarweise
disjunkten Intervallen ist, kann eine Wahrscheinlichkeit zugeordnet werden:
146
Sei
A = I1 ∪ I2 ∪ · · · = ∪∞
i=1 Ii
mit Ii ∩Ij = ∅ für i, j ∈ IN die Vereinigung einer unendlichen Folge von paarweise
disjunkten Intervallen. Dann definiert man
∞ Z
X
P(A) =
φ(t)dt.
i=1 Ii
R
Ii bezeichne das Integral von der unteren bis zur oberen Grenze des Intervalls Ii .
Die Mengen A, die als endliche oder abzählbar unendliche Vereinigungen von Intervallen geschrieben werden können, heißen die Borelmengen von IR. Eine genauere
Untersuchung dieser Mengen ist Gegenstand der Maßtheorie.
147
2.4.3.2 Die Standardnormalverteilung
Das wichtigste Beispiel für eine auf IR definierte stetige Wahrscheinlichkeitsverteilung ist die Standardnormalverteilung.
Definition: Die auf IR durch die Wahrscheinlichkeitsdichte (Gaußsche Glockenkurve)
2
1
φ(t) := √ e−t /2
2π
definierte Wahrscheinlichkeitsverteilung heißt die Standardnormalverteilung.
148
Die Wahrscheinlichkeit P([a, b]) für ein beliebiges Intervall [a, b] ist für die Standardnormalverteilung
Z b
2
1
√ e−t /2dt,
P([a, b]) =
2π
a
die Fläche unter der Kurve φ(t) zwischen a und b.
149
Beispiel: Für [1, 2] ist P([1, 2]) die schraffierte Fläche unter der Kurve der Wahrscheinlichkeitsdichte.
0.2
0.1
0.0
dnorm
0.3
0.4
a=1 und b=2
−3
−2
−1
0
1
2
3
x
150
Um Wahrscheinlichkeiten von Intervallen für eine stetige Verteilung auf IR ausrechnen zu können, müssen Integrale berechnet werden. Da das oft schwierig oder wie
im Fall der Standardnormalverteilung mit elementaren Funktionen nicht möglich ist,
definiert man zu jeder Wahrscheinlichkeitsdichte φ(t) die Verteilungsfunktion
Z x
F (x) :=
φ(t)dt.
−∞
Die Verteilungsfunktion ist eine Stammfunktion der Dichtefunktion:
F 0(x) = φ(x).
151
Aus den Regeln der Integralrechnung (Additivität des Integrals) folgt nun:
Z b
P([a, b]) =
φ(t) dt =
Zab
Z a
Z a
=
φ(t) dt +
φ(t) dt −
φ(t) dt =
−∞
Z a
a
b
Z
φ(t) dt −
=
−∞
−∞
φ(t) dt =
−∞
= F (b) − F (a)
Man muss also nur die Verteilungsfunktion F (x) kennen, um die Wahrscheinlichkeit
für beliebige Intervalle ausrechnen zu können.
152
Die Verteilungsfunktion
Z
x
1 −t2/2
Φ(x) =
e
dt
−∞ 2π
der Standardnormalverteilung ist in R aber auch in vielen anderen Softwarepaketen
implementiert. In der Regel wird sie mit Φ bezeichnet.
In R ist die Dichte der Standardnormalverteilung die Funktion dnorm und die Verteilungsfunktion Φ erhält man mit pnorm.
153
Die Wahrscheinlichkeit P([a, b]) (schraffierte Fläche unter der Kurve im vorigen
Diagramm) kann daher in R mit
> pnorm(2)-pnorm(1)
[1] 0.1359051
berechnet werden.
154
0.00
0.0
0.1
0.05
0.2
0.10
0.3
0.15
0.4
Stetige Verteilung versus diskrete Verteilung:
−3
−1
1
2
3
0
2
4
6
8
10
155
2.4.3.3 Die allgemeine Normalverteilung
Definition: Die durch die Dichte
φ(t) := √
1
2πσ 2
t−µ 2
1
−2 σ
e
definierte Wahrscheinlichkeitsverteilung heißt Normalverteilung mit Erwartungswert
µ und Varianz σ 2.
Bemerkung: Erwartungswert und Varianz werden erst im nächsten Abschnitt definiert. Zunächst sollen sie nur Bezeichnungen für die Parameter µ und σ 2 sein.
Bemerkung: Offensichtlich ist die Standardnormalverteilung die Normalverteilung mit
Erwartungswert 0 und Varianz 1.
156
Bemerkung: Der Beweis der Normierungsbedingung
Z ∞
t−µ 2
1
1
−2 σ
√
e
dt = 1
2
−∞ 2πσ
für die Normalverteilung ist nicht ganz einfach und soll hier übergangen werden.
Die allgemeine Normalverteilung ist in R auch in den Funktionen dnorm und pnorm
implementiert:
> pnorm(2,mean=1,sd=2)
[1] 0.6914625
157
ergibt beispielsweise P((−∞, 2]) für die Normalverteilung mit Erwartungswert 1
und Varianz 4. Das optionale Argument sd erwartet die Eingabe der Standardabweichung (=Quadratwurzel aus der Varianz).
In der folgenden Graphik werden Dichtefunktionen der Normalverteilung für einige
ausgewählte Parameter dargestellt.
158
1.5
Normalverteilungen (Dichten)
0.0
0.5
1.0
Erwartungswert −1 und Varianz 1
Erwartungswert 1 und Varianz 4
Erwartungswert 0 und Varianz 1/9
−4
−2
0
2
4
159
2.4.3.4 Die Gleichverteilung
Definition: Seien a < b zwei reelle Zahlen. Die durch die Wahrscheinlichkeitsdichte
1
, t ∈ [a, b]
b−a
φ(t) :=
0 sonst
definierte Wahrscheinlichkeitsverteilung auf IR heißt Gleichverteilung zwischen a und
b.
Man überzeuge sich, dass für jedes Teilintervall [c, d] ⊂ [a, b]
d−c
P([c, d]) =
b−a
gilt. Insbesondere erhalten gleichlange Teilintervalle von [a, b] die gleiche Wahrscheinlichkeit zugeordnet.
160
3.0
Gleichverteilungen (Dichten)
1.5
1.0
0.5
0.0
y1
2.0
2.5
a=0 und b=1
a=2 und b=2.5
161
−1
0
1
2
x
3
4
Mit den R-Funktionen dunif und punif können Werte der Dichte- bzw. Verteilungsfunktion der Gleichverteilung berechnet werden.
> punif(2.1,min=2,max=2.5)
[1] 0.2
> dunif(2.1,min=2,max=2.5)
[1] 2
162
Bemerkung: Die Werte von Wahrscheinlichkeitsdichten sind keine Wahrscheinlichkeiten! Für eine stetige Verteilung ist die Wahrscheinlichkeit einer einzelnen reellen
Zahl a ∈ IR stets
Z a
P(a) =
φ(t) dt = 0
a
und nicht φ(a).
Bemerkung: Da die Werte von Wahrscheinlichkeitsdichten keine Wahrscheinlichkeiten sind, müssen sie auch nicht auf [0, 1] beschränkt sein. Wahrscheinlichkeitsdichten können beliebige Werte ≥ 0 annehmen. Es gibt sogar Wahrscheinlichkeitsdichten, die nicht beschränkt sind! Jede nicht negative integrierbare Funktion, die die
Normierungsbedingung erfüllt, ist erlaubt.
163
2.4.3.5 Die χ2-Verteilung mit einem Freiheitsgrad
Eine für die Praxis wichtige Verteilung mit unbeschränkter Dichte ist die χ2-Verteilung
mit einem Freiheitsgrad. Ihre Bedeutung für statistische Tests werden wir später kennenlernen.
0.0
0.5
1.0
1.5
Dichte der Chiquadratverteilung
mit 1 Freiheitsgrad
−1
0
1
2
x
3
4
(
φ(t) =
−t/2
√1 e √
t
2π
t>0
.
0 sonst
164
2.4.3.6 Die Familie der t-Verteilungen
Für jede positive ganze Zahl ν wird durch die Wahrscheinlichkeitsdichte
− ν+1
ν+1 2
2
Γ( 2 )
t
fν (t) = √
,
ν) 1 + ν
νπΓ( 2
t ∈ IR
die t-Verteilung mit ν Freiheitsgraden definiert. Hier bezeichnet Γ die Gammafunktion.
In R sind die Wahrscheinlichkeitsdichten der t-Verteilung in dt und die (kumulative) Wahrscheinlichkeitsverteilung der t-Verteilung in pt implementiert. Die Umkehrfunktion von pt erhält man durch qt und den Zufallszahlengenerator durch rt. Die
Freiheitsgrade ν müssen immer über das Argument df angegeben werden.
165
0.0
0.1
0.2
0.3
0.4
ν=1
ν=5
ν = 20
ν = ∞ (=N(0, 1))
166
−6
−4
−2
0
t
2
4
6
2.4.3.7 Die Exponentialverteilung
Sei λ > 0. Die durch die Wahrscheinlichkeitsdichte
λe−λt t ≥ 0
fλ(t) =
0 t<0
definierte Verteilung heiß Exponentialverteilung mit Parameter λ.
Man kann zeigen, dass die Zeit T , die bis zum ersten Eintreffen eines bestimmet Ereignisses verstreicht, unter bestimmen idealisierten Bedingungen exponentialverteilt
ist.
167
2.4.4 Zusammenfassung
1. Endliche Wahrscheinlichkeitsräume
(a) Laplaceraum Ω mit n Elementen. Jede Elementarwahrscheinlichkeit ist
gleich groß = 1/|Ω|.
(b) Binomialverteilung mit n Wiederholungen und Trefferwahrscheinlichkeit p.
Wahrscheinlichkeitsraum Ω = {0, . . . , n} mit
n
P(k) = b(n, p, k) =
pk (1 − p)n−k , k = 0, . . . , n.
k
168
2. Verteilungen auf abzählbar unendlichen Mengen
(a) Poissonverteilung mit Parameter λ. Ω = IN 0 und die Elementarwahrscheinlichkeiten sind durch
λk
−λ
p(λ, k) = e
, k = 0, 1, . . .
k!
gegeben.
(b) Geometrische Verteilung mit Trefferwahrscheinlichkeit p. Ω = IN und die
Elementarwahrscheinlichkeiten sind durch
g(k) = (1 − p)k−1p, k = 1, 2, . . .
gegeben.
169
3. Stetige Verteilungen auf IR.
(a) Normalverteilung mit Erwartungswert µ und Varianz σ 2. Die Verteilung ist
über ihre Dichte
φ(t) = √
1
2πσ 2
t−µ 2
1
−2 σ
e
definiert.
(b) Gleichverteilung auf [a, b]. Die Dichte der Gleichverteilung ist
1
, t ∈ [a, b]
b−a
.
φ(t) :=
0 sonst
(c) χ2 Verteilung mit einem Freiheitsgrad
(
φ(t) =
−t/2
√1 e √
t
2π
t>0
0 sonst
170
(d) t-Verteilung mit ν Freiheitsgraden
− ν+1
ν+1 2
2
Γ( 2 )
t
fν (t) = √
,
ν) 1 + ν
νπΓ( 2
(e) Exponentialverteilung mit Parameter λ
λe−λt t ≥ 0
fλ(t) =
0 t<0
t ∈ IR
Vorlesung 7.12.2016
171
2.5 Zufallsvariable, Erwartungswert, Varianz und Unabhängigkeit von Zufallsvariablen
172
2.5.1 Zufallsvariablen
Definition: Eine (reelle) Zufallsvariable X ist eine Abbildung von einem Wahrscheinlichkeitsraum Ω in die reellen Zahlen IR.
X : Ω −→ IR.
Beispiel: Sei
Ω = {1, 2, 3, 4, 5, 6} × {1, 2, 3, 4, 5, 6}
mit
P((i, j)) = 1/36
der Wahrscheinlichkeitsraum, der das Zufallsexperiment des zweimaligen Würfelns
mit einem fairen Würfel beschreibt.
X((i, j)) = i + j
sei die Zufallsvariable, die die Summe der Augenzahlen beider Würfe angibt.
173
2.5.2 Erwartungswert und Varianz
Definition: Der Erwartungswert E(X) einer reellen Zufallsvariable X auf einem
Wahrscheinlichkeitsraum Ω ist folgendermaßen definiert:
a) Ω ist ein diskreter (=endlicher oder abzählbar unendlicher) Wahrscheinlichkeitsraum.
X
E(X) =
X(ω)P(ω)
ω∈Ω
b) Ω = IR ist ein stetiger Wahrscheinlichkeitsraum mit Wahrscheinlichkeitsdichte
φ.
Z ∞
E(X) =
X(t)φ(t) dt
−∞
174
Definition: Sei X eine Zufallsvariable auf einem Wahrscheinlichkeitsraum Ω, für die
der Erwartungswert E(X) existiert. Die Varianz Var(X) von X ist folgendermaßen
definiert:
1. Ω ist ein diskreter (=endlicher oder abzählbar unendlicher) Wahrscheinlichkeitsraum.
X
(X(ω) − E(X))2P(ω)
Var(X) =
ω∈Ω
2. Ω = IR ist ein stetiger Wahrscheinlichkeitsraum mit Wahrscheinlichkeitsdichte
φ.
Z ∞
Var(X) =
(X(t) − E(X))2φ(t) dt
−∞
175
Bemerkung: Erwartungswert und Varianz müssen nicht für jede Zufallsvariable X
existieren. Der Erwartungswert existiert nur, wenn die Summe bzw. das Integral in
der Definition konvergiert bzw. existiert.
Entsprechend existiert die Varianz einer Zufallsvariable nur dann, wenn ihr Erwartungswert existiert und wenn die Summe bzw. das Integral in der Definition konvergiert bzw. existiert.
176
Für viele wichtige Verteilungen wie z.B. die Binomialverteilung, Poissonverteilung,
geometrische Verteilung, Gleich- und Normalverteilung gilt Ω ⊂ IR.
In diesem Fall ist die identische Abbildungen X
X : Ω −→ IR
x 7−→ x
eine wichtige Zufallsvariable. Man sagt dann, dass X gemäß der Verteilung von Ω
verteilt ist.
177
Beispiel: Spricht man beispielsweise von einer poissonverteilten Zufallsvariable X mit
Parameter λ, dann versteht man darunter die Abbildung
X : Ω −→ IR
k 7−→ k,
wobei Ω = IN 0 der diskrete Wahrscheinlichkeitsraum mit den Elementarwahrk
scheinlichkeiten p(λ, k) = e−λ λk! ist.
178
Erwartungswert und Varianz sind dann
E(X) =
∞
X
k=0
λ
ke−λ
k
k!
und
Var(X) =
∞
X
k=0
λk
2
−λ
.
(k − E(X)) e
k!
Man kann zeigen, dass beide Summen λ sind. Der Parameter λ ist deshalb sowohl
Erwartungswert als auch Varianz der Poissonverteilung.
Definition: Unter Erwartungswert und Varianz einer Wahrscheinlichkeitsverteilung
auf Ω ⊂ IR versteht man Erwartungswert und Varianz der identischen Abbildung
von Ω nach IR.
179
Bemerkung: Der Begriff Varianz tauchte auch schon im Zusammenhang mit der
Beschreibung von Stichproben auf. Was ist der Zusammenhang von Stichprobenvarianz und arithmetischer Mittelwert mit Erwartungswert und Varianz von Wahrscheinlichkeitsverteilungen? Zunächst handelt es sich um unterschiedliche Begriffe.
Der Bezug zwischen beiden wird durch das Gesetz der großen Zahlen hergestellt: In
einer großen Stichprobe mit n unabhängigen Elementen wird der Mittelwert nahe am
Erwartungswert und die Varianz der Stichprobe nahe an der Varianz der zugrunde
liegenden Verteilung liegen. Für n → ∞ ist der arithmentische Mittelwert exakt
der Erwartungswert und die Stichprobenvarianz exakt die Varianz der Verteilung. Da
aber immer endliche Stichproben vorliegen, sind Stichprobenvarianz und arithmetischer Mittelwert mehr oder wenig gute Schätzer für Erwartungswert und Varianz der
zugrunde liegenden Verteilung.
180
2.5.3 Unabhängigkeit von Zufallsvariablen
Definition: Zwei Zufallsvariablen X und Y , die auf dem gleichen diskreten Wahrscheinlichkeitsraum Ω definiert sind, heißen unabhängig, wenn für alle x1, x2 ∈ IR
die Mengen (Ereignisse) X −1(x1) und Y −1(x2) unabhängig sind.
Bemerkung: Auch für Zufallsvariablen auf stetigen Warscheinlichkeitsräumen kann
der Begriff der unabhängigen Zufallsvariablen definiert werden. Dazu benötigt man
aber Grundbegriffe der mehrdimensionalen Integrationsrechnung, die den Rahmen
dieser Vorlesung sprengen würden.
181
Beispiel: Sei
Ω = {1, 2, 3, 4, 5, 6} × {1, 2, 3, 4, 5, 6}
mit
P((i, j)) = 1/36
der Wahrscheinlichkeitsraum (Laplaceraum), der das Zufallsexperiment des zweimaligen Würfelns mit einem fairen Würfel beschreibt. Dann sind die Zufallsvariablen
X : Ω −→ IR
(ω1, ω2)
7→
ω1
und
Y : Ω −→ IR
(ω1, ω2)
7→
ω2
unabhängig.
182
Sei Z die Zufallsvariable mit
Z : Ω −→ IR
(ω1, ω2)
7→
ω1 + ω2,
dann ist Z weder von X noch von Y unabhängig. Wählt man x1 = 1 und x2 = 2,
dann gilt
X −1(x1) = {(1, 1), . . . , (1, 6)}
und
Z −1(x2) = {(1, 1)}.
Die Ereignisse {(1, 1), . . . , (1, 6)} und {(1, 1)} sind aber nicht unabhängig, da
aus {(1, 1)} das Ereignis {(1, 1), . . . , (1, 6)} folgt.
183
Bemerkung: Die Unabhängigkeit von Zufallsvariablen wird oft nicht bewiesen, sondern vorausgesetzt.
Werden beispielsweise Messungen an unabhängigen statistischen Einheiten (z.B. Personen, Probanden, Patienten, Zellkulturen,...) durchgeführt, dann werden die Messergebnisse X1, . . . , Xn in der Regel als unabhängige Zufallsvariablen angesehen.
Die Unabhängigkeit folgt dann nicht aus der Mathematik, sondern sie wird aus der
Versuchsanlage plausibel.
Das Experiment (Studie) muss so durchgeführt werden, dass sich die Versuche an
den einzelnen statistischen Einheiten nicht gegenseitig beeinflussen können.
184
2.5.4 Wichtige Rechenregeln für Erwartungswert und Varianz
Seien X und Y zwei Zufallsvariablen, deren Erwartungswerte existieren.
1. E(X + Y ) = E(X) + E(Y )
2. E(aX) = aE(X) für a ∈ IR
3. Var(aX) = a2Var(X) für a ∈ IR
4. Var(X) = E(X 2) − E(X)2
185
5. Sind X und Y unabhängig, dann gilt
E(XY ) = E(X)E(Y )
und
Var(X + Y ) = Var(X) + Var(Y ).
6. Für die konstante Zufallsvariable X = a (a ∈ IR) gilt:
E(X) = E(a) = a
und
Var(X) = Var(a) = 0.
186
Vorlesung 14.12.2016
187
2.5.5 Erwartungswert und Varianz einiger wichtiger Verteilungen
1. Die Binomialverteilung auf Ω = {0, 1, . . . , n} mit Trefferwahrscheinlichkeit
p hat
(a) Erwartungswert np
(b) Varianz np(1 − p)
2. Die Poissonverteilung auf Ω = IN 0 mit Parameter λ > 0 hat
(a) Erwartungswert λ
(b) Varianz λ
188
3. Die geometrische Verteilung auf Ω = IN mit Trefferwahrscheinlichkeit p > 0
hat
(a) Erwartungswert 1/p
(b) Varianz 1−p
2
p
4. Die Normalverteilung mit Dichte φ(t) = √ 1
2πσ 2
t−µ 2
1
−2 σ
e
hat
(a) Erwartungswert µ
(b) Varianz σ 2
189
5. Die Gleichverteilung auf (a, b) hat
(a) Erwartungswert (a + b)/2
(b) Varianz (b − a)2/12
190
2.5.6 Die standardisierte Zufallsvariable
Sei X eine Zufallsvariable, für die Erwartungswert und Varianz existieren, dann heißt
X − E(X)
Z= p
Var(X)
p
die standardisierte Zufallsvariable für X. Der Nenner Var(X) heißt die Standardabweichung von X und wird oft mit σ(X) bezeichnet.
Aufgabe: Zeige, dass die standardisierte Zufallsvariable Z von X Erwartungswert 0
und Varianz 1 hat.
191
3. Der statistische Hypothesentest
3.1 Der Binomialtests
3.1.1 Wann ist eine Münze fair?
In der Wahrscheinlichkeitsrechnung nimmt man bestimmte Verteilungen als gegeben
an und benutzt sie, um Voraussagen über die Wahrscheinlichkeit von Ereignissen zu
treffen.
Beispiel: Wird eine faire Münze n mal unabhängig geworfen und sei X die Anzahl
der Würfe mit “Kopf“, dann ist X binomialverteilt mit n Versuchswiederholungen
und Trefferwahrscheinlichkeit 1/2 (X ∼ B(n, p)). Unter diesen Modellannahmen
kann nun beispielsweise ausgerechnet werden, wie groß die Wahrscheinlichkeit ist,
dass X in einem bestimmten vorgegebenen Bereich liegt.
192
>
>
>
>
n <- 100
k1 <- 40
k2 <- 60
pbinom(k2,n,0.5)-pbinom(k1-1,n,0.5)
[1] 0.9647998
ist die Wahrscheinlichkeit, dass eine 100 mal geworfene faire Münze zwischen 40 und
60 mal Kopf zeigt.
193
In der schließenden Statistik wird nun die Fragerichtung umgekehrt. Eine typisches
Problem wäre folgende Fragestellung:
Eine Münze wurde n = 100 mal geworfen und es wurde k = 30 mal Kopf
beobachtet. Ist die Münze eine faire Münze (p = 1/2)? Was kann über die Trefferwahrscheinlichkeit p ausgesagt werden?
194
Zunächst ist klar, dass aus der Beobachtung k = 30 vom logischen Standpunkt aus
nichts über p ausgesagt werden kann. Für jedes 0 < p < 1 sind alle k = 0, . . . , n
mögliche Ergebnisse des Münzwurfexperiments.
Trotzdem ist es recht unwahrscheinlich, dass z.B. bei 100 Würfen kein einziges mal
Kopf erscheint, wenn die Münze fair ist (p = 1/2). Die Wahrscheinlichkeit für
dieses Ereignis kann sogar leicht zu
> (1/2)^100
[1] 7.888609e-31
berechnet werden. Da sie so klein ist, erscheint es vernünftig, nach einem solch
extremen Versuchsausgang (k = 100) nicht mehr zu glauben, dass die Münze fair
(p = 1/2) ist.
195
Wie schaut die Situation bei k = 30 aus? Wird man auch bei k = 30 nicht
mehr an p = 1/2 glauben? Um diese Frage zu beantworten, ist es sinnvoll, sich
die Binomialverteilung B(100, 1/2) graphisch darzustellen:
196
0.00
0.02
0.04
0.06
Wahrscheinlichkeit
0.08
B(100,0.5)
197
0
20
40
60
k
80
100
Auch k = 30 liegt in einem Bereich, der wenn p = 1/2 gilt (faire Münze), mit
einer sehr geringen Wahrscheinlichkeit angenommen wird. Die Wahrscheinlichkeit
P(X ≤ 30) beträgt
> pbinom(30,100,0.5)
[1] 3.92507e-05
Auch hier wird man wohl nicht mehr glauben, dass p = 1/2 gilt.
Wie oft darf Kopf höchstens auftreten, dass man sich gegen die Annahme p = 1/2
entscheidet?
198
Es ist also nach einer Entscheidungsregel gefragt. Jedem Versuchsausgang (=Anzahl
k = 0, . . . , n) soll nach einer vor dem Versuch festgelegten Regel entschieden
werden, ob man p = 1/2 (statistisch) ausschließt oder nicht.
Diese Entscheidungsregel wird durch Festlegung eines Ablehnungsbereichs, auch kritischer Bereich genannt, definiert:
199
Vorgehensweise bei der Festlegung eines Ablehnungsbereichs für p = 1/2 (faire
Münze):
1. Zunächst wird der Bereich identifiziert, der nur mit einer geringen Wahrscheinlichkeit angenommen wird, wenn p = 1/2 wahr ist. Hier sind das offensichtlich
die kleinen Werte für k, also k = 0, 1, 2, . . . und die großen Werte für k, also
k = n, n − 1, . . .. Fällt k in den Bereich nahe um den Erwartungswert n/2,
wird man p = 1/2 nicht ausschließen können. Der Ablehnungsbereich ist also
A = {0, . . . , K1} ∪ {K2, . . . , n}
mit noch zu bestimmenden K1 und K2.
2. Um K1 und K2 ausrechnen zu können, muss angegeben werden, welche Wahrscheinlichkeiten als “klein“ angesehen werden. Man gibt sich dafür eine Zahl
0 < α < 1 vor. Wahrscheinlichkeiten < α gelten dann als klein.
200
3. K1 und K2 werden so bestimmt, dass für X ∼ B(n, 1/2)
P(X ≤ K1) ≤ α/2 und P(X ≤ K1 + 1) > α/2
und
P(X ≥ K2) ≤ α/2 und P(X ≤ K2 − 1) > α/2
gilt.
201
4. Für α = 0.05 erhält man wegen
> pbinom(39,100,0.5); pbinom(40,100,0.5)
[1] 0.0176001
[1] 0.02844397
K1 = 39 und wegen
> 1-pbinom(60,100,0.5); 1-pbinom(59,100,0.5)
[1] 0.0176001
[1] 0.02844397
K2 = 61.
202
5. Der Ablehnungsbereich ist somit
A = {0, 1, . . . , 39} ∪ {61, 62, . . . , 100}.
Immer wenn die Anzahl von “Kopf“ in A liegt, wird man nicht mehr glauben,
dass die Münze fair ist. Liegt dagegen k in
{40, 41, . . . , 60},
dann wird man sagen, dass das Versuchsergebnis nicht gegen die Annahme
p = 1/2 spricht. Es wird weiter für möglich gehalten, dass die Münze fair ist.
203
k ≥ 61
0.02
0.04
k ≤ 39
0.00
Wahrscheinlichkeit
0.06
0.08
Ablehnungsbereich
204
0
20
40
60
Anzahl Kopf
α = 0.05
80
100
Der Ablehnungsbereich hängt von der Wahl für α ab. Für α = 0.001 erhält man
beispielsweise mit K1 = 33 und K2 = 67 einen kleineren Ablehnungsbereich als
für α = 0.05.
Je kleiner α gewählt wird, desto extremer muss der Versuchsausgang sein, um sich
gegen p = 1/2 entscheiden zu können.
205
3.1.2 Der zweiseitige Binomialtest
Diese Entscheidungsregel kann zum zweiseitigen Binomialtest verallgemeinert werden:
Definition (Binomialtest, zweiseitig): Sei X ∼ B(n, p) eine binomial verteilte Zufallsvariable mit n unabhängigen Versuchswiederholungen und Trefferwahrscheinlichkeit p. Für den zweiseitigen Binomialtest werden folgende Schritte durchgeführt:
206
1. Schritt: Wahl eines p0 ∈ (0, 1) und Aufstellen der Nullhypothese
H 0 : p = p0 .
Die Nullhypothese ist eine Annahme über die Trefferwahrscheinlichkeit p. Im
Beispiel (ist die Münze fair?) wurde angenommen, dass die Münze fair war, d.h.
p0 = 1/2 gilt. Die Nullhypothese lautet in diesem Fall H0 : p = 1/2. In
der Regel wird die Nullhypothese mit H0 bezeichnet.
Warnung! Wir behaupten weder, dass die Nullhypothese wahr, noch dass sie
falsch ist. Sie ist vielmehr der Ausgangspunkt eines Gedankenexperiments.
2. Schritt: Festlegung eines Signifikanzniveaus α. Im Prinzip ist jede Zahl zwischen 0 und
1 eine zulässige Wahl für α. Sinnvoll sind allerdings nur kleine Werte für α.
Üblich ist α = 0.1, 0.05, 0.01 und 0.001. In der medizinischen Forschung
ist α = 0.05 die Standardwahl für das Signifikanzniveau.
207
3. Schritt: Berechnung der Grenzen K1 und K2 des zweiseitigen Ablehnungsbereichs
A = {0, 1, . . . , K1} ∪ {K2, . . . , n}.
Für die Berechnung von K1 und K2 wird nun angenommen, dass die Nullhypothese H0 wahr ist, d.h. X ∼ B(n, p0). Unter dieser Annahme werden K1
und K2 so bestimmt, dass X höchstens mit Wahrscheinlichkeit α Werte in A
annimmt und dass A möglichst groß ist:
P(X ≤ K1) ≤ α/2 und P(X ≤ K1 + 1) > α/2
und
P(X ≥ K2) ≤ α/2 und P(X ≤ K2 − 1) > α/2
gelten.
208
4. Schritt: Prüfe, ob X (genauer, die Realisierung von X) im Ablehnungsbereich liegt. Gilt
X ∈ A wird die Nullhypothese abgelehnt. Man sagt auch, dass H0 statistisch
widerlegt oder ausgeschlossen wurde.
Gilt X ∈
/ A, dann behält man die Nullhypothese bei. Man sagt auch, dass die
H0 mit den Daten verträglich ist.
Warnung: Kann die H0 nicht abgelehnt werden, dürfen wir nicht behaupten,
dass die H0 statistisch bewiesen sei. Ob H0 wahr oder falsch ist, bleibt dann
weiterhin offen.
209
3.1.3 Der P-Wert des zweiseitigen Binomialtests
Wir haben gesehen, dass die Aussage “H0 wird abgelehnt“ immer nur im Zusammenhang mit der Angabe des Signifikanzniveaus α sinnvoll ist. Beispielsweise würde
ein Versuchsausgang k = 34 mal “Kopf“ auf dem Niveau α = 0.05 zu einer
Ablehnung der H0 : p = 1/2 führen, auf dem Niveau α = 0.001 muss jedoch
H0 beibehalten werden.
Für die Vorgabe von α gibt es keine mathematisch-statistisch begründbare Regel.
Der oft verwendete Wert α = 0.05 ist nur eine übliche Konvention.
210
Deshalb ist es sinnvoll, den statistischen Test unabhängig von der Vorgabe eines
speziellen α-Niveaus zu machen. Das führt zum Begriff des P-Werts.
Definition: Der P-Wert ist das kleinste Signifikanzniveau, auf dem die Nullhypothese
abgelehnt werden kann.
Zur Bestimmung des P-Werts muss also neben der Nullhypothese und dem Hypothesentest auch das Versuchsergebnis bekannt sein.
211
Beispiel: H0 : p = 1/2 kann mit dem Versuchsausgang k = 34 mal “Kopf“ auf
dem Niveau α = 0.05 abgelehnt werden, auf dem Niveau α = 0.001 jedoch
nicht mehr. Der P-Wert für k = 34 muss also zwischen 0.001 und 0.05 liegen.
Das kleinste Signifikanzniveau, auf dem die Nullhypothese bei k = 34 gerade noch
abgelehnt werden kann, beträgt
α = 2P(X ≤ 34) für X ∼ B(100, 1/2).
> 2*pbinom(34,100,1/2)
[1] 0.00178993
212
Berechnet man für dieses α = 0.00178993 den Ablehnungsbereich A, dann
ist die linke Seite von A genau die Menge {0, 1, . . . , 34}. Bei jedem kleineren
Signifikanzniveau würde k = 34 schon nicht mehr zum Ablehnungsbereich gehören.
213
Erhält man eine Anzahl “Kopf“ k, die zu einer Ablehnung der H0 : p = 1/2 führt,
weil k im rechten Teil des Ablehnungsbereichs liegt (große k), dann muss der P-Wert
auf
2P(X ≥ k) für X ∼ B(100, 1/2)
gesetzt werden, da das die kleinste Wahl für das Signifikanzniveau ist, für die k
noch im rechten Teil des Ablehnungsbereichs liegt. Eine geschlossene Formel für den
P-Wert des zweiseitigen Binomialtests lautet:
214
P-Wert (zweiseitiger Binomialtest): Sei k die Realisierung (Versuchsausgang) einer
binomial verteilten Zufallsvariable X ∼ B(n, p) und H0 : p = p0 die zweiseitige
Nullhypothese für ein p0 ∈ (0, 1). Der P-Wert P ist dann
P = min{2P(X ≤ k), 2P(X ≥ k)},
wobei angenommen wird, dass die H0 wahr ist, also X ∼ B(n, p0) gilt.
215
In R kann diese Definition folgendermaßen umgesetzt werden:
>
>
>
>
>
n <- 100
p0 <- 0.5
k <- 33
P <- min(c(2*pbinom(k,n,p0), 2*(1-pbinom(k-1,n,p0))))
P
[1] 0.0008737198
216
Der Binomialtest ist in R in der Funktion binom.test implementiert:
> binom.test(k,n,p0)
Exact binomial test
data: k and n
number of successes = 33, number of trials = 100, p-value = 0.0008737
alternative hypothesis: true probability of success is not equal to 0.5
95 percent confidence interval:
0.2391985 0.4311728
sample estimates:
probability of success
0.33
217
Aus der Definition des P-Werts folgt:
Sei P der P-Wert eines Hypothesentests für einen Versuchsausgang. Die Nullhypothese kann genau dann auf dem Niveau α abgelehnt werden, wenn
P ≤α
gilt.
In der Praxis wird man daher zunächst P-Werte berechnen und dann erst durch einen
einfachen Vergleich mit dem Signifikanzniveau feststellen, ob ein auf α signifikantes
Resultat vorliegt oder nicht. Die Berechnung von P-Werten ermöglicht auch eine
nachträgliche Veränderung des Signifikanzniveaus ohne nochmaliges Durchführen
des statistischen Tests.
218
Vorlesung 4.1.2017
219
3.1.4 Der einseitige Binomialtest
Beispiel: Es werden n Patienten mit einem neuen Heilmittel behandelt. Die Heilwahrscheinlichkeit für jeden Patienten sei p und man nehme an, dass der Heilerfolg
bei den einzelnen Patienten unabhängig ist. Unter diesen Voraussetzungen ist die
Anzahl der Heilungen X ∼ B(n, p) binomialverteilt mit n Wiederholungen und
Heilwahrscheinlichkeit p.
Die Spontanheilungsrate sei p0. Aus biologisch-medizinischen Gründen kann ausgeschlossen werden, dass das neue Medikament die Heilungswahrscheinlichkeit verschlechtert. Die Nullhypothese soll deshalb nur abgelehnt werden, wenn besonders
viele Heilungen beobachtet werden. Man wird dann auf den unteren Teil des Ablehnungsbereichs verzichten.
220
Definition (einseitiger Binomialtest): Sei X ∼ B(n, p) eine binomial verteilte Zufallsvariable. Sei weiter
H0 : p ≤ p 0
die einseitige Nullhypothese, die genau dann auf dem Niveau α ∈ (0, 1) abgelehnt
wird, wenn X ≥ K gilt. K wird so bestimmt, dass
P(X ≥ K) ≤ α und P(X ≥ K − 1) > α
unter der Voraussetzung X ∼ B(n, p0) gilt.
221
Im Gegensatz zum zweiseitigen Testen wird die H0 nur abgelehnt, wenn besonders viele Heilungen beobachtet werden. Beliebig wenig Heilungen sind mit der
H0 : p ≤ p0 immer verträglich.
Beispiel: Für n = 100, H0 : p ≤ 0.5 und α = 0.05 ist K = 59:
> 1-pbinom(58,100,0.5); 1-pbinom(57,100,0.5)
[1] 0.04431304
[1] 0.06660531
Der Ablehnungsbereich ist daher
A = {59, 60, . . . , 100}
222
0.04
0.02
k ≥ 59
0.00
y
0.06
0.08
B (0.5, 100)
223
0
20
40
60
x
80
100
Hinweis: Obwohl die Nullhypothese für den einseitigen Test H0 : p ≤ p0 lautet,
wird für die Berechnung des Ablehnungsbereichs A nur der Fall p = p0 angenommen. Das ist deshalb sinnvoll, da für alle p < p0 die Wahrscheinlichkeit für X ∈ A
kleiner als für p = p0 ist. Kann p = p0 abgelehnt werden, dann kann auch p < p0
abgelehnt werden.
Hinweis: Es gibt auch den einseitigen Test für die Nullhypothese
H0 : p ≥ p 0 .
Diese Nullhypothese wird abgelehnt, wenn X ≤ K gilt. Für ein Signifikanzniveau
α ∈ (0, 1) wird dann K so bestimmt, dass
P(X ≤ K) ≤ α und P(X ≤ K + 1) > α
gilt.
224
Genauso wie für den zweiseitigen Test kann auch für die einseitigen Tests ein P-Wert
berechnet werden. Wieder überlegt man sich, wie klein das Signifikanzniveau gewählt
werden darf, so dass man die H0 gerade noch ablehnen darf.
P-Wert (Binomialtest): Sei X ∼ B(n, p) und p0 ∈ (0, 1). Für das Versuchsergebnis X = k ergeben sich folgende P-Werte:
1. H0 : p = p0 (zweiseitiger Test):
P = min{2P(X ≤ k), 2P(X ≥ k)},
X ∼ B(n, p0)
2. H0 : p ≤ p0 (einseitiger Test): P = P(X ≥ k),
X ∼ B(n, p0)
3. H0 : p ≥ p0 (einseitiger Test): P = P(X ≤ k),
X ∼ B(n, p0)
225
In R könne mit der Funktion binom.test sowohl P-Werte für zwei, als auch einseitige Tests berechnet werden:
226
> n <- 100; p0 <- 0.5; k <- 60
> binom.test(k,n,p0,alternative="greater")
Exact binomial test
data: k and n
number of successes = 60, number of trials = 100, p-value = 0.02844
alternative hypothesis: true probability of success is greater than 0.5
95 percent confidence interval:
0.5129758 1.0000000
sample estimates:
probability of success
0.6
227
> binom.test(k,n,p0,alternative="less")
Exact binomial test
data: k and n
number of successes = 60, number of trials = 100, p-value = 0.9824
alternative hypothesis: true probability of success is less than 0.5
95 percent confidence interval:
0.000000 0.682474
sample estimates:
probability of success
0.6
228
3.1.5 Die Power des Binomialtests
Der statistische Test ist so konstruiert, dass wenn die Nullhypothese wahr ist, sie
nur mit einer (kleinen) Wahrscheinlichkeit ≤ α fälschlicherweise abgelehnt wird.
Allerdings ist es umgekehrt wünschenswert, dass H0 abgelehnt wird, wenn sie falsch
ist. Nur in diesem Fall hat man einen Effekt statistisch nachgewiesen.
Das führt zur Definition des Begriffs der statistischen Power:
229
Definition (Power des Binomialtests): Die Power 1 − β des Binomialtests ist die
Wahrscheinlichkeit, eine falsche H0 abzulehnen. Genauer: Sei X ∼ B(n, p) eine
binomial verteilte Zufallsvariable, H0 : p = p0, H0 : p ≤ p0 oder H0 : p ≥ p0
die Nullhypothese für zwei- bzw. einseitiges Testen. Sei weiter α das Signifikanzniveau, auf dem getestet werden soll und A der zu H0 und α gehörige Ablehnungsbereich. Die Power 1 − β des Binomialtests ist dann die Wahrscheinlichkeit, dass
X Werte in A annimmt unter der Bedingung, dass H0 nicht wahr ist:
Power = 1 − β = P(X ∈ A) mit X ∼ B(n, p).
230
Die Power ist umso größer, je mehr sich p vom p0 der Nullhypothese unterscheidet.
Für eine konkrete Berechnung der Power muss eine spezielle Alternative H1 : p =
p1 zur H0 angenommen werden. Ohne Formulierung einer speziellen Alternative
bleibt die Power des Tests unbestimmt.
Die Berechnung der Power erfolgt in drei Schritten:
231
1. Aufstellen der Nullhypothese und Wahl des Signifikanzniveaus.
2. Berechnung des Ablehnungsbereichs A
3. Bestimmung von
1 − β = P(X ∈ A)
für X ∼ B(n, p), wobei p = p1 für ein spezielles p1 angenommen wird
(spezielle Alternative).
232
Beispiel: Sei X ∼ B(n, p) mit n = 100, α = 0.025 und H0 : p ≤ 0.2. Die
Grenze des Ablehnungsbereichs ist:
> K <- qbinom(0.975,100,0.2) +1
> K
[1] 29
233
Die Nullhypothese wird abgelehnt, wenn X ≥ 29 gilt. Die Wahrscheinlichkeit für
eine Ablehnung im Falle p = 0.3 ist in den Ablehnungsbereich hinein verschoben.
p = 0.3
0.00
0.00
0.02
0.02
0.04
0.04
0.06
0.06
0.08
0.08
0.10
p = 0.2
0
20
40
60
X
80
100
0
20
40
60
80
100
X
234
Für eine spezielle Alternative p = 0.3 beträgt die Power dann
> 1 - pbinom(K-1,100,0.3)
[1] 0.6232218
Das heißt, ist die Trefferwahrscheinlichkeit in Wahrheit p = 0.3 statt p = 0.2,
dann wird man mit über 62% Wahrscheinlichkeit die Nullhypothese p ≤ 0.2 ablehnen können.
235
Die Power hängt von folgenden Parametern ab:
1. Signifikanzniveau α
2. Fallzahl n
3. Nullhypothese H0 (einseitig oder zweiseitig)
4. Alternative H1 (tatsächliche Trefferwahrscheinlichkeit p1)
236
1. Abhängigkeit der Power vom Signifikanzniveau.
H0 : p ≤ p0 = 0.2, n = 100 und spezielle Alternative H1 : p = p1 = 0.3:
0.08
Ablehnungsgrenzen:
α = 0.05
α = 0.01
α = 0.001
0.02
0.00
0.00
0.02
0.04
α = 0.05
α = 0.01
α = 0.001
0.06
Ablehnungsgrenzen:
0.04
0.06
0.08
0.10
p = 0.3
0.10
p = 0.2
0
20
40
60
X
80
100
0
20
40
60
80
100
X
237
2. Abhängigkeit der Power von der Fallzahl n.
H0 : p ≤ p0 = 0.2, spezielle Alternative H1 : p = p1 = 0.3 und α = 0.05:
n = 100:
0.08
0.06
0.06
0.08
0.10
p1 = 0.3
0.10
p0 = 0.2
0.02
0.04
Ablehnungsgrenze:
0.00
0.00
0.02
0.04
Ablehnungsgrenze:
0
20
40
60
X
80
100
0
20
40
60
80
100
X
238
n = 200:
0.08
0.06
0.06
0.08
0.10
p = 0.3
0.10
p = 0.2
0.02
0.04
Ablehnungsgrenze:
0.00
0.00
0.02
0.04
Ablehnungsgrenze:
0
50
100
X
150
200
0
50
100
150
200
X
239
Vorlesung 11.1.2017
240
3. Abhängigkeit der Power von der Art der Nullhypothese (einseitig oder zweiseitig):
α = 0.1, n = 100, p0 = 0.2 und p1 = 0.3:
0.08
Ablehnungsgrenzen:
einseitig
zweiseitig
0.02
0.00
0.00
0.02
0.04
einseitig
zweiseitig
0.06
Ablehnungsgrenzen:
0.04
0.06
0.08
0.10
p1 = 0.3
0.10
p0 = 0.2
0
20
40
60
X
80
100
0
20
40
60
80
100
X
241
4. Abhängigkeit der Power von der Alternative (p1).
H0 : p ≤ p0 = 0.2, spezielle Alternativen: H1 : p1 = 0.3, 0.5 und n = 100:
0.08
0.06
0.08
0.06
0.06
0.08
0.10
p = p1 = 0.5
0.10
p = p1 = 0.3
0.10
p = p0 = 0.2
0
20
40
60
X
80
100
0.02
0.04
Ablehnungsgrenze:
0.00
0.02
0.04
Ablehnungsgrenze:
0.00
0.00
0.02
0.04
Ablehnungsgrenze:
0
20
40
60
X
80
100
0
20
40
60
80
100
X
242
Die Abhängigkeit der Power von n, p1 und α kann auch graphisch in Liniendiagrammen dargestellt werden:
0.2
0.2
0.4
0.6
Power
0.4
Power
0.6
0.8
0.8
1.0
H0:p=0.5 (zweiseitig)
1.0
H0:p=0.3 (zweiseitig)
0.0
n=20
n=100
n=1000
0.0
0.2
0.4
0.6
p1
α = 0.05
0.8
1.0
n=20
n=100
n=1000
0.0
0.2
0.4
0.6
0.8
1.0
p1
α = 0.05
243
3.1.6 Fehler 1. und 2. Art
Die Power wird oft mit 1−β bezeichnet. β ist dann die Gegenwahrscheinlichkeit zur
Power, d.h. die Wahrscheinlichkeit, kein signifikantes Ergebnis zu erhalten, obwohl die
Nullhypothese falsch ist. β ist eine Wahrscheinlichkeit, einen Fehler zu begehen. Im
Gegensatz zum Fehler erster Art (= eine wahre H0 wird fälschlicherweise abgelehnt)
wird β als Fehlerwahrscheinlichkeit zweiter Art bezeichnet.
244
Über den Fehler erster bzw. zweiter Art kann man sich mit folgender Vierfeldertafel
einen Überblick verschaffen:
H0 wird abgelehnt
H0 wird nicht abgelehnt
H0 ist wahr
Fehler erster Art beschränkt durch α
kein Fehler
H0 ist falsch
Effekt wurde nachgewiesen
Fehler zweiter Art mit
Wahrscheinlichkeit β
245
3.1.7 Fallzahlplanung (Poweranalyse)
Der Fehler erster Art ist immer durch das Signifikanzniveau α beschränkt. Die Größe
der Fehlerwahrscheinlichkeit β hängt im Wesentlichen von der Größe des Signifikanzniveaus, des Effekts und der Fallzahl ab. In der Praxis liegen Effekt und Signifikanzniveau fest. Eine Beschränkung des Fehlers 2. Art geschieht deshalb in der Regel
durch Wahl einer hinreichend großen Fallzahl n.
246
Beispiel: Es soll der Verdacht statistisch getestet werden, dass ein Würfel “gezinkt“
ist. Man vermutet, dass die Sechs nicht mit der Wahrscheinlichkeit 1/6, sondern
mit der etwas größeren Wahrscheinlichkeit p1 = 1/5 auftritt. Trifft der Verdacht
zu, soll der Binomialtest eine minimale Power von 80% haben. Wie oft muss der
Würfel mindestens geworfen werden?
Lösung: Die Nullhypothese lautet H0 : p = 1/6 (=der Würfel ist fair). Sie soll
mit dem zweiseitigen Binomialtest auf dem Signifikanzniveau α = 0.05 getestet
werden. Gesucht ist die kleinste Anzahl n von Wurfwiederholungen, für die die Power
über 80% liegt.
Wir gehen in drei Schritten vor:
247
1. Wir berechnen für eine beliebige Anzahl n von Wurfwiederholungen die Grenzen
des zweiseitigen Ablehnungsbereichs. Dafür nehmen wir an, dass die Nullhypothese wahr ist:
>
>
>
>
>
alpha <- 0.05
p0 <- 1/6
n <- 1:2000
K1 <- qbinom(alpha/2,n,p0) - 1
K2 <- qbinom(1-alpha/2,n,p0) + 1
2. Nun wird angenommen, dass die spezielle Alternative H1 : p = 1/5 wahr
ist, und die Wahrscheinlichkeit berechnet, dass die Anzahl der Sechsen im zuvor
berechneten Ablehnungsbereich liegt.
> p1 <- 1/5
> Power <- pbinom(K1,n,p1) + (1-pbinom(K2-1,n,p1))
248
3. Wir haben für einen weiten Bereich von n (1 ≤ n ≤ 2000) die Power
berechnet. Das gesuchte n ist nun der kleinste Wert, für den die Power über
80% liegt.
> min(which(Power>=0.8))
[1] 1058
Der gesamte Verlauf der Power hat folgende Gestalt:
0.0
0.2
0.4
Power
0.6
0.8
1.0
> plot(x=n,y=Power, type="l", ylim=c(0,1),
+ xlab="Anzahl Würfe (n)")
> abline(h=0.8)
0
500
1000
1500
2000
Anzahl Würfe (n)
249
0.06
0.04
0.02
0.00
Power
0.08
0.10
Hinweis: Wie man an der Graphik erkennt, steigt die Power des Binomialtests im
Großen und Ganzen monoton an. Ein genauerer Blick, insbesondere auf kleine n,
zeigt, dass der Verlauf eher an eine Sägezahnkurve erinnert:
2
4
6
8
10
Anzahl Würfe (n)
250
Der Grund für dieses “Powerparadoxon“ liegt daran, dass die Binomialverteilung eine
diskrete Wahrscheinlichkeitsverteilung ist. Berechnen wir für n = 4 und n = 5 die
tatsächlichen Wahrscheinlichkeiten für einen Fehler erster Art, erhalten wir:
> pbinom(K1[4], 4, 1/6) + 1-pbinom(K2[4]-1, 4, 1/6)
[1] 0.0162037
> pbinom(K1[5], 5, 1/6) + 1-pbinom(K2[5]-1, 5, 1/6)
[1] 0.003343621
251
Das vorgeschriebene Signifikanzniveau von α = 0.05 kann nicht völlig ausgeschöpft
werden. Jede Vergrößerung des Ablehnungsbereichs würde schon eine Fehlerwahrscheinlichkeit erster Art von mehr als 5% mit sich bringen. Das vorgegebene Signifikanzniveau von α = 0.05 wird aber für n = 5 viel schlechter ausgeschöpft als für
n = 4 und man ist so gezwungen, bei n = 5 auf einem kleineren Signifikanzniveau
zu testen als bei n = 4. Das führ zu einem Absinken der Power, das durch die um
eins größere Fallzahl nicht vollständig kompensiert wird.
Bemerkung: Die Festlegung der Fallzahl (Poweranalyse) ist eine wichtiges Element
bei der Planung jeder Studie. Zu geringe Fallzahlen führen zu “unterpowerten“ Studien, die nicht in der Lage sind die oft kleinen Effekte signifikant nachzuweisen (=
die H0 abzulehnen).
Bei Studien mit Menschen (klinische Studien) in der medizinischen Forschung ist eine
biometrische Fallzahlplanung von der Ethikkommission zwingend vorgeschrieben.
252
3.1.8 Konfidenzintervalle für relative Häufigkeiten
Bisher wurde immer nur eine Nullhypothese wie z.B. H0 : p = p0 mit einem festen
p0 betrachtet. Nach Ablehnung von H0 durfte man behaupten, dass p 6= p0 ist.
Für die Praxis ist diese Aussage über p aber oft zu schwach. Es wäre wünschenswert,
wenn ein Bereich angegeben werden könnte, in dem p mit großer Wahrscheinlichkeit
liegt.
253
Einen solchen Bereich erhält man durch Variation von p0. Alle p0, für die die Nulhypothese H0 : p = p0 auf einem Niveau α nicht abgelehnt werden kann, werden
in diesem Bereich zusammengefasst.
Definition: Sei X ∼ B(n, p) eine binomial verteilte Zufallsvariable. Sei X = k die
Realisierung (Versuchsergebnis) von X. Das (1 − α)100% zweiseitige Konfidenzintervall für die relative Häufigkeit k/n ist die Menge aller p0 ∈ [0, 1], für die die
Nullhypothese H0 : p = p0 auf dem Signifikanzniveau α nicht abgelehnt werden
kann.
254
Beispiel: Bei einem Münzwurfexperiment erhält man von n = 100 unabhängigen
Würfe k = 55 mal “Kopf“. Es soll das zweiseitige 95% Konfidenzintervall angegeben
werden.
Die Grenzen pu und po des Konfidenzintervalls sind so charakterisiert, dass die
P-Werte des zweiseitigen Binomialtests der Nullhypothesen H0 : p = pu und
H0 : p = po genau 0.05 betragen. Durch systematisches Probieren erhält man
CI95% = (0.44728, 0.64968).
255
Probe:
> pbinom(55,100,0.64968); 1 - pbinom(54,100,0.44728)
[1] 0.02499971
[1] 0.02499978
256
Anhand des (1 − α)100% Konfidenzintervall kann sofort beurteilt werden, welche
Nullhypothesen der Form H0 : p = p0 mit dem zweiseitigen Binomialtest abgelehnt
werden können:
Die Nullhypothese H0 : p = p0 kann mit dem zweiseitigen Binomialtest genau
dann abgelehnt werden, wenn p0 außerhalb des (1 − α)100% Konfidenzintervalls
liegt.
Weitere Eigenschaften des Konfidenzintervalls sind:
257
1. Je größer n desto schmaler ist das (1 − α)100% Konfidenzintervall.
2. Je kleiner α desto breiter ist das Konfidenzintervall.
258
3.2 Der Z-Test
3.2.1 Die Standardnormalverteilung als Teststatistik
Bisher wurden nur binomial verteilte Zufallsvariablen getestet. Viele Experimente
haben aber stetig metrische Messwerte als Ergebnis. Oft können sie als normalverteilt
angenommen werden. Auch für diese Verteilungen gibt es statistische Tests. Der
einfachste ist der Z-Test.
Definition (Z-Test, 1. Version): Sei X eine normalverteilte Zufallsvariable mit bekannter Varianz σ 2 und Erwartungswert µ (X ∼ N (µ, σ 2)). Der zweiseitige
Z-Test ist ein Test der Nullhypothese
H 0 : µ = µ0 .
µ0 sei eine vorgegebene Zahl ∈ IR.
Der Test wird in drei Schritten durchgeführt:
259
1. Wahl von µ0 und des Signifikanzniveaus α.
2. Berechnung der Teststatistik
Z=
X − µ0
.
σ
3. Ablehnung der Nullhypothese H0 genau dann, wenn
|Z| ≥ z1−α/2 := Φ−1(1 − α/2).
Φ−1 sei die Umkehrfunktion der kumulierten Standardnormalverteilung Φ. z1−α/2 :=
Φ−1(1 − α/2) heißt das 1 − α/2 Perzentil der Standardnormalverteilung Φ. In
R kann man die Perzentile der Standardnormalverteilung mit der Funktion qnorm
(=Umkehrfunktion von pnorm) berechnen. Die Teststatistik Z ist die Standardisierung von X, wenn die Nullhypothese wahr ist.
260
Will man sich vor dem Test nicht auf ein bestimmtes Signifikanzniveau festlegen,
kann auch der P-Wert
P = 2 ∗ Φ(−|Z|)
berechnet werden. H0 darf dann auf dem Niveau α abgelehnt werden, genau dann,
wenn P ≤ α gilt.
Ganz ähnlich kann auch einseitig getestet werden. Die Nullhypothesen H0 : µ ≤ µ0
bzw. H0 : µ ≥ µ0 werden abgelehnt, wenn Z ≥ z1−α bzw. Z ≤ zα gilt. Die
einseitigen P-Werte werden durch P = 1 − Φ(Z) bzw. P = Φ(Z) berechnet.
261
0.1
0.2
0.3
0.4
Einseitiger Ablehnungsbereich für alpha=0.05
0.0
0.0
0.1
0.2
0.3
0.4
Zweiseitiger Ablehnungsbereich für alpha=0.05
−4
−2
0
Z
2
4
−4
−2
0
2
4
Z
262
Da die Varianz σ 2 in der Regel unbekannt ist, spielt der Z-Test in der Praxis eine
untergeordnete Rolle. Er kann aber im Zusammenhang mit dem Zentralen Grenzwertsatz angewandt werden. Viele Teststatistiken können für große Fallzahlen als
annähernd normalverteilt mit bekannter Varianz angenommen werden.
263
3.2.2 Der Zentrale Grenzwertsatz
Die Bedeutung der Normalverteilung für die Wahrscheinlichkeitsrechnung und Statistik ist zu einem wesentlichen Teil im zentralen Grenzwertsatz begründet.
Satz: Seien X1, X2, . . . (i=1,2,. . . ) unabhängige Zufallsvariablen, mit Erwartungswert µ und Varianz σ 2. Weiter nehme man an, dass die Xi (i = 1, 2, . . .) identisch
verteilt sind. Sei
n
X
Sn =
Xi
i=1
die Summenvariable und
264
Sn − nµ
Zn = √
nσ 2
die zugehörige standardisierte Zufallsvariable. Dann gilt für jedes x ∈ IR
lim P(Zn < x) = Φ(x)
n→∞
2
−t /2
mit Φ(x) = −∞ e√
dt die Verteilungsfunktion der Standardnormalverteilung.
2π
Rx
265
Bemerkung: Unter identisch verteilten Zufallsvariablen Xi (i = 1, 2, . . .) versteht
man Zufallsvariablen mit gleicher Verteilung. Z.B. könnten alle Xi poissonverteilt
mit einem gemeinsamen Parameter λ sein oder die Xi sind alle binomialverteilt mit
gleicher Anzahl der Versuchswiederholung n und Trefferwahrscheinlichkeit p. Dabei
spielt es keine Rolle, ob die Xi diskret oder stetig verteilt sind.
266
Bemerkung: Der Zentrale Grenzwertsatz gilt auch unter viel allgemeineren Voraussetzungen. So sind oft auch Summen von unabhängigen aber nicht identisch verteilten
Zufallsvariablen annähernd normalverteilt.
Aus diesem Grund können Ergebnisse von Messungen oft als normalverteilt angenommen werden. Man kann sich den gesamten Messfehler in Komponenten zerlegt
vorstellen, die für die einzelnen Fehlerquellen stehen:
X = x + F1 + F2 + F3 + · · ·
267
F1 könnte beispielsweise der Fehler sein, der durch Mängel der Messapparatur auftreten, F2 steht für den Fehler bei der Probenaufbereitung usw. x wäre in diesem
Modell der “wahre“ Messwert, der durch die verschiedenen Fehler F1, F2, . . . gestört
wird.
Selbst wenn die Fi nicht normalverteilt sind, ist X wegen des Zentralen Grenzwertsatzes zumindest näherungsweise normalverteilt.
Aus diesem Grund können viele statistische Methoden, die normalverteilte Daten
voraussetzen, in der Praxis oft angewandt werden.
268
Beispiel (Zentraler Grenzwertsatz): Sei Yn binomialverteilt mit n Wiederholungen
und Trefferwahrscheinlichkeit p (wir schreiben auch Yn ∼ B(n, p)). Seien X1, X2, . . . , Xn
Zufallsvariablen, die den Ausgang des i-ten Teilexperiments (i = 1, 2, . . . , n) beschreiben.
1 wenn i-te Wiederholung ein Treffer
Xi =
0 sonst
Die Xi sind unabhängig (Voraussetzung) und selbst binomialverteilt mit einer Wiederholung und Trefferwahrscheinlichkeit p (Xi ∼ B(1, p)). Außerdem gilt
Yn = X1 + · · · + Xn.
269
Somit sind alle Voraussetzungen des Zentralen Grenzwertsatzes erfüllt und wir erhalten den folgenden Satz:
Satz (Moivre-Laplace): Für binomialverteilte Zufallsvariablen Yn mit n Wiederholungen und Trefferwahrscheinlichkeit p (Yn ∼ B(n, p)) gilt
!
Yn − np
≤ x = Φ(x) für x ∈ IR.
lim P p
n→∞
np(1 − p)
Φ(x) =
verteilung.
2
−t /2
e√
sei wie immer die Verteilungsfunktion der Standardnormal−∞
2π
Rx
270
Praktischer Umgang mit dem Zentralen Grenzwertsatz:
Die Verteilung der Zufallsvariablen X =
teilt angenommen.
Pn
i=1 Xi wird als annähernd normalver-
1. Berechne Erwartungswert M und Varianz Σ2 von X.
2. Jede Wahrscheinlichkeit P(X ≤ t) kann approximativ durch
X −M
t−M
t−M
≈Φ
≤
P(X ≤ t) = P
Σ
Σ
Σ
berechnet werden. Φ ist die kumulative Verteilungsfunktion der Standardnormalverteilung (pnorm).
Alternativ kann auch gleich pnorm(t, mean=M, sd=Sigma) berechnet werden (Sigma = Σ).
271
Beispiel: Für eine binomialverteilte Zufallsvariable Y mit n = 600 Versuchswiederholungen und Trefferwahrscheinlichkeit p = 0.3 soll
P(Y ≤ 171)
mit Hilfe des Zentralen Grenzwertsatzes bestimmt werden.
!
Y − np
171 − np
P(Y ≤ 171) = P p
≤p
≈Φ
np(1 − p)
np(1 − p)
171 − np
p
np(1 − p)
272
!
>
>
>
>
n <- 600
p <- 0.3
k <- 171
pnorm((k-n*p)/sqrt(n*p*(1-p)))
[1] 0.211339
Mit exakter Rechnung erhält man
> pbinom(k,size=n,prob=p)
[1] 0.2252241
273
Beispiel: Seien Z1, . . . , Zn auf (0, 1) gleichverteilte unabhängige Zufallsvariablen.
Die Verteilung der Summenvariable
Z = Z1 + · · · + Zn
ist schwer zu bestimmen. Da die Zi unabhängig sind, kann aber Erwartungswert und
Varianz von Z leicht ausgerechnet werden:
E(Z) = n/2
und
Var(Z) = n/12
274
Die Wahrscheinlichkeit P(Z ≤ k) kann nun mit Hilfe des Zentralen Grenzwertsatzes
zu
!
!
Z − E(Z)
k − E(Z)
k − E(Z)
P(Z ≤ k) = P p
≤p
≈Φ p
Var(Z)
Var(Z)
Var(Z)
geschätzt werden.
275
Für n = 150 und k = 70 ergibt das konkret:
>
>
>
>
>
n <- 150
k <- 70
E <- n/2
Var <- n/12
pnorm((k-E)/sqrt(Var))
[1] 0.0786496
277
Beispiel (Approximation der Poissonverteilung durch die Normalverteilung):
Nicht nur die Binomialverteilung für große n sondern auch die Poissonverteilung für
große λ kann durch die Normalverteilung angenähert werden.
Satz: Sei X poissonverteilt mit Erwartungswert λ > 0. Dann kann X durch die
Normalverteilung mit Erwartungswert und Varianz λ approximiert werden.
k−λ
X −λ
k−λ
√
√
P(X ≤ k) = P
≤ √
≈Φ
λ
λ
λ
√
für große λ. Der Ausdruck X−λ
ist die Standardisierung von X.
λ
278
Einschub: Eine Simulation in R
Da die Güte der Näherung durch den Zentralen Grenzwertsatz schwer zu bestimmen ist, bietet sich die Überprüfung dieses Ergebnisses durch eine Simulation mit
Zufallszahlen in R an.
Die Werte der n = 150 gleichverteilten Zufallszahlen können durch die Funktion
runif simuliert werden.
279
> n <- 150
> V <- runif(100)
> V[1:10]
[1] 0.896598467 0.926609315 0.115015196 0.001582151 0.876620390 0.5142
[7] 0.681288025 0.098290650 0.590570149 0.725363473
ergibt einen Vektor von n = 150 auf (0, 1) gleichverteilten Zufallszahlen. Der
Aufruf des Zufallszahlengenerators runif simuliert dabei das tatsächliche Durchführen des Zufallsexperiments.
280
Der Wert der Summenvariable Z wird dann durch
> Z <- sum(runif(n))
simuliert. Die Wahrscheinlichkeit p für Z < k kann nun folgendermaßen bestimmt
werden:
281
>
>
>
>
+
+
+
set.seed(1976)
N <- 100000
ERG <- numeric(N)
for(i in 1:N){
Z <- sum(runif(n))
ERG[i] <- Z
}
Der Vektor ERG enthält nun N unabhängige Realisierungen von Z. Der relative
Anteil seiner Komponenten ≤ k nähert sich für großes N der Wahrscheinlichkeit
P(Z ≤ k) an.
282
Man erhält mit
> sum(ERG<=k)/N
[1] 0.07832
eine gute Übereinstimmung mit der durch den Zentralen Grenzwert berechneten
Näherung für P(Z ≤ k).
283
3.2.3 Näherung des Binomialtests durch den Z-Test
Eine Münze werde n = 1000 mal geworfen. Es ergeben sich k = 510 mal
Kopf. Kann die Nullhypothese, dass die Münze fair ist, auf dem Signifikanzniveau
α = 0.05 abgelehnt werden? Da n groß ist, kann die Zufallsvariable X (Anzahl
Kopf) als normalverteilt angenommen werden. Unter der Nullhypothese gilt dann
E(X) = µ = 500 und Var(X) = σ 2 = 250. Wir testen statt mit dem
Binomialtest die Nullhypothese H0 : p = 0.5 nun die äqivalente Nullhypothese
H0 : µ = 500 mit dem Z-Test. Das ist möglich, da mit σ 2 = 250 die Varianz
von X bekannt ist.
284
Die Z Statistik ist dann
X − 500
510 − 500
Z= √
= √
= 0.6324555.
250
250
Das ergibt einen zweiseitigen P-Wert von
> P <- 2*pnorm(-0.6324555)
> P
[1] 0.5270893
Die Nullhypothese kann also auf dem Niveau α = 0.05 nicht abgelehnt werden.
285
Zum Vergleich berechnen wir den P-Wert des exakten Binomialtests:
> binom.test(510,1000,0.5)$p.value
[1] 0.5479727
286
3.2.4 Der Z-Test für eine Stichprobe
Oft wird das gleiche Experiment an n verschiedenen statistischen Einheiten unabhängig wiederholt. Man hat dann nicht eine sondern n Messungen, die oft durch
normalverteilte Zufallsvariablen wiedergegeben werden:
Definition (Einstichproben Z-Test, 2.Version): Seien X1, . . . , Xn unabhängige normalverteilte Zufallsvariablen mit unbekanntem Erwartungswert µ und bekannter Varianz σ 2.
Der zweiseitige Einstichproben Z-Test testet für ein festes µ0 ∈ IR die Nullhypothese
H0 : µ = µ0.
Er wird in folgenden Schritten ausgeführt:
287
1. Berechnung von
1 Pn
i=1 Xi − µ0 √
n
Z :=
n.
σ
Z heißt die Statistik des Einstichproben Z-Tests. Wenn die Nullhypothese µ =
µ0 wahr ist, ist Z standardnormalverteilt.
2. Festlegung des Ablehnungsbereichs. Da unter der Nullhypothese Z ∼ N (0, 1)
gilt, werden die Ablehnungsbereiche ähnlich wie beim Binomialtest in die “Randbereiche“ der Standardnormalverteilung gelegt:
A = (−∞, K1] ∪ [K2, ∞)
288
3. Vorgabe eines Signifikanzniveaus α ∈ (0, 1) und Bestimmung von K1 und
K2: Unter Annahme, dass H0 wahr ist (d.h. Z ∼ N (0, 1)), werden K1 und
K2 so bestimmt, dass
P(Z ≤ K1) = α/2 = P(Z ≥ K2)
gilt. Ist Φ(x) die Verteilungsfunktion der Standardnormalverteilung, dann gilt
K1 = Φ−1(α/2) und K2 = −Φ−1(α/2).
4. Wenn die Realisierung Z = z im Ablehnungsbereich A liegt, dann wird die
Nullhypothese abgelehnt, sonst wird sie beibehalten. Die “Realisierung“ z von Z
erhält man, indem man die tatsächlichen Versuchsergebnisse X1 = x1, X2 =
x2, . . . , Xn = xn in die Formel für die Statistik einsetzt.
289
5. Wie beim Binomialtest kann auch für den zweiseitigen Z-Test alternativ zur
Bestimmung von Ablehnungsbereichen ohne vorherige Festlegung eines Signifikanzniveaus α der P-Wert berechnet werden. Sei z der Wert der Z-Statistik,
dann ist der P-Wert
P = P(Z ≤ −|z|) + P(Z ≥ |z|) = 2P(Z ≤ −|z|),
unter der Voraussetzung, dass H0 wahr ist, also Z ∼ N (0, 1) gilt. Wenn
Rx
1
−t2 /2 dt die Verteilungsfunktion der Standardnormal√
Φ(x) =
e
2π −∞
verteilung ist, dann ergibt sich für den P-Wert des zweiseitigen Z-Test:
P = 2Φ(−|z|)
290
Bemerkung: Die Statistik Z des Z-Tests ist die standardisierte Zufallsvariable zu
1P
i=1 Xi , wenn die Nullhypothese H0 : µ = µ0 wahr ist.
n
Einseitiger Einstichproben Z-Test: Seien X1, . . . , Xn unabhängige normalverteilte Zufallsvariablen mit unbekanntem Erwartungswert µ und bekannter Varianz σ 2
(Xi ∼ N (µ, σ 2), i = 1, . . . , n). Die einseitigen Nullhypothesen für den Z-Test
sind
H 0 : µ ≥ µ0
und
H 0 : µ ≤ µ0
für ein fest vorgegebenes µ0 ∈ IR.
291
Der einseitige Z-Test wird ähnlich wie der zweiseitige durchgeführt. Im Gegensatz
zum zweiseitigen Test hat der Ablehnungsbereich die Form A = (−∞, K] bzw.
A = [K, ∞). Für ein vorgegebenes Signifikanzniveau α gilt dann K = Φ−1(α)
bzw. K = −Φ−1(α). Φ−1 ist die Umkehrfunktion der Verteilungsfunktion Φ
der Standardnormalverteilung.
Der P-Wert des einseitigen Z-Tests ist P = Φ(Z) für H0 : µ ≥ µ0 und P =
1 − Φ(Z) für H0 : µ ≤ µ0.
292
In R sind Verteilungsfunktion der Standardnormalverteilung und ihre Umkehrfunktion
in den Funktionen pnorm und qnorm implementiert. Ablehnungsgrenzen für übliche
Signifikanzniveaus sind:
Zweiseitiges Testen:
> alpha <- c(0.001, 0.01, 0.05, 0.1)
> qnorm(alpha/2) # linker Bereich
[1] -3.290527 -2.575829 -1.959964 -1.644854
> -qnorm(alpha/2) # rechter Bereich
[1] 3.290527 2.575829 1.959964 1.644854
293
Entsprechend ergibt sich für einseitiges Testen:
> alpha <- c(0.001, 0.01, 0.05, 0.1)
> qnorm(alpha) # H0: p>=p0
[1] -3.090232 -2.326348 -1.644854 -1.281552
> -qnorm(alpha) # H0: p<=p0
[1] 3.090232 2.326348 1.644854 1.281552
294
0.2
2.5%
0.1
2.5%
0.0
y
0.3
0.4
α = 0.05, H0 : µ = µ0
295
−4
−2
0
Z
2
4
0.2
0.1
5%
0.0
y
0.3
0.4
α = 0.05, H0 : µ ≤ µ0
296
−4
−2
0
Z
2
4
0.2
0.1
5%
0.0
y
0.3
0.4
α = 0.05, H0 : µ ≥ µ0
297
−4
−2
0
Z
2
4
Bemerkung: Der Z-Test für eine Stichprobe spielt in der Praxis nur eine untergeordnete Rolle, da die Varianz σ 2 der Zufallsvariablen X1, . . . , Xn im Allgemeinen
unbekannt ist.
Da jedoch viele Verteilungen wegen des Zentralen Grenzwertsatzes näherungsweise normalverteilt sind, können für große Fallzahlen n Tests oft durch den Z-Test
angenähert werden.
298
Vorlesung 18.1.2017
299
Beispiel (Z-Test): Es wurde in einer 20-jährigen Studie die jährlichen Inzidenzraten
für Lungenkrebs in Deutschland bestimmt. In den Jahren 1991 bis 2010 traten unter
den 82 000 000 Einwohnern jeweils
40954, 40457, 40707, 40439, 40657, 41001, 40925, 40494, 40379, 40731, 40588,
40580, 40673, 40443, 40621, 40662, 40407, 40974, 40726, 40413
Neuerkrankungen auf. Für die jährliche Inzidenz von Lungenkrebs wird weltweit ein
Wert von 0.05 % angegeben. Unterscheidet sich die Inzidenz von Lungenkrebs in
Deutschland signifikant von 0.05%?
300
Lösung: Wir führen einen zweiseitigen Z-Test für µ0 = 41000 und σ 2 = 41000
durch. Da die Anzahl der jährlichen Neuerkrankungen als poissonverteilt angenommen werden kann die Varianz als bekannt gleich µ0 vorausgesetzt werden. Da der
Erwartungswert der Poissonverteilung sehr groß ist, ist es zulässig, die Poissonverteilung durch die Normalverteilung N (µ0, µ0) anzunähern. Damit sind alle Voraussetzungen des Z-Tests erfüllt.
301
Berechnung der Statistik Z:
>
+
+
+
+
>
>
>
Stichprobe <- c(
40954, 40457, 40707, 40439, 40657, 41001, 40925, 40494,
40379, 40731, 40588, 40580, 40673, 40443, 40621, 40662,
40407, 40974, 40726, 40413
)
sigma <- sqrt(41000)
mu0 <- 41000
n <- 20
302
> M <- mean(Stichprobe)
> M
[1] 40641.55
> Z <- (M-mu0)/sigma*sqrt(n)
> Z
[1] -7.916836
Berechnung des P-Werts:
303
> P <- 2*pnorm(-abs(Z))
> P
[1] 2.436306e-15
Ergebnis: Die durchschnittliche jährliche Inzidenzrate in Deutschland unterscheidet
sich auf dem Niveau α = 0.001 signifikant von 0.05%.
3.3 Der t-Test
3.3.1 Der t-Test für eine Stichprobe
Schätzung der unbekannten Varianz aus den Daten:
Die Anwendungsmöglichkeiten des Z-Tests sind beschränkt, da in der Regel die Varianz σ 2 der Zufallsvariablen X1, . . . , Xn nicht bekannt ist. Die Idee, die zum t-Test
führt, ist nun, die unbekannte Varianz σ 2 durch den Varianzschätzer
!
n
X
1
2
σ̂ =
(Zi − µ̂)2
n−1
i=1
1 Pn
mit µ̂ = n
i=1 Xi zu ersetzen.
304
Bemerkung: Der Schätzer σ̂ 2 ist nun keine Zahl sondern selbst eine Zufallsvariable
deren Erwartungswert σ 2 ist. Die Zufallsvariable σˆ2 wird um ihren Erwartungswert
schwanken. Je kleiner n ist, umso stärkere Abweichungen von σ 2 sind wahrscheinlich.
p
Ersetzt man in der Formel der Z-Statistik σ durch σˆ2, erhält man die t-Statistik:
305
Die t-Statistik für eine Stichprobe:
Seien X1, . . . , Xn unabhängige normalverteilte Zufallsvariablen mit unbekanntem
Erwartungswert µ und unbekannter Varianz σ 2, dann ist
µ̂ − µ0 √
n
T = p
σˆ2
t-verteilt mit n − 1 Freiheitsgraden, wenn µ = µ0 gilt.
Die t-Verteilung mit ν Freiheitsgraden hat die Dichte
− ν+1
Γ ν+1
2
2
t
2
1+
fν (t) = √
ν
ν
νπΓ 2
ν ∈ IN
306
Bemerkung: Mit Γ(x) wird die Gammafunktion bezeichnet, die für alle positiven
reellen Zahlen x ∈ IR+ definiert ist und zur Fakultätsfunktion wegen
Γ(n + 1) = n!,
n ∈ IN
in enger Beziehung steht.
Bemerkung: Die t-Statistik hängt im Gegensatz zur Z-Statistik von der Fallzahl n
ab. Zu jedem Freiheitsgrad ν = n − 1 gibt es eine eigene t-Statistik.
307
0.0
0.1
0.2
0.3
0.4
ν=1
ν=5
ν = 20
ν = ∞ (=N(0, 1))
308
−6
−4
−2
0
T
2
4
6
Bemerkung: Für große Freiheitsgrade ν geht die t-Verteilung in die Standardnormalverteilung über. Das liegt daran, dass mit steigendem n der Varianzschätzer σˆ2 eine
immer kleinere Varianz hat und deshalb mit großer Wahrscheinlichkeit Werte nahe
bei σ 2 annimmt. Für große n geht deshalb die t-Statistik in die Z-Statistik über.
Bemerkung: In R ist die Dichte der t-Verteilungen in der Funktion dt, die Verteilungsfunktion und ihre Umkehrfunktion in pt bzw. qt und der Zufallszahlengenerator in
rt implementiert. Die notwendige Angabe der Freiheitsgrade erfolgt durch das Argument df (für “degrees of freedom“).
309
Durchführung des Einstichproben t-Test:
Voraussetzungen: Seien Z1, . . . , Zn unabhängige normalverteilte Zufallsvariablen
mit Erwartungswert µ und unbekannter Varianz σ 2. Der zweiseitige Einstichproben
t-Test testet für ein festes µ0 ∈ IR die Nullhypothese
H 0 : µ = µ0 .
Er wird in folgenden Schritten ausgeführt:
1. Berechnung von
µ̂ − µ √
T := p 0 n
σˆ2
Pn
Pn
1
1
ˆ
2
mit µ̂ = n i=1 Zi und σ = n−1 i=1(Zi − µ̂)2. T heißt die Statistik
des Einstichproben T-Tests. Wenn die Nullhypothese µ = µ0 wahr ist, ist T
t-verteilt mit n − 1 Freiheitsgraden.
310
2. Festlegung des Ablehnungsbereichs. Da unter der Nullhypothese T t-verteilt ist,
werden die Ablehnungsbereiche ähnlich wie beim Z-Test in die “Randbereiche“
der t-Verteilung gelegt:
A = (−∞, K1] ∪ [K2, ∞)
3. Vorgabe eines Signifikanzniveaus α ∈ (0, 1) und Bestimmung von K1 und
K2: Unter Annahme, dass H0 wahr ist, werden K1 und K2 bestimmt, für die
P(T ≤ K1) = α/2 = P(T ≥ K2)
gilt. Ist Fn−1 die Verteilungsfunktion der t-Verteilung mit n − 1 Freiheitsgra−1
−1
den, dann ist K1 = Fn−1
(α/2) und K2 = −Fn−1
(α/2)
(±qt(α/2, df=n-1)).
311
4. Wenn der Wert (Realisierung) von T im Ablehnungsbereich A liegt, dann
wird die Nullhypothese abgelehnt, sonst wird sie beibehalten. Die “Realisierung“
von T erhält man, indem man die tatsächlichen Versuchsergebnisse Z1 =
z1, Z2 = z2, . . . , Zn = zn in die Formel für die Statistik T einsetzt.
312
5. Wie beim Binomial- und Z-Test kann auch für den zweiseitigen t-Test alternativ
zur Bestimmung von Ablehnungsbereichen ohne vorherige Festlegung eines Signifikanzniveaus α der P-Wert berechnet werden. Sei t der Wert der T-Statistik,
dann ist der P-Wert
P = P(T ≤ −|t|) + P(T ≥ |t|) = 2P(T ≤ −|t|),
unter der Voraussetzung, dass H0 wahr ist. Wenn Fn−1 die Verteilungsfunktion
der t-Verteilung mit n − 1 Freiheitsgrade ist, dann ergibt sich für den P-Wert
des zweiseitigen t-Test:
P = 2Fn−1(−|t|)
In R: 2*pt(-abs(t), df=n-1).
313
Bemerkung: Ganz analog zu den einseitigen Z-Tests kann auch beim t-Test einseitig
getestet werden (Übung).
Bemerkung: Die T-Statistik hängt von der Fallzahl n, aber nicht von der unbekannten
Varianz σ 2 ab, wenn die Nullhypothese wahr ist.
Begründung: Kürzt man
µ̂ − µ0 √
n
T = p
σˆ2
mit σ, dann erhält man
(µ̂ − µ0)/σ √
T = p
n.
σˆ2/σ
Der Zähler kann als
n
1X
(Zi − µ0)/σ
(µ̂ − µ0)/σ =
n
i=1
314
geschrieben werden. Gilt die H0 : µ = µ0, dann hängt er nicht von σ ab, da die
Zufallsvariablen (Zi − µ0)/σ, i = 1, . . . , n standardnormalverteilt sind.
Für den Nenner gilt
v
u
n
p
u 1 X
σˆ2/σ = t
n−1
i=1
Auch
p
Zi − µ0 1
−
σ
n
n X
i=1
Zi − µ0
σ
!2
σˆ2/σ hängt nur von standardisierten Zufallsvariablen ab.
315
Die wichtigste Anwendung für den Einstichproben t-Test ist der Test für verbundene
oder gepaarte Stichproben.
t-Test für verbundene Stichproben:
Seien (X1, Y1), . . . , (Xn, Yn) n Paare von Zufallsvariablen, für die die Differenzvariablen Zi = Xi − Yi, i = 1, . . . , n normalverteilt mit unbekanntem
Erwartungswert µ und unbekannter Varianz σ 2 sind. Der verbundene t-Test ist der
Einstichproben t-Test für Z1, . . . , Zn der Nullhypothes H0 : µ0 = 0.
Bemerkung: Haben die Xi Erwartungswert µ1 und die Yi den Erwartungswert µ2,
dann gilt µ = µ1 −µ2 und die zweiseitige Nullhypothese des verbundenen t-Tests ist
H0 : µ1 = µ2. Die Nullhypothesen für einseitiges Testen sind dann entsprechend
H0 : µ1 ≤ µ2 bzw. H0 : µ1 ≥ µ2.
316
Beispiel: Ein verbundenes Stichprobendesign liegt immer dann vor, wenn an jedem
Individuum (Patient, Proband, Versuchstier,...) zwei gleichartige Messungen vorgenommen werde. Zwischen den beiden Messungen erfolgt die Intervention (z.B. Verabreichung eines Medikaments). Der verbundene t-Test prüft dann, ob die Intervention
wirksam war. Kann die Nullhypothese abgelehnt werden, hat man statistisch nachgewiesen, dass die Erwartungswerte vor und nach der Intervention unterschiedlich
sind.
Verbundene Stichproben treten auch auf, wenn erste und zweite Messung gleichzeitig
aber an verschiedenen Orten stattfinden:
Beispiel: In einem landwirtschaftlichen Versuch zur Ertragssteigerung durch einen
bestimmten Dünger könnten n Testfelder mit einer bestimmten Nutzpflanze bestellt
werden. Jedes der n Testfelder wird in zwei gleich große Teile geteilt, von denen
nur eines mit dem Dünger versehen wird. Die Daten des Versuchs sind dann die n
Paare (X1, Y1), . . . , (Xn, Yn) der Ernteerträge. Die Werte X1, . . . , Xn sind die
Erträge aus den ungedüngten und die Y1, . . . , Yn die aus den gedüngten Hälften.
317
Der t-Test für verbundene Stichproben prüft nun, ob sich das Mittel der Ernteerträge
der ungedüngten Hälften von dem Mittel der gedüngten signifikant unterscheidet.
Nur bei einem signifikanten Unterschied darf man behaupten, dass der Dünger wirksam die Erträge steigert.
Bemerkung: Die Voraussetzung des verbundene t-Tests ist, dass die Differenzen der
beiden Messungen normalverteilt sind. Es ist nicht notwendig, dass erste und zweite
Messung selbst aus normalverteilten Grundgesamtheiten stammen.
318
3.3.2 Zweistichproben t-Test
Für viele Fragestellungen sind verbundene Stichproben ungeeignet. Immer dann,
wenn die Notwendigkeit besteht, eine aktive Behandlung mit einer Kontrollbehandlung zu vergleichen, kann ein verbundenes Design nicht angewandt werden.
Beispiel: Es soll die Wirksamkeit eines Blutdrucksenkers nachgewiesen werden. Es
besteht der Verdacht, dass allein schon die Verabreichung eines Placebos (Scheinmedikaments) den Blutdruck senkt. In einem Experiment (Studie) mit verbundenen
Stichprobendesign kann der Placeboeffekt nicht vom tatsächlichen Effekt getrennt
werden. Eine statistisch signifikante Senkung des Blutdrucks könnte allein dem Placeboeffekt zuzurechnen sein.
319
Es besteht deshalb das Bedürfnis, in der Studie den Blutdrucksenker direkt mit einem
Placebo zu vergleichen. Das geschieht durch Zweistichproben Tests.
Zweistichproben Z-Test: Seien X1, . . . , Xn1 (Stichprobe 1) normalverteilte Zufallsvariablen mit unbekanntem Erwartungswert µ1 und bekannter Varianz σ 2. Seien
weiter Y1, . . . , Yn2 (Stichprobe 2) normalverteilte Zufallsvariablen mit unbekanntem Erwartungswert µ2 und Varianz σ 2. Die Variablen X1, . . . , Xn1 , Y1, . . . , Yn2
Pn1
1 Pn2 Y die empiX
und
µ
ˆ
=
seien unabhängig. Seien µˆ1 = n1
2
i=1 i
i=1 i
n2
1
rischen Mittel der beiden Stichproben. Die Statistik des Zweistichproben Z-Tests
ist
r
µˆ1 − µˆ2
n1n2
.
Z=
σ
n1 + n2
Die Nullhypothesen des Zweistichproben Z-Tests sind:
320
1. H0 : µ1 = µ2 (zweiseitige Nullhypothese)
2. H0 : µ1 ≤ µ2 oder H0 : µ1 ≥ µ2 (einseitige Nullhypothesen)
Gilt µ1 = µ2, dann ist Z standardnormalverteilt.
321
Man zeigt leicht, dass Z die standardisierte Zufallsvariable zu µˆ1 − µˆ2 ist, wenn
µ1 = µ2 gilt.
Die Nullhypothese
1. H0 : µ1 = µ2 (zweiseitig) wird auf dem Niveau α abgelehnt, wenn |Z| ≥
z1−α/2 gilt.
2. H0 : µ1 ≤ µ2 wird auf dem Niveau α abgelehnt, wenn Z ≥ z1−α gilt.
3. H0 : µ1 ≥ µ2 wird auf dem Niveau α abgelehnt, wenn Z ≤ −z1−α gilt.
z1−α ist das (1 − α)100% Perzentil der Standardnormalverteilung. Ist Φ die
Verteilungsfunktion der Standardnormalverteilung, dann gilt z1−α = Φ−1(1−α).
322
Vorlesung 25.1.2017
323
Da die Streuung σ im Allgemeinen unbekannt ist, hat der Z-Test keine praktische
Bedeutung. Um zu einem anwendbaren Test zu gelangen, muss die p
in der Regel
unbekannte Streuung (Standardabweichung) σ durch einen Schätzer σˆ2 ersetzt
werden.
Für eine Stichprobe Z1, . . . , Zn von unabhängigen Zufallsvariablen mit gemeinsamen Erwartungswert µ und gemeinsamer Varianz σ 2 ist der “richtige“ Varianzschätzer
n
n
X
X
1
1
σˆ2 =
(Zi − µ̂)2, µ̂ =
Zi.
n−1
n
i=1
i=1
“Richtig“ bedeutet hier, dass E σˆ2 = σ 2 gilt. Man sagt auch, dass σˆ2 ein
erwartungstreuer Schätzer von σ 2 ist.
324
Für unabhängige normalverteilte Zufallsvariablen X1, . . . , Xn1 , Y1, . . . , Yn2 mit
Xi ∼ N (µ1, σ 2), i = 1, . . . , n1 und Yi ∼ N (µ2, σ 2), i = 1, . . . , n2 ist
der “richtige“ (erwartungstreue) Schätzer
!
n
n
1
2
X
X
1
2
σˆ2 =
(Xi − µˆ1) +
(Yi − µˆ2)2
n1 + n2 − 2
i=1
i=1
Pn1
Pn1
1
1
mit µˆ1 = n
i=1 Xi und µˆ2 = n
i=1 Yi .
1
2
1
Bemerkung: Die 2 im Vorfaktor n +n
ist notwendig, da sowohl µ1 als auch
1
2 −2
µ2 durch µˆ1 bzw. µˆ2 geschätzt werden müssen. Nur mit diesem Vorfaktor ist σˆ2
ein erwartungstreuer Schätzer von σ 2.
325
Zweistichproben t-Test (Student’s t-Test): Seien X1, . . . , Xn1 (Stichprobe 1) normalverteilte Zufallsvariablen mit unbekanntem Erwartungswert µ1 und unbekannter
Varianz σ 2. Seien weiter Y1, . . . , Yn2 (Stichprobe 2) normalverteilte Zufallsvariablen mit unbekanntem Erwartungswert µ2 und Varianz σ 2. Die Variablen
X1, . . . , Xn1 , Y1, . . . , Yn2
Pn1
Pn2
1
1
seien unabhängig. Seien µˆ1 = n
i=1 Xi und µˆ2 = n2
i=1 Yi die em1
pirischen Mittel der beiden Stichproben. Die Statistik des Zweistichproben t-Tests
ist
r
µˆ − µˆ
n1n2
T = 1p 2
.
n1 + n2
σˆ2
Die Nullhypothesen des Zweistichproben t-Tests sind:
326
1. H0 : µ1 = µ2 (zweiseitige Nullhypothese)
2. H0 : µ1 ≤ µ2 oder H0 : µ1 ≥ µ2 (einseitige Nullhypothesen)
Gilt µ1 = µ2, dann ist T t-verteilt mit ν = n1 + n2 − 2 Freiheitsgraden.
Bemerkung: Die t-Statistik ist unabhängig vom Parameter σ. Die Fallzahlen n1 und
n2 gehen aber über die Freiheitsgrade ν = n1 + n2 − 2 in die t-Statistik ein.
327
Ganz analog zum Zweistichproben Z-Test gilt nun: Die Nullhypothese
1. H0 : µ1 = µ2 (zweiseitig) wird auf dem Niveau α abgelehnt, wenn
|T | ≥ t1−α/2,ν gilt.
2. H0 : µ1 ≤ µ2 wird auf dem Niveau α abgelehnt, wenn T ≥ t1−α,ν gilt.
3. H0 : µ1 ≥ µ2 wird auf dem Niveau α abgelehnt, wenn T ≤ −t1−α,ν gilt.
t1−α,ν ist das (1 − α)100% Perzentil der t-Verteilung mit ν = n1 + n2 − 2
Freiheitsgraden. Ist Fν die Verteilungsfunktion der t-Verteilung mit ν Freiheitsgraden, dann gilt t1−α,ν = Fν−1(1 − α).
328
Der P-Wert des Zweistichproben t-Tests ist wieder als das kleinste Signifikanzniveau,
auf dem die H0 gerade noch abgelehnt werden kann, definiert. Damit ergibt sich:
1. Für H0 : µ1 = µ2 (zweiseitig) ist der P-Wert P = 2Fν (−|T |).
2. Für H0 : µ1 ≤ µ2 gilt P = Fν (−T ). und für
3. H0 : µ1 ≥ µ2 gilt P = Fν (T ).
T sei die T-Statistik für den Zweistichproben t-Test und Fν die Verteilungsfunktion
der t-Verteilung mit ν = n1 + n2 − 2 Freiheitsgraden.
329
Beispiel: In einer Studie zur Wirksamkeit eines Medikaments gegen Bluthochdruck
wird eine Gruppe von 10 Patienten ein Placebo verabreicht und eine andere Gruppe
von 10 Patienten werden mit dem Testmedikament behandelt. Nach zwei Wochen
wird bei allen 20 Patienten der systolische Blutdruck bestimmt. Man erhält folgendes
Ergebnis:
P lacebo = {188, 178, 179, 202, 178, 179, 164, 175, 181, 174}
und
M edikament = {185, 177, 158, 187, 162, 173, 169, 208, 169, 160}
Die empirischen Mittel der beiden Gruppen sind:
> Placebo <- c(188, 178, 179, 202, 178, 179, 164, 175, 181, 174)
> Medikament <- c(185, 177, 158, 187, 162, 173, 169, 208, 169, 160)
> mu_P <- mean(Placebo)
330
> mu_M <- mean(Medikament)
> mu_P
[1] 179.8
> mu_M
[1] 174.8
Offensichtlich ist der mittlere Blutdruck in der Medikamentengruppe tiefer in der
Placebogruppe. Da die Daten aber streuen, könnte das auch zufällig zustande gekommen sein. Für den Wirksamkeitsnachweis muss ein statistischer Test durchgeführt
werden. Wir testen die Differenz mit dem zweiseitigen Zweistichproben t-Test:
> sigma2 <- 1/18*(sum((Placebo-mu_P)^2)+sum((Medikament-mu_M)^2))
> T <- (mu_P-mu_M)/sqrt(sigma2)*sqrt(10*10/20)
> T
[1] 0.8702125
Die Anzahl der Freiheitsgrade ist 18. Wir berechne für das Signifikanzniveau von
α = 0.05 die Grenze t0.975,18 des zweiseitigen Ablehnungsbereichs.
331
> t <- qt(0.975,df=18)
> t
0.4
[1] 2.100922
t0.975,18
0.1
y
0.2
0.3
− t0.975,18
0.0
T
−4
−2
0
x
2
4
332
Die Nullhypothese kann nicht abgelehnt werden. Der beobachtete Unterschied zwischen Placebo und Medikamentengruppe ist nicht signifikant auf dem Niveau α =
0.05. Man kann nicht ausschließen, dass der Unterschied durch Zufall zustande gekommen ist und in Wahrheit das Medikament sich in seiner Wirkung nicht von einem
Placebo unterscheidet. Um die Frage zu beantworten, ob man vielleicht auf einem
anderen Signifikanzniveau hätte ablehnen können, berechnet man den P-Wert:
> P <- 2*pt(-abs(T), df=18)
> P
[1] 0.3956415
333
Man kann den P-Wert des t-Tests direkt durch die Funktion t.test berechnen.
> t.test(Placebo,Medikament, var.equal=TRUE)
Two Sample t-test
data: Placebo and Medikament
t = 0.87021, df = 18, p-value = 0.3956
alternative hypothesis: true difference in means is not equal to 0
95 percent confidence interval:
-7.071316 17.071316
sample estimates:
mean of x mean of y
179.8
174.8
334
Bemerkung: Um den klassischen t-Test (Student’s Test) zu erhalten, muss das Argument var.equal=TRUE angegeben werden. Sonst wird von R eine andere Version
des t-Tests durchgeführt (Welch-Test), bei dem nicht Varianzgleichheit in den Gruppen vorausgesetzt wird.
335
> t.test(Placebo,Medikament)
Welch Two Sample t-test
data: Placebo and Medikament
t = 0.87021, df = 15.403, p-value = 0.3975
alternative hypothesis: true difference in means is not equal to 0
95 percent confidence interval:
-7.218866 17.218866
sample estimates:
mean of x mean of y
179.8
174.8
336
3.4 Nichtparametrische Tests
Für alle Varianten des t-Tests muss vorausgesetzt werden, dass die Daten normalverteilt sind. Diese Voraussetzung kann allerdings nicht bewiesen werden. In der Praxis
muss man sich damit begnügen, diese Voraussetzung plausibel zu machen.
Das kann durch Betrachtung von Histogrammen geschehen. Hat der Graph eine
glockenförmige Gestalt, dann nimmt man oft an, dass die Voraussetzungen für den
t-Test erfüllt sind.
337
Eine weitere Möglichkeit ist die Beurteilung der Verteilung anhand von Größen wie
der Schiefe und dem Exzess. Unterscheiden sie sich nicht zu stark von 0, dann geht
man von normalverteilten Daten aus und benutzt den t-Test.
Wie testet man aber Variablen, deren Histogramm nicht glockenförmig ist oder deren
Schiefe und Exzess stark von 0 abweichen? Auch diskret verteilte Variablen mit nur
wenig Stufen sind sicher nicht normalverteilt.
In allen diesen Fällen soll der t-Test nicht angewandt werden, sondern ein Test, der
ohne die Normalverteilungsannahme auskommt. Solche Tests heißen nicht-parametrische
Tests. Sowohl für den verbundenen als auch unverbundenen t-Test gibt es nichtparametrische Alternativen.
338
3.4.1 Der Vorzeichen Test
Der Median µ̄ einer Verteilung ist ihr 50% Perzentil. Ist eine Zufallsvariable gemäß
einer beliebigen stetigen Verteilung mit Median µ̄ verteilt, dann gilt
P(X < µ̄) = 0.5 = P(X > µ̄).
Für eine allgemeine, möglicherweise nicht stetigen, Verteilung mit Median µ̄ gilt
1
1
P(X < µ̄) + P(X = µ̄) = 0.5 = P(X > µ̄) + P(X = µ̄).
2
2
Die Zufallsvariable X nimmt also mit der gleichen Wahrscheinlichkeit Werte < µ̄
wie Werte > µ̄ an.
339
Vorzeichentest: Seien X1, . . . , Xn unabhängige Zufallsvariablen, die gemäß einer
beliebigen Verteilung F mit Median µ̄ verteilt sind. Der Vorzeichentest prüft nun
die Nullhypothese
H0 : µ̄ = µ¯0
für ein fest vorgegebenes µ¯0 ∈ IR.
Seien

 −1 wenn Xi − µ¯0 < 0
Vi = sign(Xi − µ¯0) =
0 wenn X − µ¯ = 0
 1 wenn Xi − µ¯0 > 0
0
i
für i = 1, . . . , n die Vorzeichen der Variablen X1 − µ¯0, . . . , Xn − µ¯0.
340
Sie n0 die Anzahl der Vi, die nicht 0 sind und P die Anzahl der Vi, die = 1 sind:
n0 = #{i|Vi 6= 0}
P = #{i|Vi = 1}
Ist die H0 : µ̄ = µ¯0 wahr, dann ist P binomialverteilt mit Trefferwahrscheinlichkeit
p = 0.5 und Anzahl der Wiederholungen n0:
P ∼ B(n0, 1/2)
Der Vorzeichentest ist nun der zweiseitige Binomialtest für P der Nullhypothese
H0 : p = 1/2.
Der Vorzeichentest wird hauptsächlich auf verbundene Stichproben angewandt.
341
Vorzeichentest für verbundene Stichproben: Sei (X1, Y1), . . . , (Xn, Yn)
eine verbundene Stichpobe. Die Differenzen Di = Xi − Yi, i = 1, . . . , n seien
unabhängig gemäß einer Verteilung F mit Median µ̄ verteilt. Der Vorzeichentest für
verbundene Stichproben ist der Vorzeichentest für die Variablen D1, . . . , Dn mit
Nullhypothese H0 : µ̄ = 0.
342
Beispiel (Blutdruckstudie mit einer Stichprobe):
PatNr.
1
2
3
4
5
6
7
8
9
10
vorher
205
206
166
160
204
186
194
165
190
196
nachher
198
206
143
149
179
174
189
160
194
187
diff
7
0
23
11
25
12
5
5
-4
9
343
Für die Variable diff soll der Vorzeichentest der Nullhypothese H0 : µ̄ = 0 durchgeführt werden. Eine wahre Nullhypothese würde bedeuten, dass eine Blutdrucksteigerung genauso wahrscheinlich ist wie eine Blutdrucksenkung, das Medikament also
wirkungslos ist.
Unter den 10 Differenzen ist eine 0, acht sind positiv und eine ist negativ. Damit
ergibt sich n0 = 9 und P = 8. Wir führen den zweiseitigen Binomialtest durch:
344
> binom.test(8,9,p=0.5,alternative="two.sided")
Exact binomial test
data: 8 and 9
number of successes = 8, number of trials = 9, p-value = 0.03906
alternative hypothesis: true probability of success is not equal to 0.5
95 percent confidence interval:
0.5175035 0.9971909
sample estimates:
probability of success
0.8888889
Zum Vergleich berechnen wir den verbundenen t-Test:
345
> vorher <- c(205, 206, 166, 160, 204, 186, 194, 165, 190, 196)
> nachher <- c(198, 206, 143, 149, 179, 174, 189, 160, 194, 187)
> t.test(vorher, nachher, paired=TRUE)
Paired t-test
data: vorher and nachher
t = 3.2214, df = 9, p-value = 0.01047
alternative hypothesis: true difference in means is not equal to 0
95 percent confidence interval:
2.769279 15.830721
sample estimates:
mean of the differences
9.3
Der P-Wert des verbundenen t-Tests ist kleiner als der des Vorzeichentests.
346
McNemar Test: Haben die Variablen Xi und Yi nur die Ausprägungen 0 und 1
wird der Vorzeichentest für die verbundene Stichprobe (X1, Y1), . . . , (Xn, Yn)
auch als Test nach McNemar bezeichnet.
Beispiel: In einer Studie soll untersucht werden, ob eine Wahlwerbeaktion die Einstellung zu einer bestimmten gesellschaftlichen Fragestellung verändert. Dazu wird
jedem Studienteilnehmer vor und nach der Aktion eine Aussage vorlegt, der er zustimmen oder die er ablehnen kann.
0 i-ter Teinehmer stimmt Aussage vor der Aktion zu
Xi =
1 i-ter Teinehmer lehnt Aussage vor der Aktion ab
Yi =
0 i-ter Teinehmer stimmt Aussage nach der Aktion zu
1 i-ter Teinehmer lehnt Aussage nach der Aktion ab
347
Nr.
1
2
3
4
5
6
7
8
9
10
vorher
1
1
1
1
0
0
0
0
0
0
nachher
1
1
0
0
1
0
0
1
0
0
diff
0
0
1
1
-1
0
0
-1
0
0
Insgesamt haben n0 = 4 Probanden ihre Meinung geändert. Jeweils zwei von Zustimmung zu Ablehnung und umgekehrt. Der Binomialtest ergibt in diesem Fall einen
P-Wert von 1.
348
Da beim Vorzeichentest nur die Vorzeichen nicht aber die absolute Größe der Differenzen in die Teststatistik eingehen, ist die Power des Vorzeichentests oft kleiner
als die des verbundenen t-Tests. Sind die Differenzen normalverteilt, ist der t-Test
unbedingt vorzuziehen. Bestehen dagegen Zweifel an der Gültigkeit der Normalverteilungsannahme, ist der Vorzeichentest die bessere Wahl.
349
3.4.2 Vorzeichen-Rang-Test nach Wilcoxon
Ein Test, der auch ohne Normalverteilungsannahme auskommt, ist der VorzeichenRang-Test nach Wilcoxon. In die Teststatistik des Vorzeichen-Rang-Tests gehen neben dem Vorzeichen auch noch die Ränge ein. Er vergröbert daher weniger als der
Vorzeichentest und hat deshalb im Allgemeinen eine höhere Power.
350
Eine Wahrscheinlichkeitsverteilung F mit Median µ̄ ist symmetrisch um den Median,
wenn
PF ((−∞, µ̄ − λ)) = PF ((µ̄ + λ, ∞))
für jedes λ > 0 gilt.
Vorzeichen-Rang-Test nach Wilcoxon: Seien X1, . . . , Xn unabhängige Zufallsvariablen, die gemäß F verteilt sind. F sei eine stetige um ihren Median µ̄
symmetrische Verteilung. Die Nullhypothese sei
H0 : µ̄ = µ¯0
für ein fest vorgegebenes µ¯0 ∈ IR.
351
Seien Di = |Xi − µ¯0| für i = 1, . . . , n die Beträge von Xi − µ¯0 und
D(1) ≤ . . . ≤ D(n)
die aufsteigende Anordnung der Di. Zu jedem D(i) gehört genau ein Xi0 − µ¯0. Sei
Si = sign(Xi0 − µ¯0) das Vorzeichen dieses Xi0 − µ¯0.
0 wenn Si ≤ 0
Ri =
i wenn Si = 1
Die Summe der “positiven“ Ränge ist dann
P =
n
X
Ri.
i=1
352
Die exakte Verteilung von P unter der Nullhypothese ist schwer anzugeben. Für
große n kann aber wegen des Zentralen Grenzwertsatzes angenommen werden, dass
die Standardisierung von P annähernd standardnormalverteilt ist. Wir berechnen
also Erwartungswert und Varianz von P unter der Annahme, dass H0 wahr ist.
Aus E(Ri)
aus E(Ri2)
Pn
1
. Für die Varianz folgt
= i/2 folgt E(P ) = 2 i=1 i = n(n+1)
4
= i2/2 sofort Var(Ri) = i2/4 und damit
n
1X 2
n(n + 1)(2n + 1)
Var(P ) =
i =
,
4
24
i=1
da die Ri unabhängig sind.
353
Die Testgröße
Z=q
P − n(n+1)
4
n(n+1)(2n+1)
24
ist die Standardisierung von P und wegen des Zentralen Grenzwertsatzes für große
n annähernd standardnormalverteilt. Die Nullhypothese wird daher auf dem Niveau
α abgelehnt, wenn |Z| ≥ z1−α/2 gilt (Z-Test gegen µ = 0 mit bekannter Varianz
σ 2 = 1).
354
Beispiel (Vorzeichen-Rang-Test für verbundene Stichprobe):
Nr.
1
2
3
4
5
6
7
8
9
10
Summe (P)
vorher
110
151
156
149
134
155
122
101
156
199
nachher
120
140
171
130
133
146
178
154
181
167
D
-10
11
-15
19
1
9
-56
-53
-25
32
|D|
10
11
15
19
1
9
56
53
25
32
Rang
3
4
5
6
1
2
10
9
7
8
R
0
4
0
6
1
2
0
0
0
8
21
Auf die Differenz D soll der Vorzeichen-Rang-Test der Nullhypothese H0 : µ̄ = 0
angewandt werden.
355
>
>
>
>
P <- 21
n <- 10
Z <- (P-n*(n+1)/4)/sqrt(n*(n+1)*(2*n+1)/24)
Z
[1] -0.6625413
> 2*pnorm(-abs(Z)) # P-Wert des Z-Tests.
[1] 0.5076243
356
>
>
>
+
vorher <- c(110,151,156,149,134,155,122,101,156,199)
nachher <- c(120,140,171,130,133,146,178,154,181,167)
wilcox.test(vorher, nachher, paired=TRUE,
correct=FALSE, exact=FALSE)
Wilcoxon signed rank test
data: vorher and nachher
V = 21, p-value = 0.5076
alternative hypothesis: true location shift is not equal to 0
357
Da n = 10 noch keine große Zahl ist, ist die Näherung durch die Normalverteilung
nicht gut. In R wird auch ein exakter Test angeboten:
> wilcox.test(vorher, nachher, paired=TRUE,
exact=TRUE)
Wilcoxon signed rank test
data: vorher and nachher
V = 21, p-value = 0.5566
alternative hypothesis: true location shift is not equal to 0
358
Bemerkung: Da wir vorausgesetzt haben, dass F eine stetige Verteilung ist, kommen
gleiche Ränge oder Di = 0 nur mit Wahrscheinlichkeit 0 vor.
In der Praxis wird der Vorzeichen-Rang-Test aber auch bei diskreten Verteilungen
angewandt. Selbst bei stetigen Variablen können durch Rundung gleiche Ränge (Bindungen) auftreten.
Es ist möglich, den Vorzeichen-Rang-Test so zu modifizieren, dass er auch auf diese
Fälle angewandt werden kann.
Bemerkung: Eine wichtige Voraussetzung für den Vorzeichen-Rang-Test ist die Annahme, dass die Verteilung symmetrisch um ihren Median ist. Ist sie verletzt, dann
wird die wahre Nullhypothese mit einer größeren Wahrscheinlichkeit als das vorgegebene α abgelehnt. Der Test hält das Signifikanzniveau nicht mehr ein, d.h. er
beschränkt die Fehlerwahrscheinlichkeit 1. Art nicht durch α.
359
Vorlesung 1.2.2017
360
3.4.3 Mann-Whitney-Wilcoxon-U Test (U-Test)
Auch für den Zweistichproben t-Test gibt es ein nicht-parametrisches alternatives
Testverfahren, das auch auf nicht normalverteilte Daten angewandt werden kann.
Ähnlich wie beim Vorzeichen-Rang-Test wird die Teststatistik des U Tests aus Summen von Rängen abgeleitet.
Voraussetzungen und Nullhypothese für den U-Test: Seien X1, . . . , Xn1
gemäß einer beliebigen stetigen Verteilung mit Wahrscheinlichkeitsdichte f (t) und
Y1, . . . , Yn2 gemäß der um eine unbekannten Parameter a ∈ IR verschobenen
Verteilung mit Wahrscheinlichkeitsdichte f (t − a) verteilt. Die Variablen der Gesamtstichprobe X1, . . . , Xn1 , Y1, . . . , Yn2 seien unabhängig.
361
Die Nullhypothesen für den U-Test sind nun Bedingungen an den unbekannten Parameter a:
H0 : a = 0 (zweiseitig)
H0 : a ≤ 0 (einseitig)
H0 : a ≥ 0 (einseitig)
362
Bemerkung: Der U-Test wird wie der Zweistichproben t-Test auf die unabhängigen
Stichproben S1 = {X1, . . . , Xn1 } und S2 = {Y1, . . . , Yn2 } angewandt. Im
Gegensatz zum t-Test kann die Wahrscheinlichkeitsdichte f beliebig sein. Der UTest kommt ohne Normalverteilungsannahme aus.
Bemerkung: Die Voraussetzung der Stetigkeit kann fallen gelassen werden. Die Formeln zur Berechnung der Teststatistik des Mann-Whitney-U Tests müssen dann allerdings modifiziert werden, da Bindungen (=gleich große Werte) in den Stichproben
auftreten können. In der Praxis wird der U-Test sogar besonders gerne auf ordinale Daten, wie z.B. Schulnoten oder allgemeiner Bewertungsscores mit nur wenigen
Ausprägungen, angewandt.
363
Durchführung des U-Tests: Die vereinigte Stichprobe
S = {X1, . . . , Xn1 , Y1, . . . , Yn2 }
wird aufsteigend angeordnet. Jedem Element aus S wird dadurch ein Rang, d.h.
eine ganze Zahl zwischen 1 und n1 + n2, zugeordnet. Das kleinste Element aus
S erhält den Rang 1, das zweitkleinste Rang 2 und schließlich das größte den Rang
n1 +n2. Im Gegensatz zum Vorzeichen-Rang-Test werden nicht die Beträge sondern
die Werte aus der Stichprobe selbst aufsteigend sortiert.
Sind die Verteilungen für X1, . . . , Xn1 und Y1, . . . , Yn2 stetig, dann sind alle
Werte aus S mit Wahrscheinlichkeit 1 verschieden und die Zuordnung der Elemente
aus S zu den Rängen ist eindeutig.
364
Lässt man die Annahme der Stetigkeit fallen (z.B. Variablen sind Scores oder stark
gerundet stetige Variablen), dann können gleiche Ränge auftreten. Man ordnet dann
den betreffenden Werten durchschnittliche Ränge zu:
Beispiel: Hat die Stichprobe S nach aufsteigender Sortierung die Gestalt
1, 2, 2, 2, 2, 3, 3.1, . . . ,
dann gibt es vier zweitkleinste Elemente. Die 2 besetzt den zweiten bis fünften Rang.
Ihr wird ihr deshalb der durchschnittliche Rang 2+3+4+5
= 3.5 zugeordnet.
4
In einem nächsten Schritt bildet man die Summe R1 der Ränge, die zu Elementen
aus der ersten Stichprobe, und entsprechend die Summe der Ränge R2, die zur
zweiten Stichprobe gehören.
365
Beispiel:
Gruppe
1
1
1
1
2
2
2
2
2
2
Summe
Wert
4.4
0.0
-0.6
-2.3
-0.1
-11.1
3.0
5.6
1.8
-1.5
Rang
9
6
4
2
5
1
8
10
7
3
Ränge zu Gruppe 1
9
6
4
2
21
Ränge zu Gruppe 2
5
1
8
10
7
3
34
Damit ist R1 = 21 und R2 = 34.
366
Bemerkung: Die Rangsummen R1 und R2 sind nicht unabhängig, sondern es gilt
(n + n2)(n1 + n2 + 1)
R1 + R2 = 1
.
2
Ist die H0 wahr, dann erhält jedes Element aus S alle Ränge mit der gleichen
Wahrscheinlichkeit. Gilt dagegen die H1, dann erhalten die Elemente aus einer der
beiden Stichproben eher die kleinen Ränge und die andere die hohen Ränge.
Exakte Statistik des U-Tests: Seien
n (n + 1)
− R1 .
U1 = n1n2 + 1 1
2
und
n2(n2 + 1)
U2 = n1n2 +
− R2 ,
2
dann kann für jedes Paar n1 und n2 die exakte Verteilung der Statistik
U = min(U1, U2)
367
bestimmt werden. Für kleine n1, n2 und den gängigen Signifikanzniveaus wurden
früher Tabellen mit exakten Ablehnungsgrenzen benutzt. Heute sind exakte Versionen des U-Tests in vielen Statistikprogrammen implementiert (z.B. wilcox.test
mit Option exact=TRUE).
Asymptotische Statistik des U-Tests: Wie beim Vorzeichen-Rang-Test, ist die
exakte Verteilung von U unter H0 für große n1, n2 schwer zu bestimmen. Eine
für großes n1 + n2 asymptotisch gültige Prüfgröße erhält man durch folgende
Transformation von R1:
368
Sei
n1(n1 + 1)
U1 = n1n2 +
− R1 .
2
Die Zufallsvariable
Z=q
U1 − n12n2
n1 n2 (n1 +n2 +1)
12
ist für großes n1 + n2 annähernd standardnormalverteilt.
Der U-Test ist dann schließlich der Z-Test für die Variable Z mit bekannter Varianz
σ 2 = 1 und Nullhypothese H0 : µ = 0.
Die Nullhypothese des U-Tests wird dann abgelehnt, wenn µ = 0 abgelehnt werden
kann. Für ein Signifikanzniveau α ist das bekanntlich genau dann der Fall, wenn
|Z| ≥ z1−α/2 gilt.
369
Bemerkung: Die Näherung liefert für n1 + n2 > 60 brauchbare Resultate.
Bemerkung: Benutzt man U2 statt U1, dann dreht sich das Vorzeichen der Teststatistik Z um. Auf das Ergebnis des zweiseitigen Z-Tests hat das keinen Einfluss.
Bemerkung: In R ist in der Funktion wilcox.test für kleine Stichprobenumfänge
der exakte U-Test implementiert. Für große Stichproben wird die asymptotische Formel benutzt. Nur bei Vorliegen von Bindungen (Elemente mit gleichen Rängen) muss
auch bei kleinen Stichproben auf asymptotische Formeln zurückgegriffen werden, die
in der Regel aber auch brauchbare Ergebnisse liefern.
370
Beispiel:
> S1 <- c(4.4, 0, -0.6, -2.3)
> S2 <- c(-0.1, -11.1, 3.0, 5.6, 1.8,-1.5)
> wilcox.test(S1,S2, paired=FALSE)
Wilcoxon rank sum test
data: S1 and S2
W = 11, p-value = 0.9143
alternative hypothesis: true location shift is not equal to 0
371
Bemerkung: So wie viele Autoren wird auch in R der U-Test Wilcoxon zugeschrieben.
Um ihn vom Vorzeichen-Rang-Test nach Wilcoxon zu unterscheiden, bezeichnet man
ihn oft als Wilcoxon Test für unabhängige Stichproben.
Bemerkung: Die Funktion wilcox.test verwendet für kleine Stichprobenumfänge
die exakte Statistik und für n1 + n2 ≥ 50 die Approximation der Verteilung von
Z durch die Normalverteilung.
372
Vorlesung 8.2.2017
373
3.4.4 Der χ2-Test
Ein in der Praxis oft verwendeter Test ist der χ2-Test. Er soll hier in der einfachsten
Form besprochen werden.
Voraussetzungen des χ2 Test für zwei Stichproben: Seien X1, . . . , Xn1 und
Y1, . . . , Yn2 zwei unabhängige Stichproben von dichotom (binomial mit n = 1)
verteilten Zufallsvariablen. Dichotom bedeutet, dass Xi und Yi nur die Werte 0 oder
1 annehmen können.
Es gelte nun, dass X1, . . . , Xn1 , Y1, . . . , Yn2 unabhängig sind. Weiter gelte
P(Xi = 1) = p1 i = 1, . . . , n1
und
P(Yi = 1) = p2 i = 1, . . . , n2.
374
Beispiel: Es soll in einer Studie eine Placebo mit einem Medikament verglichen werden. Die Patienten der Gesamtstichprobe werden vor der Behandlung durch Zufall
zwei Gruppen S1 und S2 zugeordnet. Die Patienten in S1 erhalten ein Placebo,
wohingegen die Patienten in S2 mit dem Medikament behandelt werden. Für die n1
Patienten in der Placebogruppe S1 wird in den X1, . . . , Xn1 der Heilerfolg codiert:
0 keine Heilung beim i-ten Patienten der Placebogruppe.
Xi =
i = 1, . . . , n1
1 Heilung beim i-ten Patienten der Placebogruppe.
Entsprechend definiert man für die Medikamentengruppe:
0 keine Heilung beim i-ten Patienten der Medikamentengr.
Yi =
1 Heilung beim i-ten Patienten der Medikamentengr.
i = 1, . . . , n2
375
Die Heilwahrscheinlichkeit in der Placebogruppe ist also p1 und in der Medikamentengruppe p2. “Wirkt“ Medikament und Placebo gleich gut, dann gilt p1 = p2. Die
Nullhypothese des χ2-Tests lautet deshalb:
Nullhypothese und Alternative des χ2-Tests: Die Nullhypothese des χ2-Tests
lautet
H 0 : p 1 = p2 .
Die Alternative ist damit
H1 : p1 6= p2.
376
Die Realisierung (Ergebnis des Experiments) der X1, . . . , Xn1 , Y1, . . . , Yn2 kann
kompakt in einer Vierfeldertafel oder allgemeiner Kreuztabelle zusammengefasst werden. Dazu berechnet man
n1
X
N11 =
Xi
i=1
und
N21 =
n2
X
Yi
i=1
die Anzahl der Heilungen in den beiden Gruppen. Entsprechend sind dann
N12 = n1 − N11
und
N22 = n2 − N21
die Anzahl der Nicht-Heilungen in der Placebo- bzw. Medikamentengruppe.
377
Die Darstellung
Placebo
Medikament
Heilung
N11
N21
keine Heilung
N12
N22
heißt Kreuztabelle oder Vierfeldertafel und fasst das Ergebnis des Experiments in
prägnanter Form zusammen.
Die Nullhypothese H0 : p1 = p2 wird nun auf folgende Art getestet:
378
Ist H0 wahr, dann ist die Heilwahrscheinlichkeit in beiden Gruppen gleich
p = p 1 = p2 .
Die gemeinsame Heilwahrscheinlichkeit p wird nun aus der Gesamtstichprobe geschätzt:
Anzahl der Heilungen in beiden Gruppen
N11 + N21
=
Anzahl aller Studienteilnehmer
N11 + N21 + N12 + N22
Aus diesem p̂ können nun die erwarteten Häufigkeiten für die Besetzung der vier
Zellen berechnet werden:
p̂ =
379
E11 :=
E21 :=
E12 :=
E21 :=
N11 + N21
n1p̂ = (N11 + N12)
N11 + N21 + N12 + N22
N11 + N21
n2p̂ = (N21 + N22)
N11 + N21 + N12 + N22
N12 + N22
n1(1 − p̂) = (N11 + N12)
N11 + N21 + N12 + N22
N12 + N22
n2(1 − p̂) = (N21 + N22)
N11 + N21 + N12 + N22
Die Idee des χ2 Tests ist nun, die erwarteten Zellhäufigkeiten E11, E21, E12 und
E22 mit den tatsächlich beobachteten N11, N21, N12 und N22 zu vergleichen.
Große Abweichungen sprechen gegen die Nullhypothese.
380
Das führt zu folgender Definition der Teststatistik X für den χ2 Test:
(N11 − E11)2 (N21 − E21)2 (N12 − E12)2 (N22 − E22)2
X=
+
+
+
E11
E21
E12
E22
Für kleine Fallzahlen n1 bzw. n2 ist die Verteilung von X unter H0 schwierig
zu bestimmen. Für große n1 und n2 kann eine Näherung der Verteilung von X
angegeben werden. Es ist die χ2-Verteilung mit einem Freiheitsgrad.
381
Die χ2-Verteilung mit einem Freiheitsgrad: Die χ2-Verteilung mit einem
Freiheitsgrad ist eine stetige Verteilung mit der Dichtefunktion
(
0
t≤0
t
1
.
f1(t) :=
√1 t− 2 e− 2 t > 0
2π
Die Dichte der χ2-Verteilung mit einem Freiheitsgrad ist nicht beschränkt.
382
0.0
0.5
f
1.0
1.5
Dichte der Chiquadratverteilung mit einem Freiheitsgrad
383
0
1
2
3
x
4
5
Die Nullhypothese H0 : p1 = p2 wird nur abgelehnt, wenn die Statistik X groß
ist. Für das Signifikanzniveau α = 0.05 ist der Schwellenwert
> qchisq(0.95,df=1)
[1] 3.841459
384
Beispiel:
Placebo
Medikament
Heilung
30
50
keine Heilung
70
150
Zunächst berechne man p̂ unter H0:
p̂ = 80/300 = 0.267.
Die erwartete Anzahl der Heilungen in der Placebogruppe ist daher 80/3 und in
der Medikamentengruppe 160/3. Entsprechend ist die erwartete Anzahl der NichtHeilungen in der Placebogruppe 220/3 und in der Medikamentengruppe 440/3.
385
Daraus folgt
X=
2
(30 − 80
)
3
80
3
+
2
)
(50 − 160
3
160
3
+
2
)
(70 − 220
3
220
3
+
2
)
(150 − 440
3
440
3
> X <- (30-80/3)^2/(80/3)+(50-160/3)^2/(160/3)+
+ (70-220/3)^2/(220/3)+(150-440/3)^2/(440/3)
> X
[1] 0.8522727
Da X < 3.841459 ist, kann die Nullhypothese nicht auf dem 5% Niveau abgelehnt
werden.
386
Der P-Wert des χ2-Tests kann wieder nach der allgemeinen Regel bestimmt werden,
dass der P-Wert das kleinste Signifikanzniveau ist, auf dem die H0 gerade noch
abgelehnt werden kann. Er ist demnach die Fläche unter der Dichtefunktion der
χ2-Verteilung mit einem Freiheitsgrad im Bereich (X, ∞).
> P.Wert <- 1-pchisq(X,df=1)
> P.Wert
[1] 0.3559102
387
Natürlich ist der χ2-Test in R als Funktion implementiert:
> M <- matrix(c(30,50,70,150), ncol=2)
> chisq.test(M, correct=FALSE)
Pearson's Chi-squared test
data: M
X-squared = 0.85227, df = 1, p-value = 0.3559
Da beim χ2-Test eine diskrete Verteilung durch die stetige χ2-Verteilung approximiert wird, erhält man insbesondere für kleine Fallzahlen bessere Resultat, wenn der
Wert der Statistik korrigiert wird (Stetigkeitkorrektur nach Yates).
388
> chisq.test(M)
Pearson's Chi-squared test with Yates' continuity correction
data: M
X-squared = 0.61577, df = 1, p-value = 0.4326
Für ganz kleine Fallzahlen ist der χ2-Test ungeeignet. Er wird dann in der Regel
durch den exakten Test nach Fisher ersetzt.
389
> fisher.test(M)
Fisher's Exact Test for Count Data
data: M
p-value = 0.4063
alternative hypothesis: true odds ratio is not equal to 1
95 percent confidence interval:
0.723193 2.261002
sample estimates:
odds ratio
1.284584
390
Ende der Vorlesung Statistik I
391
4. Konfidenzintervalle
Konfidenzintervalle für eine Stichprobe normalverteilter Daten
Sei S = {X1, . . . , Xn} eine Stichprobe unabhängiger normalverteilter Zufallsvariablen mit Erwartungswert µ und Varianz σ 2.
Eine Aufgabe der beschreibenden Statistik ist die möglichst genaue Bestimmung der
unbekannten Größen µ und σ 2.
392
Die Ausdrücke (Schätzer)
n
n
X
1X
1
µ̂ =
Xi und σˆ2 =
(Xi − µ̂)2
n
n−1
i=1
i=1
werden für große n nahe bei µ bzw. σ 2 liegen (Gesetz der großen Zahlen). Da n
in der Regel eine fest vorgegebene Zahl ist, erhebt sich die Frage, wie gut diese
Punktschätzer für beliebige n sind.
Ziel ist die Angabe eines Bereichs (Intervalls), in dem die unbekannten Parameter
mit hoher Wahrscheinlichkeit liegen.
Ein solcher Bereich heißt Konfidenzintervall.
393
Bestimmung des Konfidenzintervalls mit Hilfe des Einstichproben t-Tests:
Definition: Das zweiseitige (1 − α)100% Konfidenzintervall besteht aus allen reellen Zahlen µ0 ∈ IR, für die der zweiseitige Einstichproben t-Test die Nullhypothese
H0 : µ = µ0 nicht auf dem Niveau α ablehnen kann.
Umgekehrt werden damit alle reellen Zahlen µ0, die außerhalb des Konfidenzintervalls liegen, als mögliche Werte für µ auf dem Niveau α ausgeschlossen.
Die Wahrscheinlichkeit, dass µ nicht im Konfidenzintervall liegt ist deshalb gleich
der Irrtumswahrscheinlichkeit 1. Art des t-Tests und damit gleich α.
394
Zur praktischen Berechnung des Konfidenzintervalls stellt man folgende Überlegung
an:
Die Nullhypothese H0 : µ = µ0 wird genau dann auf dem Niveau α abgelehnt,
wenn der Betrag der t-Statistik
µ̂ − µ0 √
n
T = p
σˆ2
größer als der kritische Wert t1− α ;n−1 ist.
2
Die Zahl t1− α ;n−1 ist das 1 − α
2 Perzentil der t-Verteilung mit n − 1 Freiheits2
graden. In R wird es mit qt(1-alpha/2,df=n-1) berechnet.
395
H0 wird also genau dann nicht abgelehnt, wenn
µ̂ − µ0 √
< p
n < t1− α ;n−1
2
σˆ2
gilt. Löst man diese Ungleichungen nach µ0 auf, erhält man die Grenzen des zweiseitigen (1 − α)100% Konfidenzintervalls:
p
p
σˆ2
σˆ2
µ̂ − t1− α ;n−1 √ < µ0 < µ̂ + t1− α ;n−1 √
2
2
n
n
−t1− α ;n−1
2
396
Das Intervall
p
p
σˆ2
σˆ2
CI(1 − α)100% = (µ̂ − t1− α ;n−1 √ , µ̂ + t1− α ;n−1 √ )
2
2
n
n
heißt das zweiseitige (1 − α)100% Konfidenzintervall für µ.
397
Beispiel: Sei S = {1, 4.5, 10, −1, −1.2, 0.1} eine Stichprobe aus einer normalverteilten Population.
Berechnung der 90%, 95% und 99% Konfidenzintervalle.
> S <- c(1,4.5,10,-1,-1.2,0.1)
> t95 <- qt(0.95,5)
> t95
[1] 2.015048
> t97.5 <- qt(0.975,5)
> t97.5
398
[1] 2.570582
> t99.5 <- qt(0.995,5)
> t99.5
[1] 4.032143
> mu <- mean(S)
> mu
[1] 2.233333
> sd <- sd(S)
> sd
[1] 4.330666
> # 90\% Konfidenzintervall:
> paste("(",mu-sd/sqrt(n)*t95,",", mu+sd/sqrt(n)*t95, ")", sep="")
[1] "(-0.526228636079019,4.99289530274569)"
> # 95\% Konfidenzintervall:
> paste("(",mu-sd/sqrt(n)*t97.5,",", mu+sd/sqrt(n)*t97.5, ")", sep="")
[1] "(-1.28701881640229,5.75368548306895)"
> # 99\% Konfidenzintervall
> paste("(",mu-sd/sqrt(n)*t99.5,",", mu+sd/sqrt(n)*t99.5, ")", sep="")
[1] "(-3.28859287940922,7.75525954607589)"
Direkt aus der Formel für das Konfidenzintervall folgt:
• Je größer die Streuung σ der Daten, umso breiter ist das Konfidenzintervall.
• Je höher die Sicherheit (1−α)100%, desto breiter ist das Konfidenzintervall.
• Mit steigenden n strebt die Breite des Konfidenzintervalls gegen Null.
399
Der letzte Punkt ist eine Bestätigung des Gesetzes der großen Zahlen. Da der Einfluss
von n auf t1− α ;n−1 für große n immer kleiner wird, ist die Breite des Konfidenz2
√
intervalls umgekehrt proportional zu n.
Will man beispielsweise die Genauigkeit der Schätzung von µ̂ um den Faktor 10
steigern, muss die Fallzahl n um das 100 fache erhöht werden. Der Schätzer µ̂ wird
mit steigenden n nur sehr langsam besser!
400
Bemerkung: Für n ≥ 30 unterscheiden sich die Perzentile der t-Verteilung und die
der Standardnormalverteilung nur unwesentlich
> qt(0.975,30)
[1] 2.042272
> qnorm(0.975)
[1] 1.959964
401
Insbesondere für das 95% Konfidenzintervall wird oft t0.975;n−1 ≈ z0.975 ≈
1.96 ≈ 2 angenommen. Das zweiseitige 95% Konfidenzintervall ist dann in dieser
Näherung
p !
p
σˆ2
σˆ2
µ̂ − 2 √ , µ̂ + 2 √
n
n
402
5. Korrelationsanalyse
5.1 Die Kovarianz von zwei Zufallsvariablen
Definition Kovarianz: Seien
X : Ω −→ IR
und
Y : Ω −→ IR
zwei Zufallsvariablen auf dem gleichen Wahrscheinlichkeitsraum Ω. Existieren E(XY ),
E(X) und E(Y ), dann ist die Kovarianz von X und Y als
Cov(X, Y ) := E(XY ) − E(X)E(Y )
definiert.
403
Die Kovarianz ist eine Größe, die den Zusammenhang der Variablen X und Y beschreibt.
Beispiel: Man betrachte den Laplaceraum Ω = {1, 2, 3, 4, 5, 6} und die Zufallsvariablen X(i) = i und Y (i) = i2.
7
1
(1 + 2 + 3 + 4 + 5 + 6) =
6
2
1 2
(1 + 22 + 32 + 42 + 52 + 62) =
E(Y ) =
6
1 3
E(XY ) =
(1 + 23 + 33 + 43 + 53 + 63) =
6
Daraus folgt
147 7 91
245
Cov(X, Y ) =
− ∗
=
.
2
2 6
12
E(X) =
91
6
147
2
404
Bemerkung: Sind X und Y unabhängige Variablen, dann gilt Cov(X, Y ) = 0. Die
Umkehrung dieser Aussage gilt im Allgemeinen nicht.
Bemerkung: Es gilt
Var(X) = Cov(X, X).
Schätzung der Kovarianz aus einer Stichprobe: Seien
(X1, Y1), . . . , (Xn, Yn)
unabhängige identisch wie (X, Y ) verteilte Paare von Zufallsvariablen, dann ist
n
X
1
c
Cov((X
(Xi − X̄)(Yi − Ȳ )
1 , Y1 ), . . . , (Xn , Yn )) =
n−1
i=1
ein Schätzer für Cov(X, Y ).
405
In R kann die Kovarianz mit cov aus einer Stichprobe berechnet werden:
> x <- c(1,2.1,3,4,5.5,6.6,6.3)
> y <- c(0,10,11,45,46,47,80)
> cov(x,y)
[1] 54.6881
406
Beispiel: Kovarianz zwischen Gewicht und Größe in Schueler.txt:
200
> Schueler <- read.table("Schueler.txt", header=TRUE)
> plot(Schueler$Gewicht,Schueler$Groesse,
+ xlab="Gewicht [kg]", ylab="Größe [cm]")
●
●
●●
●●
●
●
●
●●
●
●●●●
●●
●● ●●●
●●
●●
●
●
●
●●●
●
● ●●●●
●
●
●
●
●
●●
● ●●
● ●●●
●
●
●
●
●
●
●●●
●●
● ● ●●●
● ●
●●
●
● ● ●●● ●●●
●●●●●●
● ●●
●●
●●
● ●
●●●
●
●
●
● ●●●
●●
●
●
●
●●
●●
●
●
●●
● ●●
●●
●
●
●
●● ●●●
●●
●
● ●
●●
●●
●●●
●●●
●●
●● ●
●●
●●
●●●
●
●●
●
●
●●●
●●
●
●
●
●
●
●
●
●
●
●●● ●●
●●
●●
●
●●
●●
●●●●
●●
●
●●
●
●●●
● ●
●●
●●
●● ●●
●● ●
●●
●●
●●
● ●●●
●●
●
●
●
●
●
●●●
●
●●
● ●●●●
●
● ●
●
●●
●●●●
●●
●●
●●
●●
●●●●
●●
●● ●
●●● ●●●
●●
●●
●
●
●
●
●
●●●●●
●
● ●
●●
●
●
●●
●
●
●
●●●
●
●●●
●
●●
●●
●●
●●
● ●
●
●
●
●
●
●
●
●
●
●
●● ●●●
●●
●●
●●
●● ●
●●●
● ●●
●●●
●
●●
●●
● ●●●
●●
●
●● ●●
●●
●●● ●
●●● ●
●●
●●
●● ●
●●
●
●
●●
●●●●
●●●
●
●●
●●
●
●●
●●
●
●●
●●
●●●●
●●
●●
●● ●●
●●●
●●
●●
●●
●●
●●●
●●
●
●
●
●
●
●
●●
●●● ●
●●● ●●●●●●●
● ●
●
●●
●●●
●
● ●
●
● ●
●
●●
●●
●●
●●●●
●●
●●
●●
●
● ●
●
●
●●●●
●●
●
● ●●
●
●
● ●●
●●
●●●●
●●
● ●
●●
●●
●● ● ●●● ●
●●
●
●●
●●
●
●●
●●
● ●●
●●
●● ●●
●● ●
●
●
● ●
●
●●
●●
●●
●●
●
●●●
●
●
●● ● ●
●●●●● ●
●●●
● ●
● ●
●●
●
●●
●
●●
●
●
●●
● ●●●
●
●
●
● ● ●
●
●
●
●
●
● ●
●
160
140
120
Größe [cm]
180
●
40
50
●
●
●
60
●
●
70
Gewicht [kg]
407
Im Streudiagramm ist ein deutlicher Zusammenhang zwischen Gewicht und Größe
ersichtlich. Die Kovarianz beträgt:
> cov(Schueler$Gewicht,Schueler$Groesse)
[1] 84.31632
Die Kovarianz ist linear sowohl in X als auch in Y :
Cov(X, λY + Z) = λCov(X, Y ) + Cov(X, Z)
und
Cov(λX + Z, Y ) = λCov(X, Y ) + Cov(Z, Y )
für beliebiges λ ∈ IR und eine beliebige auf Ω definierte Zufallsvariable Z, für die
Cov(Z, Y ) und Cov(Z, X) existieren.
Daraus folgt insbesondere, dass Cov(λX, Y ) = λCov(X, Y ) gilt. Die Kovarianz
ist also von der Skalierung der Variablen X und Y abhängig. Ist beispielsweise X
eine Messgröße, die in Metern gemessen wird, dann vergrößert sich die Kovarianz
um den Faktor 100, wenn X in cm umgerechnet wird.
408
5.2 Korrelationskoeffizient nach Pearson
Da die Kovarianz von der Skalierung der Variablen abhängt, ist sie als Maß für
den Zusammenhang zweier Variablen schlecht geeignet. Die normierte Version der
Kovarianz ist der Korrelationskoeffizient nach Pearson:
Definition: Die Größe
r = r(X, Y ) = p
Cov(X, Y )
Var(X)Var(Y )
heißt der Korrelationskoeffizient nach Pearson der Variablen X und Y .
r ist stets eine dimensionslose Größe zwischen −1 und 1.
409
Es gilt:
1. Sind X und Y unabhängig, dann gilt r = 0.
2. Gilt X = aY + b mit a, b ∈ IR und a 6= 0, dann ist r = 1 für a > 0 und
r = −1 für a < 0. r = ±1 heißt perfekte Korrelation. Sie liegt vor, wenn
die eine Variable ein linearer Ausdruck der anderen ist.
Bemerkung: Ist Y = f (X) und f ist eine nicht lineare Funktion, dann gilt im
Allgemeinen r = r(X, Y ) 6= ±1. Ist beispielsweise X ∼ N (0, 1) standardnormalverteilt und Y = X 2, dann gilt r(X, Y ) = 0 (Übung).
410
Die Berechnung (Schätzung) des Korrelationskoeffizienten nach Pearson für eine
verbundene Stichprobe
(X1, Y1), . . . , (Xn, Yn)
c
erfolgt, indem man zunächst die Kovarianz Cov((X
1 , Y1 ), . . . , (Xn , Yn )) und die
Varianzen σˆ2(X1, . . . , Xn) und σˆ2(Y1, . . . , Yn) aus den Stichproben berechnet.
c
Cov((X
1 , Y1 ), . . . , (Xn , Yn ))
r̂ = q
σˆ2(X1, . . . , Xn)σˆ2(Y1, . . . , Yn)
ist dann der empirische Korrelationskoeffizient nach Pearson.
411
In R wird der Pearson Korrelationskoeffizient mit der Funktion cor berechnet:
> x <- c(1,2.1,3,4,5.5,6.6,6.3)
> y <- c(0,10,11,45,46,47,80)
> cor(x,y)
[1] 0.8960473
Der Korrelationskoeffizient r ist empfindlich gegenüber Ausreißern, d.h. Wertepaaren, die stark “aus dem Rahmen fallen“. Ein einziger solcher Datenpunkt kann den
Wert von r stark verändern:
412
> x <- c(1,2.1,3,4,5.5,6.6,6.3,200)
> y <- c(0,10,11,45,46,47,80,0)
> cor(x,y)
[1] -0.394641
Hier wurde durch den einen zusätzlichen Punkt (200, 0) eine positive zu einer
negativen Korrelation.
Da in der empirischen Forschung oft Daten erzeugt und analysiert werden, die Ausreißer enthalten, ist der Pearson Korrelationskoeffizient oft ein ungeeignetes Maß für
den Zusammenhang von zwei Variablen.
413
5.3 Der Korrelationskoeffizient nach Spearman
Die nicht-parametrische Alternative ist der Korrelationskoeffizient nach Spearman.
Wie bei den nicht-parametrischen Tests wird er aus den Rängen der Variablenwerten
berechnet:
Sei
Rang:Xi 7−→ rXi
und
Rang:Yi 7−→ rYi
die Abbildung, die X1, . . . , Xn bzw, Y1, . . . , Yn ihre Ränge zuordnet. Der Spearman Korrelationskoeffizient ρ ist dann der Pearson Korrelationskoeffizient der rangtransformierten Stichprobe
(rX1 , rY1 ), . . . , (rXn , rYn ).
414
Für die Berechnung des Spearman Korrelationskoeffizienten müssen die ursprünglichen Daten also zunächst in Ränge transformiert werden.
Beispiel:
>
>
>
>
>
x <- c(1,2.1,3,4,5.5,6.6,6.3,200)
y <- c(0,10,11,45,46,47,80,0)
r_x <- rank(x)
r_y <- rank(y)
r_x
[1] 1 2 3 4 5 7 6 8
> r_y
[1] 1.5 3.0 4.0 5.0 6.0 7.0 8.0 1.5
415
> cor(r_x,r_y)
[1] 0.3952167
> cor(x,y,method="spearman")
[1] 0.3952167
Die Auswirkung eines Ausreißers auf den Spearman Korrelationskoeffizienten ist nicht
ganz so gravierend wie auf den von Pearson:
> #ohne Ausreißer:
> x <- c(1,2.1,3,4,5.5,6.6,6.3); y <- c(0,10,11,45,46,47,80)
> cor(x,y, method="pearson")
[1] 0.8960473
> cor(x,y, method="spearman")
[1] 0.9642857
416
> #mit Ausreißer:
> x <- c(1,2.1,3,4,5.5,6.6,6.3,200); y <- c(0,10,11,45,46,47,80,0)
> cor(x,y, method="pearson")
[1] -0.394641
> cor(x,y, method="spearman")
[1] 0.3952167
417
• Beide Korrelationskoeffizienten beschreiben den Zusammenhang von zwei Zufallsvariablen. Ein |r| ≥ 0.9 gilt als hohe und |r| ≤ 0.5 als mäßige oder
schlechte Korrelation. Gilt r = 0, dann sind die Variablen unkorreliert.
• Ist der Korrelationskoeffizient positiv, dann ist der Zusammenhang gleichsinnig,
d.h. wenn die eine Variable einen großen Wert annimmt, dann wird auch die
andere einen großen Wert annehmen. Bei einem negativen Korrelationskoeffizienten verhalten sich die beiden Variablen gegensinnig. Nimmt die eine Variable
große Werte an, dann nimmt die andere mit hoher Wahrscheinlichkeit kleine
Werte an.
• Sind X und Y negativ korreliert, dann sind X und −Y positiv korreliert.
418
6. Regressionsanalyse
6.1 Die Modellgleichung der einfachen Regressionsanalyse
Bisher bestanden unsere Stichproben aus Daten, die durch unabhängige Zufallsvariablen Y1, . . . , Yn aus der gleichen Verteilung beschrieben wurden. Insbesondere
wurde angenommen, dass alle Yi gleichen Erwartungswert haben.
Von dieser Voraussetzung soll nun abgegangen werden. Wir nehmen an, dass
Yi = a + bXi + i i = 1, . . . , n
gilt. Die 1, . . . , n seien unabhängig und normalverteilt mit Erwartungswert 0 und
Varianz σ 2.
419
Die X1, . . . , Xn seien keine Zufallsvariablen, sondern bekannte feste Werte. Die
Erwartungswerte der Yi hängen dann wegen
E(Yi) = a + bXi i = 1, . . . , n
deterministisch von den Werten Xi ab.
Beispiel: Es soll der Zusammenhang zwischen Dosisstufen eines Antibiotikums und
der Anzahl von Keimen in einem Nährmedium untersucht werden. Die Dosisstufen
(Xi) des Antibiotikums werden vom Experimentator vorgegeben. Die Anzahl der
Keime (Yi) wird gemessen. Die Dosierung ist deshalb nicht zufällig, die Anzahl der
Keime jedoch schon.
420
ProbNr.
1
2
3
4
5
6
7
8
9
10
Dosis (µg/ml): X
0.01
0.02
0.03
0.04
0.05
0.06
0.07
0.08
0.09
0.1
log10(Anzahl Keime/ml): Y
9.7
8.4
6.4
6.9
4.6
4.1
3.0
3.9
0.9
-0.5
Eine graphische Darstellung (Streudiagramm) legt einen Zusammenhang zwischen
der Dosierung und der Keimanzahl nahe:
421
>
>
>
+
+
Dosis <- seq(0.01,0.1,0.01)
AnzKeime <- c(9.7, 8.4, 6.4, 6.9, 4.6, 4.1, 3.0, 3.9, 0.9, -0.5)
plot(x=Dosis,y=AnzKeime,
xlab=expression(paste("Dosis [",mu,"g/ml]")),
ylab=expression(paste(log[10],"(Anzahl Keime)")))
422
10
●
8
●
6
●
●
4
●
●
2
●
●
0
log10(Anzahl Keime)
●
●
423
0.02
0.04
0.06
Dosis [µg/ml]
0.08
0.10
Auch die Korrelationskoeffizienten nach Pearson und Spearman legen einen engen
Zusammenhang zwischen Dosierung und Keimanzahl nahe:
> cor(Dosis, AnzKeime)
[1] -0.9710604
> cor(Dosis, AnzKeime, method="spearman")
[1] -0.9757576
424
Eine weitere Beobachtung am Streudigramm ist, dass die Punkte nahe an einer
Geraden liegen. Das legt die Vermutung nahe, dass die Voraussetzungen der linearen
Regressionsanalyse erfüllt sind:
log10 (AnzKeime)i = a + b ∗ Dosisi + i i = 1, . . . , 10
mit unabhängigen i ∼ N (0, σ 2). Die Größen a, b und σ 2 sind feste aber unbekannte reelle Zahlen. Sie heißen die Modellparameter der Regressionsgleichung.
Die Geradenparameter a und b beschreiben das lineare “Gesetz“, das einem erlaubt,
aus einer Dosierung des Antibiotikums auf die erwartete logarithmierte Keimanzahl zu
schließen. Die Varianz σ 2 kann als Maß für die Güte des Modells angesehen werden.
Je kleiner σ 2 ist, umso besser kann aus der Dosierung die Keimanzahl ausgerechnet
werden.
425
6.2 Die Kleinste-Quadrate-Schätzung der Modellparameter
Da die Modellparameter a, b und σ 2 unbekannt sind, müssen sie aus den Daten
(Stichprobe) geschätzt werden. Die wichtigste Strategie zur Bestimmung von Schätzern von a und b ist die Methode der kleinsten Quadrate.
Die Idee ist, aus allen Geraden der Ebene diejenige auszuwählen, die am besten die
Abhängigkeit der Y- von den X-Werten wiedergibt.
426
Kleinstquadrateschätzung: Seien (x1, y1), . . . , (xn, yn) ∈ IR2 Paare reeller Zahlen. Für jede Gerade in der Ebene
La,b : y = a + bx
ist die Summe der Quadrate der vertikalen Abstände der Punkte zur Gerade durch
S(a, b) :=
n
X
(yi − a − bxi)2
i=1
gegeben. Die Kleinstquadrateschätzung ist das Parameterpaar (â, b̂), für das S
minimal wird.
Da S(a, b) selbst ist eine auf IR2 definierte Funktion ist, kann das Minimum (â, b̂)
mit Hilfsmitteln aus der Analysis bestimmt werden.
427
Ein wichtiges Resultat der höherdimensionalen Analysis besagt, dass unter gewissen Voraussetzungen an die mehrdimensionale Funktion die ersten Ableitungen an
Maxima und Minima verschwinden.
Für die Funktion S können die partiellen Ableitungen leicht bestimmt werden:
n
X
∂S
= −2
(yi − a − bxi)
∂a
∂S
= −2
∂b
i=1
n
X
xi(yi − a − bxi)
i=1
428
Daraus folgen sofort die notwendige Bedingung
n
X
(yi − â − b̂xi) = 0
(1)
xi(yi − â − b̂xi) = 0
(2)
i=1
n
X
i=1
an ein Minimum (â, b̂) von S. Aus (1) folgt nȳ − nâ − nb̂x̄ = 0 und damit
â = ȳ − b̂x̄
(3)
429
Zieht man von Gleichung (2) das x̄ fache von Gleichung (1) ab und setzt anschließend
(3) ein, folgt:
0 =
=
n
X
i=1
n
X
i=1
=
=
n
X
i=1
n
X
xi(yi − â − b̂xi) =
xi(yi − â − b̂xi) − x̄
n
X
(yi − â − b̂xi) =
|i=1
{z
=0 (1)
}
(xi − x̄)(yi − â − b̂xi) =
(xi − x̄)(yi − ȳ + b̂x̄ − b̂xi) =
i=1
430
=
n
X
(xi − x̄)(yi − ȳ − b̂(xi − x̄)) =
i=1
= (n − 1)sxy − b̂(n − 1)sxx
s
xy
Daraus folgt b̂ = sxx
.
sxx und sxy heißen die empirische Varianz von x bzw. Kovarianz von x mit y. Sie
sind folgendermaßen definiert:
n
1X
x̄ =
xi
n
(4)
1
ȳ =
n
(5)
i=1
n
X
yi
i=1
n
1 X
sxx =
(xi − x̄)2
n−1
(6)
1
sxy =
n−1
(7)
i=1
n
X
(xi − x̄)(yi − ȳ)
i=1
Die Funktion S hat nur den einen Extrempunkt (â, b̂) bei
sxy
b̂ =
und â = ȳ − b̂x̄.
sxx
431
Bemerkung: S(a, b) ist die Summe der Quadrate der vertikalen Abstände der Punkte
zur Geraden L : y = a + bx. Die Variablen X und Y sind deshalb nicht austauschbar! Oft wird die X Variable als unabhängige und die Y Variable als abhängige
Variable bezeichnet. Das spiegelt die Situation der linearen Regressionsanalyse wider,
in der davon ausgegangen wird, dass die X-Werte bekannt, oft vom Experimentator
vorgegeben, sind.
Bemerkung: Die spezielle Wahl der Funktion S(a, b) ist die üblichste, aber nicht
die einzige Möglichkeit. So kann es z.B. durchaus sinnvoll sein, statt der Summe
der Abweichungsquadrate die Summe der Beträge der vertikalen Abweichungen zu
betrachten. Auch die Quadratsumme der Abstände wäre eine mögliche Wahl für S.
Jede Wahl für S führt zu einem anderen Optimierungsproblem und damit auch zu
einer anderen Regeressionsgeraden.
432
Für das Beispiel, das die Abhängigkeit der Keimanzahl von der Dosierung des Antibiotikums untersucht erhält man:
>
>
>
>
>
>
>
Dosis <- seq(0.01,0.1,0.01)
AnzKeime <- c(9.7, 8.4, 6.4, 6.9, 4.6, 4.1, 3.0, 3.9, 0.9, -0.5)
s_xx <- var(Dosis)
s_xy <- cov(Dosis, AnzKeime)
b <- s_xy/s_xx
a <- mean(AnzKeime) - b*mean(Dosis)
a; b
[1] 10.37333
[1] -102.4242
433
In R können lineare Regressionsmodelle bequem mit der Funktion lm berechnet werden:
> lm(AnzKeime~Dosis)
Call:
lm(formula = AnzKeime ~ Dosis)
Coefficients:
(Intercept)
10.37
Dosis
-102.42
434
Der Graph der Geraden
y = â + b̂x
wird oft zusammen mit den Punkten (xi, yi),
gramm eingezeichnet.
i = 1, . . . , n in ein Streudia-
435
10
> plot(x=Dosis,y=AnzKeime)
> abline(a=a,b=b)
●
8
●
●
●
4
●
●
2
●
●
0
AnzKeime
6
●
●
0.02
0.04
0.06
0.08
0.10
Dosis
436
6.3 Der t-Test für die Geradensteigung b
Man darf nie außer Acht lassen, dass â und b̂ Schätzungen der Geradenparameter
a und b sind. Insbesondere bei kleinem Stichprobenumfang n können sie stark von
den tatsächlichen Parametern a und b abweichen.
Besonders interessant ist der Fall b = 0. In diesem Fall gilt
yi = a + i i = 1, . . . , n
mit unabhängigen i ∼ N (0, σ 2). Die Erwartungswerte aller yi sind in diesem
Fall a und sie hängen also nicht mehr von den xi ab. Dieser Fall besagt, dass die
y-Werte unabhängig von den x-Werten sind.
437
Gesucht ist somit ein Test der Nullhypothese
H0 : b = 0.
Kann diese H0 abgelehnt werden, dann ist statistisch nachgewiesen, dass die Erwartungswerte E(yi) von den xi abhängen.
Um eine geeignete Teststatistik der Hypothese b = 0 aufstellen zu können, muss
zunächst σ 2, der dritte unbekannte Parameter der Regressionsgleichung, geschätzt
werden. σ 2 ist die Varianz der Fehlerterme i und steuert die Streuung der y-Werte
um ihren Erwartungswert.
438
Die vertikalen Abstände der Punkte zur Gerade y = â + b̂x heißen die Residuen ri
der Regressionsgleichung:
ri = yi − â − b̂xi
Die Größen yˆi = â + b̂xi,
gesagten Werte.
i = 1, . . . , n sind die durch die Regression vorher-
Die Residuen ri sind wiederum Schätzer für die unbekannten Fehlerterme i.
439
Man kann zeigen, dass die unbekannte Varianz σ 2 der Fehlerterme i durch
n
n
X
X
1
1
σˆ2 =
ri2 =
(yi − â − b̂xi)2
n−2
n−2
i=1
i=1
1 begründet sich darin, dass die Schätzungeschätzt werden kann. Der Vorfaktor n−2
Pn
gen â und b̂ der beiden Modellparameter in der Quadratsumme i=1 ri2 enthalten
1 notwendig ist, um einen erwartungssind. Man kann zeigen, dass der Faktor n−2
treuen Schätzer für σ 2 zu erhalten. Es gilt
E(b̂) = b
(8)
b̂ ist damit ein erwartungstreuer Schätzer von b. Aus
E(yi) = a + bxi i = 1, . . . , n
folgt E(ȳ) = a + bx̄ und damit
E(yi − ȳ) = b(xi − x̄)
Damit folgt Gleichung (8) aus
(9)
440
E(b̂) = E
=
sxy
sxx
=
1
E
sxx(n − 1)
n
X
!
(xi − x̄)(yi − ȳ)
=
i=1
n
X
1
(xi − x̄) E(y
− ȳ)} =
=
i{z
|
sxx(n − 1)
b
=
sxx(n − 1)
i=1
n
X
=b(xi −x̄) (9)
(xi − x̄)2 =
i=1
= b
Ist H0 : b = 0 wahr, dann bedeutet das insbesondere, dass b̂ eine normalverteilte
Zufallsvariable mit Erwartungswert 0 ist. Die Varianz von b̂ kann ähnlich ausgerechnet werden:
441
Var(b̂) = Var
sxy
sxx
=
n
X
1
= 2
Var(
(xi − x̄)(yi − ȳ)) =
2
sxx(n − 1)
1
= 2
Var(
2
sxx(n − 1)
i=0
n
X
(xi − x̄)yi − ȳ
i=0
n
X
(xi − x̄)) =
|i=0 {z
=0
}
n
X
1
2
2=
= 2
σ
(x
−
x̄)
i
sxx(n − 1)2
i=0
σ2
=
sxx(n − 1)
Damit kann die Zufallsvariable b̂ zu einer standardnormalverteilten Zufallsvariable
442
Z=r
standardisiert werden.
b̂
σ2
sxx (n−1)
b̂
=q
σ2
sxx
√
n−1
Ersetzt man schließlich den unbekannten Parameter σ 2 durch den bekannten Schätzer σˆ2, dann erhält man mit
b̂
T =q
σˆ2
sxx
√
n−1
eine Teststatistik, die unter H0 t-verteilt mit n − 2 Freiheitsgraden ist.
443
Für unser Beispiel erhalten wir:
>
>
>
>
>
sigma2 <- 1/8*sum((AnzKeime-a-b*Dosis)^2)
SE <- sqrt(sigma2/sum((Dosis-mean(Dosis))^2))
T <- b/SE
P <- 2*pt(-abs(T), df=8)
T; P
[1] -11.49993
[1] 2.963368e-06
444
Direkt mit lm erhält man das gleiche Ergebnis:
> summary(lm(AnzKeime~Dosis))
Call:
lm(formula = AnzKeime ~ Dosis)
Residuals:
Min
1Q Median
-0.9006 -0.5370 -0.1658
3Q
0.2820
Max
1.7206
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept)
10.3733
0.5526
18.77 6.70e-08 ***
445
Dosis
-102.4242
8.9065 -11.50 2.96e-06 ***
--Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
Residual standard error: 0.809 on 8 degrees of freedom
Multiple R-squared: 0.943,
Adjusted R-squared:
F-statistic: 132.2 on 1 and 8 DF, p-value: 2.963e-06
0.9358
Wiederholung der wichtigsten in der Vorlesung besprochenen Themen.
• Kenntnis wichtiger Lageparameter wie arithmetischer Mittelwert, empirische Varianz, Standardabweichung, Median und das allgemeine α ∗ 100% Perzentil
(1.1, S. 10 ff).
• Die wichtigsten Diagrammtypen: Histogramm, Balkendiagramm, Boxplot (Was
bedeutet die Box, die Antennen und die Ausreißer?) und Streudiagramm (1.1.2.
S. 21 ff)
446
• Begründung, warum man schließende Statistik braucht. Gesetz der großen Zahlen.
• Elementare Wahrscheinlichkeitsrechnung (2., S. 43 ff): Endlicher Wahrscheinlichkeitsraum, Elementarereignis, Ereignis und wichtige Rechenregeln für Ereignisse (S. 46).
• Explizite Angabe des Wahrscheinlichkeitsraums und Anwendung der Rechenregeln für einfache Beispiele (2.2 S. 49 ff)
447
• Definition und Anwendung des Binomialkoeffizenten auf die Berechnung von
Wahrscheinlichkeiten im Lotto “6 aus 49“ (S. 56).
• Definition des Laplaceraums (S. 62).
• Wahrscheinlichkeitstheoretische Modelle in der Genetik: Mendelscher Erbgang
(dominant, rezessiv, Genotyp und Phänotyp, S. 64 ff).
448
• Hardy-Weinberg Bedingung und Gesetz. Was muss erfüllt sein, damit sich eine Population im Hardy-Weinberg Gleichgewicht befindet? Wie muss dann die
Verteilung der Genotypen sein (S. 70-72)?
• Mendelregeln (S. 74 ff)
449
• Unabhängige Ereignisse. Einfache Beispiele für abhängige und unabhängige Ereignisse (S. 77 ff).
• Bedingte Wahrscheinlichkeiten (S. 84). Zusammenhang zwischen bedingten
Wahrscheinlichkeiten und unabhängigen Ereignissen (S. 85). Berechnung von
bedingten Wahrscheinlichkeiten in einfachen Wahrscheinlichkeitsräumen (S. 87).
• Zusammenhang von P(A|B) mit P(B|A): Die Formel von Bayes (S. 91).
Herleitung der Formel von Bayes (S. 88 ff).
450
• Anwendung der Bayes Formel in der medizinischen Diagnostik. Definition der
Begriffe Sensitivität, Spezifität, Prävalenz, positiver und negativer prädiktiver
Wert (S. 93 ff).
• Welchen Einfluss haben hohe bzw. niedrige Werte von Prävalenz, Sensitivität
und Spezifität auf die prädiktiven Werte (S. 105 ff)?
451
• Die Binomialverteilung (S. 108 ff).
• Anwendung der Binomialverteilung (Münzwurf, Heilungen in der Medizin,...).
Man sollte erkennen, in welchen Situationen eine Modellierung mit der Binomialverteilung sinnvoll ist.
• Implementierung der Binomialverteilung in R (dbinom, pbinom, qbinom und
rbinom S. 119 ff).
452
• Abzählbar unendliche Wahrscheinlichkeitsräume (S. 123 ff)
• Die Poissonverteilung (S.126 ff).
• Implementation der Poissonverteilung in R (dpois, ppois, qpois und rpois)
(S. 127).
• Zusammenhang der Binomialverteilung mit der Poissonverteilung: Der Poissonsche Grenzwertsatz (S. 132).
• Anwendung der Poissonverteilung auf die Modellierung von Ereignishäufigkeiten. Begründung durch den Poissonschen Grenzwertsatz (Beispiele S. 134 ff,
Unfallhäufigkeit und DNA-Sequenzanalyse).
453
• Geometrische Verteilung (S. 138 ff).
• Der überabzählbare Wahrscheinlichkeitsraum IR (S. 141).
• Definition von Wahrscheinlichkeitsräumen durch Wahrscheinlichkeitsdichten. (S.
145).
• Berechnung von Wahrscheinlichkeiten durch Integration über die Wahrscheinlichkeitsdichte (S. 147).
• Zusammenhang zwischen Wahrscheinlichkeitsdichte und Wahrscheinlichkeitsverteilung (kumulative Verteilungsfunktion) (S. 152).
454
• Die Standardnormalverteilung, allgemeine Normalverteilung (S. 149 ff).
• Die Gleichverteilung (S. 161 ff).
• Zusammenfassung der wichtigsten Verteilungen (S. 169 ff). Man sollte wissen,
wie man die Definitionen der Verteilungen benutzt, um Wahrscheinlichkeiten
für beliebige Ereignisse auszurechnen.
455
• Zufallsvariablen (S. 156).
• Erwartungswert und Varianz von Zufallsvariablen (S.174)
456
• Unabhängigkeit von Zufallsvariablen (S. 182 ff).
• Wichtige Rechenregeln für Zufallsvariablen, insbesondere wenn sie unabhängig
sind (S. 186 ff).
• Erwartungswert und Varianz von wichtigen Verteilungen (S. 170-172). Insbesondere für die Binomialverteilung, Poissonverteilung und Normalverteilung sollte
man Erwartungswert und Varianz kennen (S. 188 ff).
• Die Standardisierung einer Zufallsvariable. Definition? Welche Voraussetzungen
müssen erfüllt sein, damit die Standardisierung möglich ist? (S. 191 ff)
457
• Der statistische Hypothesentest am Beispiel des Binomialtests (S.193).
• Durchführung des Binomialtests: Aufstellen der Nullhypothese, Festlegung des
Signifikanzniveaus, Berechnung des Ablehnungsbereichs und Verwerfen oder
Beibehaltung der Nullhypothese (S. 208 ff).
• Berechnung des P-Werts für den Binomialtest.
• Einseitiges und zweiseitiges Testen.
458
• Die Power eines statistischen Tests (S. 230).
• Abhängigkeit der Power vom Signifikanzniveau, der Fallzahl, der Nullhypothese
und der speziellen Alternative (S. 237).
• Fehler 1. und 2. Art (S. 244 ff).
• Ein Beispiel für eine Poweranalyse (S. 246 ff).
459
• Der Z-Test. Voraussetzungen, Nullhypothese, Teststatistik und Berechnung des
P-Werts (S. 259 ff).
• Der Zentrale Grenzwertsatz (S. 265 ff)
• Der Zentrale Grenzwertsatz für eine binomial verteilte Zufallsvariable (S. 271
ff).
• Praktische Anwendung des Zentralen Grenzwertsatzes (S. 272 ff).
460
• Vom Z-Test zum t-Test: Ersatz der unbekannten Varianz durch die empirische
Varianz. Übergang von der Standardnormalverteilung zur t-Verteilung (S. 304
ff).
• Der t-Test für eine Stichprobe (S. 304 ff).
• Der Zweistichproben t-Test (S. 321 ff): gepoolte Varianz, Freiheitsgrade der
t-Statistik.
• P-Wert des t-Tests für ein- und zweiseitiges Testen (S. 330 ff).
461
• Nichtparametrische Tests. Welche Voraussetzungen des t-Tests können entfallen? Welche Voraussetzungen müssen gemacht werden? (S. 339 ff)
• Der Vorzeichen Test (S. 341 ff).
• Test nach McNemar (S. 349 ff): Anwendung des Vorzeichnetest auf dichotome
gepaarte Daten (verbundene Stichproben).
• Vorzeichen-Rang-Test nach Wilcoxon (S. 352 ff). Voraussetzungen? Durchführung?
462
• Mann-Whitney-U Test: Nicht-parametrischer Test für zwei unverbundene Stichproben. Nullhypothese, Alternative und Voraussetzungen. Durchführung (S. 363
ff).
• Die Implementierung wilcox.test des Vorzeichen-Rang-Tests nach Wilcoxon
und des Mann-Whitney-U Tests in R (S. 372 ff).
• Der χ2-Test für Vierfeldertafeln (S. 376). Nullhypothese, Alternative und Teststatistik (erwartete und beobachtete Häufigkeiten).
• Der χ2-Test in R (chsiq.test).
463
• Konfidenzintervalle für normalverteilte Daten (S. 392 ff).
• Abhängigkeit des Konfidenzintervalls von der Streuung, der Sicherheit ((1 −
α) ∗ 100%) und der Fallzahl (S.399).
464