Vorlesung Statistik 1 für Biowissenschaften

Werbung
Vorlesung Statistik 1 für Biowissenschaften
(Bachelor)
Freie Universität Berlin
WS 2016/17
K. Neumann
Begleitmaterial zu der Vorlesung und den Übungen (Übungsblätter, Skript, aktuelle
Folien zu der Vorlesung und Übungsdatensätze) finden Sie unter
http://biometrie.charite.de/studium/bioinformatik/statistik_i/
Dort wird auch der Klausurtermin bekanntgegeben.
1
Ablauf:
Die ersten Übungen finden nächste Woche (24-28.10.) statt. Dort werden Sie in die
Programmiersprache R eingeführt.
2
Inhalt
1. Was ist Statistik?
(a) Deskriptive Statistik
(b) Schließende (konfirmatorische) Statistik
2. Elementare Wahrscheinlichkeitsrechnung
(a) Der Wahrscheinlichkeitsraum
(b) Bedingte Wahrscheinlichkeiten und der Satz von Bayes
(c) Zufallsvariablen
3. Der statistische Test
(a) Prinzip des statistischen Tests
(b) Die klassischen statistischen Tests
4. Korrelation und Regression
5. Konfidenzintervalle
3
Vorlesung 19.10.2016
4
1. Was ist Statistik?
5
• Der Begriff “Statistik“ wird im allgemeinen Sprachgebrauch für sehr unterschiedliche Dinge benutzt. In der Regel wird unter Statistik die möglichst prägnante
Beschreibung von Daten verstanden. Daten wiederum entstehen
– als Ergebnis wissenschaftlicher Experimente,
– bei Erhebungen (z.B. systematische Befragungen)
– oder durch Beobachtungen von wiederkehrenden Ereignissen (z.B. Resultate
aus dem Sport).
• Daten werden oft in Form einer oder mehrerer Tabellen präsentiert.
6
• Die erste offensichtliche Aufgabe von Statistik ist die Beschreibung der großen
und daher unhandlichen Menge von Daten durch wenige charakteristische Werte. Die wichtigsten sind: Mittelwert, Standardabweichung, Median, Häufigkeiten
und Perzentile.
• Eine andere wichtige Darstellungsform von Daten sind Diagramme, deren wichtigste Typen das Histogramm, der Boxplot, das Balkendiagramm und das Streudiagramm sind.
• In Laufe der Vorlesung und in den Übungen werden Sie die Definitionen wichtiger
statistischen Größen und der gängigsten Diagrammformen kennenlernen.
• Statistik beschäftigt sich aber nicht nur mit Aufbereitung und Darstellung von
Daten. Fast ebenso wichtig ist die Frage, welche Aussagen aufgrund der Daten
gemacht werden dürfen.
7
Statistik gliedert sich deshalb in zwei große Teilbereiche:
• Beschreibende (deskriptive) Statistik.
• Schließende (konfirmatorische) Statistik
8
1.1 Deskriptive Statistik
1.1.1 Wichtige Lageparameter und statistische Größen
Beispiel: Erhebung der schulischen Leistungen von Schülern (Simulierte Daten, Auszug aus Schueler.txt).
> Schueler <- read.table("Schueler.txt", header=TRUE)
> head(Schueler)
1
2
3
4
5
6
lnr Klasse Gesch Alter Groesse Gewicht Mathe Physik Deutsch Bio Fehltage
1
6
w
12
124
42
3
NA
2
3
2
2
5
w
12
146
39
4
NA
2
2
3
3
10
w
17
174
64
4
3
5
2
4
4
8
w
15
138
53
5
6
4
3
0
5
8
w
15
147
56
5
4
3
2
3
6
9
m
16
162
65
2
2
4
2
2
9
Die Spalten einer Datentabelle werden oft Variablen genannt. Sind die Einträge einer
Variablen V = (x1, x2, . . . , xn) numerisch (Zahlen), können folgende statistische
Größen berechnet werden:
• (Arithmetischer) Mittelwert:
n
1X
1
xi
V̄ = (x1 + x2 + · · · + xn) =
n
n
i=1
Beispiele:
V = (1, 34, 2, 3, −2, 3, 3, 4, 7, 1, 0, 4)
1
60
V̄ =
=5
(1 + 34 + 2 + 3 − 2 + 3 + 3 + 4 + 7 + 1 + 0 + 4) =
12
12
10
Mittelwert der Körpergröße der Schulkinder in Schueler.txt:
> mean(Schueler$Groesse)
[1] 157.1944
• Varianz:
n
1 X
(xi − V̄ )2
Var(V ) =
n−1
i=1
11
Beispiel: Varianz von V = (1, 34, 2, 3, −2, 3, 3, 4, 7, 1, 0, 4):
1
((1 − 5)2 + (34 − 5)2 + (2 − 5)2 + (3 − 5)2 +
11
+ (−2 − 5)2 + (3 − 5)2 + (3 − 5)2 + (4 − 5)2 +
Var(V ) =
+ (7 − 5)2 + (1 − 5)2 + (0 − 5)2 + (4 − 5)2) =
974
=
≈ 88.5
11
Varianz der Körpergröße der Schulkinder in Schueler.txt:
> var(Schueler$Groesse)
[1] 177.2845
12
• Standardabweichung:
p
sd(V ) = Var(V )
• Median: Sei (x(1), x(2), . . . , x(n)) das aufsteigend geordnete Tupel der Einträge von V . Es gilt also x(1) ≤ x(2) ≤ · · · ≤ x(n). Der Median ist dann
durch
x((n+1)/2), wenn n ungerade
Median(V ) =
(x(n/2) + x(n/2+1))/2, wenn n gerade
definiert.
Beispiel: Median von V : Die Einträge von V nach Sortierung:
−2, 0, 1, 1, 2, 3, 3, 3, 4, 4, 7, 34
Der Median ist der Mittelwert des sechs- und siebtkleinsten Eintrages:
Median(V ) = 3.
13
Die mediane Körpergröße der Schulkinder in Schueler.txt ist:
> median(Schueler$Groesse)
[1] 157
14
• α ∗ 100% Perzentil 0 < α < 1: Ist k = (n + 1) ∗ α eine ganze Zahl,
dann wählt man x(k) als α ∗ 100% Perzentil. Ist k keine ganze Zahl, dann
wird eine Linearkombination
Pα(V ) := x([k])(1 − γ) + x([k]+1)γ
als α ∗ 100% Perzentil gewählt. [k] ist der ganzzahlige Anteil von k und
γ = k − [k]. Es sei darauf hingewiesen, dass die Definition des α-Perzentils
nicht einheitlich ist! Es kommen verschiedene γ aus dem Intervall [0, 1] infrage.
Das α-Perzentil liegt aber immer zwischen x[k] und x[k+1].
Beispiel: Das 25% Perzentil von V liegt zwischen dem dritt- und viertgrößten
Eintrag von V :
P0.25(V ) = 1
Das 25% Perzentil der Körpergröße der Schulkinder, kann in R folgendermaßen
berechnet werden:
15
> quantile(Schueler$Groesse, 0.25)
25%
149
16
• Sind die Einträge einer Variable (Spalte der Datenmatrix) nicht numerisch (z.B.
die Variable“Geschlecht“ im Beispieldatensatz), dann werden gerne absolute und
relative Häufigkeiten der einzelnen Ausprägungen angegeben.
Beispiel:
V = (m, w, w, w, w, m, w, m, w, m)
Absolute Häufigkeit (w)=6, Relative Häufigkeit (w)=60%
Absolute Häufigkeit(m)=4, Relative Häufigkeit (m)=40%
17
Darüber hinaus gibt es noch viele andere statistische Größen, die in speziellen Situationen eine gewisse Bedeutung haben können: Z.B. spielt neben dem arithmetischen
auch noch das
• geometrische, quadratische und harmonische Mittel
eine Rolle. Manchmal ist es auch sinnvoll, vor der Mittelung die
• größten und kleinsten Werte wegzulassen (gestutztes Mittel).
Für numerische Variablen werden auch gerne der
• maximale und minimale Wert,
18
für nicht numerische Variablen der
• Modalwert (=Ausprägung, die in der Variable am häufigsten vorkommt)
angegeben.
19
1.1.2 Diagramme
Für die bildliche Darstellung eines Datensatzes gibt es verschiedene Diagrammtypen,
deren wichtigste hier kurz vorgestellt werden sollen.
• Histogramm:
Das Histogramm gibt eine Gesamtübersicht der Werte einer Variable V . Seien
A = min(V ) und B = max(V ) der kleinste bzw. größte Wert der Variable
V = (v1, . . . , vn). Das Intervall [A, B] wird disjunkt in k gleich große
Teilintervalle I1, . . . , Ik aufgeteilt.
[A, B] = I1 ] · · · ] Ik .
20
Für jedes Teilintervall Ij bestimme man die Anzahl nj von Werten aus V , die in Ij
liegen. Schließlich zeichnet man über den Ij Säulen der Höhe nj .
Die Anzahl k der Säulen kann frei gewählt werden. Wird sie zu klein gewählt, gibt das
Histogramm nur einen groben Eindruck der Werteverteilung wider, ist sie zu groß,
dann können benachbarte Säulen stark voneinander abweichende Höhen haben, was
auch zu einem wenig informativen Diagramm führt.
21
Beispiel: Histogramme des Körpergewichts der Schulkinder in Schueler.txt:
Gewicht der Schulkinder
40
30
20
Häufigkeit
100
0
10
50
0
Häufigkeit
50
60
150
70
Gewicht der Schulkinder
40
50
60
Gewicht[kg]
70
80
40
50
60
70
Gewicht[kg]
22
• Balkendiagramm:
Im Balkendiagramm werden die absoluten oder relativen Häufigkeiten von Ausprägungen nicht numerischer Variablen dargestellt.
Beispiel:
Verteilung Geschlecht
60
0
20
40
relative Häufigkeit
400
200
0
absolute Häufigkeit
600
80
800
Verteilung Geschlecht
Jungen
Mädchen
Jungen
Mädchen
23
• Boxplot:
Der Boxplot ist eine beliebte Darstellungsform von Median, 25% und 75% Perzentile, Minimum und Maximum.
Größe Schulkinder
200
Gewicht Schulkinder
Maximum
Ausreißer
●
●
●
●
180
70
Maximum
(nicht Ausreißer)
Minimum
160
Größe [cm]
75% Perzentil
Median
25% Perzentil
140
25% Perzentil
120
60
50
Median
40
Gewicht [kg]
75% Perzentil
Ausreißer
●
●
●
●
Minimum
(nicht Ausreißer)
24
Im Boxplot werden Werte, die aus dem Rahmen fallen (Ausreißer), einzeln eingezeichnet. Die genaue Definition von Ausreißer ist nicht einheitlich. Oft findet man
folgende Festlegung:
Ausreißer nach oben > 75% Perzentil + 1.5*(75% Perzentil - 25% Perzentil)
Ausreißer nach unten < 25% Perzentil - 1.5*(75% Perzentil - 25% Perzentil)
Die Größe (75% Perzentil - 25% Perzentil) heißt auch der Interquartilsabstand.
25
Vorlesung 26.10.2016
26
• Streudiagramm:
Soll die Beziehung von zwei numerischen Variablen
V1 = (x1, x2, . . . , xn)
und
V2 = (y1, y2, . . . , yn)
aus einer Tabelle graphisch untersucht werden, können die Wertepaare
(x1, y1), (x2, y2), . . . , (xn, yn)
in einem X − Y -Diagramm dargestellt werden. Eine solche Darstellung heißt
Streudiagramm (engl. scatter-plot).
27
Beispiel:
160
120
140
Größe[cm]
180
200
Gewicht und Größe von Schulkindern
40
50
60
70
Gewicht[kg]
Offensichtlich besteht ein Zusammenhang zwischen der Größe und dem Gewicht der
Schüler. Eine systematische Untersuchung solcher Zusammenhänge wird im Rahmen
der Korrelations- und Regressionsanalyse erfolgen.
28
1.2 Schließende Statistik
• Bisher beschränkten wir uns darauf, eine konkret vorliegende Stichprobe (Datensatz) durch statistische Größen wie Mittelwert, Standardabweichung usw.
möglichst prägnant zu beschreiben.
• Im außerwissenschaftlichen Bereich ist das im Allgemeinen ausreichend und Statistik wird deshalb mit Datenbeschreibung gleichgesetzt.
• In der Wissenschaft interessiert man sich weniger für die Verhältnisse in der
konkreten Stichprobe, sondern für die Gesamtpopulation, aus der die Stichprobe
stammt. Entsprechend sind Experimente nur dann interessant, wenn aus ihnen
auf allgemeine Gesetzmäßigkeiten geschlossen werden können.
29
Auf folgende Fragen hat die deskriptive Statistik keine Antworten:
• Was passiert bei Wiederholung des Versuchs? Wie reproduzierbar sind die Ergebnisse, die aus der Stichprobe gewonnen wurden?
• Welche Aussagen darf man aufgrund der Stichprobe über die Population (=Grundgesamtheit, aus der die Stichprobe gezogen wurde) treffen?
30
Beispiel:
Im Datensatz Schueler.txt wurde festgestellt, dass in der Stichprobe mehr Mädchen als Jungen vorkommen.
>
>
>
>
Schueler <- read.table("Schueler.txt", header=TRUE)
Freq <- table(Schueler$Gesch)
n <- sum(Freq)
Freq
m
w
465 538
31
Für die relativen Häufigkeiten ergibt das:
> RelFreq <- paste(round(Freq/n*100,1), "%")
> RelFreq
[1] "46.4 %" "53.6 %"
Die beschreibende Statistik muss bei der Feststellung, dass in der Stichprobe der
Anteil der weiblichen Schüler überwiegt, stehen bleiben.
32
• Die schließende Statistik will einen Schritt weitergehen und behandelt folgende
Fragen:
– Kann aus der Stichprobe geschlossen werden, dass unter allen Schülern
(=Grundpopulation) der Mädchenanteil überwiegt?
– Können aufgrund der Stichprobe irgendwelche Aussagen über die Geschlechtsverteilung getroffen werden?
• Man kann sich leicht klarmachen, dass beide Fragen negativ beantwortet werden müssen: Von einer Stichprobe, die immer nur endlich viele (hier n=1003)
Individuen (hier Schüler) enthält, kann logisch sicher nie auf die Gesamtheit
geschlossen werden. Es könnte ja sein, dass durch Zufall die Mädchen in der
Stichprobe überrepräsentiert sind. Bei einer Wiederholung der Erhebung könnten bei einer neuen Stichprobe ganz andere Zahlen herauskommen.
33
• Die Erfahrung zeigt jedoch, dass große Stichproben dazu neigen, die Verhältnisse in der Population doch relativ gut wiederzugeben. Mit anderen Worten:
Es ist recht unwahrscheinlich, dass bei großer Fallzahl die Verhältnisse in der
Stichprobe stark von denen in der Population abweichen.
• Diese Tatsache heißt das Gesetz der großen Zahlen.
34
• Hat z.B. eine Stichprobe von Studenten die Größe n = 100 und es befinden
sich k = 60 Frauen darunter. Kann aus diesem empirischen Befund geschlossen werden, dass es in der Gesamtpopulation (alle Studenten) mehr Frauen als
Männer gibt?
• Die schließende Statistik versucht mit Hilfe der Wahrscheinlichkeitsrechnung
auf diese Frage eine Antwort zu geben.
• Man berechnet zunächst die Wahrscheinlichkeiten, k = 0, 1, 2, . . . , 100
Frauen in der Stichprobe zu finden, unter der Bedingung, dass es in der Population genauso viele Männer wie Frauen gibt. Ob diese Annahme (Hypothese)
zutrifft oder nicht, soll keine Rolle spielen.
35
• Da die Annahme gemacht wurde, dass es in der Grundpopulation genauso viele
Männer wie Frauen gibt, können die Wahrscheinlichkeiten für k = 0, . . . , 100
Frauen in der Stichprobe explizit ausgerechnet werden. Die Berechnungsformeln
werden im folgenden Kapitel erarbeitet. In R können diese Wahrscheinlichkeiten
mit der Funktion dbinom berechnet werden:
> dbinom(x=0:100,size=100, prob=0.5)
[1]
[7]
[13]
[19]
[25]
[31]
[37]
[43]
7.888609e-31
9.403635e-22
8.286361e-16
2.419003e-11
6.293223e-08
2.317069e-05
1.559739e-03
2.229227e-02
7.888609e-29
1.262774e-20
5.609229e-15
1.043991e-10
1.913140e-07
5.232091e-05
2.697928e-03
3.006864e-02
3.904861e-27
1.467975e-19
3.485735e-14
4.228163e-10
5.518672e-07
1.128170e-04
4.472880e-03
3.895256e-02
1.275588e-25
1.500596e-18
1.998488e-13
1.610729e-09
1.512525e-06
2.324713e-04
7.110732e-03
4.847430e-02
36
3.093301e
1.365543e
1.061697e
5.783981e
3.943369e
4.581053e
1.084387e
5.795840e
[49]
[55]
[61]
[67]
[73]
[79]
[85]
[91]
[97]
7.352701e-02
5.795840e-02
1.084387e-02
4.581053e-04
3.943369e-06
5.783981e-09
1.061697e-12
1.365543e-17
3.093301e-24
7.802866e-02
4.847430e-02
7.110732e-03
2.324713e-04
1.512525e-06
1.610729e-09
1.998488e-13
1.500596e-18
1.275588e-25
7.958924e-02
3.895256e-02
4.472880e-03
1.128170e-04
5.518672e-07
4.228163e-10
3.485735e-14
1.467975e-19
3.904861e-27
7.802866e-02
3.006864e-02
2.697928e-03
5.232091e-05
1.913140e-07
1.043991e-10
5.609229e-15
1.262774e-20
7.888609e-29
7.352701e
2.229227e
1.559739e
2.317069e
6.293223e
2.419003e
8.286361e
9.403635e
7.888609e
• Wir machen uns im Moment noch keine Gedanken, wie diese Wahrscheinlichkeiten ausgerechnet werden. Dazu gibt es eine Berechnungsformel, die im nächsten
Kapitel hergeleitet wird. In R ist diese Formel in der Funktion dbinom implementiert.
• Nun kann man sich überlegen, wie wahrscheinlich es ist, dass sich in der Stichprobe 60 oder mehr Frauen befinden. Es wird immer noch angenommen, dass
in der Grundpopulation Männer und Frauen gleich häufig auftreten.
• Dazu summieren wir die einzelnen Wahrscheinlichkeiten für k = 60, 61, . . . , 100
Frauen in der Stichprobe. In R kann das bequem mit der Funktion sum erfolgen:
> sum(dbinom(x=60:100,size=100,prob=0.5))
[1] 0.02844397
37
• Die Wahrscheinlichkeit für k = 60 oder mehr Frauen in der Stichprobe ist
also mit 2.8% recht klein. Es ist deshalb vernünftig, die Hypothese (Annahme)
von gleich viel oder weniger Frauen in der Population zu verwerfen. Man wird
nun davon ausgehen, dass es auch in der Grundpopulation tatsächlich mehr
weibliche als männliche Studenten gibt.
• Es wurde also von den Verhältnissen in der Stichprobe auf die Population, aus
der die Stichprobe gezogen wurde, geschlossen.
• Eine solche Argumentationskette ist typisch für die schließende Statistik und
heißt statistischer Test.
38
• Wie man an diesem einfachen Beispiel sieht, mussten an ganz zentraler Stelle
der Argumentation Wahrscheinlichkeiten ausgerechnet werden. Die schließende
Statistik benutzt die Wahrscheinlichkeitsrechnung als ihr wichtigstes Hilfsmittel.
• Im Kapitel 2 werden wir uns deshalb mit den Grundbegriffen der elementaren
Stochastik (Wahrscheinlichkeitsrechnung) beschäftigen.
39
1.3. Statistische Software
Berechnungen in der Statistik sind oft aufwändig und werden mit geeigneter Software
durchgeführt. Die gebräuchlichsten Programme sind:
• SPSS: Weite Verbreitung besonders in der Medizin und den Sozialwissenschaften. Besitzt eine Bedienoberfläche, die eine Benutzung auch ohne größere Vorkenntnisse ermöglicht. Erlaubt nur eine sehr eingeschränkte Möglichkeit der
Programmierung. Moderne statistische Methoden sind oft (noch) nicht implementiert.
• SAS: Weite Verbreitung in der Industrie. Es besteht die Möglichkeit der Programmierung, die allerdings recht umständlich ist.
40
• STATA: Ähnlich wie SPSS, aber größerer Leistungsumfang.
• R: Die Programmiersprache R darf kostenfrei genutzt werden und bietet gerade
für wissenschaftliche Anwendung die größte Flexibilität. Viele neue Algorithmen
sind zunächst nur in R verfügbar. R kann von http://www.r-project.org/
für die Betriebssystem Linux, Mac OS und Windows heruntergeladen werden. In den Übungen erhalten Sie eine kurze Einführung in R. Ein Großteil
der Übungsaufgaben wird auch mit R bearbeitet.
41
2. Elementare Wahrscheinlichkeitsrechnung
2.1. Der endliche Wahrscheinlichkeitsraum
Ein endlicher Wahrscheinlichkeitsraum ist eine endliche Menge
Ω = {ω1, . . . , ωn}
zusammen mit einer Funktion P, die jedem ωi eine nicht negative reelle Zahl pi
zuordnet, also für die
P(ωi) = pi ≥ 0 i = 1, . . . , n
gilt. Zusätzlich fordert man noch die Normierungsbedingung
p1 + · · · + pn =
n
X
pi = 1.
i=1
42
Die Zahlen pi heißen die (Elementar)wahrscheinlichkeiten der Wahrscheinlichkeitsverteilung P.
Jede Teilmenge
A⊂Ω
heißt Ereignis des Wahrscheinlichkeitsraums (Ω, P).
Jedem Ereignis A wird durch die Formel
P(A) =
X
P (ω)
ω∈A
eine Wahrscheinlichkeit zugeordnet.
43
Bemerkung 1: Auch A = Ω und A = ∅ (leere Menge) sind Ereignisse. Das Symbol
⊂ steht sowohl für echte Mengeninklusion als auch für Mengengleichheit.
Definitionen:
1. Die Teilmengen
{ω1}, . . . , {ωn},
die genau ein Element enthalten, heißen Elementarereignisse.
2. Für jedes Ereignis A in einem Wahrscheinlichkeitsraum Ω sei
AC := Ω\A := {ω ∈ Ω|ω ∈
/ A}.
das komplimentäre Ereignis zu A.
44
Wichtige Rechenregeln: Im endlichen Wahrscheinlichkeitsraum (Ω, P) gilt für alle
A, B ⊂ Ω:
1. P(∅) = 0
2. P(Ω) = 1
3. P(AC ) = 1 − P(A) für A ⊂ Ω
4. P(A ∪ B) = P(A) + P(B),
wenn A ∩ B = ∅
5. P(A) ≥ 0
45
Beweis: Für A = ∅ gilt
P(∅) =
X
P(ω) = 0,
ω∈∅
da die Summe ohne Summanden definitionsgemäß 0 ist.
Aus der Normierungsbedingung folgt anderseits für A = Ω
X
P(Ω) =
P(ω) = p1 + · · · + pn = 1
ω∈Ω
Die drei letzten Aussagen folgen mit ähnlichen Argumenten.
46
Bemerkung 2: Der Wahrscheinlichkeitsraum ist das Paar bestehend aus der Menge Ω
und der Verteilungsfunktion P und wird deshalb in der Regel als (Ω, P) angegeben.
Manchmal wird auch Ω selbst als Wahrscheinlchkeitsraum bezeichnet. Das ist aber
nur dann zulässig, wenn die Verteilung P stillschweigend als bekannt vorausgesetzt
werden kann.
Bemerkung 3: Der Wahrscheinlichkeitsraum ist ein rein mathematisches Konstrukt.
Man muss sich deshalb zunächst keine Gedanken machen, was Wahrscheinlichkeit
eigentlich bedeutet. Wir werden aber sehen, dass einige Wahrscheinlichkeitsräume
Zufallsexperimente gut beschreiben. Der abstrakte Wahrscheinlichkeitsraum dient
dann als Modell für einen Vorgang (Experiment) in der “realen“ Welt.
47
2.2 Beispiele für endliche Wahrscheinlichkeitsräume
2.2.1 Münzwurf, Würfelspiel und Lotterie
Beispiel 1 (faire Münze): Der Wahrscheinlichkeitsraum
Ω = {K, Z}
mit
1
1
und P(Z) =
2
2
wird zur Modellierung des Zufallsexperiments “einmaliger Wurf einer fairen Münze“
benutzt. Die Elemente“K“ (Kopf) und“Z“ (Zahl) sind die beiden möglichen Ausgänge
des Experiments. Die spezielle Wahl der Verteilung P ist wegen der symmetrischen
Form der Münze plausibel. Die Begründung für die Wahl dieses Wahrscheinlichkeitsraums als geegnetes Modell für das Münzwurfexperiment kommt also nicht aus der
Mathematik sondern aus der Physik!
P(K) =
48
Welche Ereignisse gibt es in diesem Wahrscheinlichkeitsraum (Ω, P ) und welche
Wahrscheinlichkeiten haben sie?
Die Ereignisse sind
∅, {K}, {Z} und {K, Z}
mit den Wahrscheinlichkeiten 0, 1/2, 1/2 und 1.
49
Beispiel 2 (fairer Würfel): Für das Experiment “einmaliges Werfen eines fairen Würfels“ bietet sich folgender Wahrscheinlichkeitsraum an:
Ω = {1, 2, 3, 4, 5, 6}
mit
P(1) = P(2) = P(3) = P(4) = P(5) = P(6) = 1/6.
Die spezielle Wahl der Verteilungsfunktion P erklärt sich wieder daraus, dass keine
der sechs Seiten des Würfels ausgezeichnet ist (Würfel ist “fair“).
50
Beispiel 3 (zweimaliges Werfen eines fairen Würfels): Hier wählt man
Ω = {1, 2, 3, 4, 5, 6} × {1, 2, 3, 4, 5, 6} =
{(1, 1), (1, 2), (1, 3), (1, 4), (1, 5), (1, 6),
(2, 1), (2, 2), (2, 3), (2, 4), (2, 5), (2, 6),
(3, 1), (3, 2), (3, 3), (3, 4), (3, 5), (3, 6),
(4, 1), (4, 2), (4, 3), (4, 4), (4, 5), (4, 6),
(5, 1), (5, 2), (5, 3), (5, 4), (5, 5), (5, 6),
(6, 1), (6, 2), (6, 3), (6, 4), (6, 5), (6, 6)}
mit
P(i, j) = 1/36 i = 1, . . . , 6, j = 1, . . . , 6
als Wahrscheinlichkeitsverteilung.
51
Bemerkung 4: Das Symbol “ד steht für das kartesische Produkt von Mengen. Das
kartesische Produkt von zwei Mengen A und B ist allgemein als
A × B = {(a, b)|a ∈ A und b ∈ B}
definiert. Mit anderen Worten, man bildet alle möglichen Paare aus Elementen von
A mit Elementen aus B.
52
Beispiel 4: Bei vielen Würfelspielen mit zwei Würfeln ist die Reihenfolge der Würfe ohne Bedeutung. Es bietet sich deshalb an, die Elemente (i, j) und (j, i) zu
identifizieren. Der Wahrscheinlichkeitsraum Ω aus Beispiel 3 wird dadurch auf 21
Elemente verkleinert. Die zusammengelegten Elementarereignisse erhalten dann das
doppelte Gewicht.
Ω0 = {[1, 1], [1, 2], [1, 3], [1, 4], [1, 5], [1, 6],
[2, 2], [2, 3], [2, 4], [2, 5], [2, 6], [3, 3],
[3, 4], [3, 5], [3, 6], [4, 4], [4, 5], [4, 6],
[5, 5], [5, 6], [6, 6]}
Das Symbol [i, j] stehe für das ungeordnete Paar [i, j] = {(i, j), (j, i)}. Da
[i, j] für i 6= j aus zwei, für i = j aber nur aus einem Elementarereignis von Ω
besteht, bietet sich für die Wahrscheinlichkeitsverteilung von Ω0 folgende Definition
an:
1/36 für i = j
P([i, j]) =
1/18 für i 6= j.
53
Vorlesung 2.11.2016
54
Beispiel 5 (Lotto “Sechs aus 49“): Beim Zahlenlotto werden sechs Kugeln aus einer
Urne mit 49 Kugeln ohne Zurücklegen gezogen. Da alle Kugeln gleich sind, ist es
auch hier sinnvoll anzunehmen, dass alle Möglichkeiten die gleiche Wahrscheinlichkeit
haben.
Auf wie viele Weisen kann man sechs Kugeln aus 49 ziehen?
Werden die Kugeln hintereinander gezogen, dann wird man für die erste Kugel 49,
für die zweite 48 usw. Möglichkeiten haben. Insgesamt gibt es also
49 ∗ 48 ∗ · · · ∗ 44
Möglichkeiten.
Spielt die Reihenfolge keine Rolle, wird man Ziehungen, die sich nur in der Anordnung
unterscheiden, zusammenfassen.
55
Auf wie vielen Weisen kann man sechs unterschiedliche Objekte anordnen?
Für die erste Position gibt es sechs Möglichkeiten, für die zweite nur noch fünf und
für die sechste Position gibt es schließlich nur noch eine Möglichkeit. Insgesamt kann
man also sechs unterscheidbare Objekte auf
6∗5∗4∗3∗2∗1
Weisen verschieden anordnen. Da dieses Produkt in der Wahrscheinlichkeitsrechnung
häufig vorkommt, führt man eine neu Bezeichnung ein:
6! = 6 ∗ 5 ∗ 4 ∗ 3 ∗ 2 ∗ 1 (gesprochen “Sechs Fakultät“).
Allgemein definiere man
n! = n ∗ (n − 1) ∗ (n − 2) ∗ · · · ∗ 1 (n Fakultät).
56
Ohne Berücksichtigung der Reihenfolge gibt es also
49 ∗ 48 ∗ · · · ∗ 44
49 ∗ 48 ∗ · · · ∗ 44 43!
49!
=
∗
=
6!
6!
43!
6! ∗ 43!
Möglichkeiten sechs aus 49 Kugeln zu ziehen, wenn die Reihenfolge keine Rolle spielt.
Da auch dieser Ausdruck oft vorkommt, erhält er ein eigenes Symbol
49
49!
=
6
6! ∗ 43!
und wird mit Binomialkoeffizient bezeichnet.
Mit den gleichen Argumenten kann man zeigen, dass es
n
n!
=
k! ∗ (n − k)!
k
Möglichkeiten gibt k Objekte aus n verschiedenen Objekten ohne Zurücklegen zu
ziehen, wenn Ziehungen, die sich nur in der Reihenfolge unterscheiden, als gleich
angesehen werden.
57
In R ist der Binomialkoeffizient in der Funktion choose, die Fakultät in factorial
implementiert:
> choose(49,6)
[1] 13983816
ist die Anzahl der Möglichkeiten, sechs Kugeln aus 49 ohne Zurücklegen zu ziehen.
58
Spielt die Reihenfolge eine Rolle, dann sind es sogar
> choose(49,6)*factorial(6)
[1] 10068347520
Möglichkeiten.
Da sowohl choose als auch factorial schnell große Werte annimmt, ist in R
auch der natürliche Logarithmus dieser Funktionen in lchoose und lfactorial
implementiert.
59
Die Wahrscheinlichkeit für eine spezielle Ziehung ist daher
1
,
49
6 ∗ 6!
wenn die Reihenfolge der Ziehung beachtet wird und
1
49
6
,
wenn die Reihenfolge keine Rolle spielt.
Bemerkung 5: Anders als beim zweimaligen Würfeln werden beim Übergang vom
Wahrscheinlichkeitsraum “mit Reihenfolge“ zum Wahrscheinlichkeitsraum “ohne Reihenfolge“ immer genau 6! = 720 Elemente zusammengefasst. Die Elementarwahrscheinlichkeiten sind deshalb auch im Wahrscheinlichkeitsraum “ohne Reihenfolge“
alle gleich.
60
Die bisherigen Beispiele legen nahe, dass Wahrscheinlichkeitsräume, in denen alle
Elementarwahrscheinlichkeiten gleich sind, oft als Modelle für reale Vorgänge dienen.
Aus diesem Grund habe sie einen eigenen Namen:
Definition: Ein endlicher Wahrscheinlichkeitsraum
Ω = {ω1, . . . , ωn}
heißt Laplaceraum, wenn
P(ωi) = 1/n für i = 1, . . . , n
gilt. Mit anderen Worten: Jedes Elementarereignis hat die gleiche Eintrittswahrscheinlichkeit.
61
Bemerkung 6: Die Annahme gleicher Elementarwahrscheinlichkeiten heißt auch die
Laplacehypothese. Sie kann mathematisch nicht bewiesen, sondern nur angenommen
werden. Aus physikalischen Gründen, wie Symmetrie der Münze, Gleichartigkeit der
Lottokugeln usw., ist sie oft eine plausible und sinnvolle Annahme.
62
2.2.2 Wahrscheinlichkeitstheoretische Modelle in der Genetik
2.2.2.1 Mendelscher Erbgang und Hardy-Weinberg Gesetz
Manche Eigenschaften werden dominant-rezessiven (Mendelscher Erbgang) an die
nächste Generation weitergegeben. Dabei wird ein Merkmal (Erbkrankheit, Haarfarbe,...), der sogenannte Phänotyp nur von einem Gen bestimmt wird, für das es
zwei Allele A und a geben soll. Jedes Individuum besitzt zwei Allele, eines von der
mütterlichen und eines von der väterlichen Seite. A sei das dominante Allel, d.h es
bestimmt den Phänotyp (das Merkmal) vollständig.
(A, A), (A, a) und (a, A) −→ Phänotyp A
(a, a) −→ Phänotyp a
63
In der Regel wird zwischen den Genotypen (A, a) und (a, A) nicht unterschieden,
da es schwierig ist festzustellen, welches Allel vom Vater und welches von der Mutter
kommt.
Der Wahrscheinlichkeitsraum für die Genotypen ist dann
Ωgeno = {(a, a), (A, a), (A, A)}
und für die Phänotypen
Ωphäno = {A, a}.
Für die Bestimmung der Wahrscheinlichkeitsverteilungen nimmt man an, dass jedes
Individuum zufällig und unabhängig zwei Allele von der Elterngeneration erhält.
64
Setzt man den Anteil der A Allele in der Elterngeneration mit pA an, dann muss der
Anteil der a Allele in der Elterngeneration bei pa = 1 − pA liegen.
Wie bei den Modellen für Glücksspiele können wir uns Vererbung anhand eines Urnenmodells klarmachen:
• Die “väterliche“ Urne UV enthält pA ∗ N Allele vom Typ A und (1 − pA) ∗ N
Allele von Typ a.
• Die “mütterliche“ Urne UM enthält pA ∗N Allele vom Typ A und (1−pA)∗N
Allele von Typ a.
Die Zahl N soll die Gesamtzahl aller Allele im männlichen bzw. weiblichen Teil der
Population sein.
65
Ein Individuum erhält nun seinen Genotyp durch unabhängiges Ziehen eines Allels
aus der mütterlichen Urne UM und eines Allels aus der väterlichen Urne UV .
Macht man die Annahme, dass alle Kombinationen aus Allelen aus UM mit denen aus UV mit der gleichen Wahrscheinlichkeit gezogen werden (Hardy-Weinberg
Annahme), dann ist der Laplaceraum
Ω = UM × UV
der Wahrscheinlichkeitsraum für das genetische Modell.
Um die Wahrscheinlichkeiten für die einzelnen Genotypen ausrechnen zu können,
müssen wir nur noch die Größe von Ω und die Häufigkeiten der Genotypen in Ω
bestimmen.
66
|Ω| = N 2
Ω enthält
- N pA ∗ N pA Elemente vom Genotyp (A, A),
- N (1 − pA) ∗ N pA vom Genotyp (a, A),
- N pA ∗ N (1 − pA) vom Genotyp (A, a) und
- N (1 − pA) ∗ N (1 − pA) vom Genotyp (a, a).
67
Da die Genotypen (A, a) und (a, A) nicht unterschieden werden sollen, besteht Ω
aus
• N 2 p2
A Elementen vom Typ (A, A).
• 2N 2pA(1 − pA) Elementen vom Typ (A, a)
• N 2(1 − pA)2 Elementen vom Typ (a, a).
Ω enthält insgesamt N 2 Elemente und ist ein Laplaceraum. Damit ergibt sich für
die Verteilungen der Genotypen (Hardy-Weinberg Gesetz):
68
Genotyp:
2
P((a, a)) = p2
a = (1 − pA )
P((A, a)) = 2pA(1 − pA)
P((A, A)) = p2
A.
Nimmt man zusätzlich an, dass das Allel A dominant ist, dann ergeben die Genotypen
(A, A) und (A, a) den gleichen Phänotyp. In diesem Fall ergibt sich dann für die
Verteilung der Phänotypen a und A:
Phänotyp:
P(a) = (1 − pA)2
P(A) = 2pA(1 − pA) + p2
A.
69
Bemerkung 7: Diese Verteilungen der Geno- bzw. Phänotypen wird sich aber nur
dann einstellen, wenn jedes Individuum die zwei Allele zufällig und unabhängig von
der Elterngeneration erhält. Für die Herleitung mussten wir annehmen, dass Ω ein
Laplaceraum ist.
Diese Bedingung der zufälligen Durchmischung heißt die Hardy-Weinberg Bedingung.
Eine exakte Begründung des Hardy-Weinberg Gesetzes führt zum Begriff der Unabhängigkeit von Ereignissen, der im nächsten Kapitel eingeführt wird.
70
Beispiel 6: Das dominante Allel A komme in der Population mit Wahrscheinlichkeit
pA = 0.9 vor. Befindet sich die Population im Hardy-Weinberg Gleichgewicht,
dann folgt für die Verteilung der Genotypen:
P((a, a)) = 0.12 = 0.01
P((A, a)) = 2 ∗ 0.1 ∗ 0.9 = 0.18
P((A, A)) = 0.92 = 0.81.
Der Phänotyp A kommt dann mit einer Wahrscheinlichkeit von 99% und der Phänotyp a mit nur 1% vor.
Verursacht das rezessive Allel a eine Krankheit, dann sind nur 1% der Population
betroffen, obwohl das Allel a mit 10% doch recht häufig auftritt.
71
2.2.2.1 Mendelsche Gesetze
Durch gezielte Kreuzungsexperimente kann man erreichen, dass die Verteilung der
Allele A und a in der Elterngeneration einen bekannten Wert annimmt. Kreuzt man
beispielsweise ein Individuum mit Genotyp (A,A) mit einem vom Genotyp (a,a), dann
können in der Tochtergeneration (F1) nur Individuen vom Genotyp (A,a) auftreten.
Nimmt man wieder an, dass das Allel A dominant für ein bestimmtes Merkmal ist,
dann tritt in der F1 ausschließlich Phänotyp A auf. Die Population der F1 befindet
sich also nicht im Hardy-Weinberg Gleichgewicht.
Was folgt dann für die Verteilung der Geno- und Phänotypen in der nächsten Generation (F2)?
Diese Verteilung wurde von Gregor Mendel (1866) bestimmt und die zugrunde liegende Gesetzmäßigkeiten heißen deshalb Mendelsche Regeln.
72
Ein Individuum aus der Generation F2 erbt von der väterlichen wie von der mütterlichen Seite mit Wahrscheinlichkeit 1/2 das Allel A.
Es liegt die Situation des vorigen Abschnitts vor. Durch die gezielte Kreuzung ist
aber die Wahrscheinlichkeit pA = 1/2 bekannt. Damit folgt für die Verteilung der
Genotypen in der F2:
- P((a, a)) = (1 − pA)2 = (1/2)2 = 1/4,
- P((a, A)) = 2 ∗ 1/2 ∗ (1 − 1/2) = 1/2,
- P((A, A)) = (1 − pA)2 = (1/2)2 = 1/4
73
Da (A,A) und (a,A) vom gleichen Phänotyp sind, verhält sich das Verhältnis von
Phänotyp a zu Phänotyp A wie 1:3.
Bemerkung: Im Gegensatz zur F1 befindet sich die F2 im Hardy-Weinberg Gleichgewicht mit einem bekannten pA = 1/2.
Tatsächlich hat Gregor Mendel in seinem Kreuzungsexperiment von Erbsenpflanzen
mit runden (Phänotyp A) und eckigen (Phänotyp a) Erbsen in der F2 eine Verteilung
von Phänotypen beobachtet, die diesen Zahlen sehr nahe kommen, und dann auf das
zugrunde liegende Gesetz geschlossen.
74
Vorlesung 9.11.2016
76
2.3 Unabhängigkeit, bedingte Wahrscheinlichkeit und die
Bayes-Formel
2.3.1 Unabhängige Ereignisse
Zwei Zufallsexperimente sind unabhängig, wenn der Ausgang des einen den des anderen nicht beeinflusst. Die formale Definition von Unabhängigkeit lautet:
Definition (Unabhängigkeit von Ereignissen): Zwei Ereignisse A und B des Wahrscheinlichkeitsraums (Ω, P) heißen unabhängig, wenn
P(A ∩ B) = P(A)P(B)
gilt.
Beispiel 7: Man betrachte im Laplaceraum
Ω = {1, 2, 3, 4, 5, 6} × {1, 2, 3, 4, 5, 6}
für zweimaliges Würfeln mit Berücksichtigung der Reihenfolge die Ereignisse:
A: erster Wurf ist eine 3
und
B: zweiter Wurf ist eine 5.
77
In Mengenschreibweise ergibt das für A und B:
A = {(3, 1), (3, 2), (3, 3), (3, 4), (3, 5), (3, 6)}
und
B = {(1, 5), (2, 5), (3, 5), (4, 5), (5, 5), (6, 5)}.
Weiter folgt
A ∩ B = {(3, 5)}.
78
Da jedes Elementarereignis die Wahrscheinlichkeit 1/36 besitzt, gilt
P(A) = 1/6 = P(B)
und
P(A ∩ B) = 1/36.
Daraus folgt durch direktes Nachrechnen
P(A ∩ B) = 1/36 = 1/6 ∗ 1/6 = P(A) ∗ P(B)
die Unabhängigkeit von A und B. Der Wurf des ersten Würfels beeinflusst den des
zweiten nicht.
79
Beispiel 8 (nicht unabhängige Ereignisse): Man betrachte im Laplaceraum
Ω = {1, 2, 3, 4, 5, 6},
der als Modell für einmaliges Würfeln mit einem fairen Würfel eingeführt wurde,
folgende Ereignisse:
A: Es wird eine gerade Zahl gewürfelt.
B: Es wird eine 4 gewürfelt.
80
In Mengenschreibweise ergibt sich
A = {2, 4, 6},
B = {4}
und
A ∩ B = {4}.
Damit ergeben sich die Wahrscheinlichkeiten P(A) = 1/2, P(B) = 1/6 und
P(A ∩ B) = 1/6. Offensichtlich gilt hier
P(A ∩ B) = 1/6 6= 1/2 ∗ 1/6 = P(A)P(B).
81
Für den endlichen Wahrscheinlichkeitsraum kann man leicht zeigen:
1. Die Ereignisse ∅ und Ω sind von allen Ereignissen A ⊂ Ω unabhängig.
2. Sind A und B unabhängig, dann sind auch
(a) A und B C
(b) AC und B und
(c) AC und B C
unabhängig.
82
2.3.2 Bedingte Wahrscheinlichkeiten
Definition: Für zwei Ereignisse A und B eines Wahrscheinlichkeitsraums (Ω, P) mit
P(B) > 0 heißt
P(A ∩ B)
P(A|B) :=
P(B)
die bedingte Wahrscheinlichkeit von A unter der Bedingung B.
Die Wahrscheinlichkeit P(A) heißt die absolute Wahrscheinlichkeit von A. Zwei
Ereignisse A und B (P(B) > 0) sind genau dann unabhängig, wenn
P(A|B) = P(A)
gilt.
83
Beweis: Sind A und B unabhängig, dann gilt nach Definition
P(A ∩ B) = P(A)P(B).
Daraus folgt
P(A ∩ B)
P(A)P(B)
P(A|B) =
=
= P(A).
P(B)
P(B)
84
Umgekehrt folgt aus
P(A|B) :=
P(A ∩ B)
= P(A)
P(B)
sofort
P(A ∩ B) = P(A)P(B).
85
Beispiel 9: Im Laplaceraum Ω = {1, . . . , 6} (einmaliges Würfeln) seien
A := {4, 5, 6}: Es wird eine Zahl ≥ 4 gewürfelt.
B := {2, 4, 6}: Es wird eine gerade Zahl gewürfelt.
Die absolute Wahrscheinlichkeit von A beträgt P(A) = 1/2. Für die bedingte
Wahrscheinlichkeit gilt jedoch P(A|B) = 2/3.
Die Zusatzinformation, dass eine gerade Zahl gewürfelt wurde, erhöht anscheinend
die Wahrscheinlichkeit, eine Zahl ≥ 4 zu würfeln.
86
2.3.3 Die Formel von Bayes
In welchem Verhältnis stehen die beiden bedingten Wahrscheinlichkeiten P(A|B)
und P(B|A) zueinandert? Für die Ereignisse in Beispiel 9 gilt P(A|B) = P(B|A).
Das das im Allgemeinen nicht gelten kann, sieht man an Beispiel 8: Die Wahrscheinlichkeit, eine gerade Zahl zu würfeln unter der Bedingung eine Vier gewürfelt zu
haben, ist 1. Dagegen beträgt die Wahrscheinlichkeit eine Vier zu würfeln unter der
Bedingung eine gerade Zahl zu würfeln 1
3.
Der korrekte Zusammenhang von P(A|B) mit P(B|A) wird durch die Formel von
Bayes hergestellt:
87
Aus der Definition für bedingte Wahrscheinlichkeiten folgt durch einfaches Umstellen:
P(A ∩ B) = P(A|B)P(B)
und
P(A ∩ B) = P(B|A)P(A)
Daraus folgt
P(B|A) =
P(A|B)P(B)
P(A)
(∗).
88
Oft wird der Nenner dieser Formel noch umgeschrieben: Aus
A = A ∩ Ω = A ∩ (B ∪ B C ) = (A ∩ B) ∪ (A ∩ B C )
folgt
P(A) = P((A ∩ B) ∪ (A ∩ B C ))
= P(A ∩ B) + P(A ∩ B C )
= P(A|B)P(B) + P(A|B C )P(B C ).
Das vorletzte Gleichheitszeichen gilt wegen (A ∩ B) ∩ (A ∩ B C ) = ∅.
89
Setzt man diesen Ausdruck in den Nenner von Gleichung (*) ein, dann erhält man
die Bayes Formel:
P(A|B)P(B)
P(B|A) =
P(A|B)P(B) + P(A|B C )P(B C )
(Bayes Formel)
P(B|A) kann also aus P(A|B) ausgerechnet werden, wenn zusätzlich noch die
absoluten Wahrscheinlichkeiten
• P(A) und P(B) oder
• P(B) und die bedingten Wahrscheinlichkeiten P(A|B) und P(A|B C )
bekannt sind.
90
2.3.4 Ein Beispiel aus der medizinischen Statistik: Sensitivität, Spezifität und prädiktive Werte
Der Umgang mit bedingten Wahrscheinlichkeiten ist in der Praxis oft schwierig, da
absolute mit bedingten Wahrscheinlichkeiten und bei den bedingten Wahrscheinlichkeiten die Bedingungsrichtungen, d.h. P(A|B) mit P(B|A), verwechselt werden.
Beispiel: In der medizinischen Diagnostik spielen die Begriffe Sensitivität, Spezifität,
Prävalenz und die prädiktiven Werte eine zentrale Rolle. Jeder dieser Begriffe stellt
eine absolute bzw. bedingte Wahrscheinlichkeit dar, die über der Bayes Formel in
Beziehung zueinander stehen.
91
Beispiel (Fortsetzung): Jeder diagnostischer Test in der Medizin ist fehlerbehaftet.
Er kann
• die Krankheit nicht erkennen (Fehler 1. Art)
• einen Gesunden als krank diagnostizieren (Fehler 2. Art).
Zur Beschreibung dieser Fehler bietet sich eine wahrscheinlichkeitstheoretische Modellierung an.
92
Beispiel für einen diagnostischen Test: Aus der Konzentration des Prostata spezifischen Antigens (PSA) im Blut eines Patienten soll auf eine Krebserkrankung der
Prostata geschlossen werden. Ab einem gewissen Wert (Schwellenwert) gilt der Patient als positiv und der Arzt geht von einem pathologischen (kranken) Befund aus.
Allerdings bedeutet ein erhöhter PSA Wert nicht zwangsläufig, dass eine Krebserkrankung besteht. Nur mit einer gewissen Wahrscheinlichkeit kann auf einen Tumor
in der Prostata geschlossen werden. Umgekehrt kann aber bei einem nicht erhöhten
PSA Wert auch nicht mit letzter Sicherheit ein Prostatakarzinom ausgeschlossen
werden.
93
Zur Modellierung definieren wir zwei Ereignisse mit ihren Gegenereignissen:
1. K: Patient ist krank (leidet an einem Prostatakarzinom)
2. G = K C : Patient ist gesund (leidet nicht an einem Prostatakarzinom)
3. P : Der Test ist positiv (PSA Wert ist erhöht).
4. N = P C : Der Test ist negativ (PSA Wert liegt im normalen Bereich).
94
Die Güte (Trennschärfe) des diagnostischen Tests (hier die Bestimmung des PSA
Werts) kann nun durch zwei bedingte Wahrscheinlichkeiten modelliert werden:
• P(P |K) heißt die Sensitivität und
• P(N |G) = P(P C |K C ) heißt die Spezifität
des diagnostischen Tests. Die absolute Wahrscheinlichkeit
• P(K) heißt die Prävalenz der Erkrankung.
95
• Die Sensitivität ist die Fähigkeit eines Tests, einen Kranken positiv (krank) zu
diagnostizieren.
• Die Spezifität ist die Fähigkeit, einen Gesunden negativ, also nicht fälschlicherweise positiv, zu diagnostizieren.
• Die Prävalenz ist die Häufigkeit der Erkrankung in einer Population.
96
Obwohl Sensitivität und Spezifität die Qualität eines diagnostischen Tests gut beschreiben, geben Sie keine Antwort auf die Frage, welchen Aussagewert eine positive
bzw. negative Diagnose hat.
Ist der Test positiv, will Arzt und Patient wissen, mit welcher Wahrscheinlichkeit der
Patient tatsächlich krank ist. Bei einer negativer Diagnose erhebt sich die Frage, mit
welcher Sicherheit die Krankheit ausgeschlossen werden kann.
Es interessiert also nicht die bedingte Wahrscheinlichkeit P(P |K) (Sensitivität)
sondern die Wahrscheinlichkeit mit umgekehrter Bedingungsrichtung P(K|P ). Entsprechend ist nicht P(N |G) (Spezifität) sondern P(G|N ) die für den Praktiker
bedeutsame Wahrscheinlichkeit.
97
Aus diesem Grund erhalten die bedingten Wahrscheinlichkeiten P(K|P ) und P(G|N )
eigene Namen:
• Die bedingte Wahrscheinlichkeit P(K|P ) heißt der positive prädiktive Wert.
• Die bedingte Wahrscheinlichkeit P(G|N ) heißt der negative prädiktive Wert.
Positiver und negativer prädiktiver Wert können mit Hilfe der Bayes Formel aus
Sensitivität, Spezifität und Prävalenz ausgerechnet werden.
98
Für den positiven prädiktiven Wert gilt:
P(P |K) ∗ P(K)
P(K|P ) =
=
P(P |K) ∗ P(K) + P(P |G) ∗ P(G)
=
P(P |K) ∗ P(K)
=
P(P |K) ∗ P(K) + (1 − P(N |G)) ∗ (1 − P(K))
=
Sensitivität ∗ Prävalenz
Sensitivität ∗ Prävalenz + (1 − Spezifität) ∗ (1 − Prävalenz)
99
Ganz entsprechend gilt für den negativen prädiktiven Wert:
P(G|N ) =
P(N |G) ∗ P(G)
=
=
P(N |G) ∗ P(G) + P(N |K) ∗ P(K)
=
P(N |G) ∗ (1 − P(K))
=
P(N |G) ∗ (1 − P(K)) + (1 − P(P |K)) ∗ P(K)
Spezifität ∗ (1 − Prävalenz)
=
Spezifität ∗ (1 − Prävalenz) + (1 − Sensitivität) ∗ Prävalenz
100
Vorlesung 16.11.2016
101
Die Summanden in den Nennern der beiden Formeln haben eine anschauliche Bedeutung:
• Sensitivität ∗ Prävalenz: Wahrscheinlichkeit für richtig positiv (RP)
• (1 − Sensitivität) ∗ Prävalenz: Wahrscheinlichkeit für falsch negativ (FN)
• (1 − Spezifität) ∗ (1 − Prävalenz): Wahrscheinlichkeit für falsch positiv (FP)
• Spezifität ∗ (1 − Prävalenz): Wahrscheinlichkeit für richtig negativ (RN)
102
Die Formeln für die prädiktiven Werte können dann auch wie
• Positiver prädiktiver Wert =
RP
RP+FP
• Negativer prädiktiver Wert =
RN
RN+FN
geschrieben werden.
103
Offensichtlich hängen die prädiktiven Werte nicht nur von Sensitivität und Spezifität
des diagnostischen Tests, sondern auch von der Prävalenz der Erkrankung ab.
Man sieht leicht, dass der positive prädiktive Wert bei kleiner Prävalenz abnimmt,
wohingegen der negative prädiktive Wert bei großer Prävalenz klein wird.
Da Krankheiten in der Normalbevölkerung selten vorkommen, sind die prädiktiven
Werte diagnostischer Tests insbesondere bei Vorsorgeuntersuchungen oder wenn
beim Patienten keine krankheitsspezifische Symptomatik vorliegt, trotz hoher Sensitivität und Spezifität oft sehr klein.
104
Beispiel: Die Spezifität eines diagnostischen Tests sei 90% und seine Sensitivität sei
80%. Für eine Prävalenz von 1% beträgt der positive prädiktive Wert:
>
>
>
>
>
Sp <- 0.9
Sen <- 0.8
Pr <- 0.01
PosPr <- Sen*Pr/(Sen*Pr+(1-Sp)*(1-Pr))
PosPr
[1] 0.07476636
105
Liegt die Prävalenz bei nur 0.1%, dann verringert sich der positive prädiktive zu
> Pr <- 0.001
> PosPr <- Sen*Pr/(Sen*Pr+(1-Sp)*(1-Pr))
> PosPr
[1] 0.007944389
106
2.4 Wichtige Wahrscheinlichkeitsverteilungen
2.4.1 Die Binomialverteilung
Oft will man Zufallsexperimente modellieren, die aus n unabhängigen gleichartigen
Teilexperimenten bestehen. Jedes der Teilexperimente kann nur zwei verschiedene
Ausgänge haben (“Treffer“ und ”Nicht-Treffer“). Die Wahrscheinlichkeit p für “Treffer“
sei für alle Teilexperimente gleich. Die Wahrscheinlichkeit für k “Treffer“ soll bestimmt
werden.
Beispiel: Eine Münze (nicht notwendig fair) wird n mal unabhängig geworfen. Die
Wahrscheinlichkeit für“Kopf“ sei p (0 ≤ p ≤ 1). Wie groß ist die Wahrscheinlichkeit
für genau k mal “Kopf“?
107
Beispiel: Für eine medizinische Studie werden n Patienten, die an einer bestimmten
Krankheit leiden, “rekrutiert“ (in die Studie eingeschlossen). Die anschließende Behandlung heilt einen Patienten mit der für alle Patienten gleichen Wahrscheinlichkeit
p. Es sollen nur die Möglichkeiten “Heilung“ oder ”Nicht-Heilung“ geben (Responder
oder Nicht-Responder). Außerdem nimmt man an, dass die Patienten unabhängig
voneinander geheilt oder nicht geheilt werden. Auch hier interessiert man sich für die
Wahrscheinlichkeit von genau k (k = 0, 1, . . . , n) Heilungen.
108
Der Wahrscheinlichkeitsraum Ω für solche Experimente kann als
Ω = {(z1, . . . , zn)|zi = 0, 1; i = 1, . . . n}
geschrieben werden. Er besteht aus den n-Tupeln mit den Einträgen 0 (=keine
Heilung) oder 1 (=Heilung). Ω hat 2n Elemente.
Die Wahrscheinlichkeit für eine 1 in jedem der n Einzelexperimente sei p. Die Wahrscheinlichkeit für eine 0 muss dann 1−p sein. Da die Einzelexperimente unabhängig
voneinander ausgeführt werden, ist es naheliegend,
P((z1, . . . , zn)) =
n
Y
pzi (1 − p)1−zi
i=1
zu setzen. Das Produkt in der Formel hat n Faktoren. Wenn in zi = 1 gilt, ist der
entsprechende Faktor p, bei zi = 0 ist der Faktor 1 − p.
109
Ein Tupel mit genau k Einsen als Einträge erhält also die Wahrscheinlichkeit
pk (1 − p)n−k .
Hinweis: Der Wahrscheinlichkeitsraum (Ω, P) ist nur für p = 0.5 ein Laplaceraum.
In der Regel spielt die Reihenfolge der Einzelexperimente keine Rolle. Man wird
deshalb alle Tupel mit k Einsen zu einem Ereignis zusammenfassen wollen.
Wie viele n-Tupel mit genau k Einsen gibt es?
110
Beispiel: n = 4 und p beliebig. Die Elementarereignisse für vierfache unabhängige
Versuchswiederholung mit möglichen Ausgängen 0 und 1 sind:
Ω = {(0, 0, 0, 0), (1, 0, 0, 0), (0, 1, 0, 0), (1, 1, 0, 0),
(0, 0, 1, 0), (1, 0, 1, 0), (0, 1, 1, 0), (1, 1, 1, 0),
(0, 0, 0, 1), (1, 0, 0, 1), (0, 1, 0, 1), (1, 1, 0, 1),
(0, 0, 1, 1), (1, 0, 1, 1), (0, 1, 1, 1), (1, 1, 1, 1)}
Die Wahrscheinlichkeiten für die Vierertupel können leicht angegeben werden, wenn
man beachtet, dass die Versuchswiederholungen unabhängig voneinander durchgeführt werden sollen, und daher die Wahrscheinlichkeit eines jeden Elementarereignisses das Produkt der Wahrscheinlichkeiten für die Ergebnisse der vier Versuchsausgänge ist.
111
P({(0, 0, 0, 0)})
P({(1, 0, 0, 0)})
...
P({(1, 0, 1, 0)})
P({(0, 1, 1, 0)})
...
P({(1, 1, 1, 1)})
= (1 − p) ∗ (1 − p) ∗ (1 − p) ∗ (1 − p) = (1 − p)4
= p ∗ (1 − p) ∗ (1 − p) ∗ (1 − p) = p(1 − p)3
...
= p ∗ (1 − p) ∗ p ∗ (1 − p) = p2(1 − p)2
= (1 − p) ∗ p ∗ p ∗ (1 − p) = p2(1 − p)2
...
= p ∗ p ∗ p ∗ p = p4
Die Wahrscheinlichkeiten hängen also nur von der Anzahl und nicht von der Position
der Einsen ab. Insgesamt erhält man für alle 16 Wahrscheinlichkeiten:
(1−p)4, p(1−p), p(1−p)3, p2(1−p)2, p(1−p)3, p2(1−p)2, p2(1−p)2, p3(1−p),
p(1−p)3, p2(1−p)2, p2(1−p)2, p3(1−p), p2(1−p)2, p3(1−p), p3(1−p), p4
112
Für k = 0, 1, 2, 3, 4 Einsen erhält man folgende Wahrscheinlichkeiten:
k
0
1
2
3
4
Einzelwahrscheinlichkeit
(1 − p)4
p(1 − p)3
p2(1 − p)2
p3(1 − p)1
p4
Anzahl Möglichkeiten
4
0 = 1
4
1 = 4
4
2 = 6
4
3 = 4
4
4 =1
P(k)
4
4
(1
−
p)
0
4
3
p(1
−
p)
1
4 2
2
p
(1
−
p)
2
4 3
− p)1
3 p (1
4 4
4 p
113
Allgemein kann die Anzahl der n-Tupel mit genau k Einsen durch folgendes Gedankenexperiment bestimmt werden:
Man stelle sich eine Urne mit n Kugeln vor, deren Kugeln mit den Zahlen 1 bis n
durchnummeriert sind. Jede der Kugeln steht für eine Position im n Tupel. Jeder
Möglichkeit, aus dieser Urne k Kugeln ohne Zurücklegen zu ziehen, kann man ein
n-Tupel mit genau k Einsen zuordnen, indem die Komponenten, die den Nummern
der gezogenen Kugeln entsprechen, mit Eins besetzen werden und alle anderen mit
Null.
n
k (gleiche
Die Anzahl der Möglichkeiten für k aus n ohne Zurücklegen beträgt
Begründung wie beim Lotto “6 aus 49“!). Die Wahrscheinlichkeit für genau k Einsen
ist deshalb
n
b(n, p, k) :=
pk (1 − p)n−k .
k
114
Definition: Der Wahrscheinlichkeitsraum
Ω = {0, 1, . . . , n}
mit
P(k) = b(n, p, k) =
n
pk (1 − p)n−k ,
k = 0, . . . , n
k
ist der Wahrscheinlichkeitsraum der Binomialverteilung mit n unabhängigen Wiederholungen und Trefferwahrscheinlichkeit p.
115
In R sind viele Wahrscheinlichkeitsverteilungen implementiert. Die b(n, p, k) erhält
man durch die Funktion dbinom:
>
>
>
>
n <- 10
p <- 0.3
k <- 0:10
dbinom(x=k, size=n, prob=p)
[1] 0.0282475249 0.1210608210 0.2334744405 0.2668279320 0.2001209490 0
[7] 0.0367569090 0.0090016920 0.0014467005 0.0001377810 0.0000059049
116
0.00
0.10
0.20
> y <- dbinom(x=k, size=n, prob=p)
> plot(x=k, y=y, type="h", cex.axis=1.8, cex.lab=1.8, ylab="")
0
2
4
6
8
10
k
117
Neben dbinom gibt es noch
• pbinom: Kumulierte Wahrscheinlichkeitsverteilung
Pk
i=0 b(n, p, i).
• qbinom: Umkehrfunktion von pbinom.
• rbinom Zufallszahlengenerator zur Erzeugung von binomialverteilten Zufallszahlen.
118
Beispiel: Eine faire Münze wird 50 mal geworfen. Die Wahrscheinlichkeit für genau
26 mal “Kopf“ ist dann b(50, 0.5, 26). Mit R ergibt das
> dbinom(x=26,size=50,prob=0.5)
[1] 0.1079569
119
Wie groß ist die Wahrscheinlichkeit für höchstens 20 mal “Kopf“?
> pbinom(q=20,size=50,prob=0.5)
[1] 0.1013194
120
Vorlesung 23.11.2016
121
2.4.2 Wahrscheinlichkeitsverteilungen auf abzählbar unendlichen Wahrscheinlichkeitsräumen
Bisher waren alle Wahrscheinlichkeitsräume endliche Mengen. Die meisten für die
Anwendung bedeutsamen Wahrscheinlichkeitsräume sind jedoch unendlich. Besonders wichtig sind die Verteilungen, die auf den Mengen IN , IN 0, Z
Z oder IR definiert
sind. Bevor diese Verteilungen eingeführt werden, muss der Begriff des Wahrscheinlichkeitsraums auf abzählbar unendliche Mengen ausgedehnt werden.
122
Definition: Eine abzählbar unendliche Menge
Ω = {ω1, ω2, . . .}
zusammen mit einer Funktion
P(ωk ) = pk ≥ 0,
k ∈ IN ,
für die die Normierungsbedingung
∞
X
pk = 1
k=0
gilt, heißt abzählbar unendlicher Wahrscheinlichkeitsraum.
123
Eine Teilmenge A ⊂ Ω heißt Ereignis des Wahrscheinlichkeitsraums (Ω, P). Es gilt
X
P(A) :=
P (ω).
ω∈A
Die Ereignisse können jetzt endliche oder unendliche Mengen sein. Die Summe
P
ω∈A P (ω) konvergiert wegen der Normierungsbedingung für jede Teilmenge A
von Ω.
Alle Rechenregeln, die für endliche Wahrscheinlichkeitsräume gelten, können auf
abzählbar unendliche Räume wortwörtlich übertragen werden.
Der einzige neue Aspekt ist, dass nun statt endlicher auch unendliche Summen (=Reihen) auftreten. Der Nachweis der Normierungsbedingung kann deshalb mathematisch
anspruchsvoller sein.
124
2.4.2.1 Die Poisson Verteilung
Das wichtigste Beispiel für eine Wahrscheinlichkeitsverteilung auf einem abzählbar
unendlichen Raum, ist die Poisson Verteilung.
Definition: Sei λ > 0 eine reelle Zahl. Die Wahrscheinlichkeitsverteilung auf
Ω = IN 0 = {0, 1, 2, . . .}
mit
λk
−λ
P(k) := p(λ, k) = e
,
k!
k = 0, 1, 2, . . .
heißt Poisson Verteilung zum Parameter λ.
125
In R ist die Poisson Verteilung in den Funktionen
• dpois: p(λ, k)
• ppois: Kumulierte Poisson Verteilung
Pk
i=0 p(λ, i)
• qpois: Umkehrfunktion von ppois
• rpois: Poissonverteilte Zufallszahlen
implementiert.
126
> dpois(x=0:8,lambda=1.5)
[1] 0.2231301601 0.3346952402 0.2510214302 0.1255107151 0.0470665182 0.
[7] 0.0035299889 0.0007564262 0.0001418299
127
>
>
>
+
x <- 0:8
y <- dpois(x=x, lambda=1.5)
plot(x=x,y=y, type="h", cex.axis=1.8, cex.lab=1.8, cex.main=2,
main="Poisson Verteilung", xlab=expression(lambda==1.5))
0.00
0.10
y
0.20
0.30
Poisson Verteilung
0
2
4
λ = 1.5
6
8
128
>
>
>
+
x <- 0:15
y <- dpois(x=x, lambda=5.1)
plot(x=x,y=y, type="h", cex.axis=1.8, cex.lab=1.8, cex.main=2,
main="Poisson Verteilung", xlab=expression(lambda==5.1))
0.00
0.05
y
0.10
0.15
Poisson Verteilung
0
5
10
15
λ = 5.1
129
Aufgabe: Zeigen Sie die Normierungsbedingung für die Poisson Verteilung.
P∞
Hinweis: Zeigen Sie
Exponentialfunktion.
k=0 p(λ, k) = 1. Benutzen Sie die Taylorentwicklung der
130
Die Poisson Verteilung wird zur Modellierung seltener aber häufig wiederkehrender
Ereignisse benutzt.
Der Grund hierfür liegt am Poissonschen Grenzwertsatz, der einen Zusammenhang
der Poissonverteilung mit der Binomialverteilung herstellt.
Poissonscher Grenzwertsatz: Sei λ > 0 eine reelle Zahl und
λ
pn :=
n
für n > λ.
Dann gilt
lim b(n, pn, k) = p(λ, k).
n→∞
131
Immer wenn ein Experiment mit zwei möglichen Ausgängen oft unabhängig wiederholt wird (n groß), die Trefferwahrscheinlichkeit p aber klein ist, kann die Binomialverteilung durch die Poisson Verteilung mit Parameter λ = np angenähert
werden.
Viele natürliche und nicht natürliche Vorgänge können aus diesem Grund mit einer
Poisson Verteilung beschrieben werden.
132
Beispiel: Die Anzahl der jährlichen Unfälle in einem Autobahnabschnitt ist näherungsweise poissonverteilt.
Begründung: Man nehme an, dass sich im fraglichen Autobahnabschnitt durchschnittlich λ Unfälle im Jahr ereignen. Dieser Durchschnitt λ kann durch Beobachtung des Unfallgeschehens über viele Jahre geschätzt werden.
Man denkt sich nun das Jahr T in n gleichlange disjunkte Teilintervalle T1, . . . , Tn
zerlegt. Wenn n groß ist, dann ist die Wahrscheinlichkeit für einen Unfall in einem
bestimmten Teilintervall λ/n. Die Wahrscheinlichkeit für zwei oder mehr Unfälle in
einem Teilintervall kann bei großen n vernachlässigt werden. In einem Teilintervall Ti
ereignet sich mit der Wahrscheinlichkeit pn = λ/n ein Unfall und mit 1 − pn kein
Unfall. Macht man noch die Annahme, dass sich in den Ti die Unfälle unabhängig
voneinander ereignen, dann ist man in der Situation der Binomialverteilung.
133
Die Wahrscheinlichkeit für genau k Unfälle in T ist daher b(n, k, pn). Da n beliebig
groß gemacht werden darf (entsprechend wird pn = λ/n klein), kann der Poissonsche Grenzwertsatz angewandt werden, und die Wahrscheinlichkeit für k Unfälle ist
p(λ, k).
Ist beispielsweise bekannt, dass sich durchschnittlich λ = 3.4 Unfälle im Jahr
ereignen, dann ist die Wahrscheinlichkeit, dass sich im nächsten Jahr kein Unfall
ereignet
3.40
−3.4
p(3.4, 0) = e
= e−3.4.
0!
> exp(-3.4)
[1] 0.03337327
134
Beispiel (DNA-Sequenzanalyse): Im Genom gibt es charakteristische Abschnitte, sogenannte “Anker“, deren Position bekannt ist. DNA-Fragmente, die einen Anker enthalten, können deshalb lokalisiert werden.
Man geht nun davon aus, dass im Mittel λ Anker pro 1000 bp (Basenpaare) auftreten.
In einem DNA Fragment der Länge L werden sich im Mittel Lλ Anker befinden (die
Länge des Fragments wird in Einheiten 1000 bp gemessen). Die tatsächliche Anzahl
in einem beliebigen DNS Teilstück der Länge L wird zufallsbedingt mehr oder weniger
von diesem Mittelwert abweichen. Unter idealen Modellannahmen (Welchen?) kann
man mit einer ähnlichen Argumentation wie beim vorigen Beispiel zeigen, dass die
Anzahl der Anker in einem DNA Fragment der Länge L einer Poisson Verteilung mit
Parameter Lλ gehorcht.
135
Beispiel: In der Epidemiologie wird eine Gruppe (Kohorte) von n = 10000 gesunden Personen durchschnittlich ein Jahr lang beobachtet. Es sei bekannt, dass die
Inzidenz einer Erkrankung ein Fall pro 1000 Personen und Jahr beträgt.
Die Anzahl der tatsächlich beobachteten Krankheitsfällen in der Kohorte im nächsten
Jahr wird dann gerne durch die Poissonverteilung mit λ = 10 beschrieben, da
die Wahrscheinlichkeit im nächsten Jahr zu erkranken für jede einzelne Person der
1 recht klein ist, die Anzahl der unabhängigen Versuche mit
Kohorte mit p = 1000
n = 10000 aber groß ist.
136
2.4.2.2 Die geometrische Verteilung
Ein Zufallsexperiment mit den beiden möglichen Ausgängen “Treffer“ oder “Niete“
wird unabhängig so lange wiederholt, bis das erste Mal “Treffer“ beobachtet wird.
Die Wahrscheinlichkeit für einen “Treffer“ sei p. Wie groß ist die Wahrscheinlichkeit
g(p, k), dass das Experiment nach k Versuchen abbricht?
Antwort: Das Experiment bricht nach k Versuchen genau dann ab, wenn die ersten
k − 1 Versuche Nieten ergeben und der k-te Versuch ein Treffer ist. Da die Versuche
unabhängig voneinander ausgeführt werden, gilt
g(p, k) = (1 − p)k−1p,
k = 1, 2, . . . ,
137
Definition: Die Wahrscheinlichkeitsverteilung
Ω = IN = {1, 2, . . .}, mit P(k) = (1 − p)k−1p,
k∈Ω
heißt geometrische Verteilung.
Aufgabe: Beweisen Sie die Normierungsbedingung für die geometrische Verteilung.
Warum heißt die Verteilung “geometrisch“?
138
Vorlesung 30.11.2016
139
2.4.3 Überabzählbare Wahrscheinlichkeitsräume: Die reellen Zahlen IR
als Wahrscheinlichkeitsraum
2.4.3.1 IR als Wahrscheinlichkeitsraum
Bisher wurden nur endliche und abzählbar unendliche Wahrscheinlichkeitsräume betrachtet. Abzählbar unendliche Mengen sind z.B. IN , Z
Z oder sogar die rationalen
Zahlen Q, nicht aber die reellen Zahlen IR.
Eine ganz wichtige Klasse von Verteilungen sind aber Verteilungen auf den reellen
Zahlen IR. Die Ergebnisse vieler Zufallsexperimente werden durch reelle Zahlen beschrieben. Der Begriff des Wahrscheinlichkeitsraums muss deshalb auf die Menge
Ω = IR erweitert werden.
140
Beispiel: Eine wichtige Klasse von Zufallsexperimenten mit Ergebnissen in IR sind
alle Messungen. Da jeder Messprozess mehr oder weniger durch zufällige Fehler
gestört ist, sind die Ergebnisse einer jeden Messung in einem gewissen Rahmen
zufallsbedingt.
Beispiel: Man wähle aus einer Population von Menschen zufällig einen aus und bestimme seine Körpergröße. Das Ergebnis ist eine reelle Zahl, die“vom Zufall“ abhängt.
Zum einen ist die Auswahl des Individuums zufällig, aber auch die Messung selbst
hat eine zufallsbedingte Unschärfe.
141
Man kann zeigen, dass IR nicht wie die natürlichen oder ganzen Zahlen in der
Form {ω1, ω2, . . .} darstellbar ist. Man sagt auch, dass IR nicht abzählbar oder
überabzählbar ist.
Das Konzept, die Wahrscheinlichkeitsverteilung P zunächst für die Elementarereignisse ω ∈ Ω zu definieren und dann durch
X
P(A) =
P(ω)
ω∈A
auf jede Teilmenge A ⊂ Ω zu erweitern, ist für Ω = IR undurchführbar, da
die Summation für die meisten Teilmengen A ⊂ IR nicht definierbar ist. A kann
so “groß“ sein (z.B. IR selbst), dass bei jeder auch unendlichen Summation immer
unendlich viele Elemente von A ausgelassen werden.
142
Um auf IR Wahrscheinlichkeitsverteilungen zu definieren, muss man sich von der
Idee, jeder Teilmenge A ⊂ Ω eine Wahrscheinlichkeit zuzuordnen, verabschieden.
Man begnügt sich zunächst, allen Intervallen [a, b] ⊂ IR Wahrscheinlichkeiten
P([a, b]) zuzuordnen.
Das geschieht mit Hilfe der Integralrechnung.
143
Definition: Eine Wahrscheinlichkeitsdichte ist eine reelle integrierbare Funktion φ(t) ≥
0
φ : IR −→ IR
mit
Z
∞
φ(t)dt = 1 (Normierungsbedingung).
−∞
Jede solche Funktion φ definiert auf IR eine stetige Wahrscheinlichkeitsverteilung
auf IR, indem jedem Intervall [a, b] ⊂ IR die Wahrscheinlichkeit
Z b
φ(t)dt.
P([a, b]) =
a
zugeordnet wird.
144
Bemerkung: Auf gleiche Weise kann auch für offene, halboffene oder die unendlichen
Intervalle (−∞, b], [a, ∞) und ganz IR die Wahrscheinlichkeit P definiert werden.
Bemerkung: Zunächst ist P nur für beliebige Teilintervalle von IR definiert. Man
kann zeigen, dass P noch für viel mehr Mengen sinnvoll definiert werden kann. Diese
Mengen heißen messbare Mengen.
In dieser Vorlesung ist es aber nur wichtig zu wissen, wie P für Intervalle und endliche
Vereinigungen von Intervallen berechnet wird.
145
Sei
A = I1 ∪ I2 ∪ · · · ∪ In
die Vereinigung von paarweise disjunkten abgeschlossenen, offenen oder halboffenen
Intervallen (Ij = (aj , bj ), [aj , bj ], [aj , bj ) oder (aj , bj ]). P(A) sei dann als
P(A) =
n Z
X
bi
φ(t)dt.
i=1 ai
definiert. Auch für Mengen A, die Vereinigung einer unendlichen Folge von paarweise
disjunkten Intervallen ist, kann eine Wahrscheinlichkeit zugeordnet werden:
146
Sei
A = I1 ∪ I2 ∪ · · · = ∪∞
i=1 Ii
mit Ii ∩Ij = ∅ für i, j ∈ IN die Vereinigung einer unendlichen Folge von paarweise
disjunkten Intervallen. Dann definiert man
∞ Z
X
P(A) =
φ(t)dt.
i=1 Ii
R
Ii bezeichne das Integral von der unteren bis zur oberen Grenze des Intervalls Ii .
Die Mengen A, die als endliche oder abzählbar unendliche Vereinigungen von Intervallen geschrieben werden können, heißen die Borelmengen von IR. Eine genauere
Untersuchung dieser Mengen ist Gegenstand der Maßtheorie.
147
2.4.3.2 Die Standardnormalverteilung
Das wichtigste Beispiel für eine auf IR definierte stetige Wahrscheinlichkeitsverteilung ist die Standardnormalverteilung.
Definition: Die auf IR durch die Wahrscheinlichkeitsdichte (Gaußsche Glockenkurve)
2
1
φ(t) := √ e−t /2
2π
definierte Wahrscheinlichkeitsverteilung heißt die Standardnormalverteilung.
148
Die Wahrscheinlichkeit P([a, b]) für ein beliebiges Intervall [a, b] ist für die Standardnormalverteilung
Z b
2
1
√ e−t /2dt,
P([a, b]) =
2π
a
die Fläche unter der Kurve φ(t) zwischen a und b.
149
Beispiel: Für [1, 2] ist P([1, 2]) die schraffierte Fläche unter der Kurve der Wahrscheinlichkeitsdichte.
0.2
0.1
0.0
dnorm
0.3
0.4
a=1 und b=2
−3
−2
−1
0
1
2
3
x
150
Um Wahrscheinlichkeiten von Intervallen für eine stetige Verteilung auf IR ausrechnen zu können, müssen Integrale berechnet werden. Da das oft schwierig oder wie
im Fall der Standardnormalverteilung mit elementaren Funktionen nicht möglich ist,
definiert man zu jeder Wahrscheinlichkeitsdichte φ(t) die Verteilungsfunktion
Z x
F (x) :=
φ(t)dt.
−∞
Die Verteilungsfunktion ist eine Stammfunktion der Dichtefunktion:
F 0(x) = φ(x).
151
Aus den Regeln der Integralrechnung (Additivität des Integrals) folgt nun:
Z b
P([a, b]) =
φ(t) dt =
Zab
Z a
Z a
=
φ(t) dt +
φ(t) dt −
φ(t) dt =
−∞
Z a
a
b
Z
φ(t) dt −
=
−∞
−∞
φ(t) dt =
−∞
= F (b) − F (a)
Man muss also nur die Verteilungsfunktion F (x) kennen, um die Wahrscheinlichkeit
für beliebige Intervalle ausrechnen zu können.
152
Die Verteilungsfunktion
Z
x
1 −t2/2
Φ(x) =
e
dt
−∞ 2π
der Standardnormalverteilung ist in R aber auch in vielen anderen Softwarepaketen
implementiert. In der Regel wird sie mit Φ bezeichnet.
In R ist die Dichte der Standardnormalverteilung die Funktion dnorm und die Verteilungsfunktion Φ erhält man mit pnorm.
153
Die Wahrscheinlichkeit P([a, b]) (schraffierte Fläche unter der Kurve im vorigen
Diagramm) kann daher in R mit
> pnorm(2)-pnorm(1)
[1] 0.1359051
berechnet werden.
154
0.00
0.0
0.1
0.05
0.2
0.10
0.3
0.15
0.4
Stetige Verteilung versus diskrete Verteilung:
−3
−1
1
2
3
0
2
4
6
8
10
155
2.4.3.3 Die allgemeine Normalverteilung
Definition: Die durch die Dichte
φ(t) := √
1
2πσ 2
t−µ 2
1
−2 σ
e
definierte Wahrscheinlichkeitsverteilung heißt Normalverteilung mit Erwartungswert
µ und Varianz σ 2.
Bemerkung: Erwartungswert und Varianz werden erst im nächsten Abschnitt definiert. Zunächst sollen sie nur Bezeichnungen für die Parameter µ und σ 2 sein.
Bemerkung: Offensichtlich ist die Standardnormalverteilung die Normalverteilung mit
Erwartungswert 0 und Varianz 1.
156
Bemerkung: Der Beweis der Normierungsbedingung
Z ∞
t−µ 2
1
1
−2 σ
√
e
dt = 1
2
−∞ 2πσ
für die Normalverteilung ist nicht ganz einfach und soll hier übergangen werden.
Die allgemeine Normalverteilung ist in R auch in den Funktionen dnorm und pnorm
implementiert:
> pnorm(2,mean=1,sd=2)
[1] 0.6914625
157
ergibt beispielsweise P((−∞, 2]) für die Normalverteilung mit Erwartungswert 1
und Varianz 4. Das optionale Argument sd erwartet die Eingabe der Standardabweichung (=Quadratwurzel aus der Varianz).
In der folgenden Graphik werden Dichtefunktionen der Normalverteilung für einige
ausgewählte Parameter dargestellt.
158
1.5
Normalverteilungen (Dichten)
0.0
0.5
1.0
Erwartungswert −1 und Varianz 1
Erwartungswert 1 und Varianz 4
Erwartungswert 0 und Varianz 1/9
−4
−2
0
2
4
159
2.4.3.4 Die Gleichverteilung
Definition: Seien a < b zwei reelle Zahlen. Die durch die Wahrscheinlichkeitsdichte
1
, t ∈ [a, b]
b−a
φ(t) :=
0 sonst
definierte Wahrscheinlichkeitsverteilung auf IR heißt Gleichverteilung zwischen a und
b.
Man überzeuge sich, dass für jedes Teilintervall [c, d] ⊂ [a, b]
d−c
P([c, d]) =
b−a
gilt. Insbesondere erhalten gleichlange Teilintervalle von [a, b] die gleiche Wahrscheinlichkeit zugeordnet.
160
3.0
Gleichverteilungen (Dichten)
1.5
1.0
0.5
0.0
y1
2.0
2.5
a=0 und b=1
a=2 und b=2.5
161
−1
0
1
2
x
3
4
Mit den R-Funktionen dunif und punif können Werte der Dichte- bzw. Verteilungsfunktion der Gleichverteilung berechnet werden.
> punif(2.1,min=2,max=2.5)
[1] 0.2
> dunif(2.1,min=2,max=2.5)
[1] 2
162
Bemerkung: Die Werte von Wahrscheinlichkeitsdichten sind keine Wahrscheinlichkeiten! Für eine stetige Verteilung ist die Wahrscheinlichkeit einer einzelnen reellen
Zahl a ∈ IR stets
Z a
P(a) =
φ(t) dt = 0
a
und nicht φ(a).
Bemerkung: Da die Werte von Wahrscheinlichkeitsdichten keine Wahrscheinlichkeiten sind, müssen sie auch nicht auf [0, 1] beschränkt sein. Wahrscheinlichkeitsdichten können beliebige Werte ≥ 0 annehmen. Es gibt sogar Wahrscheinlichkeitsdichten, die nicht beschränkt sind! Jede nicht negative integrierbare Funktion, die die
Normierungsbedingung erfüllt, ist erlaubt.
163
2.4.3.5 Die χ2-Verteilung mit einem Freiheitsgrad
Eine für die Praxis wichtige Verteilung mit unbeschränkter Dichte ist die χ2-Verteilung
mit einem Freiheitsgrad. Ihre Bedeutung für statistische Tests werden wir später kennenlernen.
0.0
0.5
1.0
1.5
Dichte der Chiquadratverteilung
mit 1 Freiheitsgrad
−1
0
1
2
x
3
4
(
φ(t) =
−t/2
√1 e √
t
2π
t>0
.
0 sonst
164
2.4.3.6 Die Familie der t-Verteilungen
Für jede positive ganze Zahl ν wird durch die Wahrscheinlichkeitsdichte
− ν+1
ν+1 2
2
Γ( 2 )
t
fν (t) = √
,
ν) 1 + ν
νπΓ( 2
t ∈ IR
die t-Verteilung mit ν Freiheitsgraden definiert. Hier bezeichnet Γ die Gammafunktion.
In R sind die Wahrscheinlichkeitsdichten der t-Verteilung in dt und die (kumulative) Wahrscheinlichkeitsverteilung der t-Verteilung in pt implementiert. Die Umkehrfunktion von pt erhält man durch qt und den Zufallszahlengenerator durch rt. Die
Freiheitsgrade ν müssen immer über das Argument df angegeben werden.
165
0.0
0.1
0.2
0.3
0.4
ν=1
ν=5
ν = 20
ν = ∞ (=N(0, 1))
166
−6
−4
−2
0
t
2
4
6
2.4.3.7 Die Exponentialverteilung
Sei λ > 0. Die durch die Wahrscheinlichkeitsdichte
λe−λt t ≥ 0
fλ(t) =
0 t<0
definierte Verteilung heiß Exponentialverteilung mit Parameter λ.
Man kann zeigen, dass die Zeit T , die bis zum ersten Eintreffen eines bestimmet Ereignisses verstreicht, unter bestimmen idealisierten Bedingungen exponentialverteilt
ist.
167
2.4.4 Zusammenfassung
1. Endliche Wahrscheinlichkeitsräume
(a) Laplaceraum Ω mit n Elementen. Jede Elementarwahrscheinlichkeit ist
gleich groß = 1/|Ω|.
(b) Binomialverteilung mit n Wiederholungen und Trefferwahrscheinlichkeit p.
Wahrscheinlichkeitsraum Ω = {0, . . . , n} mit
n
P(k) = b(n, p, k) =
pk (1 − p)n−k , k = 0, . . . , n.
k
168
2. Verteilungen auf abzählbar unendlichen Mengen
(a) Poissonverteilung mit Parameter λ. Ω = IN 0 und die Elementarwahrscheinlichkeiten sind durch
λk
−λ
p(λ, k) = e
, k = 0, 1, . . .
k!
gegeben.
(b) Geometrische Verteilung mit Trefferwahrscheinlichkeit p. Ω = IN und die
Elementarwahrscheinlichkeiten sind durch
g(k) = (1 − p)k−1p, k = 1, 2, . . .
gegeben.
169
3. Stetige Verteilungen auf IR.
(a) Normalverteilung mit Erwartungswert µ und Varianz σ 2. Die Verteilung ist
über ihre Dichte
φ(t) = √
1
2πσ 2
t−µ 2
1
−2 σ
e
definiert.
(b) Gleichverteilung auf [a, b]. Die Dichte der Gleichverteilung ist
1
, t ∈ [a, b]
b−a
.
φ(t) :=
0 sonst
(c) χ2 Verteilung mit einem Freiheitsgrad
(
φ(t) =
−t/2
√1 e √
t
2π
t>0
0 sonst
170
(d) t-Verteilung mit ν Freiheitsgraden
− ν+1
ν+1 2
2
Γ( 2 )
t
fν (t) = √
,
ν) 1 + ν
νπΓ( 2
(e) Exponentialverteilung mit Parameter λ
λe−λt t ≥ 0
fλ(t) =
0 t<0
t ∈ IR
Vorlesung 7.12.2016
171
2.5 Zufallsvariable, Erwartungswert, Varianz und Unabhängigkeit von Zufallsvariablen
172
2.5.1 Zufallsvariablen
Definition: Eine (reelle) Zufallsvariable X ist eine Abbildung von einem Wahrscheinlichkeitsraum Ω in die reellen Zahlen IR.
X : Ω −→ IR.
Beispiel: Sei
Ω = {1, 2, 3, 4, 5, 6} × {1, 2, 3, 4, 5, 6}
mit
P((i, j)) = 1/36
der Wahrscheinlichkeitsraum, der das Zufallsexperiment des zweimaligen Würfelns
mit einem fairen Würfel beschreibt.
X((i, j)) = i + j
sei die Zufallsvariable, die die Summe der Augenzahlen beider Würfe angibt.
173
2.5.2 Erwartungswert und Varianz
Definition: Der Erwartungswert E(X) einer reellen Zufallsvariable X auf einem
Wahrscheinlichkeitsraum Ω ist folgendermaßen definiert:
a) Ω ist ein diskreter (=endlicher oder abzählbar unendlicher) Wahrscheinlichkeitsraum.
X
E(X) =
X(ω)P(ω)
ω∈Ω
b) Ω = IR ist ein stetiger Wahrscheinlichkeitsraum mit Wahrscheinlichkeitsdichte
φ.
Z ∞
E(X) =
X(t)φ(t) dt
−∞
174
Definition: Sei X eine Zufallsvariable auf einem Wahrscheinlichkeitsraum Ω, für die
der Erwartungswert E(X) existiert. Die Varianz Var(X) von X ist folgendermaßen
definiert:
1. Ω ist ein diskreter (=endlicher oder abzählbar unendlicher) Wahrscheinlichkeitsraum.
X
(X(ω) − E(X))2P(ω)
Var(X) =
ω∈Ω
2. Ω = IR ist ein stetiger Wahrscheinlichkeitsraum mit Wahrscheinlichkeitsdichte
φ.
Z ∞
Var(X) =
(X(t) − E(X))2φ(t) dt
−∞
175
Bemerkung: Erwartungswert und Varianz müssen nicht für jede Zufallsvariable X
existieren. Der Erwartungswert existiert nur, wenn die Summe bzw. das Integral in
der Definition konvergiert bzw. existiert.
Entsprechend existiert die Varianz einer Zufallsvariable nur dann, wenn ihr Erwartungswert existiert und wenn die Summe bzw. das Integral in der Definition konvergiert bzw. existiert.
176
Für viele wichtige Verteilungen wie z.B. die Binomialverteilung, Poissonverteilung,
geometrische Verteilung, Gleich- und Normalverteilung gilt Ω ⊂ IR.
In diesem Fall ist die identische Abbildungen X
X : Ω −→ IR
x 7−→ x
eine wichtige Zufallsvariable. Man sagt dann, dass X gemäß der Verteilung von Ω
verteilt ist.
177
Beispiel: Spricht man beispielsweise von einer poissonverteilten Zufallsvariable X mit
Parameter λ, dann versteht man darunter die Abbildung
X : Ω −→ IR
k 7−→ k,
wobei Ω = IN 0 der diskrete Wahrscheinlichkeitsraum mit den Elementarwahrk
scheinlichkeiten p(λ, k) = e−λ λk! ist.
178
Erwartungswert und Varianz sind dann
E(X) =
∞
X
k=0
λ
ke−λ
k
k!
und
Var(X) =
∞
X
k=0
λk
2
−λ
.
(k − E(X)) e
k!
Man kann zeigen, dass beide Summen λ sind. Der Parameter λ ist deshalb sowohl
Erwartungswert als auch Varianz der Poissonverteilung.
Definition: Unter Erwartungswert und Varianz einer Wahrscheinlichkeitsverteilung
auf Ω ⊂ IR versteht man Erwartungswert und Varianz der identischen Abbildung
von Ω nach IR.
179
Bemerkung: Der Begriff Varianz tauchte auch schon im Zusammenhang mit der
Beschreibung von Stichproben auf. Was ist der Zusammenhang von Stichprobenvarianz und arithmetischer Mittelwert mit Erwartungswert und Varianz von Wahrscheinlichkeitsverteilungen? Zunächst handelt es sich um unterschiedliche Begriffe.
Der Bezug zwischen beiden wird durch das Gesetz der großen Zahlen hergestellt: In
einer großen Stichprobe mit n unabhängigen Elementen wird der Mittelwert nahe am
Erwartungswert und die Varianz der Stichprobe nahe an der Varianz der zugrunde
liegenden Verteilung liegen. Für n → ∞ ist der arithmentische Mittelwert exakt
der Erwartungswert und die Stichprobenvarianz exakt die Varianz der Verteilung. Da
aber immer endliche Stichproben vorliegen, sind Stichprobenvarianz und arithmetischer Mittelwert mehr oder wenig gute Schätzer für Erwartungswert und Varianz der
zugrunde liegenden Verteilung.
180
2.5.3 Unabhängigkeit von Zufallsvariablen
Definition: Zwei Zufallsvariablen X und Y , die auf dem gleichen diskreten Wahrscheinlichkeitsraum Ω definiert sind, heißen unabhängig, wenn für alle x1, x2 ∈ IR
die Mengen (Ereignisse) X −1(x1) und Y −1(x2) unabhängig sind.
Bemerkung: Auch für Zufallsvariablen auf stetigen Warscheinlichkeitsräumen kann
der Begriff der unabhängigen Zufallsvariablen definiert werden. Dazu benötigt man
aber Grundbegriffe der mehrdimensionalen Integrationsrechnung, die den Rahmen
dieser Vorlesung sprengen würden.
181
Beispiel: Sei
Ω = {1, 2, 3, 4, 5, 6} × {1, 2, 3, 4, 5, 6}
mit
P((i, j)) = 1/36
der Wahrscheinlichkeitsraum (Laplaceraum), der das Zufallsexperiment des zweimaligen Würfelns mit einem fairen Würfel beschreibt. Dann sind die Zufallsvariablen
X : Ω −→ IR
(ω1, ω2)
7→
ω1
und
Y : Ω −→ IR
(ω1, ω2)
7→
ω2
unabhängig.
182
Sei Z die Zufallsvariable mit
Z : Ω −→ IR
(ω1, ω2)
7→
ω1 + ω2,
dann ist Z weder von X noch von Y unabhängig. Wählt man x1 = 1 und x2 = 2,
dann gilt
X −1(x1) = {(1, 1), . . . , (1, 6)}
und
Z −1(x2) = {(1, 1)}.
Die Ereignisse {(1, 1), . . . , (1, 6)} und {(1, 1)} sind aber nicht unabhängig, da
aus {(1, 1)} das Ereignis {(1, 1), . . . , (1, 6)} folgt.
183
Bemerkung: Die Unabhängigkeit von Zufallsvariablen wird oft nicht bewiesen, sondern vorausgesetzt.
Werden beispielsweise Messungen an unabhängigen statistischen Einheiten (z.B. Personen, Probanden, Patienten, Zellkulturen,...) durchgeführt, dann werden die Messergebnisse X1, . . . , Xn in der Regel als unabhängige Zufallsvariablen angesehen.
Die Unabhängigkeit folgt dann nicht aus der Mathematik, sondern sie wird aus der
Versuchsanlage plausibel.
Das Experiment (Studie) muss so durchgeführt werden, dass sich die Versuche an
den einzelnen statistischen Einheiten nicht gegenseitig beeinflussen können.
184
2.5.4 Wichtige Rechenregeln für Erwartungswert und Varianz
Seien X und Y zwei Zufallsvariablen, deren Erwartungswerte existieren.
1. E(X + Y ) = E(X) + E(Y )
2. E(aX) = aE(X) für a ∈ IR
3. Var(aX) = a2Var(X) für a ∈ IR
4. Var(X) = E(X 2) − E(X)2
185
5. Sind X und Y unabhängig, dann gilt
E(XY ) = E(X)E(Y )
und
Var(X + Y ) = Var(X) + Var(Y ).
6. Für die konstante Zufallsvariable X = a (a ∈ IR) gilt:
E(X) = E(a) = a
und
Var(X) = Var(a) = 0.
186
Vorlesung 14.12.2016
187
2.5.5 Erwartungswert und Varianz einiger wichtiger Verteilungen
1. Die Binomialverteilung auf Ω = {0, 1, . . . , n} mit Trefferwahrscheinlichkeit
p hat
(a) Erwartungswert np
(b) Varianz np(1 − p)
2. Die Poissonverteilung auf Ω = IN 0 mit Parameter λ > 0 hat
(a) Erwartungswert λ
(b) Varianz λ
188
3. Die geometrische Verteilung auf Ω = IN mit Trefferwahrscheinlichkeit p > 0
hat
(a) Erwartungswert 1/p
(b) Varianz 1−p
2
p
4. Die Normalverteilung mit Dichte φ(t) = √ 1
2πσ 2
t−µ 2
1
−2 σ
e
hat
(a) Erwartungswert µ
(b) Varianz σ 2
189
5. Die Gleichverteilung auf (a, b) hat
(a) Erwartungswert (a + b)/2
(b) Varianz (b − a)2/12
190
2.5.6 Die standardisierte Zufallsvariable
Sei X eine Zufallsvariable, für die Erwartungswert und Varianz existieren, dann heißt
X − E(X)
Z= p
Var(X)
p
die standardisierte Zufallsvariable für X. Der Nenner Var(X) heißt die Standardabweichung von X und wird oft mit σ(X) bezeichnet.
Aufgabe: Zeige, dass die standardisierte Zufallsvariable Z von X Erwartungswert 0
und Varianz 1 hat.
191
3. Der statistische Hypothesentest
3.1 Der Binomialtests
3.1.1 Wann ist eine Münze fair?
In der Wahrscheinlichkeitsrechnung nimmt man bestimmte Verteilungen als gegeben
an und benutzt sie, um Voraussagen über die Wahrscheinlichkeit von Ereignissen zu
treffen.
Beispiel: Wird eine faire Münze n mal unabhängig geworfen und sei X die Anzahl
der Würfe mit “Kopf“, dann ist X binomialverteilt mit n Versuchswiederholungen
und Trefferwahrscheinlichkeit 1/2 (X ∼ B(n, p)). Unter diesen Modellannahmen
kann nun beispielsweise ausgerechnet werden, wie groß die Wahrscheinlichkeit ist,
dass X in einem bestimmten vorgegebenen Bereich liegt.
192
>
>
>
>
n <- 100
k1 <- 40
k2 <- 60
pbinom(k2,n,0.5)-pbinom(k1-1,n,0.5)
[1] 0.9647998
ist die Wahrscheinlichkeit, dass eine 100 mal geworfene faire Münze zwischen 40 und
60 mal Kopf zeigt.
193
In der schließenden Statistik wird nun die Fragerichtung umgekehrt. Eine typisches
Problem wäre folgende Fragestellung:
Eine Münze wurde n = 100 mal geworfen und es wurde k = 30 mal Kopf
beobachtet. Ist die Münze eine faire Münze (p = 1/2)? Was kann über die Trefferwahrscheinlichkeit p ausgesagt werden?
194
Zunächst ist klar, dass aus der Beobachtung k = 30 vom logischen Standpunkt aus
nichts über p ausgesagt werden kann. Für jedes 0 < p < 1 sind alle k = 0, . . . , n
mögliche Ergebnisse des Münzwurfexperiments.
Trotzdem ist es recht unwahrscheinlich, dass z.B. bei 100 Würfen kein einziges mal
Kopf erscheint, wenn die Münze fair ist (p = 1/2). Die Wahrscheinlichkeit für
dieses Ereignis kann sogar leicht zu
> (1/2)^100
[1] 7.888609e-31
berechnet werden. Da sie so klein ist, erscheint es vernünftig, nach einem solch
extremen Versuchsausgang (k = 100) nicht mehr zu glauben, dass die Münze fair
(p = 1/2) ist.
195
Wie schaut die Situation bei k = 30 aus? Wird man auch bei k = 30 nicht
mehr an p = 1/2 glauben? Um diese Frage zu beantworten, ist es sinnvoll, sich
die Binomialverteilung B(100, 1/2) graphisch darzustellen:
196
0.00
0.02
0.04
0.06
Wahrscheinlichkeit
0.08
B(100,0.5)
197
0
20
40
60
k
80
100
Auch k = 30 liegt in einem Bereich, der wenn p = 1/2 gilt (faire Münze), mit
einer sehr geringen Wahrscheinlichkeit angenommen wird. Die Wahrscheinlichkeit
P(X ≤ 30) beträgt
> pbinom(30,100,0.5)
[1] 3.92507e-05
Auch hier wird man wohl nicht mehr glauben, dass p = 1/2 gilt.
Wie oft darf Kopf höchstens auftreten, dass man sich gegen die Annahme p = 1/2
entscheidet?
198
Es ist also nach einer Entscheidungsregel gefragt. Jedem Versuchsausgang (=Anzahl
k = 0, . . . , n) soll nach einer vor dem Versuch festgelegten Regel entschieden
werden, ob man p = 1/2 (statistisch) ausschließt oder nicht.
Diese Entscheidungsregel wird durch Festlegung eines Ablehnungsbereichs, auch kritischer Bereich genannt, definiert:
199
Vorgehensweise bei der Festlegung eines Ablehnungsbereichs für p = 1/2 (faire
Münze):
1. Zunächst wird der Bereich identifiziert, der nur mit einer geringen Wahrscheinlichkeit angenommen wird, wenn p = 1/2 wahr ist. Hier sind das offensichtlich
die kleinen Werte für k, also k = 0, 1, 2, . . . und die großen Werte für k, also
k = n, n − 1, . . .. Fällt k in den Bereich nahe um den Erwartungswert n/2,
wird man p = 1/2 nicht ausschließen können. Der Ablehnungsbereich ist also
A = {0, . . . , K1} ∪ {K2, . . . , n}
mit noch zu bestimmenden K1 und K2.
2. Um K1 und K2 ausrechnen zu können, muss angegeben werden, welche Wahrscheinlichkeiten als “klein“ angesehen werden. Man gibt sich dafür eine Zahl
0 < α < 1 vor. Wahrscheinlichkeiten < α gelten dann als klein.
200
3. K1 und K2 werden so bestimmt, dass für X ∼ B(n, 1/2)
P(X ≤ K1) ≤ α/2 und P(X ≤ K1 + 1) > α/2
und
P(X ≥ K2) ≤ α/2 und P(X ≤ K2 − 1) > α/2
gilt.
201
4. Für α = 0.05 erhält man wegen
> pbinom(39,100,0.5); pbinom(40,100,0.5)
[1] 0.0176001
[1] 0.02844397
K1 = 39 und wegen
> 1-pbinom(60,100,0.5); 1-pbinom(59,100,0.5)
[1] 0.0176001
[1] 0.02844397
K2 = 61.
202
5. Der Ablehnungsbereich ist somit
A = {0, 1, . . . , 39} ∪ {61, 62, . . . , 100}.
Immer wenn die Anzahl von “Kopf“ in A liegt, wird man nicht mehr glauben,
dass die Münze fair ist. Liegt dagegen k in
{40, 41, . . . , 60},
dann wird man sagen, dass das Versuchsergebnis nicht gegen die Annahme
p = 1/2 spricht. Es wird weiter für möglich gehalten, dass die Münze fair ist.
203
k ≥ 61
0.02
0.04
k ≤ 39
0.00
Wahrscheinlichkeit
0.06
0.08
Ablehnungsbereich
204
0
20
40
60
Anzahl Kopf
α = 0.05
80
100
Der Ablehnungsbereich hängt von der Wahl für α ab. Für α = 0.001 erhält man
beispielsweise mit K1 = 33 und K2 = 67 einen kleineren Ablehnungsbereich als
für α = 0.05.
Je kleiner α gewählt wird, desto extremer muss der Versuchsausgang sein, um sich
gegen p = 1/2 entscheiden zu können.
205
3.1.2 Der zweiseitige Binomialtest
Diese Entscheidungsregel kann zum zweiseitigen Binomialtest verallgemeinert werden:
Definition (Binomialtest, zweiseitig): Sei X ∼ B(n, p) eine binomial verteilte Zufallsvariable mit n unabhängigen Versuchswiederholungen und Trefferwahrscheinlichkeit p. Für den zweiseitigen Binomialtest werden folgende Schritte durchgeführt:
206
1. Schritt: Wahl eines p0 ∈ (0, 1) und Aufstellen der Nullhypothese
H 0 : p = p0 .
Die Nullhypothese ist eine Annahme über die Trefferwahrscheinlichkeit p. Im
Beispiel (ist die Münze fair?) wurde angenommen, dass die Münze fair war, d.h.
p0 = 1/2 gilt. Die Nullhypothese lautet in diesem Fall H0 : p = 1/2. In
der Regel wird die Nullhypothese mit H0 bezeichnet.
Warnung! Wir behaupten weder, dass die Nullhypothese wahr, noch dass sie
falsch ist. Sie ist vielmehr der Ausgangspunkt eines Gedankenexperiments.
2. Schritt: Festlegung eines Signifikanzniveaus α. Im Prinzip ist jede Zahl zwischen 0 und
1 eine zulässige Wahl für α. Sinnvoll sind allerdings nur kleine Werte für α.
Üblich ist α = 0.1, 0.05, 0.01 und 0.001. In der medizinischen Forschung
ist α = 0.05 die Standardwahl für das Signifikanzniveau.
207
3. Schritt: Berechnung der Grenzen K1 und K2 des zweiseitigen Ablehnungsbereichs
A = {0, 1, . . . , K1} ∪ {K2, . . . , n}.
Für die Berechnung von K1 und K2 wird nun angenommen, dass die Nullhypothese H0 wahr ist, d.h. X ∼ B(n, p0). Unter dieser Annahme werden K1
und K2 so bestimmt, dass X höchstens mit Wahrscheinlichkeit α Werte in A
annimmt und dass A möglichst groß ist:
P(X ≤ K1) ≤ α/2 und P(X ≤ K1 + 1) > α/2
und
P(X ≥ K2) ≤ α/2 und P(X ≤ K2 − 1) > α/2
gelten.
208
4. Schritt: Prüfe, ob X (genauer, die Realisierung von X) im Ablehnungsbereich liegt. Gilt
X ∈ A wird die Nullhypothese abgelehnt. Man sagt auch, dass H0 statistisch
widerlegt oder ausgeschlossen wurde.
Gilt X ∈
/ A, dann behält man die Nullhypothese bei. Man sagt auch, dass die
H0 mit den Daten verträglich ist.
Warnung: Kann die H0 nicht abgelehnt werden, dürfen wir nicht behaupten,
dass die H0 statistisch bewiesen sei. Ob H0 wahr oder falsch ist, bleibt dann
weiterhin offen.
209
3.1.3 Der P-Wert des zweiseitigen Binomialtests
Wir haben gesehen, dass die Aussage “H0 wird abgelehnt“ immer nur im Zusammenhang mit der Angabe des Signifikanzniveaus α sinnvoll ist. Beispielsweise würde
ein Versuchsausgang k = 34 mal “Kopf“ auf dem Niveau α = 0.05 zu einer
Ablehnung der H0 : p = 1/2 führen, auf dem Niveau α = 0.001 muss jedoch
H0 beibehalten werden.
Für die Vorgabe von α gibt es keine mathematisch-statistisch begründbare Regel.
Der oft verwendete Wert α = 0.05 ist nur eine übliche Konvention.
210
Deshalb ist es sinnvoll, den statistischen Test unabhängig von der Vorgabe eines
speziellen α-Niveaus zu machen. Das führt zum Begriff des P-Werts.
Definition: Der P-Wert ist das kleinste Signifikanzniveau, auf dem die Nullhypothese
abgelehnt werden kann.
Zur Bestimmung des P-Werts muss also neben der Nullhypothese und dem Hypothesentest auch das Versuchsergebnis bekannt sein.
211
Beispiel: H0 : p = 1/2 kann mit dem Versuchsausgang k = 34 mal “Kopf“ auf
dem Niveau α = 0.05 abgelehnt werden, auf dem Niveau α = 0.001 jedoch
nicht mehr. Der P-Wert für k = 34 muss also zwischen 0.001 und 0.05 liegen.
Das kleinste Signifikanzniveau, auf dem die Nullhypothese bei k = 34 gerade noch
abgelehnt werden kann, beträgt
α = 2P(X ≤ 34) für X ∼ B(100, 1/2).
> 2*pbinom(34,100,1/2)
[1] 0.00178993
212
Berechnet man für dieses α = 0.00178993 den Ablehnungsbereich A, dann
ist die linke Seite von A genau die Menge {0, 1, . . . , 34}. Bei jedem kleineren
Signifikanzniveau würde k = 34 schon nicht mehr zum Ablehnungsbereich gehören.
213
Erhält man eine Anzahl “Kopf“ k, die zu einer Ablehnung der H0 : p = 1/2 führt,
weil k im rechten Teil des Ablehnungsbereichs liegt (große k), dann muss der P-Wert
auf
2P(X ≥ k) für X ∼ B(100, 1/2)
gesetzt werden, da das die kleinste Wahl für das Signifikanzniveau ist, für die k
noch im rechten Teil des Ablehnungsbereichs liegt. Eine geschlossene Formel für den
P-Wert des zweiseitigen Binomialtests lautet:
214
P-Wert (zweiseitiger Binomialtest): Sei k die Realisierung (Versuchsausgang) einer
binomial verteilten Zufallsvariable X ∼ B(n, p) und H0 : p = p0 die zweiseitige
Nullhypothese für ein p0 ∈ (0, 1). Der P-Wert P ist dann
P = min{2P(X ≤ k), 2P(X ≥ k)},
wobei angenommen wird, dass die H0 wahr ist, also X ∼ B(n, p0) gilt.
215
In R kann diese Definition folgendermaßen umgesetzt werden:
>
>
>
>
>
n <- 100
p0 <- 0.5
k <- 33
P <- min(c(2*pbinom(k,n,p0), 2*(1-pbinom(k-1,n,p0))))
P
[1] 0.0008737198
216
Der Binomialtest ist in R in der Funktion binom.test implementiert:
> binom.test(k,n,p0)
Exact binomial test
data: k and n
number of successes = 33, number of trials = 100, p-value = 0.0008737
alternative hypothesis: true probability of success is not equal to 0.5
95 percent confidence interval:
0.2391985 0.4311728
sample estimates:
probability of success
0.33
217
Aus der Definition des P-Werts folgt:
Sei P der P-Wert eines Hypothesentests für einen Versuchsausgang. Die Nullhypothese kann genau dann auf dem Niveau α abgelehnt werden, wenn
P ≤α
gilt.
In der Praxis wird man daher zunächst P-Werte berechnen und dann erst durch einen
einfachen Vergleich mit dem Signifikanzniveau feststellen, ob ein auf α signifikantes
Resultat vorliegt oder nicht. Die Berechnung von P-Werten ermöglicht auch eine
nachträgliche Veränderung des Signifikanzniveaus ohne nochmaliges Durchführen
des statistischen Tests.
218
Vorlesung 4.1.2017
219
3.1.4 Der einseitige Binomialtest
Beispiel: Es werden n Patienten mit einem neuen Heilmittel behandelt. Die Heilwahrscheinlichkeit für jeden Patienten sei p und man nehme an, dass der Heilerfolg
bei den einzelnen Patienten unabhängig ist. Unter diesen Voraussetzungen ist die
Anzahl der Heilungen X ∼ B(n, p) binomialverteilt mit n Wiederholungen und
Heilwahrscheinlichkeit p.
Die Spontanheilungsrate sei p0. Aus biologisch-medizinischen Gründen kann ausgeschlossen werden, dass das neue Medikament die Heilungswahrscheinlichkeit verschlechtert. Die Nullhypothese soll deshalb nur abgelehnt werden, wenn besonders
viele Heilungen beobachtet werden. Man wird dann auf den unteren Teil des Ablehnungsbereichs verzichten.
220
Definition (einseitiger Binomialtest): Sei X ∼ B(n, p) eine binomial verteilte Zufallsvariable. Sei weiter
H0 : p ≤ p 0
die einseitige Nullhypothese, die genau dann auf dem Niveau α ∈ (0, 1) abgelehnt
wird, wenn X ≥ K gilt. K wird so bestimmt, dass
P(X ≥ K) ≤ α und P(X ≥ K − 1) > α
unter der Voraussetzung X ∼ B(n, p0) gilt.
221
Im Gegensatz zum zweiseitigen Testen wird die H0 nur abgelehnt, wenn besonders viele Heilungen beobachtet werden. Beliebig wenig Heilungen sind mit der
H0 : p ≤ p0 immer verträglich.
Beispiel: Für n = 100, H0 : p ≤ 0.5 und α = 0.05 ist K = 59:
> 1-pbinom(58,100,0.5); 1-pbinom(57,100,0.5)
[1] 0.04431304
[1] 0.06660531
Der Ablehnungsbereich ist daher
A = {59, 60, . . . , 100}
222
0.04
0.02
k ≥ 59
0.00
y
0.06
0.08
B (0.5, 100)
223
0
20
40
60
x
80
100
Hinweis: Obwohl die Nullhypothese für den einseitigen Test H0 : p ≤ p0 lautet,
wird für die Berechnung des Ablehnungsbereichs A nur der Fall p = p0 angenommen. Das ist deshalb sinnvoll, da für alle p < p0 die Wahrscheinlichkeit für X ∈ A
kleiner als für p = p0 ist. Kann p = p0 abgelehnt werden, dann kann auch p < p0
abgelehnt werden.
Hinweis: Es gibt auch den einseitigen Test für die Nullhypothese
H0 : p ≥ p 0 .
Diese Nullhypothese wird abgelehnt, wenn X ≤ K gilt. Für ein Signifikanzniveau
α ∈ (0, 1) wird dann K so bestimmt, dass
P(X ≤ K) ≤ α und P(X ≤ K + 1) > α
gilt.
224
Genauso wie für den zweiseitigen Test kann auch für die einseitigen Tests ein P-Wert
berechnet werden. Wieder überlegt man sich, wie klein das Signifikanzniveau gewählt
werden darf, so dass man die H0 gerade noch ablehnen darf.
P-Wert (Binomialtest): Sei X ∼ B(n, p) und p0 ∈ (0, 1). Für das Versuchsergebnis X = k ergeben sich folgende P-Werte:
1. H0 : p = p0 (zweiseitiger Test):
P = min{2P(X ≤ k), 2P(X ≥ k)},
X ∼ B(n, p0)
2. H0 : p ≤ p0 (einseitiger Test): P = P(X ≥ k),
X ∼ B(n, p0)
3. H0 : p ≥ p0 (einseitiger Test): P = P(X ≤ k),
X ∼ B(n, p0)
225
In R könne mit der Funktion binom.test sowohl P-Werte für zwei, als auch einseitige Tests berechnet werden:
226
> n <- 100; p0 <- 0.5; k <- 60
> binom.test(k,n,p0,alternative="greater")
Exact binomial test
data: k and n
number of successes = 60, number of trials = 100, p-value = 0.02844
alternative hypothesis: true probability of success is greater than 0.5
95 percent confidence interval:
0.5129758 1.0000000
sample estimates:
probability of success
0.6
227
> binom.test(k,n,p0,alternative="less")
Exact binomial test
data: k and n
number of successes = 60, number of trials = 100, p-value = 0.9824
alternative hypothesis: true probability of success is less than 0.5
95 percent confidence interval:
0.000000 0.682474
sample estimates:
probability of success
0.6
228
3.1.5 Die Power des Binomialtests
Der statistische Test ist so konstruiert, dass wenn die Nullhypothese wahr ist, sie
nur mit einer (kleinen) Wahrscheinlichkeit ≤ α fälschlicherweise abgelehnt wird.
Allerdings ist es umgekehrt wünschenswert, dass H0 abgelehnt wird, wenn sie falsch
ist. Nur in diesem Fall hat man einen Effekt statistisch nachgewiesen.
Das führt zur Definition des Begriffs der statistischen Power:
229
Definition (Power des Binomialtests): Die Power 1 − β des Binomialtests ist die
Wahrscheinlichkeit, eine falsche H0 abzulehnen. Genauer: Sei X ∼ B(n, p) eine
binomial verteilte Zufallsvariable, H0 : p = p0, H0 : p ≤ p0 oder H0 : p ≥ p0
die Nullhypothese für zwei- bzw. einseitiges Testen. Sei weiter α das Signifikanzniveau, auf dem getestet werden soll und A der zu H0 und α gehörige Ablehnungsbereich. Die Power 1 − β des Binomialtests ist dann die Wahrscheinlichkeit, dass
X Werte in A annimmt unter der Bedingung, dass H0 nicht wahr ist:
Power = 1 − β = P(X ∈ A) mit X ∼ B(n, p).
230
Die Power ist umso größer, je mehr sich p vom p0 der Nullhypothese unterscheidet.
Für eine konkrete Berechnung der Power muss eine spezielle Alternative H1 : p =
p1 zur H0 angenommen werden. Ohne Formulierung einer speziellen Alternative
bleibt die Power des Tests unbestimmt.
Die Berechnung der Power erfolgt in drei Schritten:
231
1. Aufstellen der Nullhypothese und Wahl des Signifikanzniveaus.
2. Berechnung des Ablehnungsbereichs A
3. Bestimmung von
1 − β = P(X ∈ A)
für X ∼ B(n, p), wobei p = p1 für ein spezielles p1 angenommen wird
(spezielle Alternative).
232
Beispiel: Sei X ∼ B(n, p) mit n = 100, α = 0.025 und H0 : p ≤ 0.2. Die
Grenze des Ablehnungsbereichs ist:
> K <- qbinom(0.975,100,0.2) +1
> K
[1] 29
233
Die Nullhypothese wird abgelehnt, wenn X ≥ 29 gilt. Die Wahrscheinlichkeit für
eine Ablehnung im Falle p = 0.3 ist in den Ablehnungsbereich hinein verschoben.
p = 0.3
0.00
0.00
0.02
0.02
0.04
0.04
0.06
0.06
0.08
0.08
0.10
p = 0.2
0
20
40
60
X
80
100
0
20
40
60
80
100
X
234
Für eine spezielle Alternative p = 0.3 beträgt die Power dann
> 1 - pbinom(K-1,100,0.3)
[1] 0.6232218
Das heißt, ist die Trefferwahrscheinlichkeit in Wahrheit p = 0.3 statt p = 0.2,
dann wird man mit über 62% Wahrscheinlichkeit die Nullhypothese p ≤ 0.2 ablehnen können.
235
Die Power hängt von folgenden Parametern ab:
1. Signifikanzniveau α
2. Fallzahl n
3. Nullhypothese H0 (einseitig oder zweiseitig)
4. Alternative H1 (tatsächliche Trefferwahrscheinlichkeit p1)
236
1. Abhängigkeit der Power vom Signifikanzniveau.
H0 : p ≤ p0 = 0.2, n = 100 und spezielle Alternative H1 : p = p1 = 0.3:
0.08
Ablehnungsgrenzen:
α = 0.05
α = 0.01
α = 0.001
0.02
0.00
0.00
0.02
0.04
α = 0.05
α = 0.01
α = 0.001
0.06
Ablehnungsgrenzen:
0.04
0.06
0.08
0.10
p = 0.3
0.10
p = 0.2
0
20
40
60
X
80
100
0
20
40
60
80
100
X
237
2. Abhängigkeit der Power von der Fallzahl n.
H0 : p ≤ p0 = 0.2, spezielle Alternative H1 : p = p1 = 0.3 und α = 0.05:
n = 100:
0.08
0.06
0.06
0.08
0.10
p1 = 0.3
0.10
p0 = 0.2
0.02
0.04
Ablehnungsgrenze:
0.00
0.00
0.02
0.04
Ablehnungsgrenze:
0
20
40
60
X
80
100
0
20
40
60
80
100
X
238
n = 200:
0.08
0.06
0.06
0.08
0.10
p = 0.3
0.10
p = 0.2
0.02
0.04
Ablehnungsgrenze:
0.00
0.00
0.02
0.04
Ablehnungsgrenze:
0
50
100
X
150
200
0
50
100
150
200
X
239
Vorlesung 11.1.2017
240
3. Abhängigkeit der Power von der Art der Nullhypothese (einseitig oder zweiseitig):
α = 0.1, n = 100, p0 = 0.2 und p1 = 0.3:
0.08
Ablehnungsgrenzen:
einseitig
zweiseitig
0.02
0.00
0.00
0.02
0.04
einseitig
zweiseitig
0.06
Ablehnungsgrenzen:
0.04
0.06
0.08
0.10
p1 = 0.3
0.10
p0 = 0.2
0
20
40
60
X
80
100
0
20
40
60
80
100
X
241
4. Abhängigkeit der Power von der Alternative (p1).
H0 : p ≤ p0 = 0.2, spezielle Alternativen: H1 : p1 = 0.3, 0.5 und n = 100:
0.08
0.06
0.08
0.06
0.06
0.08
0.10
p = p1 = 0.5
0.10
p = p1 = 0.3
0.10
p = p0 = 0.2
0
20
40
60
X
80
100
0.02
0.04
Ablehnungsgrenze:
0.00
0.02
0.04
Ablehnungsgrenze:
0.00
0.00
0.02
0.04
Ablehnungsgrenze:
0
20
40
60
X
80
100
0
20
40
60
80
100
X
242
Die Abhängigkeit der Power von n, p1 und α kann auch graphisch in Liniendiagrammen dargestellt werden:
0.2
0.2
0.4
0.6
Power
0.4
Power
0.6
0.8
0.8
1.0
H0:p=0.5 (zweiseitig)
1.0
H0:p=0.3 (zweiseitig)
0.0
n=20
n=100
n=1000
0.0
0.2
0.4
0.6
p1
α = 0.05
0.8
1.0
n=20
n=100
n=1000
0.0
0.2
0.4
0.6
0.8
1.0
p1
α = 0.05
243
3.1.6 Fehler 1. und 2. Art
Die Power wird oft mit 1−β bezeichnet. β ist dann die Gegenwahrscheinlichkeit zur
Power, d.h. die Wahrscheinlichkeit, kein signifikantes Ergebnis zu erhalten, obwohl die
Nullhypothese falsch ist. β ist eine Wahrscheinlichkeit, einen Fehler zu begehen. Im
Gegensatz zum Fehler erster Art (= eine wahre H0 wird fälschlicherweise abgelehnt)
wird β als Fehlerwahrscheinlichkeit zweiter Art bezeichnet.
244
Über den Fehler erster bzw. zweiter Art kann man sich mit folgender Vierfeldertafel
einen Überblick verschaffen:
H0 wird abgelehnt
H0 wird nicht abgelehnt
H0 ist wahr
Fehler erster Art beschränkt durch α
kein Fehler
H0 ist falsch
Effekt wurde nachgewiesen
Fehler zweiter Art mit
Wahrscheinlichkeit β
245
3.1.7 Fallzahlplanung (Poweranalyse)
Der Fehler erster Art ist immer durch das Signifikanzniveau α beschränkt. Die Größe
der Fehlerwahrscheinlichkeit β hängt im Wesentlichen von der Größe des Signifikanzniveaus, des Effekts und der Fallzahl ab. In der Praxis liegen Effekt und Signifikanzniveau fest. Eine Beschränkung des Fehlers 2. Art geschieht deshalb in der Regel
durch Wahl einer hinreichend großen Fallzahl n.
246
Beispiel: Es soll der Verdacht statistisch getestet werden, dass ein Würfel “gezinkt“
ist. Man vermutet, dass die Sechs nicht mit der Wahrscheinlichkeit 1/6, sondern
mit der etwas größeren Wahrscheinlichkeit p1 = 1/5 auftritt. Trifft der Verdacht
zu, soll der Binomialtest eine minimale Power von 80% haben. Wie oft muss der
Würfel mindestens geworfen werden?
Lösung: Die Nullhypothese lautet H0 : p = 1/6 (=der Würfel ist fair). Sie soll
mit dem zweiseitigen Binomialtest auf dem Signifikanzniveau α = 0.05 getestet
werden. Gesucht ist die kleinste Anzahl n von Wurfwiederholungen, für die die Power
über 80% liegt.
Wir gehen in drei Schritten vor:
247
1. Wir berechnen für eine beliebige Anzahl n von Wurfwiederholungen die Grenzen
des zweiseitigen Ablehnungsbereichs. Dafür nehmen wir an, dass die Nullhypothese wahr ist:
>
>
>
>
>
alpha <- 0.05
p0 <- 1/6
n <- 1:2000
K1 <- qbinom(alpha/2,n,p0) - 1
K2 <- qbinom(1-alpha/2,n,p0) + 1
2. Nun wird angenommen, dass die spezielle Alternative H1 : p = 1/5 wahr
ist, und die Wahrscheinlichkeit berechnet, dass die Anzahl der Sechsen im zuvor
berechneten Ablehnungsbereich liegt.
> p1 <- 1/5
> Power <- pbinom(K1,n,p1) + (1-pbinom(K2-1,n,p1))
248
3. Wir haben für einen weiten Bereich von n (1 ≤ n ≤ 2000) die Power
berechnet. Das gesuchte n ist nun der kleinste Wert, für den die Power über
80% liegt.
> min(which(Power>=0.8))
[1] 1058
Der gesamte Verlauf der Power hat folgende Gestalt:
0.0
0.2
0.4
Power
0.6
0.8
1.0
> plot(x=n,y=Power, type="l", ylim=c(0,1),
+ xlab="Anzahl Würfe (n)")
> abline(h=0.8)
0
500
1000
1500
2000
Anzahl Würfe (n)
249
0.06
0.04
0.02
0.00
Power
0.08
0.10
Hinweis: Wie man an der Graphik erkennt, steigt die Power des Binomialtests im
Großen und Ganzen monoton an. Ein genauerer Blick, insbesondere auf kleine n,
zeigt, dass der Verlauf eher an eine Sägezahnkurve erinnert:
2
4
6
8
10
Anzahl Würfe (n)
250
Der Grund für dieses “Powerparadoxon“ liegt daran, dass die Binomialverteilung eine
diskrete Wahrscheinlichkeitsverteilung ist. Berechnen wir für n = 4 und n = 5 die
tatsächlichen Wahrscheinlichkeiten für einen Fehler erster Art, erhalten wir:
> pbinom(K1[4], 4, 1/6) + 1-pbinom(K2[4]-1, 4, 1/6)
[1] 0.0162037
> pbinom(K1[5], 5, 1/6) + 1-pbinom(K2[5]-1, 5, 1/6)
[1] 0.003343621
251
Das vorgeschriebene Signifikanzniveau von α = 0.05 kann nicht völlig ausgeschöpft
werden. Jede Vergrößerung des Ablehnungsbereichs würde schon eine Fehlerwahrscheinlichkeit erster Art von mehr als 5% mit sich bringen. Das vorgegebene Signifikanzniveau von α = 0.05 wird aber für n = 5 viel schlechter ausgeschöpft als für
n = 4 und man ist so gezwungen, bei n = 5 auf einem kleineren Signifikanzniveau
zu testen als bei n = 4. Das führ zu einem Absinken der Power, das durch die um
eins größere Fallzahl nicht vollständig kompensiert wird.
Bemerkung: Die Festlegung der Fallzahl (Poweranalyse) ist eine wichtiges Element
bei der Planung jeder Studie. Zu geringe Fallzahlen führen zu “unterpowerten“ Studien, die nicht in der Lage sind die oft kleinen Effekte signifikant nachzuweisen (=
die H0 abzulehnen).
Bei Studien mit Menschen (klinische Studien) in der medizinischen Forschung ist eine
biometrische Fallzahlplanung von der Ethikkommission zwingend vorgeschrieben.
252
3.1.8 Konfidenzintervalle für relative Häufigkeiten
Bisher wurde immer nur eine Nullhypothese wie z.B. H0 : p = p0 mit einem festen
p0 betrachtet. Nach Ablehnung von H0 durfte man behaupten, dass p 6= p0 ist.
Für die Praxis ist diese Aussage über p aber oft zu schwach. Es wäre wünschenswert,
wenn ein Bereich angegeben werden könnte, in dem p mit großer Wahrscheinlichkeit
liegt.
253
Einen solchen Bereich erhält man durch Variation von p0. Alle p0, für die die Nulhypothese H0 : p = p0 auf einem Niveau α nicht abgelehnt werden kann, werden
in diesem Bereich zusammengefasst.
Definition: Sei X ∼ B(n, p) eine binomial verteilte Zufallsvariable. Sei X = k die
Realisierung (Versuchsergebnis) von X. Das (1 − α)100% zweiseitige Konfidenzintervall für die relative Häufigkeit k/n ist die Menge aller p0 ∈ [0, 1], für die die
Nullhypothese H0 : p = p0 auf dem Signifikanzniveau α nicht abgelehnt werden
kann.
254
Beispiel: Bei einem Münzwurfexperiment erhält man von n = 100 unabhängigen
Würfe k = 55 mal “Kopf“. Es soll das zweiseitige 95% Konfidenzintervall angegeben
werden.
Die Grenzen pu und po des Konfidenzintervalls sind so charakterisiert, dass die
P-Werte des zweiseitigen Binomialtests der Nullhypothesen H0 : p = pu und
H0 : p = po genau 0.05 betragen. Durch systematisches Probieren erhält man
CI95% = (0.44728, 0.64968).
255
Probe:
> pbinom(55,100,0.64968); 1 - pbinom(54,100,0.44728)
[1] 0.02499971
[1] 0.02499978
256
Anhand des (1 − α)100% Konfidenzintervall kann sofort beurteilt werden, welche
Nullhypothesen der Form H0 : p = p0 mit dem zweiseitigen Binomialtest abgelehnt
werden können:
Die Nullhypothese H0 : p = p0 kann mit dem zweiseitigen Binomialtest genau
dann abgelehnt werden, wenn p0 außerhalb des (1 − α)100% Konfidenzintervalls
liegt.
Weitere Eigenschaften des Konfidenzintervalls sind:
257
1. Je größer n desto schmaler ist das (1 − α)100% Konfidenzintervall.
2. Je kleiner α desto breiter ist das Konfidenzintervall.
258
3.2 Der Z-Test
3.2.1 Die Standardnormalverteilung als Teststatistik
Bisher wurden nur binomial verteilte Zufallsvariablen getestet. Viele Experimente
haben aber stetig metrische Messwerte als Ergebnis. Oft können sie als normalverteilt
angenommen werden. Auch für diese Verteilungen gibt es statistische Tests. Der
einfachste ist der Z-Test.
Definition (Z-Test, 1. Version): Sei X eine normalverteilte Zufallsvariable mit bekannter Varianz σ 2 und Erwartungswert µ (X ∼ N (µ, σ 2)). Der zweiseitige
Z-Test ist ein Test der Nullhypothese
H 0 : µ = µ0 .
µ0 sei eine vorgegebene Zahl ∈ IR.
Der Test wird in drei Schritten durchgeführt:
259
1. Wahl von µ0 und des Signifikanzniveaus α.
2. Berechnung der Teststatistik
Z=
X − µ0
.
σ
3. Ablehnung der Nullhypothese H0 genau dann, wenn
|Z| ≥ z1−α/2 := Φ−1(1 − α/2).
Φ−1 sei die Umkehrfunktion der kumulierten Standardnormalverteilung Φ. z1−α/2 :=
Φ−1(1 − α/2) heißt das 1 − α/2 Perzentil der Standardnormalverteilung Φ. In
R kann man die Perzentile der Standardnormalverteilung mit der Funktion qnorm
(=Umkehrfunktion von pnorm) berechnen. Die Teststatistik Z ist die Standardisierung von X, wenn die Nullhypothese wahr ist.
260
Will man sich vor dem Test nicht auf ein bestimmtes Signifikanzniveau festlegen,
kann auch der P-Wert
P = 2 ∗ Φ(−|Z|)
berechnet werden. H0 darf dann auf dem Niveau α abgelehnt werden, genau dann,
wenn P ≤ α gilt.
Ganz ähnlich kann auch einseitig getestet werden. Die Nullhypothesen H0 : µ ≤ µ0
bzw. H0 : µ ≥ µ0 werden abgelehnt, wenn Z ≥ z1−α bzw. Z ≤ zα gilt. Die
einseitigen P-Werte werden durch P = 1 − Φ(Z) bzw. P = Φ(Z) berechnet.
261
0.1
0.2
0.3
0.4
Einseitiger Ablehnungsbereich für alpha=0.05
0.0
0.0
0.1
0.2
0.3
0.4
Zweiseitiger Ablehnungsbereich für alpha=0.05
−4
−2
0
Z
2
4
−4
−2
0
2
4
Z
262
Da die Varianz σ 2 in der Regel unbekannt ist, spielt der Z-Test in der Praxis eine
untergeordnete Rolle. Er kann aber im Zusammenhang mit dem Zentralen Grenzwertsatz angewandt werden. Viele Teststatistiken können für große Fallzahlen als
annähernd normalverteilt mit bekannter Varianz angenommen werden.
263
3.2.2 Der Zentrale Grenzwertsatz
Die Bedeutung der Normalverteilung für die Wahrscheinlichkeitsrechnung und Statistik ist zu einem wesentlichen Teil im zentralen Grenzwertsatz begründet.
Satz: Seien X1, X2, . . . (i=1,2,. . . ) unabhängige Zufallsvariablen, mit Erwartungswert µ und Varianz σ 2. Weiter nehme man an, dass die Xi (i = 1, 2, . . .) identisch
verteilt sind. Sei
n
X
Sn =
Xi
i=1
die Summenvariable und
264
Sn − nµ
Zn = √
nσ 2
die zugehörige standardisierte Zufallsvariable. Dann gilt für jedes x ∈ IR
lim P(Zn < x) = Φ(x)
n→∞
2
−t /2
mit Φ(x) = −∞ e√
dt die Verteilungsfunktion der Standardnormalverteilung.
2π
Rx
265
Bemerkung: Unter identisch verteilten Zufallsvariablen Xi (i = 1, 2, . . .) versteht
man Zufallsvariablen mit gleicher Verteilung. Z.B. könnten alle Xi poissonverteilt
mit einem gemeinsamen Parameter λ sein oder die Xi sind alle binomialverteilt mit
gleicher Anzahl der Versuchswiederholung n und Trefferwahrscheinlichkeit p. Dabei
spielt es keine Rolle, ob die Xi diskret oder stetig verteilt sind.
266
Bemerkung: Der Zentrale Grenzwertsatz gilt auch unter viel allgemeineren Voraussetzungen. So sind oft auch Summen von unabhängigen aber nicht identisch verteilten
Zufallsvariablen annähernd normalverteilt.
Aus diesem Grund können Ergebnisse von Messungen oft als normalverteilt angenommen werden. Man kann sich den gesamten Messfehler in Komponenten zerlegt
vorstellen, die für die einzelnen Fehlerquellen stehen:
X = x + F1 + F2 + F3 + · · ·
267
F1 könnte beispielsweise der Fehler sein, der durch Mängel der Messapparatur auftreten, F2 steht für den Fehler bei der Probenaufbereitung usw. x wäre in diesem
Modell der “wahre“ Messwert, der durch die verschiedenen Fehler F1, F2, . . . gestört
wird.
Selbst wenn die Fi nicht normalverteilt sind, ist X wegen des Zentralen Grenzwertsatzes zumindest näherungsweise normalverteilt.
Aus diesem Grund können viele statistische Methoden, die normalverteilte Daten
voraussetzen, in der Praxis oft angewandt werden.
268
Beispiel (Zentraler Grenzwertsatz): Sei Yn binomialverteilt mit n Wiederholungen
und Trefferwahrscheinlichkeit p (wir schreiben auch Yn ∼ B(n, p)). Seien X1, X2, . . . , Xn
Zufallsvariablen, die den Ausgang des i-ten Teilexperiments (i = 1, 2, . . . , n) beschreiben.
1 wenn i-te Wiederholung ein Treffer
Xi =
0 sonst
Die Xi sind unabhängig (Voraussetzung) und selbst binomialverteilt mit einer Wiederholung und Trefferwahrscheinlichkeit p (Xi ∼ B(1, p)). Außerdem gilt
Yn = X1 + · · · + Xn.
269
Somit sind alle Voraussetzungen des Zentralen Grenzwertsatzes erfüllt und wir erhalten den folgenden Satz:
Satz (Moivre-Laplace): Für binomialverteilte Zufallsvariablen Yn mit n Wiederholungen und Trefferwahrscheinlichkeit p (Yn ∼ B(n, p)) gilt
!
Yn − np
≤ x = Φ(x) für x ∈ IR.
lim P p
n→∞
np(1 − p)
Φ(x) =
verteilung.
2
−t /2
e√
sei wie immer die Verteilungsfunktion der Standardnormal−∞
2π
Rx
270
Praktischer Umgang mit dem Zentralen Grenzwertsatz:
Die Verteilung der Zufallsvariablen X =
teilt angenommen.
Pn
i=1 Xi wird als annähernd normalver-
1. Berechne Erwartungswert M und Varianz Σ2 von X.
2. Jede Wahrscheinlichkeit P(X ≤ t) kann approximativ durch
X −M
t−M
t−M
≈Φ
≤
P(X ≤ t) = P
Σ
Σ
Σ
berechnet werden. Φ ist die kumulative Verteilungsfunktion der Standardnormalverteilung (pnorm).
Alternativ kann auch gleich pnorm(t, mean=M, sd=Sigma) berechnet werden (Sigma = Σ).
271
Beispiel: Für eine binomialverteilte Zufallsvariable Y mit n = 600 Versuchswiederholungen und Trefferwahrscheinlichkeit p = 0.3 soll
P(Y ≤ 171)
mit Hilfe des Zentralen Grenzwertsatzes bestimmt werden.
!
Y − np
171 − np
P(Y ≤ 171) = P p
≤p
≈Φ
np(1 − p)
np(1 − p)
171 − np
p
np(1 − p)
272
!
>
>
>
>
n <- 600
p <- 0.3
k <- 171
pnorm((k-n*p)/sqrt(n*p*(1-p)))
[1] 0.211339
Mit exakter Rechnung erhält man
> pbinom(k,size=n,prob=p)
[1] 0.2252241
273
Beispiel: Seien Z1, . . . , Zn auf (0, 1) gleichverteilte unabhängige Zufallsvariablen.
Die Verteilung der Summenvariable
Z = Z1 + · · · + Zn
ist schwer zu bestimmen. Da die Zi unabhängig sind, kann aber Erwartungswert und
Varianz von Z leicht ausgerechnet werden:
E(Z) = n/2
und
Var(Z) = n/12
274
Die Wahrscheinlichkeit P(Z ≤ k) kann nun mit Hilfe des Zentralen Grenzwertsatzes
zu
!
!
Z − E(Z)
k − E(Z)
k − E(Z)
P(Z ≤ k) = P p
≤p
≈Φ p
Var(Z)
Var(Z)
Var(Z)
geschätzt werden.
275
Für n = 150 und k = 70 ergibt das konkret:
>
>
>
>
>
n <- 150
k <- 70
E <- n/2
Var <- n/12
pnorm((k-E)/sqrt(Var))
[1] 0.0786496
277
Beispiel (Approximation der Poissonverteilung durch die Normalverteilung):
Nicht nur die Binomialverteilung für große n sondern auch die Poissonverteilung für
große λ kann durch die Normalverteilung angenähert werden.
Satz: Sei X poissonverteilt mit Erwartungswert λ > 0. Dann kann X durch die
Normalverteilung mit Erwartungswert und Varianz λ approximiert werden.
k−λ
X −λ
k−λ
√
√
P(X ≤ k) = P
≤ √
≈Φ
λ
λ
λ
√
für große λ. Der Ausdruck X−λ
ist die Standardisierung von X.
λ
278
Einschub: Eine Simulation in R
Da die Güte der Näherung durch den Zentralen Grenzwertsatz schwer zu bestimmen ist, bietet sich die Überprüfung dieses Ergebnisses durch eine Simulation mit
Zufallszahlen in R an.
Die Werte der n = 150 gleichverteilten Zufallszahlen können durch die Funktion
runif simuliert werden.
279
> n <- 150
> V <- runif(100)
> V[1:10]
[1] 0.896598467 0.926609315 0.115015196 0.001582151 0.876620390 0.5142
[7] 0.681288025 0.098290650 0.590570149 0.725363473
ergibt einen Vektor von n = 150 auf (0, 1) gleichverteilten Zufallszahlen. Der
Aufruf des Zufallszahlengenerators runif simuliert dabei das tatsächliche Durchführen des Zufallsexperiments.
280
Der Wert der Summenvariable Z wird dann durch
> Z <- sum(runif(n))
simuliert. Die Wahrscheinlichkeit p für Z < k kann nun folgendermaßen bestimmt
werden:
281
>
>
>
>
+
+
+
set.seed(1976)
N <- 100000
ERG <- numeric(N)
for(i in 1:N){
Z <- sum(runif(n))
ERG[i] <- Z
}
Der Vektor ERG enthält nun N unabhängige Realisierungen von Z. Der relative
Anteil seiner Komponenten ≤ k nähert sich für großes N der Wahrscheinlichkeit
P(Z ≤ k) an.
282
Man erhält mit
> sum(ERG<=k)/N
[1] 0.07832
eine gute Übereinstimmung mit der durch den Zentralen Grenzwert berechneten
Näherung für P(Z ≤ k).
283
3.2.3 Näherung des Binomialtests durch den Z-Test
Eine Münze werde n = 1000 mal geworfen. Es ergeben sich k = 510 mal
Kopf. Kann die Nullhypothese, dass die Münze fair ist, auf dem Signifikanzniveau
α = 0.05 abgelehnt werden? Da n groß ist, kann die Zufallsvariable X (Anzahl
Kopf) als normalverteilt angenommen werden. Unter der Nullhypothese gilt dann
E(X) = µ = 500 und Var(X) = σ 2 = 250. Wir testen statt mit dem
Binomialtest die Nullhypothese H0 : p = 0.5 nun die äqivalente Nullhypothese
H0 : µ = 500 mit dem Z-Test. Das ist möglich, da mit σ 2 = 250 die Varianz
von X bekannt ist.
284
Die Z Statistik ist dann
X − 500
510 − 500
Z= √
= √
= 0.6324555.
250
250
Das ergibt einen zweiseitigen P-Wert von
> P <- 2*pnorm(-0.6324555)
> P
[1] 0.5270893
Die Nullhypothese kann also auf dem Niveau α = 0.05 nicht abgelehnt werden.
285
Zum Vergleich berechnen wir den P-Wert des exakten Binomialtests:
> binom.test(510,1000,0.5)$p.value
[1] 0.5479727
286
3.2.4 Der Z-Test für eine Stichprobe
Oft wird das gleiche Experiment an n verschiedenen statistischen Einheiten unabhängig wiederholt. Man hat dann nicht eine sondern n Messungen, die oft durch
normalverteilte Zufallsvariablen wiedergegeben werden:
Definition (Einstichproben Z-Test, 2.Version): Seien X1, . . . , Xn unabhängige normalverteilte Zufallsvariablen mit unbekanntem Erwartungswert µ und bekannter Varianz σ 2.
Der zweiseitige Einstichproben Z-Test testet für ein festes µ0 ∈ IR die Nullhypothese
H0 : µ = µ0.
Er wird in folgenden Schritten ausgeführt:
287
1. Berechnung von
1 Pn
i=1 Xi − µ0 √
n
Z :=
n.
σ
Z heißt die Statistik des Einstichproben Z-Tests. Wenn die Nullhypothese µ =
µ0 wahr ist, ist Z standardnormalverteilt.
2. Festlegung des Ablehnungsbereichs. Da unter der Nullhypothese Z ∼ N (0, 1)
gilt, werden die Ablehnungsbereiche ähnlich wie beim Binomialtest in die “Randbereiche“ der Standardnormalverteilung gelegt:
A = (−∞, K1] ∪ [K2, ∞)
288
3. Vorgabe eines Signifikanzniveaus α ∈ (0, 1) und Bestimmung von K1 und
K2: Unter Annahme, dass H0 wahr ist (d.h. Z ∼ N (0, 1)), werden K1 und
K2 so bestimmt, dass
P(Z ≤ K1) = α/2 = P(Z ≥ K2)
gilt. Ist Φ(x) die Verteilungsfunktion der Standardnormalverteilung, dann gilt
K1 = Φ−1(α/2) und K2 = −Φ−1(α/2).
4. Wenn die Realisierung Z = z im Ablehnungsbereich A liegt, dann wird die
Nullhypothese abgelehnt, sonst wird sie beibehalten. Die “Realisierung“ z von Z
erhält man, indem man die tatsächlichen Versuchsergebnisse X1 = x1, X2 =
x2, . . . , Xn = xn in die Formel für die Statistik einsetzt.
289
5. Wie beim Binomialtest kann auch für den zweiseitigen Z-Test alternativ zur
Bestimmung von Ablehnungsbereichen ohne vorherige Festlegung eines Signifikanzniveaus α der P-Wert berechnet werden. Sei z der Wert der Z-Statistik,
dann ist der P-Wert
P = P(Z ≤ −|z|) + P(Z ≥ |z|) = 2P(Z ≤ −|z|),
unter der Voraussetzung, dass H0 wahr ist, also Z ∼ N (0, 1) gilt. Wenn
Rx
1
−t2 /2 dt die Verteilungsfunktion der Standardnormal√
Φ(x) =
e
2π −∞
verteilung ist, dann ergibt sich für den P-Wert des zweiseitigen Z-Test:
P = 2Φ(−|z|)
290
Bemerkung: Die Statistik Z des Z-Tests ist die standardisierte Zufallsvariable zu
1P
i=1 Xi , wenn die Nullhypothese H0 : µ = µ0 wahr ist.
n
Einseitiger Einstichproben Z-Test: Seien X1, . . . , Xn unabhängige normalverteilte Zufallsvariablen mit unbekanntem Erwartungswert µ und bekannter Varianz σ 2
(Xi ∼ N (µ, σ 2), i = 1, . . . , n). Die einseitigen Nullhypothesen für den Z-Test
sind
H 0 : µ ≥ µ0
und
H 0 : µ ≤ µ0
für ein fest vorgegebenes µ0 ∈ IR.
291
Der einseitige Z-Test wird ähnlich wie der zweiseitige durchgeführt. Im Gegensatz
zum zweiseitigen Test hat der Ablehnungsbereich die Form A = (−∞, K] bzw.
A = [K, ∞). Für ein vorgegebenes Signifikanzniveau α gilt dann K = Φ−1(α)
bzw. K = −Φ−1(α). Φ−1 ist die Umkehrfunktion der Verteilungsfunktion Φ
der Standardnormalverteilung.
Der P-Wert des einseitigen Z-Tests ist P = Φ(Z) für H0 : µ ≥ µ0 und P =
1 − Φ(Z) für H0 : µ ≤ µ0.
292
In R sind Verteilungsfunktion der Standardnormalverteilung und ihre Umkehrfunktion
in den Funktionen pnorm und qnorm implementiert. Ablehnungsgrenzen für übliche
Signifikanzniveaus sind:
Zweiseitiges Testen:
> alpha <- c(0.001, 0.01, 0.05, 0.1)
> qnorm(alpha/2) # linker Bereich
[1] -3.290527 -2.575829 -1.959964 -1.644854
> -qnorm(alpha/2) # rechter Bereich
[1] 3.290527 2.575829 1.959964 1.644854
293
Entsprechend ergibt sich für einseitiges Testen:
> alpha <- c(0.001, 0.01, 0.05, 0.1)
> qnorm(alpha) # H0: p>=p0
[1] -3.090232 -2.326348 -1.644854 -1.281552
> -qnorm(alpha) # H0: p<=p0
[1] 3.090232 2.326348 1.644854 1.281552
294
0.2
2.5%
0.1
2.5%
0.0
y
0.3
0.4
α = 0.05, H0 : µ = µ0
295
−4
−2
0
Z
2
4
0.2
0.1
5%
0.0
y
0.3
0.4
α = 0.05, H0 : µ ≤ µ0
296
−4
−2
0
Z
2
4
0.2
0.1
5%
0.0
y
0.3
0.4
α = 0.05, H0 : µ ≥ µ0
297
−4
−2
0
Z
2
4
Bemerkung: Der Z-Test für eine Stichprobe spielt in der Praxis nur eine untergeordnete Rolle, da die Varianz σ 2 der Zufallsvariablen X1, . . . , Xn im Allgemeinen
unbekannt ist.
Da jedoch viele Verteilungen wegen des Zentralen Grenzwertsatzes näherungsweise normalverteilt sind, können für große Fallzahlen n Tests oft durch den Z-Test
angenähert werden.
298
Vorlesung 18.1.2017
299
Beispiel (Z-Test): Es wurde in einer 20-jährigen Studie die jährlichen Inzidenzraten
für Lungenkrebs in Deutschland bestimmt. In den Jahren 1991 bis 2010 traten unter
den 82 000 000 Einwohnern jeweils
40954, 40457, 40707, 40439, 40657, 41001, 40925, 40494, 40379, 40731, 40588,
40580, 40673, 40443, 40621, 40662, 40407, 40974, 40726, 40413
Neuerkrankungen auf. Für die jährliche Inzidenz von Lungenkrebs wird weltweit ein
Wert von 0.05 % angegeben. Unterscheidet sich die Inzidenz von Lungenkrebs in
Deutschland signifikant von 0.05%?
300
Lösung: Wir führen einen zweiseitigen Z-Test für µ0 = 41000 und σ 2 = 41000
durch. Da die Anzahl der jährlichen Neuerkrankungen als poissonverteilt angenommen werden kann die Varianz als bekannt gleich µ0 vorausgesetzt werden. Da der
Erwartungswert der Poissonverteilung sehr groß ist, ist es zulässig, die Poissonverteilung durch die Normalverteilung N (µ0, µ0) anzunähern. Damit sind alle Voraussetzungen des Z-Tests erfüllt.
301
Berechnung der Statistik Z:
>
+
+
+
+
>
>
>
Stichprobe <- c(
40954, 40457, 40707, 40439, 40657, 41001, 40925, 40494,
40379, 40731, 40588, 40580, 40673, 40443, 40621, 40662,
40407, 40974, 40726, 40413
)
sigma <- sqrt(41000)
mu0 <- 41000
n <- 20
302
> M <- mean(Stichprobe)
> M
[1] 40641.55
> Z <- (M-mu0)/sigma*sqrt(n)
> Z
[1] -7.916836
Berechnung des P-Werts:
303
> P <- 2*pnorm(-abs(Z))
> P
[1] 2.436306e-15
Ergebnis: Die durchschnittliche jährliche Inzidenzrate in Deutschland unterscheidet
sich auf dem Niveau α = 0.001 signifikant von 0.05%.
3.3 Der t-Test
3.3.1 Der t-Test für eine Stichprobe
Schätzung der unbekannten Varianz aus den Daten:
Die Anwendungsmöglichkeiten des Z-Tests sind beschränkt, da in der Regel die Varianz σ 2 der Zufallsvariablen X1, . . . , Xn nicht bekannt ist. Die Idee, die zum t-Test
führt, ist nun, die unbekannte Varianz σ 2 durch den Varianzschätzer
!
n
X
1
2
σ̂ =
(Zi − µ̂)2
n−1
i=1
1 Pn
mit µ̂ = n
i=1 Xi zu ersetzen.
304
Bemerkung: Der Schätzer σ̂ 2 ist nun keine Zahl sondern selbst eine Zufallsvariable
deren Erwartungswert σ 2 ist. Die Zufallsvariable σˆ2 wird um ihren Erwartungswert
schwanken. Je kleiner n ist, umso stärkere Abweichungen von σ 2 sind wahrscheinlich.
p
Ersetzt man in der Formel der Z-Statistik σ durch σˆ2, erhält man die t-Statistik:
305
Die t-Statistik für eine Stichprobe:
Seien X1, . . . , Xn unabhängige normalverteilte Zufallsvariablen mit unbekanntem
Erwartungswert µ und unbekannter Varianz σ 2, dann ist
µ̂ − µ0 √
n
T = p
σˆ2
t-verteilt mit n − 1 Freiheitsgraden, wenn µ = µ0 gilt.
Die t-Verteilung mit ν Freiheitsgraden hat die Dichte
− ν+1
Γ ν+1
2
2
t
2
1+
fν (t) = √
ν
ν
νπΓ 2
ν ∈ IN
306
Bemerkung: Mit Γ(x) wird die Gammafunktion bezeichnet, die für alle positiven
reellen Zahlen x ∈ IR+ definiert ist und zur Fakultätsfunktion wegen
Γ(n + 1) = n!,
n ∈ IN
in enger Beziehung steht.
Bemerkung: Die t-Statistik hängt im Gegensatz zur Z-Statistik von der Fallzahl n
ab. Zu jedem Freiheitsgrad ν = n − 1 gibt es eine eigene t-Statistik.
307
0.0
0.1
0.2
0.3
0.4
ν=1
ν=5
ν = 20
ν = ∞ (=N(0, 1))
308
−6
−4
−2
0
T
2
4
6
Bemerkung: Für große Freiheitsgrade ν geht die t-Verteilung in die Standardnormalverteilung über. Das liegt daran, dass mit steigendem n der Varianzschätzer σˆ2 eine
immer kleinere Varianz hat und deshalb mit großer Wahrscheinlichkeit Werte nahe
bei σ 2 annimmt. Für große n geht deshalb die t-Statistik in die Z-Statistik über.
Bemerkung: In R ist die Dichte der t-Verteilungen in der Funktion dt, die Verteilungsfunktion und ihre Umkehrfunktion in pt bzw. qt und der Zufallszahlengenerator in
rt implementiert. Die notwendige Angabe der Freiheitsgrade erfolgt durch das Argument df (für “degrees of freedom“).
309
Durchführung des Einstichproben t-Test:
Voraussetzungen: Seien Z1, . . . , Zn unabhängige normalverteilte Zufallsvariablen
mit Erwartungswert µ und unbekannter Varianz σ 2. Der zweiseitige Einstichproben
t-Test testet für ein festes µ0 ∈ IR die Nullhypothese
H 0 : µ = µ0 .
Er wird in folgenden Schritten ausgeführt:
1. Berechnung von
µ̂ − µ √
T := p 0 n
σˆ2
Pn
Pn
1
1
ˆ
2
mit µ̂ = n i=1 Zi und σ = n−1 i=1(Zi − µ̂)2. T heißt die Statistik
des Einstichproben T-Tests. Wenn die Nullhypothese µ = µ0 wahr ist, ist T
t-verteilt mit n − 1 Freiheitsgraden.
310
2. Festlegung des Ablehnungsbereichs. Da unter der Nullhypothese T t-verteilt ist,
werden die Ablehnungsbereiche ähnlich wie beim Z-Test in die “Randbereiche“
der t-Verteilung gelegt:
A = (−∞, K1] ∪ [K2, ∞)
3. Vorgabe eines Signifikanzniveaus α ∈ (0, 1) und Bestimmung von K1 und
K2: Unter Annahme, dass H0 wahr ist, werden K1 und K2 bestimmt, für die
P(T ≤ K1) = α/2 = P(T ≥ K2)
gilt. Ist Fn−1 die Verteilungsfunktion der t-Verteilung mit n − 1 Freiheitsgra−1
−1
den, dann ist K1 = Fn−1
(α/2) und K2 = −Fn−1
(α/2)
(±qt(α/2, df=n-1)).
311
4. Wenn der Wert (Realisierung) von T im Ablehnungsbereich A liegt, dann
wird die Nullhypothese abgelehnt, sonst wird sie beibehalten. Die “Realisierung“
von T erhält man, indem man die tatsächlichen Versuchsergebnisse Z1 =
z1, Z2 = z2, . . . , Zn = zn in die Formel für die Statistik T einsetzt.
312
5. Wie beim Binomial- und Z-Test kann auch für den zweiseitigen t-Test alternativ
zur Bestimmung von Ablehnungsbereichen ohne vorherige Festlegung eines Signifikanzniveaus α der P-Wert berechnet werden. Sei t der Wert der T-Statistik,
dann ist der P-Wert
P = P(T ≤ −|t|) + P(T ≥ |t|) = 2P(T ≤ −|t|),
unter der Voraussetzung, dass H0 wahr ist. Wenn Fn−1 die Verteilungsfunktion
der t-Verteilung mit n − 1 Freiheitsgrade ist, dann ergibt sich für den P-Wert
des zweiseitigen t-Test:
P = 2Fn−1(−|t|)
In R: 2*pt(-abs(t), df=n-1).
313
Bemerkung: Ganz analog zu den einseitigen Z-Tests kann auch beim t-Test einseitig
getestet werden (Übung).
Bemerkung: Die T-Statistik hängt von der Fallzahl n, aber nicht von der unbekannten
Varianz σ 2 ab, wenn die Nullhypothese wahr ist.
Begründung: Kürzt man
µ̂ − µ0 √
n
T = p
σˆ2
mit σ, dann erhält man
(µ̂ − µ0)/σ √
T = p
n.
σˆ2/σ
Der Zähler kann als
n
1X
(Zi − µ0)/σ
(µ̂ − µ0)/σ =
n
i=1
314
geschrieben werden. Gilt die H0 : µ = µ0, dann hängt er nicht von σ ab, da die
Zufallsvariablen (Zi − µ0)/σ, i = 1, . . . , n standardnormalverteilt sind.
Für den Nenner gilt
v
u
n
p
u 1 X
σˆ2/σ = t
n−1
i=1
Auch
p
Zi − µ0 1
−
σ
n
n X
i=1
Zi − µ0
σ
!2
σˆ2/σ hängt nur von standardisierten Zufallsvariablen ab.
315
Die wichtigste Anwendung für den Einstichproben t-Test ist der Test für verbundene
oder gepaarte Stichproben.
t-Test für verbundene Stichproben:
Seien (X1, Y1), . . . , (Xn, Yn) n Paare von Zufallsvariablen, für die die Differenzvariablen Zi = Xi − Yi, i = 1, . . . , n normalverteilt mit unbekanntem
Erwartungswert µ und unbekannter Varianz σ 2 sind. Der verbundene t-Test ist der
Einstichproben t-Test für Z1, . . . , Zn der Nullhypothes H0 : µ0 = 0.
Bemerkung: Haben die Xi Erwartungswert µ1 und die Yi den Erwartungswert µ2,
dann gilt µ = µ1 −µ2 und die zweiseitige Nullhypothese des verbundenen t-Tests ist
H0 : µ1 = µ2. Die Nullhypothesen für einseitiges Testen sind dann entsprechend
H0 : µ1 ≤ µ2 bzw. H0 : µ1 ≥ µ2.
316
Beispiel: Ein verbundenes Stichprobendesign liegt immer dann vor, wenn an jedem
Individuum (Patient, Proband, Versuchstier,...) zwei gleichartige Messungen vorgenommen werde. Zwischen den beiden Messungen erfolgt die Intervention (z.B. Verabreichung eines Medikaments). Der verbundene t-Test prüft dann, ob die Intervention
wirksam war. Kann die Nullhypothese abgelehnt werden, hat man statistisch nachgewiesen, dass die Erwartungswerte vor und nach der Intervention unterschiedlich
sind.
Verbundene Stichproben treten auch auf, wenn erste und zweite Messung gleichzeitig
aber an verschiedenen Orten stattfinden:
Beispiel: In einem landwirtschaftlichen Versuch zur Ertragssteigerung durch einen
bestimmten Dünger könnten n Testfelder mit einer bestimmten Nutzpflanze bestellt
werden. Jedes der n Testfelder wird in zwei gleich große Teile geteilt, von denen
nur eines mit dem Dünger versehen wird. Die Daten des Versuchs sind dann die n
Paare (X1, Y1), . . . , (Xn, Yn) der Ernteerträge. Die Werte X1, . . . , Xn sind die
Erträge aus den ungedüngten und die Y1, . . . , Yn die aus den gedüngten Hälften.
317
Der t-Test für verbundene Stichproben prüft nun, ob sich das Mittel der Ernteerträge
der ungedüngten Hälften von dem Mittel der gedüngten signifikant unterscheidet.
Nur bei einem signifikanten Unterschied darf man behaupten, dass der Dünger wirksam die Erträge steigert.
Bemerkung: Die Voraussetzung des verbundene t-Tests ist, dass die Differenzen der
beiden Messungen normalverteilt sind. Es ist nicht notwendig, dass erste und zweite
Messung selbst aus normalverteilten Grundgesamtheiten stammen.
318
3.3.2 Zweistichproben t-Test
Für viele Fragestellungen sind verbundene Stichproben ungeeignet. Immer dann,
wenn die Notwendigkeit besteht, eine aktive Behandlung mit einer Kontrollbehandlung zu vergleichen, kann ein verbundenes Design nicht angewandt werden.
Beispiel: Es soll die Wirksamkeit eines Blutdrucksenkers nachgewiesen werden. Es
besteht der Verdacht, dass allein schon die Verabreichung eines Placebos (Scheinmedikaments) den Blutdruck senkt. In einem Experiment (Studie) mit verbundenen
Stichprobendesign kann der Placeboeffekt nicht vom tatsächlichen Effekt getrennt
werden. Eine statistisch signifikante Senkung des Blutdrucks könnte allein dem Placeboeffekt zuzurechnen sein.
319
Es besteht deshalb das Bedürfnis, in der Studie den Blutdrucksenker direkt mit einem
Placebo zu vergleichen. Das geschieht durch Zweistichproben Tests.
Zweistichproben Z-Test: Seien X1, . . . , Xn1 (Stichprobe 1) normalverteilte Zufallsvariablen mit unbekanntem Erwartungswert µ1 und bekannter Varianz σ 2. Seien
weiter Y1, . . . , Yn2 (Stichprobe 2) normalverteilte Zufallsvariablen mit unbekanntem Erwartungswert µ2 und Varianz σ 2. Die Variablen X1, . . . , Xn1 , Y1, . . . , Yn2
Pn1
1 Pn2 Y die empiX
und
µ
ˆ
=
seien unabhängig. Seien µˆ1 = n1
2
i=1 i
i=1 i
n2
1
rischen Mittel der beiden Stichproben. Die Statistik des Zweistichproben Z-Tests
ist
r
µˆ1 − µˆ2
n1n2
.
Z=
σ
n1 + n2
Die Nullhypothesen des Zweistichproben Z-Tests sind:
320
1. H0 : µ1 = µ2 (zweiseitige Nullhypothese)
2. H0 : µ1 ≤ µ2 oder H0 : µ1 ≥ µ2 (einseitige Nullhypothesen)
Gilt µ1 = µ2, dann ist Z standardnormalverteilt.
321
Man zeigt leicht, dass Z die standardisierte Zufallsvariable zu µˆ1 − µˆ2 ist, wenn
µ1 = µ2 gilt.
Die Nullhypothese
1. H0 : µ1 = µ2 (zweiseitig) wird auf dem Niveau α abgelehnt, wenn |Z| ≥
z1−α/2 gilt.
2. H0 : µ1 ≤ µ2 wird auf dem Niveau α abgelehnt, wenn Z ≥ z1−α gilt.
3. H0 : µ1 ≥ µ2 wird auf dem Niveau α abgelehnt, wenn Z ≤ −z1−α gilt.
z1−α ist das (1 − α)100% Perzentil der Standardnormalverteilung. Ist Φ die
Verteilungsfunktion der Standardnormalverteilung, dann gilt z1−α = Φ−1(1−α).
322
Vorlesung 25.1.2017
323
Da die Streuung σ im Allgemeinen unbekannt ist, hat der Z-Test keine praktische
Bedeutung. Um zu einem anwendbaren Test zu gelangen, muss die p
in der Regel
unbekannte Streuung (Standardabweichung) σ durch einen Schätzer σˆ2 ersetzt
werden.
Für eine Stichprobe Z1, . . . , Zn von unabhängigen Zufallsvariablen mit gemeinsamen Erwartungswert µ und gemeinsamer Varianz σ 2 ist der “richtige“ Varianzschätzer
n
n
X
X
1
1
σˆ2 =
(Zi − µ̂)2, µ̂ =
Zi.
n−1
n
i=1
i=1
“Richtig“ bedeutet hier, dass E σˆ2 = σ 2 gilt. Man sagt auch, dass σˆ2 ein
erwartungstreuer Schätzer von σ 2 ist.
324
Für unabhängige normalverteilte Zufallsvariablen X1, . . . , Xn1 , Y1, . . . , Yn2 mit
Xi ∼ N (µ1, σ 2), i = 1, . . . , n1 und Yi ∼ N (µ2, σ 2), i = 1, . . . , n2 ist
der “richtige“ (erwartungstreue) Schätzer
!
n
n
1
2
X
X
1
2
σˆ2 =
(Xi − µˆ1) +
(Yi − µˆ2)2
n1 + n2 − 2
i=1
i=1
Pn1
Pn1
1
1
mit µˆ1 = n
i=1 Xi und µˆ2 = n
i=1 Yi .
1
2
1
Bemerkung: Die 2 im Vorfaktor n +n
ist notwendig, da sowohl µ1 als auch
1
2 −2
µ2 durch µˆ1 bzw. µˆ2 geschätzt werden müssen. Nur mit diesem Vorfaktor ist σˆ2
ein erwartungstreuer Schätzer von σ 2.
325
Zweistichproben t-Test (Student’s t-Test): Seien X1, . . . , Xn1 (Stichprobe 1) normalverteilte Zufallsvariablen mit unbekanntem Erwartungswert µ1 und unbekannter
Varianz σ 2. Seien weiter Y1, . . . , Yn2 (Stichprobe 2) normalverteilte Zufallsvariablen mit unbekanntem Erwartungswert µ2 und Varianz σ 2. Die Variablen
X1, . . . , Xn1 , Y1, . . . , Yn2
Pn1
Pn2
1
1
seien unabhängig. Seien µˆ1 = n
i=1 Xi und µˆ2 = n2
i=1 Yi die em1
pirischen Mittel der beiden Stichproben. Die Statistik des Zweistichproben t-Tests
ist
r
µˆ − µˆ
n1n2
T = 1p 2
.
n1 + n2
σˆ2
Die Nullhypothesen des Zweistichproben t-Tests sind:
326
1. H0 : µ1 = µ2 (zweiseitige Nullhypothese)
2. H0 : µ1 ≤ µ2 oder H0 : µ1 ≥ µ2 (einseitige Nullhypothesen)
Gilt µ1 = µ2, dann ist T t-verteilt mit ν = n1 + n2 − 2 Freiheitsgraden.
Bemerkung: Die t-Statistik ist unabhängig vom Parameter σ. Die Fallzahlen n1 und
n2 gehen aber über die Freiheitsgrade ν = n1 + n2 − 2 in die t-Statistik ein.
327
Ganz analog zum Zweistichproben Z-Test gilt nun: Die Nullhypothese
1. H0 : µ1 = µ2 (zweiseitig) wird auf dem Niveau α abgelehnt, wenn
|T | ≥ t1−α/2,ν gilt.
2. H0 : µ1 ≤ µ2 wird auf dem Niveau α abgelehnt, wenn T ≥ t1−α,ν gilt.
3. H0 : µ1 ≥ µ2 wird auf dem Niveau α abgelehnt, wenn T ≤ −t1−α,ν gilt.
t1−α,ν ist das (1 − α)100% Perzentil der t-Verteilung mit ν = n1 + n2 − 2
Freiheitsgraden. Ist Fν die Verteilungsfunktion der t-Verteilung mit ν Freiheitsgraden, dann gilt t1−α,ν = Fν−1(1 − α).
328
Der P-Wert des Zweistichproben t-Tests ist wieder als das kleinste Signifikanzniveau,
auf dem die H0 gerade noch abgelehnt werden kann, definiert. Damit ergibt sich:
1. Für H0 : µ1 = µ2 (zweiseitig) ist der P-Wert P = 2Fν (−|T |).
2. Für H0 : µ1 ≤ µ2 gilt P = Fν (−T ). und für
3. H0 : µ1 ≥ µ2 gilt P = Fν (T ).
T sei die T-Statistik für den Zweistichproben t-Test und Fν die Verteilungsfunktion
der t-Verteilung mit ν = n1 + n2 − 2 Freiheitsgraden.
329
Beispiel: In einer Studie zur Wirksamkeit eines Medikaments gegen Bluthochdruck
wird eine Gruppe von 10 Patienten ein Placebo verabreicht und eine andere Gruppe
von 10 Patienten werden mit dem Testmedikament behandelt. Nach zwei Wochen
wird bei allen 20 Patienten der systolische Blutdruck bestimmt. Man erhält folgendes
Ergebnis:
P lacebo = {188, 178, 179, 202, 178, 179, 164, 175, 181, 174}
und
M edikament = {185, 177, 158, 187, 162, 173, 169, 208, 169, 160}
Die empirischen Mittel der beiden Gruppen sind:
> Placebo <- c(188, 178, 179, 202, 178, 179, 164, 175, 181, 174)
> Medikament <- c(185, 177, 158, 187, 162, 173, 169, 208, 169, 160)
> mu_P <- mean(Placebo)
330
> mu_M <- mean(Medikament)
> mu_P
[1] 179.8
> mu_M
[1] 174.8
Offensichtlich ist der mittlere Blutdruck in der Medikamentengruppe tiefer in der
Placebogruppe. Da die Daten aber streuen, könnte das auch zufällig zustande gekommen sein. Für den Wirksamkeitsnachweis muss ein statistischer Test durchgeführt
werden. Wir testen die Differenz mit dem zweiseitigen Zweistichproben t-Test:
> sigma2 <- 1/18*(sum((Placebo-mu_P)^2)+sum((Medikament-mu_M)^2))
> T <- (mu_P-mu_M)/sqrt(sigma2)*sqrt(10*10/20)
> T
[1] 0.8702125
Die Anzahl der Freiheitsgrade ist 18. Wir berechne für das Signifikanzniveau von
α = 0.05 die Grenze t0.975,18 des zweiseitigen Ablehnungsbereichs.
331
> t <- qt(0.975,df=18)
> t
0.4
[1] 2.100922
t0.975,18
0.1
y
0.2
0.3
− t0.975,18
0.0
T
−4
−2
0
x
2
4
332
Die Nullhypothese kann nicht abgelehnt werden. Der beobachtete Unterschied zwischen Placebo und Medikamentengruppe ist nicht signifikant auf dem Niveau α =
0.05. Man kann nicht ausschließen, dass der Unterschied durch Zufall zustande gekommen ist und in Wahrheit das Medikament sich in seiner Wirkung nicht von einem
Placebo unterscheidet. Um die Frage zu beantworten, ob man vielleicht auf einem
anderen Signifikanzniveau hätte ablehnen können, berechnet man den P-Wert:
> P <- 2*pt(-abs(T), df=18)
> P
[1] 0.3956415
333
Man kann den P-Wert des t-Tests direkt durch die Funktion t.test berechnen.
> t.test(Placebo,Medikament, var.equal=TRUE)
Two Sample t-test
data: Placebo and Medikament
t = 0.87021, df = 18, p-value = 0.3956
alternative hypothesis: true difference in means is not equal to 0
95 percent confidence interval:
-7.071316 17.071316
sample estimates:
mean of x mean of y
179.8
174.8
334
Bemerkung: Um den klassischen t-Test (Student’s Test) zu erhalten, muss das Argument var.equal=TRUE angegeben werden. Sonst wird von R eine andere Version
des t-Tests durchgeführt (Welch-Test), bei dem nicht Varianzgleichheit in den Gruppen vorausgesetzt wird.
335
> t.test(Placebo,Medikament)
Welch Two Sample t-test
data: Placebo and Medikament
t = 0.87021, df = 15.403, p-value = 0.3975
alternative hypothesis: true difference in means is not equal to 0
95 percent confidence interval:
-7.218866 17.218866
sample estimates:
mean of x mean of y
179.8
174.8
336
3.4 Nichtparametrische Tests
Für alle Varianten des t-Tests muss vorausgesetzt werden, dass die Daten normalverteilt sind. Diese Voraussetzung kann allerdings nicht bewiesen werden. In der Praxis
muss man sich damit begnügen, diese Voraussetzung plausibel zu machen.
Das kann durch Betrachtung von Histogrammen geschehen. Hat der Graph eine
glockenförmige Gestalt, dann nimmt man oft an, dass die Voraussetzungen für den
t-Test erfüllt sind.
337
Eine weitere Möglichkeit ist die Beurteilung der Verteilung anhand von Größen wie
der Schiefe und dem Exzess. Unterscheiden sie sich nicht zu stark von 0, dann geht
man von normalverteilten Daten aus und benutzt den t-Test.
Wie testet man aber Variablen, deren Histogramm nicht glockenförmig ist oder deren
Schiefe und Exzess stark von 0 abweichen? Auch diskret verteilte Variablen mit nur
wenig Stufen sind sicher nicht normalverteilt.
In allen diesen Fällen soll der t-Test nicht angewandt werden, sondern ein Test, der
ohne die Normalverteilungsannahme auskommt. Solche Tests heißen nicht-parametrische
Tests. Sowohl für den verbundenen als auch unverbundenen t-Test gibt es nichtparametrische Alternativen.
338
3.4.1 Der Vorzeichen Test
Der Median µ̄ einer Verteilung ist ihr 50% Perzentil. Ist eine Zufallsvariable gemäß
einer beliebigen stetigen Verteilung mit Median µ̄ verteilt, dann gilt
P(X < µ̄) = 0.5 = P(X > µ̄).
Für eine allgemeine, möglicherweise nicht stetigen, Verteilung mit Median µ̄ gilt
1
1
P(X < µ̄) + P(X = µ̄) = 0.5 = P(X > µ̄) + P(X = µ̄).
2
2
Die Zufallsvariable X nimmt also mit der gleichen Wahrscheinlichkeit Werte < µ̄
wie Werte > µ̄ an.
339
Vorzeichentest: Seien X1, . . . , Xn unabhängige Zufallsvariablen, die gemäß einer
beliebigen Verteilung F mit Median µ̄ verteilt sind. Der Vorzeichentest prüft nun
die Nullhypothese
H0 : µ̄ = µ¯0
für ein fest vorgegebenes µ¯0 ∈ IR.
Seien

 −1 wenn Xi − µ¯0 < 0
Vi = sign(Xi − µ¯0) =
0 wenn X − µ¯ = 0
 1 wenn Xi − µ¯0 > 0
0
i
für i = 1, . . . , n die Vorzeichen der Variablen X1 − µ¯0, . . . , Xn − µ¯0.
340
Sie n0 die Anzahl der Vi, die nicht 0 sind und P die Anzahl der Vi, die = 1 sind:
n0 = #{i|Vi 6= 0}
P = #{i|Vi = 1}
Ist die H0 : µ̄ = µ¯0 wahr, dann ist P binomialverteilt mit Trefferwahrscheinlichkeit
p = 0.5 und Anzahl der Wiederholungen n0:
P ∼ B(n0, 1/2)
Der Vorzeichentest ist nun der zweiseitige Binomialtest für P der Nullhypothese
H0 : p = 1/2.
Der Vorzeichentest wird hauptsächlich auf verbundene Stichproben angewandt.
341
Vorzeichentest für verbundene Stichproben: Sei (X1, Y1), . . . , (Xn, Yn)
eine verbundene Stichpobe. Die Differenzen Di = Xi − Yi, i = 1, . . . , n seien
unabhängig gemäß einer Verteilung F mit Median µ̄ verteilt. Der Vorzeichentest für
verbundene Stichproben ist der Vorzeichentest für die Variablen D1, . . . , Dn mit
Nullhypothese H0 : µ̄ = 0.
342
Beispiel (Blutdruckstudie mit einer Stichprobe):
PatNr.
1
2
3
4
5
6
7
8
9
10
vorher
205
206
166
160
204
186
194
165
190
196
nachher
198
206
143
149
179
174
189
160
194
187
diff
7
0
23
11
25
12
5
5
-4
9
343
Für die Variable diff soll der Vorzeichentest der Nullhypothese H0 : µ̄ = 0 durchgeführt werden. Eine wahre Nullhypothese würde bedeuten, dass eine Blutdrucksteigerung genauso wahrscheinlich ist wie eine Blutdrucksenkung, das Medikament also
wirkungslos ist.
Unter den 10 Differenzen ist eine 0, acht sind positiv und eine ist negativ. Damit
ergibt sich n0 = 9 und P = 8. Wir führen den zweiseitigen Binomialtest durch:
344
> binom.test(8,9,p=0.5,alternative="two.sided")
Exact binomial test
data: 8 and 9
number of successes = 8, number of trials = 9, p-value = 0.03906
alternative hypothesis: true probability of success is not equal to 0.5
95 percent confidence interval:
0.5175035 0.9971909
sample estimates:
probability of success
0.8888889
Zum Vergleich berechnen wir den verbundenen t-Test:
345
> vorher <- c(205, 206, 166, 160, 204, 186, 194, 165, 190, 196)
> nachher <- c(198, 206, 143, 149, 179, 174, 189, 160, 194, 187)
> t.test(vorher, nachher, paired=TRUE)
Paired t-test
data: vorher and nachher
t = 3.2214, df = 9, p-value = 0.01047
alternative hypothesis: true difference in means is not equal to 0
95 percent confidence interval:
2.769279 15.830721
sample estimates:
mean of the differences
9.3
Der P-Wert des verbundenen t-Tests ist kleiner als der des Vorzeichentests.
346
McNemar Test: Haben die Variablen Xi und Yi nur die Ausprägungen 0 und 1
wird der Vorzeichentest für die verbundene Stichprobe (X1, Y1), . . . , (Xn, Yn)
auch als Test nach McNemar bezeichnet.
Beispiel: In einer Studie soll untersucht werden, ob eine Wahlwerbeaktion die Einstellung zu einer bestimmten gesellschaftlichen Fragestellung verändert. Dazu wird
jedem Studienteilnehmer vor und nach der Aktion eine Aussage vorlegt, der er zustimmen oder die er ablehnen kann.
0 i-ter Teinehmer stimmt Aussage vor der Aktion zu
Xi =
1 i-ter Teinehmer lehnt Aussage vor der Aktion ab
Yi =
0 i-ter Teinehmer stimmt Aussage nach der Aktion zu
1 i-ter Teinehmer lehnt Aussage nach der Aktion ab
347
Nr.
1
2
3
4
5
6
7
8
9
10
vorher
1
1
1
1
0
0
0
0
0
0
nachher
1
1
0
0
1
0
0
1
0
0
diff
0
0
1
1
-1
0
0
-1
0
0
Insgesamt haben n0 = 4 Probanden ihre Meinung geändert. Jeweils zwei von Zustimmung zu Ablehnung und umgekehrt. Der Binomialtest ergibt in diesem Fall einen
P-Wert von 1.
348
Da beim Vorzeichentest nur die Vorzeichen nicht aber die absolute Größe der Differenzen in die Teststatistik eingehen, ist die Power des Vorzeichentests oft kleiner
als die des verbundenen t-Tests. Sind die Differenzen normalverteilt, ist der t-Test
unbedingt vorzuziehen. Bestehen dagegen Zweifel an der Gültigkeit der Normalverteilungsannahme, ist der Vorzeichentest die bessere Wahl.
349
3.4.2 Vorzeichen-Rang-Test nach Wilcoxon
Ein Test, der auch ohne Normalverteilungsannahme auskommt, ist der VorzeichenRang-Test nach Wilcoxon. In die Teststatistik des Vorzeichen-Rang-Tests gehen neben dem Vorzeichen auch noch die Ränge ein. Er vergröbert daher weniger als der
Vorzeichentest und hat deshalb im Allgemeinen eine höhere Power.
350
Eine Wahrscheinlichkeitsverteilung F mit Median µ̄ ist symmetrisch um den Median,
wenn
PF ((−∞, µ̄ − λ)) = PF ((µ̄ + λ, ∞))
für jedes λ > 0 gilt.
Vorzeichen-Rang-Test nach Wilcoxon: Seien X1, . . . , Xn unabhängige Zufallsvariablen, die gemäß F verteilt sind. F sei eine stetige um ihren Median µ̄
symmetrische Verteilung. Die Nullhypothese sei
H0 : µ̄ = µ¯0
für ein fest vorgegebenes µ¯0 ∈ IR.
351
Seien Di = |Xi − µ¯0| für i = 1, . . . , n die Beträge von Xi − µ¯0 und
D(1) ≤ . . . ≤ D(n)
die aufsteigende Anordnung der Di. Zu jedem D(i) gehört genau ein Xi0 − µ¯0. Sei
Si = sign(Xi0 − µ¯0) das Vorzeichen dieses Xi0 − µ¯0.
0 wenn Si ≤ 0
Ri =
i wenn Si = 1
Die Summe der “positiven“ Ränge ist dann
P =
n
X
Ri.
i=1
352
Die exakte Verteilung von P unter der Nullhypothese ist schwer anzugeben. Für
große n kann aber wegen des Zentralen Grenzwertsatzes angenommen werden, dass
die Standardisierung von P annähernd standardnormalverteilt ist. Wir berechnen
also Erwartungswert und Varianz von P unter der Annahme, dass H0 wahr ist.
Aus E(Ri)
aus E(Ri2)
Pn
1
. Für die Varianz folgt
= i/2 folgt E(P ) = 2 i=1 i = n(n+1)
4
= i2/2 sofort Var(Ri) = i2/4 und damit
n
1X 2
n(n + 1)(2n + 1)
Var(P ) =
i =
,
4
24
i=1
da die Ri unabhängig sind.
353
Die Testgröße
Z=q
P − n(n+1)
4
n(n+1)(2n+1)
24
ist die Standardisierung von P und wegen des Zentralen Grenzwertsatzes für große
n annähernd standardnormalverteilt. Die Nullhypothese wird daher auf dem Niveau
α abgelehnt, wenn |Z| ≥ z1−α/2 gilt (Z-Test gegen µ = 0 mit bekannter Varianz
σ 2 = 1).
354
Beispiel (Vorzeichen-Rang-Test für verbundene Stichprobe):
Nr.
1
2
3
4
5
6
7
8
9
10
Summe (P)
vorher
110
151
156
149
134
155
122
101
156
199
nachher
120
140
171
130
133
146
178
154
181
167
D
-10
11
-15
19
1
9
-56
-53
-25
32
|D|
10
11
15
19
1
9
56
53
25
32
Rang
3
4
5
6
1
2
10
9
7
8
R
0
4
0
6
1
2
0
0
0
8
21
Auf die Differenz D soll der Vorzeichen-Rang-Test der Nullhypothese H0 : µ̄ = 0
angewandt werden.
355
>
>
>
>
P <- 21
n <- 10
Z <- (P-n*(n+1)/4)/sqrt(n*(n+1)*(2*n+1)/24)
Z
[1] -0.6625413
> 2*pnorm(-abs(Z)) # P-Wert des Z-Tests.
[1] 0.5076243
356
>
>
>
+
vorher <- c(110,151,156,149,134,155,122,101,156,199)
nachher <- c(120,140,171,130,133,146,178,154,181,167)
wilcox.test(vorher, nachher, paired=TRUE,
correct=FALSE, exact=FALSE)
Wilcoxon signed rank test
data: vorher and nachher
V = 21, p-value = 0.5076
alternative hypothesis: true location shift is not equal to 0
357
Da n = 10 noch keine große Zahl ist, ist die Näherung durch die Normalverteilung
nicht gut. In R wird auch ein exakter Test angeboten:
> wilcox.test(vorher, nachher, paired=TRUE,
exact=TRUE)
Wilcoxon signed rank test
data: vorher and nachher
V = 21, p-value = 0.5566
alternative hypothesis: true location shift is not equal to 0
358
Bemerkung: Da wir vorausgesetzt haben, dass F eine stetige Verteilung ist, kommen
gleiche Ränge oder Di = 0 nur mit Wahrscheinlichkeit 0 vor.
In der Praxis wird der Vorzeichen-Rang-Test aber auch bei diskreten Verteilungen
angewandt. Selbst bei stetigen Variablen können durch Rundung gleiche Ränge (Bindungen) auftreten.
Es ist möglich, den Vorzeichen-Rang-Test so zu modifizieren, dass er auch auf diese
Fälle angewandt werden kann.
Bemerkung: Eine wichtige Voraussetzung für den Vorzeichen-Rang-Test ist die Annahme, dass die Verteilung symmetrisch um ihren Median ist. Ist sie verletzt, dann
wird die wahre Nullhypothese mit einer größeren Wahrscheinlichkeit als das vorgegebene α abgelehnt. Der Test hält das Signifikanzniveau nicht mehr ein, d.h. er
beschränkt die Fehlerwahrscheinlichkeit 1. Art nicht durch α.
359
Vorlesung 1.2.2017
360
3.4.3 Mann-Whitney-Wilcoxon-U Test (U-Test)
Auch für den Zweistichproben t-Test gibt es ein nicht-parametrisches alternatives
Testverfahren, das auch auf nicht normalverteilte Daten angewandt werden kann.
Ähnlich wie beim Vorzeichen-Rang-Test wird die Teststatistik des U Tests aus Summen von Rängen abgeleitet.
Voraussetzungen und Nullhypothese für den U-Test: Seien X1, . . . , Xn1
gemäß einer beliebigen stetigen Verteilung mit Wahrscheinlichkeitsdichte f (t) und
Y1, . . . , Yn2 gemäß der um eine unbekannten Parameter a ∈ IR verschobenen
Verteilung mit Wahrscheinlichkeitsdichte f (t − a) verteilt. Die Variablen der Gesamtstichprobe X1, . . . , Xn1 , Y1, . . . , Yn2 seien unabhängig.
361
Die Nullhypothesen für den U-Test sind nun Bedingungen an den unbekannten Parameter a:
H0 : a = 0 (zweiseitig)
H0 : a ≤ 0 (einseitig)
H0 : a ≥ 0 (einseitig)
362
Bemerkung: Der U-Test wird wie der Zweistichproben t-Test auf die unabhängigen
Stichproben S1 = {X1, . . . , Xn1 } und S2 = {Y1, . . . , Yn2 } angewandt. Im
Gegensatz zum t-Test kann die Wahrscheinlichkeitsdichte f beliebig sein. Der UTest kommt ohne Normalverteilungsannahme aus.
Bemerkung: Die Voraussetzung der Stetigkeit kann fallen gelassen werden. Die Formeln zur Berechnung der Teststatistik des Mann-Whitney-U Tests müssen dann allerdings modifiziert werden, da Bindungen (=gleich große Werte) in den Stichproben
auftreten können. In der Praxis wird der U-Test sogar besonders gerne auf ordinale Daten, wie z.B. Schulnoten oder allgemeiner Bewertungsscores mit nur wenigen
Ausprägungen, angewandt.
363
Durchführung des U-Tests: Die vereinigte Stichprobe
S = {X1, . . . , Xn1 , Y1, . . . , Yn2 }
wird aufsteigend angeordnet. Jedem Element aus S wird dadurch ein Rang, d.h.
eine ganze Zahl zwischen 1 und n1 + n2, zugeordnet. Das kleinste Element aus
S erhält den Rang 1, das zweitkleinste Rang 2 und schließlich das größte den Rang
n1 +n2. Im Gegensatz zum Vorzeichen-Rang-Test werden nicht die Beträge sondern
die Werte aus der Stichprobe selbst aufsteigend sortiert.
Sind die Verteilungen für X1, . . . , Xn1 und Y1, . . . , Yn2 stetig, dann sind alle
Werte aus S mit Wahrscheinlichkeit 1 verschieden und die Zuordnung der Elemente
aus S zu den Rängen ist eindeutig.
364
Lässt man die Annahme der Stetigkeit fallen (z.B. Variablen sind Scores oder stark
gerundet stetige Variablen), dann können gleiche Ränge auftreten. Man ordnet dann
den betreffenden Werten durchschnittliche Ränge zu:
Beispiel: Hat die Stichprobe S nach aufsteigender Sortierung die Gestalt
1, 2, 2, 2, 2, 3, 3.1, . . . ,
dann gibt es vier zweitkleinste Elemente. Die 2 besetzt den zweiten bis fünften Rang.
Ihr wird ihr deshalb der durchschnittliche Rang 2+3+4+5
= 3.5 zugeordnet.
4
In einem nächsten Schritt bildet man die Summe R1 der Ränge, die zu Elementen
aus der ersten Stichprobe, und entsprechend die Summe der Ränge R2, die zur
zweiten Stichprobe gehören.
365
Beispiel:
Gruppe
1
1
1
1
2
2
2
2
2
2
Summe
Wert
4.4
0.0
-0.6
-2.3
-0.1
-11.1
3.0
5.6
1.8
-1.5
Rang
9
6
4
2
5
1
8
10
7
3
Ränge zu Gruppe 1
9
6
4
2
21
Ränge zu Gruppe 2
5
1
8
10
7
3
34
Damit ist R1 = 21 und R2 = 34.
366
Bemerkung: Die Rangsummen R1 und R2 sind nicht unabhängig, sondern es gilt
(n + n2)(n1 + n2 + 1)
R1 + R2 = 1
.
2
Ist die H0 wahr, dann erhält jedes Element aus S alle Ränge mit der gleichen
Wahrscheinlichkeit. Gilt dagegen die H1, dann erhalten die Elemente aus einer der
beiden Stichproben eher die kleinen Ränge und die andere die hohen Ränge.
Exakte Statistik des U-Tests: Seien
n (n + 1)
− R1 .
U1 = n1n2 + 1 1
2
und
n2(n2 + 1)
U2 = n1n2 +
− R2 ,
2
dann kann für jedes Paar n1 und n2 die exakte Verteilung der Statistik
U = min(U1, U2)
367
bestimmt werden. Für kleine n1, n2 und den gängigen Signifikanzniveaus wurden
früher Tabellen mit exakten Ablehnungsgrenzen benutzt. Heute sind exakte Versionen des U-Tests in vielen Statistikprogrammen implementiert (z.B. wilcox.test
mit Option exact=TRUE).
Asymptotische Statistik des U-Tests: Wie beim Vorzeichen-Rang-Test, ist die
exakte Verteilung von U unter H0 für große n1, n2 schwer zu bestimmen. Eine
für großes n1 + n2 asymptotisch gültige Prüfgröße erhält man durch folgende
Transformation von R1:
368
Sei
n1(n1 + 1)
U1 = n1n2 +
− R1 .
2
Die Zufallsvariable
Z=q
U1 − n12n2
n1 n2 (n1 +n2 +1)
12
ist für großes n1 + n2 annähernd standardnormalverteilt.
Der U-Test ist dann schließlich der Z-Test für die Variable Z mit bekannter Varianz
σ 2 = 1 und Nullhypothese H0 : µ = 0.
Die Nullhypothese des U-Tests wird dann abgelehnt, wenn µ = 0 abgelehnt werden
kann. Für ein Signifikanzniveau α ist das bekanntlich genau dann der Fall, wenn
|Z| ≥ z1−α/2 gilt.
369
Bemerkung: Die Näherung liefert für n1 + n2 > 60 brauchbare Resultate.
Bemerkung: Benutzt man U2 statt U1, dann dreht sich das Vorzeichen der Teststatistik Z um. Auf das Ergebnis des zweiseitigen Z-Tests hat das keinen Einfluss.
Bemerkung: In R ist in der Funktion wilcox.test für kleine Stichprobenumfänge
der exakte U-Test implementiert. Für große Stichproben wird die asymptotische Formel benutzt. Nur bei Vorliegen von Bindungen (Elemente mit gleichen Rängen) muss
auch bei kleinen Stichproben auf asymptotische Formeln zurückgegriffen werden, die
in der Regel aber auch brauchbare Ergebnisse liefern.
370
Beispiel:
> S1 <- c(4.4, 0, -0.6, -2.3)
> S2 <- c(-0.1, -11.1, 3.0, 5.6, 1.8,-1.5)
> wilcox.test(S1,S2, paired=FALSE)
Wilcoxon rank sum test
data: S1 and S2
W = 11, p-value = 0.9143
alternative hypothesis: true location shift is not equal to 0
371
Bemerkung: So wie viele Autoren wird auch in R der U-Test Wilcoxon zugeschrieben.
Um ihn vom Vorzeichen-Rang-Test nach Wilcoxon zu unterscheiden, bezeichnet man
ihn oft als Wilcoxon Test für unabhängige Stichproben.
Bemerkung: Die Funktion wilcox.test verwendet für kleine Stichprobenumfänge
die exakte Statistik und für n1 + n2 ≥ 50 die Approximation der Verteilung von
Z durch die Normalverteilung.
372
Vorlesung 8.2.2017
373
3.4.4 Der χ2-Test
Ein in der Praxis oft verwendeter Test ist der χ2-Test. Er soll hier in der einfachsten
Form besprochen werden.
Voraussetzungen des χ2 Test für zwei Stichproben: Seien X1, . . . , Xn1 und
Y1, . . . , Yn2 zwei unabhängige Stichproben von dichotom (binomial mit n = 1)
verteilten Zufallsvariablen. Dichotom bedeutet, dass Xi und Yi nur die Werte 0 oder
1 annehmen können.
Es gelte nun, dass X1, . . . , Xn1 , Y1, . . . , Yn2 unabhängig sind. Weiter gelte
P(Xi = 1) = p1 i = 1, . . . , n1
und
P(Yi = 1) = p2 i = 1, . . . , n2.
374
Beispiel: Es soll in einer Studie eine Placebo mit einem Medikament verglichen werden. Die Patienten der Gesamtstichprobe werden vor der Behandlung durch Zufall
zwei Gruppen S1 und S2 zugeordnet. Die Patienten in S1 erhalten ein Placebo,
wohingegen die Patienten in S2 mit dem Medikament behandelt werden. Für die n1
Patienten in der Placebogruppe S1 wird in den X1, . . . , Xn1 der Heilerfolg codiert:
0 keine Heilung beim i-ten Patienten der Placebogruppe.
Xi =
i = 1, . . . , n1
1 Heilung beim i-ten Patienten der Placebogruppe.
Entsprechend definiert man für die Medikamentengruppe:
0 keine Heilung beim i-ten Patienten der Medikamentengr.
Yi =
1 Heilung beim i-ten Patienten der Medikamentengr.
i = 1, . . . , n2
375
Die Heilwahrscheinlichkeit in der Placebogruppe ist also p1 und in der Medikamentengruppe p2. “Wirkt“ Medikament und Placebo gleich gut, dann gilt p1 = p2. Die
Nullhypothese des χ2-Tests lautet deshalb:
Nullhypothese und Alternative des χ2-Tests: Die Nullhypothese des χ2-Tests
lautet
H 0 : p 1 = p2 .
Die Alternative ist damit
H1 : p1 6= p2.
376
Die Realisierung (Ergebnis des Experiments) der X1, . . . , Xn1 , Y1, . . . , Yn2 kann
kompakt in einer Vierfeldertafel oder allgemeiner Kreuztabelle zusammengefasst werden. Dazu berechnet man
n1
X
N11 =
Xi
i=1
und
N21 =
n2
X
Yi
i=1
die Anzahl der Heilungen in den beiden Gruppen. Entsprechend sind dann
N12 = n1 − N11
und
N22 = n2 − N21
die Anzahl der Nicht-Heilungen in der Placebo- bzw. Medikamentengruppe.
377
Die Darstellung
Placebo
Medikament
Heilung
N11
N21
keine Heilung
N12
N22
heißt Kreuztabelle oder Vierfeldertafel und fasst das Ergebnis des Experiments in
prägnanter Form zusammen.
Die Nullhypothese H0 : p1 = p2 wird nun auf folgende Art getestet:
378
Ist H0 wahr, dann ist die Heilwahrscheinlichkeit in beiden Gruppen gleich
p = p 1 = p2 .
Die gemeinsame Heilwahrscheinlichkeit p wird nun aus der Gesamtstichprobe geschätzt:
Anzahl der Heilungen in beiden Gruppen
N11 + N21
=
Anzahl aller Studienteilnehmer
N11 + N21 + N12 + N22
Aus diesem p̂ können nun die erwarteten Häufigkeiten für die Besetzung der vier
Zellen berechnet werden:
p̂ =
379
E11 :=
E21 :=
E12 :=
E21 :=
N11 + N21
n1p̂ = (N11 + N12)
N11 + N21 + N12 + N22
N11 + N21
n2p̂ = (N21 + N22)
N11 + N21 + N12 + N22
N12 + N22
n1(1 − p̂) = (N11 + N12)
N11 + N21 + N12 + N22
N12 + N22
n2(1 − p̂) = (N21 + N22)
N11 + N21 + N12 + N22
Die Idee des χ2 Tests ist nun, die erwarteten Zellhäufigkeiten E11, E21, E12 und
E22 mit den tatsächlich beobachteten N11, N21, N12 und N22 zu vergleichen.
Große Abweichungen sprechen gegen die Nullhypothese.
380
Das führt zu folgender Definition der Teststatistik X für den χ2 Test:
(N11 − E11)2 (N21 − E21)2 (N12 − E12)2 (N22 − E22)2
X=
+
+
+
E11
E21
E12
E22
Für kleine Fallzahlen n1 bzw. n2 ist die Verteilung von X unter H0 schwierig
zu bestimmen. Für große n1 und n2 kann eine Näherung der Verteilung von X
angegeben werden. Es ist die χ2-Verteilung mit einem Freiheitsgrad.
381
Die χ2-Verteilung mit einem Freiheitsgrad: Die χ2-Verteilung mit einem
Freiheitsgrad ist eine stetige Verteilung mit der Dichtefunktion
(
0
t≤0
t
1
.
f1(t) :=
√1 t− 2 e− 2 t > 0
2π
Die Dichte der χ2-Verteilung mit einem Freiheitsgrad ist nicht beschränkt.
382
0.0
0.5
f
1.0
1.5
Dichte der Chiquadratverteilung mit einem Freiheitsgrad
383
0
1
2
3
x
4
5
Die Nullhypothese H0 : p1 = p2 wird nur abgelehnt, wenn die Statistik X groß
ist. Für das Signifikanzniveau α = 0.05 ist der Schwellenwert
> qchisq(0.95,df=1)
[1] 3.841459
384
Beispiel:
Placebo
Medikament
Heilung
30
50
keine Heilung
70
150
Zunächst berechne man p̂ unter H0:
p̂ = 80/300 = 0.267.
Die erwartete Anzahl der Heilungen in der Placebogruppe ist daher 80/3 und in
der Medikamentengruppe 160/3. Entsprechend ist die erwartete Anzahl der NichtHeilungen in der Placebogruppe 220/3 und in der Medikamentengruppe 440/3.
385
Daraus folgt
X=
2
(30 − 80
)
3
80
3
+
2
)
(50 − 160
3
160
3
+
2
)
(70 − 220
3
220
3
+
2
)
(150 − 440
3
440
3
> X <- (30-80/3)^2/(80/3)+(50-160/3)^2/(160/3)+
+ (70-220/3)^2/(220/3)+(150-440/3)^2/(440/3)
> X
[1] 0.8522727
Da X < 3.841459 ist, kann die Nullhypothese nicht auf dem 5% Niveau abgelehnt
werden.
386
Der P-Wert des χ2-Tests kann wieder nach der allgemeinen Regel bestimmt werden,
dass der P-Wert das kleinste Signifikanzniveau ist, auf dem die H0 gerade noch
abgelehnt werden kann. Er ist demnach die Fläche unter der Dichtefunktion der
χ2-Verteilung mit einem Freiheitsgrad im Bereich (X, ∞).
> P.Wert <- 1-pchisq(X,df=1)
> P.Wert
[1] 0.3559102
387
Natürlich ist der χ2-Test in R als Funktion implementiert:
> M <- matrix(c(30,50,70,150), ncol=2)
> chisq.test(M, correct=FALSE)
Pearson's Chi-squared test
data: M
X-squared = 0.85227, df = 1, p-value = 0.3559
Da beim χ2-Test eine diskrete Verteilung durch die stetige χ2-Verteilung approximiert wird, erhält man insbesondere für kleine Fallzahlen bessere Resultat, wenn der
Wert der Statistik korrigiert wird (Stetigkeitkorrektur nach Yates).
388
> chisq.test(M)
Pearson's Chi-squared test with Yates' continuity correction
data: M
X-squared = 0.61577, df = 1, p-value = 0.4326
Für ganz kleine Fallzahlen ist der χ2-Test ungeeignet. Er wird dann in der Regel
durch den exakten Test nach Fisher ersetzt.
389
> fisher.test(M)
Fisher's Exact Test for Count Data
data: M
p-value = 0.4063
alternative hypothesis: true odds ratio is not equal to 1
95 percent confidence interval:
0.723193 2.261002
sample estimates:
odds ratio
1.284584
390
Ende der Vorlesung Statistik I
391
4. Konfidenzintervalle
Konfidenzintervalle für eine Stichprobe normalverteilter Daten
Sei S = {X1, . . . , Xn} eine Stichprobe unabhängiger normalverteilter Zufallsvariablen mit Erwartungswert µ und Varianz σ 2.
Eine Aufgabe der beschreibenden Statistik ist die möglichst genaue Bestimmung der
unbekannten Größen µ und σ 2.
392
Die Ausdrücke (Schätzer)
n
n
X
1X
1
µ̂ =
Xi und σˆ2 =
(Xi − µ̂)2
n
n−1
i=1
i=1
werden für große n nahe bei µ bzw. σ 2 liegen (Gesetz der großen Zahlen). Da n
in der Regel eine fest vorgegebene Zahl ist, erhebt sich die Frage, wie gut diese
Punktschätzer für beliebige n sind.
Ziel ist die Angabe eines Bereichs (Intervalls), in dem die unbekannten Parameter
mit hoher Wahrscheinlichkeit liegen.
Ein solcher Bereich heißt Konfidenzintervall.
393
Bestimmung des Konfidenzintervalls mit Hilfe des Einstichproben t-Tests:
Definition: Das zweiseitige (1 − α)100% Konfidenzintervall besteht aus allen reellen Zahlen µ0 ∈ IR, für die der zweiseitige Einstichproben t-Test die Nullhypothese
H0 : µ = µ0 nicht auf dem Niveau α ablehnen kann.
Umgekehrt werden damit alle reellen Zahlen µ0, die außerhalb des Konfidenzintervalls liegen, als mögliche Werte für µ auf dem Niveau α ausgeschlossen.
Die Wahrscheinlichkeit, dass µ nicht im Konfidenzintervall liegt ist deshalb gleich
der Irrtumswahrscheinlichkeit 1. Art des t-Tests und damit gleich α.
394
Zur praktischen Berechnung des Konfidenzintervalls stellt man folgende Überlegung
an:
Die Nullhypothese H0 : µ = µ0 wird genau dann auf dem Niveau α abgelehnt,
wenn der Betrag der t-Statistik
µ̂ − µ0 √
n
T = p
σˆ2
größer als der kritische Wert t1− α ;n−1 ist.
2
Die Zahl t1− α ;n−1 ist das 1 − α
2 Perzentil der t-Verteilung mit n − 1 Freiheits2
graden. In R wird es mit qt(1-alpha/2,df=n-1) berechnet.
395
H0 wird also genau dann nicht abgelehnt, wenn
µ̂ − µ0 √
< p
n < t1− α ;n−1
2
σˆ2
gilt. Löst man diese Ungleichungen nach µ0 auf, erhält man die Grenzen des zweiseitigen (1 − α)100% Konfidenzintervalls:
p
p
σˆ2
σˆ2
µ̂ − t1− α ;n−1 √ < µ0 < µ̂ + t1− α ;n−1 √
2
2
n
n
−t1− α ;n−1
2
396
Das Intervall
p
p
σˆ2
σˆ2
CI(1 − α)100% = (µ̂ − t1− α ;n−1 √ , µ̂ + t1− α ;n−1 √ )
2
2
n
n
heißt das zweiseitige (1 − α)100% Konfidenzintervall für µ.
397
Beispiel: Sei S = {1, 4.5, 10, −1, −1.2, 0.1} eine Stichprobe aus einer normalverteilten Population.
Berechnung der 90%, 95% und 99% Konfidenzintervalle.
> S <- c(1,4.5,10,-1,-1.2,0.1)
> t95 <- qt(0.95,5)
> t95
[1] 2.015048
> t97.5 <- qt(0.975,5)
> t97.5
398
[1] 2.570582
> t99.5 <- qt(0.995,5)
> t99.5
[1] 4.032143
> mu <- mean(S)
> mu
[1] 2.233333
> sd <- sd(S)
> sd
[1] 4.330666
> # 90\% Konfidenzintervall:
> paste("(",mu-sd/sqrt(n)*t95,",", mu+sd/sqrt(n)*t95, ")", sep="")
[1] "(-0.526228636079019,4.99289530274569)"
> # 95\% Konfidenzintervall:
> paste("(",mu-sd/sqrt(n)*t97.5,",", mu+sd/sqrt(n)*t97.5, ")", sep="")
[1] "(-1.28701881640229,5.75368548306895)"
> # 99\% Konfidenzintervall
> paste("(",mu-sd/sqrt(n)*t99.5,",", mu+sd/sqrt(n)*t99.5, ")", sep="")
[1] "(-3.28859287940922,7.75525954607589)"
Direkt aus der Formel für das Konfidenzintervall folgt:
• Je größer die Streuung σ der Daten, umso breiter ist das Konfidenzintervall.
• Je höher die Sicherheit (1−α)100%, desto breiter ist das Konfidenzintervall.
• Mit steigenden n strebt die Breite des Konfidenzintervalls gegen Null.
399
Der letzte Punkt ist eine Bestätigung des Gesetzes der großen Zahlen. Da der Einfluss
von n auf t1− α ;n−1 für große n immer kleiner wird, ist die Breite des Konfidenz2
√
intervalls umgekehrt proportional zu n.
Will man beispielsweise die Genauigkeit der Schätzung von µ̂ um den Faktor 10
steigern, muss die Fallzahl n um das 100 fache erhöht werden. Der Schätzer µ̂ wird
mit steigenden n nur sehr langsam besser!
400
Bemerkung: Für n ≥ 30 unterscheiden sich die Perzentile der t-Verteilung und die
der Standardnormalverteilung nur unwesentlich
> qt(0.975,30)
[1] 2.042272
> qnorm(0.975)
[1] 1.959964
401
Insbesondere für das 95% Konfidenzintervall wird oft t0.975;n−1 ≈ z0.975 ≈
1.96 ≈ 2 angenommen. Das zweiseitige 95% Konfidenzintervall ist dann in dieser
Näherung
p !
p
σˆ2
σˆ2
µ̂ − 2 √ , µ̂ + 2 √
n
n
402
5. Korrelationsanalyse
5.1 Die Kovarianz von zwei Zufallsvariablen
Definition Kovarianz: Seien
X : Ω −→ IR
und
Y : Ω −→ IR
zwei Zufallsvariablen auf dem gleichen Wahrscheinlichkeitsraum Ω. Existieren E(XY ),
E(X) und E(Y ), dann ist die Kovarianz von X und Y als
Cov(X, Y ) := E(XY ) − E(X)E(Y )
definiert.
403
Die Kovarianz ist eine Größe, die den Zusammenhang der Variablen X und Y beschreibt.
Beispiel: Man betrachte den Laplaceraum Ω = {1, 2, 3, 4, 5, 6} und die Zufallsvariablen X(i) = i und Y (i) = i2.
7
1
(1 + 2 + 3 + 4 + 5 + 6) =
6
2
1 2
(1 + 22 + 32 + 42 + 52 + 62) =
E(Y ) =
6
1 3
E(XY ) =
(1 + 23 + 33 + 43 + 53 + 63) =
6
Daraus folgt
147 7 91
245
Cov(X, Y ) =
− ∗
=
.
2
2 6
12
E(X) =
91
6
147
2
404
Bemerkung: Sind X und Y unabhängige Variablen, dann gilt Cov(X, Y ) = 0. Die
Umkehrung dieser Aussage gilt im Allgemeinen nicht.
Bemerkung: Es gilt
Var(X) = Cov(X, X).
Schätzung der Kovarianz aus einer Stichprobe: Seien
(X1, Y1), . . . , (Xn, Yn)
unabhängige identisch wie (X, Y ) verteilte Paare von Zufallsvariablen, dann ist
n
X
1
c
Cov((X
(Xi − X̄)(Yi − Ȳ )
1 , Y1 ), . . . , (Xn , Yn )) =
n−1
i=1
ein Schätzer für Cov(X, Y ).
405
In R kann die Kovarianz mit cov aus einer Stichprobe berechnet werden:
> x <- c(1,2.1,3,4,5.5,6.6,6.3)
> y <- c(0,10,11,45,46,47,80)
> cov(x,y)
[1] 54.6881
406
Beispiel: Kovarianz zwischen Gewicht und Größe in Schueler.txt:
200
> Schueler <- read.table("Schueler.txt", header=TRUE)
> plot(Schueler$Gewicht,Schueler$Groesse,
+ xlab="Gewicht [kg]", ylab="Größe [cm]")
●
●
●●
●●
●
●
●
●●
●
●●●●
●●
●● ●●●
●●
●●
●
●
●
●●●
●
● ●●●●
●
●
●
●
●
●●
● ●●
● ●●●
●
●
●
●
●
●
●●●
●●
● ● ●●●
● ●
●●
●
● ● ●●● ●●●
●●●●●●
● ●●
●●
●●
● ●
●●●
●
●
●
● ●●●
●●
●
●
●
●●
●●
●
●
●●
● ●●
●●
●
●
●
●● ●●●
●●
●
● ●
●●
●●
●●●
●●●
●●
●● ●
●●
●●
●●●
●
●●
●
●
●●●
●●
●
●
●
●
●
●
●
●
●
●●● ●●
●●
●●
●
●●
●●
●●●●
●●
●
●●
●
●●●
● ●
●●
●●
●● ●●
●● ●
●●
●●
●●
● ●●●
●●
●
●
●
●
●
●●●
●
●●
● ●●●●
●
● ●
●
●●
●●●●
●●
●●
●●
●●
●●●●
●●
●● ●
●●● ●●●
●●
●●
●
●
●
●
●
●●●●●
●
● ●
●●
●
●
●●
●
●
●
●●●
●
●●●
●
●●
●●
●●
●●
● ●
●
●
●
●
●
●
●
●
●
●
●● ●●●
●●
●●
●●
●● ●
●●●
● ●●
●●●
●
●●
●●
● ●●●
●●
●
●● ●●
●●
●●● ●
●●● ●
●●
●●
●● ●
●●
●
●
●●
●●●●
●●●
●
●●
●●
●
●●
●●
●
●●
●●
●●●●
●●
●●
●● ●●
●●●
●●
●●
●●
●●
●●●
●●
●
●
●
●
●
●
●●
●●● ●
●●● ●●●●●●●
● ●
●
●●
●●●
●
● ●
●
● ●
●
●●
●●
●●
●●●●
●●
●●
●●
●
● ●
●
●
●●●●
●●
●
● ●●
●
●
● ●●
●●
●●●●
●●
● ●
●●
●●
●● ● ●●● ●
●●
●
●●
●●
●
●●
●●
● ●●
●●
●● ●●
●● ●
●
●
● ●
●
●●
●●
●●
●●
●
●●●
●
●
●● ● ●
●●●●● ●
●●●
● ●
● ●
●●
●
●●
●
●●
●
●
●●
● ●●●
●
●
●
● ● ●
●
●
●
●
●
● ●
●
160
140
120
Größe [cm]
180
●
40
50
●
●
●
60
●
●
70
Gewicht [kg]
407
Im Streudiagramm ist ein deutlicher Zusammenhang zwischen Gewicht und Größe
ersichtlich. Die Kovarianz beträgt:
> cov(Schueler$Gewicht,Schueler$Groesse)
[1] 84.31632
Die Kovarianz ist linear sowohl in X als auch in Y :
Cov(X, λY + Z) = λCov(X, Y ) + Cov(X, Z)
und
Cov(λX + Z, Y ) = λCov(X, Y ) + Cov(Z, Y )
für beliebiges λ ∈ IR und eine beliebige auf Ω definierte Zufallsvariable Z, für die
Cov(Z, Y ) und Cov(Z, X) existieren.
Daraus folgt insbesondere, dass Cov(λX, Y ) = λCov(X, Y ) gilt. Die Kovarianz
ist also von der Skalierung der Variablen X und Y abhängig. Ist beispielsweise X
eine Messgröße, die in Metern gemessen wird, dann vergrößert sich die Kovarianz
um den Faktor 100, wenn X in cm umgerechnet wird.
408
5.2 Korrelationskoeffizient nach Pearson
Da die Kovarianz von der Skalierung der Variablen abhängt, ist sie als Maß für
den Zusammenhang zweier Variablen schlecht geeignet. Die normierte Version der
Kovarianz ist der Korrelationskoeffizient nach Pearson:
Definition: Die Größe
r = r(X, Y ) = p
Cov(X, Y )
Var(X)Var(Y )
heißt der Korrelationskoeffizient nach Pearson der Variablen X und Y .
r ist stets eine dimensionslose Größe zwischen −1 und 1.
409
Es gilt:
1. Sind X und Y unabhängig, dann gilt r = 0.
2. Gilt X = aY + b mit a, b ∈ IR und a 6= 0, dann ist r = 1 für a > 0 und
r = −1 für a < 0. r = ±1 heißt perfekte Korrelation. Sie liegt vor, wenn
die eine Variable ein linearer Ausdruck der anderen ist.
Bemerkung: Ist Y = f (X) und f ist eine nicht lineare Funktion, dann gilt im
Allgemeinen r = r(X, Y ) 6= ±1. Ist beispielsweise X ∼ N (0, 1) standardnormalverteilt und Y = X 2, dann gilt r(X, Y ) = 0 (Übung).
410
Die Berechnung (Schätzung) des Korrelationskoeffizienten nach Pearson für eine
verbundene Stichprobe
(X1, Y1), . . . , (Xn, Yn)
c
erfolgt, indem man zunächst die Kovarianz Cov((X
1 , Y1 ), . . . , (Xn , Yn )) und die
Varianzen σˆ2(X1, . . . , Xn) und σˆ2(Y1, . . . , Yn) aus den Stichproben berechnet.
c
Cov((X
1 , Y1 ), . . . , (Xn , Yn ))
r̂ = q
σˆ2(X1, . . . , Xn)σˆ2(Y1, . . . , Yn)
ist dann der empirische Korrelationskoeffizient nach Pearson.
411
In R wird der Pearson Korrelationskoeffizient mit der Funktion cor berechnet:
> x <- c(1,2.1,3,4,5.5,6.6,6.3)
> y <- c(0,10,11,45,46,47,80)
> cor(x,y)
[1] 0.8960473
Der Korrelationskoeffizient r ist empfindlich gegenüber Ausreißern, d.h. Wertepaaren, die stark “aus dem Rahmen fallen“. Ein einziger solcher Datenpunkt kann den
Wert von r stark verändern:
412
> x <- c(1,2.1,3,4,5.5,6.6,6.3,200)
> y <- c(0,10,11,45,46,47,80,0)
> cor(x,y)
[1] -0.394641
Hier wurde durch den einen zusätzlichen Punkt (200, 0) eine positive zu einer
negativen Korrelation.
Da in der empirischen Forschung oft Daten erzeugt und analysiert werden, die Ausreißer enthalten, ist der Pearson Korrelationskoeffizient oft ein ungeeignetes Maß für
den Zusammenhang von zwei Variablen.
413
5.3 Der Korrelationskoeffizient nach Spearman
Die nicht-parametrische Alternative ist der Korrelationskoeffizient nach Spearman.
Wie bei den nicht-parametrischen Tests wird er aus den Rängen der Variablenwerten
berechnet:
Sei
Rang:Xi 7−→ rXi
und
Rang:Yi 7−→ rYi
die Abbildung, die X1, . . . , Xn bzw, Y1, . . . , Yn ihre Ränge zuordnet. Der Spearman Korrelationskoeffizient ρ ist dann der Pearson Korrelationskoeffizient der rangtransformierten Stichprobe
(rX1 , rY1 ), . . . , (rXn , rYn ).
414
Für die Berechnung des Spearman Korrelationskoeffizienten müssen die ursprünglichen Daten also zunächst in Ränge transformiert werden.
Beispiel:
>
>
>
>
>
x <- c(1,2.1,3,4,5.5,6.6,6.3,200)
y <- c(0,10,11,45,46,47,80,0)
r_x <- rank(x)
r_y <- rank(y)
r_x
[1] 1 2 3 4 5 7 6 8
> r_y
[1] 1.5 3.0 4.0 5.0 6.0 7.0 8.0 1.5
415
> cor(r_x,r_y)
[1] 0.3952167
> cor(x,y,method="spearman")
[1] 0.3952167
Die Auswirkung eines Ausreißers auf den Spearman Korrelationskoeffizienten ist nicht
ganz so gravierend wie auf den von Pearson:
> #ohne Ausreißer:
> x <- c(1,2.1,3,4,5.5,6.6,6.3); y <- c(0,10,11,45,46,47,80)
> cor(x,y, method="pearson")
[1] 0.8960473
> cor(x,y, method="spearman")
[1] 0.9642857
416
> #mit Ausreißer:
> x <- c(1,2.1,3,4,5.5,6.6,6.3,200); y <- c(0,10,11,45,46,47,80,0)
> cor(x,y, method="pearson")
[1] -0.394641
> cor(x,y, method="spearman")
[1] 0.3952167
417
• Beide Korrelationskoeffizienten beschreiben den Zusammenhang von zwei Zufallsvariablen. Ein |r| ≥ 0.9 gilt als hohe und |r| ≤ 0.5 als mäßige oder
schlechte Korrelation. Gilt r = 0, dann sind die Variablen unkorreliert.
• Ist der Korrelationskoeffizient positiv, dann ist der Zusammenhang gleichsinnig,
d.h. wenn die eine Variable einen großen Wert annimmt, dann wird auch die
andere einen großen Wert annehmen. Bei einem negativen Korrelationskoeffizienten verhalten sich die beiden Variablen gegensinnig. Nimmt die eine Variable
große Werte an, dann nimmt die andere mit hoher Wahrscheinlichkeit kleine
Werte an.
• Sind X und Y negativ korreliert, dann sind X und −Y positiv korreliert.
418
6. Regressionsanalyse
6.1 Die Modellgleichung der einfachen Regressionsanalyse
Bisher bestanden unsere Stichproben aus Daten, die durch unabhängige Zufallsvariablen Y1, . . . , Yn aus der gleichen Verteilung beschrieben wurden. Insbesondere
wurde angenommen, dass alle Yi gleichen Erwartungswert haben.
Von dieser Voraussetzung soll nun abgegangen werden. Wir nehmen an, dass
Yi = a + bXi + i i = 1, . . . , n
gilt. Die 1, . . . , n seien unabhängig und normalverteilt mit Erwartungswert 0 und
Varianz σ 2.
419
Die X1, . . . , Xn seien keine Zufallsvariablen, sondern bekannte feste Werte. Die
Erwartungswerte der Yi hängen dann wegen
E(Yi) = a + bXi i = 1, . . . , n
deterministisch von den Werten Xi ab.
Beispiel: Es soll der Zusammenhang zwischen Dosisstufen eines Antibiotikums und
der Anzahl von Keimen in einem Nährmedium untersucht werden. Die Dosisstufen
(Xi) des Antibiotikums werden vom Experimentator vorgegeben. Die Anzahl der
Keime (Yi) wird gemessen. Die Dosierung ist deshalb nicht zufällig, die Anzahl der
Keime jedoch schon.
420
ProbNr.
1
2
3
4
5
6
7
8
9
10
Dosis (µg/ml): X
0.01
0.02
0.03
0.04
0.05
0.06
0.07
0.08
0.09
0.1
log10(Anzahl Keime/ml): Y
9.7
8.4
6.4
6.9
4.6
4.1
3.0
3.9
0.9
-0.5
Eine graphische Darstellung (Streudiagramm) legt einen Zusammenhang zwischen
der Dosierung und der Keimanzahl nahe:
421
>
>
>
+
+
Dosis <- seq(0.01,0.1,0.01)
AnzKeime <- c(9.7, 8.4, 6.4, 6.9, 4.6, 4.1, 3.0, 3.9, 0.9, -0.5)
plot(x=Dosis,y=AnzKeime,
xlab=expression(paste("Dosis [",mu,"g/ml]")),
ylab=expression(paste(log[10],"(Anzahl Keime)")))
422
10
●
8
●
6
●
●
4
●
●
2
●
●
0
log10(Anzahl Keime)
●
●
423
0.02
0.04
0.06
Dosis [µg/ml]
0.08
0.10
Auch die Korrelationskoeffizienten nach Pearson und Spearman legen einen engen
Zusammenhang zwischen Dosierung und Keimanzahl nahe:
> cor(Dosis, AnzKeime)
[1] -0.9710604
> cor(Dosis, AnzKeime, method="spearman")
[1] -0.9757576
424
Eine weitere Beobachtung am Streudigramm ist, dass die Punkte nahe an einer
Geraden liegen. Das legt die Vermutung nahe, dass die Voraussetzungen der linearen
Regressionsanalyse erfüllt sind:
log10 (AnzKeime)i = a + b ∗ Dosisi + i i = 1, . . . , 10
mit unabhängigen i ∼ N (0, σ 2). Die Größen a, b und σ 2 sind feste aber unbekannte reelle Zahlen. Sie heißen die Modellparameter der Regressionsgleichung.
Die Geradenparameter a und b beschreiben das lineare “Gesetz“, das einem erlaubt,
aus einer Dosierung des Antibiotikums auf die erwartete logarithmierte Keimanzahl zu
schließen. Die Varianz σ 2 kann als Maß für die Güte des Modells angesehen werden.
Je kleiner σ 2 ist, umso besser kann aus der Dosierung die Keimanzahl ausgerechnet
werden.
425
6.2 Die Kleinste-Quadrate-Schätzung der Modellparameter
Da die Modellparameter a, b und σ 2 unbekannt sind, müssen sie aus den Daten
(Stichprobe) geschätzt werden. Die wichtigste Strategie zur Bestimmung von Schätzern von a und b ist die Methode der kleinsten Quadrate.
Die Idee ist, aus allen Geraden der Ebene diejenige auszuwählen, die am besten die
Abhängigkeit der Y- von den X-Werten wiedergibt.
426
Kleinstquadrateschätzung: Seien (x1, y1), . . . , (xn, yn) ∈ IR2 Paare reeller Zahlen. Für jede Gerade in der Ebene
La,b : y = a + bx
ist die Summe der Quadrate der vertikalen Abstände der Punkte zur Gerade durch
S(a, b) :=
n
X
(yi − a − bxi)2
i=1
gegeben. Die Kleinstquadrateschätzung ist das Parameterpaar (â, b̂), für das S
minimal wird.
Da S(a, b) selbst ist eine auf IR2 definierte Funktion ist, kann das Minimum (â, b̂)
mit Hilfsmitteln aus der Analysis bestimmt werden.
427
Ein wichtiges Resultat der höherdimensionalen Analysis besagt, dass unter gewissen Voraussetzungen an die mehrdimensionale Funktion die ersten Ableitungen an
Maxima und Minima verschwinden.
Für die Funktion S können die partiellen Ableitungen leicht bestimmt werden:
n
X
∂S
= −2
(yi − a − bxi)
∂a
∂S
= −2
∂b
i=1
n
X
xi(yi − a − bxi)
i=1
428
Daraus folgen sofort die notwendige Bedingung
n
X
(yi − â − b̂xi) = 0
(1)
xi(yi − â − b̂xi) = 0
(2)
i=1
n
X
i=1
an ein Minimum (â, b̂) von S. Aus (1) folgt nȳ − nâ − nb̂x̄ = 0 und damit
â = ȳ − b̂x̄
(3)
429
Zieht man von Gleichung (2) das x̄ fache von Gleichung (1) ab und setzt anschließend
(3) ein, folgt:
0 =
=
n
X
i=1
n
X
i=1
=
=
n
X
i=1
n
X
xi(yi − â − b̂xi) =
xi(yi − â − b̂xi) − x̄
n
X
(yi − â − b̂xi) =
|i=1
{z
=0 (1)
}
(xi − x̄)(yi − â − b̂xi) =
(xi − x̄)(yi − ȳ + b̂x̄ − b̂xi) =
i=1
430
=
n
X
(xi − x̄)(yi − ȳ − b̂(xi − x̄)) =
i=1
= (n − 1)sxy − b̂(n − 1)sxx
s
xy
Daraus folgt b̂ = sxx
.
sxx und sxy heißen die empirische Varianz von x bzw. Kovarianz von x mit y. Sie
sind folgendermaßen definiert:
n
1X
x̄ =
xi
n
(4)
1
ȳ =
n
(5)
i=1
n
X
yi
i=1
n
1 X
sxx =
(xi − x̄)2
n−1
(6)
1
sxy =
n−1
(7)
i=1
n
X
(xi − x̄)(yi − ȳ)
i=1
Die Funktion S hat nur den einen Extrempunkt (â, b̂) bei
sxy
b̂ =
und â = ȳ − b̂x̄.
sxx
431
Bemerkung: S(a, b) ist die Summe der Quadrate der vertikalen Abstände der Punkte
zur Geraden L : y = a + bx. Die Variablen X und Y sind deshalb nicht austauschbar! Oft wird die X Variable als unabhängige und die Y Variable als abhängige
Variable bezeichnet. Das spiegelt die Situation der linearen Regressionsanalyse wider,
in der davon ausgegangen wird, dass die X-Werte bekannt, oft vom Experimentator
vorgegeben, sind.
Bemerkung: Die spezielle Wahl der Funktion S(a, b) ist die üblichste, aber nicht
die einzige Möglichkeit. So kann es z.B. durchaus sinnvoll sein, statt der Summe
der Abweichungsquadrate die Summe der Beträge der vertikalen Abweichungen zu
betrachten. Auch die Quadratsumme der Abstände wäre eine mögliche Wahl für S.
Jede Wahl für S führt zu einem anderen Optimierungsproblem und damit auch zu
einer anderen Regeressionsgeraden.
432
Für das Beispiel, das die Abhängigkeit der Keimanzahl von der Dosierung des Antibiotikums untersucht erhält man:
>
>
>
>
>
>
>
Dosis <- seq(0.01,0.1,0.01)
AnzKeime <- c(9.7, 8.4, 6.4, 6.9, 4.6, 4.1, 3.0, 3.9, 0.9, -0.5)
s_xx <- var(Dosis)
s_xy <- cov(Dosis, AnzKeime)
b <- s_xy/s_xx
a <- mean(AnzKeime) - b*mean(Dosis)
a; b
[1] 10.37333
[1] -102.4242
433
In R können lineare Regressionsmodelle bequem mit der Funktion lm berechnet werden:
> lm(AnzKeime~Dosis)
Call:
lm(formula = AnzKeime ~ Dosis)
Coefficients:
(Intercept)
10.37
Dosis
-102.42
434
Der Graph der Geraden
y = â + b̂x
wird oft zusammen mit den Punkten (xi, yi),
gramm eingezeichnet.
i = 1, . . . , n in ein Streudia-
435
10
> plot(x=Dosis,y=AnzKeime)
> abline(a=a,b=b)
●
8
●
●
●
4
●
●
2
●
●
0
AnzKeime
6
●
●
0.02
0.04
0.06
0.08
0.10
Dosis
436
6.3 Der t-Test für die Geradensteigung b
Man darf nie außer Acht lassen, dass â und b̂ Schätzungen der Geradenparameter
a und b sind. Insbesondere bei kleinem Stichprobenumfang n können sie stark von
den tatsächlichen Parametern a und b abweichen.
Besonders interessant ist der Fall b = 0. In diesem Fall gilt
yi = a + i i = 1, . . . , n
mit unabhängigen i ∼ N (0, σ 2). Die Erwartungswerte aller yi sind in diesem
Fall a und sie hängen also nicht mehr von den xi ab. Dieser Fall besagt, dass die
y-Werte unabhängig von den x-Werten sind.
437
Gesucht ist somit ein Test der Nullhypothese
H0 : b = 0.
Kann diese H0 abgelehnt werden, dann ist statistisch nachgewiesen, dass die Erwartungswerte E(yi) von den xi abhängen.
Um eine geeignete Teststatistik der Hypothese b = 0 aufstellen zu können, muss
zunächst σ 2, der dritte unbekannte Parameter der Regressionsgleichung, geschätzt
werden. σ 2 ist die Varianz der Fehlerterme i und steuert die Streuung der y-Werte
um ihren Erwartungswert.
438
Die vertikalen Abstände der Punkte zur Gerade y = â + b̂x heißen die Residuen ri
der Regressionsgleichung:
ri = yi − â − b̂xi
Die Größen yˆi = â + b̂xi,
gesagten Werte.
i = 1, . . . , n sind die durch die Regression vorher-
Die Residuen ri sind wiederum Schätzer für die unbekannten Fehlerterme i.
439
Man kann zeigen, dass die unbekannte Varianz σ 2 der Fehlerterme i durch
n
n
X
X
1
1
σˆ2 =
ri2 =
(yi − â − b̂xi)2
n−2
n−2
i=1
i=1
1 begründet sich darin, dass die Schätzungeschätzt werden kann. Der Vorfaktor n−2
Pn
gen â und b̂ der beiden Modellparameter in der Quadratsumme i=1 ri2 enthalten
1 notwendig ist, um einen erwartungssind. Man kann zeigen, dass der Faktor n−2
treuen Schätzer für σ 2 zu erhalten. Es gilt
E(b̂) = b
(8)
b̂ ist damit ein erwartungstreuer Schätzer von b. Aus
E(yi) = a + bxi i = 1, . . . , n
folgt E(ȳ) = a + bx̄ und damit
E(yi − ȳ) = b(xi − x̄)
Damit folgt Gleichung (8) aus
(9)
440
E(b̂) = E
=
sxy
sxx
=
1
E
sxx(n − 1)
n
X
!
(xi − x̄)(yi − ȳ)
=
i=1
n
X
1
(xi − x̄) E(y
− ȳ)} =
=
i{z
|
sxx(n − 1)
b
=
sxx(n − 1)
i=1
n
X
=b(xi −x̄) (9)
(xi − x̄)2 =
i=1
= b
Ist H0 : b = 0 wahr, dann bedeutet das insbesondere, dass b̂ eine normalverteilte
Zufallsvariable mit Erwartungswert 0 ist. Die Varianz von b̂ kann ähnlich ausgerechnet werden:
441
Var(b̂) = Var
sxy
sxx
=
n
X
1
= 2
Var(
(xi − x̄)(yi − ȳ)) =
2
sxx(n − 1)
1
= 2
Var(
2
sxx(n − 1)
i=0
n
X
(xi − x̄)yi − ȳ
i=0
n
X
(xi − x̄)) =
|i=0 {z
=0
}
n
X
1
2
2=
= 2
σ
(x
−
x̄)
i
sxx(n − 1)2
i=0
σ2
=
sxx(n − 1)
Damit kann die Zufallsvariable b̂ zu einer standardnormalverteilten Zufallsvariable
442
Z=r
standardisiert werden.
b̂
σ2
sxx (n−1)
b̂
=q
σ2
sxx
√
n−1
Ersetzt man schließlich den unbekannten Parameter σ 2 durch den bekannten Schätzer σˆ2, dann erhält man mit
b̂
T =q
σˆ2
sxx
√
n−1
eine Teststatistik, die unter H0 t-verteilt mit n − 2 Freiheitsgraden ist.
443
Für unser Beispiel erhalten wir:
>
>
>
>
>
sigma2 <- 1/8*sum((AnzKeime-a-b*Dosis)^2)
SE <- sqrt(sigma2/sum((Dosis-mean(Dosis))^2))
T <- b/SE
P <- 2*pt(-abs(T), df=8)
T; P
[1] -11.49993
[1] 2.963368e-06
444
Direkt mit lm erhält man das gleiche Ergebnis:
> summary(lm(AnzKeime~Dosis))
Call:
lm(formula = AnzKeime ~ Dosis)
Residuals:
Min
1Q Median
-0.9006 -0.5370 -0.1658
3Q
0.2820
Max
1.7206
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept)
10.3733
0.5526
18.77 6.70e-08 ***
445
Dosis
-102.4242
8.9065 -11.50 2.96e-06 ***
--Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
Residual standard error: 0.809 on 8 degrees of freedom
Multiple R-squared: 0.943,
Adjusted R-squared:
F-statistic: 132.2 on 1 and 8 DF, p-value: 2.963e-06
0.9358
Wiederholung der wichtigsten in der Vorlesung besprochenen Themen.
• Kenntnis wichtiger Lageparameter wie arithmetischer Mittelwert, empirische Varianz, Standardabweichung, Median und das allgemeine α ∗ 100% Perzentil
(1.1, S. 10 ff).
• Die wichtigsten Diagrammtypen: Histogramm, Balkendiagramm, Boxplot (Was
bedeutet die Box, die Antennen und die Ausreißer?) und Streudiagramm (1.1.2.
S. 21 ff)
446
• Begründung, warum man schließende Statistik braucht. Gesetz der großen Zahlen.
• Elementare Wahrscheinlichkeitsrechnung (2., S. 43 ff): Endlicher Wahrscheinlichkeitsraum, Elementarereignis, Ereignis und wichtige Rechenregeln für Ereignisse (S. 46).
• Explizite Angabe des Wahrscheinlichkeitsraums und Anwendung der Rechenregeln für einfache Beispiele (2.2 S. 49 ff)
447
• Definition und Anwendung des Binomialkoeffizenten auf die Berechnung von
Wahrscheinlichkeiten im Lotto “6 aus 49“ (S. 56).
• Definition des Laplaceraums (S. 62).
• Wahrscheinlichkeitstheoretische Modelle in der Genetik: Mendelscher Erbgang
(dominant, rezessiv, Genotyp und Phänotyp, S. 64 ff).
448
• Hardy-Weinberg Bedingung und Gesetz. Was muss erfüllt sein, damit sich eine Population im Hardy-Weinberg Gleichgewicht befindet? Wie muss dann die
Verteilung der Genotypen sein (S. 70-72)?
• Mendelregeln (S. 74 ff)
449
• Unabhängige Ereignisse. Einfache Beispiele für abhängige und unabhängige Ereignisse (S. 77 ff).
• Bedingte Wahrscheinlichkeiten (S. 84). Zusammenhang zwischen bedingten
Wahrscheinlichkeiten und unabhängigen Ereignissen (S. 85). Berechnung von
bedingten Wahrscheinlichkeiten in einfachen Wahrscheinlichkeitsräumen (S. 87).
• Zusammenhang von P(A|B) mit P(B|A): Die Formel von Bayes (S. 91).
Herleitung der Formel von Bayes (S. 88 ff).
450
• Anwendung der Bayes Formel in der medizinischen Diagnostik. Definition der
Begriffe Sensitivität, Spezifität, Prävalenz, positiver und negativer prädiktiver
Wert (S. 93 ff).
• Welchen Einfluss haben hohe bzw. niedrige Werte von Prävalenz, Sensitivität
und Spezifität auf die prädiktiven Werte (S. 105 ff)?
451
• Die Binomialverteilung (S. 108 ff).
• Anwendung der Binomialverteilung (Münzwurf, Heilungen in der Medizin,...).
Man sollte erkennen, in welchen Situationen eine Modellierung mit der Binomialverteilung sinnvoll ist.
• Implementierung der Binomialverteilung in R (dbinom, pbinom, qbinom und
rbinom S. 119 ff).
452
• Abzählbar unendliche Wahrscheinlichkeitsräume (S. 123 ff)
• Die Poissonverteilung (S.126 ff).
• Implementation der Poissonverteilung in R (dpois, ppois, qpois und rpois)
(S. 127).
• Zusammenhang der Binomialverteilung mit der Poissonverteilung: Der Poissonsche Grenzwertsatz (S. 132).
• Anwendung der Poissonverteilung auf die Modellierung von Ereignishäufigkeiten. Begründung durch den Poissonschen Grenzwertsatz (Beispiele S. 134 ff,
Unfallhäufigkeit und DNA-Sequenzanalyse).
453
• Geometrische Verteilung (S. 138 ff).
• Der überabzählbare Wahrscheinlichkeitsraum IR (S. 141).
• Definition von Wahrscheinlichkeitsräumen durch Wahrscheinlichkeitsdichten. (S.
145).
• Berechnung von Wahrscheinlichkeiten durch Integration über die Wahrscheinlichkeitsdichte (S. 147).
• Zusammenhang zwischen Wahrscheinlichkeitsdichte und Wahrscheinlichkeitsverteilung (kumulative Verteilungsfunktion) (S. 152).
454
• Die Standardnormalverteilung, allgemeine Normalverteilung (S. 149 ff).
• Die Gleichverteilung (S. 161 ff).
• Zusammenfassung der wichtigsten Verteilungen (S. 169 ff). Man sollte wissen,
wie man die Definitionen der Verteilungen benutzt, um Wahrscheinlichkeiten
für beliebige Ereignisse auszurechnen.
455
• Zufallsvariablen (S. 156).
• Erwartungswert und Varianz von Zufallsvariablen (S.174)
456
• Unabhängigkeit von Zufallsvariablen (S. 182 ff).
• Wichtige Rechenregeln für Zufallsvariablen, insbesondere wenn sie unabhängig
sind (S. 186 ff).
• Erwartungswert und Varianz von wichtigen Verteilungen (S. 170-172). Insbesondere für die Binomialverteilung, Poissonverteilung und Normalverteilung sollte
man Erwartungswert und Varianz kennen (S. 188 ff).
• Die Standardisierung einer Zufallsvariable. Definition? Welche Voraussetzungen
müssen erfüllt sein, damit die Standardisierung möglich ist? (S. 191 ff)
457
• Der statistische Hypothesentest am Beispiel des Binomialtests (S.193).
• Durchführung des Binomialtests: Aufstellen der Nullhypothese, Festlegung des
Signifikanzniveaus, Berechnung des Ablehnungsbereichs und Verwerfen oder
Beibehaltung der Nullhypothese (S. 208 ff).
• Berechnung des P-Werts für den Binomialtest.
• Einseitiges und zweiseitiges Testen.
458
• Die Power eines statistischen Tests (S. 230).
• Abhängigkeit der Power vom Signifikanzniveau, der Fallzahl, der Nullhypothese
und der speziellen Alternative (S. 237).
• Fehler 1. und 2. Art (S. 244 ff).
• Ein Beispiel für eine Poweranalyse (S. 246 ff).
459
• Der Z-Test. Voraussetzungen, Nullhypothese, Teststatistik und Berechnung des
P-Werts (S. 259 ff).
• Der Zentrale Grenzwertsatz (S. 265 ff)
• Der Zentrale Grenzwertsatz für eine binomial verteilte Zufallsvariable (S. 271
ff).
• Praktische Anwendung des Zentralen Grenzwertsatzes (S. 272 ff).
460
• Vom Z-Test zum t-Test: Ersatz der unbekannten Varianz durch die empirische
Varianz. Übergang von der Standardnormalverteilung zur t-Verteilung (S. 304
ff).
• Der t-Test für eine Stichprobe (S. 304 ff).
• Der Zweistichproben t-Test (S. 321 ff): gepoolte Varianz, Freiheitsgrade der
t-Statistik.
• P-Wert des t-Tests für ein- und zweiseitiges Testen (S. 330 ff).
461
• Nichtparametrische Tests. Welche Voraussetzungen des t-Tests können entfallen? Welche Voraussetzungen müssen gemacht werden? (S. 339 ff)
• Der Vorzeichen Test (S. 341 ff).
• Test nach McNemar (S. 349 ff): Anwendung des Vorzeichnetest auf dichotome
gepaarte Daten (verbundene Stichproben).
• Vorzeichen-Rang-Test nach Wilcoxon (S. 352 ff). Voraussetzungen? Durchführung?
462
• Mann-Whitney-U Test: Nicht-parametrischer Test für zwei unverbundene Stichproben. Nullhypothese, Alternative und Voraussetzungen. Durchführung (S. 363
ff).
• Die Implementierung wilcox.test des Vorzeichen-Rang-Tests nach Wilcoxon
und des Mann-Whitney-U Tests in R (S. 372 ff).
• Der χ2-Test für Vierfeldertafeln (S. 376). Nullhypothese, Alternative und Teststatistik (erwartete und beobachtete Häufigkeiten).
• Der χ2-Test in R (chsiq.test).
463
• Konfidenzintervalle für normalverteilte Daten (S. 392 ff).
• Abhängigkeit des Konfidenzintervalls von der Streuung, der Sicherheit ((1 −
α) ∗ 100%) und der Fallzahl (S.399).
464
Herunterladen