Skript - Humboldt-Universität zu Berlin

Werbung
Humboldt-Universität zu Berlin
Institut für Theoretische Biologie
Skript zur Vorlesung
Biostatistik
Edgar Steiger
Verantwortlich für die Lehrveranstaltung:
Prof. Dr. Hanspeter Herzel
Lehrstuhl für Molekulare and Zelluläre Evolution
Institut für Theoretische Biologie, Charité und Humboldt-Universität zu Berlin
Invalidenstraße 43, 10115 Berlin, Tel.: 030-2093-9101, E-Mail: [email protected]
Inhaltsverzeichnis
1 Beschreibende Statistik
1.1 Zufall (Motivation) . . . . . .
1.1.1 Merkmale . . . . . . .
1.1.2 Skalentypen . . . . . .
1.2 Darstellung von Zufallsgrößen
1.2.1 Listen . . . . . . . . .
1.2.2 Grafische Darstellung
1.3 Maßzahlen . . . . . . . . . . .
1.3.1 Mittelwert . . . . . . .
1.3.2 Varianz . . . . . . . .
1.3.3 Median . . . . . . . .
1.3.4 Weitere Maßzahlen . .
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
4
4
5
5
6
6
8
12
13
14
15
17
2 Wahrscheinlichkeiten
2.1 Ereignisse . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
2.2 Definition der Wahrscheinlichkeit . . . . . . . . . . . . . . . . . .
2.2.1 Rechnen mit Wahrscheinlichkeiten . . . . . . . . . . . . .
2.2.2 Bedingte Wahrscheinlichkeit und unabhängige Ereignisse
2.2.3 Totale Wahrscheinlichkeit . . . . . . . . . . . . . . . . . .
2.3 Satz von Bayes . . . . . . . . . . . . . . . . . . . . . . . . . . . .
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
23
23
24
26
27
28
29
3 Wahrscheinlichkeitsverteilungen
3.1 Zufallsvariablen . . . . . . . . . . . . . . . .
3.1.1 Erwartungswert und Varianz . . . .
3.2 Diskrete Verteilungen . . . . . . . . . . . .
3.2.1 Binomialverteilung: X ∼ Bin(n,p) .
3.2.2 Poisson-Verteilung: X ∼ P oiss(λ) .
3.3 Stetige Verteilungen . . . . . . . . . . . . .
3.3.1 Normalverteilung: X ∼ N (µ,σ 2 ) . .
3.3.2 Exponentialverteilung: X ∼ Exp(λ)
3.3.3 Gleichverteilung: X ∼ U (a,b) . . . .
3.3.4 Chi-Quadrat-Verteilung: Y ∼ χ2 (f )
3.3.5 t-Verteilung . . . . . . . . . . . . . .
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
30
30
31
33
33
35
36
36
41
44
46
48
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
4 Schätzungen
50
4.1 Punktschätzungen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 50
2
Inhaltsverzeichnis
4.2
Bereichsschätzungen und Konfidenzintervalle
4.2.1 Normalverteilung, Varianz bekannt . .
4.2.2 Normalverteilung, Varianz unbekannt
4.2.3 Andere Verteilungen . . . . . . . . . .
5 Testtheorie
5.1 Hypothesentests . . . . . . . . . . . .
5.1.1 Fehlertypen . . . . . . . . . . .
5.1.2 Einseitige und zweiseitige Tests
5.2 Spezielle Tests . . . . . . . . . . . . .
5.2.1 Gauß-Test . . . . . . . . . . . .
5.2.2 t-Test . . . . . . . . . . . . . .
5.2.3 Chi-Quadrat-Test . . . . . . . .
5.2.4 Zweistichproben-Tests . . . . .
3
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
51
51
52
53
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
55
55
57
58
58
58
61
62
65
1 Beschreibende Statistik
1.1 Zufall (Motivation)
In der Natur gibt es viele Prozesse, die sich nicht eindeutig (deterministisch) beschreiben lassen, weil sie ein zufälliges Element haben. Der radioaktive Zerfall ist ein Beispiel
für solch einen stochastischen“ Prozess, da die Zeit zwischen den Zerfallszeitpunkten
”
zweier Atomkerne nicht konstant, sondern immer zufällig ist.
Auch ist die Komplexität biomedizinischer Systeme ein Grund, diese mit wahrscheinlichkeitstheoretischen und statistischen Methoden zu beschreiben. Das menschliche
Genom besteht aus etwa 3 · 109 Basenpaare, wobei es bei etwa 3 · 106 Basenpaaren
zu Variationen (SNPs) kommen kann, die positive oder negative Auswirkungen auf
das Individuum haben können - diese Zusammenhänge müssen statistisch ausgewertet
werden. Weitere Beispiele sind das unkontrollierte Wachstum von Krebszellen (das
schon mit einer einzigen defekten Zelle beginnen kann), das Wachstum und Sterben
von Populationen sowie die komplizierten Prozesse in der Meteorologie.
Fast immer können bei Datenerhebungen nur endliche Stichproben aus einer Grundgesamtheit betrachtet werden (so ist es bei der Prognose von Wahlergebnissen nicht
möglich, alle Menschen eines Landes zu befragen, es muss eine kleinere, aber repräsentative Auswahl getroffen werden). Die Statistik versucht dann, aus diesen Daten auf
die Gesamtheit zu schließen.
Auch kann es wichtig sein, in den Daten Zusammenhänge zu erkennen oder diese
auszuschließen und eventuell Prognosen für die Zukunft zu machen. Dies ist die Aufgabe der Datenanalyse. Wichtig ist, dass eventuell entdeckte Assoziationen bzw. Korrelationen in den Daten nicht bedeuten, dass es auch einen kausalen Zusammenhang
gibt, weil wichtige Faktoren in den Daten nicht erfasst worden sind.
Ein weiteres zufälliges Moment ist die Messungenauigkeit bei Experimenten. So gab es
bei historischen Versuchen zur Messung der Lichtgeschwindigkeit bei jedem Durchgang
des Experiments einen anderen Wert für die eigentlich konstante Lichtgeschwindigkeit
(299 792 458 m
s ). Die Statistik hilft, die Messfehler zu kontrollieren und Rückschlüsse
auf die wahren Daten zu ermöglichen.
Weitere wichtige Aspekte der Statistik sind die Versuchsplanung, bevor ein Experiment durchgeführt wird, und das Testen von Hypothesen, bei dem Aussagen über die
Plausibilität von Beobachtungen getroffen werden.
4
1 Beschreibende Statistik
1.1.1 Merkmale
Ein Merkmal beschreibt eine bestimmte Eigenschaft eines Versuchsobjektes oder Individuums. Es wird grundsätzlich zwischen diskreten und stetigen Merkmalen unterschieden:
• diskretes Merkmal: Es gibt nur endlich viele Werte/Ausprägungen der Eigenschaft.
– Familienstand (ledig, in Partnerschaft, verheiratet, geschieden, ...)
– Klausurnote (an der Uni: 1,0; 1,3; 1,7; ...; 4,0; n.b.)
– DNA (für ein einzelnes Basenpaar sind nur die Kombinationen AT , T A,
CG und GC möglich, auf einem kompletten DNA-Strang mit etwa 3 · 109
Basenpaaren sind damit zwar sehr viele, aber eben nur endlich viele Kom9
binationen möglich (43·10 ))
– Blutgruppen (A, B, AB, 0)
• stetiges Merkmal: Alle Werte innerhalb eines Intervalls auf den reellen Zahlen
kommen in Frage.
– Zeit zwischen zwei Ereignissen (z.B. beim radioaktiven Zerfall)
– Wuchshöhe von Pflanzen
– Konzentration einer Lösung
– Temperatur
1.1.2 Skalentypen
Bei den Ausprägungen eines Merkmals wird zwischen verschiedenen Typen unterschieden, die sich hinsichtlich der Vergleichbarkeit von Merkmalen unterscheiden:
• Nominalskala: Es handelt sich um ein diskretes Merkmal, dessen Ausprägungen
sich in keine sinnvolle Rangfolge bringen lassen.
– Blutgruppen (A, B, AB, 0 - und es ist nicht sinnvoll zu sagen, dass A
”
größer als B“ sei.)
– Geburtsort
• Ordinalskala: Auch hier handelt es sich um ein diskretes Merkmal, aber eine
sinnvolle Rangfolge ist möglich (man spricht von einer Ordnungsrelation).
Allerdings ist keine Interpretation der Abstände vorhanden.
– Klausurnoten (Eine 1,3 ist besser als eine 2,3, und diese ist besser als eine
3,3. Aber es ist nicht sinnvoll zu sagen, dass 1,3 genauso so viel besser als
”
2,3 ist, wie 2,3 besser als 3,3 ist“.)
• Intervallskala: Für ein diskretes oder stetiges Merkmal gilt eine Intervallskala,
wenn die Ausprägungen in eine sinnvolle Rangfolge gebracht werden können und
5
1 Beschreibende Statistik
Tabelle 1.1: Urliste pH-Wert vs Wassertemperatur“
”
Nr.
pH-Wert
◦
C
1
6,9
14,5
2
6,5
14,5
3
6,8
14,8
4
7,3
15,1
5
7,2
14,8
die Abstände zwischen den Werten messbar sind. Allerdings gibt es keinen
Bezugspunkt bzw. Nullpunkt der Skala, so dass quantitative Aussagen der Art
doppelt so groß wie“ nicht möglich sind.
”
– Temperatur in Grad Celsius (Der Bezugspunkt 0 ◦ C ist nur durch den
Gefrierpunkt des Wassers festgelegt, eine Aussage wie 20 ◦ C sind doppelt
”
so warm wie 10 ◦ C“ ergibt keinen Sinn.)
– IQ (Der Bezugspunkt 100 ist nur als Durchschnitt der Bevölkerung festgelegt, eine Aussage wie Jemand mit IQ 110 ist 10% intelligenter als der
”
Durchschnitt der Bevölkerung“ ist nicht erlaubt.)
• Verhältnisskala: Die Verhältnisskala hat dieselben Eigenschaften wie die Intervallskala, aber zusätzlich die Eigenschaft, einen Nullpunkt zu besitzen, der
quantitative Vergleiche erlaubt.
– Temperatur in Kelvin (Im Unterschied zur Celsiusskala besitzt die Kelvinskala den absoluten Nullpunkt 0 K = −273,15 ◦ C, der eine Aussage wie
300 K sind doppelt so warm wie 150 K“ sinnvoll macht.)
”
– Größe in Zentimeter
– Zeit in Sekunden
1.2 Darstellung von Zufallsgrößen
1.2.1 Listen
Der erste Schritt nach einer Datenerhebung besteht darin, die erhobenen Daten in
einer Liste oder Tabelle zusammenzufassen. Die Anzahl der Datensätze wird meist
mit n, manchmal auch mit N bezeichnet.
Urliste
In einer Urliste werden die n Datensätze in der Reihenfolge ihrer Messung festgehalten.
Beispiel In Tabelle 1.1 ist ein Beispiel für eine Urliste zu sehen. Es wurden gleichzeitig
der pH-Wert und die Wassertemperatur eines Sees gemessen, insgesamt gibt es n = 5
Datenpaare. Die Daten werden paarweise bzw. gegeneinander ( versus“, vs“) gelistet,
”
”
um die zeitgleiche Messung deutlich zu machen.
6
1 Beschreibende Statistik
Tabelle 1.2: geordnete Liste pH-Wert vs Wassertemperatur“
”
Nr.
pH-Wert
◦
C
1
6,5
14,5
2
6,8
14,8
3
6,9
14,5
4
7,2
14,8
5
7,3
15,1
Tabelle 1.3: Blattlauszählung
Nr.
Anzahl
Nr.
Anzahl
1
5
11
13
2
17
12
19
3
20
13
3
4
0
5
33
6
21
7
42
8
7
14
27
15
25
16
4
17
17
18
2
9
0
19
34
10
44
20
21
Geordnete Listen
In der geordneten Liste werden die Daten nun nach der Größe eines Merkmals geordnet.
Die geordnete Liste verschafft einen besseren Überblick, allerdings könnten Informationen, die in der Reihenfolge der Messung enthalten waren, verloren gehen, wenn sie
nicht explizit festgehalten wurden.
Werden die ursprünglichen Daten in ihrer Reihenfolge mit x1 , x2 , . . . , xn bezeichnet,
so werden die Daten der geordneten Liste meist mit x(1) , x(2) , . . . , x(n) gekennzeichnet,
wobei x(i) für den i-ten Wert in der geordneten Liste steht. D.h. x(1) ist der kleinste
Wert der Messreihe und x(n) der größte.
Beispiel In Tabelle 1.2 wurde die Urliste aus Tabelle 1.1 nach den pH-Werten geordnet. Hier wäre zum Beispiel eine Information verloren, wenn die Messungen nacheinander im Laufe eines Tages gemacht wurden, da die Wassertemperatur von der Tageszeit
und der pH-Wert von der Temperatur abhängt.
Klassen
Wenn es sehr viele verschiedene Messwerte gibt, kann es sinnvoll sein, die Daten in
Klassen einzuteilen.
Beispiel Bei einer Untersuchung wurde die Anzahl der Blattläuse pro Pflanze in
einem Beet (n = 20 Pflanzen) bestimmt. Die Ergebnisse sind in Tabelle 1.3 zu sehen.
Nun wird die Zahl der Blattläuse in m = 4 Klassen eingeteilt:
• Klasse 1, keiner bis geringer Befall: {0, . . . ,10},
7
1 Beschreibende Statistik
Tabelle 1.4: Klasseneinteilung nach der Blattlauszählung
Klasse
Anzahl
1
7
2
9
3
2
4
2
• Klasse 2, mäßiger Befall: {11, . . . ,30},
• Klasse 3, starker Befall: {31, . . . ,40} sowie
• Klasse 4, sehr starker Befall: {41, . . . ,50}.
Diese Klasseneinteilung ergibt dann die (kleine) Tabelle 1.4. Zu beachten ist, dass in der
Zeile Anzahl“ der Tabelle jetzt nicht mehr die Anzahl der Blattläuse steht, sondern
”
die Anzahl der Pflanzen, deren Blattlausbefall der Klasse entspricht! Dementsprechend
ist die Summe der Einträge dieser Zeile 7 + 9 + 2 + 2 = 20 gerade gleich n.
Im Prinzip wurde mit der Klasseneinteilung ein neues diskretes Merkmal geschaffen,
mit dem die Daten weiter betrachtet werden können.
Die Breite der Klassen muss nicht immer gleich sein, oft ist dies jedoch sinnvoll.
Absolute und relative Häufigkeiten
Die absolute Häufigkeit hi gibt an, wie oft eine bestimmte Ausprägung i eines Merkmals im vorliegenden Datensatz auftaucht. Im Unterschied dazu gibt die relative
Häufigkeit Hi = hni an, wie groß der Anteil der Ausprägung i eines Merkmals am
gesamten Datensatz vom Umfang n ist.
Beispiel Im Blattlausbeispiel aus Tabelle 1.3 und 1.4 ist die absolute Häufigkeit des
Merkmals mäßiger Befall“ gerade h2 = 9. Die relative Häufigkeit berechnet sich zu
”9
= 0,45, d.h. 45 Prozent der untersuchten Pflanzen weisen einen mäßigen
H2 = hn2 = 20
Befall auf.
1.2.2 Grafische Darstellung
Die in den Listen erfassten Häufigkeiten liefern die Grundlage für grafische Darstellungen der Daten, die einen besseren Überblick über charakteristische Eigenschaften der
Verteilung der Daten bieten können. Je nach Art des Merkmals sind unterschiedliche
Diagramme sinnvoll, nachfolgend sollen die wichtigsten vorgestellt werden.
Auf der y-Achse (Ordinate) wird bei den meisten Diagrammen die Häufigkeit abgetragen. Es ist zu beachten, ob es sich um die relative oder absolute Häufigkeit handelt!
8
1 Beschreibende Statistik
Abbildung 1.1: Blattlauszählung: Balkendiagramm und Kreisdiagramm
Blattlausbefall − Kreisdiagramm
8
Blattlausbefall − Balkendiagramm
6
4
Klasse 4
Klasse 2
2
absolute Häufigkeit
Klasse 1
0
Klasse 3
Klasse 1
Klasse 2
Klasse 3
Klasse 4
Balkendiagramm
Im Balkendiagramm (auch Säulendiagramm oder Stabdiagramm) wird die Häufigkeit
hi der Merkmale dargestellt. Es können auch die relativen Häufigkeiten Hi dargestellt
werden, dazu muss lediglich die Achseneinteilung auf der y-Achse normiert werden, indem durch n geteilt wird - die relative Höhe der Balken zueinander ändert sich dadurch
nicht. Sind die Balken besonders schmal bzw. nur einfache vertikale Linien, spricht
man von einem Stabdiagramm, welches sich gut eignet, wenn viele Ausprägungen
darzustellen sind.
Beispiel Für das Blattlausbeispiel (Tabellen 1.3, 1.4) wird die absolute Häufigkeit
der einzelnen Klassen in einem Balkendiagramm in Abbildung 1.1 dargestellt.
Kreisdiagramm
Kreisdiagramme (oder Tortendiagramme) bieten sich besonders an, wenn die Häufigkeit von nominalskalierten Merkmalen dargestellt werden soll, da die Ausprägungen
nahezu gleichberechtigt um das Zentrum herum verteilt sind. Die relative Häufigkeit
entspricht dabei der Größe des Winkels des entsprechenden Kreissegmentes (αi =
Hi · 360◦ ). Zu beachten ist allerdings, dass das menschliche Auge Längenunterschiede
besser wahrnimmt als Flächenunterschiede, deshalb sind Balkendiagramme den Kreisdiagrammen vorzuziehen.
Beispiel Die Daten des Blattlausbeispiels sind in einem Kreisdiagramm in Abbildung
1.1 veranschaulicht. Es handelt sich um dieselben Informationen wie im Balkendia-
9
1 Beschreibende Statistik
Abbildung 1.2: Blattlauszählung: Histogramm und normiertes Histogramm
Blattlausbefall
− Histogramm
Blattlausbefall
- norm.
Histogramm
0,3
0,2
0
0,1
relative Häufigkeit
6
4
2
0
absolute Häufigkeit
8
0,4
Blattlausbefall − Histogramm
0
10
20
30
40
0
50
10
20
30
40
50
Anzahl der Blattläuse
Anzahl der Blattläuse
gramm daneben!
Histogramm
Das Histogramm ist ein Balkendiagramm, in dem die Werte gegen ihre (absoluten
oder relativen) Häufigkeiten abgetragen werden, wobei sich die Säulen des Diagramms
berühren. Liegen nicht zu viele diskrete Werte vor, kann direkt das Histogramm erstellt
werden. Handelt es sich um ein stetiges Merkmal oder liegen zu viele verschiedene
diskrete Ausprägungen vor, sollten die Daten geeignet in Klassen zusammengefasst
werden. Zu beachten ist, dass die Breite der Säulen sinnvollerweise die Breite der
Klassen repräsentiert.
Werden auf der Ordinate (y-Achse) statt der absoluten Häufigkeiten hi die relativen
Häufigkeiten Hi abgetragen, spricht man von einem normierten Histogramm.
Beispiel In Abbildung 1.2 sind das Histogramm mit absoluten Häufigkeiten und das
normierte Histogramm für die vier Klassen im Blattlausbeispiel (Tabellen 1.3, 1.4)
abgebildet.
Empirische kumulative Verteilungsfunktion (Summenhistogramm)
Diese Grafik baut direkt auf dem normierten Histogramm auf. Sie zeigt eine Funktion, die uns eine Antwort auf die Frage Wie viele Messwerte sind kleiner als oder
”
gleich einem gegebenen Messwert?“ liefert. Anschaulich entsteht die Abbildung der empirischen kumulativen Verteilungsfunktion, in dem zu jeder Säule im normierten Histogramm die Höhe aller Säulen links von ihr addiert werden. Mathematisch entspricht
10
1 Beschreibende Statistik
Abbildung 1.3: Blattlausbeispiel: Summenhistogramme für Klasseneinteilung und alle
Messwerte
0.8
0.6
0.4
relative Häufigkeit
0.0
0.2
0.8
0.6
0.4
0.2
0.0
relative Häufigkeit
1.0
Blattlausbefall − Summenhistogramm
1.0
Blattlaus − Klassensummenhistogramm
0
10
20
30
40
50
0
Anzahl der Blattläuse
10
20
30
40
Anzahl der Blattläuse
dies folgender Funktionsvorschrift:
F (k) =
k
X
Hi
i=1
Dies bedeutet, dass der Funktionswert für die Klasse k gerade der Summe aller relativen Häufigkeiten bis zur Klasse k (einschließlich k) entspricht. Dies ist natürlich nur
sinnvoll, wenn es eine Ordnungsbeziehung zwischen den Klassen gibt!
Das Summenhistogramm lässt sich verfeinern, indem folgende Funktionsvorschrift benutzt wird:
X 1
F (t) =
n
i: xi ≤t
Die Summe wird dabei über alle i, für die xi ≤ t gilt, gebildet. Der Summand n1 hängt
nicht von i ab! Anschaulich bedeutet die Formel, dass bei n verschiedenen Messwerten
jeder einzelne Messwert die relative Häufigkeit n1 besitzt, wenn also jeder Messwert
seine eigene Klasse bildet, ergibt sich gerade obige Formel.
Beispiel Die linke Grafik in Abbildung 1.3 zeigt das Summenhistogramm für die vier
Klassen des Blattlausbeispiels, in der rechten Grafik ist das Summenhistogramm für
alle einzelnen Werte eingezeichnet.
11
1 Beschreibende Statistik
Abbildung 1.4: Scatterplot pH-Wert vs Wassertemperatur“
”
15.5
15.0
14.0
14.5
Wassertemperatur °C
15.5
15.0
14.5
14.0
Wassertemperatur °C
16.0
pH vs °C mit Regressionsgerade
16.0
pH vs °C
6.0
6.5
7.0
7.5
8.0
6.0
pH−Wert
6.5
7.0
7.5
8.0
pH−Wert
Scatterplot
Ein Scatterplot oder Streudiagramm wird angelegt, wenn in der Messreihe paarweise
Merkmale gemessen werden. Dabei wird das eine Merkmale auf der Abszisse, das
andere auf der Ordinate abgetragen. Ziel ist zunächst, visuell einen Zusammenhang
(Korrelation) zwischen den Merkmalen zu erkennen. Die Regressionsanalyse (1.3.4)
versucht dann, einen funktionellen Zusammenhang (rechte Abbildung) zu finden.
Beispiel Wir betrachten das Beispiel mit dem pH-Wert und der Wassertemperatur
eines Sees (Tabelle 1.1). Aus der Urliste ergibt sich der in Abbildung 1.4 gezeigte
Scatterplot.
1.3 Maßzahlen
Maßzahlen bzw. statistische Kennwerte erlauben den Vergleich verschiedener Datensätze und ihrer unterschiedlichen Häufigkeitsverteilungen. Es wird zwischen Lagemaßen und Streuungsmaßen unterschieden. Erstere beschreiben einen Schwerpunkt der
Messwerte in der Verteilung, während letztere die Abweichungen von solchen Schwerpunkten beschreiben.
Die wichtigsten Beispiele für Lagemaße sind der Mittelwert und der Median, das
wichtigste Streuungsmaß ist die Varianz.
12
1 Beschreibende Statistik
Tabelle 1.5: Jungtiere bei Hauskatzen
Katze i
Jungtiere
1
3
2
6
3
4
4
6
5
2
6
7
7
3
8
3
1.3.1 Mittelwert
Das wichtigste und offensichtlichste Maß zur Beschreibung eines Datensatzes ist der
Mittelwert oder Durchschnitt. Es werden alle Werte eines Merkmals addiert und
dann durch die Anzahl der Werte geteilt, die erhaltene Zahl liegt zwischen den ursprünglichen Werten und gibt einen guten ersten Eindruck von der Größe der Messwerte.
Der Mittelwert ist auch eine gute Schätzung für die erwartete Größe eines Merkmals in einer Gesamtpopulation. Wird zum Beispiel bei 100 erwachsenen Frauen die
Körperlänge gemessen und daraus der Mittelwert x̄ = 1,66 m ermittelt, so würde man
bei einer zufällig ausgewählten Probandin aus der Gesamtbevölkerung genau diese
Körpergröße erwarten. Es ist klar, dass der Mittelwert eine bessere Näherung gewesen
wäre, hätte man statt 100 sogar eine Stichprobe von 1000 Frauen vermessen. Auch muss
die Stichprobe aus der gesamten Bevölkerung entnommen werden, da zum Beispiel die
durchschnittliche Körperlänge von 1000 unter-30-jährigen Berlinerinnen sich von der
erwarteten Körperlänge einer Deutschen unterscheiden könnte.
n
Mittelwert: x̄ =
1X
x1 + x2 + . . . + xn
=
xi
n
n i=1
Beispiel Es wurde bei 8 Hauskatzen die Anzahl der Jungtiere beim letzten Wurf
gezählt, es ergaben sich die in Tabelle 1.5 dokumentierten Werte.
Der Mittelwert für das Merkmal Anzahl der Jungtiere berechnet sich wie folgt:
3+6+4+6+2+7+3+3
34
=
= 4,25
8
8
D.h. die mittlere Anzahl von Jungtieren ist 4,25.
x̄ =
Der oben beschriebene Mittelwert wird manchmal auch arithmetischer Mittelwert
genannt, um ihn vom geometrischen Mittelwert zu unterscheiden:
Geometrisches Mittel: x̄geom =
√
n
x1 · x2 · . . . · xn =
n
Y
! n1
xi
i=1
Beispiel Das geometrische Mittel für das Hauskatzenbeispiel berechnet sich wie folgt:
√
√
8
8
x̄geom = 3 · 6 · 4 · 6 · 2 · 7 · 3 · 3 = 54 432 ≈ 3,91
13
1 Beschreibende Statistik
Beispiel In vier Proben wurden die Viruskonzentrationen 2 · 10−9 , 1 · 10−7 , 4 · 10−5
und 2 · 10−7 gemessen. Für den Mittelwert und das geometrische Mittel ergeben sich
folgende Werte:
0,000040302
1
(2 · 10−9 + 1 · 10−7 + 4 · 10−5 + 2 · 10−7 ) =
= 0,0000100755
4
4
= 1,00755 · 10−5
√
9+7+5+7
1
4
= (2 · 10−9 · 1 · 10−7 · 4 · 10−5 · 2 · 10−7 ) 4 = 16 · 10− 4
x̄ =
x̄geom
= 4 · 10−7
Hier wird deutlich, dass der Mittelwert in diesem Beispiel erheblich durch den größten
Wert 10−5 beeinflusst wird und die anderen Werte kaum Einfluss auf ihn haben. Das
geometrische Mittel ist hier stabiler und aussagekräftiger.
Manchmal wird auch der Logarithmus des geometrischen Mittels betrachtet:
n
log x̄geom =
1X
log xi
n i=1
D.h., der Mittelwert der logarithmierten Werte ist gerade der Logarithmus des geometrischen Mittels (für numerische Berechnungen am Computer ist es sinnvoller, die
Summe der Logarithmen zu bilden und durch n zu teilen, als die n-te Wurzel eines
Produktes von n Werten zu bestimmen).
1.3.2 Varianz
Die korrigierte Stichprobenvarianz ist der wichtigste Wert, um die Streuung der Messwerte um den Mittelwert herum zu beschreiben. Sie ist die gemittelte quadratische
Abweichung der Messwerte vom Mittelwert:
n
Varianz: s2 =
1 X
(xi − x̄)2
n − 1 i=1
Es wäre zu erwarten, dass die Summe statt durch n−1 durch n geteilt wird. Allerdings
weist die korrigierte“Varianz mit dem Nenner n − 1 bessere statistische Eigenschaften
”
auf und wird deshalb häufiger verwendet.
Standardabweichung
Direkt aus der Varianz ergibt sich die Standardabweichung s, die eine bessere Interpretation der Streuung um den Mittelwert ermöglicht, siehe dazu z.B. den Abschnitt
über die Normalverteilung 3.3.1.
14
1 Beschreibende Statistik
√
Standardabweichung: s =
v
u
u
s2 = t
n
1 X
(xi − x̄)2
n − 1 i=1
Beispiel Im Beispiel mit den Hauskatzen ergeben sich folgende Varianz und Standardabweichung (Mittelwert x̄ = 4,25):
s2 =
≈
1
8−1
⇒s =
3,36
√
s2
≈
1,83
(
(3 − 4,25)2 + (6 − 4,25)2 + (4 − 4,25)2 + (6 − 4,25)2
+
(2 − 4,25)2 + (7 − 4,25)2 + (3 − 4,25)2 + (3 − 4,25)2 )
1.3.3 Median
Der Median oder auch mittlerer Wert ist neben dem Mittelwert das zweite wichtige
Lagemaß. Liegen die Daten als geordnete Liste vor und gibt es eine ungerade Anzahl
von Messwerten, ist der Median x̃ gerade der Messwert in der Mitte, bei dem die
eine Hälfte der restlichen Messwerte kleiner und die andere größer als er ist. Ist die
Anzahl der Messwerte gerade, ist der Median das arithmetische Mittel aus den beiden
mittleren Werten.

 x(d n2 e) ,
Median: x̃ = x( n ) + x( n +1 )
2
 2
,
2
n ungerade
n gerade
Die sogenannte Aufrundungsfunktion dae bedeutet, dass a aufgerundet wird, sollte a
keine ganze Zahl sein. D.h. d7,5e = 8, aber auch d7,1e = 8, jedoch d7,0e = 7.
Der Median ist stabiler gegenüber Ausreißern in den Daten als der Mittelwert. Auch
ist er das sinnvollere Lagemaß, wenn die Daten nur ordinal-, aber nicht intervall- bzw.
verhältnisskaliert sind.
Beispiel Im Hauskatzenbeispiel 1.5 liegt eine gerade Anzahl (8) von Datensätzen vor,
d.h. für den Median ergibt sich:
x̃ =
x(4) + x(5)
3+4
=
= 3,5
2
2
15
1 Beschreibende Statistik
Quartile und Quantile
Eng verwandt mit dem Median sind die Quartile. Während der Median so definiert
ist, dass 50 Prozent der Messwerte kleiner als er sind, gilt für das erste Quartil Q1 ,
dass 25 Prozent der Messwerte kleiner sind, und für das dritte Quartil Q3 , dass 75
Prozent der Messwerte kleiner sind. Dem zweiten Quartil Q2 entspricht dann gerade
der Median, d.h. Q2 = x̃.
Der Median und die Quartile sind Spezialfälle der Quantile. Sei p eine Zahl zwischen
Null und Eins, dann bezeichnet man als das p-Quantil x̃p gerade denjenigen Messwert,
so dass p·100 Prozent der Messwerte kleiner sind. Es gilt also x̃ = Q2 = x̃0,5 , Q1 = x̃0,25
und Q3 = x̃0,75 .
Berechnet wird ein p-Quantil wie folgt (zur Aufrundungsfunktion siehe 1.3.3):

 x(n·p) + x(n·p+1) ,
2
p-Quantil: x̃p =

x(dn·pe) ,
wenn n · p ganzzahlig
sonst
Beispiel Für die Hauskatzen aus 1.5 sollen das erste und dritte Quartil sowie das
0,6-Quantil berechnet werden. 8 · 0,25 = 2 und 8 · 0,75 = 6 sind ganzzahlig, während
8·0,6 = 4,8 nicht ganzzahlig ist, dementsprechend werden die Quantile wie nachstehend
bestimmt:
x(2) + x(3)
3+3
=
=3
2
2
x(6) + x(7)
6+6
=
=
=6
2
2
= x(d4,8e) = x(5) = 4
x̃0,25 =
x̃0,75
x̃0,6
Boxplots
In einem Boxplot oder Box-Whiskers-Plot werden der Median, das erste und dritte
Quartil sowie die Range (s. 1.3.4) dargestellt. Ein solcher Plot eignet sich besonders, wenn dasselbe Merkmal in zwei verschiedenen Gruppen gemessen wurde und
anschließend verglichen werden soll.
Die Box“ stellt den Bereich zwischen dem ersten und dritten Quartil dar, der Me”
dian ist eine zusätzliche Linie in der Box. Die Whisker“ (englisch Schnurrhaare“)
”
”
verlängern die Box um die gesamte Variationsbreite. Manchmal werden die Whisker
nur als der anderthalbfache Interquartilsabstandes Q3 − Q1 eingezeichnet, und alle
Messwerte, die sich außerhalb dieses Bereichs befinden, werden durch einzelne Punkte
gekennzeichnet (und sind wahrscheinlich Ausreißer“).
”
16
1 Beschreibende Statistik
Tabelle 1.6: Jungtiere bei Haushunden
Hündin i
Jungtiere
1
7
2
4
3
5
4
5
5
8
6
3
7
10
8
4
Abbildung 1.5: Boxplot - Jungtiere von Haustieren
Boxplot Katze vs Hund
8
6
4
Anzahl der Jungtiere
2
6
5
4
3
2
Anzahl der Jungtiere
7
10
Boxplot Hauskatzen
Katze
Hund
Beispiel In Abbildung 1.5 ist links der Boxplot für die Anzahl der Jungtiere von
Hauskatzen (Tabelle 1.5) mit den oben (1.3.3) berechneten Werten zu sehen.
Beispiel Betrachten wir nun neben den Jungtieren der Hauskatzen noch einen weiteren Datensatz: Acht Hündinnen haben ebenfalls geworfen und wieder wurde die Anzahl der Jungtiere gezählt. Es haben sich die in Tabelle 1.6 dargestellten Werte ergeben.
In Abbildung 1.5 ist rechts ein vergleichender Boxplot für die Anzahl der Jungtiere
von Hauskatzen gegen Haushunde zu sehen.
1.3.4 Weitere Maßzahlen
Variationsbreite
Die Variationsbreite bzw. Spannweite (oder auch englisch Range) gibt einen sehr
groben Überblick darüber, in welchem Bereich sich die Messwerte befinden. Sie berechnet sich ganz einfach als Differenz aus dem größten und kleinsten Messwert.
17
1 Beschreibende Statistik
Variationsbreite: V ≡ R = xmax − xmin = x(n) − x(1)
Variationskoeffizient
Der Variationskoeffizient, oder auch relative Schwankung, normiert die vom Mittelwert abhängige Varianz, so dass sich die Streuungen mehrerer Stichproben mit unterschiedlichen Mittelwerten besser vergleichen lassen.
Variationskoeffizient: cv =
s
|x̄|
Standardfehler des Mittelwertes
Der Standardfehler des Mittelwertes ( SEM“) ist eine Kennzahl dafür, wie gut der
”
Mittelwert die Daten beschreibt.
s
SEM: sx̄ = √
n
Modalwert
Der Modalwert M o ist ein Lagemaß, dass sich auch für nominalskalierte Größen verwenden lässt. Der Modalwert einer Messreihe ist der am häufigsten vorkommende
Wert. Falls mehrere Werte gleich häufig vorkommen, gibt es mehrere Modalwerte.
Beispiel Für das Hauskatzenbeispiel 1.5 ergeben sich folgende Werte für die Variationsbreite, den Variationskoeffizienten und den Standardfehler des Mittelwertes:
R = x(8) − x(1) = 7 − 2 = 5
1,83
s
cv =
=
≈ 0,43
|x̄|
4,25
s
1,83
sx̄ = √ ≈
≈ 0,65
2,83
8
Als Modalwert ergibt sich M o = 3, denn der Wert 3 kommt dreimal in der Messreihe
vor und ist damit am häufigsten.
18
1 Beschreibende Statistik
Potenzmomente: Schiefe und Exzess
Die Schiefe gibt an, ob die Mehrheit der Messwerte sich eher rechts oder links vom
Mittelwert befindet - dementsprechend wird die Verteilung der Daten rechts- bzw.
linksschief genannt. Ist die Schiefe größer als Null, ist die Verteilung rechtsschief, ist
die Schiefe kleiner als Null, ist die Verteilung linksschief. Ist die Schiefe annähernd
gleich Null, ist die Verteilung etwa symmetrisch.
Die Wölbung ist ein Maß für die Steilheit der Verteilung der Messwerte. Sie erklärt
die Varianz genauer - je kleiner die Wölbung ist, desto mehr wird die Varianz durch
Messwerte in der Nähe des Mittelwertes erklärt. Ist die Wölbung größer, wird die Varianz durch einige besonders weit vom Mittelwert entfernte Messwerte erklärt. Meist
wird aber nur der Exzess betrachtet, der die Wölbung mit der Wölbung einer Normalverteilung (3.3.1) vergleicht. Ist der Exzess größer als Null, wird die Verteilung steil
genannt, ist der Exzess kleiner als Null, wird sie flach genannt.
Um Schiefe und Exzess bestimmen zu können, benötigen wir zunächst die Potenzmo”
mente“. Diese sind wie folgt definiert:
n
k-tes Potenzmoment: mk =
1X
(xi − x̄)k
n i=1
Offensichtlich ist s2 ≈ mP
2 , für sehr große n kann man den Unterschied vernachlässigen.
n
Außerdem gilt m2 = n1 i=1 x2i − x̄2 (Satz von Steiner, Verschiebungssatz).
Nun können wir Schiefe und Exzess definieren:
m3
Schiefe: S = √ 3
m2
m4
Wölbung: W = 2
m2
Exzess: E = W − 3
Beispiel Im Beispiel mit den Hauskatzen (Tabelle 1.5) ergeben sich S ≈ 0,29 und
E = −1,79. Der Exzess ist kleiner als Null, also ist die Verteilung eher abgeflacht. Die
meisten Katzen haben also eine Anzahl von Jungtieren nahe beim Mittelwert x̄ = 4,25.
Die Schiefe ist größer als Null, also ist die Verteilung eher rechtsschief. Das heißt, der
Großteil der Katzen hat etwas weniger Jungtiere als den Mittelwert x̄ = 4,25, aber
einige Ausreißer“ mit vielen Jungtieren ziehen den Mittelwert nach oben.
”
Stichprobenkovarianz und Korrelationskoeffizient
Abschließend werden noch zwei Maße vorgestellt, mit denen zwei Merkmale (xi und
yi ) einer Stichprobe in einen Zusammenhang gebracht werden können. Zunächst die
Stichprobenkovarianz:
19
1 Beschreibende Statistik
n
Kovarianz: sxy =
1 X
(xi − x̄) · (yi − ȳ)
n − 1 i=1
Ist die Kovarianz positiv, so besteht ein proportionaler Zusammenhang zwischen den
beiden Merkmalen - je größer die Werte von X, desto größer sind auch die Werte von
Y . Ist die Kovarianz negativ, so besteht ein antiproportionaler Zusammenhang, d.h.
große Werte xi gehen mit kleinen Werten yi einher und umgekehrt. Ist die Kovarianz
annähernd Null, besteht kein linearer Zusammenhang zwischen den Merkmalen (es
könnte aber durchaus nichtlineare Zusammenhänge geben!).
Die Kovarianz kann zwar die Tendenz einer Beziehung zwischen den Merkmalen zeigen,
allerdings hängt sie sehr von den Messwerten xi bzw. yi ab. Um deshalb die Stärke
der Beziehung zwischen den Merkmalen quantifizieren zu können, wird die Kovarianz
normiert, dies führt auf den (Pearsonschen) Korrelationskoeffizienten:
Korrelationskoeffizient: rxy =
sxy
sx · sy
sx und sy sind hier jeweils die Stichproben-Standardabweichung der xi respektive
yi . Für den Korrelationskoeffizienten gilt immer rxy ∈ [−1,1]. Ist rxy sehr nahe bei
+1, sind die Merkmale fast perfekt positiv korreliert und es besteht ein fast linearer proportionaler Zusammenhang zwischen ihnen. Ist umgekehrt rxy sehr nahe bei
−1, sind die Merkmale fast perfekt negativ korreliert und es besteht ein fast linearer
antiproportionaler Zusammenhang. Je näher der Korrelationskoeffizient bei Null liegt,
desto weniger kann von einem guten linearen Zusammenhang zwischen den Merkmalen
gesprochen werden. Ist der Korrelationskoeffizient schließlich gleich Null, gibt es gar
keinen linearen Zusammenhang (es könnte aber andere Zusammenhänge geben!).
Abbildung (1.6) veranschaulicht die Interpretation des Korrelationskoeffizienten. Das
vierte Bild macht besonders deutlich, dass es durchaus einen Zusammenhang zwischen
x und y geben kann, der aber vom Korrelationskoeffizienten nicht erkannt wird, da
dieser nur lineare Zusammenhänge zeigt.
Wird ein linearer Zusammenhang zwischen den Merkmalen vorausgesetzt, lassen sich
die yi linear durch die xi erklären, d.h. yi ≈ a + b · xi , wobei a und b nicht von i
abhängen und für alle Messwertpaare gleich sein sollen. Mit den in diesem Kapitel
vorgestellten Größen Mittelwert, Standardabweichung und Kovarianz lassen sich nun
Schätzwerte â und b̂ für die wahren“ Werte a und b berechnen:
”
b̂ =
sxy
s2x
â = ȳ − b̂ · x̄
Dies bezeichnet man auch als lineare Regression.
20
1 Beschreibende Statistik
Abbildung 1.6: Scatterplots und Korrelationskoeffizient.
rxy = − 0.8
6
●
●
8
−2
1.0
−1.0
−0.5
0.0
●
●
●
0.0
●
●●
0.5
1.0
●●
● ●
●
●
●
●●
●
●
●●
●
●
● ●● ●
●
●
●
●
●
●
●
●
●●● ●
●
● ●● ●
●
●
●
●●
●●●
● ●●● ●
● ●
●●
●
●●● ●
●
● ● ●●
●
●● ●
●
●
●●● ●
●
●●
●● ●
● ●● ● ●
● ●●
●
●
●
●
●
●
● ●
●
●●
●●
●
●
●
●● ●
●
● ● ●
●●
● ●●
●
●● ●
●
●
●
●
●
●
●
● ●
●●
● ●
●● ●
●●● ●●
●
● ●● ●
●● ●
● ●● ●
● ● ●
●
● ●●●
●
● ● ● ●● ●
●
●
● ●●
●
● ● ●●●●
●● ●●
●
● ●
● ●
● ●
●
●●●
● ●
●● ●
● ●● ●
●● ●●●
●
●
●
●● ● ●
●
●
●●●
●
●
●
●●●
●●
●
●
●●●●●● ●
●
●
●
● ●●
●
●
● ● ●
● ●●●●
●
●
●
●
● ●●
●● ●●● ●●
●●
●●
●
● ● ●●●●
●
● ●
●
●
●
●
●
● ●
●● ●
●●
●●
●
● ●●
●
●
●●●
●●●
● ● ●●
● ●
●● ●
●
● ● ●●● ●
●
● ●
●
●
●
●
●
●
●
●●
●
● ●● ●
●● ●●
●● ● ●●● ●●●●●● ● ● ●
●●
●● ● ● ●
● ● ●●
●
●●
● ●●
●
● ●
● ●● ●
●
● ●●
●● ● ●
● ●● ● ●
●
● ●
●
● ●●
● ●● ● ●
● ●● ● ●
●
●
●
●●●●● ●●
●● ● ●
● ●● ●
● ●
●●
●●
● ● ●●
● ●●●
●
●●
●●
●
●
●
●
●● ●
●
● ●
●
●
●
●●
●
●
●● ●
● ●
● ●●
●
●
●
●
●
−2
x
−1
0
x
21
1.0
●
●
●
●
●
●
● ●
0.5
5
●
●
4
●
−0.5
rxy = 0
3
●
●
●●
● ●
●
●●
●
● ●
●
●
●
●●
●
● ●
●
●
●
●
●●
●
●
● ●
●
●
●
●
●
● ●●
●
●● ●
●
●
●
●
●● ● ● ●●
●
● ●
● ●
●
●
●●●
●
●●
●
● ● ●●
●
●
●●● ●● ● ● ●
●
●●
● ●●●
●
●
●
● ● ●
●
●
●●
●●
●●
●● ● ● ●
●
●
● ●
● ●●● ●
●
●
●
●
●
●
●
●
●
●●
●
●● ●
● ●●
● ●
● ● ● ●●● ●
●● ●
●●
● ● ● ●●
●●●●● ●●● ●
●
●
●
● ● ●● ●
●●●
●
●
●●●● ● ● ●
●
●
●●
● ●● ●
●
●
● ●●● ●● ●●
●
●●
●● ● ●
● ●
●
●
● ●●
●
●
● ●
●
●●●●
●
●
●●●
● ●
●
●
●●●
●
●
●●
●●
●
● ●
●
●● ● ●
●
●●● ● ●
●
●
●
●
●
●
●
●
●●
●
●
●
●
● ●
●
● ● ● ●
●
●● ●
●● ●
●
●● ● ●●● ● ●
● ●●
●
●
●●
●● ●●● ● ● ●●
● ●
●●
●●●
●● ●
●●●●●
●
● ●● ● ●
●
●●● ●
●
●
●
●
●
●
●
●
●
●
●
●●
●
● ● ●●
● ●
●● ● ●
● ●
●● ●
●●●●●● ●● ●●
●
●
● ●●
●● ● ●● ● ●
●
● ●●●
●●●
●
●● ●●
●
● ●
●●
●
●●
●● ●●
●
● ●●
●
●●
●● ● ● ●
●
●●
●●●
●
●
● ● ● ●● ● ●
● ●●
●●●
●
●
●● ● ●● ●●●
●●
●
●
●●●
●
●●
● ●
●
●
●
●●
rxy = 0
2
●
●
x
y
● ●● ●
●
●
●
−1.0
1
●
0.5
●
x
0
●
0.0
●
● ●
●
●
●
●●
●
●
●
●
●
●
● ●
● ●
●
●
●
●
●
●●
●
●
●
●
●
●
●
●
● ●
●
●
●
●
●
●
●
●
●
●
●
●
●● ● ●
● ●
●
●
●●
●
●
● ●
●
●●
●
● ●
● ●● ●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●●
● ●
●
● ●
●
● ●
●
●
●
● ●
● ●
●
●
●
●
●
●
●
●
●●
●
●
●
●
●●
●
●
●
●
●●
● ●
●●●
●
●
●
●
●
● ●
●
●
●
●
● ●
●
●
●
●●
●
●
● ● ●
●
● ●
●●
●●
●●●
●
●
●
●
●
●●
● ●
●
●●
●
●
●
●
●
●
●
●
●
●
●●
●
●
●
● ●
●
●
●
● ●
●
●
●
●●
●
●●
●●●
●
● ●
● ●
●●
●
●
●
● ● ●
● ●
●
●●
●
●●
● ●
●●
●
●
●● ● ●
●
●
●
●
●
●
●
●
●
● ●
●
●
●
●
●
●
●
● ●
●
●
● ●●
●
●
●
●
●
● ● ●
●●
●
●●
●
●
●● ●●
●
●
● ●●
●
●
●
●
● ●
●
●
●
●
●
●
● ●●
●
●
●
●●
●
●
●
●
●
●
●●
● ●
●
●
● ●
● ● ●
●
●● ●●
● ●
●
●
●●
●
●
●●
● ●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
● ●
●
● ●
●
●● ● ●
●
●
●●
●
●
●
●
●●
●
●
●
●
●
●
●
●
●
●
●
●
●
●●
●
●
●
●
● ●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
● ●
●
●
●
●
●
● ● ●
● ●
●
●●
●●
● ●
●
●
● ●
● ●
● ●
●
● ●
●
●
●
●● ●
●
●
●
●
●
●
●
●
● ●
●
● ●
4
2
y
6
●
−1
●
−0.5
●
●
●
●
−2
5
4
y
3
2
1
0
1.0
0.5
y
0.0
●
●
●
●
●
−0.5
●
●
●
●
●
●●
●
●●
●
●●
● ●
●● ●
●
●●●● ●
●●
●
●
●
● ●●
●●● ●●
● ● ●●●●
● ●●
●
● ●
● ● ●●
●● ● ●
●
●
●
●
●
●
●
●● ● ●●●
●●● ●●●
●
●● ● ● ● ● ●●
●
●
● ●
●
● ●●●●
● ●
●●
●●
●
●●
●●
●
● ●●●
●
●
●●
●
●●
●●
● ● ●●
●●●
●
●●
● ●●●●●●●
●
●
●
●
●●●●● ● ●●●
●
●
●
●
●●● ●●●●●
●● ●●
●
● ● ●
● ● ● ●●
●
● ●● ●
●●
●
●●
●
● ●
●
●
● ●●
●● ● ●
●
●
● ● ● ● ● ●● ●
●
●● ●● ● ●● ●
●
●
●
●
● ●
●
● ● ●●●● ●
● ●● ●
●
●
●●●
● ●● ●●
●●
●●
●
●
●
●
● ●
●● ●
● ●● ●● ●
●●
● ●●
●●●
●
●
●
● ●●●● ●
●●
●●●
● ●
●
●
●●
●
● ●● ●● ●
●●
● ●
●
●
●
●
●
●
●
● ● ● ●● ●
●
●
●
●
●●
● ●
●●
●
●
●● ● ● ●
●
●
●
●●
●
●
●
● ●
●
●●
●
● ●●
● ● ●● ●
●
● ●●
● ●
● ● ●●
●● ● ●
●●
●● ● ●●
● ●
● ●
●
●
●
●
● ●●●●●
●
●● ● ●
●●
●
● ● ●
●
●
●●
●
● ●●
●
●
●
● ●●● ●
●
●
●●
●
●● ●●● ● ● ● ●
●
●● ● ●
●
● ●
●
●
●● ●●
●
●●
●
●●●●●
●
●
●● ●
●
● ● ● ●●●
●
●
●
●
● ●
●● ● ●
●
●
●●
−1.0
●
●
0
●
●
−1.0
10
rxy = 0.9
1
2
1 Beschreibende Statistik
Beispiel Für unseren Datensatz mit den Hauskatzen und -hunden ist die Berechnung
der Kovarianz (trotz gleicher Anzahl von Messwerten) nicht sinnvoll, da die Werte
nicht in einem paarweisen Zusammenhang stehen. Betrachten wir deshalb wieder das
Beispiel aus 1.1 mit den pH-Werten (xi ) und der Wassertemperatur (yi ). Es ergeben
sich sxy = 0,063 und rxy = 0,78 für Kovarianz und Korrelationskoeffizient. Der Wert
0,063 der Kovarianz ist positiv und deutet damit auf einen linearen proportionalen
Zusammenhang hin, liegt allerdings nahe bei Null, so dass man vermuten könnte, dass
der Zusammenhang kaum ausgeprägt sei. Betrachten wir allerdings den Korrelationskoeffizienten, so wird deutlich, dass 0,78 nahe genug bei +1 ist, um einen linearen proportionalen Zusammenhang zwischen pH-Wert und Wassertemperatur anzunehmen.
Also sind pH-Wert und Wassertemperatur hier miteinander korreliert, d.h. aber nicht
zwangsläufig, dass es auch einen kausalen Zusammenhang gibt! Tatsächlich hängt aber
allgemein der pH-Wert wirklich von der Temperatur ab.
Wenden wir nun das lineare Regressionsmodell von oben (1.3.4) an, ergeben sich als
Schätzer für a und b die Werte b̂ = 0,61 und â = 10,5. In Abbildung 1.4 wurde im
rechten Bild die Regressionsgerade y = â + b̂ · x in den Scatterplot eingezeichnet.
22
2 Wahrscheinlichkeiten
Häufig möchte man, bevor ein Zufallsexperiment durchgeführt wird, Aussagen über die
Wahrscheinlichkeit bestimmter Ausgänge des Experiments treffen. Im Abschnitt 2.1
werden die dazu notwendigen Grundbegriffe definiert und anschließend im Abschnitt
2.2 der alltägliche Begriff Wahrscheinlichkeit“ auf ein mathematisches Fundament
”
gestellt. Schließlich wird noch die wichtige Bayes-Formel (2.3) betrachtet.
2.1 Ereignisse
Ein Zufallsexperiment ist ein Vorgang, vor dessen Durchführung nicht bekannt ist,
welchen Ausgang er nehmen wird. Allerdings sind die möglichen Ergebnisse bekannt.
Diese werden im Ereignisraum Ω zusammengefasst. Eine Teilmenge A von Ω wird
Ereignis genannt, ein Ereignis A umfasst also mehrere Ergebnisse.
Beispiel Wir betrachten das Zufallsexperiment Würfeln mit einem Würfel“. Bevor
”
wir den Würfel werfen, wissen wir nicht, welche Zahl wir werfen werden. Als mögliche
Ergebnisse kommen nur die Zahlen 1 bis 6 in Frage, der Ereignisraum Ω ist also die
Menge
Ω = {1,2,3,4,5,6}.
Die einzelnen Elemente (Ergebnisse) von Ω werden mit ω1 , ω2 usw. bezeichnet. Hier
ist also ω1 = 1, ω2 = 2, ..., ω6 = 6. Die Wahrscheinlichkeit eines einzelnen Ergebnisses
bezeichnen wir mit P (ωi ) ≡ pi .
Ist der Würfel fair (also p1 = p2 = . . . = p6 = 61 ), handelt es sich bei dem Zufallsexperiment sogar um ein Laplace-Experiment. Allgemein heißt ein Zufallsexperiment
Laplace-Experiment, wenn jedes Ergebnis des Ereignisraumes dieselbe Wahrscheinlichkeit besitzt: Für Ω = {ω1 , . . . ,ωk } gilt P (ωi ) = pi = k1 , i = 1, . . . ,k. Offensichtlich
ist dies nur sinnvoll, wenn der Ereignisraum endlich ist, später werden wir auch Zufallsexperimente kennenlernen, bei denen für den Ereignisraum z.B. Ω = N oder Ω = R
gilt.
Betrachten wir die Ereignisse A = {2,4,6} ( Es wird eine gerade Zahl gewürfelt“)
”
und B = {1,2,3} ( Es wird eine kleine Zahl gewürfelt“). Die Wahrscheinlichkeit P (A)
”
für das Ereignis A ist gerade die Summe der Elementarwahrscheinlichkeiten der in A
enthaltenen ωi , also:
1
1
=
6
2
1
1
Laplace
P (B) = P ({1,2,3}) = p1 + p2 + p3 = 3 · =
6
2
P (A) = P ({2,4,6}) = p2 + p4 + p6
23
Laplace
=
3·
2 Wahrscheinlichkeiten
Damit wird auch folgende Eigenschaft des sicheren Ereignisses deutlich: Betrachten
wir dasjenige Ereignis, welches alle Elemente aus Ω enthält, dann gilt:
P (Ω) = P ({1, . . . ,6}) =
6
X
pi
Laplace
=
i=1
6·
1
= 1,
6
d.h. P (Ω) = 1. Weiterhin wird noch eine Teilmenge von Ω definiert, die gar keine
Elemente aus Ω enthält, die leere Menge ∅. Hier gilt
P (∅) = 0.
Da Ereignisse Mengen sind, können wir die folgenden drei Mengenoperationen betrachten:
• Vereinigung A ∪ B: Alle Elemente aus A und alle Elemente aus B werden
zusammengefasst, wobei die Elemente, die sowohl in A als auch in B enthalten
sind, nur einmal aufgeführt werden.
A ∪ B = {2,4,6} ∪ {1,2,3} = {1,2,3,4,6}
• Durchschnitt A ∩ B: Das sind alle Elemente, die sowohl in A als auch in B
vorhanden sind. Haben A und B keine Elemente gemeinsam, ist A ∩ B = ∅, man
sagt, A und B sind disjunkt.
A ∩ B = {2,4,6} ∩ {1,2,3} = {2}
• Mengendifferenz A\B: Hiermit sind alle Elemente gemeint, die zwar in A, aber
nicht in B sind. Dann gelten offensichtlich folgende zwei Eigenschaften: A\A = ∅
und falls A und B disjunkt sind, gilt A\B = A.
A\B = {2,4,6}\{1,2,3} = {4,6}
Zuletzt definieren wir noch das Gegenereignis oder Komplementärereignis Ā = Ω\A,
das sind also alle Elemente des gesamten Raums Ω, die nicht in A enthalten sind. Es
gilt immer A ∪ Ā = Ω.
Ā = Ω\A = {1,2,3,4,5,6}\{2,4,6} = {1,3,5}
In Abbildung (2.1) sind diese vier Operationen grafisch in sogenannten Venn-Diagrammen dargestellt.
2.2 Definition der Wahrscheinlichkeit
Betrachten wir wieder ein Laplace-Experiment (2.1) mit Ω = {ω1 , . . . ,ωk } und P (ωi ) =
pi = k1 , i = 1, . . . ,k. Für ein beliebiges Ereignis A ⊆ Ω definieren wir dann die
24
2 Wahrscheinlichkeiten
Abbildung 2.1: Venn-Diagramme: Zu sehen sind die Vereinigung, die Schnittmenge,
die Mengendifferenz und das Komplement.
A
B
A
A∪ B
A
B
A∩ B
B
A
A\B
B
A
25
2 Wahrscheinlichkeiten
Wahrscheinlichkeit P (A) von A wie folgt:
Zahl interessierender Fälle
Zahl aller Fälle
Zahl der Elemente von A
=
Zahl der Elemente von Ω
Die Motivation dafür ist folgende: Wir führen ein Zufallsexperiment n-mal durch und
zählen die Versuchsausgänge, die dem Ereignis A entsprechen, dies seien hA Stück.
Dann ist die relative Häufigkeit HA = hA /n. Führen wir das Experiment noch öfter
durch, d.h. n wird immer größer, nähert sich der Wert der (immer wieder neu berechneten) relativen Häufigkeit HA einem Grenzwert an, dieser ist gerade P (A):
P (A) =
lim HA = P (A).
n→∞
Dieser Zusammenhang heißt Gesetz der großen Zahlen.
Falls Ω unendlich viele Elemente besitzt oder kein Laplace-Experiment vorliegt, funktioniert diese intuitive Definition der Wahrscheinlichkeit nicht. Eine allgemeinere Definition von Wahrscheinlichkeit liefern die Kolmogorovschen Axiome:
Eine Funktion P heißt Wahrscheinlichkeit, wenn für alle Teilmengen
A,B ⊆ Ω folgende Eigenschaften erfüllt sind:
1. 0 ≤ P (A) ≤ 1
2. P (Ω) = 1
3. A und B disjunkt ⇒ P (A ∪ B) = P (A) + P (B).
2.2.1 Rechnen mit Wahrscheinlichkeiten
Die Kolmogorovschen Axiome sind die Grundlage für folgende wichtige Rechenregeln
beim Rechnen mit Wahrscheinlichkeiten:
P (Ā) = 1 − P (A)
P (A ∪ B) = P (A) + P (B) − P (A ∩ B)
P (∅) = 0
Beispiel Beim Würfelwurf mit den Ereignissen A und B wie oben ergeben sich folgende Wahrscheinlichkeiten:
1
P (Ā) = 1 − P (A) = 1 −
2
1
= ,
2
1 1 1
P (A ∪ B) = P (A) + P (B) − P (A ∩ B) = + −
2 2 6
5
= .
6
26
2 Wahrscheinlichkeiten
2.2.2 Bedingte Wahrscheinlichkeit und unabhängige Ereignisse
Unabhängigkeit
Zwei Ereignisse A und B heißen (stochastisch) unabhängig, wenn gilt:
P (A ∩ B) = P (A) · P (B).
Manchmal schreibt man statt P (A ∩ B) auch P (A,B).
Beispiel Nehmen wir an, wir werfen eine faire Münze und einen fairen Würfel gleichzeitig. Offensichtlich beeinflusst das Ereignis K = Die Münze zeigt Kopf“ nicht das
”
Ereignis G = Der Würfel zeigt eine 6“. Also berechnet sich die Wahrscheinlichkeit
”
des Ereignisses K ∩ G wie folgt:
P (K ∩ G) ≡ P (K,G) = P (K) · P (G) =
1 1
1
· =
.
2 6
12
Beispiel Die Blutgruppe (A, B, AB oder 0) eines Menschen ist unabhängig von
seinem Rhesusfaktor (Rh+ oder Rh-). Die Wahrscheinlichkeiten für die einzelnen Merkmale sind wie folgt: P (0) = 0,38, P (A) = 0,42, P (B) = 0,13, P (AB) = 0,07 sowie
P (Rh+) = 0,85 und P (Rh−) = 0,15 (Verteilung in Deutschland). Daraus folgt:
P (AB,Rh−) = P (AB) · P (Rh−) = 0,07 · 0,15 = 0,0105
Bedingte Wahrscheinlichkeit
Oft sind zwei Ereignisse nicht unabhängig voneinander - so besteht zum Beispiel sicherlich ein Zusammenhang zwischen den Ereignissen H = Heute regnet es“ und M =
”
Morgen regnet es“. Jetzt ist es sinnvoll, die Wahrscheinlichkeit dafür anzugeben, dass
”
es morgen regnet, wenn ich weiß, dass es heute definitiv regnet. Dies wird bedingte
Wahrscheinlichkeit genannt und mit PH (M ) oder P (M |H) bezeichnet. Allgemein
bedeutet P (A|B), dass die Wahrscheinlichkeit für das Ereignis A gesucht ist, wenn
Ereignis B als bereits eingetreten vorausgesetzt wird. Mathematisch wird die bedingte
Wahrscheinlichkeit wie folgt definiert:
PB (A) ≡ P (A|B) =
P (A ∩ B)
P (B)
Äquivalent dazu ist P (A ∩ B) = P (B) · P (A|B), d.h. die Verbundwahrscheinlichkeit
P (A ∩ B) ist die Wahrscheinlichkeit für B (P (B)) mal die Wahrscheinlichkeit für A,
wobei B bereits eingetreten ist (P (A|B)).
Beispiel Eine Freundin wirft verdeckt zwei Würfel und teilt lediglich mit, dass die
Augensumme gleich 10 sei. Wie groß ist die Wahrscheinlichkeit, dass ein Pasch geworfen
27
2 Wahrscheinlichkeiten
wurde? Gesucht ist also die bedingte Wahrscheinlichkeit P (Pasch|Augensumme 10).
Die Verbundwahrscheinlichkeit ist
P (Pasch ∩ Augensumme 10) ≡ P (Pasch und Augensumme 10) ≡ P ({(5,5)}) =
1
36
und für die Wahrscheinlichkeit eine 10 zu werfen gilt
P (Augensumme 10) = P ({(6,4),(5,5),(4,6)}) =
3
1
=
.
36
12
Damit ergibt sich:
P (Pasch|Augensumme 10) =
P (Pasch ∩ Augensumme 10)
=
P (Augensumme 10)
1
36
1
12
=
1
.
3
2.2.3 Totale Wahrscheinlichkeit
Wir schreiben Ω als Vereinigung von disjunkten Mengen B1 ,B2 , . . . ,Bn , d.h.
˙ 2 ∪˙ . . . ∪B
˙ n.
Ω = B1 ∪B
(Man schreibt für die Vereinigung von zwei disjunkten Mengen B1 und B2 das Vereinigungszeichen mit einem Punkt darüber, um zu betonen, dass die Mengen keine
˙ 2 .)
Elemente gemeinsam haben: B1 ∪B
Dann gilt für ein beliebiges Ereignis A ⊆ Ω die Formel der totalen Wahrscheinlichkeit:
P (A) = P (B1 ) · P (A|B1 ) + . . . + P (Bn ) · P (A|Bn ).
Beispiel Eine Anglerin möchte gerne Forellen fangen und hat erfahren, dass es in den
drei Seen in ihrer Nachbarschaft unterschiedlich viele Forellen unter den Fischen gäbe.
See 1 hat fünfzig Prozent Forellen, See 2 noch zwanzig Prozent und See 3 schließlich
nur fünf Prozent Forellen. Sie kennt die Seen noch nicht und sucht sich nun zufällig
einen aus - wie groß ist die Wahrscheinlichkeit eine Forelle zu fangen (Ereignis F )? Wir
bezeichnen mit P (F |B1 ) = 0,5, P (F |B2 ) = 0,2 und P (F |B3 ) = 0,05 die Wahrscheinlichkeiten, in den entsprechenden Seen eine Forelle zu fangen. Der See wird zufällig
ausgewählt, also ist die Wahrscheinlichkeit P (Bi ) = 31 , i = 1,2,3. Damit ergibt sich:
P (F ) = P (F |B1 ) · P (B1 ) + P (F |B2 ) · P (B2 ) + P (F |B3 ) · P (B3 )
1
1
1
0,75
= 0,5 · + 0,2 · + 0,05 · =
= 0,25.
3
3
3
3
Die Anglerin wird also mit 25-prozentiger Wahrscheinlichkeit eine Forelle fangen.
28
2 Wahrscheinlichkeiten
2.3 Satz von Bayes
Betrachten wir noch einmal die Verbundwahrscheinlichkeit P (A∩B) = P (B)·P (A|B).
Umgekehrt gilt natürlich auch P (A ∩ B) = P (B ∩ A) = P (A) · P (B|A) und damit
P (A) · P (B|A) = P (B) · P (A|B) bzw. die Bayes-Formel
P (A|B) =
P (B|A) · P (A)
.
P (B)
Die Bayes-Formel verknüpft die bedingten Wahrscheinlichkeiten P (A|B) und P (B|A)
und ist nützlich, um Vorwissen ( a priori“) in die Berechnung der Wahrscheinlichkeit
”
zu integrieren. Häufig wird bei der Berechnung der Wahrscheinlichkeit P (B) im Nenner
die Formel für die totale Wahrscheinlichkeit benötigt.
Beispiel Es liegt ein Test für eine Erkrankung vor, die selten ist - etwa 0,1 Prozent
der Bevölkerung sind erkrankt. Der Test erkennt die Krankheit bei einer tatsächlich
kranken Person mit 100-prozentiger Wahrscheinlichkeit, bezeichnet aber auch fälschlicherweise 1 Prozent der Gesunden als krank. K und G sind die Ereignisse, dass eine
Person tatsächlich krank beziehungsweise gesund ist, und TK und TG bezeichnen das
entsprechende Testresultat. Die Wahrscheinlichkeiten sind dann wie folgt:
P (K) = 0,001 ⇒ P (G) = 0,999
P (TK |K) = 1
P (TK |G) = 0,01
Wie wahrscheinlich ist es, dass eine positiv getestete Person tatsächlich krank ist?
Das ist die bedingte Wahrscheinlichkeit P (K|TK ) und mit der Bayes-Formel sowie der
totalen Wahrscheinlichkeit P (TK ) = P (TK |G) · P (G) + P (TK |K) · P (K) ergibt sich:
P (TK |K) · P (K)
P (TK )
P (TK |K) · P (K)
=
P (TK |K) · P (K) + P (TK |G) · P (G)
1 · 0,001
1
=
≈
≈ 9%,
1 · 0,001 + 0,01 · 0,999
11
P (K|TK ) =
d.h. etwa 10 falschpositiv Getestete pro einer tatsächlich erkrankten Person!
29
3 Wahrscheinlichkeitsverteilungen
3.1 Zufallsvariablen
Oft werden, bevor ein Experiment durchgeführt wird, Eigenschaften der zufälligen
Messwerte vorausgesetzt, zum Beispiel hinsichtlich ihres zu erwartenden Mittelwerts,
der erwarteten Streuung um diesen und allgemein einer gewissen zu erwartenden Form
der Histogramme. Um diese Annahmen mathematisch exakt formulieren zu können,
benötigen wir den Begriff der Zufallsvariable: Dies ist eine Größe, deren exakten
Wert (die Realisierung x) wir erst kennen, nachdem wir das Experiment durchgeführt
haben. Vorher ist sie ein Platzhalter, allerdings mit bestimmten Eigenschaften, die
wir kennen: So wissen wir zum Beispiel vorher, ob X diskret oder stetig ist, je nachdem, ob X zum Beispiel die Anzahl von Jungtieren einer Hauskatze (X = 5) oder
die Wassertemperatur eines Sees (X = 20,361◦ C) beschreibt. Oder wir setzen bereits Eigenschaften der wahrscheinlichkeitstheoretischen Verteilung von X voraus, zum
Beispiel P (X = Kopf) = 0,5 beim Münzwurf oder P (85 ≤ X ≤ 115) = 0,68 beim
Messen des Intelligenzquotienten.
Für eine diskrete Zufallsvariable X wissen wir, dass sie nur abzählbar viele Realisierungen xi (i = 1,2,3, . . .) besitzt. Die Wahrscheinlichkeit für eine bestimmte Realisierung bezeichnen wir mit P (X = xi ) = pi . Wir haben in (1.2) und (1.3) bereits
das Histogramm und das Summenhistogramm kennengelernt. Nach dem Gesetz der
großen Zahlen (2.2) stabilisieren sich die Werte im Histogramm für große Stichprobenumfänge n gerade bei den Werten pi , und auch das abgeleitete Summenhistogramm
bekommt dann eine charakteristische Gestalt, diese wird durch die Verteilungsfunktion beschrieben:
X
FX (t) = P (X ≤ t) =
pi
i: xi ≤t
Diese Verteilungsfunktion hat wichtige Eigenschaften:
• 0 ≤ FX (t) ≤ 1
• limt→−∞ FX (t) = 0
• limt→+∞ FX (t) = 1
• FX ist monoton wachsend in t
Für eine stetige (kontinuierliche) Zufallsvariable X können wir keine Wahrscheinlichkeiten pi für einzelne Messwerte angeben, weil die Wahrscheinlichkeit, dass die
Zufallsvariable genau einen exakten Wert auf der reellen Achse trifft, gerade gleich 0
30
3 Wahrscheinlichkeitsverteilungen
ist. An die Stelle der pi tritt nun die Wahrscheinlichkeitsdichte f (x), eine Funktion
mit folgenden Eigenschaften:
• f (x) ≥ 0
R∞
• −∞ f (x) dx = 1.
Achtung: Die Wahrscheinlichkeitsdichte gibt keine Wahrscheinlichkeiten an! Vielmehr
ist die Wahrscheinlichkeit in der Fläche unter dem Graphen von f versteckt, und diese
wird gerade durch die Verteilungsfunktion bestimmt:
Die Verteilungsfunktion einer stetigen Zufallsvariablen wird über die Wahrscheinlichkeitsdichte wie folgt definiert:
Z t
FX (t) = P (X ≤ t) =
f (x) dx
−∞
Die Eigenschaften der Verteilungsfunktion sind dieselben wie im diskreten Fall. In
beiden Fällen gibt die Verteilungsfunktion die Wahrscheinlichkeit dafür an, dass die
Zufallsvariable X einen Wert kleiner oder gleich t annehmen wird. Außerdem gilt im
stetigen Fall:
Z b
P (a ≤ X ≤ b) =
f (x) dx = FX (b) − FX (a)
a
Wenn die genaue Gestalt der Verteilungsfunktion einer Zufallsvariablen bekannt ist,
zum Beispiel bei der Binomialverteilung oder Normalverteilung, schreiben wir X ∼
Bin(n,p) oder X ∼ N (µ,σ 2 ). Die Verteilungen werden dabei durch ihre Parameter charakterisiert (hier n und p bzw. µ und σ 2 ), mehr dazu in den entsprechenden
Abschnitten weiter unten.
3.1.1 Erwartungswert und Varianz
In (1.3.1) und (1.3.2) haben wir bereits die Begriffe Mittelwert und korrigierte Stichprobenvarianz für eine Stichprobe kennengelernt. Die Äquivalente für Zufallsvariablen
sind der Erwartungswert und die Varianz.
Erwartungswert
Zunächst die mathematische Definition:
Für eine diskrete Zufallsvariable X ist der Erwartungswert definiert durch
X
E(X) =
xi · pi
i
und für eine stetige Zufallsvariable X durch
Z∞
E(X) =
x · f (x) dx.
−∞
Man findet auch die Schreibweisen E [X] ≡ hXi ≡ E(X).
31
3 Wahrscheinlichkeitsverteilungen
Die Motivation für den Erwartungswert ist folgende: Angenommen, wir werfen 600-mal
einen fairen Würfel und erhalten 99-mal die 1, 101-mal die 2, 95-mal die 3, 100-mal
die 4, 103-mal die 5 und 102-mal die 6. Damit ergeben sich als relative Häufigkeiten
99
Hi = hni die Werte H1 = 600
= 0,165, H2 = 0,1683̄, . . ., H6 = 0,17. Der Mittelwert
ergibt sich zu
99 · 1 + 101 · 2 + 95 · 3 + 100 · 4 + 103 · 5 + 102 · 6
600
= H1 · 1 + H2 · 2 + . . . + H6 · 6
2113
=
= 3,5216̄.
600
x̄ =
Nach dem Gesetz der großen Zahlen (2.2) gilt lim Hi = pi =
n→∞
ergibt sich als erwarteter Wert“ des Würfelwurfs
”
1
6
= 0,16̄ und damit
E(X) = p1 · 1 + p2 · 2 + . . . + p6 · 6
1+2+3+4+5+6
=
= 3,5.
6
Varianz
Die Varianz ist für Zufallsvariablen das Analogon zur Stichprobenvarianz für Stichproben und wie folgt definiert:
X
X diskret: D2 (X) =
(xi − E(X))2 · pi
i
X stetig: D2 (X) =
Z∞
(x − E(X))2 · f (x) dx
−∞
Sie beschreibt jeweils die mittlere quadratische Abweichung der Zufallsvariablen von
ihrem Erwartungswert und beschreibt damit die Streuung der Verteilung um den Erwartungswert. Man findet auch die Schreibweisen V ar(X) ≡ V(X) ≡ D2 (X).
Für die Varianz gilt die Identität
D2 (X) = E([X − E(X)]2 ).
Manchmal kann es sinnvoller sein, die Varianz mit Hilfe des Verschiebungssatzes
D2 (X) = E(X 2 ) − (E(X))2 =
Z∞

x2 · f (x) dx − 
−∞
zu berechnen.
32
Z∞
−∞
2
x · f (x) dx
3 Wahrscheinlichkeitsverteilungen
Allgemein gilt sogar für jede Transformation g(X) einer Zufallsvariablen X die Eigenschaft
Z∞
E(g(X)) =
g(x)f (x) dx.
−∞
In den zwei folgenden Abschnitten (3.2) und (3.3) werden jetzt einige wichtige diskrete
und stetige Zufallsvariablen mit ihren besonderen Eigenschaften und Anwendungsbereichen vorgestellt.
3.2 Diskrete Verteilungen
3.2.1 Binomialverteilung: X ∼ Bin(n,p)
Die Binomialverteilung wird auch Mutter aller Verteilungen“ genannt, vor allem we”
gen ihrer engen Beziehung zur Normalverteilung (3.3.1). Wir betrachten zunächst das
Bernoulli-Schema: Es werden n unabhängige Versuche gemacht, jeder Versuch hat
dieselbe Treffer- oder Erfolgswahrscheinlichkeit p. Beispiele für dieses Setting sind der
wiederholte Münzwurf (Erfolg: Kopf, p = 21 ), der wiederholte Würfelwurf (Erfolg: 6,
p = 16 ) oder die Suche nach einer seltenen Krankheit in einer Bevölkerung ( Erfolg“:
”
Individuum ist krank, mit z.B. p = 0,001). Es interessiert nun die Wahrscheinlichkeit,
bei n Versuchen genau k Treffer zu erzielen:
n k
P (X = k) ≡ pk =
p (1 − p)n−k .
k
n!
Hierbei ist nk = k!(n−k)!
(sprich: n über k) und heißt Binomialkoeffizient. Dieser
ist die mögliche Anzahl von Kombinationen, k Erfolge auf n Versuche zu verteilen
(siehe Beispiel weiter unten). pk (1−p)n−k ist die Wahrscheinlichkeit, k-mal Erfolg und
demzufolge (n − k)-mal Misserfolg zu haben. Oft wird q = 1 − p ersetzt. Abbildung
(3.1) zeigt exemplarisch die Wahrscheinlichkeiten P (X = k) unter Binomialverteilung
mit n = 20 fix und verschiedenen Werten des Parameters p.
Weiterhin gilt:
FX (t) = P (X ≤ t) =
t X
n
k=0
k
pk (1 − p)n−k
E(X) = n · p
D2 (X) = n · p · (1 − p)
Ist n sehr groß, nähern sich die Werte der Binomialverteilung der einer Normalverteilung (3.3.1) mit µ = n · p und σ 2 = n · p · q an.
33
3 Wahrscheinlichkeitsverteilungen
Abbildung 3.1: Binomialverteilung für n = 20 und p ∈ {0,1; 0,3; 0,5; 0,7}
Binomialverteilung
0.25
●
0.20
●
●
●
●
0.15
●
●
●
●
●
●
0.10
P(X=k)
Bin(20; 0,1)
Bin(20; 0,3)
Bin(20; 0,5)
Bin(20; 0,7)
●
0.05
●
●
●
●
●
0.00
0
●
●
●
●
● ● ● ● ●
●
●
5
●
● ● ● ● ●
● ● ● ● ●
10
15
20
Erfolge k
Tabelle 3.1: Mögliche Versuchsausgänge im Bernoullischema mit n = 4 und k = 2
Durchgang
Erfolg/Misserfolg
34
1
+
+
+
-
2
+
+
+
-
3
+
+
+
4
+
+
+
3 Wahrscheinlichkeitsverteilungen
Beispiel Betrachten wir eine Versuchsreihe mit n = 4 Durchgängen und Erfolgswahrscheinlichkeit p = 0,25. Nehmen wir an, uns interessiert die Wahrscheinlichkeit,
genau zweimal Erfolg zu haben (k = 2). Wie könnten die Versuchsreihen aussehen? Tabelle (3.1) zeigt alle möglichen Varianten. Die einzelnen Durchgänge sind
stochastisch unabhängig, also berechnet sich die Wahrscheinlichkeit für den Versuchsausgang + + - -“ zu p · p · q · q, für den Versuchsausgang + - + - “ zu p · q · p · q usw., in
”
”
4!
= 42
jedem Fall ergibt sich gerade p2 · q 2 ≡ p2 (1 − p)2 . Insgesamt gibt es 6 = 2!(4−2)!)
verschiedene Versuchsausgänge, d.h.
4
P (X = 2) =
· p2 · q 2 = 6 · 0,252 · 0,752
2
27
=
≈ 21,1%.
128
3.2.2 Poisson-Verteilung: X ∼ P oiss(λ)
Wenn im Bernoulli-Schema die Erfolgswahrscheinlichkeit p sehr klein und die Anzahl
der Durchgänge n sehr groß ist, ist es günstiger, statt der Binomialverteilung die Poissonverteilung anzusetzen. Sie beschreibt sehr gut die Verteilung von seltenen Ereignissen und besitzt den Parameter λ, der die Erfolgshäufigkeit in einem festen Zeitintervall
beschreibt. Ausgehend von der Binomialverteilung mit Parametern n und p wird dann
die Poissonverteilung mit Parameter λ = n · p angesetzt. Die Wahrscheinlichkeit, im
Zeitintervall genau k Erfolge zu erzielen, ist bei der Poissonverteilung gegeben durch
P (X = k) ≡ pk ≡ Pλ (k) =
λk −λ
e .
k!
Abbildung (3.2) zeigt die Wahrscheinlichkeiten P (X = k) für X ∼ P oiss(λ) unter
verschiedenen Parameterwerten von λ.
Weiterhin gilt für die Poissonverteilung:
FX (t) = P (X ≤ t) =
t
X
λk
k=0
k!
e−λ
E(X) = λ
D2 (X) = λ
Typische Anwendungsbeispiele der Poissonverteilung sind der radioaktive Zerfall und
das Auftreten von Mutationen.
Ist λ sehr groß, nähern sich die Werte der Poissonverteilung der einer Normalverteilung
(3.3.1) mit Parametern µ = λ und σ 2 = λ an.
35
3 Wahrscheinlichkeitsverteilungen
Abbildung 3.2: Poissonverteilung für λ ∈ {0,5; 1; 5; 10}
0.6
Poissonverteilung
●
●
0.3
●
0.2
P(X=k)
0.4
0.5
●
Poiss(0,5)
Poiss(1)
Poiss(5)
Poiss(10)
●
●
●
●
0.1
●
●
●
●
●
0.0
●
●
0
●
●
●
●
●
●
5
●
●
●
●
●
●
●
●
10
●
●
●
●
15
Erfolge k
Beispiel Das radioaktive Isotop Iod-131 hat eine Zerfallsrate λ = 0,086/Tag (gerundet), dies entspricht einer Halbwertszeit von 8 Tagen (d.h. nach einer Zeit von 8 Tagen
sind in einer beliebigen Menge von Iod-131-Atomen nur noch die Hälfte der Atome von
der Art Iod-131, die andere Hälfte ist in andere Elemente zerfallen). Wie groß ist zum
Beispiel die Wahrscheinlichkeit, dass es in einer Probe vom Isotop Iod-131 an einem
Tag zu mindestens einem Zerfall kommt (P (X ≥ 1))? Mit Hilfe der Gegenwahrscheinlichkeit ergibt sich folgende Rechnung:
P (X ≥ 1) = 1 − P (X = 0) = 1 − P0,086 (0) = 1 −
0,0860 −0,086
e
= 1 − e−0,086
0!
≈ 0,082.
Also kommt es mit einer Wahrscheinlichkeit von etwa 8,2 Prozent zu mindestens einem
Zerfall am Tag.
3.3 Stetige Verteilungen
3.3.1 Normalverteilung: X ∼ N (µ,σ 2 )
Die Wahrscheinlichkeitsdichte einer normalverteilten Zufallsvariablen X lautet
1
1
exp − 2 (x − µ)2 .
f (x) = √
(3.1)
2σ
2πσ 2
Sie hat die charakteristische Glockenform, die in Abbildung (3.3) links zu sehen ist,
diese Kurve wird auch Gaußsche Glockenkurve genannt. Der Maximalpunkt der Dichte
36
3 Wahrscheinlichkeitsverteilungen
Abbildung 3.3: Normalverteilung (mit Parametern µ = 4 und σ 2 = 1). Links die
Dichtefunktion, rechts die Verteilungsfunktion.
Verteilungsfunktion N(4,1)
F(t)
0.0
0.0
0.2
0.1
0.4
0.2
f(x)
0.6
0.3
0.8
1.0
0.4
Normalverteilung N(4,1)
1
2
3
4
5
6
7
1
x
2
3
4
5
6
7
t
ist bei ihrem Parameter µ ∈ (−∞,+∞), der zweite Parameter σ 2 mit σ > 0 gibt an, wie
breit oder steil die Kurve ist. Insbesondere befinden sich die Wendepunkte des Graphen
der Funktion an den Stellen xW1 = µ − σ und xW2 = µ + σ. Die Verteilungsfunktion
der Normalverteilung lässt sich nicht explizit angeben, da das entsprechende Integral
über f (x) nicht analytisch zu bestimmen ist. Sie hat die Gestalt, die in Abbildung
(3.3) rechts zu sehen ist.
Für Erwartungswert, Varianz, Schiefe, Wölbung und Exzess einer normalverteilten
Zufallsvariablen gilt:
E(X) = µ
D2 (X) = σ 2
S=0
W =3⇒E=0
Standardnormalverteilung
Ein Spezialfall der Normalverteilung liegt für die Parameter µ = 0 und σ 2 = 1 vor und
wird Standardnormalverteilung genannt. Die Dichte der Standardnormalverteilung
wird manchmal dann mit φ(z) bezeichnet:
2
1
φ(z) = √ e−z /2
2π
37
3 Wahrscheinlichkeitsverteilungen
Für die Verteilungsfunktion der Standardnormalverteilung gilt dann:
Zt
φ(z) dz.
Φ(t) =
−∞
Auch dieses Integral lässt sich nur näherungsweise bestimmen, die Werte von Φ(z)
liegen aber in Tabellenform vor.
Wegen der Symmetrie der Normalverteilung gilt die wichtige Identität
Φ(−z) = 1 − Φ(z).
Wird der Wert FX (t) mit einem bestimmten t für eine normalverteilte Zufallsvariable
mit Parametern µ und σ 2 gesucht, muss zunächst die Substitution
z=
t−µ
σ
durchgeführt werden (Zentrierung und Standardisierung) und anschließend kann
der Wert Φ(z) = Φ( t−µ
σ ) in der Tabelle für die Standardnormalverteilung nachgeschlagen werden.
Die σ-Regel ist eine Faustregel, die angibt, wie viele Messwerte sich voraussichtlich
in einem bestimmten (von σ abhängigen) Bereich um den Erwartungswert µ befinden:
P (µ − 1σ ≤ X ≤ µ + 1σ) ≈ 68,3%
P (µ − 2σ ≤ X ≤ µ + 2σ) ≈ 95,5%
P (µ − 3σ ≤ X ≤ µ + 3σ) ≈ 99,7%
50% ≈ P (µ − 0,68σ ≤ X ≤ µ + 0,68σ)
90% ≈ P (µ − 1,65σ ≤ X ≤ µ + 1,65σ)
95% ≈ P (µ − 1,96σ ≤ X ≤ µ + 1,96σ)
99% ≈ P (µ − 2,58σ ≤ X ≤ µ + 2,58σ)
Abbildung (3.4) illustriert die Sigma-Regel.
Einen anderen Weg, sich der Standardnormalverteilung zu nähern, bieten die Quantile: Welchen Wert muss ich in die Verteilungsfunktion Φ einsetzen, um eine bestimmte
Wahrscheinlichkeit zu erhalten? So gibt zum Beispiel z(0,95) diejenige reelle Zahl an,
für die Φ(z(0,95) ) = 0,95 gilt. D.h. z(q) = Φ−1 (q).
38
3 Wahrscheinlichkeitsverteilungen
Abbildung 3.4: Sigma-Regel: Die Fläche unter der Dichtefunktion gibt gerade die
Wahrscheinlichkeit an.
Sigma−Regel
Sigma−Regel
95 %
f(x)
f(x)
68,3 %
µ − 1.96σ
µ − 2σ
−2
µ−σ
−1
µ
0
µ+σ
1
µ + 2σ
µ − 2σ
2
−2
x
µ + 1.96σ
µ−σ
−1
µ
0
µ+σ
1
µ + 2σ
2
x
Zentraler Grenzwertsatz
Die Bedeutung der Normalverteilung liegt einerseits darin, dass viele zufällige Vorgänge
sich in der Praxis gut mit einer Normalverteilung beschreiben lassen, z.B. Messfehler
bei technischen Geräten und die Brownsche Bewegung. Andererseits erscheint sie vor
allem im Zentralen Grenzwertsatz:
Die zentrierte standardisierte Summe von unabhängigen identisch verteilten Zufallsvariablen strebt gegen eine Standardnormalverteilung N (0,1).
Genauer: Wir betrachten Zufallsvariablen X1 ,X2 ,X3 ,. . ., die alle dieselbe Verteilung
(z.B. Binomialverteilung, Exponentialverteilung,...) besitzen und stochastisch unabhängig voneinander sind. Weiterhin haben sie jeweils den Erwartungswert µ und die
Varianz σ 2 (im Fall der Binomialverteilung also z.B. µ = n · p und σ 2 = n · p · (1 − p)).
Bilden wir nun die standardisierte zentrierte Summe
1
X1 − µ
Xn − µ
Zn = √ ·
+ ... +
,
σ
σ
n
dann gilt, dass Zn für n → ∞ gegen eine Zufallsvariable Z mit Z ∼ N (0,1) strebt. Oft
wird die Folgerung benutzt, dass sich für großes n die gemittelte Summe
n
X̄ =
1X
Xi
n i=1
39
3 Wahrscheinlichkeitsverteilungen
gut durch eine Normalverteilung N (µ, n1 σ 2 ) annähern lässt, oder äquivalent lässt sich
die Summe
n
X
Sn =
Xi
i=1
2
durch eine Normalverteilung N (nµ,nσ ) approximieren.
Beispiel Der Intelligenzquotient (IQ) wird mit einem Test bestimmt und ist so definiert, dass das durchschnittliche Testergebnis gerade einem IQ von 100 entspricht
und etwa 68,3 Prozent der Bevölkerung einen IQ zwischen 85 und 115 besitzen.
Darüberhinaus wird der IQ als normalverteilt angenommen. Demzufolge betrachten wir also eine Zufallsvariable IQ ∼ N (100,225), d.h. mit Mittelwert µ = 100
und Standardabweichung σ = 15 ⇒ σ 2 = 225. Wie viel Prozent der Bevölkerung
haben dann einen IQ zwischen 90 und 110? Dies entspricht der Wahrscheinlichkeit
P (90 ≤ IQ ≤ 110):
P (90 ≤ IQ ≤ 110) = FIQ (110) − FIQ (90)
90 − 100
110 − 100
−Φ
=Φ
15
15
≈ Φ(0,67) − Φ(−0,67)
= Φ(0,67) − (1 − Φ(0,67))
= 2 · Φ(0,67) − 1
≈ 2 · 0,74857 − 1
= 0,49714
Also haben etwa 49,7 Prozent der Bevölkerung einen IQ zwischen 90 und 110.
Beispiel In einem großen See werden regelmäßig Hechte gefangen. Die Hechte sind
durchschnittlich 90 cm lang und man geht davon aus, dass die Körperlänge der Hechte
einer Normalverteilung unterliegt. Etwa 10 Prozent der gefangenen Hechte sind länger
als 120 cm. Wie groß ist die Standardabweichung σ der normalverteilten Zufallsvariable
L der Körperlänge? Man rechnet wie folgt:
10% =
ˆ 0,1 = P (L ≥ 120) = 1 − P (L ≤ 120)
120 − 90
= 1 − FL (120) = 1 − Φ
σ
30
⇔Φ
= 0,9
σ
30
⇔
= Φ−1 (0,9)
σ
30
30
30
⇔ σ = −1
=
≈
Φ (0,9)
z(0,9)
1,28
= 23,4375.
40
3 Wahrscheinlichkeitsverteilungen
Abbildung 3.5: Exponentialverteilung (mit Parameter λ = 1/2). Links die Dichtefunktion, rechts die Verteilungsfunktion.
Verteilungsfunktion Exp(1/2)
0.6
F(t)
0.4
0.2
0.0
0.0
0.2
0.1
f(x)
0.3
0.8
0.4
1.0
Exponentialverteilung Exp(1/2) − Dichte
0
2
4
6
8
10
0
2
x
4
6
8
10
t
Die Standardabweichung der Körperlänge der Hechte beträgt rund 23,44 cm.
Beispiel Das radioaktive Iod-131 aus dem Beispiel für die Poissonverteilung (siehe
(3.2.2), λ = 0,086) wird in der Behandlung von Schilddrüsenerkrankungen eingesetzt.
Eine Spezialklinik besitzt deshalb viele Proben (n = 200) des radioaktiven Materials.
Wie wahrscheinlich ist es, dass es in allen Proben gemeinsam zu weniger als 50 Zerfällen
am Tag kommt? Dies entspricht der Wahrscheinlichkeit P (Sn ≤ 50) mit Sn wie oben im
Zentralen Grenzwertsatz (3.3.1) definiert. Der Zentrale Grenzwertsatz ergibt zunächst
(es gilt µ = σ 2 = λ bei der Poissonverteilung):
Sn
∼
approx
N (n · µ,n · σ 2 ) = N (n · λ,n · λ)
= N (200 · 0,086; 200 · 0,086) = N (17,2; 17,2)
Damit ergibt sich für die Wahrscheinlichkeit P (Sn ≤ 50):
50 − 17,2
P (Sn ≤ 50) = FSn (50) ≈ Φ
17,2
≈ Φ(1,91) ≈ 0,97193.
3.3.2 Exponentialverteilung: X ∼ Exp(λ)
Die Exponentialverteilung wird meist benutzt, wenn eine zufällige Zeitdauer modelliert werden soll. Man kann sie als Ergänzung zur Poisson-Verteilung (siehe (3.2.2))
41
3 Wahrscheinlichkeitsverteilungen
sehen: Die Poisson-Verteilung mit Parameter λ beschreibt die zufällige Anzahl von
seltenen Ereignissen in einem bestimmten Zeitintervall, die Exponentialverteilung mit
demselben Parameter λ beschreibt dann den zufälligen Zeitraum zwischen zwei dieser
seltenen Ereignisse. Sie besitzt folgende Dichte und Verteilungsfunktion:
(
λ · e−λx x ≥ 0
f (x) =
0
x<0
(
1 − e−λx x ≥ 0
.
FX (t) =
0
x<0
Die beiden Funktionen sind in Abbildung (3.5) zu sehen.
Weiterhin sind der Erwartungswert und die Varianz gegeben durch:
1
λ
1
D2 (X) = 2 .
λ
E(X) =
Die Exponentialverteilung wird zum Beispiel benutzt, um die Zeit zwischen zwei radioaktiven Zerfällen in einer Probe zu modellieren, für die Lebensdauer von Organismen, oder auch für die Zeit, bis ein technisches Gerät (z.B. eine Glühlampe) kaputt
geht. Manchmal interessiert dann nicht die Wahrscheinlichkeit, dass z.B. ein Organismus bis zu einem Zeitpunkt t lebt (FX (t) ≡ P (X ≤ t)), sondern dass er einen bestimmten Zeitpunkt t überlebt, dies ist dann durch die Überlebenswahrscheinlichkeit gegeben:
P (X ≥ t) = 1 − P (X ≤ t) = 1 − FX (t) = e−λx .
Abbildung (3.6) zeigt die Funktion der Überlebenswahrscheinlichkeit.
Eine interessante Eigenschaft der Exponentialverteilung ist ihre Gedächtnislosigkeit:
Es werden keine Ermüdungserscheinungen modelliert, d.h. zum Beispiel für die Lebensdauer einer Glühlampe, dass die Wahrscheinlichkeit, dass die Lampe noch 100 Tage
brennt, nicht davon abhängt, wie lange sie bis heute schon gebrannt hat. In manchen
Szenarien ist diese Eigenschaft der Exponentialverteilung unsinnig (Lebensdauern von
Lebewesen), manchmal ist sie aber tatsächlich gegeben (radioaktiver Zerfall). Eventuell
müssen dann kompliziertere Verteilungen benutzt werden, die eine Ermüdung berücksichtigen. Mathematisch ergibt sich die Gedächtnislosigkeit mit der bedingten Wahr-
42
3 Wahrscheinlichkeitsverteilungen
Abbildung 3.6: Überlebenswahrscheinlichkeit bei Exponentialverteilung (mit Parameter λ = 1/2).
0.6
0.4
0.0
0.2
1−F(t)
0.8
1.0
Überlebensdauer Exp(1/2)
0
2
4
6
8
10
t
scheinlichkeit (siehe (2.2.2)) wie folgt:
P ({X ≥ t0 + t} ∩ {X ≥ t0 })
P (X ≥ t0 )
P (X ≥ t0 + t)
=
P (X ≥ t0 )
P (X ≥ t0 + t|X ≥ t0 ) =
e−λ·(t0 +t)
e−λt0 · e−λt
=
−λ·t
0
e
e−λt0
−λt
=e
=
= P (X ≥ t).
Beispiel Das Darmbakterium Escherichia coli (E. coli) hat im Labor unter guten
Bedingungen eine Generationszeit von etwa 30 Minuten, d.h. ein einzelnes Bakterium
teilt sich nach etwa einer halben Stunde. Nehmen wir an, die Dauer zwischen zwei
Zellteilungen sei exponentialverteilt. Wie groß ist der Parameter λ? Wie wahrscheinlich
ist es, dass sich ein einzelnes Bakterium schon innerhalb der ersten 15 Minuten teilt?
Und wie wahrscheinlich ist es, dass sich ein einzelnes Bakterium, dass sich nach 30
Minuten noch nicht geteilt hat, innerhalb der nächsten 10 Minuten teilt?
Zunächst der Parameter λ: Der Erwartungswert der Exponentialverteilung ist 1/λ,
43
3 Wahrscheinlichkeitsverteilungen
also:
1 !
= 30 [min]
λ
1
⇔λ=
.
30
Für die Wahrscheinlichkeit, dass sich das Bakterium schon in der ersten Viertelstunde
geteilt hat, ergibt sich damit:
E(X) =
1
P (X ≤ 15) = FX (15) = 1 − e− 30 ·15
= 1 − e−1/2
≈ 0,39347.
Also teilt es sich mit etwa 39,3-prozentiger Wahrscheinlichkeit schon in den ersten 15
Minuten.
Wie steht es um das Bakterium, das sich in 30 Minuten noch nicht geteilt hat? Dass
die Zellteilung in den nächsten 10 Minuten geschieht, lässt sich durch die bedingte
Wahrscheinlichkeit P (X ≤ 30 + 10|X ≥ 30) beschreiben. Wegen der Gedächtnislosigkeit ergibt sich:
P (X ≤ 30 + 10|X ≥ 30) = P (X ≤ 10) = FX (10)
1
= 1 − e− 30 ·10 = 1 − e−1/3
≈ 0,28347.
Es kommt also mit etwa 28,3 Prozent Wahrscheinlichkeit in den nächsten 10 Minuten
zur Zellteilung, wobei die halbe Stunde Wartezeit mathematisch durch die angenommene Exponentialverteilung nicht modelliert und damit nicht berücksichtigt wurde.
3.3.3 Gleichverteilung: X ∼ U (a,b)
Wenn man annimmt, dass eine Zufallsgröße nur Werte auf einem begrenzten Intervall
[a,b] annimmt und es dabei keine bevorzugten Werte gibt, heißt die Zufallsvariable
gleichverteilt auf [a,b]. Die Wahrscheinlichkeitsdichte der Gleichverteilung lautet
(
1
, a≤x≤b
f (x) = b−a
0,
sonst.
Für Verteilungsfunktion, Erwartungswert und


0,
t−a
FX (t) = b−a
,


1,
Varianz ergeben sich:
t<a
a≤t≤b
b<t
a+b
2
1
2
D (X) =
(b − a)2 .
12
E(X) =
44
3 Wahrscheinlichkeitsverteilungen
Abbildung 3.7: Gleichverteilung (mit Parametern a = −1 und b = 5).
Verteilungsfunktion UNI(−1,5)
F(t)
0.0
0.00
0.2
0.05
0.4
0.10
f(x)
0.6
0.15
0.8
1.0
0.20
Gleichverteilung UNI(−1,5) − Dichte
−2
0
2
4
6
−2
0
x
2
4
6
t
Abbildung (3.7) zeigt Dichte und Verteilungsfunktion einer Gleichverteilung mit a =
−1 und b = 5.
Beispiel Bei Hausmeerschweinchen gibt es viele verschiedene Rassen mit unterschiedlicher Felllänge. Nehmen wir an, die Felllänge L genüge einer Gleichverteilung mit
Parametern a = 1 cm (Kurzhaarmeerschwein) und b unbekannt (z.B. Angorameerschwein). Aus Messungen ist bekannt, dass die Meerschweine im Mittel eine Felllänge
von 5 cm besitzen. Wie groß ist b? Wie viele Meerschweine besitzen eine Felllänge
zwischen 2 cm und 4 cm (z.B. Glatthaarmeerschwein)?
Der Erwartungswert einer Gleichverteilung ist E(L) = a+b
2 , mit einer erwarteten Felllänge von 5 cm ergibt sich also für den Parameter b:
5 = E(L) =
a+b
1+b
=
2
2
⇔ b = 9 [cm].
Und es gibt etwa 25 Prozent Meerschweine mit einer Felllänge zwischen 2 cm und 4 cm,
denn:
P (2 ≤ L ≤ 4) = FL (4) − FL (2)
3 1
2
1
4−1 2−1
−
= − = = .
=
9−1 9−1
8 8
8
4
45
3 Wahrscheinlichkeitsverteilungen
Abbildung 3.8: χ2 -Verteilung mit (von links nach rechts) 2, 3, 4 bzw. 5 Freiheitsgraden.
Chi²−Verteilung: Verteilungsfunktion
0.6
F(t)
0.4
0.2
0.0
0.0
0.2
0.1
f(x)
0.3
0.8
0.4
1.0
Chi²−Verteilung: Dichte
0
2
4
6
8
10
0
2
x
4
6
8
10
t
3.3.4 Chi-Quadrat-Verteilung: Y ∼ χ2 (f )
Wenn X1 , X2 , ... , Xf standardnormalverteilte unabhängige Zufallsvariablen sind,
dann ist die Summe ihrer Quadrate Y = X12 + X22 + . . . + Xf2 gerade χ2 -verteilt mit
Parameter f . Der Parameter f wird Anzahl der Freiheitsgrade genannt. Für die
Dichte der χ2 -Verteilung gilt
f
y
f (y) = cf · y 2 −1 · e− 2
mit Normierungskonstante cf
cf = √
1
2f
· Γ(f /2)
,
wobei
Z∞
Γ(x) =
tx−1 e−t dt
0
die Gamma-Funktion ist. Es gilt Γ(n) = (n − 1)! für n ∈ N.
Abbildung (3.8) zeigt Dichte und Verteilungsfunktion der χ2 -Verteilung für verschiedene Freiheitsgrade.
46
3 Wahrscheinlichkeitsverteilungen
Auch für die χ2 -Verteilung liegen die Werte ihrer Verteilungsfunktion FY (t) in Tabellenform vor. Für Erwartungswert und Varianz gilt
E(Y ) = f,
D2 (Y ) = 2f.
Die χ2 -Verteilung wird vor allem beim Chi-Quadrat-Test (siehe (5.2.3)) eingesetzt,
sowie wenn bei einer Stichprobe ein Konfidenzintervall für die Varianz σ 2 geschätzt
werden muss.
Beispiel Auf einem Erdbeerfeld wurde bei fünf verschiedenen Parzellen der Größe
1 m2 jeweils der zufällige Ertrag ρ der Sorte Fraise Rousse“ gemessen. Diese Sorte
”
hat einen durchschnittlichen Ertrag von 2 kg/m2 und einer Standardabweichung von
0,4 kg/m2 . Wir nehmen an, dass der Ertrag ρ einer Normalverteilung N (2 ; 0,16)
unterliegt. Auf den fünf Parzellen ergaben sich die Erträge ρ1 = 2,3 kg, ρ2 = 1,9 kg,
ρ3 = 2,6 kg, ρ4 = 2,1 kg und ρ5 = 1,8 kg. Wie groß ist die korrigierte Stichprobenvarianz? Wie ist diese (als Zufallsvariable S 2 ) verteilt? Und wie wahrscheinlich wäre
es gewesen, ein noch extremeres Ergebnis zu erzielen?
5
s2 =
1 X
(ρi − ρ̄)2
n − 1 i=1
1
(2,3 − 2,14)2 + (1,9 − 2,14)2 + (2,6 − 2,14)2 + (2,1 − 2,14)2 + (1,8 − 2,14)2
4
= 0,103 ⇔ s ≈ 0,321.
=
Wir wissen, dass X = ρ−2
eine standardnormalverteilte Zufallsvariable ist. Also ist
P50,4
2
2
Y = X1 + . . . + X5 = i=1 (ρi − 2)2 /0,16 eine χ2 -verteilte Zufallsgröße mit f = n = 5
P5
Freiheitsgraden. Wie unterscheidet sich Y von S 2 = 14 i=1 (ρi −ρ̄)2 ? Zunächst müssten
4
wir S 2 mit n−1
σ 2 = 0,16 multiplizieren, um dieselben Vorfaktoren zu erhalten. Man kann
2
2
dann annehmen, dass n−1
σ 2 S einer χ -Verteilung unterliegt. Aber: Wir haben ja nicht
mit µ = 2 normiert, sondern mit ρ̄ = 2,14! Dies führt dazu, dass wir einen Freiheitsgrad
2
2
verlieren, und es ist dann n−1
σ 2 S ∼ χ (n − 1).
Wie wahrscheinlich wäre ein noch extremeres Ergebnis gewesen? Dies entspricht der
Wahrscheinlichkeit P (S 2 > 0,103):
P (S 2 > 0,103) = 1 − P (S 2 ≤ 0,103)
n−1
n−1
4 2
4
= 1 − P ( 2 S2 ≤
0,103) = 1 − P (
S ≤
0,103)
σ
σ2
0,16
0,16
4 2
= 1 − P (χ2 ≤ 2,575) mit χ2 :=
S ∼ χ2 (4)
0,16
≈ 1 − 0,6313 (Werte der χ2 -Verteilung liegen tabelliert vor)
= 0,3687.
Es hätte also mit etwa 36,9-prozentiger Wahrscheinlichkeit ein noch extremeres Ergebnis der korrigierten Stichprobenvarianz geben können.
47
3 Wahrscheinlichkeitsverteilungen
Abbildung 3.9: t-Verteilung mit 1 (blau), 2 (rosa) bzw. 5 (rot) Freiheitsgraden im
Vergleich zur Standardnormalverteilung (schwarz gestrichelt).
t−Verteilung: Verteilungsfunktion
1.0
0.4
t−Verteilung: Dichte
t(1)
t(2)
t(5)
N(0,1)
F(t)
0.0
0.0
0.2
0.1
0.4
0.2
f(x)
0.6
0.3
0.8
t(1)
t(2)
t(5)
N(0,1)
−4
−2
0
2
4
−4
x
−2
0
2
4
t
3.3.5 t-Verteilung: T ∼ t(f )
Eine weitere in der Praxis wichtige Verteilung ist die t-Verteilung. Sie ist der Standardnormalverteilung N (0,1) sehr ähnlich und ergibt sich aus folgendem Zusammenhang:
Sind X1 , . . ., Xn unabhängige Zufallsvariablen mit Xi ∼ N (µ,σ 2 ) und weiterhin X̄ ihr
Mittelwert sowie S 2 die korrigierte Stichprobenvarianz, so gilt, dass
T =
X̄ − µ
√
S/ n
einer t-Verteilung mit f = n−1 Freiheitsgraden unterliegt, also T ∼ t(n−1). Allgemein
gilt auch für
X
T =q
Y
f
mit X ∼ N (0,1) und Y ∼ χ2 (f ), dass T ∼ t(f ).
Abbildung (3.9) zeigt die Dichte und Verteilungsfunktion der t-Verteilung für verschiedene Freiheitsgrade im Vergleich zur Standardnormalverteilung. Für große Werte
der Freiheitsgrade nähert sich die t-Verteilung stark der Standardnormalverteilung an.
Der Vollständigkeit halber sei hier die Dichte der t-Verteilung angegeben:
− f +1
Γ f +1
2
2
x2
f (x) = √
.
1+
f
f πΓ f2
48
3 Wahrscheinlichkeitsverteilungen
Γ(x) ist dabei genau so definiert wie oben bei der χ2 -Verteilung (3.3.4). Die Verteilungsfunktion lässt sich geschlossen angeben, ist aber sehr unhandlich und darauf soll hier
verzichtet werden. Auch für die t-Verteilung liegen Werte für verschiedene Freiheitsgrade tabelliert vor.
Erwartungswert und Varianz der t-Verteilung sind:
E(T ) = 0
D2 (T ) =
f
(falls f > 2).
f −2
Die t-Verteilung kommt vor allem bei der Berechnung von Konfidenzintervallen und
bei Hypothesentests zum Einsatz, siehe dazu auch die Abschnitte (4.2.2) und (5.2.2).
49
4 Schätzungen
Oft sind die Parameter einer Verteilung nicht bekannt (z.B. µ und σ 2 bei der Normalverteilung oder λ bei der Poissonverteilung), sollen aber anhand einer Stichprobe
bestimmt werden. Eine exakte Bestimmung der Parameter ist meist nicht möglich,
es können aber ungefähre Werte aus der Stichprobe abgeleitet werden, diese werden
als Schätzer oder Punktschätzung (4.1) bezeichnet und meist mit einem ˆ über dem
entsprechenden Buchstaben bezeichnet (also z.B. µ̂, σ̂ 2 , λ̂). Es können auch Bereiche
angegeben werden, in denen sich der wahre Parameter der Verteilung mit einer großen
Wahrscheinlichkeit befindet, dies heißt Bereichsschätzung und führt auf Konfidenzintervalle (4.2).
4.1 Punktschätzungen
Für eine Grundgesamtheit oder Population wird eine bestimmte Verteilung mit zugehörigen Parametern, der entsprechenden Verteilungsfunktion und im Falle einer stetigen Verteilung mit passender Wahrscheinlichkeitsdichte vorausgesetzt. Falls eine Normalverteilung angenommen wird, wären das z.B. die unbekannten Parameter µ und
σ 2 und die Wahrscheinlichkeitsdichte wie in Formel (3.1).
Aus einer Stichprobe von n unabhängigen Messungen aus der Grundgesamtheit können
wir nun lediglich die aus (1.3.1) und (1.3.2) bekannten Maßzahlen Mittelwert x̄ und korrigierte Stichprobenvarianz s2 bestimmen. Diese sind eine Annäherung für die wahren
Werte µ und σ 2 und werden demzufolge (Punkt-)Schätzer genannt. Weiterhin haben
wir in (1.2) das Histogramm kennengelernt, welches eine grafische Annäherung für die
Gestalt der Wahrscheinlichkeitsdichte ist.
Die Gestalt der Schätzer µ̂ und σ̂ 2 haben wir hier direkt angegeben mit
n
µ̂ = x̄ =
1X
xi
n i=1
n
σ̂ 2 = s2 =
1 X
(xi − x̄)2 .
n − 1 i=1
Die Herleitung dieser Schätzer und auch anderer für andere Verteilungen kann mit verschiedenen Techniken wie z.B. der Kleinste-Quadrate-Methode oder Maximum-Likelihood-Schätzung erfolgen. Weiterhin lassen sich viele Eigenschaften von Schätzern wie
z.B. Erwartungstreue und Konsistenz definieren (die z.B. die Division durch n − 1
statt n bei der korrigierten Stichprobenvarianz erklären). Solche Methoden und Eigenschaften sollen aber nicht Teil dieser Grundlagen-Vorlesung sein.
50
4 Schätzungen
4.2 Bereichsschätzungen und Konfidenzintervalle
Manchmal ist es sinnvoll, statt einer Punktschätzung für einen Parameter (meist der
Erwartungswert, im Falle der Normalverteilung also µ) lieber ein Intervall anzugeben,
in dem sich der wahre Parameter mit großer Wahrscheinlichkeit befindet. Konkret für
α = 0,05 sind also Intervallgrenzen a und b gesucht, so dass
P (µ ∈ [a,b]) = 1 − α = 0,95
gilt. (Eigentlich müsste man besser P ([a,b] 3 µ) schreiben, da nicht die Wahrscheinlichkeit gemeint ist, dass µ in dem Intervall liegt, sondern die Wahrscheinlichkeit, dass
das Intervall µ überdeckt.) Im Folgenden schauen wir uns die Konfidenzintervalle für
drei unterschiedliche Szenarien an.
4.2.1 Normalverteilung, Varianz bekannt
Nehmen wir an, wir haben eine Stichprobe x1 , . . ., xn aus einer normalverteilten
Grundgesamtheit genommen (X1 , . . ., Xn sind unabhängig identisch verteilt mit Xi ∼
N (µ,σ 2 )), wobei wir die Varianz σ 2 kennen und ein Konfidenzintervall für den unbekannten Erwartungswert µ zum Niveau α = 0,05 angeben wollen. Wir können ausnutzen, dass die Summe von normalverteilten Zufallsvariablen wieder normalverteilt
mit entsprechenden Parametern ist (hier ohne Beweis). Konkret gilt für den Mittelwert
n
1X
Xi ∼ N
X̄ =
n i=1
σ2
µ,
n
.
2
Es fällt auf, dass mit σn gerade das Quadrat des Standardfehlers des Mittelwertes
σx̄ = √σn (bei bekannter Standardabweichung, siehe auch (1.3.4)) in die Berechnung
eingeht. Die normalverteilte Zufallsvariable X̄ wird durch die Transformation
X̄ − µ
Z=p
σ 2 /n
zentralisiert und standardisiert, für die nun standardnormalverteilte Zufallsvariable
Z ∼ N (0,1) lässt sich das Konfidenzintervall zum Niveau α leicht angeben:
1 − α = P −z(1− α2 ) ≤ Z ≤ +z(1− α2 )
!
X̄ − µ
= P −z(1− α2 ) ≤ p
≤ +z(1− α2 ) ,
σ 2 /n
wobei z(1− α2 ) das entsprechende (1 − α2 )-Quantil der Standardnormalverteilung ist:
Φ(z(1− α2 ) ) = 1 −
51
α
.
2
4 Schätzungen
Betrachten wir nun die linke Ungleichung aus dem Inneren der Wahrscheinlichkeit und
lösen nach µ auf:
X̄ − µ
−z(1− α2 ) ≤ p
σ 2 /n
σ
⇔ X̄ − z(1− α2 ) · √ ≤ µ,
n
analog für die rechte Ungleichung, und es ergibt sich
1−α=P
−z(1− α2 )
=P
X̄ − µ
≤p
≤ +z(1− α2 )
σ 2 /n
!
σ
σ
X̄ − z(1− α2 ) · √ ≤ µ ≤ X̄ + z(1− α2 ) · √
n
n
.
Wenn wir also nun die realisierte Stichprobe X1 = x1 , . . ., Xn = xn betrachten, haben
wir das Konfidenzintervall zum Niveau α = 0,05:
σ
σ
√
√
; x̄ + z(0,975) ·
95% = P µ ∈ x̄ − z(0,975) ·
n
n
σ
σ
≈ P µ ∈ x̄ − 1,96 · √ ; x̄ + 1,96 · √
.
n
n
4.2.2 Normalverteilung, Varianz unbekannt
Nehmen wir an, wir haben wieder eine Stichprobe x1 , . . ., xn aus einer normalverteilten Grundgesamtheit genommen (X1 , . . ., Xn sind unabhängig identisch verteilt
mit Xi ∼ N (µ,σ 2 )), wobei wir diesmal die Varianz σ 2 nicht kennen, aber wieder
ein Konfidenzintervall für den unbekannten Erwartungswert µ zum Niveau α = 0,05
angeben wollen. Die Herleitung des Konfidenzintervalls ist analog wie eben, nur dass
die Varianz auch mit der korrigierten Stichprobenvarianz s2 geschätzt werden muss,
wodurch die Quantile t(1− α2 ;n−1) der t-Verteilung (siehe (3.3.5)) ins Spiel kommen und
sich folgendes Konfidenzintervall ergibt:
s
s
µ ∈ x̄ − t(1− α2 ;n−1) · √ ; x̄ + t(1− α2 ;n−1) · √ .
n
n
Auch für den Schätzer s2 der Varianz σ 2 lässt sich übrigens ein Konfidenzintervall
angeben, mit der χ2 -Verteilung ergibt sich nämlich:
#
"
n−1
n−1
2
2
2
·s ; 2
·s .
σ ∈
χ2(1− α ;n−1)
χ( α ;n−1)
2
2
52
4 Schätzungen
4.2.3 Andere Verteilungen
Sei nun schließlich noch eine Stichprobe x1 , . . ., xn aus einer Grundgesamtheit entnommen, die nicht normalverteilt ist (oder sogar eine unbekannte Verteilung besitzt),
und wir kennen weder Erwartungswert noch Varianz. Dann muss der Stichprobenumfang n so groß sein, dass die Anwendung des zentralen Grenzwertsatzes (siehe (3.3.1))
sinnvoll ist. In diesem Fall haben wir ein Konfidenzintervall durch
s
s
µ ∈ x̄ − z(1− α2 ) · √ ; x̄ + z(1− α2 ) · √ .
n
n
Beispiel Betrachten wir wieder die Erträge des Erdbeerfeldes (siehe (3.3.4) aus dem
Beispiel zur χ2 -Verteilung. Wir haben also die Erträge ρ1 = 2,3 kg, ρ2 = 1,9 kg,
ρ3 = 2,6 kg, ρ4 = 2,1 kg und ρ5 = 1,8 kg erhalten und wollen nun herausfinden,
wie groß der Ertrag der Sorte Fraise Rousse“ ist (wir nehmen an, wir kennen den
”
Ertrag noch nicht). Die Standardabweichung σ = 0,4 sei aber bekannt, darüberhinaus
nehmen wir an, dass die Erträge einer Normalverteilung unterliegen. Wie groß ist das
95-Prozent-Konfidenzintervall? Wie groß sind das 95-Prozent- und das 99-ProzentKonfidenzintervall, wenn wir die Standardabweichung σ nicht kennen?
Im Fall der bekannten Standardabweichung σ = 0,4 ergibt sich:
σ
σ
µ ∈ ρ̄ − z(0,975) · √ ; ρ̄ + z(0,975) · √
n
n
0,4
0,4
≈ 2,14 − 1,96 · √ ; 2,14 + 1,96 · √
5
5
≈ [1,789 ; 2,491] .
Ist die Standardabweichung unbekannt, vergrößert sich das Konfidenzintervall:
s
s
µ ∈ ρ̄ − t(0,975;n−1) · √ ; ρ̄ + t(0,975;n−1) · √
n
n
0,321
0,321
≈ 2,14 − t(0,975;4) · √ ; 2,14 + t(0,975;4) · √
5
5
0,321
0,321
≈ 2,14 − 2,776 · √ ; 2,14 + 2,776 · √
5
5
≈ [1,741 ; 2,539] .
Und das Konfidenzintervall wird nochmal größer, wenn wir mehr Sicherheit haben
53
4 Schätzungen
Abbildung 4.1: Konfidenzintervalle am Beispiel der Erdbeerernte.
1.5
2.0
2.5
3.0
Konfidenzintervalle
95% mit sigma
95% ohne sigma
99% ohne sigma
wollen und auf 99 Prozent gehen:
s
s
µ ∈ ρ̄ − t(0,995;n−1) · √ ; ρ̄ + t(0,995;n−1) · √
n
n
0,321
0,321
≈ 2,14 − t(0,995;4) · √ ; 2,14 + t(0,995;4) · √
5
5
0,321
0,321
≈ 2,14 − 4,604 · √ ; 2,14 + 4,604 · √
5
5
≈ [1,479 ; 2,801]
Und tatsächlich liegt auch der wahre Wert µ = 2 innerhalb beider 95-Prozent-Konfidenzintervalle (und erst recht innerhalb des 99-Prozent-Konfidenzintervalls). Abbildung (4.1) zeigt die Resultate.
54
5 Testtheorie
Die Testtheorie ist wahrscheinlich die wichtigste Anwendung der Statistik in der Biologie. Mit einem statistischen Test wird untersucht, ob die erhobenen Daten einer
vorher formulierten Aussage widersprechen oder sie bekräftigen. Da immer nur ein
Ausschnitt der Grundgesamtheit (die Stichprobe) beobachtet wird, kann es dabei zu
Fehlern kommen, wobei versucht wird, diese zu kontrollieren.
5.1 Hypothesentests
Jeder statistische Test folgt folgendem Schema:
1. Formulierung der Nullhypothese H0 :
Es wird immer eine Nullhypothese H0 gegen ihre Alternative H1
getestet. Alle möglichen Ausgänge des Experiments fallen entweder in
die Nullhypothese oder in die Alternative. Typische Nullhypothesen
(und ihre zugehörigen Alternativen) sind:
• H0 : µ = µ0 vs. H1 : µ 6= µ0 (Ist der Mittelwert einer Stichprobe
gleich einem vorgegebenen Wert µ0 ?)
• H0 : FX (t) = FY (t) vs. H1 : FX (t) 6= FY (t) (Entspricht die
Verteilung einer Stichprobe Y der einer bekannten Verteilung von
X?)
• H0 : µX = µY vs. H1 : µX 6= µY (Es wurden zwei Stichproben aus unterschiedlichen Grundgesamtheiten genommen. Stimmen ihre Mittelwerte annähernd überein oder sind die Gruppen
zu verschieden?)
2. Wahl des Signifikanzniveaus α:
Wir möchten die Gefahr begrenzen, dass wir uns am Ende gegen die
Nullhypothese entscheiden, obwohl sie doch wahr gewesen wäre. Diesen
Fehler bezeichen wir mit α, siehe (5.1.1).
3. Wahl des geeigneten Tests
Je nach der Art unserer Nullhypothese und den bereits bekannten
Eigenschaften unserer Stichprobe gibt es eine Vielzahl an Tests, die
die Daten der Stichprobe auswerten. Wichtig sind die (eventuell unbekannte) Verteilung der Stichprobe, ihre bekannten und unbekannten
55
5 Testtheorie
Parameter, wurden ein oder zwei Stichproben genommen, wird einoder zweiseitig getestet (siehe (5.1.2),...
Beispiele für Tests sind der Gaußtest, der t-Test, der Chi-QuadratTest, der Kolmogorov-Smirnov-Test und der Rangsummentest, es gibt
noch viele mehr.
4. Berechnung der Teststatistik:
Die meisten Tests berechnen letztendlich eine einzelne Zahl aus der
Stichprobe, die Teststatistik oder Prüfgröße genannt wird. Diese
wird dann mit einem Wert verglichen, der sich aus der Art des Tests,
dem Umfang der Stichprobe und dem Signifikanzniveau ergibt (meist
sind diese Werte in Tabellen zu den entsprechenden Tests bereits vorhanden). Statistiksoftware gibt meistens einen p-Wert aus, der dann
mit dem Signifikanzniveau α verglichen werden muss.
5. Ablehnung oder Beibehaltung von H0
Der Vergleich der Teststatistik mit dem Tabellenwert ist die Grundlage unserer Entscheidung: Passen die Daten der Stichprobe zur Nullhypothese? Wenn nicht, dann verwerfen wir die Nullhypothese und
entscheiden uns für die Alternative (Ablehnen der Nullhypothese).
Wenn die Daten die Nullhypothese doch plausibel erscheinen lassen,
können wir sie nicht verwerfen, bzw. es kommt zur Beibehaltung der
Nullhypothese. Achtung: Wir können die Nullhypothese nicht beweisen
und deshalb nicht sagen, dass sie wahr sei (sie bleibt eine Hypothese,
die aber eventuell durch die Daten bekräftigt wird).
Grundsätzlich wird bei statistischen Tests zwischen parametrischen und nichtparametrischen Tests unterschieden. Bei einem parametrischen Test setzen wir eine
bestimmte Art von Verteilung voraus (und Verteilungen werden über ihre Parameter
charakterisiert). Die Nullhypothese und die Alternative lassen sich dann über diese Parameter definieren (z.B. H0 : µ ≤ µ0 vs. H1 : µ > µ0 ). Bei einem nichtparametrischen
Test setzen wir keine bestimmte Verteilung voraus und müssen andere Wege finden,
die Nullhypothese zu formulieren und eine Entscheidung zu treffen (Beispiele sind der
Rangsummentest und der Kolmogorov-Smirnov-Test).
Es gibt auch Testmethoden, die nicht direkt auf der Berechnung einer Teststatistik
beruhen, wie die Monte-Carlo-Simulationen oder Bootstrapping-Tests. Diese werden
in dieser Grundlagenvorlesung aber nicht betrachtet.
Wenn statistische Tests mit Statistiksoftware durchgeführt werden, wird meistens nicht
die Teststatistik ausgegeben, sondern ein Wert p ∈ [0; 1]. Dieser p-Wert gibt an,
wie wahrscheinlich die ausgewertete Stichprobe ist, wenn die Nullhypothese stimmen
würde. Das Signifikanzniveau α muss vor der Berechnung des p-Wertes gewählt worden
56
5 Testtheorie
Tabelle 5.1: Fehler bei Signifikanztests
H0 beibehalten
H0 abgelehnt
H0 wahr
korrekt (1 − α)
Fehler 1. Art (α)
H0 falsch
Fehler 2. Art (β)
korrekt (1 − β)
sein, im letzten Schritt der Testroutine wird die Entscheidung dann wie folgt gewählt:
p ≤ α ⇒ Ablehnung der Nullhypothese
p > α ⇒ Beibehaltung der Nullhypothese.
Ein wichtiger Aspekt der (wenig intuitiven) Logik von Beibehaltung“ und Ableh”
”
nung“ der Nullhypothese ist, dass wir das, was wir eigentlich zeigen wollen, besser in
der Alternative formulieren: Passen die Daten dann nicht zur (ohnehin unerwünschten)
Nullhypothese, können wir uns ruhigen Gewissens (bzw. mit einem maximalen Fehler
von α, siehe (5.1.1)) für die Alternative entscheiden.
5.1.1 Fehlertypen
Das Signifikanzniveau α eines Tests ist eine vor der Durchführung des Tests gewählte
Größe, um den Fehler 1. Art des Tests zu begrenzen: Wir entscheiden uns anhand der Stichprobe fälschlicherweise dazu, die Nullhypothese abzulehnen; sie trifft
tatsächlich für die Grundgesamtheit zu (und unsere Stichprobe war leider nur eine
schlechte Repräsentation der Grundgesamtheit).
Analog gibt es auch einen Fehler 2. Art: Wir entscheiden uns anhand der Stichprobe
irrtümlich dafür, die Nullhypothese beizubehalten, obwohl in Wahrheit die Alternative
für die Grundgesamtheit gilt (aber unsere Stichprobe zufälligerweise eher der Nullhypothese entspricht). Der Fehler 2. Art wird häufig mit β bezeichnet.
Tabelle (5.1) zeigt nochmal die möglichen Konsequenzen bei der Entscheidung bei
einem Hypothesentest.
Beispiel Zum Nachweis des Miniermottenbefalls einer Kastanie wird eine Stichprobe
von n Kastanienblättern des Baumes genommen und die Anzahl k der befallenen
Blätter gezählt (die Larven der Miniermotte fressen sich durch die Blattsubstanz).
Ist k größer als ein bestimmter Wert k0 , gilt der Baum als gefährdet. Wir wählen
Nullhypothese und Alternative wie folgt:
H0 : k ≤ k0 Baum ist nicht gefährdet
H1 : k > k0 Baum ist gefährdet.
Nun kann es sein, dass wir aufgrund des auffälligen Aussehens der betroffenen Blätter
einen zu großen Anteil betroffener Blätter in der Stichprobe haben und die Stichprobe keine gute Repräsentation der Grundgesamtheit (alle Blätter der Kastanie) ist.
57
5 Testtheorie
Lehnen wir dann fälschlich die Nullhypothese ab, obwohl der Baum gar nicht gefährdet
ist, haben wir eine falsch-positive Entscheidung getroffen und den Fehler 1. Art
begangen. Im umgekehrten Fall (der Baum ist tatsächlich gefährdet, aber in unserer Stichprobe waren zu wenige befallene Blätter) hätten wir eine falsch-negative
Entscheidung getroffen (H0 beibehalten, obwohl H1 stimmt) und den Fehler 2. Art
gemacht.
5.1.2 Einseitige und zweiseitige Tests
Bei einem parametrischen Test sprechen wir je nach Art der Nullhypothese von einem
einseitigen oder zweiseitigen Test. Im Prinzip bedeutet zweiseitiges Testen, dass
die Alternative aus zwei getrennten Bereichen besteht (und beim einseitigen Testen
dementsprechend nur aus einem Bereich). Betrachten wir einen Test für den Parameter µ einer Verteilung, der dem Erwartungswert entspricht, so haben wir folgende
Möglichkeiten für die Nullhypothese:
• H0 : µ ≤ µ0 ⇒ die Alternative umfasst den Bereich µ ∈ (µ0 ,∞) und es handelt
sich um einen einseitigen Test
• H0 : µ ≥ µ0 ⇒ die Alternative ist hier µ ∈ (−∞,µ0 ) und der Test ist einseitig
• H0 : µ = µ0 ⇒ die Alternative besteht aus den zwei getrennten Bereichen
µ ∈ (−∞,µ0 ) und µ ∈ (µ0 ,∞) und es ist ein zweiseitiger Test
• H0 : µa ≤ µ ≤ µb ⇒ auch hier ist der Test zweiseitig, denn die Alternative ist
zweiteilig: µ ∈ (−∞,µa ) und µ ∈ (µb ,∞) (H0 umfasst hier die Menge µ ∈ [µa ,µb ])
Bei vielen Tests hat die Wahl eines ein- oder zweiseitigen Tests Auswirkungen auf die
Bestimmung des Tabellenwerts zum Vergleich mit der Teststatistik, darauf wird im
Abschnitt über den Gaußtest nochmal eingegangen (5.2.1).
5.2 Spezielle Tests
5.2.1 Gauß-Test
Das einfachste Beispiel für einen Hypothesentest ist der Gauß-Test für eine einzelne
Stichprobe (machmal auch u-Test oder z-score genannt). Es wird davon ausgegangen,
dass die Grundgesamtheit normalverteilt ist mit unbekanntem Erwartungswert µ und
bekannter Varianz σ 2 (d.h. X ∼ N (µ,σ 2 )) und es soll nun auf den Erwartungswert µ
getestet werden gegen den vorgegebenen Wert µ0 .
Betrachten wir zunächst den Fall, dass die Nullhypothese H0 : µ ≤ µ0 lautet und
das Signifikanzniveau α gewählt wurde. Die Stichprobe X1 , . . ., Xn sei unabhängig
identisch verteilt zu X (also Xi ∼ X). Dann gilt für den Mittelwert X̄, dass X̄ ∼
2
N (µ, σn ) (hier ohne Beweis). Damit ist unter der Nullhypothese
Z=
X̄ − µ0
√ ∼ N (0,1) (zentralisiert und standardisiert).
σ/ n
58
5 Testtheorie
Abbildung 5.1: Entscheidungen beim Gauß-Test, H0 : µ ≤ µ0 .
f(z)
H0 : µ ≤ µ0
f(x)
H0 : µ ≤ µ0
z(1−α)
1−α
krit. Wert
1−α
α
−2
−1
µ0
0
x
1
α
2
−2
Messwerte
−1
0
0
z
1
2
Werte der Teststatistik
Dieser Wert Z ist unsere
Teststatistik: Für eine Realisierung X1 = x1 , . . ., Xn = xn
√
0
berechnen wir z = n · x̄−µ
σ . Manchmal wird statt z auch u benutzt.
Als Vergleichswert für unsere Teststatistik nehmen wir das (1 − α)-Quantil z(1−α) aus
der Tabelle der Standardnormalverteilung und entscheiden uns wie folgt:
(
z > z(1−α) ⇒ H0 verwerfen
H0 : µ ≤ µ0 ⇒
z ≤ z(1−α) ⇒ H0 beibehalten
Denn: Ein zu hoher Wert von z (der z-score) bedeutet, dass sich der Mittelwert der
Stichprobe grafisch bereits am rechten Ende der Gaußkurve befindet und es sehr unwahrscheinlich ist, dass er annähernd mit dem Wert µ0 übereinstimmt oder kleiner als µ0 ist. Der z-score befindet sich dann im Ablehnbereich (z(1−α) ,∞), dessen
Flächeninhalt unter der Gaußkurve gerade α ist.
Die Abbildung (5.1) zeigt diesen Sachverhalt: Links ist das ursprüngliche Problem
(liegt der Mittelwert zu weit vom Wert µ0 entfernt?) zu sehen. Rechts daneben dasselbe
Problem nach der Transformation in die Teststatistik z. Die Nullhypothese würde hier
nicht verworfen werden, da z im (1 − α)-Bereich liegt.
Analog wird im Fall H0 : µ ≥ µ0 verfahren, mit folgender Entscheidungsregel:
(
z < z(1−α) ⇒ H0 verwerfen
H0 : µ ≥ µ0 ⇒
z ≥ z(1−α) ⇒ H0 beibehalten
59
5 Testtheorie
Abbildung 5.2: Entscheidungen beim Gauß-Test, H0 : µ ≥ µ0 und H0 : µ = µ0 .
H0 : µ ≥ µ0
H0 : µ = µ0
1−α
− z(1−α2)
f(z)
f(z)
− z(1−α)
1−α
+ z(1−α2)
α
α
2
2
α
z
−2
−1
0
0
1
2
−2
Werte der Teststatistik
z
−1
0
0
1
2
Werte der Teststatistik
Der Ablehnbereich für diese Nullhypothese ist in Abbildung (5.2) links zu sehen. Die
Nullhypothese würde hier verworfen werden, da z im roten Ablehnbereich liegt.
Wie sieht es nun im Falle eines zweiseitigen Tests mit der Nullhypothese H0 : µ = µ0
aus? Die Teststatistik Z bleibt dieselbe.
Hier wollen wir nun jedoch keine zu großen Abweichungen des Mittelwerts nach rechts
und nach links zulassen. Der Flächeninhalt unter der Gaußkurve über dem Ablehn˙ r ,∞) muss aber wieder α betragen, d.h. es muss gelten zr = z(1− α )
bereich (−∞,zl )∪(z
2
und wegen der Symmetrie zl = −zr = −z(1− α2 ) . Damit ergibt sich folgende Entscheidungsregel:


z < −z(1− α2 ) ⇒ H0 verwerfen
H0 : µ = µ0 ⇒ −z(1− α2 ) ≤ z ≤ z(1− α2 ) ⇒ H0 beibehalten


z > z(1− α2 ) ⇒ H0 verwerfen
In Abbildung (5.2) ist rechts der zweiseitige Ablehnbereich für die Nullhypothese H0 :
mu = µ0 zu sehen. Die Nullhypothese würde hier beibehalten werden, da z nicht im
roten Ablehnbereich liegt.
Häufig kann nicht davon ausgegangen werden, dass die Grundgesamtheit normalverteilt
ist, so dass ein Gauß-Test nicht angebracht scheint. Allerdings lässt sich für einen
genügend großen Stichprobenumfang n (meist n > 30) der zentrale Grenzwertsatz
(siehe (3.3.1)) anwenden und es kann doch der einfache Gauß-Test angewendet werden.
60
5 Testtheorie
Beispiel Im Beispiel zum Abschnitt (5.2.2) über den t-Test wird dieser mit dem
Gauß-Test verglichen.
5.2.2 t-Test
Auch beim t-Test (oder Student’s t-Test) wird wie beim Gauß-Test eine normalverteilte Grundgesamtheit auf den Erwartungswert µ gegen einen vorgegebenen Wert µ0
getestet, der einzige Unterschied zum Gauß-Test besteht darin, dass die Varianz σ 2
nicht bekannt ist und durch die korrigierte Stichprobenvarianz s2 geschätzt werden
muss. Dementsprechend wird als Teststatistik die Größe
t=
x̄ − µ0
√
s/ n
berechnet. Diese ist aber nicht mehr standardnormalverteilt, sondern entspricht einer
t-Verteilung (siehe (3.3.5)) mit n−1 Freiheitsgraden, statt der z-scores wie beim GaußTest werden also die Quantile der t-Verteilung als Vergleichsgröße für die Teststatistik
herangezogen.
Analog wie beim Gauß-Test werden dann folgende Entscheidungsregeln für die entsprechenden ein- bzw. zweiseitigen Tests formuliert:
(
t > t(1−α;n−1) ⇒ H0 verwerfen
H0 : µ ≤ µ0 ⇒
t ≤ t(1−α;n−1) ⇒ H0 beibehalten
(
t < t(1−α;n−1) ⇒ H0 verwerfen
H0 : µ ≥ µ0 ⇒
t ≥ t(1−α;n−1) ⇒ H0 beibehalten


t < −t(1− α2 ;n−1) ⇒ H0 verwerfen
H0 : µ = µ0 ⇒ −t(1− α2 ;n−1) ≤ t ≤ t(1− α2 ;n−1) ⇒ H0 beibehalten


t > t(1− α2 ;n−1) ⇒ H0 verwerfen
Beispiel In der Tremorforschung werden bei Ratten Refraktärzeiten gemessen. Man
nimmt an, dass diese normalverteilt sind mit Erwartungswert µ0 = 1,3 ms. Es wurden
vier Refraktärzeiten gemessen: x1 = 1,6 ms, x2 = 1,7 ms, x3 = 1,9 ms und x4 =
1,8 ms. Nun soll zum Signifikanzniveau α = 0,1 = 10% untersucht werden, ob die
Testreihe den vermuteten Erwartungswert µ0 unterstützt oder ihm eher widerspricht.
Die Nullhypothese lautet also:
H0 : µ = µ0 .
61
5 Testtheorie
Es ergeben sich folgende Werte aus der Stichprobe:
x̄ = 1,75 ms
s = 0,129 ms
s
√ = 0,065 ms
n
x̄ − µ0
1,75 − 1,3
√ =
= 6,97
⇒t=
0,065
s/ n
t(n−1;1− α2 ) = t(3;0,95) = 2,353 (zweiseitiger Test!)
Da nun t > t(3;0,95) , muss die Nullhypothese also zum Signifikanzniveau 10% verworfen
werden.
Wie sähe die Entscheidung aus, wenn die Varianz σ 2 = 0,32 der Refraktärzeit als
bekannt vorausgesetzt wird? Dann muss der Gauß-Test eingesetzt werden und es wird
folgende Teststatistik berechnet:
√ x̄ − µ0
n
σ
1,75 − 1,3
=2· √
0,32
≈ 1,591
z=
Jetzt ist −z(0,95) < z < z(0,95) = 1,65, und demzufolge kann die Nullhypothese zum
Niveau α = 0,1 nicht verworfen werden.
5.2.3 Chi-Quadrat-Test
Chi-Quadrat-Varianz-Test
Auch der χ2 -Varianztest geht von einer normalverteilten Grundgesamtheit aus, mit
unbekannten Parametern µ und σ 2 , welche wieder durch ihre Punktschätzungen Mittelwert x̄ und korrigierte Stichprobenvarianz s2 angenähert werden. Allerdings testet
der χ2 -Test nicht den Erwartungswert µ, sondern die unbekannte Varianz σ 2 auf einen
vorgegebenen Wert σ02 . Folgende Teststatistik kommt dabei zum Einsatz:
n
χ2 =
s2 · (n − 1) X
=
σ02
i=1
xi − x̄
σ0
2
.
Diese ist χ2 -verteilt mit f = n − 1 Freiheitsgraden, dementsprechend kommen bei
der Entscheidungsfindung die Quantile der χ2 -Verteilung (siehe (3.3.4)) zum Einsatz.
Die χ2 -Verteilung ist nicht symmetrisch, also sind das linke und rechte Quantil nicht
62
5 Testtheorie
identisch.
(
2
H0 : σ ≤
σ02
⇒
χ2 ≤ χ2(1−α;n−1) ⇒ H0 beibehalten
(
2
H0 : σ ≥
σ02
⇒
χ2 > χ2(1−α;n−1) ⇒ H0 verwerfen
χ2 < χ2(α;n−1) ⇒ H0 verwerfen
χ2 ≥ χ2(α;n−1) ⇒ H0 beibehalten

2
2


χ < χ( α ;n−1) ⇒ H0 verwerfen
2
H0 : σ 2 = σ02 ⇒
χ2( α ;n−1) ≤ χ2 ≤ χ2(1− α ;n−1) ⇒ H0 beibehalten
2
2


χ2 > χ2 α
(1− ;n−1) ⇒ H0 verwerfen
2
Beispiel Betrachten wir das Beispiel mit den Refraktärzeiten bei Ratten von oben
(5.2.2). Kann zum Signifikanzniveau α = 0,1 anhand der Stichprobe die Hypothese
verworfen werden, dass die Varianz den Wert σ02 = 0,32 übertrifft (H0 : σ 2 ≥ 0,32)?
s = 0,129 wurde oben schon berechnet, damit ergibt sich folgender Wert der Teststatistik χ2 :
χ2 =
0,1292 · 3
s2 · (n − 1)
=
2
σ0
0,32
≈ 0,156.
χ2(0,9;3)
Es ist
= 6,251 und damit χ2 < χ2(0,9;3) , also kann die Nullhypothese σ 2 ≥ 0,32
verworfen werden.
Chi-Quadrat-Anpassungstest
Eine wichtige Methode ist der χ2 -Anpassungstest, der untersucht, ob eine Stichprobe
X1 = x1 , . . ., Xn = xn einer bestimmten Verteilung unterliegt (d.h. Xi ∼ X und
X hat die vorgegebene Verteilungsfunktion FX (t)) oder signifikant davon abweicht.
Man kann also zum Beispiel untersuchen, ob die Stichprobe aus einer Gleichverteilung
(X ∼ U N I(a,b)), Binomialverteilung (X ∼ Bin(n∗ ,p)) oder Normalverteilung (X ∼
N (µ,σ 2 )) kommt, aber auch jede andere Verteilung ist denkbar.
Dazu wird die Stichprobe in m Klassen eingeteilt. Bei diskreten Verteilungen wie
der Binomialverteilung Bin(n∗ ,p) bietet es sich z.B. an, für jeden möglichen Wert
k = 0, . . . ,n∗ eine eigene Klasse anzulegen, d.h. m = n∗ . Bei stetigen Verteilungen wie
z.B. der Normalverteilung N (µ,σ 2 ) sollten die Klassen als Intervalle gewählt werden,
in die die Stichprobenergebnisse fallen können.
Nun wird für jede der i = 1, . . . ,m Klassen die erwartete (bzw. theoretische) absolute
Häufigkeit htheor
berechnet. Im Fall einer diskreten Verteilung wäre dann gerade
i
htheor
= n · pi ,
i
∗
∗
für die Binomialverteilung also z.B. htheor
= n · ni pi (1 − p)n −i . Bei einer stetigen
i
Verteilung gilt für die erwartete Häufigkeit des Intervalls [ai ,bi ] dann
htheor
= n · P (ai ≤ X ≤ bi ) = n · (FX (bi ) − FX (ai )) ,
i
63
5 Testtheorie
Abbildung 5.3: Empirische Verteilung im Histogramm gegen die theoretische Dichte.
Der χ2 -Test wertet für jede Klasse i den Unterschied in der Fläche
des Balkens (hSP
i , blau) gegen die Fläche unter dem Funktionsgraphen
(htheor
,
rot)
aus.
i
Chi−Quadrat−Anpassungstest
0.3
0.2
0.0
0.1
rel. Häufigkeit
0.4
0.5
hSP
i
htheor
i
1
2
3
4
5
x
bi −µ
ai −µ
für die Normalverteilung also z.B. htheor
=
n
·
Φ(
)
−
Φ(
)
.
i
σ
σ
In beiden Fällen gibt htheor
die Anzahl von Versuchsergebnissen an, die voraussichtlich
i
in der Klasse i landen, wenn unsere Nullhypothese stimmt:
theor
H0 : hSP
, i = 1, . . . ,m.
i = hi
Alternativ können wir auch formulieren
H0 : Die Stichprobe hat eine Verteilung mit der Verteilungsfunktion FX (t).
Der Test untersucht also, ob die durch das Experiment gewonnene empirische kumulative Verteilungsfunktion FSP (t) (siehe auch (1.2.2)) annähernd der Verteilungsfunktion
FX (t) entspricht. Veranschaulicht wird das in Abbildung (5.3) mit dem normierten Histogramm und der Dichte (Erinnerung: Die Verteilungsfunktion ist gerade das Integral
der Dichtefunktion).
Als Teststatistik berechnen wir dazu:
m
theor 2
X
(hSP
)
i − hi
.
χ2 =
theor
h
i
i=1
theor
Stimmt die Nullhypothese und sind die Unterschiede der hSP
rein zufällig,
i zu den hi
2
2
so ist χ eine χ -verteilte Zufallsgröße mit f = n − 1 − r Freiheitsgraden und Erwartungswert f , ist also χ2 f sollte die Nullhypothese verworfen werden. Dies führt
64
5 Testtheorie
zu folgender Entscheidungsregel (zum Signifikanzniveau α):
(
χ2 > χ2(1−α;f ) ⇒ H0 verwerfen
H0 : Verteilung mit FX (t) ⇒
χ2 ≤ χ2(1−α;f ) ⇒ H0 beibehalten
Wie wird die Anzahl der Freiheitsgrade f = n − 1 − r bestimmt? Hier ist r die Anzahl
der Parameter der vorgegebenen Verteilung FX (t), die nicht bekannt sind und aus der
Stichprobe geschätzt werden müssen. Testen wir z.B. auf Gleichverteilung auf dem
Intervall [0,5], so ist r = 0, da keine unbekannten Parameter geschätzt werden müssen.
Testen wir auf eine Binomialverteilung mit n∗ = 12 und unbekanntem p, so müssen wir
x̄
schätzen und demzufolge ist r = 1. Wird auf eine Normalverteilung
p durch p̂ = 12
mit unbekannten Parametern µ und σ 2 getestet, so werden diese durch µ̂ = x̄ und
σ̂ 2 = s2 geschätzt und demnach ist r = 2.
Beispiel Es wurde eine DNA-Sequenz untersucht, die 64 Nukleotide enthält. Diese
sind jeweils durch ihre Nukleobasen charakterisiert (A,T,C,G). Man könnte vermuten,
dass jede der vier Möglichkeiten mit derselben Häufigkeit anzutreffen ist, d.h. pi =
1
theor
= 14 · 64 = 16, und die Nullhypothese lautet
4 = pA = pT = pG = pC . Damit ist hi
H0 : hSP
i = 16, i ∈ {A,T,C,G}.
Nun ergab sich aber aus der Stichprobe folgendes Bild: 8-mal A, 8-mal T, 24-mal C
und 24-mal G. Zum Signifikanzniveau α = 0,05 wird nun untersucht, ob dies signifikant
von der in der Nullhypothese formulierten Gleichverteilung abweicht:
(8 − 16)2 + (8 − 16)2 + (24 − 16)2 + (24 − 16)2
4 · 82
=
= 16
16
16
= 7,815
χ2 =
χ2(3;0,05)
Also sollte H0 abgelehnt werden, denn die Sequenz weicht signifikant von einer Gleichverteilung ab (χ2 > χ2(3;0,05) ).
5.2.4 Zweistichproben-Tests
Es gibt viele Situationen, in denen nicht nur eine Stichprobe auf eine bestimmte
Eigenschaft getestet werden muss, sondern Daten aus zwei Stichproben vorliegen und
gegeneinander getestet werden müssen. So gibt es zum Beispiel bei einer medizinischen
Studie Daten aus einer PatientInnen-Gruppe, die mit einem neuen Medikament behandelt wurden, welche dann mit den Daten einer Kontrollgruppe verglichen werden,
die nur ein Placebo erhalten hat.
Zweistichproben-t-Test
Der Zweistichproben-t-Test kommt zum Einsatz, wenn die Erwartungswerte zweier
Stichproben A und B gegeneinander getestet werden. Es wird dabei davon ausgegangen, dass beide Stichproben normalverteilt sind mit derselben (unbekannten) Varianz
65
5 Testtheorie
σ 2 und unterschiedlichen Erwartungswerten µA und µB . Das heißt die Hypothesen
lauten
H0 : µA = µB vs. H1 : µA 6= µB .
Dabei können zwei verschiedene Szenarien auftreten:
1. verbundene Stichproben: Beide Stichproben haben denselben Stichprobenumfang
n und die Messwerte der Stichproben lassen sich paarweise verbinden. Dies wäre
zum Beispiel der Fall, wenn bei n PatientInnen vor der Behandlung Blutwerte
gemessen werden, und nach einem Jahr und erfolgter Behandlung bei denselben
n PatientInnen wieder Blutwerte gemessen werden. Es stellt sich die Frage, ob
sich die Blutwerte durch die Behandlung verbessert haben.
2. unabhängige Stichproben: Die beiden Stichproben sind unabhängig voneinander,
d.h. es gibt keine Verbindung zwischen ihnen. Sie können auch unterschiedlichen
Umfang nA und nB besitzen. Dies wäre der Fall bei dem oben geschilderten
Kontrollgruppen-Szenario. Allerdings wäre die Unabhängigkeit z.B. nicht gegeben, wenn es sich um eine Zwillingsstudie handeln würde.
Im ersten Fall kann einfach der Einstichproben-t-Test angewendet werden: Liegen die
Werte x1 , . . ., xn aus Gruppe A und y1 , . . ., yn aus Gruppe B vor, die paarweise
zusammengehören, so bilden wir die Differenzen d1 = x1 − y1 , . . ., dn = xn − yn und
testen dann die Differenzen di der Messwerte auf den Erwartungswert µ0 = 0 wie im
Einstichproben-Fall (gibt es keinen Unterschied zwischen den Stichproben, sollte die
erwartete Differenz gleich Null sein).
Der zweite Fall mit unabhängigen Stichproben ist aufwändiger. Zunächst muss die
Standardabweichung sp der gepoolten“ Stichproben berechnet werden:
”
s
(na − 1) · s2A + (nB − 1) · s2B
.
sp =
nA − 1 + nB − 1
Daraus wird dann die Prüfgröße t berechnet:
t=
x̄ − ȳ
q
sp · n1A +
≡
1
nB
x̄ − ȳ
·
sp
r
nA · nB
.
nA + nB
Diese ist t-verteilt mit f = nA + nB − 2 Freiheitsgraden, als Entscheidungsregel zum
Signifikanzniveau α ergibt sich also:


t < −t(1− α2 ;nA +nB −2) ⇒ H0 verwerfen
H0 : µA = µB ⇒ −t(1− α2 ;nA +nB −2) ≤ t ≤ t(1− α2 ;nA +nB −2) ⇒ H0 beibehalten


t > t(1− α2 ;nA +nB −2) ⇒ H0 verwerfen.
66
5 Testtheorie
Beispiel Im Treibhaus wurde ein neues Pestizid getestet. Von 27 Getreidepflanzen
wurden 14 zufällig ausgewählt und mit dem Pestizid behandelt, die übrigen 13 blieben
unbehandelt. Nach einigen Tagen wurde die Anzahl der Getreidekäferlarven gezählt
und es soll nun getestet werden, ob zum Signifikanzniveau α = 0,01 eine Veränderung
zu messen ist. Folgende Daten wurden aus den Messwerten berechnet:
nA = 13 ; x̄ = 3,47 ; sA = 0,85
nB = 14 ; ȳ = 1,36 ; sB = 0,77.
Es ergibt sich für die gepoolte Stichprobenvarianz und daraus folgend für die Teststatistik t:
r
12 · s2A + 13 · s2B
sp =
25
= 0,81
r
3,47 − 1,36
13 · 14
⇒t=
·
0,81
27
= 6,76.
Es ist t(1−0,01/2;25) = 2,79, da also t > t(1−0,01/2;25) gilt, kann die Nullhypothese
verworfen werden. Zum Signifikanzniveau α = 0,01 gab es also eine Veränderung durch
das neue Pestizid.
Zweistichproben-Varianz-Test
Kurz vorgestellt werden soll hier die Möglichkeit des F-Testes, auf die Varianz zweier
unabhängiger normalverteilter Stichproben zu testen. Für die Nullhypothese
2
2
2
2
H0 : σA
= σB
vs. H1 : σA
6= σB
wird die Prüfgröße
F =
s2A
s2B
berechnet. Diese ist F-verteilt mit fA = nA − 1 Zählerfreiheitsgraden und fB = nB − 1
Nennerfreiheitsgraden (F ∼ F (fA ,fB )). Die F-Verteilung wurde in diesem Skript nicht
vorgestellt, ihre Werte liegen aber auch tabelliert vor und können für die folgende
Entscheidungsregel benutzt werden:


F < F( α2 ;fA ;fB ) ⇒ H0 verwerfen
2
2
H0 : σA = σB ⇒ F( α2 ;fA ;fB ) ≤ F ≤ F(1− α2 ;fA ;fB ) ⇒ H0 beibehalten


F > F(1− α2 ;fA ;fB ) ⇒ H0 verwerfen.
Der F-Test sollte insbesondere vor jedem Zweistichproben-t-Test für unabhängige
Stichproben eingesetzt werden, da dieser voraussetzt, dass die Stichproben in etwa
2
2
dieselbe Varianz haben. Verwirft der F-Test die Nullhypothese H0 : σA
= σB
zum
Signifikanzniveau αF , so sind die Ergebnisse des folgenden t-Tests kritisch zu hinterfragen.
67
5 Testtheorie
Beispiel Im Getreidekäfer-Beispiel (5.2.4) ergibt sich folgender Wert der Teststatistik
für den F-Test:
F =
s2A
0,852
= 1,22
=
s2B
0,772
Als Quantile der F-Verteilung zum Signifikanzniveau αF = 0,02 erhält man aus der
Tabelle:
F(0,01;12;13) = 0,24
F(0,99;12;13) = 3,96
Da also 0,24 ≤ F ≤ 3,96 gilt, sollte die Nullhypothese nicht abgelehnt werden und die
Durchführung des t-Tests war sinnvoll.
Rangsummentest
Alle bisher vorgestellten Tests bis auf den χ2 -Anpassungstest setzen voraus, dass
die Stichproben einer Normalverteilung unterliegen oder dass zumindest die Stichprobenumfänge so groß sind, dass der Zentrale Grenzwertsatz (3.3.1) die Verwendung dieser Tests sinnvoll werden lässt. Mit dem Rangsummentest soll hier nun ein
Zweistichproben-Test vorgestellt werden, der keine Annahme über die Art der Verteilung der Stichproben A und B trifft. Solche Tests werden verteilungsunabhängig
oder nichtparametrisch (da Verteilungen über ihre Parameter charakterisiert werden)
genannt.
Beim Rangsummentest (oder auch Wilcoxon-Rangsummentest bzw. äquivalent MannWhitney-U-Test) wird die Frage untersucht, ob die Verteilungen FA (t) und FB (t) sich
um einen Wert θ unterscheiden, d.h. ob FA (t) = FB (t − θ) gilt. Es wird also davon
ausgegangen, dass die beiden Stichproben prinzipiell dieselbe, nicht näher spezifizierte,
Verteilung besitzen, deren Verteilungsfunktionen um den Wert θ verschoben sind. Aus
Stichprobe A liegen die Messwerte x1 , . . ., xnA vor und aus Stichprobe B die Werte y1 ,
. . ., ynB , insgesamt also n = nA + nB Daten. Nun werden beide Gruppen gemeinsam
sortiert: Der kleinste Wert aus beiden Gruppen bekommt den Rang 1, der zweitkleinste
Wert den Rang 2 und so weiter bis schließlich der größte Wert aus beiden Gruppen
den Rang n = nA + nB erhält. Stimmen zwei Messwerte überein, so erhalten beide
den mittleren Rang als Rangzahl. Die Rangzahl zu jedem Messwert bezeichnen wir
mit R(xi ) bzw. R(yj ). Für die Prüfgröße berechnen wir nun die Rangsummen RA und
RB :
RA =
RB =
nA
X
i=1
nB
X
R(xi )
R(yj ) =
j=1
68
n(n + 1)
− RA
2
5 Testtheorie
Als Nullhypothese wird H0 : θ = 0 gegen H1 : θ 6= 0 getestet. Die entsprechende
Prüfgröße U bestimmen wir wie folgt:
nA (nA + 1)
2
nB (nB + 1)
U B = RB −
= nA · nB − UA
2
U = min(UA ,UB )
UA = RA −
Die Entscheidung wird nach folgender Regel getroffen:
(
U < U(α;nA ;nB ) ⇒ H0 verwerfen
H0 : θ = 0 ⇒
U ≥ U(α;nA ;nB ) ⇒ H0 beibehalten.
Die kritischen Werte U(α;nA ;nB ) liegen für kleine Werte von nA und nB tabelliert vor.
Manchmal findet man auch tabellierte Werte für die Prüfgröße RA , dann braucht die
Größe U nicht bestimmt zu werden.
Gilt nA > 20 und nB > 20, so kann statt des Rangsummentests auch ein Gauß-Test
eingesetzt werden mit der Teststatistik
z=
RA − µA
wobei
σA
nA (n + 1)
2
r
p
nA · nB · (n + 1)
σA = V ar(RA ) =
.
12
µA = E(RA ) =
Beispiel Die Ergebnisse einer Biostatistik-Nachklausur werden ausgewertet. Es haben
16 Studentinnen und Studenten geschrieben. Von diesen haben die 11 StudentInnen aus
Gruppe A regelmäßig die Hausaufgaben während des Semesters bearbeitet, während
die 5 StudentInnen aus Gruppe B nur unregelmäßig die Hausaufgaben bearbeiteten.
Die erreichten Punktzahlen sind in Tabelle (5.2) aufgelistet, ebenso die sich daraus
ergebenden Rangzahlen.
Für die Rangsummen RA und RB ergeben sich also die Werte:
RA = 15 + 9,5 + 12 + 11 + 9,5 + 13 + 16 + 6 + 4 + 5 + 14 = 115
16 · 17
RB = 7 + 2 + 3 + 1 + 8 = 21 =
− 115
2
Und damit als Teststatistik U :
11 · 12
= 49
2
5·6
UB = 21 −
= 6 (= 11 · 5 − 49)
2
⇒ U = min(UA ,UB ) = UB = 6
UA = 115 −
69
5 Testtheorie
Tabelle 5.2: Klausurergebnisse Biostatistik, Ränge.
StudentIn
Gruppe A oder B
Punktzahl
Rang
StudentIn
Gruppe A oder B
Punktzahl
Rang
1
A
34,5
15
2
B
22
7
3
A
25
9,5
4
A
29
12
5
B
17,5
2
9
A
37
16
10
A
21
6
11
B
19
3
12
B
9
1
13
A
20
4
6
A
26,5
11
14
A
20,5
5
7
A
25
9,5
15
B
24
8
8
A
30
13
16
A
31
14
Zum Signifikanzniveau α = 0,05 und den Parametern nA = 11 und nB = 5 finden wir
in der Tabelle den kritischen Wert U(0,05;11;5) = 9. Damit gilt U < U(0,05;11;5) , also
kann die Nullhypothese verworfen werden. Das heißt, zum Signifikanzniveau α = 0,05
ist ein Zusammenhang zwischen Bearbeitung der Hausaufgaben und Punktzahl in der
Klausur anzunehmen.
70
Herunterladen