Mathematik für Biologen 1

Werbung
Mathematik für Biologen 1
Dr. Maria Neuss-Radu
Universität Heidelberg
Wintersemester 2006/07
Inhaltsverzeichnis
1 Messen und Datenbeschreibung
1.1 Merkmale und Mess-Skalen . . . . . . . . . . . . . . . . . . . . . . .
1.2 Die Zahlensysteme , , ,
. . . . . . . . . . . . . . . . . . . . .
1.2.1 Die natürlichen Zahlen . . . . . . . . . . . . . . . . . . . . .
1.2.2 Die ganzen Zahlen . . . . . . . . . . . . . . . . . . . . . . .
1.2.3 Die rationalen Zahlen (Bruchzahlen) . . . . . . . . . . . . .
1.2.4 Die reellen Zahlen . . . . . . . . . . . . . . . . . . . . . . . .
1.2.5 Dokumentation von Messergebnissen . . . . . . . . . . . . .
1.2.6 Fehlerfortpflanzung . . . . . . . . . . . . . . . . . . . . . . .
1.3 Empirische Analyse der Messergebnisse . . . . . . . . . . . . . . . .
1.3.1 Empirische Häufigkeitsverteilung . . . . . . . . . . . . . . .
1.3.2 Lagemaße und Streuungsmaße . . . . . . . . . . . . . . . . .
1.3.3 Anwendung von Mittelwert und Varianz bei der Überprüfung
der Genauigkeit und Präzision einer Pipette. (Grundpraktikum C, Dr. Cordula Harter, BZH) . . . . . . . . . . . . . .
1.3.4 Stochastische Abhängigkeit: Korrelation und Regression . . .
1.3.5 Anwendung der Regressionsanalyse bei der Bestimmung der
Proteinkonzentration in biologischem Gewebe. (Grundpraktikum, Dr. Markus Wirtz, HIP) . . . . . . . . . . . . . . . . .
2 Wahrscheinlichkeitsrechnung
2.1 Zufall und Wahrscheinlichkeit . . . . . . . . . . . . . . .
2.2 Diskrete Wahrscheinlichkeitsverteilungen . . . . . . . . .
2.2.1 Die Laplace-Wahrscheinlichkeitsverteilung . . . .
2.2.2 Die Binomialverteilung . . . . . . . . . . . . . . .
2.2.3 Die Poissonverteilung . . . . . . . . . . . . . . . .
. . . . . . . . . .
2.3 Wahrscheinlichkeitsverteilungen auf
2.3.1 Die Gleichverteilung . . . . . . . . . . . . . . . .
2.3.2 Die Normalverteilung . . . . . . . . . . . . . . . .
2.4 Zufallsvariable und ihre Verteilungen . . . . . . . . . . .
2.4.1 Verteilung einer Zufallsvariable . . . . . . . . . .
2.4.2 Erwartungswert und Varianz einer Zufallsvariable
2.5 Der zentrale Grenzwertsatz . . . . . . . . . . . . . . . . .
2
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
4
4
5
5
5
6
6
9
10
11
11
17
. 23
. 24
. 30
.
.
.
.
.
.
.
.
.
.
.
.
32
32
37
37
40
43
44
45
47
48
49
53
55
INHALTSVERZEICHNIS
3
3 Induktive Statistik
3.1 Schätzverfahren . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
3.1.1 Schätzung von Maßzahlen einer Grundgesamtheit . . . . . .
3.1.2 Intervallschätzungen . . . . . . . . . . . . . . . . . . . . . .
3.2 Statistische Tests . . . . . . . . . . . . . . . . . . . . . . . . . . . .
3.2.1 Annahmebereich. Kritischer Bereich. Fehlerarten. . . . . . .
3.2.2 Test des Erwartungswertes einer normalverteilten Grundgesamtheit . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
3.2.3 t-Test auf Lageunterschied bei verbundenen Stichproben . .
3.2.4 Anwendung des t-Testes bei der Untersuchung der hormonellen Regulation des Lipidstoffwechsels bei Insekten (Grundpraktikum C, Prof. Dr. Stephan Frings, IZ) . . . . . . . . .
4 Lösen von linearen Gleichungssystemen
4.1 Motivation: Lösungen einer Substanz . . .
4.2 Lineare (quadratische) Gleichungssysteme
4.2.1 Gaußsche Eliminationsmethode . .
4.3 Berechnen von Konzentrationen . . . . . .
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
57
57
57
60
65
66
. 67
. 69
. 70
.
.
.
.
74
74
74
76
78
Kapitel 1
Messen und Datenbeschreibung
1.1
Merkmale und Mess-Skalen
Bei Untersuchungen oder Beobachtungen von biologischen Vorgängen werden bestimmte Eigenschaften (Charakteristika) der zu untersuchenden Objekte gemessen
bzw. beobachtet. Diese Eigenschaften nennen wir Merkmale. Merkmale können
verschiedene Werte (Merkmalausprägungen) annehmen.
Der Informationsgehalt der gemessenen Werte hängt von der Skala ab, auf der die
Messung erfolgt. Merkmale können grob in qualitative und quantitative Merkmale eingeteilt werden. Man spricht von quantitativen Merkmalen, wenn sie zahlenmäßig erfassbar sind. Sind sie nur artmäßig erfassbar, so spricht man von qualitativen Merkmalen.
Bei allen qualitativen Merkmalen besteht die Mess-Skala aus endlich vielen, diskreten (isolierten) Werten, welche
1. bei der Nominal-Skala unabhängig von irgendeiner Reihenfolge mit treffenden Namen bezeichnet werden, z. B.
Merkmal
Ausprägung
Blutgruppe
{ 0, A, B, AB}
Rhesusfaktor {positiv, negativ}
2. bei der Ordinal-Skala zusätzlich der Reihenfolge nach angeordnet sind, z. B.
Merkmal
Ausprägung
Reifestadien
{ Ei, Larve, Puppe, Falter}
Schädlingsbefall {keiner, gering, mittel, stark}
Bei den quantitativen Merkmalen kann die Mess-Skala sowohl diskret (mit Hilfe
der ganzen Zahlen ) als auch kontinuierlich (anhand der reellen Zahlen ) gewählt
werden.
3. Bei der Intervall-Skala ist ein Bezugspunkt für die Abstands“-Messung,
”
der sogenannte Nullpunkt, willkürlich festgelegt (z. B. Christi Geburt, Gefrierpunkt von Wasser). Es lassen sich sinnvollerweise Summen und Differenzen der Skalenwerte bilden. Da der Nullpunkt nicht physikalisch zwingend ist,
4
1.2. DIE ZAHLENSYSTEME
, , ,
5
sind Quotienten nicht interpretierbar.
Merkmal
Ausprägung Diskret/Kontinuierlich
Datum
12.10.2004
D
◦
Temperatur 16,2 C
K
4. Demgegenüber erlaubt die Verhältnis-Skala, wie der Name es auch ausdrückt, die Bildung von Quotienten (rationale Zahlen ) bezüglich eines absoluten Nullpunktes, z. B.
Merkmal
Ausprägung Diskret/Kontinuierlich
Anzahl Individuen 0,1,2,3...
D
Größe
5,6 cm
K
Welches Skalenniveau günstig ist, hängt von der Fragestellung, aber auch von
dem Messaufwand der eingesetzt werden kann ab.
1.2
Die Zahlensysteme
, , ,
Bei der Einführung der Mess-Skalen haben wir gesehen, dass Zahlen eine wichtige
Rolle bei der Beschreibung und Zusammenfassung von Messergebnissen spielen.
1.2.1
Die natürlichen Zahlen
Die beim Zählen oder Abzählen verwendeten natürlichen Zahlen werden mit
= {0, 1, 2, 3, 4, ...}
bezeichnet. Wir stellen die natürlichen Zahlen im Zehnersystem dar, d. h. basierend
auf Potenzen von 10. Z. B. steht 213785 für
213785 = 2 · 100000 + 1 · 10000 + 3 · 1000 + 7 · 100 + 8 · 10 + 5 · 1
= 2 · 105 + 1 · 104 + 3 · 103 + 7 · 102 + 8 · 101 + 5 · 100
Auch bezglich anderer Zahlensystemen kann man die natrlichen Zahlen darstellen.
Das Dual- oder Zweiersystem ist zum Beispiel für die Anwendungen in der Codierungstheorie besonders wichtig.
1.2.2
Die ganzen Zahlen
Da das Rechnen mit natürlichen Zahlen Beschränkungen unterliegt, z. B. ist die
Differenz 12 − 15 in nicht durchführbar, verallgemeinert man dieses System durch
Hinzunahme aller negativen Zahlen. Man erhällt dabei die ganzen Zahlen
= {· · · , −3, −2, −1, 0, 1, 2, 3, · · · }.
6
KAPITEL 1. MESSEN UND DATENBESCHREIBUNG
1.2.3
Die rationalen Zahlen (Bruchzahlen)
Bruchzahlen treten in natürlicher Weise bei der Angabe von Verhältnissen auf: Um
”
die Substanz A anzusetzen, mische man 3 Teile der Fluessigkeit B und 5 Teile der
Flüssigkeit C.“ Insgesamt hat man dann 8 Teile (genauer: Volumen oder Gewichtseinheiten), so dass die Mischung zu 38 aus B und zu 58 aus C besteht.
Die rationalen Zahlen bezeichnet man mit
m
= { , m ∈ , n ∈ \ {0}}.
n
1.2.4
Die reellen Zahlen
Die reellen Zahlen kann man sich vorstellen als die Menge aller Punkte der unendlichen Zahlengeraden. Es stellt sich die Frage, ob die reellen Zahlen nicht dasselbe
sind wie die rationalen Zahlen. Dies ist nicht der Fall: Es gibt Lücken“ in . Auf
”
diese Lücken stößt man bereits, wenn man Wurzeln betrachtet. Die posititve Lösung
der Gleichung
x2 = 2
√ √
bezeichnet man mit 2. 2 kann nicht als Bruch geschrieben werden. Solche Zahlen
heißen irrationale Zahlen.
Darstellung reeller Zahlen
Jede reelle Zahl hat eine Darstellung im Dezimalsystem als unendlicher Dezimalbruch. Z.B.
1
1
1
1
+1·
+4·
+5·
+ ...
10
100
1000
10000
= 1 · 101 + 7 · 100 + 3 · 10−1 + 1 · ·10−2 + 4 · 10−3 + 5 · 10−4 + . . .
17, 3145 . . . = 1 · 10 + 7 + 3 ·
Da es aber in der Praxis nicht möglich ist, mit unendlich vielen Dezimalstellen nach
dem Komma zu rechnen, bricht man die Dezimalentwicklung durch Runden an
einer geeigneten Stelle ab. Anstelle von
π = 3, 141592654 . . .
verwendet man
π = 3, 14 (Abrunden nach der zweiten Stelle)
oder
π = 3, 1416 (Aufrunden nach der vierten Stelle)
Die Regel für das Runden nach der n−ten Stelle nach dem Komma ist: Ist die
(n + 1)−Ziffer nach dem Komma eine 5, 6, 7, 8 oder 9, wird die vorangehende Ziffer
um 1 erhöht, anderenfalls behält sie ihren Wert.
Rundet man eine Dezimalzahl auf die n-te Stelle ab, so erhält man für sie einen
Näherungswert. Dabei entsteht ein Rundungsfehler der gleich dem Abstand
1.2. DIE ZAHLENSYSTEME
, , ,
7
zwischen dem Näherungswert und der genauen Zahl ist. Sei also x die genaue Zahl
und x̃ der Näherungswert, so ist der Fehler δx gegeben durch
δx = |x − x̃|.
Rundet man auf die n-te Stelle ab, so ist der entstandene Rundungsfehler kleiner
oder gleich 5 · 10−(n+1) . Zum Beispiel:
√
3 = 1, 732050808 . . .
√
3 = 1, 7321 Näherungswert durch Runden auf dien = 4 − te Ziffer
Fehler ≤ 0.00005 = 5 · 10−5
√
3 = 1, 73 Näherungswert durch Runden auf die n = 2 − te Ziffer
Fehler ≤ 0.005 = 5 · 10−3
Die Ziffern, die bei solchen Näherungswerten auftreten, heißen signifikante Ziffern
oder signifikante Stellen. Dabei werden voranstehende Nullen nicht mitgezählt.
Beispiele
1
ln 2 = 0, 006931 hat vier signifikante Stellen
100
π = 3, 14 hat drei signifikante Stellen
√
19225 = 183, 65 hat fünf signifikante Stellen
1, 2 hat zwei signifikante Stellen
1, 20 hat drei signifikante Stellen
In den Naturwissenschaften ist es üblich, Zahlen mit Hilfe von Zehnerpotenzen
auf eine Standardform, die naturwissenschaftliche Darstellung zu bringen.
So schreibt man
1, 471 · 102 statt 147, 1
3, 75 · 10−2 statt 0, 0375
In dieser Darstellung hat man also in der Regel nur eine Stelle vor dem Komma.
Größenordnungen auf der biologischen Skala
Man sagt eine Zahl ist von der Größenordnung 10k , k ∈ Z falls 10k die höchste
Potenz in ihrer Dezimaldarstellung ist. Z.B.
107, 3 = 1 · 102 + 7 · 100 + 3 · 10−1 ist von der Ordnung 102
0, 0037 = 3 · 10−3 + 7 · 10−4 ist von der Ordnung 10−3
0, 5 · 10−3 = 5 · 10−4 ist von der Ordnung 10−4
Die biologische Skala umfaßt einen enormen Wertebereich und erfordert daher ein
gekonntes umgehen mit Größenordnungen und Zehnerpotenzen. Als hilfreich erweist
sich dabei die Verwendung bestimmter Vorsilben für 10er Potenzen.
8
KAPITEL 1. MESSEN UND DATENBESCHREIBUNG
Vorsilbe
Tera
Giga
Mega
Kilo
Milli
Mikro
Nano
Pico
Symbol
T
G
M
k
m
µ
n
p
10er Potenz
1012
109
106
103
10−3
10−6
10−9
10−12
Da diese Vorsilben jeweils um 103 anwachsen, läßt man machmal auch 3 Stellen vor
dem Komma in der naturwissenschaftlichen Darstellung zu.
Beispiele für biologische Größen
• Viren wiegen ≈ 10−15 g = 0, 001pg und haben eine Größe von ≈ 10−7 m =
0, 1µm.
• Zellmembrane haben eine Dicke von ≈ 6 · 10−9 m = 6nm
• Bakterien haben eine Größe von ≈ 10−6 m = 1µm.
• Rote Blutkörperchen haben einen Durchmesser von ≈ 7−8·10−6m = 7−8µm.
• Großsäuger haben Größen von bis zu 10 m.
• Die Anzahl der roten Blutkörperchen/µl Blut ist ≈ 4 − 6 · 106 .
Dezimalbruchentwicklung
Wir wollen nun die rellen Zahlen konstruieren, indem wir sie immer besser durch rationale
Zahlen approximieren. Mathematisch präzise: wir zeigen, dass man jede reelle Zahl x ≥ 0
als Limes einer Folge von Dezimalbrüchen erhalten kann.
Anschauliche Konstruktion:
Zuerst wählen wir ein minimales l ∈ , so dass
Z.B. bei x =
√
0 ≤ x < 10l+1
2 = 1, 4151.... ist l = 0, denn
√
0 ≤ 2 < 101 .
Dann legen wir auf dem Zahlenstrahl Gitter die immer feiner werdende Gittermaschen
haben:
1 1
10l , 10l−1 , . . . , 100 , ,
,...
10 100
1
Bei jedem Schritt werden also die Gittermaschen um dem Faktor 10
kleiner und der
Gitterpunkt, der von linkes am nächsten an x liegt, wird als neue Approximation gewählt,
1.2. DIE ZAHLENSYSTEME
, , ,
9
x= 2
.
0
1
2
3
4
5
6
7
8
9
10
.1,42
1,4
1,41
1,5
x= 2
Abbildung 1.1: Approximation durch Dezimalbrüche
in unseren Beispiel:
√
1 ≤ √2 < 2
1, 4 ≤ √2 < 1, 5
1, 41 ≤ 2 < 1, 42
...
Wir erhalten somit eine Folge von Dezimalzahlen wachsender Stellenzahl, deren Glieder
die reelle Zahl x immer besser approximieren:
√
1; 1, 4; 1, 41; 1, 414; 1, 4142; . . . → 2.
Mathematische Konstruktion:
Wir wählen zuerst ein minimales l ∈
, so dass
0 ≤ x < 10l+1 .
Nun definieren wir :
s−(l+1) = 0,
sk = sk−1 + ak · 10−k
für k ≥ −l,
wobei ak ∈ {0, 1, . . . , 9} so gewählt wird, dass
sk−1 + ak · 10−k ≤ x < sk−1 + (ak + 1) · 10−k .
Damit ist eindeutig eine Folge (ak )k≥−l definiert und es gilt:
sk → x
für
k → ∞.
Bemerkung 1 Die gleiche Konstruktion kann man mit Brüchen in einer beliebigen Basis
b ∈ {2, 3, 4, 5, . . .} durchführen. Solche Brüche werden b-adische Brüche genannt. Für viele
Anwendungen ist die Entwicklung in der Basis 2 (Dualsystem) besonders wichtig, da sie
z. B. für die Codierung von Information benutzt werden kann.
1.2.5
Dokumentation von Messergebnissen
Alle Messvorgänge liefern in der Regel nur Näherungswerte. Wir nehmen einmal an,
dass ein Messverfahren einen Messwert x̃ mit n-ten Stelle nach dem Komma liefert,
was daher kommen kann, dass die Anzeige des Messgrätes nur solche Zahlen angibt
oder es ist durch die Versuchsplanung festgelegt worden, nur soweit abzulesen. Dann
10
KAPITEL 1. MESSEN UND DATENBESCHREIBUNG
hat der Messwert einen Ablesefehler δx, der kleiner oder gleich 5 · 10−(n+1) ist. Die
Dokumentation des Messwertes lautet dann
x = x̃ ± 5 · 10−(n+1) ,
was soviel bedeutet wie
x̃ − 5 · 10−(n+1) ≤ x ≤ x̃ + 5 · 10−(n+1) .
Beispiel 1 Nach der Extraktion von Proteinen aus biologischem Gewebe muss die
Menge der isolierten Proteine durch quantitative Nachweisverfahren experimentell
bestimmt werden. Hierzu wird normalerweise ein Farbtest verwendet, der auf der
Bindung von Coomassie Brilliant Blue“ an basische Aminosuren innerhalb des Pro”
teins beruht. Photometer der neuen Generation können Extinktionen mit hoher Genauigkeit aus Lösungen bestimmen. Misst man nun eine Exitnktion von E=0.23856
so ist dieses Messergebnis folgendermaen zu dokumentieren
E = 0.23856 ± 5 · 10−6
Hat man nun einen Messwert x̃ und einen Ablesefehler δx gegeben, so ist es
sinnvoll die Dezimaldarstellung von x̃ dort abzubrechen, wo der entstehende Rundungsfehler von der gleichen Größenordnung ist wie der Ablesefehler.
Beispiel 2 Hat man die Länge eines Tisches mit einem Zollstock gemessen, so ist
die Aussage, der Tisch sei x̃ = 1, 0753483 m lang, unsinnig, denn der Ablesefehler
bei einem Zollstock ist δx ≤ 0, 0005m = 5 · 10−4 m. Das Ergebnis sollte 1, 075 m
lauten, weil dann der Rundungsfeler von der Größenordnung 10−4 , und damit von
der gleichen Größenordnung wie der Ablesefehler δx ist. Der Messwert hat also vier
signifikante Stellen 1,075.
1.2.6
Fehlerfortpflanzung
Beim Rechnen mit Näherungswerten pflanzen sich die Fehler fort. Wir veranschaulichen dies anhand eines einfachen Beispiels. Seien zwei Messwerte x1 = 1, 621±5·10−4
und x2 = 0, 834 ± 10−4 gegeben. Dann ist
x1 + x2 = 1, 621 ± 5 · 10−4 + 0, 834 ± 5 · 10−4 = 2, 455 ± 1 · 10−3
x1 · x2 = (1, 621 ± 5 · 10−4 ) · (0, 834 ± 5 · 10−4)
= 1, 621 · 0, 834 ± (1, 621 + 0, 834) · 5 · 10−4 ± 25 · 10−8
= 1, 351914 ± 0, 0012275 ± 25 · 10−8 = 1, 352 ± 10−3
Wir sehen also, dass in beiden Rechnungen der Fehler in dem Ergebnis um eine
Größenordnung größer geworden ist als der Fehler in den Ausgangsgrößen. Die obige
Vorgehensweise den Fehler für errechnete Größen zu bestimmen nennt man auch
Intervallarithmetik“.
”
1.3. EMPIRISCHE ANALYSE DER MESSERGEBNISSE
1.3
11
Empirische Analyse der Messergebnisse
Möchte man ein bestimmtes Merkmal X untersuchen, so wird man eine Versuchsreihe aufstellen, bei welcher ein Versuch n-mal durchgeführt wird. Nach jedem Versuch notiert man, welche Ausprägung aufgetreten ist und erhält so eine Messreihe
(x1 , x2 , . . . , xn ).
Beispiel 3 (Endliches, diskretes Merkmal)
Merkmal: Anzahl der Blütenblätter der Butterblume (de Vries)
Mögliche Ausprägungen: {5, 6, 7, 8, 9, 10}
Messreihe:
j 1 2 3 4 5 6 7 8 9 · · · · · · 222
xj 6 8 7 10 6 5 5 9 5 · · · · · ·
5
Abbildung 1.2: Die Butterblume
Beispiel 4 (Kontinuierliches Merkmal)
Merkmal: Gewicht einer gewissen Mäuseart
Mögliche Ausprägungen: alle reellen Zahlen zwischen 19
Messreihe:
j
1
2
3
4
5
6
7
8
xj 22,5 24,3 20,8 19,7 24,9 24,1 22,1 24,0
11
12
13
14
15
16
17
18
19,9 24,2 22,5 23,1 19,6 22,1 24,0 23,1
1.3.1
und 25
9
10
19,4 22,6
19
20
22,6 20,7
Empirische Häufigkeitsverteilung
Häufigkeitsverteilung bei endlichem diskretem Merkmal
Zu den diskreten Merkmalen zählen alle qualitativen Merkmale sowie die quantitativdiskreten Merkmale. Die Anzahl k der Ausprägungen eines diskreten Merkmals ist
in der Regel wesentlich kleiner als die Anzahl n der Elemente in der Messreihe und
damit überschaubar.
Seien {a1 , a2 , . . . , ak }, k ∈
die möglichen Ausprägungen eines Merkmals X.
Um Aussagen über eine Messreihe zu machen, kann man zunächst einmal zählen,
wie oft jede Ausprägung ai (i = 1, . . . , k) unter den xj (j = 1, . . . , n) vorkommt. Man
erhält die Häufigkeitszahlen
h(ai ) = Anahl der Messungen, für die xj = ai .
12
KAPITEL 1. MESSEN UND DATENBESCHREIBUNG
h(ai ) heißt absolute (empirische) Häufigkeit der Ausprägung ai in der Messreihe. Die Gesamtheit der Werte h(ai ) bilden die absolute empirische Häufigkeitsverteilung
für das Merkmal X. Da sich alle n Messwerte x1 , x2 , . . . , xn auf die Ausprägungen
a1 , a2 , . . . , ak aufteilen, sind die absoluten Häufigkeiten ganze Zahlen zwischen 0 und
n, deren Summe genau die Anzahl n der Messwerte ergibt, in Formeln:
h(ai ) ∈
0 ≤ h(ai ) ≤ n
k
!
h(ai ) := h(a1 ) + h(a2 ) + ... + h(ak ) = n
(1.1)
(1.2)
(1.3)
i=1
Um den Anteil eines Merkmals ai am Gesamtvorkommen zu ermitteln, berechnen
wir die relativen Häufigkeiten
h(ai )
, i = 1, 2, ..., k
(1.4)
n
Aus den Eigenschaften für die absoluten Häufigkeiten (1.1)-(1.3) ergibt sich:
r(ai ) :=
r(ai ) ∈
0 ≤ r(ai ) ≤ 1
k
!
r(ai ) := r(a1 ) + r(a2 ) + ... + r(ak ) = 1
(1.5)
(1.6)
(1.7)
i=1
Für die graphische Darstellung einer diskreten Häufigkeitsverteilung benutzt man
Stabdiagramme, die man erhält, indem man über den Ausprägungen ai Stäbe
zeichnet, deren Höhe entweder den absoluten Häufigkeiten h(ai ) oder den relativen
Häufigkeiten r(ai ) entspricht. Betrachten wir das Beispiel 3 so haben wir:
"
Anzahl der Blütenblätter ai
5
6
7
8
9
10
Absolute Häufigkeit h(ai )
133
55
23
7
2
2 222
133
55
23
7
2
2
Relative Häufigkeit r(ai )
1
222
222
222
222
222
222
Relative Häufigkeit r(ai ) in % 59.9 24.8 10.3 3.2 0.9 0.9 100
Zur Zeichnung des Diagramms der relativen Häufigkeiten braucht man am Diagramm der absoluten Häufigkeiten nur eine Skalenänderung an der vertikalen Achse
vorzunehmen. Man gibt daher meistens beide Diagramme durch eine Zeichnung wider mit zwei Skalen an der vertikalen Achse.
Ein weiterer Häufigkeitsbegriff, der für die Beschreibung empirischer Daten weitere Aussagen liefert, ist die Summenhäufigkeit. (Ihr Analogon als Verteilungsfunktion wird uns in der Wahrscheinlichkeitsrechnung wieder begegnen). Für unser
Beispiel ist es sinnvoll zu fragen, wieviele Butterblumen höchstens m Blütenblätter
haben (m = 5, 6, 7, 8, 9, 10). Dazu summieren wir einfach die Häufigkeiten für die
1.3. EMPIRISCHE ANALYSE DER MESSERGEBNISSE
h(a i )
r (a i ) (in %)
133
59,9
55
24,8
23
7
2
10,4
3,1
0,9
5
6
7
8
ai
9 10
13
5 6 7 8 9 10
ai
Abbildung 1.3: Stabdiagramme der absoluten und relativen Häufigkeiten
Blütenblätterzahlen von 1 bis m auf und erhalten das Stabdiagramm der absoluten
und relativen Summenhäufigkeiten aus Abb. 1.4.
Allgemein lässt sich für jedes diskrete, ordinal-skalierte Merkmal der Begriff der
absoluten Summenhäufigkeit der Ausprägung am definieren als
hh(am ) = h(a1 ) + ... + h(am ) =:
m
!
i=1
h(ai ) =:
!
h(ai )
i≤m
hh(am ) gibt an, wie oft eine der ersten m Ausprägungen a1 , a2 , ..., am unter den
Messwerten vorkommt. Entsprechend definieren wir die relative Summenhäufigkeit als
m
!
!
rr(am ) = r(a1 ) + ... + r(am ) =:
r(ai ) =:
r(ai )
i=1
i≤m
Für die höchste Ausprägung gilt:
rr(ak ) =
k
!
r(ai ) = 1 (siehe (1.7))
i=1
Häufigkeitsverteilungen bei kontinuierlichem Merkmal
Betrachten wir zunächst das Beispiel 4. Tatsächlich haben die Mäuse nicht genau
das Gewicht 22,5g, 24,3g usw. Die abgelesenen Werte basieren auf einer vorher
vereinbarten Messgenauigkeit - in unserem Fall von 5 · 10−2 . Gewicht von 22,5g
bedeutet also genau genommen, dass das Gewicht im Interwall 22, 5 ± 5 · 10−2 liegt.
Bei dieser Messung sind also alle Ausprägungen, die zwischen 22,45 und 22,55 liegen
zu einer Klasse zusammengefasst. Diese Klassenbreite ist aber für unsere relativ
kleine Messreihe viel zu fein. Wir müssten die 20 Messwerte auf etwa 60 Klassen
14
KAPITEL 1. MESSEN UND DATENBESCHREIBUNG
hh(a m) rr(a m) (in %)
222
220
218
211
100
99,1
98,2
95,1
188 84,7
133 59,9
5 6 7 8 9 10
am
Abbildung 1.4: Stabdiagramme der Summenhäufigkeiten
aufteilen. Dabei entstehen also viele Klassen mit keinem Element und viele mit einem
Element. Um aus einer Messreihe in der Praxis Nutzen zu ziehen, sollte sie so groß
sein, dass in jeder Klasse ausreichend viele“ Messwerte fallen. Steht jedoch nur eine
”
begrenzte Anzahl von Messwerten zur Verfügung, so muss man die Klassenbreite so
groß wählen, dass in jede Klasse einige“ Messwerte fallen. In unserem Beispiel 4 ist
”
letzteres der Fall. Wir wählen die Klassenbreite auf zwei Arten:
1. Klassen mit Klassenbreite 1g: ]19-20], ]20-21], ..., ]24-25]
2. Klassen mit Klassenbreite 2g: ]19-21], ]21-23], ]23-25]
Nun bestimmen wir für diese Klassen jeweils die Häufigkeiten:
1.
ai
h(ai )
19-20 20-21 21-22 22-23 23-24 24-25
4
2
0
6
3
5
2.
ai
h(ai )
19-21 21-23 23-25
6
6
8
Wir sehen, dass die erste Klassenbreite (1g) noch immer zu fein ist, da Klassen
entstehen, welche keinen Messwert enthalten.
Allgemeiner legen wir eine Klassifizierung einer kontinuierlichen Skala folgendermaßen fest: Wir bestimmen den kleinsten Wert xmin := min{x1 , x2 , . . . , xn } und den
größten Wert xmax := max{x1 , x2 , . . . , xn } der Messreihe. Dann wählen wir Klassengrenzen
c 0 < c1 < · · · < c k
so dass c0 < xmin und xmax < ck , wobei die Klassenbreite b (gewöhnlich) konstant
gewählt wird, d.h.
b = ci − ci−1 , i = 1, . . . , k.
Ein Messwert xj liegt dann in der Klasse ai =]ci−1 , ci ], falls ci−1 < xj ≤ ci gilt.
1.3. EMPIRISCHE ANALYSE DER MESSERGEBNISSE
15
Durch die Klassenbildung erhält man eine endliche Liste von Ausprägungen und
hat das seiner Natur nach kontinuierliche Merkmal als ein diskretes aufgefasst. Damit
können die Begriffe der Häufigkeitsverteilung auf klassifizierte Messreihen übertragen werden. Die absolute Klassenhäufigkeit
h(ai ) = h(]ci−1 , ci ])
ist gleich der Anzahl der Messwerte, die in die Klasse ai =]ci−1 , ci ] fallen. Die relativen Klassenhäufigkeiten definiert man dann als
r(ai ) = r(]ci−1 , ci ]) :=
h(ai )
.
n
Die absoluten und relativen Klassenhäufigkeiten werden üblicherweise mit Hilfe von
Balkendiagrammen dargestellt, wobei als Balkenbreite die Klassenbreite gewählt
wird. Für das Beispiel 4 (mit Klassenbreite b = 2) sind die Histogramme in Abb.1.5
gegeben. Erhöht man die Anzahl der Messungen, so kann man die Klassenbreite
h r
8
8 20
6
6 20
19
21
23
25
ai
Abbildung 1.5: Absolute und relative Klassenhäufigkeiten
feiner wählen, was zu einer genaueren Beschreibung der Häufigkeitsverteilung führt.
Oft ist es der Fall, dass mit immer feiner werdenden Klassenbreite (bei entsprechender Erhöhung der Messwerteanzahl) die Häufigkeitsverteilung immer besser durch
eine stetige Funktion approximiert wird. Im nächsten Kapitel werden wir auf Grund
ähnlicher Überlegungen Dichte-Funktionen einführen, mit Hilfe deren kontinuierliche Wahrscheinlichkeitsmodelle konstruiert werden.
Basierend auf den absoluten und relativen Klassenhäufigkeiten berechnet man
die Summenhäufigkeiten für klassifizierte Merkmale ebenso wie bei diskreten Merkmalen. Wir bemerken dass die relative Klassenhäufigkeit rr(ai) die relative Häufigkeit angibt mit der Ausprägungen die kleiner oder gleich ci sind in der Messreihe
vorkommen. Eine allgeinere Frage ist nun, die relative Häufigkeit zu bestimmen, mit
der Ausprägungen vorkommen, die kleiner oder gleich einer gegebenen Zahl x ∈
sind. Dazu definieren wir die Funktion
F : R → [0, 1]
die einem x den Wert F (x) gleich der relativen Häufigkeit, mit der Ausprägungen
kleiner oder gleich x vorkommen, zuordnet. Wir bemerken dass
16
KAPITEL 1. MESSEN UND DATENBESCHREIBUNG
1. Für x = ci , i = 1, . . . , k, gilt F (ci ) = rr(ai ), wobei rr(ai ) die relative Summenhäufigkeit der Klasse ai ist.
Um F (x) für x )= ci zu bestimmen betrachten wir das Balkendiagramm der relativen
Klassenhäufigkeiten. Wir stellen fest, dass F (ci ) = rr(ai ) den Flächen-Anteil links
von ci im in diesem Histogramm darstellt, denn
Fläche links von ci = rr(ai ) · b
(Unter Flächenanteil verstehen wir die Fläche geteilt durch die Klassenbreite.)
2. Für x ∈]ci−1 , ci] approximieren wir die relative Häufigkeit, mit der Ausprägungen kleiner oder gleich x vorkommen, durch den Flächen-Anteil links von x im
Histogramm. Dieser Anteil berechnet sich wie folgt:
F (x) = rr(ai−1 ) +
# $% &
r(ai )
(x − ci−1 )
b
F (ci−1 )
h r
2F(x)
8
8 20
6 6
20
19
21 x 23
25
x
Abbildung 1.6: Fläche links von x im Histogramm
Im Beispiel 4 ist b = 2. Der Flächen-Anteil der schraffierten Fläche im Histogramm Abb. 1.6 gibt den Wert F (x) an. Die Funktion F heißt empirische Verteilungsfunktion für ein klassifiziertes Merkmal. Sie gibt an mit welcher relativen
Häufigkeit Ausprägungen kleiner oder gleich x in der Messreihe vorkommen. Die
analytische Form der Verteilungsfuktion ist folgende:


0,
x ≤ c0


r(a1 )


F (c0 ) + b (x − c0 ),
x ∈]c0 , c1 ]



r(a2 )

 F (c1 ) + b (x − c1 ),
x ∈]c1 , c2 ]
F (x) =
...

r(ai )


 F (ci−1 ) + b (x − ci−1 ), x ∈]ci−1 , ci ]



...


 1,
ck < x
Im Falle des Beispiels 4 ist das Schaubild von F in Abb. 1.7 dargestellt.
1.3. EMPIRISCHE ANALYSE DER MESSERGEBNISSE
17
F(x)
1
12
20
6
20
19
21
23
25
x
Abbildung 1.7: Empirische Verteilungsfunktion F (x)
1.3.2
Lagemaße und Streuungsmaße
Aufgrund eines Diagramms, z. B. Stab- oder Balkendiagramm, lassen sich folgende
Eigenschaften einer Verteilung qualitativ abschätzen:
• Lage der Datenwerte: In welchen Bereichen konzentrieren sich die Daten?
• Streuung: Wie weit streuen die Werte? Gibt es Ausreisser?
• Form: Hat die Verteilung eine besondere Form? Ist sie symmetrisch?
Für eine statistische Datenanalyse sind aber Kenngrößen gefordert die die oben genannten Eigenschaften quantitativ beschreiben. Mit derartigen Kenngrößen werden
wir uns in diesem Paragraph beschäftigen.
Lagemaße
Lagemaße sollen das Zentrum representieren, um das die Daten streuen. Ein Lagemaß, welches für alle ordinalskalierten Merkmalen definiert werden kann, ist das
zentrale Wertepaar (bzw. der Median). Um es zu bestimmen, werden die Messdaten
x1 , x2 , . . . , xn
der Größe nach geordnet. Man erhält die geordnete Messreihe
xmin = x(1) , x(2) , . . . , x(n) = xmax
Dabei ist x(1) der kleinste, x(2) der zweitkleinste und x(n) der größte Datenwert. Es
gibt zwei Fälle:
1. n gerade
Dann kann die geordnete Reihe in zwei gleich lange Stücke aufgeteilt werden.
x(1) , x(2) , . . . , x( n2 ) , x( n2 +1) , . . . , x(n)
18
KAPITEL 1. MESSEN UND DATENBESCHREIBUNG
2. n ungerade
In diesem Falle gibt es ein mittleres Element, nämlich x( n+1 ) , in dem Sinne,
2
dass vor und nach ihm gleich viele Elemente kommen:
x(1) , x(2) , . . . , x( n+1 −1) , x( n+1 ) , x( n+1 +1) , . . . , x(n)
2
2
2
Im ersten Fall setzen wir Z1 = x( n2 ) , Z2 = x( n2 +1) .
Im zweiten Fall: Z1 = Z2 = Z = x( n+1 ) .
2
(Z1 , Z2 ) nennen wir das zentrale Wertepaar, im zweiten Fall Z auch den Zentralwert
oder Median.
Ist das Merkmal sogar quantitativ, so definiert man als Zentralwert (Median)
Z=
Z1 + Z2
.
2
Der Median teilt also die geordnete Messreihe in zwei Hälften: Die eine Hälfte der
Daten ist höchstens so groß wie der Median, die andere Hälfte mindestens so groß.
Beispiel 5 (Untersuchung von Kranken auf den Erkrankungsgrad)
Das Merkmal Erkrankungsgrad hat folgende Ausprägungen:
L
M
leicht mittel
S
G
schwer lebensgefährlich
Die Skala ist nur eine Ordinalskala. Dem Gradunterschied kommt also keine quantitative Bedeutung zu. Die Messreihe ist:
L M
M
L
M
M
S
S
M
G
Die geordnete Messreihe:
L L
M
S
S
G
Wir erhalten
Z1 = x(4) = M,
Z2 = x(5) = M
Die praktische Bedeutung lautet in Worten: Bei 50% der Patienten ist die Krankheit
höchstens mittelstark, bei 50% ist sie mindestens mittelstark.
Von Lagemaßen erwartet man dass sie die Lage der Werte xj optimal schätzten,
d. h. die Abweichungen der xj von dem Lagemaß sollten möglichst gering sein. Für
den Median einer quantitativen Messreihe gilt in diesem Sinne folgende Minimumseigenschaft:
Satz 1 (Minimumeigenschaft des Medians)
Gegeben sei die Messreihe (x1 , x2 , . . . , xn ) für ein quantitatives Merkmal X. Der
Median erfüllt folgende Eigenschaft:
n
!
j=1
|xj − Z| ≤
n
!
j=1
|xj − c|,
∀c ∈
.
1.3. EMPIRISCHE ANALYSE DER MESSERGEBNISSE
19
Bemerkung 2 Aus der Definition der relativen Häufigkeit folgt, dass Z1 diejenige Ausprägung ist, bei der die relative Summenhäufigkeit zum ersten Mal 50% erreicht oder übersteigt. Damit kann man das zentrale Wertepaar aus dem Diagramm
der Summenhäufigkeiten leicht bestimmen. Bei kontinuierlichen Merkmalen, wo nur
noch die Information über die Klassenhäufigkeit vorliegt, kann man den klassifizierten Median mit Hilfe der empirischen Verteilungsfunktion ermitteln, und zwar ist es
der Wert Z, für den gilt:
F (Z) = 0.5
(1.8)
Wenn alle Klassen nichtleer sind, dann ist die Verteilungsfunktion streng monoton wachsend und der durch die Gleichung (1.8) bestimmte Wert Z ist eindeutig
definiert.
Das bekannteste Lagemaß, welches für quantitative Merkmale definiert werden kann, ist das arithmetische Mittel (der Mittelwert). Für eine Messreihe
(x1 , x2 , . . . , xn ) ist es definiert als
n
1
1!
x̄ = (x1 + x2 + . . . + xn ) =
xj
n
n j=1
Kommen unter den Messwerten x1 , x2 , . . . , xn genau die Ausprägungen a1 , a2 , . . . , ak ,
mit den absoluten Häufigkeiten h(a1 ), h(a2 ), . . . , h(ak ) vor, so folgt:
1
(x1 + x2 + . . . + xn )
n
1
=
(h(a1 )a1 + h(a2 )a2 + . . . + h(ak )ak )
n
k
1!
=
h(ai )ai
n i=1
x̄ =
=
k
!
h(ai )
i=1
=
k
!
n
(1.9)
ai
r(ai )ai
(1.10)
i=1
Auch der Mittelwert besitzt eine Minimumseigenschaft die im folgenden Satz
formuliert wird.
Satz 2 (Minimumeigenschaft des Mittelwertes) Für den Mittelwert x̄ einer
Messreihe (x1 , x2 , . . . , xn ) gilt:
n
!
j=1
2
(xj − x̄) ≤
n
!
j=1
(xj − c)2 ,
∀c ∈
.
Bemerkung 3 x̄ ist abhängig von der Größe jedes einzelnen Messwertes xj . Das
bedeutet, dass ein Ausreisser“ das arithmetische Mittel bei kleinen Messreihen stark
”
beeinflussen kann. Bei kleinen Messreihen nimmt man daher für die Beschreibung
der Lage der Messwerte oft lieber den Zentralwert.
20
KAPITEL 1. MESSEN UND DATENBESCHREIBUNG
Bei klassifizierten Daten ist es rechnerisch weniger aufwendig, die Lagemaße basierend auf den Klassenmitten
a∗i =
ci−1 + ci
2
und den Klassenhäufigkeiten h(ai ) zu ermitteln (anstatt alle Stichprobenwerte xj zu
berücksichtigen). Der klassifizierte Mittelwert lässt sich demnach berechnen als
k
x̄kl =
k
!
1!
h(ai )a∗i =
r(ai )a∗i
n i=1
i=1
Der klassifizierte Mittelwert stimmt nicht genau mit dem Mittelwert der Messreihe
überein, ist aber für immer größer werdende Messreihen immer näher bei x̄.
Quantile sind weitere Lagemaße, welche benutzt werden, um darzustellen, in
welchen Bereichen große Teile einer Messreihe liegen. Sie werden ausgehend von der
geordneten Messreihe folgendermaßen definiert. Für p ∈ (0, 1) ist das empirische
p-Qantil definiert als
+ 1
(x(np+1) + x(np) ), falls np ganzzahlig
2
x̃p =
x([np]+1) ,
falls np nicht ganzzahlig
Dabei ist die Gauß-Klammer [z] definiert als der ganzzahlige Anteil einer reellen Zahl
z. Das p-Quantil ist also der Wert, unter welchem mindestens p·100% der Messwerte
liegen. Das 0,5-Quantil haben wir bereits kennengelernt. Es ist das sogenannte 2.
Quartil oder Median und stellt den Wert dar, unter welchem mindestens 0, 5 ·
100% = 50% der Messwerte liegen. Die empirischen Quantile x̃0,25 und x̃0,75 werden
auch 1. bzw. 3. Quartil genannt.
Beispiel 6 Wir betrachten folgende Messreihe, die bereits geordnet wurde:
2 4
7 11 16 22 29
37 45 56
Die Quartile ergeben sich dann wie folgt
p = 0, 25, np = 2, 5 =⇒ x̃p = x([np]+1) = x(3) = 7
1
p = 0, 5, np = 5 =⇒ x̃p = (x(6) + x(5) ) = 19
2
p = 0, 75, np = 7, 5 =⇒ x̃p = x([np]+1) = x(8) = 37
Bemerkung 4 Man kann die Quantile im Falle diskreter Merkmale aus dem Stabdiagramm der relativen Summenhäufigkeiten bestimmen. Für gegebenes p ∈ (0, 1) ist
das p-Quantil x̃p der Wert für den die relative Summenhäufigkeit zum ersten mal
p · 100% erreicht oder überschreitet.
Im Falle klassifizierter Merkmale, kann man die Quantile mit Hilfe der empirischen Verteilungsfunktion bestimmen, und zwar ist das p-Quantil x̃p der Wert, für
den gilt
F (x̃p ) = p.
1.3. EMPIRISCHE ANALYSE DER MESSERGEBNISSE
21
Streuungsmaße
Wenn sich zwei Verteilungen hinsichtlich ihrer Lagemaße ähneln, können sie dennoch aufgrund der Streuung der Messwerte sehr unterschiedlich sein. Mit Hilfe der
Streuungsmaße können wir die Abweichungen vom Lagemaß quantifizieren.
In diesem Abschnitt betrachten wir wieder ein quantitatives Merkmal mit einer
Intervallskala aus ganzen oder reellen Zahlen. Die am einfachsten zu berechnenden
Streuungsmaße sind die Spannweite (oder Variationsbreite):
R = xmax − xmin = x(n) − x(1)
und der Interquartilabstand:
q = x̃0,75 − x̃0,25
Die Spannweite R berücksichtigt nur die beiden extremsten Werte und ist daher von
Ausreißern sehr stark beeinflusst. Der Interquartilabstand gibt einen Bereich an, in
dem mindestens 50% der Messwerte liegen.
Die meist verwendeten Kennzahlen für die Streuung erhält man folgendermaßen:
Wir wählen als Lagemaß das arithmetische Mittel und betrachten die quadratischen
Abstände
(x1 − x̄)2 , (x2 − x̄)2 , . . . , (xn − x̄)2
Als Kennzahl wählen wir dann das arithmetische Mittel dieser Abstände. Wir erhalten die mittlere quadratische Abweichung (oder Varianz)
n
1!
σ(x) =
(xj − x̄)2
n j=1
2
In der Praxis wird oft die sogenannte empirische Varianz benutzt, die gegeben
ist als
n
1 !
2
s(x) =
(xj − x̄)2 .
n − 1 j=1
Die Gründe dafür werden in einem späteren Kapitel klar werden.
Da die Maßeinheit für die Varianz das Quadrat der Maßeinheit der Messwerte
ist, ist diese Größe schwer zu interpretieren. Deswegen definiert man die Standardabweichung
,
- !
-1 n
σ(x) = .
(xj − x̄)2
n j=1
und entsprechend die empirische Standardabweichung
/
s(x) = s(x)2
Die Standardabweichung ist also immer eine positive Zahl. Ihre Bedeutung besteht
unter anderen darin, dass im Intervall ]x̄ − σ(x), x̄ + σ(x)[ viele“ Messwerte liegen.
”
22
KAPITEL 1. MESSEN UND DATENBESCHREIBUNG
Das obengenannte Intervall heißt Standard-Streuintervall. Generell findet man
bei allen Verteilungen mindestens 34 aller Werte im Intervall ]x̄ − 2σ(x), x̄ + 2σ(x)[
und 89 aller Werte im Intervall ]x̄ − 3σ(x), x̄ + 3σ(x)[.
Ein nützlicher Ausdruck für die Varianz, vor allem im Hinblick auf die Übertragung auf klassifizierte Daten, ist gegeben durch:
k
k
!
1!
σ(x) =
h(ai )a2i − x̄2 =
r(ai )a2i − x̄2
n i=1
i=1
2
Im Falle klassifizierter Daten erhalten wir also die klassifizierte Varianz als
k
σ(x)2kl
k
!
1!
=
h(ai )(a∗i )2 − x̄2kl =
r(ai )(a∗i )2 − x̄2kl
n i=1
i=1
wobei a∗i wieder die Klassenmitte darstellen soll.
Box-Plots
Box-Plots ermöglichen die geschlossene graphische Darstellung wichtiger Kenngrößen einer Messreihe. Sie sind vor allem sehr hilfreich, wenn es darum geht, unterschiedliche Datenerhebungen zu vergleichen. Für die Anfertigung der Box-Plots wird
die Fünf-Punkte-Zusammenfassung herangezogen: xmin , 1.Quartil, Median, 3.Quartil und xmax . Der Box-Plot für das Beispiel 6 ist in Abb. 1.8 dargestellt.
56
37
19
7
2
0
Abbildung 1.8: Box-Plot für das Beispiel 6.
1.3. EMPIRISCHE ANALYSE DER MESSERGEBNISSE
1.3.3
23
Anwendung von Mittelwert und Varianz bei der Überprüfung der Genauigkeit und Präzision einer Pipette.
(Grundpraktikum C, Dr. Cordula Harter, BZH)
Die Genauigkeit einer Pipette bezeichnet die Differenz zwischen dem Mittelwert
einer Anzahl wiederholter Messungen und dem Nominalwert. Die Präzision gibt an,
wie gut die Messwerte übereinstimmen.
Versuch: Mit einer Kolbenhubpipette werden 100µl destilliertes Wasser pipettiert und das Gewicht der Probe gemessen. Dieses Vorgehen wird weitere 9 Mal
wiederholt. Man erhält z.B. folgende Messreihe (gj ist das Gewicht der j-ten Probe):
j
1
2
3
4
5
6
7
8
9
10
gj (in mg) 103,1 100,3 100,1 100,4 97,6 100,3 100,1 100,0 100,0 97,9
Da die Dichte des Wassers d(H2 O) = 1g/cm3 ist, kann aus dem Gewicht einer Probe
ihr Volumen berechnet werden. Die obige Tabelle stellt also auch die Werte vj (in
µl) für die Volumina der Proben dar.
Abbildung 1.9: Die Kolbenhubpipette
Um die Genauigkeit zu überprüfen, bildet man zuerst den Mittelwert der Messreihe
n
1!
1
v̄ =
vj =
· 999, 8 = 99, 98.
n j=1
10
Die Genauigkeit E berechnet sich dann als
E = | v̄ − v0 | = | 99, 98 − 100 | = 0, 02,
(µl)
wobei v0 = 100µl der Nominalwert ist. Die relative Genauigkeit ist gegeben durch
E
0, 02
=
= 0, 0002.
v0
100
In den Herstellerrichtlinien wird die relative Genauigkeit in % angegeben, d.h. in
unserem Fall
E
= 0, 02%.
v0
Als Maß für die Präzision benutzt man die empirische Standardabweichung (bzw.
den Variationskoeffizienten). Für die Standardabweichung erhalten wir
0"
n
2
j=1 (vj − v̄)
s(v) =
= 1, 496
(µl)
n−1
24
KAPITEL 1. MESSEN UND DATENBESCHREIBUNG
Um die Standardabweichung mit der Größe der Messwerte in Bezug zu bringen,
berechnen wir den Variationskoeffizienten
V =
s(v)
1, 496
=
= 0, 01496 oder V = 1, 496%.
v̄
99, 98
Wir möchten nun die Frage beantworten, ob die untersuchte Pipette genau und
präzise ist. Die Herstellerrichtlinien für die Pipette schreiben vor:
• relative Genauigkeit
E
v0
≤ 0, 80%
• Variationskoeffizient V ≤ 0, 15%
Aus unseren Berechnungen folgt also, dass die untersuchte Pipette zwar genau, aber
nicht präzise ist (und daher an den Hersteller zurückgeschickt werden müsste).
1.3.4
Stochastische Abhängigkeit: Korrelation und Regression
Bei vielen Untersuchungen biologischer Phänomene werden mehrere Merkmale der
Beobachtungseinheiten erfasst, z.B. Länge und Gewicht, Höhe und Biomasse bei
Pflanzen, Düngermenge, Regenmenge und Ernteertrag usw. In diesen Fällen ist es
interessant und wünschenswert, nicht nur die einzelnen Merkmale zu beschreiben,
sondern auch den Zusammenhang zwischen zwei oder mehreren Merkmalen zu untersuchen.
Aus der Mathematik und der Physik sind Zusammenhänge zwischen zwei oder
mehreren Größen gut bekannt. So besteht beispielsweise zwischen dem Umfang U
und dem Radius r eines Kreises die lineare Beziehung U = 2πr. Der Weg S, den
ein aus dem Ruhestand frei nach unten fallender Körper nach der Zeit t zurück
gelegt hat, ist gegeben durch S = 12 gt2 , g Gravitationskonstante. Diese Art von Zusammenhängen nennt man funktional. Eine Größe kann aus einer anderen mittels
einer Funktion exakt berechnet werden. Die Zusammenhänge in den Biowissenschaften sind oft stochastisch; d.h. sie werden auch vom Zufall beeinflusst. Demzufolge
kann nicht jedem Wert einer Größe ein eindeutiger Wert der anderen Größe zugeordnet werden, sondern ein ganzer Bereich, in dem Werte liegen können.
In diesem Paragraphen werden wir uns damit beschäftigen, Zusammenhänge
zwischen zwei Merkmalen nachzuweisen und zu beschreiben. Dabei werden wir die
ihrer Natur nach stochastischen Zusammenhänge durch funktionale approximieren.
Punktwolke und Korrelation
Untersucht man zwei quantitative Merkmale X und Y , wie etwa die Körpergröße
von Menschen (in m) und die Körpermasse (in kg), so erhält man als Messreihe eine
endliche Folge (xj , yj ) von Zahlenpaaren. Das folgende Beispiel zeigt die Messwerte
für die Körpergröße und das Gewicht von 241 Männern.
X(cm)
Y (kg)
189 168 175 177 181 169 172 175 176 174 . . .
85 70 72 81 79 65 71 73 84 65 . . .
172
72
1.3. EMPIRISCHE ANALYSE DER MESSERGEBNISSE
25
Stellt man diese Messpaare als Punkte der Ebene dar, so erhält man eine Punktwolke (s. Abb. 1.10). An dem obigen Beispiel ist anschaulich zu erkennen: Wenn
Abbildung 1.10: Punktwolke
X wächst, so steigt auch Y im Mittel an. Es besteht also eine Abhängigkeit oder
ein Zusammenhang zwischen den beiden Messreihen. Man kann auch sagen, es gibt
eine Korrelation zwischen X und Y .
Anhand der Punktwolke sind zwei charakteristische Eigenschaften eines Zusammenhanges auf einen Blick erkennbar:
• Die Stärke des Zusammenhangs: Je dichter die Punkte beieinander liegen,
desto stärker ist der Zusammenhang. Mithilfe der Korrelationsanalyse lassen
sich Kennzahlen berechnen, die die Stärke des Zusammenhangs quantifizieren.
• Die Art des Zusammenhangs: Die Art wird durch eine mathematische Funktion
angegeben, die den Zusammenhang am besten beschreibt. Es ist Aufgabe der
Regressionsanalyse, diese Funktion zu finden.
Wenn, wie in unserem Beispiel, der Zusammenhang durch eine Gerade charakterisiert werden kann, spricht man von einem linearen Zusammenhang. Die dazugehörende Gerade nennt man Regressionsgerade. Die positive Steigung der Regressionsgeraden besagt, dass zwischen Körpergröße und Körpergewicht ein gleichsinniger Zusammenhang besteht: es besteht eine positive Korrelation. Bei negativer
Steigung spricht man von negativer Korrelation.
Kennzahlen für lineare Abhängigkeit
Wenn die Punktwolke so geartet ist, dass sich mittendurch eine Gerade legen lässt,
um die die Punkte elipsenförmig liegen, so kann man den Zusammenhang als linear
ansehen. Um den linearen Zusammenhang zwischen zwei Merkmalen X und Y durch
eine Kennzahl zu quantifizieren, gehen wir wie folgt vor:
26
KAPITEL 1. MESSEN UND DATENBESCHREIBUNG
Wir betrachten Produkte von der Form
(xj − x̄)(yj − ȳ),
wobei x̄ und ȳ die Mittelwerte der Messreihen (x1 , . . . , xn ) bzw. (y1 , . . . , yn ) sind.
Die Mittelwerte x̄ und ȳ teilen die Ebene, und damit die Daten, in 4 Quadranten.
Für Daten im ersten und im dritten Quadranten sind die obigen Produkte
(xj − x̄)(yj − ȳ) ≥ 0,
für die Daten im zweiten und vierten Quadranten negativ. Wenn sich also die Daten
um eine Gerade mit positiver Steigung gruppieren, d.h. im Quadranten I und III
liegen, ist zu erwarten, dass gilt:
n
1!
σ(x, y) =
(xj − x̄)(yj − ȳ) ≥ 0.
n j=1
Bei Messwerten im Quadranten II und IV ist σ(x, y) ≤ 0. Wenn sich die Daten
etwa gleichmäßig auf alle vier Quadranten verteilen, so ist der Mittelwert der Terme
(xj − x̄)(yj − ȳ) ungefähr 0.
Die Größe σ(x, y) heißt Kovarianz. Wie schon bei der Varianz erwähnt, wird
auch bei der Kovarianz in der Praxis nicht der Mittelwert der Terme (xj − x̄)(yj − ȳ)
sondern die empirische Kovarianz
n
1 !
s(x, y) =
(xj − x̄)(yj − ȳ)
n − 1 j=1
benutzt. An der Kovarianz ist also zu sehen, ob positive oder negative lineare Korrelation besteht. Die Kovarianz ist aber wenig informativ zur quantitativen Beurteilung der Frage, ob ein Zusammenhang besonders eng oder eher lose ist, denn der
Betrag der Kovarianz ist abhängig vom jeweiligen Maßstab der zur Messung verwendet wird. Um ein normiertes Maß zur Quantifizierung der Korrelation zu erhalten,
nehmen wir zuerst an, dass alle (xj , yj ) auf einer Geraden y = a x + b liegen. Dann
ist die Kovarianz
n
1!
σ(x, y) =
(xj − x̄) (a xj + b − a x̄ − b)
n j=1
n
1!
=
(xj − x̄) a (xj − x̄)
n j=1
n
a!
=
(xj − x̄)2 = a σ(x)2 .
n j=1
(1.11)
1.3. EMPIRISCHE ANALYSE DER MESSERGEBNISSE
27
Berechnen wir nun
n
σ(y)
2
1!
=
(yj − ȳ)2
n j=1
n
1!
=
(a xj + b − a x̄ − b)2
n j=1
n
1! 2
=
a (xj − x̄)2 = a2 σ(x)2
n j=1
Daraus folgt
σ(y) = |a σ(x)|.
(1.12)
Es folgt also durch Einsetzen von (1.12) in (1.11)
|σ(x, y)| = σ(x) σ(y)
Im allgemeinen gilt aber
|σ(x, y)| ≤ σ(x) σ(y)
und das Gleichheitszeichen gilt genau dann, wenn die (xj , yj ) auf einer Geraden
liegen. Bildet man also für σ(x) )= 0 und σ(y) )= 0 die Größe
r(x, y) =
σ(x, y)
σ(x)σ(y)
genannt linearer Korrelationskoeffizient, so gilt
−1 ≤ r(x, y) ≤ 1.
Mit Hilfe des Korrelationskoeffizienten r können wir nun folgende Aussagen über
eine lineare Korrelation machen:
1. Falls |r| = 1, so liegen (xj , yj ) auf einer Geraden (es besteht perfekte Korrelation).
2. Falls r > 0 (bzw. r < 0) besteht positive (bzw. negative) Korrelation und
umso näher r bei 1 oder −1 ist, desto stärker ist die Korrelation.
Für unser Beispiel ist der Korrelationskoeffizient r(x, y) = 0, 55, also eine eher lose
Korrelation, was auch aus der Punktwolke in Abb.1.10 ersichtlich ist.
Bemerkung 5 Im Falle einer nichtlinearen Korrelation ist der lineare Korrelationskoeffizient bedeutungslos. Insbesondere bedeutet σ(x, y) ≈ 0 nicht, dass generell
kein Zusammenhang besteht, sondern nur, dass kein linearer Zusammenhang nachzuweisen ist!
28
KAPITEL 1. MESSEN UND DATENBESCHREIBUNG
y
y
y
r=1
r = 0,95
x
y
r = 0,3
x
y
x
y
r = −1
r=0
r = − 0,7
x
x
x
Abbildung 1.11: Verschiedene Werte des Korrelationskoeffizienten
Ausgleichgerade (oder Regressionsgerade)
In dem Fall, wo anhand der Punktwolke ein annähernd linearer Zusammenhang
festgestellt wurde, kann die Gerade, die den Messwerten am besten angepasst ist,
berechnet werden. Diese Gerade nennen wir Ausgleichgerade oder Regressionsgerade. Anhand ihrer Gleichung lässt sich dann aus einem bekannten Wert für das
X-Merkmal ein Wert für das dazugehörende Y -Merkmal prognostizieren.
Konstruktion der Regressionsgeraden
Die allgemeine Gleichung einer Geraden ist
y = ax + b
(1.13)
Unsere Aufgabe ist es nun, die Parameter a und b so zu finden, dass die entsprechende Gerade den Messwerten am besten angepasst ist. Was am besten angepasst“
”
bedeuten soll, wollen wir im folgenden präzisieren: Zunächst wollen wir verlangen,
dass die Gerade durch den Mittelpunkt (x̄, ȳ) gehen soll, dass also gilt
ȳ = ax̄ + b.
Nach b aufgelöst:
b = ȳ − ax̄.
Setzen wir (1.14) in (1.13) ein, erhalten wir
y = ax + ȳ − ax̄.
(1.14)
1.3. EMPIRISCHE ANALYSE DER MESSERGEBNISSE
29
Betrachte nun für jeden Messwert xj den Wert ŷj , so dass (xj , ŷj ) auf der Ausgleichgeraden liegt, d.h.
ŷj = axj + ȳ − ax̄.
(1.15)
Die Abweichungen der Messpunkte yj von der Geraden sind dann
yj − ŷj .
Wir wollen nun den Parameter a so bestimmen, dass die mittlere quadratische Abweichung
n
1 !
(yj − ŷj )2
(1.16)
n j=1
minimal ist. Dazu setzen wir nun (1.15) in (1.16) ein und rechnen
n
n
1 !
1 !
2
(yj − ŷj ) =
[(yj − ȳ) − a(xj − x̄)]2
n j=1
n j=1
n
1 !
=
[(yj − ȳ)2 − 2 a(xj − x̄)(yj − ȳ) + a2 (xj − x̄)2 ]
n j=1
n
n
n
!
1 !
1!
2
21
=
(yj − ȳ) − 2 a
(xj − x̄)(yj − ȳ) + a
(xj − x̄)2
n j=1
n j=1
n j=1
= σ(y)2 − 2aσ(x, y) + a2 σ(x)2 =: Q(a)
Die notwendige Bedingung, dass die Funktion
Q(a) = σ(y)2 − 2aσ(x, y) + a2 σ(x)2
Q : R → R,
im Punkt a ein Minimum hat, ist Q& (a) = 0. D.h.
−2 σ(x, y) + 2 a σ(x)2 = 0.
Daraus erhalten wir für unseren gesuchten Parameter a den Wert
a=
σ(x, y)
σ(x)2
Die Gleichung der Ausgleichgeraden lautet also
y=
σ(x, y)
σ(x, y)
x + ȳ −
x̄.
2
σ(x)
σ(x)2
Oder äquivalent
y=
σ(x, y)
(x − x̄) + ȳ.
σ(x)2
(1.17)
Die Geradensteigung a = σ(x,y)
wird auch Regressionskoeffizient genannt. Das
σ(x)2
Vorzeichen von a stimmt mit dem Vorzeichen des Korrelationskoeffizienten überein.
30
KAPITEL 1. MESSEN UND DATENBESCHREIBUNG
Dieses bedeutet, dass bei positiver (negativer) Korrelation die Steigung der Regressionsgeraden positiv (negativ) ist. Die Methode, mit der wir die Gleichung der
Regressionsgeraden gefunden haben, heisst Methode der kleinsten Quadrate.
Mit der Gleichung (1.17) lässt sich bei Vorliegen eines Wertes xj nach folgender
Formel ein Wert für das Y - Merkmal prognostizieren:
ŷj =
σ(x, y)
(xj − x̄) + ȳ
σ(x)2
Die Gleichung der Ausgleichgeraden für unser Beispiel ist:
y = 1.01x − 99, 7
Dieser Zusammenhang entspricht der Formel, die der französische Arzt Pierre Broca
im 19. Jahrhundert beim Vermessen von Soldaten festgestellt hat:
Masse = Körpergröße − 100,
und gilt vor allem für Personen mittlerer Körpergröße.
Nach den neuesten Kenntnissen der Wissenschaft wird der Zusammenhang zwischen der Masse und der Körpergröße durch folgenden nichtlinearen (genauer quadratischen) Zusammenhang modelliert:
y = BMI · x2 ,
wobei BMI die sogenannte Körpermassenzahl (body mass index) ist, und die Körpergröße in m angegeben ist. Dieser Zusammenhang ist auch für besonders kleine bzw.
besonders große Menschen anwendbar (allerdings für Kinder ungeeignet). Der lineare Zusammenhang hat jedoch den Vorteil, dass die Berechnung der Masse bei
gegebener Körpergröße einfacher ist.
1.3.5
Anwendung der Regressionsanalyse bei der Bestimmung der Proteinkonzentration in biologischem Gewebe. (Grundpraktikum, Dr. Markus Wirtz, HIP)
Nach der Extraktion von Proteinen aus biologischem Gewebe muss die Menge der
isolierten Proteine durch quantitative Nachweisverfahren experimentell bestimmt
werden. Hierzu wird normalerweise ein Farbtest verwendet, der auf der Bindung
von Coomassie Brilliant Blue“ an basische Aminosäuren innerhalb des Proteins
”
beruht. Mit Hilfe von Photometern wird die Extinktion bei 595 nm gemessen. Aus
dem Wert der Extinktion wird dann mittels einer Eichgerade die Proteinmenge in
der Probe berechnet. Diese Eichgerade ist eine Regressionsgerade, die auf Grund
eines Datensets bestimmt wird.
In der untenstehenden Tabelle sind Proteinkonzentrationen und entsprechende
Messwerte für die Extinktion angegeben. Wegen der zu Grunde liegenden Chemie
ist das Verfahren mit einem hohen Fehler behaftet, der sich in hohen Schwankungen bei den Messungen von parallel durchgeführten Tests derselben Probe zeigt.
1.3. EMPIRISCHE ANALYSE DER MESSERGEBNISSE
31
Deswegen wurden zur Bestimmung der Extinktion für jede Proteinkonzentration 4
Extinktionsmessungen M1 - M4 parallel durchgeführt und anschließend daraus der
Mittelwert berechnet.
Protein (µg)
0
0,1
0,2
0,4
M1
M2
M3
M4
0,0100 -0,0200 0,0150 0,002
0,2200 0,1980 0,1699 0,2001
0,3981 0,3684 0,4402 0,3788
0,7080 0,7655 0,8503 0,7956
Basierend auf diesem Datenset bestehend aus 4 Proteinkonzentrationen und den
entsprechenden Extinktionen wurde dann mittels Regressionsanalyse die Eichgerade
in Abb. 1.12 berechnet.
Abbildung 1.12: Regressionsgerade für die Berechnung der Proteinkonzentration
Kapitel 2
Wahrscheinlichkeitsrechnung
Im ersten Kapitel beschäftigten wir uns mit der
• Erfassung und Aufbereitung gemessener Daten (Tabellen, Diagramme)
sowie mit der
• Berechnung von Kenngrößen zur quantitativen Beschreibung der Verteilung
der Daten (z. B. Mittelwert, Standardabweichung, Korrelationskoeffizient).
Die gemessenen Daten stammen aus der Untersuchung einer Stichprobe, d. h.
einer kleinen Menge der Gesamtpopulation. Das Ziel unserer Untersuchung ist
aber, Aussagen über die Gesamtpopulation zu machen. Daher stellt sich die Frage, ob
sich die Erkenntnisse, die man aus der Untersuchung der Stichprobe gewonnen hat,
auf die Gesamtpopulation übertragen lassen. Die Beantwortung dieser Frage ist mit
den Methoden der induktiven (schließenden) Statistik möglich. Um die statistischen
Methoden anwenden zu können, benötigen wir mathematische Modelle, welche die
Gesamtpopulation hinreichend genau beschreiben.
Bei der Beschreibung der Abläufe in der Natur (und damit auch in den Biowissenschaften) muss man mit Unsicherheiten und mit Mangel an Information rechnen.
Wir haben es mit Erscheinungen zu tun, deren Ausgang ungewiss, zufällig (d. h.
nicht vorhersagbar) ist. Die Beschreibung solcher Erscheinungen wird im Rahmen
der Wahrscheinlichkeitstheorie vorgenommen. Die Wahrscheinlichkeit ist dabei ein
Maß für die Möglichkeit des Auftretens bestimmter Ereignisse.
2.1
Zufall und Wahrscheinlichkeit
Ein Zufallsexperiment ist ein Vorgang, der genau beschreibbar und wiederholbar,
dessen Ergebnis jedoch nicht vorhersagbar (zufällig) ist (etwa aufgrund der Komplexität des Vorgangs). So stellen zum Beispiel
• das Würfeln mit einem Würfel,
• das Werfen einer Münze,
32
2.1. ZUFALL UND WAHRSCHEINLICHKEIT
33
• das Bestrahlen einer Zellkolonie und die Bestimmung der Anzahl der Mutationen,
• das Erfassen des Alters von Schildkröten
Zufallsexperimente dar.
Der Ausgang (das Ergebnis) eines Zufallsexperimentes kann folgendes sein:
• das Auftreten der Augenzahl 5 beim Würfeln,
• das Auftreten von Wappen“ beim Werfen einer Münze,
”
• das Auftreten von 2 Mutationen bei der Bestrahlung einer Zellkolonie,
• eine zufällig ausgewählte Schildkröte ist 50 Jahre alt.
Die Menge aller möglichen Ausgänge (Ergebnisse) eines Zufallsexperimentes ist
in dem Ergebnisraum enthalten. Der Ergebnisraum wird mit Ω bezeichnet. Für
die oben angeführten Beispiele von Zufallsexperimenten sind unten mögliche Ergebnisräume angeführt:
• Ω = {1, 2, 3, 4, 5, 6} beim Würfeln,
• Ω = {W, Z} beim Münzwurf,
• Ω = {0, 1, 2, 3, ...} =
• Ω = {t ∈
bei der Bestrahlung der Zellkolonie,
, t > 0} = ]0, ∞[ für das Ermitteln des Alters von Schildkröten.
Bemerkung 6 Für die letzten zwei Beispiele ist der Ergebnisraum eine unendliche Menge. Dabei entstehen mögliche Ergebnise (Ausgänge) die theoretisch, aber
nicht praktisch denkbar sind, z. B. Alter von Schildkröten gleich 5000 Jahre. Solchen Ausgängen werden wir aber später sehr kleine Wahrscheinlichkeiten zuordnen,
so dass sie letztendlich praktisch unmöglich sind.
Die Wahl des Ergebnisraumes ist zum Teil durch die Art der Information bestimmt,
die man erhalten will. Interessiert beim Würfeln beispielsweise nur, ob eine 5 gefallen
ist, so wird man als Ergebnisraum folgendes wählen:
Ω = {5, nicht 5}.
Ein anderes Beispiel in diesem Sinne wäre auch:
Beispiel 7 Ein Viehbestand soll hinsichtlich einer Krankheit untersucht werden.
Dafür wird folgendes Zufallsexperiment angestellt: Es werden n Tiere aus dem Viehbestand ausgewählt und auf die Krankheit getestet. Den Gesunden wird das Symbol
1, den Kranken das Symbol 0 zugeordnet. Die Ausgänge (Ergebnisse) des Experimentes sind also n−Tupel der Form (1# 1 0 0 1 $%
0 1 ... 0 1 &0). Das Merkmal, welches uns
n
interessiert, ist aber die Anzahl der gesunden Tiere. Diese erhalten wir, indem wir
die Einträge aus unserem n−Tupel aufsummieren. Der neue Ergebnisraum Ω ist
dann
Ω = {0, 1, 2, ..., n}.
34
KAPITEL 2. WAHRSCHEINLICHKEITSRECHNUNG
Da wir uns nicht nur für einzelne Ausgänge (Ergebnisse) eines Experimentes, sondern auch für ganze Bereiche, in denen die Ausgänge liegen können, interessieren,
definieren wir Ereignisse. Diese sind Teilmengen von Ω. Teilmengen bestehend aus
einem einzigen Element heißen Elementarereignisse.
Der Ereignisraum F ist eine Familie von Ereignissen, d.h. eine Teilmenge von
Pot(Ω). Dabei ist die Potenzmenge von Ω als
Pot(Ω) = die Menge aller Teilmengen von Ω
definiert.
Ist Ω ein endlicher Ergebnisraum so besteht der Ereignisraum aus allen Teilmengen von Ω; F = Pot(Ω). Ist Ω = [a, b] (oder gar ), so besteht F aus allen
Teilintervallen (allen Intervallen) sowie ihren Durchschnitten und ihren Vereinigungen.
Man sagt: Ein Ereignis A ist eingetreten“, wenn ein Zufallsexperiment ein Er”
gebnis ω ∈ A liefert. Beispiele von Ereignissen sind:
• A = {2, 4, 6} Es wird eine gerade Zahl gewürfelt.“
”
• Ω = {W, Z} Es wird Wappen oder Zahl geworfen“ (das sichere Ereignis).
”
• A = {7, 8, 9, 10} Es sind zwischen 7 und 10 Mutationen eingetreten.“
”
• A = {t ∈ , t ≥ 50} = [50, ∞[ Das Alter ist mindestens 50 Jahre.“ ( oder
”
Die Schildkröte ist mindestens 50 Jahre alt.“)
”
Das Ereignis A = Ω bezeichnen wir als das sichere Ereignis: Alle möglichen Ergebnisse ω sind in Ω enthalten, das Ereignis Ω tritt also sicher ein. Das Ereignis
A = Φ (Φ bezeichnet die leere Menge) heißt das unmögliche Ereignis: Die leere
Menge enthält kein Ergebnis, das Ereignis Φ kann also niemals eintreten. Das Ereignis CA = Ω \ A = {ω ∈ Ω : ω ∈
/ A} heißt das zu A komplementäre Ereignis.
CA tritt genau dann ein, wenn A nicht eintritt, denn wird ω ∈ CA beobachtet, so
ist ω ∈
/ A.
Wir haben Ereignisse als Teilmengen des Ergebnisraumes Ω eingeführt. Dieses
erlaubt uns, auf besonders einfache Weise die Beziehung zwischen den Ereignissen
durch Mengenoperationen auszudrücken.
Seien A, B ⊂ Ω (oder A, B ∈ F ) zwei Ereignisse. Dann gilt:
A ∪ B tritt genau dann ein, wenn A oder B eintritt
A ∩ B tritt genau dann ein, wenn A und B gleichzeitig eintreten.
A \ B tritt genau dann ein, wenn A eintritt und B nicht eintritt.
Zwei Ereignisse sind disjunkt, wenn sie nicht gleichzeitig eintreten können (d. h.
wenn sie sich gegenseitig ausschließen). A und B sind genau dann disjunkt, wenn
A ∩ B = Φ.
Beispiel 8 Beim Würfeln mit einem Würfel seien
A = {2, 4, 6} Es wird eine gerade Zahl geworfen.“
”
2.1. ZUFALL UND WAHRSCHEINLICHKEIT
35
B = {3, 4, 5, 6} Die Augenzahl ist mindestens 3.“
”
C = {1, 3, 5} Es wird eine ungerade Augenzahl gewürfelt.“
”
Dann gilt:
A ∪ B = {2, 3, 4, 5, 6}, A ∩ B = {4, 6}
A ∪ C = Ω, A ∩ C = Φ
A \ B = {2}, B \ A = {3, 5}
Als nächstes wollen wir Aussagen über die Möglichkeit des Eintretens eines bestimmten Ereignisses machen. Darunter wollen wir nicht Aussagen der Form: Wahr”
scheinlich regnet es heute“ verstehen, sondern wir meinen damit die Festlegung eines
Zahlenwertes, der die Wahrscheinlichkeit angibt.
Das empirische Vorgehen für die Definition der Wahrscheinlichkeit wäre folgendes: Betrachten wir ein Zufallsexperiment mit endlichem Ω = {ω1 , ..., ωk }. Wenn
man immer längere Versuchsreihen anstellt und bei jeder Länge n der Versuchsreihe
die relative Häufigkeit
hn (ωi )
rn (ωi ) =
n
berechnet, so stellt man in vielen Fällen fest, dass sich die rn (ωi) mit immer größer
werdendem n kaum noch ändern. Dieses nennt man ein empirisches Gesetz der
großen Zahlen. Es liegt folglich die Annahme nahe, dass es reelle Zahlen gibt, die
• die Wahrscheinlichkeit dafür angeben, dass bei einem Zufallsexperiment das
Ereignis {ωi} eintritt,
• für hinreichend großes n beliebig genau durch rn (ωi ) approximiert werden.
Es ist dann zu erwarten, dass die Wahrscheinlichkeiten auch ähnliche Regeln erfüllen
wie die relativen Häufigkeiten (s. (1.5)-(1.7)).
Die axiomatischen Grundlagen für die Definition der Wahrscheinlichkeit legte
Kolmogorow im Jahre 1933 mit der Einführung der folgenden Axiome. Zuerst verlangen wir, dass das System F (der Raum der sinnvollen Ereignisse) folgende Eigenschaften hat:
Ω, Φ ∈ F
A∈F ⇒Ω\A∈F
A, B ∈ F ⇒ A ∪ B ∈ F , A ∩ B ∈ F
(oder allgemeiner A1 , A2 , ... ∈ F ⇒ A1 ∪ A2 ∪ ... ∈ F ,
A1 ∩ A2 ∩ ... ∈ F ).
Obwohl es naheliegt, für F alle Teilmengen von Ω zu wählen, gibt es wichtige mathematische Gründe, auf eine solche Forderung zu verzichten.
Wir definieren nun das Wahrscheinlichkeitsmaß (oder die Wahrscheinlichkeitsverteilung) P als eine Funktion, die jedem Ereignis A aus F eine Wahrscheinlichkeit P (A) für das Eintreffen von A zuordnet, d. h.
P :F →
,
A /→ P (A),
36
KAPITEL 2. WAHRSCHEINLICHKEITSRECHNUNG
so, dass folgende Axiome erfüllt sind
K1: P (A) ≥ 0, ∀A ∈ F (Wahrscheinlichkeiten sind immer positiv.)
K2: P (Φ) = 0, P (Ω) = 1 (Die Wahrscheinlichkeit des unmöglichen Ereignisses ist
Null, die des sicheren Ereignisses ist 1.)
K3: A, B ∈ F , A ∩ B = Φ ⇒ P (A ∪ B) = P (A) + P (B)
(Wenn A und B disjunkte Ereignisse sind so ist die Wahrscheinlichkeit ihrer Vereinigung gleich der Summe der Wahrscheinlichkeiten.) Im Falle von
unendlich-dimensionalen Ergebnisräumen reicht diese Forderung nicht aus, es
wird angenommen dass für abzählbar viele Ereignisse, die paarweise disjunkt
sind, die Wahrscheinlichkeit der Vereinigung gleich ist mit der Summe der
Wahrscheinlichkeiten der einzelnen Ereignissen.
Das somit festgelegte Tripel (Ω, F , P ) nennt man Wahrscheinlichkeitsraum.
Ein System, das dem Zufall unterworfen ist, wird also mit Hilfe eines Wahrscheinlichkeitsraumes (Ω, F , P ) beschrieben. Wir können dabei folgende Analogien zu den
Konzepten aus dem ersten Kapitel herstellen: Der Ergebnisraum Ω kann als die
Menge der möglichen Ausprägungen eines Merkmals aufgefasst werden. Der Ereignisraum F definiert Bereiche, in denen Ausprägungen liegen. Das Wahrscheinlichkeitsmaß P approximiert die relative Häufigkeit, mit der einzelne Ausprägungen
oder Bereiche von Ausprägungen vorkommen. Damit diese Interpretation stimmt,
muss man aber sehr sorgfältig bei der Wahl des Ergebnisraumes Ω und des Wahrscheinlichkeitsmaßes P vorgehen, siehe auch Beispiel 7.
Aus der Definition des Wahrscheinlichkeitsmaßes können weitere Eigenschaften
hergeleitet werden. Diese sind in dem folgenden Satz zusammengefasst.
Satz 3 (Elementare Rechenregel für Wahrscheinlichkeiten) Es sei (Ω, F , P )
ein Wahrscheinlichkeitsraum. Dann gilt:
1. A, B ∈ F , A ⊂ B ⇒ P (A) ≤ P (B)
A B
2. A1 , A2 , ..., An paarweise disjunkt, d. h. Ai ∩ Aj = Φ, ∀i )= j ⇒
P (A1 ∪ A2 ∪ ... ∪ An ) = P (A1 ) + P (A2 ) + ... + P (An )
3. A ∈ F ⇒ P (CA) = 1 − P (A)
Α
Ω Α
2.2. DISKRETE WAHRSCHEINLICHKEITSVERTEILUNGEN
A A
B
37
B
4. A, B ∈ F ⇒ P (A ∪ B) = P (A) + P (B) − P (A ∩ B)
Beweis: Siehe Übungsblatt 6.
Zwei Ereignisse A und B heißen unabhängig, wenn
P (A ∩ B) = P (A) · P (B).
2.2
(2.1)
Diskrete Wahrscheinlichkeitsverteilungen
Wir werden im folgenden verschiedene Wahrscheinlichkeitsräume (Ω, F , P ) untersuchen. Als erstes betrachten wir diskrete Wahrscheinlichkeitsräume, d.h. Wahrscheinlichkeitsräume, für die der Ergebnisraum Ω = {ω1 , ω2 , ..., ωk } endlich oder
Ω = {ω1 , ω2 , ω3, ...} abzählbar ist. Im Fall endlicher Wahrscheinlichkeitsräume ist
die Ereignismenge F = Pot(Ω).
Satz 4 Sei (Ω, F , P ) ein endlicher Wahrscheinlichkeitsraum. Dann ist das Wahrscheinlichkeitsmaß P eindeutig durch die Werte auf den Elementarereignissen {ωi },
i = 1, ..., k bestimmt, d. h. durch
P ({ω1}) = p1 ,
P ({ω2}) = p2 , . . . , P ({ωk }) = pk
mit p1 , p2 , . . . , pk ≥ 0,
p1 + p2 + . . . + pk = 1.
Beweis: Für ein Ereignis A = {ωi1 , ..., ωil } ∈ F gilt nach Satz 3, da die Elementarereignisse paarweise disjunkt sind:
P (A) = P ({ωi1 } ∪ {ωi2 } ∪ . . . ∪ {ωil })
= P ({ωi1 }) + . . . + P ({ωil })
= pi1 + . . . + pil .
Wir wollen nun einige Beispiele von diskreten Wahrscheinlichkeitsräumen untersuchen.
2.2.1
Die Laplace-Wahrscheinlichkeitsverteilung
Sei Ω = {ω1 , . . . , ωk } endlich. Falls alle Elementarereignisse {ωi }, i = 1, ..., k gleich
wahrscheinlich sind, d. h.
P ({ω1}) = P ({ω2}) = ... = P ({ωk }) ,
38
KAPITEL 2. WAHRSCHEINLICHKEITSRECHNUNG
so heißt (Ω, F , P ) Laplace-Wahrscheinlichkeitsraum. P heißt dann LaplaceWahrscheinlichkeitsverteilung oder diskrete Gleichverteilung. Es gilt dann
P ({ωi}) =
1
, für jedes i = 1, . . . , k.
k
Damit gilt für ein A ∈ F
P (A) =
!
ωi ∈A
P ({ωi}) =
|A|
,
k
(2.2)
wobei mit |A| die Anzahl der Elemente aus A bezeichnet wird. Formel (2.2) ist etwas
einprägsamer als
Wahrscheinlichkeit von A =
Anzahl der günstigen Ausgänge
Anzahl aller möglichen Ausgänge
bekannt.
Beispiel 9 (Einmaliges Würfeln mit einem fairen Würfel)
Ω = {1, 2, 3, 4, 5, 6},
F = Pot(Ω)
Wenn der Würfel halbwegs homogen und symmetrisch ist, kann man davon ausgehen, dass alle Augenzahlen dieselben Chancen haben gewürfelt zu werden. Es gilt
also
1
P ({1}) = P ({2}) = ... = P ({6}) = .
6
P({ωi })
!
1
6
"
ω
Das Ereignis A = {2, 4, 6}: Es ist eine gerade Zahl gefallen“ hat die Wahrschein”
lichkeit
|A|
3
1
P (A) =
= = .
|Ω|
6
2
Beispiel 10 (Zweimaliges Würfeln mit einem fairen Würfel)
Ω = {(1, 1), (1, 2), (1, 3), . . . (1, 6), (1, 2), . . . , (6, 6)}
= {(i, j), i, j = 1, . . . , 6}
Man geht davon aus, dass die beiden Würfe unabhängig voneinander stattfinden, so
dass man annehmen kann, dass alle Paare gleich wahrscheinlich sind. Da insgesamt
6 × 6 = 36 mögliche Paare gebildet werden können, gilt:
P ({(1, 1)}) = P ({(1, 2)}) = . . . = P ({(6, 6)}) =
1
.
36
2.2. DISKRETE WAHRSCHEINLICHKEITSVERTEILUNGEN
39
Das Ereignis Die Augensumme ist 5“ ist A = {(1, 4), (2, 3), (3, 2), (4, 1)}. Die
”
Wahrscheinlichkeit für das Auftreten dieses Ereignisses ist
P (A) =
|A|
4
1
=
= .
|Ω|
36
9
In den bisherigen Beispielen war es recht einfach, die Kardinalität |Ω| der Ergebnismenge und die der Ereignisse |A| zu bestimmen. Oft ist es aber notwendig, kombinatorische Argumente für die Berechnung von Kardinalitäten anzuwenden.
Beispiel 11 Wie viele Wörter mit 5 Buchstaben kann man mit den 26 Buchstaben
des Alphabets bilden, wenn auch Wörter ohne Bedeutung zugelassen werden? (Auch
Buchstabenwiederholungen sind natürlich erlaubt).
Wir haben:
• 26 Möglichkeiten für die Wahl des 1. Buchstaben
• 26 Möglichkeiten für die Wahl des 2. Buchstaben
• 26 Möglichkeiten für die Wahl des 3. Buchstaben
• 26 Möglichkeiten für die Wahl des 4. Buchstaben
• 26 Möglichkeiten für die Wahl des 5. Buchstaben.
Wenn wir alle Auswahlmöglichkeiten zusammensetzen, erhalten wir also
26 × 26 × . . . × 26 = 265
Wörter mit 5 Buchstaben. Jetzt können wir uns fragen, wie groß die Wahrscheinlichkeit der Auswahl eines bestimmten Wortes ist. Da alle Wörter gleich wahrscheinlich
sind, können wir auch diese Situation mit Hilfe eines Laplace-Wahrscheinlichkeitsraumes
modellieren, wobei
Ω = {ω = (x1 , x2 , . . . , x5 ); x1 ∈ {a, b, . . . , z}, . . . , x5 ∈ {a, b, . . . , z}}
1
, ∀ ω ∈ Ω.
265
Die gesuchte Wahrscheinlichkeit ist also 2615 .
P ({ω}) =
Die gleiche Problemstellung kommt in vielen anderen Situationen vor, wenn es
darum geht, k verschiedene Plätze mit je einem Objekt zu besetzen, wobei es n
Arten von Objekten gibt und von jeder Art beliebig viele zur Verfügung stehen. Es
gibt dann
k
n
(2.3)
# ×n×
$%. . . × n& = n Möglichkeiten,
k mal
die Plätze zu besetzen.
40
KAPITEL 2. WAHRSCHEINLICHKEITSRECHNUNG
2.2.2
Die Binomialverteilung
Die einfachsten nichttrivialen Zufallsexperimente sind solche mit zwei möglichen
Ausgängen, wie z. B. Münzwurf (Kopf, Zahl), Bestimmung des Geschlechtes für
Nachkommen (männlich, weiblich), Qualitätskontrolle (defekt, intakt) oder das Auftreten von Mutationen (Mutation, keine Mutation).
Solche Zufallsexperimente mit zwei Ausgängen bezeichnet man als Bernoulli-Experimente. Sie werden eindeutig durch den Wahrscheinlichkeitsraum (Ω, F , P ) mit
Ω = {1, 0},
P ({1}) = p,
F = {Φ, {1}, {0}, Ω},
P ({0}) = 1 − p = q
beschrieben. Dabei ist also 0 ≤ p ≤ 1 die Wahrscheinlichkeit des Eintretens von {1}.
Wir wollen uns nun mit n unabhängigen Wiederholungen eines solchen BernoulliExperimentes befassen.
Beispiel 12 (Auftreten von Mutationen) Die Wahrscheinlichkeit des Auftretens von Mutationen in einem Gen bei der Bestrahlung von Mäusen ist ungefähr
2, 5 · 10−7 (vgl. Neel und Schull, 1958). Wir möchten bestimmen mit welcher Wahrscheinlichkeit bei der Bestrahlung eines Ensembles von 10000 Genen in 5 Genen
Mutationen auftreten. Dabei setzen wir voraus, dass das Auftreten von Mutationen
in einem Gen unabhängig von den Prozessen in den anderen Genen passiert.
Das Zufallsexperiment, bei dem ein Bernoulli-Experiment n Mal wiederholt wird,
wird durch den folgenden Wahrscheinlichkeitsraum (Ωn , Fn , P ) beschreiben:
• Der Ergebnisraum besteht aus n-Tupeln der Gestalt
Ωn = {ω = (x1 , x2 , . . . , xn ); xj ∈ {0, 1}, j = 1, . . . , n}.
• Die Menge Fn ist gebildet aus allen Teilmengen von Ωn .
• Die Wahrscheinlichkeit eines Elementarereignises {(x1 , x2 , . . . , xn )} erhält man
folgendermaßen: Wir schreiben dieses Elementarereignis als Schnitt von n Ereignissen
{(x1 , x2 , . . . , xn )} =
n
1
{(y1 , ..., yi−1 , xi , yi+1, ..., yn ); yj ∈ {0, 1}, j = 1, ..., n, j )= i}
i=1
Dabei stellt das Ereignis {(y1 , ..., yi−1, xi , yi+1, ..., yn ); yj ∈ {0, 1}, j = 1, ..., n, j )=
i} für xi = 1 das Eintreten einer Eins, für xi = 0 das Eintreten einer Null bei
der i-ten Wiederholung des Bernoulli Experimentes dar. Da die n BernoulliExperimente unabhängig sind, ist nach (2.1) die Wahrscheinlichkeit dieses
Schnittes gleich dem Produkt der Wahrscheinlichkeiten der einzelnen Ereignissen, also gegeben durch
P ({(x1 , x2 , . . . , xn )}) = pk q n−k ,
wenn das n-Tupel (x1 , x2 , . . . , xn ) k Einsen und n − k Nullen enthält.
2.2. DISKRETE WAHRSCHEINLICHKEITSVERTEILUNGEN
41
Wir sind nun an der Wahrscheinlichkeit des Ereignisses, bei dem k der n BernoulliExperimente das Ergebnis 1 haben, interessiert. Dieses Ereignis enthält alle n-Tupel,
die genau k Einsen enthalten und kann folgendermaßen charakterisiert werden:
Ak = {ω = (x1 , x2 , . . . , xn ) ∈ Ω;
n
!
xj = k}.
j=1
Was ist nun P (Ak )? Aufgrund der vorigen Überlegung wissen wir dass die Wahrscheinlichkeit jedes Elementarereignisses ω ∈ Ak gleich pk q n−k ist. Wir müssen daher
nur noch die Kardinalität von A bestimmen. Dafür müssen wir wieder zählen, und
zwar auf wieviele Arten wir aus den n verschiedenen Plätzen in einem n−Tupel k
Plätze für die Einsen auswählen können.
Dieses Abzählproblem kann man ganz anschaulich mit Hilfe des folgenden Urnenmodells lösen: Auf wieviele Arten kann man aus einer Urne mit n verschiedenen
(z. B. von 1 bis n nummerierten) Kugeln k Kugeln ziehen, ohne Zurücklegen und
ohne Berücksichtigung der Reihenfolge, in der die Kugeln gezogen wurden. (Für unsere Anwendung entspricht das Ziehen einer Kugel mit der Nummer j dem Belegen
des j-ten Platzes in dem n-Tupel mit einer Eins.) Die Lösung ist folgende: Es gibt
• n Möglichkeiten für die Wahl der 1. Kugel,
• (n − 1) Möglichkeiten für die Wahl der 2. Kugel,
• (n − 2) Möglichkeiten für die Wahl der 3. Kugel,
...
• (n − (k − 1)) Möglichkeiten für die Wahl der k. Kugel.
Es gibt also insgesamt n(n − 1)(n − 2) . . . (n − (k − 1)) Möglichkeiten, k Kugeln von
n verschiedenen Kugeln auszuwählen. Bei dieser Überlegung wurde allerdings die
Reihenfolge, in der die Kugeln gezogen wurden, berücksichtigt. Da bei uns aber die
Reihenfolge irrelevant ist, müssen wir das obige Resultat durch die Anzahl
k! = 1 · 2 · 3 · · · k
aller Umordnungen von k verschiedenen Kugeln teilen. Es bleiben also noch
n(n − 1)(n − 2) . . . (n − (k − 1))
=
k!
n!
(n−k)!
k!
=
n!
(n − k)!k!
Möglichkeiten für die Auswahl von k aus n verschiedenen Kugeln, ohne Berücksichtigung der Reihenfolge. Diese Zahl bezeichnen wir mit n über k“
”
2 3
n
n!
=
k
(n − k)!k!
und nennen sie Binomialkoeffizient. Wir erhalten also
2 3
n k n−k
P (Ak ) =
p q , k = 0, 1, . . . , n.
k
42
KAPITEL 2. WAHRSCHEINLICHKEITSRECHNUNG
Das Zufallsexperiment, bei dem ein Bernoulli-Experiment n Mal wiederholt wird
und anschließend die Anzahl der Einsen ermittelt wird, kann also durch den folgenden Wahrscheinlichkeitsraum (Ω, F , P ) beschrieben werden:
Ω = {0, 1, . . . , n},
F = Pot(Ω)
2 3
n k n−k
P ({k}) = bn,p (k) =
p q ,
k
k = 0, 1, . . . , n.
(2.4)
Diese Wahrscheinlichkeitsverteilung nennt man Binomialverteilung.
Bemerkung 7 Der binomische Lehrsatz
n 2 3
!
n k n−k
(x + y) =
x y ,
k
k=0
n
∀x, y ∈ R, n ∈ N
liefert eine analytische Rechtfertigung dafür, dass bn,p eine Wahrscheinlichkeitsverteilung induziert.
Graphische Darstellung: Stabdiagramme der Binomialverteilung
1.) p =
1
2
2
4
n=2
1
4
0
1
4
1
3
8
n=3
n=4
k
3
8
1
8
0
"
2
1
8
1
4
16
2
6
16
k
4
16
1
16
0
"
3
1
16
1
2
3
4
"
k
2.2. DISKRETE WAHRSCHEINLICHKEITSVERTEILUNGEN
2.) p =
43
1
6
n=9
0,3 !
0,25
0,2
0,15
0
1
2
3
4
5
6
7
8
9
"
k
Wenn wir nun zu unserem Beispiel 12 zurückkommen, so ist die Wahrscheinlichkeit, mit der bei der Bestrahlung eines Ensembles von 10000 Genen in 5 Genen
Mutationen auftreten, gegeben durch
2
3
10000
P ({5}) =
· (2, 5 · 10−7 )5 · (1 − 2, 5 · 10−7 )9995
(2.5)
5
= 832500291625002000 · (2, 5 · 10−7 )5 · (1 − 2, 5 · 10−7 )9995 (2.6)
= 8, 1096 · 10−16
(2.7)
2.2.3
Die Poissonverteilung
In vielen Anwendungen haben wir es mit Wiederholungen von Bernoulli-Experimenten
zu tun, bei denen n groß und p klein ist, während das Produkt np mäßig groß ist.
Ein Beispiel für eine solche Situation ist auch im Beispiel 12 gegeben, und wie wir
gesehen haben, ist die Berechnung von P ({5}) recht mühsam.
In solchen Fällen ist es praktisch, eine Näherungsformel für die Binomialverteilung zu verwenden. Um eine solche Formel zu erhalten, untersuchen wir, welche
Grenzverteilung wir erhalten, wenn m = np konstant bleibt und n → ∞, p → 0 gilt.
Die Rechnung, die wir aus Zeitgründen nicht ausführlich machen können, ergibt
2 3
n k
mk e−m
lim
p (1 − p)n−k =
, k = 0, 1, 2, . . .
n→∞ k
k!
Wir können also die Werte der Binomialverteilung durch die Werte der sogenannten
Poissonverteilung approximieren. Diese ist definiert durch
mk e−m
, k = 0, 1, 2, . . .
(2.8)
k!
Die Wahrscheinlichkeit, mit der bei der Bestrahlung eines Ensembles von 10000
Genen in 5 Genen Mutationen auftreten, kann also folgendermaßen berechnet werden:
(0, 0025)5e−0,0025
P ({5}) =
= 8, 1177 · 10−16 .
(2.9)
5!
P ({k}) =
44
KAPITEL 2. WAHRSCHEINLICHKEITSRECHNUNG
0,3 !
0,25
0,2
0,15
0
1
2
3
4
5
6
7
8
9
k
"
Poissonverteilung zum Parameter m = 1, 5
2.3
Wahrscheinlichkeitsverteilungen auf
Wir werden uns nun mit Wahrscheinlichkeitsräumen (Ω, F , P ) beschäftigen, deren
Ergebnisraum Ω ein reelles Intervall I ⊂ R oder sogar R ist. Diese Räume gehören
zu den stetigen Wahrscheinlichkeitsräumen. In diesem Kontext möchten wir nun
Fragen der Form: Mit welcher Wahrscheinlichkeit liegen die Ausgänge unserer Zu”
fallsexperimente in einem Intervall [α, β] ⊂ I?“ beantworten. Deswegen werden wir
verlangen, dass die Ereignismenge F alle Teilintervalle [α, β] ⊂ I enthält. Dazu noch
deren (abzählbare) Vereinigungen und Durchschnitte.
Die Wahrscheinlichkeitsverteilung P wird folgendermaßen definiert:
Sei f : Ω → R eine reellwertige, stückweise stetige Funktion auf Ω = I oder Ω = R,
mit
f (x) ≥ 0
(2.10)
und
4
f (x)dx = 1.
(2.11)
Ω
Die Funktion f heißt Wahrscheinlichkeitsdichte (oder Dichtefunktion). Die
Bedingung (2.11) besagt, dass der Flächeninhalt unter dem Schaubild von f gleich
1 sein muss. Mit Hilfe der Dichtefunktion definieren wir nun die Wahrscheinlichkeitsverteilung P auf I (bzw. R) durch
P : F → [0, 1],
P ([α, β]) =
4β
f (x)dx
(2.12)
α
für alle Ereignisse [α, β] ∈ F . Setzt man im Falle Ω = I die Funktion f (x) = 0
außerhalb von I, so können wir immer I durch R ersetzen. Der Wert P ([α, β]) stellt
den Flächeninhalt unter der Funktion f über dem Intervall [α, β] dar, siehe Abb.2.2.
Aus (2.11) folgt sofort, dass die Wahrscheinlichkeit für das sichere Ereignis P (I) = 1
(bzw. P (R) = 1) ist. Setzt man in (2.12) α = β, so ergibt sich sofort, dass die
2.3. WAHRSCHEINLICHKEITSVERTEILUNGEN AUF
45
f(x)
a
0
b
x
Abbildung 2.1: Die Dichtefunktion f (x)
Wahrscheinlichkeit P ([α, α]) eines Elementarereignisses [α, α] gleich Null ist, denn
P ([α, α]) =
4α
f (x)dx = 0.
α
Dieses ist auch geometrisch einsichtig, da die Fläche über einem Punkt der x−Achse
gleich Null ist.
Bemerkung 8 Im Falle diskreter Merkmale haben wir gesehen, dass die Wahrscheinlichkeit als eine Approximation für die relative Häufigkeit aufgefasst werden
kann. Im Falle stetiger Merkmale ist die Wahrscheinlichkeitsdichte eine Approximation für die normierte“ Klassenhäufigkeit. Wenn nämlich bei der Klassenbildung die
”
Klassenbreite b immer feiner wird (unter der Voraussetzung immer größer werdender
Messreihen), so ist die Verteilung der normierten“ relativen Klassenhäufigkeiten
”
r(ai )
immer näher bei einer stetigen Funktion, welche die Wahrscheinlichkeitsdichte
b
darstellt.
2.3.1
Die Gleichverteilung
Sei I = [a, b], a < b. Die Funktion f : R → R mit
+ 1
, x ∈ [a, b]
b−a
f (x) =
0 , sonst
(2.13)
ist die Dichte der Gleichverteilung in [a, b]. So wie der Name es auch sagt, sind
alle Ereignisse [α, β] ∈ I mit β − α = l gleich wahrscheinlich mit
P ([α, β]) =
4β
α
f (x)dx =
4β
α
1
β−α
l
dx =
=
.
b−a
b−a
b−a
46
KAPITEL 2. WAHRSCHEINLICHKEITSRECHNUNG
f(x)
P([α, β])
a
0 α
b
β
x
Abbildung 2.2: Die Wahrscheinlichkeit P ([α, β])
Für ein Ereignis [γ, δ] ⊂ R \ I gilt P ([γ, δ]) = 0, denn P ([γ, δ]) =
5δ
0dx = 0.
γ
In Anwendungen wird man die Gleichverteilung immer dann wählen, wenn es keine erkennbaren Gründe gibt, dass bestimmte Ausgänge von Zufallsexperimenten
wahrscheinlicher sind als andere.
Beispiel 13 (Orientierung von Vögeln) In einer Verhaltensstudie wurden Vögel
einzeln und unter Umständen, die die Orientierung erschwerten, freigelassen. Man
erwartete, dass die Vögel jede Richtung θ ∈ [0◦ , 360◦ ] mit der gleichen Wahrscheinlichkeit einschlagen würden. Deswegen wurde das Experiment mit Hilfe der Gleichverteilung modelliert. Die Wahrscheinlichkeitsdichte ist also gegeben durch
+ 1
, θ ∈ [0, 360]
360
f (θ) =
0 , sonst.
Die Wahrscheinlichkeit, dass ein Vogel in einer Richtung aus dem Intervall [θ0 , θ1 ]
f(x)
1
360
0
360
x
Abbildung 2.3: Die Dichtefunktion zum Beispiel 13
2.3. WAHRSCHEINLICHKEITSVERTEILUNGEN AUF
47
losfliegt, ist gegeben durch
P ([θ0 , θ1 ]) =
4θ1
1
θ1 − θ0
dx =
.
360
360
θ0
2.3.2
Die Normalverteilung
Die Normalverteilung ist eine der wichtigsten Verteilungen in der Stochastik. Für
µ ∈ R und σ 2 > 0 sei
(x−µ)2
1
fµ,σ (x) = √
e− 2σ2 .
(2.14)
2πσ 2
die Wahrscheinlichkeitsdichte der Normalverteilung mit Erwartungswert µ und Varianz σ 2 . Die Wahrscheinlichkeitsverteilung gegeben durch
Pµ,σ ([α, β]) = √
1
2πσ 2
4β
e−
(x−µ)2
2σ 2
dx
(2.15)
α
heißt Normalverteilung in R mit Erwartungswert µ und Varianz σ 2 . In Abb.
Abbildung 2.4: Zwei verschiedene Dichtefunktionen fµi ,σi , i = 1, 2.
2.4 sind die Dichtefunktionen fµi ,σi , i = 1, 2, für zwei verschiedene Werte des Erwartungswertes und der Varianz dargestellt. Wir sehen, dass für größere σ die Glocke
breiter wird, σ gibt also ein Maß für die Streuung der Wahrscheinlichkeitsverteilung
Pµ,σ an. Für µ = 0 und σ = 1 erhalten wir die standardisierte Normalverteilung
(Gaußsche Glockenkurve) mit der Wahrscheinlichkeitsdichte
x2
1
f0,1 (x) = √ e− 2 .
2π
(2.16)
Da die Normalverteilung von ∞ bis −∞ reicht, scheint es keine Verteilung zu
48
KAPITEL 2. WAHRSCHEINLICHKEITSRECHNUNG
Abbildung 2.5: Dichtefunktion f0,1 der standardisierten Normalverteilung.
sein, die man in biologischen Anwendungen gebrauchen kann, denn keine praktische
Größe kann einen beliebig großen Wert annehmen. Doch diese Betrachtungsweise
stimmt nicht ganz, denn wegen der Exponentialfunktion in (2.16) nimmt die Dichtefunktion fµ,σ mit wachsendem |x| sehr schnell ab. Dieses führt dazu, dass z. B.
Ereignisse, die außerhalb des Intervalls [−3, 3] liegen, im Falle der standardisierten
Normalverteilung, mit einer Wahrscheinlichkeit kleiner als
 −3

4
4+∞


1
P0,1 (] − ∞, −3] ∪ [3, +∞[) = √
f0,1 (x)dx +
f0,1 (x)dx = 0, 0027

2π 
−∞
3
auftreten. Ereignisse außerhalb [−4, 4] treten mit einer Wahrscheinlichkeit kleiner
als 0,00004 auf. Solche Ereignisse sind praktisch unmöglich.
Die Gründe, weswegen die Normalverteilung so häufig in der Praxis auftritt,
werden wir in einem der nächsten Paragraphen erläutern.
2.4
Zufallsvariable und ihre Verteilungen
Mithilfe von Zufallsvariablen können den möglichen Ausgängen ω ∈ Ω eines Zufallsexperimentes numerische Werte (Messwerte) zugeordnet werden.
Sei (Ω, F , P ) ein Wahrscheinlichkeitsraum. Eine Zufallsvariable ist eine reellwertige Funktion X : Ω → R.
Zufallsvariable mit diskretem Wertebereich
X heißt diskret, wenn X(Ω) = {X(ω), ω ∈ Ω} ein diskreter Raum ist (d. h. endlich
oder abzählbar).
2.4. ZUFALLSVARIABLE UND IHRE VERTEILUNGEN
49
Beispiel 14 Wir betrachten den Wahrscheinlichkeitsraum (Ωn , Fn , P ), welcher das
n-malige Wiederholen eines Bernoulli-Experimentes beschreibt. Wie wir im Paragraph 2.2.2 gesehen haben gilt:
• Ωn = {ω = (x1 , x2 , . . . , xn ); xj ∈ {0, 1}, j = 1, . . . , n}
• Fn = P ot(Ωn )
• P ({(x1 , x2 , . . . , xn )}) = pk q n−k , wenn das n-Tupel (x1 , x2 , . . . , xn ) k Einsen
und n − k Nullen enthält.
Auf diesem Wahrscheinlichkeitsraum definieren nun wir die Zufallsvariable
n
!
X : Ωn → {0, 1, 2, . . . , n}, X((x1 , x2 , . . . , xn )) =
xi .
i=1
Diese Zufallsvariable misst“, in wie vielen der n Bernoulli-Experimenten die Eins
”
aufgetreten ist.
Zufallsvariable mit stetigem Wertebereich
Beispiel 15 a) Sei Ω eine Menge von Personen.
X:Ω→R
X(ω) = Konzentration des α − Globulins im Blutplasma der Person ω.
b) Sei Ω eine Menge von Individuen.
X:Ω→R
X(ω) = Gewicht des Individuums ω.
2.4.1
Verteilung einer Zufallsvariable
Sei X eine Zufallsvariable mit Wertebereich X(Ω) ⊆ R. Zu X(Ω) definieren wir
nun einen Ereignisraum FX , welcher Bereiche enthält, in denen die Werte von X
liegen. Wir sind nun daran interessiert, ein Wahrscheinlichkeitsmaß auf FX zu finden,
welches die Wahrscheinlichkeiten beschreibt, mit denen die Werte von X auftreten.
Dieses Wahrscheinlichkeitsmaß wird mit PX bezeichnet und heißt Verteilung der
Zufallsvariable X. Es ist gegeben durch
PX : FX → [0, 1],
PX (A) = P ({ω ∈ Ω; X(ω) ∈ A})
(2.17)
für jedes Ereignis A ⊂ X(Ω) aus dem Ereignisraum FX von X(Ω). Da PX (A)
angibt, mit welcher Wahrscheinlichkeit X Werte in einer Menge A ∈ FX annimmt,
wird diese Wahrscheinlichkeit anschaulich auch mit P [X ∈ A] bezeichnet. Es gilt
also
P [X ∈ A] := PX (A) = P ({ω ∈ Ω; X(ω) ∈ A}).
Ist X eine diskrete Zufallsvariable, d. h. ist X(Ω) endlich oder abzählbar, so ist
(nach Satz 4) die Verteilung von X eindeutig charakterisiert durch
PX ({η}) = P ({ω ∈ Ω : X(ω) = η}) =: P [X = η],
η ∈ X(Ω).
P [X = η] stellt die Wahrscheinlichkeit dar, mit der der Wert η auftritt.
50
KAPITEL 2. WAHRSCHEINLICHKEITSRECHNUNG
Beispiel 16 Die Verteilung der Zufallsvariable X aus Beispiel 14 ist durch die Werte auf den Elementarereignissen {k}, k = 0, 1, . . . , n, also durch
PX ({k}) = P [X = k] = P ({ω = (x1 , x2 , . . . , xn ) ∈ Ωn ; X(ω) = k})
n
!
= P ({ω = (x1 , x2 , . . . , xn ) ∈ Ωn ;
xi = k})
i=1
bestimmt. Diese Werte stellen genau die Binomialverteilung dar, d.h.
2 3
n k n−k
P [X = k] = bn,p (k) =
p q , k = 0, 1, . . . , n.
k
Eine Zufallsvariable, die als Verteilung die Binomialverteilung besitzt, heißt binomialverteilte Zufallsvariable.
Ist X eine Zufallsvariable mit stetigem Wertebereich, d. h. X(Ω) = R, so ist die
Verteilung PX von X eindeutig charakterisiert durch
PX ((−∞, y]) = P ({ω ∈ Ω : X(ω) ∈ (−∞, y]}) =: P [X ≤ y],
y ∈ R.
D. h. wenn man die Werte PX ((−∞, y]) für jedes y ∈ R kennt, so kann man die
Wahrscheinlichkeit PX ([α, β]) für jedes Intervall [α, β] ⊂ R berechnen. Denn ist fX
die Dichtefunktion der Verteilung PX , so gilt:
PX ([α, β]) =
4β
α
fX (x)dx =
4β
fX (x)dx −
−∞
4α
fX (x)dx
−∞
= PX ((−∞, β]) − PX ((−∞, α]).
PX ([α, β]) gibt die Wahrsscheinlichkeit an, mit der die Zufallsvariable X Werte in
dem Intervall [α, β] annimmt. Deswegen bezeichnet man sie anschaulich auch mit
P [α ≤ X ≤ β].
Die Werte PX ((−∞, y]), y ∈
sind tabelliert. Sie werden mit Hilfe der im
folgenden definierten Verteilungsfunktion FX festgehalten. Die Funktion
FX : R → [0, 1],
F (y) = PX ((−∞, y]) =
4y
fX (x)dx
−∞
heißt Verteilungsfunktion der Zufallsvariable X.
Interessieren wir uns nun für die Wahrscheinlichkeit, mit der die Zufallsvariable
X Werte in einem Intervall [α, β] annimmt, so berechnet sich diese folgendermaßen:
P [α ≤ X ≤ β] = PX ([α, β])
= PX ((−∞, β]) − PX ((−∞, α])
= FX (β) − FX (α).
(2.18)
Es ist nützlich, siehe Beispiel 17, das Verhalten der Verteilungsfunktion einer
Zufallsvariablen unter linearen Transformationen zu kennen. Dazu dient fogender
Satz.
2.4. ZUFALLSVARIABLE UND IHRE VERTEILUNGEN
51
Satz 5 Es sei X eine Zufallsvariable mit der Verteilung PX gegeben durch die Dichtefunktion fX . Dann besitzt die Zufallsvariable Y =9 aX:+b, a, b ∈ R, die Verteilung
PY gegeben durch die Dichtefunktion fY (y) = a1 fX y−b
.
a
Beweis: Seien α, β ∈ R. Laut Definition ist
4
P [α ≤ Y ≤ β] =
β
fY (y)dy.
(2.19)
α
Andererseits rechnen wir
;
< 4 α−b
a
α−b
β−b
P [α ≤ aX + b ≤ β] = P
≤X ≤
=
fX (x)dx
β−b
a
a
a
Wenn wir jetzt die Variablentransformation x =
P [α ≤ aX + b ≤ β] =
4
β
α
fX
y−b
a
2
durchführen so erhalten wir
y−b
a
3
1
dy
a
(2.20)
Durch Identifikation der Integranden in (2.19) und (2.20) ist der Satz bewiesen.
Beispiel 17 Eine Zufallsvariable, die als Verteilung die Normalverteilung besitzt,
heißt normalverteilte Zufallsvariable. Sei zunächst X eine Zufallsvariable, deren
Verteilung durch die standardisierte Normalverteilung gegeben ist, d. h. PX = P0,1 .
Die Verteilungsfunktion von X bezeichnen wir mit F0,1 . Die Werte
1
F0,1 (y) = P0,1 ((−∞, y]) = √
2π
4y
x2
e− 2 dx
(2.21)
−∞
entnimmt man aus Tabellen. Da aus Symmetriegründen (siehe auch Abb. 2.6) gilt,
dass
1
F0,1 (−y) = 1 − F0,1 (y), F0,1 (0) = ,
2
genügt es, F0,1 nur für y ≥ 0 zu tabellieren, siehe Tabelle 1.
Sei nun X eine normalverteilte Zufallsvariable mit Parametern µ und σ. Aus
Satz 5 folgt dann, dass die standardisierte Zufallsvariable X−µ
standandardnorσ
malverteilt ist (siehe auch Aufgabe 3, Blatt 8). Daher können wir die Werte der
Verteilungsfunktion Fµ,σ aus den Werten von F0,1 berechnen.
Beispiel 18 (Verteilung der Körpergröße) Sei X die Zufallsvariable, welche
die Körpergröße der Einwohner einer Stadt beschreibt. Es sei bekannt, dass X normalverteilt ist mit Parametern µ = 178cm und σ = 8cm. Wir wollen nun berechnen, mit welcher Wahrscheinlichkeit Einwohner mit der Körpergröße zwischen 186
cm und 190 cm vorkommen, oder in Formeln ausgedrückt, die Wahrscheinlichkeit
P [186 ≤ X ≤ 190].
52
KAPITEL 2. WAHRSCHEINLICHKEITSRECHNUNG
f0,1(t)
F0,1(-y)
1 - F0,1(y)
-y
0
y
t
Abbildung 2.6: Werte der Verteilungsfunktion F0,1
Da X nicht standardnormalverteilt ist und wir auf die Tabellen für die Standardnormalverteilung zurückgreifen wollen, benutzen wir die standardisierte Zufallsvariable
X −µ
X − 178
Y =
=
.
σ
8
Von Y wissen wir, dass sie standardnormalverteilt ist. Für a, b ∈ R gilt dann
P [a ≤ X ≤ b] =
=
=
=
;
<
a−µ
X −µ
b−µ
P
≤
≤
σ
σ
σ
;
<
a−µ
b−µ
P
≤Y ≤
σ
σ
2;
<3
a−µ b−µ
P0,1
,
σ
σ
2
3
2
3
b−µ
a−µ
F0,1
− F0,1
σ
σ
Wenn wir also bestimmen wollen, mit welcher Wahrscheinlichkeit in der oben angesprochenen P178,8 -verteilten Stadt Einwohner zwischen 186 cm und 190 cm vorkommen, so rechnen wir folgendermaßen:
;
<
186 − 178
190 − 178
P [186 ≤ X ≤ 190] = P
≤Y ≤
8
8
= F0,1 (1, 5) − F0,1 (1)
= 0, 9332 − 0, 8413 = 0, 0919 ≈ 9, 2%
Dabei wurden die Werte von F0,1 (1, 5) und F0,1 (1) aus der Tabelle 1 entnommen.
2.4. ZUFALLSVARIABLE UND IHRE VERTEILUNGEN
2.4.2
53
Erwartungswert und Varianz einer Zufallsvariable
In Analogie zum Mittelwert und Varianz für Messreihen definieren wir für diskrete
Zufallsvariablen den Erwartungswert von X
!
!
E[X] =
x · PX ({x}) =
x · P [X = x]
(2.22)
x∈X(Ω)
x∈X(Ω)
und die Varianz von X
V [X] = E[(X − E[X])2 ] = E[X 2 ] − (E[X])2 .
(2.23)
Die Quadratwurzel aus der Varianz
/
/
V [X] = E[(X − E[X])2 ]
heißt Streuung oder Standardabweichung von X.
Im Falle stetiger Zufallsvariablen, deren Verteilungen PX die Dichte fX besitzen,
ist der Erwartungswert gegeben durch
4∞
E[X] =
xfX (x)dx.
−∞
Die Varianz berechnet sich aus
V [X] =
4∞
(x − E[X])2 fX (x)dx.
−∞
Dabei beschreibt E[X] den typischen“ Wert von X. V [X] ist ein Maß für die
”
Größe der Abweichung der Werte von X vom typischen“ Wert E[X].
”
Beispiel 19 Sei X eine Zufallsvariable, die einem Bernoulli-Experiment entspricht,
d. h. X nehme die Werte Eins und Null an und die Verteilung PX von X ist gegeben
durch PX ({1}) = P [X = 1] = p, PX ({0}) = P [X = 0] = 1 − p = q. (Siehe auch
Übungsblatt 8, Aufgaben 1 und 2.)
Der Erwartungswert E[X] und die Varianz V [X] berechnen sich wie folgt.
E[X] = 1 · P [X = 1] + 0 · P [X = 0] = 1 · p + 0 · q = p
V [X] = E[X 2 ] − (E[X])2 = 1 · P [X = 1] + 0 · P [X = 0] − p2
= p − p2 = p(1 − p) = pq
Beispiel 20 (Erwartungswert und Varianz für normalverteilte Zufallsvariable)
Sei X eine normalverteilte Zufallsvariable mit PX = Pµ,σ . Dann ist E[X] = µ und
V [X] = σ 2 . Um dieses zu zeigen, berechnen wir E[X] und V [X].
4∞
(x−µ)2
1
E[X] =
x· √
e− 2σ2 dx
2πσ 2
−∞
= √
1
2πσ 2
4∞
−∞
(x−µ)2
−
2σ 2
(x − µ)e
dx + √
µ
2πσ 2
4∞
−∞
e−
(x−µ)2
2σ 2
dx.
54
KAPITEL 2. WAHRSCHEINLICHKEITSRECHNUNG
Aufgrund der Symmetrieeigenschaften
des Integranden verschwindet das erste Inte√
2
gral. Das zweite Integral ergibt 2πσ , wir erhalten also E[X] = µ. Für die Berechnung der Varianz benutzen wir die Substitution x−µ
= y und erhalten:
σ
V [X] = √
4∞
1
2πσ 2
σ2
= √
2π
(x − µ)2 e−
(x−µ)2
2σ 2
dx
−∞
4∞
y2
y 2 e− 2 dy = σ 2 .
−∞
Für eine normalverteilte Zufallsvariable X stellen also die Parameter µ und σ 2
gerade den Erwartungswert und der Varianz von X dar.
Eigenschaften von Erwartungswert und Varianz
a) Wie wir schon bei Mittelwert und Varianz für Messreihen gesehen haben, gilt
auch hier
E[aX + b] = aE[X] + b
(2.24)
V [aX + b] = a2 V [X].
(2.25)
Sei X eine Zufallsvariable mit der Verteilung PX gegeben durch die Dichtefunktion
fX und sei Y = aX + b.
9 Da: wir im Satz 5 gezeigt haben, dass die Dichtefunktion
von Y durch fY = a1 fX y−b
gegeben ist, können wir wie folgt den Erwartungswert
a
und die Varianz von Y berechnen:
2
3
4 ∞
4 ∞
1
y−b
E[Y ] =
yfY (y)dy =
y fX
dy
a
−∞
−∞ a
4 ∞
4 ∞
4 ∞
=
(ax + b)fX (x)dx = a
xfX (x)dx + b
fX (x)dx = aE[X] + b,
−∞
V [Y ] =
=
4
∞
4−∞
∞
−∞
−∞
2
(y − E[Y ]) fY (y)dy =
4
−∞
∞
−∞
(ax + b − aE[X] − b)
21
a
fX
2
y−b
a
3
dy
a2 (x − E[X])2 fX (x)dx = a2 V [X],
wobei wir wieder die Variablentransfomation x = y−b
wie in Satz 5 benutzt haben.
a
Sei nun X eine Zufallsvariable mit E[X] = µ, V [X] = σ 2 . Dann gilt für die
standardisierte Zufallsvariable X ∗ = X−µ
, dass
σ
E[X ∗ ] = 0,
V [X ∗ ] = 1.
b) Man sagt, zwei Zufallsvariablen X und Y sind unabhängig, wenn die Messung
von X die Messung von Y nicht beeinflusst. Dieses bedeutet, dass die Mengen {ω ∈
Ω : X(ω) ∈ A} und {ω ∈ Ω : Y (ω) ∈ B} für alle A und B unabhängig sind. In
diesem Falle gilt
E[X · Y ] = E[X] · E[Y ].
2.5. DER ZENTRALE GRENZWERTSATZ
55
c) Es seien X und Y zwei Zufallsvariablen. Dann gilt
E[aX + bY ] = aE[X] + bE[Y ].
Falls X und Y unabhängig sind, gilt
V [X + Y ] = V [X] + V [Y ].
Beispiel 21 Seien X1 , X2 , . . . , Xn n unabhängige, identisch verteilte Zufallsvariablen mit Erwartungswert µ und Varianz σ 2 . Sei X̄n das arithmetische Mittel der
Variablen X1 , X2 , . . . , Xn :
n
1
1!
X̄n = (X1 + X2 + . . . + Xn ) =
Xi .
n
n i=1
Dann ist:
=
>
n
n
1!
1!
nµ
E[X̄n ] = E
Xi =
E[Xi ] =
=µ
n i=1
n i=1
n
= n
>
n
1!
1 !
1
σ2
V [X̄n ] = V
Xi = 2
V [Xi ] = 2 · (n · σ 2 ) =
n i=1
n i=1
n
n
2.5
Der zentrale Grenzwertsatz
Die Tatsache, dass die Normalverteilung in vielen praktischen Anwendungen auftritt,
kann durch den folgenden Satz erklärt werden.
Satz 6 (Zentraler Grenzwertsatz, Satz von de Moivre-Laplace) Seien X1 , X2 , . . . , Xn
eine Folge unabhängiger und identisch verteilter Zufallsvariablen mit Erwartungswert µ und Varianz σ 2 > 0. Dann ist das arithmetische Mittel
n
1!
1
X̄n =
Xi = (X1 + X2 + . . . + Xn )
n i=1
n
2
näherungsweise normalverteilt mit Erwartungswert µ und Varianz σn . Insbesondere
konvergiert, für n → ∞, die Verteilung der standardisierten Zufallsvariablen
X̄n∗ =
X̄n − µ
√σ
n
gegen die standardisierte Normalverteilung. D. h.
P [a ≤
X̄n∗
1
≤ b] −→ √
2π
n→∞
4b
a
t2
e− 2 dt.
56
KAPITEL 2. WAHRSCHEINLICHKEITSRECHNUNG
Dieser Satz rechtfertigt die Annahme, dass eine Zufallsvariable normalverteilt ist,
wenn zahlreiche Einflüsse additiv und unabhängig voneinander zusammenwirken.
Da dieses bei Vorgängen in der Natur oft der Fall ist, sind auch viele Größen in
den Biowissenschaften normalverteilt. Auch Messfehler kann man auf Grund des
zentralen Grenzwertsatzes als normalverteilt annehmen.
Beispiel 22 (Anwendung des zentralen Grenzwertsatzes) Eine Labormaschine fülle Flüssigkeit in n = 36 Reagenzgläser ein. Mit einer Streuung σ = 0, 12g
erreicht die Maschine einen mittleren Abfüllwert von µ = 1g. Die 36 Proben werden nun in einen einzigen Erlenmeyerkolben gefüllt. Mit welcher Wahrscheinlichkeit
weicht die Endmenge höchstens um 1g vom Zielwert ab?
Mögen die Zufallsvariablen Xi , i = 1, . . . , 36 die Füllmengen in den 36 Reagenzgläsern beschreiben. Dann beschreibt die Zufallsvariable Y = X1 + X2 + . . . + Xn
die Endmenge. Wir haben also P [35 ≤ Y ≤ 37] zu berechnen.
;
<
35
37
P [35 ≤ Y ≤ 37] = P
≤ X̄n ≤
36
36
=
>
35
37
−
1
−
1
X̄
−
1
n
= P 360,12 ≤ 0,12 ≤ 360,12
√
√
√
36
36
?
@ 36
∗
= P −1, 389 ≤ X̄n ≤ 1, 389
≈ F0,1 (1, 389) − F0,1 (−1, 389) = 0, 8354,
da gemäß dem zentralen Grenzwertsatz X̄n∗ annähernd standardnormalverteilt ist.
Kapitel 3
Induktive Statistik
Wir haben im vorigen Kapitel gesehen, dass Wahrscheinlichkeitsräume und die darauf definierten Zufallsvariablen mathematische Modelle zur Beschreibung zufallsbedingter Eigenschaften von Grundgesamtheiten darstellen.
Basierend auf diesen Modellen ist es nun mit den Methoden der induktiven Statistik möglich, ausgehend von Stichproben quantitative Aussagen über die Grundgesamtheit zu machen.
3.1
Schätzverfahren
Allgemein gilt, dass eine Grundgesamtheit durch eine Zufallsvariable X und deren
Verteilung beschrieben wird. Bezeichne etwa Ω die Gesamtheit der Einwohner einer
Stadt; die normalverteilte Zufallsvariable X könnte die Körpergröße der Einwohner
beschreiben. Als Maßzahlen von X haben wir den Erwartungswert E[X] und die Varianz V [X] kennengelernt. Diese sind a priori unbekannt. Man ist daher bemüht,
anhand der Stichprobe den oder die unbekannten Parameter der Grundgesamtheit
zu schätzen. In diesem Paragraphen werden wir in einem ersten Schritt Schätzwerte
für unsere unbekannten Parameter konstruieren. Ein einzelner Schätzwert enthält
aber keine Information darüber, wie sehr er vom wahren“ Parameter abweicht. Des”
wegen werden wir in einem zweiten Schritt versuchen, Bereiche anzugeben, die mit
hoher Wahrscheinlichkeit den unbekannten Parameter enthalten.
3.1.1
Schätzung von Maßzahlen einer Grundgesamtheit
Oft sind gewisse Eigenschaften einer Zufallsvariablen X (etwa der Verteilungstyp)
aus Erfahrung bekannt oder ergeben sich aus der Beschreibung des zugrunde liegenden Zufallsexperiments. Die charakteristischen Parameter sind dagegen meist
unbekannt. So kann man zum Beispiel leicht nachvollziehen, dass die Anzahl von
Kopf beim Werfen einer unfairen Münze durch eine binomialverteilte Zufallsvariable beschrieben werden kann. Es liegt jedoch in der Natur der Sache, dass eine exakte
Angabe der Erfolgswahrscheinlichkeit p nicht möglich ist.
57
58
KAPITEL 3. INDUKTIVE STATISTIK
Unser Ziel wird nun sein, anhand von Stichprobenwerten Schätzwerte für die
unbekannten Parameter zu bestimmen.
Seien x1 , x2 , . . . , xn die Ergebnisse einer
" Stichprobe vom Umfang n. Es liegt beispielsweise nahe, den Mittelwert x̄ = n1 nj=1 xj als Schätzwert für den Erwartungswert E[X] = µ zu benutzen. Es ist andererseits auch klar, dass eine andere Stichprobe vom Umfang n einen anderen Schätzwert liefern kann.
Eine Abbildung θn , die jeder Stichprobe vom Umfang n aus einer Grundgesamtheit einen Schätzwert für eine bestimmte Maßzahl zuordnet, heißt Schätzfunktion
(oder Schätzer) für diese Maßzahl. In unserem Beispiel haben wir also folgende
Schätzfunktion für den Erwartungswert angenommen:
n
(x1 , x2 , . . . , xn ) /→ θn (x1 , x2 , . . . , xn ) =
1!
xj .
n j=1
(3.1)
Die Werte, die die Schätzfunktion in Abhängigkeit von der jeweiligen Stichprobe
annimmt, nennt man Schätzwerte.
Erwartungstreue Schätzfunktionen
Es stellt sich nun natürlich die Frage nach der Güte eines Schätzers. Ein Kriterium,
mit dem sich die Güte beurteilen lässt, ist die Erwartungstreue.
Offensichtlich gibt ein einzelner Schätzwert den unbekanten Parameter (Maßzahl) nicht exakt wieder. Allerdings sollte die Schätzvorschrift nicht systematisch
einen zu hohen oder zu niedrigen Wert liefern. Das Kriterium der Erwartungstreue fordert daher, dass der Erwartungswert der Zufallsvariable, welche alle theoretisch denkbaren Schätzwerte aus den Stichproben des Umfangs n beschreibt, mit
dem unbekannten Parameter übereinstimmt.
Mathematisch formulieren wir das folgendermaßen: Sei x1 , . . . , xn eine Stichprobe der Länge n. Diese Stichprobe entspricht einer Realisierung (oder Auswertung)
des n-Tupels1 (X1 , . . . , Xn ) von n unabhängigen, gleichverteilten Zufallsvariablen
X1 , . . . , Xn , die die Verteilung von X besitzen. Deswegen kann man θn (x1 , . . . , xn )
als Realisierung der Zufallsvariable θn (X1 , . . . , Xn ) auffassen. Dem Schätzer des Erwartungswertes (3.1) entspricht also die Zufallsvariable
θn (X1 , . . . , Xn ) : Ω × Ω × . . . × Ω →
n
1!
θn (X1 , . . . , Xn ) =
Xj .
n j=1
Eine Schätzfunktion θn für eine unbekannte Maßzahl κ heißt erwartungstreu
bezüglich κ, falls
E[θn (X1 , . . . , Xn )] = κ.
1
Das n-Tupel (X1 , . . . , Xn ) ist folgendermaßen definiert:
(X1 , . . . , Xn ) : Ω × Ω × . . . × Ω →
×
× ...×
(X1 , . . . , Xn )(ω1 , . . . , ωn ) = (X1 (ω1 ), . . . , Xn (ωn ))
3.1. SCHÄTZVERFAHREN
59
Beispiele für erwartungstreue Schätzfunktionen
a) Das arithmetische Mittel (3.1) ist eine erwartungstreue Schätzfunktion für den
Erwartungswert E[X].
Beweis: Sei µ = E[X] = E[Xj ], j = 1, . . . , n. Dann gilt:
= n
>
n
!
1
1!
1
E[θn (X1 , . . . , Xn )] = E
Xj =
E[Xj ] = · n · µ = µ.
n j=1
n j=1
n
b) Die empirische Varianz
n
θn (x1 , . . . , xn ) =
1 !
(xj − x̄)2
n − 1 j=1
ist eine erwartungstreue Schätzfunktion für die Varianz V [X].
Beweis: Sei wieder µ = E[X] = E[Xj ] und σ 2 = V [X] = V [Xj ], j = 1, . . . , n.
Zu zeigen ist also:
=
>
n
1 !
E
(Xj − X̄n )2 = σ 2
n − 1 j=1
Berechne zuerst
n
n
!
!
(Xj − X̄n )2 =
(Xj2 − 2 · Xj · X̄n + X̄n2 )
j=1
=
j=1
n
!
Xj2
j=1
=
n
!
Xj2
j=1
− 2n
−
"n
j=1 Xj
#
2nX̄n2
n
$%
X̄n
+
&
·X̄n +
nX̄n2
=
n
!
j=1
n
!
j=1
X̄n2
Xj2 − nX̄n2 .
Es gilt also:
= n
>
= n
>
!
!
2
2
2
E
(Xj − X̄n )
= E
Xj − nX̄n
j=1
j=1
=
n
!
j=1
E[(Xj − µ + µ)2 ] − nE[(X̄n − µ + µ)2 ]




2
2
=
E[(Xj − µ ) + µ ] − nE[(X̄n − µ )2 + µ2 ]
#$%&
#$%&



j=1 
n 

!
=
n
!
j=1
E[Xj ]
V [Xj ] + nµ2 − nV [X̄n ] − nµ2
= nσ 2 − n
σ2
= (n − 1)σ 2
n
E[X̄n ]
60
KAPITEL 3. INDUKTIVE STATISTIK
Dabei haben wir verwendet, dass für eine Zufallsvariable X mit E[X] = µ gilt
E[X − µ] = E[X] − µ = 0.
3.1.2
Intervallschätzungen
Im vorigen Paragraphen haben wir mithilfe einer Schätzfunktion aus den Daten einer Stichprobe einen Schätzwert für den unbekannten Parameter bestimmt. Um nun
Anhaltspunkte bezüglich der Genauigkeit der Schätzung zu gewinnen, konstruieren
wir aus den Daten der Stichprobe ein so genanntes Konfidenzintervall (oder Vertrauensbereich). Man hofft, bei diesem Verfahren ein Intervall zu erhalten, das
den gesuchten Parameter überdeckt. Es ist allerdings nicht auszuschließen, dass die
Daten der Stichprobe ein Intervall erzeugen, das daneben liegt“ und das den ge”
suchten Parameter nicht enthält. Diese Irrtumswahrscheinlichkeit wird vor der
Bestimmung des Konfidenzintervalls festgelegt. Sie wird mit α bezeichnet und beträgt üblicherweise 5%, in besonderen Fällen auch 1% oder 0,1%. Generell gibt es
bei der Konstruktion eines Konfidenzintervalls zwei Möglichkeiten.
• Mit der Wahrscheinlichkeit 1−α erhält man ein Intervall, das den unbekannten
Parameter enthält. Der Wert 1 − α wird als Konfidenzwahrscheinlichkeit
(oder Konfidenzniveau) bezeichnet. Für α = 5% z. B. beträgt die Konfidenzwahrscheinlichkeit 95%.
• Mit der Wahrscheinlichkeit α erhält man ein Intervall, das den unbekannten
Parameter nicht enthält.
Konfidenzintervalle für den Erwartungswert
Zur Bestimmung des Konfidenzintervalls für den Erwartungswert einer Zufallsvariablen X erinnern wir uns zuerst, dass der Mittelwert eine erwartungstreue Schätzfunktion für den Erwartungswert ist (siehe Beispiel (a.) im vorigen Paragraph). Als
nächstes wollen wir festzustellen, in welchen Bereichen die Werte von x̄ mit großer
Wahrscheinlichkeit zu erwarten sind. Dazu bemerken wir, dass alle theoretisch denkbaren Mittelwerte, die sich aus Stichproben des Umfangs n ergeben, Realisierungen
der Zufallsvariablen
n
1!
X̄n =
Xj .
n j=1
sind. Dabei sind X1 , . . . , Xn unabhängige Kopien der Zufallsvariablen X. Auf Grund
des zentralen Grenzwertsatzes ist X̄n annähernd normalverteilt (zumindest für genügend
große n), mit Erwartungswert µ und Standardabweichung √σn .
Für die Konstruktion des Konfidenzintervalls werden wir in einem ersten Schritt
annehmen, σ sei bekannt. Sei z1− α2 so, dass
=
P −z1− α2 ≤
X̄n − µ
√σ
n
≤ z1− α2
>
= 1 − α.
(3.2)
3.1. SCHÄTZVERFAHREN
z1− α2 wird aus der Bedingung
=
61
P −∞ <
X̄n − µ
√σ
n
≤ z1− α2
>
=1−
α
2
bestimmt.
Beispiele für Irrtumswahrscheinlichkeiten α und die entsprechenden Werte von
α
z1− 2 sind in der folgenden Tabelle angegeben:
α
1−α
0,1
0,9
0,05
0,95
0,01
0,99
0,001 0,999
z1− α2
1,645
1,960
2,576
3,291
Durch äquivalentes Umformen der Beziehung (3.2) erhalten wir:
;
<
σ
σ
P −z1− α2 · √ ≤ X̄n − µ ≤ z1− α2 · √ = 1 − α.
n
n
Das bedeutet, dass der Abstand zwischen dem Mittelwert x̄ und dem Erwartungswert µ = E[X̄n ] betragsmäßig mit einer Wahrscheinlichkeit von 1 − α unterhalb des
Wertes z1− α2 √σn liegt. Anders formuliert: mit der Wahrscheinlichkeit von 1−α fällt der
B
A
σ
σ
√
√
α
α
berechnete Mittelwert x̄ der Stichprobe in das Intervall µ − z1− 2 · n , µ + z1− 2 · n ,
d. h.
σ
σ
µ − z1− α2 · √ ≤ x̄ ≤ µ + z1− α2 · √ .
n
n
Wenn wir von allen Gliedern dieser Ungleichung den Wert µ + x̄ abziehen und dann
die Ungleichung mit (−1) multiplizieren erhalten wir:
σ
σ
−x̄ − z1− α2 · √ ≤ −µ ≤ −x̄ + z1− α2 · √ .
n
n
62
KAPITEL 3. INDUKTIVE STATISTIK
σ
σ
x̄ − z1− α2 · √ ≤ µ ≤ x̄ + z1− α2 · √ .
n
n
Daraus ergibt sich für µ das Konfidenzintervall auf dem Niveau 1 − α (oder mit der
Konfidenzwahrscheinlichkeit 1 − α)
;
<
σ
σ
x̄ − z1− α2 · √ , x̄ + z1− α2 · √ .
n
n
Beispiel 23 Wir betrachten eine Apfelernte: Das Gewicht der Äpfel wird durch die
Zufallsvariable X mit der Standardabweichung σ = 10g und unbekanntem Erwartungswert µ beschrieben. Diesen Erwartungswert gilt es jetzt aus den Daten einer
Stichprobe vom Umfang n = 100 zu schätzen
Konstruktion des Konfidenzintervalls
1. 100 Äpfel werden gewogen. Wir berechnen x̄ = 142g.
2. Wir wählen die Irrtumswahrscheinlichkeit α = 0, 1.
3. z1− α2 muss erfüllen F0,1 (z1− α2 ) = 1 − α2 = 0, 95. Aus der Tabelle der standardisierten Normalverteilung erhalten wir z1− α2 = 1, 645.
4. Das Konfidenzintervall für µ auf dem Niveau 1 − α = 0, 9 = 90% ist
142 −
10
10
· 1, 645 ≤ µ ≤ 142 +
· 1, 645.
10
10
Oder ausgerechnet
140, 355g ≤ µ ≤ 143, 645g.
D. h. mit einer Konfidenzwahrscheinlichkeit von 90% enthält das Intervall [140,355;
143,645] den Erwartungswert µ.
3.1. SCHÄTZVERFAHREN
63
Bei den obigen Überlegungen haben wir vorausgesetzt, dass die Standardabweichung
σ der Grundgesamtheit bekannt ist. Dies ist aber bei praktischen Untersuchungen
fast niemals der Fall.
In dieser Situation wählt man die empirische Varianz
n
s(x)2 =
1 !
(xj − x̄)2
n − 1 j=1
als Schätzwert für σ 2 . Nun gehen wir ähnlich wie vorher vor und betrachten die
Zufallsvariable
X̄n − µ
,
X̄n∗ =
σ
√
n
welche standardnormalverteilt ist.
Da σ unbekannt ist, ersetzen wir es durch s(x) und betrachten die Zufallsvariable
T =
X̄n − µ
s(x)
√
n
.
(3.3)
T ist nicht normalverteilt. Die korrekte Verteilung heißt Student’sche t-Verteilung
mit n − 1 Freiheitsgraden. Die Wahrscheinlichkeitsdichte der t−Verteilung mit
n − 1 Freiheitsgraden ist gegeben durch
2
3− n2
x2
fn−1 (x) = cn−1 1 +
, n ≥ 2,
n−1
dabei ist cn−1 ein Normierungsfaktor, so dass
5∞
fn−1 (x)dx = 1.
−∞
Die Student’sche t-Verteilung ist für alle n ≥ 2 (also auch für kleine Stichprobenumfänge) definiert. Dabei muss allerdings vorausgesetzt werden, dass die Einzelbeobachtungen Xj , aus denen X̄n berechnet wird, normalverteilt sind mit Erwartungswert µ und Varianz σ 2 .
Eigenschaften der t-Verteilung:
• Die Dichte der t-Verteilung ist symmetrisch um 0, stetig und glockenförmig.
(siehe Abb. 3.1). Die t-Verteilung nähert für große n der standardisierten Normalverteilung an.
• Die t-Verteilung ist abhängig vom Parameter n − 1, der die Anzahl der Freiheitsgrade angibt. Es existiert also für jeden Umfang n der Stichprobe eine
spezielle t-Verteilung mit n − 1 Freiheitsgraden!
In Abb. 3.1 ist die Wahrscheinlichkeitsdichte der t-Verteilung,
f1 (x) =
1
1
·
π 1 + x2
für Stichproben vom Umfang n = 2, d.h. mit n − 1 = 1 Freiheitsgraden, eingezeichnet (durchgezogene Linie). Zum Vergleich ist die Dichte f0,1 der standardisierten
64
KAPITEL 3. INDUKTIVE STATISTIK
Abbildung 3.1: Wahrscheinlichkeitsdichte f1 der Student t-Verteilung mit n − 1 = 1
Freiheitsgraden (durchgezogene Linie). Zum Vergleich dazu f0,1 (punktierte Linie).
Normalverteilung angegeben (punktierte Linie).
Der Erwartungswert der t-verteilten Zufallsvariablen T aus (3.3) ist 0. Die Werte
der entsprechenden Verteilungsfunktion sind tabelliert, siehe Tabelle 2.
Ähnlich wie vorhin ergibt sich nun das Konfidenzintervall für µ auf dem Niveau
1 − α aus der Beziehung
?
@
P −tn−1,1− α2 ≤ T ≤ tn−1,1− α2 = 1 − α.
(3.4)
Dabei wird tn−1,1− α2 aus der Beziehung
?
@
α
P −∞ ≤ T ≤ tn−1,1− α2 = 1 −
2
bestimmt.
Aus (3.4) ergibt sich nun für µ das Konfidenzintervall
<
;
s(x)
s(x)
.
x̄ − tn−1,1− α2 · √ , x̄ + tn−1,1− α2 · √
n
n
3.2. STATISTISCHE TESTS
3.2
65
Statistische Tests
Die wissenschaftlichen Fortschritte, die ein empirischer Forscher macht, beruhen
letzten Endes auf Erkenntnissen, die aus Experimenten gewonnen werden. Aus diesen Erkenntnissen, gepaart mit fachlich-theoretischen Überlegungen, entsteht eine
Vermutung und - wenn diese präzise formuliert wird - eine Hypothese. Diese Hypothese stellt also i.A. einen innovativen Aspekt dar und wird einer sogenannten
Nullhypothese gegenüber gestellt, welche i.A. den status quo” in dem betreffenden
”
Bereich beschreibt. Mit Hilfe eines statistischen Tests gilt es dann, anhand relevanter
Daten aus einer oder mehreren Stichproben, zu entscheiden, ob die Nullhypothese
abgelehnt (verworfen) werden muss oder nicht abgelehnt (verworfen) werden kann.
Wir wollen nun die Begriffsbildung anhand eines Beispiels aus dem Alltag durchführen: Eine Brauerei besitze eine Abfüllanlage, die in jede Flasche 500ml Bier
abfüllen soll. Kleine Abweichungen sind unvermeidlich. Falls nun Zweifel über die
Genauigkeit der Abfüllmenge auftreten, muss die Behauptung dass die Anlage im
Mittel 500ml Bier in eine Flasche füllt, überprft werden.
In der Sprache der Statistik sei X eine Zufallsvariable, die die Abfüllmenge beschreibt. Zu prüfen ist die Nullhypothese
H0 :
E[X] = µ0 = 500ml.
Um diese Hypothese zu prüfen, bestimmen wir zunächst den Mittelwert x̄ der Stichprobe. Die Frage ist dann: Welche Abweichung des Mittelwertes vom Erwartungswert µ0 ist als so signifikant einzustufen, dass die Nullhypothese abgelehnt wird?
Die Antwort auf diese Frage kann von der Interessenlage abhängen. Der Verband
der Biertrinker etwa wird die Hypothese nur dann ablehnen, wenn im Mittel zu wenig
Bier abgefüllt wird. Die Alternativhypothese würde dann lauten:
H1 :
E[X] < µ0 = 500ml.
Bei dieser Art von Alternativhypothesen spricht man von linksseitiger Fragestellung. Hier wird man H0 nur dann ablehnen, wenn der Mittelwert x̄ signifikant
kleiner als µ0 ist.
Der Bierproduzent andererseits könnte vor allem daran interessiert sein, nicht zu
viel Bier abzufüllen. Seine Alternativhypothese wäre dann
H1 :
E[X] > µ0 ;
man spricht von einer rechtsseitigen Fragestellung.
Dem Hersteller der Abfüllanlage schließlich könnte vor allem an der Funktionstüchtigkeit der Anlage gelegen sein. Seine Gegenhypothese könnte also
H1 :
E[X] )= µ0
lauten; eine zweiseitige Fragestellung.
Nullhypothese und Alternativhypothese sind also wichtige Bestandteile eines statistischen Tests. Die Frage, ob einseitig oder zweiseitig getestet wird, hat
weniger mit Statistik als mit sachlogischen Überlegungen zu tun.
66
KAPITEL 3. INDUKTIVE STATISTIK
Ein weiterer Bestandteil eines statistischen Tests ist die sogenannte Testgröße
(oder Prüfgröße) (in unserem Beispiel der Mittelwert der Stichprobe), die aus den
Daten der Stichprobe ermittelt wird. Diese Größe erlaubt es, nach einem festgelegten
Verfahren zu entscheiden, ob die Nullhypothese verworfen werden muss oder nicht
verworfen werden kann.
3.2.1
Annahmebereich. Kritischer Bereich. Fehlerarten.
Das Verfahen, welches zur Testentscheidung führt, ist anschaulich beschrieben folgendes: Unter der Annahme der Gültigkeit der Nullhypothese wird ein Intervall bestimmt, in das die Werte der Prüfgröße mit Wahrscheinlichkeit 1 − α fallen. Dieses
Intervall heißt Annahmebereich für die Nullhypothese. Mit Wahrscheinlichkeit
α liegen die Werte der Prüfgröße außerhalb dieses Intervalls, dieser Bereich wird kritischer Bereich (oder Ablehnungsbereich für die Nullhypothese) genannt.
Die Wahrscheinlichkeit α heißt Signifikanzniveau und hat üblicherweise den Wert
α = 5%. Bei besonderen Fragestellungen wählt man auch α = 1% oder α = 0, 1%,
hin und wieder α = 10%.
Der Wert von α sollte vor der Durchführung des Tests bestimmt werden. Dadurch ist gewährleistet, dass keine willkürlichen oder subjektiven Entscheidungen
getroffen werden.
Entscheidungsregel
• Wenn die Prüfgröße in den Annahmebereich fällt, kann die Nullhypothese nicht
verworfen werden. Man formuliert die Entscheidung:
Die Nullhypothese kann auf dem Signifikanzniveau α nicht verworfen werden“
”
• Wenn die Prüfgröße im kritischen Bereich liegt, kann die Nullhypothese verworfen werden, was als Folgerung die Gültigkeit der Alternativhypothese hat.
Ein solches Ergebnis heißt (in Abhängigkeit vom α) schwach-signifikant
(α = 10%), signifikant (α = 5%), hoch-signifikant (α = 1%) oder höchstsignifikant (α = 0, 1%). Man formuliert die Entscheidung als:
Die Nullhypothese wird auf dem Signifikanzniveau α verworfen“
”
Fehlerarten
Die Testentscheidung hängt von der Prüfgröße ab; diese wiederum wird aus den
Stichprobenwerten ermittelt. Es ist deshalb möglich, dass das Testverfahren im Einzelfall zu einer Fehlentscheidung führt.
Wenn in Wirklichkeit die Nullhypothese richtig ist und man sich fälschlicherweise
für die Alternativhypothese entscheidet, liegt ein Fehler 1. Art oder α-Fehler vor.
Ein Fehler 1. Art ist leider nicht vermeidbar, aber er ist kontrollierbar, denn dieser
Fehler kann nur bei Gültigkeit der Nullhypothese auftreten, und diese ist eindeutig
formuliert. Die Wahrscheinlichkeit für einen Fehler 1. Art ist höchstens α.
Nun ist auch umgekehrt möglich, dass in Wirklichkeit die Alternativhypothese richtig ist, und man sich fälschlicherweise für die Nullhypothese entscheidet. In
diesem Fall begeht man einen β−Fehler oder Fehler 2. Art. Dieser lässt sich im
Gegensatz zum α-Fehler kaum abschätzen, da i.A. die Alternativhypothese nicht explizit gebeben ist. In der nachstehenden Tabelle werden die möglichen Situationen
3.2. STATISTISCHE TESTS
67
übersichtlich zusammengefasst:
Wirklichkeit
H0 richtig
H0 richtig
H1 richtig
H1 richtig
3.2.2
Testentscheidung
H0 kann nicht verworfen werden
H0 wird verworfen
H0 kann nicht verworfen werden
H0 wird verworfen
Fehlerart
kein Fehler
Fehler 1. Art
Fehler 2. Art
kein Fehler
(3.5)
Test des Erwartungswertes einer normalverteilten Grundgesamtheit
Sei X normalverteilt mit unbekanntem Erwartungswert µ = E[X] und unbekannter Varianz σ 2 = V [X]. X1 , X2 , . . . , Xn seien unabhängige Kopien vom X und
x1 , x2 , . . . , xn seien Stichprobendaten.
Die Hypothesen lauten (bei 2-seitiger Fragestellung):
H0 :
H1 :
µ = E[X] = µ0
µ = E[X] )= µ0
Nullhypothese
Alternativhypothese.
Wir wählen ein festes Signifikanzniveau α.
Aufgrund der Voraussetzungen dieses Tests und unter Annahme der Nullhypothese
ist die Zufallsvariable
X̄n − µ0
T = s(x)
(3.6)
√
n
t−verteilt mit n − 1 Freiheitsgraden. Es gilt also:
?
@
P −tn−1,1− α2 ≤ T ≤ tn−1,1− α2 = 1 − α.
Ist also die Nullhypothese richtig, so produziert T mit Wahrscheinlichkeit 1−α Werte
im Intervall [−tn−1,1− α2 , tn−1,1− α2 ]. Dieses ist der Annahmebereich für die Nullhypothese.
Mit der Wahrscheinlichkeit α fallen die Werte von T in dem Bereich (−∞, −tn−1,1− α2 )∪
(tn−1,1− α2 , ∞). Dies ist der kritische Bereich.
Nach der Vorschrift (3.6) berechnet man aus den Daten der Stichprobe die
Prüfgröße t:
x̄ − µ0
t = s(x) .
(3.7)
√
n
Es gilt folgende Entscheidungsregel:
• Falls die Prüfgröße
oder äquivalent
t ∈ [−tn−1,1− α2 , tn−1,1− α2 ]
s(x)
s(x)
x̄ ∈ [µ0 − tn−1,1− α2 · √ , µ0 + tn−1,1− α2 · √ ]
n
n
68
KAPITEL 3. INDUKTIVE STATISTIK
(d. h. x̄ weicht nicht sehr stark von µ0 ab), so kann die Nullhypothese auf
Signifikanzniveau α nicht abgelehnt werden.
• Falls die Prüfgröße
t∈
/ [−tn−1,1− α2 , tn−1,1− α2 ]
oder äquivalent
s(x)
s(x)
x̄ ∈
/ [µ0 − tn−1,1− α2 · √ , µ0 + tn−1,1− α2 · √ ]
n
n
(d. h. x̄ weicht stark von µ0 ab), so wird die Nullhypothese auf Signifikanzniveau α abgelehnt.
Liegt nun ein Vorwissen über die die Richtung des erwarteten Unterschiedes zwischen µ0 und x̄ vor, so wird eine einseitige Fragestellung formuliert. Dabei betrachtet
man die Hypothesen:
H0 :
H1 :
µ = µ0
µ < µ0
(bzw. µ > µ0 ).
Unter der Nullhypothese gilt nun
P [−tn−1,1−α ≤ T < ∞] = 1 − α
>
X̄n − µ0
P −tn−1,1−α ≤ s(x) < ∞ = 1 − α
=
√
n
;
<
s(x)
P µ0 − tn−1,1−α · √ ≤ X̄n < ∞ = 1 − α.
n
Der Annahmebereich für die Nullhypothese ist also
[−tn−1,1−α , ∞),
denn t ∈ [−tn−1,1−α , ∞) bedeutet
s(x)
x̄ ∈ [µ0 − tn−1,1−α · √ , ∞),
n
x̄ ist also nicht viel kleiner als µ0 .
Analog erhält man im Falle der rechtsseitigen Fragestellung µ > µ0 den Annahmebereich für die Nullhypothese
(−∞, tn−1,1−α ].
Beispiel 24 Aus der Fachliteratur ist bekannt, dass das durchschnittliche Geburtsgewicht gesunder Kinder nach einer unauffällig verlaufenen Schwangerschaft µ0 =
3500g beträgt. Ein Mediziner möchte statistisch absichern, dass Babys von Raucherinnen im allgemeinen weniger wiegen. Dazu werden 20 Babys herangezogen, deren
Mütter stark rauchen. Es wird ein mittleres Geburtsgewicht von x̄ = 3280g mit einer
3.2. STATISTISCHE TESTS
69
empirischen Standardabweichung von 490g ermittelt. Der Unterschied zu µ0 beträgt
also im Durchschnitt 220g. Ist dieses Ergebnis eine Bestätigung für die Vermutung
des Arztes? Oder ist der Unterschied zufällig bedingt und hat ansonsten keine Bedeutung?
Da man davon ausgehen kann, dass - falls ein Unterschied existiert - das durchschnittliche Gewicht der Raucher-Babys geringer ist als der Sollwert, verwendet man
die einseitige Fragestellung mit den Hypothesen
H0 :
µ = 3500g
H1 :
µ < 3500g.
Als Prüfgröße ergibt sich nach (3.7)
t=
3280 − 3500
490
√
20
= −2, 008.
Mit n − 1 = 19 und α = 5% erhalten wir
tn−1,1−α = t19;0,95 = 1, 729.
Der Annahmebereich ist [−1, 729; ∞). Der kritische Bereich ist (−∞; −1, 729). Da
t = −2, 008 ∈
/ [−1, 729; ∞), ist das Ergebnis signifikant; die Nullhypothese wird auf
dem Signifikanzniveau 5% verworfen und die Alternativhypothese wird angenommen.
3.2.3
t-Test auf Lageunterschied bei verbundenen Stichproben
Dies ist ein Test, der zur Überprüfung der Gleichheit von zwei Erwartungswerten
herangezogen wird. Er setzt voraus: zwei verbundene Stichproben des Umfangs n
mit Wertepaaren {xj }, {yj }, j = 1, . . . , n, die aus Grundgesamtheiten mit den Erwartungswerten µ1 und µ2 stammen. Die Hypothesen lauten bei zweiseitiger Fragestellung:
H0 : µ 1 = µ 2
H1 :
bzw. bei einseitiger Fragestellung
H1 :
µ1 )= µ2
µ1 < µ2
(oder µ1 > µ2 ).
Um diese Hypothesen zu überprüfen, betrachten wir die Differenzen Dj = Yj −
Xj , j = 1, . . . , n. Es wird vorausgesetzt, dass die Zufallsvariablen Dj normalverteilt
sind mit unbekannten µ und σ.
Unsere Hypothesen lassen sich wie folgt umformulieren:
H0 :
H1 :
bzw.
H1 :
µ = E(D) = µ2 − µ1 = 0
µ )= 0
µ < 0 (oder µ > 0)
(zweiseitige Fragestellung)
(einseitige Fragestellung)
70
KAPITEL 3. INDUKTIVE STATISTIK
Wir wählen wieder ein festes Signifikanzniveau α.
Die Zufallsvariable
T =
D̄n − 0
s(d)
√
n
n
,
1 !
¯ 2,
mit s(d) =
(dj − d)
n − 1 j=1
2
ist t−verteilt mit n − 1 Freiheitsgraden. Die Prüfgröße t berechnet sich dann aus
den Daten
d¯
t = s(d) .
√
n
Der Annahmebereich für die Nullhypothese ist dann
[−tn−1,1− α2 , tn−1,1− α2 ]
[−tn−1,1−α , ∞)
(−∞, tn−1,1−α ]
3.2.4
bei zweiseitiger Fragestellung
bei linksseitiger Fragestellung
bei rechtsseitiger Fragestellung
Anwendung des t-Testes bei der Untersuchung der
hormonellen Regulation des Lipidstoffwechsels bei Insekten (Grundpraktikum C, Prof. Dr. Stephan Frings,
IZ)
Wenn Wanderheuschrecken (Locusta migratoria) zu ihren Wanderschaften aufbrechen, müssen sie als Brennstoff für den Flug aus ihren Fettreserven eine bestimmte
Art von Fett (Diglyzeride) mobilisieren. Das funktioniert so, dass eine bestimmte Drüse im Kopf ein Hormon ausschüttet (adipokinetisches Hormon), und dieses
Hormon setzt Diglyzeride aus den Fettreserven frei.
Um diese hormonelle Regulation nachzuweisen wird in einem Versuch mit 4 Heuschrecken die Diglyzeridkonzentration in der Hämolymphe (Blut der Insekten) vor
und nach einer Injektion des adipokinetischen Hormons gemessen. Es wird untersucht, ob die Konzentration nach der Hormonverabreichung ansteigt.
Mithilfe einer statistischen Analyse soll nun beurteilt werden, ob die Änderung
der Diglyzeridkonzentration von vor Hormon“ nach nach Hormon“ signifikant ist.
”
”
Aus dem Experiment erhalten wir zwei Messreihen:
• xj , j = 1, . . . , 4 beschreibt die Werte der DG-Konzentration vor der Hormonverabreichung und
• yj , j = 1, . . . , 4 gibt die entsprechende Konzentration nach der Hormonverabreichung an.
Probe j
xj (ng/ml)
yj (ng/ml)
dj = yj − xj
dj − d¯
1
2
3 4
11 23 20 11
62 49 69 49
"
51 26 49 38
d¯ = 14 4j=1 dj = 41
"
¯ 2 = 132, 7
10 -15 8 -3 s(d)2 = 13 4j=1 (dj − d)
3.2. STATISTISCHE TESTS
71
Abbildung 3.2: Die Wanderheuschrecke (Locusta migratoria)
Da uns in diesem Fall die Erhöhung der Lipidkonzentration interessiert, betrachten
wir folgende rechtsseitige Fragestellung
H0 :
H1 :
µ = E[D] = 0
µ>0
Nullhypothese
Alternativhypothese
Wähle α = 0, 05 = 5%.
Die Prüfgröße berechnet sich nach der Vorschrift
t=
d¯
s(d)
√
4
41
=C
132,7
4
=√
41
41
≈
≈ 7, 12.
5, 76
33, 18
Der Annahmebereich der Nullhypothese ist
(−∞, t3;0,95 ] = (−∞; 2, 353].
Da 7, 12 ∈
/ (−∞; 2, 353] ist das Ergebnis signifikant; d. h. die Nullhypothese wird
auf dem Signifikanzniveau von 5% verworfen und die Alternativhypothese wird angenommen.
72
KAPITEL 3. INDUKTIVE STATISTIK
Tabelle 1: Werte von F0,1 (y)
y
.00
.01
.02
.03
.04
.05
.06
.07
.08
.09
.0
.1
.2
.3
.4
.5
.6
.7
.8
.9
1.0
1.1
1.2
1.3
1.4
1.5
1.6
1.7
1.8
1.9
2.0
2.1
2.2
2.3
2.4
2.5
2.6
2.7
2.8
2.9
3.0
3.1
3.2
3.3
3.4
0.5000
0.5398
0.5793
0.6179
0.6554
0.6915
0.7257
0.7580
0.7881
0.8159
0.8413
0.8643
0.8849
0.9032
0.9192
0.9332
0.9452
0.9554
0.9641
0.9713
0.9772
0.9821
0.9861
0.9893
0.9918
0.9938
0.9953
0.9965
0.9974
0.9981
0.9987
0.9990
0.9993
0.9995
0.9997
0.5040
0.5438
0.5832
0.6217
0.6591
0.6950
0.7291
0.7611
0.7910
0.8186
0.8438
0.8665
0.8869
0.9049
0.9207
0.9345
0.9463
0.9564
0.9649
0.9719
0.9778
0.9826
0.9864
0.9896
0.9920
0.9940
0.9955
0.9966
0.9975
0.9982
0.9987
0.9991
0.9993
0.9995
0.9997
0.5080
0.5478
0.5871
0.6255
0.6628
0.6985
0.7324
0.7642
0.7939
0.8212
0.8461
0.8686
0.8888
0.9066
0.9222
0.9357
0.9474
0.9573
0.9656
0.9726
0.9783
0.9830
0.9868
0.9898
0.9922
0.9941
0.9956
0.9967
0.9976
0.9982
0.9987
0.9991
0.9994
0.9995
0.9997
0.5120
0.5517
0.5910
0.6293
0.6664
0.7019
0.7357
0.7673
0.7967
0.8238
0.8485
0.8708
0.8907
0.9082
0.9236
0.9370
0.9484
0.9582
0.9664
0.9732
0.9788
0.9834
0.9871
0.9901
0.9925
0.9943
0.9957
0.9968
0.9977
0.9983
0.9988
0.9991
0.9994
0.9996
0.9997
0.5160
0.5557
0.5948
0.6331
0.6700
0.7054
0.7389
0.7704
0.7995
0.8264
0.8508
0.8729
0.8925
0.9099
0.9251
0.9382
0.9495
0.9591
0.9671
0.9738
0.9793
0.9838
0.9875
0.9904
0.9927
0.9945
0.9959
0.9969
0.9977
0.9984
0.9988
0.9992
0.9994
0.9996
0.9997
0.5199
0.5596
0.5987
0.6368
0.6736
0.7088
0.7422
0.7734
0.8023
0.8289
0.8531
0.8749
0.8944
0.9115
0.9265
0.9394
0.9505
0.9599
0.9678
0.9744
0.9798
0.9842
0.9878
0.9906
0.9929
0.9946
0.9960
0.9970
0.9978
0.9984
0.9989
0.9992
0.9994
0.9996
0.9997
0.5239
0.5636
0.6026
0.6406
0.6772
0.7123
0.7454
0.7764
0.8051
0.8315
0.8554
0.8770
0.8962
0.9131
0.9279
0.9406
0.9515
0.9608
0.9686
0.9750
0.9803
0.9846
0.9881
0.9909
0.9931
0.9948
0.9961
0.9971
0.9979
0.9985
0.9989
0.9992
0.9994
0.9996
0.9997
0.5279
0.5675
0.6064
0.6443
0.6808
0.7157
0.7486
0.7794
0.8078
0.8340
0.8577
0.8790
0.8980
0.9147
0.9292
0.9418
0.9525
0.9616
0.9693
0.9756
0.9808
0.9850
0.9884
0.9911
0.9932
0.9949
0.9962
0.9972
0.9979
0.9985
0.9989
0.9992
0.9995
0.9996
0.9997
0.5319
0.5714
0.6103
0.6480
0.6844
0.7190
0.7517
0.7823
0.8106
0.8365
0.8599
0.8810
0.8997
0.9162
0.9306
0.9429
0.9535
0.9625
0.9699
0.9761
0.9812
0.9854
0.9887
0.9913
0.9934
0.9951
0.9963
0.9973
0.9980
0.9986
0.9990
0.9993
0.9995
0.9996
0.9997
0.5359
0.5753
0.6141
0.6517
0.6879
0.7224
0.7549
0.7852
0.8133
0.8389
0.8621
0.8830
0.9015
0.9177
0.9319
0.9441
0.9545
0.9633
0.9706
0.9767
0.9817
0.9857
0.9890
0.9916
0.9936
0.9952
0.9964
0.9974
0.9981
0.9986
0.9990
0.9993
0.9995
0.9997
0.9998
3.2. STATISTISCHE TESTS
73
Tabelle 2: Kritische Werte der t-Verteilung mit n − 1-Freiheitsgraden
n − 1 tn−1;0,9
1
3,078
2
1,886
3
1,638
4
1,533
5
1,476
6
1,440
7
1,415
8
1,397
9
1,383
10
1,372
11
1,363
12
1,356
13
1,350
14
1,345
15
1,341
16
1,337
17
1,333
18
1,330
19
1,328
20
1,325
21
1,323
22
1,321
23
1,319
24
1,318
25
1,316
26
1,315
27
1,314
28
1,313
29
1,311
∞
1,282
tn−1;0,95
6,314
2,920
2,353
2,132
2,015
1,943
1,895
1,860
1,833
1,812
1,796
1,782
1,771
1,761
1,753
1,746
1,740
1,734
1,729
1,725
1,721
1,717
1,714
1,711
1,708
1,706
1,703
1,701
1,699
1,645
tn−1;0,975
12,76
4,303
3,182
2,776
2,571
2,447
2,365
2,306
2,262
2,228
2,201
2,179
2,160
2,145
2,131
2,120
2,110
2,101
2,093
2,086
2,080
2,074
2,069
2,064
2,060
2,056
2,052
2,048
2,045
1,960
tn−1;0,99
31,821
6,965
4,541
3,747
3,365
3,143
2,998
2,896
2,821
2,764
2,718
2,681
2,650
2,624
2,602
2,583
2,567
2,552
2,539
2,528
2,518
2,508
2,500
2,492
2,485
2,479
2,473
2,467
2,462
2,326
tn−1;0,995
63,657
9,925
5,841
4,604
4,032
3,707
3,499
3,355
3,250
3,169
3,106
3,055
3,012
2,977
2,947
2,921
2,898
2,878
2,861
2,845
2,831
2,819
2,807
2,797
2,787
2,779
2,771
2,763
2,756
2,576
n−1
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
∞
Herunterladen