Mathematik für Biologen 1 - IWR Heidelberg

Mathematik für Biologen 1
Dr. Maria Neuss-Radu
Universität Heidelberg
Wintersemester 2004/05
Inhaltsverzeichnis
1 Messen und Datenbeschreibung
1.1 Merkmale und Mess-Skalen . . . . . . . . . . . . . .
1.2 Die Zahlensysteme , , , . . . . . . . . . . . .
1.2.1 Die natürlichen Zahlen . . . . . . . . . . . .
1.2.2 Die ganzen Zahlen . . . . . . . . . . . . . .
1.2.3 Die rationalen Zahlen (Bruchzahlen) . . . .
1.2.4 Die reellen Zahlen . . . . . . . . . . . . . . .
1.2.5 Näherungswerte und signifikante Stellen . .
1.3 Empirische Analyse der Messergebnisse . . . . . . .
1.3.1 Empirische Häufigkeitsverteilung . . . . . .
1.3.2 Lagemaße und Streuungsmaße . . . . . . . .
1.3.3 Stochastische Abhängigkeit: Korrelation und
. . . . . . .
. . . . . . .
. . . . . . .
. . . . . . .
. . . . . . .
. . . . . . .
. . . . . . .
. . . . . . .
. . . . . . .
. . . . . . .
Regression .
2 Wahrscheinlichkeitsrechnung
2.1 Zufall und Wahrscheinlichkeit . . . . . . . . . . . . . . .
2.2 Diskrete Wahrscheinlichkeitsverteilungen . . . . . . . . .
2.2.1 Die Laplace Wahrscheinlichkeitsverteilung . . . .
2.2.2 Die Binomialverteilung . . . . . . . . . . . . . . .
2.2.3 Die Poissonverteilung . . . . . . . . . . . . . . . .
2.3 Wahrscheinlichkeitsverteilungen auf . . . . . . . . . .
2.3.1 Die Gleichverteilung . . . . . . . . . . . . . . . .
2.3.2 Die Normalverteilung . . . . . . . . . . . . . . . .
2.4 Zufallsvariable und ihre Verteilungen . . . . . . . . . . .
2.4.1 Verteilung einer Zufallsvariable . . . . . . . . . .
2.4.2 Erwartungswert und Varianz einer Zufallsvariable
2.5 Der zentrale Grenzwertsatz . . . . . . . . . . . . . . . . .
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
4
. 4
. 5
. 5
. 5
. 5
. 6
. 7
. 8
. 9
. 14
. 20
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
29
29
34
34
37
40
41
43
44
46
47
50
52
.
.
.
.
.
53
53
53
56
60
61
3 Induktive Statistik
3.1 Schätzverfahren . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
3.1.1 Schätzung von Maßzahlen einer Grundgesamtheit . . . . . .
3.1.2 Intervallschätzungen . . . . . . . . . . . . . . . . . . . . . .
3.2 Statistische Tests . . . . . . . . . . . . . . . . . . . . . . . . . . . .
3.2.1 Annahmebereich. Kritischer Bereich. Fehlerarten. . . . . . .
3.2.2 Test des Erwartungswertes einer normalverteilten Grundgesamtheit . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
2
. 63
INHALTSVERZEICHNIS
3.2.3
3
t-Test auf Lageunterschied bei verbundenen Stichproben . . . 64
4 Lösen von linearen Gleichungssystemen
4.1 Motivation: Lösungen einer Substanz . . .
4.2 Lineare (quadratische) Gleichungssysteme
4.2.1 Gaußsche Eliminationsmethode . .
4.3 Berechnen von Konzentrationen . . . . . .
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
69
69
69
71
73
Kapitel 1
Messen und Datenbeschreibung
1.1
Merkmale und Mess-Skalen
Bei Untersuchungen oder Beobachtungen von biologischen Vorgängen werden bestimmte Eigenschaften (Charakteristika) der zu untersuchenden Objekte gemessen
bzw. beobachtet. Diese Eigenschaften nennen wir Merkmale. Merkmale können
verschiedene Werte (Merkmalausprägungen) annehmen.
Der Informationsgehalt der gemessenen Werte hängt von der Skala ab, auf der die
Messung erfolgt. Merkmale können grob in qualitative und quantitative Merkmale eingeteilt werden. Man spricht von quantitativen Merkmalen, wenn sie zahlenmäßig erfassbar sind. Sind sie nur artmäßig erfassbar, so spricht man von qualitativen Merkmalen.
Bei allen qualitativen Merkmalen besteht die Mess-Skala aus endlich vielen, diskreten (isolierten) Werten, welche
1. bei der Nominal-Skala unabhängig von irgendeiner Reihenfolge mit treffenden Namen bezeichnet werden, z. B.
Merkmal
Ausprägung
Blutgruppe
{ 0, A, B, AB}
Rhesusfaktor {positiv, negativ}
2. bei der Ordinal-Skala zusätzlich der Reihenfolge nach angeordnet sind, z. B.
Merkmal
Ausprägung
Reifestadien
{ Ei, Larve, Puppe, Falter}
Schädlingsbefall {keiner, gering, mittel, stark}
Bei den quantitativen Merkmalen kann die Mess-Skala sowohl diskret (mit Hilfe
der ganzen Zahlen ) als auch kontinuierlich (anhand der reellen Zahlen ) gewählt
werden.
3. Bei der Intervall-Skala ist ein Bezugspunkt für die Abstands“-Messung,
”
der sogenannte Nullpunkt, willkürlich festgelegt (z. B. Christi Geburt, Gefrierpunkt von Wasser). Es lassen sich sinnvollerweise Summen und Differenzen der Skalenwerte bilden. Da der Nullpunkt nicht physikalisch zwingend ist,
4
1.2. DIE ZAHLENSYSTEME
, , , 5
sind Quotienten nicht interpretierbar.
Merkmal
Ausprägung Diskret/Kontinuierlich
Datum
12.10.2004
D
◦
Temperatur 16,2 C
K
4. Demgegenüber erlaubt die Verhältnis-Skala, wie der Name es auch ausdrückt, die Bildung von Quotienten (rationale Zahlen ) bezüglich eines absoluten Nullpunktes, z. B.
Merkmal
Ausprägung Diskret/Kontinuierlich
Anzahl Individuen 0,1,2,3...
D
Größe
5,6 cm
K
Welches Skalenniveau günstig ist, hängt von der Fragestellung, aber auch von
dem Messaufwand der eingesetzt werden kann ab.
1.2
Die Zahlensysteme
, , , Bei der Einführung der Mess-Skalen haben wir gesehen, dass Zahlen eine wichtige
Rolle bei der Beschreibung und Zusammenfassung von Messergebnissen spielen.
1.2.1
Die natürlichen Zahlen
Die beim Zählen oder Abzählen verwendeten natürlichen Zahlen werden mit
= {0, 1, 2, 3, 4, ...}
bezeichnet. Wir stellen die natürlichen Zahlen im Zehnersystem dar, d. h. basierend
auf Potenzen von 10. Z. B. steht 213785 für
213785 = 2 · 100000 + 1 · 10000 + 3 · 1000 + 7 · 100 + 8 · 10 + 5 · 1
= 2 · 105 + 1 · 104 + 3 · 103 + 7 · 102 + 8 · 101 + 5 · 100
1.2.2
Die ganzen Zahlen
Da das Rechnen mit natürlichen Zahlen Beschränkungen unterliegt, z. B. ist die
Differenz 12 − 15 in nicht durchführbar, verallgemeinert man dieses System durch
Hinzunahme aller negativen Zahlen. Man erhällt dabei die ganzen Zahlen
= {· · · , −3, −2, −1, 0, 1, 2, 3, · · · }.
1.2.3
Die rationalen Zahlen (Bruchzahlen)
Bruchzahlen treten in natürlicher Weise bei der Angabe von Verhältnissen auf: Um
”
die Substanz A anzusetzen, mische man 3 Teile der Fluessigkeit B und 5 Teile der
Flüssigkeit C.“ Insgesamt hat man dann 8 Teile (genauer: Volumen oder Gewichtseinheiten), so dass die Mischung zu 83 aus B und zu 58 aus C besteht.
6
KAPITEL 1. MESSEN UND DATENBESCHREIBUNG
Die rationalen Zahlen bezeichnet man mit
={
1.2.4
m
,m ∈
n
, n ∈
\ {0}}.
Die reellen Zahlen
Die reellen Zahlen kann man sich vorstellen als die Menge aller Punkte der unendlichen Zahlengeraden. Es stellt sich die Frage, ob die reellen Zahlen nicht dasselbe
sind wie die rationalen Zahlen. Dies ist nicht der Fall: Es gibt Lücken“ in . Auf
”
diese Lücken stößt man bereits, wenn man Wurzeln betrachtet. Die posititve Lösung
der Gleichung
x2 = 2
√ √
bezeichnet man mit 2. 2 kann nicht als Bruch geschrieben werden. Solche Zahlen
heißen irrationale Zahlen.
Dezimalbruchentwicklung
Wir wollen nun die rellen Zahlen konstruieren, indem wir sie immer besser durch
rationale Zahlen approximieren. Mathematisch präzise: wir zeigen, dass man jede
reelle Zahl x ≥ 0 als Limes einer Folge von Dezimalbrüchen erhalten kann.
Anschauliche Konstruktion:
Zuerst wählen wir ein minimales l ∈ , so dass
Z.B. bei x =
√
0 ≤ x < 10l+1
2 = 1, 4151.... ist l = 0, denn
√
0 ≤ 2 < 101 .
Dann legen wir auf dem Zahlenstrahl Gitter die immer feiner werdende Gittermaschen haben:
1 1
,...
10l , 10l−1 , . . . , 100, ,
10 100
1
kleiner und der
Bei jedem Schritt werden also die Gittermaschen um dem Faktor 10
Gitterpunkt, der von linkes am nächsten an x liegt, wird als neue Approximation
gewählt, in unseren Beispiel:
√
1 ≤ √2 < 2
1, 4 ≤ √2 < 1, 5
1, 41 ≤ 2 < 1, 42
...
Wir erhalten somit eine Folge von Dezimalzahlen wachsender Stellenzahl, deren
Glieder die reelle Zahl x immer besser approximieren:
√
1; 1, 4; 1, 41; 1, 414; 1, 4142; . . . → 2.
1.2. DIE ZAHLENSYSTEME
, , , 7
x= 2
.
0
1
2
3
4
5
7
6
8
9
10
.1,42
1,41,41
1,5
x= 2
Abbildung 1.1: Approximation durch Dezimalbrüche
Mathematische Konstruktion:
Wir wählen zuerst ein minimales l ∈
, so dass
0 ≤ x < 10l+1 .
Nun definieren wir :
s−(l+1) = 0,
sk = sk−1 + ak · 10−k
für k ≥ −l,
wobei ak ∈ {0, 1, . . . , 9} so gewählt wird, dass
sk−1 + ak · 10−k ≤ x < sk−1 + (ak + 1) · 10−k .
Damit ist eindeutig eine Folge (ak )k≥−l definiert und es gilt:
sk → x für
k → ∞.
Bemerkung 1 Die gleiche Konstruktion kann man mit Brüchen in einer beliebigen Basis b ∈ {2, 3, 4, 5, . . .} durchführen. Solche Brüche werden b-adische Brüche
genannt. Für viele Anwendungen ist die Entwicklung in der Basis 2 (Dualsystem)
besonders wichtig, da sie z. B. für die Codierung von Information benutzt werden
kann.
1.2.5
Näherungswerte und signifikante Stellen
Jede reelle Zahl hat also eine Darstellung als unendlicher Dezimalbruch. Da es aber in
der Praxis nicht möglich ist, mit unendlich vielen Dezimalstellen nach dem Komma
zu rechnen, bricht man die Dezimalentwicklung durch Runden an einer geeigneten
Stelle ab. Rundet man eine Dezimalzahl auf die n-te Stelle ab, so erhält man für
sie einen Näherungswert. Hierbei ist der Fehler zwischen dem Näherungswert und
der genauen Zahl kleiner oder gleich
∆x = 5 · 10−(n+1) .
Eine positive Zahl ∆x, die größer oder gleich dem absolut genommenen Fehler zwischen dem Näherungswert und der genauen Zahl ist, heißt absolute Fehlerschranke.
8
KAPITEL 1. MESSEN UND DATENBESCHREIBUNG
Alle Messvorgänge liefern in der Regel nur Näherungswerte. Wir nehmen einmal
an, dass ein Messverfahren eine Dezimalzahl bis zur n-ten Stelle liefert, etwa den
Messwert x̃ = 27, 3. Dabei ist also n = 1, was daher kommen kann, dass die Anzeige des Messgrätes nur solche Zahlen angibt oder es ist durch die Versuchsplanung
festgelegt worden, nur soweit abzulesen. Dann hat der Messwert einen Ablesefehler,
der durch δx = 0, 05 = 5 · 10−2 beschränkt ist. Die Dokumentation des Messwertes
lautet dann
x = x̃ ± δx,
was soviel bedeutet wie
x̃ − δx ≤ x ≤ x̃ + δx.
In unserem Beispiel:
x = 27, 3 ± 0, 05.
Hat man nun einen Messwert x̃ und einen Ablesefehler δx gegeben, so ist es sinnvoll
die Dezimaldarstellung von x̃ dort abzubrechen, wo die Fehlerschranke, die man
beim Runden des Messwertes erhält, von der gleichen Größenordnung ist wie der
Ablesefehler. Die Stellen, die dabei erhalten werden, heißen signifikante Stellen.
Beispiel 1 Hat man beispielsweise die Länge eines Tisches mit einem Zollstock
gemessen, so ist die Aussage, der Tisch sei x̃ = 1, 0753483 m lang, unsinnig, denn
der Ablesefehler bei einem Zollstock ist etwa δx = 0, 001m = 1mm, also von der
Ordnung 10−3 . Das Ergebnis sollte also 1, 08 m lauten, weil dann die Fehlerschranke
beim Runden ∆x = 5 · 10−3 von der selben Größenordnung ist wie die angegebene
Messgenauigkeit δx. Der Messwert hat also drei signifikante Stellen 1, 08.
Bei Messgeräten wird die Genauigkeit häufig in % angegeben. Dabei handelt es
sich dann um den relativen Fehler, genauer, die relative Fehlerschranke. Sie ist
definiert durch:
∆x
∆x :=
,
x
wobei ∆x die absolute Fehlerschranke ist.
1.3
Empirische Analyse der Messergebnisse
Möchte man ein bestimmtes Merkmal X untersuchen, so wird man eine Versuchsreihe aufstellen, bei welcher ein Versuch n-mal durchgeführt wird. Nach jedem Versuch notiert man, welche Ausprägung aufgetreten ist und erhält so eine Messreihe
(x1 , x2 , . . . , xn ).
Beispiel 2 (Endliches, diskretes Merkmal)
Merkmal: Anzahl der Blütenblätter der Butterblume (de Vries)
Mögliche Ausprägungen: {5, 6, 7, 8, 9, 10}
Messreihe:
j 1 2 3 4 5 6 7 8 9 · · · · · · 222
xj 6 8 7 10 6 5 5 9 5 · · · · · ·
5
1.3. EMPIRISCHE ANALYSE DER MESSERGEBNISSE
9
Abbildung 1.2: Die Butterblume
Beispiel 3 (Kontinuierliches Merkmal)
Merkmal: Gewicht einer gewissen Mäuseart
Mögliche Ausprägungen: alle reellen Zahlen zwischen 19
Messreihe:
j
1
2
3
4
5
6
7
8
xj 22,5 24,3 20,8 19,7 24,9 24,1 22,0 24,0
11
12
13
14
15
16
17
18
19,9 24,2 22,5 23,1 19,6 22,1 24,0 23,1
1.3.1
und 25
9
10
19,4 22,6
19
20
22,6 20,7
Empirische Häufigkeitsverteilung
Häufigkeitsverteilung bei endlichem diskretem Merkmal
Zu den diskreten Merkmalen zählen alle qualitativen Merkmale sowie die quantitativdiskreten Merkmale. Die Anzahl k der Ausprägungen eines diskreten Merkmals ist
in der Regel wesentlich kleiner als die Anzahl n der Elemente in der Messreihe und
damit überschaubar.
die möglichen Ausprägungen eines Merkmals X.
Seien {a1 , a2 , . . . , ak }, k ∈
Um Aussagen über eine Messreihe zu machen, kann man zunächst einmal zählen,
wie oft jede Ausprägung ai (i = 1, . . . , k) unter den xj (j = 1, . . . , n) vorkommt. Man
erhält die Häufigkeitszahlen
h(ai ) = Anahl der Messungen j, für die xj = ai .
h(ai ) heißt absolute (empirische) Häufigkeit der Ausprägung ai in der Messreihe. Die Gesamtheit der Werte h(ai ) bilden die absolute empirische Häufigkeitsverteilung
für das Merkmal X. Da sich alle n Messwerte x1 , x2 , . . . , xn auf die Ausprägungen
a1 , a2 , . . . , ak aufteilen, sind die absoluten Häufigkeiten ganze Zahlen zwischen 0 und
n, deren Summe genau die Anzahl n der Messwerte ergibt, in Formeln:
h(ai ) ∈
0 ≤ h(ai ) ≤ n
k
X
i=1
h(ai ) := h(a1 ) + h(a2 ) + ... + h(ak ) = n
(1.1)
(1.2)
(1.3)
10
KAPITEL 1. MESSEN UND DATENBESCHREIBUNG
Um den Anteil eines Merkmals ai am Gesamtvorkommen zu ermitteln, berechnen
wir die relativen Häufigkeiten
h(ai )
, i = 1, 2, ..., k
(1.4)
n
Aus den Eigenschaften für die absoluten Häufigkeiten (1.1)-(1.3) ergibt sich:
r(ai ) :=
r(ai ) ∈
(1.5)
0 ≤ r(ai ) ≤ 1
k
X
(1.6)
r(ai ) := r(a1 ) + r(a2 ) + ... + r(ak ) = 1
(1.7)
i=1
Für die graphische Darstellung einer diskreten Häufigkeitsverteilung benutzt man
Stabdiagramme, die man erhält, indem man über den Ausprägungen ai Stäbe
zeichnet, deren Höhe entweder den absoluten Häufigkeiten h(ai ) oder den relativen
Häufigkeiten r(ai ) entspricht. Betrachten wir das Beispiel 2 so haben wir:
P
Anzahl der Blütenblätter ai
5
6
7
8
9
10
Absolute Häufigkeit h(ai )
133
55
23
7
2
2 222
133
55
23
7
2
2
Relative Häufigkeit r(ai )
1
222
222
222
222
222
222
Relative Häufigkeit r(ai ) in % 59.9 24.8 10.3 3.2 0.9 0.9 100
h(a i )
r (a i ) (in %)
133
59,9
55
24,8
23
7
2
10,4
3,1
0,9
5
6
7
8
9 10
ai
5 6 7 8 9 10
ai
Abbildung 1.3: Stabdiagramme der absoluten und relativen Häufigkeiten
Zur Zeichnung des Diagramms der relativen Häufigkeiten braucht man am Diagramm der absoluten Häufigkeiten nur eine Skalenänderung an der vertikalen Achse
vorzunehmen. Man gibt daher meistens beide Diagramme durch eine Zeichnung wider mit zwei Skalen an der vertikalen Achse.
1.3. EMPIRISCHE ANALYSE DER MESSERGEBNISSE
11
Ein weiterer Häufigkeitsbegriff, der für die Beschreibung empirischer Daten weitere Aussagen liefert, ist die Summenhäufigkeit. (Ihr Analogon als Verteilungsfunktion wird uns in der Wahrscheinlichkeitsrechnung wieder begegnen). Für unser
Beispiel ist es sinnvoll zu fragen, wieviele Butterblumen höchstens m Blütenblätter
haben (m = 5, 6, 7, 8, 9, 10). Dazu summieren wir einfach die Häufigkeiten für die
Blütenblätterzahlen von 1 bis m auf und erhalten das Stabdiagramm der absoluten
und relativen Summenhäufigkeiten aus Abb. 1.4.
hh(a m) rr(a m) (in %)
222
220
218
211
100
99,1
98,2
95,1
188 84,7
133 59,9
5 6 7 8 9 10
am
Abbildung 1.4: Stabdiagramme der Summenhäufigkeiten
Allgemein lässt sich für jedes diskrete, ordinal-skalierte Merkmal der Begriff der
absoluten Summenhäufigkeit der Ausprägung am definieren als
hh(am ) = h(a1 ) + ... + h(am ) =:
m
X
i=1
h(ai ) =:
X
h(ai )
i≤m
hh(am ) gibt an, wie oft eine der ersten m Ausprägungen a1 , a2 , ..., am unter den
Messwerten vorkommt. Entsprechend definieren wir dir relative Summenhäufigkeit als
m
X
X
rr(am ) = r(a1 ) + ... + r(am ) =:
r(ai ) =:
r(ai )
i=1
i≤m
Für die höchste Ausprägung gilt:
rr(ak ) =
k
X
r(ai ) = 1 (siehe (1.7))
i=1
Häufigkeitsverteilungen bei kontinuierlichem Merkmal
Betrachten wir zunächst das Beispiel 3. Tatsächlich haben die Mäuse nicht genau
das Gewicht 22,5g, 24,3g usw. Die abgelesenen Werte basieren auf einer vorher
vereinbarten Messgenauigkeit - in unserem Fall von 5 · 10−2 . Gewicht von 22,5g
12
KAPITEL 1. MESSEN UND DATENBESCHREIBUNG
bedeutet also genau genommen, dass das Gewicht im Interwall 22, 5 ± 5 · 10−2 liegt.
Bei dieser Messung sind also alle Ausprägungen, die zwischen 22,45 und 22,55 liegen
zu einer Klasse zusammengefasst. Diese Klassenbreite ist aber für unsere relativ
kleine Messreihe viel zu fein. Wir müssten die 20 Messwerte auf etwa 60 Klassen
aufteilen. Dabei entstehen also viele Klassen mit keinem Element und viele mit einem
Element. Um aus einer Messreihe in der Praxis Nutzen zu ziehen, sollte sie so groß
sein, dass in jeder Klasse ausreichend viele“ Messwerte fallen. Steht jedoch nur eine
”
begrenzte Anzahl von Messwerten zur Verfügung, so muss man die Klassenbreite so
groß wählen, dass in jede Klasse einige“ Messwerte fallen. In unserem Beispiel 3 ist
”
letzteres der Fall. Wir wählen die Klassenbreite auf zwei Arten:
1. Klassen mit Klassenbreite 1g: [19-20[, [20-21[, ..., [24-25[
2. Klassen mit Klassenbreite 2g: [19-21[, [21-23[, [23-25[
Nun bestimmen wir für diese Klassen jeweils die Häufigkeiten:
1.
ai
h(ai )
19-20 20-21 21-22 22-23 23-24 24-25
4
2
0
6
3
5
2.
ai
h(ai )
19-21 21-23 23-25
6
6
8
Wir sehen, dass die erste Klassenbreite (1g) noch immer zu fein ist, da Klassen
entstehen, welche keinen Messwert enthalten.
Allgemeiner legen wir eine Klassifizierung einer kontinuierlichen Skala folgendermaßen fest: Wir bestimmen den kleinsten Wert xmin := min{x1 , x2 , . . . , xn } und den
größten Wert xmax := max{x1 , x2 , . . . , xn } der Messreihe. Dann wählen wir Klassengrenzen
c 0 < c1 < · · · < ck
so dass c0 ≤ xmin und xmax < ck , wobei die Klassenbreite b (gewöhnlich) konstant
gewählt wird, d.h.
b = ci − ci−1 , i = 1, . . . , k.
Ein Messwert xj liegt dann in der Klasse ai = [ci−1 , ci [, falls ci−1 ≤ xj < ci gilt.
Durch die Klassenbildung erhält man eine endliche Liste von Ausprägungen und
hat das seiner Natur nach kontinuierliche Merkmal als ein diskretes aufgefasst. Damit
können die Begriffe der Häufigkeitsverteilung auf klassifizierte Messreihen übertragen werden. Die absolute Klassenhäufigkeit
h(ai ) = h([ci−1 , ci [)
ist gleich der Anzahl der Messwerte, die in die Klasse ai = [ci−1 , ci[ fallen. Die
relativen Klassenhäufigkeiten definiert man dann als
r(ai ) = r([ci−1 , ci [) :=
h(ai )
.
n
1.3. EMPIRISCHE ANALYSE DER MESSERGEBNISSE
13
Basierend auf den absoluten und relativen Klassenhäufigkeiten berechnet man die
Summenhäufigkeiten ebenso wie bei diskreten Merkmalen. Die absoluten und relativen Klassenhäufigkeiten werden üblicherweise mit Hilfe von Balkendiagrammen
dargestellt, wobei als Balkenbreite die Klassenbreite gewählt wird. Für das Beispiel 3
(mit Klassenbreite b = 2) sind die Histogramme in Abb.1.5 gegeben. Erhöht man die
h
r
8
8 20
6
6 20
19
21
23
25
ai
Abbildung 1.5: Absolute und relative Klassenhäufigkeiten
Anzahl der Messungen, so kann man die Klassenbreite feiner wählen, was zu einer
genaueren Beschreibung der Häufigkeitsverteilung führt. Oft ist es der Fall, dass mit
immer feiner werdenden Klassenbreite (bei entsprechender Erhöhung der Messwerteanzahl) die Häufigkeitsverteilung immer besser durch eine stetige Funktion approximiert wird. Im nächsten Kapitel werden wir auf Grund ähnlicher Überlegungen
Dichte-Funktionen einführen, mit Hilfe deren kontinuierliche Wahrscheinlichkeitsmodelle konstruiert werden.
Befassen wir uns nun mit der Frage der relativen Häufigkeit, mit der Ausprägungen vorkommen, die kleiner sind als x ∈ , so gilt:
1. Für x = ci , i = 1, . . . , k, ist die relative Häufigkeit mit der Ausprägungen
kleiner als x vorkommen gleich rr(ai ), der Summenhäufigkeit der Klasse ai .
Wir bemerken, dass rr(ai ) den Flächen-Anteil links von ci im Histogramm des
klassifizierten Merkmals darstellt, denn
Fläche links von ci = rr(ai ) · b
Wir bezeichen nun mit F (x) den Flächen-Anteil links von x im Histogramm.
Es gilt also
F (c0 ) = 0 und F (ci ) = rr(ai), i = 1, . . . , k.
2. Für x ∈ [ci−1 , ci [ approximieren wir die relative Häufigkeit, mit der Ausprägungen kleiner als x vorkommen, durch den Flächen-Anteil links von x im Histogramm. Dieser Anteil berechnet sich wie folgt:
F (x) = rr(ai−1 ) +
| {z }
F (ai−1 )
r(ai )
(x − ci−1 )
b
14
KAPITEL 1. MESSEN UND DATENBESCHREIBUNG
h
r
2F(x)
8
8 20
6
6 20
19
21 x 23
25
x
Abbildung 1.6: Fläche links von x im Histogramm
Im Beispiel 3 ist b = 2. Der Flächen-Anteil der schraffierten Fläche im Histogramm
Abb. 1.6 gibt den Wert F (x) an. Wir erhalten somit die empirische Verteilungsfunktion für ein klassifiziertes Merkmal. Sie ist gegeben durch:

, x ≤ c0
 0
r(ai )
F (x) =
F (ci−1 ) + b (x − ci−1 ) , x ∈ [ci−1 , ci [, i = 1, · · · , k

1
, x ≥ ck
Im Falle des Beispiels 3 ist das Schaubild von F in Abb. 1.7 dargestellt:
F(x)
1
12
20
6
20
19
21
23
25
x
Abbildung 1.7: Empirische Verteilungsfunktion F (x)
1.3.2
Lagemaße und Streuungsmaße
Aufgrund eines Diagramms, z. B. Stab- oder Balkendiagramm, lassen sich folgende
Eigenschaften einer Verteilung qualitativ abschätzen:
• Lage der Datenwerte: In welchen Bereichen konzentrieren sich die Daten?
• Streuung: Wie weit streuen die Werte? Gibt es Ausreisser?
• Form: Hat die Verteilung eine besondere Form? Ist sie symmetrisch?
1.3. EMPIRISCHE ANALYSE DER MESSERGEBNISSE
15
Für eine statistische Datenanalyse sind aber Kenngrößen gefordert die die oben genannten Eigenschaften quantitativ beschreiben. Mit derartigen Kenngrößen werden
wir uns in diesem Paragraph beschäftigen.
Lagemaße
Lagemaße sollen das Zentrum representieren, um das die Daten streuen. Ein Lagemaß, welches für alle ordinalskalierten Merkmalen definiert werden kann, ist das
zentrale Wertepaar (bzw. der Median). Um es zu bestimmen, werden die Messdaten
x1 , x2 , . . . , xn
der Größe nach geordnet. Man erhält die geordnete Messreihe
xmin = x(1) , x(2) , . . . , x(n) = xmax
Dabei ist x(1) der kleinste, x(2) der zweitkleinste und x(n) der größte Datenwert. Es
gibt zwei Fälle:
1. n gerade
Dann kann die geordnete Reihe in zwei gleich lange Stücke aufgeteilt werden.
x(1) , x(2) , . . . , x( n2 ) , x( n2 +1) , . . . , x(n)
2. n ungerade
In diesem Falle gibt es ein mittleres Element, nämlich x( n+1 ) , in dem Sinne,
2
dass vor und nach ihm gleich viele Elemente kommen:
x(1) , x(2) , . . . , x( n+1 −1) , x( n+1 ) , x( n+1 +1) , . . . , x(n)
2
2
2
Im ersten Fall setzen wir Z1 = x( n2 ) , Z2 = x( n2 +1) .
Im zweiten Fall: Z1 = Z2 = Z = x( n+1 ) .
2
(Z1 , Z2 ) nennen wir das zentrale Wertepaar, im zweiten Fall Z auch den Zentralwert
oder Median.
Ist das Merkmal sogar quantitativ, so definiert man als Zentralwert (Median)
Z=
Z1 + Z2
.
2
Der Median teilt also die geordnete Messreihe in zwei Hälften: Die eine Hälfte der
Daten ist höchstens so groß wie der Median, die andere Hälfte mindestens so groß.
Beispiel 4 (Untersuchung von Kranken auf den Erkrankungsgrad)
Das Merkmal Erkrankungsgrad hat folgende Ausprägungen:
L
M
leicht mittel
S
G
schwer lebensgefährlich
16
KAPITEL 1. MESSEN UND DATENBESCHREIBUNG
Die Skala ist nur eine Ordinalskala. Dem Gradunterschied kommt also keine quantitative Bedeutung zu. Die Messreihe ist:
L
M
M
L
L
M
M
S
S
M
G
Die geordnete Messreihe:
L
M
S
S
G
Wir erhalten
Z1 = x(4) = M,
Z2 = x(5) = M
Die praktische Bedeutung lautet in Worten: Bei 50% der Patienten ist die Krankheit
höchstens mittelstark, bei 50% ist sie mindestens mittelstark.
Von Lagemaßen erwartet man dass sie die Lage der Werte xj optimal schätzten,
d. h. die Abweichungen der xj von dem Lagemaß sollten möglichst gering sein. Für
den Median einer quantitativen Messreihe gilt in diesem Sinne folgende Minimumseigenschaft:
Satz 1 (Minimumeigenschaft des Medians)
Gegeben sei die Messreihe (x1 , x2 , . . . , xn ) für ein quantitatives Merkmal X. Der
Median erfüllt folgende Eigenschaft:
n
X
j=1
|xj − Z| ≤
n
X
j=1
|xj − c|,
∀c ∈
.
Bemerkung 2 Aus der Definition der relativen Häufigkeit folgt, dass Z1 diejenige Ausprägung ist, bei der die relative Summenhäufigkeit zum ersten Mal 50% erreicht oder übersteigt. Damit kann man das zentrale Wertepaar aus dem Diagramm
der Summenhäufigkeiten leicht bestimmen. Bei kontinuierlichen Merkmalen, wo nur
noch die Information über die Klassenhäufigkeit vorliegt, kann man den klassifizierten Median mit Hilfe der empirischen Verteilungsfunktion ermitteln, und zwar ist es
der Wert Z, für den gilt:
F (Z) = 0.5
(1.8)
Wenn alle Klassen nichtleer sind, dann ist die Verteilungsfunktion streng monoton wachsend und der durch die Gleichung (1.8) bestimmte Wert Z ist eindeutig
definiert.
Das bekannteste Lagemaß, welches für quantitative Merkmale definiert werden kann, ist das arithmetische Mittel (der Mittelwert). Für eine Messreihe
(x1 , x2 , . . . , xn ) ist es definiert als
n
1
1X
x̄ = (x1 + x2 + . . . + xn ) =
xj
n
n j=1
1.3. EMPIRISCHE ANALYSE DER MESSERGEBNISSE
17
Kommen unter den Messwerten x1 , x2 , . . . , xn genau die Ausprägungen a1 , a2 , . . . , ak ,
mit den absoluten Häufigkeiten h(a1 ), h(a2 ), . . . , h(ak ) vor, so folgt:
1
(x1 + x2 + . . . + xn )
n
1
=
(h(a1 )a1 + h(a2 )a2 + . . . + h(ak )ak )
n
k
1X
=
h(ai )ai
n i=1
x̄ =
k
X
h(ai )
=
i=1
k
X
=
n
(1.9)
ai
r(ai )ai
(1.10)
i=1
Auch der Mittelwert besitzt eine Minimumseigenschaft die im folgenden Satz
formuliert wird.
Satz 2 (Minimumeigenschaft des Mittelwertes) Für den Mittelwert x̄ einer
Messreihe (x1 , x2 , . . . , xn ) gilt:
n
X
j=1
(xj − x̄)2 ≤
n
X
j=1
(xj − c)2 ,
∀c ∈
.
Bemerkung 3 x̄ ist abhängig von der Größe jedes einzelnen Messwertes xj . Das
bedeutet, dass ein Ausreisser“ das arithmetische Mittel bei kleinen Messreihen stark
”
beeinflussen kann. Bei kleinen Messreihen nimmt man daher für die Beschreibung
der Lage der Messwerte oft lieber den Zentralwert.
Bei klassifizierten Daten ist es rechnerisch weniger aufwendig die Lagemaße basierend auf den Klassenmitten
a∗i =
ci−1 + ci
2
und den Klassenhäufigkeiten h(ai ) zu ermitteln (anstatt alle Stichprobenwerte xj zu
berücksichtigen). Der klassifizierte Mittelwert lässt sich demnach berechnen als
k
k
X
1X
x̄kl =
h(ai )a∗i =
r(ai )a∗i
n i=1
i=1
Der klassifizierte Mittelwert stimmt nicht genau mit dem Mittelwert der Messreihe
überein, ist aber für immer größer werdende Messreihen immer näher bei x̄.
18
KAPITEL 1. MESSEN UND DATENBESCHREIBUNG
Streuungsmaße
Wenn sich zwei Verteilungen hinsichtlich ihrer Lagemaße ähneln, können sie dennoch aufgrund der Streuung der Messwerte sehr unterschiedlich sein. Mit Hilfe der
Streuungsmaße können wir die Abweichungen vom Lagemaß quantifizieren.
In diesem Abschnitt betrachten wir wieder ein quantitatives Merkmal mit einer
Intervallskala aus ganzen oder reellen Zahlen. Das am einfachsten zu berechnende
Streuungsmaß ist die Spannweite (oder Variationsbreite):
R = xmax − xmin = x(n) − x(1)
Die Spannweite R berücksichtigt nur die beiden extremsten Werte und ist daher
von Ausreissern sehr stark beeinflusst. Die meist verwendeten Kennzahlen für die
Streuung erhält man folgendermaßen: Wir wählen als Lagemaß das arithmetische
Mittel und betrachten die quadratischen Abstände
(x1 − x̄)2 , (x2 − x̄)2 , . . . , (xn − x̄)2
Als Kennzahl wählen wir dann das arithmetische Mittel dieser Abstände. Wir erhalten die mittlere quadratische Abweichung (oder Varianz)
n
σ(x)2 =
1X
(xj − x̄)2
n j=1
In der Praxis wird oft die sogenannte empirische Varianz benutzt, die gegeben
ist als
n
1 X
2
s(x) =
(xj − x̄)2 .
n − 1 j=1
Die Gründe dafür werden in einem späteren Kapitel klar werden.
Da die Maßeinheit für die Varianz das Quadrat der Maßeinheit der Messwerte
ist, ist diese Größe schwer zu interpretieren. Deswegen definiert man die Standardabweichung
v
u X
u1 n
σ(x) = t
(xj − x̄)2
n j=1
und entsprechend die empirische Standardabweichung
p
s(x) = s(x)2
Die Bedeutung von σ(x) besteht unter anderen darin, dass im Intervall ]x̄−σ(x), x̄+
σ(x)[ viele“ Messwerte liegen. Das obengenannte Intervall heißt Standard-Streuintervall.
”
Generell findet man bei allen Verteilungen mindestens 43 aller Werte im Intervall
]x̄ − 2σ(x), x̄ + 2σ(x)[ und 98 aller Werte im Intervall ]x̄ − 3σ(x), x̄ + 3σ(x)[.
Ein nützlicher Ausdruck für die Varianz, vor allem im Hinblick auf die Übertragung auf klassifizierte Daten, ist gegeben durch:
k
k
X
1X
h(ai )a2i − x̄2 =
r(ai )a2i − x̄2
σ(x) =
n i=1
i=1
2
1.3. EMPIRISCHE ANALYSE DER MESSERGEBNISSE
19
Im Falle klassifizierter Daten erhalten wir also die klassifizierte Varianz als
k
σ(x)2kl =
k
X
1X
h(ai )(a∗i )2 − x̄2 =
r(ai )(a∗i )2 − x̄2
n i=1
i=1
wobei a∗i wieder die Klassenmitte darstellen soll.
Anwendung von Mittelwert und Varianz bei der Überprüfung der Genauigkeit und Präzision einer Pipette. (Grundpraktikum C)
Die Genauigkeit einer Pipette bezeichnet die Differenz zwischen dem Mittelwert
einer Anzahl wiederholter Messungen und dem Nominalwert. Die Präzision gibt an
wie gut die Messwerte übereinstimmen.
Versuch: Mit einer Kolbenhubpipette werden 100µl destilliertes Wasser pipettiert
und das Gewicht der Probe gemessen. Dieses Vorgehen wird weitere 9 Mal wiederholt. Man erhält z.B. folgende Messreihe (gj ist das Gewicht der j - ten Probe):
1
2
3
4
5
6
7
8
9
10
j
gj (in mg) 103,1 100,3 100,1 100,4 97,6 100,3 100,1 100,0 100,0 97,9
Da die Dichte des Wassers d(H2 O) = 1g/cm3 ist, kann aus dem Gewicht einer Probe
ihr Volumen berechnet werden. Man erhält dabei folgende Werte (vj ist das Volumen
der j - ten Probe):
j
vj (in µl )
1
2
3
4
5
6
7
8
9
10
103,1 100,3 100,1 100,4 97,6 100,3 100,1 100,0 100,0 97,9
Abbildung 1.8: Die Kolbenhubpipette
Um die Genauigkeit zu überprüfen bildet man zuerst den Mittelwert der Messreihe
n
1X
1
· 999, 8 = 99, 98.
v̄ =
vj =
n j=1
10
Die Genauigkeit E berechnet sich dann als
E = | v̄ − v0 | = | 99, 98 − 100 | = 0, 02,
(µl)
20
KAPITEL 1. MESSEN UND DATENBESCHREIBUNG
wobei v0 = 100µl der Nominalwert ist. Die relative Genauigkeit (in %) ist gegeben
durch
E
0, 02
· 100 = 0, 02.
(%)
· 100 =
v0
100
Als Maß für die Präzision benutzt man die empirische Standardabweichung (bzw.
den Variationskoeffizienten). Für die Standardabweichung erhalten wir
sP
n
2
j=1 (vj − v̄)
s(v) =
= 1, 496
(µl)
n−1
Um die Standardabweichung mit der Größe der Messwerte in Bezug zu bringen,
berechnen wir den Variationskoeffizienten
V =
s(v)
1, 496
=
= 0, 01496
v̄
99, 98
V = 1, 496%
Wir möchten nun die Frage beantworten, ob die untersuchte Pipette genau und
präzise ist. Die Herstellerrichtlinien für die Pipette schreiben vor:
• relative Genauigkeit
E
v0
≤ 0, 80%
• Variationskoeffizient V ≤ 0, 15%
Aus unseren Berechnungen folgt also, dass die untersuchte Pipette zwar genau aber
nicht präzise ist (und daher an den Hersteller zurückgeschickt werden müßte).
Symmetrieeigenschaften empirischer Verteilungen
Hat das Stabdiagramm bzw. das Histogramm einer Häufigkeitsverteilung nur eine
Spitze, so spricht man von einer eingipfligen Verteilung. Anderenfalls nennt man die
Verteilung mehrgipflig.
Geht das Diagramm einer Häufigkeitsverteilung nach einer Spiegelung an einer
zur y-Achse parallelen Geraden wieder in sich selbst über, so heißt die Verteilung
symmetrisch, sonst: schief.
Zur Veranschaulichung dieser Begriffe siehe Aufgabe 4 auf dem Übungsblatt 3.
1.3.3
Stochastische Abhängigkeit: Korrelation und Regression
Bei vielen Untersuchungen biologischer Phänomene werden mehrere Merkmale der
Beobachtungseinheiten erfasst, z.B. Länge und Gewicht, Höhe und Biomasse bei
Pflanzen, Düngermenge, Regenmenge und Ernteertrag usw. In diesen Fällen ist es
interessant und wünschenswert, nicht nur die einzelnen Merkmale zu beschreiben,
sondern auch den Zusammenhang zwischen zwei oder mehreren Merkmalen zu untersuchen.
1.3. EMPIRISCHE ANALYSE DER MESSERGEBNISSE
21
Aus der Mathematik und der Physik sind Zusammenhänge zwischen zwei oder
mehreren Größen gut bekannt. So besteht beispielsweise zwischen dem Umfang U
und dem Radius r eines Kreises die lineare Beziehung U = 2πr. Der Weg S, den
ein aus dem Ruhestand frei nach unten fallender Körper nach der Zeit t zurück
gelegt hat, ist gegeben durch S = 21 gt2 , g Gravitationskonstante. Diese Art von Zusammenhängen nennt man funktional. Eine Größe kann aus einer anderen mittels
einer Funktion exakt berechnet werden. Die Zusammenhänge in den Biowissenschaften sind oft stochastisch; d.h. sie werden auch vom Zufall beeinflußt. Demzufolge
kann nicht jedem Wert einer Größe ein eindeutiger Wert der anderen Größe zugeordnet werden, sondern ein ganzer Bereich, in dem die Werte entsprechend einer
Zufallsverteilung liegen.
In diesem Paragraphen werden wir uns damit beschäftigen, den Zusammenhang
zwischen zwei Merkmalen nachzuweisen und zu beschreiben.
Punktwolke und Korrelation
Untersucht man zwei quantitative Merkmale X und Y , wie etwa die Körpergröße von
Menschen (in cm) und das Körpergewicht (in kg) so erhält man als Messreihe eine
endliche Folge (xj , yj ) von Zahlenpaaren. Das folgende Beispiel zeigt die Messwerte
für die Körpergröße und das Gewicht von 241 Männern.
X(cm)
Y (kg)
189 168 175 177 181 169 172 175 176 174 . . .
85 70 72 81 79 65 71 73 84 65 . . .
172
72
Stellt man diese Messpaare als Punkte der Ebene dar, so erhält man eine Punktwolke (s. Abb. 1.9). An dem obigen Beispiel ist anschaulich zu erkennen: Wenn X
Abbildung 1.9: Punktwolke
wächst, so steigt auch Y im Mittel an. Es besteht also eine Abhängigkeit oder ein
22
KAPITEL 1. MESSEN UND DATENBESCHREIBUNG
Zusammenhang zwischen den beiden Messreihen. Man kann auch sagen, es gibt eine
Korrelation zwischen X und Y .
Anhand der Punktwolke sind zwei charakteristische Eigenschaften eines Zusammenhanges auf einen Blick erkennbar:
• Die Stärke des Zusammenhangs: Je dichter die Punkte beieinander liegen,
desto stärker ist der Zusammenhang. Mithilfe der Korrelationsanalyse lassen
sich Kennzahlen berechnen, die die Stärke des Zusammenhangs quantifizieren.
• Die Art des Zusammenhangs: Die Art wird durch eine mathematische Funktion
angegeben, die den Zusammenhang am besten beschreibt. Es ist Aufgabe der
Regressionsanalyse diese Funktion zu finden.
Wenn, wie in unserem Beispiel, der Zusammenhang durch eine Gerade charakterisiert werden kann, spricht man von einem linearen Zusammenhang. Die dazugehörende Gerade nennt man Regressionsgerade. Die positive Steigung der Regressionsgeraden besagt, dass zwischen Körpergröße und Körpergewicht ein gleichsinniger Zusammenhang besteht oder es besteht eine positive Korrelation. Bei negativer Steigung spricht man von negativer Korrelation.
Kennzahlen für lineare Abhängigkeit
Wenn die Punktwolke so geartet ist, dass sich mittendurch eine Gerade legen lässt,
um die die Punkte elipsenförmig liegen, so kann man den Zusammenhang als linear
ansehen. Um den linearen Zusammenhang zwischen zwei Merkmalen X und Y durch
eine Kennzahl zu quantifizieren, gehen wir wie folgt vor:
Wir betrachten Produkte von der Form
(xj − x̄)(yj − ȳ),
wobei x̄ und ȳ die Mittelwerte der Messreihen (x1 , . . . , xn ) bzw. (y1 , . . . , yn ) sind.
Die Mittelwerte x̄ und ȳ teilen die Ebene, und damit die Daten, in 4 Quadranten.
Für Daten im ersten und im dritten Quadranten sind die obigen Produkte
(xj − x̄)(yj − ȳ) ≥ 0,
für die Daten im zweiten und vierten Quadranten negativ. Wenn sich also die Daten
um eine Gerade mit positiver Steigung gruppieren, d.h. im Quadranten I und III
liegen, ist zu erwarten, dass gilt:
n
1X
σ(x, y) =
(xj − x̄)(yj − ȳ) ≥ 0.
n j=1
Bei Messwerten im Quadranten II und IV ist σ(x, y) ≤ 0. Wenn sich die Daten auf
alle vier Quadranten verteilen so ist der obige Mittelwert ungefähr 0.
1.3. EMPIRISCHE ANALYSE DER MESSERGEBNISSE
23
Die Größe σ(x, y) heißt Kovarianz. Wie schon bei der Varianz erwähnt, wird
auch bei der Kovarianz in der Praxis nicht der Mittelwert der Terme (xj − x̄)(yj − ȳ)
sondern die empirische Kovarianz
n
1 X
σ(x, y) =
(xj − x̄)(yj − ȳ)
n − 1 j=1
benutzt. An der Kovarianz ist also zu sehen, ob positive oder negative lineare Korrelation besteht. Die Kovarianz ist aber wenig informativ zur quantitativen Beurteilung der Frage, ob ein Zusammenhang besonders eng oder eher lose ist, denn der
Betrag der Kovarianz ist abhängig vom jeweiligen Maßstab der zur Messung verwendet wird. Um ein normiertes Maß zur Quantifizierung der Korrelation zu erhalten
nehmen wir zuerst an, dass alle (xj , yj ) auf einer Geraden y = a x + b liegen. Dann
ist die Kovarianz
n
σ(x, y) =
1X
(xj − x̄) (a xj + b − a x̄ − b)
n j=1
n
=
1X
(xj − x̄) a (xj − x̄)
n j=1
n
=
aX
(xj − x̄)2 = a σ(x)2 .
n j=1
(1.11)
Berechnen wir nun
n
σ(y)2 =
1X
(yj − ȳ)2
n j=1
n
=
1X
(a xj + b − a x̄ − b)2
n j=1
n
=
1X 2
a (xj − x̄)2 = a2 σ(x)2
n j=1
Daraus folgt
σ(y) = ± a σ(x).
(1.12)
Es folgt also durch Einsetzen von (1.12) in (1.11)
|σ(x, y)| = σ(x) σ(y)
Im allgemeinen gilt aber
|σ(x, y)| ≤ σ(x) σ(y)
und das Gleichheitszeichen gilt genau dann, wenn die (xj , yj ) auf einer Geraden
liegen. Bildet man also für σ(x) 6= 0 und σ(y) 6= 0 die Größe
r(x, y) =
σ(x, y)
σ(x)σ(y)
24
KAPITEL 1. MESSEN UND DATENBESCHREIBUNG
genannt linearer Korrelationskoeffizient, so gilt
−1 ≤ r(x, y) ≤ 1.
Mit Hilfe des Korrelationskoeffizienten r können wir nun folgende Aussagen über
eine lineare Korrelation machen:
1. Falls |r| = 1 so liegen (xj , yj ) auf einer Geraden (es besteht perfekte Korrelation)
2. Falls r > 0 (bzw. (r < 0) besteht positive (bzw. negative) Korrelation und
umso näher r bei 1 oder −1 ist, desto stärker ist die Korrelation.
Für unser Beispiel ist der Korrelationskoeffizient r(x, y) = 0, 55, also eine eher lose
Korrelation, was auch aus der Punktwolke in Abb.1.9 ersichtlich ist.
y
y
y
x
y
v
8
9
v
w
8
9
t
u
6
6
7
z
{
:
;
2
:
;
2
3
4
5
s
p
p
q
r
n
.
0
.
/
n
o
0
1
*
*
+
j
k
,
l
m
d
e
-
h
i
(
)
b
c
$
%
$
%
f
g
&
f
g
'
"
#
"
#
`
!
`
a
!
_
r=1
r = 0,95
x
y
\
\
]
r = 0,3
^
x
y
x
y

Z
[

X
Y

¶
¶
·
X
Y
V
W
V
W

R
S
R
S
T
U

R
S
²
³
´
´
µ
µ
º
º
»
¼
¼
½
½
R
S
P
Q
P
Q

N
O

°
±
°
±
L
M
¸
¹
J
K

¦
§
¦
§
H
I

®
¯

F
G

ª
«
¬

¨
¨
©
D
E

¤
¥
¢
£
¢
£
¡

r = −1

¤
¥
¢
£
¢
£

|
}
~
r=0
r = − 0,7
x
B
C
@
A
>
?
<
=
<
=
x
x
Abbildung 1.10: Verschiedene Werte des Korrelationskoeffizienten
Bemerkung 4 Im Falle einer nichtlinearen Korrelation ist der lineare Korrelationskoeffizient bedeutungslos. Insbesondere bedeutet σ(x, y) ≈ 0 nicht, dass generell
kein Zusammenhang besteht, sondern nur, dass kein linearer Zusammenhang nachzuweisen ist!
Ausgleichgerade (oder Regressionsgerade)
In dem Fall, wo mithilfe der Korrelationsanalyse ein annähernd linearer Zusammenhang festgestellt wurde, kann man versuchen, die Gerade zu finden, die den
Messwerten am besten angepasst ist. Diese Gerade nennen wir Ausgleichgerade
1.3. EMPIRISCHE ANALYSE DER MESSERGEBNISSE
25
oder Regressionsgerade. Anhand ihrer Gleichung lässt sich dann aus einem bekanten Wert für das X− Merkmal ein Wert für das dazugehörende Y − Merkmal
prognostizieren.
Konstruktion der Regressionsgeraden Die allgemeine Gleichung einer Geraden
ist
y = ax + b
(1.13)
Unsere Aufgabe ist es nun, die Parameter a und b so zu finden, dass die entsprechende Gerade den Messwerten am besten angepasst ist. Was am besten angepasst“,
”
bedeuten soll wollen wir im folgenden präzisieren: Zunächst wollen wir verlangen,
dass die Gerade durch den Mittelpunkt (x̄, ȳ) gehen soll, dass also gilt
ȳ = ax̄ + b.
Nach b aufgelöst:
b = ȳ − ax̄.
(1.14)
Setzen wir (1.14) in (1.13) ein, erhalten wir
y = ax + ȳ − ax̄.
Betrachte nun für jeden Messwert xj den Wert ŷj , so dass (xj , ŷj ) auf der Ausgleichgeraden liegt, d.h.
ŷj = axj + ȳ − ax̄.
(1.15)
Die Abweichungen der Messpunkte yj von der Geraden sind dann
yj − ŷj .
Wir wollen nun den Parameter a so bestimmen, dass die mittlere quadratische Abweichung
n
1 X
(yj − ŷj )2
(1.16)
n j=1
minimal ist. Dazu setzen wir nun (1.15) in (1.16) ein und rechnen
n
n
1 X
1 X
2
(yj − ŷj ) =
[(yj − ȳ) − a(xj − x̄)]2
n j=1
n j=1
n
1 X
=
[(yj − ȳ)2 − 2 a(xj − x̄)(yj − ȳ) + a2 (xj − x̄)2 ]
n j=1
n
n
n
X
1 X
1X
2
21
=
(yj − ȳ) − 2 a
(xj − x̄)(yj − ȳ) + a
(xj − x̄)2
n j=1
n j=1
n j=1
= σ(y)2 − 2aσ(x, y) + a2 σ(x)2 =: Q(a)
Die notwendige Bedingung, dass Q(a) im Punkt a0 ein Minimum hat, ist Q0 (a0 ) = 0.
D.h.
−2 σ(x, y) + 2 a0 σ(x)2 = 0.
26
KAPITEL 1. MESSEN UND DATENBESCHREIBUNG
Daraus erhalten wir für unseren gesuchten Parameter a den Wert
a=
σ(x, y)
σ(x)2
Die Gleichung der Ausgleichgeraden lautet also
y=
σ(x, y)
σ(x, y)
x + ȳ −
x̄.
2
σ(x)
σ(x)2
Oder äquivalent
y=
σ(x, y)
(x − x̄) + ȳ.
σ(x)2
(1.17)
Die Geradensteigung a0 = σ(x,y)
wird auch Regressionskoeffizient genannt. Das
σ(x)2
Vorzeichen von a0 stimmt mit dem Vorzeichen des Korrelationskoeffizienten überein. Dieses bedeutet, dass bei positiver (negativer) Korrelation die Steigung der
Regressionsgeraden positiv (negativ) ist. Die Methode mit der wir die Gleichung
der Regressionsgeraden gefunden haben heisst Methode der kleinsten Quadrate.
Mit der Gleichung (1.17) lässt sich bei Vorliegen eines Wertes xj nach folgender
Formel ein Wert für das Y - Merkmal prognostizieren:
ŷj =
σ(x, y)
(xj − x̄) + ȳ
σ(x)2
Die Gleichung der Ausgleichgeraden für unser Beispiel ist:
y = 1.01x − 99, 7
Dieser Zusammenhang entspricht der Formel die der französische Arzt Pierre Broca
im 19. Jahrhundert beim Vermessen von Soldaten festgestellt hat:
Körpergröße − 100 = Normalgewicht,
und gilt vor allem für Personen mittlerer Körpergröße.
Nach den neuesten Kenntnissen der Wissenschaft wird der Zusammenhang zwischen Gewicht und Körpergröße durch einen nichtlinearen, genauer durch einen
quadratischen Zusammenhang modelliert. Dieser Zusammenhang ist auch für besonders kleine bzw. besonders große Menschen anwendbar (allerdings für Kinder
ungeeignet). Dazu wird der sogenannte BMI (body mass index) verwendet, der als
Propotionalitätskonstante in das Gesetz eingeht:
y = BMI · x2 .
Man erhält dadurch eine genauere Relation zwischen den beiden Größen. Der lineare Zusammenhang hat jedoch den Vorteil, dass die Berechnung des Gewichtes bei
gegebener Körpergröße einfacher ist.
1.3. EMPIRISCHE ANALYSE DER MESSERGEBNISSE
27
Bestimmung des Zusammenhangs zwischen Länge und Biomasse von Schilfhalmen
Als nächstes wollen wir ein anderes Beispiel anschauen, wo die Korrelation von Bedeutung ist. Es ist der Dissertation von D. Ritterbusch: Wachstum und Habitatbe”
setzung von Schilf in Karpfenteichen“ entnommen. In dieser Arbeit werden Vorgänge
wie Wachstum, Fortpflanzung und Ausbreitung von Schilf bei der Besiedlung neuer
Standorte untersucht.
Abbildung 1.11: Nichtlinearer Zusammenhang zwischen Biomasse und Halmvolumen
In diesem Zusamenhang ist es von Bedeutung, die Biomasse eines Schilfbestandes
zu ermitteln. Es wurde dabei festgestellt, dass der Durchmesser eines Halmes im
Jahresverlauf unverändert bleibt, so dass die Länge das Wachstum einzelner Halme
beschreibt.
Bei der Errechnung der Halmmassen wurde zuerst von einem Zusammenhang
zwischen Halmmasse und Halmvolumen ausgegangen. Die Masse eines Halmes hätte
in diesem Fall linear mit dem Produkt aus der Länge (L) und dem Quadrat des
Durchmessers (D 2 ) zusammenhängen müssen. Für Schilf trifft dieser Zusammenhang jedoch nicht zu. Siehe Abb.1.11. Die lineare Ausgleichsfunktion in Abb.1.11
beschreibt die empirischen Daten mit einem sehr hohen Korrelationskoeffizienten
r = 0.93. Da aber kein linearer Zusammenhang vorliegt ist dieser Wert bedeutungslos.
Der quadratische Einfluss des Durchmessers wurde offenbar falsch eingeschätzt.
Daher wurde eine Abhängigkeit von der Halmoberfläche überprüft. Hier wurde der
in Abb.1.12 dargestellte, lineare Zusammenhang gefunden.
28
KAPITEL 1. MESSEN UND DATENBESCHREIBUNG
Abbildung 1.12: Lineare Abhängigkeit der Feuchtmasse eines Schilfhalmes von seiner
Oberfläche
Kapitel 2
Wahrscheinlichkeitsrechnung
Im ersten Kapitel beschäftigten wir uns mit der
• Erfassung und Aufbereitung gemessener Daten (Tabellen, Diagramme)
sowie mit der
• Berechnung von Kenngrößen zur quantitativen Beschreibung der Verteilung
der Daten (z. B. Mittelwert, Standardabweichung, Korrelationskoeffizient).
Die gemessenen Daten stammen aus der Untersuchung einer Stichprobe, d. h.
einer kleinen Menge der Gesamtpopulation. Das Ziel unserer Untersuchung ist
aber, Aussagen über die Gesamtpopulation zu machen. Daher stellt sich die Frage,
ob sich die Erkenntnisse, die man aus der Untersuchung der Stichprobe gewonnen
hat, auf die Gesamtpopulation übertragen lassen. Die Beantwortung dieser Frage ist mit den Methoden der induktiven (schließenden) Statistik möglich. Um die
statistischen Methoden anwenden zu können, benötigen wir Modelle, welche die Gesamtpopulation hinreichend genau beschreiben.
Bei der Beschreibung der Abläufe in der Natur (und damit auch in den Biowissenschaften) muss man mit Unsicherheiten und mit Mangel an Information rechnen.
Wir haben es mit Erscheinungen zu tun, deren Ausgang ungewiss, zufällig (d. h.
nicht vorhersagbar) ist. Die Beschreibung solcher Erscheinungen wird im Rahmen
der Wahrscheinlichkeitstheorie vorgenommen. Die Wahrscheinlichkeit ist dabei ein
Maß für die Möglichkeit des Auftretens bestimmter Ereignisse. Wir wollen diese
Aussagen nun präzisieren, um dann die Konzepte der Wahrscheinlichkeitstheorie
herzuleiten.
2.1
Zufall und Wahrscheinlichkeit
Ein Zufallsexperiment ist ein Vorgang, der genau beschreibbar und wiederholbar,
dessen Ergebnis jedoch nicht vorhersagbar (zufällig) ist (etwa aufgrund der Komplexität des Vorgangs). So stellen zum Beispiel
• das Würfeln mit einem Würfel,
29
30
KAPITEL 2. WAHRSCHEINLICHKEITSRECHNUNG
• das Werfen einer Münze,
• das Bestrahlen einer Zellkolonie und die Bestimmung der Anzahl der Mutationen,
• das Erfassen des Alters von Schildkröten
Zufallsexperimente dar.
Der Ausgang (das Ergebnis) eines Zufallsexperimentes kann folgendes sein:
• das Auftreten der Augenzahl 5 beim Würfeln,
• das Auftreten von Wappen“ beim Werfen einer Münze,
”
• das Auftreten von 2 Mutationen bei der Bestrahlung einer Zellkolonie,
• Alter = 50 Jahre einer zufällig ausgewählten Schildkröte.
Die Menge aller möglichen Ausgänge (Ergebnisse) eines Zufallsexperimentes wird
Ergebnisraum genannt und mit Ω bezeichnet. Für die oben angeführten Beispiele
von Zufallsexperimenten sind die Ergebnisräume folgendermaßen definiert:
• Ω = {1, 2, 3, 4, 5, 6} beim Würfeln,
• Ω = {W, Z} beim Münzwurf,
• Ω = {0, 1, 2, 3, ...} =
• Ω = {t ∈
bei der Bestrahlung der Zellkolonie,
, t > 0} = ]0, ∞[ für das Ermitteln des Altersvon Schildkröten.
Bemerkung 5 Für die letzten zwei Beispiele ist der Ergebnisraum eine unendliche Menge. Dabei entstehen mögliche Ergebnise (Ausgänge) die theoretisch, aber
nicht praktisch denkbar sind, z. B. Alter von Schildkröten gleich 5000 Jahre. Solchen Ausgängen werden wir aber später sehr kleine Wahrscheinlichkeiten zuordnen,
so dass sie letztendlich praktisch unmöglich sind.
Die Wahl des Ergebnisraumes ist zum Teil durch die Art der Information bestimmt,
die man erhalten will. Interessiert beim Würfeln beispielsweise nur, ob eine 5 gefallen
ist, so wird man als Ergebnisraum folgendes wählen:
Ω = {5, nicht 5}.
Ein anderes Beispiel in diesem Sinne wäre auch:
Beispiel 5 Ein Viehbestand soll hinsichtlich einer Krankheit untersucht werden.
Dafür wird folgendes Zufallsexperiment angestellt: es werden n Tiere aus dem Viehbestand ausgewählt und auf die Krankheit getestet. Den Gesunden wird das Symbol
1, den Kranken das Symbol 0 zugeordnet. Die Ausgänge (Ergebnisse) des Experimentes sind also n−Tupel der Form (1| 1 0 0 1 {z
0 1 ... 0 1 }0). Das Merkmal, welches uns
n
interessiert, ist aber die Anzahl der gesunden Tiere. Diese erhalten wir, indem wir
die Einträge aus unserem n−Tupel aufsummieren. Der neue Ergebnisraum Ω ist
dann
Ω = {0, 1, 2, ..., n}.
2.1. ZUFALL UND WAHRSCHEINLICHKEIT
31
Teilmengen von Ω nennt man Ereignisse. Teilmengen bestehend aus einem einzigen
Element heißen Elementarereignisse.
Der Ereignisraum F ist die Familie der sinnvollen“ Ereignissen. In dem Fall ei”
nes endlichen Ergebnisraumes Ω besteht der Ereignisraum aus allen Teilmengen von
Ω; F = Pot(Ω), wobei mit Pot(Ω) die Potenzmenge von Ω, oder die Menge aller
Teilmengen bezeichnet wird. Ist Ω = [a, b] (oder gar ), so besteht F aus allen Teilintervallen (allen Intervallen) sowie ihren Durchschnitten und ihren Vereinigungen.
Man sagt: Ein Ereignis A ist eingetreten“, wenn ein Zufallsexperiment ein Ergebnis
”
ω ∈ A liefert. Beispiele von Ereignissen sind:
• A = {2, 4, 6} Es wird eine gerade Zahl gewürfelt.“
”
• Ω = {W, Z} Es wird Wappen oder Zahl geworfen“ (das sichere Ereignis).
”
• A = {7, 8, 9, 10} Es sind zwischen 7 und 10 Mutationen eingetreten.“
”
• A = {t ∈ , t ≥ 50} = [50, ∞[ Das Alter ist mindestens 50 Jahre.“ ( oder
”
Die Schildkröte ist mindestens 50 Jahre alt.“)
”
Das Ereignis A = Ω bezeichnen wir als das sichere Ereignis: alle möglichen Ergebnisse ω sind in Ω enthalten, das Ereignis Ω tritt also sicher ein. Das Ereignis A = Φ
(Φ bezeichnet die leere Menge) heißt das unmögliche Ereignis : die leere Menge enthält kein Ergebnis, das Ereignis Φ kann also niemals eintreten. Das Ereignis
CA = Ω \ A = {ω ∈ Ω : ω ∈
/ A} heißt das zu A komplementäre Ereignis. CA tritt
genau dann ein, wenn A nicht eintritt, denn wird ω ∈ CA beobachtet, so ist ω ∈
/ A.
Wir haben Ereignisse als Teilmengen des Ergebnisraumes Ω eingeführt. Dieses
erlaubt es uns, auf besonders einfache Weise die Beziehung zwischen den Ereignissen
durch Mengenoperationen auszudrücken.
Seien A, B ⊂ Ω (oder A, B ∈ F ) zwei Ereignisse. Dann gilt:
A ∪ B tritt genau dann ein, wenn A oder B eintritt
A ∩ B tritt genau dann ein, wenn A und B gleichzeitig auftreten.
Zwei Ereignisse sind disjunkt, wenn sie nicht gleichzeitig eintreten können (d. h.
wenn sie sich gegenseitig ausschließen). A und B sind genau dann disjunkt, wenn
A ∩ B = Φ.
Beispiel 6 : Beim Würfeln mit einem Würfel seien
A = {2, 4, 6} Es wird eine gerade Zahl geworfen.“
”
B = {3, 4, 5, 6} Die Augenzahl ist größer als 3.“
”
C = {1, 3, 5} Es wird eine ungerade Augenzahl gewürfelt.“
”
Dann gilt:
A ∪ B = {2, 3, 4, 5, 6}, A ∩ B = {4, 6}
A ∪ C = Ω, A ∩ C = Φ
32
KAPITEL 2. WAHRSCHEINLICHKEITSRECHNUNG
Als nächstes wollen wir Aussagen über die Möglichkeit des Eintretens eines bestimmten Ereignisses machen. Darunter wollen wir nicht Aussagen der Form: Wahr”
scheinlich regnet es heute“ verstehen, sondern wir meinen damit die Festlegung eines
Zahlenwertes, der die Wahrscheinlichkeit angibt.
Das empirische Vorgehen für die Definition der Wahrscheinlichkeit wäre folgendes: Betrachten wir ein Zufallsexperiment mit endlichem Ω = {ω1 , ..., ωk }. Wenn
man immer längere Versuchsreihen anstellt und bei jeder Länge n der Versuchsreihe
die relative Häufigkeit
hn (ωi )
rn (ωi ) =
n
berechnet, so stellt man in vielen Fällen fest, dass sich die rn (ωi) mit immer größer
werdendem n kaum noch ändern. Dieses nennt man ein empirisches Gesetz der
großen Zahlen. Es liegt folglich die Annahme nahe, dass es reelle Zahlen gibt, die
• die Wahrscheinlichkeit dafür angeben, dass bei einem Zufallsexperiment das
Ereignis {ωi} eintritt,
• für hinreichend großes n beliebig genau durch rn (ai ) approximiert werden.
Es ist dann zu erwarten, dass die Wahrscheinlichkeiten auch änliche Regeln erfüllen
wie die relativen Häufigkeiten (s. (1.5)-(1.7)).
Die axiomatischen Grundlagen für die Definition der Wahrscheinlichkeit legte
Kolmogorow im Jahre 1933 mit der Einführung der folgenden Axiome. Zuerst verlangen wir, dass das System F (der Raum der sinnvollen Ereignisse) folgende Eigenschaften hat:
Ω, Φ ∈ F
A∈F ⇒Ω\A∈F
A, B ∈ F ⇒ A ∪ B ∈ F , A ∩ B ∈ F
(oder allgemeiner A1 , A2 , ... ∈ F ⇒ A1 ∪ A2 ∪ ... ∈ F ,
A1 ∩ A2 ∩ ... ∈ F ).
Obwohl es naheliegt, für F alle Teilmengen von Ω zu wählen, gibt es wichtige mathematische Gründe, auf eine solche Forderung zu verzichten.
Wir definieren nun das Wahrscheinlichkeitsmaß (oder die Wahrscheinlichkeitsverteilung) P als eine Funktion, die jedem Ereignis A aus F eine Wahrscheinlichkeit P (A) für das Eintreffen von A zuordnet, d. h.
P :F → A 7→ P (A),
so, dass folgende Axiome erfüllt sind
K1: P (A) ≥ 0,
∀A ∈ F
K2: P (Φ) = 0,
P (Ω) = 1
K3: A, B ∈ F , A ∩ B = Φ
⇒
P (A ∪ B) = P (A) + P (B)
2.1. ZUFALL UND WAHRSCHEINLICHKEIT
33
Das somit festgelegte Tripel (Ω, F , P ) nennt man Wahrscheinlichkeitsraum.
Ein System, das dem Zufall unterworfen ist, wird also mit Hilfe eines Wahrscheinlichkeitsraumes (Ω, F , P ) beschrieben. Wir können dabei folgende Analogien zu den
Konzepten aus dem ersten Kapitel herstellen: Der Ergebnisraum Ω kann als die
Menge der möglichen Ausprägungen eines Merkmals aufgefasst werden. Der Ereignisraum F definiert Bereiche in denen Ausprägungen liegen. Das Wahrscheinlichkeitsmaß P approximiert die relative Häufigkeit, mit der einzelne Ausprägungen
oder Bereiche von Ausprägungen vorkommen. Damit diese Interprätation stimmt,
muss man aber sehr sorgfältig bei der Wahl des Ergebnisraumes Ω und des Wahrscheinlichkeitsmaßes P vorgehen, siehe auch Beispiel 5.
Aus der Definition des Wahrscheinlichkeitsmaßes können weitere Eigenschaften
hergeleitet werden:
Satz 3 (Elementare Rechenregel für Wahrscheinlichkeiten) Es sei (Ω, F , P )
ein Wahrscheinlichkeitsraum. Dann gilt:
1. A, B ∈ F , A ⊂ B ⇒ P (A) ≤ P (B)
A B
2. A1 , A2 , ..., An paarweise disjunkt, d. h. Ai ∩ Aj = Φ, ∀i 6= j ⇒
P (A1 ∪ A2 ∪ ... ∪ An ) = P (A1 ) + P (A2 ) + ... + P (An )
A1
A2
3. A ∈ F ⇒ P (CA) = 1 − P (A)
Α
Ω Α
4. A, B ∈ F ⇒ P (A ∪ B) = P (A) + P (B) − P (A ∩ B)
Beweis: Siehe Übungsaufgabe 5∗ , Blatt 5.
Zwei Ereignisse A und B heißen unabhängig, wenn
P (A ∩ B) = P (A) · P (B).
(2.1)
34
KAPITEL 2. WAHRSCHEINLICHKEITSRECHNUNG
A A
B
2.2
B
Diskrete Wahrscheinlichkeitsverteilungen
Wir werden im folgenden verschiedene Wahrscheinlichkeitsräume (Ω, F , P ) untersuchen. Als erstes betrachten wir endliche Ergebnisräume Ω = {ω1 , ω2 , ..., ωk }. Die zugehörigen Wahrscheinlichkeitsräume (Ω, F , P ) heißen dann endliche Wahrscheinlichkeitsräume. Für solche Räume ist die Ereignismenge F = PotΩ.
Satz 4 Das Wahrscheinlichkeitsmaß für einen diskreten Wahrscheinlichkeitsraum
ist eindeutig durch die Werte auf den Elementarereignissen {ωi }, i = 1, ..., k festgelegt, d. h. durch
P ({ω1}) = p1 ,
P ({ω2}) = p2 , . . . , P ({ωk }) = pk
mit p1 , p2 , . . . , pk ≥ 0,
p1 + p2 + . . . + pk = 1.
Für ein Ereignis A = {ωi1 , ..., ωil } ∈ F gilt dann nach Satz 3 (da die Elementarereignisse paarweise disjunkt sind):
P (A) = P ({ωi1 } ∪ {ωi2 } ∪ . . . ∪ {ωil })
= P ({ωi1 }) + . . . + P ({ωil })
= pi1 + . . . + pil .
Man kann zeigen, dass ein so definiertes Wahrscheinlichkeitsmaß die Axiome K1 −
K3 erfüllt.
Ein Wahrscheinlichkeitsraum (Ω, F , P ) heißt diskret, wenn Ω endlich oder Ω =
{ω1 , ω2 , ω3 , ...} ist. Im letzten Fall gilt die obige Definition sinngemäß für diskrete
Räume.
Wir wollen nun einige Beispiele von diskreten Wahrscheinlichkeitsräumen untersuchen.
2.2.1
Die Laplace Wahrscheinlichkeitsverteilung
Sei Ω = {ω1 , . . . , ωk } endlich.
Falls alle Elementarereignisse {ωi}, i = 1, ..., k gleich wahrscheinlich sind, d. h.
P ({ω1}) = P ({ω2 }) = ... = P ({ωk }) =
1
,
k
2.2. DISKRETE WAHRSCHEINLICHKEITSVERTEILUNGEN
35
so heißt (Ω, F , P ) Laplace Wahrscheinlichkeitsraum. P heißt dann Laplace
Wahrscheinlichkeitsverteilung oder diskrete Gleichverteilung. Die letzte Gleichheit folgt wieder aus Satz 3, da die Elementarereignisse paarweise disjunkt sind:
1 = P (Ω) = P ({ω1 } ∪ {ω2 } ∪ . . . ∪ {ωk })
= P ({ω1 }) + P ({ω2}) + . . . + P ({ωk })
= k · P ({ωi}), ∀i = 1, . . . , k.
Damit gilt für ein A ∈ F
P (A) =
X
ωi ∈A
P ({ωi}) =
|A|
,
k
(2.2)
wobei mit |A| die Anzahl der Elemente aus A bezeichnet wird. Formel (2.2) ist etwas
einprägsamer als
Wahrscheinlichkeit von A =
Anzahl der günstigen Ausgänge
Anzahl aller möglichen Ausgängen
bekannt.
Beispiel 7 (Einmaliges Würfeln mit einem fairen Würfel)
Ω = {1, 2, 3, 4, 5, 6},
F = Pot(Ω)
Wenn der Würfel halbwegs homogen und symmetrisch ist, kann man davon ausgehen, dass alle Augenzahlen dieselben Chancen haben gewürfelt zu werden. Es gilt
also
1
P ({1}) = P ({2}) = ... = P ({6}) = .
6
P({ωi })
6
1
6
-
ω
Das Ereignis A = {2, 4, 6}: Es ist eine gerade Zahl gefallen“ hat die Wahrschein”
lichkeit
|A|
3
1
P (A) =
= = .
|Ω|
6
2
Beispiel 8 (Zweimaliges Würfeln mit einem fairen Würfel)
Ω = {(1, 1), (1, 2), (1, 3), . . . (1, 6), (2.1), . . . , (6, 6)}
36
KAPITEL 2. WAHRSCHEINLICHKEITSRECHNUNG
Man geht davon aus, dass die beiden Würfe unabhängig voneinander stattfinden, so
dass man annehmen kann, dass alle Paare gleich wahrscheinlich sind. Da insgesamt
6 × 6 = 36 mögliche Paare gebildet werden können, gilt:
1
P ({(1, 1)}) = P ({(1, 2)}) = . . . = P ({(6, 6)}) = .
36
Das Ereignis Die Augensumme ist 5“ ist A = {(1, 4), (2, 3), (3, 2), (4, 1)}. Die
”
Wahrscheinlichkeit für das Auftreten dieses Ereignisses ist
P (A) =
4
1
|A|
=
= .
|Ω|
36
9
In den bisherigen Beispielen war es recht einfach, die Kardinalität |Ω| der Ergebnismenge und die der Ereignisse |A| zu bestimmen. Oft ist es aber notwendig, kombinatorische Argumente für die Berechnung von Kardinalitäten anzuwenden.
Beispiel 9 Wie viele Wörter mit 5 Buchstaben kann man mit den 26 Buchstaben
des Alphabets bilden, wenn auch Wörter ohne Bedeutung zugelassen werden? (Auch
Buchstabenwiederholungen sind natürlich erlaubt).
Wir haben:
• 26 Möglichkeiten für die Wahl des 1. Buchstaben
• 26 Möglichkeiten für die Wahl des 2. Buchstaben
• 26 Möglichkeiten für die Wahl des 3. Buchstaben
• 26 Möglichkeiten für die Wahl des 4. Buchstaben
• 26 Möglichkeiten für die Wahl des 5. Buchstaben.
Wenn wir alle Auswahlmöglichkeiten zusammensetzen, erhalten wir also
26 × 26 × . . . × 26 = 265
Wörter mit 5 Buchstaben. Jetzt können wir uns fragen, wie groß die Wahrscheinlichkeit der Auswahl eines bestimmten Wortes ist. Da alle Wörter gleich wahrscheinlich
sind, können wir auch diese Situation mit Hilfe eines Laplace Wahrscheinlichkeitsraumes modellieren, wobei
Ω = {ω = (x1 , x2 , . . . , x5 ); x1 ∈ {a, b, . . . , z}, . . . x5 ∈ {a, b, . . . , z}}
1
, ∀ ω ∈ Ω.
265
Die gesuchte Wahrscheinlichkeit ist also 2615 .
P ({ω)} =
Die gleiche Problemstellung kommt in vielen anderen Situationen vor, wenn es
darum geht, k verschiedene Plätze mit je einem Objekt zu besetzen, wobei es n
Arten von Objekten gibt und von jeder Art beliebig viele zur Verfügung stehen. Es
gibt dann
k
n
(2.3)
| ×n×
{z. . . × n} = n Möglichkeiten
k mal
die Plätze zu besetzen.
2.2. DISKRETE WAHRSCHEINLICHKEITSVERTEILUNGEN
2.2.2
37
Die Binomialverteilung
Die einfachsten nichttrivialen Zufallsexperimente sind solche mit zwei möglichen
Ausgängen, wie z. B. Münzwurf (Kopf, Zahl), Bestimmung des Geschlechtes für
Nachkommen (männlich, weiblich), Qualitätskontrolle (defekt, intakt) oder das Auftreten von Mutationen (Mutation, keine Mutation).
Solche Zufallsexperimente mit zwei Ausgängen bezeichnet man als Bernoulli-Experimente. Sie werden eindeutig durch den Wahrscheinlichkeitsraum (Ω, F , P ) mit
Ω = {1, 0},
F = {Φ, {1}, {0}, Ω},
P ({1}) = p,
P ({0}) = 1 − p = q
beschrieben. Dabei ist also 0 ≤ p ≤ 1 die Wahrscheinlichkeit des Eintreffens von {1}.
Wir wollen uns nun mit n unabhängigen Wiederholungen eines solchen Bernoulli
Experimentes befassen.
Beispiel 10 (Genetik: Rekombination von Genen) Nehmen wir an, dass eine
Fischpopulation ihre Fortpflanzungszellen ins Wasser entlässt. Betrachten wir einen
bestimmten Genlocus mit den Allelen A und a. Jede Fortpflanzungszelle (Spermium
oder Eizelle) enthält genau eines der beiden Allele, entweder A oder a. Sei p die
Wahrscheinlichkeit, dass eine Spermienzelle A enthält und q = 1 − p die Wahrscheinlichkeit, dass diese a enthält. Wir nehmen zudem an, dass in den Eizellen
dieselbe Wahrscheinlichkeitsverteilung herrsche, also:
Ω = {A, a},
P ({A}) = p,
P ({a}) = q,
p + q = 1.
(Dieses Modell entspricht einem Bernoulli Experiment. Dabei haben wir die möglichen Ausgänge nicht mit 0, 1 sondern mit A, a bezeichnet.) Nach der Befruchtung
der Eizellen durch die Spermienzellen erhalten wir den neuen Ereignisraum
Ω2 = {AA, Aa, aA, aa}.
(Hier betrachten wir also 2 unabhängige Wiederholungen eines Bernoulli Experimentes.) Nehmen wir an, dass sich die einzelnen Fortpflanzungszellen zufällig treffen,
dass der Prozess also unabhängig vom Gengehalt jeder Zelle ist, dann können die
Wahrscheinlichkeiten der Elementarereignisse wie folgt bestimmt werden:
{AA} =
”
{AA, Aa}
| {z }
Spermium enthält das Allel A“
Aus unseren Modellannahmen folgt
∩
”
{AA, aA}
| {z }
.
Eizelle enthält das Allel A“
P ({AA, Aa}) = P ({AA, aA}) = p.
Wegen der Unabhängigkeit der zwei Ereignisse gilt dann die Produktregel (2.1) und
wir erhalten
P ({AA}) = P ({AA, Aa}) · P ({AA, aA}) = p · p = p2 .
38
KAPITEL 2. WAHRSCHEINLICHKEITSRECHNUNG
Analog erhalten wir
P ({Aa}) = pq, P ({aA}) = qp, P ({aa}) = q 2 .
Da die beiden Genotypen aA und Aa biologisch nicht unterscheidbar sind, fassen wir
sie zusammen und addieren die Wahrscheinlichkeiten
P ({aA − Aa}) = P ({aA, Aa}) = P ({aA}) + P ({Aa}) = 2pq.
Die Rekombination von Genen führt also zu
P ({AA}) = p2 , P ({aA − Aa}) = 2pq, P ({aa}) = q 2 .
Da unser Ergebnisraum Ω = {AA, aA − Aa, aa} ist, sollte die Summe der drei
Wahrscheinlichkeiten 1 sein. Tatsächlich gilt:
p2 + 2pq + q 2 = (p + q)2 = 12 = 1.
Allgemeiner: Wenn wir ein Bernoulli Experiment n Mal wiederholen, so erhalten
wir folgendes wahrscheinlichkeitstheoretisches Modell (Ωn , Fn , P ):
• Der Ergebnisraum besteht aus n-Tupeln der Gestalt
Ωn = {0, 1}n = {ω = (x1 , x2 , . . . , xn ) : xj ∈ {0, 1}, j = 1, . . . , n}.
• Die Menge Fn ist gebildet aus allen Teilmengen von Ωn
• Die Wahrscheinlichkeitsverteilung P erhält man durch analoge Überlegungen
wie im Beispiel 10 und ist gegeben durch
P ({ω}) = pk q n−k
für ein n-Tupel ω, dessen Einträge k Einsen und n − k Nullen sind.
Wenn man nun nicht an einer bestimmten Reihenfolge des Auftretens der Einsen
und Nullen interessiert ist, so kann man alle Tupel mit der gleichen Anzahl von
Einsen zusammenfassen zu einem Ereignis
Ak = {ω = (x1 , x2 , . . . , xn ) ∈ Ω |
n
X
xj = k}, k = 1, . . . , n
j=1
(das Ereignis Ak enthält alle n-Tupel, in denen k mal die 1 vorkommt).
Was ist nun P (Ak ) ?
An dieser Stelle müssen wir wieder zählen, und zwar: auf wieviele Arten können
wir aus den n verschiedenen Plätzen in einem n−Tupel k Plätze für die Einsen
auswählen?
Dieses Abzählproblem kann man ganz anschaulich mit Hilfe des folgenden Urnenmodells lösen: Auf wieviele Arten kann man aus einer Urne mit n verschiedenen
(z. B. von 1 bis n nummerierte) Kugeln k Kugeln ziehen, ohne Zurücklegen und ohne
Berücksichtigung der Reihenfolge, in der die Kugeln gezogen wurden. (Für unsere
Anwendung entspricht das Ziehen einer Kugel mit der Nummer j dem Belegen des
j-ten Platzes in dem n-Tupel mit einer Eins.)
Die Lösung ist folgende: Es gibt
2.2. DISKRETE WAHRSCHEINLICHKEITSVERTEILUNGEN
39
• n Möglichkeiten für die Wahl der 1. Kugel,
• (n − 1) Möglichkeiten für die Wahl der 2. Kugel,
• (n − 2) Möglichkeiten für die Wahl der 3. Kugel,
...
• (n − (k − 1)) Möglichkeiten für die Wahl der k. Kugel.
Wenn die Reihenfolge berücksichtigt wird, gibt es also insgesamt n(n − 1)(n −
2) . . . (n−(k−1)) Möglichkeiten, k Kugeln von n verschiedenen Kugeln auszuwählen.
Da bei uns aber die Reihenfolge irrelevant ist, müssen wir das obige Resultat durch
die Anzahl aller Umordnungen von k verschiedenen Kugeln teilen. Diese Anzahl ist
k! = 1 · 2 · 3 · · · k. Es bleiben also noch
n(n − 1)(n − 2) . . . (n − (k − 1))
=
k!
n!
(n−k)!
k!
=
n!
(n − k)!k!
Möglichkeiten für die Auswahl von k aus n verschiedenen Kugeln, ohne Berücksichtigung der Reihenfolge. Dabei ist n! = 1 · 2 · 3 . . . n, 0! = 1. Diese Zahl bezeichnen
wir mit n über k“
”
n!
n
=
(n − k)!k!
k
und nennen sie Binomialkoeffizient. Wir erhalten also
n k n−k
P (Ak ) =
p q , k = 0, 1, . . . , n.
k
Wenn wir nur an den Wahrscheinlichkeiten interessiert sind, dass bei n Bernoulli
Experimenten k mal die 1 eintritt, k = 0, 1, . . . , n , so können wir diese im folgenden
Wahrscheinlichkeitsmodell beschreiben:
Ω = {0, 1, . . . , n}, F = Pot(Ω)
n k n−k
p q , k = 0, 1, . . . , n.
P ({k}) = bn,p (k) =
k
(2.4)
Diese Wahrscheinlichkeitsverteilung nennt man Binomialverteilung.
Der binomische Lehrsatz
n X
n k n−k
n
(x + y) =
x y , ∀x, y ∈ R, n ∈ N
k
k=0
liefert eine analytische Rechtfertigung dafür, dass bn,p eine Wahrscheinlichkeitsverteilung induziert.
40
KAPITEL 2. WAHRSCHEINLICHKEITSRECHNUNG
Graphische Darstellung: Stabdiagramme der Binomialverteilung
1) p = 21
2
4
n=2
1
4
1
4
0
1
3
8
n=3
-
2
k
3
8
1
8
1
8
0
1
n=4
2
4
16
-
3
6
16
k
4
16
1
16
2) p =
1
16
0
1
2
3
4
0
1
2
3
4
-
k
1
6
n=4
-
k
n=9
0
2.2.3
1
2
3
4
5
6
7
8
9
k
-
Die Poissonverteilung
In vielen Anwendungen haben wir es mit Bernoulli-Experimenten zu tun, bei denen
n groß und p klein ist, während das Produkt np mäßig groß ist. In solchen Fällen
ist es praktisch, eine Näherungsformel für die Binomialverteilung zu verwenden.
2.3. WAHRSCHEINLICHKEITSVERTEILUNGEN AUF
41
Beispiel 11 (Ökologie) Gesucht ist das Verteilungsmuster einer bestimmten Pflanze über ein bestimmtes Gebiet (etwa ein Feld oder einen Wald). Dazu wird das Gebiet
in eine große Zahl von Parzellen, etwa Quadrate oder Rechtecke gleicher Fläche unterteilt. Man zählt die Anzahl der Pflanzen pro Parzelle.
Wahrscheinlichkeitstheoretisches Modell: Wir setzen voraus, dass auf einem Feld
n Objekte so geworfen werden, dass jede Parzelle mit der gleichen Wahrscheinlichkeit p getroffen wird. (Entsprechend wird sie mit q = 1 − p nicht getroffen.) Die
Wahrscheinlichkeit, dass eine bestimmte Parzelle k mal getroffen wird, ist gegeben
durch die Binomialverteilung
n k n−k
p q .
P ({k}) =
k
Soll eine große Anzahl von Objekten und Parzellen betrachtet werden (d. h. n sehr
groß, p sehr klein), so ist die Berechnung von P ({k}) recht mühsam und man ist
auf Approximationen angewiesen. Wir fragen daher, welche Grenzverteilung wir erhalten, wenn m = np konstant bleibt und n → ∞, p → 0 gilt. Die Rechnung, die wir
aus Zeitgründen nicht ausführlich machen können, ergibt
n k
mk e−m
lim
p (1 − p)n−k =
, k = 0, 1, 2, . . .
n→∞ k
k!
Wir können also die Wahrscheinlichkeit, dass eine bestimmte Parzelle k mal getroffen wird, approximieren durch
P ({k}) =
mk e−m
.
k!
(2.5)
Mit der Formel (2.5) ist die berühmte Poissonverteilung hergeleitet worden.
0,3 6
0,25
0,2
0,15
0
1
2
3
4
5
6
7
8
-
k
Poissonverteilung zum Parameter m = 1, 9
2.3
Wahrscheinlichkeitsverteilungen auf
Wir werden uns nun mit Wahrscheinlichkeitsräumen (Ω, F , P ) beschäftigen, deren
Ergebnisraum Ω ein reelles Intervall I ∈ R oder sogar ist. Diese Räume gehören
zu den stetigen Wahrscheinlichkeitsräumen. In diesem Kontext möchten wir nun
42
KAPITEL 2. WAHRSCHEINLICHKEITSRECHNUNG
Fragen der Form: Mit welcher Wahrscheinlichkeit liegen die Ausgänge unserer Zu”
fallsexperimente in einem Intervall [α, β] ⊂ I?“ beantworten. Deswegen werden wir
verlangen, dass die Ereignismenge F alle Teilintervalle [α, β] ⊂ I enthält. Dazu
natürlich auch noch deren (abzählbare) Vereinigungen und Durchschnitte.
Die Wahrscheinlichkeitsverteilung P wird folgendermaßen definiert:
Sei f : Ω → R eine reellwertige, stückweise stetige Funktion auf Ω = I oder Ω = R,
mit
f (x) ≥ 0
(2.6)
und
Z
f (x)dx = 1.
(2.7)
Ω
Die Funktion f heißt Wahrscheinlichkeitsdichte (oder Dichtefunktion). Die
Bedingung (2.7) besagt, dass der Flächeninhalt unter dem Schaubild von f gleich
1 sein muss. Mit Hilfe der Dichtefunktion definieren wir nun die Wahrscheinlich-
f(x)
a
0
b
x
Abbildung 2.1: Die Dichtefunktion f (x)
keitsverteilung P auf I (bzw. R) durch
P : F → [0, 1],
P ([α, β]) =
Zβ
f (x)dx
(2.8)
α
für alle Ereignisse [α, β] ∈ F . Setzt man im Falle Ω = I die Funktion f (x) = 0
außerhalb von I, so können wir immer I durch R ersetzen. Der Wert P ([α, β]) stellt
den Flächeninhalt unter der Funktion f über dem Intervall [α, β] dar, siehe Abb.2.2.
Aus (2.7) folgt sofort, dass die Wahrscheinlichkeit für das sichere Ereignis P (I) = 1
(bzw. P (R) = 1) ist. Setzt man in (2.8) α = β, so ergibt sich sofort, dass die
2.3. WAHRSCHEINLICHKEITSVERTEILUNGEN AUF
43
f(x)
a
0 α
P([α, β])
β
b
x
Abbildung 2.2: Die Wahrscheinlichkeit P ([α, β])
Wahrscheinlichkeit P ([α, α]) eines Elementarereignisses [α, α] gleich Null ist, denn
P ([α, α]) =
Zα
f (x)dx = 0.
α
Dieses ist auch geometrisch einsichtig, da die Fläche über einem Punkt der x−Achse
gleich Null ist.
Bemerkung 6 Im Falle diskreter Merkmale haben wir gesehen, dass die Wahrscheinlichkeit als eine Approximation für die relative Häufigkeit aufgefasst werden
kann. Im Falle stetiger Merkmale ist die Wahrscheinlichkeitsdichte eine Approximation für die normierte“ Klassenhäufigkeit. Wenn nämlich bei der Klassenbildung die
”
Klassenbreite b immer feiner wird (unter der Voraussetzung immer größer werdender
Messreihen), so ist die Verteilung der normierten“ relativen Klassenhäufigkeiten
”
r(ai )
immer näher bei einer stetigen Funktion, welche die Wahrscheinlichkeitsdichte
b
darstellt.
2.3.1
Die Gleichverteilung
Beispiel 12 (Orientierung von Vögeln) In einer Verhaltensstudie wurden Vögel
einzeln und unter Umständen, die die Orientierung erschwerten, freigelassen. Man
erwartete, dass die Vögel jede Richtung θ ∈ [0◦ , 360◦ ] mit der gleichen Wahrscheinlichkeit einschlagen würden. Die Wahrscheinlichkeitsdichte ist darum eine Konstante über dem Intervall [0◦ , 360◦ ]. Da die Fläche zwischen dem Intervall [0◦ , 360◦] und
dem Graphen von f (θ) gleich 1 sein muss, ist der konstante Wert von f (α) gleich
1
. Die Wahrscheinlichkeitsdichte ist also gegeben durch
360
1
, θ ∈ [0, 360]
360
f (θ) =
0 , sonst.
44
KAPITEL 2. WAHRSCHEINLICHKEITSRECHNUNG
Die Wahrscheinlichkeit, dass ein Vogel in einer Richtung aus dem Intervall [θ0 , θ1 ]
f(x)
1
360
0
x
360
losfliegt, ist also:
P ([θ0 , θ1 ]) =
Zθ1
1
θ1 − θ0
dx =
.
360
360
θ0
Im allgemeinen, sei I = [a, b]. Die Funktion f : R → R mit
1
, x ∈ [a, b]
b−a
f (x) =
0 , sonst
(2.9)
ist die Dichte der Gleichverteilung in [a, b]. So wie der Name es auch sagt, sind
alle Ereignisse [α, β] ∈ I mit β − α = l gleich wahrscheinlich mit
P ([α, β]) =
Zβ
α
f (x)dx =
Zβ
α
1
β−α
l
dx =
=
.
b−a
b−a
b−a
Für ein Ereignis [γ, δ] ⊂ R \ I gilt P ([γ, δ]) = 0, denn P ([γ, δ]) =
Rδ
0dx = 0.
γ
In Anwendungen wird man die Gleichverteilung immer dann wählen, wenn es keine
erkennbaren Gründe gibt, dass bestimmte Ausgänge von Zufallsexperimenten wahrscheinlicher sind als andere.
2.3.2
Die Normalverteilung
Die Normalverteilung ist eine der wichtigsten Verteilungen in der Stochastik. Für
µ ∈ R und σ 2 > 0 sei
(x−µ)2
1
fµ,σ (x) = √
e− 2σ2 .
(2.10)
2πσ 2
die Wahrscheinlichkeitsdichte der Normalverteilung mit Erwartungswert µ und Varianz σ 2 . Die Wahrscheinlichkeitsverteilung gegeben durch
Pµ,σ ([α, β]) = √
1
2πσ 2
Zβ
α
e−
(x−µ)2
2σ 2
dx
(2.11)
2.3. WAHRSCHEINLICHKEITSVERTEILUNGEN AUF
45
Abbildung 2.3: Zwei verschiedene Dichtefunktionen fµi ,σi , i = 1, 2.
heißt Normalverteilung in R mit Erwartungswert µ und Varianz σ 2 . In
Abb.2.3 sind die Dichtefunktionen fµi ,σi , i = 1, 2, für zwei verschiedene Werte des
Erwartungswertes und der Varianz dargestellt. Wir sehen, dass für größere σ die
Glocke breiter wird, σ gibt also ein Maß für die Streuung der Wahrscheinlichkeitsverteilung Pµ,σ an. Für µ = 0 und σ = 1 erhalten wir die standardisierte Normalverteilung (Gaußsche Glockenkurve) mit der Wahrscheinlichkeitsdichte
x2
1
f0,1 (x) = √ e− 2 .
2π
(2.12)
Da die Normalverteilung von ∞ bis −∞ reicht, scheint es keine Verteilung zu
Abbildung 2.4: Dichtefunktion f0,1 der standardisierten Normalverteilung.
sein, die man in biologischen Anwendungen gebrauchen kann, denn keine praktische Größe kann einen unendlichen Wert annehmen. Doch diese Betrachtungsweise
46
KAPITEL 2. WAHRSCHEINLICHKEITSRECHNUNG
stimmt nicht ganz, denn wegen der Exponentialfunktion in (2.12) nimmt die Dichtefunktion fµ,σ mit wachsendem |x| sehr schnell ab. Dieses führt dazu, dass z. B.
Ereignisse, die außerhalb des Intervalls [−3, 3] liegen, im Falle der standardisierten
Normalverteilung, mit einer Wahrscheinlichkeit kleiner als
 −3

Z
Z+∞


1
P0,1 ((−∞, −3] ∪ [3, +∞)) = √
f0,1 (x)dx +
f0,1 (x)dx = 0, 0027

2π 
3
−∞
auftreten. Ereignisse außerhalb [−4, 4] treten mit einer Wahrscheinlichkeit kleiner
als 0,00004 auf. Solche Ereignisse sind praktisch unmöglich.
Die Gründe, weswegen die Normalverteilung so häufig in der Praxis auftritt,
werden wir in einem der nächsten Paragraphen erläutern.
2.4
Zufallsvariable und ihre Verteilungen
Mithilfe von Zufallsvariablen können den möglichen Ausgängen ω ∈ Ω eines Zufallsexperimentes numerische Werte (Messwerte) zugeordnet werden.
Sei (Ω, F , P ) ein Wahrscheinlichkeitsraum. Eine Zufallsvariable ist eine reellwertige Funktion X : Ω → R.
Zufallsvariable mit diskretem Wertebereich
X heißt diskret, wenn X(Ω) = {X(ω), ω ∈ Ω} ein diskreter Raum ist (d. h. endlich
oder abzählbar).
Beispiel 13 a) Sei (Ω, F , P ) ein Wahrscheinlichkeitsraum für einen einmaligen
Münzwurf mit einer unfairen Münze, d. h.
Ω = {K, W }, F = {Φ, {K}, {W }, Ω},
P ({K}) = p, P ({W }) = 1 − p = q.
(2.13)
Wir können den Ausgängen Kopf“ und Wappen“ numerische Werte zuordnen
”
”
mithilfe der Zufallsvariable
X : Ω → {0, 1}
X(K) = 1,
X(W ) = 0.
b) Sei (Ω, F , P ) der Wahrscheinlichkeitsraum, der dem zweimaligen Würfeln mit
einem fairen Würfel entspricht, siehe Beispiel 8.
Ω = {(m, n) : m ∈ {1, . . . , 6}, n ∈ {1, . . . , 6}}.
Die Zufallsvariable, die die Augensumme der beiden Würfeln beschreibt, ist
X : Ω → {2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12}
X((m, n)) = m + n.
2.4. ZUFALLSVARIABLE UND IHRE VERTEILUNGEN
47
Zufallsvariable mit stetigem Wertebereich
Beispiele:
a.) Sei Ω eine große Menge von Personen
X:Ω→R
X(ω) = Konzentration des α − Globulins im Blutplasma der Person ω.
b.) Sei Ω eine große Menge von Individuen
X:Ω→R
X(ω) = Gewicht des Individuums ω.
2.4.1
Verteilung einer Zufallsvariable
Sei X eine reellwertige Zufallsvariable, die der Modellierung eines zufällig variierenden Messwertes dient. Wir sind nun daran interessiert, ein Wahrscheinlichkeitsmaß
auf X(Ω) ⊆ R zu finden, welches die Wahrscheinlichkeiten beschreibt, mit der Werte
von X angenommen werden. Dieses Wahrscheinlichkeitsmaß wird mit PX bezeichnet
und heißt Verteilung der Zufallsvariable X. Es ist gegeben durch:
PX (A) := P ({ω ∈ Ω : X(ω) ∈ A}) =: P [X ∈ A]
(2.14)
für jedes Ereignis A ⊂ X(Ω) aus dem Ereignisraum F auf X(Ω) ⊆ R.
Ist X eine diskrete Zufallsvariable, d. h. X(Ω) ist endlich oder abzählbar, so ist
(nach Satz 4) die Verteilung von X eindeutig charakterisiert durch
PX ({η}) = P ({ω ∈ Ω : X(ω) = η}) =: P [X = η],
η ∈ X(Ω).
P [X = η] stellt die Wahrscheinlichkeit dar, mit der der Wert η angenommen wird.
Beispiel:
Für den Fall des zweimaligen Würfelns mit einem fairen Würfel, siehe Beispiel 13
b.), ist für k = 2, . . . , 12
PX ({k}) = P ({(m, n) : m + n = k}) = P [X = k].
Für k = 5 gilt:
1
4
= .
36
9
Ist X eine Zufallsvariable mit stetigem Wertebereich, d. h. X(Ω) = R, so ist die
Verteilung von X eindeutig charakterisiert durch
PX ({5}) = P ({(1, 4), (2, 3), (3, 2), (4, 1)}) =
PX ((−∞, y]) = P ({ω ∈ Ω : X(ω) ∈ (−∞, y]}) =: P [X ≤ y],
y ∈ R.
D. h., wenn man die Werte PX ((−∞, y]) für jedes y ∈ R kennt, so kann man die
Wahrscheinlichkeit PX ([α, β]) für jedes Intervall [α, β] ⊂ R berechnen. Denn, ist die
Verteilung PX von X mit Hilfe einer Dichtefunktion fX gegeben, so gilt:
PX ([α, β]) =
Zβ
α
fX (x)dx =
Zβ
−∞
fX (x)dx −
Zα
−∞
= PX ((−∞, β]) − PX ((−∞, α]).
fX (x)dx
48
KAPITEL 2. WAHRSCHEINLICHKEITSRECHNUNG
Die Werte PX ((−∞, y]), y ∈ sind tabelliert. Sie werden mit Hilfe der im folgenden definierten Verteilungsfunktion FX festgehalten.
Die Funktion
FX : R → [0, 1]
y 7→ PX ((−∞, y])
heißt Verteilungsfunktion der Zufallsvariable X. Ist die Verteilung PX von X
mit Hilfe einer Dichtefunktion fX gegeben, so gilt:
FX (y) = PX ((−∞, y]) =
Zy
fX (x)dx.
−∞
Falls die Verteilung PX einer Zufallsvariable X die Gleichverteilung bzw. die Normalverteilung ist, so heißt die Zufallsvariable X gleichverteilt bzw. normalverteilt.
Interessieren wir uns nun für die Wahrscheinlichkeit, mit der die Zufallsvariable
X Werte in einem Intervall [α, β] annimmt, so berechnet sich diese folgendermaßen:
P [α ≤ X ≤ β] = PX ([α, β])
= PX ((−∞, β]) − PX ((−∞, α])
= FX (β) − FX (α).
(2.15)
Verteilungsfunktion einer normalverteilten Zufallsvariable
Sei zunächst X eine Zufallsvariable deren Verteilung durch die standardisierte Normalverteilung gegeben ist, d. h. PX = P0,1 . Die Verteilungsfunktion von X bezeichnen wir mit F0,1 . Die Werte
1
F0,1 (y) = √
2π
Zy
x2
e− 2 dx
(2.16)
−∞
entnimmt man aus Tabellen. Da aus Symmetriegründen (siehe auch Abb. ) gilt,dass
F0,1 (−y) = 1 − F0,1 (y),
1
F0,1 (0) = ,
2
genügt es, F0,1 nur für y ≥ 0 zu tabellieren.
Die Werte der Verteilungsfunktion Fµ,σ für eine normalverteilte Zufallsvariable
X mit Parametern µ und σ ergeben sich aus den Werten von F0,1 durch folgende
Transformation:
Satz 5 Es sei X eine normalverteilte Zufallsvariable mit der Verteilungsfunktion
Fµ,σ . Dann ist die standardisierte Zufallsvariable Y = X−µ
standardnormalverσ
teilt, d. h. FY = F0,1 .
Beweis: Siehe Übungsaufgabe 5, Blatt 7.
2.4. ZUFALLSVARIABLE UND IHRE VERTEILUNGEN
49
f0,1(t)
F0,1(-y)
1 - F0,1(y)
-y
0
y
t
Abbildung 2.5: Werte der Verteilungsfunktion F0,1
Beispiel 14 (Verteilung der Körpergröße) Sei X die Zufallsvariable, welche
die Körpergröße der Einwohner einer Stadt beschreibt. Es sei bekannt, dass X normalverteilt ist, mit Parametern µ = 178cm und σ = 8cm. Wir wollen nun aus den
tabellierten Daten für F0,1 die Wahrscheinlichkeit P [a ≤ X ≤ b] für gegebene Werte
von a, b ∈ R berechnen.
Wir betrachten zunächst die standardisierte Zufallsvariable Y = X−µ
= X−178
.
σ
8
Y ist nach Satz 5 normalverteilt mit Parametern 0 und 1. Es gilt dann
P [a ≤ X ≤ b] =
=
=
=
X −µ
b−µ
a−µ
≤
≤
P
σ
σ
σ
a−µ
b−µ
≤Y ≤
P
σ
σ
a−µ b−µ
P0,1
,
σ
σ
a−µ
b−µ
F0,1
− F0,1
σ
σ
Wenn wir also bestimmen wollen, wieviel Prozent der Bevölkerung in der oben angesprochenen P178,8 -verteilten Stadt zwischen 186 und 190 cm groß sind, so rechnen
wir folgendermaßen:
186 − 178
190 − 178
P [186 ≤ X ≤ 190] = P
≤Y ≤
8
8
= F0,1 (1, 5) − F0,1 (1)
= 0, 9332 − 0, 8413 = 0, 0919 ≈ 9, 2%
Dabei wurden die Werte von F0,1 (1, 5) und F0,1 (1) aus der Tabelle entnommen.
50
2.4.2
KAPITEL 2. WAHRSCHEINLICHKEITSRECHNUNG
Erwartungswert und Varianz einer Zufallsvariable
In Analogie zum Mittelwert und Varianz für Messreihen definieren wir für diskrete
Zufallsvariablen den Erwartungswert von X
X
X
E[X] =
x · PX ({x}) =
x · P [X = x]
(2.17)
x∈X(Ω)
x∈X(Ω)
und die Varianz von X
V [X] = E[(X − E[X])2 ].
(2.18)
Die Quadratwurzel aus der Varianz
p
p
V [X] = E[(X − E[X])2 ]
heißt Streuung oder Standardabweichung von X. Dabei beschreibt E[X] den
typischen Wert von X. V [X] ist ein Maß für die Gruöße der Abweichung der Werte
von X vom typischen “ Wert E[X].
”
Im Falle stetiger Zufallsvariablen, deren Verteilungen PX eine Dichte fX besitzen,
ist der Erwartungswert gegeben durch
Z∞
E[X] =
xfX (x)dx.
−∞
Die Varianz ist gegeben als
V [X] =
Z∞
(x − E[X])2 fX (x)dx.
−∞
Beispiel 15 (Erwartungswert und Varianz für normalverteilte Zufallsvariable)
Sei X eine normalverteilte Zufallsvariable mit PX = Pµ,σ . Dann ist E[X] = µ und
V [X] = σ 2 , denn
Z∞
(x−µ)2
1
e− 2σ2 dx
E[X] =
x· √
2πσ 2
−∞
= √
1
2πσ 2
Z∞
−
(x − µ)e
(x−µ)2
2σ 2
dx + √
−∞
µ
2πσ 2
Z∞
e−
(x−µ)2
2σ 2
dx.
−∞
Aufgrund der Symmetrieeigenschaften
des Integranden verschwindet das erste Inte√
2
gral. Das zweite Integral ergibt 2πσ , wir erhalten also E[X] = µ. Für die Berechnung der Varianz benutzen wir die Substitution x−µ
= y und erhalten:
σ
V [X] = √
1
2πσ 2
σ2
= √
2π
Z∞
(x − µ)2 e−
(x−µ)2
2σ 2
−∞
Z∞
−∞
y2
y 2 e− 2 dy = σ 2 ,
dx
2.4. ZUFALLSVARIABLE UND IHRE VERTEILUNGEN
51
Für eine normalverteilte Zufallsvariable X sind die Parameter µ und σ 2 gerade durch
den Erwartungswert und der Varianz von X gegeben.
Eigenschaften von Erwartungswert und Varianz
a) Wie wir schon bei Mittelwert und Varianz für Messreihen gesehen haben, gilt
auch hier
E[aX + b] = aE[X] + b
(2.19)
V [aX + b] = a2 V [X].
Sei nun X eine Zufallsvariable mit E[X] = µ,
standardisierte Zufallsvariable
X −µ
,
X∗ =
σ
(2.20)
V [X] = σ 2 . Dann gilt für die
folgendes
E[X ∗ ] = 0,
V [X ∗ ] = 1.
b) Man sagt, zwei Zufallsvariablen X und Y sind unabhängig, wenn die Messung
von X die Messung von Y nicht beeinflusst. Dieses bedeutet, dass die Mengen {ω ∈
Ω : X(ω) ∈ A} und {ω ∈ Ω : Y (ω) ∈ B} für alle A und B unabhängig sind. In
diesem Falle gilt
E[X · Y ] = E[X] · E[Y ].
c) Es seien X und Y zwei Zufallsvariablen. Dann gilt
E[aX + bY ] = aE[X] + bE[Y ].
Falls X und Y unabhängig sind, gilt
V [X + Y ] = V [X] + V [Y ].
Anwendung
Seien X1 , X2 , . . . , Xn n unabhängige, identisch verteilte Zufallsvariablen mit Erwartungswert µ und Varianz σ 2 . Sei X̄n das arithmetische Mittel der Variablen X1 , X2 , . . . , Xn :
n
1
1X
X̄n = (X1 + X2 + . . . + Xn ) =
Xi .
n
n i=1
Dann ist:
"
#
n
n
X
1X
nµ
1
E[X̄n ] = E
Xi =
E[Xi ] =
=µ
n i=1
n i=1
n
#
" n
n
X
1
1 X
1
σ2
2
Xi = 2
V [Xi ] = 2 · (n · σ ) =
V [X̄n ] = V
n i=1
n i=1
n
n
52
2.5
KAPITEL 2. WAHRSCHEINLICHKEITSRECHNUNG
Der zentrale Grenzwertsatz
Die Tatsache, dass die Normalverteilung in vielen praktischen Anwendungen auftritt,
kann durch den folgenden Satz erklärt werden.
Satz 6 (Zentraler Grenzwertsatz, Satz von de Moivre-Laplace) Seien X1 ,
X2 , . . . , Xn eine Folge unabhängiger und identisch verteilter Zufallsvariablen mit
Erwartungswert µ und Varianz σ 2 > 0. Dann ist das arithmetische Mittel
n
1X
1
X̄n =
Xi = (X1 + X2 + . . . + Xn )
n i=1
n
2
näherungsweise normalverteilt mit Erwartungswert µ und Varianz σn . Insbesondere
konvergiert, für n → ∞, die Verteilung der standardisierten Zufallsvariablen
X̄n∗ =
X̄n − µ
√σ
n
gegen die standardisierte Normalverteilung. D. h.
P [a ≤
X̄n∗
1
≤ b] −→ √
2π
n→∞
Zb
t2
e− 2 dt.
a
Dieser Satz rechtfertigt die Annahme, dass eine Zufallsvariable normalverteilt ist,
wenn zahlreiche Einflüsse additiv und unabhängig voneinander zusammenwirken.
Da dieses bei Vorgängen in der Natur oft der Fall ist, sind auch viele Größen in
den Biowissenschaften normalverteilt. Auch Messfehler kann man auf Grund des
zentralen Grenzwertsatzes als normalverteilt annehmen.
Beispiel 16 (Anwendung des zentralen Grenzwertsatzes) Eine Labormaschine fülle Flüssigkeit in n = 36 Reagenzgläser ein. Mit einer Streuung σ = 0, 12g
erreicht die Maschine einen mittleren Abfüllwert von µ = 1g. Die 36 Proben werden nun in einen einzigen Erlenmeyerkolben gefüllt. Mit welcher Wahrscheinlichkeit
weicht die Endmenge höchstens um 1g vom Zielwert ab?
Mögen die Zufallsvariablen Xi , i = 1, . . . , 36 die Füllmengen in den 36 Reagenzgläsern beschreiben. Dann beschreibt die Zufallsvariable Y = X1 + X2 + . . . + Xn
die Endmenge. Wir haben also P [35 ≤ Y ≤ 37] zu berechnen.
37
35
≤ X̄n ≤
P [35 ≤ Y ≤ 37] = P
36
36
"
#
35
37
−
1
−
1
X̄n − 1
= P 360,12 ≤ 0,12 ≤ 360,12
√
36
= P −1, 389 ≤
√
36
∗
X̄n ≤
√
36
1, 389 ≈ 0, 8354,
da gemäß dem zentralen Grenzwertsatz X̄n∗ annähernd standardnormalverteilt ist.
Kapitel 3
Induktive Statistik
Wir haben im vorigen Kapitel gesehen, dass Wahrscheinlichkeitsräume und die darauf definierten Zufallsvariablen mathematische Modelle zur Beschreibung zufallsbedingter Eigenschaften von Grundgesamtheiten darstellen.
Basierend auf diesen Modellen ist es nun mit den Methoden der induktiven Statistik möglich, ausgehend von Stichproben quantitative Aussagen über die Grundgesamtheit zu machen.
3.1
Schätzverfahren
Allgemein gilt, dass eine Grundgesamtheit durch eine Zufallsvariable X und deren
Verteilung beschrieben wird. Bezeichne etwa Ω die Gesamtheit der Einwohner einer
Stadt; die normalverteilte Zufallsvariable X könnte die Körpergröße der Einwohner
beschreiben. Als Maßzahlen von X haben wir den Erwartungswert E[X] und die Varianz V [X] kennengelernt. Diese sind a priori unbekannt. Man ist daher bemüht,
anhand der Stichprobe den oder die unbekannten Parameter der Grundgesamtheit
zu schätzen. In diesem Paragraphen werden wir in einem ersten Schritt Schätzwerte
für unsere unbekannten Parameter konstruieren. Ein einzelner Schätzwert enthält
aber keine Information darüber, wie sehr er vom wahren“ Parameter abweicht. Des”
wegen werden wir in einem zweiten Schritt versuchen, Bereiche anzugeben, die mit
hoher Wahrscheinlichkeit den unbekannten Parameter enthalten.
3.1.1
Schätzung von Maßzahlen einer Grundgesamtheit
Oft sind gewisse Eigenschaften einer Zufallsvariablen X (etwa der Verteilungstyp)
aus Erfahrung bekannt oder ergeben sich aus der Beschreibung des zugrunde liegenden Zufallsexperiments. Die charakteristischen Parameter sind dagegen meist
unbekannt. So kann man zum Beispiel leicht nachvollziehen, dass die Anzahl von
Kopf beim Werfen einer unfairen Münze durch eine binomialverteilte Zufallsvariable beschrieben werden kann. Es liegt jedoch in der Natur der Sache, dass eine exakte
Angabe der Erfolgswahrscheinlichkeit p nicht möglich ist.
53
54
KAPITEL 3. INDUKTIVE STATISTIK
Unser Ziel wird nun sein, anhand von Stichprobenwerten Schätzwerte für die
unbekannten Parameter zu bestimmen.
Seien x1 , x2 , . . . , xn die Ergebnisse einer
P Stichprobe vom Umfang n. Es liegt beispielsweise nahe, den Mittelwert x̄ = n1 nj=1 xj als Schätzwert für den Erwartungswert E[X] = µ zu benutzen. Es ist andererseits auch klar, dass eine andere Stichprobe vom Umfang n einen anderen Schätzwert liefern wird.
Eine Abbildung θn , die jeder Stichprobe vom Umfang n aus einer Grundgesamtheit einen Schätzwert für eine bestimmte Maßzahl zuordnet, heißt Schätzfunktion
(oder Schätzer) für diese Maßzahl. In unserem Beispiel haben wir also folgende
Schätzfunktion für den Erwartungswert angenommen:
n
(x1 , x2 , . . . , xn ) 7→ θn (x1 , x2 , . . . , xn ) =
1X
xj .
n j=1
(3.1)
Die Werte, die die Schätzfunktion in Abhängigkeit von der jeweiligen Stichprobe
annimmt, nennt man Schätzwerte.
Erwartungstreue Schätzfunktionen
Es stellt sich nun natürlich die Frage nach der Güte eines Schätzers. Ein Kriterium,
mit dem sich die Güte beurteilen lässt, ist die Erwartungstreue.
Offensichtlich gibt ein einzelner Schätzwert den unbekanten Parameter (Maßzahl) nicht exakt wieder. Allerdings sollte die Schätzvorschrift nicht systematisch
einen zu hohen oder zu niedrigen Wert liefern. Das Kriterium der Erwartungstreue fordert daher, dass der Erwartungswert der Zufallsvariable, welche alle theoretisch denkbaren Schätzwerte aus den Stichproben des Umfangs n beschreibt, mit
dem unbekannten Parameter übereinstimmt.
Mathematisch formulieren wir das folgendermaßen: Sei x1 , . . . , xn eine Stichprobe der Länge n. Diese Stichprobe entspricht einer Realisierung (oder Auswertung)
des n-Tupels1 (X1 , . . . , Xn ) von n unabhängigen, gleichverteilten Zufallsvariablen
X1 , . . . , Xn , die die Verteilung von X besitzen. Deswegen kann man θn (x1 , . . . , xn )
als Realisierung der Zufallsvariable θn (X1 , . . . , Xn ) auffassen. Dem Schätzer des Erwartungswertes (3.1) entspricht also die Zufallsvariable
θn (X1 , . . . , Xn ) : Ω × Ω × . . . Ω →
n
1X
Xj .
θn (X1 , . . . , Xn ) =
n j=1
Eine Schätzfunktion θn für eine unbekannte Maßzahl κ heißt erwartungstreu
bezüglich κ, falls
E[θn (X1 , . . . , Xn )] = κ.
1
Das n-Tupel (X1 , . . . , Xn ) ist folgendermaßen definiert:
(X1 , . . . , Xn ) : Ω × Ω × . . . Ω →
×
× ... ×
(X1 , . . . , Xn )(ω1 , . . . , ωn ) = (X1 (ω1 ), . . . , Xn (ωn ))
3.1. SCHÄTZVERFAHREN
55
Beispiele für erwartungstreue Schätzfunktionen
a) Das arithmetische Mittel (3.1) ist eine erwartungstreue Schätzfunktion für den
Erwartungswert E[X].
Beweis: Sei µ = E[X] = E[Xj ], j = 1, . . . , n. Dann gilt:
#
" n
n
X
1X
1
1
Xj =
E[Xj ] = · n · µ = µ.
E[θn (X1 , . . . , Xn )] = E
n j=1
n j=1
n
b) Die empirische Varianz
n
θn (x1 , . . . , xn ) =
1 X
(xj − x̄)2
n − 1 j=1
ist eine erwartungstreue Schätzfunktion für die Varianz V [X].
Beweis: Sei wieder µ = E[X] = E[Xj ] und σ 2 = V [X] = V [Xj ], j = 1, . . . , n.
Zu zeigen ist also:
#
"
n
1 X
(Xj − X̄n )2 = σ 2
E
n − 1 j=1
Berechne zuerst
n
n
X
X
(Xj − X̄n )2 =
(Xj2 − 2 · Xj · X̄n + X̄n2 )
j=1
=
j=1
n
X
Xj2
j=1
=
n
X
Xj2
j=1
− 2n
−
Pn
j=1 Xj
|
2nX̄n2
n
{z
X̄n
+
}
·X̄n +
nX̄n2
=
n
X
j=1
n
X
j=1
X̄n2
Xj2 − nX̄n2 .
Es gilt also:
" n
#
" n
#
X
X
2
2
2
E
(Xj − X̄n )
= E
Xj − nX̄n
j=1
j=1
=
n
X
j=1
E[(Xj − µ + µ)2 ] − nE[(X̄n − µ + µ)2 ]



2
2
=
E[(Xj − µ ) + µ ] − nE[(X̄n − µ )2 + µ2 ]
|{z}
|{z}



j=1 

n 

X
=
n
X
j=1
E[Xj ]
V [Xj ] + nµ2 − nV [X̄n ] − nµ2
= nσ 2 − n
σ2
= (n − 1)σ 2
n
E[X̄n ]
56
KAPITEL 3. INDUKTIVE STATISTIK
Dabei haben wir verwendet, dass für eine Zufallsvariable X mit E[X] = µ gilt
E[X − µ] = E[X] − µ = 0.
3.1.2
Intervallschätzungen
Im vorigen Paragraphen haben wir mithilfe einer Schätzfunktion aus den Daten einer Stichprobe einen Schätzwert für den unbekannten Parameter bestimmt. Um nun
Anhaltspunkte bezüglich der Genauigkeit der Schätzung zu gewinnen, konstruieren
wir aus den Daten der Stichprobe ein so genanntes Konfidenzintervall (oder Vertrauensbereich). Man hofft, bei diesem Verfahren ein Intervall zu erhalten, das
den gesuchten Parameter überdeckt. Es ist allerdings nicht auszuschließen, dass die
Daten der Stichprobe ein Intervall erzeugen, das daneben liegt“ und das den ge”
suchten Parameter nicht enthält. Diese Irrtumswahrscheinlichkeit wird vor der
Bestimmung des Konfidenzintervalls festgelegt. Sie wird mit α bezeichnet und beträgt üblicherweise 5%, in besonderen Fällen auch 1% oder 0,1%. Generell gibt es
bei der Konstruktion eines Konfidenzintervalls zwei Möglichkeiten.
• Mit der Wahrscheinlichkeit 1−α erhält man ein Intervall, das den unbekannten
Parameter enthält. Der Wert 1 − α wird als Konfidenzwahrscheinlichkeit
(oder Konfidenzniveau) bezeichnet. Für α = 5% z. B. beträgt die Konfidenzwahrscheinlichkeit 95%.
• Mit der Wahrscheinlichkeit α erhält man ein Intervall, das den unbekannten
Parameter nicht enthält.
Konfidenzintervalle für den Erwartungswert
Zur Bestimmung des Konfidenzintervalls für den Erwartungswert einer Zufallsvariablen X erinnern wir uns zuerst, dass der Mittelwert eine erwartungstreue Schätzfunktion für den Erwartungswert ist (siehe Beispiel (a.) im vorigen Paragraph). Als
nächstes wollen wir festzustellen, in welchen Bereichen die Werte von x̄ mit großer
Wahrscheinlichkeit zu erwarten sind. Dazu bemerken wir, dass alle theoretisch denkbaren Mittelwerte, die sich aus Stichproben des Umfangs n ergeben, Realisierungen
der Zufallsvariablen
n
1X
X̄n =
Xj .
n j=1
sind. Dabei sind X1 , . . . , Xn unabhängige Kopien der Zufallsvariable X. Auf Grund
des zentralen Grenzwertsatzes ist X̄n annähernd normalverteilt (zumindest für genügend
große n), mit Erwartungswert µ und Standardabweichung √σn .
Für die Konstruktion des Konfidenzintervalls werden wir in einem ersten Schritt
annehmen, σ sei bekannt. Sei z1− α2 so, dass
"
P −z1− α2 ≤
X̄n − µ
√σ
n
≤ z1− α2
#
= 1 − α.
(3.2)
3.1. SCHÄTZVERFAHREN
z1− α2 wird aus der Bedingung
"
57
P −∞ ≤
X̄n − µ
√σ
n
≤ z1− α2
#
=1−
α
2
bestimmt.
Beispiele für Irrtumswahrscheinlichkeiten α und die entsprechenden Werten von
α
z1− 2 sind in der folgenden Tabelle angegeben:
α
1−α
0,1
0,9
0,05
0,95
0,01
0,99
0,001 0,999
z1− α2
1,645
1,960
2,576
3,291
Durch äquivalentes Umformen der Beziehung (3.2) erhalten wir:
σ
σ
P −z1− α2 · √ ≤ X̄n − µ ≤ z1− α2 · √ = 1 − α.
n
n
Das bedeutet, dass der Abstand zwischen dem Mittelwert x̄ und dem Erwartungswert µ = E[X̄n ] betragsmäßig mit einer Wahrscheinlichkeit von 1 − α unterhalb des
Wertes z1− α2 √σn liegt. Anders formuliert: mit der Wahrscheinlichkeit von 1−α fällt der
h
i
σ
σ
√
√
α
α
berechnete Mittelwert x̄ der Stichprobe in das Intervall µ − z1− 2 · n , µ + z1− 2 · n ,
d. h.
σ
σ
µ − z1− α2 · √ ≤ x̄ ≤ µ + z1− α2 · √ .
n
n
Wenn wir von allen Gliedern dieser Ungleichung den Wert µ + x̄ abziehen und dann
die Ungleichung mit (−1) multiplizieren erhalten wir:
σ
σ
−x̄ − z1− α2 · √ ≤ −µ ≤ −x̄ + z1− α2 · √ .
n
n
58
KAPITEL 3. INDUKTIVE STATISTIK
σ
σ
x̄ − z1− α2 · √ ≤ µ ≤ x̄ + z1− α2 · √ .
n
n
Daraus ergibt sich für µ das Konfidenzintervall auf dem Niveau 1 − α (oder mit der
Konfidenzwahrscheinlichkeit 1 − α)
σ
σ
x̄ − z1− α2 · √ , x̄ + z1− α2 · √ .
n
n
Beispiel 17 Wir betrachten eine Apfelernte: Das Gewicht der Äpfel wird durch die
Zufallsvariable X mit der Standardabweichung σ = 10g und unbekanntem Erwartungswert µ beschrieben. Diesen Erwartungswert gilt es jetzt aus den Daten einer
Stichprobe vom Umfang n = 100 zu schätzen
Konstruktion des Konfidenzintervalls
1. 100 Äpfel werden gewogen. Wir berechnen x̄ = 142g.
2. Wir wählen die Irrtumswahrscheinlichkeit α = 0, 1.
3. z1− α2 muss erfüllen F0,1 (z1− α2 ) = 1 − α2 = 0, 95. Aus der Tabelle der standardisierten Normalverteilung erhalten wir z1− α2 = 1, 645.
4. Das Konfidenzintervall für µ auf dem Niveau 1 − α = 0, 9 = 90% ist
142 −
10
10
· 1, 645 ≤ µ ≤ 142 +
· 1, 645.
10
10
Oder ausgerechnet
140, 355g ≤ µ ≤ 143, 645g.
D. h. mit einer Konfidenzwahrscheinlichkeit von 90% enthält das Intervall [140,355;
143,645] den Erwartungswert µ.
3.1. SCHÄTZVERFAHREN
59
Bei den obigen Überlegungen haben wir vorausgesetzt, dass die Standardabweichung
σ der Grundgesamtheit bekannt ist. Dies ist aber bei praktischen Untersuchungen
fast niemals der Fall.
In dieser Situation wählt man die empirische Varianz
n
s(x)2 =
1 X
(xj − x̄)2
n − 1 j=1
als Schätzwert für σ 2 . Nun gehen wir ähnlich wie vorher vor und betrachten die
Zufallsvariable
X̄n − µ
X̄n∗ =
σ
√
n
welche standardnormalverteilt ist.
Da σ unbekannt ist, ersetzen wir es durch s(x) und betrachten die Zufallsvariable
T =
X̄n − µ
s(x)
√
n
.
(3.3)
T ist nicht normalverteilt. Die korrekte Verteilung heißt Student’sche t-Verteilung
mit n − 1 Freiheitsgraden. Die Wahrscheinlichkeitsdichte der t−Verteilung mit
n − 1 Freiheitsgraden ist gegeben durch
− n2
x2
, n ≥ 2,
fn−1 (x) = cn−1 1 +
n−1
dabei ist cn−1 ein Normierungsfaktor, so dass
R∞
fn−1 (x)dx = 1.
−∞
Die Student’sche t-Verteilung ist für alle n ≥ 2 (also auch für kleine Stichprobenumfänge) definiert. Dabei muss allerdings vorausgesetzt werden, dass die Einzelbeobachtungen Xj , aus denen X̄n berechnet wird, normalverteilt sind mit Erwartungswert µ und Varianz σ 2 .
Eigenschaften der t-Verteilung:
• Die Dichte der t-Verteilung ist symmetrisch um 0, stetig und glockenförmig.
(siehe Abb. 3.1). Die t-Verteilung nähert für große n der standardisierten Normalverteilung an.
• Die t-Verteilung ist abhängig vom Parameter n − 1, der die Anzahl der Freiheitsgrade angibt. Es existiert also für jeden Umfang n der Stichprobe eine
spezielle t-Verteilung mit n − 1 Freiheitsgraden!
In Abb. 3.1 ist die Wahrscheinlichkeitsdichte der t-Verteilung,
f1 (x) =
1
1
·
π 1 + x2
für Stichproben vom Umfang n = 2, d.h. mit n − 1 = 1 Freiheitsgraden, eingezeichnet (durchgezogene Linie). Zum Vergleich ist die Dichte f0,1 der standardisierten
60
KAPITEL 3. INDUKTIVE STATISTIK
Abbildung 3.1: Wahrscheinlichkeitsdichte f1 der Student t-Verteilung mit n − 1 = 1
Freiheitsgraden (durchgezogene Linie). Zum Vergleich dazu f0,1 (punktierte Linie).
Normalverteilung angegeben (punktierte Linie).
Der Erwartungswert der t-verteilten Zufallsvariablen T aus (3.3) ist 0. Die Werte
der entsprechenden Verteilungsfunktion sind tabelliert.
Ähnlich wie vorhin ergibt sich nun das Konfidenzintervall für µ auf dem Niveau
1 − α aus der Beziehung
P −tn−1,1− α2 ≤ T ≤ tn−1,1− α2 = 1 − α.
(3.4)
Dabei wird tn−1,1− α2 aus der Beziehung
α
P −∞ ≤ T ≤ tn−1,1− α2 = 1 −
2
bestimmt.
Aus (3.4) ergibt sich nun für µ das Konfidenzintervall
s(x)
s(x)
x̄ − tn−1,1− α2 · √ , x̄ + tn−1,1− α2 · √
.
n
n
3.2
Statistische Tests
Die wissenschaftlichen Fortschritte, die ein empirischer Forscher macht, beruhen letzten Endes auf Erkenntnissen, die aus Experimenten gewonnen werden. Aus diesen
Erkenntnissen, gepaart mit fachlich-theoretischen Überlegungen, entsteht eine Vermutung und - wenn diese präzise formuliert wird - eine Hypothese. In der Regel ist
es nicht möglich, derlei Hypothesen zu beweisen. Ihre Überprüfung erfolgt mit Hilfe
statistischer Tests anhand relevanter Daten aus einer oder mehreren Stichproben.
Wir wollen nun die Begriffsbildung anhand eines Beispiels aus dem Alltag durchführen: Eine Brauerei besitze eine Abfüllanlage, die in jede Flasche genau 500ml Bier
abfüllen soll. Kleinere Abweichungen sind unvermeidlich.
3.2. STATISTISCHE TESTS
61
Es wird also behauptet, dass die Anlage im Mittel 500ml Bier in eine Flasche
füllt. In der Sprache der Wahrscheinlichkeitstheorie sei X eine Zufallsvariable, die
die Abfüllmenge beschreibt. Dann soll E[X] = 500ml gelten. Diese Aussage soll
mittels einer Stichprobe überprüft werden.
In der Statistik drückt man das folgendermaßen aus: Zu prüfen ist die Nullhypothese H0
H0 : E[X] = µ0 = 500ml.
Um diese Hypothese zu prüfen, bestimmen wir zunächst den Mittelwert x̄ der Stichprobe. Die Frage ist dann: Welche Abweichung des Mittelwertes vom Erwartungswert ist als so signifikant einzustufen, dass die Nullhypothese abgelehnt wird?
Die Antwort auf diese Frage kann von der Interessenlage abhängen. Der Verband
der Biertrinker etwa wird die Hypothese nur dann ablehnen, wenn im Mittel zu wenig
Bier abgefüllt wird. Die Alternativhypothese würde dann lauten:
H1 :
E[X] < µ0 = 500ml.
Bei dieser Art von Alternativhypothesen spricht man von linksseitiger Fragestellung. Hier wird man H0 nur dann ablehnen, wenn der Mittelwert x̄ signifikant
kleiner als µ0 ist.
Der Bierproduzent andererseits könnte vor allem daran interessiert sein, nicht zu
viel Bier abzufüllen. Seine Alternativhypothese wäre dann
H1 :
E[X] > µ0 ;
man spricht von einer rechtsseitigen Fragestellung.
Dem Hersteller der Abfüllanlage schließlich könnte vor allem an der Funktionstüchtigkeit der Anlage gelegen sein. Seine Gegenhypothese könnte also
H1 :
E[X] 6= µ0
lauten; eine zweiseitige Fragestellung.
Nullhypothese und Alternativhypothese sind also wichtige Bestandteile eines statistischen Tests. Die Frage, ob einseitig oder zweiseitig getestet wird, hat weniger
mit Statistik als mit sachlogischen Überlegungen zu tun.
Ein weiterer Bestandteil ist die sogenannte Testgröße (oder Prüfgröße) (in
unserem Beispiel der Mittelwert der Stichprobe), die aus den Daten der Stichprobe
ermittelt wird. Diese Größe erlaubt es, nach einem festgelegten Verfahren eine objektive und nachvollziehbare Entscheidung zugunsten von einer Hypothese zu treffen.
3.2.1
Annahmebereich. Kritischer Bereich. Fehlerarten.
Das Verfahen, welches zur Testentscheidung führt, ist anschaulich beschrieben folgendes: Unter der Annahme der Gültigkeit der Nullhypothese wird ein Intervall bestimmt, in das die Werte der Prüfgröße mit Wahrscheinlichkeit 1 − α fallen. Dieses
Intervall heißt Annahmebereich für die Nullhypothese. Mit Wahrscheinlichkeit
62
KAPITEL 3. INDUKTIVE STATISTIK
α liegen die Werte der Prüfgröße außerhalb dieses Intervalls, dieser Bereich wird kritischer Bereich (oder Ablehnungsbereich für die Nullhypothese) genannt.
Die Wahrscheinlichkeit α heißt Signifikanzniveau und hat üblicherweise den Wert
α = 5%. Bei besonderen Fragestellungen wählt man auch α = 1% oder α = 0, 1%,
hin und wieder α = 10%.
Der Wert von α sollte vor der Durchführung des Tests bestimmt werden. Dadurch ist gewährleistet, dass keine willkürlichen oder subjektiven Entscheidungen
getroffen werden.
Entscheidungsregel
• Wenn die Prüfgröße in den Annahmebereich fällt, entscheidet man sich für die
Nullhypothese. Man formuliert die Entscheidung:
Die Nullhypothese wird angenommen“ oder
”
Die Nullhypothese kann auf dem Signifikanzniveau α nicht verworfen werden“
”
oder
Es ergibt sich kein Widerspruch zur Nullhypothese“.
”
• Wenn die Prüfgröße im kritischen Bereich liegt, entscheidet man sich für die
Alternativhypothese. Ein solches Ergebnis heißt (in Abhängigkeit vom α)
schwach-signifikant (α = 10%), signifikant (α = 5%), hoch-signifikant
(α = 1%) oder höchst-signifikant (α = 0, 1%). Man formuliert die Entscheidung als:
Die Nullhypothese wird verworfen“ oder
”
Die Alternativhypothese wird angenommen“.
”
Fehlerarten
Die Testentscheidung hängt von der Prüfgröße ab; diese wiederum wird aus den
Stichprobenwerten ermittelt. Es ist deshalb möglich, dass das Testverfahren im Einzelfall zu einer Fehlentscheidung führt.
Wenn in Wirklichkeit die Nullhypothese richtig ist und man sich fälschlicherweise
für die Alternativhypothese entscheidet, liegt ein Fehler 1. Art oder α-Fehler vor.
Ein Fehler 1. Art ist leider nicht vermeidbar, aber er ist kontrollierbar, denn dieser
Fehler kann nur bei Gültigkeit der Nullhypothese auftreten, und diese ist eindeutig
formuliert. Die Wahrscheinlichkeit für einen Fehler 1. Art ist höchstens α.
Nun ist auch umgekehrt möglich, dass in Wirklichkeit die Alternativhypothese richtig ist, und man sich fälschlicherweise für die Nullhypothese entscheidet. In
diesem Fall begeht man ein β−Fehler oder Fehler 2. Art. Dieser lässt sich im
Gegensatz zum α-Fehler kaum abschätzen, da die Alternativhypothese nicht explizit gebeben ist. In der nachstehenden Tabelle werden die möglichen Situationen
übersichtlich zusammengefasst:
Wirklichkeit
H0 richtig
H0 richtig
H1 richtig
H1 richtig
Testentscheidung
H0 wird angenommen
H1 wird angenommen
H0 wird angenommen
H1 wird angenommen
Fehlerart
kein Fehler
Fehler 1. Art
Fehler 2. Art
kein Fehler
(3.5)
3.2. STATISTISCHE TESTS
3.2.2
63
Test des Erwartungswertes einer normalverteilten Grundgesamtheit
Sei X normalverteilt mit unbekanntem Erwartungswert µ = E[X] und unbekannter Varianz σ 2 = V [X]. X1 , X2 , . . . , Xn seien unabhängige Kopien vom X und
x1 , x2 , . . . , xn seien Stichprobendaten.
Die Hypothesen lauten (bei 2-seitiger Fragestellung):
H0 :
H1 :
E[X] = µ0
E[X] 6= µ0
Nullhypothese
Alternativhypothese.
Wir wählen ein festes Signifikanzniveau α.
Aufgrund der Voraussetzungen dieses Tests und unter Annahme der Nullhypothese
ist die Zufallsvariable
X̄n − µ0
(3.6)
T = s(x)
√
n
t−verteilt mit n − 1 Freiheitsgraden. Es gilt also:
P tn−1, α2 ≤ T ≤ tn−1,1− α2 = 1 − α.
Ist also die Nullhypothese richtig, so produziert T mit Wahrscheinlichkeit 1 − α
Werte im Intervall [tn−1, α2 , tn−1,1− α2 ]. Dieses ist der Annahmebereich für die Nullhypothese.
Mit der Wahrscheinlichkeit α fallen die Werte von T in dem Bereich (−∞, tn−1, α2 ) ∪
(tn−1,1− α2 , ∞). Dies ist der kritische Bereich.
Nach der Vorschrift (3.6) berechnet man aus den Daten der Stichprobe die
Prüfgröße t:
x̄ − µ0
t = s(x) .
(3.7)
√
n
Es gilt folgende Entscheidungsregel: Falls die Prüfgröße t ∈
/ [tn−1, α2 , tn−1,1− α2 ] oder
s(x)
s(x)
äquivalent x̄ ∈
/ [µ0 + tn−1, α2 · √n , µ0 + tn−1,1− α2 · √n ] (d. h. x̄ weicht stark von µ0 ab),
so wird die Nullhypothese auf Signifikanzniveau α abgelehnt.
Bei einseitiger Fragestellung formuliert man die Hypothesen als:
H0 :
H1 :
µ = µ0
µ < µ0
(bzw. µ > µ0 ).
Unter der Nullhypothese gilt nun
P [−tn−1,1−α ≤ T < ∞] = 1 − α
#
X̄n − µ0
P −tn−1,1−α ≤ s(x) < ∞ = 1 − α
"
√
n
s(x)
P µ0 − tn−1,1−α · √ ≤ X̄n < ∞ = 1 − α.
n
64
KAPITEL 3. INDUKTIVE STATISTIK
Daraus ergibt sich der Annahmebereich für die Nullhypothese [−tn−1,1−α , ∞), denn
√ , ∞), x̄ ist also nicht viel kleiner
t ∈ [−tn−1,1−α , ∞) bedeutet x̄ ∈ [µ0 − tn−1,1−α · s(x)
n
als µ0 .
Analog erhält man im Falle der rechtsseitigen Fragestellung µ > µ0 den Annahmebereich (−∞, tn−1,1−α ].
Beispiel 18 Aus der Fachliteratur ist bekannt, dass das durchschnittliche Geburtsgewicht gesunder Kinder nach einer unauffällig verlaufenen Schwangerschaft µ0 =
3500g beträgt. Ein Mediziner möchte statistisch absichern, dass Babys von Raucherinnen im allgemeinen weniger wiegen. Dazu werden 20 Babys herangezogen, deren
Mütter stark rauchen. Es wird ein mittleres Geburtsgewicht von x̄ = 3280g mit einer Streuung von 490g ermittelt. Der Unterschied zu µ0 beträgt also im Durchschnitt
220g. Ist dieses Ergebnis eine Bestätigung für die Vermutung des Artztes? Oder ist
der Unterschied zufällig bedingt und hat ansonsten keine Bedeutung?
Da man davon ausgehen kann, dass - falls ein Unterschied existiert - das durchschnittliche Gewicht der Raucher-Babys geringer ist als der Sollwert, verwendet man
die einseitige Fragestellung mit den Hypothesen
H0 :
µ = 3500g
H1 :
µ < 3500g.
Als Prüfgröße ergibt sich nach (3.7)
t=
3280 − 3500
490
√
20
= −2, 008.
Mit n − 1 = 19 und α = 5% erhalten wir
tn−1,1−α = t19;0,95 = 1, 729.
Der Annahmebereich ist [−1, 729; ∞). Der kritische Bereich ist (−∞; −1, 729). Da
t = −2, 008 ∈
/ [−1, 729; ∞), ist das Ergebnis signifikant; d. h. die Alternativhypothese
wird angenommen.
3.2.3
t-Test auf Lageunterschied bei verbundenen Stichproben
Dies ist ein Test, der zur Überprüfung der Gleichheit von zwei Erwartungswerten
herangezogen wird. Er setzt voraus: zwei verbundene Stichproben des Umfangs n
mit Wertepaaren {xj }, {yj }, j = 1, . . . , n, die aus Grundgesamtheiten mit den Erwartungswerten µ1 und µ2 stammen. Die Hypothesen lauten bei zweiseitiger Fragestellung:
H0 : µ 1 = µ 2
H1 :
µ1 6= µ2
3.2. STATISTISCHE TESTS
65
bzw. bei einseitiger Fragestellung
H1 :
µ1 < µ2
(oder µ1 > µ2 ).
Um diese Hypothesen zu überprüfen, betrachten wir die Differenzen Dj = Yj −
Xj , j = 1, . . . , n. Es wird vorausgesetzt, dass die Zufallsvariablen Dj normalverteilt
sind mit unbekannten µ und σ.
Unsere Hypothesen lassen sich wie folgt umformulieren:
H0 :
H1 :
bzw.
H1 :
µ = E(D̄n ) = µ2 − µ1 = 0
µ 6= 0
(zweiseitige Fragestellung)
µ < 0 (oder µ > 0)
(einseitige Fragestellung)
Wir wählen wieder ein festes Signifikanzniveau α.
Die Zufallsvariable
T =
D̄n − 0
s(d)
√
n
n
,
1 X
¯ 2,
(dj − d)
mit s(d) =
n − 1 j=1
2
ist t−verteilt mit n − 1 Freiheitsgraden. Die Prüfgröße t berechnet sich dann aus
den Daten
d¯
t = s(d) .
√
n
Der Annahmebereich für die Nullhypothese ist dann
[−tn−1,1− α2 , tn−1,1− α2 ]
[−tn−1,1−α , ∞)
(−∞, tn−1,1−α ]
bei zweiseitiger Fragestellung
bei linksseitiger Fragestellung
bei rechtsseitiger Fragestellung
Anwendung bei der Untersuchung der hormonellen Regulation des Lipidstoffwechsels bei Insekten (Grundpraktikum C, Teil 4)
Wenn Wanderheuschrecken (Locusta migratoria) zu ihren Wanderschaften aufbrechen, müssen sie als Brennstoff für den Flug aus ihren Fettreserven eine bestimmte
Art von Fett, Diglyzeride, mobilisieren. Das funktioniert so, dass eine bestimmte
Drüse im Kopf ein Hormon ausschüttet (adipokinetisches Hormon), und dieses Hormon setzt Diglyzeride aus den Fettreserven frei.
Um diese hormonelle Regulation nachzuweisen wird in einem Versuch mit 4 Heuschrecken die Diglyzeridkonzentration in der Hämolymphe (Blut der Insekten) vor
und nach einer Injektion des adipokinetischen Hormons gemessen. Es wird untersucht, ob die Konzentration nach der Hormonverabreichung ansteigt.
Mithilfe einer statistischen Analyse soll nun beurteilt werden, ob die Änderung der
Diglyzeridkonzentration von vor Hormon“ nach nach Hormon“ signifikant ist oder
”
”
nicht.
Aus dem Experiment erhalten wir zwei Messreihen:
66
KAPITEL 3. INDUKTIVE STATISTIK
Abbildung 3.2: Die Wanderheuschrecke (Locusta migratoria)
• xj , j = 1, . . . , 4 beschreibt die Werte der DG-Konzentration vor der Hormonverabreichung und
• yj , j = 1, . . . , 4 gibt die entsprechende Konzentration nach der Hormonverabreichung an.
1
2
3 4
11 23 20 11
62 49 69 49
P
d¯ = 14 4j=1 dj = 41
51 26 49 38
P
¯ 2 = 132, 7
10 -15 8 -3 s(d)2 = 31 4j=1 (dj − d)
Probe j
xj (ng/ml)
yj (ng/ml)
dj = yj − xj
dj − d¯
Da uns in diesem Fall die Erhöhung der Lipidkonzentration interessiert, betrachten
wir folgende rechtsseitige Fragestellung
H0 :
H1 :
µ = E[D̄n ] = 0
µ>0
Nullhypothese
Alternativhypothese
Wähle α = 0, 05 = 5%.
Die Prüfgröße berechnet sich nach der Vorschrift
t=
d¯
s(d)
√
4
41
=q
132,7
4
=√
41
41
≈ 7, 12.
≈
5, 76
33, 18
Der Annahmebereich der Nullhypothese ist
(−∞, t3;0,95 ] = (−∞; 2, 353].
Da 7, 12 ∈
/ (−∞; 2, 353] ist das Ergebnis signifikant; d. h. die Alternativhypothese
wird angenommen.
3.2. STATISTISCHE TESTS
67
Anhang 1: Werte von F0,1 (y)
y
.00
.01
.02
.03
.04
.05
.06
.07
.08
.09
.0
.1
.2
.3
.4
.5
.6
.7
.8
.9
1.0
1.1
1.2
1.3
1.4
1.5
1.6
1.7
1.8
1.9
2.0
2.1
2.2
2.3
2.4
2.5
2.6
2.7
2.8
2.9
3.0
3.1
3.2
3.3
3.4
0.5000
0.5398
0.5793
0.6179
0.6554
0.6915
0.7257
0.7580
0.7881
0.8159
0.8413
0.8643
0.8849
0.9032
0.9192
0.9332
0.9452
0.9554
0.9641
0.9713
0.9772
0.9821
0.9861
0.9893
0.9918
0.9938
0.9953
0.9965
0.9974
0.9981
0.9987
0.9990
0.9993
0.9995
0.9997
0.5040
0.5438
0.5832
0.6217
0.6591
0.6950
0.7291
0.7611
0.7910
0.8186
0.8438
0.8665
0.8869
0.9049
0.9207
0.9345
0.9463
0.9564
0.9649
0.9719
0.9778
0.9826
0.9864
0.9896
0.9920
0.9940
0.9955
0.9966
0.9975
0.9982
0.9987
0.9991
0.9993
0.9995
0.9997
0.5080
0.5478
0.5871
0.6255
0.6628
0.6985
0.7324
0.7642
0.7939
0.8212
0.8461
0.8686
0.8888
0.9066
0.9222
0.9357
0.9474
0.9573
0.9656
0.9726
0.9783
0.9830
0.9868
0.9898
0.9922
0.9941
0.9956
0.9967
0.9976
0.9982
0.9987
0.9991
0.9994
0.9995
0.9997
0.5120
0.5517
0.5910
0.6293
0.6664
0.7019
0.7357
0.7673
0.7967
0.8238
0.8485
0.8708
0.8907
0.9082
0.9236
0.9370
0.9484
0.9582
0.9664
0.9732
0.9788
0.9834
0.9871
0.9901
0.9925
0.9943
0.9957
0.9968
0.9977
0.9983
0.9988
0.9991
0.9994
0.9996
0.9997
0.5160
0.5557
0.5948
0.6331
0.6700
0.7054
0.7389
0.7704
0.7995
0.8264
0.8508
0.8729
0.8925
0.9099
0.9251
0.9382
0.9495
0.9591
0.9671
0.9738
0.9793
0.9838
0.9875
0.9904
0.9927
0.9945
0.9959
0.9969
0.9977
0.9984
0.9988
0.9992
0.9994
0.9996
0.9997
0.5199
0.5596
0.5987
0.6368
0.6736
0.7088
0.7422
0.7734
0.8023
0.8289
0.8531
0.8749
0.8944
0.9115
0.9265
0.9394
0.9505
0.9599
0.9678
0.9744
0.9798
0.9842
0.9878
0.9906
0.9929
0.9946
0.9960
0.9970
0.9978
0.9984
0.9989
0.9992
0.9994
0.9996
0.9997
0.5239
0.5636
0.6026
0.6406
0.6772
0.7123
0.7454
0.7764
0.8051
0.8315
0.8554
0.8770
0.8962
0.9131
0.9279
0.9406
0.9515
0.9608
0.9686
0.9750
0.9803
0.9846
0.9881
0.9909
0.9931
0.9948
0.9961
0.9971
0.9979
0.9985
0.9989
0.9992
0.9994
0.9996
0.9997
0.5279
0.5675
0.6064
0.6443
0.6808
0.7157
0.7486
0.7794
0.8078
0.8340
0.8577
0.8790
0.8980
0.9147
0.9292
0.9418
0.9525
0.9616
0.9693
0.9756
0.9808
0.9850
0.9884
0.9911
0.9932
0.9949
0.9962
0.9972
0.9979
0.9985
0.9989
0.9992
0.9995
0.9996
0.9997
0.5319
0.5714
0.6103
0.6480
0.6844
0.7190
0.7517
0.7823
0.8106
0.8365
0.8599
0.8810
0.8997
0.9162
0.9306
0.9429
0.9535
0.9625
0.9699
0.9761
0.9812
0.9854
0.9887
0.9913
0.9934
0.9951
0.9963
0.9973
0.9980
0.9986
0.9990
0.9993
0.9995
0.9996
0.9997
0.5359
0.5753
0.6141
0.6517
0.6879
0.7224
0.7549
0.7852
0.8133
0.8389
0.8621
0.8830
0.9015
0.9177
0.9319
0.9441
0.9545
0.9633
0.9706
0.9767
0.9817
0.9857
0.9890
0.9916
0.9936
0.9952
0.9964
0.9974
0.9981
0.9986
0.9990
0.9993
0.9995
0.9997
0.9998
68
KAPITEL 3. INDUKTIVE STATISTIK
Anhang 2: Kritische Werte der t-Verteilung mit n − 1-Freiheitsgraden
n − 1 tn−1;0,9
1
3,078
2
1,886
3
1,638
4
1,533
5
1,476
6
1,440
7
1,415
8
1,397
9
1,383
10
1,372
11
1,363
12
1,356
13
1,350
14
1,345
15
1,341
16
1,337
17
1,333
18
1,330
19
1,328
20
1,325
21
1,323
22
1,321
23
1,319
24
1,318
25
1,316
26
1,315
27
1,314
28
1,313
29
1,311
∞
1,282
tn−1;0,95
6,314
2,920
2,353
2,132
2,015
1,943
1,895
1,860
1,833
1,812
1,796
1,782
1,771
1,761
1,753
1,746
1,740
1,734
1,729
1,725
1,721
1,717
1,714
1,711
1,708
1,706
1,703
1,701
1,699
1,645
tn−1;0,975
12,76
4,303
3,182
2,776
2,571
2,447
2,365
2,306
2,262
2,228
2,201
2,179
2,160
2,145
2,131
2,120
2,110
2,101
2,093
2,086
2,080
2,074
2,069
2,064
2,060
2,056
2,052
2,048
2,045
1,960
tn−1;0,99
31,821
6,965
4,541
3,747
3,365
3,143
2,998
2,896
2,821
2,764
2,718
2,681
2,650
2,624
2,602
2,583
2,567
2,552
2,539
2,528
2,518
2,508
2,500
2,492
2,485
2,479
2,473
2,467
2,462
2,326
tn−1;0,995
63,657
9,925
5,841
4,604
4,032
3,707
3,499
3,355
3,250
3,169
3,106
3,055
3,012
2,977
2,947
2,921
2,898
2,878
2,861
2,845
2,831
2,819
2,807
2,797
2,787
2,779
2,771
2,763
2,756
2,576
n−1
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
∞
Kapitel 4
Lösen von linearen
Gleichungssystemen
4.1
Motivation: Lösungen einer Substanz
Beispiel 19 Sie haben 100ml 30 %igen Alkohol. Wieviel ml 96 %igen Alkohol müssen
Sie zusetzen, um 40 %igen Alkohol zu erhalten?
Sei x die Menge des 96 %igen Alkohols, die dazugegeben werden muss. Dann gilt
100 · 30 + x · 96 = (100 + x) · 40
96x − 40x = −3000 + 4000
56x = 1000
1000
[ml].
x=
56
4.2
(4.1)
Lineare (quadratische) Gleichungssysteme
Die Gleichung (4.1) ist eine lineare Gleichung mit einer Unbekannten. Derartige Gleichungen sind Spezialfälle von linearen Gleichungsystemen von n Gleichungen
mit n Unbekannten. Die allgemeine Form eines solchen Systems ist
a11 x1 + a12 x2 + . . . + a1n xn = b1
a21 x1 + a22 x2 + . . . + a2n xn = b2
................................
ai1 x1 + ai2 x2 + . . . + ain xn = bi
................................
an1 x1 + an2 x2 + . . . + ann xn = bn
(4.2)
Dabei sind die Koeffizienten aij , i = 1, . . . , n, j = 1, . . . , n und die rechten Seiten
bi , i = 1, . . . , n gegebene reelle Zahlen. xj ∈ R, j = 1, . . . , n sind die unbekannten
Größen. Wir wollen als nächstes eine Methode zur Lösung des linearen Gleichungssystems (4.2) kennenlernen. Bevor wir uns aber mit dem allgemeinen Fall befassen,
betrachten wir einige Beispiele.
69
70
KAPITEL 4. LÖSEN VON LINEAREN GLEICHUNGSSYSTEMEN
Beispiel 20 (Unlösbares System)
2x1 + 2x2 = 10
x1 + x2 = 1
(4.3)
Wir sehen sofort, dass dieses System keine Lösung besitzt, denn für eine Lösung
müsste aus der ersten Gleichung gelten
x1 + x2 = 5.
Dies steht aber im Widerspruch zur zweiten Gleichung in (4.3).
Beispiel 21 (Unbestimmtes System)
2x1 + 2x2 = 10
x1 + x2 = 5
(4.4)
Es ist leicht zu sehen, dass dieses System unendlich viele Lösungen besitzt, nämlich
alle Paare (x1 , x2 ), für welche gilt
x1 + x2 = 5.
Beispiel 22 (Eindeutig lösbares System)

 2x1 + 2x2 + 5x3 = 27
6x2 − 10x3 = 0

3x3 = 9
(4.5)
Um dieses System zu lösen, fangen wir bei der dritten Gleichung an und erhalten
sofort
x3 = 3.
Dann setzen wir in die zweite Gleichung den bekannten Wert von x3 = 3 ein und
erhalten
10 · 3
= 5.
x2 =
6
Schließlich setzen wir in die erste Gleichung x2 = 5 und x3 = 3 ein und berechnen
x1 =
27 − 2 · 5 − 5 · 3
= 1.
2
Eine Lösung des Systems (4.5) ist also (x1 , x2 , x3 ) = (1, 5, 3). Aus dem Lösungsverfahren ist klar, dass diese auch die einzige Lösung ist.
Die obigen Beispiele zeigen, dass lineare Gleichungssysteme nicht immer eindeutig lösbar sind. Mit der allgemeinen Lösungstheorie linearer Gleichungssysteme
werden wir uns allerdings erst im nächsten Semester befassen. Im Rahmen dieser
Vorlesung werden wir eine Lösungsmethode kennenlernen, die unter der Voraussetzung der eindeutigen Lösbarkeit angewendet werden kann.
4.2. LINEARE (QUADRATISCHE) GLEICHUNGSSYSTEME
4.2.1
71
Gaußsche Eliminationsmethode
Die Gaußsche Eliminationsmethode besteht darin, dass man das System (4.2)
durch geeignete Umformungen in ein sogenanntes gestaffeltes System, d. h. ein
System der Form (4.6) oder (4.8) umwandelt. Dieses System wird dann rekursiv
gelöst.
Betrachten wir zunächst folgendes gestaffelte System:
r11 x1 + r12 x2 + . . .
r22 x2 + . . .
..
.
+ r1n xn = c1
+ r2n xn = c2
(4.6)
rnn xn = cn
In dem Beispiel (4.5) haben wir bereits ein gestaffeltes System der Form (4.6) gelöst.
Wir wollen nun den Lösungsalgorithmus für den allgemeinen Fall (4.6) aufschreiben.
Offenbar erhalten wir (x1 , x2 , . . . , xn ) durch rekursive Auflösung beginnend mit der
Zeile n:
xn =
xn−1 =
..
.
x1 =
cn
,
rnn
cn−1 − rn−1,n xn
,
rn−1,n−1
falls rnn 6= 0
falls rn−1,n−1 6= 0
c1 − r12 x2 − . . . − r1n xn
,
r11
falls r11 6= 0.
Diese Auflösung gestaffelter Systeme heißt Rückwärtssubstitution. Der angegebene Algorithmus ist genau dann anwendbar, wenn
rii 6= 0, für alle i = 1, . . . , n.
(4.7)
Wir werden im nächsten Semester sehen, dass (4.7) eine notwendige und hinreichende Bedingung für die eindeutige Lösbarkeit des Systems (4.6) ist.
Vollkommen analog lässt sich ein gestaffeltes System der Form
l11 x1
l21 x1 + l22 x2
ln1 x1 + ln2 x2
..
.
+ ...
= c1
= c2
(4.8)
+ lnn xn = cn
lösen, indem man in der ersten Zeile beginnt und sich zur letzten Zeile durcharbeitet.
Diese Auflösung heißt Vorwärtssubstitution.
Wir kehren nun zurück zu dem allgemeinen System (4.2) und versuchen, es in ein
gestaffeltes umzuformen. Die erste Zeile muss dazu nicht verändert werden. Die
restlichen Zeilen wollen wir so behandeln, dass die Koeffizienten vor x1 verschwinden,
d. h. die Variable x1 aus den Zeilen 2 bis n eliminiert wird. So entsteht ein System
72
KAPITEL 4. LÖSEN VON LINEAREN GLEICHUNGSSYSTEMEN
der Art
a11 x1 + a12 x2 + . . . + a1n xn = b1
a022 x2 + . . . + a02n xn = b02
..
.
(4.9)
a0n2 x2 + . . . + a0nn xn = b0n
Haben wir das erreicht, so können wir dasselbe Verfahren auf die letzten n−1 Zeilen
anwenden und so rekursiv ein gestaffeltes System erhalten. Es genügt daher den
ersten Eliminationsschritt von (4.2) nach (4.9) zu untersuchen. Wir setzen voraus
a11 6= 0.
(Falls diese Bedingung nicht erfüllt ist, vertauschen wir die erste Zeile mit einer Zeile
aus dem System (4.2) für welche ai1 6= 0.)
Um den Term ai1 x1 in der Zeile i (i = 2, . . . , n) zu eliminieren, subtrahieren wir von
der Zeile i ein Vielfaches der unveränderten Zeile 1 und erhalten
(ai1 − li1 a11 ) x1 + (ai2 − li1 a12 ) x2 + . . . + (ain − li1 a1n ) xn = bi − li1 bi ,
| {z }
|
{z
}
{z
}
{z
}
|
|
=0
=a0i2
=a0in
i = 2, . . . , n
=b0i
i1
Aus ai1 − li1 a11 = 0 folgt sofort li1 = aa11
, i = 2, . . . , n. Damit ist der erste Eliminationsschritt unter der Annahme a11 6= 0 ausführbar.
In der Zeilen 2 bis n bleibt nach diesem ersten Schritt ein (n − 1, n − 1)− ”Restsystem“ stehen. Darauf wenden wir die Eliminationsvorschrift erneut an.
Beispiel 23 : Löse das System

2x1 + 7x2



4x1 + 14x2
x1 + 3x2



10x1 + 5x2
+ 9x3
+ 8x3
+ 5x3
− x3
+ x4
+ 3x4
− 3x4
− 4x4
=
1
=
6
= −13
= −1
Wir wollen also die Terme mit x1 aus der 2., 3. und 4. Zeile eliminieren. Dazu
multipliziere Zeile 1 mit 2 und subtrahiere sie von Zeile 2,
multipliziere Zeile 1 mit 21 und subtrahiere sie von Zeile 3,
multipliziere Zeile 1 mit 5 und subtrahiere sie von Zeile 4:

2x1 +
7x2 +
9x3 +
x4 =
1



− 10x3 +
x4 =
4
−
0,
5x
+
0,
5x
−
3,
5x
=
−13,
5

2
3
4


− 30x2 − 46x3 −
9x4 =
−6
Da der Koeffizient von x2 in der
und dritte Zeile:

2x1 +
7x2



− 0, 5x2



− 30x2
2-ten Zeile a22 = 0 ist, vertauschen wir die zweite
+
9x3
+ 0, 5x3
− 10x3
− 46x3
+
x4
− 3, 5x4
+
x4
−
9x4
=
1
= −13, 5
=
4
=
−6
4.3. BERECHNEN VON KONZENTRATIONEN
73
Nun multiplizieren wir die 2. Zeile mit 60 und subtrahieren sie von der 4. Zeile:

2x1 +
7x2 +
9x3 +
x4 =
1



− 0, 5x2 + 0, 5x3 − 3, 5x4 = −13, 5
− 10x3 +
x4 =
4



− 76x3 + 201x4 =
804
Multipliziere jetzt noch die 3. Zeile mit 7,6

2x1 +
7x2 +
9x3



− 0, 5x2 + 0, 5x3
− 10x3



und subtrahiere sie von der 4. Zeile:
+
−
+
x4
3, 5x4
x4
193, 4x4
=
1
= −13, 5
=
4
= 773, 6
Daraus berechnen wir nun durch Rückwärtssubstitution:
x4 =
773, 6
= 4.
193, 4
Aus der dritten Gleichung berechnen wir x3 :
x3 =
4−4
4 − x4
=
=0
10
10
Aus der zweiten Gleichung folgt:
x2 =
−13, 5 − 0, 5 · 0 + 3, 5 · 4
−13, 5 − 0, 5x3 + 3, 5x4
=
= −1
−0, 5
−0, 5
Zum Schluss wird x1 ausgerechnet:
x1 =
1 − 7x2 − 9x3 − x4
1 − 7 · (−1) − 9 · 0 − 4
=
=2
2
2
Die Lösung des Systems ist also (x1 , x1 , x1 , x1 ) = (2, −1, 0, 4).
4.3
Berechnen von Konzentrationen
Aufgabe: Es sind zwei Lösungen vorhanden. In der ersten Lösung sind 40% Methanol und 20% Formaldehyd enthalten. In der zweiten Lösung sind 30% Methanol
und 10% Formaldehyd enthalten. Welche Mengen der beiden Lösungen und Wasser
müssen zusammengemischt werden, um 1 Liter Endlösung mit 15% Methanol und
6% Formaldehyd zu erhalten?
Lösung: Um die benötigten Mengen zu berechnen, bezeichnen wir mit
x = Menge [in Liter] der ersten Lösung die nötig ist
y = Menge [in Liter] der zweiten Lösung die nötig ist
74
KAPITEL 4. LÖSEN VON LINEAREN GLEICHUNGSSYSTEMEN
z = Menge [in Liter] Wasser die nötig ist
Diese drei Mengen sollen sich zu 1 Liter addieren, d. h.
x+y+z =1
Die Menge von Methanol in eine Lösung, die durch das Zusammenmischen von x
Liter der ersten Lösung, y Liter der zweiten Lösung und z Liter Wasser entsteht,
berechnet sich zu:
x · 40% + y · 30% + z · 0%.
Diese Methanolmenge stellt 15% von 1 Liter Endlösung dar. Wir erhalten also die
Gleichung:
40x + 30y = 15.
Analog ergibt die Bilanz der Formaldehydmenge in 1 Liter Endlösung die Gleichung:
20x + 10y = 6.
Wir erhalten also das Gleichungssystem:
x +
40x +
20x +
y +
30y
10y
z
= 1
= 15
= 6
Um ein gestaffeltes Gleichungssystem zu erhalten, eliminieren wir die Unbekannte y
aus der dritten Gleichung. D. h. wir multiplizieren die zweite Gleichung mit 31 und
subtrahieren sie von der dritten Gleichung.
x +
40x +
20
x
3
y +
30y
z
= 1
= 15
= 1
Wir erhalten also als Lösung unserer Aufgabe:
3
20
3
15 − 40 · 20
6
y =
=
30
20
6
11
3
−
=
z = 1−
20 20
20
x =
3
Es müssen also 20
Liter Methanol,
sammengemischt werden.
6
20
Liter Formaldehyd und
11
20
Liter Wasser zu-
Bemerkung 7 Es ist von vornerein klar, dass eine Lösung (x, y, z) dieser Aufgabe
die Nebenbedingungen
0 ≤ x ≤ 1,
0 ≤ y ≤ 1,
0≤z≤1
erfüllen muss. Deswegen muss man am Ende noch ueberprüfen, ob die erhaltene
Lösung auch zulässig“ ist.
”