Mathematik für Biologen 1 - IWR Heidelberg

Werbung
Mathematik für Biologen 1
Dr. Maria Neuss-Radu
Universität Heidelberg
Wintersemester 2004/05
Inhaltsverzeichnis
1 Messen und Datenbeschreibung
1.1 Merkmale und Mess-Skalen . . . . . . . . . . . . . .
1.2 Die Zahlensysteme , , , . . . . . . . . . . . .
1.2.1 Die natürlichen Zahlen . . . . . . . . . . . .
1.2.2 Die ganzen Zahlen . . . . . . . . . . . . . .
1.2.3 Die rationalen Zahlen (Bruchzahlen) . . . .
1.2.4 Die reellen Zahlen . . . . . . . . . . . . . . .
1.2.5 Näherungswerte und signifikante Stellen . .
1.3 Empirische Analyse der Messergebnisse . . . . . . .
1.3.1 Empirische Häufigkeitsverteilung . . . . . .
1.3.2 Lagemaße und Streuungsmaße . . . . . . . .
1.3.3 Stochastische Abhängigkeit: Korrelation und
. . . . . . .
. . . . . . .
. . . . . . .
. . . . . . .
. . . . . . .
. . . . . . .
. . . . . . .
. . . . . . .
. . . . . . .
. . . . . . .
Regression .
2 Wahrscheinlichkeitsrechnung
2.1 Zufall und Wahrscheinlichkeit . . . . . . . . . . . . . . .
2.2 Diskrete Wahrscheinlichkeitsverteilungen . . . . . . . . .
2.2.1 Die Laplace Wahrscheinlichkeitsverteilung . . . .
2.2.2 Die Binomialverteilung . . . . . . . . . . . . . . .
2.2.3 Die Poissonverteilung . . . . . . . . . . . . . . . .
2.3 Wahrscheinlichkeitsverteilungen auf . . . . . . . . . .
2.3.1 Die Gleichverteilung . . . . . . . . . . . . . . . .
2.3.2 Die Normalverteilung . . . . . . . . . . . . . . . .
2.4 Zufallsvariable und ihre Verteilungen . . . . . . . . . . .
2.4.1 Verteilung einer Zufallsvariable . . . . . . . . . .
2.4.2 Erwartungswert und Varianz einer Zufallsvariable
2.5 Der zentrale Grenzwertsatz . . . . . . . . . . . . . . . . .
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
4
. 4
. 5
. 5
. 5
. 5
. 6
. 7
. 8
. 9
. 14
. 20
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
29
29
34
34
37
40
41
43
44
46
47
50
52
.
.
.
.
.
53
53
53
56
60
61
3 Induktive Statistik
3.1 Schätzverfahren . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
3.1.1 Schätzung von Maßzahlen einer Grundgesamtheit . . . . . .
3.1.2 Intervallschätzungen . . . . . . . . . . . . . . . . . . . . . .
3.2 Statistische Tests . . . . . . . . . . . . . . . . . . . . . . . . . . . .
3.2.1 Annahmebereich. Kritischer Bereich. Fehlerarten. . . . . . .
3.2.2 Test des Erwartungswertes einer normalverteilten Grundgesamtheit . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
2
. 63
INHALTSVERZEICHNIS
3.2.3
3
t-Test auf Lageunterschied bei verbundenen Stichproben . . . 64
4 Lösen von linearen Gleichungssystemen
4.1 Motivation: Lösungen einer Substanz . . .
4.2 Lineare (quadratische) Gleichungssysteme
4.2.1 Gaußsche Eliminationsmethode . .
4.3 Berechnen von Konzentrationen . . . . . .
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
69
69
69
71
73
Kapitel 1
Messen und Datenbeschreibung
1.1
Merkmale und Mess-Skalen
Bei Untersuchungen oder Beobachtungen von biologischen Vorgängen werden bestimmte Eigenschaften (Charakteristika) der zu untersuchenden Objekte gemessen
bzw. beobachtet. Diese Eigenschaften nennen wir Merkmale. Merkmale können
verschiedene Werte (Merkmalausprägungen) annehmen.
Der Informationsgehalt der gemessenen Werte hängt von der Skala ab, auf der die
Messung erfolgt. Merkmale können grob in qualitative und quantitative Merkmale eingeteilt werden. Man spricht von quantitativen Merkmalen, wenn sie zahlenmäßig erfassbar sind. Sind sie nur artmäßig erfassbar, so spricht man von qualitativen Merkmalen.
Bei allen qualitativen Merkmalen besteht die Mess-Skala aus endlich vielen, diskreten (isolierten) Werten, welche
1. bei der Nominal-Skala unabhängig von irgendeiner Reihenfolge mit treffenden Namen bezeichnet werden, z. B.
Merkmal
Ausprägung
Blutgruppe
{ 0, A, B, AB}
Rhesusfaktor {positiv, negativ}
2. bei der Ordinal-Skala zusätzlich der Reihenfolge nach angeordnet sind, z. B.
Merkmal
Ausprägung
Reifestadien
{ Ei, Larve, Puppe, Falter}
Schädlingsbefall {keiner, gering, mittel, stark}
Bei den quantitativen Merkmalen kann die Mess-Skala sowohl diskret (mit Hilfe
der ganzen Zahlen ) als auch kontinuierlich (anhand der reellen Zahlen ) gewählt
werden.
3. Bei der Intervall-Skala ist ein Bezugspunkt für die Abstands“-Messung,
”
der sogenannte Nullpunkt, willkürlich festgelegt (z. B. Christi Geburt, Gefrierpunkt von Wasser). Es lassen sich sinnvollerweise Summen und Differenzen der Skalenwerte bilden. Da der Nullpunkt nicht physikalisch zwingend ist,
4
1.2. DIE ZAHLENSYSTEME
, , , 5
sind Quotienten nicht interpretierbar.
Merkmal
Ausprägung Diskret/Kontinuierlich
Datum
12.10.2004
D
◦
Temperatur 16,2 C
K
4. Demgegenüber erlaubt die Verhältnis-Skala, wie der Name es auch ausdrückt, die Bildung von Quotienten (rationale Zahlen ) bezüglich eines absoluten Nullpunktes, z. B.
Merkmal
Ausprägung Diskret/Kontinuierlich
Anzahl Individuen 0,1,2,3...
D
Größe
5,6 cm
K
Welches Skalenniveau günstig ist, hängt von der Fragestellung, aber auch von
dem Messaufwand der eingesetzt werden kann ab.
1.2
Die Zahlensysteme
, , , Bei der Einführung der Mess-Skalen haben wir gesehen, dass Zahlen eine wichtige
Rolle bei der Beschreibung und Zusammenfassung von Messergebnissen spielen.
1.2.1
Die natürlichen Zahlen
Die beim Zählen oder Abzählen verwendeten natürlichen Zahlen werden mit
= {0, 1, 2, 3, 4, ...}
bezeichnet. Wir stellen die natürlichen Zahlen im Zehnersystem dar, d. h. basierend
auf Potenzen von 10. Z. B. steht 213785 für
213785 = 2 · 100000 + 1 · 10000 + 3 · 1000 + 7 · 100 + 8 · 10 + 5 · 1
= 2 · 105 + 1 · 104 + 3 · 103 + 7 · 102 + 8 · 101 + 5 · 100
1.2.2
Die ganzen Zahlen
Da das Rechnen mit natürlichen Zahlen Beschränkungen unterliegt, z. B. ist die
Differenz 12 − 15 in nicht durchführbar, verallgemeinert man dieses System durch
Hinzunahme aller negativen Zahlen. Man erhällt dabei die ganzen Zahlen
= {· · · , −3, −2, −1, 0, 1, 2, 3, · · · }.
1.2.3
Die rationalen Zahlen (Bruchzahlen)
Bruchzahlen treten in natürlicher Weise bei der Angabe von Verhältnissen auf: Um
”
die Substanz A anzusetzen, mische man 3 Teile der Fluessigkeit B und 5 Teile der
Flüssigkeit C.“ Insgesamt hat man dann 8 Teile (genauer: Volumen oder Gewichtseinheiten), so dass die Mischung zu 83 aus B und zu 58 aus C besteht.
6
KAPITEL 1. MESSEN UND DATENBESCHREIBUNG
Die rationalen Zahlen bezeichnet man mit
={
1.2.4
m
,m ∈
n
, n ∈
\ {0}}.
Die reellen Zahlen
Die reellen Zahlen kann man sich vorstellen als die Menge aller Punkte der unendlichen Zahlengeraden. Es stellt sich die Frage, ob die reellen Zahlen nicht dasselbe
sind wie die rationalen Zahlen. Dies ist nicht der Fall: Es gibt Lücken“ in . Auf
”
diese Lücken stößt man bereits, wenn man Wurzeln betrachtet. Die posititve Lösung
der Gleichung
x2 = 2
√ √
bezeichnet man mit 2. 2 kann nicht als Bruch geschrieben werden. Solche Zahlen
heißen irrationale Zahlen.
Dezimalbruchentwicklung
Wir wollen nun die rellen Zahlen konstruieren, indem wir sie immer besser durch
rationale Zahlen approximieren. Mathematisch präzise: wir zeigen, dass man jede
reelle Zahl x ≥ 0 als Limes einer Folge von Dezimalbrüchen erhalten kann.
Anschauliche Konstruktion:
Zuerst wählen wir ein minimales l ∈ , so dass
Z.B. bei x =
√
0 ≤ x < 10l+1
2 = 1, 4151.... ist l = 0, denn
√
0 ≤ 2 < 101 .
Dann legen wir auf dem Zahlenstrahl Gitter die immer feiner werdende Gittermaschen haben:
1 1
,...
10l , 10l−1 , . . . , 100, ,
10 100
1
kleiner und der
Bei jedem Schritt werden also die Gittermaschen um dem Faktor 10
Gitterpunkt, der von linkes am nächsten an x liegt, wird als neue Approximation
gewählt, in unseren Beispiel:
√
1 ≤ √2 < 2
1, 4 ≤ √2 < 1, 5
1, 41 ≤ 2 < 1, 42
...
Wir erhalten somit eine Folge von Dezimalzahlen wachsender Stellenzahl, deren
Glieder die reelle Zahl x immer besser approximieren:
√
1; 1, 4; 1, 41; 1, 414; 1, 4142; . . . → 2.
1.2. DIE ZAHLENSYSTEME
, , , 7
x= 2
.
0
1
2
3
4
5
7
6
8
9
10
.1,42
1,41,41
1,5
x= 2
Abbildung 1.1: Approximation durch Dezimalbrüche
Mathematische Konstruktion:
Wir wählen zuerst ein minimales l ∈
, so dass
0 ≤ x < 10l+1 .
Nun definieren wir :
s−(l+1) = 0,
sk = sk−1 + ak · 10−k
für k ≥ −l,
wobei ak ∈ {0, 1, . . . , 9} so gewählt wird, dass
sk−1 + ak · 10−k ≤ x < sk−1 + (ak + 1) · 10−k .
Damit ist eindeutig eine Folge (ak )k≥−l definiert und es gilt:
sk → x für
k → ∞.
Bemerkung 1 Die gleiche Konstruktion kann man mit Brüchen in einer beliebigen Basis b ∈ {2, 3, 4, 5, . . .} durchführen. Solche Brüche werden b-adische Brüche
genannt. Für viele Anwendungen ist die Entwicklung in der Basis 2 (Dualsystem)
besonders wichtig, da sie z. B. für die Codierung von Information benutzt werden
kann.
1.2.5
Näherungswerte und signifikante Stellen
Jede reelle Zahl hat also eine Darstellung als unendlicher Dezimalbruch. Da es aber in
der Praxis nicht möglich ist, mit unendlich vielen Dezimalstellen nach dem Komma
zu rechnen, bricht man die Dezimalentwicklung durch Runden an einer geeigneten
Stelle ab. Rundet man eine Dezimalzahl auf die n-te Stelle ab, so erhält man für
sie einen Näherungswert. Hierbei ist der Fehler zwischen dem Näherungswert und
der genauen Zahl kleiner oder gleich
∆x = 5 · 10−(n+1) .
Eine positive Zahl ∆x, die größer oder gleich dem absolut genommenen Fehler zwischen dem Näherungswert und der genauen Zahl ist, heißt absolute Fehlerschranke.
8
KAPITEL 1. MESSEN UND DATENBESCHREIBUNG
Alle Messvorgänge liefern in der Regel nur Näherungswerte. Wir nehmen einmal
an, dass ein Messverfahren eine Dezimalzahl bis zur n-ten Stelle liefert, etwa den
Messwert x̃ = 27, 3. Dabei ist also n = 1, was daher kommen kann, dass die Anzeige des Messgrätes nur solche Zahlen angibt oder es ist durch die Versuchsplanung
festgelegt worden, nur soweit abzulesen. Dann hat der Messwert einen Ablesefehler,
der durch δx = 0, 05 = 5 · 10−2 beschränkt ist. Die Dokumentation des Messwertes
lautet dann
x = x̃ ± δx,
was soviel bedeutet wie
x̃ − δx ≤ x ≤ x̃ + δx.
In unserem Beispiel:
x = 27, 3 ± 0, 05.
Hat man nun einen Messwert x̃ und einen Ablesefehler δx gegeben, so ist es sinnvoll
die Dezimaldarstellung von x̃ dort abzubrechen, wo die Fehlerschranke, die man
beim Runden des Messwertes erhält, von der gleichen Größenordnung ist wie der
Ablesefehler. Die Stellen, die dabei erhalten werden, heißen signifikante Stellen.
Beispiel 1 Hat man beispielsweise die Länge eines Tisches mit einem Zollstock
gemessen, so ist die Aussage, der Tisch sei x̃ = 1, 0753483 m lang, unsinnig, denn
der Ablesefehler bei einem Zollstock ist etwa δx = 0, 001m = 1mm, also von der
Ordnung 10−3 . Das Ergebnis sollte also 1, 08 m lauten, weil dann die Fehlerschranke
beim Runden ∆x = 5 · 10−3 von der selben Größenordnung ist wie die angegebene
Messgenauigkeit δx. Der Messwert hat also drei signifikante Stellen 1, 08.
Bei Messgeräten wird die Genauigkeit häufig in % angegeben. Dabei handelt es
sich dann um den relativen Fehler, genauer, die relative Fehlerschranke. Sie ist
definiert durch:
∆x
∆x :=
,
x
wobei ∆x die absolute Fehlerschranke ist.
1.3
Empirische Analyse der Messergebnisse
Möchte man ein bestimmtes Merkmal X untersuchen, so wird man eine Versuchsreihe aufstellen, bei welcher ein Versuch n-mal durchgeführt wird. Nach jedem Versuch notiert man, welche Ausprägung aufgetreten ist und erhält so eine Messreihe
(x1 , x2 , . . . , xn ).
Beispiel 2 (Endliches, diskretes Merkmal)
Merkmal: Anzahl der Blütenblätter der Butterblume (de Vries)
Mögliche Ausprägungen: {5, 6, 7, 8, 9, 10}
Messreihe:
j 1 2 3 4 5 6 7 8 9 · · · · · · 222
xj 6 8 7 10 6 5 5 9 5 · · · · · ·
5
1.3. EMPIRISCHE ANALYSE DER MESSERGEBNISSE
9
Abbildung 1.2: Die Butterblume
Beispiel 3 (Kontinuierliches Merkmal)
Merkmal: Gewicht einer gewissen Mäuseart
Mögliche Ausprägungen: alle reellen Zahlen zwischen 19
Messreihe:
j
1
2
3
4
5
6
7
8
xj 22,5 24,3 20,8 19,7 24,9 24,1 22,0 24,0
11
12
13
14
15
16
17
18
19,9 24,2 22,5 23,1 19,6 22,1 24,0 23,1
1.3.1
und 25
9
10
19,4 22,6
19
20
22,6 20,7
Empirische Häufigkeitsverteilung
Häufigkeitsverteilung bei endlichem diskretem Merkmal
Zu den diskreten Merkmalen zählen alle qualitativen Merkmale sowie die quantitativdiskreten Merkmale. Die Anzahl k der Ausprägungen eines diskreten Merkmals ist
in der Regel wesentlich kleiner als die Anzahl n der Elemente in der Messreihe und
damit überschaubar.
die möglichen Ausprägungen eines Merkmals X.
Seien {a1 , a2 , . . . , ak }, k ∈
Um Aussagen über eine Messreihe zu machen, kann man zunächst einmal zählen,
wie oft jede Ausprägung ai (i = 1, . . . , k) unter den xj (j = 1, . . . , n) vorkommt. Man
erhält die Häufigkeitszahlen
h(ai ) = Anahl der Messungen j, für die xj = ai .
h(ai ) heißt absolute (empirische) Häufigkeit der Ausprägung ai in der Messreihe. Die Gesamtheit der Werte h(ai ) bilden die absolute empirische Häufigkeitsverteilung
für das Merkmal X. Da sich alle n Messwerte x1 , x2 , . . . , xn auf die Ausprägungen
a1 , a2 , . . . , ak aufteilen, sind die absoluten Häufigkeiten ganze Zahlen zwischen 0 und
n, deren Summe genau die Anzahl n der Messwerte ergibt, in Formeln:
h(ai ) ∈
0 ≤ h(ai ) ≤ n
k
X
i=1
h(ai ) := h(a1 ) + h(a2 ) + ... + h(ak ) = n
(1.1)
(1.2)
(1.3)
10
KAPITEL 1. MESSEN UND DATENBESCHREIBUNG
Um den Anteil eines Merkmals ai am Gesamtvorkommen zu ermitteln, berechnen
wir die relativen Häufigkeiten
h(ai )
, i = 1, 2, ..., k
(1.4)
n
Aus den Eigenschaften für die absoluten Häufigkeiten (1.1)-(1.3) ergibt sich:
r(ai ) :=
r(ai ) ∈
(1.5)
0 ≤ r(ai ) ≤ 1
k
X
(1.6)
r(ai ) := r(a1 ) + r(a2 ) + ... + r(ak ) = 1
(1.7)
i=1
Für die graphische Darstellung einer diskreten Häufigkeitsverteilung benutzt man
Stabdiagramme, die man erhält, indem man über den Ausprägungen ai Stäbe
zeichnet, deren Höhe entweder den absoluten Häufigkeiten h(ai ) oder den relativen
Häufigkeiten r(ai ) entspricht. Betrachten wir das Beispiel 2 so haben wir:
P
Anzahl der Blütenblätter ai
5
6
7
8
9
10
Absolute Häufigkeit h(ai )
133
55
23
7
2
2 222
133
55
23
7
2
2
Relative Häufigkeit r(ai )
1
222
222
222
222
222
222
Relative Häufigkeit r(ai ) in % 59.9 24.8 10.3 3.2 0.9 0.9 100
h(a i )
r (a i ) (in %)
133
59,9
55
24,8
23
7
2
10,4
3,1
0,9
5
6
7
8
9 10
ai
5 6 7 8 9 10
ai
Abbildung 1.3: Stabdiagramme der absoluten und relativen Häufigkeiten
Zur Zeichnung des Diagramms der relativen Häufigkeiten braucht man am Diagramm der absoluten Häufigkeiten nur eine Skalenänderung an der vertikalen Achse
vorzunehmen. Man gibt daher meistens beide Diagramme durch eine Zeichnung wider mit zwei Skalen an der vertikalen Achse.
1.3. EMPIRISCHE ANALYSE DER MESSERGEBNISSE
11
Ein weiterer Häufigkeitsbegriff, der für die Beschreibung empirischer Daten weitere Aussagen liefert, ist die Summenhäufigkeit. (Ihr Analogon als Verteilungsfunktion wird uns in der Wahrscheinlichkeitsrechnung wieder begegnen). Für unser
Beispiel ist es sinnvoll zu fragen, wieviele Butterblumen höchstens m Blütenblätter
haben (m = 5, 6, 7, 8, 9, 10). Dazu summieren wir einfach die Häufigkeiten für die
Blütenblätterzahlen von 1 bis m auf und erhalten das Stabdiagramm der absoluten
und relativen Summenhäufigkeiten aus Abb. 1.4.
hh(a m) rr(a m) (in %)
222
220
218
211
100
99,1
98,2
95,1
188 84,7
133 59,9
5 6 7 8 9 10
am
Abbildung 1.4: Stabdiagramme der Summenhäufigkeiten
Allgemein lässt sich für jedes diskrete, ordinal-skalierte Merkmal der Begriff der
absoluten Summenhäufigkeit der Ausprägung am definieren als
hh(am ) = h(a1 ) + ... + h(am ) =:
m
X
i=1
h(ai ) =:
X
h(ai )
i≤m
hh(am ) gibt an, wie oft eine der ersten m Ausprägungen a1 , a2 , ..., am unter den
Messwerten vorkommt. Entsprechend definieren wir dir relative Summenhäufigkeit als
m
X
X
rr(am ) = r(a1 ) + ... + r(am ) =:
r(ai ) =:
r(ai )
i=1
i≤m
Für die höchste Ausprägung gilt:
rr(ak ) =
k
X
r(ai ) = 1 (siehe (1.7))
i=1
Häufigkeitsverteilungen bei kontinuierlichem Merkmal
Betrachten wir zunächst das Beispiel 3. Tatsächlich haben die Mäuse nicht genau
das Gewicht 22,5g, 24,3g usw. Die abgelesenen Werte basieren auf einer vorher
vereinbarten Messgenauigkeit - in unserem Fall von 5 · 10−2 . Gewicht von 22,5g
12
KAPITEL 1. MESSEN UND DATENBESCHREIBUNG
bedeutet also genau genommen, dass das Gewicht im Interwall 22, 5 ± 5 · 10−2 liegt.
Bei dieser Messung sind also alle Ausprägungen, die zwischen 22,45 und 22,55 liegen
zu einer Klasse zusammengefasst. Diese Klassenbreite ist aber für unsere relativ
kleine Messreihe viel zu fein. Wir müssten die 20 Messwerte auf etwa 60 Klassen
aufteilen. Dabei entstehen also viele Klassen mit keinem Element und viele mit einem
Element. Um aus einer Messreihe in der Praxis Nutzen zu ziehen, sollte sie so groß
sein, dass in jeder Klasse ausreichend viele“ Messwerte fallen. Steht jedoch nur eine
”
begrenzte Anzahl von Messwerten zur Verfügung, so muss man die Klassenbreite so
groß wählen, dass in jede Klasse einige“ Messwerte fallen. In unserem Beispiel 3 ist
”
letzteres der Fall. Wir wählen die Klassenbreite auf zwei Arten:
1. Klassen mit Klassenbreite 1g: [19-20[, [20-21[, ..., [24-25[
2. Klassen mit Klassenbreite 2g: [19-21[, [21-23[, [23-25[
Nun bestimmen wir für diese Klassen jeweils die Häufigkeiten:
1.
ai
h(ai )
19-20 20-21 21-22 22-23 23-24 24-25
4
2
0
6
3
5
2.
ai
h(ai )
19-21 21-23 23-25
6
6
8
Wir sehen, dass die erste Klassenbreite (1g) noch immer zu fein ist, da Klassen
entstehen, welche keinen Messwert enthalten.
Allgemeiner legen wir eine Klassifizierung einer kontinuierlichen Skala folgendermaßen fest: Wir bestimmen den kleinsten Wert xmin := min{x1 , x2 , . . . , xn } und den
größten Wert xmax := max{x1 , x2 , . . . , xn } der Messreihe. Dann wählen wir Klassengrenzen
c 0 < c1 < · · · < ck
so dass c0 ≤ xmin und xmax < ck , wobei die Klassenbreite b (gewöhnlich) konstant
gewählt wird, d.h.
b = ci − ci−1 , i = 1, . . . , k.
Ein Messwert xj liegt dann in der Klasse ai = [ci−1 , ci [, falls ci−1 ≤ xj < ci gilt.
Durch die Klassenbildung erhält man eine endliche Liste von Ausprägungen und
hat das seiner Natur nach kontinuierliche Merkmal als ein diskretes aufgefasst. Damit
können die Begriffe der Häufigkeitsverteilung auf klassifizierte Messreihen übertragen werden. Die absolute Klassenhäufigkeit
h(ai ) = h([ci−1 , ci [)
ist gleich der Anzahl der Messwerte, die in die Klasse ai = [ci−1 , ci[ fallen. Die
relativen Klassenhäufigkeiten definiert man dann als
r(ai ) = r([ci−1 , ci [) :=
h(ai )
.
n
1.3. EMPIRISCHE ANALYSE DER MESSERGEBNISSE
13
Basierend auf den absoluten und relativen Klassenhäufigkeiten berechnet man die
Summenhäufigkeiten ebenso wie bei diskreten Merkmalen. Die absoluten und relativen Klassenhäufigkeiten werden üblicherweise mit Hilfe von Balkendiagrammen
dargestellt, wobei als Balkenbreite die Klassenbreite gewählt wird. Für das Beispiel 3
(mit Klassenbreite b = 2) sind die Histogramme in Abb.1.5 gegeben. Erhöht man die
h
r
8
8 20
6
6 20
19
21
23
25
ai
Abbildung 1.5: Absolute und relative Klassenhäufigkeiten
Anzahl der Messungen, so kann man die Klassenbreite feiner wählen, was zu einer
genaueren Beschreibung der Häufigkeitsverteilung führt. Oft ist es der Fall, dass mit
immer feiner werdenden Klassenbreite (bei entsprechender Erhöhung der Messwerteanzahl) die Häufigkeitsverteilung immer besser durch eine stetige Funktion approximiert wird. Im nächsten Kapitel werden wir auf Grund ähnlicher Überlegungen
Dichte-Funktionen einführen, mit Hilfe deren kontinuierliche Wahrscheinlichkeitsmodelle konstruiert werden.
Befassen wir uns nun mit der Frage der relativen Häufigkeit, mit der Ausprägungen vorkommen, die kleiner sind als x ∈ , so gilt:
1. Für x = ci , i = 1, . . . , k, ist die relative Häufigkeit mit der Ausprägungen
kleiner als x vorkommen gleich rr(ai ), der Summenhäufigkeit der Klasse ai .
Wir bemerken, dass rr(ai ) den Flächen-Anteil links von ci im Histogramm des
klassifizierten Merkmals darstellt, denn
Fläche links von ci = rr(ai ) · b
Wir bezeichen nun mit F (x) den Flächen-Anteil links von x im Histogramm.
Es gilt also
F (c0 ) = 0 und F (ci ) = rr(ai), i = 1, . . . , k.
2. Für x ∈ [ci−1 , ci [ approximieren wir die relative Häufigkeit, mit der Ausprägungen kleiner als x vorkommen, durch den Flächen-Anteil links von x im Histogramm. Dieser Anteil berechnet sich wie folgt:
F (x) = rr(ai−1 ) +
| {z }
F (ai−1 )
r(ai )
(x − ci−1 )
b
14
KAPITEL 1. MESSEN UND DATENBESCHREIBUNG
h
r
2F(x)
8
8 20
6
6 20
19
21 x 23
25
x
Abbildung 1.6: Fläche links von x im Histogramm
Im Beispiel 3 ist b = 2. Der Flächen-Anteil der schraffierten Fläche im Histogramm
Abb. 1.6 gibt den Wert F (x) an. Wir erhalten somit die empirische Verteilungsfunktion für ein klassifiziertes Merkmal. Sie ist gegeben durch:

, x ≤ c0
 0
r(ai )
F (x) =
F (ci−1 ) + b (x − ci−1 ) , x ∈ [ci−1 , ci [, i = 1, · · · , k

1
, x ≥ ck
Im Falle des Beispiels 3 ist das Schaubild von F in Abb. 1.7 dargestellt:
F(x)
1
12
20
6
20
19
21
23
25
x
Abbildung 1.7: Empirische Verteilungsfunktion F (x)
1.3.2
Lagemaße und Streuungsmaße
Aufgrund eines Diagramms, z. B. Stab- oder Balkendiagramm, lassen sich folgende
Eigenschaften einer Verteilung qualitativ abschätzen:
• Lage der Datenwerte: In welchen Bereichen konzentrieren sich die Daten?
• Streuung: Wie weit streuen die Werte? Gibt es Ausreisser?
• Form: Hat die Verteilung eine besondere Form? Ist sie symmetrisch?
1.3. EMPIRISCHE ANALYSE DER MESSERGEBNISSE
15
Für eine statistische Datenanalyse sind aber Kenngrößen gefordert die die oben genannten Eigenschaften quantitativ beschreiben. Mit derartigen Kenngrößen werden
wir uns in diesem Paragraph beschäftigen.
Lagemaße
Lagemaße sollen das Zentrum representieren, um das die Daten streuen. Ein Lagemaß, welches für alle ordinalskalierten Merkmalen definiert werden kann, ist das
zentrale Wertepaar (bzw. der Median). Um es zu bestimmen, werden die Messdaten
x1 , x2 , . . . , xn
der Größe nach geordnet. Man erhält die geordnete Messreihe
xmin = x(1) , x(2) , . . . , x(n) = xmax
Dabei ist x(1) der kleinste, x(2) der zweitkleinste und x(n) der größte Datenwert. Es
gibt zwei Fälle:
1. n gerade
Dann kann die geordnete Reihe in zwei gleich lange Stücke aufgeteilt werden.
x(1) , x(2) , . . . , x( n2 ) , x( n2 +1) , . . . , x(n)
2. n ungerade
In diesem Falle gibt es ein mittleres Element, nämlich x( n+1 ) , in dem Sinne,
2
dass vor und nach ihm gleich viele Elemente kommen:
x(1) , x(2) , . . . , x( n+1 −1) , x( n+1 ) , x( n+1 +1) , . . . , x(n)
2
2
2
Im ersten Fall setzen wir Z1 = x( n2 ) , Z2 = x( n2 +1) .
Im zweiten Fall: Z1 = Z2 = Z = x( n+1 ) .
2
(Z1 , Z2 ) nennen wir das zentrale Wertepaar, im zweiten Fall Z auch den Zentralwert
oder Median.
Ist das Merkmal sogar quantitativ, so definiert man als Zentralwert (Median)
Z=
Z1 + Z2
.
2
Der Median teilt also die geordnete Messreihe in zwei Hälften: Die eine Hälfte der
Daten ist höchstens so groß wie der Median, die andere Hälfte mindestens so groß.
Beispiel 4 (Untersuchung von Kranken auf den Erkrankungsgrad)
Das Merkmal Erkrankungsgrad hat folgende Ausprägungen:
L
M
leicht mittel
S
G
schwer lebensgefährlich
16
KAPITEL 1. MESSEN UND DATENBESCHREIBUNG
Die Skala ist nur eine Ordinalskala. Dem Gradunterschied kommt also keine quantitative Bedeutung zu. Die Messreihe ist:
L
M
M
L
L
M
M
S
S
M
G
Die geordnete Messreihe:
L
M
S
S
G
Wir erhalten
Z1 = x(4) = M,
Z2 = x(5) = M
Die praktische Bedeutung lautet in Worten: Bei 50% der Patienten ist die Krankheit
höchstens mittelstark, bei 50% ist sie mindestens mittelstark.
Von Lagemaßen erwartet man dass sie die Lage der Werte xj optimal schätzten,
d. h. die Abweichungen der xj von dem Lagemaß sollten möglichst gering sein. Für
den Median einer quantitativen Messreihe gilt in diesem Sinne folgende Minimumseigenschaft:
Satz 1 (Minimumeigenschaft des Medians)
Gegeben sei die Messreihe (x1 , x2 , . . . , xn ) für ein quantitatives Merkmal X. Der
Median erfüllt folgende Eigenschaft:
n
X
j=1
|xj − Z| ≤
n
X
j=1
|xj − c|,
∀c ∈
.
Bemerkung 2 Aus der Definition der relativen Häufigkeit folgt, dass Z1 diejenige Ausprägung ist, bei der die relative Summenhäufigkeit zum ersten Mal 50% erreicht oder übersteigt. Damit kann man das zentrale Wertepaar aus dem Diagramm
der Summenhäufigkeiten leicht bestimmen. Bei kontinuierlichen Merkmalen, wo nur
noch die Information über die Klassenhäufigkeit vorliegt, kann man den klassifizierten Median mit Hilfe der empirischen Verteilungsfunktion ermitteln, und zwar ist es
der Wert Z, für den gilt:
F (Z) = 0.5
(1.8)
Wenn alle Klassen nichtleer sind, dann ist die Verteilungsfunktion streng monoton wachsend und der durch die Gleichung (1.8) bestimmte Wert Z ist eindeutig
definiert.
Das bekannteste Lagemaß, welches für quantitative Merkmale definiert werden kann, ist das arithmetische Mittel (der Mittelwert). Für eine Messreihe
(x1 , x2 , . . . , xn ) ist es definiert als
n
1
1X
x̄ = (x1 + x2 + . . . + xn ) =
xj
n
n j=1
1.3. EMPIRISCHE ANALYSE DER MESSERGEBNISSE
17
Kommen unter den Messwerten x1 , x2 , . . . , xn genau die Ausprägungen a1 , a2 , . . . , ak ,
mit den absoluten Häufigkeiten h(a1 ), h(a2 ), . . . , h(ak ) vor, so folgt:
1
(x1 + x2 + . . . + xn )
n
1
=
(h(a1 )a1 + h(a2 )a2 + . . . + h(ak )ak )
n
k
1X
=
h(ai )ai
n i=1
x̄ =
k
X
h(ai )
=
i=1
k
X
=
n
(1.9)
ai
r(ai )ai
(1.10)
i=1
Auch der Mittelwert besitzt eine Minimumseigenschaft die im folgenden Satz
formuliert wird.
Satz 2 (Minimumeigenschaft des Mittelwertes) Für den Mittelwert x̄ einer
Messreihe (x1 , x2 , . . . , xn ) gilt:
n
X
j=1
(xj − x̄)2 ≤
n
X
j=1
(xj − c)2 ,
∀c ∈
.
Bemerkung 3 x̄ ist abhängig von der Größe jedes einzelnen Messwertes xj . Das
bedeutet, dass ein Ausreisser“ das arithmetische Mittel bei kleinen Messreihen stark
”
beeinflussen kann. Bei kleinen Messreihen nimmt man daher für die Beschreibung
der Lage der Messwerte oft lieber den Zentralwert.
Bei klassifizierten Daten ist es rechnerisch weniger aufwendig die Lagemaße basierend auf den Klassenmitten
a∗i =
ci−1 + ci
2
und den Klassenhäufigkeiten h(ai ) zu ermitteln (anstatt alle Stichprobenwerte xj zu
berücksichtigen). Der klassifizierte Mittelwert lässt sich demnach berechnen als
k
k
X
1X
x̄kl =
h(ai )a∗i =
r(ai )a∗i
n i=1
i=1
Der klassifizierte Mittelwert stimmt nicht genau mit dem Mittelwert der Messreihe
überein, ist aber für immer größer werdende Messreihen immer näher bei x̄.
18
KAPITEL 1. MESSEN UND DATENBESCHREIBUNG
Streuungsmaße
Wenn sich zwei Verteilungen hinsichtlich ihrer Lagemaße ähneln, können sie dennoch aufgrund der Streuung der Messwerte sehr unterschiedlich sein. Mit Hilfe der
Streuungsmaße können wir die Abweichungen vom Lagemaß quantifizieren.
In diesem Abschnitt betrachten wir wieder ein quantitatives Merkmal mit einer
Intervallskala aus ganzen oder reellen Zahlen. Das am einfachsten zu berechnende
Streuungsmaß ist die Spannweite (oder Variationsbreite):
R = xmax − xmin = x(n) − x(1)
Die Spannweite R berücksichtigt nur die beiden extremsten Werte und ist daher
von Ausreissern sehr stark beeinflusst. Die meist verwendeten Kennzahlen für die
Streuung erhält man folgendermaßen: Wir wählen als Lagemaß das arithmetische
Mittel und betrachten die quadratischen Abstände
(x1 − x̄)2 , (x2 − x̄)2 , . . . , (xn − x̄)2
Als Kennzahl wählen wir dann das arithmetische Mittel dieser Abstände. Wir erhalten die mittlere quadratische Abweichung (oder Varianz)
n
σ(x)2 =
1X
(xj − x̄)2
n j=1
In der Praxis wird oft die sogenannte empirische Varianz benutzt, die gegeben
ist als
n
1 X
2
s(x) =
(xj − x̄)2 .
n − 1 j=1
Die Gründe dafür werden in einem späteren Kapitel klar werden.
Da die Maßeinheit für die Varianz das Quadrat der Maßeinheit der Messwerte
ist, ist diese Größe schwer zu interpretieren. Deswegen definiert man die Standardabweichung
v
u X
u1 n
σ(x) = t
(xj − x̄)2
n j=1
und entsprechend die empirische Standardabweichung
p
s(x) = s(x)2
Die Bedeutung von σ(x) besteht unter anderen darin, dass im Intervall ]x̄−σ(x), x̄+
σ(x)[ viele“ Messwerte liegen. Das obengenannte Intervall heißt Standard-Streuintervall.
”
Generell findet man bei allen Verteilungen mindestens 43 aller Werte im Intervall
]x̄ − 2σ(x), x̄ + 2σ(x)[ und 98 aller Werte im Intervall ]x̄ − 3σ(x), x̄ + 3σ(x)[.
Ein nützlicher Ausdruck für die Varianz, vor allem im Hinblick auf die Übertragung auf klassifizierte Daten, ist gegeben durch:
k
k
X
1X
h(ai )a2i − x̄2 =
r(ai )a2i − x̄2
σ(x) =
n i=1
i=1
2
1.3. EMPIRISCHE ANALYSE DER MESSERGEBNISSE
19
Im Falle klassifizierter Daten erhalten wir also die klassifizierte Varianz als
k
σ(x)2kl =
k
X
1X
h(ai )(a∗i )2 − x̄2 =
r(ai )(a∗i )2 − x̄2
n i=1
i=1
wobei a∗i wieder die Klassenmitte darstellen soll.
Anwendung von Mittelwert und Varianz bei der Überprüfung der Genauigkeit und Präzision einer Pipette. (Grundpraktikum C)
Die Genauigkeit einer Pipette bezeichnet die Differenz zwischen dem Mittelwert
einer Anzahl wiederholter Messungen und dem Nominalwert. Die Präzision gibt an
wie gut die Messwerte übereinstimmen.
Versuch: Mit einer Kolbenhubpipette werden 100µl destilliertes Wasser pipettiert
und das Gewicht der Probe gemessen. Dieses Vorgehen wird weitere 9 Mal wiederholt. Man erhält z.B. folgende Messreihe (gj ist das Gewicht der j - ten Probe):
1
2
3
4
5
6
7
8
9
10
j
gj (in mg) 103,1 100,3 100,1 100,4 97,6 100,3 100,1 100,0 100,0 97,9
Da die Dichte des Wassers d(H2 O) = 1g/cm3 ist, kann aus dem Gewicht einer Probe
ihr Volumen berechnet werden. Man erhält dabei folgende Werte (vj ist das Volumen
der j - ten Probe):
j
vj (in µl )
1
2
3
4
5
6
7
8
9
10
103,1 100,3 100,1 100,4 97,6 100,3 100,1 100,0 100,0 97,9
Abbildung 1.8: Die Kolbenhubpipette
Um die Genauigkeit zu überprüfen bildet man zuerst den Mittelwert der Messreihe
n
1X
1
· 999, 8 = 99, 98.
v̄ =
vj =
n j=1
10
Die Genauigkeit E berechnet sich dann als
E = | v̄ − v0 | = | 99, 98 − 100 | = 0, 02,
(µl)
20
KAPITEL 1. MESSEN UND DATENBESCHREIBUNG
wobei v0 = 100µl der Nominalwert ist. Die relative Genauigkeit (in %) ist gegeben
durch
E
0, 02
· 100 = 0, 02.
(%)
· 100 =
v0
100
Als Maß für die Präzision benutzt man die empirische Standardabweichung (bzw.
den Variationskoeffizienten). Für die Standardabweichung erhalten wir
sP
n
2
j=1 (vj − v̄)
s(v) =
= 1, 496
(µl)
n−1
Um die Standardabweichung mit der Größe der Messwerte in Bezug zu bringen,
berechnen wir den Variationskoeffizienten
V =
s(v)
1, 496
=
= 0, 01496
v̄
99, 98
V = 1, 496%
Wir möchten nun die Frage beantworten, ob die untersuchte Pipette genau und
präzise ist. Die Herstellerrichtlinien für die Pipette schreiben vor:
• relative Genauigkeit
E
v0
≤ 0, 80%
• Variationskoeffizient V ≤ 0, 15%
Aus unseren Berechnungen folgt also, dass die untersuchte Pipette zwar genau aber
nicht präzise ist (und daher an den Hersteller zurückgeschickt werden müßte).
Symmetrieeigenschaften empirischer Verteilungen
Hat das Stabdiagramm bzw. das Histogramm einer Häufigkeitsverteilung nur eine
Spitze, so spricht man von einer eingipfligen Verteilung. Anderenfalls nennt man die
Verteilung mehrgipflig.
Geht das Diagramm einer Häufigkeitsverteilung nach einer Spiegelung an einer
zur y-Achse parallelen Geraden wieder in sich selbst über, so heißt die Verteilung
symmetrisch, sonst: schief.
Zur Veranschaulichung dieser Begriffe siehe Aufgabe 4 auf dem Übungsblatt 3.
1.3.3
Stochastische Abhängigkeit: Korrelation und Regression
Bei vielen Untersuchungen biologischer Phänomene werden mehrere Merkmale der
Beobachtungseinheiten erfasst, z.B. Länge und Gewicht, Höhe und Biomasse bei
Pflanzen, Düngermenge, Regenmenge und Ernteertrag usw. In diesen Fällen ist es
interessant und wünschenswert, nicht nur die einzelnen Merkmale zu beschreiben,
sondern auch den Zusammenhang zwischen zwei oder mehreren Merkmalen zu untersuchen.
1.3. EMPIRISCHE ANALYSE DER MESSERGEBNISSE
21
Aus der Mathematik und der Physik sind Zusammenhänge zwischen zwei oder
mehreren Größen gut bekannt. So besteht beispielsweise zwischen dem Umfang U
und dem Radius r eines Kreises die lineare Beziehung U = 2πr. Der Weg S, den
ein aus dem Ruhestand frei nach unten fallender Körper nach der Zeit t zurück
gelegt hat, ist gegeben durch S = 21 gt2 , g Gravitationskonstante. Diese Art von Zusammenhängen nennt man funktional. Eine Größe kann aus einer anderen mittels
einer Funktion exakt berechnet werden. Die Zusammenhänge in den Biowissenschaften sind oft stochastisch; d.h. sie werden auch vom Zufall beeinflußt. Demzufolge
kann nicht jedem Wert einer Größe ein eindeutiger Wert der anderen Größe zugeordnet werden, sondern ein ganzer Bereich, in dem die Werte entsprechend einer
Zufallsverteilung liegen.
In diesem Paragraphen werden wir uns damit beschäftigen, den Zusammenhang
zwischen zwei Merkmalen nachzuweisen und zu beschreiben.
Punktwolke und Korrelation
Untersucht man zwei quantitative Merkmale X und Y , wie etwa die Körpergröße von
Menschen (in cm) und das Körpergewicht (in kg) so erhält man als Messreihe eine
endliche Folge (xj , yj ) von Zahlenpaaren. Das folgende Beispiel zeigt die Messwerte
für die Körpergröße und das Gewicht von 241 Männern.
X(cm)
Y (kg)
189 168 175 177 181 169 172 175 176 174 . . .
85 70 72 81 79 65 71 73 84 65 . . .
172
72
Stellt man diese Messpaare als Punkte der Ebene dar, so erhält man eine Punktwolke (s. Abb. 1.9). An dem obigen Beispiel ist anschaulich zu erkennen: Wenn X
Abbildung 1.9: Punktwolke
wächst, so steigt auch Y im Mittel an. Es besteht also eine Abhängigkeit oder ein
22
KAPITEL 1. MESSEN UND DATENBESCHREIBUNG
Zusammenhang zwischen den beiden Messreihen. Man kann auch sagen, es gibt eine
Korrelation zwischen X und Y .
Anhand der Punktwolke sind zwei charakteristische Eigenschaften eines Zusammenhanges auf einen Blick erkennbar:
• Die Stärke des Zusammenhangs: Je dichter die Punkte beieinander liegen,
desto stärker ist der Zusammenhang. Mithilfe der Korrelationsanalyse lassen
sich Kennzahlen berechnen, die die Stärke des Zusammenhangs quantifizieren.
• Die Art des Zusammenhangs: Die Art wird durch eine mathematische Funktion
angegeben, die den Zusammenhang am besten beschreibt. Es ist Aufgabe der
Regressionsanalyse diese Funktion zu finden.
Wenn, wie in unserem Beispiel, der Zusammenhang durch eine Gerade charakterisiert werden kann, spricht man von einem linearen Zusammenhang. Die dazugehörende Gerade nennt man Regressionsgerade. Die positive Steigung der Regressionsgeraden besagt, dass zwischen Körpergröße und Körpergewicht ein gleichsinniger Zusammenhang besteht oder es besteht eine positive Korrelation. Bei negativer Steigung spricht man von negativer Korrelation.
Kennzahlen für lineare Abhängigkeit
Wenn die Punktwolke so geartet ist, dass sich mittendurch eine Gerade legen lässt,
um die die Punkte elipsenförmig liegen, so kann man den Zusammenhang als linear
ansehen. Um den linearen Zusammenhang zwischen zwei Merkmalen X und Y durch
eine Kennzahl zu quantifizieren, gehen wir wie folgt vor:
Wir betrachten Produkte von der Form
(xj − x̄)(yj − ȳ),
wobei x̄ und ȳ die Mittelwerte der Messreihen (x1 , . . . , xn ) bzw. (y1 , . . . , yn ) sind.
Die Mittelwerte x̄ und ȳ teilen die Ebene, und damit die Daten, in 4 Quadranten.
Für Daten im ersten und im dritten Quadranten sind die obigen Produkte
(xj − x̄)(yj − ȳ) ≥ 0,
für die Daten im zweiten und vierten Quadranten negativ. Wenn sich also die Daten
um eine Gerade mit positiver Steigung gruppieren, d.h. im Quadranten I und III
liegen, ist zu erwarten, dass gilt:
n
1X
σ(x, y) =
(xj − x̄)(yj − ȳ) ≥ 0.
n j=1
Bei Messwerten im Quadranten II und IV ist σ(x, y) ≤ 0. Wenn sich die Daten auf
alle vier Quadranten verteilen so ist der obige Mittelwert ungefähr 0.
1.3. EMPIRISCHE ANALYSE DER MESSERGEBNISSE
23
Die Größe σ(x, y) heißt Kovarianz. Wie schon bei der Varianz erwähnt, wird
auch bei der Kovarianz in der Praxis nicht der Mittelwert der Terme (xj − x̄)(yj − ȳ)
sondern die empirische Kovarianz
n
1 X
σ(x, y) =
(xj − x̄)(yj − ȳ)
n − 1 j=1
benutzt. An der Kovarianz ist also zu sehen, ob positive oder negative lineare Korrelation besteht. Die Kovarianz ist aber wenig informativ zur quantitativen Beurteilung der Frage, ob ein Zusammenhang besonders eng oder eher lose ist, denn der
Betrag der Kovarianz ist abhängig vom jeweiligen Maßstab der zur Messung verwendet wird. Um ein normiertes Maß zur Quantifizierung der Korrelation zu erhalten
nehmen wir zuerst an, dass alle (xj , yj ) auf einer Geraden y = a x + b liegen. Dann
ist die Kovarianz
n
σ(x, y) =
1X
(xj − x̄) (a xj + b − a x̄ − b)
n j=1
n
=
1X
(xj − x̄) a (xj − x̄)
n j=1
n
=
aX
(xj − x̄)2 = a σ(x)2 .
n j=1
(1.11)
Berechnen wir nun
n
σ(y)2 =
1X
(yj − ȳ)2
n j=1
n
=
1X
(a xj + b − a x̄ − b)2
n j=1
n
=
1X 2
a (xj − x̄)2 = a2 σ(x)2
n j=1
Daraus folgt
σ(y) = ± a σ(x).
(1.12)
Es folgt also durch Einsetzen von (1.12) in (1.11)
|σ(x, y)| = σ(x) σ(y)
Im allgemeinen gilt aber
|σ(x, y)| ≤ σ(x) σ(y)
und das Gleichheitszeichen gilt genau dann, wenn die (xj , yj ) auf einer Geraden
liegen. Bildet man also für σ(x) 6= 0 und σ(y) 6= 0 die Größe
r(x, y) =
σ(x, y)
σ(x)σ(y)
24
KAPITEL 1. MESSEN UND DATENBESCHREIBUNG
genannt linearer Korrelationskoeffizient, so gilt
−1 ≤ r(x, y) ≤ 1.
Mit Hilfe des Korrelationskoeffizienten r können wir nun folgende Aussagen über
eine lineare Korrelation machen:
1. Falls |r| = 1 so liegen (xj , yj ) auf einer Geraden (es besteht perfekte Korrelation)
2. Falls r > 0 (bzw. (r < 0) besteht positive (bzw. negative) Korrelation und
umso näher r bei 1 oder −1 ist, desto stärker ist die Korrelation.
Für unser Beispiel ist der Korrelationskoeffizient r(x, y) = 0, 55, also eine eher lose
Korrelation, was auch aus der Punktwolke in Abb.1.9 ersichtlich ist.
y
y
y
x
y
v
8
9
v
w
8
9
t
u
6
6
7
z
{
:
;
2
:
;
2
3
4
5
s
p
p
q
r
n
.
0
.
/
n
o
0
1
*
*
+
j
k
,
l
m
d
e
-
h
i
(
)
b
c
$
%
$
%
f
g
&
f
g
'
"
#
"
#
`
!
`
a
!
_
r=1
r = 0,95
x
y
\
\
]
r = 0,3
^
x
y
x
y
œ

ž
Ÿ
”
•
Z
[
œ

X
Y
–
—
’
–
—
¶
¶
·
X
Y
V
W
V
W
’
“
R
S
R
S
T
U
š
›
R
S
²
³
´
´
µ
µ
º
º
»
¼
¼
½
½
R
S
P
Q
P
Q

‘
ˆ
‰
˜
™
˜
™
N
O
Š
‹
°
±
°
±
L
M
¸
¹
J
K
Ž

¦
§
¦
§
H
I
­
®
¯
„
„
…
F
G
†
‡
ª
Œ

ª
«
¬
Œ

¨
¨
©
D
E
‚
ƒ
¤
¥
¢
£
¢
£
¡

r = −1
€
¤
¥
¢
£
¢
£

|
}
~
r=0
r = − 0,7
x
B
C
@
A
>
?
<
=
<
=
x
x
Abbildung 1.10: Verschiedene Werte des Korrelationskoeffizienten
Bemerkung 4 Im Falle einer nichtlinearen Korrelation ist der lineare Korrelationskoeffizient bedeutungslos. Insbesondere bedeutet σ(x, y) ≈ 0 nicht, dass generell
kein Zusammenhang besteht, sondern nur, dass kein linearer Zusammenhang nachzuweisen ist!
Ausgleichgerade (oder Regressionsgerade)
In dem Fall, wo mithilfe der Korrelationsanalyse ein annähernd linearer Zusammenhang festgestellt wurde, kann man versuchen, die Gerade zu finden, die den
Messwerten am besten angepasst ist. Diese Gerade nennen wir Ausgleichgerade
1.3. EMPIRISCHE ANALYSE DER MESSERGEBNISSE
25
oder Regressionsgerade. Anhand ihrer Gleichung lässt sich dann aus einem bekanten Wert für das X− Merkmal ein Wert für das dazugehörende Y − Merkmal
prognostizieren.
Konstruktion der Regressionsgeraden Die allgemeine Gleichung einer Geraden
ist
y = ax + b
(1.13)
Unsere Aufgabe ist es nun, die Parameter a und b so zu finden, dass die entsprechende Gerade den Messwerten am besten angepasst ist. Was am besten angepasst“,
”
bedeuten soll wollen wir im folgenden präzisieren: Zunächst wollen wir verlangen,
dass die Gerade durch den Mittelpunkt (x̄, ȳ) gehen soll, dass also gilt
ȳ = ax̄ + b.
Nach b aufgelöst:
b = ȳ − ax̄.
(1.14)
Setzen wir (1.14) in (1.13) ein, erhalten wir
y = ax + ȳ − ax̄.
Betrachte nun für jeden Messwert xj den Wert ŷj , so dass (xj , ŷj ) auf der Ausgleichgeraden liegt, d.h.
ŷj = axj + ȳ − ax̄.
(1.15)
Die Abweichungen der Messpunkte yj von der Geraden sind dann
yj − ŷj .
Wir wollen nun den Parameter a so bestimmen, dass die mittlere quadratische Abweichung
n
1 X
(yj − ŷj )2
(1.16)
n j=1
minimal ist. Dazu setzen wir nun (1.15) in (1.16) ein und rechnen
n
n
1 X
1 X
2
(yj − ŷj ) =
[(yj − ȳ) − a(xj − x̄)]2
n j=1
n j=1
n
1 X
=
[(yj − ȳ)2 − 2 a(xj − x̄)(yj − ȳ) + a2 (xj − x̄)2 ]
n j=1
n
n
n
X
1 X
1X
2
21
=
(yj − ȳ) − 2 a
(xj − x̄)(yj − ȳ) + a
(xj − x̄)2
n j=1
n j=1
n j=1
= σ(y)2 − 2aσ(x, y) + a2 σ(x)2 =: Q(a)
Die notwendige Bedingung, dass Q(a) im Punkt a0 ein Minimum hat, ist Q0 (a0 ) = 0.
D.h.
−2 σ(x, y) + 2 a0 σ(x)2 = 0.
26
KAPITEL 1. MESSEN UND DATENBESCHREIBUNG
Daraus erhalten wir für unseren gesuchten Parameter a den Wert
a=
σ(x, y)
σ(x)2
Die Gleichung der Ausgleichgeraden lautet also
y=
σ(x, y)
σ(x, y)
x + ȳ −
x̄.
2
σ(x)
σ(x)2
Oder äquivalent
y=
σ(x, y)
(x − x̄) + ȳ.
σ(x)2
(1.17)
Die Geradensteigung a0 = σ(x,y)
wird auch Regressionskoeffizient genannt. Das
σ(x)2
Vorzeichen von a0 stimmt mit dem Vorzeichen des Korrelationskoeffizienten überein. Dieses bedeutet, dass bei positiver (negativer) Korrelation die Steigung der
Regressionsgeraden positiv (negativ) ist. Die Methode mit der wir die Gleichung
der Regressionsgeraden gefunden haben heisst Methode der kleinsten Quadrate.
Mit der Gleichung (1.17) lässt sich bei Vorliegen eines Wertes xj nach folgender
Formel ein Wert für das Y - Merkmal prognostizieren:
ŷj =
σ(x, y)
(xj − x̄) + ȳ
σ(x)2
Die Gleichung der Ausgleichgeraden für unser Beispiel ist:
y = 1.01x − 99, 7
Dieser Zusammenhang entspricht der Formel die der französische Arzt Pierre Broca
im 19. Jahrhundert beim Vermessen von Soldaten festgestellt hat:
Körpergröße − 100 = Normalgewicht,
und gilt vor allem für Personen mittlerer Körpergröße.
Nach den neuesten Kenntnissen der Wissenschaft wird der Zusammenhang zwischen Gewicht und Körpergröße durch einen nichtlinearen, genauer durch einen
quadratischen Zusammenhang modelliert. Dieser Zusammenhang ist auch für besonders kleine bzw. besonders große Menschen anwendbar (allerdings für Kinder
ungeeignet). Dazu wird der sogenannte BMI (body mass index) verwendet, der als
Propotionalitätskonstante in das Gesetz eingeht:
y = BMI · x2 .
Man erhält dadurch eine genauere Relation zwischen den beiden Größen. Der lineare Zusammenhang hat jedoch den Vorteil, dass die Berechnung des Gewichtes bei
gegebener Körpergröße einfacher ist.
1.3. EMPIRISCHE ANALYSE DER MESSERGEBNISSE
27
Bestimmung des Zusammenhangs zwischen Länge und Biomasse von Schilfhalmen
Als nächstes wollen wir ein anderes Beispiel anschauen, wo die Korrelation von Bedeutung ist. Es ist der Dissertation von D. Ritterbusch: Wachstum und Habitatbe”
setzung von Schilf in Karpfenteichen“ entnommen. In dieser Arbeit werden Vorgänge
wie Wachstum, Fortpflanzung und Ausbreitung von Schilf bei der Besiedlung neuer
Standorte untersucht.
Abbildung 1.11: Nichtlinearer Zusammenhang zwischen Biomasse und Halmvolumen
In diesem Zusamenhang ist es von Bedeutung, die Biomasse eines Schilfbestandes
zu ermitteln. Es wurde dabei festgestellt, dass der Durchmesser eines Halmes im
Jahresverlauf unverändert bleibt, so dass die Länge das Wachstum einzelner Halme
beschreibt.
Bei der Errechnung der Halmmassen wurde zuerst von einem Zusammenhang
zwischen Halmmasse und Halmvolumen ausgegangen. Die Masse eines Halmes hätte
in diesem Fall linear mit dem Produkt aus der Länge (L) und dem Quadrat des
Durchmessers (D 2 ) zusammenhängen müssen. Für Schilf trifft dieser Zusammenhang jedoch nicht zu. Siehe Abb.1.11. Die lineare Ausgleichsfunktion in Abb.1.11
beschreibt die empirischen Daten mit einem sehr hohen Korrelationskoeffizienten
r = 0.93. Da aber kein linearer Zusammenhang vorliegt ist dieser Wert bedeutungslos.
Der quadratische Einfluss des Durchmessers wurde offenbar falsch eingeschätzt.
Daher wurde eine Abhängigkeit von der Halmoberfläche überprüft. Hier wurde der
in Abb.1.12 dargestellte, lineare Zusammenhang gefunden.
28
KAPITEL 1. MESSEN UND DATENBESCHREIBUNG
Abbildung 1.12: Lineare Abhängigkeit der Feuchtmasse eines Schilfhalmes von seiner
Oberfläche
Kapitel 2
Wahrscheinlichkeitsrechnung
Im ersten Kapitel beschäftigten wir uns mit der
• Erfassung und Aufbereitung gemessener Daten (Tabellen, Diagramme)
sowie mit der
• Berechnung von Kenngrößen zur quantitativen Beschreibung der Verteilung
der Daten (z. B. Mittelwert, Standardabweichung, Korrelationskoeffizient).
Die gemessenen Daten stammen aus der Untersuchung einer Stichprobe, d. h.
einer kleinen Menge der Gesamtpopulation. Das Ziel unserer Untersuchung ist
aber, Aussagen über die Gesamtpopulation zu machen. Daher stellt sich die Frage,
ob sich die Erkenntnisse, die man aus der Untersuchung der Stichprobe gewonnen
hat, auf die Gesamtpopulation übertragen lassen. Die Beantwortung dieser Frage ist mit den Methoden der induktiven (schließenden) Statistik möglich. Um die
statistischen Methoden anwenden zu können, benötigen wir Modelle, welche die Gesamtpopulation hinreichend genau beschreiben.
Bei der Beschreibung der Abläufe in der Natur (und damit auch in den Biowissenschaften) muss man mit Unsicherheiten und mit Mangel an Information rechnen.
Wir haben es mit Erscheinungen zu tun, deren Ausgang ungewiss, zufällig (d. h.
nicht vorhersagbar) ist. Die Beschreibung solcher Erscheinungen wird im Rahmen
der Wahrscheinlichkeitstheorie vorgenommen. Die Wahrscheinlichkeit ist dabei ein
Maß für die Möglichkeit des Auftretens bestimmter Ereignisse. Wir wollen diese
Aussagen nun präzisieren, um dann die Konzepte der Wahrscheinlichkeitstheorie
herzuleiten.
2.1
Zufall und Wahrscheinlichkeit
Ein Zufallsexperiment ist ein Vorgang, der genau beschreibbar und wiederholbar,
dessen Ergebnis jedoch nicht vorhersagbar (zufällig) ist (etwa aufgrund der Komplexität des Vorgangs). So stellen zum Beispiel
• das Würfeln mit einem Würfel,
29
30
KAPITEL 2. WAHRSCHEINLICHKEITSRECHNUNG
• das Werfen einer Münze,
• das Bestrahlen einer Zellkolonie und die Bestimmung der Anzahl der Mutationen,
• das Erfassen des Alters von Schildkröten
Zufallsexperimente dar.
Der Ausgang (das Ergebnis) eines Zufallsexperimentes kann folgendes sein:
• das Auftreten der Augenzahl 5 beim Würfeln,
• das Auftreten von Wappen“ beim Werfen einer Münze,
”
• das Auftreten von 2 Mutationen bei der Bestrahlung einer Zellkolonie,
• Alter = 50 Jahre einer zufällig ausgewählten Schildkröte.
Die Menge aller möglichen Ausgänge (Ergebnisse) eines Zufallsexperimentes wird
Ergebnisraum genannt und mit Ω bezeichnet. Für die oben angeführten Beispiele
von Zufallsexperimenten sind die Ergebnisräume folgendermaßen definiert:
• Ω = {1, 2, 3, 4, 5, 6} beim Würfeln,
• Ω = {W, Z} beim Münzwurf,
• Ω = {0, 1, 2, 3, ...} =
• Ω = {t ∈
bei der Bestrahlung der Zellkolonie,
, t > 0} = ]0, ∞[ für das Ermitteln des Altersvon Schildkröten.
Bemerkung 5 Für die letzten zwei Beispiele ist der Ergebnisraum eine unendliche Menge. Dabei entstehen mögliche Ergebnise (Ausgänge) die theoretisch, aber
nicht praktisch denkbar sind, z. B. Alter von Schildkröten gleich 5000 Jahre. Solchen Ausgängen werden wir aber später sehr kleine Wahrscheinlichkeiten zuordnen,
so dass sie letztendlich praktisch unmöglich sind.
Die Wahl des Ergebnisraumes ist zum Teil durch die Art der Information bestimmt,
die man erhalten will. Interessiert beim Würfeln beispielsweise nur, ob eine 5 gefallen
ist, so wird man als Ergebnisraum folgendes wählen:
Ω = {5, nicht 5}.
Ein anderes Beispiel in diesem Sinne wäre auch:
Beispiel 5 Ein Viehbestand soll hinsichtlich einer Krankheit untersucht werden.
Dafür wird folgendes Zufallsexperiment angestellt: es werden n Tiere aus dem Viehbestand ausgewählt und auf die Krankheit getestet. Den Gesunden wird das Symbol
1, den Kranken das Symbol 0 zugeordnet. Die Ausgänge (Ergebnisse) des Experimentes sind also n−Tupel der Form (1| 1 0 0 1 {z
0 1 ... 0 1 }0). Das Merkmal, welches uns
n
interessiert, ist aber die Anzahl der gesunden Tiere. Diese erhalten wir, indem wir
die Einträge aus unserem n−Tupel aufsummieren. Der neue Ergebnisraum Ω ist
dann
Ω = {0, 1, 2, ..., n}.
2.1. ZUFALL UND WAHRSCHEINLICHKEIT
31
Teilmengen von Ω nennt man Ereignisse. Teilmengen bestehend aus einem einzigen
Element heißen Elementarereignisse.
Der Ereignisraum F ist die Familie der sinnvollen“ Ereignissen. In dem Fall ei”
nes endlichen Ergebnisraumes Ω besteht der Ereignisraum aus allen Teilmengen von
Ω; F = Pot(Ω), wobei mit Pot(Ω) die Potenzmenge von Ω, oder die Menge aller
Teilmengen bezeichnet wird. Ist Ω = [a, b] (oder gar ), so besteht F aus allen Teilintervallen (allen Intervallen) sowie ihren Durchschnitten und ihren Vereinigungen.
Man sagt: Ein Ereignis A ist eingetreten“, wenn ein Zufallsexperiment ein Ergebnis
”
ω ∈ A liefert. Beispiele von Ereignissen sind:
• A = {2, 4, 6} Es wird eine gerade Zahl gewürfelt.“
”
• Ω = {W, Z} Es wird Wappen oder Zahl geworfen“ (das sichere Ereignis).
”
• A = {7, 8, 9, 10} Es sind zwischen 7 und 10 Mutationen eingetreten.“
”
• A = {t ∈ , t ≥ 50} = [50, ∞[ Das Alter ist mindestens 50 Jahre.“ ( oder
”
Die Schildkröte ist mindestens 50 Jahre alt.“)
”
Das Ereignis A = Ω bezeichnen wir als das sichere Ereignis: alle möglichen Ergebnisse ω sind in Ω enthalten, das Ereignis Ω tritt also sicher ein. Das Ereignis A = Φ
(Φ bezeichnet die leere Menge) heißt das unmögliche Ereignis : die leere Menge enthält kein Ergebnis, das Ereignis Φ kann also niemals eintreten. Das Ereignis
CA = Ω \ A = {ω ∈ Ω : ω ∈
/ A} heißt das zu A komplementäre Ereignis. CA tritt
genau dann ein, wenn A nicht eintritt, denn wird ω ∈ CA beobachtet, so ist ω ∈
/ A.
Wir haben Ereignisse als Teilmengen des Ergebnisraumes Ω eingeführt. Dieses
erlaubt es uns, auf besonders einfache Weise die Beziehung zwischen den Ereignissen
durch Mengenoperationen auszudrücken.
Seien A, B ⊂ Ω (oder A, B ∈ F ) zwei Ereignisse. Dann gilt:
A ∪ B tritt genau dann ein, wenn A oder B eintritt
A ∩ B tritt genau dann ein, wenn A und B gleichzeitig auftreten.
Zwei Ereignisse sind disjunkt, wenn sie nicht gleichzeitig eintreten können (d. h.
wenn sie sich gegenseitig ausschließen). A und B sind genau dann disjunkt, wenn
A ∩ B = Φ.
Beispiel 6 : Beim Würfeln mit einem Würfel seien
A = {2, 4, 6} Es wird eine gerade Zahl geworfen.“
”
B = {3, 4, 5, 6} Die Augenzahl ist größer als 3.“
”
C = {1, 3, 5} Es wird eine ungerade Augenzahl gewürfelt.“
”
Dann gilt:
A ∪ B = {2, 3, 4, 5, 6}, A ∩ B = {4, 6}
A ∪ C = Ω, A ∩ C = Φ
32
KAPITEL 2. WAHRSCHEINLICHKEITSRECHNUNG
Als nächstes wollen wir Aussagen über die Möglichkeit des Eintretens eines bestimmten Ereignisses machen. Darunter wollen wir nicht Aussagen der Form: Wahr”
scheinlich regnet es heute“ verstehen, sondern wir meinen damit die Festlegung eines
Zahlenwertes, der die Wahrscheinlichkeit angibt.
Das empirische Vorgehen für die Definition der Wahrscheinlichkeit wäre folgendes: Betrachten wir ein Zufallsexperiment mit endlichem Ω = {ω1 , ..., ωk }. Wenn
man immer längere Versuchsreihen anstellt und bei jeder Länge n der Versuchsreihe
die relative Häufigkeit
hn (ωi )
rn (ωi ) =
n
berechnet, so stellt man in vielen Fällen fest, dass sich die rn (ωi) mit immer größer
werdendem n kaum noch ändern. Dieses nennt man ein empirisches Gesetz der
großen Zahlen. Es liegt folglich die Annahme nahe, dass es reelle Zahlen gibt, die
• die Wahrscheinlichkeit dafür angeben, dass bei einem Zufallsexperiment das
Ereignis {ωi} eintritt,
• für hinreichend großes n beliebig genau durch rn (ai ) approximiert werden.
Es ist dann zu erwarten, dass die Wahrscheinlichkeiten auch änliche Regeln erfüllen
wie die relativen Häufigkeiten (s. (1.5)-(1.7)).
Die axiomatischen Grundlagen für die Definition der Wahrscheinlichkeit legte
Kolmogorow im Jahre 1933 mit der Einführung der folgenden Axiome. Zuerst verlangen wir, dass das System F (der Raum der sinnvollen Ereignisse) folgende Eigenschaften hat:
Ω, Φ ∈ F
A∈F ⇒Ω\A∈F
A, B ∈ F ⇒ A ∪ B ∈ F , A ∩ B ∈ F
(oder allgemeiner A1 , A2 , ... ∈ F ⇒ A1 ∪ A2 ∪ ... ∈ F ,
A1 ∩ A2 ∩ ... ∈ F ).
Obwohl es naheliegt, für F alle Teilmengen von Ω zu wählen, gibt es wichtige mathematische Gründe, auf eine solche Forderung zu verzichten.
Wir definieren nun das Wahrscheinlichkeitsmaß (oder die Wahrscheinlichkeitsverteilung) P als eine Funktion, die jedem Ereignis A aus F eine Wahrscheinlichkeit P (A) für das Eintreffen von A zuordnet, d. h.
P :F → A 7→ P (A),
so, dass folgende Axiome erfüllt sind
K1: P (A) ≥ 0,
∀A ∈ F
K2: P (Φ) = 0,
P (Ω) = 1
K3: A, B ∈ F , A ∩ B = Φ
⇒
P (A ∪ B) = P (A) + P (B)
2.1. ZUFALL UND WAHRSCHEINLICHKEIT
33
Das somit festgelegte Tripel (Ω, F , P ) nennt man Wahrscheinlichkeitsraum.
Ein System, das dem Zufall unterworfen ist, wird also mit Hilfe eines Wahrscheinlichkeitsraumes (Ω, F , P ) beschrieben. Wir können dabei folgende Analogien zu den
Konzepten aus dem ersten Kapitel herstellen: Der Ergebnisraum Ω kann als die
Menge der möglichen Ausprägungen eines Merkmals aufgefasst werden. Der Ereignisraum F definiert Bereiche in denen Ausprägungen liegen. Das Wahrscheinlichkeitsmaß P approximiert die relative Häufigkeit, mit der einzelne Ausprägungen
oder Bereiche von Ausprägungen vorkommen. Damit diese Interprätation stimmt,
muss man aber sehr sorgfältig bei der Wahl des Ergebnisraumes Ω und des Wahrscheinlichkeitsmaßes P vorgehen, siehe auch Beispiel 5.
Aus der Definition des Wahrscheinlichkeitsmaßes können weitere Eigenschaften
hergeleitet werden:
Satz 3 (Elementare Rechenregel für Wahrscheinlichkeiten) Es sei (Ω, F , P )
ein Wahrscheinlichkeitsraum. Dann gilt:
1. A, B ∈ F , A ⊂ B ⇒ P (A) ≤ P (B)
A B
2. A1 , A2 , ..., An paarweise disjunkt, d. h. Ai ∩ Aj = Φ, ∀i 6= j ⇒
P (A1 ∪ A2 ∪ ... ∪ An ) = P (A1 ) + P (A2 ) + ... + P (An )
A1
A2
3. A ∈ F ⇒ P (CA) = 1 − P (A)
Α
Ω Α
4. A, B ∈ F ⇒ P (A ∪ B) = P (A) + P (B) − P (A ∩ B)
Beweis: Siehe Übungsaufgabe 5∗ , Blatt 5.
Zwei Ereignisse A und B heißen unabhängig, wenn
P (A ∩ B) = P (A) · P (B).
(2.1)
34
KAPITEL 2. WAHRSCHEINLICHKEITSRECHNUNG
A A
B
2.2
B
Diskrete Wahrscheinlichkeitsverteilungen
Wir werden im folgenden verschiedene Wahrscheinlichkeitsräume (Ω, F , P ) untersuchen. Als erstes betrachten wir endliche Ergebnisräume Ω = {ω1 , ω2 , ..., ωk }. Die zugehörigen Wahrscheinlichkeitsräume (Ω, F , P ) heißen dann endliche Wahrscheinlichkeitsräume. Für solche Räume ist die Ereignismenge F = PotΩ.
Satz 4 Das Wahrscheinlichkeitsmaß für einen diskreten Wahrscheinlichkeitsraum
ist eindeutig durch die Werte auf den Elementarereignissen {ωi }, i = 1, ..., k festgelegt, d. h. durch
P ({ω1}) = p1 ,
P ({ω2}) = p2 , . . . , P ({ωk }) = pk
mit p1 , p2 , . . . , pk ≥ 0,
p1 + p2 + . . . + pk = 1.
Für ein Ereignis A = {ωi1 , ..., ωil } ∈ F gilt dann nach Satz 3 (da die Elementarereignisse paarweise disjunkt sind):
P (A) = P ({ωi1 } ∪ {ωi2 } ∪ . . . ∪ {ωil })
= P ({ωi1 }) + . . . + P ({ωil })
= pi1 + . . . + pil .
Man kann zeigen, dass ein so definiertes Wahrscheinlichkeitsmaß die Axiome K1 −
K3 erfüllt.
Ein Wahrscheinlichkeitsraum (Ω, F , P ) heißt diskret, wenn Ω endlich oder Ω =
{ω1 , ω2 , ω3 , ...} ist. Im letzten Fall gilt die obige Definition sinngemäß für diskrete
Räume.
Wir wollen nun einige Beispiele von diskreten Wahrscheinlichkeitsräumen untersuchen.
2.2.1
Die Laplace Wahrscheinlichkeitsverteilung
Sei Ω = {ω1 , . . . , ωk } endlich.
Falls alle Elementarereignisse {ωi}, i = 1, ..., k gleich wahrscheinlich sind, d. h.
P ({ω1}) = P ({ω2 }) = ... = P ({ωk }) =
1
,
k
2.2. DISKRETE WAHRSCHEINLICHKEITSVERTEILUNGEN
35
so heißt (Ω, F , P ) Laplace Wahrscheinlichkeitsraum. P heißt dann Laplace
Wahrscheinlichkeitsverteilung oder diskrete Gleichverteilung. Die letzte Gleichheit folgt wieder aus Satz 3, da die Elementarereignisse paarweise disjunkt sind:
1 = P (Ω) = P ({ω1 } ∪ {ω2 } ∪ . . . ∪ {ωk })
= P ({ω1 }) + P ({ω2}) + . . . + P ({ωk })
= k · P ({ωi}), ∀i = 1, . . . , k.
Damit gilt für ein A ∈ F
P (A) =
X
ωi ∈A
P ({ωi}) =
|A|
,
k
(2.2)
wobei mit |A| die Anzahl der Elemente aus A bezeichnet wird. Formel (2.2) ist etwas
einprägsamer als
Wahrscheinlichkeit von A =
Anzahl der günstigen Ausgänge
Anzahl aller möglichen Ausgängen
bekannt.
Beispiel 7 (Einmaliges Würfeln mit einem fairen Würfel)
Ω = {1, 2, 3, 4, 5, 6},
F = Pot(Ω)
Wenn der Würfel halbwegs homogen und symmetrisch ist, kann man davon ausgehen, dass alle Augenzahlen dieselben Chancen haben gewürfelt zu werden. Es gilt
also
1
P ({1}) = P ({2}) = ... = P ({6}) = .
6
P({ωi })
6
1
6
-
ω
Das Ereignis A = {2, 4, 6}: Es ist eine gerade Zahl gefallen“ hat die Wahrschein”
lichkeit
|A|
3
1
P (A) =
= = .
|Ω|
6
2
Beispiel 8 (Zweimaliges Würfeln mit einem fairen Würfel)
Ω = {(1, 1), (1, 2), (1, 3), . . . (1, 6), (2.1), . . . , (6, 6)}
36
KAPITEL 2. WAHRSCHEINLICHKEITSRECHNUNG
Man geht davon aus, dass die beiden Würfe unabhängig voneinander stattfinden, so
dass man annehmen kann, dass alle Paare gleich wahrscheinlich sind. Da insgesamt
6 × 6 = 36 mögliche Paare gebildet werden können, gilt:
1
P ({(1, 1)}) = P ({(1, 2)}) = . . . = P ({(6, 6)}) = .
36
Das Ereignis Die Augensumme ist 5“ ist A = {(1, 4), (2, 3), (3, 2), (4, 1)}. Die
”
Wahrscheinlichkeit für das Auftreten dieses Ereignisses ist
P (A) =
4
1
|A|
=
= .
|Ω|
36
9
In den bisherigen Beispielen war es recht einfach, die Kardinalität |Ω| der Ergebnismenge und die der Ereignisse |A| zu bestimmen. Oft ist es aber notwendig, kombinatorische Argumente für die Berechnung von Kardinalitäten anzuwenden.
Beispiel 9 Wie viele Wörter mit 5 Buchstaben kann man mit den 26 Buchstaben
des Alphabets bilden, wenn auch Wörter ohne Bedeutung zugelassen werden? (Auch
Buchstabenwiederholungen sind natürlich erlaubt).
Wir haben:
• 26 Möglichkeiten für die Wahl des 1. Buchstaben
• 26 Möglichkeiten für die Wahl des 2. Buchstaben
• 26 Möglichkeiten für die Wahl des 3. Buchstaben
• 26 Möglichkeiten für die Wahl des 4. Buchstaben
• 26 Möglichkeiten für die Wahl des 5. Buchstaben.
Wenn wir alle Auswahlmöglichkeiten zusammensetzen, erhalten wir also
26 × 26 × . . . × 26 = 265
Wörter mit 5 Buchstaben. Jetzt können wir uns fragen, wie groß die Wahrscheinlichkeit der Auswahl eines bestimmten Wortes ist. Da alle Wörter gleich wahrscheinlich
sind, können wir auch diese Situation mit Hilfe eines Laplace Wahrscheinlichkeitsraumes modellieren, wobei
Ω = {ω = (x1 , x2 , . . . , x5 ); x1 ∈ {a, b, . . . , z}, . . . x5 ∈ {a, b, . . . , z}}
1
, ∀ ω ∈ Ω.
265
Die gesuchte Wahrscheinlichkeit ist also 2615 .
P ({ω)} =
Die gleiche Problemstellung kommt in vielen anderen Situationen vor, wenn es
darum geht, k verschiedene Plätze mit je einem Objekt zu besetzen, wobei es n
Arten von Objekten gibt und von jeder Art beliebig viele zur Verfügung stehen. Es
gibt dann
k
n
(2.3)
| ×n×
{z. . . × n} = n Möglichkeiten
k mal
die Plätze zu besetzen.
2.2. DISKRETE WAHRSCHEINLICHKEITSVERTEILUNGEN
2.2.2
37
Die Binomialverteilung
Die einfachsten nichttrivialen Zufallsexperimente sind solche mit zwei möglichen
Ausgängen, wie z. B. Münzwurf (Kopf, Zahl), Bestimmung des Geschlechtes für
Nachkommen (männlich, weiblich), Qualitätskontrolle (defekt, intakt) oder das Auftreten von Mutationen (Mutation, keine Mutation).
Solche Zufallsexperimente mit zwei Ausgängen bezeichnet man als Bernoulli-Experimente. Sie werden eindeutig durch den Wahrscheinlichkeitsraum (Ω, F , P ) mit
Ω = {1, 0},
F = {Φ, {1}, {0}, Ω},
P ({1}) = p,
P ({0}) = 1 − p = q
beschrieben. Dabei ist also 0 ≤ p ≤ 1 die Wahrscheinlichkeit des Eintreffens von {1}.
Wir wollen uns nun mit n unabhängigen Wiederholungen eines solchen Bernoulli
Experimentes befassen.
Beispiel 10 (Genetik: Rekombination von Genen) Nehmen wir an, dass eine
Fischpopulation ihre Fortpflanzungszellen ins Wasser entlässt. Betrachten wir einen
bestimmten Genlocus mit den Allelen A und a. Jede Fortpflanzungszelle (Spermium
oder Eizelle) enthält genau eines der beiden Allele, entweder A oder a. Sei p die
Wahrscheinlichkeit, dass eine Spermienzelle A enthält und q = 1 − p die Wahrscheinlichkeit, dass diese a enthält. Wir nehmen zudem an, dass in den Eizellen
dieselbe Wahrscheinlichkeitsverteilung herrsche, also:
Ω = {A, a},
P ({A}) = p,
P ({a}) = q,
p + q = 1.
(Dieses Modell entspricht einem Bernoulli Experiment. Dabei haben wir die möglichen Ausgänge nicht mit 0, 1 sondern mit A, a bezeichnet.) Nach der Befruchtung
der Eizellen durch die Spermienzellen erhalten wir den neuen Ereignisraum
Ω2 = {AA, Aa, aA, aa}.
(Hier betrachten wir also 2 unabhängige Wiederholungen eines Bernoulli Experimentes.) Nehmen wir an, dass sich die einzelnen Fortpflanzungszellen zufällig treffen,
dass der Prozess also unabhängig vom Gengehalt jeder Zelle ist, dann können die
Wahrscheinlichkeiten der Elementarereignisse wie folgt bestimmt werden:
{AA} =
”
{AA, Aa}
| {z }
Spermium enthält das Allel A“
Aus unseren Modellannahmen folgt
∩
”
{AA, aA}
| {z }
.
Eizelle enthält das Allel A“
P ({AA, Aa}) = P ({AA, aA}) = p.
Wegen der Unabhängigkeit der zwei Ereignisse gilt dann die Produktregel (2.1) und
wir erhalten
P ({AA}) = P ({AA, Aa}) · P ({AA, aA}) = p · p = p2 .
38
KAPITEL 2. WAHRSCHEINLICHKEITSRECHNUNG
Analog erhalten wir
P ({Aa}) = pq, P ({aA}) = qp, P ({aa}) = q 2 .
Da die beiden Genotypen aA und Aa biologisch nicht unterscheidbar sind, fassen wir
sie zusammen und addieren die Wahrscheinlichkeiten
P ({aA − Aa}) = P ({aA, Aa}) = P ({aA}) + P ({Aa}) = 2pq.
Die Rekombination von Genen führt also zu
P ({AA}) = p2 , P ({aA − Aa}) = 2pq, P ({aa}) = q 2 .
Da unser Ergebnisraum Ω = {AA, aA − Aa, aa} ist, sollte die Summe der drei
Wahrscheinlichkeiten 1 sein. Tatsächlich gilt:
p2 + 2pq + q 2 = (p + q)2 = 12 = 1.
Allgemeiner: Wenn wir ein Bernoulli Experiment n Mal wiederholen, so erhalten
wir folgendes wahrscheinlichkeitstheoretisches Modell (Ωn , Fn , P ):
• Der Ergebnisraum besteht aus n-Tupeln der Gestalt
Ωn = {0, 1}n = {ω = (x1 , x2 , . . . , xn ) : xj ∈ {0, 1}, j = 1, . . . , n}.
• Die Menge Fn ist gebildet aus allen Teilmengen von Ωn
• Die Wahrscheinlichkeitsverteilung P erhält man durch analoge Überlegungen
wie im Beispiel 10 und ist gegeben durch
P ({ω}) = pk q n−k
für ein n-Tupel ω, dessen Einträge k Einsen und n − k Nullen sind.
Wenn man nun nicht an einer bestimmten Reihenfolge des Auftretens der Einsen
und Nullen interessiert ist, so kann man alle Tupel mit der gleichen Anzahl von
Einsen zusammenfassen zu einem Ereignis
Ak = {ω = (x1 , x2 , . . . , xn ) ∈ Ω |
n
X
xj = k}, k = 1, . . . , n
j=1
(das Ereignis Ak enthält alle n-Tupel, in denen k mal die 1 vorkommt).
Was ist nun P (Ak ) ?
An dieser Stelle müssen wir wieder zählen, und zwar: auf wieviele Arten können
wir aus den n verschiedenen Plätzen in einem n−Tupel k Plätze für die Einsen
auswählen?
Dieses Abzählproblem kann man ganz anschaulich mit Hilfe des folgenden Urnenmodells lösen: Auf wieviele Arten kann man aus einer Urne mit n verschiedenen
(z. B. von 1 bis n nummerierte) Kugeln k Kugeln ziehen, ohne Zurücklegen und ohne
Berücksichtigung der Reihenfolge, in der die Kugeln gezogen wurden. (Für unsere
Anwendung entspricht das Ziehen einer Kugel mit der Nummer j dem Belegen des
j-ten Platzes in dem n-Tupel mit einer Eins.)
Die Lösung ist folgende: Es gibt
2.2. DISKRETE WAHRSCHEINLICHKEITSVERTEILUNGEN
39
• n Möglichkeiten für die Wahl der 1. Kugel,
• (n − 1) Möglichkeiten für die Wahl der 2. Kugel,
• (n − 2) Möglichkeiten für die Wahl der 3. Kugel,
...
• (n − (k − 1)) Möglichkeiten für die Wahl der k. Kugel.
Wenn die Reihenfolge berücksichtigt wird, gibt es also insgesamt n(n − 1)(n −
2) . . . (n−(k−1)) Möglichkeiten, k Kugeln von n verschiedenen Kugeln auszuwählen.
Da bei uns aber die Reihenfolge irrelevant ist, müssen wir das obige Resultat durch
die Anzahl aller Umordnungen von k verschiedenen Kugeln teilen. Diese Anzahl ist
k! = 1 · 2 · 3 · · · k. Es bleiben also noch
n(n − 1)(n − 2) . . . (n − (k − 1))
=
k!
n!
(n−k)!
k!
=
n!
(n − k)!k!
Möglichkeiten für die Auswahl von k aus n verschiedenen Kugeln, ohne Berücksichtigung der Reihenfolge. Dabei ist n! = 1 · 2 · 3 . . . n, 0! = 1. Diese Zahl bezeichnen
wir mit n über k“
”
n!
n
=
(n − k)!k!
k
und nennen sie Binomialkoeffizient. Wir erhalten also
n k n−k
P (Ak ) =
p q , k = 0, 1, . . . , n.
k
Wenn wir nur an den Wahrscheinlichkeiten interessiert sind, dass bei n Bernoulli
Experimenten k mal die 1 eintritt, k = 0, 1, . . . , n , so können wir diese im folgenden
Wahrscheinlichkeitsmodell beschreiben:
Ω = {0, 1, . . . , n}, F = Pot(Ω)
n k n−k
p q , k = 0, 1, . . . , n.
P ({k}) = bn,p (k) =
k
(2.4)
Diese Wahrscheinlichkeitsverteilung nennt man Binomialverteilung.
Der binomische Lehrsatz
n X
n k n−k
n
(x + y) =
x y , ∀x, y ∈ R, n ∈ N
k
k=0
liefert eine analytische Rechtfertigung dafür, dass bn,p eine Wahrscheinlichkeitsverteilung induziert.
40
KAPITEL 2. WAHRSCHEINLICHKEITSRECHNUNG
Graphische Darstellung: Stabdiagramme der Binomialverteilung
1) p = 21
2
4
n=2
1
4
1
4
0
1
3
8
n=3
-
2
k
3
8
1
8
1
8
0
1
n=4
2
4
16
-
3
6
16
k
4
16
1
16
2) p =
1
16
0
1
2
3
4
0
1
2
3
4
-
k
1
6
n=4
-
k
n=9
0
2.2.3
1
2
3
4
5
6
7
8
9
k
-
Die Poissonverteilung
In vielen Anwendungen haben wir es mit Bernoulli-Experimenten zu tun, bei denen
n groß und p klein ist, während das Produkt np mäßig groß ist. In solchen Fällen
ist es praktisch, eine Näherungsformel für die Binomialverteilung zu verwenden.
2.3. WAHRSCHEINLICHKEITSVERTEILUNGEN AUF
41
Beispiel 11 (Ökologie) Gesucht ist das Verteilungsmuster einer bestimmten Pflanze über ein bestimmtes Gebiet (etwa ein Feld oder einen Wald). Dazu wird das Gebiet
in eine große Zahl von Parzellen, etwa Quadrate oder Rechtecke gleicher Fläche unterteilt. Man zählt die Anzahl der Pflanzen pro Parzelle.
Wahrscheinlichkeitstheoretisches Modell: Wir setzen voraus, dass auf einem Feld
n Objekte so geworfen werden, dass jede Parzelle mit der gleichen Wahrscheinlichkeit p getroffen wird. (Entsprechend wird sie mit q = 1 − p nicht getroffen.) Die
Wahrscheinlichkeit, dass eine bestimmte Parzelle k mal getroffen wird, ist gegeben
durch die Binomialverteilung
n k n−k
p q .
P ({k}) =
k
Soll eine große Anzahl von Objekten und Parzellen betrachtet werden (d. h. n sehr
groß, p sehr klein), so ist die Berechnung von P ({k}) recht mühsam und man ist
auf Approximationen angewiesen. Wir fragen daher, welche Grenzverteilung wir erhalten, wenn m = np konstant bleibt und n → ∞, p → 0 gilt. Die Rechnung, die wir
aus Zeitgründen nicht ausführlich machen können, ergibt
n k
mk e−m
lim
p (1 − p)n−k =
, k = 0, 1, 2, . . .
n→∞ k
k!
Wir können also die Wahrscheinlichkeit, dass eine bestimmte Parzelle k mal getroffen wird, approximieren durch
P ({k}) =
mk e−m
.
k!
(2.5)
Mit der Formel (2.5) ist die berühmte Poissonverteilung hergeleitet worden.
0,3 6
0,25
0,2
0,15
0
1
2
3
4
5
6
7
8
-
k
Poissonverteilung zum Parameter m = 1, 9
2.3
Wahrscheinlichkeitsverteilungen auf
Wir werden uns nun mit Wahrscheinlichkeitsräumen (Ω, F , P ) beschäftigen, deren
Ergebnisraum Ω ein reelles Intervall I ∈ R oder sogar ist. Diese Räume gehören
zu den stetigen Wahrscheinlichkeitsräumen. In diesem Kontext möchten wir nun
42
KAPITEL 2. WAHRSCHEINLICHKEITSRECHNUNG
Fragen der Form: Mit welcher Wahrscheinlichkeit liegen die Ausgänge unserer Zu”
fallsexperimente in einem Intervall [α, β] ⊂ I?“ beantworten. Deswegen werden wir
verlangen, dass die Ereignismenge F alle Teilintervalle [α, β] ⊂ I enthält. Dazu
natürlich auch noch deren (abzählbare) Vereinigungen und Durchschnitte.
Die Wahrscheinlichkeitsverteilung P wird folgendermaßen definiert:
Sei f : Ω → R eine reellwertige, stückweise stetige Funktion auf Ω = I oder Ω = R,
mit
f (x) ≥ 0
(2.6)
und
Z
f (x)dx = 1.
(2.7)
Ω
Die Funktion f heißt Wahrscheinlichkeitsdichte (oder Dichtefunktion). Die
Bedingung (2.7) besagt, dass der Flächeninhalt unter dem Schaubild von f gleich
1 sein muss. Mit Hilfe der Dichtefunktion definieren wir nun die Wahrscheinlich-
f(x)
a
0
b
x
Abbildung 2.1: Die Dichtefunktion f (x)
keitsverteilung P auf I (bzw. R) durch
P : F → [0, 1],
P ([α, β]) =
Zβ
f (x)dx
(2.8)
α
für alle Ereignisse [α, β] ∈ F . Setzt man im Falle Ω = I die Funktion f (x) = 0
außerhalb von I, so können wir immer I durch R ersetzen. Der Wert P ([α, β]) stellt
den Flächeninhalt unter der Funktion f über dem Intervall [α, β] dar, siehe Abb.2.2.
Aus (2.7) folgt sofort, dass die Wahrscheinlichkeit für das sichere Ereignis P (I) = 1
(bzw. P (R) = 1) ist. Setzt man in (2.8) α = β, so ergibt sich sofort, dass die
2.3. WAHRSCHEINLICHKEITSVERTEILUNGEN AUF
43
f(x)
a
0 α
P([α, β])
β
b
x
Abbildung 2.2: Die Wahrscheinlichkeit P ([α, β])
Wahrscheinlichkeit P ([α, α]) eines Elementarereignisses [α, α] gleich Null ist, denn
P ([α, α]) =
Zα
f (x)dx = 0.
α
Dieses ist auch geometrisch einsichtig, da die Fläche über einem Punkt der x−Achse
gleich Null ist.
Bemerkung 6 Im Falle diskreter Merkmale haben wir gesehen, dass die Wahrscheinlichkeit als eine Approximation für die relative Häufigkeit aufgefasst werden
kann. Im Falle stetiger Merkmale ist die Wahrscheinlichkeitsdichte eine Approximation für die normierte“ Klassenhäufigkeit. Wenn nämlich bei der Klassenbildung die
”
Klassenbreite b immer feiner wird (unter der Voraussetzung immer größer werdender
Messreihen), so ist die Verteilung der normierten“ relativen Klassenhäufigkeiten
”
r(ai )
immer näher bei einer stetigen Funktion, welche die Wahrscheinlichkeitsdichte
b
darstellt.
2.3.1
Die Gleichverteilung
Beispiel 12 (Orientierung von Vögeln) In einer Verhaltensstudie wurden Vögel
einzeln und unter Umständen, die die Orientierung erschwerten, freigelassen. Man
erwartete, dass die Vögel jede Richtung θ ∈ [0◦ , 360◦ ] mit der gleichen Wahrscheinlichkeit einschlagen würden. Die Wahrscheinlichkeitsdichte ist darum eine Konstante über dem Intervall [0◦ , 360◦ ]. Da die Fläche zwischen dem Intervall [0◦ , 360◦] und
dem Graphen von f (θ) gleich 1 sein muss, ist der konstante Wert von f (α) gleich
1
. Die Wahrscheinlichkeitsdichte ist also gegeben durch
360
1
, θ ∈ [0, 360]
360
f (θ) =
0 , sonst.
44
KAPITEL 2. WAHRSCHEINLICHKEITSRECHNUNG
Die Wahrscheinlichkeit, dass ein Vogel in einer Richtung aus dem Intervall [θ0 , θ1 ]
f(x)
1
360
0
x
360
losfliegt, ist also:
P ([θ0 , θ1 ]) =
Zθ1
1
θ1 − θ0
dx =
.
360
360
θ0
Im allgemeinen, sei I = [a, b]. Die Funktion f : R → R mit
1
, x ∈ [a, b]
b−a
f (x) =
0 , sonst
(2.9)
ist die Dichte der Gleichverteilung in [a, b]. So wie der Name es auch sagt, sind
alle Ereignisse [α, β] ∈ I mit β − α = l gleich wahrscheinlich mit
P ([α, β]) =
Zβ
α
f (x)dx =
Zβ
α
1
β−α
l
dx =
=
.
b−a
b−a
b−a
Für ein Ereignis [γ, δ] ⊂ R \ I gilt P ([γ, δ]) = 0, denn P ([γ, δ]) =
Rδ
0dx = 0.
γ
In Anwendungen wird man die Gleichverteilung immer dann wählen, wenn es keine
erkennbaren Gründe gibt, dass bestimmte Ausgänge von Zufallsexperimenten wahrscheinlicher sind als andere.
2.3.2
Die Normalverteilung
Die Normalverteilung ist eine der wichtigsten Verteilungen in der Stochastik. Für
µ ∈ R und σ 2 > 0 sei
(x−µ)2
1
fµ,σ (x) = √
e− 2σ2 .
(2.10)
2πσ 2
die Wahrscheinlichkeitsdichte der Normalverteilung mit Erwartungswert µ und Varianz σ 2 . Die Wahrscheinlichkeitsverteilung gegeben durch
Pµ,σ ([α, β]) = √
1
2πσ 2
Zβ
α
e−
(x−µ)2
2σ 2
dx
(2.11)
2.3. WAHRSCHEINLICHKEITSVERTEILUNGEN AUF
45
Abbildung 2.3: Zwei verschiedene Dichtefunktionen fµi ,σi , i = 1, 2.
heißt Normalverteilung in R mit Erwartungswert µ und Varianz σ 2 . In
Abb.2.3 sind die Dichtefunktionen fµi ,σi , i = 1, 2, für zwei verschiedene Werte des
Erwartungswertes und der Varianz dargestellt. Wir sehen, dass für größere σ die
Glocke breiter wird, σ gibt also ein Maß für die Streuung der Wahrscheinlichkeitsverteilung Pµ,σ an. Für µ = 0 und σ = 1 erhalten wir die standardisierte Normalverteilung (Gaußsche Glockenkurve) mit der Wahrscheinlichkeitsdichte
x2
1
f0,1 (x) = √ e− 2 .
2π
(2.12)
Da die Normalverteilung von ∞ bis −∞ reicht, scheint es keine Verteilung zu
Abbildung 2.4: Dichtefunktion f0,1 der standardisierten Normalverteilung.
sein, die man in biologischen Anwendungen gebrauchen kann, denn keine praktische Größe kann einen unendlichen Wert annehmen. Doch diese Betrachtungsweise
46
KAPITEL 2. WAHRSCHEINLICHKEITSRECHNUNG
stimmt nicht ganz, denn wegen der Exponentialfunktion in (2.12) nimmt die Dichtefunktion fµ,σ mit wachsendem |x| sehr schnell ab. Dieses führt dazu, dass z. B.
Ereignisse, die außerhalb des Intervalls [−3, 3] liegen, im Falle der standardisierten
Normalverteilung, mit einer Wahrscheinlichkeit kleiner als
 −3

Z
Z+∞


1
P0,1 ((−∞, −3] ∪ [3, +∞)) = √
f0,1 (x)dx +
f0,1 (x)dx = 0, 0027

2π 
3
−∞
auftreten. Ereignisse außerhalb [−4, 4] treten mit einer Wahrscheinlichkeit kleiner
als 0,00004 auf. Solche Ereignisse sind praktisch unmöglich.
Die Gründe, weswegen die Normalverteilung so häufig in der Praxis auftritt,
werden wir in einem der nächsten Paragraphen erläutern.
2.4
Zufallsvariable und ihre Verteilungen
Mithilfe von Zufallsvariablen können den möglichen Ausgängen ω ∈ Ω eines Zufallsexperimentes numerische Werte (Messwerte) zugeordnet werden.
Sei (Ω, F , P ) ein Wahrscheinlichkeitsraum. Eine Zufallsvariable ist eine reellwertige Funktion X : Ω → R.
Zufallsvariable mit diskretem Wertebereich
X heißt diskret, wenn X(Ω) = {X(ω), ω ∈ Ω} ein diskreter Raum ist (d. h. endlich
oder abzählbar).
Beispiel 13 a) Sei (Ω, F , P ) ein Wahrscheinlichkeitsraum für einen einmaligen
Münzwurf mit einer unfairen Münze, d. h.
Ω = {K, W }, F = {Φ, {K}, {W }, Ω},
P ({K}) = p, P ({W }) = 1 − p = q.
(2.13)
Wir können den Ausgängen Kopf“ und Wappen“ numerische Werte zuordnen
”
”
mithilfe der Zufallsvariable
X : Ω → {0, 1}
X(K) = 1,
X(W ) = 0.
b) Sei (Ω, F , P ) der Wahrscheinlichkeitsraum, der dem zweimaligen Würfeln mit
einem fairen Würfel entspricht, siehe Beispiel 8.
Ω = {(m, n) : m ∈ {1, . . . , 6}, n ∈ {1, . . . , 6}}.
Die Zufallsvariable, die die Augensumme der beiden Würfeln beschreibt, ist
X : Ω → {2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12}
X((m, n)) = m + n.
2.4. ZUFALLSVARIABLE UND IHRE VERTEILUNGEN
47
Zufallsvariable mit stetigem Wertebereich
Beispiele:
a.) Sei Ω eine große Menge von Personen
X:Ω→R
X(ω) = Konzentration des α − Globulins im Blutplasma der Person ω.
b.) Sei Ω eine große Menge von Individuen
X:Ω→R
X(ω) = Gewicht des Individuums ω.
2.4.1
Verteilung einer Zufallsvariable
Sei X eine reellwertige Zufallsvariable, die der Modellierung eines zufällig variierenden Messwertes dient. Wir sind nun daran interessiert, ein Wahrscheinlichkeitsmaß
auf X(Ω) ⊆ R zu finden, welches die Wahrscheinlichkeiten beschreibt, mit der Werte
von X angenommen werden. Dieses Wahrscheinlichkeitsmaß wird mit PX bezeichnet
und heißt Verteilung der Zufallsvariable X. Es ist gegeben durch:
PX (A) := P ({ω ∈ Ω : X(ω) ∈ A}) =: P [X ∈ A]
(2.14)
für jedes Ereignis A ⊂ X(Ω) aus dem Ereignisraum F auf X(Ω) ⊆ R.
Ist X eine diskrete Zufallsvariable, d. h. X(Ω) ist endlich oder abzählbar, so ist
(nach Satz 4) die Verteilung von X eindeutig charakterisiert durch
PX ({η}) = P ({ω ∈ Ω : X(ω) = η}) =: P [X = η],
η ∈ X(Ω).
P [X = η] stellt die Wahrscheinlichkeit dar, mit der der Wert η angenommen wird.
Beispiel:
Für den Fall des zweimaligen Würfelns mit einem fairen Würfel, siehe Beispiel 13
b.), ist für k = 2, . . . , 12
PX ({k}) = P ({(m, n) : m + n = k}) = P [X = k].
Für k = 5 gilt:
1
4
= .
36
9
Ist X eine Zufallsvariable mit stetigem Wertebereich, d. h. X(Ω) = R, so ist die
Verteilung von X eindeutig charakterisiert durch
PX ({5}) = P ({(1, 4), (2, 3), (3, 2), (4, 1)}) =
PX ((−∞, y]) = P ({ω ∈ Ω : X(ω) ∈ (−∞, y]}) =: P [X ≤ y],
y ∈ R.
D. h., wenn man die Werte PX ((−∞, y]) für jedes y ∈ R kennt, so kann man die
Wahrscheinlichkeit PX ([α, β]) für jedes Intervall [α, β] ⊂ R berechnen. Denn, ist die
Verteilung PX von X mit Hilfe einer Dichtefunktion fX gegeben, so gilt:
PX ([α, β]) =
Zβ
α
fX (x)dx =
Zβ
−∞
fX (x)dx −
Zα
−∞
= PX ((−∞, β]) − PX ((−∞, α]).
fX (x)dx
48
KAPITEL 2. WAHRSCHEINLICHKEITSRECHNUNG
Die Werte PX ((−∞, y]), y ∈ sind tabelliert. Sie werden mit Hilfe der im folgenden definierten Verteilungsfunktion FX festgehalten.
Die Funktion
FX : R → [0, 1]
y 7→ PX ((−∞, y])
heißt Verteilungsfunktion der Zufallsvariable X. Ist die Verteilung PX von X
mit Hilfe einer Dichtefunktion fX gegeben, so gilt:
FX (y) = PX ((−∞, y]) =
Zy
fX (x)dx.
−∞
Falls die Verteilung PX einer Zufallsvariable X die Gleichverteilung bzw. die Normalverteilung ist, so heißt die Zufallsvariable X gleichverteilt bzw. normalverteilt.
Interessieren wir uns nun für die Wahrscheinlichkeit, mit der die Zufallsvariable
X Werte in einem Intervall [α, β] annimmt, so berechnet sich diese folgendermaßen:
P [α ≤ X ≤ β] = PX ([α, β])
= PX ((−∞, β]) − PX ((−∞, α])
= FX (β) − FX (α).
(2.15)
Verteilungsfunktion einer normalverteilten Zufallsvariable
Sei zunächst X eine Zufallsvariable deren Verteilung durch die standardisierte Normalverteilung gegeben ist, d. h. PX = P0,1 . Die Verteilungsfunktion von X bezeichnen wir mit F0,1 . Die Werte
1
F0,1 (y) = √
2π
Zy
x2
e− 2 dx
(2.16)
−∞
entnimmt man aus Tabellen. Da aus Symmetriegründen (siehe auch Abb. ) gilt,dass
F0,1 (−y) = 1 − F0,1 (y),
1
F0,1 (0) = ,
2
genügt es, F0,1 nur für y ≥ 0 zu tabellieren.
Die Werte der Verteilungsfunktion Fµ,σ für eine normalverteilte Zufallsvariable
X mit Parametern µ und σ ergeben sich aus den Werten von F0,1 durch folgende
Transformation:
Satz 5 Es sei X eine normalverteilte Zufallsvariable mit der Verteilungsfunktion
Fµ,σ . Dann ist die standardisierte Zufallsvariable Y = X−µ
standardnormalverσ
teilt, d. h. FY = F0,1 .
Beweis: Siehe Übungsaufgabe 5, Blatt 7.
2.4. ZUFALLSVARIABLE UND IHRE VERTEILUNGEN
49
f0,1(t)
F0,1(-y)
1 - F0,1(y)
-y
0
y
t
Abbildung 2.5: Werte der Verteilungsfunktion F0,1
Beispiel 14 (Verteilung der Körpergröße) Sei X die Zufallsvariable, welche
die Körpergröße der Einwohner einer Stadt beschreibt. Es sei bekannt, dass X normalverteilt ist, mit Parametern µ = 178cm und σ = 8cm. Wir wollen nun aus den
tabellierten Daten für F0,1 die Wahrscheinlichkeit P [a ≤ X ≤ b] für gegebene Werte
von a, b ∈ R berechnen.
Wir betrachten zunächst die standardisierte Zufallsvariable Y = X−µ
= X−178
.
σ
8
Y ist nach Satz 5 normalverteilt mit Parametern 0 und 1. Es gilt dann
P [a ≤ X ≤ b] =
=
=
=
X −µ
b−µ
a−µ
≤
≤
P
σ
σ
σ
a−µ
b−µ
≤Y ≤
P
σ
σ
a−µ b−µ
P0,1
,
σ
σ
a−µ
b−µ
F0,1
− F0,1
σ
σ
Wenn wir also bestimmen wollen, wieviel Prozent der Bevölkerung in der oben angesprochenen P178,8 -verteilten Stadt zwischen 186 und 190 cm groß sind, so rechnen
wir folgendermaßen:
186 − 178
190 − 178
P [186 ≤ X ≤ 190] = P
≤Y ≤
8
8
= F0,1 (1, 5) − F0,1 (1)
= 0, 9332 − 0, 8413 = 0, 0919 ≈ 9, 2%
Dabei wurden die Werte von F0,1 (1, 5) und F0,1 (1) aus der Tabelle entnommen.
50
2.4.2
KAPITEL 2. WAHRSCHEINLICHKEITSRECHNUNG
Erwartungswert und Varianz einer Zufallsvariable
In Analogie zum Mittelwert und Varianz für Messreihen definieren wir für diskrete
Zufallsvariablen den Erwartungswert von X
X
X
E[X] =
x · PX ({x}) =
x · P [X = x]
(2.17)
x∈X(Ω)
x∈X(Ω)
und die Varianz von X
V [X] = E[(X − E[X])2 ].
(2.18)
Die Quadratwurzel aus der Varianz
p
p
V [X] = E[(X − E[X])2 ]
heißt Streuung oder Standardabweichung von X. Dabei beschreibt E[X] den
typischen Wert von X. V [X] ist ein Maß für die Gruöße der Abweichung der Werte
von X vom typischen “ Wert E[X].
”
Im Falle stetiger Zufallsvariablen, deren Verteilungen PX eine Dichte fX besitzen,
ist der Erwartungswert gegeben durch
Z∞
E[X] =
xfX (x)dx.
−∞
Die Varianz ist gegeben als
V [X] =
Z∞
(x − E[X])2 fX (x)dx.
−∞
Beispiel 15 (Erwartungswert und Varianz für normalverteilte Zufallsvariable)
Sei X eine normalverteilte Zufallsvariable mit PX = Pµ,σ . Dann ist E[X] = µ und
V [X] = σ 2 , denn
Z∞
(x−µ)2
1
e− 2σ2 dx
E[X] =
x· √
2πσ 2
−∞
= √
1
2πσ 2
Z∞
−
(x − µ)e
(x−µ)2
2σ 2
dx + √
−∞
µ
2πσ 2
Z∞
e−
(x−µ)2
2σ 2
dx.
−∞
Aufgrund der Symmetrieeigenschaften
des Integranden verschwindet das erste Inte√
2
gral. Das zweite Integral ergibt 2πσ , wir erhalten also E[X] = µ. Für die Berechnung der Varianz benutzen wir die Substitution x−µ
= y und erhalten:
σ
V [X] = √
1
2πσ 2
σ2
= √
2π
Z∞
(x − µ)2 e−
(x−µ)2
2σ 2
−∞
Z∞
−∞
y2
y 2 e− 2 dy = σ 2 ,
dx
2.4. ZUFALLSVARIABLE UND IHRE VERTEILUNGEN
51
Für eine normalverteilte Zufallsvariable X sind die Parameter µ und σ 2 gerade durch
den Erwartungswert und der Varianz von X gegeben.
Eigenschaften von Erwartungswert und Varianz
a) Wie wir schon bei Mittelwert und Varianz für Messreihen gesehen haben, gilt
auch hier
E[aX + b] = aE[X] + b
(2.19)
V [aX + b] = a2 V [X].
Sei nun X eine Zufallsvariable mit E[X] = µ,
standardisierte Zufallsvariable
X −µ
,
X∗ =
σ
(2.20)
V [X] = σ 2 . Dann gilt für die
folgendes
E[X ∗ ] = 0,
V [X ∗ ] = 1.
b) Man sagt, zwei Zufallsvariablen X und Y sind unabhängig, wenn die Messung
von X die Messung von Y nicht beeinflusst. Dieses bedeutet, dass die Mengen {ω ∈
Ω : X(ω) ∈ A} und {ω ∈ Ω : Y (ω) ∈ B} für alle A und B unabhängig sind. In
diesem Falle gilt
E[X · Y ] = E[X] · E[Y ].
c) Es seien X und Y zwei Zufallsvariablen. Dann gilt
E[aX + bY ] = aE[X] + bE[Y ].
Falls X und Y unabhängig sind, gilt
V [X + Y ] = V [X] + V [Y ].
Anwendung
Seien X1 , X2 , . . . , Xn n unabhängige, identisch verteilte Zufallsvariablen mit Erwartungswert µ und Varianz σ 2 . Sei X̄n das arithmetische Mittel der Variablen X1 , X2 , . . . , Xn :
n
1
1X
X̄n = (X1 + X2 + . . . + Xn ) =
Xi .
n
n i=1
Dann ist:
"
#
n
n
X
1X
nµ
1
E[X̄n ] = E
Xi =
E[Xi ] =
=µ
n i=1
n i=1
n
#
" n
n
X
1
1 X
1
σ2
2
Xi = 2
V [Xi ] = 2 · (n · σ ) =
V [X̄n ] = V
n i=1
n i=1
n
n
52
2.5
KAPITEL 2. WAHRSCHEINLICHKEITSRECHNUNG
Der zentrale Grenzwertsatz
Die Tatsache, dass die Normalverteilung in vielen praktischen Anwendungen auftritt,
kann durch den folgenden Satz erklärt werden.
Satz 6 (Zentraler Grenzwertsatz, Satz von de Moivre-Laplace) Seien X1 ,
X2 , . . . , Xn eine Folge unabhängiger und identisch verteilter Zufallsvariablen mit
Erwartungswert µ und Varianz σ 2 > 0. Dann ist das arithmetische Mittel
n
1X
1
X̄n =
Xi = (X1 + X2 + . . . + Xn )
n i=1
n
2
näherungsweise normalverteilt mit Erwartungswert µ und Varianz σn . Insbesondere
konvergiert, für n → ∞, die Verteilung der standardisierten Zufallsvariablen
X̄n∗ =
X̄n − µ
√σ
n
gegen die standardisierte Normalverteilung. D. h.
P [a ≤
X̄n∗
1
≤ b] −→ √
2π
n→∞
Zb
t2
e− 2 dt.
a
Dieser Satz rechtfertigt die Annahme, dass eine Zufallsvariable normalverteilt ist,
wenn zahlreiche Einflüsse additiv und unabhängig voneinander zusammenwirken.
Da dieses bei Vorgängen in der Natur oft der Fall ist, sind auch viele Größen in
den Biowissenschaften normalverteilt. Auch Messfehler kann man auf Grund des
zentralen Grenzwertsatzes als normalverteilt annehmen.
Beispiel 16 (Anwendung des zentralen Grenzwertsatzes) Eine Labormaschine fülle Flüssigkeit in n = 36 Reagenzgläser ein. Mit einer Streuung σ = 0, 12g
erreicht die Maschine einen mittleren Abfüllwert von µ = 1g. Die 36 Proben werden nun in einen einzigen Erlenmeyerkolben gefüllt. Mit welcher Wahrscheinlichkeit
weicht die Endmenge höchstens um 1g vom Zielwert ab?
Mögen die Zufallsvariablen Xi , i = 1, . . . , 36 die Füllmengen in den 36 Reagenzgläsern beschreiben. Dann beschreibt die Zufallsvariable Y = X1 + X2 + . . . + Xn
die Endmenge. Wir haben also P [35 ≤ Y ≤ 37] zu berechnen.
37
35
≤ X̄n ≤
P [35 ≤ Y ≤ 37] = P
36
36
"
#
35
37
−
1
−
1
X̄n − 1
= P 360,12 ≤ 0,12 ≤ 360,12
√
36
= P −1, 389 ≤
√
36
∗
X̄n ≤
√
36
1, 389 ≈ 0, 8354,
da gemäß dem zentralen Grenzwertsatz X̄n∗ annähernd standardnormalverteilt ist.
Kapitel 3
Induktive Statistik
Wir haben im vorigen Kapitel gesehen, dass Wahrscheinlichkeitsräume und die darauf definierten Zufallsvariablen mathematische Modelle zur Beschreibung zufallsbedingter Eigenschaften von Grundgesamtheiten darstellen.
Basierend auf diesen Modellen ist es nun mit den Methoden der induktiven Statistik möglich, ausgehend von Stichproben quantitative Aussagen über die Grundgesamtheit zu machen.
3.1
Schätzverfahren
Allgemein gilt, dass eine Grundgesamtheit durch eine Zufallsvariable X und deren
Verteilung beschrieben wird. Bezeichne etwa Ω die Gesamtheit der Einwohner einer
Stadt; die normalverteilte Zufallsvariable X könnte die Körpergröße der Einwohner
beschreiben. Als Maßzahlen von X haben wir den Erwartungswert E[X] und die Varianz V [X] kennengelernt. Diese sind a priori unbekannt. Man ist daher bemüht,
anhand der Stichprobe den oder die unbekannten Parameter der Grundgesamtheit
zu schätzen. In diesem Paragraphen werden wir in einem ersten Schritt Schätzwerte
für unsere unbekannten Parameter konstruieren. Ein einzelner Schätzwert enthält
aber keine Information darüber, wie sehr er vom wahren“ Parameter abweicht. Des”
wegen werden wir in einem zweiten Schritt versuchen, Bereiche anzugeben, die mit
hoher Wahrscheinlichkeit den unbekannten Parameter enthalten.
3.1.1
Schätzung von Maßzahlen einer Grundgesamtheit
Oft sind gewisse Eigenschaften einer Zufallsvariablen X (etwa der Verteilungstyp)
aus Erfahrung bekannt oder ergeben sich aus der Beschreibung des zugrunde liegenden Zufallsexperiments. Die charakteristischen Parameter sind dagegen meist
unbekannt. So kann man zum Beispiel leicht nachvollziehen, dass die Anzahl von
Kopf beim Werfen einer unfairen Münze durch eine binomialverteilte Zufallsvariable beschrieben werden kann. Es liegt jedoch in der Natur der Sache, dass eine exakte
Angabe der Erfolgswahrscheinlichkeit p nicht möglich ist.
53
54
KAPITEL 3. INDUKTIVE STATISTIK
Unser Ziel wird nun sein, anhand von Stichprobenwerten Schätzwerte für die
unbekannten Parameter zu bestimmen.
Seien x1 , x2 , . . . , xn die Ergebnisse einer
P Stichprobe vom Umfang n. Es liegt beispielsweise nahe, den Mittelwert x̄ = n1 nj=1 xj als Schätzwert für den Erwartungswert E[X] = µ zu benutzen. Es ist andererseits auch klar, dass eine andere Stichprobe vom Umfang n einen anderen Schätzwert liefern wird.
Eine Abbildung θn , die jeder Stichprobe vom Umfang n aus einer Grundgesamtheit einen Schätzwert für eine bestimmte Maßzahl zuordnet, heißt Schätzfunktion
(oder Schätzer) für diese Maßzahl. In unserem Beispiel haben wir also folgende
Schätzfunktion für den Erwartungswert angenommen:
n
(x1 , x2 , . . . , xn ) 7→ θn (x1 , x2 , . . . , xn ) =
1X
xj .
n j=1
(3.1)
Die Werte, die die Schätzfunktion in Abhängigkeit von der jeweiligen Stichprobe
annimmt, nennt man Schätzwerte.
Erwartungstreue Schätzfunktionen
Es stellt sich nun natürlich die Frage nach der Güte eines Schätzers. Ein Kriterium,
mit dem sich die Güte beurteilen lässt, ist die Erwartungstreue.
Offensichtlich gibt ein einzelner Schätzwert den unbekanten Parameter (Maßzahl) nicht exakt wieder. Allerdings sollte die Schätzvorschrift nicht systematisch
einen zu hohen oder zu niedrigen Wert liefern. Das Kriterium der Erwartungstreue fordert daher, dass der Erwartungswert der Zufallsvariable, welche alle theoretisch denkbaren Schätzwerte aus den Stichproben des Umfangs n beschreibt, mit
dem unbekannten Parameter übereinstimmt.
Mathematisch formulieren wir das folgendermaßen: Sei x1 , . . . , xn eine Stichprobe der Länge n. Diese Stichprobe entspricht einer Realisierung (oder Auswertung)
des n-Tupels1 (X1 , . . . , Xn ) von n unabhängigen, gleichverteilten Zufallsvariablen
X1 , . . . , Xn , die die Verteilung von X besitzen. Deswegen kann man θn (x1 , . . . , xn )
als Realisierung der Zufallsvariable θn (X1 , . . . , Xn ) auffassen. Dem Schätzer des Erwartungswertes (3.1) entspricht also die Zufallsvariable
θn (X1 , . . . , Xn ) : Ω × Ω × . . . Ω →
n
1X
Xj .
θn (X1 , . . . , Xn ) =
n j=1
Eine Schätzfunktion θn für eine unbekannte Maßzahl κ heißt erwartungstreu
bezüglich κ, falls
E[θn (X1 , . . . , Xn )] = κ.
1
Das n-Tupel (X1 , . . . , Xn ) ist folgendermaßen definiert:
(X1 , . . . , Xn ) : Ω × Ω × . . . Ω →
×
× ... ×
(X1 , . . . , Xn )(ω1 , . . . , ωn ) = (X1 (ω1 ), . . . , Xn (ωn ))
3.1. SCHÄTZVERFAHREN
55
Beispiele für erwartungstreue Schätzfunktionen
a) Das arithmetische Mittel (3.1) ist eine erwartungstreue Schätzfunktion für den
Erwartungswert E[X].
Beweis: Sei µ = E[X] = E[Xj ], j = 1, . . . , n. Dann gilt:
#
" n
n
X
1X
1
1
Xj =
E[Xj ] = · n · µ = µ.
E[θn (X1 , . . . , Xn )] = E
n j=1
n j=1
n
b) Die empirische Varianz
n
θn (x1 , . . . , xn ) =
1 X
(xj − x̄)2
n − 1 j=1
ist eine erwartungstreue Schätzfunktion für die Varianz V [X].
Beweis: Sei wieder µ = E[X] = E[Xj ] und σ 2 = V [X] = V [Xj ], j = 1, . . . , n.
Zu zeigen ist also:
#
"
n
1 X
(Xj − X̄n )2 = σ 2
E
n − 1 j=1
Berechne zuerst
n
n
X
X
(Xj − X̄n )2 =
(Xj2 − 2 · Xj · X̄n + X̄n2 )
j=1
=
j=1
n
X
Xj2
j=1
=
n
X
Xj2
j=1
− 2n
−
Pn
j=1 Xj
|
2nX̄n2
n
{z
X̄n
+
}
·X̄n +
nX̄n2
=
n
X
j=1
n
X
j=1
X̄n2
Xj2 − nX̄n2 .
Es gilt also:
" n
#
" n
#
X
X
2
2
2
E
(Xj − X̄n )
= E
Xj − nX̄n
j=1
j=1
=
n
X
j=1
E[(Xj − µ + µ)2 ] − nE[(X̄n − µ + µ)2 ]



2
2
=
E[(Xj − µ ) + µ ] − nE[(X̄n − µ )2 + µ2 ]
|{z}
|{z}



j=1 

n 

X
=
n
X
j=1
E[Xj ]
V [Xj ] + nµ2 − nV [X̄n ] − nµ2
= nσ 2 − n
σ2
= (n − 1)σ 2
n
E[X̄n ]
56
KAPITEL 3. INDUKTIVE STATISTIK
Dabei haben wir verwendet, dass für eine Zufallsvariable X mit E[X] = µ gilt
E[X − µ] = E[X] − µ = 0.
3.1.2
Intervallschätzungen
Im vorigen Paragraphen haben wir mithilfe einer Schätzfunktion aus den Daten einer Stichprobe einen Schätzwert für den unbekannten Parameter bestimmt. Um nun
Anhaltspunkte bezüglich der Genauigkeit der Schätzung zu gewinnen, konstruieren
wir aus den Daten der Stichprobe ein so genanntes Konfidenzintervall (oder Vertrauensbereich). Man hofft, bei diesem Verfahren ein Intervall zu erhalten, das
den gesuchten Parameter überdeckt. Es ist allerdings nicht auszuschließen, dass die
Daten der Stichprobe ein Intervall erzeugen, das daneben liegt“ und das den ge”
suchten Parameter nicht enthält. Diese Irrtumswahrscheinlichkeit wird vor der
Bestimmung des Konfidenzintervalls festgelegt. Sie wird mit α bezeichnet und beträgt üblicherweise 5%, in besonderen Fällen auch 1% oder 0,1%. Generell gibt es
bei der Konstruktion eines Konfidenzintervalls zwei Möglichkeiten.
• Mit der Wahrscheinlichkeit 1−α erhält man ein Intervall, das den unbekannten
Parameter enthält. Der Wert 1 − α wird als Konfidenzwahrscheinlichkeit
(oder Konfidenzniveau) bezeichnet. Für α = 5% z. B. beträgt die Konfidenzwahrscheinlichkeit 95%.
• Mit der Wahrscheinlichkeit α erhält man ein Intervall, das den unbekannten
Parameter nicht enthält.
Konfidenzintervalle für den Erwartungswert
Zur Bestimmung des Konfidenzintervalls für den Erwartungswert einer Zufallsvariablen X erinnern wir uns zuerst, dass der Mittelwert eine erwartungstreue Schätzfunktion für den Erwartungswert ist (siehe Beispiel (a.) im vorigen Paragraph). Als
nächstes wollen wir festzustellen, in welchen Bereichen die Werte von x̄ mit großer
Wahrscheinlichkeit zu erwarten sind. Dazu bemerken wir, dass alle theoretisch denkbaren Mittelwerte, die sich aus Stichproben des Umfangs n ergeben, Realisierungen
der Zufallsvariablen
n
1X
X̄n =
Xj .
n j=1
sind. Dabei sind X1 , . . . , Xn unabhängige Kopien der Zufallsvariable X. Auf Grund
des zentralen Grenzwertsatzes ist X̄n annähernd normalverteilt (zumindest für genügend
große n), mit Erwartungswert µ und Standardabweichung √σn .
Für die Konstruktion des Konfidenzintervalls werden wir in einem ersten Schritt
annehmen, σ sei bekannt. Sei z1− α2 so, dass
"
P −z1− α2 ≤
X̄n − µ
√σ
n
≤ z1− α2
#
= 1 − α.
(3.2)
3.1. SCHÄTZVERFAHREN
z1− α2 wird aus der Bedingung
"
57
P −∞ ≤
X̄n − µ
√σ
n
≤ z1− α2
#
=1−
α
2
bestimmt.
Beispiele für Irrtumswahrscheinlichkeiten α und die entsprechenden Werten von
α
z1− 2 sind in der folgenden Tabelle angegeben:
α
1−α
0,1
0,9
0,05
0,95
0,01
0,99
0,001 0,999
z1− α2
1,645
1,960
2,576
3,291
Durch äquivalentes Umformen der Beziehung (3.2) erhalten wir:
σ
σ
P −z1− α2 · √ ≤ X̄n − µ ≤ z1− α2 · √ = 1 − α.
n
n
Das bedeutet, dass der Abstand zwischen dem Mittelwert x̄ und dem Erwartungswert µ = E[X̄n ] betragsmäßig mit einer Wahrscheinlichkeit von 1 − α unterhalb des
Wertes z1− α2 √σn liegt. Anders formuliert: mit der Wahrscheinlichkeit von 1−α fällt der
h
i
σ
σ
√
√
α
α
berechnete Mittelwert x̄ der Stichprobe in das Intervall µ − z1− 2 · n , µ + z1− 2 · n ,
d. h.
σ
σ
µ − z1− α2 · √ ≤ x̄ ≤ µ + z1− α2 · √ .
n
n
Wenn wir von allen Gliedern dieser Ungleichung den Wert µ + x̄ abziehen und dann
die Ungleichung mit (−1) multiplizieren erhalten wir:
σ
σ
−x̄ − z1− α2 · √ ≤ −µ ≤ −x̄ + z1− α2 · √ .
n
n
58
KAPITEL 3. INDUKTIVE STATISTIK
σ
σ
x̄ − z1− α2 · √ ≤ µ ≤ x̄ + z1− α2 · √ .
n
n
Daraus ergibt sich für µ das Konfidenzintervall auf dem Niveau 1 − α (oder mit der
Konfidenzwahrscheinlichkeit 1 − α)
σ
σ
x̄ − z1− α2 · √ , x̄ + z1− α2 · √ .
n
n
Beispiel 17 Wir betrachten eine Apfelernte: Das Gewicht der Äpfel wird durch die
Zufallsvariable X mit der Standardabweichung σ = 10g und unbekanntem Erwartungswert µ beschrieben. Diesen Erwartungswert gilt es jetzt aus den Daten einer
Stichprobe vom Umfang n = 100 zu schätzen
Konstruktion des Konfidenzintervalls
1. 100 Äpfel werden gewogen. Wir berechnen x̄ = 142g.
2. Wir wählen die Irrtumswahrscheinlichkeit α = 0, 1.
3. z1− α2 muss erfüllen F0,1 (z1− α2 ) = 1 − α2 = 0, 95. Aus der Tabelle der standardisierten Normalverteilung erhalten wir z1− α2 = 1, 645.
4. Das Konfidenzintervall für µ auf dem Niveau 1 − α = 0, 9 = 90% ist
142 −
10
10
· 1, 645 ≤ µ ≤ 142 +
· 1, 645.
10
10
Oder ausgerechnet
140, 355g ≤ µ ≤ 143, 645g.
D. h. mit einer Konfidenzwahrscheinlichkeit von 90% enthält das Intervall [140,355;
143,645] den Erwartungswert µ.
3.1. SCHÄTZVERFAHREN
59
Bei den obigen Überlegungen haben wir vorausgesetzt, dass die Standardabweichung
σ der Grundgesamtheit bekannt ist. Dies ist aber bei praktischen Untersuchungen
fast niemals der Fall.
In dieser Situation wählt man die empirische Varianz
n
s(x)2 =
1 X
(xj − x̄)2
n − 1 j=1
als Schätzwert für σ 2 . Nun gehen wir ähnlich wie vorher vor und betrachten die
Zufallsvariable
X̄n − µ
X̄n∗ =
σ
√
n
welche standardnormalverteilt ist.
Da σ unbekannt ist, ersetzen wir es durch s(x) und betrachten die Zufallsvariable
T =
X̄n − µ
s(x)
√
n
.
(3.3)
T ist nicht normalverteilt. Die korrekte Verteilung heißt Student’sche t-Verteilung
mit n − 1 Freiheitsgraden. Die Wahrscheinlichkeitsdichte der t−Verteilung mit
n − 1 Freiheitsgraden ist gegeben durch
− n2
x2
, n ≥ 2,
fn−1 (x) = cn−1 1 +
n−1
dabei ist cn−1 ein Normierungsfaktor, so dass
R∞
fn−1 (x)dx = 1.
−∞
Die Student’sche t-Verteilung ist für alle n ≥ 2 (also auch für kleine Stichprobenumfänge) definiert. Dabei muss allerdings vorausgesetzt werden, dass die Einzelbeobachtungen Xj , aus denen X̄n berechnet wird, normalverteilt sind mit Erwartungswert µ und Varianz σ 2 .
Eigenschaften der t-Verteilung:
• Die Dichte der t-Verteilung ist symmetrisch um 0, stetig und glockenförmig.
(siehe Abb. 3.1). Die t-Verteilung nähert für große n der standardisierten Normalverteilung an.
• Die t-Verteilung ist abhängig vom Parameter n − 1, der die Anzahl der Freiheitsgrade angibt. Es existiert also für jeden Umfang n der Stichprobe eine
spezielle t-Verteilung mit n − 1 Freiheitsgraden!
In Abb. 3.1 ist die Wahrscheinlichkeitsdichte der t-Verteilung,
f1 (x) =
1
1
·
π 1 + x2
für Stichproben vom Umfang n = 2, d.h. mit n − 1 = 1 Freiheitsgraden, eingezeichnet (durchgezogene Linie). Zum Vergleich ist die Dichte f0,1 der standardisierten
60
KAPITEL 3. INDUKTIVE STATISTIK
Abbildung 3.1: Wahrscheinlichkeitsdichte f1 der Student t-Verteilung mit n − 1 = 1
Freiheitsgraden (durchgezogene Linie). Zum Vergleich dazu f0,1 (punktierte Linie).
Normalverteilung angegeben (punktierte Linie).
Der Erwartungswert der t-verteilten Zufallsvariablen T aus (3.3) ist 0. Die Werte
der entsprechenden Verteilungsfunktion sind tabelliert.
Ähnlich wie vorhin ergibt sich nun das Konfidenzintervall für µ auf dem Niveau
1 − α aus der Beziehung
P −tn−1,1− α2 ≤ T ≤ tn−1,1− α2 = 1 − α.
(3.4)
Dabei wird tn−1,1− α2 aus der Beziehung
α
P −∞ ≤ T ≤ tn−1,1− α2 = 1 −
2
bestimmt.
Aus (3.4) ergibt sich nun für µ das Konfidenzintervall
s(x)
s(x)
x̄ − tn−1,1− α2 · √ , x̄ + tn−1,1− α2 · √
.
n
n
3.2
Statistische Tests
Die wissenschaftlichen Fortschritte, die ein empirischer Forscher macht, beruhen letzten Endes auf Erkenntnissen, die aus Experimenten gewonnen werden. Aus diesen
Erkenntnissen, gepaart mit fachlich-theoretischen Überlegungen, entsteht eine Vermutung und - wenn diese präzise formuliert wird - eine Hypothese. In der Regel ist
es nicht möglich, derlei Hypothesen zu beweisen. Ihre Überprüfung erfolgt mit Hilfe
statistischer Tests anhand relevanter Daten aus einer oder mehreren Stichproben.
Wir wollen nun die Begriffsbildung anhand eines Beispiels aus dem Alltag durchführen: Eine Brauerei besitze eine Abfüllanlage, die in jede Flasche genau 500ml Bier
abfüllen soll. Kleinere Abweichungen sind unvermeidlich.
3.2. STATISTISCHE TESTS
61
Es wird also behauptet, dass die Anlage im Mittel 500ml Bier in eine Flasche
füllt. In der Sprache der Wahrscheinlichkeitstheorie sei X eine Zufallsvariable, die
die Abfüllmenge beschreibt. Dann soll E[X] = 500ml gelten. Diese Aussage soll
mittels einer Stichprobe überprüft werden.
In der Statistik drückt man das folgendermaßen aus: Zu prüfen ist die Nullhypothese H0
H0 : E[X] = µ0 = 500ml.
Um diese Hypothese zu prüfen, bestimmen wir zunächst den Mittelwert x̄ der Stichprobe. Die Frage ist dann: Welche Abweichung des Mittelwertes vom Erwartungswert ist als so signifikant einzustufen, dass die Nullhypothese abgelehnt wird?
Die Antwort auf diese Frage kann von der Interessenlage abhängen. Der Verband
der Biertrinker etwa wird die Hypothese nur dann ablehnen, wenn im Mittel zu wenig
Bier abgefüllt wird. Die Alternativhypothese würde dann lauten:
H1 :
E[X] < µ0 = 500ml.
Bei dieser Art von Alternativhypothesen spricht man von linksseitiger Fragestellung. Hier wird man H0 nur dann ablehnen, wenn der Mittelwert x̄ signifikant
kleiner als µ0 ist.
Der Bierproduzent andererseits könnte vor allem daran interessiert sein, nicht zu
viel Bier abzufüllen. Seine Alternativhypothese wäre dann
H1 :
E[X] > µ0 ;
man spricht von einer rechtsseitigen Fragestellung.
Dem Hersteller der Abfüllanlage schließlich könnte vor allem an der Funktionstüchtigkeit der Anlage gelegen sein. Seine Gegenhypothese könnte also
H1 :
E[X] 6= µ0
lauten; eine zweiseitige Fragestellung.
Nullhypothese und Alternativhypothese sind also wichtige Bestandteile eines statistischen Tests. Die Frage, ob einseitig oder zweiseitig getestet wird, hat weniger
mit Statistik als mit sachlogischen Überlegungen zu tun.
Ein weiterer Bestandteil ist die sogenannte Testgröße (oder Prüfgröße) (in
unserem Beispiel der Mittelwert der Stichprobe), die aus den Daten der Stichprobe
ermittelt wird. Diese Größe erlaubt es, nach einem festgelegten Verfahren eine objektive und nachvollziehbare Entscheidung zugunsten von einer Hypothese zu treffen.
3.2.1
Annahmebereich. Kritischer Bereich. Fehlerarten.
Das Verfahen, welches zur Testentscheidung führt, ist anschaulich beschrieben folgendes: Unter der Annahme der Gültigkeit der Nullhypothese wird ein Intervall bestimmt, in das die Werte der Prüfgröße mit Wahrscheinlichkeit 1 − α fallen. Dieses
Intervall heißt Annahmebereich für die Nullhypothese. Mit Wahrscheinlichkeit
62
KAPITEL 3. INDUKTIVE STATISTIK
α liegen die Werte der Prüfgröße außerhalb dieses Intervalls, dieser Bereich wird kritischer Bereich (oder Ablehnungsbereich für die Nullhypothese) genannt.
Die Wahrscheinlichkeit α heißt Signifikanzniveau und hat üblicherweise den Wert
α = 5%. Bei besonderen Fragestellungen wählt man auch α = 1% oder α = 0, 1%,
hin und wieder α = 10%.
Der Wert von α sollte vor der Durchführung des Tests bestimmt werden. Dadurch ist gewährleistet, dass keine willkürlichen oder subjektiven Entscheidungen
getroffen werden.
Entscheidungsregel
• Wenn die Prüfgröße in den Annahmebereich fällt, entscheidet man sich für die
Nullhypothese. Man formuliert die Entscheidung:
Die Nullhypothese wird angenommen“ oder
”
Die Nullhypothese kann auf dem Signifikanzniveau α nicht verworfen werden“
”
oder
Es ergibt sich kein Widerspruch zur Nullhypothese“.
”
• Wenn die Prüfgröße im kritischen Bereich liegt, entscheidet man sich für die
Alternativhypothese. Ein solches Ergebnis heißt (in Abhängigkeit vom α)
schwach-signifikant (α = 10%), signifikant (α = 5%), hoch-signifikant
(α = 1%) oder höchst-signifikant (α = 0, 1%). Man formuliert die Entscheidung als:
Die Nullhypothese wird verworfen“ oder
”
Die Alternativhypothese wird angenommen“.
”
Fehlerarten
Die Testentscheidung hängt von der Prüfgröße ab; diese wiederum wird aus den
Stichprobenwerten ermittelt. Es ist deshalb möglich, dass das Testverfahren im Einzelfall zu einer Fehlentscheidung führt.
Wenn in Wirklichkeit die Nullhypothese richtig ist und man sich fälschlicherweise
für die Alternativhypothese entscheidet, liegt ein Fehler 1. Art oder α-Fehler vor.
Ein Fehler 1. Art ist leider nicht vermeidbar, aber er ist kontrollierbar, denn dieser
Fehler kann nur bei Gültigkeit der Nullhypothese auftreten, und diese ist eindeutig
formuliert. Die Wahrscheinlichkeit für einen Fehler 1. Art ist höchstens α.
Nun ist auch umgekehrt möglich, dass in Wirklichkeit die Alternativhypothese richtig ist, und man sich fälschlicherweise für die Nullhypothese entscheidet. In
diesem Fall begeht man ein β−Fehler oder Fehler 2. Art. Dieser lässt sich im
Gegensatz zum α-Fehler kaum abschätzen, da die Alternativhypothese nicht explizit gebeben ist. In der nachstehenden Tabelle werden die möglichen Situationen
übersichtlich zusammengefasst:
Wirklichkeit
H0 richtig
H0 richtig
H1 richtig
H1 richtig
Testentscheidung
H0 wird angenommen
H1 wird angenommen
H0 wird angenommen
H1 wird angenommen
Fehlerart
kein Fehler
Fehler 1. Art
Fehler 2. Art
kein Fehler
(3.5)
3.2. STATISTISCHE TESTS
3.2.2
63
Test des Erwartungswertes einer normalverteilten Grundgesamtheit
Sei X normalverteilt mit unbekanntem Erwartungswert µ = E[X] und unbekannter Varianz σ 2 = V [X]. X1 , X2 , . . . , Xn seien unabhängige Kopien vom X und
x1 , x2 , . . . , xn seien Stichprobendaten.
Die Hypothesen lauten (bei 2-seitiger Fragestellung):
H0 :
H1 :
E[X] = µ0
E[X] 6= µ0
Nullhypothese
Alternativhypothese.
Wir wählen ein festes Signifikanzniveau α.
Aufgrund der Voraussetzungen dieses Tests und unter Annahme der Nullhypothese
ist die Zufallsvariable
X̄n − µ0
(3.6)
T = s(x)
√
n
t−verteilt mit n − 1 Freiheitsgraden. Es gilt also:
P tn−1, α2 ≤ T ≤ tn−1,1− α2 = 1 − α.
Ist also die Nullhypothese richtig, so produziert T mit Wahrscheinlichkeit 1 − α
Werte im Intervall [tn−1, α2 , tn−1,1− α2 ]. Dieses ist der Annahmebereich für die Nullhypothese.
Mit der Wahrscheinlichkeit α fallen die Werte von T in dem Bereich (−∞, tn−1, α2 ) ∪
(tn−1,1− α2 , ∞). Dies ist der kritische Bereich.
Nach der Vorschrift (3.6) berechnet man aus den Daten der Stichprobe die
Prüfgröße t:
x̄ − µ0
t = s(x) .
(3.7)
√
n
Es gilt folgende Entscheidungsregel: Falls die Prüfgröße t ∈
/ [tn−1, α2 , tn−1,1− α2 ] oder
s(x)
s(x)
äquivalent x̄ ∈
/ [µ0 + tn−1, α2 · √n , µ0 + tn−1,1− α2 · √n ] (d. h. x̄ weicht stark von µ0 ab),
so wird die Nullhypothese auf Signifikanzniveau α abgelehnt.
Bei einseitiger Fragestellung formuliert man die Hypothesen als:
H0 :
H1 :
µ = µ0
µ < µ0
(bzw. µ > µ0 ).
Unter der Nullhypothese gilt nun
P [−tn−1,1−α ≤ T < ∞] = 1 − α
#
X̄n − µ0
P −tn−1,1−α ≤ s(x) < ∞ = 1 − α
"
√
n
s(x)
P µ0 − tn−1,1−α · √ ≤ X̄n < ∞ = 1 − α.
n
64
KAPITEL 3. INDUKTIVE STATISTIK
Daraus ergibt sich der Annahmebereich für die Nullhypothese [−tn−1,1−α , ∞), denn
√ , ∞), x̄ ist also nicht viel kleiner
t ∈ [−tn−1,1−α , ∞) bedeutet x̄ ∈ [µ0 − tn−1,1−α · s(x)
n
als µ0 .
Analog erhält man im Falle der rechtsseitigen Fragestellung µ > µ0 den Annahmebereich (−∞, tn−1,1−α ].
Beispiel 18 Aus der Fachliteratur ist bekannt, dass das durchschnittliche Geburtsgewicht gesunder Kinder nach einer unauffällig verlaufenen Schwangerschaft µ0 =
3500g beträgt. Ein Mediziner möchte statistisch absichern, dass Babys von Raucherinnen im allgemeinen weniger wiegen. Dazu werden 20 Babys herangezogen, deren
Mütter stark rauchen. Es wird ein mittleres Geburtsgewicht von x̄ = 3280g mit einer Streuung von 490g ermittelt. Der Unterschied zu µ0 beträgt also im Durchschnitt
220g. Ist dieses Ergebnis eine Bestätigung für die Vermutung des Artztes? Oder ist
der Unterschied zufällig bedingt und hat ansonsten keine Bedeutung?
Da man davon ausgehen kann, dass - falls ein Unterschied existiert - das durchschnittliche Gewicht der Raucher-Babys geringer ist als der Sollwert, verwendet man
die einseitige Fragestellung mit den Hypothesen
H0 :
µ = 3500g
H1 :
µ < 3500g.
Als Prüfgröße ergibt sich nach (3.7)
t=
3280 − 3500
490
√
20
= −2, 008.
Mit n − 1 = 19 und α = 5% erhalten wir
tn−1,1−α = t19;0,95 = 1, 729.
Der Annahmebereich ist [−1, 729; ∞). Der kritische Bereich ist (−∞; −1, 729). Da
t = −2, 008 ∈
/ [−1, 729; ∞), ist das Ergebnis signifikant; d. h. die Alternativhypothese
wird angenommen.
3.2.3
t-Test auf Lageunterschied bei verbundenen Stichproben
Dies ist ein Test, der zur Überprüfung der Gleichheit von zwei Erwartungswerten
herangezogen wird. Er setzt voraus: zwei verbundene Stichproben des Umfangs n
mit Wertepaaren {xj }, {yj }, j = 1, . . . , n, die aus Grundgesamtheiten mit den Erwartungswerten µ1 und µ2 stammen. Die Hypothesen lauten bei zweiseitiger Fragestellung:
H0 : µ 1 = µ 2
H1 :
µ1 6= µ2
3.2. STATISTISCHE TESTS
65
bzw. bei einseitiger Fragestellung
H1 :
µ1 < µ2
(oder µ1 > µ2 ).
Um diese Hypothesen zu überprüfen, betrachten wir die Differenzen Dj = Yj −
Xj , j = 1, . . . , n. Es wird vorausgesetzt, dass die Zufallsvariablen Dj normalverteilt
sind mit unbekannten µ und σ.
Unsere Hypothesen lassen sich wie folgt umformulieren:
H0 :
H1 :
bzw.
H1 :
µ = E(D̄n ) = µ2 − µ1 = 0
µ 6= 0
(zweiseitige Fragestellung)
µ < 0 (oder µ > 0)
(einseitige Fragestellung)
Wir wählen wieder ein festes Signifikanzniveau α.
Die Zufallsvariable
T =
D̄n − 0
s(d)
√
n
n
,
1 X
¯ 2,
(dj − d)
mit s(d) =
n − 1 j=1
2
ist t−verteilt mit n − 1 Freiheitsgraden. Die Prüfgröße t berechnet sich dann aus
den Daten
d¯
t = s(d) .
√
n
Der Annahmebereich für die Nullhypothese ist dann
[−tn−1,1− α2 , tn−1,1− α2 ]
[−tn−1,1−α , ∞)
(−∞, tn−1,1−α ]
bei zweiseitiger Fragestellung
bei linksseitiger Fragestellung
bei rechtsseitiger Fragestellung
Anwendung bei der Untersuchung der hormonellen Regulation des Lipidstoffwechsels bei Insekten (Grundpraktikum C, Teil 4)
Wenn Wanderheuschrecken (Locusta migratoria) zu ihren Wanderschaften aufbrechen, müssen sie als Brennstoff für den Flug aus ihren Fettreserven eine bestimmte
Art von Fett, Diglyzeride, mobilisieren. Das funktioniert so, dass eine bestimmte
Drüse im Kopf ein Hormon ausschüttet (adipokinetisches Hormon), und dieses Hormon setzt Diglyzeride aus den Fettreserven frei.
Um diese hormonelle Regulation nachzuweisen wird in einem Versuch mit 4 Heuschrecken die Diglyzeridkonzentration in der Hämolymphe (Blut der Insekten) vor
und nach einer Injektion des adipokinetischen Hormons gemessen. Es wird untersucht, ob die Konzentration nach der Hormonverabreichung ansteigt.
Mithilfe einer statistischen Analyse soll nun beurteilt werden, ob die Änderung der
Diglyzeridkonzentration von vor Hormon“ nach nach Hormon“ signifikant ist oder
”
”
nicht.
Aus dem Experiment erhalten wir zwei Messreihen:
66
KAPITEL 3. INDUKTIVE STATISTIK
Abbildung 3.2: Die Wanderheuschrecke (Locusta migratoria)
• xj , j = 1, . . . , 4 beschreibt die Werte der DG-Konzentration vor der Hormonverabreichung und
• yj , j = 1, . . . , 4 gibt die entsprechende Konzentration nach der Hormonverabreichung an.
1
2
3 4
11 23 20 11
62 49 69 49
P
d¯ = 14 4j=1 dj = 41
51 26 49 38
P
¯ 2 = 132, 7
10 -15 8 -3 s(d)2 = 31 4j=1 (dj − d)
Probe j
xj (ng/ml)
yj (ng/ml)
dj = yj − xj
dj − d¯
Da uns in diesem Fall die Erhöhung der Lipidkonzentration interessiert, betrachten
wir folgende rechtsseitige Fragestellung
H0 :
H1 :
µ = E[D̄n ] = 0
µ>0
Nullhypothese
Alternativhypothese
Wähle α = 0, 05 = 5%.
Die Prüfgröße berechnet sich nach der Vorschrift
t=
d¯
s(d)
√
4
41
=q
132,7
4
=√
41
41
≈ 7, 12.
≈
5, 76
33, 18
Der Annahmebereich der Nullhypothese ist
(−∞, t3;0,95 ] = (−∞; 2, 353].
Da 7, 12 ∈
/ (−∞; 2, 353] ist das Ergebnis signifikant; d. h. die Alternativhypothese
wird angenommen.
3.2. STATISTISCHE TESTS
67
Anhang 1: Werte von F0,1 (y)
y
.00
.01
.02
.03
.04
.05
.06
.07
.08
.09
.0
.1
.2
.3
.4
.5
.6
.7
.8
.9
1.0
1.1
1.2
1.3
1.4
1.5
1.6
1.7
1.8
1.9
2.0
2.1
2.2
2.3
2.4
2.5
2.6
2.7
2.8
2.9
3.0
3.1
3.2
3.3
3.4
0.5000
0.5398
0.5793
0.6179
0.6554
0.6915
0.7257
0.7580
0.7881
0.8159
0.8413
0.8643
0.8849
0.9032
0.9192
0.9332
0.9452
0.9554
0.9641
0.9713
0.9772
0.9821
0.9861
0.9893
0.9918
0.9938
0.9953
0.9965
0.9974
0.9981
0.9987
0.9990
0.9993
0.9995
0.9997
0.5040
0.5438
0.5832
0.6217
0.6591
0.6950
0.7291
0.7611
0.7910
0.8186
0.8438
0.8665
0.8869
0.9049
0.9207
0.9345
0.9463
0.9564
0.9649
0.9719
0.9778
0.9826
0.9864
0.9896
0.9920
0.9940
0.9955
0.9966
0.9975
0.9982
0.9987
0.9991
0.9993
0.9995
0.9997
0.5080
0.5478
0.5871
0.6255
0.6628
0.6985
0.7324
0.7642
0.7939
0.8212
0.8461
0.8686
0.8888
0.9066
0.9222
0.9357
0.9474
0.9573
0.9656
0.9726
0.9783
0.9830
0.9868
0.9898
0.9922
0.9941
0.9956
0.9967
0.9976
0.9982
0.9987
0.9991
0.9994
0.9995
0.9997
0.5120
0.5517
0.5910
0.6293
0.6664
0.7019
0.7357
0.7673
0.7967
0.8238
0.8485
0.8708
0.8907
0.9082
0.9236
0.9370
0.9484
0.9582
0.9664
0.9732
0.9788
0.9834
0.9871
0.9901
0.9925
0.9943
0.9957
0.9968
0.9977
0.9983
0.9988
0.9991
0.9994
0.9996
0.9997
0.5160
0.5557
0.5948
0.6331
0.6700
0.7054
0.7389
0.7704
0.7995
0.8264
0.8508
0.8729
0.8925
0.9099
0.9251
0.9382
0.9495
0.9591
0.9671
0.9738
0.9793
0.9838
0.9875
0.9904
0.9927
0.9945
0.9959
0.9969
0.9977
0.9984
0.9988
0.9992
0.9994
0.9996
0.9997
0.5199
0.5596
0.5987
0.6368
0.6736
0.7088
0.7422
0.7734
0.8023
0.8289
0.8531
0.8749
0.8944
0.9115
0.9265
0.9394
0.9505
0.9599
0.9678
0.9744
0.9798
0.9842
0.9878
0.9906
0.9929
0.9946
0.9960
0.9970
0.9978
0.9984
0.9989
0.9992
0.9994
0.9996
0.9997
0.5239
0.5636
0.6026
0.6406
0.6772
0.7123
0.7454
0.7764
0.8051
0.8315
0.8554
0.8770
0.8962
0.9131
0.9279
0.9406
0.9515
0.9608
0.9686
0.9750
0.9803
0.9846
0.9881
0.9909
0.9931
0.9948
0.9961
0.9971
0.9979
0.9985
0.9989
0.9992
0.9994
0.9996
0.9997
0.5279
0.5675
0.6064
0.6443
0.6808
0.7157
0.7486
0.7794
0.8078
0.8340
0.8577
0.8790
0.8980
0.9147
0.9292
0.9418
0.9525
0.9616
0.9693
0.9756
0.9808
0.9850
0.9884
0.9911
0.9932
0.9949
0.9962
0.9972
0.9979
0.9985
0.9989
0.9992
0.9995
0.9996
0.9997
0.5319
0.5714
0.6103
0.6480
0.6844
0.7190
0.7517
0.7823
0.8106
0.8365
0.8599
0.8810
0.8997
0.9162
0.9306
0.9429
0.9535
0.9625
0.9699
0.9761
0.9812
0.9854
0.9887
0.9913
0.9934
0.9951
0.9963
0.9973
0.9980
0.9986
0.9990
0.9993
0.9995
0.9996
0.9997
0.5359
0.5753
0.6141
0.6517
0.6879
0.7224
0.7549
0.7852
0.8133
0.8389
0.8621
0.8830
0.9015
0.9177
0.9319
0.9441
0.9545
0.9633
0.9706
0.9767
0.9817
0.9857
0.9890
0.9916
0.9936
0.9952
0.9964
0.9974
0.9981
0.9986
0.9990
0.9993
0.9995
0.9997
0.9998
68
KAPITEL 3. INDUKTIVE STATISTIK
Anhang 2: Kritische Werte der t-Verteilung mit n − 1-Freiheitsgraden
n − 1 tn−1;0,9
1
3,078
2
1,886
3
1,638
4
1,533
5
1,476
6
1,440
7
1,415
8
1,397
9
1,383
10
1,372
11
1,363
12
1,356
13
1,350
14
1,345
15
1,341
16
1,337
17
1,333
18
1,330
19
1,328
20
1,325
21
1,323
22
1,321
23
1,319
24
1,318
25
1,316
26
1,315
27
1,314
28
1,313
29
1,311
∞
1,282
tn−1;0,95
6,314
2,920
2,353
2,132
2,015
1,943
1,895
1,860
1,833
1,812
1,796
1,782
1,771
1,761
1,753
1,746
1,740
1,734
1,729
1,725
1,721
1,717
1,714
1,711
1,708
1,706
1,703
1,701
1,699
1,645
tn−1;0,975
12,76
4,303
3,182
2,776
2,571
2,447
2,365
2,306
2,262
2,228
2,201
2,179
2,160
2,145
2,131
2,120
2,110
2,101
2,093
2,086
2,080
2,074
2,069
2,064
2,060
2,056
2,052
2,048
2,045
1,960
tn−1;0,99
31,821
6,965
4,541
3,747
3,365
3,143
2,998
2,896
2,821
2,764
2,718
2,681
2,650
2,624
2,602
2,583
2,567
2,552
2,539
2,528
2,518
2,508
2,500
2,492
2,485
2,479
2,473
2,467
2,462
2,326
tn−1;0,995
63,657
9,925
5,841
4,604
4,032
3,707
3,499
3,355
3,250
3,169
3,106
3,055
3,012
2,977
2,947
2,921
2,898
2,878
2,861
2,845
2,831
2,819
2,807
2,797
2,787
2,779
2,771
2,763
2,756
2,576
n−1
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
∞
Kapitel 4
Lösen von linearen
Gleichungssystemen
4.1
Motivation: Lösungen einer Substanz
Beispiel 19 Sie haben 100ml 30 %igen Alkohol. Wieviel ml 96 %igen Alkohol müssen
Sie zusetzen, um 40 %igen Alkohol zu erhalten?
Sei x die Menge des 96 %igen Alkohols, die dazugegeben werden muss. Dann gilt
100 · 30 + x · 96 = (100 + x) · 40
96x − 40x = −3000 + 4000
56x = 1000
1000
[ml].
x=
56
4.2
(4.1)
Lineare (quadratische) Gleichungssysteme
Die Gleichung (4.1) ist eine lineare Gleichung mit einer Unbekannten. Derartige Gleichungen sind Spezialfälle von linearen Gleichungsystemen von n Gleichungen
mit n Unbekannten. Die allgemeine Form eines solchen Systems ist
a11 x1 + a12 x2 + . . . + a1n xn = b1
a21 x1 + a22 x2 + . . . + a2n xn = b2
................................
ai1 x1 + ai2 x2 + . . . + ain xn = bi
................................
an1 x1 + an2 x2 + . . . + ann xn = bn
(4.2)
Dabei sind die Koeffizienten aij , i = 1, . . . , n, j = 1, . . . , n und die rechten Seiten
bi , i = 1, . . . , n gegebene reelle Zahlen. xj ∈ R, j = 1, . . . , n sind die unbekannten
Größen. Wir wollen als nächstes eine Methode zur Lösung des linearen Gleichungssystems (4.2) kennenlernen. Bevor wir uns aber mit dem allgemeinen Fall befassen,
betrachten wir einige Beispiele.
69
70
KAPITEL 4. LÖSEN VON LINEAREN GLEICHUNGSSYSTEMEN
Beispiel 20 (Unlösbares System)
2x1 + 2x2 = 10
x1 + x2 = 1
(4.3)
Wir sehen sofort, dass dieses System keine Lösung besitzt, denn für eine Lösung
müsste aus der ersten Gleichung gelten
x1 + x2 = 5.
Dies steht aber im Widerspruch zur zweiten Gleichung in (4.3).
Beispiel 21 (Unbestimmtes System)
2x1 + 2x2 = 10
x1 + x2 = 5
(4.4)
Es ist leicht zu sehen, dass dieses System unendlich viele Lösungen besitzt, nämlich
alle Paare (x1 , x2 ), für welche gilt
x1 + x2 = 5.
Beispiel 22 (Eindeutig lösbares System)

 2x1 + 2x2 + 5x3 = 27
6x2 − 10x3 = 0

3x3 = 9
(4.5)
Um dieses System zu lösen, fangen wir bei der dritten Gleichung an und erhalten
sofort
x3 = 3.
Dann setzen wir in die zweite Gleichung den bekannten Wert von x3 = 3 ein und
erhalten
10 · 3
= 5.
x2 =
6
Schließlich setzen wir in die erste Gleichung x2 = 5 und x3 = 3 ein und berechnen
x1 =
27 − 2 · 5 − 5 · 3
= 1.
2
Eine Lösung des Systems (4.5) ist also (x1 , x2 , x3 ) = (1, 5, 3). Aus dem Lösungsverfahren ist klar, dass diese auch die einzige Lösung ist.
Die obigen Beispiele zeigen, dass lineare Gleichungssysteme nicht immer eindeutig lösbar sind. Mit der allgemeinen Lösungstheorie linearer Gleichungssysteme
werden wir uns allerdings erst im nächsten Semester befassen. Im Rahmen dieser
Vorlesung werden wir eine Lösungsmethode kennenlernen, die unter der Voraussetzung der eindeutigen Lösbarkeit angewendet werden kann.
4.2. LINEARE (QUADRATISCHE) GLEICHUNGSSYSTEME
4.2.1
71
Gaußsche Eliminationsmethode
Die Gaußsche Eliminationsmethode besteht darin, dass man das System (4.2)
durch geeignete Umformungen in ein sogenanntes gestaffeltes System, d. h. ein
System der Form (4.6) oder (4.8) umwandelt. Dieses System wird dann rekursiv
gelöst.
Betrachten wir zunächst folgendes gestaffelte System:
r11 x1 + r12 x2 + . . .
r22 x2 + . . .
..
.
+ r1n xn = c1
+ r2n xn = c2
(4.6)
rnn xn = cn
In dem Beispiel (4.5) haben wir bereits ein gestaffeltes System der Form (4.6) gelöst.
Wir wollen nun den Lösungsalgorithmus für den allgemeinen Fall (4.6) aufschreiben.
Offenbar erhalten wir (x1 , x2 , . . . , xn ) durch rekursive Auflösung beginnend mit der
Zeile n:
xn =
xn−1 =
..
.
x1 =
cn
,
rnn
cn−1 − rn−1,n xn
,
rn−1,n−1
falls rnn 6= 0
falls rn−1,n−1 6= 0
c1 − r12 x2 − . . . − r1n xn
,
r11
falls r11 6= 0.
Diese Auflösung gestaffelter Systeme heißt Rückwärtssubstitution. Der angegebene Algorithmus ist genau dann anwendbar, wenn
rii 6= 0, für alle i = 1, . . . , n.
(4.7)
Wir werden im nächsten Semester sehen, dass (4.7) eine notwendige und hinreichende Bedingung für die eindeutige Lösbarkeit des Systems (4.6) ist.
Vollkommen analog lässt sich ein gestaffeltes System der Form
l11 x1
l21 x1 + l22 x2
ln1 x1 + ln2 x2
..
.
+ ...
= c1
= c2
(4.8)
+ lnn xn = cn
lösen, indem man in der ersten Zeile beginnt und sich zur letzten Zeile durcharbeitet.
Diese Auflösung heißt Vorwärtssubstitution.
Wir kehren nun zurück zu dem allgemeinen System (4.2) und versuchen, es in ein
gestaffeltes umzuformen. Die erste Zeile muss dazu nicht verändert werden. Die
restlichen Zeilen wollen wir so behandeln, dass die Koeffizienten vor x1 verschwinden,
d. h. die Variable x1 aus den Zeilen 2 bis n eliminiert wird. So entsteht ein System
72
KAPITEL 4. LÖSEN VON LINEAREN GLEICHUNGSSYSTEMEN
der Art
a11 x1 + a12 x2 + . . . + a1n xn = b1
a022 x2 + . . . + a02n xn = b02
..
.
(4.9)
a0n2 x2 + . . . + a0nn xn = b0n
Haben wir das erreicht, so können wir dasselbe Verfahren auf die letzten n−1 Zeilen
anwenden und so rekursiv ein gestaffeltes System erhalten. Es genügt daher den
ersten Eliminationsschritt von (4.2) nach (4.9) zu untersuchen. Wir setzen voraus
a11 6= 0.
(Falls diese Bedingung nicht erfüllt ist, vertauschen wir die erste Zeile mit einer Zeile
aus dem System (4.2) für welche ai1 6= 0.)
Um den Term ai1 x1 in der Zeile i (i = 2, . . . , n) zu eliminieren, subtrahieren wir von
der Zeile i ein Vielfaches der unveränderten Zeile 1 und erhalten
(ai1 − li1 a11 ) x1 + (ai2 − li1 a12 ) x2 + . . . + (ain − li1 a1n ) xn = bi − li1 bi ,
| {z }
|
{z
}
{z
}
{z
}
|
|
=0
=a0i2
=a0in
i = 2, . . . , n
=b0i
i1
Aus ai1 − li1 a11 = 0 folgt sofort li1 = aa11
, i = 2, . . . , n. Damit ist der erste Eliminationsschritt unter der Annahme a11 6= 0 ausführbar.
In der Zeilen 2 bis n bleibt nach diesem ersten Schritt ein (n − 1, n − 1)− ”Restsystem“ stehen. Darauf wenden wir die Eliminationsvorschrift erneut an.
Beispiel 23 : Löse das System

2x1 + 7x2



4x1 + 14x2
x1 + 3x2



10x1 + 5x2
+ 9x3
+ 8x3
+ 5x3
− x3
+ x4
+ 3x4
− 3x4
− 4x4
=
1
=
6
= −13
= −1
Wir wollen also die Terme mit x1 aus der 2., 3. und 4. Zeile eliminieren. Dazu
multipliziere Zeile 1 mit 2 und subtrahiere sie von Zeile 2,
multipliziere Zeile 1 mit 21 und subtrahiere sie von Zeile 3,
multipliziere Zeile 1 mit 5 und subtrahiere sie von Zeile 4:

2x1 +
7x2 +
9x3 +
x4 =
1



− 10x3 +
x4 =
4
−
0,
5x
+
0,
5x
−
3,
5x
=
−13,
5

2
3
4


− 30x2 − 46x3 −
9x4 =
−6
Da der Koeffizient von x2 in der
und dritte Zeile:

2x1 +
7x2



− 0, 5x2



− 30x2
2-ten Zeile a22 = 0 ist, vertauschen wir die zweite
+
9x3
+ 0, 5x3
− 10x3
− 46x3
+
x4
− 3, 5x4
+
x4
−
9x4
=
1
= −13, 5
=
4
=
−6
4.3. BERECHNEN VON KONZENTRATIONEN
73
Nun multiplizieren wir die 2. Zeile mit 60 und subtrahieren sie von der 4. Zeile:

2x1 +
7x2 +
9x3 +
x4 =
1



− 0, 5x2 + 0, 5x3 − 3, 5x4 = −13, 5
− 10x3 +
x4 =
4



− 76x3 + 201x4 =
804
Multipliziere jetzt noch die 3. Zeile mit 7,6

2x1 +
7x2 +
9x3



− 0, 5x2 + 0, 5x3
− 10x3



und subtrahiere sie von der 4. Zeile:
+
−
+
x4
3, 5x4
x4
193, 4x4
=
1
= −13, 5
=
4
= 773, 6
Daraus berechnen wir nun durch Rückwärtssubstitution:
x4 =
773, 6
= 4.
193, 4
Aus der dritten Gleichung berechnen wir x3 :
x3 =
4−4
4 − x4
=
=0
10
10
Aus der zweiten Gleichung folgt:
x2 =
−13, 5 − 0, 5 · 0 + 3, 5 · 4
−13, 5 − 0, 5x3 + 3, 5x4
=
= −1
−0, 5
−0, 5
Zum Schluss wird x1 ausgerechnet:
x1 =
1 − 7x2 − 9x3 − x4
1 − 7 · (−1) − 9 · 0 − 4
=
=2
2
2
Die Lösung des Systems ist also (x1 , x1 , x1 , x1 ) = (2, −1, 0, 4).
4.3
Berechnen von Konzentrationen
Aufgabe: Es sind zwei Lösungen vorhanden. In der ersten Lösung sind 40% Methanol und 20% Formaldehyd enthalten. In der zweiten Lösung sind 30% Methanol
und 10% Formaldehyd enthalten. Welche Mengen der beiden Lösungen und Wasser
müssen zusammengemischt werden, um 1 Liter Endlösung mit 15% Methanol und
6% Formaldehyd zu erhalten?
Lösung: Um die benötigten Mengen zu berechnen, bezeichnen wir mit
x = Menge [in Liter] der ersten Lösung die nötig ist
y = Menge [in Liter] der zweiten Lösung die nötig ist
74
KAPITEL 4. LÖSEN VON LINEAREN GLEICHUNGSSYSTEMEN
z = Menge [in Liter] Wasser die nötig ist
Diese drei Mengen sollen sich zu 1 Liter addieren, d. h.
x+y+z =1
Die Menge von Methanol in eine Lösung, die durch das Zusammenmischen von x
Liter der ersten Lösung, y Liter der zweiten Lösung und z Liter Wasser entsteht,
berechnet sich zu:
x · 40% + y · 30% + z · 0%.
Diese Methanolmenge stellt 15% von 1 Liter Endlösung dar. Wir erhalten also die
Gleichung:
40x + 30y = 15.
Analog ergibt die Bilanz der Formaldehydmenge in 1 Liter Endlösung die Gleichung:
20x + 10y = 6.
Wir erhalten also das Gleichungssystem:
x +
40x +
20x +
y +
30y
10y
z
= 1
= 15
= 6
Um ein gestaffeltes Gleichungssystem zu erhalten, eliminieren wir die Unbekannte y
aus der dritten Gleichung. D. h. wir multiplizieren die zweite Gleichung mit 31 und
subtrahieren sie von der dritten Gleichung.
x +
40x +
20
x
3
y +
30y
z
= 1
= 15
= 1
Wir erhalten also als Lösung unserer Aufgabe:
3
20
3
15 − 40 · 20
6
y =
=
30
20
6
11
3
−
=
z = 1−
20 20
20
x =
3
Es müssen also 20
Liter Methanol,
sammengemischt werden.
6
20
Liter Formaldehyd und
11
20
Liter Wasser zu-
Bemerkung 7 Es ist von vornerein klar, dass eine Lösung (x, y, z) dieser Aufgabe
die Nebenbedingungen
0 ≤ x ≤ 1,
0 ≤ y ≤ 1,
0≤z≤1
erfüllen muss. Deswegen muss man am Ende noch ueberprüfen, ob die erhaltene
Lösung auch zulässig“ ist.
”
Herunterladen