Rechnen mit Wahrscheinlichkeiten

Werbung
Werner Timischl
Biostatistik
Eine Einfuhrung fUr
Biologen und Mediziner
Zweite, neubearbeitete Auflage
Springer-V erlag Wien GmbH
Univ.-Prof. Dipl.-Ing. Dr. Werner Timischl
Institut fUr Algebra und Computennathematik
Technische Universităt Wien
Wien, Osterreich
Das Werk ist urheberrechtlich geschiitzt.
Die dadurch begriindeten Rechte, insbesondere die der Ubersetzung, des Nachdruckes, der
Entnahme von Abbildungen, der Funksendung, der Wiedergabe auf photomechanischem oder
ăhnlichem Wege und der Speicherung in Datenverarbeitungsanlagen, bleiben, auch bei nur
auszugsweiser Verwertung, vorbehalten.
© 2000 Springer-Verlag Wien
Urspri.inglich erschienen bei Springer-VerlagIWien 2000
Reproduktionsfertige Vorlage vom Autor
Graphisches Konzept: Ecke Bonk
Gedruckt auf săurefreiem, chlorfrei gebleichtem Papier - TCF
SPIN 10728430
Mit 59 Abbildungen
ISBN 978-3-211-83317-9
ISBN 978-3-7091-6313-9 (eBook)
DOI 10.1007/978-3-7091-6313-9
Vorwort zur zweiten Auflage
Die Neubearbeitung der "Biostatistik" unterscheidet sich sowohl im Aufbau als
auch in der in Auswahl der Inhalte von der ersten Auflage. Da heute die statistische Bearbeitung von Problemen meist computerunterstiitzt mit Hilfe einschlagiger Statistiksoftware erfolgt, verlagern sich die Anforderungen an den Anwender
mehr und mehr auf die Modellbildung und die Interpretation. Beides gelingt umso
besser, je mehr man mit den Denkweisen der Statistik und den hinter den statistischen Methoden steckenden Ideen vertraut ist . Es ist das Ziel des Buches, Interesse
an der Statistik zu wecken und das Verstandnis fiir die sachgemahe Anwendung
von statistischen Methoden zu fordern.
Die "Biostatistik" ist in erster Linie ein Lehr- und Ubungsbuch fiir Studierende
der Biowissenschaften. Abweichend von der erst en Auflage werden nun deskriptive
und induktive Verfahren, die auch bei praktischen Problemlosungen eng miteinander verbunden sind, nicht in getrennten Abschnitten, sondern parallel behandelt . Nach einer kurzen EinfUhrung in die Wahrscheinlichkeitsrechnung und die
fiir die Praxis relevanten Wahrscheinlichkeitsverteilungen folgt der Einstieg in die
Punkt- und Intervallschatzung. Ausflihrlich wird das Testen von Hypothesen mit
den wichtigsten Verfahren fiir Ein- und Zweistichprobenvergleiche einschlieBlich
Anpassungstests und Aquivalenzprmung behandelt . Einen breiten Raum nimmt
auch die Korrelation bei metrischen und nominalen Daten sowie die einfache und
mehrfache lineare Regression ein. Stark erweitert wurde die Darstellung der varianzanalytischen Modelle. Neben dem Grundmodell der einfaktoriellen Varianzanalyse werden allgemeinere Versuchsanlagen wie die Blockvarianzanalyse, die
Kovarianzanalyse oder die zweifaktorielle Varianzanalyse betrachtet . Neu aufgenom men wurde ein Kapitel iiber multivariate Statistik, das in die Clusteranalyse,
die Hauptkomponentenanalyse, die Faktorenanalyse und die Diskriminanzanalyse
einfiihrt .
Grundsiitzlich werden nur Kenntnisse aus der Schulmathematik vorausgesetzt.
Wenn auch auf Formeln nicht vezichtet werden kann, so wird nicht zuletzt durch
die vielen durchgerechneten Beispiele das Anwenden der verschiedenen Verfahren
in den Mittelpunkt geriickt . Die Empfehlung "learning by doing" gilt ganz besonders fur die angewandte Statistik. Indem man Beispiele nachvollzieht und sich im
Losen einfacherer und komplexerer Musteraufgaben iibt , gewinnt man die fiir die
Anwendungspraxis notwendige Sicherheit. Neben den Beispielen bilden die Aufgaben am Ende eines jeden Kapitels ein zusatzliches Ubungsmaterial, das auch
zu computerunterstiitzten Problemlosungen anregen soll. Zu den Aufgaben gibt
es im Anhang einen ausfiihrlichen Losungsteil .
VI
Vorwort
Mein Dank gilt allen Lesern, die durch Hinweise zur Verbesserung des Textes und zur Korrektur fehlerhafter Stellen beigetragen haben . Fiir das Mitlesen
der Korrekturen habe ich Frau Dipl.-Ing. Edith Fenz und Herrn Mag. Herbert
Weilguni, vor allem aber Herrn DDr. Martin Baumgartner zu danken, der auch
die Bespiele nachgerechnet hat . SchlieBlich danke ich Frau Mag. Elisabeth Bohunovsky und Herrn Thomas Redl vom Springer-Verlag in Wien fiir die Betreuung
wahrend der Entstehung der Druckvorlage und die gute Zusammenarbeit.
Wien, im April 2000
Werner Timischl
Inhaltsverzeichnis
1 Rechnen mit Wahrscheinlichkeiten
1.1
1.2
1.3
Begriff der Wahrsch~inlichkeit . . .
1.1.1 Zufallsexperiment und Ereignis
1.1.2 Laplace-Wahrscheinlichkeit . ..
1.1.3 Statistische Wahrscheinlichkeit .
1.1.4 Elementare Eigenschaften der Wahrscheinlichkeit
Bedingte Wahrscheinlichkeit . . . . . . . . . . . . .
1.2.1 Definition der bedingten Wahrscheinlichkeit
1.2.2 Unabhangige Ereignisse
.
1.2.3 Satz von der totalen Wahrscheinlichkeit .
1.2.4 Bayes'sche Formel.
Aufgaben
.
1
1
3
5
5
7
7
9
10
11
13
2 Wahrscheinlichkeitsverteilungen
2.1
Zufallsvariable
.
2.1.1 Merkmalstypen . .. . .
2.1.2 Diskrete Zufallsvariable .
2.1.3 Stetige Zufallsvariable .
2.1.4 Unabhangigkeit von Zufallsvariablen
2.1.5 MaBzahlen von Zufallsvariablen
2.2 Einige diskrete Wahrscheinlichkeitsverteilungen . . . . . . . . . . . . . .
2.2.1 Binomialverteilung
.
2.2.2 Hypergeometrische Verteilung
2.2.3 Poisson-Verteilung . . . . .
2.2.4 Negative Binomialverteilung
2.3 Normalverteilung
.
2.3.1 Standardnormalverteilung .
2.3.2 Allgemeine Normalverteilung
2.3.3 Logarithmische Normalverteilung
2.3.4 Zentraler Grenzwertsatz
2.4 Aufgaben
.
16
16
18
19
22
24
27
27
32
35
36
37
37
39
42
43
43
VIII
3 Parameterschatzung
3.1 Begriff der Zufallsstichprobe
3.1.1 Grundgesamtheit ..
3.1.2 Stichprobenauswahl .
3.2 Datenbeschreibung bei einem Merkmal
3.2.1 Hiiufigkeitsverteilungen ohne Klassenbildung
3.2.2 Hiiufigkeitsverteilungen mit Klassenbildung .
3.2.3 Weitere Kenngroflen und Ergiinzungen . .
3.3 Punktschiitzung . . . .. . . .. . . . . . .. . . .
3.3.1 Stichprobenmittel und Stichprobenvarianz
3.3.2 Schiitzfunktionen. . . . . . . . .
3.4 Intervallschiitzung. . . . . . .. . . . . . .
3.4.1 Konfidenzintervalle fur Varianzen .
3.4.2 Konfidenzintervalle fiir Mittelwerte
3.4.3 Konfidenzintervalle fiir Wahrscheinlichkeiten
3.4.4 Planung von Stichprobenumfangen
3.4.5 Bootstrap-Schiitzung
3.5 Aufgaben
Inhaltsverzeichnis
46
46
47
48
48
53
59
63
63
64
69
69
72
74
76
78
80
4 Testen von Hypothesen
4.1 Einfuhrung in das Testen : l-Stichprobenvergleiche .
84
4.1.1 Der Binomialtest bei groBen Stichproben
84
4.1.2 Giitefunktion des Binomialtests
90
4.1.3 Logik der Signifikanzpriifung . . . . . . .
94
4.1.4 Der l-Stichproben-t-Test . . . . . . . . .
97
4.2 2-Stichprobenvergleiche bei normalverteilten Grundgesamtheiten . 101
4.2.1 Unabhiingige und abhangige Stichproben . .
101
102
4.2.2 Der F-Test zum Vergleich zweier Varianzen
4.2.3 Der 2-Stichproben-t-Test . . . . . . . . .
104
107
4.2.4 Der t-Test fiir abhiingige Stichproben . . . .
110
4.2.5 Verteilungsfreie Alternativen zum t- Test . .
4.3 2-Stichprobenvergleiche bei dichotomen Grundgesamtheiten .
116
4.3.1 Vergleich zweier Anteile aus unabhiingigen Stichproben
116
4.3.2 Dei McNemar-Test fiir abhiingige Stichproben
122
4.4 Anpassungstests . . . . . . . . . . . . . . . .
125
4.4.1 Der X2- Test fiir diskrete Vert eilungen
125
129
4.4.2 Normalitiitspriifung . . . . . . . . .
4.5 Aquivalenzpriifun g . . . . . . . . . . . . .
134
4.5.1 Gleichwertigkeit von Mitt elwerten .
134
4.5.2 Gleichwert igkeit von Anteilen
137
4.6 Aufgaben
139
Inhaltsverzeichnis
IX
5 Korrelation und Regression
5.1
5.2
5.3
5.4
5.5
Zweidimensionale Kontingenztafeln
143
5.1.1 Unabhangigkeit und Korrelation .
143
5.1.2 KontingenzmaBe
148
5.1.3 Homogenitatshypothesen . . . . .
151
Korrelation bei metrischen Merkmalen .
153
5.2.1 Zweidimensionale Normalverteilung
153
5.2.2 Produktmomentkorrelation . . ..
156
5.2.3 Verteilungsfreie Korrelationsmafe .
163
Einfache lineare Regression . . . . . . . . .
168
5.3.1 Regressionsfunktion bei zweidimensional normalverteilten
Variablen
168
174
5.3.2 Zufallsgestorte lineare Abhangigkeiten
5.3.3 Beurteilung der Anpassungsgiite . . . .
180
5.3.4 Linearisierende Transformationen . . .
185
5.3.5 Regressionsgerade durch einen festen Punkt
188
Mehrfache lineare Regression . . . . . . . . .
190
5.4.1 Bestimmung der Regressionsfunktion . . . .
190
5.4.2 Multiple und partielle Korrelation . . . . . .
197
5.4.3 Globale und partielle Abhangigkeitsprufung
202
Aufgaben
206
6 Varianzanalytische Modelle
6.1
Einfaktorielle Varianzanalyse . . . . . . . . . . . . . . . .
6.1.1 Globaltest zum Vergleich von k > 2 Mittelwerten
6.1.2 Untersuchung der Varianzhomogenitat . . . . . .
6.1.3 Multiple Vergleiche von Mittelwerten . . . . . . .
6.1.4 Rangvarianzanalyse fiir unabhangige Stichproben
6.2 MaBnahmen zur Verkleinerung des Versuchsfehlers . . . .
6.2.1 Randomisierte Blockanlage. . . . . . . . . . . . .
6.2.2 Einfaktorielle Varianzanalyse mit Messwiederholungen
6.2.3 Rangvarianzanalyse fur verbundene Stichproben
6.2.4 Einfaktorielle Versuche mit einer Kovariablen
6.3 Zweifaktorielle Varianzanalyse . . . . . . . . . .
6.3.1 Der vollstandige zweifaktorielle Versuch .
6.3.2 Versuche mit einfach besetzten Zellen .
6.4 Aufgaben
213
213
221
222
226
229
229
235
238
241
249
249
258
262
7 Multivariate Methoden
7.1
7.2
Clusteranalyse
.
7.1.1 Prinzip der hierarchischen Klassifikation
7.1.2 Distanz- und AhnlichkeitsmaBe
7.1.3 Fusionierung von Gruppen
Hauptkomponentenanalyse . . . .
7.2.1 Pr inzip und Grundbegriffe
266
266
268
269
273
273
x
Inhaltsverzeichnis
7.2.2 Berechnung der Hauptkomponenten . .
7.2.3 Interpretation der Hauptkomponenten
7.3 Faktorenanalyse
.
7.3.1 Modell der Faktorenanalyse . .
7.3.2 Schiitzung der Faktorladungen .
7.4 Diskriminanzanalyse
.
7.4.1 Das Diskriminanzkriterium von Fisher
7.4.2 Diskriminanzanalyse fur zwei Gruppen
7.4.3 Zuordnung von Objekten .
275
280
282
282
284
289
289
293
296
Anhang A: Statistische Tafeln . . .
299
Anhang B: Rechnen mit Matrizen
310
Anhang C: Losungen der Aufgaben
314
Literatur .. . .
331
Sachverzeichnis
334
Kapitel 1
Rechnen mit Wahrscheinlichkeiten
Aueh wer sieh bloB als Anwend er von statistisehen Methoden sieht , sollte zumindest die in der einschlagigen Literatur (z.B. Softwaredokumentationen) besehriebenen Anwendungsvoraussetzungen verstehen und die erhaltenen Ergebnisse riehtig interpretieren konnen . Zu diesem Zweek ist eine Vertrautheit mit
dem Wahrseheinliehkeitsbegriff und einfa ehen Regeln fiir das Reehnen mit Wahrseheinliehkeiten ebenso niitzlieh wie die Kenntnis der grundlegenden Wahrseheinliehkeitsverteilungen. Die beiden ersten Kapitel dienen dazu, in die Begriffswelt
der Wahrseheinliehkeitsreehnung einzufUhren , die das mathematisehe Standbein
der Statistik darstellt.
1.1
1.1.1
Begriff der Wahrscheinlichkeit
Zufallsexperiment und Ereignis
Mit vielen physikalisehen Prozessen verbindet man die Vorstellung, dass sie mit
Hilfe geeigneter Formeln vorausbereehnet werden konnen . Wenn man z.B. einen
Stein die Hohe H frei durchfallen lasst , dann Iiefert jede Wiederholung des Experimentes im Wesentliehen (d .h. innerhalb der Messgenauigkeit) die dureh die
Formel T = J2H/g gegebene Falldauer T . (Die Konstante 9 bezeichnet die Erdbesehleunigung.) Der Ausgang eines jeden Fallversuehes ist - wenigstens unter
idealen Bedingungen - determiniert. Vollig anders ist der Ausgang bei dem in
Abb . 1.1 dargestellten Kreuzungsversuch: Eine Pflanze (Pisum sativum) mit violetter Bliitenfarbe (Genotyp VV) wird durch eine Pflanze mit weiBer Bliitenfarbe
(Genotyp ww) best iiubt. In der Ft-G eneration entstehen nur violette Pflanzen. Die
daraus hervorgehenden Pflanzen sind miseherbig, d.h., sie entwickeln Keimzellen ,
die zur Halfte die Erbanlage V fiir die violette und zur and eren Halft e die Erbanlage w fiir die weiBe Bliitenfarbe besitzen. Erfolgt eine weitere Befruchtung mit
einer miseherbigen Pflanze , sind drei Viertel der Fr Pflanzen violet t bliihend (d .h.
yom Genotyp VV , Vw oder wV) und ein Viertel weif bliihend (d.h . vom Genotyp
ww) . 1m Gegensatz zu dem zuerst betraeht et en Fallversueh gibt es beim Mendelsehen Kreu zungsexp erim ent in der FrGeneration beziiglieh des Genotyps gleieh
vier mogliche Ausgiinge, namli ch die Kornbinationen \lV , Vw, wV oder ww , die
W. Timischl, Biostatistik
© Springer-Verlag/Wein 2000
2
1 Rechnen mit Wahrscheinlichkeiten
a)
VV
I
b)
ww
x
I
v
w
~/
Vw
Vw
x
~
VV
Vw
wV
ww
E1 =
{wV, Vw}
Abb. 1.1. a) Mendels Kreuzungsversuch mit Erbsen (V und w bezeichnen die
Erbanlagen fiir eine violette bzw. weiBe Bliitenfarbe, V ist gegeniiber w dominant .)
b) Veranschaulichung der Ergebnismenge durch ein Mengendiagramm
sich im Phanotyp auf die beiden Ausgange violette Bliitenfarbe bzw. weijJe Bliiien[arbe reduzieren. Welche Bliitenfarbe eine einzelne F 2-Pfianze besitzt, ist also nicht
vorhersagbar.
Man bezeichnet allgemein einen (im Prinzip beliebig oft wiederholbaren) Vorgang, dessen Ausgang sich nicht vorhersagen lasst, als ein Zufallsexperiment.
Mendels Kreuzungsversuch ist ein Zufallsexperiment mit vier moglichen Ausgangen. Weitere einfache Beispiele sind das Ausspielen eines Wiirfels, das Werfen einer
Miinze oder die aufs Geratewohl erfolgte Auswahl eines Elementes aus irgendeiner
Menge von Objekten. Die durch Zusammenfassen der Ausgange eines Zufallsexperimentes gebildete Menge nennt man dessen Ergebnismenge. Wir bezeichnen
sie kurz mit n. Das besprochene Kreuzungsexperiment besitzt die Ergebnismenge
n = {VV, Vw, wV, ww}, die in Abb . LIb anschaulich durch ein sogenanntes Mengendiagramm dargestellt ist. Jede Teilmenge von n nennt man ein Ereignis. Im
Zusammenhang mit dem Kreuzungsversuch in Abb. 1.1 kann man z.B. die Ereignisse E 1 = {Vw, wV} (heterozygoter Ausgang), E 2 = {VV, ww} (homozygoter Ausgang) oder E3 = {VV, Vw,wV} (violette Bliitenfarbe) formulieren . Man
sagt, das Ereignis E ist eingetreten, wenn der Ausgang des Zufallsexperimentes
in E enthalten ist . Wichtige Sonderfalle von Ereignissen sind die sogenannten
Elementarereignisse (d.h. die einelementigen Teilmengen von n), das bei jeder Versuchsausfiihrung eintretende sichere Ereignis (d.h. die Ergebnismenge
selbst) und das zu einem vorgegebenen Ereignis E gehorende komplementare
Ereignis E, das genau dann eintritt, wenn E nicht eintritt (d.h., E umfasst aIle
jene Ausgange in n, die nicht zu E gehoren]. Aus zwei Ereignissen E 1 und E2
konnen durch spezielle Verkniipfungen zusammengesetzte Ereignisse gebildet
werden. Wir erwahnen
• das durch die oder-Verkniipfung aus E 1 und E2 zusammengesetzte Ereignis (E 1 oder E 2 ) , das genau dann eintritt, wenn entweder E 1 oder E 2 oder
beide zusammen eintreten, sowie
3
1.1 Begriff der Wahrscheinli chkeit
• das durch die und-Verkniipfung aus E 1 und E 2 zusammengesetzte Ereignis (E1 und E2 ) , das genau dann eintritt, wenn sowohl E1 als auch E2
eintritt.
Wenn die in E 1 zusammengefassten Ausgange von den in E 2 enthaltenen Ausgangen verschieden sind , kann bei keiner Versuchsausfiihrung sowohl E 1 als auch E2
eintreten. Man nennt in diesem Fall das zusammengesetzte Ereignis (E1 und E 2 )
das unmogliche Ereignis und schreibt dafiir 0. Zwei Ereignisse E 1 und E2 , fiir
die (E1 und E2 ) = 0 gilt , heissen einander ausschlieBend oder disjunkt. Sind
z.B. n = {VV, Vw ,wV,ww} (vgl. Abb. 1.1), E 1 = {Vw,wV} (heterozygoter
Versuchsausgang) , E2 = {VV, ww} (homozygoter Versuchsausgang) und E3 =
{VV, Vw ,wV} (violette Bliitenfarbe) , so gilt (E 1 oder E2 ) = {VV, Vw ,wV,ww} =
n, (E 2 und E3 ) = {VV} und (E1 und E 2 ) = 0.
1.1.2
Laplace-Wahrscheinlichkeit
Wir setzen nun ein Zufallsexperiment mit endlich vielen , verschiedenen Ausgiingen
voraus . Urn das Zufallsexperiment zu beschreiben, muss man die Ergebnismenge
n nennen und eine Bewertung der einzelnen Ausgiinge durch sogenannte Wahrscheinlichkeiten vornehmen, d.h. durch Kennzahlen, die einen Vergleich der
Ausgange hinsichtlich der Moglichkeit ihres Eintretens erlauben. Recht einfach
ist die Situation dann , wenn das ZufaIlsexperiment lauter gleichwahrscheinliche
Ausgiinge besitzt . In diesem Falle ist es naheliegend, alle Ausgange mit derselben
Wahrscheinlichkeit zu bewerten und als Folge davon die Wahrscheinlichkeit P(E)
eines Ereignisses E proportional zur Anzahl lEI der in E befindlichen Ausgange
anzusetzen. Wir schreib en also P(E) = clEI, wobei c eine gewisse Proportionalitatskonstante bedeutet. Man nennt lEI auch die Anzahl der fiir das Ereignis E
"giinstigen" Ausgange . In Analogie dazu bezeichnen wir mit Inl die Anzahl aIler
moglichen Ausgange des betrachteten Zufallsexperimentes. Legt man c so fest ,
dass p(n) = 1 (Normierungsbedingung) erfiillt ist, ergibt sich die auf Laplace
zuriickgehende klassische Definition
P( E)
= Anzahl der fiir E
giinstigen Ausgange
Anzahl der moglichen Ausgiinge
=~
Inl
(1.1)
der Wahrs cheinlichkeit, die man auch als Laplace-Wahrscheinlichkeit bezeichnet . Betrachten wir kurz ein einfaches Beispiel. Beim Kreuzungsversuch der Abb .
1.1 ist n = {VV, Vw , wV, ww} , also Inl = 4. Die Anzahl der fiir das Ereignis
E = {Vw , wV} (heterozygoter Versuchsausgang) giinstigen Ausgange ist lEI = 2.
Unter der (durch die Erfahrung bestatigten) Annahme, dass alle vier Ausgange
gleichwahrs cheinlich sind , erhalt man die Wahrscheinlichkeit P(E) = IEI/lnl =
2/4 = 1/2. Bei Anwendung der Formel (1.1) hat man stets die in der Ergebnismenge n bzw. die im Ereignis E enthaltenen Ausgange abzuzahlen. Dafiir gibt es
niitzliche Hilfsmittel, wie z.B. das im folgenden Beispiel verwendete Baumdiagramm.
4
1 Rechnen mit Wahrscheinlichkeiten
Abb . 1.2. Baumdiagramm zur Berechnung des Diversitatsindex von Simpson
Beispiel 1.1. Der Diversitatsindex C nach Simpson ist definiert als die
Wahrscheinlichkeit, dass zwei aus einer Artengemeinschaft zufallig ausgewahlte Individuen zur selben Art gehoren. Wir wollen eine Formel zur Berechnung von C herleiten, wenn die Artengemeinschaft aus den zwei Arten
Sl und S2 mit nl bzw. n2 Individuen besteht. Dazu denken wir uns die Individuen der ersten und zweiten Art von 1 bis nl bzw. nl + 1 bis n = nl + n2
durchnummeriert. Offensichtlich gibt es n verschiedene Moglichkeiten, das
erste Individuum auszuwahlen. In Abb . 1.2 sind diese Auswahlmoglichkeiten so veranschaulicht, dass von einem Punkt (der sogenannten Wurzel des
Baumes) ausgehend zu n Punkten Strecken gezogen werden, von denen jede
einem der durchnummerierten Individuen entspricht . Nachdcm ein Individuum ausgewahlt worden ist, gibt es offensichtlich nur mehr n - 1 Moglichkeiten, irgendein zweites Individuum auszuwahlen. Die zufallige Auswahl
zweier Individuen stellt somit ein (zweistufiges) Zufallsexperiment dar mit
Inl = n(n - 1) = (nl + n2)(n) + n2 - 1) moglichen Ausgiingen . Gesucht
ist die Wahrscheinlichkeit des Ereignisses E , zwei Individuen derselben Art
zu erhalten. Urn lEI zu ermitteln, nehmen wir zuerst an, dass als erstes ein
Sl-Individuum ausgewahlt wurde. Zu jedem so ausgewahlten S)-Individuum
(z.B. dem i-ten) gibt es nl-l Moglichkeiten, ein weiteres Sl-Individuum auszuwahlen. Zwei Sl-Individuen konnen also auf nl(nl -1) verschiedene Arten
ausgewahlt werden. Analog findet man n2( n2 - 1) verschiedene Moglichkeiten fur die Auswahl zweier S2-Individuen. Daher ist die Anzahl der fiir E
giinstigen Ereignisse durch lEI = nl(nl - 1) + n2(n2 - 1) gegeben. Es folgt
5
1.1 Begriff der Wahrscheinlichkeit
Tabelle 1.1. Stabilisierung der relativen Hiiufigkeit hn(E) des Ereignisses E=
"gerade Augenzahl" bei einem Wiirfelexperiment
n
1
2
3
4
5
6
7
8
9
10
1.1.3
hn(E)
1
1
1
1
0.8
0.667
0.571
0.5
0.556
0.5
100
200
300
400
500
600
700
800
900
1000
0.43
0.46
0.5
0.503
0.504
0.495
0.489
0.499
0.504
0.501
Statistische Wahrscheinlichkeit
Die Annahme von endlich vielen und gleichwahrscheinlichen Ausgiingen trifft bei
vielen Zufallsexperimenten nicht zu. Urn auch im allgemeinen Fall die Wahrscheinlichkeit eines Ereignisses bestimmen zu konnen, macht man sich die folgende Erfahrungetatsache zunutze: Wir fiihren das betrachtete Zufallsexperiment
wiederholt aus, wobei die einzelnen Wiederholungen als voneinander unabhiingig,
d .h. einander nicht beeinflussend vorausgesetzt werden. Es zeigt sich dann, dass
sich mit wachsender Anzahl n der Versuchsdurchfiihrungen die relative Haufigkeit hn(E) eines Ereignisses E (also die durch n geteilte Anzahl der Versuchsdurchfiihrungen, bei denen E eintritt) einem konstanten Wert niihert, den man
als die (statistische) Wahrscheinlichkeit P(E) von E bezeichnet . Es gilt also
P(E)
~
hn ( E) fiir geniigend groBes n.
(1.2)
Die "Stabilisierung" der relativen Hiiufigkeit eines Ereignisses urn einen konstanten Wert bezeichnet man auch als das empirische Gesetz der groBen Zahlen.
Den Prozess der Stabilisierung kann man z.B . durch Wiirfelexperimente demonstrieren . Tabelle 1.1 enthiilt das Ergebnis einer (auf einem Computer generierten)
Versuchsserie, bei der die relative Hiiufigkeit fur das Auftreten einer geraden Augenzahl in Abhiingigkeit von der Anzahl n der Versuchsdurchfiihrungen dargestellt
ist.
1.1.4
Elementare Eigenschaften der Wahrscheinlichkeit
Im Prinzip kann jedem auf der Ergebnismenge eines Zufallsexperimentes definierten Ereignis E die bei oftmaliger Wiederholung "stabilisierte" relative Haufigkeit hn ( E) als Wahrscheinlichkeit P( E) zugeordnet werden. Man nennt diese Zuordnung die durch das Zufallsexperiment erzeugte Wahrscheinlichkeitsverteilung. Man erkennt unmittelbar aus der Definition, dass P( E) (und ebenso auch
6
1 Rechnen mit Wahrscheinlichkeiten
n=1
n=2
n=3
K
M
~
K
~
M
K
M
/\/\/\/\
K
M
K
M
K
M
K
M
Abb . 1.3. Baumdiagramm zu Beispiel 1.2
die durch (1.1) definierte Laplace-Wahrscheinlichkeit) folgende Eigenschaften aufweist:
• Fur jedes Ereignis E ist P(E) ~ 0 (Nichtnegativitateeigenschaft).
• Fur das sichere Ereignis
n ist
p(n) = 1 (Normiertheitseigenschaft) .
• 1st El, E 2 , •• • eine endliche Folge yon paarweise disjunkten Ereignissen und
A das Ereignis (E 1 oder E2 oder . . . ), dann ist P(A) = P(E 1 ) + P(E 2 ) +...
(Additivitatseigenschaft).
In der Mathematik wird mit diesen Eigenschaften (ergiinzt urn die auch auf unendliche Folgen ausgedehnte Additivitatseigenschaft) die Wahrscheinlichkeitsverteilung axiomatisch postuliert (Kolmogorov'sche Axiome) .
Die Anwendung der Additivitatseigenschaft auf zwei disjunkte Ereignisse E 1
und E2 fiihrt auf die sogenannte Additionsregel P(E 1 oder E2 ) = P(E1 )+ P(E2 ) ;
setzt man speziell E 1 = E und E2 = E, erhiilt man die niitzli che Formel P(E) =
1 - P( E) ftir zwei komplementiire Ereignisse.
Beispiel 1.2. Ein Ehepaar wiinscht sich wenigstens ein Miidchen. Wieviele
Kinder miissen "geplant" werden, damit dieser Wunsch mit einer Sicherheit
(d.h . Wahrscheinlichkeit) yon mindestens 95% in Erfiillung geht? (Knabenund Miidchengeburten mogen als angeniihert gleichwahrscheinlich gelten.)
Wir bezeichnen mit En das Ereignis "Von n Kindem ist mindestens eines
ein Miidchen". Urn P(E n) in Abhiingigkeit yon n darzustellen, berechnen
wir zuerst P(E n), d.h. die Wahrscheinlichkeit des zu En komplementiiren
Ereignisses En = "Von n Kindem ist kein einziges ein Miidchen". Mit Hilfe
eines Baumdiagramms (ygl. Abb. 1.3) kann man sich leicht klarrnachen,
dass Inl = 2n und IEnl = 1 ist, so dass P(E n) = 1/2 n und schlieBlich
P(E n) = 1 - P(E n) = 1 - 1/2 n folgt. Gesucht ist also die kleinste ganze
Zahl n, filr die 1 - 1/2 n ~ 0.95 gilt. Durch Umforrnung ergibt sich daraus
n ~ 1~21n O.~5 = 4.32, d.h ., erst n = 5 "geplante" Kinder ergeben eine
Sicherheit yon zumindest 95%, dass sich darunter wenigstens ein Miidchen
befindet .
7
1.2 Bedingte Wahrscheinlichkeit
1.2
1.2.1
Bedingte Wahrscheinlichkeit
Definition der bedingten Wahrscheinlichkeit
Wir betrachten ein Zufallsexperiment mit der Ergebnismenge 0 und zwei Ereignisse A und B aus O. Urn ein konkretes Experiment vor Augen zu haben ,
denke man an die hintereinander erfolgende, zufallige Auswahl von 2 Individuen aus einer Population mit n1 Individuen der Art 8 1 und n2 Individuen der
Art 8 2 (vgl. Beispiel 1.2); A und B seien die Ereignisse, dass das erste bzw.
zweite ausgewahlte Individuum aus 8 1 stammt. Die Ergebnismenge 0 des aus
den beiden Auswahlvorgangen zusammengesetzten Zufallsexperimentes umfasst
insgesamt 101 = n(n - 1) Ausgange. Offensichtlich spielt bei der Berechnung der
Wahrscheinlichkeit des Ereignisses B das Wissen iiber den Ausgang des ersten
Auswahlvorganges eine Rolle.
Hat man namlich keine Kenntnis, ob das zuerst ausgewahlte Individuum zu
8 1 oder 8 2 gehort, muss man bei der Bestimmung der Wahrscheinlichkeit von B
sowohl A als auch .4 beriicksichtigen; das Ere ignis B tritt genau dann ein, wenn
entweder = (A und B) oder D = (.4 und B) gilt. und D sind disjunkt, so dass
P(B) = P(C) + P(D) ist . Wegen lei = n1(n1 - 1) und IDI = n2n1 ist
e
e
P(B) = n1(n1 - 1) +
n(n -
1)
n1 n2 _ n1
n(n - 1)
n
WeiB man dagegen, dass beim ersten Auswahlvorgang z.B. ein 8 rIndividuum
ausgewahlt wurde, also A eingetreten ist, wird man dieses Vorwissen bei der Bestimmung der Wahrscheinlichkeit von B einbringen. Da die zweite Auswahl unter
der Bedingung erfolgt, dass bereits ein 8 rIndividuum ausgewahlt wurde, sprechen wir nun genauer vom Ereignis Bunter der Bedingung A und schreiben dafiir
BIA . Durch die Bedingung A wird das urspriingliche Experiment auf den zweiten
Auswahlvorgang eingeschrankt ; die Ergebnismenge des so eingeschrankten Experimentes sei 0'. Offensichtlich ist 10'1 = n -1. Von den in 0' liegenden Ausgangen
sind n1 - 1 fiir BIA giinstig, so dass
P(BIA)
= n1 -
1
n-l
ist . Man nennt allgemein die Wahrscheinlichkeit P(BIA) dafiir , dass ein Ereignis B
zutrifft , unt er der Vorausetzung, dass ein anderes Ereignis A eingetreten ist , eine
bedingte Wahrscheinlichkeit . Zu einer Definitionsgleichung fiir die bedingte
Wahrs cheinlichkeit P(BIA) kommt man auf folgende Weise:
Da nach Voraussetzung A eingetreten ist, kann B nur in Verbindung mit A
gelten: es ist dah er nahe liegend , die Wahrs cheinlichkeit von BIA proportional
zur Wahrscheinlichkeit von (A und B) anzusetzen , d.h ., P(BIA) = cP(A und B)
zu schr eib en mit der Proportionalitatskonstanten c. Auf Grund der unmittelbar
einsichtigen Forderung P(AIA) = 1 ergib t sich c = 1/ P(A), wobei P(A) > 0
vorauszusetz en ist. Zusammenfassend gelangt man also zur Definit ionsgleichung
P(BIA)
=
P(A und B)
P(A)
,
(1.3)
8
1 Rechnen mit Wahrscheinlichkeiten
mit der die bedingte Wahrscheinlichkeit P(BIA) auf die Berechnung der Wahrscheinlichkeiten P(A und B) und P(A) zuriickgefiihrt wird. 1m Besonderen liefert
(1.3) das im oben betrachteten Beispiel auf direktem Wege gefundene Resultat .
Einerseits ist namlich P(A und B) = n~f:~~~); denn das Ereignis (A undB) beinhaltet I(A undB)I = n,(n, - 1) Ausgiinge, da es n, Moglichkeiten gibt, zuerst
ein Srlndividuum auszuwahlen, und zu jeder ersten Wahl n, - 1 Moglichkeiten ,
ein zweites S,-Individuum auszuwahlen. Andererseits ist P(A) = nl/n; mit (1.3)
folgt daher P(BIA) = n~,'.
Allgemein gelten auch fur bedingte Wahrscheinlichkeiten die in Abschnitt
1.1.4 fiir "unbedingte" Wahrscheinlichkeiten formulierten Eigenschaften (Kolmogorov'sche Axiome); im Besonderen seien die Nichtnegativitiit (P(BIA) ~ 0) ,
die Normiertheit (p(nIA) = 1) sowie die Additionsregel P(B,IA oder B 2IA) =
P(B,IA) + P(B 2IA) fiir zwei disjunkte Ereignisse B" B 2 erwahnt.
Beispiel 1.3.
i. Nach der Sterbetafel 1990/92 fiir Osterreich sind die Wahrscheinlichkeiten der Ereignisse Em80 und Emso, dass ein mannlicher Neugeborener
das achtzigste bzw . fiinfzigste Lebensjahr vollendet, durch P(Em80) = 0.365
bzw . P(Emso) = 0.919 gegeben. Die entsprechenden Wahrscheinlichkeiten
fur eine weibliche Neugeborene sind P(Ew80) = 0.566 bzw. P(Ewso) = 0.958.
Wegen (E m8o und E mso) = Em80 und (E wso und Ewso) = Ewso - ein(e) 80Jiihrige(r) hat natiirlich au ch das 50. Jahr vollendet - findet man als (bedingte) Wahrscheinlichkeiten, dass ein 5Q-jiihriger Mann bzw . eine 50-jiihrige
Frau das achtzigste Lebensjahr vollenden, P(Em80IEmso) = ~:~~; = 0.397
und P(Ew80IEwso) = ~:;~~ = 0.591.
ii. In der Medizin werden bedingte Wahrscheinlichkeiten u.a. verwendet,
urn den Zusammenhang zwischen ein em interessierenden Risikofaktor und
einer bestimmten Diagnose (z.B . Krankheit) zu beschreiben. Bezeichnen R+
und R_ die Ereignisse "Risikofaktor vorhanden bzw. nicht vorhanden" sowie D+ und D_ die Ereignisse "Krankheit tritt auf bzw . tritt nicht auf" ,
dann stehen die Chancen (odds) , die Krankheit zu bekommen, wenn man
dem Risiko ausgesetzt ist , im Verhaltnis P(D+IR+) : P(D_IR+); analog
konnen die Chancen zu erkranken, wenn man dem Risiko nicht ausgesetzt
ist , durch P(D+IR_) : P(D_IR_) ausgednlckt werden. Bildet man schlieBlich den Quotienten aus den Wahrscheinlichkeitsverhiiltnissen fiir und gegen
das Auftreten der Erkrankung in den beiden unterschiedenen Risikosituationen , erhalt man das sogenannte Chancenverhaltnis (Odds-Ratio)
Im folgend en Zahlenbeispiel ist der Risikofaktor das "Geburtsgewicht" (R+
und R_ bedeuten ein Geburtsgewicht kleiner bzw . groBer gleich 2.500 g). Fur
Osterreich (1996) ist die - vorn Geburtsgewicht abhiingige - Wahrscheinlichkeit , da ss ein Siiugling stirbt (Ereignis D+), durch P(D+IR+) = 0.0515 bzw.
P( D+ IR_) = 0.0022 gegeb en . Gilt R+, stehen die Wahrscheinlichkeiten fiir
9
1.2 Bedingte Wahrschcinlichkeit
Tod und Uberleben im Verhiiltnis 0.0515 : 0.9485 ~ 1 : 18; gilt dagegen
R_, lautet das entsprechende Verhiiltnis 0.0022 : 0.9978 ~ 1 : 454. Damit
ergibt sich das Odds-Ratio w = 24.6, das eine deutliche Abhiingigkeit der
Siiuglingsstcrblichkeit vom Geburtsgewicht zum Ausdruck bringt.
1.2.2
Unabhangige Ereignisse
Durch Umformung gewinnt man aus Forme! (1.3) P(A und B) = P(BIA)P(A),
woraus sich die Wahrscheinlichkeit des zusammengesetzten Ereignisses (A und B)
als Produkt der Wahrscheinlichkeiten P( BIA) und P(A) darstellen lasst . Die Formel behalt auch im Faile P(A) = 0 ihre Giiltigkeit; indem man A und B vertauscht, gilt gleichermaBen P(A und B) = P(AIB)P(B). Wir notieren die Multiplikationsregel
P(A und B)
= P(BIA)P(A) = P(AIB)P(B) .
(1.4)
Wenn die Wahrscheinlichkeit von B (bzw. A) nicht davon abhiingt, ob A oder A
(bzw. B oder B) eintritt, wenn also P(BIA) = P(B) bzw. P(AIB) = P(A) gilt ,
heiBen die Ereignisse A und B unabhangig. Fur zwei unabhiingige Ereignisse A
und B vereinfacht sich die Multiplikationsrege! auf
P(Aund B)
= P(A)P(B) .
(1.5)
Beispiel 1.4. Bei der Bearbeitung eines Problems sind zwei Entscheidungen zu treffen, von denen jede einze!ne mit der Wahrscheinlichkeit O:j = 0.05
eine Fehlentscheidung sein kann. Wir bestimmen die sogenannte simultane
Irrtumswahrscheinlichkeit 0:9 , d.h. die Wahrscheinlichkeit, dass eine der Entscheidungen oder beide falsch sind . (Simultane Irrtumswahrscheinlichkeiten
spielen bei wiederholten Signifikanzpnifungen eine Rolle.) Offensichtlich ist
das Ereignis, wenigstens einmal falsch zu entscheiden, komplementiir zu dem
Ereignis, zweimal richtig zu entscheiden. Es seien A und B die Ereignisse,
dass die erste bzw. zweite Entscheidung richtig ist . Da A und B komplementar sind zu den Ereignissen, das erste bzw. zweite Mal falsch zu entscheiden, ist P(A) = P( B) = 1 - o, = 0.95.
i. Wir setzen zuerst A und B als voneinander unabhiingig voraus . Die
Wahrscheinlichkeit des zusammengesetzten Ereignisses (A und B), dass sowohl die erste als auch die zweite Entscheidung richtig ist, kann dann mit
Hilfe der Multiplikationsrege! (1.4) berechnet werden. Es ist P(A und B) =
P(A)P(B) = (1 - O:j? = 0.9025 ~ 0.9. Die Wahrscheinlichkeit, wenigstens
einmal falsch zu entscheiden, ist daher 0:9 = 1 - (1- O:j)2 = 20: j - O:j2 ~ 0.1.
(Man beachte, dass die simultane Irrtumswahrscheinlichkeit etwa doppe!t
so groB ist wie die Irrtumswahrscheinlichkeit einer jeden einze!nen Entscheidung .)
ii. Wenn die Ereignisse A und B nicht als unabhiingig vorausgesetzt
werden konnen, kommt man auf folgende Weise zu einer Abschiitzung der
simultanen Irrtumswahrscheinlichkeit. Wir betrachten die Ereignisse
£1
= (A und B),
£2
= (13 und A) und
£3
= (A und B) ;
10
1 Rechnen mit Wahrscheinlichkeiten
(A und B) --+--+---o
B
(A und B)
-~--4--<>
A
(8 und A)
-+---\----<>
Abb . 1.4. Veranschaulichung zu Beispiel1.4ii
es ist P(Ed = P(BIA)P(A) ::; P(A) und P(E 2 ) = P(AIB)P(B) ::; P(B) .
Nach Abb . 1.4 sind die Ereigniss e Ell E2 und E3 paarweise disjunkt, und
fur das sichere Ereignis gilt die Darstellung n = (E 1 oder E2 oder E3 ) . Es
folgt p(n) = 1 = P(Ed+P(E2)+P(E3 ) bzw. P(E 3 ) = 1-P(Ed-P(E2 ) ,
woraus sich die Ungleichung
P(A und B) 2: 1 - P(A) - P(B) = 1 - (1 - P(A) - (1 - P(B»
ergibt (Sonderfall der Bonferroni-Ungleichung) . Setzt man P(A) = P(B) =
1- 0i ein, erhalt man P( A und B) 2: 1- 20i und schlieBlich fiir die simultane
Irrtumswahrscheinlichkeit 0 9 = 1 - P(A und B) ::; 20i.
1.2.3
Satz von der totalen Wahrscheinlichkeit
Wir gehen von einem Zufallsexperiment mit der Ergebnismenge n und einer
"Zerlegung" von n in n Ereignisse AI, A 2 , •• • , An mit P(A i ) > 0 aus ; diese
sind so beschaffen , dass jeder Versuchsausgang in genau einem Ai liegt (vgl. Abb .
1.5). Ferner sei B irgendein Ereignis aus n mit P( B) > O. Mit Hilfe der Ai findet
man durch folgende Uberlegung eine Darstellungsformel fiir P(B) : Wir bilden die
zusammengesetzten Ereigniss e B, = (B und Ai) (i = 1,2 , ... , n) ; in jedem B, sind
also die Ausgange von B zusammengefasst, die auch in Ai liegen . Wie die Ai sind
auch die B, paarweise disjunkt ; da in den Ai alle Ausgange der Ergebnismenge
liegen, kann es keinen in B liegend en Ausgang geben , der nicht in einem B, liegt .
oder B n ) lind wegen der AdditivitatseigenDaher gilt B = (B 1 oder B 2 oder
schaft P(B) = P(Bd + P(B 2 ) +
+ P(B n) = P(B und Ad + P(B und A2 ) +
. . ·+P(B und An). Mit Hilfe der Multiplikationsregel (1.4) erhalt man daraus den
sogenannten Satz von der totalen Wahrscheinlichkeit
Beispiel 1.5. Zur Beschreibung der genetis chen Struktur einer Population
werden Genotypfrequenzen bzw. Genfrequen zen verwend et. Wir betrachten ein Merkrnal M, das dur ch einen Genort mit zwei Allelen (Genen) MI,
1.2 Bedingte Wahrscheinlichkeit
11
B
o-----'\---+-- B, = (B und Ai)
Abb. 1.5. Veranschaulichung zum Satz von der totalen Wahrscheinlichkeit
M 2 bestimmt ist. Durch Kombination der Allele ergeben sich die Genotypen M1Mh M 1M2 und M 2M2 • Als Genotypfrequenzen bezeichnen wir die
Wahrscheinlichkeiten D, H und R dafiir, dass ein zufallig ausgewahltes Individuum vom Genotyp MlMh M lM2 bzw. M 2M2 ist. Als Genfrequenzen
bezeichnen wir die Wahrscheinlichkeiten p und q dafiir, dass ein zufallig
ausgewahltes Gen vom Typ M, bzw. M 2 ist. Mit Hilfe des Satzes von der
totalen Wahrscheinlichkeit lassen sich die Genfrequenzen aus den Genotypfrequenzen berechnen, wie im Folgenden fur die Genfrequenz p gezeigt wird.
Zu diesem Zweck simulieren wir die Auswahl eines Gens aus der Population durch ein zweistufiges Zufallsexperiment, das in der Auswahl eines
Genotyps aus der Population und der nachfolgenden Auswahl eines Gens
aus dem Genotyp besteht. Indem wir die Auswahl der Genotypen MlMh
M lM2 und M 2M2 (in Verbindung mit der anschlieBenden Auswahl des ersten oder zweiten Gens) als Ereignis A l , A 2 bzw. Aa bezeichnen , haben wir
in den (paarweise disjunkten) Ereignissen A h A 2 und Aa eine Zerlegung
der Ergebnismenge des Zufallsexperimentes; die Wahrscheinlichkeiten dieser Ereignisse sind die Genotypfrequenzen, d.h . P(AI) = D, P(A 2 ) = H
und P(A a) = R. Bezeichnet weiter B die Auswahl eines Ml-Gens, kann die
gesuchte Genotypfrequenz p = P( B) als totale Wahrscheinlichkeit wie folgt
bestimmt werden:
p = P(B)
P(BIAI)P(AI)
=
1.2.4
+ P(BIA 2)P(A2 ) + P(BIAa)P(Aa)
+0 . R
1 · D + (1/2) . H
D+H/2
Bayes'sche Formel
Wie in Abschnitt 1.2.3 bedeuten die Ereignisse A h A 2 , . •. , An eine Zerlegung
der Ergebnismenge eines Zufallsexperiments, und B sei irgendein Ereignis mit
P(B) > O. Man stelle sich z.B. unter B das Auftreten eines Symptoms und unter den Ai mogliche Krankheitsursachen (Diagnosen) vor; aus Patientenstatistiken lassen sich die bedingten Wahrscheinl ichkeiten P( BIA i ) fiir das Auftreten
eines Symptoms bei Vorliegen einer Erkrankung recht gut schatzen. Der umge-
Herunterladen