Kapitel 3, Wahrscheinlichkeitstheorie

Werbung
3
Elementare Wahrscheinlichkeitstheorie
3.1
Einführung
Bisher haben wir gesehen, daß Daten, Meß- und Beobachungsergebnisse schwanken. Schwankungen haben wir graphisch und quantitativ dargestellt. Um solche
Beobachtungen verstehen und im Modell erfassen zu können, benötigen wir einige Grundbegriffe der Wahrscheinlichkeitsrechnung.
Unter einem zufälligen Ereignis verstehen wir eines, das als Folge eines Vorgangs eintritt, dessen Ergebnis nicht vorhersagbar ist. Das kann der Fall sein,
wenn viele Einzeleinflüsse eine Rolle spielen, die wir wegen ihrer hohen Zahl
nicht erfassen können, oder wenn bestimmte Parameter prinzipiell verborgen
sind. Beispiele sind Merkmalsvererbung, Mutationen beim Kopieren von Erbinformation, Flugrichtung von Insekten, . . . .
Wir unterscheiden Zufallsexperimente von deterministischen Experimenten. Das Ergebnis eines Z.s ist nicht vorhersagbar, wir können nur Aussagen
machen über die Wahrscheinlichkeiten bestimmter Ereingisse. Wahrscheinlichkeiten sind dabei Zahlen p mit der Eigenschaft 0 ≤ p ≤ 1. Beispiele:
• Münzwurf. Zwei Ergebnisse, jeweils mit pKopf = pZahl = 1/2.
• Wurf mit zwei Würfeln. Wahrscheinlichkeit, daß sich genau die Augenzahl 3 ergibt. Zwei günstige Fälle (12 und 21) von 36 insgesamt möglichen: pSumme=3 = 2/36 = 1/18. Wahrscheinlichkeit für ein Pasch. Sechs
günstige Fälle (11, 22, . . . , 66): pPasch = 6/36 = 1/6.
• Geschlecht von Neugeborenen. Von den Lebendgeborenen in Zürich zwischen 1931 und 1985 sind 51,3% Jungen. Wir schließen daraus, daß allgemein pJunge = 1 − pMädchen = 0.513. Bei großer Stichprobengröße dienen
die relativen Häufigkeiten als sehr guter Schätzer für die Wahrscheinlichkeiten von Ereignissen. Dieser Zusammenhang heißt auch Gesetz der
großen Zahlen.
3.2
Grundbegriffe
Die Menge aller möglichen Ergebnisse eines Zufallsexperiments heißt Ergebnismenge oder Stichprobenraum Ω. Ihre Elemente ω ∈ Ω heißen Elementarereignisse. Teilmengen E ⊂ Ω heißen Ergeignisse. Man sagt, Ereignis E sei
eingetreten, wenn ein Zufallsexoerimet ein Ergebnis ω ∈ E liefert.
Bei einem Würfel sind die Elementarereignisse ω1 = 1, . . . , ω6 = 6. Als Ereignis definieren wir z.B. “Augenzahl gerade”, also Egerade = {2, 4, 6}.
Das Ereignis E = Ω heißt das sichere Ereignis, E = ∅ heißt das unmögliche
Ereignis. Alle möglichen Ergebnisse ω sind in Ω enthalten, es tritt also sicher
ein. In ∅ dagegen keines, es tritt also sicher nicht ein.
15
Das Ereignis Ē − Ω\E = {ω ∈ Ω|ω ∈
/ E} heißt zu E komplementär. Im
Würfelbeispiel ist Ēgerade = Eungerade = {1, 3, 5}. Ē tritt genau dann ein, wenn
E nicht eintritt.
3.2.1
Verknüpfung von Ereignissen und Mengenlehre
Ereignisse sind Teilmengen von Ω, wie läßt sich formulieren, daß z.B.
zwei Ereignisse gleichzeitig eintreten, oder
mindestens eines von zweien eintritt?
Bsp. Würfel. Egerade = {2, 4, 6} und E≤3 = {1, 2, 3}. Beide gleichzeitig
bedeutet: Augenzahl kleiner als 3 und Augenzahl gerade, also die Schnittmenge
Egerade ∩ E≤3 = {2, 4, 6} ∩ {1, 2, 3} = {2}
Mindestens eins von beiden bedeutet die Vereinugungsmenge
Egerade ∪ E≤3 = {2, 4, 6} ∪ {1, 2, 3} = {1, 2, 3, 4, 6}
Allgemein formuliert. Bei zwei Ereignissen E und F tritt
E ∩ F genau dann ein, wenn beide gleichzeitig eintreten, und
E ∪ F genau dann ein, wenn E oder F (oder beide) eintritt (eintreten).
Zwei Ereignisse E und F , die nicht gleichzeitig eintreten können, heißen
disjunkt (“unverbunden”). Ihre Schnittmenge ist leer: E ∩ F = ∅. Beispiel:
Egerade und E5 = {5} sind disjunkt. Wenn ich einen Fünfer würfle, habe ich
keine gerade Zahl bekommen.
3.3
Axiome von Kolmogorov
Wir haben gesehen, wie man Ereignisse mengentheoretisch beschreiben kann.
Wie kann man ihnen Wahrscheinlichkeiten zuordnen, mit denen man auch noch
sinnvoll rechnen kann. In der Sprache der Mathematik nennt man solch eine
grundlegende Formalisierung ein Axiomensystem. Für uns als “Anwender” der
mathematischen Werkzeuge ist es wichtig, den Wert der Formalisierung zu erkennen, und uns immer Anwendungsbeispiele vorstellen zu können — sie also
in die “richtige Welt” zu übertragen.
K0 Jedem Ereignis E ⊂ Ω wird eine Zahl P (E), genannt die Wahrscheinlichkeit von E, zugeordnet mit folgenden Eigenschaften:
K1 Für alle Ereignisse E ⊂ Ω gilt: 0 ≤ P (E) ≤ 1
K2 P (Ω) = 1
K3 Für disjunkte Ereignisse E und F , also E ∩ F = ∅, beide treten nicht
gemeinsam auf, gilt P (E ∪ F ) = P (E) + P (F )
Beispiel: Würfel. Betrachte die sechs Ereignisse, die aus den jeweiligen Elementarereignissen bestehen:
E1 = {1},
E2 = {2},
E3 = {3},
16
E4 = {4},
E5 = {5},
E6 = {6}
Die Ei sind paarweise disjunkt, d.h.
Ei ,
Ei ∩ E j =
∅
falls i = j
sonst
Die Ereignisse sind gleich wahrscheinlich, P (Ei ) = P (Ej ) für alle i, j ∈ {1, . . . , 6}.
Mit Hilfe der Kolmogorov-Axiome rechnen wir die einzelnen Wahrscheinlichkeiten aus
1
= P (Ω)
= P (E1 ∪ . . . ∪ E6 )
= P (E1 ) + P (E2 ∪ . . . ∪ E6 )
= P (E1 ) + P (E2 ) + P (E3 ∪ . . . ∪ E6 )
...
= P (E1 ) + . . . + P (E6 )
= 6 P (Ei )
K2
K3
K3
K3
für alle i, weil alle gleich wahrscheinlich
Daher gilt für alle i: P (Ei ) = 1/6.
Rechenregeln angewandt: Die Wahrscheinlichkeit, eine gerade Zahl zu würfeln. Egerade ist die disjunkte Vereinigung von E2 , E4 und E6 . Daher
P (Egerade ) = P (E2 ) + P (E4 ) + P (E6 ) = 3 ·
3.4
3.4.1
1
1
=
6
2
Elementare Rechenregeln
Komplementäre Ereignisse
Für ein Ereignis E gilt wegen
1 = P (Ω) = P (E ∪ Ē) = P (E) + P (Ē)
(denn E und Ē sind disjunkt)
P (Ē) = 1 − P (E)
3.4.2
Vereinigung nicht disjunkter Ereignisse
Aus der Abbildung
F
E
E ∩F
E ∩F
E ∩F
17
Ω
sehen wir, daß
E ∪ F = (E ∩ F̄ ) ∪ (E ∩ F ) ∪ (Ē ∩ F )
E = (E ∩ F̄ ) ∪ (E ∩ F )
F = (E ∩ F ) ∪ (Ē ∩ F ),
wobei auf den rechten Seiten disjunkte Vereinigungen stehen. Mit Axiom K3
ergibt sich daraus
P (E ∩ F̄ ) = P (E) − P (E ∩ F )
P (Ē ∩ F ) = P (F ) − P (E ∩ F )
Damit folgt
P (E ∪ F ) = P (E ∩ F̄ ) + P (E ∩ F ) + P (Ē ∩ F )
= P (E) − P (E ∩ F ) + P (E ∩ F ) + P (F ) − P (E ∩ F )
= P (E) + P (F ) − P (E ∩ F )
(34)
Wenn zwei Ereignisse nicht disjunkt sind, hat man mit P (E) + P (F ) die
Schnittmenge doppelt gezählt. Man muß deren Wahrscheinlichkeit daher wieder einmal abziehen.
3.4.3
Inklusion
Wenn E ein Spezialfall von F , also E ⊂ F , dann ist P (E) ≤ P (F ). Anschaulich klar. Läßt sich mit den K-Axiomen zeigen:
F = E ∪ (F ∩ Ē), disjunkt vereinigt. Daher P (F ) = P (E) + P (F ∩ Ē).
Wegen K1 ist aber P (F ∩ Ē) ≥ 0, also P (F ) ≥ P (E).
3.4.4
Mehrere paarweise disjunkte Ereignisse
Die Summenregel K3 läßt sich verallgemeinern
P (E1 ∪ . . . ∪ En ) = P (E1 ) + . . . + P (En )
Siehe die Rechnung für den Würfelwurf.
3.5
Bedingte Wahrscheinlichkeiten
Betrachte ein Beispiel. 1000 Personen werden untersucht. Eine verbreitete
Krankheit tritt häufiger bei Untergewichtigen als bei normalgewichtigen auf.
Zahlenbeispiel:
untergewichtig
normalgewichtig
Spaltensumme
krank gesund Zeilensumme
300
200
500
100
400
500
400
600
18
Insgesamt sind 40% der Testpersonen erkrankt, aber 60% der Untergewichtigen. Wenn wir das Gewicht einer Person kennen, wissen wir also etwas über die
Erwartung, ob sie krank oder gesund ist. Allgemeiner formuliert: Mit welcher
Wahrscheinlichkeit tritt Ereignis E ein, wenn wir wissen, daß F eintritt. Das
ist die bedingte Wahrscheinlichkeit P (E|F ).
Analysiere das Beispiel genauer. Unterscheide folgende Ereignisse:
K:
G:
U:
N:
die
die
die
die
Person
Person
Person
Person
ist
ist
ist
ist
krank.
gesund.
untergewichtig.
normalgewichtig.
Offensichtlich gilt für die Ergebnismenge
Ω = K ∪ G = U ∪ N = (K ∩ U ) ∪ (G ∩ U ) ∪ (K ∩ N ) ∪ (G ∩ N )
Die Wahrscheinlichkeiten der Ereignisse lassen sich aus der Tabelle ablesen:
P (U ) = 0.5, P (N ) = 0.5, P (K) = 0.4, P (G) = 0.6, sowie P (K ∩ U ) = 0.3,
P (G ∩ U ) = 0.2, P (K ∩ N ) = 0.1, P (G ∩ N ) = 0.4.
Durch geeignetes Kombinieren erhält man den Anteil der Kranken unter
den Untergewichtigen
P (K ∩ U )
:= P (K|U ) = 0.6
P (U )
oder der Gesunden unter den Normalgewichtigen
P (G ∩ N )
:= P (G|N ) = 0.8
P (N )
oder der Untergewichtigen unter den Kranken
P (K ∩ U )
:= P (U |K) = 0.75
P (K)
oder . . .
Allgemein: Seien E, F ⊂ Ω zwei Ereignisse, mit P (F ) > 0, d.h. F ist nicht
unmöglich. Dann ist
P (E ∩ F )
.
(35)
P (E|F ) =
P (F )
3.6
Bayessche Formel
Anwendungsbeispiel ist ein Test auf eine seltene Krankheit, der nicht fehlerfrei
ist. Folgendes ist bekannt:
1. Die Krankheit haben 0.1% der Bevölkerung
2. Der Test gibt bei 95% aller Kranken einen positiven Befund.
3. Der Test gibt bei 3% aller Gesunden einen positiven Befund.
19
Wir wollen entscheiden, ob der Test geeignet für eine Reihenuntersuchung ist.
Dazu müssen wir zwei Fragen klären: Wie groß ist die Wt., daß eine Person
mit positivem Testergebnis nicht krank ist, und daß eine mit negativem krank
ist. Wir berechnen also die Irrtumswahrscheinlichkeiten.
Ereignisse definieren: K krank, π positives Testergebnis. Wir wissen: P (K) =
0.001, P (π|K) = 0.95, P (π|K̄) = 0.03. Gesucht sind P (K̄|π) und P (K|π̄).
Dazu benötigen wir den Satz von der totalen Wahrscheinlichkeit. Betrachte
eine Zerlegung von Ω in paarweise disjunkte Ereignisse, Ω = F1 ∪. . .∪Fn . Dann
können wir ein beliebiges Ereignis E darstellen durch
P (E) =
n
X
i=1
P (E ∩ Fi ) =
n
X
P (E|Fi ) P (Fi )
(36)
i=1
siehe Gleichung (35).
Jetzt “drehen” wir mit Hilfe der Gleichungen (35) und (36) “den Spieß um”
und erhalten
P (Fi |E) =
P (Fi ∩ E)
P (E|Fi ) P (Fi )
= Pn
,
P (E)
j=1 P (E|Fj ) P (Fj )
(37)
die sogenannte Bayessche Formel (nach Thomas Bayes, 1702-1761).
Anwendung auf unser Beispiel: Die Zerlegung ist Ω = K ∪ K̄ = F1 ∪ F2 .
Das positive Testergebnis π ist E. Einsetzen
0.03 · 0.999
P (π|K̄) P (K̄)
=
= 0.96
0.95 · 0.001 + 0.03 · 0.999
P (π|K) P (K) + P (π|K̄) P (K̄)
(38)
Das heißt, 96% der positiv getesteten sind überhaupt nicht krank! Der Test ist
also zu unsicher.
P (K̄|π) =
Die andere Irrtumswahrscheinlichkeit ist
0.05 · 0.001
P (π̄|K) P (K)
=
= 0.00005
0.05 · 0.001 + 0.97 · 0.999
P (π̄|K) P (K) + P (π̄|K̄) P (K̄)
(39)
Über ein negatives Testergebnis darf man sich also beruhigt freuen.
P (K|π̄) =
3.7
Laplace–Wahrscheinlichkeiten
Wenn alle Elementarereignisse ω1 . . . ωn ∈ Ω gleich wahrscheinlich sind, also
P ({ω1 }) = . . . = P ({ωn }) = 1/n, heißt (Ω, P ) Laplacescher Wahrscheinlichkeitsraum, benannt nach Pierre–Simon (Marquis de) Laplace (1749–1827).
Die Wahrscheinlichkeit eines Ereignisses E ergibt sich dann aus der Kardinalität von E, d.h. aus der Anzahl der Elementarereignisse in E. Als anschauliches Bild stellt man sich oft eine Urne oder Lostrommel vor, aus der man
Kugeln zieht.
Hier einige Beispiele von häufig auftretenden Verteilungen.
20
3.7.1
Kugeln ziehen, nicht zurücklegen, Reihenfolge beachten
Bei der ersten Kugel n Möglichkeiten, bei der zweiten n(n − 1), usw. Es gibt
für k Kugeln
n!
n (n − 1) . . . (n − k + 1) =
(n − k)!
Möglichkeiten. Der Ausdruck n! = 1·2·. . .·n heißt n-Fakultät. Nach Definition
0! = 1.
3.7.2
Kugeln ziehen, nicht zurücklegen, Reihenfolge nicht beachten
Das entspricht den Lottozahlen. Es gibt n!/(n − k)! Möglichkeiten, Kugeln zu
ziehen. Jeweils k! davon untescheiden sich nur durch Unterschiedliche Reihenfolge. Es gibt also
n
n!
=
k
k! (n − k)!
(“n über k”, sog. Binomialkoeffizient) echt verschiedene Möglichkeiten.
3.7.3
Kugeln ziehen, zurücklegen, Reihenfolge beachten
Bei jedem Zug gibt es n Möglichkeiten, insgesamt also nk .
3.8
Mehrstufige Bernoulli–Experimente
Zufallsexperimente, deren Ergebnismenge Ω nur zwei Elementarerignisse enthält, heißen Bernoulli–Experimente, benannt nach dem Basler Jakob Bernoulli
(1655–1705). Münzwurf, Geschlecht von Kindern, . . . .
Was passiert, wenn B-Experimente n–mal wiederholt werden? Z.B., mit
Wahrscheinlichkeit p ist ein Kind männlich, mit q = 1 − p weiblich. Wie ist die
Wahrscheinlichkeit, unter n Kindern k Jungen zu haben. Betrachte dazu den
Entscheidungsbaum:
p
q
M
W
p
q
MM
p
p
MW
q
p
q
WM
p
q
WW
q
p
q
MMM MMW MWM MWW WMM WMW WWM WWW
Aus dem Baumdiagramm kann man die Wahrscheinlichkeiten der Elementarereignisse ablesen. Jeder schritt nach links hat Wt. p, jeder nach rechts hat
21
Wt. q. So erhält man z.B.
P (M M M ) = p3
P (W W W ) = q 3
P (W M W ) = p q 2
P (M W W ) = p q 2 usw.
Die Wt.en der Elementarereignisse hängen nur von der Anzahl der W bzw. M
ab.
Wir fassen nun für n Wiederholungen die Elementarereignisse mit jeweils
k
Ergebnissen vom typ M zusammen. Nach Abschnitt gibt es davon nk Stück,
alle disjunkte Elementarereignisse, mit derselben Wt. pk q n−k . Also ist
n
pn,p (k) =
pk (1 − p)n−k
(40)
k
die gesuchte Wahrscheinlichkeit. Sie heißt auch Binomialverteilung.
Beipiel: Mendelscher Versuch, zweimal die Binomialverteilung angewandt.
Kreuzung homozygoter Erbsen mit runder (RR) und eckiger (EE) Samenform.
In der F1 –Generation erhält man heterozygote (RE). In der F2 –Generation
erhält jedes Individuum von Vater und Mutter jeweils mit p = 1/2 ein E– bzw.
ein R–Gen. Daher ist p(EE) = p(RR) = 1/4 und p(ER) = 1/2. Wichtig: wir
können nicht zwischen ER und RE unterscheiden, beide Fälle werden also
zusammengefaßt.
F1
F2
p(EE) = p(ER) = p(RE) = p(RR) = 1/4
R ist dominant. Die Wahrscheinlichkeit einen runden Samen im Phänotyp
zu erhalten ist also p(R) = p(RR) + p(ER) = 3/4. Wie groß ist z.B. die
Wahrscheinlichkeit unter 32 Samen 26 runde und 6 eckige zu zählen? Binomial:
32
p32,3/4 (26) =
0.7526 0.256 ≈ 0.1249.
(41)
26
3.9
3.9.1
Diskrete Zufallsvariablen
Wahrscheinlichkeitsdichte und Verteilungsfunktion
Eine Zufallsvariable X, die nur diskrete (d.h. isolierte) Werte annehmen kann
heißt diskrete Zufallsvariable. Beispiel: Ganze Zahlen, wie z.B. die Zahl runder
22
Erbsensamen in Mendels Experiment.
Eine Funktion f , die jedem Wert x, den die Zufallsvariable X annehmen
kann, eine Wahrscheinlichkeit P (X = x) = f (x) zuordnet, heißt Wahrscheinlichkeitsdichte.
Wenn X die Werte x ∈ Ξ annehmen kann, sind die Ereignisse Ex =
{ω|X(ω) = x} paarweise disjunkt. Dann ist
X
X
X
f (x) =
p(X = x) =
p(Ex ) = p(∪x∈Ξ Ex ) = p(Ω) = 1.
(42)
x∈Ξ
x∈Ξ
x∈Ξ
Fazit: Die einzelnen Wahrscheinlichkeiten bzw. Wahrscheinlichkeitsdichten summieren sich zu 1 auf.
Entsprechend der Kumulativen Häufigkeit bei Stichproben definiert man
auch die Verteilungsfunktion der Zufallsvariablen X,
X
F (x) =
f (x).
(43)
{y∈Ξ|y≤x}
Man kann F als Stammfunktion zu f auffassen. Mehr dazu später bei Verteilungen kontinuierlicher Zufallsvariablen. Für den maximalen Wert xmax =
max Ξ gilt: F (xmax ) = 1. Warum?
3.9.2
Unabhängigkeit
Zwei Zufallsvariablen X und Y mit Werten x ∈ Ξ und y ∈ Ψ heißen unabhängig, wenn
p((X = x) ∧ (Y = y)) = p(X = x) p(Y = y)
(44)
gilt für alle Werte x und y.
3.9.3
Erwartungswert und Varianz
Wir kennen bereits arithmetisches Mittel und empirische Varianz von Stichproben. Zu einer diskreten Zufallsvariablen X definieren wir den Erwartungswert
X
E(X) =
x p(X = x)
(45)
x
und die Varianz
V(X) =
X
x
(x − E(X))2 p(X = x)
(46)
p
Ihre Wurzel V(X) heißt Standardabweichung. Nach dem Gesetz der großen
Zahlen konvergieren bei langen Serien unabhängiger Ergebnisse einer Zufallsvariablen die empirischen Mittel und Varianzen von Meßreihen gegen die “tatsächlichen” Größen der zugrundeliegenden Verteilungen.
23
Verschiebungssatz: V(X) kann man aus E(X) und E(X 2 ) berechnen.
X
V(X) =
(x − E(X))2 p(X = x)
x
=
X
x
=
(x2 − 2xE(X) + E(X)2 ) p(X = x)
X
x
x2 p(X = x) − 2E(X)
X
x
x p(X = x) + E(X)2
= E(X 2 ) − 2E(X)2 + E(X)2 = E(X 2 ) − E(X)2
X
p(X = x)
x
Beispiel: Bernoulli-Experiment mit Werten 0 und 1, p(X = 1) = p.
E(X) = 1 · p + 0 · (1 − p) = p
V(X) = E(X 2 ) − E(X)2
= 12 · p + 02 · (1 − p) − E(X)2
= p − p2 = p (1 − p)
(47)
An dieser Stelle können wir verstehen, warum beim Schätzer der Varianz
einer Meßreihe n − 1 im Nenner steht. Nimm an, wir haben eine Meßreihe
x1 , . . . , xn von n unabhängig ausgewürfelten Werten einer Zufallsvariablen X.
Berechne den Erwartungswert

!2 
n
X
X
1
xi −
E
(48)
xj  =
n
i=1
j
indem wir einsetzen p(X(1) = x1 ∧ . . . ∧ X(n) = xn ) = p(X(1) = x1 ) · . . . ·
p(X(n) = xn ). X(i) bezeichnet die i-te Ziehung der Z.variablen.

!2 
n
X
X
X X
1
xj 
p(X(1) = x1 ) · . . . · p(X(n) = xn ) 
...
xi −
=
n
xn
x1
j
i=1


!2
X
X
X
X X
1
2
xi xj 
xj −
p(X(1) = x1 ) · . . . · p(X(n) = xn ) 
x2i +
...
=
n
n
x
x
i,j
j
i
1
n
= n E(X 2 ) −
X
1X X
p(X(1) = x1 ) · . . . · p(X(n) = xn )
xi xj
...
n x
x
i,j
n
1
trenne die Summe auf nach i = j und i 6= j
X
1X X
= (n − 1) E(X 2 ) −
p(X(1) = x1 ) · . . . · p(X(n) = xn )
xi xj
...
n x
x
i6=j
1
= (n − 1) E(X 2 ) −
n
n(n − 1) X X X
n
x1
x2
x3
...
X
xn
p(X(1) = x1 )p(X(2) = x2 )p(X(3) = x3 ) · . . .
der letzte Schritt gilt, weil die Summe für alle Paare i, j gleich ist. Es gibt
n(n − 1) solcher Paare.
= (n − 1) E(X 2 ) − (n − 1) E(X)2
= (n − 1) V(X).
24
(49)
(50)
Übungsaufgaben: Rechenregeln für Varianz und Erwartungswert. Seien
X und Y Zufallsvariablen, c eine reelle Zahl. Zeige, daß
E(cX) = cE(X)
E(X + Y ) = E(X) + E(Y )
V(cX) = c2 V(X)
Zeige außerdem für unabhägige X und Y
E(XY ) = E(X) E(Y )
V(X + Y ) = V(X) + V(Y )
3.9.4
Beispiele diskreter Verteilungen
Geometrische Verteilung
Betrachte eine Folge von Zufallsexperimenten, z.B. eine Serie von Münzwürfen.
Wie lange muß man warten, bis der erste Erfolg eintritt, z.B. bis zum ersten
Mal “Zahl” geworfen wird?
Definiere als Zufallsvariable den “Erfolg” im t–ten Schritt, Et = 1 bei Erfolg
und = 0 bei Mißerfolg. Dann ist der Zeitpunkt des ersten Erfolgs
T = min{t ≥ 1|Et = 1} und W = T − 1
die Wartezeit W . Wir haben also W –mal 0 und dann eine 1 erhalten. Die
Wahrscheinlichkeit für jeden einzelnen Erfolg p ist, ist die Wahrscheinlichkeit
für die Eintreffzeit T = k also
P (T = k) = P (E1 = 0, . . . , Ek−1 = 0, Ek = 1) = (1 − p)k−1 p.
(51)
Erwartungswert der Eintreffzeit
E(T ) =
∞
X
k P (T = k) = p
∞
X
k=1
k=1
k (1 − p)k−1
Läßt sich mit einem Trick ausrechnen
X d
ET = −p
(1 − p)k
dp
k
d
= −p
dp
= −p
X
k
(1 − p)
d 1
1
=
dp p
p
k
(52)
(53)
!
(54)
Das Ergebnis ist intuitiv einleuchtend: Wenn bei jedem Schritt die Erfolgswahrscheinlichkeit p ist, tritt der Erfolg im Mittel beim 1/p–ten Schritt ein.
Analog für die Varianz
X
V(T ) = p
k 2 (1 − p)k−1 − E(T )2
(55)
k
= ... =
1−p
p2
(56)
25
Anmerkung: Summenformel für geometrische Reihe
(1 − q)
k
X
l=0
q l = 1 − q k+1 → 1
im Limes k → ∞ für q < 1.
Multinomialverteilung
Wiederhole ein Zufallsexperiment n–mal, dessen Ergebnismenge
Ω = {ω1 , . . . , ωk }
P
mit Einzelwahrscheinlichkeiten pi ist. Natürlich i pi = 1. Im Gegensatz zum
Bernoulli–Experiment mit Binomialverteilung haben wir hier also k mögliche
Elementarereignisse. Der Vektor N = (N1 , . . . , Nk ) gibt die jeweiligen Häufigkeiten an. Was ist seine Wahrscheinlichkeitsdichte, also P (N1 = n1 , . . . , Nn =
nn ) = P (N = n).
Wahrscheinlichkeit
Stichprobe, bei der ni –mal ωi beobachtet wird
Q einer
nk
ni
n1
ist p1 · . . . · pk = i pi . Jetzt müssen wir noch berücksichtigen, wieviele
Kombinationen es gibt, auf wieviele
auf
Weisen wir die ωi s verteilen könnenn−n
n
die n Ziehungen. Dabei gibt es n1 Möglichkeiten für ω1 . Danach bleiben n2 1
für ω2 , n−nn13−n2 für ω3 , usw. Insgesamt also ist die Anzahl der Möglichkeiten
gegeben durch den Multinomialkoeffizienten
n!
n − n1
n
n − n1 − . . . nk−1
· ... ·
=
n1
n2
nk
n1 ! n 2 ! · . . . · n k !
Daher
P (N = n) =
n!
pn1 · . . . · pnk k
n1 ! n 2 ! · . . . · n k ! 1
(57)
Poissonverteilung
Grenzfall der Binomialverteilung mit Wt.dichte pn,p (k) für n → ∞ und p → 0,
so daß aber n p ≡ λ konstant bleibt. Explizit einsetzen p = λ/n
n−k
k 1
λ
λ
pn,p (k) =
1−
n(n − 1) · . . . · (n − k + 1)
k!
n
n
k−1
1
k
λ −λ 1 1 − n · . . . · 1 − n
(58)
e
=
k
k!
1− λ
n
= pλ (k)
(59)
wobei wir benutzt haben, daß (1 − λ/n)n → exp(−λ) und daß der Bruch für
feste λ und k gegen 1 geht.
Beispiele: 1. Ein Protein hat 45 mögliche Stellen, an denen eine flureszierende grüne Markierung angebracht werden kann, an jeder Stelle ist die Wahrscheinlichkeit, daß ein Marker bindet etwa 5%. Die Verteilung der Anzahl der
Marker an einem Protein ist streng genommen binomial, kann aber schon recht
gut durch eine Poisson–Verteilung mit λ = 0.05 · 45 beschrieben werden.
2. Samen werden gleichmäßig über ein größes Feld verteilt. Zahl der Samen in
einem kleinen Flächenstück ist Poisson–verteilt.
Historisch: Nach Siméon Denis Poisson (1781–1840). Entwickelte die Verteilung Recherches sur la probabilité des jugements en matière criminelle et
matière civile. Auf ihn geht auch der Begriff Gesetz der großen Zahlen zurück.
26
3.10
Stetige Verteilungen
In Kapitel 2 haben wir Histogramme von Größen gezeichnet, die beliebige reelle
Werte annehmen können, z.B. bei Messungen von Längen, Winkeln, Konzentrationen . . . . Wir haben dazu den “Raum” oder Wertebereich, in dem die
Meßergebnisse liegen, in Klassen unterteilt und das Histogramm gezeichnet
nach der Anzahl der Meßpunkte in jeder Klasse. Dadurch haben wir den zunächst kontinuierlichen Wertebereich durch einen diskreten angenähert, über
dem wir die Häufigkeitsdichten bestimmt und gezeichnet haben.
3.10.1
Stetige Wahrscheinlichkeitsdichte
Ähnlich machen wir es mit Wahrscheinlichkeitsdichten. Betrachte eine Zufallsvariable X mit Werten in den reellen Zahlen. Wir teilen den Wertebereich in
immer feinere Intervalle Iε (n) = [ε(n−1/2), ε(n+1/2)) der Länge ε auf und bestimmen für jedes Intervall die Wahrscheinlichkeit P (X ∈ Iε (n)). Wir denken
uns ein “Histogramm”, genauer eine Stufenfunktion fε (x) = P (X ∈ Iε (n))/ε
für x ∈ Iε (n), also 1/ε mal der diskreten Wahrscheinlichkeitsdichte, daß der
Wert von X in dem betreffenden Intervall liegt.
f(x)
ε=1
ε = 1/2
ε = 1/4
1
−1
x
Hier ein Beispiel mit ε = 1, 1/2, 1/4. In vielen Fällen nähert sich diese Stufenfunktion immer näher eine glatten, stetigen Funktion f (x) an. Diese ist die
Wahrscheinlichkeitsdichte der Zufallsvariable X. Wegen der Konstruktion von
gilt für das Integral Rüber die gesamte Ergebnismenge Ω, den gesamten möglichen Wertebereich, Ω f (x) dx = 1.
Die Wahrscheinlichkeit, daß der Wert von X in einem Bestimmten Bereich
liegt, z.B. dem Intervall [a, b], ist dann gegeben durch Anteil der Gesamtdichte,
der über [a, b] liegt, nämlich
Z b
P (a ≤ X ≤ b) =
f (x) dx
(60)
a
Wie für diskrete Zufallsvariablen definieren wir auch hier eine Verteilungsfunktion
Z x
F (x) = P (X ≤ x) =
f (y) dy
(61)
inf Ω
(inf Ω bezeichnet dabei das untere Ende des Wertebereichs, das Infinum von
Ω, das obere Ende ist das Supremum, sup Ω). Die Verteilungsfunktion ist oft
bequem zum rechnen. Z.B.
P (a ≤ X ≤ b) = F (b) − F (a)
27
(62)
oder: Die Wahrscheinlichkeit, daß das Maximum von n unabhängigen Ziehungen von X, also der größte Wert bei n Ziehungen, kleiner als x ist, ist gerade
P (max(X1 , . . . , Xn ) ≤ x) = P (X1 ≤ x) · . . . · P (Xn ≤ x) = F (x)n
(63)
Den Median oder allgemeiner p–Quantil einer Verteilung bestimmt man aus
der Verteilungsfunktion durch
P (X ≤ xp ) = p bzw. F (xp ) = p
3.10.2
(64)
Erwartungswert und Varianz
Wie bei den diskreten Zufallsvariablen berechnen wir mit Hilfe der Wahrscheinlichkeitsdichte den Erwartungswert
Z
E(X) = x f (x) dx
(65)
einer Zufallsvariablen und ihre Varianz
Z
V(X) = (x − E(X))2 f (x) dx = E(X 2 ) − E(X)2
3.10.3
(66)
Transformationen von Zufallsvariablen
Auch hier hilft die Verteilungsfunktion. Angenommen wir haben die Transformation von x nach y = y(x) und ihre Umkehrfunktion x = x(y), die aber streng
monoton sein soll, also: für x1 < x2 gilt auch y1 = y(x1 ) < y2 = y(x2 ). Was ist
dann die Wahrscheinlichkeitsdichte g(y)? Berechne mit der Verteilungsfunktion
G(y) = P (Y ≤ y) = P (X < x(y)) = F (x(y))
(67)
Also ist nach der Kettenregel
g(y) = G0 (y) =
d
d
dx
dx
G(y) =
F (x(y)) = F 0 (x(y))
= f (x(y))
dy
dy
dy
dy
(68)
Die Wahrscheinlichkeitsdichte g(y) ist also gegeben durch die des zugehörigen x, f (x(y)), multipliziert mit einem Faktor dx/dy. Beispiel wäre die Umrechnung von Celsius in Fahrenheit aus Kapitel 2: y = 9/5 x + 32, also
x = 5/9 (y − 32). Dann ist dx/dy = 5/9 und g(y) = 5/9 f (5/9 (y − 32)).
Der Vorfaktor 5/9 ist auch intuitiv klar: Die Fahrenheitwerte y streuen über
einen größeren Bereich als die Celsiuswerte x, die Dichte muß deshalb geringer
sein.
3.10.4
Beispiele stetiger Verteilungen
Gleichverteilung
Jeder Wert auf einem Intervall [a, b] sei gleich wahrscheinlich. Dann ist die
W.dichte
1
für x ∈ [a, b]
b−a
f (x) =
(69)
0
sonst
28
Je schmaler das Intervall, desto höher die Dichte in seinem Inneren. Die gesamte Fläche muß 1 sein.
Normalverteilung
Eine besondere Rolle, die wir noch sehen werden, spielt die Gaußsche Normalverteilung. Mit Mittelwert 0 und Varianz 1 ist sie
2
1
−x
f0,1 = √
exp
.
(70)
2
2π
R
Der Vorfaktor garantiert f0,1 = 1, die Normierung der Wahrscheinlichkeitsverteilung. Allgemeiner, mit Mittelwert µ und Varianz σ 2 , was man durch eine
Transformation der Variablen x → µ + σx erhält
1
−(x − µ)2
(71)
fµ,σ = √
exp
2σ 2
2πσ 2
Häufig benutzte Eigenschaften der Gaußverteilung:
Erwartungswert
Z ∞
1
−(x − µ)2
x√
E(X) =
dx
exp
2σ 2
2πσ 2
∞
Z ∞
1
−(x − µ)2
(x − µ) √
=
dx
exp
2σ 2
2πσ 2
∞
Z ∞
1
−(x − µ)2
√
dx
+ µ
exp
2σ 2
2πσ 2
∞
= µ
(72)
wobei das erste Integral = 0 ist, weil der Integrand symmetrisch um µ ist, und
das zweite gerade = 1 wegen der Normierung einer Wahrscheinlichkeitsverteilung.
Varianz
Z ∞
1
−(x − µ)2
2
V(X) =
(x − µ) √
dx
(73)
exp
2σ 2
2πσ 2
∞
2
Z ∞
σ3
−y
2
= √
dy
y exp
2
2
2πσ
∞
= σ2
wobei wir zur 2. Zeile hin die Variablentransformation y = (x − µ)/σ benutzt
haben.
σ–Bereich
Z µ+σ
Z 1
fµ,σ (x) dx =
f0,1 (x) dx ≈ 0.68
(74)
µ−σ
−1
Die Wahrscheinlichkeit eine Zahl im Bereich einer Standardabweichung links
und rechts von der Mitte zu erhalten ist 0.68 (gerundet auf ganze %). Wegen
der Symmetrie ist die Wt. für Werte unterhalb von µ − σ und oberhalb von
µ + σ jeweils 0.16 (auch gerundet). Diese Werte sind also die 0.16– und 0.84–
Quantile. Ferner liegen zwischen µ − 2σ und µ + 2σ ca. 95.4%, zwischen µ − 3σ
und µ + 3σ ca. 99.7% der Gesamtwahrscheinlichkeit.
29
0.4
2σ−Bereich
σ−Bereich
f0,1
0.3
0.2
0.1
0
−4 −3 −2 −1
0
1
2
3
4
Beispiele: (1) Der Intelligenzquotient einer Bevölkerung folgt recht gut einer
Normalverteilung. Seine Skala wurde so gewählt, daß µ = 100 und σ = 15.
D.h., 50% aller Menschen haben einen IQ > 100, 16% > 115 und 2.3% > 130.
(2) Bei Reihenuntersuchungen von Kindern (U1, U2, . . . ) werden u.a. Maße
wie Größe, Gewicht etc. in ihrer zeitlichen Entwicklung in eine Graphik eingetragen, sog. Somatogramm. Zum Vergleich sind die 3%–, der Median, und die
97%–Quantile als Linien angegeben. Solche Maße sind also auch normalverteilt.
Einschub: Grenzwertsätze (Gesetz der Großen Zahlen).
Zur Herleitung brauchen wir die Ungleichng von Tschebyscheff. Sie macht eine Aussage darüber, wie (un)wahrscheinlich “große Ausreißer” sind. Betrachte
eine Zufallsvariable X mit Erwartungswert µ und Varianz σ 2 . Wir Verknüpfen
σ 2 mit der Wahrscheinlichkeit, Werte außerhalb eines Bereiches ±η um µ zu
erhalten:
Z
2
V(X) = σ = (x − µ)2 f (x) dx
Z µ−η
Z ∞
2
≥
(x − µ) f (x) dx +
(x − µ)2 f (x) dx
(75)
−∞
≥ η2
Z
µ+η
µ−η
f (x) dx + η 2
−∞
Z
∞
µ+η
f (x) dx = η 2 P (|X − µ| > η)
andersherum geschrieben
P (|X − µ| > η) ≤
V(X)
η2
(76)
In Abschnitt 3.9.3 hatten wir Erwartungswert und Varianz von Summen unabhängiger Zufallsvariablen kennengelernt. Bei n unabängigen “Ziehungen” von
X1 , . . . , Xn von X ist der Erwartungswert ihres arithmetischen Mittels
!
1X
1
1X
(77)
E
Xi =
E(Xi ) = n E(X) = E(X) =: µ
n i
n i
n
und die Varianz des arithmetischen Mittels
!
1X
1 X
1
1
σ2
V
V(Xi ) = 2 n V(X) = V(X) = .
Xi = 2
n i
n i
n
n
n
30
(78)
√
Die Varianz nimmt also mit 1/n ab, die Standardabweichung mit. 1/ n.
Die Wahrscheinlichkeit, daß das arithmetische Mittel der n Ziehungen nicht
weiter als ein kleines ε von µ abweicht, geht wegen Tschebyscheff mit der Zahl
der Ziehungen nach 1:
!
!
1 X
X
σ 2 n→∞
1
1
P Xi − µ < ε ≥ 1 − 2 V
Xi = 1 − 2 −→ 1. (79)
n
ε
n i
nε
i
Fazit: Wenn man nur genug Daten hat, kann man den Erwartungswert beliebig
gut messen. Das ist das Gesetz der Großen Zahlen. Allerdings kann “beliebig”
ganz schön groß sein. Wenn man eine Messung um den Faktor 10 verbessern
will (d.h. σ auf 1/10 drücken), braucht man 100–mal soviele Daten!
Zentraler Grenzwertsatz.
Hier zeigt sich nun die Bedeutung der Gauß–Normalverteilung. Wenn X beliebig verteilt ist, mit Erwartungswert µ und Varianz σ 2 , dann konvergiert die
Verteilung der arithmetischen Mittel von n Ziehungen gegen eine Gaußverteilung mit Erwartungswert µ und Varianz σ 2 /n.
Daß Erwartungswert und Varianz diese Werte annehmen, haben wir bereits
oben gezeigt. Daß es tatsächlich eine Gaußverteilung ist, erfordert etwas mehr
Aufwand. Wir zeigen hier nur einige Beispiele, die das veranschaulichen:
8
7
6
5
4
3
2
1
0
−0.2
0
0.2
0.4
0.6
0.8
1
1.2
0.45
0.4
0.35
0.3
0.25
0.2
0.15
0.1
0.05
0
−5
−4
−3
−2
−1
0
1
2
3
4
5
Hier eine zwischen 0 und 1 gleichverteilte Zufallsvariable, Histogramme der
Häufigkeitsdichten von 2.5 × 105 Ziehungen. Dabei sind die Zahlen selbst und
die arithmetischen Mittel über je 2, 4, 8, 16, und 32 Zahlen erfaßt. Oberes
Diagramm: Man sieht, wie die Verteilungen immer schärfer um die Mittelwert
µ = 1/2 werden. Unteres Diagramm: Die
√ Verteilungen sind alle auf Mittelwert
0 und Varianz 1 reskaliert, also über n (x − µ)/σ aufgetragen. Man sieht,
wie die Kurven für höhere n alle übereinanderliegen. Sie nähern sich einer
Gauß–Normalverteilung an.
31
5
4.5
4
3.5
3
2.5
2
1.5
1
0.5
0
0
0.5
1
1.5
2
2.5
3
1
0.9
0.8
0.7
0.6
0.5
0.4
0.3
0.2
0.1
0
−5
0
5
10
Dasselbe für eine schiefe Verteilung, Exponentialverteilung mit µ = 1/2 und
die gleichen n. Je mehr Zahlen gemittelt werden, umso mehr gleicht sich die
Form einer symmetrischen Gaußverteilung an.
0.45
0.4
0.35
0.3
0.25
0.2
0.15
0.1
0.05
0
−5
−4
−3
−2
−1
0
1
2
3
4
5
Hier sind je n = 128 gleichverteilte und exponentialverteilte Zahlen gemittelt,
die resultierende Häufigkeitsdichte reskaliert geplottet. Sie lassen sich nicht
mehr voneinander und von einer Gauß–Verteilung unterscheiden.
Eine letzte Anmerkung zur Sonderrolle der Gauß–Verteilung: Das arithmetische Mittel zweier (und damit auch mehrerer) normalverteilter Zufallsvariablen ist auch wieder normalverteilt. Betrachte X1 und X2 , unabhängig, beide
mit Wt.dichte f (x), dann ist die Wt.dichte des arithm. Mittels der beiden
Zahlen
Z ∞
2
P x ≤ X1 +X
<
x
+
dx
2
=
f2 (x) =
f (x − y/2) f (x + y/2) dy
(80)
dx
−∞
Zur Erklärung: wir integrieren mit y über zwei Zahlen x1 = x − y/2 und
x2 = x + y/2, die voneinander den Abstand y haben und deren arithmetisches
Mittel gerade gleich x ist. Diese Kombination ist eine Form der Faltung der
beiden Wahrscheinlichkeitsdichten. Wenn man für f (x) eine Gauß–Funktion
einsetzt, ergibt sich
Z ∞
1
(x − y/2 − µ)2 (x + y/2 − µ)2
−
dy
f2 (x) =
exp −
2πσ 2 −∞
σ2
σ2
32
Z ∞
1
2(x − µ)2 + y 2 /2
=
exp −
dy
2πσ 2 −∞
σ2
Z ∞
1
1
(x − µ)2
y2
√
= √
exp − 2
exp − 2 dy
σ /2
2σ
2πσ 2
2πσ 2 −∞
2 √
1
(x − µ)
= √
2
exp − 2
2
σ /2
2πσ
1
(x − µ)2
= p
exp − 2
σ /2
2πσ 2 /2
√
nämlich eine Gaußverteilung um µ mit Standardabweichung σ/ 2.
Exponentialverteilung
Die Exponentialverteilung ist das stetige Gegenstück zur geometrischen Verteilung im diskreten Fall. Dort hatten wir diskrete Plätze, auf jedem mit Wahrscheinlichkeit p eine 1 (Erfolg) und mit 1 − p eine 0 (Mißerfolg).
Betrachte nun die Gerade der reellen Zahlen, die wir in kleine Intervalle der
Länge dx einteilen. Wir nehmen an, daß in jedem mit der Wahrscheinlichkeit
ρ dx eine 1 und mit 1 − ρ dx eine 0 sitzt. Die 1er sind mit Dichte ρ gleichmäßig
verteilt.
Was ist nun die Wahrscheinlichkeitsdichte der Abstände zwischen zwei
1ern? Eine davon sitze am Punkt x0 . Die Wahrscheinlichkeit, daß die nächste im Intervall [x0 + x, x0 + x + dx] und dazwischen gar keine ist, ist
x/dx
ρx
x/dx
pρ (x) = (1 − ρ dx)
ρ dx = 1 −
ρ dx −→ ρ exp(−ρx) dx.
x/dx
(81)
n
(den Grenzübergang (1 + y/n) → exp y haben wir schon bei der Poissonverteilung kennengelernt.)
Exponentialverteilte Wartezeiten treten z.B. beim Öffnen und Schließen
von Ionenkanälen in Zellmembranen. Die reelle Zahlengerade ist hier die Zeitachse. Zu jedem Zeitpunkt ist das Ereignis “öffne/schließe dich jetzt” gleich wahrscheinlich. Die Wartezeiten dazwischen, also die Zeitspannen, die der Kanal
offen/geschlossen ist, sind daher exponentialverteilt.
Wir haben das simuliert
5
3
x 10
6
10
2.5
5
10
2
4
10
1.5
1
3
10
0.5
0
2
10
0
0.5
1
1.5
2
2.5
3
3.5
4
0
0.5
1
1.5
2
2.5
3
3.5
4
−5
−5
x 10
x 10
hier am Beispiel des Einheitsintervalls [0, 1], auf das N = 262144 Markierungen verteilt sind. Ihre Mittlere Dichte ist also ρ = N , und in einem kleinen
33
Stückchen der länge dx ist die Wahrscheinlichkeit, eine Markierung zu finden,
gleich ρ dx = N dx. Die Graphik zeigt die Verteilung der Wartezeiten, einmal
in einer linearen Darstellung (links), die einen schnellen Abfall nach 0 zeigt. In
halblogarithmischer Darstellung (rechts) wird aus dem exponentiellen Abfall
eine Gerade.
34
Herunterladen