2. Wahrscheinlichkeitsrechnung

Werbung
2.1 Grundlagen der Wahrscheinlichkeitsrechnung
22
2. Wahrscheinlichkeitsrechnung
Der Wahrscheinlichkeitstheorie kommt eine wichtige Rolle als Bindeglied zwischen der
deskriptiven und der induktiven Statistik zu. Aufgabe der induktiven Statistik ist es ja,
Verfahren bereitzustellen, die Schlüsse von einer Stichprobe auf die zugehörige Grundgesamtheit ermöglichen. Hierzu muss allerdings erst ein geeignetes Modell für die Grundgesamtheit entwickelt werden. Anstelle der zuvor betrachteten empirischen Verteilungen haben
wir es dabei nun mit theoretischen Verteilungen zu tun, die als mathematische Modelle der
Grundgesamtheit aufgefasst werden können.
2.1 Grundlagen der Wahrscheinlichkeitsrechnung
Physikalische Prozesse sind in der Regel, zumindest aus makroskopischer Sicht, in ihrem
Ablauf determiniert, d.h. vorhersagbar. Auch oftmalige Wiederholungen eines Experiments
führen innerhalb der Messgenauigkeit immer zum selben Ergebnis. Im Gegensatz dazu
besitzen Vorgänge im Bereich der Bio-, Sozial- oder Wirtschaftswissenschaften häufig den
Charakter von Zufallsexperimenten, d.h., ihr Ausgang ist nicht vorhersehbar. Typische
Beispiele von Zufallsexperimenten sind das Werfen einer Münze oder eines Würfels, das
Ziehen einer Spielkarte, das zufällige Auswählen einer Person und Feststellen ihrer
Körpergröße, ihres Blutdrucks oder ihres täglichen Zigarettenverbrauchs.
Jede einzelne Durchführung eines Zufallsexperiments heißt ein Versuch, sein Ergebnis ein
Versuchsausgang oder Elementarereignis. Alle Elementarereignisse eines Experiments
bilden zusammen den sogenannten Ereignisraum oder Stichprobenraum Ω. So gilt etwa für
das Ausspielen eines Würfels: Ω = {1,2,3,4,5,6}. Natürlich gibt es auch Experimente mit
unendlichem Stichprobenraum. Bei Größen- und Gewichtsmessungen beispielsweise sind die
möglichen Ausgänge beliebige positive Zahlen, d.h., Ω ist in diesem Fall die Menge —0+ aller
positiven reellen Zahlen.
Allgemein bezeichnet man als ein Ereignis A eine beliebige Teilmenge von Ω und man sagt,
A tritt genau dann ein, wenn eines der in A enthaltenen Elementarereignisse eintritt. Enthält A
dabei mehr als ein Elementarereignis, so heißt es zusammengesetzt. So ist z.B. das Würfeln
einer geraden Augenzahl ein zusammengesetztes Ereignis, nämlich zusammengesetzt aus den
Elementarereignissen, die den Augenzahlen 2, 4 und 6 entsprechen: A = {2,4,6}. Insbesondere ist auch Ω selbst ein Ereignis, welches bei jeder Versuchsausführung eines Zufallsexperiments eintritt und deshalb das sichere Ereignis genannt wird. Ferner ist es
zweckmäßig, das Ereignis ∅ zuzulassen, das keinem möglichen Ausgang entspricht und
daher auch unmögliches Ereignis heißt.
Ereignisse können sofort zu neuen Ereignissen kombiniert werden. Sind A,B ⊆ Ω Ereignisse,
so erhält man durch Anwendung der mengentheoretischen Operationen der Durchschnitts-,
Vereinigungs- und Differenzenbildung die weiteren Ereignisse A ∩ B, A ∪ B und A \ B,
welche als „A und B“, „A oder B“ bzw. „A aber nicht gleichzeitig B“ bezeichnet werden. Zu
jedem A kann daher insbesondere auch A = Ω \ A, das komplementäre Ereignis zu A,
2.1 Grundlagen der Wahrscheinlichkeitsrechnung
23
gebildet werden. Ferner heißen zwei Ereignisse A und B disjunkt (oder unvereinbar), wenn
A ∩ B = ∅ gilt.
Wir greifen nochmals auf das einfache Zufallsexperiment „Werfen eines Würfels“ zurück und
stellen uns die Frage: Wie groß ist die Wahrscheinlichkeit dafür, dass ein bestimmtes
Ereignis, z.B. eine gerade Augenzahl auftritt? Um die Wahrscheinlichkeit P(A) eines
Ereignisses A festzulegen, gibt es verschiedene Zugänge:
•
Wir betrachten unter allen möglichen Ausgängen des Experiments diejenigen, bei
denen das Ereignis A eintritt. Je größer die Anzahl dieser für A günstigen Fälle ist,
desto wahrscheinlicher wird A eintreten. Es ist daher naheliegend, den Anteil der für
A günstigen Ausgänge an allen insgesamt möglichen Ausgängen des Zufallsexperiments als die Wahrscheinlichkeit P(A) des Ereignisses A zu bezeichnen. Die
sogenannte klassische Definition der Wahrscheinlichkeit P(A) eines Ereignisses A für
ein Zufallsexperiment mit endlich vielen gleichwahrscheinlichen Ausgängen (ein
sogenanntes Laplace-Experiment) lautet also
P(A) =
Anzahl der für A günstigen Ausgänge
.
Anzahl der insgesamt möglichen Ausgänge
Aus dieser Definition folgt übrigens sofort, dass stets 0 ≤ P(A) ≤ 1 gilt. Insbesondere
ist P(∅) = 0 und P(Ω) = 1. Die Antwort auf die oben gestellte Frage nach der Wahrscheinlichkeit dafür, dass beim Ausspielen eines Würfels eine gerade Augenzahl
auftritt, ist nun leicht zu finden: Von den sechs möglichen Augenzahlen sind drei,
nämlich eben die geraden Zahlen, für das betrachtete Ereignis A günstig, d.h. P(A) =
3/6 = 1/2.
•
Sind die Voraussetzungen für ein Laplace-Experiment nicht erfüllt, so kann man die
Wahrscheinlichkeit P(A) eines Ereignisses A so festlegen, dass man das Zufallsexperiment n-mal durchführt und die relative Häufigkeit hn(A) für das Auftreten von
A betrachtet. Strebt die Folge hn(A) für n = 1,2,3,... dann einem festem Wert zu, wählt
man als naheliegende Definition
P(A) = lim h n (A)
n →∞
bzw. in der Praxis P(A) ≈ hn(A) für großes n. (Tatsächlich gilt nach dem sogenannten
Gesetz der großen Zahlen, dass hn(A) „fast sicher“ gegen P(A) konvergiert.) Sind etwa
laut Geburtenstatistik unter 4255 Neugeborenen eines Jahres in einer Geburtsklinik
2183 Knaben und 2072 Mädchen, wird man die Wahrscheinlichkeit für die Geburt
eines Knaben mit P(K) = 2183/4255 = 0,513 und für die Geburt eines Mädchens mit
P(M) = 2072/4255 = 0,487 festsetzen.
Heute ist es allerdings üblich, den Begriff der Wahrscheinlichkeit rein axiomatisch festzulegen. Eine Wahrscheinlichkeit ist demnach eine Funktion P, die jedem Ereignis A (aus
einer sogenannte Ereignisalgebra über einem Ereignisraum Ω) eine reelle Zahl P(A) zuordnet,
wobei folgende Bedingungen erfüllt sind:
1. 0 ≤ P(A) ≤ 1 für alle Ereignisse A
2. P(Ω) = 1
3. P(A ∪ B) = P(A) + P(B) für disjunkte Ereignisse A und B
2.1 Grundlagen der Wahrscheinlichkeitsrechnung
24
Das sind die Axiome der Wahrscheinlichkeitstheorie von Kolmogoroff. Aus ihnen lassen sich
für das praktische Rechnen mit Wahrscheinlichkeiten sofort einige einfache Folgerungen
ableiten, die wir im Folgenden zusammenfassen.
Rechnen mit Wahrscheinlichkeiten
Neben den Axiomen 1. bis 3. von Kolmogoroff gelten für beliebige Ereignisse A und B die
nachstehenden Rechenregeln:
4. P(∅) = 0
5. P( A ) = 1 − P(A)
6. A ⊆ B ⇒ P(A) ≤ P(B)
7. P(A ∪ B) = P(A) + P(B) − P(A ∩ B) Additionssatz für zwei beliebige Ereignisse
Der zuletzt angeführte Additionssatz gilt für beliebige Ereignisse A und B im Gegensatz zum
Axiom 3., welches nur für disjunkte Ereignisse gültig ist. Im übrigen kann man zeigen, dass
der klassische Wahrscheinlichkeitsbegriff als Spezialfall für ein Zufallsexperiment mit
endlich vielen gleichwahrscheinlichen Ausgängen im Axiomensystem von Kolmogoroff
enthalten ist, sodass sich der axiomatische Wahrscheinlichkeitsbegriff als eine echte
Verallgemeinerung des klassischen erweist.
In vielen Fällen wird die Wahrscheinlichkeit P(A) für das Eintreten eines Ereignisses A
dadurch verändert, dass ein anderes Ereignis B bereits eingetreten ist. Diese neue Wahrscheinlichkeit für das Eintreten von A unter der Bedingung B wird dann die durch B bedingte
Wahrscheinlichkeit von A genannt und mit P(AB) bezeichnet. Ist P(B) = 0, so gilt dann
klarerweise auch P(AB) = 0, für P(B) ≠ 0 dagegen ergibt sich ihr Wert aus der Formel
P(AB) =
P(A ∩ B)
.
P(B)
Aus dieser Definition der bedingten Wahrscheinlichkeit folgt sofort
P(A ∩ B) = P(AB) P(B) = P(A) P(BA),
der Multiplikationssatz für zwei beliebige Ereignisse A und B. Die beiden Ereignisse A und
B heißen unabhängig, falls
P(A ∩ B) = P(A) P(B)
bzw. gleichwertig dazu, falls P(AB) = P(A) oder (wegen der Symmetrie der Unabhängigkeitsbedingung in A und B) auch falls P(BA) = P(B).
Beispiel: Werfen eines Würfels, Ω = {1,2,3,4,5,6}
•
A = {6} (Würfeln eines Sechsers), B = {2,4,6} (gerade Zahl)
P(A) = 1/6, P(B) = 1/2, P(AB) = 1/3, A und B sind abhängig
25
2.1 Grundlagen der Wahrscheinlichkeitsrechnung
•
A = {1,2} (Augenzahl höchsten 2), B = {2,4,6} w.o.
P(A) = 1/3, P(B) = 1/2, P(A∩B) = 1/6 = P(A) P(B), A und B sind unabhängig
Beispiel: Wir betrachten eine Urne mit 10 Kugeln, davon 4 schwarze (S) und 6 weiße (W)
Kugeln.
•
Werden zwei Kugeln ohne Zurücklegen gezogen, gilt für den ersten Zug etwa P(S1) =
4/10 und für den zweiten Zug P(S2S1) = 3/9 (siehe Baumdiagramm), folglich
P(S1∩S2) = P(S1) P(S2S1) = (4/10)(3/9) = 12/90 ≈ 0,13.
Also sind die beiden Ereignisse S1 und S2 abhängig. Genauso findet man P(S1∩W2) =
24/90 ≈ 0,27, usw.
4/10
6/10
W1
S1
3/9
S2
•
6/9
W2
4/9
S2
5/9
W2
Beim Ziehen mit Zurücklegen hingegen erhält man P(S1∩S2) = P(S1) P(S2) = 0,16,
P(S1∩W2) = P(S1) P(W2) = 0,24, usw. In diesem Fall stellen die jeweiligen Ergebnisse
beim ersten bzw. zweiten Zug unabhängige Ereignisse dar.
Der Multiplikationssatz kann von zwei Ereignissen auf n ≥ 2 Ereignisse wie folgt verallgemeinert werden (der Beweis erfolgt durch vollständige Induktion):
P(A1∩A2∩A3∩ ... ∩An) = P(A1) P(A2A1) P(A3A1∩A2) ... P(AnA1∩ ... ∩An−1)
Beispiel (Geburtstagsparadoxon): Gesucht ist die Wahrscheinlichkeit dafür, dass in einer
Gruppe von n ≥ 2 Personen mindestens zwei am selben Tag im Jahr Geburtstag haben. Zur
Lösung dieses Problems bezeichnen wir zunächst das genannte Ereignis mit A. Ferner sei Ak
das Ereignis, dass die k-te von n Personen an einem anderen Tag Geburtstag hat als die k − 1
vorhergehenden Personen (k = 2,3.,...,n). Dann gilt auf Grund des Multiplikationssatzes
P(A) = P(A 2 ∩ A3 ∩ ... ∩ A n )
= P(A 2 )P(A 3 | A 2 )P(A 4 | A 2 ∩ A3 )⋯ P(A n | A 2 ∩ ... ∩ A n −1 )
= (1 −
1
2
3
n −1
)(1 −
)(1 −
)⋯ (1 −
)
365
365
365
365
und damit
P(A) = 1 − P(A)
364 ⋅ 363⋯ (365 − n + 1)
= 1−
.
365n −1
2.1 Grundlagen der Wahrscheinlichkeitsrechnung
26
Die Werte für die gesuchte Wahrscheinlichkeit P(A) in Abhängigkeit von der Personenzahl n
sind in obenstehender Abbildung veranschaulicht. Ab etwa 50 Personen ist es demnach
beinahe sicher, dass zwei unter ihnen am selben Tag Geburtstag haben. Für n = 23 ist P(A) =
0,507, d.h., in einer Gruppe von 23 Personen ist es bereits wahrscheinlicher, dass darunter
zwei Personen am selben Tag im Jahr Geburtstag feiern als dass umgekehrt alle Geburtstage
auf verschiedene Tage des Jahres fallen.
Sicherheitssysteme von Kernkraftwerken
Mit normalem Wasser moderierte Reaktoren, so genannte Leichtwasserreaktoren, sind
zumeist als Druckwasserreaktor (siehe Abbildung, http://www.kernenergie.de) oder als
Siedwasserreaktor ausgelegt. Dabei können Übertemperaturen aus den Brennelementen im
Reaktorkern entstehen, falls die Wärmeerzeugung zu groß oder die Wärmeabfuhr zu gering,
27
2.1 Grundlagen der Wahrscheinlichkeitsrechnung
also kleiner als ein bestimmter Sollwert wird. Insbesondere kann durch Ausfall einer
entsprechenden Kühlung ein Reaktorunfall entstehen. Alle Sicherheitssysteme eines Kernreaktors zielen daher darauf ab, bei einer eingetretenen Störung das Gleichgewicht zwischen
erzeugter und abgeführter Wärme herzustellen.
Sicherheitssysteme sind aus verschiedenen Bauelementen zusammengesetzt. Wir unterscheiden zwischen folgenden Systemen:
•
Ein Seriensystem mit den Komponenten K1, K2, ..., Kn ist ein System, das genau dann
intakt ist, wenn alle Komponenten Ki intakt sind. Dem System entspricht folgendes
Zuverlässigkeitsschaltbild:
K1
K2
Kn
Es sei pi die Wahrscheinlichkeit, dass die Komponente Ki intakt ist, und ferner seien
die Komponenten als unabhängig vorausgesetzt. Dann ist die Wahrscheinlichkeit, dass
das ganze System intakt ist, nach dem Multiplikationssatz für unabhängige Ereignisse
gegeben durch
pserie = p1 p2 ⋅⋅⋅ pn .
•
Ein Parallelsystem mit den Komponenten K1, K2, ..., Kn ist genau dann intakt, wenn
wenigstens eine der Komponenten Ki intakt ist, und besitzt folgendes Zuverlässigkeitsschaltbild:
K1
K2
Kn
Ist wieder pi die Wahrscheinlichkeit, dass die Komponente Ki intakt ist, und werden
die Komponenten als unabhängig angenommen, so ist die Wahrscheinlichkeit, dass
das Parallelsystem defekt ist, gleich (1 − p1)(1 − p2) ⋅⋅⋅ (1 − pn). Daher ist die
Wahrscheinlichkeit, dass das Parallelsystem intakt ist, gegeben durch
pparallel = 1 − (1 − p1)(1 − p2) ⋅⋅⋅ (1 − pn).
•
Ein k-von-n-System mit den Komponenten K1, K2, ..., Kn (k < n) ist genau dann
intakt, wenn mindestens k der n Komponenten Ki intakt sind. Betrachten wir z.B. ein
2-von-3-System mit folgendem Schaltbild:
28
2.1 Grundlagen der Wahrscheinlichkeitsrechnung
K1
K2
K1
K3
K2
K3
Mit der Wahrscheinlichkeit pi, dass die Komponente Ki intakt ist, gilt in diesem Fall
für die Intaktwahrscheinlichkeit
p2/3 = p1p2(1 − p3) + p1(1 − p2)p3 + (1 − p1)p2p3 + p1p2p3 .
Beispiel (Vergleich der Notkühlsysteme von Westinghouse und der Kraftwerksunion): Das
Notkühlsystem von Westinghouse (WH) besteht aus zwei Strängen, von denen jeder 100%
der erforderlichen Störfallkapazität führen kann. Das System ist folglich ein 1-von-2-Sytsem,
und dementsprechend gilt
pWH = p1/2 = p(1 − p) + (1 − p)p + p2 = 2p − p2 = 1 − q2.
Dabei bezeichnet pi = p (für i = 1,2) die Wahrscheinlichkeit, dass ein Strang intakt ist, und q =
1 − p ist die Defektwahrscheinlichkeit eines Stranges.
Strang 1
Strang 2
System WH
1
2
1
3
1
4
2
3
2
4
3
4
System KWU
Das Notkühlsystem der Kraftwerksunion (KWU) besteht aus vier Komponenten 1, 2, 3, 4,
von denen jede 50% der erforderlichen Störfallkapazität führen kann. Das System KWU ist
also ein 2-von-4-System mit der Intaktwahrscheinlichkeit
pKWU = p2/4 = 6p2(1 − p)2 + 4p3(1 − p) + p4 = 1 − 4q3 + 3q4,
falls wieder alle Intaktwahrscheinlichkeiten pi = p der einzelnen Komponenten gleich groß
sind. Damit ergibt sich als Wahrscheinlichkeit für das Versagen des Notkühlsystems bei
Westinghouse qWH = q2, bei der Kraftwerksunion hingegen qKWU = 4q3 − 3q4. Rechnen wir für
die Defektwahrscheinlichkeit q eines Stranges bei Kernkraftwerken ungefähr mit q ≈ 10−9 pro
Stunde, so erhalten wir
2.1 Grundlagen der Wahrscheinlichkeitsrechnung
29
qWH = 10−18 und qKWU = 4⋅10−27 pro Stunde.
Dementsprechend kann das System der Kraftwerksunion als sicherer angesehen werden.
Satz von der totalen Wahrscheinlichkeit und Bayes’sche Formel
In der Praxis hat man zur Ermittlung der Wahrscheinlichkeit P(A) sehr oft eine Fallunterscheidung durchzuführen, welche einer disjunkten Zerlegung Ω = B1 ∪ B2 ∪ ∪ Bn des
Ereignisraums entspricht. Sind die Wahrscheinlichkeiten P(Bi) und die bedingten Wahrscheinlichkeiten P(ABi) für alle i bekannt, dann kann P(A) wie folgt ermittelt werden:
A = (A ∩ B1 ) ∪ ... ∪ (A ∩ Bn ) ⇒
P(A) = P(A ∩ B1 ) + ... + P(A ∩ Bn )
= P(A | B1 )P(B1 ) + ... + P(A | Bn )P(Bn ),
also
n
P(A) = ∑ P(A | Bi )P(Bi ) ,
i =1
was auch der Satz von der totalen Wahrscheinlichkeit genannt wird.
Beispiel: Betrachten wir nochmals die Urne mit 4 schwarzen und 6 weißen Kugeln und fragen
nach der Wahrscheinlichkeit P(S2) dafür, beim zweiten Zug ohne Zurücklegen eine schwarze
Kugel zu ziehen. Da beim ersten Zug entweder eine schwarze (S1) oder eine weiße Kugel
(W1) möglich ist, erhalten wir
P(S2 ) = P(S2 | S1 )P(S1 ) + P(S2 | W1 )P(W1 )
=
3 4 4 6 36
+
=
= 0, 40.
9 10 9 10 90
Beispiel: Zur Chipproduktion werden drei Maschinen eingesetzt. Die Maschine M1 deckt 50%
der Gesamtproduktion ab und liefert 3% Ausschuss. Auf die Maschine M2 entfallen 30% der
Produktion bei einem Ausschussanteil von 1%, während die Maschine M3 20% der
Produktion bei einem Ausschussanteil von 2% bestreitet. Gesucht ist die Wahrscheinlichkeit
dafür, dass ein zufällig der Produktion entnommenes Stück defekt ist.
Bezeichnen wir mit A das Ereignis, dass ein fehlerhaftes Stück produziert wurde und mit Mi
das Ereignis, dass ein beliebig ausgewähltes Stück aus der Produktion der Maschine Mi
stammt (für i = 1,2,3). Dann gilt
P(A) = P(A | M1 )P(M1 ) + P(A | M 2 )P(M 2 ) + P(A | M 3 )P(M 3 )
= 0, 03 ⋅ 0, 5 + 0, 01 ⋅ 0, 3 + 0, 02 ⋅ 0, 2 = 0, 022.
Somit beträgt die gesuchte Wahrscheinlichkeit, also der Ausschussanteil insgesamt 2,2%.
Ein einfache Folgerung aus dem Satz von der totalen Wahrscheinlichkeit ist die so genannte
Bayes’sche Formel: Ist Ω = B1 ∪ B2 ∪ ... ∪ Bn eine disjunkte Zerlegung des Ereignisraums
und A ein beliebiges Ereignis, so gilt nach Definition der bedingten Wahrscheinlichkeit
30
2.1 Grundlagen der Wahrscheinlichkeitsrechnung
P(Bi | A) =
P(Bi ∩ A) P(A | Bi )P(Bi )
P(A | Bi )P(Bi )
=
= n
,
P(A)
P(A)
∑ P(A | B j )P(B j )
j=1
also für alle i = 1,...,n
P(Bi | A) =
P(A | Bi )P(Bi )
n
∑ P(A | B )P(B )
j=1
j
.
j
Von der Aufgabenstellung her kann man dabei die Ereignisse B1, B2, ...,Bn oft als mögliche
Ursachen für das Ereignis A deuten. Ist nun das Ereignis A tatsächlich eingetreten, so lässt
dies dann Rückschlüsse auf die möglichen Ursachen zu, indem deren a priori Wahrscheinlichkeiten P(Bi) sich damit a posteriori (nämlich durch das Eintreten von A) zu P(BiA)
ändern.
Beispiel: Wir betrachten nochmals den Produktionsprozess auf den drei Maschinen M1, M2
und M 3 des vorhergehenden Beispiels. Unter der Annahme, dass ein produziertes Stück
fehlerhaft ist, wie groß ist dann nachträglich die Wahrscheinlichkeit, dass es von einer der
Maschinen Mi, i = 1,2,3, stammt?
Zur Beantwortung dieser Frage verwenden wir die Bayes’sche Formel und erhalten
P(M 1 | A) =
P(A | M 1 )P(M 1 ) 0,03 ⋅ 0,5
=
= 0,68 ,
P( A )
0,022
P(M 2 | A) =
P(A | M 2 )P(M 2 ) 0,01 ⋅ 0,3
=
= 0,14 ,
P( A )
0,022
P(M 3 | A) =
P(A | M 3 )P(M 3 ) 0,02 ⋅ 0,2
=
= 0,18 .
P(A)
0,022
Wie nicht anders zu erwarten, hat sich diese Wahrscheinlichkeit für die Maschine M1 mit
einem relativ hohen Ausschussanteil gegenüber der a priori Wahrscheinlichkeit von 0,5
erhöht, dagegen sind die Wahrscheinlichkeiten für die Maschinen M2 und M3 als mögliche
„Ursachen“ für den Fehler jeweils zurückgegangen.
M1
M2
M3
a priori
50%
30%
20%
100%
a posteriori
68%
14%
18%
100%
Zusammenfassung
Ausgangspunkt wahrscheinlichkeitstheoretischer Überlegungen ist der Begriff des Zufallsexperiments, eines im Prinzip beliebig oft wiederholbaren Vorgangs mit unbestimmtem
31
2.1 Grundlagen der Wahrscheinlichkeitsrechnung
Ausgang. Die einzelnen dabei möglichen Ausgänge bilden Ereignisse. Spezielle Ereignisse
sind das unmögliche Ereignis ∅ und das sichere Ereignis Ω. Zwei Ereignisse A und B werden
als unvereinbar oder disjunkt bezeichnet, wenn das Eintreten von A jenes von B ausschließt
und umgekehrt.
Die Wahrscheinlichkeit P(A) eines Ereignisses A ist für ein Zufallsexperiment mit endlich
vielen gleichwahrscheinlichen Ausgängen nach der klassischen Wahrscheinlichkeitsdefinition
gegeben als das Verhältnis der Anzahl der für A günstigen zur Anzahl der insgesamt
möglichen Ausgänge. Bei der praktischen Bestimmung unbekannter Wahrscheinlichkeiten
wird man in vielen Fällen auf die relative Häufigkeit von Ereignissen zurückgreifen. Auch der
axiomatische Wahrscheinlichkeitsbegriff orientiert sich am Begriff der relativen Häufigkeit
und wird durch die Axiome von Kolmogoroff begründet.
Für das praktische Rechnen mit Wahrscheinlichkeiten sind u.a. folgende Rechenregeln von
Nutzen:
P( A ) = 1 − P(A) Wahrscheinlichkeit des komplementären Ereignisses
P(A ∪ B) = P(A) + P(B) − P(A ∩ B) Additionssatz für zwei beliebige Ereignisse
P(A ∩ B) = P(AB) P(B) = P(A) P(BA) Multiplikationssatz für zwei Ereignisse
Dabei bezeichnet P(AB) die bedingte Wahrscheinlichkeit für das Eintreten von A unter der
Bedingung B. Für unabhängige Ereignisse A und B gilt speziell P(A ∩ B) = P(A) P(B).
Weitere wichtige Sätze zur Ermittlung von Wahrscheinlichkeiten sind der Satz von der totalen
Wahrscheinlichkeit
n
P(A) = ∑ P(A | Bi )P(Bi )
i =1
und die Bayes’sche Formel
P(Bi | A) =
P(A | Bi )P(Bi )
n
∑ P(A | B )P(B )
j=1
j
,
j
mit deren Hilfe man von den a priori Wahrscheinlichkeiten P(Bi) nach Eintreten eines
Ereignisses A auf die a posteriori Wahrscheinlichkeiten P(BiA) schließen kann.
2.2 Diskrete Verteilungen
Wir beschränken uns jetzt auf Experimente, deren Ausgänge durch einzelne Zahlen beschrieben werden können. Beispielsweise ist jedes mögliche Ergebnis beim Ausspielen eines
Würfels in eindeutiger Weise durch die Augenzahl bestimmt. Diese Größe hängt natürlich
vom Zufall, genauer vom Ergebnis des Zufallsexperiments, ab. Man nennt sie deshalb auch
Zufallsvariable. Gewöhnlich werden Zufallsvariablen durch Großbuchstaben, etwa X, Y, Z
symbolisiert. Schreibt man also X für die Augenzahl eines Würfels, dann kann man das
Ereignis „Die Augenzahl des ausgespielten Würfels beträgt 4“ kurz durch „X = 4“ ausdrücken, das Ereignis „Die Augenzahl ist größer oder gleich 3“ durch „X ≥ 3“, usw. Entsprechend schreibt man für die Wahrscheinlichkeiten der genannten Ereignisse kurz P(X = 4)
bzw. P(X ≥ 3). Die Zufallsvariable X kann nur endlich viele Zahlenwerte (mit positiver
32
2.2 Diskrete Verteilungen
Wahrscheinlichkeit) annehmen; eine solche Variable wird diskrete Zufallsvariable genannt
und ihre Verteilung als diskrete Verteilung bezeichnet.
Allgemeiner ist eine diskrete Zufallsvariable dadurch definiert, dass sie nur bestimmte
vorgegebene (höchstens abzählbar viele) Werte x1, x2, x3, ... mit positiven Wahrscheinlichkeiten P(X = x1) = p1, P(X = x2) = p2, P(X = x3) = p3, ... annimmt. Die durch
p
f ( x ) = P(X = x ) =  i
0
x = xi
sonst
erklärte Funktion f heißt Wahrscheinlichkeitsfunktion der Zufallsvariablen X. Ferner nennt
man die Funktion
F( x ) = P(X ≤ x ) =
∑p
xi ≤ x
i
− also die Wahrscheinlichkeit dafür, dass die Variable X irgendeinen Wert annimmt, der
kleiner oder gleich x ist − die Verteilungsfunktion von X. Zufallsvariable können als
theoretisches Gegenstück zu den Merkmalen der deskriptiven Statistik angesehen werden.
Zwischen der Wahrscheinlichkeitsfunktion und der Verteilungsfunktion einer Zufallsvariablen X besteht dann derselbe Zusammenhang, wie er schon früher für die relative
Häufigkeit und relative Summenhäufigkeit eines Merkmals festgestellt wurde.
Beispiel: Bezeichnet X die Augenzahl beim Würfeln, dann besitzt die Zufallsvariable X die
möglichen Werte x = 1, 2, 3, 4, 5 und 6 mit den Wahrscheinlichkeiten f(1) = P(X = 1) = 1/6,
f(2) = … = f(6) = 1/6 bzw. F(1) = P(X ≤ 1) = 1/6, F(2) = P(X ≤ 2 ) = 2/6, usw. Wahrscheinlichkeitsfunktion f(x) und Verteilungsfunktion F(x) sind in der folgenden Abbildung
dargestellt.
Wahrscheinlichkeitsfunktion f(x) (links) und Verteilungsfunktion F(x) (rechts) von X
Durch die Wahrscheinlichkeits- bzw. Verteilungsfunktion ist eine Zufallsvariable vollständig
bestimmt. Oft genügt aber auch, wie bei der Beschreibung von Stichproben, eine gröbere
Charakterisierung durch geeignete Maßzahlen. Von diesen sind der Mittelwert sowie die
Varianz wohl am bedeutsamsten. Der Mittelwert µ (oder auch Erwartungswert E(X)) einer
diskreten Zufallsvariablen X mit den möglichen Werten x1, x2, x3, ... und der Wahrscheinlichkeitsfunktion f ist gegeben durch
µ = E(X) = ∑ x i f ( x i )
i
und stellt das theoretische Gegenstück zum arithmetischen Mittel einer empirischen Verteilung dar. Analog ist die Varianz σ2 (oder auch Var(X)) definiert durch
33
2.2 Diskrete Verteilungen
σ 2 = Var (X) = ∑ ( x i − µ) 2 f ( x i )
i
= E(X − µ) 2 = E(X 2 ) − µ 2 .
Die Wurzel aus der Varianz bezeichnet man wieder als die Standardabweichung σ.
Für das Würfeln beispielsweise gilt
E(X) = (1 + 2 + 3 + 4 + 5 + 6) 1/6 = 3,5,
Var(X) = E(X2) − µ2 = (12 + 22 + 32 + 42 + 52 + 62) 1/6 − 3,52 = 15,17 − 12,25 = 2,92.
Somit beträgt die theoretisch erwartete Augenzahl µ = 3,5 und ihre Standardabweichung
σ = 1,71.
Ganz allgemein gelten für den Erwartungswert und die Varianz von Zufallsvariablen folgende
Rechenregeln:
E(X + Y) = E(X) + E(Y)
E(aX + b) = aE(X) + b
E(XY) = E(X) E(Y), falls X, Y unabhängig sind
Var(aX + b) = a2 Var(X)
Var(X + Y) = Var(X) + Var(Y), falls X, Y unabhängig sind
Binomialverteilung
Ein wichtiges Beispiel für die Verteilung einer diskreten Zufallsvariablen ist die sogenannte
Binomialverteilung. Wir betrachten ein Zufallsexperiment und interessieren uns dafür, ob ein
bestimmtes Ereignis A eintritt oder nicht. Das Experiment wird n-mal durchgeführt und dabei
die Anzahl X des Eintretens von A registriert. Entsprechend der Tatsache, dass das Ereignis A
insgesamt nur 0-mal, 1-mal, ... oder n-mal eintreten kann, besitzt die Zufallsvariable X die
möglichen Werte k = 0,1,2,...,n. Wenn bei jeder Versuchsausführung das Ereignis A mit der
Wahrscheinlichkeit p bzw. das sogenannte komplementäre Ereignis A (d.i. das Ereignis
„nicht A“) mit der Wahrscheinlichkeit q = 1 − p eintritt, so kann man zeigen, dass allgemein
die Wahrscheinlichkeit für ein k-maliges Eintreten des Ereignisses A gegeben ist durch
n
f (k ) = P(X = k ) =   p k q n −k , k = 0,1,..., n .
k
Eine Zufallsvariable mit einer solchen Wahrscheinlichkeitsfunktion heißt binomialverteilt mit
den Parametern n und p, wir schreiben dafür kurz B(n,p). Für die Werte f(k) gilt stets
n
f (k ) ≥ 0 für alle k sowie ∑ f (k ) = 1 .
k =0
Die nachstehende Abbildung zeigt die Wahrscheinlichkeitsfunktion der Binomialverteilung
für die Parameter n = 8 und p = 0,2, p = 0,5 bzw. p = 0,8.
34
2.2 Diskrete Verteilungen
Beispiel: Wie groß ist die Wahrscheinlichkeit, bei dreimaligem Ausspielen eines Würfels
mindestens einmal einen Sechser zu würfeln? Die Anzahl X der Sechser unter drei Würfen ist
eine binomialverteilte Zufallsvariable mit den Parametern n = 3 und p = 1/6. Die möglichen
Werte für X sind daher k = 0,1,2,3, und die entsprechenden Wahrscheinlichkeiten sind
0
3
 3  1   5 
P(X = 0) = f (0) =       = 0,5787
 0  6   6 
1
2
 3  1   5 
P(X = 1) = f (1) =       = 0,3472
1  6   6 
2
1
 3  1   5 
P(X = 2) = f (2) =       = 0,0694
 2  6   6 
3
0
 3  1   5 
P(X = 3) = f (3) =       = 0,0046.
 3  6   6 
Demnach beträgt die gesuchte Wahrscheinlichkeit P(X ≥ 1) = f(1) + f(2) + f(3) oder einfacher
P(X ≥ 1) = 1 − f (0) = 1 − 0,5787 = 0,4213 ≈ 42%.
35
2.2 Diskrete Verteilungen
Für den Erwartungswert und die Varianz einer Binomialverteilung B(n,p) gelten allgemein
die beiden Formeln
µ = np und σ2 = npq.
Damit beträgt der Erwartungswert für die Anzahl der Sechser unter drei Würfen (siehe obiges
Beispiel) µ = 3⋅(1/6) = 0,5 und die Varianz σ2 = 3⋅(1/6)⋅(5/6) = 0,4166, also σ = 0,65.
Poissonverteilung
Für eine binomialverteilte Zufallsvariable X ist die Berechnung der Wahrscheinlichkeiten f(k)
für großes n recht mühsam. Ist n sehr groß, p aber gleichzeitig nahe bei Null, dann ist in guter
Näherung f(k) ≈ (λk/k!)e−λ mit λ = np und k = 0,1,...,n. Als Faustregel für die Brauchbarkeit
dieser Approximation gilt n ≥ 30 und p ≤ 0,1. Man bezeichnet eine Zufallsvariable mit der
Wahrscheinlichkeitsfunktion
f (k ) = P(X = k ) =
λk − λ
e für k = 0,1,2,...
k!
als Poisson-verteilt mit dem Parameter λ, und schreibt dafür kurz P(λ). Wie die Binomialverteilung ist auch die Poissonverteilung eine diskrete Verteilung und spielt über die
Tatsache hinaus, dass sie als eine „Grenzverteilung“ für die Binomialverteilung fungiert, auch
als „Verteilung der seltenen Ereignisse“ eine eigenständige Rolle in den Anwendungen:
Beispielsweise folgt die Anzahl der pro Woche in einer Stadt gemeldeten Verkehrsunfälle
einer Poissonverteilung.
Der Erwartungswert und die Varianz einer Poissonverteilung P(λ) betragen – wie man zeigen
kann – µ = λ und σ2 = λ, d.h., Erwartungswert und Varianz sind hier gleich groß.
Beispiel: Ein Hobby-Angler macht die Erfahrung, dass im Mittel drei Fische pro Stunde
anbeißen. Wie groß ist dann die Wahrscheinlichkeit, dass er nach einer Stunde weniger als
drei Fische gefangen hat?
Mit µ = λ = 3 ergibt sich für die gesuchte Wahrscheinlichkeit
3 0 31 3 2 −3 17 −3
P(X < 3) = f (0) + f (1) + f (2) = ( + + )e = e = 0,4232 ≈ 42% .
0! 1! 2!
2
Zusammenfassung
Zufallsexperimente mit quantifizierbaren Ausgängen werden durch Zufallsvariable beschrieben. Eine diskrete Zufallsvariable X kann nur bestimmte Werte xl, x2, ... mit positiver
Wahrscheinlichkeit annehmen. Sie ist charakterisiert durch ihre Wahrscheinlichkeitsfunktion
f mit f(x) = P(X = x) bzw. durch ihre Verteilungsfunktion F, definiert durch F(x) = P(X ≤ x).
Die diskrete Zufallsvariable X besitzt den Erwartungswert µ = E(X) = Σxif(xi) und die
Varianz σ2 = Var(X) = Σ(xi − µ)2f(xi), das theoretische Gegenstück zu Mittelwert x und
Varianz s2 einer empirischen Verteilung.
36
2.2 Diskrete Verteilungen
Der Binomialverteilung liegt das Bernoullische Versuchsschema zugrunde: Ein Zufallsexperiment wird n-mal wiederholt, bei jeder dieser Wiederholungen tritt ein Ereignis A mit
der Wahrscheinlichkeit p ein. Dann ist die Anzahl X der Versuche, bei denen A eintritt,
binomial verteilt mit den Parametern n und p, d.h., die Wahrscheinlichkeit, dass X einen Wert
k = 0,l,...,n annimmt, ist gegeben durch
n
f (k ) =  p k (1 − p) n − k , k = 0,1,..., n .
k
Der Mittelwert und die Varianz einer binomial verteilten Zufallsvariablen hängen von den
Parametern n und p gemäß µ = np und σ2 = np(1−p) ab. Für n ≥ 30 und p ≤ 0.1 empfiehlt es
sich, die Binomialverteilung durch die Poisson-Verteilung zu approximieren.
2.3 Stetige Verteilungen
Viele Zufallsexperimente lassen sich nur unvollständig durch diskrete Zufallsvariable
beschreiben. Beispielsweise kann man bezüglich des Merkmals „Körpergröße einer
erwachsenen Person“ eine Einteilung in „klein“, „mittel“ bzw. „groß“" treffen und diesen
Ereignissen gewisse Größenindizes, etwa 0, 1 bzw. 2 zuordnen. Man hätte damit die
Körpergröße durch eine diskrete Zufallsvariable mit drei möglichen Werten − allerdings nur
sehr grob beschrieben. Daran ändert auch eine Verfeinerung der Einteilung im Prinzip nichts,
denn die Körpergröße ist von stetiger Natur, d.h., sie kann jeden beliebigen Wert eines
bestimmten Intervalls annehmen. Es ist daher naheliegend, sie durch eine entsprechende
Zufallsvariable X zu beschreiben, für die alle Werte des betrachteten Intervalls auch mögliche
Werte darstellen. Das Ereignis „175 < X < 180“ beispielsweise bedeutet, dass X irgendeinen
Wert aus dem Intervall (175, 180) annimmt. Das Ereignis „X = 180“ hingegen besagt, dass
die Variable X den Wert 180 exakt annimmt, und besitzt im Fall einer stetigen
Zufallsvariablen stets die Wahrscheinlichkeit 0. Wir können in diesem Fall nur für Ereignisse,
die dadurch charakterisiert sind, dass X in ein vorgegebenes Intervall fällt, eine positive
Wahrscheinlichkeit angeben.
An die Stelle der Wahrscheinlichkeitsfunktion einer diskreten Zufallsvariablen tritt nun die so
genannte Wahrscheinlichkeitsdichte (oder kurz Dichte) f der stetigen Variablen X. Dabei
ordnet die Funktion f jedem Wert x eine Zahl f(x) derart zu, dass zu beliebig vorgegebenen
Werten a und b für die Wahrscheinlichkeit P(a < X < b) gilt
b
P(a < X < b) = ∫ f ( x ) dx .
a
Die Wahrscheinlichkeit des Ereignisses „a < X < b“ kann also durch die Fläche ausgedrückt
werden, die von der Kurve der Wahrscheinlichkeitsdichte und der x-Achse zwischen x = a
und x = b eingeschlossen ist (vgl. nachstehende Abbildung). Die Zufallsvariable X wird als
stetige Zufallsvariable bezeichnet und wir sprechen in diesem Fall von einer stetigen
Verteilung der Variablen X.
37
2.3 Stetige Verteilungen
Zwischen der Verteilungsfunktion F, definiert durch
x
F( x ) = P(X ≤ x ) =
∫ f ( t) dt ,
−∞
und der Wahrscheinlichkeitsdichte f einer stetigen Zufallsvariablen X besteht der folgende
Zusammenhang: Der Wert F(a) = P(X ≤ a) stimmt mit der Fläche überein, die zwischen der
Kurve von f und der x-Achse links von der Stelle x = a liegt. Ferner gilt
P(a < X < b) = F(b) − F(a),
wobei auf der linken Seite der Gleichung ebenso P(a ≤ X < b), P(a < X ≤ b) oder P (a ≤ X ≤ b)
stehen kann.
Im Zusammenhang mit der Interpretation der Wahrscheinlichkeitsdichte f sei betont, dass die
Werte von f nicht als Wahrscheinlichkeiten angesehen werden können; f muss daher auch
keineswegs überall kleiner als 1 sein. Wahrscheinlichkeiten werden lediglich durch Flächen
unter der Dichtekurve f dargestellt. Offensichtlich ist die Gesamtfläche unter der Dichtekurve
von f gleich 1, der Wahrscheinlichkeit des sicheren Ereignisses.
Normalverteilung
Von den in der Praxis vorkommenden stetigen Verteilungen ist die so genannte Normalverteilung die wichtigste. Die Wahrscheinlichkeitsdichte einer normalverteilten Zufallsvariablen X ist durch die Formel
f (x) =
1
σ 2π
e
1  x −µ 
− 

2 σ 
2
gegeben; dabei bedeuten die Parameter µ bzw. σ den Mittelwert bzw. die Standardabweichung von X. Die Normalverteilung wird kurz mit N(µ, σ) bezeichnet. Der Verlauf von
f ist in folgender Abbildung für einige Werte von µ und σ dargestellt. Besonders auffallend ist
das glockenförmige Aussehen dieser Kurven und die Symmetrie bezüglich x = µ.
38
2.3 Stetige Verteilungen
Eine Veränderung von µ bewirkt lediglich eine Verschiebung der betrachteten Glockenkurve
längs der x-Achse. Dagegen beeinflusst der zweite Parameter σ wesentlich die Steilheit der
Kurve; je größer σ, desto kleiner ist das Maximum von f und desto flacher der Abfall nach
beiden Seiten. Im Sonderfall µ = 0, σ = 1 spricht man von der Standardnormalverteilung,
kurz mit N(0, 1) bezeichnet.
Für jede Normalverteilung N(µ, σ) gilt zunächst
∞
∫ f ( x ) dx = 1 .
−∞
Für den Erwartungswert E(X) und die Varianz Var(X) erhält man gerade
∞
E(X) =
∫ x f (x ) dx = µ und
−∞
∞
Var (X) =
∫ ( x − µ)
2
f ( x ) dx = σ 2 .
−∞
Es sei X eine N(µ,σ)-verteilte Zufallsvariable und F ihre Verteilungsfunktion. Für viele
Zwecke ist es nützlich, die Variable X in eine standardnormalverteilte Zufallsvariable Z zu
transformieren. Dies erreicht man, indem man die sogenannte standardisierte Variable
Z=
X−µ
σ
bildet, d.h., indem man jedem Wert x von X den entsprechenden Wert z = (x − µ)/σ von Z
zuordnet. Diesen Vorgang bezeichnet man als Standardisierung von X. Die Zufallsvariable
Z ist nun standardnormalverteilt, für ihre Verteilungsfunktion schreibt man speziell Φ(z).
Diese Funktion ist für z ≥ 0 im Anhang tabelliert. Werte für negative Argumente erhält man
daraus sofort mit Hilfe von Φ(−z) = 1 − Φ(z). Zwischen der Verteilungsfunktion F der
N(µ,σ)-verteilten Zufallsvariablen X und der Verteilungsfunktion Φ der standardisierten
Zufallsvariablen Z = (X − µ)/σ besteht der Zusammenhang
39
2.3 Stetige Verteilungen
F( x ) = Φ (
x −µ
).
σ
Damit ist es möglich, die Werte der Verteilungsfunktion einer beliebigen normalverteilten
Zufallsvariablen mit Hilfe der Tabelle für Φ(z) zu bestimmen.
Beispiel: Sei X eine normalverteilte Zufallsvariable mit den Parametern µ = 15 und σ = 4.
Man bestimme die Wahrscheinlichkeiten (a) P(X < 10), (b) P(X > 10), (c) P(16 < X < 20).
Es ist unter Verwendung der oben angeführten Formeln im Fall (a)
P(X < 10) = F(l0) = Φ(−l,25) = 1 − Φ(l,25) = 0,1056.
Die Frage (b) kann unmittelbar auf (a) zurückgeführt werden:
P(X > 10) = 1 − P(X ≤ 10) = 1 − F(l0) = 0,8944.
Schließlich ist im Fall (c)
P(16 < X < 20) = F(20) − F(l6) = Φ(1,25) − Φ(0,25) = 0,2957.
Für eine normalverteilte Zufallsvariable X mit den Parametern µ und σ gilt näherungsweise
P(µ − σ < X < µ + σ) = 68%
P(µ − 2σ < X < µ + 2σ) = 95,5% ,
P(µ − 3σ < X < µ + 3σ) = 99,7%
denn
P(µ − σ < X < µ + σ) = F(µ + σ) − F(µ − σ) = Φ (1) − Φ (−1) = 2Φ(1) − 1 = 0,6826 ,
usw. Dieses Ergebnis lässt sich folgendermaßen interpretieren: Bei genügend großer Anzahl
von Beobachtungswerten einer normalverteilten Größe liegen ca. 2/3 aller Werte innerhalb
der einfachen, ca. 95% innerhalb der zweifachen und 99,7% innerhalb der dreifachen
Standardabweichung um den Mittelwert herum. Praktisch liegen also fast alle Beobachtungswerte einer normalverteilten Zufallsvariablen innerhalb der 3σ-Grenzen (Drei-Sigma-Regel).
Wir haben die Binomialverteilung unter bestimmten Voraussetzungen durch die PoissonVerteilung angenähert. Die Binomialverteilung kann auch in guter Näherung durch die
Normalverteilung approximiert werden, falls n genügend groß ist.
Satz (Grenzwertsatz von Moivre und Laplace): Ist X eine binomialverteilte Zufallsvariable
mit den Parametern n und p und gilt np(1−p) ≥ 9, dann folgt die Verteilung von X näherungsweise einer Normalverteilung mit µ = np und σ2 = np(1−p), d.h.
P(a ≤ X ≤ b) ≈ Φ (β) − Φ (α )
mit
α=
a − 0,5 − np
np(1 − p)
und β =
b + 0,5 − np
np(1 − p)
.
Es ist bekannt, dass in der Praxis zahlreiche Größen annähernd normalverteilt sind oder sich
in normalverteilte Zufallsgrößen transformieren lassen. Es können, wie der letzte Satz zeigt,
unter bestimmten Voraussetzungen auch verschiedene andere Verteilungen durch die
40
2.3 Stetige Verteilungen
Normalverteilung angenähert werden. Diese Sonderstellung der Normalverteilung wird durch
den Zentralen Grenzwertsatz zum Ausdruck gebracht. Nach diesem ist eine Summe von n
Zufallsvariablen bei großem n annähernd normalverteilt (wenn die Zufallsvariablen
voneinander unabhängig und gleichartig verteilt sind). Diese Tatsache ist der Grund dafür,
dass in der Praxis so oft annähernd normalverteilte Zufallsvariable beobachtet werden, was
meist seine Ursache in einem additiven Zusammenwirken von vielen voneinander
unabhängigen Einflüssen hat.
Weitere stetige Verteilungen sind etwa die stetige Gleichverteilung (zur Simulation von
Zufallsprozessen) oder die Exponential- sowie die Weibull-Verteilung (zur Beschreibung von
Lebensdauern). Eng mit der Normalverteilung hängen die so genannten Testverteilungen
(z.B. t-Verteilung, χ2-Verteilung) zusammen, von denen später noch die Rede sein wird.
Zusammenfassung
Eine stetige Zufallsvariable X kann beliebige Werte (in einem vorgegebenen Intervall)
annehmen und wird durch ihre Wahrscheinlichkeitsdichte f beschrieben. Dabei ist die
Wahrscheinlichkeit P(a < X < b) für beliebige Werte a und b durch die Fläche unter der Kurve
der Dichte f zwischen x = a und x = b gegeben. Weiters gilt P(a < X < b) = F(b) − F(a), wo F
die Verteilungsfunktion von X ist, sowie P(X > c) = 1 − P(X ≤ c). Wichtigstes Beispiel einer
stetigen Verteilung ist die Normalverteilung. Ihre Dichte
f (x) =
1
σ 2π
e
1  x −µ 
− 

2 σ 
2
ist durch zwei Parameter bestimmt, nämlich den Mittelwert µ und die Standardabweichung σ.
Durch die Transformation Z = (X − µ)/σ wird jeder normalverteilten Zufallsvariablen X die
standardnormalverteilte Zufallsvariable Z mit µ = 0 und σ = 1 zugeordnet. Die Werte der
Verteilungsfunktion Φ(z) von Z sind tabelliert, und es gilt Φ(−z) = 1 − Φ(z). Zwischen der
Verteilungsfunktion F der Zufallsvariablen X und der Verteilungsfunktion Φ der Standardnormalverteilung besteht der Zusammenhang F(x) = Φ((X − µ)/σ).
Die Normalverteilung stellt auch eine gute Näherung für die Binomialverteilung dar, wenn
np(1 − p) ≥ 9 gilt. Diese Approximation wird durch den Grenzwertsatz von Moivre und
Laplace beschrieben.
Herunterladen