II.Wahrscheinlichkeitsrechnung

Werbung
16
II.Wahrscheinlichkeitsrechnung
Der Wahrscheinlichkeitstheorie kommt eine wichtige Rolle als Bindeglied zwischen der
deskriptiven und der induktiven Statistik zu. Aufgabe der induktiven Statistik ist es ja,
Verfahren bereitzustellen, die Schlüsse von einer Stichprobe auf die zugehörige Grundgesamtheit ermöglichen. Hierzu muss allerdings erst ein geeignetes Modell für die Grundgesamtheit entwickelt werden. Anstelle der bisher betrachteten empirischen Verteilungen
haben wir es dabei nun mit theoretischen Verteilungen zu tun, die als mathematische
Modelle der Grundgesamtheit aufgefasst werden können.
1. Grundlegende Definitionen und Sätze
Physikalische Prozesse sind, zumindest aus makroskopischer Sicht, in ihrem Ablauf
determiniert, d.h. vorhersagbar. Auch oftmalige Wiederholungen eines Experiments führen
immer − innerhalb der Messgenauigkeit − zum selben Ergebnis. Im Gegensatz dazu besitzen
viele Vorgänge in den Bio- oder Sozialwissenschaften den Charakter von Zufallsexperimenten. Typische Beispiele von Zufallsexperimenten sind die Mendelschen
Kreuzungsversuche in der Genetik, das Werfen einer Münze oder eines Würfels, das Ziehen
einer Spielkarte, das zufällige Auswählen einer Person und Feststellen ihrer Körpergröße,
ihres Blutdrucks oder ihres täglichen Zigarettenverbrauchs.
Jede einzelne Durchführung eines Zufallsexperiments heißt ein Versuch, sein Ergebnis ein
Versuchsausgang oder Elementarereignis. Alle Elementarereignisse eines Experiments
bilden zusammen den sogenannten Ereignisraum (oder Stichprobenraum) Ω. So gilt etwa
für das Werfen eines Würfels: Ω = {1,2,3,4,5,6}. Natürlich gibt es auch Experimente mit
unendlichem Ereignisraum. Bei Größen- und Gewichtsmessungen beispielsweise sind die
möglichen Ausgänge beliebige positive Zahlen, d.h., Ω ist in diesem Fall die Menge R + aller
positiven reellen Zahlen.
Allgemeiner bezeichnet man als ein Ereignis E eine beliebige Teilmenge von Ω und man sagt
E tritt genau dann ein, wenn eines der in E enthaltenen Elementarereignisse eintritt. Enthält E
dabei mehr als ein Elementarereignis, so heißt es zusammengesetzt. (So ist z.B. das Würfeln
einer geraden Augenzahl ein zusammengesetztes Ereignis, nämlich zusammengesetzt aus den
Elementarereignissen, die den Augenzahlen 2, 4 und 6 entsprechen.) Insbesondere ist also
auch Ω selbst ein Ereignis, welches bei jeder Versuchsausführung eintritt und deshalb auch
das sichere Ereignis genannt wird. Ferner ist es zweckmäßig, das Ereignis ∅ zuzulassen, das
keinem möglichen Ausgang entspricht und daher auch unmögliches Ereignis heißt.
Sind A und B Ereignisse, so erhält man durch Anwendung der mengentheoretischen
Operationen der Durchschnitts-, Vereinigungs- und Differenzbildung sofort die weiteren
Ereignisse A ∩ B , A ∪ B und A \ B, welche aus naheliegenden Gründen als „A und B“, „A
oder B“ bzw. „A, aber nicht (gleichzeitig) B“ bezeichnet werden. Zu jedem A kann daher
insbesondere auch A := Ω \ A, das komplementäre Ereignis zu A, gebildet werden. Ferner
heißen zwei Ereignisse A und B disjunkt (oder unvereinbar), wenn sie als Mengen disjunkt
sind, d.h. wenn gilt A ∩ B = ∅ .
Wir greifen nochmals auf das einfache Zufallsexperiment „Werfen eines Würfels“ zurück und
stellen uns nun die Frage: Wie groß ist die Wahrscheinlichkeit dafür, dass ein bestimmtes
Ereignis A, z.B. eine gerade Augenzahl auftritt? Dazu betrachten wir unter allen möglichen
Ausgängen des Experiments diejenigen, bei denen das Ereignis A eintritt. Je größer die
Anzahl dieser für A günstigen Fälle ist, desto wahrscheinlicher wird A eintreten. Es ist daher
17
naheliegend, den Anteil der für A günstigen Ausgänge an allen insgesamt möglichen
Ausgängen des Zufallsexperiments als die Wahrscheinlichkeit P(A) des Ereignisses A zu
bezeichnen. Die sogenannte klassische Definition der Wahrscheinlichkeit P(A) eines
Ereignisses A für ein Zufallsexperiment mit endlich vielen gleichwahrscheinlichen Ausgängen lautet also
P(A) =
Anzahl der für A günstigen Ausgänge
.
Anzahl der insgesamt möglichen Ausgänge
Aus dieser Definition folgt übrigens sofort, dass stets 0 ≤ P(A) ≤ 1 gilt. Insbesondere ist
P(∅) = 0 und P(Ω) = 1. Die Antwort auf die vorhin gestellte Frage nach der Wahrscheinlichkeit dafür, dass beim Ausspielen eines Würfels eine gerade Augenzahl auftritt, ist
nun leicht zu finden: Von den sechs möglichen Augenzahlen sind drei, nämlich eben die
geraden Zahlen, für das betrachtete Ereignis A günstig, d.h. P(A) = 3/6 = 1/2.
Diese „klassische“ Einführung der Wahrscheinlichkeit funktioniert aber nur dann, wenn ein
sog. Laplace-Experiment vorliegt, bei dem es nur endlich viele mögliche Versuchsausgänge
gibt, welche alle gleich wahrscheinlich sind. (Erfüllt ein Würfel oder eine Münze beim
Werfen diese Bedingung, so spricht man auch von einem Laplace-Würfel bzw. einer
Laplace-Münze.) Sind diese Voraussetzungen nicht erfüllt, so wäre es naheliegend, die
Wahrscheinlichkeit P(A) eines Ereignisses so festlegt, dass man den Versuch n-mal
durchführt und die Folge der relative Häufigkeiten h n (A) , n=1,2,… für das Auftreten von A
betrachtet. Es scheint dann so zu sein, als ob diese Folge einem festem Wert zustreben würde,
sodass eine naheliegende Definition
P(A) = lim h n (A)
n →∞
wäre. Nimmt man etwa einen Laplace-Würfel und für A wie oben das Ereignis eine gerade
Augenzahl zu werfen, so erhält in einem simulierten Experiment mit Derive die Graphik für
die relativen Häufigkeiten, welche tatsächlich dem Wert 1/2 (dargestellt durch die Gerade)
zuzustreben scheint.
Allerdings ist diese Definition der Wahrscheinlichkeit P(A) (obwohl sie immer wieder auch in
neueren Lehrbüchern auftaucht!) in dieser Form nicht statthaft, da es z.B. in unserem Beispiel
immer wieder mal Wurfsequenzen geben wird, wo die relative Häufigkeit h n (A) auch für
noch so großes n eben nicht in einer vorgegeben ε − Umgebung von 1/2 liegt, wie dies nach
Definition des Grenzwertes der Fall sein müßte. Wir werden jedoch später zeigen, dass die
Wahrscheinlichkeit, dass dies passiert, mit wachsendem n gegen 0 geht. Für diese abgeschwächte Form der Konvergenz sagt man auch, h n (A) konvergiert fast sicher gegen die
theoretische Wahrscheinlichkeit P(A), in unserem Beispiel 1/2. Diese Aussage nennt man
auch das Gesetz der großen Zahlen.
18
Heute ist es allerdings üblich den Begriff der Wahrscheinlichkeit rein axiomatisch
einzuführen. Dazu verknüpft man mit jedem Versuch eine sogenannte Ereignisalgebra (oder
σ -Algebra) A, welche auf jeden Fall die in Hinblick auf den Versuch (mit dem
Ereignisraum Ω ) interessanten Ereignisse enthalten sollte und darüberhinaus nachfolgende
Eigenschaften besitzt:
Def. 1.1: Für einen vorgegeben Ereignisraum Ω heißt eine Menge A von Teilmengen von Ω
eine Ereignisalgebra über Ω , wenn sie folgende Eigenschaften besitzt:
E1. Ω ∈ A.
E2. Aus A ∈ A folgt auch A ∈ A.
E3. Aus A1 , A 2 ,... ∈ A folgt auch
∞
7A
i
∈ A.
i =1
Aus dieser Definition ergeben sich sofort zwei weitere wichtige Eigenschaften, nämlich:
•
Wegen E1 und E2 gilt auch ∅ = Ω ∈ A.
•
Wegen E2 und E3, sowie
∞
∞
1A = 7A
i
i =1
i
∈ A.
i =1
gilt auch die zu E3 bez. ∩ symmetrische Bedingung.
Nach obiger Definition ist also insbesondere die Potenzmenge P( Ω ) stets eine Ereignisalgebra über Ω und insbesondere dann, wenn Ω endlich ist, werden wir in der Regel diese
zugrunde legen.
Nun aber zur angekündigten axiomatischen Einführung des Wahrscheinlichkeitsbegriffs
nach Kolmogorov:
Def. 1.2: Sei A eine Ereignisalgebra über Ω . Eine Abbildung P: A → R heißt dann ein
Wahrscheinlichkeitsmaß auf A, wenn sie die folgende Bedingungen erfüllt:
W1. 0 ≤ P(A) ≤ 1 .
W2. P( Ω )=1.
W3. Sind A1 , A 2 ,... ∈ A paarweise disjunkte Ereignisse, so gilt
∞
∞
i =1
i =1
P(7 A i ) = å P(A i )
Für ein Ereignis A ∈ A heißt P(A) die Wahrscheinlichkeit von A und das Tripel (Ω, A, P)
wird ein Wahrscheinlichkeitsraum genannt.
Wiederum lassen sich aus obigen Eigenschaften sofort einige einfache Folgerungen ableiten,
die wir im folgenden zusammenfassen in
Folgerung 1.3: Sei (Ω, A, P) ein Wahrscheinlichkeitsraum. Für beliebige Ereignisse A,B,
A1 , A 2 ,.. gilt dann:
1. P( ∅) = 0 .
2. P( A) = 1 − P(A).
3. Wenn A ⊆ B , so folgt P(A) ≤ P(B).
19
4. Speziell für endlich viele Ereignisse A1 , A 2 ,... , A n , welche paarweise disjunkt sind,
erhält man aus W3 (indem man dort A n +1 = A n + 2 = ... = ∅ setzt und P( ∅) = 0
verwendet) zunächst den wichtigen Spezialfall
n
n
i =1
i =1
P(7 A i ) = å P(A i )
5. Setzt man in 4. die Ereignisse A1 , A 2 ,... , A n nicht mehr notwendigerweise als disjunkt
voraus, so ist in Analogie zum Inklusions-Exklusions-Prinzip der Kombinatorik die
folgende allgemeinere Formel anzuwenden:
n
n
i =1
i =1
P(7 A i ) = å P(A i ) −
å P(A
1≤i < j≤ n
i
∩ A j) +
å P(A
1≤i < j< k ≤ n
i
∩ A j ∩ A k ) + ...
... + (−1) n P(A1 ∩ A 2 ∩ ...A n )
In vielen Fällen wird die Wahrscheinlichkeit P(A) für das Eintreten eines Ereignisses A
dadurch verändert, dass ein anderes Ereignis B bereits eingetreten ist. Diese neue
Wahrscheinlichkeit für das Eintreten von A wird dann die durch B bedingte Wahrscheinlichkeit von A genannt und mit P(A B) bezeichnet. Ist P(B)=0, so gilt dann klarerweise auch
P(A B) =0, für P(B) ≠ 0 dagegen ergibt sich ihr Wert aus der Formel
P(A B) =
P(A ∩ B)
P(B)
Ist dabei P(A B) =P(A) bzw. gleichwertig dazu
P(A ∩ B) = P(A)P(B)
so heißen die Ereignisse A und B unabhängig. Wegen der Symmetrie der letzten Bedingung
in A und B ist dies im Falle P(A) ≠ 0 auch gleichwertig zu P(B A) =P(B). Daraus ergibt sich
insbesondere auch die allgemeine Formel
P(A ∩ B) = P(A)P(B A) = P(B)P(A B)
die nun auch gilt, wenn A und B nicht unabhängig sind.
Beispiel 1.4: Für eine Familie mit 2 Kindern sei Ω ={JJ,JM,MJ,MM} die Menge aller möglichen Geschlechtskombinationen der Kinder (J=Junge, M=Mädchen, nach Geburtsdatum
geordnet). Wir betrachten nun die Ereignisse
A={MM}, d.h. die zwei Kinder sind beide Mädchen,
B1 ={JM,MJ,MM}, d.h. mindestens eines der beiden Kinder ist ein Mädchen,
B 2 ={MJ,MM}, d.h. das ältere Kind ist ein Mädchen.
Setzt man in leicht vereinfachter Form voraus, dass hier alle Elementareignisse gleich wahrscheinlich sind, so gilt dann offenbar P(A)=1/4. Mit der Zusatzinformation, dass B1 bzw. B 2
zutrifft, erhöht sich jedoch die Wahrscheinlichkeit für das Eintreten von A erwartungsgemäß,
und zwar unter Benutzung von P( B1 )=3/4 , P( B 2 )=1/2 und P(A ∩ B1 ) = P(A ∩ B 2 ) =
=P(A)=1/4 zu
P(A B1 ) = P(A ∩ B1 ) / P(B1 ) = 1 / 3 bzw. P(A B 2 ) = P(A ∩ B 2 ) / P(B 2 ) = 1 / 2
20
In der Praxis hat man zur Ermittlung der Wahrscheinlichkeit von P(A) sehr oft eine
Fallunterscheidung durchzuführen, welche einer disjunkten Zerlegung Ω = B1 ∪ B 2 ∪ ... ∪ B n
des Ereignisraums Ω entspricht. Da dann A= (A ∩ B1 ) ∪ (A ∩ B 2 ) ∪ ... ∪ (A ∩ B n ) ebenfalls
eine disjunkte Zerlegung von A darstellt, können wir 1.3(4) anwenden und erhalten
n
n
i =1
i =1
P ( A ) = å P ( A ∩ B i ) = å P ( B i ) P( A B i )
was auch der Satz von der totalen Wahrscheinlichkeit genannt wird.
Beispiel 1.5: Zwei gleich starke Spieler S1 und S 2 vereinbaren, dass derjenige den gesamten
Einsatz erhalten soll, welcher zuerst 3 Runden bei einem gewissen Spiel gewonnen hat. Bei
einem Spielstand von zwei Gewinnen für S1 und einem Gewinn für S 2 muss aber das Spiel
auf Grund „höherer Gewalt“ abgebrochen werden. Wie ist der Einsatz gerecht zu verteilen?
Man benötigt dazu die Wahrscheinlichkeit für das Ereignis A, dass S1 nach einer Fortsetzung
des Spiels gewonnen hätte. Um diese leichter berechnen zu können, betrachten wir auch die
Ereignisse B1 und B 2 , dass der erste Spieler die erste Folgepartie gewonnen bzw. verloren
hätte, von denen genau eines hätte eintreten müssen, sodass wir also den Satz von der totalen
Wahrscheinlichkeit anwenden können:
P(A) = P(B1 )P(A B1 ) + P(B 2 )P(A B 2 ) =
1
1 1 3
⋅1 + ⋅ =
2
2 2 4
Da die Gesamtgewinnchance für S 2 komplementär zu der von S1 , d.h. also 1/4 ist, wäre
somit der Einsatz im Verhältnis 3:1 zwischen S1 und S 2 aufzuteilen. (Aus Fragestellungen
dieser Art hat sich übrigens historisch gesehen die Wahrscheinlichkeitsrechnung entwickelt!)
Ein einfache Folgerung aus dem Satz von der totalen Wahrscheinlichkeit und der Definition
der bedingten Wahrscheinlichkeiten ist der
Satz 1.6 (Bayes): Ist Ω = B1 ∪ B 2 ∪ ... ∪ B n eine disjunkte Zerlegung von Ω und A ein
beliebiges Ereignis, so gilt
P(B k A) =
P(B k )P(A B k )
P(A)
=
P( B k ) P ( A B k )
n
å P( B ) P( A B )
i =1
i
, k=1,2,..,n
i
Von der Aufgabenstellung her kann dabei die Ereignisse B1 , B 2 ,.., B n oft als mögliche
Ursachen für das Ereignis A deuten. Ist nun das Ereignis A tatsächlich eingetreten, so läßt
dies dann Rückschlüsse auf die möglichen Ursachen zu, indem deren a priori-Wahrscheinlichkeiten P(B k ) sich damit gewissermaßen a posteriori (nämlich durch das Eintreten von A)
zu P(B k A) ändern, k=1,2,..,n.
Beispiel 1.7: In einem Betrieb werden täglich 1000 Stück eines bestimmten Produkts auf 3
Maschinen M1 , M 2 und M 3 hergestellt, genauer 100 Stück auf M1 (mit 5% Ausschußanteil),
400 Stück auf M 2 (mit 4% Ausschußanteil) und 500 Stück auf M 3 (mit 2% Ausschußanteil).
Sei A das Ereignis, dass ein fehlerhaftes Stück produziert wurde und Bi das Ereignis, dass
ein beliebig ausgewähltes Stück von der Maschine M i , i=1,2,3,, stammt. Unter der Annahme,
dass ein produziertes Stück fehlerhaft ist, wie groß ist ist dann nachträglich die
Wahrscheinlichkeit, dass es von einer der Maschinen M i , i=1,2,3, stammt?
21
Zur Beantwortung dieser Frage bestimmen wir zunächst P(A) nach dem Satz von der totalen
Wahrscheinlichkeit wie folgt:
3
P(A)= å P(Bi )P(A B i ) = 0.1* 0.05 + 0.4 * 0.04 + 0.5 * 0.02 = 0.031
i =1
Damit ergeben sich dann die gesuchtgen a posteriori-Wahrscheinlichkeiten zu:
P(B1 A) =
P(B1 )P(A B1 )
P(B 2 A) =
P(B 2 )P(A B 2 )
P(B3 A) =
P ( B 3 ) P( A B 3 )
P(A)
=
0.1* 0.05
= 0.16
0.031
=
0.4 * 0.04
= 0.52
0.031
=
0.5 * 0.02
= 0.32
0.031
P( A )
P(A)
Wie nicht anders zu erwarten, haben sich diese Wahrscheinlichkeiten für Maschinen wie
M1 und M 2 mit einem relativ hohen Ausschußanteil gegenüber den a priori Wahrscheinlichkeiten erhöht (von 10% auf 16% für M1 bzw. von 40% auf 52% für M 2 ), dagegen ist die
Wahrscheinlichkeit für Maschine M 3 als mögliche „Ursache“ für den Fehler von 50% auf
32% zurückgegangen.
2. Zufallsvariable und allgemeine Eigenschaften
Für einen festgewählten Wahrscheinlichkeitsraum (Ω, A, P) ist eine Zufallsvariable X eine
Funktion von Ω in die Menge R der reellen Zahlen mit der Eigenschaft, dass für jedes reelle
Intervall I (egal ob offen, einseitig offen oder geschlossen, insbesondere auch einpunktig,
sowie mit ∞ als linker und/oder rechter Grenze) die Urbildmenge
X −1 (I) := {ω ∈ Ω X(ω) ∈ I}
stets in A liegt. Insbesondere ist also das Wahrscheinlichkeitsmaß P für diese Mengen stets
definiert.
Jeder Wert x ∈ R, der als Bild eines ω ∈ Ω unter X auftreten kann heißt dabei ein Wert (oder
eine Realisation) von X. Ähnlich wie bei Merkmalen unterscheiden wir dabei wieder
diskrete und stetige Zufallsvariable, je nachdem, ob die Menge aller Werte von X endlich
oder abzählbar unendlich ist bzw. ob sie sogar jeden beliebigen Zahlenwert für ein reelles
Intervall annehmen kann.
Wir betrachten zunächst eine diskrete Zufallsvariable X mit den Werten x1 , x 2 ,... Als
Wahrscheinlichkeit p j , mit X den Wert x j annimmt erhalten wir dann
p j = P(X = x j ) = P({ω ∈ Ω X(ω) = x j }) , j=1,2,…
Die Wahrscheinlichkeitsfunktion f(x): R → R ist dann definiert durch
ìp für x = x j
f (x) = í j
î 0 sonst
Die Funktion F : R → [0,1] , welche definiert ist durch
F( x ) := P(X ≤ x ) = å p j
xi ≤x
22
heißt dann Verteilungsfunktion von X. Mit ihrer Hilfe kann man auch leicht die
Wahrscheinlichkeit dafür ausrechnen, dass X nur Werte in dem halboffenen Intervall (a,b] annimmt, nämlich
P(a < X ≤ b) = P(X ≤ b) − P(X ≤ a ) = F(b) − F(a )
Diese gleiche Beziehung gilt auch für stetige Zufallsvariable X, wenn auch man für sie völlig
analog durch F(x):= P(X ≤ x ) eine Verteilungsfunktion einführt. Um allerdings eine zur
obigen Summendarstellung analoge Darstellung von F(x) zu gewinnen, benötigen wir
folgende
Def. 2.1: Eine Funktion f: R → R heißt eine Dichtefunktion (oder Wahrscheinlichkeitsdichte), wenn sie folgende drei Bedingungen erfüllt:
1. f ( x ) ≥ 0 für alle x ∈ R.
2. f ist stetig mit höchstens endlich vielen Ausnahmen.
∞
3.
ò f (x )dx = 1 .
−∞
Eine Zufallsvariable X heißt dann stetig verteilt mit der Dichte f(x), wenn f(x):=F’(x) eine
Dichtefunktion ist. Insbesondere gilt dann also tatsächlich
x
F( x ) = ò f ( t )dt
−∞
sowie
b
P(a < X ≤ b) = F(b) − F(a ) = ò f ( x )dx
a
Bei stetigen Zufallsvariablen ist es dabei übrigens völlig unerheblich, ob die Grenzen eines
Intervalls miteingeschlossen werden oder nicht, denn es ist z.B.
P (a ≤ x ≤ b ) = P (a < x ≤ b ) = P ( a ≤ x < b ) = P (a < x < b )
Wir haben bereits jetzt viele Entsprechungen von Begriffen der Wahrscheinlichkeitsrechnung
zu Begriffen der Deskriptiven Statistik aufgezeigt, wie z.B.
Merkmal ↔ Zufallsvariable,
relative Häufigkeiten h i ↔ Wahrscheinlichkeiten p i ,
Häufigkeitsfunktion ↔ Wahrscheinlichkeitsfunktion
Empirische Dichtefunktion ↔ Dichtefunktion
Empirische Verteilungsfunktion ↔ Verteilungsfunktion
23
Diese Analogien setzen sich auch fort, was die Lage- und Streuungsmaße betrifft, wie wir
gleich sehen werden.
Was den Mittelwert x betrifft, so entspricht ihm dabei der sog. Erwartungswert µ oder
auch E(X) der Zufallsvariable X. Er ist definiert durch
ì å p j x j , falls X diskret
ïï j
µ = E(X) := í ∞
ï ò xf ( x )dx , falls X stetig
ïî−∞
Hierbei verlangt man sogar die Konvergenz von
åp
∞
j
x j bzw.
ò x f ( x)dx ,
−∞
j
um nicht nur die Existenz dieser Erwartungswerte sicherzustellen, sondern auch gleich jede
Abhängigkeit von der Reihenfolge der Aufsummierung auszuschließen.
Für eine diskrete Zufallsvariable X ist gelegentlich folgende (zuerst vielleicht etwas merkwürdig anmutende) Art der Berechnung von E(X) nützlich:
Satz 2.2: Ist X eine diskrete Zufallsvariable, deren Werte alle in N ={0,1,2,…} liegen, so gilt
∞
E(X) = å P(X ≥ j)
j=1
Beispiel 2.3: Aus einer Urne mit n Kugeln werden solange Kugeln mit Zurücklegen gezogen,
bis eine kommt, welche schon einmal da war. Es sei X jeweils die Anzahl der bis dahin
gezogenen Kugeln, ohne die letzte, die schon da war. Es gilt dann offensichtlich
1
2
j −1
)
P(X ≥ j) = (1 − )(1 − )...(1 −
n
n
n
wobei gilt P(X ≥ j) = 0 für j>n. Mit Hilfe von 2.2 folgt daher daraus
n
E(X)=
1
2
å (1 − n )(1 − n )...(1 −
j=1
j −1
)
n
Für große n kann aus obiger Formel noch eine interessante Näherung herleiten, indem man
k
k
1 − ≈ exp(− )
n
n
benützt, wobei exp(x)= e x ist. Es gilt dann nämlich
∞
j−1
n j−1
∞
∞
k
k
( j − 1) j
x2
πn
E(X) = å∏ (1 − ) ≈ å exp(−å ) = å exp(−
) ≈ ò exp(− )dx =
n
2n
2n
2
j=1 k =1
j=0
k =1 n
j= 0
0
Bereits für n=100 ergibt sich so der recht brauchbare Näherungswert 50π ≈ 12.53, der von
dem Wert 12.21, welcher mit der exakten Formel gewonnen wurde, nur um 2.6% abweicht.
Häufig benötigt man nicht den Erwartungswert von X selbst, sondern den der Zufallsvariablen
Y=g(X), wobei g(x) eine stetige reelle Funktion ist. Es gilt dann
24
ì å g( x j )p j
ïï j
E(g (X)) = í ∞
ï ò g ( x )f ( x )dx
îï−∞
Indem man hier z.B. für g(x) die lineare Funktion g(x)=ax+b nimmt, erhält man nach leichter
Rechnung die wichtige Beziehung
E(aX+b)=aE(X)+b
Allgemeiner gilt für jede Linearkombination a 1X1 + a 2 X 2 + ... + a n X n von irgendwelchen Zufallsvariablen X1 , X 2 ,.., X n mit reellen Zahlen a 1 , a 2 ,..., a n , dass
E(a 1X1 + a 2 X 2 + ... + a n X n ) = a 1E(X1 ) + a 2 E(X 2 ) + ... + a n E(X n )
d.h. E ist ein sog. linearer Operator.
Wie schaut es diesbezüglich mit dem Produkt von zwei Zufallsvariablen X und Y aus? Um
diese Frage beantworten zu können, benötigen wir folgende
Def. und Satz 2.4: Zwei Zufallsvariable X und Y heißen unabhängig, wenn die Ereignisse
X ≤ x und Y ≤ y für beliebige Zahlen x,y ∈ R unabhängig sind, d.h. wenn gilt
P((X ≤ x , Y ≤ y)) = P(X ≤ x )P(Y ≤ y)
Im Falle von diskreten Zufallsvariablen X und Y ist dies dabei gleichwertig mit der einfacheren Bedingung, dass
P((X = x i , Y = y j )) = P(X = x i )P(Y = y j )
für alle x i im Wertebereich von X und alle y j im Wertebereich von Y.
Tatsächlich kann man unter dieser Voraussetzung dann einen ähnlichen Satz wie
E(X+Y)=E(X)+E(Y) auch für das Produkt X ⋅ Y beweisen, d.h. sind X und Y unabhängige
Zufallsvariable, so gilt auch
E(X ⋅ Y) = E(X) ⋅ E(Y)
Was die Analoga zu den anderen Lagemaßen aus der deskriptiven Statistik betrifft, wie
Median und Modus, sowie auch α -Quantile, so genügt für erste die Bemerkung, dass diese
in genau der gleichen Weise berechnet wie dort, indem man nur statt mit relativen
Häufigkeiten mit Wahrscheinlichkeiten rechnet und statt mit empirischen Dichte- und
Verteilungsfunktionen nun mit den „echten“ durch die Theorie vorgegebenen. Wir werden
dazu später in der induktiven Statistik noch viele Beispiele rechnen.
Aufbauend auf dem Begriff des Erwarungswertes und seinen Eigenschaften fällt es auch nicht
schwer einen zum Begriff der empirischen Varianz für Stichproben analogen Begriff für eine
Zufallsvariable X einzuführen. Wir definieren die Varianz V(X) von X mittels
V(X)= E((X − µ) 2 )
Da V(X) niemals negativ ist, können wir auch σ := V(X) bilden, die sog. Standardabweichung von X. Es gilt somit
25
ì å ( x j − µ) 2 p j , falls X diskret
ïï j
V(X) = σ 2 = í ∞
2
ï ò (x - µ) f ( x )dx , falls X stetig
îï-∞
Für die praktische Berechnung der Varianz V(X) macht man oft Gebrauch von der mit Hilfe
der Linearität des Erwartungswertes einfach zu beweisenden Gleichheit
E((X − µ) 2 ) = E(X 2 ) − µ 2
Ferner hat auch Kovarianz s XY in der deskriptiven Statistik eine Entsprechung in der
Kovarianz Cov(X,Y), welche definiert ist durch
Cov(X,Y)= E((X − µ X )(Y − µ Y ))
und für welche wieder die Gleichung
Cov(X,Y)=E(XY) − µ X µ Y
eine im allgemeinen einfachere Berechnungsmöglichkeit darstellt. Aus ihr kann man insbesondere sofort ersehen, dass für unabhängige Zufallsvariable X und Y, für welche ja
E(XY) = E(X)E(Y) = µ X µ Y
gilt, Cov(X,Y)=0 ist. Auf Grund der leicht zu beweisenden Beziehung
V(X+Y)=V(X)+V(Y)+2Cov(X,Y)
hat dies die wichtige Konsequenz, dass für unabhängige Zufallsvariable X und Y also
V(X+Y)=V(X)+V(Y)
gilt. Allgemeiner gilt für n paarweise unabhängige Zufallsvariable X1 , X 2 ,.., X n (für die also
dann Cov(X i , X j ) = 0 für i ≠ j ist) und beliebige a 1 , a 2 ,.., a n ∈ R, dass
V(a 1X1 + a 2 X 2 + ... + a n X n ) = a 12 V(X1 ) + a 22 V(X 2 ) + ... + a 2n V(X n )
Besonders hervorgehoben sei dabei wieder der nachfolgende Spezialfall
V(aX+b)= a 2 V(X)
d.h. die Varianz ist im Gegensatz zurm Erwartungswert gegenüber einer beliebigen
Translation mit b ∈ R invariant, dagegen wirkt sich die Multiplikation von X mit a ∈ R so
aus, dass V(X) mit a 2 multipliziert wird!
Als einfache Folgerung aus obigem ergibt sich insbesondere, dass die Variable
Z :=
X −µ
σ
die man aus X durch sog. Stardardisieren mit dem Erwartungswert µ und der
Standardabweichung σ von X erhält, die Eigenschaften
E(Z)=0 und V(Z)=1
besitzt. Z heißt die zu X gehörende standardisierte Variable.
Eine weitere wichtige Konsequenz aus dem oben Gesagten ist
26
Satz 2.5: Sind X1 , X 2 ,..., X n unabhängige und identisch verteilte Zufallsvariable, die alle
denselben Erwartungswert µ und dieselbe Varianz σ 2 besitzen, so gilt dann für das arithmetische Mittel X = (X1 + X 2 + ... + X n ) / n , dass E( X ) = µ und V( X ) = σ 2 / n .
Wie also nicht anders zu erwarten, hat ein Stichprobenmittel denselben Erwartungswert wie
die Grundgesamtheit, jedoch ist die Varianz erheblich kleiner, genauer um den Faktor 1/n.
Wir sind nun auch in der Lage, einen wichtigen Zusammenhang zwischen Erwartungswert
und Standardabweichung zu beweisen, nämlich
Satz 2.6: Für jede Zufallsvariable X mit Erwartungswert µ und der Standardabweichung σ
gilt die sog. Tschebyscheffsche Ungleichung
P ( x − µ > kσ ) ≤
1
für alle k>0
k2
Der Wert dieser Aussage liegt vor allem darin, dass sie unter ganz allgemeinen
Voraussetzungen gilt und damit ein wichtiges beweistechnisches Hilfsmittel darstellt. (Liegt
eine konkrete Verteilung vor, so sind oft noch viel weitergehende Aussagen möglich, wie wir
später noch sehen werden.)
Als Beispiel für die Anwendung von 2.6 wollen wir das schon früher zitierte Gesetz der
großen Zahlen beweisen, und zwar in der folgenden etwas allgemeineren Form:
Satz 2.7: Sind X1 , X 2 ,..., X n unabhängige Zufallsvariable, die wieder alle denselben Erwartungswert µ und dieselbe Varianz σ 2 besitzen sollen, so gilt für jedes ε > 0 , dass
lim P( X − µ < ε) = 1
n →∞
Man sagt dazu auch, dass X für n → ∞ fast sicher gegen µ konvergiert.
Setzt man darin speziell X i = I A , i=1,2,..,n, wobei I A die Indikatorvariable für ein Ereignis
A bedeutet, welche durch
ì1,
IA = í
î 0,
falls A zutrifft
sonst
definiert ist, so ist dann offenbar X = h n (A) , d.h. gleich der relativen Häufigkeit von A bei n
Versuchen, sowie µ =P(A), und damit ist tatsächlich die schon früher gemachte Aussage
bewiesen, dass nämlich die relativen Häufigkeiten h n (A) fast sicher gegen die Wahrscheinlichkeit P(A) konvergieren.
Als letztes wollen auch Analoga zu den Formmaßen g1 und g 2 aus der Deskriptiven Statistik
für eine Zufallsvariable X einführen. Diese sind die Schiefe
γ1 =
E((X − µ) 3 )
σ3
bzw. die Wölbung (oder Exzess bzw. Kurtosis)
γ2 =
E((X − µ) 4 )
−3
σ4
Inhaltlich gesehen haben sie dieselbe Bedeutung wie g1 und g 2 (siehe dort), d.h. sie messen
Abweichungen von der Symmetrie bzw. von der Form der Normalverteilung.
27
3. Diskrete Verteilungen
Eines der wichtigsten Beispiele für die Verteilung einer diskreten Zufallsvariablen ist die sog.
Binomialverteilung. Wir betrachten dazu irgendein Zufallsexperiment und interessieren uns
dafür, ob ein bestimmtes Ereignis A eintritt oder nicht. Man spricht in diesem Zusammenhang
auch von einem Bernoulli-Experiment. Es wird n-mal durchgeführt und dabei die Anzahl X
des Eintretens von A registriert. In anderer Sprechweise ist also
X = X1 + X 2 + ... + X n mit X i = I A , i=1,2,..,n,
wobei die Zufallsvariablen X i unabhängig voneinander sind. Die Wahrscheinlichkeit für ein
k-maliges Eintreten des Ereignisses A ist dann gegeben durch
ìæ n ö k
ïçç ÷÷ p (1 − p) n − k für k = 0,1,..., n
f (k ) = íè k ø
ï
0
sonst
î
Eine Zufallsvariable X mit einer solchen Wahrscheinlichkeitsfunktion heißt binomialverteilt
mit den Parametern n und p. Für die Werte f(k) gilt stets
n
f (k ) ≥ 0 für alle k sowie å f (k ) = 1 .
k =0
Die nachstehende Abbildung zeigt als einfaches Beispiel die Wahrscheinlichkeitsfunktion der
Binomialverteilung für n = 8 und p = 0.2, 0.5 bzw. 0.8.
Insbesondere kann man daraus ersehen, dass die Verteilung nur für p=0.5 symmetrisch,
dagegen für p<0.5 rechtsschief bzw. für p>0.5 linksschief ist.
Für eine binomialverteilte Zufallsvariable X mit den Parametern n und p gelten die Formeln
µ = E(X) = np, σ 2 = V(X) = np(1 − p) .
28
Dies kann man entweder direkt aus der Definition von E(X) bzw. V(X) ableiten, oder auch als
einfache Folgerung aus obiger Summendarstellung von X erhalten unter Beachtung von
E(I A ) = p bzw. V(I A ) = p(1 − p)
sowie der Linearität von E(X) bzw. V(X) unter den gegebenen Voraussetzungen. Dieser
wichtige Spezialfall n=1 der Binomialverteilung, wo also dann X = I A ist, wird in der
Literatur auch oft Bernoulliverteilung für das Ereignis A genannt.
Beispiel 3.1: Wie groß ist die Wahrscheinlichkeit, bei dreimaligem Ausspielen eines Würfels
mindestens einmal einen Sechser zu würfeln? Die Anzahl X der Sechser unter drei Würfen ist
eine binomialverteilte Zufallsvariable mit den Parametern n = 3 und p = 1/6. Demnach
beträgt die gesuchte Wahrscheinlichkeit P(X ≥ 1) = f(1) + f(2) + f(3) oder einfacher
0
3
æ 3ö æ 1 ö æ 5 ö
P(X ≥ 1) = 1 − f (0) = 1 − çç ÷÷ ç ÷ ç ÷ = 0.4213 ≈ 42% .
è0ø è 6 ø è 6 ø
Damit beträgt der Erwartungswert für die Anzahl der Sechser in drei Würfen
1
µ = 3 = 0 .5
6
und die Standardabweichung
15
σ= 3
= 0.645 .
66
Die Binomialverteilung tritt auch in natürlicher Weise auf beim n-maliges Ziehen mit
Zurücklegen aus einer Urne mit weißen und schwarzen Kugeln, wobei der Anteil der weißen
Kugeln in der Urne p sei, wenn wir die Wahrscheinlichkeit betrachten, dass genau k weiße
Kugeln gezogen werden. Hier sind die einzelnen Ziehungen klar voneinander unabhängig und
alle haben dieselbe Erfolgswahrscheinlichkeit p. Dies ist jedoch nicht mehr der Fall, wenn wir
Ziehungen ohne Zurücklegen durchführen.
Genauer gilt folgendes: Sind in der Urne insgesamt N Kugeln und davon M weiß, so ist die
Wahrscheinlichkeit, nach n-maligem Ziehen ohne Zurücklegen genau k weiße Kugeln zu
erhalten gegeben durch
ì æ M öæ N − M ö
÷÷
ï çç ÷÷çç
k
n
−
k
è
ø
è
ø , falls k = 0,1,.., M
ïï
f (k ) = í
æ Nö
çç ÷÷
ï
ènø
ï
ïî
0,
sonst
Es ist dies die Wahrscheinlichkeitsfunktion der sog. Hypergeometrischen Verteilung. Für
sie gilt
M
M
M N−n
µ = E( X ) = n
bzw. σ 2 = V(X) = n (1 − )
N
N
N N −1
Setzt man hierin p:=M/N, so werden diese Formeln zu
N−n
N −1
d.h. sie sind dann sehr ähnlich den entsprechenden Formeln für die Binomialverteilung mit
p=M/N. Bei der Varianz hat man allerdings den sog. Korrekturfaktor für endliche Grundgesamtheiten
µ = E(X) = np bzw. σ 2 = V(X) = np(1 − p)
29
N−n
N −1
zu berücksichtigen, der jedoch für großes N und im Vergleich dazu kleines n nahezu den Wert
1 hat in Übereinstimmung mit der Überlegung, dass dann der Unterschied zwischen
Ziehungen „mit Zurücklegen“ und „ohne Zurücklegen“ kaum ins Gewicht fällt.
Beispiel 3.2: Beim Lotto „6 aus 45“ ist die Wahrscheinlichkeit für genau k richtige Zahlen
mit k=0,1,…,6 nach obigem allgemein gegeben durch die Formel
æ 6 öæ 39 ö
çç ÷÷çç
÷÷
è k øè 6 − k ø
æ 45 ö
çç ÷÷
è6ø
d.h. es liegt hier eine hypergeometrische Verteilung mit den Parametern N=45 und M=6 vor.
Für eine binomialverteilte (und noch mehr für eine hypergeometrisch verteilte) Zufallsvariable X ist die Berechnung der Wahrscheinlichkeiten f(k) und ihre Tabellierung aufgrund
der vielen Parameterwerte für großes n recht mühsam. Ist n sehr groß, p aber gleichzeitig nahe
bei Null, dann gilt in guter Näherung f(k) ≈ (λk/k!)e−λ mit λ = np und k = 0,1,...,n. Als
Faustregel für die Brauchbarkeit dieser Approximation gilt n ≥ 30 und p ≤ 0.1. Man
bezeichnet eine Zufallsvariable mit der Wahrscheinlichkeitsfunktion
ì λk −λ
ï
f (k ) = í k! e für k = 0,1,2,...
ïî
0
sonst
als Poisson-verteilt mit dem Parameter λ. Sie wird, um es noch einmal ganz genau zu sagen,
als Grenzverteilung der Binomialverteilung erhalten, wenn p → 0 und n → ∞ geht, wobei
aber stets np=λ gilt. Auch ihren Erwartungswert und ihre Varianz, nämlich
µ = E(X) = λ und σ 2 = V(X) = λ
erhält man aus den entsprechenden Werten der Binomialverteilung, indem man dort np durch
λ und 1-p durch 1 ersetzt.
Außer als Grenzverteilung einer binomial bzw. hypergeometrisch verteilten Zufallsvariable X
spielt sie in den Anwendungen auch eine wichtige eigenständige Rolle, insbesondere bei sog.
Warteschlangenmodellen, bei denen es darum geht, die Wahrscheinlichkeit dafür zu
berechnen, dass innerhalb von x Zeiteinheiten genau k mal ein gewisses nicht allzu häufiges
Ereignis eintritt.
Beispiel 3.3: Ein Angler macht die Erfahrung, dass im Mittel 3 Fische pro Stunde anbeißen.
Wie groß ist dann die Wahrscheinlichkeit, dass er nach einer Stunde weniger als 3 Fische
gefangen hat?
30 31 32 −3 17 −3
P(X < 3) = f (0) + f (1) + f (2) = ( + + )e = e ≈ 42.32%
2
0! 1! 2!
Eine weitere Verteilung, die in einer gewissen Beziehung zur Binomialverteilung steht ist die
sog. negative Binomialverteilung, wobei hier aber X die Anzahl der Versuche bezeichnet,
bis genau n Erfolge eingetreten sind. Speziell für n=1 wird diese Verteilung auch
geometrische Verteilung genannt. Ähnlich wie die Binomialverteilung kann man X dann
auch wieder deuten als Summe
X = X1 + X 2 + ... + X n
30
wobei die einzelnen X i , i=1,2,..,n, unabhängig und geometrisch verteilt sind. Die Wahrscheinlichkeitsfunktion für diese Verteilung ist gegeben durch
ìæ k − 1ö n
÷p (1 − p) k − n für k = n, n + 1,...
ïç
f (k ) = íçè n − 1÷ø
ï
0
sonst
î
Speziell für n=1, d.h. für den allereinfachsten Fall der geometrischen Verteilung, vereinfacht
sich diese Formel zu
ìp(1 − p) k −1 für k = 1,2,...
f (k ) = í
0
sonst
î
Für diesen Spezialfall lassen sich ihr Erwartungswert und Varianz leicht bestimmen zu
µ = E( X ) =
1
1− p
bzw. σ 2 = V(X) = 2
p
p
Wegen X = X1 + X 2 + ... + X n gilt dann für den allgemeinen Fall einer negativ binomialverteilten Zufallsvariablen X, dass
µ = E(X) =
n
1− p
bzw. σ 2 = V(X) = n 2
p
p
Beispiel 3.4: Eine Blutbank benötigt Blut von 10 Personen mit Rhesusfaktor positiv. Wie groß
ist die Wahrscheinlichkeit, dass man dazu mit höchstens 14 Blutspendern auskommt, wenn
p=0.85 die Wahrscheinlichkeit dafür ist, einen positiven Rhesusfaktor zu haben.
Es sei dazu X die Anzahl der Blutspender, bei der das Ziel, 10 Blutkonserven mit positiven
Rhesusfaktor zu haben, erstmals erreicht ist. Nach obigem ist dann X negativ binomialverteilt
mit p=0.85 und n=10 und es gilt
P(X ≤ 14) =
æ k − 1ö
÷÷0.8510 0.15 k −10 ≈ 95.33%
9
k =10 è
ø
14
å çç
4.Stetige Verteilungen
Wir beginnen mit der einfachsten stetigen Verteilung, der stetigen Gleichverteilung. Sie ist
das Gegenstück zur diskreten Gleichverteilung, bei der k Ereignisse A1 , A 2 ,..., A k jeweils
mit der gleichen Wahrscheinlichkeit 1/k auftreten (wie etwa beim Werfen eines Würfels, wo
k=6 ist). Im Gegensatz dazu liegen die Realisationen einer Zufallsvariablen bei einer stetigen
Gleichverteilung alle in einem Intervall [a,b] (mit endlichen Grenzen) und die Dichtefunktion
f(x) ist gegeben durch
ìï 1
für x ∈ [a, b]
f (x ) = í b − a
ïî 0
sonst
Daraus ergibt sich sofort auch die Formel für die Verteilungsfunktion F(x), nämlich
ì 0
ïx - a
F( x ) = í
ïb - a
î 1
sowie
für x < a
für a ≤ x ≤ b
für x > b
31
E(X) =
a+b
(b − a ) 2
bzw. V(X) =
2
12
Ähnlich einfach sind die Rechnungen für die sog. Exponentialverteilung, die wir daher als
nächstes besprechen wollen. Sie hat einen einzigen Parameter λ >0 und ihre Dichtefunktion
f(x) ist gegeben durch
ìλe − λx für x ≥ 0
f (x ) = í
sonst
î 0
Daraus ergeben sich nach leichter Rechnung die Verteilungsfunktion F(x) zu
für x < 0
ì0
F( x ) = í
-λx
î1 - e für x ≥ 0
sowie Erwartungswert und Varianz zu
E (X ) =
1
1
bzw. V(X) = 2
λ
λ
Die Exponentialverteilung ist in gewisser Weise das stetige Analogon zur geometrischen
Verteilung, indem sie in den Anwendungen typischerweise die Zeitdauer t angibt, bis irgendein Ereignis zum ersten Mal aufttritt, z.B. das „Ableben“ eines Bauteils in der Elektronik oder
der Zerfall eines radioaktiven Teilchens. Dabei sollte diese „Wartezeit“ unabhängig davon
sein, wie lange man vorher schon auf das Ereignis „gewartet“ hat. Ist dies nicht der Fall (weil
z.B. Abnützungserscheinungen vorliegen), so könnte man eine Modellierung mit der wesentlich komplizierteren Weibull-Verteilung mit zwei reellen Parametern α, β >0 versuchen,
deren Dichtefunktion f(x) und Verteilungsfunktion F(x) gegeben sind durch
ìαβ x β−1 exp(−αx β ) für x > 0
f (x ) = í
bzw.
sonst
î 0
ì1 − exp(−αx β ) für x > 0
F( x ) = í
sonst
î 0
Die Exponentialverteilung erhält man daraus als den Spezialfall β =1. (Erwartungswert und
Varianz lassen sich für die Weibull-Verteilung leider nicht mehr allgemein angeben.)
Beispiel 4.1: Die Lebensdauer T (in Jahren) des Kohlenstoffisotops
lungsfunktion
14
C besitzt die Vertei-
F( t ) = 1 − e −0.00012 t für t>0
und 0 sonst. Die Wahrscheinlichkeit, dass es 10000 Jahre überlebt, ist dann
P(T > 10000) = 1 − F(10000) ≈ 30.12%
~
Die Halbwertszeit t0.5 , d.h. der Median der Verteilung, berechnet sich aus der Gleichung
~
F( t0.5 ) = 1 / 2
~
nach einfacher Rechnung zu t0.5 = ln 2 / 0.00012 ≈ 5776 Jahre.
Von den in der Praxis vorkommenden stetigen Verteilungen ist die sogenannte Normalverteilung mit Abstand die wichtigste. Nicht nur sind zahlreiche Größen wenigstens
annähernd normalverteilt bzw. lassen sich in normalverteilte Zufallsgrößen transformieren; es
können unter bestimmten Voraussetzungen auch verschiedene andere Verteilungen durch die
Normalverteilung angenähert werden. Diese Sonderstellung der Normalverteilung wird durch
den Zentralen Grenzwertsatz zum Ausdruck gebracht. Nach diesem ist eine Summe von n
Zufallsvariablen
32
X = X1 + ... + X n
wobei diese alle unabhängig voneinander sind und der gleichen Verteilung gehorchen, bei
großem n annähernd normalverteilt, genauer gesagt, für n → ∞ geht die Verteilungsfunktion
F(x) von X in eine Normalverteilung über. (Als typische Beispiele, wo dies zutrifft, haben wir
schon die Binomialverteilung und die negative Binomialverteilung kennengelernt, wo die
einzelnen X i alle Bernoulli- bzw. geometrisch verteilt waren.) Diese Tatsache ist auch der
Grund dafür, dass in der Praxis so oft annähernd normalverteilte Zufallsvariable beobachtet
werden, was eben meist seine Ursache in einem additiven Zusammenwirken von vielen
voneinander unabhängigen Einflüssen hat.
Die Wahrscheinlichkeitsdichte einer normalverteilten Zufallsvariablen X ist durch die Formel
f (x) =
1
σ 2π
e
1 æ x −µ ö
− ç
÷
2è σ ø
2
gegeben, wobei hier die Parameter µ bzw. σ klarerweise den Mittelwert bzw. die Standardabweichung von X bedeuten. Der Verlauf von f(x) ist in folgender Abbildung für einige
Werte von µ und σ dargestellt. Besonders auffallend ist das glockenförmige Aussehen dieser
Kurven und die Symmetrie bezüglich x = µ. An den Stellen x = µ ± σ hat sie überdies
Wendepunkte.
Eine Veränderung von µ bewirkt lediglich eine Verschiebung der betrachteten Glockenkurve
längs der x-Achse. Dagegen beeinflusst der zweite Parameter σ wesentlich die Steilheit der
Kurve; je größer σ, desto kleiner ist das Maximum von f und desto flacher der Abfall nach
beiden Seiten.
Im Sonderfall µ = 0, σ = 1 spricht man von der Standardnormalverteilung. Wir wissen ja
bereits, dass wir durch Standardisieren, d.h. durch Bildung einer neuen Zufallsvariablen
Z=
X−µ
σ
33
immer zu einer Verteilung mit µ = 0, σ = 1 übergehen können. Im Fall einer Gaußschen
Normalverteilung erhält man durch Standardisieren wieder eine Normalverteilung. Dies ist
ein Spezialfall von folgendem allgemeinen
Satz 4.2 (Additivität der Normalverteilung): Sind die Zufallsvariablen X1 , X 2 ,..., X n
unabhängig und normalverteilt mit den Parametern µ i und σ i , i=1,2,..,n, so ist die
Zufallsvariable
X = a 1X1 + a 2 X 2 + ... + a n X n +b
für beliebige reelle Zahlen a i , i=1,2,…,n, und b dann ebenfalls normalverteilt und zwar mit
µ = a 1µ1 + a 2µ 2 + ... + a n µ n +b bzw. σ 2 = a 12 σ12 + a 22 σ 22 + ... + a 2n σ 2n
Insbesondere kann man daraus ersehen, dass im Spezialfall
X = X1 + X 2 + ... + X n
wobei die X i alle identisch normalverteilt sind, X nicht nur angenähert, wie dies nach dem
zentralen Grenzwertsatz bereits der Fall sein muß, sondern sogar exakt normalverteilt ist.
Für die Dichtefunktion f(x) und die Verteilungsfunktion F(x) einer standardnormalverteilten
Zufallsvariablen Z haben sich dabei die Bezeichnungen ϕ( x ) bzw. Φ( x ) eingebürgert, die
wir daher nachfolgend ebenfalls verwenden werden. Zwischen der Verteilungsfunktion F
einer normalverteilten Zufallsvariablen X mit den Parametern µ und σ und der
Verteilungsfunktion Φ der standardisierten Zufallsvariablen Z = (X − µ)/σ besteht somit der
Zusammenhang
F( x ) = Φ (
x −µ
).
σ
Damit ist es möglich, die Werte der Verteilungsfunktion einer beliebigen normalverteilten
Zufallsvariablen mit Hilfe der Tabelle für Φ(z) zu bestimmen. Für negative Argumente macht
man dabei Gebrauch von der Beziehung
Φ(−x) = 1 − Φ(x)
Beispiel 4.3: Sei X eine normalverteilte Zufallsvariable mit den Parametern µ = 15 und σ =
4. Man bestimme (a) P(X < 10), (b) P(X > 10), (c) P(16 < X < 20). Es ist unter Verwendung
der oben angeführten Formeln im Fall (a)
P(X < 10) = F(l0) = Φ(−l.25) = 1 − Φ(l.25) = 0.1056.
Die Frage (b) kann unmittelbar auf (a) zurückgeführt werden:
P(X > 10) = 1 − P(X ≤ 10) = 1 − F(l0) = 0.8944.
Schließlich ist im Fall (c)
P(16 < X < 20) = F(20) − F(l6) = Φ(1.25) − Φ(0.25) = 0.2957.
Für eine normalverteilte Zufallsvariable X mit den Parametern µ und σ gilt näherungsweise
P(µ − σ < X < µ + σ) = 68%
P(µ − 2σ < X < µ + 2σ) = 95.5% .
P(µ − 3σ < X < µ + 3σ) = 99.7%
34
Dieses Ergebnis lässt sich folgendermaßen interpretieren: Bei genügend großer Anzahl von
Beobachtungswerten einer normalverteilten Größe liegen ca. 2/3 aller Werte innerhalb der
einfachen, ca. 95% innerhalb der zweifachen und 99.7% innerhalb der dreifachen Standardabweichung um den Mittelwert herum. Praktisch liegen also fast alle Beobachtungswerte
einer normalverteilten Zufallsvariablen innerhalb der 3σ-Grenzen (Drei-Sigma-Regel).
Wir haben unter bestimmten Voraussetzungen die Binomialverteilung bereits durch die
Poisson-Verteilung angenähert. Für n ≥ 30 und 0.1 ≤ p ≤ 0.9 kann die Binomialverteilung
aber auch in guter Näherung durch die Normalverteilung mit µ = np und σ2 = np(1−p)
approximiert werden. Bei Ausnutzung dieser Tatsache sollte man aber daran denken, dass
durch den Übergang von der diskreten Verteilung mit ganzzahligen Werten k zu einer stetigen
Verteilung, wie der Normalverteilung, nun die Zahl k in gewisser Weise das ganze Intervall
(k-1/2,k+1/2] repräsentieren muss, d.h. man sollte die Näherung
P (a < X ≤ b ) ≈ Φ (
b + 1 / 2 − np
a − 1 / 2 − np
) − Φ(
)
np(1 − p)
np(1 − p)
verwenden, wobei hier a und b vor dem Einsetzen mittels der sog. Stetigkeitskorrektur 1/2
nach unten bzw. oben modifiziert wurden. Die theoretische Grundlage zu obiger Näherung,
welche nach einer alten Faustregel für np(1-p) > 9 recht gut funktioniert, ist in der Literatur
auch als Grenzwertsatz von De Moivre und Laplace bekannt, der eigentlich, wie wir
gesehen haben, nur einen Spezialfall des Zentralen Grenzwertsatzes darstellt.
Außer den bisher genannten stetigen Verteilungen gibt es noch eine Reihe von sehr wichtigen
sog. Prüfverteilungen, vor allem die χ 2 -, t- und F-Verteilung, von denen in der Induktiven
Statistik im Zuge von Testverfahren vor allem spezielle Quantile benötigt werden. Da die
Formeln für ihre Dichten und Verteilungsfunktionen sehr kompliziert sind, verzichten wir hier
auf ihre explizite Anführung. Des weiteren werden die Sätze, die ihre eigentliche Bedeutung
erhellen, im nächsten Kapitel im geeigneten Kontext angeführt.
Herunterladen