Nagl, Einführung in die Statistik
Seite 1
B3 Einführung in die Wahrscheinlichkeitstheorie
B3.1 Wahrscheinlichkeitsmodelle
B3.1.1 Stichprobenraum
Ein bestimmtes Ergebnis eines Zufallsexperiments wird Elementarergebnis genannt (abgekürzt: i). Die Menge
aller möglichen Ergebnisse des Experiments wird auch Stichprobenraum genannt bzw. die Menge der Elementarergebnisse (= ), mit  = {1, 2, 3, ...}.
Bei einem Zufallsexperiment sind meist
mehrere Ergebnisse
möglich. Ein spezielles Ergebnis heißt
wird Elementarergebnis genannt.
Das Symbol für ein Elementarergebnis ist  (bzw. mit
Index i).
Die Menge aller möglichen
Ergebnisse des Experiments
wird auch Stichprobenraum
genannt bzw. die Menge der
Elementarergebnisse (= ),
mit  = {1, 2, 3, ...}.
Beispiel: Bei einmaligen Würfelwurf sind die möglichen Ergebnisse
1 = “1“, 2 = “2“, … , 6 = “6“. mit  = {„1“, „2“, …, „6“}
Beispiel: Werfen einer Münze (mit Kopf bzw. Adler als Ergebnis),
danach Werfen eines Würfels. Die Ergebnismenge  ist dann {K1,
K2, …, K6, A1, A2, … , A6}.
Beispiel: Beim zweimaligen Würfelwerfen gibt es 36 mögliche
Elementarereignisse.  = {„11“, „12“, …, „66“}.
Beispiel: Aus Urne mit Kugeln a, b, c, d werde zweimal ohne Zurücklegen eine Kugel gezogen, dann kann die Ergebnismenge  = {ab,
ac, ad, bc, bd, cd} sein.
Beispiel Es seien in einer Urne als „Kugeln“ die ersten 16 Personen der Studentenuntersuchung; Auf jeder Kugel sei zudem die VpNr., die Schulbildung des Vaters (Volksschule(v),
Höhere Schule(h) bzw. Abi und mehr(a)) und die Antwort auf die Frage nach der Angst vor
Prüfungen (ja(j), nein(n). Fehlende bzw. unentschiedene Antworten werden mit einem
Minus(-) abgekürzt.
Angenommen, es wird nun einmal eine Kugel gezogen, so können 16 Elementarergebnisse
identifiziert werden, die selbst wieder als Menge in  = {1, 2, 3, ...} zusammengefasst
werden können.
Welche Elementarergebnisse hätte man beim zweimaligen Ziehen ohne zurücklegen?
1 
2
3
4
5
6
7
8
= (2,-,-)
= (10,v,-)
= (5,v, j)
= (8,v, j)
= (9,v, j)
= (12,v, j)
= (6,h,n)
= (1,h,-)
9
10
11
12
13
14
15
16
= (7,h,-)
= (4,h, j)
= (11,h, j)
= (13,a,-)
= (15,a,-)
= (3,a, j)
= (14,a,n)
= (16,a,n)
Beispiel Es seien in einer Urne als „Kugeln“ die 55 Personen der Studentenuntersuchung; Auf jeder Kugel sei zudem das Geschlecht (w,m)
und ob derjenige Angst vor Prüfungen (j, n) hat. Welche (wie viele) Elementarergebnisse gibt es beim einmaligen Ziehen? Welche Elementarergebnisse (wie viele) gibt es beim zweimaligen, dreimaligen usw. mit bzw. ohne Zurücklegen?
Beispiel Die Anzahl der Telefongespräche, die innerhalb von 5 Minuten in einer Telefonzentrale reinkommen kann ebenfalls als Zufallsprozeß angesehen werden. Die möglichen Ereignisse können durch die Anzahlen beschrieben werden:  = {0, 1, 2, 3, ...}.
Bei dieser Beschreibung der möglichen Ergebnisse
müssen nun aber nicht alle physikalisch möglichen
Alternativen aufgeführt werden. Die Beschreibung
wird sich im allgemeinen an der Fragestellung orientieren und kann so möglichst sparsam angelegt
werden
Beispiel: Falls beim einmaligen Würfelwurf überhaupt nur interessiert, ob eine ‚6’ kommt oder nicht, kann  = {„no 6“, „6“} aus zwei
Elementen bestehen.
Beim zweimaligen Würfelwerfen ist bei dieser Fragestellung  =
{„no6_ no6“, „no6_6“, „6_ no6“ „66“}.
Beispiel: Falls bei Telefongesprächen nur interessiert, ob in einem 5Minutenintervall weniger als oder gleich 4 oder mehr als 4 reinkommen, genügt eine Beschreibung mit 2 Elementen  = {„<=4“, „>4“}.
Beispiel Es seien in einer Urne als „Kugeln“ die 55 Personen der Studentenuntersuchung; Auf jeder Kugel sei zudem das Geschlecht (w,m)
und ob derjenige Angst vor Prüfungen (j, n) hat. Falls nun nur das Geschlecht interessiert, genügt für die Beschreibung der Ergebnisse des
einmaligen Ziehens die Menge  = {„w“, „m“}, beim zweimaligen Ziehen:  = {„ww“, „mw“ „wm“, „mm“} usw.
Falls Geschlecht und Angst interessiert (ohne die unentschiedenen bzw. fehlenden Antworten) könnte der Stichprobenraum für das einmalige
Ziehen einer Kugel so beschrieben werden  = {„wj“, „wn“, „mj“ „mn“}, wobei „wj“ bedeutet, dass eine Kugel mit Label ‚weiblich“ und
„Angst: ja“ gemeint ist. Entsprechend könnte man beim zweimaligen Ziehen 16 Elementarergebnisse identifizieren.
Die Experimente sind oft aus Teilexperimenten
zusammengesetzt und können so etwa in Form eines
‚Möglickeiten-Baums’ mit entsprechenden Verzweigungen dargestellt werden.
Beispiel: Beim zweimaligen Würfelwerfen ist bei dieser Fragestellung
 = {„no6_ no6“, „no6_6“, „6_ no6“ „66“}.
Nagl, Einführung in die Statistik
Seite 2
B3.1.2 Ereignisse
Ein Ereignis ist
irgendeine Menge
von Elementarergebnissen. Es kann
durch Aufzählung
der Elementarergebnisse oder durch eine
allgemeine Beschreibung charakterisiert
werden.
Ein Ereignis (wird meist mit
Großbuchstaben aus dem vorderen
Teil des Alphabets bezeichnet) E
ist die Menge der   , die
einer speziellen Charakterisierung entspricht:
E := { | wobei  einer ECharakterisierung entspricht
und   }.
Beispiel(Bw): Bei einmaligem Würfelwurf könnten die Menge der
Ergebnisse mit ungeraden Zahlen interessieren. Daher das Ereignis U
(‚ungerade’ - Charakterisierung): U = {1, 3, 5}.
Beispiel(Bmw): Werfen einer Münze (mit Kopf bzw. Adler als
Ergebnis), danach Werfen eines Würfels. Die Ergebnismenge  ist
dann {K1, K2, …, K6, A1, A2, … , A6}. Das Ereignis, das ‚Kopf’
enthält: K := {K1,K2, K3, K4, K5, K6}.
Beispiel(Bww): Beim zweimaligen Würfelwerfen gibt es 36 mögliche
Elementarereignisse.  = {„11“, „12“, …, „66“}.
Beispiel(Buu): Aus Urne mit Kugeln a, b, c, d werde zweimal ohne
Zurücklegen eine Kugel gezogen, dann kann die Ergebnismenge  =
{ab, ac, ad, bc, bd, cd } sein; Im Ereignis: A := {ab, ac, ad} sind die
Ergebnisse zusammengefasst, die ein ‚a’ enthalten.
Zwei spezielle Ereignisse sind: das sichere Ereignis (das ist das Ereignis, das mit Sicherheit eintritt; das ist )
und das unmögliche Ereignis ∅ (leere Menge, die keine Elemente enthält).
Ein Ereignis A kann Die Teilmengenrelation
eine Teilmenge eines
AB
anderen Ereignisses bedeutet, dass alle Elemente,
B sein
die in A sind auch in B sind.
Man kann auch sagen: A
B
impliziert B.
A
Es gilt auch für jedes Ereignis E: ∅  E  .
Beispiel(für Bww): Sei B das Ereignis ‚gleiche Augenzahl : B = {11,
22, 33, 44, 55, 66}. Sei A das Ereignis zweimal eine 5 oder zweimaql
eine 6: A={55, 66}.
Dann ist A Teilmenge von B. A impliziert B: d,h. Falls ein Elementarergebnis aus A ist, weiß man auch, dass es aus B ist.
Man sagt auch: B ist eine notwendige Bedingung für A; auch: A ist
eine hinreichende Bedingung für B
Zwei Mengen A und B sind genau dann gleich (A = B), wenn gilt: A  B und B  A.
Operationen mit Ereignissen
Der Schnitt (auch
Durchschnitt genannt) zweier Ereignisse A und B ist das
Ereignis mit denjenigen Elementen, die
in jeder der beiden
Ereignisse vorhanden
sind
Die Vereinigung
zweier Ereignisse A
und B ist das Ereignis mit denjenigen
Elementen, die in
mindest einem der
beiden Ereignisse
vorhanden sind
Die Differenz zweier
Ereignisse A ohne B
ist das Ereignis mit
jenen Elementen, die
in A aber nicht in B
sind.
Die Schnitt zweier Ereignisse
A und B:
A  B = { | A  B }.
Karierte
Fläche
A
B
Die Vereinigung zweier
Ereignisse A und B:
A  B = { | A  B}.
GesamtFläche
Beispiel(Fortsetzung): Dann ist A  B das Ereignis, für das zumindest eine der beiden Aussagen zutreffen, also die Vereinigungsmenge: {11, 22, 33, 44, 55, 56, 65, 66}
A
B
Die Differenz zweier Ereignisse A - B:
A - B = { | A  B}.
Schraffierte
Fläche
Beispiel(für Bww): Sei B das Ereignis ‚gleiche Augenzahl : B = {11,
22, 33, 44, 55, 66}. Sei A das Ereignis, dass die Augensumme >9 ist:
A={55, 56, 65, 66}. Dann ist A  B das Ereignis, für das beide
Aussagen zutreffen, also die Schnittmenge: {55, 66}
B
A
Beispiel(Fortsetzung): Dann ist A - B das Ereignis mit den Elementen,
die in A enthalten sind, aber nicht in B:. {11, 22, 33, 44}.
Nagl, Einführung in die Statistik
Seite 3
Die Differenz zweier Ereig- Beispiel: Bei einmaligem Würfelwurf könnten die Menge der Ergebnisse mit ungeraden Zahlen interessieren. Daher das Ereignis U
nisse Ac:
(‚ungerade’ - Charakterisierung): U = {1, 3, 5}.
Ac =  - A.

A
Schraffierte
Fläche
Mit Hilfe des Komplements kann auch eine Differenz folgendermaßen formuliert werden: A - B = A  Bc.
Das Komplement
eines Ereignisses A
enthält alle Elemente
von , die nicht in
A sind.
Zwei Mengen A und B heißen disjunkt oder wechselseitig exklusiv, wenn gilt: A  B = ∅. (A und
B haben also kein Element gemeinsam)
Eine Partition (auch
Zerlegung genannt)
von  heißt die
Aufteilung von  in
eine Menge exklusiver Ereignisse.
Sei Z={A1, A2, …, Ak} eine
Menge paarweise disjunkter
Ereignisse, dann heißt Z eine
Partition, wenn gilt:  =A1
 A2 …Ak.
Beispiel: Seien M die Menge der Männer, F die Menge der Frauen,
dann ist die Schnittmenge leer. M und F sind disjunkt.
Beispiel: Seien bei einem Würfelwurf G die Menge der geradezahligen,
U die Menge der ungeradzahligen Ergebnisse, so sind die beiden
Ereignisse disjunkt.
Beispiel: Die beiden Ereignisse M (Männer) und F (Frauen) sind eine
Zerlegung des Stichprobenraums. Jede Einteilung der Elementarergebnisse nach einem Merkmal mit exklusiven Ausprägungen liefert
eine Zerlegung der Gesamtmenge.
Beispiel (Graphisch).
A1, A2, A3, A4 seien disjunkteEreignisse.
Alle zusammen bilden , Daher
ist A1, A2, A3, A4 eine Partition.
A1 A2
A3
A4
Folgende Rechenregeln gelten für Vereinigung, Schnitt und Komplement:
Vereinigung
Schnitt
AA=A
AA=A
(A  B)  C = A  (B  C)
(A  B)  C = A  (B  C)
AB=BA
AB=BA
A  (B  C) = (A  B)  (A  C)
A  (B  C) = (A B)  (A  C)
A=A
A∅=A
A∅=∅
A=
6 KOMPLEMENTGESETZ
A  Ac = 
A  A c =∅
7 DEMORGAN`S GESETZ
(A  B) c = A c  B c
(A  B) c = A c  B c
Ein System von Elementen, für das diese Rechenregeln gelten, nennt man auch eine Bool’sche Algebra.
1
2
3
4
5
Bezeichnung der Gesetze
IDEMPOTENZGESETZ
ASSOZIATIVGESETZ
KOMMUTATIVGESETZ
DISTRIBUTIVGESETZ
IDENTITÄTSGESETZ
B3.1.3 Mengen von Ereignissen
Im Allgemeinen sollen für ein Zufalls-Experiment
eine Vielzahl von Fragen gestellt werden können.
Das bedeutet, dass nicht nur ein spezielles Ereignis
betrachtet wird, sondern meist mehrere Ereignisse.
Neben den interessierenden Ereignissen gehört auf
jeden Fall das sichere Ereignis mit dazu. Zudem
kommen für die interessierenden Ereignisse auch
noch jene hinzu, die durch Schnitt-, Vereinigungsoder Komplementbildung aus bereits Vorhandenen
entstehen.
Ein solches System von Die Mengenalgebra Z()
Mengen heißt auch
erfüllt die Forderungen:
Mengenalgebra, die
1. Z() enthält 
gegenüber Vereini2. Wenn A  Z(), dann
gungs- und Kompleauch Ac  Z()
mentbildung abge3. Wenn A  Z() und
schlossen ist (dann auch
B  Z(), dann ist auch
automatisch gegenüber
AB  Z()
Schnittbildung).
Beispiel: a) Bei einmaligem Würfelwurf könnte die Menge der
Ergebnisse mit ungeraden Zahlen interessieren: U = {1, 3, 5}.
b) Neben U könnte zusätzlich das Ereignis S = {6} interessieren.
Für Beispiel a) würde das bedeuten: Uc gehört auch dazu wegen
Komplementbildung; daher gehören zu dieser Ereignismenge: {∅, U,
Uc, }.
Für Beispiel b) erhält man noch mehr zusätzliche Ereignisse: {∅, U,
Uc, S, Sc, A, Ac, }, wobei A={2, 4}.
Beispiel: Angenommen  sei {a, b, c}. Zusätzlich gehöre A={a}
und B={b} zur Mengenalgebra Z().
Welche anderen Ereignisse müssen dann mindestens noch dazugehören?
Die Komplemente Ac={b,c}, Bc={a,c}, die Vereinigung von A und
B: C={a,b}, daher auch Cc={c};
Daher gehören zu Z(). , A, B, C, Ac, Bc, Cc und .
Nagl, Einführung in die Statistik
Seite 4
Bemerkungen:
a) Wenn die Vereinigung je zweier Ereignisse dazugehören, gehört auch die Vereinigungen endlich vieler
Ereignisse dazu.
b) Oft ist die Vervollständigung der Mengenalgebra sehr aufwendig. Daher wird bei diskretem und endlichem  einfach die Potenzmenge gebildet, die alle möglichen Teilmengen von  enthält.
Falls  nicht nur endlich viele Elemente enthält, wird die 3. Forderung zur Mengenalgebra auf die Vereinigung
von abzählbar unendlich vielen Ereignissen erweitert. Dann heißt diese so modifizierte Mengenalgebra auch eine
Sigma-Algebra (-Algebra): ().
B3.1.4 Axiome der Wahrscheinlichkeit
Die Idee von Wahrscheinlichkeit wurde mit Hilfe des klassischen, frequentistischen bzw. subjektivistischen
Wahrscheinlichkeitsbegriffs bereits vermittelt. Diese Begriffe liefern allerdings keine mathematisch befriedigende Fundierung der Wahrscheinlichkeit. Eine zufrieden stellende Fundierung des Wahrscheinlichkeitsbegriffs
gelang Kolmogoroff(1933) mit seinen 3 Axiomen, aus denen dann die übrigen ‚Rechenregeln’ der Wahrscheinlichkeit ableitbar sind.
Als Wahrscheinlichkeitsraum bezeichnet man das Tripel (, (), P), wobei  der Stichprobenraum, () die
Sigma-Algebra und einem Maß P (die Wahrscheinlichkeit), das folgende Axiome erfüllt:
1. für jedes A () gilt: 0  P(A)  1
2. P() = 1
3. P(A1  A2  …  An) = P(A1) + P(A2) + … + P(An) für Ereignisse A1, A2, …An aus (), die
paarweise disjunkt sind.
Für unendliche Stichprobenräume kann das 3. Axiom erweitert werden von n auf abzählbar unendlich viele
paarweise disjunkte Ereignisse A1, A2, …An, …
Beispiele für Folgerungen aus den Axiomen
Die Wahrscheinlichkeit des Komplements (Ec)
P(Ec) = 1- P(E).
Beweis: E  Ec = , zudem sind E und Ec disjunkt. Daher folgt aus
Axiom 2: P( E  Ec )= P() = 1.
Nach Axiom 3 gilt: P( E  Ec ) = P( E) + P( Ec )
Daher gilt: P(Ec)=1- P(E). qed.
Additionstheorem für
zwei beliebige
Ereignisse
P(A  B)=
P(A) + P(B) – P(AB)
Beweis: Rückführung auf zwei disjunkte Mengen, und zwar: A und
(B – AB). Es gilt: A  B = A  (B – AB). Daher gilt nach
dem 3. Axiom: P(A  B ) = P(A) + P(B – AB).
B kann wieder in die Vereinigung zweier disjunkter Ereignisse zerlegt
werden: B = (AB)  (B – AB). Daher gilt nach Axiom 3
P(B) = P(AB) + P(B–AB) bzw. P(B–AB) = P(B) - P(AB) .
Mithin folgt die Behauptung (A  B ) = P(A) + P(B) - P(AB) qed
B
A
Additionstheorem für mehr als zwei beliebige Ereignisse
Auch hier könnte der Beweis exakt geführt werden.
Additionstheorem für
P(A  B  C) =
Die Behauptung soll hier aber nur erläutert werden.
drei beliebige
P(A) + P(B) + P(C)
Durch die Addition der Wahrscheinlichkeiten von
Ereignisse
– P(AB) – P(AC) – P(BC) A, B und C selbst werden die Überschneidungen
gleich mehrfach addiert.
+ P(ABC).
1
B
A
C
A
1
B
1
1 –1 1
1
C
1
A
2
2
3
B
1
2
Daher werden nun die Schnitte
C1
der Ereignis-Paare abgezogen,
– P(AB) – P(AC) – P(BC).
Das führt wiederum dazu, dass beim Dreifachschnitt ABC diese Fläche einmal zu oft abgezogen wird; daher wird sie nochmals addiert: +
P(ABC).
Das Additionstheorem kann auf beliebig viele Ereignisse erweitert werden: Die Wahrscheinlichkeiten der Einzelmengen werden addiert, die aller Paare subtrahiert, die aller ‚Dreier’ addiert usw.
In diesem Zusammenhang kann auch die BONFERRONI-Ungleichung gut verstanden werden:
P(A1  A2  …  An)  P(A1) + P(A2) + … + P(An)
Denn: Gleichheit gilt für paarweise disjunkte Ereignisse(Axiom 3). Falls nur zwei Ereignisse eine Nichtleere Schnittmenge haben, wird auf
der rechten Seite zu viel addiert, erst recht dann, wenn mehrere überschneiden. Qed.
Nagl, Einführung in die Statistik
Satz der totalen
(bzw. Rand-) Wahrscheinlichkeit.
Seite 5
Sei Z={A1, A2, …, Ak} eine Beispiel (Graphisch):
A1, A2, A3, A4 seien disjunkte Ereignisse.
Partition. Dann gilt:
Alle zusammen bilden ,
P(B) = P(B A1)+ P(BA2) +
… + P(BAk)
Im diskreten (endlich oder auch abzählbar unendlichen) Fall reicht es, für jedes Elementarergebnis
nichtnegative Zahlen so zuzuordnen, dass die Summe über die Zahlen insgesamt 1 ist. Dann sind die
Axiome auch erfüllt: P() = 1; Für ein beliebiges
Ereignis E gilt P( E) =
P({}) ; damit ist auch

B
A1 A2
A3
A4
Beispiel: Ein Würfel werde so lange geworfen, bis eine ‚6’ kommt
(mit k soll ‚keine 6’ abgekürzt werden)
Die möglichen Erlementarergebnisse sind: 6, k6, kk6, kkk6, kkkk6, …
 
n 1 1
P(nach n-1 Fehlversuchen eine Sechs zu haben) = 56
.
6
Nach der Formel für geometrische Reihen
s n  1  a  a 2  ... 
E
1
(für - 1  a  1)
1 a
Axiom 3 erfüllt. Da das eine Summe über nichtnega2
1/ 6
P() =1/6( 1  56  56  .. ) =
=1
tive Zahlen ist, gilt: 0  P( E); andererseits wird
1  56
wohl über weniger summiert als über alle ElemenSei E das Ereignis, dass die ‚6’ bei einem ungeraden Versuch pastarereignisse, daher ist P( E)  1. Daher ist auch
siert: 6, kk6, kkkk6 …
Axiom 1 erfüllt.
1/ 6
25
25 2
 36
 .. ) =
P(E) =1/6 ( 1  36
= 6/11.
25
1  36
Im nichtdiskreten (überabzählbar unendlichen) Fall
kann nicht den einzelnen Punkten eine Wahrscheinlichkeit zugeordnet werden. Die einzelnen Punkte
hätten jeweils eine Wahrscheinlichkeit von 0. In
diesem Fall wird die Wahrscheinlichkeit als Masse
über einer (eventuell sehr kleinen) Region definiert.
Beispiel: Im eindimensionalen Fall (Betrachtung einer Variablen)
wird die Wahrscheinlichkeit als Fläche unter einer Dichtefunktion
definiert für ein bestimmtes Intervall. Die Fläche für einen Punkt ist
jeweils 0.
Beispiel: Für zweidimensionalen Fall (Betrachtung zweier Variablen)
wird für eine Grundfläche die Masse (dreidimensionales Volumen)
unter der Dichtefunktion über dieser Fläche als Wahrscheinlichkeit
definiert.
B3.1.4 Abhängigkeit und Unabhängigkeit
Zwei Ereignisse E und B werden dann als abhängig angesehen, wenn sich die Wahrscheinlichkeitseinschätzung
von E ändert durch die Kenntnis von B.
Beispiel: Zufallsexperiment sei folgendes: Sie Ziehen zuerst eine Urne
P(E  B)
; P(B)>0 (aus zwei Urnen, in der ersten Urne seien 2 schwarze und 1 weisse
P(B)
Kugeln und in der zweiten 1 schwarze und 2 weisse). Danach ziehen
(Sprich: Wahrscheinlichkeit Sie aus der gewählten Urne eine Kugel.
Die Ergebnismenge  ist dann {1s, 1s, 1w, 2s, 2w, 2w}.
von E, gegeben B).
E sei das Ereignis, eine weiße Kugel zu ziehen= {1w, 2w, 2w}. Ohne
Die Nichtbedingte WahrEinschränkung ist das = P(E) = P(E | ) = 0.5.
Sei nun B das Ereignis, die erste Urne zu ziehen. B = {1s, 1s, 1w}.
scheinlichkeit könnte auch
Das Ereignis E berücksichtigt nun auch nur die weißen Kugeln in B
als bedingte geschrieben
werden (Bedingung ist dann (im Sinne der Teilmengenrelation): E B={1w}. Unter dieser Restriktion B gilt: P(E|B) = P(E B)/ P(B) = 1/ 3
)
Genau wenn P(E) = P(E | B) sind E und B stochastisch unabhängig (bei Ungleichheit abhängig).
Bei Gleichheit ist der Kenntnisstand über E gleich groß wie nach Hinzufügen der Information B.
Die bedingte Wahrscheinlichkeit von E
ist die Wahrscheinlichkeit eines Ereignisses eingeschränkt
auf eine Bedingung
B
P(E | B)=
Die Definition der bedingten Wahrscheinlichkeit ist zugleich der Ausgangspunkt Multiplikation von Wahrscheinlichkeiten.
Beispiel: P(E B) = P(B) P(E|B) = 1/2 * 1/3 = 1/6
Multiplikationsge- P(B  E) = P(B)*P(E | B)
setz
Die Wahrscheinlichkeit der Schnittmengen wird oft auch als gemeinsame Wahrscheinlichkeit bezeichnet.
Nagl, Einführung in die Statistik
Seite 6
Bedingte Wahrscheinlichkeiten
Das Multiplikationsgesetz lässt sich beliebig
erweitern (z.B für drei und vier Mengen)
P(ABC) = P(A)*P(B | A)* P(C | AB)
P(ABCD)= P(A)*P(B | A)* P(C | AB)
* P(D | ABC)
Mit Hilfe von Möglichkeitsbäumen können sehr
gut die verschiedenen Konstellationen dargestellt
werden. Die gemeinsamen Wahrscheinlichkeiten
können jeweils durch die Multiplikation der
bedingten Wahrscheinlichkeiten entlang der Äste
berechnet werden (Baummultiplikationsregel)
Gemeinsame Wahrscheinlichkeit
P(C|AB)
P(B|A)
P(A)
B
c
P(C |AB)
A
P(C|ABc)
c
P(B |A)
c
B
P(Cc|ABc)
P(C|AcB)
P(B|Ac)
c
P(A )
A
B
P(Cc|AcB)
c
P(C|AcBc)
P(Bc|Ac)
c
B
P(Cc|AcBc)
P(ABC)
C
c
C
P(ABCc)
C
P(ABcC)
c
C
P(ABcCc)
C
P(AcBC)
c
C
P(AcBCc)
C
P(AcBcC)
c
P(AcBcCc)
C
B3.1.4.1 Der Satz von BAYES
Beispiel: Krebs-Vorsorgeuntersuchung.
In manchen Situationen sind nur die bedingten
Wahrscheinlichkeiten für B unter allen Bedingungen
Testergebnis
einer Zerlegung in m Teile A1, A2, … , Am gegeben
Krank
Gesund
P(B | Ai) und die Randwahrscheinlichkeiten für die
(B)
(Bc)
Tatsäch1=
0=
einzelnen Bedingungen P(Ai).
Krank (A1)
Eine häufige Anwendung dieser Art findet bei Reihenuntersuchungen statt, bei denen oft Tests mit sehr hoher Sensitivität, aber
eher bescheidener Spezifität eingesetzt werden.
Spezifität = P(Testergebnis: Gesund | tats. gesund) und
Sensivität = P(Testergebnis: Krank | tats. krank).
Gesucht ist dann aber für die Betroffenen mit positivem Ergebnis
die Wahrscheinlichkeit P(tats. Krank | Testergebnis: Krank).
Gesucht sind aber die bedingten Wahrscheinlichkeiten P(Ai | B).
Laut Definition gilt: P(Ai | B) = P(BAi)/P(B);
mit: P(BAi) = P(B | Ai) P(Ai) und
P(B) = P(B A1) + … + P(BAm).
In Form einer einzigen Formel angeschrieben heißt
diese Rechenvorschrift Satz von BAYES:.
P( B | A i ) P( A i )
P(A i | B) 
P ( B | A 1 ) P( A 1 )    P( B | A m ) P( A m )
lich
Gesund (A2)
P(B1|A1) P(B2|A1)
0.20 =
0.80 =
P(B1|A2) P(B2|A2)
?
?
0.10 =
P(A1)
0.90 =
P(A1)
Die Randwahrscheinlichkeiten sind bekannt durch die Kenntnis der
Verbreitung der Krankheit in der Bevölkerung. Die bedingten Wahrscheinlichkeiten sind zugleich Eigenschaften von Tests
Gemeinsame
W’keiten
Tatsächlich
Krank (A1)
Gesund (A2)
Testergebnis
Krank
Gesund
(B)
(Bc)
0.10 =
0=
P(A1B1) P(A2B1)
0.18 =
0.72 =
P(A1B2) P(A2B2)
.28
.72
=P(B1)
0.10 =
P(A1)
0.90 =
P(A1)
Gesucht sind die Wahrscheinlichkeiten, daß jemand krank ist unter
der Vorausetzung eines positiven Testergebnisses: P( A1 | B). Dies
ist P(A1 B)/P(B) = 0.10 / 0.28 = 0.36
In Kreuztabellensprechweise für Prozentrechnen könnte man auch sagen, dass so Zeilenprozente in Spaltenprozente (bzw. Spalten- in Zeilenprozente) umgerechnet werden können.
Gemeinsame WahrBedingte
Der Satz von BAYES kann leicht auf mehrere Bedingungen (Bedingungskonstellation) verallgemeinert
werden. Die Bedingungskonstellation sei B= B1 
B2  B3  …  Bb. Die Bedingungskonstellation
bestehe aus dem Schnitt von b Ereignissen.
0.7
0.8
Methode der Diagnose, wobei auf Grund von Tests
eine Eigenschaft erschlossen wird.
0.224
c
B2
0.096
B2
0.056
A
0.7
c
B1
0.3
0.2
0.1
A
c
B2
0.024
B2
0.012
B1
0.8
0.6
B2
B1
0.3
0.4
0.2
Beispiel: In der Gesamtheit seien 40% A-Menschen (60% NichtAs). A Menschen lösen Beispiel 1 mit W’t 0.8, und Beispiel 2 mit
Wahrscheinlichkeit 0.7. Die Nicht-A-Menschen lösen Beispiel 1
mit W’t 0.1 und Beispiel 2 mit W’t 0.2.
Angenommen, es wurde zufällig eine Person aus der Gesamtheit
ausgewählt. Sie löst beide Aufgaben.
Wie groß ist die Wahrscheinlichkeit, dass die Person eine APerson ist:
P(A | B1B2) = P( A B1B2)/ P( B1B2) = 0.224/ 0.236= 0.949, wobei
P( B1B2) = P(A B1B2)+ P(Ac B1B2) = 0.224+0.012.
Der Satz von BAYES wird so zu einer zentralen
scheinlichkeit
Wahrscheinlichkeiten
c
B2
0.048
B2
0.108
c
0.2
0.9
c
B1
0.8
c
B2
0.432
Nagl, Einführung in die Statistik
Seite 7
B3.1.4.2 Unabhängigkeit und bedingte Unabhängigkeit von Ereignissen
Für zwei Ereignisse A und B kann die stochastische Unabhängigkeit auf folgendermaßen formuliert werden:
Genau wenn P(A) = P(A | B), sind A und B stochastisch unabhängig (bei Ungleichheit abhängig). Oder auch:
P(A | B) = P(A | Bc ). Oder auch: P(AB) = P(A)*P(B).
Bei mehreren Ereignissen sind weitere Forderungen Beispiel: Dieses Beispiel zeigt, dass
drei Ereignisse zwar paarweise jeweils
A
B
nötig. Die Produktformulierung kann so verallge0.25
unabhängig sein können
0
0
meinert werden:
(P(A) = P(B) = P(C) = 0.50.
0
Drei Ereignisse A, B und C sind genau dann
P(AB) = P(AC) = P(BC) =0.25), aber
0.25 0.25
die Wahrscheinlichkeit des Dreifachstochastisch unabhängig, wenn alle paarweisen
0
schnitts P(ABC) = 0; und daher nicht
Ereignisse unabhängig sind und zudem gilt: P(ABC)
C
gleich P(A) P(B) P(C).
0.25
= P(A)P(B)P(C).
Vier Ereignisse sind genau dann stochastisch unabhängig, wenn alle Tripel stochastisch unabhängig sind unhd
das Produkt der 4 Randwahrscheinlichkeiten gleich der gemeinsamen Wahrscheinlichkeit ist; usw.
Die Formulierung der Unabhängigkeit mit Hilfe von bedingten
Wahrscheinlichkeiten ist besonders für Darstellungen mit Hilfe
von ‚Wahrscheinlichkeitsbäumen“ vorteilhaft.
Drei Ereignisse sind genau stochstisch unabhängig, wenn gilt
P(B| A) = P(B| Ac), P(C| AB) = P(C|ABc) = P(C| AcB)
=P(C|AcBc)
P(B|A)
B
A
P(C|AB)
C
=
C
c
P(C|ABc)
c
=
B
c
=
C
P(C|AcB)
P(B|Ac)
Diese Formulierung der Unabhängigkeit ist äquivalent bei
unterschiedlichen Reihenfolgen der Ereignisse.
A
B
C
c
=
c
C
C
P(C|AcBc)
c
C
B
c
C
Beispiel (Fortsetzung): Auf Grund der gemeinsamen Anteile im
obigen Beispiel , bei dem die 3 Ereignisse abhängig waren,
wurden die bedingten Wahrscheinlichkeiten für die einzelnen
Äste des Baumes berechnet.
Auch bei der Überprüfung mit Hilfe der bedingten Wahrscheinlichkeiten sind nicht alle Gleichheitsforderungen erfüllt (zweimal
sind Ungleichheiten vorhanden:
P(C| AB)  P(C|ABc) und P(C| AcB)  P(C|AcBc).
Bedingte
Wahrscheinlichkeiten
0
0.5
0.5

B
A
=
1
1
0.5
B
c
=
0
1
0.5
Eine einzige Ungleichheit reicht für die Feststellung der Abhängigkeit aus.
Gemeinsame Wahrscheinlichkeit
0.5
A
B

c
0
0
0.5
B
c
1
0.000
C
C
c
C
c
c
0.000
0.000
C
C
0.000
0.250
C
C
0.250
0.250
C
c
0.250
Bedingte Unabhängigkeit. Bei manchen Anwendungen sind die Ereignisse nicht vollständig unabhängig,
sondern erst nach der Einführung einer bestimmten Bedingung:
A.
Sei B und C stochastisch unabhängig unter der Bedingung A;
dann gilt zumindest für den A-‚Ast’ die Unabhängigkeitsforderung. (Oft wird auch für das Komplement von A Unabhängigkeit zwischen B und C unterstellt).
Diese Forderung kann wiederum für mehrere Ereignisse formuliert werden, die unabhängig sind (statt B und C: B, C, D usw.)
Ebenfalls könnten mehrere Bedingungen (statt nur einer einzigen) eingeführte werden.
P(B|A)
B
A
c
P(C|AB)
C
=
C
c
P(C|ABc) C
B
c
C
P(B|Ac)
A
P(C|AcB) C
B
c
c
=
c
C
P(C|AcBc) C
B
c
C
Die Annahme der bedingten Unabhängigkeit (auch lokal stochastische Unabhängigkeit genannt) wird auch in
den probabilistischen Testmodellen verwendet: Gegeben die Fähigkeit einer Person als Bedingung gilt, dass das
Lösen mehrerer Aufgaben unabhängig voneinander ist.
Nagl, Einführung in die Statistik
Beispiel (siehe oben, Fortsetzung)
Bedingte
Wahrscheinlichkeiten
0.8
0.4
B1
A
Gemeinsame Wahrscheinlichkeit
0.7
0.3
0.7
0.2
c
B1
0.3
0.2
0.1
0.6
A
B1
0.8
c
0.2
0.9
c
B1
Seite 8
0.8
B2
0.224
c
B2
0.096
B2
0.056
B2
c
0.024
B2
0.012
B2
c
0.048
B2
0.108
c
0.432
B2
1.
2.
Für das oben zum Satz von BAYES eingeführte Beispiel soll hier
nachvollzogen werden, dass die Ereignisse B1 und B2 bedingt
unabhängig sind unter Bedingung A (ebenfalls unter Bedingung
Ac). Bedingung A könnte eine Fähigkeit bedeuten; B1 und B2
‚Testaufgabenlösen’.
Falls die Aufgliederung nach A (bzw. Ac) eliminiert wird und
daher die gemeinsamen Wahrscheinlichkeiten addiert werden,
können diese in Form folgender Kreuztabelle dargestellt werden:
Die beiden B-Ereignisse (B1 und B2) sind nun abhängig (phi=
0.35).
Gemeinsame
B2
B2c
W’keiten
B1
0.236
0.144
0.38
B 1c
0.164
0.456
0.62
0.40
0.60
Daher liegt hier ein Beispiel dafür vor, dass die Abhängigkeit zwischen zwei Ereignissen durch die Einführung der Bedingung A bzw.
Ac aufgelöst werden kann.
Die bedingte Unabhängigkeit ist in der Modellbildung für den Zusammenhang von Ereignissen zentral. Speziell
das Entlarven von Scheinzusammenhängen zwischen Ereignissen ist eine zentrale Aufgabe der Datenanalyse
(z.B. Störche-Geburten-Korrelation). Wenn es gelingt, eine Bedingung zu finden, die den Zusammenhang zwischen anderen Ereignissen zum Verschwinden bringt, kann diese Bedingung als relevant für den Zusammenhang
zwischen den Ereignissen angesehen werden. Falls es gelingt, die Abhängigkeit zwischen mehreren Ereignissen durch die Einführung einer Bedingung aufzulösen, ist es vorteilhaft, für eine sparsame Beschreibung der
Daten vor allem diese Bedingung heranzuziehen. Man drückt das oft auch so aus: die (Unabhängigkeit zwischen
Ereignissen erzeugende) enthält all die Information über die Abhängigkeit der Ereignisse.
B3.2 Zufallsvariablen und deren Verteilung
Bisher wurden nur Ereignisse bzw. Elementarergebnisse und das Wahrscheinlichkeitsmaß darauf (, (), P)
betrachtet, wobei () die Sigma-Algebra ist, das System aller betrachtbaren Ereignisse. Dieses Tripel wurde
als Wahrscheinlichkeitsraum bezeichnet. Numerische Größen wurden bisher nicht betrachtet, obwohl in vielen
Bereichen der Anwendung numerische Größen üblich sind. Diese Lücke füllt das Konzept der Zufallsvariablen.
In voller Abhängigkeit vom Ergebnis im Zufallsexperiment nimmt die Zufallvariable bestimmte Werte an. Werte
sind daher gedacht als eine Funktion der Ergebnisse des Zufallsexperiments. Im Allgemeinen ist der Wertebereich die Menge der reellen Zahlen (oder einer Teilmenge); es könnten aber auch mehrere solche Funktionen in
einem Vektor reeller Zahlen zusammengefasst werden. Auch komplexen Zahlen wären als Bildbereich denkbar
(wird aber fast nie verwendet. Hier soll nun die reelle Zufallsvariable definiert werden. Da standardmäßig die
reelle Zufallsvariable verwendet wird, soll die reelle gemeint sein, falls von einer Zufallsvariablen gesprochen
wird.
Die reelle Zufallsvariable X ist eine Funktion auf
dem Stichprobenraum  mit den reellen Zahlen 
als Wertebereich: X:   .
Daher ist X() = x   für alle   , wobei x
auch als Realisation der Zufallsvariablen X bezeichnet wird (=univariate ZV).
Eine m-dimensionale bzw. m-variate Zufallsvariable V ist eine Funktion auf dem Stichprobenraum
 mit den Vektoren mit m Komponenten m als
Wertebereich: V:    m.
Die vorher besprochene Zufallsvariable X wird auch
als eindimensionale Zufallsvariable bezeichnet.
Die m-dimensionale Zufallsvariable kann auch als
Zusammenfassung von m eindimensionalen Zufallsvariablen interpretiert werden.
Beispiel (E1): Einmal Würfeln sei das Zufallsexperiment. Zufallsvariable X sei 2 Euro Gewinn pro Augenzahl. ={‚1’,’2’,’3’,’4’,’5’,’6’}.
X: {‚1’,’2’,’3’,’4’,’5’,’6’}  {2,4,6,8,10,12} mit X()=2* Zahlenwert().
Beispiel(E2): 2x Münzwurf, ={‚KK’,’KA’,’AK’,’AA’}: ; die
Zufallsvariable Y sei die Kopf-Anzahl; Y:   ; Y(‚KK’) = 2,
Y(‚KA’) =1 usw.
Beispiel(E3): In einem Spielsalon werden folgende Spiele für das
Werfen zweier
Wür- WürWürfel
i
i P({i}) X(i) Y(i) Z(i) a
fel 1 fel 2
angeboten.:
-2
-4
-2
a
1 No '6' No '6' 1 25/36
Beim X-Spiel
-2
8
-2
a
2 No '6' '6'
2 5/36
gewinnt man 6
'6' No '6' 3 5/36
4
-4
-2
a
3
€, falls der 1.
'6'
'6'
4
8
16
a
4
4 1/36
Würfel eine
‚6’ zeigt
(Einsatz =2 €). Beim Y-Spiel gewinnt man 12 € bei einer ‚6’ (Einsatz
= 4 €). Das Z-Spiel bringt 18 €, falls bei beiden Würfen ‚6’ kommt
(Einsatz =2 €).
Diese 3 eindimensionalen Zufallsvariablen könnten auch zu einer
dreidimensionale Zufallsvariable V zusammengefasst werden.
Nagl, Einführung in die Statistik
Seite 9
Die Zufallsvariablen sind eigentlich Funktionen (z.B. X()), die i.a. mit großen Buchstaben aus dem hinteren
Teil des Alphabets abgekürzt werden. Die Funktionswerte selbst wiederum sind die Realisationen, die mit entsprechenden kleinen Buchstaben abgekürzt werden.
Ein Zusatzproblem bei der Betrachtung der Zufallsvariablen ist die sogenannte Messbarkeit der Funktion X();
das bedeutet, dass für beliebig vorgebbare Werte Z (einer Teilmenge der reellen Zahlen) die Menge der Urbild aus  (=A = X-1(Z)) zur Sigma-Algebra gehören muss; dadurch kann dann auch die Wahrscheinlichkeit P(A)
angegeben werden. Für diskrete Mengen, für die meist die Potenzmenge als Sigma-Algebra gewählt wird, ist
das kein Problem, da ja dann jede mögliche Menge A in der Sigma-Algebra enthalten ist. Etwas detailierter:
Sei Z eine Teilmenge von : Z  . Dann kann das
inverse Bild von Z betrachtet werden:
X-1(Z) = {| X()  Z} = A (d.h. X invers von Z)
A ist so die Menge der Elementarereignisse, die den
Funktionswert in Z haben..
Beispiel(E1): (Sei Z= {4, 8, 12}. Dann ist A = {‚2’,’4’,’6’} = X-1(Z) =
{| X()  Z}, das ist sicher ein Ereignis aus dem System der
Ereignisse (=Sigma-Algebra)..
Oder: Z() sei ein Intervall   z  ;
Sei  = 8. dann ist A = {‚1’‚2’,’4’ } = X-1(Z(8)) = {| X()  Z(8)},
A soll nun wiederum zur Sigma-Algebra gehören, damt die Wahrscheinlichkeit für dieses A (und damit implizit die Aussage über das
Intervall) berechnet werden kann.
Anders ausgedrückt: Mit Hilfe der Zufallsvariablen kann man alle möglichen Aussagen formulieren (und damit
Ereignisse charakterisieren). Die Wahrscheinlichkeit ist aber nur für die Ereignisse aus dem Ereignissystem (der
Sigma-Algebra) definiert. Daher muss gewährleistet sein, dass das Ereignis im Ereignissystem (Sigma-Algebra)
enthalten ist (sonst würde man mit Hilfe der Zufallsvariablen Ereignisse formulieren, für die keine Wahrscheinlichkeiten P definiert sind).
Falls für eine Zufallsvariable X etwa für alle Intervalle   z  x mit beliebigem x die Wahrscheinlichkeiten
berechnet werden können (d.h. enthalten sind im Ereignissystem (Sigma-Algebra)), ist es möglich, für diese
Zufallsvariable die Verteilungsfunktion F(x) = P(X  x) zu berechnen.
Nagl, Einführung in die Statistik
Seite 10
B3.2.1 Erwartungswerte für Zufallsvariablen und Funktionen von Zufallsvariablen
Hier wird nur eine abzählbare Elementarergebnismenge  betrachtet. Grundsätzlich können die Erwartungswerte direkt für die Elementarergebnismenge definiert werden oder für die Verteilungen. Hier sollen die Erwartungswerte direkt für  betrachtet betrachtet werden.
Erwartungswert einer Der Erwartungswert kann
Zufallsvariablen.
folgendermaßen angeschrieben werden:
E(X) =
 X( )P({ }) .
i
i
i 
Die Erwartungswerte
wurden nach entsprechender Anpassung
der Definition an die
ZufallsvariablenBezeichnungen
berechnet.
i P({i})
1
2
3
4
25/36
5/36
5/36
1/36
1
a*
X(i)* Y(i) )* Z(i)*
P({i}) P({i}) P({i}) P({i})
-50/36 -100/36 -50/36 25a/36
-10/36
40/36 -10/36 5a/36
20/36
-20/36 -10/36 5a/36
4/36
8/36
16/36 a/36
-1
-2
-1.5
a
=E(X)
=E(Y) =E(Z) =E(a)
Eine Konstante a hat bei jedem Elementarergebnis den gleichen Wert.
Erwartungswert einer Erwartungswert einer Funktion einer Zufallsvariablen:
Funktion g einer
E(g(X))
Zufallsvariablen.
=
g (X( i )) P({ i }) .

i 
Seien folgende Funktionen gegeben: f(X) =(X-E(X))2 und g(X) =X2.
g(X(i))* f(X(i)) *
P({i})
P({i})
100/36
1
25/36
20/36
1
5/36
80/36
25
125/36
16/36
25
25/36
6
E( g(X))=
5
=E(f(X))
i
i P({i}) X(i) g(X(i)) f(X(i))
1
2
3
4
1
2
3
4
25/36
5/36
5/36
1/36
-2
-2
4
4
4
4
16
16
Der
Erwartungswert
dieser speziellen Funktion f(X) ist gleich der Varianz von X.
Ein spezieller Fall einer Funktion g(X) ist (X-E(X))2; Der mit dieser Funktion berechnete Erwartungswert ist
zugleich die Varianz von X: Var(X) = E( X-E(X))2 .
Falls mehrere Zufallsvariable vorhanden sind, kann auch eine Funktion mehrerer Zufallvariablen betrachtet
werden.
Erwartungswert einer Erwartungswert einer Funk- Seien folgende Funktionen gegeben:g(Y,Z) =(Y-E(Y)*(Z-E(Z))
g(Y,Z) *
Y(i)- Z(i)Funktion g mehre- tion zweier Zufallsvariabler
g(Y,Z)
i
i P({i})
P({i})
E(Y)
E(Z)
rer Zufallsvariabler X und Y:
25/36
-2
-0.5
1
1 1 25/36
E(g(X,Y)) =
-25/36
10
-0.5
-5
2 2 5/36
 g(X( ), Y( )) P({ })
i
i 
.
i
i
Der Erwartungs3 3 5/36
wert dieser speziel4 4 1/36
len Funktion
g(Y,Z) ist zugleich
die Kovarianz zwischen von Y und Z.
-2
10
5/36
-0.5
1
17.5
175 175/36
5
E(g(X,Y)) =
Ein spezieller Fall von g(X,Y) ist das Produkt der zentrierten Zufallsvariablen X und Y: (X-E(X))(Y-E(Y)). Der
mit dieser Funktion berechnete Erwartungswert ist zugleich die Kovarianz zwischen X und Y:
Cov(X,Y) = E(( X-E(X))(Y-E(Y))).
Weitere Rechenregeln und Anwendungen des Erwartungswerts, der Varianz und der Kovarianzen wurden unter
Anhang A3.2 behandelt.
Nagl, Einführung in die Statistik
Seite 11
Herunterladen

Nagl, Einführung in die Statistik Seite 1 B3 Einführung in die