Skript

Mathematik 3 für Informatiker
Flavius Guiaş
Email: [email protected]
Universität Duisburg-Essen, Sommersemester 2007
2
Empfohlene Literatur:
G. Hübner: Stochastik - Eine anwendungsorientierte Einführung für Informatiker, Ingenieure und Mathematiker, 4. Auflage, Vieweg, 2003
Kapitel 1
Einführung
“Stochastik”: Beschreibung und Untersuchung von Vorgängen und Ereignissen
aus allen Lebensbereichen, die zufällig oder vom Zufall beeinflusst, im Sinne von
“nicht vorhersagbar” oder “nicht exakt vorhersagbar”.
1.1
Beschreibende Statistik
-Auswertung von zufälligen Daten
Definition 1.1 Die aus einer Beobachtung oder Messung aufgezeichneten Daten nennen wir einen Datensatz. Ist der Datensatz aufgrund einer gezielten
Teil-Erhebung entstanden, sprechen wir auch von einer Stichprobe.
Bezeichnung: x := (x1 , x2 , . . . xn ).
Statistik: Komprimierung und/oder tabellarische bzw. grafische Darstellung
der Daten.
Ordnungsstatistik: der geordnete Datensatz x[ ] := (x[1] , x[2] , . . . x[n] ).
Definition 1.2 (a) Der Mittelwert x̄ (oder x̄n ) eines Datensatzes x wird defin
1X
niert durch x̄ =
xi .
n i=1
(b) Der Median x̃ von x ist beim ungeraden n x̃ = x[ n+1 ] , bei geradem n
2
1
n
n
x̃ = (x[ 2 ] + x[ 2 +1] ).
2
Ein erstes Maß für die Schwankung innerhalb eines Datensatzes sind die
Prozentpunkte oder Quantile.
Definition 1.3 Der p% Punkt (das p%-Quantil) up% eines Datensatzes hat die
Eigenschaft, dass links (bzw. rechts) von up% höchstens p% (bzw. (100 − p)%)
der Daten liegen. Ggf. wählt man die Mitte zwischen zwei Werten.
3
4
KAPITEL 1. EINFÜHRUNG
Meistens benutzt man ein Paar von Quantilen (up% , u(100−p)% ) um ein Bereich anzugeben, in dem der Anteil (100 − 2p)% der Werte liegen.
Die 25%-75% -Punkte heißen untere/obere Quartile. In dem Bereich (u25% , u75% )
liegen also 50% der Werte.
Definition 1.4 Die Streuung (Standardabweichung) sx eines Datensatzes x =
(x1 , x2 , . . . xn ) ist die quadratische gemittelte Abweichung der xi von x̄, also:
v
u n
u1 X
(xi − x̄)2 .
sx = t
n i=1
Andere Bezeichnungen: sn , σn .
Durch Umformung erhält man auch die Formel:
v
!
u
n
u1 X
sx = t
x2 − nx̄2 .
n i=1 i
Für 2-dimensionale Datensätze z = ((x1 , y1 ), (x2 , y2 ), . . . , (xn , yn )) für welche man einen linearen Zusammenhang yi ≈ a + bxi vermutet, sucht man eine
Regressionsgerade.
Satz 1.1 (Lineare Regression) Für einen 2-dimensionalen Datensatz z mit
sx 6= 0, minimiert dieP
Regressionsgerade y = a∗ + b∗P
x mit a∗ = ȳ − b∗ x̄, b∗ =
n
n
1
2
sxy /sx und sxy = n ( i=1 xi yi − nx̄ȳ) die Summe i=1 (yi − (a + bxi ))2 der
y-Abstandsquadrate.
Kapitel 2
WahrscheinlichkeitsModelle
2.1
Die Modell-Bausteine
Beispiel 2.1
Von einem Terminal soll ein Auftrag an den Zentralrechner abgeschickt werden. Die Antwortzeit soll modelliert werden, ohne dass Informationen über die
momentane Auslastung des Zentralrechners vorliegen.
Definition 2.1 Ein Zufalls-Experiment ist ein Vorgang, der ein genau abzugrenzendes Ergebnis besitzt, das vom Zufall beeinflusst ist.
Ein mathematisches Modell dafür soll nur die unbedingt nötigen Angaben
enthalten. Dabei sollen folgende Aspekte berücksichtigt werden:
1. Aspekt: mögliche Ergebnisse (Beobachtungen)
2. Aspekt: mögliche Fragestellungen
3. Aspekt: zugehörige Wahrscheinlichkeiten
Es werden dazu drei Bausteine benötigt:
1. Baustein: Merkmalraum Ω
2. Baustein: Ereignissystem A
3. Baustein: Wahrscheinlichkeit P
5
6
2.2
KAPITEL 2. WAHRSCHEINLICHKEITS-MODELLE
Der Merkmalraum Ω
Im Beispiel 2.1kann man z.B. Ω = {1, 2, 3, . . . , 120} nehmen, wobei dem Element
ω = i die Bedeutung “Antwortzeit beträgt ≤ i Sekunden”, zugewiesen wird.
Ausnahme: ω = 120 bedeutet: “Antwortzeit ≥ 119 Sekunden”. Durch diese
Erläuterungen wird somit auch eine Modellierungszuordnung eingeführt.
Definition 2.2 Der Merkmalraum Ω (Stichprobenraum, Grundmenge) ist eine nicht-leere Menge mit Elementen ω ∈ Ω, welche die möglichen Ausgänge
(Ergebnisse) des Zufalls-Experiments angibt.
Beispiel 2.2
Wählen eines Telefonnummers: Ω = {“belegt00 , “f rei00 } oder Ω = {0, 1} mit der
Zuordnung: 0 =00 belegt00 , 1 =00 f rei00 .
Beispiel 2.3
Anzahl der Anrufe bei einer bestimmten Telefonnummer zwischen 8-9 Uhr. z.B.
Ω = N0 = {0, 1, 2, . . . } oder Ω = {0, 1, 2 . . . 100} wobei ω = 100: “100 Anrufe
oder mehr” bedeutet.
Wie man in diesem Beispiel sieht (die erste Möglichkeit), wählt man manchmal Ω größer als nötig. Die in der Realität nicht auftretenden Werte erhalten
dann die Wahrscheinlichkeit 0.
2.3
Zusammengesetzte Merkmale
Beispiel 2.4
Überprüfung eines Bauteils mit drei Funktionen, jeweils “intakt” (1) oder “defekt” (0). Ω = {(0, 0, 0), (0, 0, 1), . . . (1, 1, 1)}, also Ω = {0, 1} × {0, 1} × {0, 1} =
{0, 1}3 (kartesisches Produkt).
Definition 2.3 Das kartesische Produkt (Kreuzprodukt) Ω1 × Ω2 × · · · × Ωn der
Mengen Ω1 , Ω2 , . . . , Ωn ist die Menge Ω = {(ω1 , ω2 , . . . ωn ) | ωi ∈ Ωi }.
Bezeichnung: ×ni=1 Ωi .
Falls Ωi = Ω, ∀i : Ωn .
2.4
Ereignisse
Im Beispiel 2.1 wird meist nicht gefragt, ob die Antwortzeit z.B. genau 10 Sekunden beträgt, sondern ob die Antwort innerhalb von höchtens 10 Sekunden
erfolgt.
Definition 2.4 Ein Ereignis A ist eine Teilmenge A ⊆ Ω. “A tritt ein” ⇔ es
wird ein Merkmal ω mit ω ∈ A beobachtet.
2.4. EREIGNISSE
7
Im Beispiel 2.1: A = {1, 2, . . . 10}. Falls ω = 5 gilt ω ∈ A, also A tritt ein
(Antwortzeit in ≤ 10 Sekunden).
Nicht immer sind alle Teilmengen A ⊂ Ω als Ereignisse sinnvoll. Deswegen
erfolgt eine Auswahl gewisser Teilmengen (Ereignis-System A).
Besondere Ereignisse:
A = ∅: unmögliches Ereignis, weil ω ∈ ∅ nie eintritt.
A = Ω: tritt immer ein.
A = {ω} für ω ∈ Ω: Elementar-Ereignis.
Ein Ereignis-System A ⊆ P(Ω) (Potenzmenge von Ω, d.h. Gesamtheit aller
Teilmengen) erfüllt also die Eigenschaften: Für A, B ∈ A gilt:
“A oder B oder beide”
entspricht ω ∈ A ∪ B
“A und B”
entspricht ω ∈ A ∩ B
“A, B treten nie gleichzeitig ein” entspricht A ∩ B = ∅
“A tritt nicht ein”
entspricht ω ∈ Ac ⇔ ω ∈
/A
“A tritt ein, B jedoch nicht”
entspricht ω ∈ A \ B = A ∩ B c
“mindestens ein Ai tritt ein”
entspricht ω ∈ ∪∞
i=1 Ai
“alle Ai treten ein”
entspricht ω ∈ ∩∞
i=1 Ai
Die letzten beiden Eigenschaften gelten natürlich auch für endlich viele Ai .
Falls P
A, B disjunkt (A ∩ B = ∅), schreiben wir auch A + B statt A ∪ B.
∞
∞
Analog
i=1 Ai statt ∪i=1 Ai . Die Verwendung dieser Bezeichnung bedeutet
also implizit dass die Mengen paarweise disjunkt sind.
“A oder B tritt ein, aber nicht beide” entspricht also ω ∈ A∆B = A ∩ B c + Ac ∩ B.
Rechenregeln mit Mengen:
A∪B =B∪A
A∩B =B∩A
(A ∪ B) ∪ C = A ∪ (B ∪ C) = A ∪ B ∪ C
(A ∩ B) ∩ C = A ∩ (B ∩ C) = A ∩ B ∩ C
A ∪ (B ∩ C) = (A ∪ B) ∩ (A ∪ C)
A ∩ (B ∪ C) = (A ∩ B) ∪ (A ∩ C)
Regeln von de Morgan:
(A ∪ B)c = Ac ∩ B c bzw. (∪i∈I Ai )c = ∩i∈I Aci
(A ∩ B)c = Ac ∪ B c bzw. (∩i∈I Ai )c = ∪i∈I Aci
Definition 2.5 Die Indikatorfunktion einer Menge A ⊆ Ω ist die Abbildung
1A : Ω → {0, 1} mit
1, ω ∈ A
1A (ω) =
0, ω ∈
/A
Die Zuordnung zwischen der Menge A und der Indikatorfunktion 1A ist eindeutig. Dadurch werden Mengenverknüpfungen zu Rechenoperationen:
1A∩B = min(1A , 1B ) = 1A · 1B
1A∪B = max(1A , 1B ) = 1A + 1B − 1AB
1Ac = 1 − 1A
1A\B = 1A (1 − 1B ) = 1A − 1AB .
8
KAPITEL 2. WAHRSCHEINLICHKEITS-MODELLE
2.5
Das Ereignis-System A
Prinzipien für die Wahl eines Ereignissystems:
1. Die Verknüpfung von Ereignissen (Vereingigung, Durchschnitt, Komplement) ist wieder ein Ereignis.
Definition 2.6 Ein System A von Teilmengen der Menge Ω heißt σ-Algebra
über Ω wenn gilt:
1. Ω ∈ A
2. Ac ∈ A, falls A ∈ A
3. ∪∞
i=1 Ai ∈ A, falls Ai ∈ A.
Bemerkungen:
• nach den Regeln von de Morgan gilt auch: ∩ni=1 Ai ∈ A, falls Ai ∈ A.
• P(Ω) ist eine σ-Algebra.
Ab jetzt wird stets vorausgesetzt, dass das Ereignis-System A stets eine
σ-Algebra ist.
2. Man legt zunächst fest, welche Ereignisse mindestens ins A liegen sollen.
A wird dann als die kleinste σ-Algebra, die diese Mengen enthält, definiert.
Definition 2.7 Für ein System von Teilmengen E ⊆ P(Ω) heißt die kleinste
σ-Algebra die E enthält, die von E erzeugte σ-Algebra. Bezeichnung: A(E).
Folgerung 2.1 Falls Ω abzählbar ist, so erzeugt das System der Elementarereignisse E = {{ω} : ω ∈ Ω} die Potenzmenge P(Ω).
Definition 2.8 Sei G1 = {(a, b] : a, b ∈ R, a ≤ b} die Menge der halb-offenen
Intervalle in R. Die σ-Algebra B = A(G1 ) heißt Borel σ-Algebra über R. Die
Elemente aus B heißen auch Borel-Mengen.
Bemerkungen:
• Alternativ kann man B als A(G0 ) definieren, für G0 = {(a, b) : a, b ∈
R, a ≤ b}.
• zu B gehören alle in der Praxis vorkommenden Mengen, z.B. {a} = ∩∞
n=1 (a−
1/n, a], oder (−∞, a] = ∪∞
(a
−
n,
a].
n=1
Definition 2.9 Seien a = (a1 , . . . , an ), b = (b1 , . . . , bn ), a, b ∈ Rn mit ai ≤ bi
für alle i (kurz: a ≤ b). Das n-dimensionale Intervall (a, b] wird definiert als
(a, b] = {x ∈ Rn : ai ≤ xi ≤ bi }. Durch Gn bezeichnet man das System dieser
Intervalle.
2.6. DARSTELLUNG VON EREIGNISSEN DURCH ZUFALLSVARIABLE 9
Definition 2.10 B n := A(Gn ) heißt Borel-σ-Algebra über Rn .
Auch in diesem Fall enthält B n alle in der Praxis vorkommenden Mengen in
Rn : Einpunktmengen, Kurven, Flc̈hen, Körper, usw.
2.6
Darstellung von Ereignissen durch Zufallsvariable
Im Beispiel 2.1 kann man das Ereignis A :=”die Antwort erfolgt von innherhalb
höchstens 10 Sekunden” auch in einer anderer Weise ausdrücken:
Z :=”Antwortzeit”
A :=”Z ≤ 10”.
Die Antwortzeit Z ist hier eine zufällige Größe (unbekannt vor der Durchführung
des Versuchs), oder Zufallsvariable (ZV). Formal ordnet eine ZV jedem Ausgang
des Versuchs einen Wert zu.
Definition 2.11 Sei X : Ω → Ω0 eine Abbildung und A0 ⊆ Ω0 . Dann definiert
man
{X ∈ A0 } = {ω ∈ Ω : X(ω) ∈ A0 }.
(2.1)
Ein Ereignis der Form {X ∈ A0 } heißt durch X beschreibbar.
Im Allgemeinen, falls A 6= P(Ω) ist nicht jede Menge der Form {X ∈ A0 }
ein Ereignis (d.h. ∈ A). Deswegen folgende
Definition 2.12 Eine Zufallsvariable (ZV) ist eine Abbildung X : (Ω, A) →
(Ω0 , A0 ) mit der Eigenschaft
{X ∈ A0 } ∈ A, für alle A0 ∈ A0 .
(2.2)
(A, A0 sind Ereignissysteme auf Ω bzw. Ω0 ).
2.7
Relative Häufigkeit und Wahrscheinlichkeit
Beispiel: Bei einer großen Anzahl n von Wiederholungen eines Münzwurfs,
stellt man fest, dass die relativen Häufigkeiten von “Kopf” bzw. “Zahl” sich
dem Wert 1/2 nähern.
Empirisches Gesetz der großen Zahlen:
• n Wiederholungen eines Zufallsexperiments mit mögliche Ergebnisse {x1 , . . . , xn }.
• hn (A) =
{ Anzahl xi : xi ∈ A}
(relative Häufigkeit von A).
n
• dann gilt hn (A) →n→∞ P (A) (Wahrscheinlichkeit von A).
10
KAPITEL 2. WAHRSCHEINLICHKEITS-MODELLE
Andere Möglichkeiten um Wahrscheinlichkeiten zu berechnen sind Symmetrieüberlegungen. Beim Münzwirf sollten “Kopf” und “Zahl” die gleiche Wahrscheinlichkeit, d.h. 1/2 besitzen.
Eigenschaften die Eine Wahrscheinlichkeit P erfüllen soll:
(1) P (A) ≥ 0
(1’) P (A) ≤ 1
(2) P (Ω) = 1
(2’) P (∅) = 0
(3) P (A1 + A2 ) = P (A1 ) + P (A2 ) (Additivität)
(3n ) P (A1 + · · · + An ) = P (A1 ) + · · · + P (An ) (endliche Additivität)
(3’) P (A1 + A2 + . . . ) = P (A1 ) + P (A2 ) + . . . (σ-Additivität)
Bemerkung: Es genügt (1), (2), (3’) zu fordern; alle andere können daraus
hergeleitet werden.
Definition 2.13 Eine Abbildung P : A → R, wobei A eine σ-Algebra über Ω
ist, heißt Wahrscheinlichkeitsmaß (W-Maß ) auf A, wenn die folgenden drei
Bedingungen erfüllt sind:
(1) P (A) ≥ 0 für alle A ∈ A (Nichtnegativität)
(2) P (Ω)
= 1 (Normiertheit)
P∞
P∞
(3’) P ( i=1 Ai ) = i=1 P (Ai ) (σ-Additivität)
• diese drei Bausteine (Ω, A, P ) bilden ein Wahrscheinlichkeitsraum (WRaum) oder Wahrscheinlichkeitsmodell (W-Modell).
• zur Vereinfachung der Schreibweise benutzen wir die Notation P (X ∈ A0 )
anstatt P ({X ∈ A0 }).
Im folgenden werden drei einfache Klassen von Wahrscheinlichkeitsmodellen
vorgestellt.
Definition 2.14 Ein Zufallsexperiment mit zwei möglichen Ausgängen heißt
Bernoulli-Experiment. Als Merkmalraum benutzt man Ω = {0, 1} und bezeichnet
ω = 1 als “Erfolg” und ω = 0 als “Misserfolg”.
Das W-Modell (Ω, A, P ) mit Ω = {0, 1}, A = P(Ω) und P gegeben durch
P ({1}) = p, P ({0}) = 1 − p mit p ∈ [0, 1] heißt Bernoulli-Modell, das W-Maß
P heißt Bernoulli-Verteilung mit Parameter p (kurz: B(p)).
Beispiel: Münzwurf.
Definition 2.15 Ein Zufallsexperiment mit endlich vielen und gleichwertigen
Ausgängen heißt Laplace-Experiment. Als Merkmalraum wählt man z.B. Ω =
{1, 2, . . . N }. Das W-Maß P auf A = P(Ω) ergibt sich durch P ({1}) = P ({2}) =
· · · = P ({N }) = 1/N .
Für die Wahrscheinlichkeit P (A) eines beliebigen Ereignisses A gilt dann
P (A) =
Anzahl der günstigen Fälle
|A|
=
,
|Ω|
Anzahl der möglichen Fälle
2.8. EIGENSCHAFTEN VON WAHRSCHEINLICHKEITSMASSEN
11
wobei |A| die Anzahl der Elemente aus A bezeichnet.
Das W-Maß P heißt Laplace-Verteilung oder diskrete Gleichverteilung über
Ω (kurz: L(Ω)).
Beispiele: Münzwurf, Würfelwurf.
Definition 2.16 Sei Ω ein Merkmalraum, A ein Ereignis-System über Ω und
a ∈ Ω ein festes ausgewähltes Ergebnis. Dann heißt das W-Maß P definiert
durch P (A) = 1, falls a ∈ A und P (A) = 0, sonst, die Einpunktverteilung im
Punkt a (kurz: P = εa ).
2.8
Eigenschaften von Wahrscheinlichkeitsmaßen
(1) P (A) ≥ 0 für alle A ∈ A (Nichtnegativität)
(2) P (Ω)
= 1 (Normiertheit)
P∞
P∞
(3’) P ( i=1 Ai ) = i=1 P (Ai ) (σ-Additivität)
(4) P (Ac ) = 1 − P (A)
(5) P (A \ B) = P (A) − P (AB)
(6) P (A ∪ B) = P (A) + P (B) − P (AB)
(7) P (A ∪ B) ≤ P (A) + P (B) (Subadditivität)
(8) A ⊆ B ⇒ P (A) ≤ P (B)
(9) A1 ⊆ A2 ⊆ · · · ⇒ P (∪∞
i=1 Ai ) = limi→∞ P (Ai ) (Stetigkeit von unten)
(10) A1 ⊇ A2 ⊇ · · · ⇒ P (∩∞
i=1 Ai ) = limi→∞ P (Ai ) (Stetigkeit von oben).
Definition 2.17 Ein Maß auf A ist eine Abbildung µ : A → R ∪ {+∞} mit
den Eigenschaften:
(1) µ(A) ≥ 0
(2’) µ(∅) = 0
(3’) µ(A1 + A2 + . . . ) = µ(A1 ) + µ(A2 ) + . . . .
2.9
Elementare bedingte Wahrscheinlichkeiten
Definition 2.18 Seien A, B Ereignisse in Ω und sei P (B) > 0. Dann heißt
P (A|B) :=
P (AB)
P (B)
(2.3)
die bedingte Wahrscheinlichkeit von A unter (der Bedingung) B, und es gilt
P (AB) = P (B) · P (A|B).
(2.4)
Die obige Gleichung gilt auch im Fall P (B) = 0.
Eigenschaften der bedingten Wahrscheinlichkeiten:
• Verkettungsregel:
P (ABC) = P (A) · P (B|A) · P (C|AB)
(2.5)
12
KAPITEL 2. WAHRSCHEINLICHKEITS-MODELLE
• Formel von der totalen Wahrscheinlichkeit:
X
X
P (A) =
P (ABi ) =
P (Bi ) · P (A|Bi )
i∈I
(2.6)
i∈I
(I ist eine abzählbare Indexmenge).
• Bayes-Umkehrformel
P (Bk ) · P (A|Bk )
P (Bk ) · P (A|Bk )
.
=
P (A)
P
(B
)
·
P
(A|B
)
i
i
i∈I
P (Bk |A) = P
(2.7)
Definition 2.19 Zwei Ereignisse A und B heißen stochastisch unabhängig,
wenn gilt:
P (AB) = P (A) · P (B).
(2.8)
Somit gilt P (A|B) = P (A), d.h. die W-keit von A wird durch B nicht beeinflusst.
Definition 2.20 Die Ereignisse A1 , A2 , . . . An in einem W-Raum (Ω, A, P ) heißen stochastisch unabhängig, wenn für alle endlichen Teilmengen {Ai1 , Ai2 , . . . Aik }
von diesen Ereignissen die “Produktformel” gilt:
P (Ai1 Ai2 . . . Aik ) = P (Ai1 )P (Ai2 ) . . . P (Aik ).
(2.9)
Bemerkung: Die paarweise stochastische Unabhängigkeit von mehr als zwei
Ereignissen impliziert nicht notwendigerweise deren allgemeine stochastische
Unabhängigkeit.
Kapitel 3
Darstellung von
Wahrscheinlichkeitsmaßen
• Zähldichten (für diskrete Modelle)
• Riemann-Dichten (für stetige Modelle)
• Verteilungsfunktionen
3.1
Diskrete W-Maße und Zähldichten
Für diskrete Modelle ist es ausreichend, die Wahrscheinlichkeiten nur für die Einpunktmengen festzulegen. Die Wahrscheinlichkeiten der anderen Mengen werden daraus hergeleitet.
Satz 3.1 Es sei Ω ein abzählbarer Merkmalraum. Das Ereignis-System sei A =
P(Ω).
(a) Ist P ein W-Maß über (Ω, A) und definiert man f (ω) := P ({ω}) für
ω ∈ Ω, dann gilt:
X
f (ω) = 1
(3.1)
f (ω) ≥ 0, (ω ∈ Ω),
ω∈Ω
und
P (A) =
X
f (ω), (A ∈ A).
(3.2)
ω∈A
(b) Umgekehrt wird durch jede Abbildung f : Ω → R mit der Eigenschaft
(3.1) durch die Vorschrift (3.2) ein W-Maß P auf A definiert, für das P ({ω}) =
f (ω) gilt, für alle ω ∈ Ω.
In beiden Fällen nennt man die Abbildung f eine Zähldichte (Z-Dichte) von
P.
Beispiele von Z-Dichten:
13
14KAPITEL 3. DARSTELLUNG VON WAHRSCHEINLICHKEITSMASSEN
Definition 3.1 (Binomialverteilung) Aus der binomischen Formel
n X
n k n−k
n
(p + q) =
p q
, p, q ∈ [0, 1], p + q = 1
k
(3.3)
k=0
erhält man die Binomial-Z-Dichte f (k) = b(n, p; k) := nk pk q n−k über Ω =
{0, 1, . . . , n}. Das zugehörige W-Maß nennt man Binomialverteilung B(n, p).
Definition 3.2 (geometrische Verteilung) Aus der geometrischen Reihe 1 + q +
q 2 + · · · = (1 − q)−1 mit q ∈ (0, 1) erhält man die geometrische Z-Dichte
f (k) = (1 − q)q k über Ω = {0, 1, 2, . . . }. Das zugehörige W-Maß nennt man
auch geometrische Verteilung.
P∞ k
(Poisson-Verteilung) Aus der Exponential-Reihe eλ = k=0 λk! ergibt sich
die Z-Dichte f (k) = e−λ λk /k!, k ∈ Ω = {0, 1, 2, . . . } (λ > 0). Das zugehörige
W-Maß heißt Poisson-Verteilung π(λ).
Definition 3.3 Für einen Datensatz x = (x1 , . . . , xn ) mit Werten in Ω ∈ R
heißt die relative Häufigkeit A 7→ hn (A) := n1 · (Anzahl der xi mit xi ∈ A) auch
Pn
empirische Verteilung von x. Sie besitzt die Z-Dichte fˆn (x) := n1 i=1 1xi (x), x ∈
Ω.
Die empirische Verteilung von x beschreibt das zufällige Ziehen eines Wertes
xi aus dem Datensatz. Genauer beschrieben, wird dadurch ein zufälliger Index
i gemäß der Laplace-Verteilung über {1, 2, . . . n} ausgewählt.
Definition 3.4 (diskretes W-Maß mit Träger T) Sei T eine abzählbare Teilmenge von Ω
Pund f : Ω → R eine Abbildung mit f ≥ 0, wobei f (ω) = 0 für alle
ω∈
/ T und ω∈T P
f (ω) = 1. Dann heißt f eine Zähldichte über Ω mit Träger
T . Durch P (A) = ω∈A∩T f (ω) wird damit auf einer beliebigen σ-Algebra über
Ω ein sogenanntes diskretes W-Maß P erzeugt.
3.2
Stetige W-Maße und Riemann-Dichten
Betrachte den Raum (R, B).
Definition 3.5 Eine Riemann-integrierbare Funktion
Z +∞
f : R → R mit f (x) ≥ 0 (x ∈ R) und
f (x)dx = 1
(3.4)
−∞
heißt Riemann-Dichte über R (R-Dichte). Jede R − Dichte definiert eindeutig
ein W-Maß P über (R, B) durch
Z b
P ((a, b]) = P ([a, b]) =
f (x)dx.
(3.5)
a
Es gilt zusätztlich P ({a}) = 0 für alle a ∈ R.
3.2. STETIGE W-MASSE UND RIEMANN-DICHTEN
15
Die Fortsetzung des W-Maßes P von dem Erzeuger G1 auf der ganzen σAlgebra B erfolgt durch folgenden Satz.
Satz 3.2 Ist P auf einem geeigneten Erzeuger E von A festgelegt und auf E
nicht-negativ, σ-additiv und normiert, dann gibt es eine eindeutige Fortsetzung
von P auf A.
Beispiele von R-Dichten:
Definition 3.6 (Rechteck-Verteilung) Ist f (x) = 1/(b − a) für a < x < b und
f (x) = 0 sonst, dann ist f eine R-Dichte über Ω = R. Das zugehörige Maß
heißt stetige Gleichverteilung oder Rechteck-Verteilung R(a, b).
Bei der R(a, b)-Verteilung hat jedes Intervall [c, d] ⊂ [a, b] die Wahrscheinlichkeit (d − c)/(b − a) (proportional zu dessen Länge). Die Rechteck-Verteilung
verhält sich also analog zu der diskreten Laplace-Verteilung, wo die Wahrscheinlichkeiten der Teilmengen proportional zur Anzahl deren Elemente sind.
Definition 3.7 (Exponential-Verteilung) Ist α > 0 und
αe−αx für x > 0
−αx
f (x) = αe
1(0,∞) (x) =
,
0
für x ≤ 0
(3.6)
dann ist f eine R-Dichte. Das zugehörige W-Maß heißt Exponential-Verteilung
Exp(α).
Definition 3.8 (Normal-Verteilung) Für jeden Wert a ∈ R und σ > 0 ist
f (x) =
(x−a)2
1
√ e− 2σ2 , x ∈ R
σ 2π
(3.7)
eine R-Dichte. Das zugehörige W-Maß heißt Normalverteilung (mit dem Mittelwert a und der Streuung σ) N (a, σ 2 ).
Im Speziallfall a = 0 und σ = 1 spricht man von der Standard-Normalverteilung
N (0, 1). Deren Dichte ist gegeben durch:
x2
1
φ(x) = √ e− 2 , x ∈ R.
2π
(3.8)
Definition 3.9 (Gamma-Verteilung) Das W-Maß Γα,ν mit α > 0, ν > 0 und
der R-Dichte
αν ν−1 −αx
x
e
für x > 0, sonst = 0,
(3.9)
Γ(ν)
R∞
heißt Gamma (α, ν)-Verteilung. Dabei ist Γ(ν) = 0 uν−1 e−u du die Gamma√
Funktion, welche die Eigenschaften: Γ(ν + 1) = ν · Γ(ν), Γ(1/2) = π und
Γ(ν + 1) = ν! für ν = 1, 2, . . . besitzt. Es gilt zusätzlich Γα,1 = Exp(α).
γα,ν (x) :=
16KAPITEL 3. DARSTELLUNG VON WAHRSCHEINLICHKEITSMASSEN
Definition 3.10 (Beta-Verteilung) Das W-Maß Be(µ, ν) mit µ, ν > 0 und der
R-Dichte
beµ,ν (x) :=
Γ(µ + ν) µ−1
x
(1 − x)ν−1 für x ∈ (0, 1), sonst = 0
Γ(µ)Γ(ν)
(3.10)
heißt Beta(µ, ν)-Verteilung. Speziell gilt Be(1, 1)=R(0, 1).
Wenn man auf die Normiertheit verzichtet, kann man auch allgemeine Maße
über (R, B) mithilfe von R-Dichten definieren. Z.B. erzeugt die konstante RDichte 1 das sogenannte Lebesgue-Maß λ, welche die Längenmessung auf R
beschreibt: λ([a, b]) = b − a.
Analog wie auf R kann man n-dimensionale R-Dichten definieren.
n
Definition 3.11 Eine n-dimensionale
R Riemann-integrierbare Funktion f : R →
n
R mit f (x) ≥ 0 für x ∈ R und Rn f (x)dx = 1 heißt Riemann-Dichte (Rn
n
Dichte) in Rn . Auch hier ergibt sich eindeutig ein W-Maß
R P über (R , B ) das
n
für Ereignisse A ∈ B als Riemann-Integral P (A) = A f (x)dx ausgewertet
werden kann.
Beispiel:
Stetige Gleichverteilung über einem (geeigneten)
Gebiet G ⊂ Rn
R
R
mit G dx < ∞. Die R-Dichte f ist dabei konstant, gleich ( G dx)−1 auf G und
gleich 0 sonst. Für Ereignisse A gilt dann:
R
Z
dx
R
PG (A) =
f (x)dx = A∩G
.
(3.11)
dx
A
G
Analog zum eindimensionalen Lebesgue-Maß kann man über Rn das ndimensionale Lebesgue-Maß λn durch die konstante R-Dichte 1 definieren. Diese
beschreibt das n-dimensionale Volumen der Teilmengen von Rn . Damit kann
man die Formel (3.11) auch als
PG (A) =
λn (A ∩ G)
λn (G)
schreiben.
3.3
Verteilungsfunktionen
Definition 3.12 Ist P ein beliebiges W-Maß über (R, B), dann heißt die Abbildung F : R → R mit
F (x) := P ((−∞, x]), x ∈ R,
(3.12)
die Verteilungsfunktion (VF) von P . Aus (3.12) erhält man die Darstellung
P ((a, b]) = F (b) − F (a), a, b ∈ R, a ≤ b.
(3.13)
3.3. VERTEILUNGSFUNKTIONEN
17
Falls das W-Maß P eine R-Dichte f besitzt, so gilt
Z x
Z b
F (x) =
f (t)dt und P ((a, b]) =
f (t)dt = F (b) − F (a).
−∞
(3.14)
a
Beispiele:
a) Die VF der Rechteckverteilung R(a, b) ist

x≤a
 0,
(x − a)/(b − a), a ≤ x ≤ b
F (x) =

1,
x ≥ b.
b) Die VF der Exp(α)-Verteilung ist
0,
x≤0
F (x) =
1 − e−αx , x ≥ 0.
c) Für die Normalverteilung N (a, σ 2 ) lässt sich die VF nicht durch eine geschlossene Formel ausdrücken, sondern nur numerisch berechnen. Dafür reichen
die Werte der VF der Standard-Normalverteilung aus, denn der allgemeine Fall
kann man auf die VF der N (0, 1)-Verteilung zurückführen.
Sei
Z x
2
1
√ e−t /2 dt
(3.15)
Φ(x) =
2π
−∞
die VF der Standard-Normalverteilung. Dann ist die VF der N (a, σ 2 )-Verteilung
gegeben durch
Z x
2
2
x−a
1
√ e−(t−a) /2σ dt = Φ(
).
(3.16)
Fa,σ2 (x) =
σ
σ
2π
−∞
d) Die VF der Γα,n -Verteilung für n ∈ N ist gegeben durch
!
n−1
X
e−αx (αx)k /k! 1[0,∞) (x), x ∈ R.
Fα,n (x) = 1 −
(3.17)
k=0
e) Die VF einer diskreten Verteilung mit Träger T und Z-Dichte f ist gegeben
durch
X
F (x) = P ((−∞, x]) =
f (t), x ∈ R.
(3.18)
t∈T,t≤x
Bemerkung: In diesem Fall besitzt das W-Maß P keine R-Dichte. Die VF
ist unstetig in den Punkten aus T und die Höhe der Sprünge entspricht genau
dem Wert der Z-Dichte f in diesen Punkten.
f) Die VF der empirischen Verteilung aus Definition 3.3 ist gegeben durch
n
1X
Fbnx :=
1[x ,∞) (x), x ∈ R.
n i=1 i
(3.19)
Es gibt auch W-Maße, die sowohl diskrete als auch stetige Anteile besitzen.
18KAPITEL 3. DARSTELLUNG VON WAHRSCHEINLICHKEITSMASSEN
Definition 3.13 Hat das W-Maß P über R die Darstellung
P (A) = αd Pd (A) + αs Ps (A), A ∈ B,
(3.20)
mit einer diskreten Verteilung Pd , einer stetigen Verteilung Ps (mit R-Dichte)
und Gewichten αs , αd ∈ [0, 1], αs + αd = 1, dann heißt P eine gemischte
Verteilung.
Beispiel: Eine Glühlampe sei beim Einschalten mit einer Wahrscheinlihckeit
vin 10% defekt und nach 500 Stunden werde sie grundsätzlich ausgetauscht, weil
im Mittel nur 40% der Glühlampen diese 500 Stunden überleben. Dazwischen
sei die Lebensdauer der Glühlampe gleichverteilt.
Für dieses Modell gilt:
P ({0}) = 0.1, P ({500}) = 0.4, αd = P ({0}) + P ({500}) = 0.5.
Pd ist eine Zweipunktverteilung mit Pd ({0}) = P ({0})/αd = 0.2, Pd ({500}) =
P ({500})/αd = 0.8.
αs = 1 − αd = 0.5, Ps ist die Rechteckverteilung R(0, 500).
Eigenschaften von Verteilungsfunktionen:
Folgerung 3.1 Ist F die VF eines W-Maßes P über (R, B), dann gilt:
(1) F ist nicht monoton fallend.
(2) F (−∞) := limx→−∞ F (x) = 0, F (∞) := limx→∞ F (x) = 1.
(3) F ist rechtsseitig stetig: limh↓0 F (x + h) = F (x), x ∈ R.
(4) F besitzt linksseitige Grenzwerte: F (x−) := limh↓0 F (x−h) = P ((−∞, x)),
x ∈ R.
(5) Für Einpunktmengen {x} gilt: P ({x}) = F (x) − F (x−), x ∈ R.
Jeder Abbildung F mit den Eigenschaften (1)-(5) kann man eindeutig ein
W-Maß P über (R, B) durch P ((−∞, x]) := F (x) zuordnen. Die Erweiterung
von P auf B erfolgt durch den Fortsetzungssatz.
Kapitel 4
Mehrstufige W-Modelle,
Koppelung
4.1
Koppelung diskreter W-Modelle
Beispiel: (“Ziehen ohne Zurücklegen”)
Aus 100 Werkstücken sind 10 defekt. Wieviel beträgt die Wahrscheinlichkeit,
dass zwei zufällig entnommene Stücke defekt sind?
Betrachte die Zuordnung: 0=”defekt”, 1=”intakt” und die Ereignisse A1 :=”das
erste gezogene Stück ist defekt”, A2 :=”das zweite gezogene Stück ist defekt”
und A :=”beide gezogenen Sücke sind defekt”.
10
9
1
1
1
Dann gilt P (A) = P (A1 ∩ A2 ) = P (A1 )P (A2 |A1 ) = 100
· 99
= 10
· 11
= 110
.
Dieses Zufallsexperiment kann man auch durch folgendes Baumdiagramm
darstellen:
Start
1
10
0
@
1
0,0
1
1
10 · 11
@ 9
@ 10
R
@
1
@
10
10
11
11
@
@
R
0,1
1
10
10 · 11
19
89
99
99
@
@
R
1,0
9
10
10 · 99
1,1
9
89
10 · 99
20
KAPITEL 4. MEHRSTUFIGE W-MODELLE, KOPPELUNG
Ein Zufallsexperiment mit mehreren Merkmalen wird auch mehrstufiger Versuch gennannt. Der (diskrete) Merkmalraum hat dabei die Form Ω = Ω1 × · · · ×
Ωn . Die Konstruktion erfolgt folgendermaßen: Wird bei n Merkmalen ω1 , . . . ωn
mit ωi ∈ Ωi die Wahrscheinlichkeit der Merkmale stufenweise in Abhängigkeit
von den vorangehenden Ergebnissen bewertet, und zwar durch
ω1 7→ f1 (ω1 ), eine Z-Dichte,
ω2 7→ f21 (ω1 ; ω2 ), eine von ω1 abhängige Z-Dichte
ω3 7→ f32 (ω1 , ω2 ; ω3 ), eine von (ω1 , ω2 ) abhängige Z-Dichte, usw.,
dann wird der Gesamtversuch bewertet durch die Z-Dichte
(ω1 , . . . , ωn ) 7→ f (ω1 , . . . , ωn ) := f1 (ω1 )f21 (ω1 ; ω2 ) . . . fnn−1 (ω1 , . . . , ωn−1 ; ωn ).
(4.1)
Die Abbildung f ist eine Z-Dichte auf Ω, denn
fii−1 (ω1 , . . . ωi−1 ; ωi ) ≥ 0 und
X
fii−1 (ω1 , . . . , ωi−1 ; ωi ) = 1.
(4.2)
ωi ∈Ωi
Definition 4.1 (a) Die in der obigen Konstruktion benutzten abhängigen ZDichten fii−1 (ω1 , . . . ωi−1 ; ωi ) heißen Übergangszähldichten (ÜZ-Dichten)von Ω1 ×
· · · × Ωi−1 nach Ωi . Die jeweils vorausgehenden Beobachtungen (ω1 , . . . ωi−1 )
nennt man Vorgeschichte zur Stufe i.
(b) Die durch (4.1) definierte Gesamtdichte f wird als Koppelung von f1 , f21 , . . . fnn−1
bezeichnet und man schreibt kurz
f = f1 ⊗ f21 ⊗ · · · ⊗ fnn−1 .
(4.3)
Bemerkung: Zu jeder ÜZ-Dichte fii−1 gehört ein von ω1 , . . . , ωi−1 abhängiges
W-Maß Pii−1 , genannt auch Übergangs-W-Maß (ÜW-Maß). Das zur Gesamt-ZDichte f gehörige W-Maß P wird dann mit P = P1 ⊗P21 ⊗· · ·⊗Pnn−1 bezeichnet.
4.2
Koppelung stetiger W-Modelle
Die obige Konstruktion im Falle diskreter Modelle kann man auch auf stetige W-Modelle übertragen. Dabei treten die Übergangs-Riemann-Dichten (ÜRDichten) fii−1 (x1 , . . . , xi−1 ; xi ) auf, welche für jede feste Vorgeschichte (x1 , . . . , xi−1 )
gewöhnliche R-Dichten in der Variable xi sind. Dabei muß sichergestellt werden,
dass die Gesamt-Dichte f = f1 ⊗ f21 · · · ⊗ fnn−1 definiert durch
f (x1 , . . . , xn ) := f1 (x1 )f21 (x1 ; x2 ) . . . fnn−1 (x1 , . . . , xn−1 ; xn )
(4.4)
im Rn Riemann-integrierbar ist.
Man kann beide Arten von Modellen kombinieren, indem man auf gewisse
Stufen diskrete Verteilungen (Z-Dichten) angibt und auf andere stetige Verteilungen (R-Dichten).
4.3. UNABHÄNGIGE KOPPELUNG
4.3
21
Unabhängige Koppelung
Beispiel: Wenn man im dem Beispiel aus 4.1 die zu prüfenden Werkstücken aus
verschiedenen “Losen” zieht, sind die entsprechenden Ereignisse unabhängig.
Analog bei einem Verfahren mit Ziehen mit Zurücklegen aus einer Urne oder
bei mehrfachen, unabhängigen Wiederholungen eines Zufallsexperiments (z.B.
Würfeln).
Definition 4.2 Hängen bei einem mehrstufigen Versuch die ÜZ-Dichten oder
ÜR-Dichten f21 , . . . fnn−1 nicht von den jeweiligen Vorgeschichten ab, so spricht
man von unabhängiger Koppelung. Die Übergangs-Dichten sind dann einfache
Z- oder R-Dichten f2 , . . . fn . Die Dichte f des Gesamtversuchs ist gegeben durch
das Produkt der Einzeldichten:
f (ω1 , . . . ωn ) = f1 (ω1 )f2 (ω2 ) . . . fn (ωn )
(4.5)
In diesem Fall bezeichnet man f als Produkt-Dichte.
Folgerung 4.1 (Produktformel)
In einem n-stufigen unabhängig gekoppelten W -Modell mit den einstufigen
W-Maßen P1 , P2 , . . . Pn gilt für ein Produktereignis der Form A = A1 × · · · × An
die Formel
P (A) = P (A1 × · · · × An ) = P1 (A1 )P2 (A2 ) . . . Pn (An ).
(4.6)
Folgerung 4.2 (Ziehen mit Zurücklegen, n-faches Laplace-Experiment)
Werden mehrere unabhängige Laplace-Experimente durchgeführt, dann ist
der Gesamtversuch auch ein Laplace-Experiment. Die Z-Dichten der Einzelversuche sind fi (ωi ) = 1/|Ωi |, (ωi ∈ Ωi ) und die Gesamt-Dichte ist gegeben durch
f (ω1 , . . . , ωn ) =
1
1
1
...
=
mit Ω = Ω1 × · · · × Ωn .
|Ω1 |
|Ωn |
|Ω|
(4.7)
Definition 4.3 (n-faches Bernoulli-Experiment)
Die n-fache unabhängige Wiederholung eines Bernoulli-Experiments mit Parameter p heißt n-faches Bernoulli(p)-Experiment. Der Merkmalraum ist Ω =
{0, 1}n und für die Z-Dichte f gilt
f (ω1 , . . . , ωn ) = pk (1 − p)n−k mit k =
n
X
ωi .
(4.8)
i=1
Das zugehörige W-Maß wird mit Bn (p) bezeichnet.
Definition 4.4 Die n-fache unabhängige Koppelung von Standard-Normalverteilungen
2
N (0, 1) mit den R-Dichten fi (xi ) = φ(xi ) = √12π e−xi /2 heißt n-dimensionale
Standard-Normalverteilung und besitzt auf Rn die Dichte
n
2
2
1
1
f (x1 , . . . , xn ) = √
e− 2 (x1 +···+xn ) .
(4.9)
2π
22
4.4
KAPITEL 4. MEHRSTUFIGE W-MODELLE, KOPPELUNG
Markov-Koppelung
Definition 4.5 Hängen bei einem mehrstufigen Versuch die ÜZ- oder ÜRDichten nicht von der gesamten Vorgeschichte ab, sondern nur vom letzten beobachteten Wert:
fii−1 (ω1 , . . . , ωi−1 ; ωi ) = fii−1 (ωi−1 ; ωi ),
so spricht man von einer Markov-Koppelung.
Die Folge der Beobachtungen bildet ein Markov-Prozess, im diskreten Fall
auch Markov-Kette genannt.
4.5
Zufälliges Ziehen ohne Zurücklegen
Beispiel: Es werden 6 Zahlen aus den Zahlen 1,2, . . . , 49 ohne Zurücklegen
und mit Berücksichtigung der Reihenfolge gezogen. Das entsprechende Koppelungsmodell wird wie folgt beschrieben: Sei Ω1 = · · · = Ω6 = {1, . . . 49}
und Ω = ×6i=1 Ωi = Ω61 . Dabei können in der Wirklichkeit nur Ergebnisse
ω = (ω1 , . . . , ω6 ) vorkommen, bei denen alle ωi verschieden sind (weil nicht
zurückgelegt wird). Die unmöglichen Ereignisse werden dann die W-keit =0
erhalten.
1
und
Die Z-Dichte f1 für die erste Ziehung ergibt sich dann als f1 (ω1 ) = 49
1
1
1
für die ÜZ-Dichte f2 erhält man f2 (ω1 ; ω2 ) = 48 , falls ω1 6= ω2 , sonst =0 (es
wird nur aus 48 verbleibenden Zahlen gezogen). Die weiteren ÜZ-Dichten sind
1
1
gegeben durch f32 (ω1 , ω2 ; ω3 ) = 47
, f43 (ω1 , ω2 , ω3 ; ω4 ) = 46
. . . , falls jeweils alle
ωi verschieden sind und =0 sonst. Dabei ergibt sich das (vernachlässigbare)
Problem, dass für feste, aber unmögliche Vorgeschichten die fii−1 (. . . ) keine
Z-Dichten mehr sind.
Für die Z-Dichte des Gesamtversuchs ergibt sich also:
f (ω1 , . . . , ω6 ) =
1 1 1 1 1 1
· · · · · , falls alle ωi verschieden sind, sonst =0.
49 48 47 46 45 44
Setzen wir nun Ω6= := {ω ∈ Ω : ωi 6= ωj , i 6= j}, so definiert die Z-Dichte f
eine Gleichverteilung (Laplace-Verteilung)
auf dem Träger Ω6= ⊂ Ω.
P
Aus der Bedingung ω∈Ω6= f (ω) = 1 erhält man die Formel über die Anzahl
der möglichen n-Permutationen aus N Objekten, d.h. die Anzahl der Möglichkeiten,
mit Berücksichtigung der Reihenfolge und ohne Wiederholungen n aus N Objekten auszuwählen. Diese Zahl ist gleich der Anzahl der Elemente aus Ω6= :
|Ω6= | = N (N − 1)(N − 2) . . . (N − n + 1) := (N )n .
(4.10)
Für n = 0 definiert man (N )0 = 1. Speziell für N = n erhält man (n)n = n!.
Beispiel: Wenn man 6 aus 49 Zahlen ohne Zurücklegen und ohne Berücksichtigung
der Reihenfolge zieht, kann man die Folge der 6 Zahlen als geordnet betrachten.
Deswegen benutzt man den Merkmalraum Ω0 = {ω ∈ Ω : ω1 < ω2 < · · · < ω6 }.
4.5. ZUFÄLLIGES ZIEHEN OHNE ZURÜCKLEGEN
23
Weil jeder geordneten Folge ω 0 ∈ Ω0 genau 6! ungeordnete Folgen ω ∈ Ω6= entsprechen, ergibt sich für die Z-Dichte f 0 auf Ω0 die Beziehung f 0 (ω 0 ) = 6!f (ω 0 )
und damit f 0 (ω 0 ) = 6!/(49)6 für alle ω 0 . In diesem Fall liegt also auch eine
Gleichverteilung vor.
Durch diese Überlegungen erhält man die Anzahl der möglichen n-Kombinationen
aus N Objekten, d.h. die Anzahl der Möglichkeiten, ohne Berücksichtigung der
Reihenfolge und ohne Wiederholungen n aus N Objekten auszuwählen. Diese
Zahl ist gleich der Anzahl der Elemente aus Ω0 :
N
(N )n
=:
.
(4.11)
|Ω0 | =
n!
n
Beispiel: Aus N = 100 Werkstücken, davon K = 90 “intakt” (=1) und
N − K = 10 “defekt” (=0) werden n = 5 Stücke ohne Zurücklegen entnommen.
Als Merkmalraum wählt man Ω = {0, 1}5 . Für ω = (0, 1, 0, 1, 0) ∈ Ω erhält man
die W-keit:
f (0, 1, 0, 1, 0) =
(90)2 (10)3
10 9 9 89 8
·
·
·
·
=
.
100 99 98 97 06
(100)5
Allgemein erhält man die Z-Dichte
f (ω1 , . . . , ωn ) =
(K)k (N − K)n−k
(N )n
mit k :=
n
X
ωi .
i=1
Die W-keit eines Ereignisses ω ∈ Ω hängt also nur von der Anzahl der beobachteten markierten Stücke ab und nicht von deren Reihenfolge.
Für das Ereignis
Bk :=”es werden k markierte Sücke gezogen” gibt es insn
gesamt genau
k Ergebnisse ω, die die oben angegeben W-keit besitzen. Aus
P
P (Bk ) = ω∈Bk f (ω) folgt also:
n (K)k (N − K)n−k
=
P (Bk ) =
k
(N )n
K
k
N −K
n−k
N
n
, 0 ≤ k ≤ n.
(4.12)
24
KAPITEL 4. MEHRSTUFIGE W-MODELLE, KOPPELUNG
Kapitel 5
Zufallsvariable und
Bildmodelle
5.1
Zufallsvariable und messbare Abbildungen
Definition 5.1 Eine Zufallsvariable (kurz: ZV) ist eine Abbildung vom Merkmalraum Ω in eine Bildmenge Ω0 . Ist A0 das Ereignissystem in Ω0 , dann wird
für eine Zufallsvariable gefordert:
{X ∈ A0 } ∈ A für alle A0 ∈ A0 .
(5.1)
Dabei ist {X ∈ A0 } := {ω ∈ Ω : X(ω) ∈ A0 } ein durch X beschreibbares
Ereignis.
Definition 5.2 Für jede Abbildung X heißt A := {X ∈ A0 } das Urbild von A0 .
Man schreibt dafür auch X −1 (A0 ). Man beachte: X −1 ist eine Zuordnung von
P(Ω0 ) nach P(Ω) (Mengenabbildung), genannt auch Urbildfunktion.
Definition 5.3 Ein Paar (Ω, A) aus einer nicht-leeren Menge Ω und einer σAlgebra A über Ω heißt Messraum. Sind (Ω, A) und (Ω0 , A0 ) Messräume und X
ist eine Abbildung von Ω nach Ω0 mit der Eigenschaft
X −1 (A0 ) ∈ A für alle A0 ∈ A0 ,
(5.2)
so sagt man: X ist messbar, genauer A − A0 -messbar.
Folgerung 5.1 Die folgenden Arten von Abbildungen sind messbar (und damit
Zufallsvariable):
(a) alle Abbildungen Ω → Ω0 , falls A = P(Ω),
(b) alle Indikatorfunktionen 1A mit A ∈ A,
(c) alle stetigen (oder stückweise stetigen) Funktionen R → R oder Rk → Rn ,
falls A, A0 die entsprechenden Borelmengen sind.
25
26
KAPITEL 5. ZUFALLSVARIABLE UND BILDMODELLE
(d) alle Vielfachen, Summen, Produkte, Quotienten (soweit definiert), Maxima und Minima von Zufallsvariablen,
(e) alle Suprema, Infima und Grenzwerte von Folgen von Zufallsvariablen,
(f ) alle messbaren Funktionen von Zufallsvariablen.
5.2
Bildmodelle und Verteilungen von Zufallsvariablen
Beispiel: n Ziehungen (ohne Zurücklegen) aus N Objekten, davon K markiert
(=1) und N − K unmarkiert (=0).
W-Modell: Ω = {0, 1}n , A = P(Ω). P
Für ein Ereignis ω = (ω
ωi die Anzahl der gezogenen marP1 , . . . ωn ) gibt
kierten Objekten und n − ωi entsprechend die Anzahl der gezogenen unmarkierten Objekten an.
Das W-Maß P wird durch die Z-Dichte
f (ω1 , . . . ωn ) =
(K)P ωi (N − K)n−P ωi
, (ω1 , . . . ωn ) ∈ Ω,
(N )n
definiert.
P
Betrachte die ZV Zn : Ω → Ω0 , Zn (ω) = ωi , wobei Ω0 = {0, 1, . . . , n}.
Die Einführung von Zn hat folgende Effekte:
(a) Komprimierung der Information aus ω = (ω1 , . . . , ωn ) durch Nichtberücksichtigung der Ziehungsreihenfolge.
(b) Das Ereignis Bk :=”es werden k markierte Stücke gezogen” wird als
Bk = {Zn = k} dargestellt.
(c) Man kann über Ω0 = {0, 1, . . . , n} ein neues W-Modell für die Anzahl der
gezogenen markierten Stücke angeben, indem man
K N −K
f 0 (k) = P 0 ({k}) = P ({Zn = k}) =
k
n−k
N
n
betrachtet (vgl. (4.12)).
Allgemein wird das W-Maß P 0 auf (Ω0 , P(Ω0 )) durch P 0 (A0 ) = P ({Zn ∈ A0 })
definiert. Die neue Wahrscheinlichkeit wird also über die Urbilder Zn−1 (A0 ) =
{Zn ∈ A0 } bestimmt, d.h. die Wahrscheinlichkeit aller ω, die nach A0 abgebildet
werden. Aufgrund dieses Zusammenhangs bezeichnet man das W-Mass P 0 auch
mit P Zn .
Definition 5.4 (Bildmaß P X unter der ZV X)
Ist (Ω, A, P ) ein W-Raum, Ω0 eine nichtleere Menge, A0 ein Ereignis-System
über Ω0 und X : Ω → Ω0 eine Zufallsvariable, dann ist die Zuordnung
A0 → P X (A0 ) := P (X −1 (A0 )) = P (X ∈ A0 )
(5.3)
mit A0 ∈ A0 ein W-Maß über (Ω0 , A0 ), genannt auch Bildmaß von P unter X
oder Verteilung von X bezüglich P .
(Ω0 , A0 , P X ) ist das Bildmodell von (Ω, A, P ) unter X.
5.3. HYPERGEOMETRISCHE UND BINOMIAL-MODELLE
27
Folgerung 5.2 (a) Ist X : Ω → Ω0 eine ZV und Ω0 (oder zumindest X(Ω))
abzählbar, dann hat P X die Z-Dichte f X mit
f X (ω 0 ) = P (X = ω 0 ), ω 0 ∈ Ω0 .
(5.4)
(b) Ist X eine reellwertige ZV, dann hat P X die Verteilungsfunktion F X mit
F X (t) = P (X ≤ t), t ∈ R.
(5.5)
Man nennt f X bzw. F X die Z-Dichte, bzw. die Verteilungsfunktion von X.
5.3
Hypergeometrische und Binomial-Modelle
Definition 5.5 Das hypergeometrische Modell besteht aus Ω0 = {0, 1, . . . , n}, A0 =
P(Ω0 ) und P Zn , angegeben durch die Z-Dichte
K N −K
h(N, K, n; k) := f Zn (k) =
k
n−k
N
n
, 0 ≤ k ≤ n.
(5.6)
Das W-Maß P Zn heißt hypergeometrische Verteilung und wird mit H(N, K, n)
bezeichnet.
Bemerkung: Für die Fälle k > K bzw. n − k > N − K gilt f Zn (k) = 0.
Beispiel: (n-fache Wiederholung eines Bernoulli(p)-Experiments).
Ω = {0, 1}n , A = P(Ω) und P = Bn (p) mit der Z-Dichte
f (ω1 , . . . , ωn ) = pk (1 − p)n−k mit k =
n
X
ωi .
i=1
ωi = 1: “Erfolg” im i-ten Experiment, ωi = 0: “Misserfolg” im i-ten Experiment.
Betrachte die ZV
Pn Sn = “Anzahl der Erfolge” in n Versuche, d.h.
P
Sn (ω1 , . . . , ωn ) = i=1 ωi . Mit Ak := {Sn = k} gilt dann: P (Ak ) = ω∈Ak f (ω) =
|Ak |pk (1 − p)n−k = nk pk (1 − p)n−k .
Definition 5.6 Das Binomial-Modell mit den Parametern n ∈ N und p ∈ [0, 1]
besteht aus Ω0 = {0, 1, . . . , n}, A0 = P(Ω0 ) und P Sn mit der Z-Dichte
n k
Sn
b(n, p; k) := f (k) =
p (1 − p)n−k , 0 ≤ k ≤ n.
(5.7)
k
Das W-Maß P Sn heißt Binomial(n, p)-Verteilung, kurz B(n, p).
Bemerkungen
• Man beachte den Unterschied zwischen Bn (p) (die Verteilung eines nfachen Bernoulli-Experiments, wo jeder unterschiedliche Ausgang betrachtet wird) und B(n, p) (die Verteilung des Binomial-Modells, wo nur die Anzahl der “Erfolge” in einem n-fachen Bernoulli-Experiment berücksichtigt
wird, nicht deren genauen Reihenfolge).
28
KAPITEL 5. ZUFALLSVARIABLE UND BILDMODELLE
• hypergeometrische Verteilung: “n Ziehungen ohne Zurücklegen aus N Objekten, von welche K markiert sind”.
• Binomial-Verteilung: “n Ziehungen mit Zurücklegen aus N Objekten, von
welche K markiert sind” (für p = K/N ).
• Für große Werte von K und N − K im Vergleich zu n sind die Z-Dichten
der beiden Modelle annähernd gleich.
5.4
Die Poisson-Approximation der BinomialVerteilung
Die Binomial-Verteilung B(n, p) basiert auf n Wiederholungen eines Bernoulli(p)Experiments, wobei die Anzahl der “Erfolge” (und nicht deren Reihenfolge)
untersucht wird. Für große n und kleine p, d.h. für viele Wiederholungen eines Bernoulli-Experiments mit kleiner Erfolgswahrscheinlichkeit, so dass np ≈
konstant, so kann man die Binomial-Verteilung durch eine Poisson-Verteilung
approximieren.
Satz 5.1 (Poisson-Approximation)
Eine Binomial(n, pn )-Verteilung nähert sich für große n und kleine pn einer
Poisson(n · pn )-Verteilung an. Genauer gilt: Für n → ∞ und n · pn → λ konvergieren die Werte der Z-Dichte b(n, pn ; k) für alle k = 0, 1, . . . gegen die entsprechenden Werte π(λ; k) = e−λ λk /k! der Z-Dichte der Poisson(λ)-Verteilung,
π(λ).
Bemerkung: Die Gleiche Aussage gilt für p ≈ 1, denn man kann zu 1 − p
übergehen. Dann gilt λ ≈ n · (1 − pn ).
5.5
Die Normal-Approximation der BinomialVerteilung
Allgemein, für große Werte von n und p nicht nahe bei 0 oder bei 1, kann man
die Binomial-Verteilung durch eine Normalverteilung approximieren.
Satz 5.2 (Zentraler Grenzwertsatz)
Die Summe vieler kleiner und voneinander unabhängiger zufälliger Einflüsse
verhält sich näherungsweise -und für wachsende Anzahl der Summanden mit
zunehmender Genauigkeit- wie eine Normalverteilung.
Satz 5.3 (Normal-Approximation)
Ist F Sn die VF der Binomial(n, p)-Verteilung und Φ die VF der StandardNormalverteilung, dann gilt
x−a
Sn
, x ∈ R,
(5.8)
F (x) ≈ Φ
σ
5.6. WARTEZEITEN - DIE GEOMETRISCHE VERTEILUNG
wobei a = np der “Mittelwert” und σ :=
ximierenden Normalverteilung ist.
5.6
29
p
np(1 − p) die “Streuung” der appro-
Wartezeiten - die geometrische Verteilung
Betrachte n Wiederholungen eines Bernoulli(p)-Experiments. Untersucht wird
die Anzahl der benötigten Versuche, um den ersten “Erfolg” zu erreichen.
Betrachte die ZV W1 :=”Anzahl der Versuche bis zum ersten Erfolg”.
Dann gilt:
P (W1 = k) = (1 − p)k−1 · p für k = 1, 2, 3, . . .
(5.9)
(In den ersten k − 1 Versuche wurden Misserfolge registriert, der erste Erfolg
passiert im k-ten Versuch; alle Versuche sind dabei unabhängig.)
Zählt man nur die W1 − 1 Misserfolge, dann erhält man entsprechend
P (W1 − 1 = k) = (1 − p)k · p für k = 0, 1, 2, . . . .
(5.10)
Definition 5.7 (Geometrische Verteilungen)
Für 0 < p < 1 und q := 1 − p definieren wir die geometrische Verteilung
Geo+ (p) durch die Z-Dichte
geo+ (p; k) := p · q k−1 , k = 1, 2, 3, . . .
(5.11)
und die geometrische Verteilung Geo0 (p) durch die Z-Dichte
geo0 (p; k) := p · q k , k = 0, 1, 2, . . . .
(5.12)
Beide beschreiben die Wartezeit bis zum ersten Erfolg bei einer unendlichen
Folge von unabhängigen Bernoulli(p)-Versuchen, bei Geo+ (p) einschließlich des
erfolgreichen Versuchs, bei Geo0 (p) ohne diesen.
Folgerung 5.3 Die Geo+ (p)-Verteilung besitzt die VF
F W1 (x) = P (W1 ≤ x) = 1 − (1 − p)bxc , x ≥ 0,
(5.13)
die Geo0 (p)-Verteilung besitzt entsprechend die VF
F W1 −1 (x) = P (W1 − 1 ≤ x) = 1 − (1 − p)bx+1c , x ≥ 0,
(5.14)
wobei bxc den ganzzahligen Anteil von x bezeichnet. Für x < 0 sind die beiden
VF gleich 0.
5.7
Mehrfaches Warten - die negative Binomialverteilung
Als Verallgemeinerung des vorherigen Modells kann man die Anzahl Wr der
benötigten Versuche bis zum r-ten Erfolg betrachten.
30
KAPITEL 5. ZUFALLSVARIABLE UND BILDMODELLE
Definition 5.8 (Negative Binomialverteilung)
Die negative Binomialverteilung Nb+ (r, p), die die Anzahl Wr der Versuche
bis zum r-ten Erfolg beschreibt, hat die Z-Dichte
k−1 r
+
Wr
f (k) = P (Wr = k) = nb (r, p; k) =
p (1 − p)k−r . k = r, r + 1, . . . .
r−1
(5.15)
Zählt man nur die Misserfolge, dann ergibt sich Nb0 (r, p) mit der Z-dichte
k+r−1 r
f Wr −r (k) = P (Wr −r = k) = nb0 (r, p; k) =
p (1−p)k . k = 0, 1, 2, . . . .
r−1
(5.16)
Bemerkungen:
• Der Name leitet sich ab von der Darstellung
k+r−1
r−1
• Nb0 (r, p) existiert auch für r ∈ (0, ∞) wegen
k+r−1
r−1
5.8
=
=
k+r−1
k
=
−r
k
.
(k+r−1)k
.
k!
Randverteilung und gemeinsame Verteilung
Definition 5.9 (Randverteilung)
Ist der Merkmalraum Ω ein kartesisches Produkt, also Ω = Ω1 × · · · × Ωn ,
dann heißt für i ∈ {1, . . . , n} die ZV Xi : Ω → Ωi , ω 7→ ωi die i-te Projektion
oder die i-te Koordinatenvariable. Die Verteilung P Xi von Xi heißt die i-te
Randverteilung.
Folgerung 5.4 (a) Die i-te Randverteilung P Xi ergibt sich aus
P Xi (Ai ) = P (Xi ∈ Ai ) = P (Ω1 , × . . . Ai × . . . Ωn ) für Ai ∈ Ai .
(b) Ist Ω abzählbar und f eine Z-Dichte von P , dann besitzt P Xi eine ZDichte f Xi , auch i-te Randdichte genannt, und es gilt
X
X
X
X
f Xi (ωi ) =
···
···
f (ω1 , . . . , ωn ).
ω1 ∈Ω1
ωi−1 ∈Ωi−1 ωi+1 ∈Ωi+1
ωn ∈Ωn
Man muss also über alle “nicht benötigten” ωj aufsummieren.
(c) Ist Ωi = R, Ai = B und A = B n und besitzt P eine R-Dichte f , dann
hat auch P Xi eine R-Dichte f Xi und es gilt
Z
Z
f Xi (xi ) =
. . . f (x1 , . . . xn )dx1 . . . dxi−1 dxi+1 . . . dxn ,
R
R
wobei für alle xj mit j 6= i integriert wird.
Für die unabhängig gekoppelten W-Modell kann man die Randverteilungen
als die Verteilungen der entsprechenden Stufen berechnen:
5.9. STOCHASTISCHE UNABHÄNGIGKEIT VON ZUFALLSVARIABLEN31
Folgerung 5.5 In unabhängig gekoppelten W-Modellen ist die i-te Randverteilung P Xi gleich der W-Verteilung Pi der i-ten Stufe, denn wegen der Produktform von {Xi ∈ Ai } gilt:
P Xi (Ai ) = P (Ω1 × · · · × Ai × · · · × Ωn ) = P1 (Ω1 ) . . . Pi (Ai ) . . . Pn (Ωn ) = Pi (Ai ).
Für die i-te Randdichte erhält man entsprechend f Xi = fi .
Definition 5.10 (gemeinsame Verteilung)
Wenn die ZV Yi von Ω nach Ωi abbilden, mit σ-Algebren A über Ω und Ai
über Ωi , dann ist Y = (Y1 , . . . Yn ) eine ZV von Ω nach Ω0 := Ω1 × · · · × Ωn (Zufallsvektor). Die Verteilung P Y = P (Y1 ,...Yn ) von Y heißt dann die gemeinsame
Verteilung von Y1 , . . . , Yn .
Man kann somit auch Randverteilungen über mehrere Komponenten als gemeinsame Verteilungen definieren, z.B. P (Xi1 ,...,Xik ) (mit den Notationen aus
Definition 5.9). Man wählt somit nur die Komponenten (i1 , . . . ik ) aus (1, . . . n)
aus und betrachtet deren gemeinsame Verteilung.
Folgerung 5.6 Die i-te Randverteilung einer gemeinsamen Verteilung P (Y1 ,...,Yn )
ist P Yi , die Verteilung von Yi .
Folgerung 5.7 Bei der n-fachen Ziehung ohne Zurücklegen aus N Objekten,
wovon K markiert sind, sei (X1 , . . . Xn ) das vollständige Ergebnis (“Ziehungsprotokoll”, Xi (ω) ∈ {0, 1}, “1” entspreche “markiert”). Dann gilt, dass jede
Permutation Xi1 , . . . Xin von X1 , . . . Xn dieselbe gemeinsame Verteilung hat und
dass deshalb alle Randverteilungen P Xi für alle i, bzw. P (Xi1 ,...,Xik ) , (k < n)
für alle (i1 , . . . ik ) mit il 6= im für l 6= m jeweils übereinstimmen. Zufallsvariable
X1 , . . . Xn mit dieser Eigenschaft heißen austauschbar.
5.9
Stochastische Unabhängigkeit von Zufallsvariablen
Satz 5.4 Jede gemeinsame Verteilung P (Y1 ,...Yn ) mit Z-Dichte oder R-Dichte
f (Y1 ,...Yn ) lässt sich als Koppelungs-Modell mit Z-Dichte bzw. R-Dichte
f (Y1 ,...Yn ) (y1 , . . . yn ) = f1 (y1 )f21 (y1 ; y2 ) . . . fnn−1 (y1 , . . . , yn−1 ; yn )
darstellen. Dazu bestimmt man die Randdichten f (Y1 ,...Yn−1 ,) , f (Y1 ,...Yn−2 ,) , . . . , f (Y1 ,Y2 ) ,
f (Y1 ) = f1 (in dieser Reihenfolge) durch Summation bzw. Integration und erhält
daraus
f (Y1 ,...Yi ) (y1 , . . . yi )
.
(5.17)
fii−1 (y1 , . . . yi−1 ; yi ) = (Y ,...Y )
f 1 i−1 (y1 , . . . yi−1 )
Ist dabei der Nenner =0, dann setzt man für fii−1 (y1 , . . . yi−1 ; yi ) eine beliebige
Dichte ein.
32
KAPITEL 5. ZUFALLSVARIABLE UND BILDMODELLE
Definition 5.11 Die nach Satz 5.4 existierenden Übergangs- (Z- oder R-) Dichten nennt man wegen der im diskreten Fall möglichen Darstellung
fii−1 (y1 , . . . yi−1 ; yi ) = P (Yi = yi | Y1 = y1 , . . . , Yi−1 = yi−1 )
auch bedingte Dichten und man schreibt f Yi |(Y1 ,...,Yi−1 ) statt fii−1 . Die zugehörigen
Übergangs-W-Maße heißen bedingte Verteilungen und werden entsprechend als
P Yi |(Y1 ,...,Yi−1 ) geschrieben.
Definition 5.12 Die ZV Y1 , . . . Yn mit Yi : Ω → Ωi heißen stochastisch unabhängig (st.u.), wenn für die gemeinsame Verteilung P (Y1 ,...Yn ) die Produktformel gilt:
P (Y1 ,...Yn ) (A1 × · · · × An ) = P Y1 (A1 ) . . . P Yn (An )
(5.18)
für beliebige Ereignisse Ai in Ωi , bzw. in anschaulicherer Form
P (Y1 ∈ A1 , . . . , Yn ∈ An ) = P (Y1 ∈ A1 ) . . . P (Yn ∈ An ).
(5.19)
Folgerung 5.8 Besitzen die ZV Y1 , . . . Yn mit Yi : Ω → Ωi Z-Dichten bzw. RDichten, dann ist die stochastische Unabhängigkeit äquivalent damit, dass die
gemeinsame Verteilung eine Produkt-Dichte besitzt.
Folgerung 5.9 In einer Folge von stochastisch unabhängigen Bernoulli(p)-Versuchen
sind die Wartezeiten auf den jeweils nächsten Erfolg unabhängig und Geo+ (p)verteilt.
Satz 5.5 Sind die ZV Y1 , . . . , Yn stochastisch unabhängig (z.B. Y1 , . . . Y5 ), dann
sind auch stochastisch unabhängig:
(a) Umstellungen von Y1 , . . . , Yn , z.B. Y3 , Y2 , Y5 , Y1 , Y4 ,
(b) Teilmengen von Y1 , . . . , Yn , z.B. Y1 , Y3 , Y4 , Y5 ,
(c) Disjunkte Gruppen von st.u. ZV, z.B. Z1 = (Y1 , Y3 ) und Z2 = (Y4 , Y5 ),
(d) Messbare Funktionen von st.u. ZV, z.B. g(Z1 ) = Y12 + Y32 und h(Z2 ) =
Y4 · eY5 .
(e) Jede konstante ZV ist von allen ZV stochastisch unabhängig.
(f ) Sind die ZV Y1 , . . . , Yn−1 st.u. und sind (Y1 , . . . , Yn−1 ), Yn st.u., dann
sind auch Y1 , . . . , Yn st.u..
Folgerung 5.10 Die Ereignisse A1 , . . . , An in einem W-Raum (Ω, A, P) sind
genau dann stochastisch unabhängig (s. Definition 2.20), wenn die ZV 1A1 , . . . , 1An
stochastisch unabhängig sind.
5.10
Bild-Verteilungen für stetige W-Modelle
Satz 5.6 Es sei P X eine Verteilung über (R, B) und die ZV Y = a + bX eine
lineare Funktion von X mit a, b ∈ R, b 6= 0 (zur Vereinfachung sei b > 0).
(a) Besitzt P X die VF F X , dann ist die VF von P Y gegeben durch
y−a
Y
X
, y ∈ R.
(5.20)
F (y) = F
b
5.11. SUMMEN-VERTEILUNG UND FALTUNG
(b) Besitzt P X eine R-Dichte f X , dann hat P Y die R-Dichte
1
y−a
f Y (y) = f X
, y ∈ R.
b
b
33
(5.21)
(c) Ist speziell P X die Standard-Normalverteilung N (0,1) mit VF Φ und
R-Dichte φ, dann hat Y = a + bX die VF F Y (y) = Φ y−a
und die R-Dichte
b
y−a
1
Y
f (y) = b φ b . Dies sind die VF und R-Dichte von N (a, b2 ). Die Normalverteilung N (a, σ 2 ) geht also durch die lineare Transformation x 7→ a + σx aus
N (0, 1) hervor.
Satz 5.7 (a) Ist X eine ZV mit Werten in R und der VF F X , dann besitzt
Y = X 2 die VF
√
√
(5.22)
F Y (y) = (F X ( y) − F X ((− y)−))1[0,∞) (y) y ∈ R.
(b) Besitzt X eine R-Dichte f X , dann hat Y = X 2 die R-Dichte
1
√
√
f Y (y) = √ (f X (− y) + f X ( y)1(0,∞) (y) y ∈ R.
2 y
(5.23)
Satz 5.8 Ist P X die Standard-Normalverteilung N (0, 1) mit VF Φ und R2
Dichte φ, dann besitzt die Verteilung P X die VF
2
√
F X (y) = [2Φ( y) − 1]1[0,∞) (y) y ∈ R.
(5.24)
und die R-Dichte
2
1 1
1
√
f X (y) = √ φ( y)1(0,∞) (y) = √ √ e−y/2 1(0,∞) (y) y ∈ R.
y
2π y
(5.25)
2
Die Verteilung P X heißt Chi(1)-Quadrat-Verteilung, kurz χ21 und ist eine spezielle Gamma-Verteilung, nämlich Γ 21 , 12 .
5.11
Summen-Verteilung und Faltung
Satz 5.9 (a) Es seien X und Y zwei ZV über demselben W-Raum mit Werten
in Z und mit gemeinsamer Z-Dichte f (X,Y ) (x, y). Dann erhält man die Z-Dichte
von X + Y aus
X
f X+Y (z) =
f (X,Y ) (x, z − x), z ∈ Z.
(5.26)
x∈Z
(b) Sind X und Y reellwertig mit gemeinsamer R-Dichte f (X,Y ) (x, y), dann
hat X + Y entsprechend die R-Dichte
Z
X+Y
f
(z) =
f (X,Y ) (x, z − x)dx, z ∈ R.
(5.27)
R
34
KAPITEL 5. ZUFALLSVARIABLE UND BILDMODELLE
Bemerkungen: Wegen der Symmetrie kann man die Rollen von X und Y
vertauschen und entsprechende Formeln herleiten.
Falls X und Y stochastisch unabhängig sind, dann besitzt deren gemeinsame Dichte die Produktform, und in den obigen Formeln erhält man somit
f (X,Y ) (x, z − x) = f X (x)f Y (z − x).
Definition 5.13 Die Verteilung der Summe von stochastisch unabhängigen ZV
X und Y heißt die Faltung der Einzelverteilungen:
P X ∗ P Y := P X+Y und f X ∗ f Y = f X+Y .
(5.28)
Folgerung 5.11 Für nicht-negative und stochastisch unabhängige ZV X und
Y berechnet man die Faltung nach folgenden Formeln:
(a) bei ganzzahligen Werten
f X+Y (z) = (f X ∗ f Y )(z) =
z
X
f X (x)f Y (z − x), z ∈ N0 .
(5.29)
f X (x)f Y (z − x)dx, z ≥ 0.
(5.30)
x=0
(b) bei Existenz von R-Dichten
f
X+Y
(z) = (f
X
Y
Z
∗ f )(z) =
z
0
Für z < 0 ist in beiden Fällen f X+Y (z) = 0.
Beispiele
1. Faltung von Binomialverteilungen
Die Binomialverteilung B(n, p) wurde als Verteilung P Sn der Summe Sn
von n st.u. Bernoulli(p)-ZV X1 , . . . , Xn definiert. Deshalb ist B(n, p) die
n-fache Faltung von B(p)-Verteilungen:
B(n, p) = B(p) ∗ B(p) ∗ · · · ∗ B(p) (n Faktoren).
(5.31)
Faßt man erst m und dann n B(p)-Verteilungen zusammen, dann ergibt
sich
B(m + n, p) = B(m, p) ∗ B(n, p).
(5.32)
2. Faltung von Poissonverteilungen
Es gilt
π(λ1 ) ∗ π(λ2 ) = π(λ1 + λ2 ).
(5.33)
Dies ergibt sich aus der Tatsache, dass die Poisson(λ)-Verteilung durch
eine B(n, pn )-Verteilung approximieren lässt, falls n groß ist und npn ≈ λ
gilt. Der exakte Beweis geht jedoch über die Faltungsformel.
5.11. SUMMEN-VERTEILUNG UND FALTUNG
35
3. Faltung von geometrischen Verteilungen
Ausder stochastischen Unabhängigkeit der Geo+ (p)-verteilten Zwischenwartezeiten bei einer Folge von stochastisch unabhängigen Bernoulli(p)Versuchen ergibt sich für die negative Binomialverteilung
Nb+ (r, p) = Geo+ (p) ∗ Geo+ (p) ∗ . . . Geo+ (p) (r Faktoren),
(5.34)
und durch Zusammenfassung der Faktoren
Nb+ (r1 + r2 , p) = Nb+ (r1 , p) ∗ Nb+ (r2 , p).
(5.35)
Dieselben Eigenschaften gelten für Nb0 (r, p) und Geo0 (r, p).
4. Faltung von Normalverteilungen
Die Faltung von zwei beliebigen Normalverteilungen ergibt wieder eine
Normalverteilung:
N (a, σ 2 ) ∗ N (b, τ 2 ) = N (a + b, σ 2 + τ 2 ).
(5.36)
5. Faltung von Gamma-Verteilungen
Die Faltung von zwei Gamma-Verteilungen mit gleichen Parameter α ergibt
Γα,µ ∗ Γα,ν = Γα,µ+ν .
(5.37)
Spezialfälle:
(a) Die Exp(α)-Verteilung ist gleich der Γα,1 -Verteilung. Damit ergibt
sich
Γα,n = Exp(α) ∗ Exp(α) ∗ · · · ∗ Exp(α) (n Faktoren).
(5.38)
(b) Die χ21 -Verteilung ist gleich der Γ 21 , 12 -Verteilung. Somit kann man
die Chi(n) − Quadrat − V erteilung χ2n als Verteilung der Summe
der Quadrate von n stochastisch unabhängigen normalverteilten ZV
einführen:
χ2n := Γ 12 , n2 = χ21 ∗ χ21 ∗ · · · ∗ χ21 (n Faktoren).
(5.39)
36
KAPITEL 5. ZUFALLSVARIABLE UND BILDMODELLE
Kapitel 6
Kenngrößen
6.1
Mediane und Quantile
Sei X : Ω → Ω0 ⊆ R eine ZV mit Z-Dichte oder R-Dichte f X und Verteilungsfunktion F X .
Definition 6.1 Ein Median von X (oder von P X ) ist jeder Wert m ∈ R, an
dem die VF F X den Wert 1/2 erreicht oder überschreitet, d.h. für den gilt:
F X (m−) ≤
1
≤ F X (m).
2
(6.1)
Bemerkungen.
• Links und rechts von einem Median m liegt jeweils höchstens die Hälfte der
gesamten Wahrscheinlichkeit, denn es gilt P (X < m) = F X (m−) ≤ 1/2
und P (X > m) = 1 − F X (m) ≤ 1/2. Der Punkt m selbst kann dabei
auch positive Wahrscheinlichkeit besitzen. Hat der Median m dagegen die
Wahrscheinlicheit 0, dann gilt F (m−) = F (m) = 1/2 und die gesamte
Wahrscheinlichkeit wird genau “in der Mitte” geteilt.
• Es kann mehrere Mediane geben, und zwar dann, wenn die VF F X auf
einem ganzen Intervall den (konstanten) Wert 1/2 annimmt. Dann sind
alle Punkte des Intervalls, einschließlich der Randpunkte, Mediane. In der
Praxis wird dann normalerweise die Intervallmitte zum Median erklärt.
Eine Verallgemeinerung des Medians sind die Quantile oder Prozent-Punkte:
Definition 6.2 Ein Wert u ∈ R heißt α%-Quantil oder α%-Punkt, wenn die
VF F X an der Stelle u den Wert α erreicht oder überschreitet, d.h. wenn
F X (u−) ≤ α ≤ F X (u). Der Median ist also ein 50%-Quantil. Die 25% und
75% -Quantile nennt man auch Quartile.
Definition 6.3 Jede Maximumstelle einer Z-Dichte oder R-Dichte f X heißt
Modalwert von X (oder von P X ).
37
38
KAPITEL 6. KENNGRÖSSEN
6.2
Erwartungswert: Einführung
Intuitiv entspricht der Erwartungswert eines gewichteten Mittels mit relativen
Häufigkeiten.
Beispiel: Bei einem Examen seien die Noten 1 bis 5 mit den relativen
Häufigkeiten 0.11/0.23/0.31/0.27/0.08 aufgetreten. Dann ist der Mittelwert 1 ·
0.11 + 2 · 0.23 + . . . 5 · 0.08 = 2.98.
Interpretiert man die relativen Häufigkeiten als Wahrscheinlichkeiten für die
Examensnote X eines zufällig herausgegriffenen Studenten, dann stellt der obige Mittelwert den “Erwartungswert” von X dar, bezeichnet mit EX. Dieser
berechnet sich dann als
EX = 1 · P (X = 1) + 2 · P (X = 2) + · · · + P (X = 5) =
5
X
k · P (X = k).
k=1
Bevor der Erwartungswert für reellwertige ZV allgemein definiert wird, führen
wir folgende Definition ein:
Definition 6.4 Ist X = (X1 , . . . , Xn ) eine mehrdimensionale ZV (Zufallsvektor), dann definiert man den Erwartungswert von X durch den Vektor der einzelnen Erwartungswerten: EX := (EX1 , . . . , EXn ), auch Erwartungsvektor genannt.
6.3
Erwartungswert: diskrete Modelle
Definition 6.5 Es sei X : Ω → Ω0 ⊂ R eine diskrete ZV mit X ≥ 0 oder Ω0
endlich. Dann heißt
X
X
EX :=
k · P (X = k) =
k · f X (k)
(6.2)
k∈Ω0
k∈Ω0
der Erwartungswert von X (oder von P X ).
Folgerung 6.1 Erwartungswerte der wichtigsten diskreten Verteilungen
(q = 1 − p).
(a) Laplace-Verteilung
L({1, . . . , N }), f X (k) = 1/N ,
(b) Einpunktverteilung
εa ,
f X (a) = 1,
(c) Bernoulli-Versuch
B(p),
f X1 (1) = p, (d) Binomial-Verteilung B(n, p),
f Sn (k) = nk pk (1 −p)n−k
,
N −K
N
(e) Hypergeom. Vert.
H(N, K, n),
f Zn (k) = K
/
k
n−k
n ,
(f) Poisson-Verteilung
π(λ),
f X (k) = e−λ λk /k!,
(g) Geometrische Vert.
Geo+ (p),
f W1 (k) = p(1 − p)k−1 ,
0
Geo0 (p),
f W1 (k) = p(1 − p)k ,
r
k−r
(h) Neg. Binomial-Vert. Nb+ (r, p),
f Wr (k) = k−1
,
r−1 p (1 − p)
0
k+r−1 r
Wr0
Nb (r, p),
f (k) = r−1 p (1 − p)k ,
EX = N2+1 ,
EX = a,
EX1 = p,
ESn = np,
EZn = nK/N ,
EX = λ,
EW1 = 1/p,
EW10 = q/p,
EWr = r/p,
EWr0 = rq/p.
6.3. ERWARTUNGSWERT: DISKRETE MODELLE
39
Die Definition des Erwartungswerts wurde zunächst nur für diskrete ZV
mit endlich vielen oder ausschließlich positiven Werten eingeführt. Im letzten
Fall war auch der Wert 00 + ∞“ möglich. Für den allgemeinen Fall zerlegt man
die auftretenden unendlichen Reihen in Positiv- und Negativteil und stellt die
Bedingung, dass nicht beide Summen unendlich sind.
Definition 6.6 (a) Der Positivteil einer reellen Zahl a ist
0, a ≤ 0
a+ := max(0, a) =
a, a ≥ 0.
Entsprechend ist das Negativteil von a
−
+
a := (−a) = max(0, −a) =
|a|, a ≤ 0
0,
a ≥ 0.
Es gilt also: a− ≥ 0 und a = a+ − a− , |a| = a+ + a− .
(b) Für eine reellwertige Abbildung f definiert man entsprechend f + und f −
durch f + (y) = (f (y))+ , f − (y) = (f (y))− . Also ist auch für eine ZV
X : Ω → Ω0 ⊂ R der Positivteil X + und der Negativteil X − erklärt, und es gilt
X = X + + X −.
Definition 6.7 Es sei X : Ω → Ω0 ⊂ R eine diskrete ZV mit Träger T ⊂ Ω0
(meist T = Ω0 ) und Z-Dichte f X (k), k ∈ T . Dann heißt
X
X
EX :=
k · P (X = k) =
k · f X (k)
(6.3)
k∈T
k∈T
X
der Erwartungswert von X (oder von P ), falls die positive oder die negative
Teilsumme (oder beide) endlich sind, d.h. falls
X
X
EX + =
k · f X (k) < ∞ oder EX − =
|k| · f X (k) < ∞. (6.4)
k∈T,k>0
k∈T,k<0
Der Wert von EX ist dann EX = EX + − EX − , unabhängig von der Summationsreihenfolge und man sagt: “EX existiert”. Falls EX + < ∞ und EX − < ∞
heißt X integrierbar.
Satz 6.1 Die folgenden Gleichungen gelten unter der Voraussetzung, dass die
entsprechenden Summen existieren. Dabei zieht die Existenz einer der beiden
Seiten immer die der anderen nach sich.
(a) Ist X : Ω → Ω0 ⊂ R eine diskrete ZV, sind Ω, Ω0 abzählbar und ist f
eine Z-Dichte von P , dann gilt
X
X
EX :=
k · P (X = k) =
X(ω)f (ω).
(6.5)
k∈Ω0
ω∈Ω
0
(b) Ist X : Ω → Ω ⊂ R eine diskrete ZV, g : Ω0 → Ω00 eine Abbildung und
sind Ω0 , Ω00 abzählbar, dann gilt
X
X
Eg(X) :=
m · P (g(X) = m) =
g(k) · P (X = k).
(6.6)
m∈Ω00
k∈Ω0
40
KAPITEL 6. KENNGRÖSSEN
(c) Sind X : Ω → Ω01 , Y : Ω → Ω02 diskrete ZV, h : Ω01 × Ω02 → Ω00 ⊂ R eine
Abbildung und sind Ω01 , Ω02 , Ω00 abzählbar, dann gilt
X X
X
m · P (h(X, Y ) = m) =
h(k, l) · P (X = k, Y = l).
Eh(X, Y ) :=
k∈Ω01 l∈Ω02
m∈Ω00
(6.7)
Satz 6.2 Es seien X, Y, X1 , . . . , Xn reellwertige ZV.
(a) Gilt P (X = a) = 1, d.h. ist X (“fast sicher”) konstant, dann besitzt X
die Einpunktverteilung εa und es ist EX = a.
(b) Der Erwartungswert ist monoton: Aus X ≤ Y folgt EX ≤ EY , falls
EX, EY existieren. Speziell ergibt sich aus a ≤ X ≤ b auch a ≤ EX ≤ b.
(c) Der Erwartungswert ist linear: Existiert EX, dann existiert auch
E(a + bX) für a, b ∈ R und es gilt
E(a + bX) = a + b · EX.
(6.8)
(d1) Existieren EX und EY und ist EX + EY definiert (z.B. nicht ∞ − ∞),
dann existiert auch E(X + Y ) und es gilt
E(X + Y ) = EX + EY.
(6.9)
(d2) Unter entsprechenden Voraussetzungen (alle EXi existieren, alle EXi 6=
±∞) gilt
n
n
X
X
E(
Xi =
EXi .
(6.10)
i=1
i=1
(e) Sind X, Y stochastisch unabhängig, existieren EX und EY und sind
beide endlich, dann existiert EXY := E(XY ) und es gilt
EXY = EX · EY.
(6.11)
Folgerung 6.2 Ist X : Ω → Ω0 ⊂ R eine reellwertige ZV, so gilt für die ZV
|X| (= X + + X − )
(a)
(b)
(c)
6.4
E|X| = EX + + EX −
EX existiert =⇒ |EX| ≤ E|X|,
X ist integrierbar ⇔ E|X| < ∞.
(6.12)
(6.13)
(6.14)
Erwartungswert: stetige und gemischte Modelle
Definition 6.8 Es sei X : Ω → R eine (reellwertige) ZV mit R-Dichte f X .
Dann heißt
Z +∞
EX :=
xf X (x)dx
(6.15)
−∞
6.4. ERWARTUNGSWERT: STETIGE UND GEMISCHTE MODELLE
41
der Erwartungswert von X (oder von P X ), falls
EX + =
Z
∞
xf X (x)dx < ∞ oder EX − =
Z
0
|x|f X (x)dx < ∞.
(6.16)
−∞
0
Man sagt dann “EX existiert”, und es gilt EX = EX + −EX − . Falls EX + < ∞
und EX − < ∞, dann heißt X integrierbar.
Bemerkung. Im Allgemeinen besitzt X + = max(X, 0) selber keine R+
Dichte, da P X ({0}) = P (X ≤ 0) positiv sein kann. Dass die Ausdrücke in
(6.16) tatsächlich den Erwartungwerten entsprechen, wird im Folgenden erläutert.
Definition 6.9 Es sei X : Ω → R eine ZV mit gemischter Verteilung P X =
αd PdX + αs PsX . Dabei ist PdX eine diskrete Verteilung, PsX eine Verteilung mit
R-Dichte, αd ∈ [0, 1] und αs = 1 − αd . Existieren dann die Erwartungswerte
Ed X von PdX und Es X von PsX , dann sei
EX := αs Ed X + αs Es X
(6.17)
der Erwartungswert von X (bzw. von P X ).
Folgerung 6.3 Für eine reellwertige ZV X : Ω → R mit VF F X lassen sich
der Positiv- und der Negativteil des Erwartungswerts darstellen als
EX + =
Z
∞
[1 − F X (x)]dx,
EX − =
Z
0
F X (x)dx.
(6.18)
−∞
0
Folgerung 6.4 (a) Die in Satz 6.2 zusammengestellten Eigenschaften des Erwartungswerts gelten auch im allgemeinen Fall, also insbesondere die Monotonie
und die Linearität, ebenso auch die Eigenschaften aus Folgerung 6.2.
(b) Die im Satz 6.1 im diskreten Fall angegebenen Darstellungen von Eg(x)
und Eh(X, Y ) müssen für ZV X, Y umgeschrieben werden, indem man die Summen durch entsprechende Integrale ersetzt. Die Existenz kann auf der rechten
oder linken Seite nachgeprüft werden.
(b1) Besitzt X : Ω → R die R-Dichte f X und ist g : R → R eine Rintegrierbare Abbildung, dann gilt
Z ∞
Eg(X) =
g(x)f X (x)dx.
(6.19)
−∞
(b2) Besitzen die ZV X : Ω → R und Y : Ω → R die gemeinsame R-Dichte
f (X,Y ) , ist h eine Abbildung von R2 → R und h · f (X,Y ) R-integrierbar, dann
gilt
Z ∞Z ∞
Eh(X, Y ) =
h(x, y)f (X,Y ) dxdy.
(6.20)
−∞
−∞
42
KAPITEL 6. KENNGRÖSSEN
Folgerung 6.5 Erwartungswerte der wichtigsten stetigen Verteilungen:
1
1(a,b) (x),,
(a) Rechteck-Verteilung: R(a, b),
f X (x) = b−a
X
(b) Exponential-Vert.:
Exp(α),
f (x) = αe−αx 1(0,∞) (x),
αν
(c) Gamma-Verteilung:
Γα,ν ,
f X (x) = Γ(ν)
xν−1 e−αx 1(0,∞) (x),
6.5
(d) Beta-Verteilung:
Be(µ, ν),
f X (x) =
(e) Normal-Verteilung:
(f) Cauchy-Verteilung:
N (a, σ 2 ),
C(α),
f X (x) =
f X (x) =
Γ(µ+ν) µ−1
(1 − x)ν−1 ,
Γ(µ)Γ(ν) x
2
2
1
√1 e− 2 (x−a) /σ ,
2π
1
α
π α2 +x2 ,
Streuung und Varianz
Definition 6.10 Ist X : Ω → Ω0 ⊂ R eine ZV mit endlichem Erwartungswert,
dann heißen
VarX
und StrX
:= E(X − EX)2 = EX 2 − (EX)2
p
√
:=
E(X − EX)2 = VarX
(6.21)
(6.22)
die Varianz und die Streuung von X.
Satz 6.3 (a) Eine Verschiebung hat keinen Einfluss auf die Varianz und die
Streuung:
Var(X + a) = VarX, Str(X + a) = StrX.
(6.23)
(b) Ein Faktor verändert die Varianz quadratisch, die Streuung proportional
mit dem Betrag des Faktors:
Var(bX) = b2 VarX, Str(bX) = |b| · StrX.
(6.24)
Aus (a) und (b) ergibt sich also, dass bei einer linearen Transformation nur der
Faktor eine Rolle spielt:
Var(a + bX) = b2 VarX, Str(a + bX) = |b| · StrX.
(6.25)
(c) Eine oft nützliche Formel ist
E(X −a)2 = VarX +(EX −a)2 , speziell (a = 0) EX 2 = VarX +(EX)2 . (6.26)
Der Wert von E(X − a)2 wird minimal für a = EX.
(d) Konstante ZV besitzen die Streuung 0:
StrX = 0 ⇔ VarX = 0 ⇔ P (X = EX) = 1.
(e) “Varianz einer Summe = Summe der Varianzen” gilt bei stochastisch
unabhängigen ZV:
X, Y seien st.u. ⇒ Var(X + Y ) = VarX + VarY.
(6.27)
EX = a+b
2 ,
EX = 1/α,
EX = ν/α,
EX =
µ
µ+ν ,
EX = a,
EX existiert nicht.
6.6. KOVARIANZ
43
Folgerung 6.6 1. Die Varianz der wichtigsten diskreten Verteilungen:
(a)
(b)
(c)
(d)
(e)
L({1, . . . , N }):
εa :
B(p):
B(n, p):
H(N, K, n):
VarX = (N 2 − 1)/12,
VarX = 0,
VarX1 = p(1 − p),
VarSn = np(1 − p),
N N −K N −n
VarZn = n K
N N −1 ,
(f ) π(λ):
(g) Geo+ (p) :
Geo0 (p) :
(h) Nb+ (r, p) :
Nb0 (r, p) :
VarX = λ,
VarW1 = (1 − p)/p2 ,
Var(W1 − 1) = (1 − p)/p2 ,
VarWr = r(1 − p)/p2 ,
Var(Wr − r) = r(1 − p)/p2 .
2. Die Varianz der wichtigsten stetigen Verteilungen:
(a) R(a, b):
(b) Exp(α):
(c) Γα,ν :
6.6
VarX = (b − a)2 /12,
VarX = 1/α2 ,
VarX = ν/α2 ,
(d) χ2n = Γ 21 , n2 :
(e) N (0, 1) :
(f ) N (a, σ 2 ) :
VarX = 2n,
VarX = 1,
VarX = σ 2 .
Kovarianz
Im Folgenden setzen wir EX 2 , EY 2 < ∞ voraus. Die Existenz und Endlichkeit
der Erwartungswerte EXY, EX und EY folgt dann aus |XY | < max(X 2 , Y 2 ) ≤
X 2 + Y 2 bzw. |X| ≤ X 2 + 1 (setze Y = 1). Damit sind auch VarX und VarY
definiert und endlich.
Definition 6.11 Für die ZV X : Ω → R und Y : Ω → R mit EX 2 , EY 2 < ∞
heißt
Kov(X, Y ) := EXY − EX · EY = E[(X − EX)(Y − EY )]
(6.28)
die Kovarianz von X und Y . Die normierte Kovarianz
korr(X, Y ) :=
Kov(X, Y )
StrX · StrY
(6.29)
heißt Korrelationskoeffizient von X und Y , falls StrX 6= 0 und StrY 6= 0,
andernfalls sei korr(X, Y ) := 0 (weil dann auch Kov(X, Y ) = 0 gilt).
Folgerung 6.7 X und Y seien reellwertige ZV mit EX 2 , EY 2 < ∞. Dann gilt:
(a) Kov(X, X) =VarX, Kov(X + Y ) = Kov(Y, X).
(b) Var(X + Y ) =VarX+VarY + 2Kov(X, Y ).
Entsprechend gilt für ZV Xi : Ω → R mit EXi2 < ∞, i = 1, . . . , n,
Var
n
X
i=1
Xi =
n
X
i=1
VarXi + 2
X
Kov(Xi , Xj )
i<j
.
(c) Sind X und Y stochastisch unabhängig, dann gilt Kov(X, Y ) = 0. Die
Umkehrung gilt im Allgemeinen nicht. Ausnahme: X, Y sind gemeinsam normalverteilt.
44
KAPITEL 6. KENNGRÖSSEN
Folgerung 6.8 Für die ZV X : Ω → R und Y : Ω → R gelte EX 2 , EY 2 < ∞
und VarX 6= 0, VarY 6= 0. Dann ergibt sich
(a) Die mittlere quadratische Abweichung zwischen den ZV Y und a + bX
ist minimal, wenn
b = korr(X, Y )
StrY
und a = EY − bEX.
StrX
Der Minimalwert ist dann Var[1 − (korr(X, Y ))2 ].
(b) Es gilt stets
−1 ≤ korr(X, Y ) ≤ 1.
(6.30)
(6.31)
(c) Es gilt korr(X, Y ) = ±1 genau dann, wenn Y = a + bX (mit Wahrscheinlichkeit 1). Die Vorzeichen von b und korr(X, Y ) stimmen dann überein.
6.7
Mehrdimensionale Normalverteilung
Ein Spezialfall der mehrdimensionalen Normalverteilung, die Standard-Normalverteilung
in Rn wurde in Definition 4.4 eingeführt, als unabhängige Kopplung von n eindimensionalen Standard-Normalverteilungen. Die entsprechende R-Dichte ist gegeben durch:
n
n
2
2
1
1 T
1
1
e− 2 (x1 +···+xn ) = √
e− 2 x x
(6.32)
f X (x1 , . . . , xn ) = √
2π
2π
mit x = (x1 , . . . , xn )T ∈ Rn .
Sei X eine standard-normalverteilte, Rn -wertige ZV und Y = a+AX für a ∈
n
R und A eine invertierbare Matrix. Wir führen also eine lineare Transformation
von X durch. Es gilt somit
Yi = ai + ai1 X1 + · · · + ain Xn , i = 1, . . . , n.
(6.33)
Wegen EXi = 0 impliziert die Linearität des Erwartungswertes EYi = ai für
alle i, also kurz EY = a.
Wegen EXi2 = 1 und EXi Xj = 0 für i 6= j (Unabhängigkeit) ergibt sich
! n
!
n
n
X
X
X
Kov(Xi , Xj ) = E(Yi −EYi )(Yj −EYj ) = E
aik Xk
ajl Xl =
aik ajk .
k=1
l=1
k=1
(6.34)
Fasst man die Kovarianzen zu einer Matrix zusammen: K = (kij ) := (Kov(Yi , Yj )),
dann gilt K = AAT .
Die Matrix K ist also symmetrisch, positiv definit und es gilt detK =detAdetAT =
(detA)2 . Durch die mehrdimensionale Transformationsformel erhält man die RDichte f Y (y) der ZV Y , welche in folgende Definition zusammengefasst wird:
Definition 6.12 Das W-Maß über (Rn , B n ) definiert mit a ∈ Rn und einer
symmetrischen und positiv definiten n × n-Matrix K durch die R-Dichte
n
T
−1
1
1
1
Y
√
f (y) = √
e− 2 (y−a) K (y−a) , y ∈ Rn ,
(6.35)
2π
detK
6.8. ZUFÄLLIGE SUMMEN UND BEDINGTE ERWARTUNGSWERTE 45
heißt n-dimensionale Normalverteilung und wird mit N (a, K) bezeichnet. a ist
dabei der Erwartungswert und K die Kovarianzmatrix. Die n-dimensionale
Standard-Normalverteilung ist also N (0, En ).
Die mehrdimensionale Normalverteilung besitzt folgende Eigenschaften:
Folgerung 6.9 (a) Ist die ZV X N (0, EN )-verteilt und ist Y := a + AX
mit a ∈ Rn und einer regulären n × n Matrix A, dann ist Y N (a, AAT )verteilt. Umgekehrt gibt es zu jeder N (a, K)-verteilten ZV Y eine Darstellung
Y = a + AX mit einer regulären unteren Dreiecksmatrix A und K = AAT ,
sowie N (0, EN )-verteiltem X.
(b) Ist die ZV Y N (a, K)-verteilt und ist Z := b + BY mit b ∈ Rn und
einer regulären n × n-Matrix B, dann ist Z N (b + Ba, BKBT )-verteilt.
(c) Alle Randverteilungen von n-dimensionalen Normalverteilungen (auch kdimensionale mit k < n) sind wieder Normalverteilungen. Die Parameter ai und
kij bleiben für die nicht-wegfallenden Koordinaten unverändert. Insbesondere
besitzen bei einer N (a, K)-verteilten ZV Y die Komponenten Yi eine N (ai , kii )Verteilung.
(d) Die ZV Y1 , . . . Yn sind genau dann stochastisch unabhängig und Yi N (ai , σi2 )verteilt, wenn Y := (Y1 , . . . Yn ) N (a, K)-verteilt ist mit a = (a1 , . . . , an )T und
der Diagonalmatrix K = (kij ) mit kii = σi2 . (Wenn K eine Diagonalmatrix ist,
dann sind alle Kovarianzen Kov(Yi , Yj ) = 0 für i 6= j.
6.8
Zufällige Summen und bedingte Erwartungswerte
In verschiedenen Anwendungen treten Summen von ZV mit einer zufälligen Anzahl von Summanden auf. Gesucht sind die Erwartungswerte oder Verteilungen
dieser Summen, die hier “zufällige Summen” genannt werden.
Beispiele
1. Der jährliche Gesamtschaden aus einer bestimmten Anzahl von Versicherungsverträgen setzt sich zusammen aus einer zufälliger Anzahl Y von
Schäden, bei denen die Schadenhöhen X1 , X2 , . . . XY ebenfalls zufällig
sind. Man möchte den Erwartungswert und die Streuung des Gesamtschadens bestimmen.
2. Ein Kunde kommt an einen Bankschalter und trifft dort eine zufällige
Anzahl weiterer Kunden an, die vor ihm bedient werden sollen. Die Verweilzeit des Kunden am Schalter ist damit eine zufällige Summe von Bedienzeiten.
Eine zufällige Summe kann man somit schreiben als
S=
Y
X
i=1
Y (ω)
Xi oder ω 7→ S(ω) =
X
i=1
Xi (ω).
(6.36)
46
KAPITEL 6. KENNGRÖSSEN
Falls also die ZV Y den Wert
PnY (ω) = n annimmt, stimmt S(ω) mit der
gewöhnlichen Summe Sn (ω) = i=1 Xi (ω)Püberein. Für Y (ω) = 0 sei S(ω) = 0
∞
(leere Summe). Aus der Darstellung S = i=1 Xi · 1{i,i+1,... } (Y ) folgt, dass S
eine messbare Abbildung, also eine ZV ist.
Im Folgenden wird angenommen, dass alle Summanden Xi dieselbe Verteilung besitzen und sowohl untereinander, als auch von der Anzahl Y der Summanden stochastisch unabhängig sind.
Definition 6.13 Es sei Y eine ZV mit Werten in N0 , X1 , X2 , . . . seien reellwertige ZV, identisch verteilt
PY und stochastisch unabhängig, auch von Y . Dann
nennen wir die ZV S =
i=1 Xi mit zufälliger oberer Grenze eine zufällige
Summe.
PY
Satz 6.4 Für die zufällige Summe S = i=1 Xi gilt, falls EY und EXi endlich
sind:
ES
Var S
= EY · EX1 ,
= EY · Var X1 + Var Y · (EX1 )2 .
(6.37)
Bemerkung: Die Formel für den Erwartungswert entspricht der Intuition:
mittlere Anzahl mal mittlere Größe der Summanden.
Um ES zu berechnen, zerlegt man das Ereignis {S = k} nach allen möglichen
Werten von Y , d.h. nach {Y = n}, n = 0, 1, 2, . . . . Nach der Formel der Totalen
Wahrscheinlichkeit erhält man somit
ES
=
=
X
k
∞
X
n=0
k · P (S = k) =
X
k·
k
P (Y = n) ·
X
∞
X
P (Y = n) · P (S = k|Y = n)
n=0
k · P (S = k|Y = n)
k
Die innere Summe stellt den sogenannten “bedingten Erwartunsgwert” dar:
Definition 6.14 Sind S : Ω → Ω0 ⊂ R und Y : Ω → Ω00 diskrete ZV und
existiert der Erwartungswert ES, dann heißt
X
E(S|Y = n) :=
k · P (S = k|Y = n)
(6.38)
k∈Ω0
der bedingte Erwartungswert von S unter Y = n und es gilt die Formel vom
iterierten Erwartungswert:
X
ES =
P (Y = n) · E(S|Y = n).
(6.39)
n∈Ω00
(Falls ES existiert, dann existiert auch E(S|Y = n). Entsprechend heißt, falls
E(S|Y = n) endlich ist,
Var (S|Y = n) := E(S 2 |Y = n) − [E(S|Y = n)]2
(6.40)
6.9. GESETZE DER GROSSEN ZAHLEN UND ZENTRALER GRENZWERTSATZ47
die bedingte Varianz von S unter Y = n und es gilt
X
P (Y = n) · E(S 2 |Y = n) − (ES)2 .
Var S =
(6.41)
n∈Ω00
Bemerkungen.
1. Mit g(n) := E(S|Y = n) kann man die Formel (6.39) auch als
X
ES =
g(n) · P (Y = n) = Eg(Y )
n∈Ω00
schreiben. g(Y ) ist eine ZV die man auch als E(S|Y ) bezeichnet und welche
nur noch den von Y stammenden Teil der Zufälligkeit von S besitzt (über
den von den Xi stammenden Teil der Zufälligkeit wird dabei gemittelt).
2. Die Bedingung Y = n gehört stets zum Erwartungs- bzw. Varianzoperator,
es gibt keine “bedingte ZV”, z.B. “S|Y = n”.
Berechnen
Pn wir nun den Erwartungswert der zufälligen Summe aus Satz 6.4.
Sei Sn = i=1 Xi . Nach der Formel der bedingten Wahrscheinlichkeit, unter
Berücksichtigung der Unabhängigkeit der ZV, gilt:
P (S = k|Y = n)
P (S = k, Y = n)
P (Sn = k, Y = n)
P (Sn = k)P (Y = n)
=
=
P (Y = n)
P (Y = n)
P (Y = n)
= P (Sn = k).
=
Eingesetzt in (6.38) ergibt sich
E(S|Y = n) =
X
k
k · P (Sn = k) = ESn =
n
X
EXi = n · EX1 .
i=1
Nach erneutem Einsetzen in (6.39) folgt
X
ES =
P (Y = n) · n · EX1 = EY · EX1 .
n
Die Formel für die Varianz der zufäligen Summe beweist man analog.
6.9
Gesetze der großen Zahlen und Zentraler
Grenzwertsatz
Bei der Durchführung einer sehr großen Anzahl von Wiederholungen eines Zufallsexperiments, z.B. Münzwurf, erwartet man dass die relativen Häufigkeiten
der Ergebnisse gegen die entsprechenden (berechneten) Wahrscheinlichkeiten
konvergieren. Sei A ein solches Ereignis mit Wahrscheinlichkeit P (A) und Xi = 1
falls A im i-ten Versuch eintritt und Xi = 0 sonst. Dann ist
EXi = 0 · P (Xi = 0) + 1 · P (Xi = 1) = P (Xi = 1) = P (A).
48
KAPITEL 6. KENNGRÖSSEN
Bei n Wiederholungen des ZufallsexperimentsP
mit Ausgängen Xi , i = 1, . . . , n
n
“erwartet” man dass der arithmetische Mittel n1 i=1 Xi den gemeinsamen Erwartungswert EX1 approximiert (alle ZV Xi sind identisch verteilt).
Im Folgenden werden diese Eigenschaften genauer präzisiert und verschiedene Konvergenzbegriffe eingeführt.
Definition 6.15 Es seien Y und Y1 , Y2 , . . . ZV über (Ω, A, P ) mit Werten in
R.
f.s.
(a) Yn konvergiert fast sicher gegen Y , kurz Yn → Y , wenn
P ({ω ∈ Ω : lim Yn (ω) = Y (ω)}) = 1,
n→∞
d.h. wenn höchstens innerhalb einer Ausnahmemenge N ∈ A mit P (N ) = 0 der
Grenzwert limn→∞ Yn (ω) nicht existiert oder 6= Y (ω) ist.
st
(b) Yn konvergiert stochastisch gegen Y , kurz Yn → Y , wenn
lim P (|Yn − Y | ≥ ε) = 0 für alle ε > 0,
n→∞
d.h. für festes ε > 0 und für jedes n darf es eine Ausnahmemenge Mn geben,
auf der |Yn − Y | > ε gilt, aber mit P (Mn ) → 0 für große n.
(r)
(c) Yn konvergiert im r-ten Mittel gegen Y , kurz Yn → Y , mit 1 ≤ r < ∞,
wenn
E|Yn − Y |r → 0.
Für r = 1 sagt man auch “konvergiert im Mittel”, für r = 2 “im quadratischen
Mittel”.
V
(d) Yn konvergiert nach Verteilung gegen Y , kurz Yn → Y , wenn
F Yn (x) → F Y (x) für alle x mit F Y stetig im Punkt x.
Bemerkungen
• Die Einschränkung “F Y stetig im Punkt x” ist nötig, wie man im folgenden Beispiel sehen kann. Sei Yn eine Folge von N (0, 1/n2 )-verteilten
ZV. Da die Streuung um den Mittelwert 0 immer kleiner wird (konvergent
gegen 0), erwartet man als Grenzwert der Folge (Yn ) (im geeigneten Sinn)
die konstante ZV Y = 0. Aber F Yn (y) = Φ(ny) konvergiert an der Stelle
y = 0 gegen Φ(0) = 0.5 6= F Y (0) = 1 (und 6= F Y (0−) = 0).
• Es gelten die Implikationen:
f.s.
st
V
Yn → Y =⇒ Yn → Y =⇒ Yn → Y ,
(r 0 )
(r)
st
Für 1 ≤ r ≤ r0 gilt: Yn → Y =⇒ Yn → Y =⇒ Yn → Y .
Die letzte Implikation ergibt sich aus dem folgenden Satz:
6.9. GESETZE DER GROSSEN ZAHLEN UND ZENTRALER GRENZWERTSATZ49
Satz 6.5 Für jede ZV Y : Ω → R und r ≥ 1, ε > 0 gilt:
P (|Y | > ε) ≤
E|Y |r
,
εr
genannt auch Chebychev-Markov-Ungleichung. Existiert EY 2 , so gilt für r = 2
P (|Y − EY | ≥ ε) ≤
Var Y
.
ε2
Definition 6.16 Man sagt: Für die ZV X1 , X2 , . . . mit EX
i < ∞ gilt das
P
n
starke bzw. das schwache Gesetz der großen Zahlen, wenn n1 i=1 (Xi − EXi )
fast sicher bzw. stochastisch gegen 0 konvergiert. Wenn die Xi identisch verteilt
sind, dann gilt
n
n
1X
1X
f.s.
st
Xi → EX1 bzw.
Xi → EX1 .
n i=1
n i=1
Satz 6.6 (Gesetze der großen Zahlen)
Seien X1 , X2 , . . . identisch verteilt mit VarXi < ∞.
(a) Sind die Xi auch stochastisch unabhängig, dann gilt das starke Gesetz
der großen Zahlen (und damit das schwache).
(b) Sind die Xi nur paarweise unkorreliert, d.h. Kov(Xi , Xj ) = 0 für alle
i 6= j, dann gilt das schwache Gesetz der großen Zahlen.
Aus den Eigenschaften der Normalverteilungen ist folgendes bekannt: Wenn
X −a
X ∼ N (a, σ 2 ) dann gilt
=: Y ∼ N (0, 1) (Standard-Normalverteilung).
σ
Pn
Dies gilt analog für Summen von ZV, allerdings nur approximativ. Sn = i=1 Xi
bezeichne die Summe der stochastisch unabhängigen, identischverteilten ZV Xi .
Dann gilt der zentrale Grenzwertsatz:
Satz 6.7 (Zentraler Grenzwertsatz)
Sind die ZV X1 , X2 , . . . stochastisch unabhängig und identisch verteilt mit
endlicher Streuung, dann konvergieren die “standardisierten” Teilsummen nach
Verteilung gegen eine N (0, 1)-verteilte ZV Y , d.h.:
Pn
Xi − n · EX1 V
Sn − ESn
= i=1√
−→ Y mit P Y = N (0, 1).
(6.42)
StrSn
n StrX1