Skript

Werbung
Mathematik 3 für Informatiker
Flavius Guiaş
Email: [email protected]
Universität Duisburg-Essen, Sommersemester 2007
2
Empfohlene Literatur:
G. Hübner: Stochastik - Eine anwendungsorientierte Einführung für Informatiker, Ingenieure und Mathematiker, 4. Auflage, Vieweg, 2003
Kapitel 1
Einführung
“Stochastik”: Beschreibung und Untersuchung von Vorgängen und Ereignissen
aus allen Lebensbereichen, die zufällig oder vom Zufall beeinflusst, im Sinne von
“nicht vorhersagbar” oder “nicht exakt vorhersagbar”.
1.1
Beschreibende Statistik
-Auswertung von zufälligen Daten
Definition 1.1 Die aus einer Beobachtung oder Messung aufgezeichneten Daten nennen wir einen Datensatz. Ist der Datensatz aufgrund einer gezielten
Teil-Erhebung entstanden, sprechen wir auch von einer Stichprobe.
Bezeichnung: x := (x1 , x2 , . . . xn ).
Statistik: Komprimierung und/oder tabellarische bzw. grafische Darstellung
der Daten.
Ordnungsstatistik: der geordnete Datensatz x[ ] := (x[1] , x[2] , . . . x[n] ).
Definition 1.2 (a) Der Mittelwert x̄ (oder x̄n ) eines Datensatzes x wird defin
1X
niert durch x̄ =
xi .
n i=1
(b) Der Median x̃ von x ist beim ungeraden n x̃ = x[ n+1 ] , bei geradem n
2
1
n
n
x̃ = (x[ 2 ] + x[ 2 +1] ).
2
Ein erstes Maß für die Schwankung innerhalb eines Datensatzes sind die
Prozentpunkte oder Quantile.
Definition 1.3 Der p% Punkt (das p%-Quantil) up% eines Datensatzes hat die
Eigenschaft, dass links (bzw. rechts) von up% höchstens p% (bzw. (100 − p)%)
der Daten liegen. Ggf. wählt man die Mitte zwischen zwei Werten.
3
4
KAPITEL 1. EINFÜHRUNG
Meistens benutzt man ein Paar von Quantilen (up% , u(100−p)% ) um ein Bereich anzugeben, in dem der Anteil (100 − 2p)% der Werte liegen.
Die 25%-75% -Punkte heißen untere/obere Quartile. In dem Bereich (u25% , u75% )
liegen also 50% der Werte.
Definition 1.4 Die Streuung (Standardabweichung) sx eines Datensatzes x =
(x1 , x2 , . . . xn ) ist die quadratische gemittelte Abweichung der xi von x̄, also:
v
u n
u1 X
(xi − x̄)2 .
sx = t
n i=1
Andere Bezeichnungen: sn , σn .
Durch Umformung erhält man auch die Formel:
v
!
u
n
u1 X
sx = t
x2 − nx̄2 .
n i=1 i
Für 2-dimensionale Datensätze z = ((x1 , y1 ), (x2 , y2 ), . . . , (xn , yn )) für welche man einen linearen Zusammenhang yi ≈ a + bxi vermutet, sucht man eine
Regressionsgerade.
Satz 1.1 (Lineare Regression) Für einen 2-dimensionalen Datensatz z mit
sx 6= 0, minimiert dieP
Regressionsgerade y = a∗ + b∗P
x mit a∗ = ȳ − b∗ x̄, b∗ =
n
n
1
2
sxy /sx und sxy = n ( i=1 xi yi − nx̄ȳ) die Summe i=1 (yi − (a + bxi ))2 der
y-Abstandsquadrate.
Kapitel 2
WahrscheinlichkeitsModelle
2.1
Die Modell-Bausteine
Beispiel 2.1
Von einem Terminal soll ein Auftrag an den Zentralrechner abgeschickt werden. Die Antwortzeit soll modelliert werden, ohne dass Informationen über die
momentane Auslastung des Zentralrechners vorliegen.
Definition 2.1 Ein Zufalls-Experiment ist ein Vorgang, der ein genau abzugrenzendes Ergebnis besitzt, das vom Zufall beeinflusst ist.
Ein mathematisches Modell dafür soll nur die unbedingt nötigen Angaben
enthalten. Dabei sollen folgende Aspekte berücksichtigt werden:
1. Aspekt: mögliche Ergebnisse (Beobachtungen)
2. Aspekt: mögliche Fragestellungen
3. Aspekt: zugehörige Wahrscheinlichkeiten
Es werden dazu drei Bausteine benötigt:
1. Baustein: Merkmalraum Ω
2. Baustein: Ereignissystem A
3. Baustein: Wahrscheinlichkeit P
5
6
2.2
KAPITEL 2. WAHRSCHEINLICHKEITS-MODELLE
Der Merkmalraum Ω
Im Beispiel 2.1kann man z.B. Ω = {1, 2, 3, . . . , 120} nehmen, wobei dem Element
ω = i die Bedeutung “Antwortzeit beträgt ≤ i Sekunden”, zugewiesen wird.
Ausnahme: ω = 120 bedeutet: “Antwortzeit ≥ 119 Sekunden”. Durch diese
Erläuterungen wird somit auch eine Modellierungszuordnung eingeführt.
Definition 2.2 Der Merkmalraum Ω (Stichprobenraum, Grundmenge) ist eine nicht-leere Menge mit Elementen ω ∈ Ω, welche die möglichen Ausgänge
(Ergebnisse) des Zufalls-Experiments angibt.
Beispiel 2.2
Wählen eines Telefonnummers: Ω = {“belegt00 , “f rei00 } oder Ω = {0, 1} mit der
Zuordnung: 0 =00 belegt00 , 1 =00 f rei00 .
Beispiel 2.3
Anzahl der Anrufe bei einer bestimmten Telefonnummer zwischen 8-9 Uhr. z.B.
Ω = N0 = {0, 1, 2, . . . } oder Ω = {0, 1, 2 . . . 100} wobei ω = 100: “100 Anrufe
oder mehr” bedeutet.
Wie man in diesem Beispiel sieht (die erste Möglichkeit), wählt man manchmal Ω größer als nötig. Die in der Realität nicht auftretenden Werte erhalten
dann die Wahrscheinlichkeit 0.
2.3
Zusammengesetzte Merkmale
Beispiel 2.4
Überprüfung eines Bauteils mit drei Funktionen, jeweils “intakt” (1) oder “defekt” (0). Ω = {(0, 0, 0), (0, 0, 1), . . . (1, 1, 1)}, also Ω = {0, 1} × {0, 1} × {0, 1} =
{0, 1}3 (kartesisches Produkt).
Definition 2.3 Das kartesische Produkt (Kreuzprodukt) Ω1 × Ω2 × · · · × Ωn der
Mengen Ω1 , Ω2 , . . . , Ωn ist die Menge Ω = {(ω1 , ω2 , . . . ωn ) | ωi ∈ Ωi }.
Bezeichnung: ×ni=1 Ωi .
Falls Ωi = Ω, ∀i : Ωn .
2.4
Ereignisse
Im Beispiel 2.1 wird meist nicht gefragt, ob die Antwortzeit z.B. genau 10 Sekunden beträgt, sondern ob die Antwort innerhalb von höchtens 10 Sekunden
erfolgt.
Definition 2.4 Ein Ereignis A ist eine Teilmenge A ⊆ Ω. “A tritt ein” ⇔ es
wird ein Merkmal ω mit ω ∈ A beobachtet.
2.4. EREIGNISSE
7
Im Beispiel 2.1: A = {1, 2, . . . 10}. Falls ω = 5 gilt ω ∈ A, also A tritt ein
(Antwortzeit in ≤ 10 Sekunden).
Nicht immer sind alle Teilmengen A ⊂ Ω als Ereignisse sinnvoll. Deswegen
erfolgt eine Auswahl gewisser Teilmengen (Ereignis-System A).
Besondere Ereignisse:
A = ∅: unmögliches Ereignis, weil ω ∈ ∅ nie eintritt.
A = Ω: tritt immer ein.
A = {ω} für ω ∈ Ω: Elementar-Ereignis.
Ein Ereignis-System A ⊆ P(Ω) (Potenzmenge von Ω, d.h. Gesamtheit aller
Teilmengen) erfüllt also die Eigenschaften: Für A, B ∈ A gilt:
“A oder B oder beide”
entspricht ω ∈ A ∪ B
“A und B”
entspricht ω ∈ A ∩ B
“A, B treten nie gleichzeitig ein” entspricht A ∩ B = ∅
“A tritt nicht ein”
entspricht ω ∈ Ac ⇔ ω ∈
/A
“A tritt ein, B jedoch nicht”
entspricht ω ∈ A \ B = A ∩ B c
“mindestens ein Ai tritt ein”
entspricht ω ∈ ∪∞
i=1 Ai
“alle Ai treten ein”
entspricht ω ∈ ∩∞
i=1 Ai
Die letzten beiden Eigenschaften gelten natürlich auch für endlich viele Ai .
Falls P
A, B disjunkt (A ∩ B = ∅), schreiben wir auch A + B statt A ∪ B.
∞
∞
Analog
i=1 Ai statt ∪i=1 Ai . Die Verwendung dieser Bezeichnung bedeutet
also implizit dass die Mengen paarweise disjunkt sind.
“A oder B tritt ein, aber nicht beide” entspricht also ω ∈ A∆B = A ∩ B c + Ac ∩ B.
Rechenregeln mit Mengen:
A∪B =B∪A
A∩B =B∩A
(A ∪ B) ∪ C = A ∪ (B ∪ C) = A ∪ B ∪ C
(A ∩ B) ∩ C = A ∩ (B ∩ C) = A ∩ B ∩ C
A ∪ (B ∩ C) = (A ∪ B) ∩ (A ∪ C)
A ∩ (B ∪ C) = (A ∩ B) ∪ (A ∩ C)
Regeln von de Morgan:
(A ∪ B)c = Ac ∩ B c bzw. (∪i∈I Ai )c = ∩i∈I Aci
(A ∩ B)c = Ac ∪ B c bzw. (∩i∈I Ai )c = ∪i∈I Aci
Definition 2.5 Die Indikatorfunktion einer Menge A ⊆ Ω ist die Abbildung
1A : Ω → {0, 1} mit
1, ω ∈ A
1A (ω) =
0, ω ∈
/A
Die Zuordnung zwischen der Menge A und der Indikatorfunktion 1A ist eindeutig. Dadurch werden Mengenverknüpfungen zu Rechenoperationen:
1A∩B = min(1A , 1B ) = 1A · 1B
1A∪B = max(1A , 1B ) = 1A + 1B − 1AB
1Ac = 1 − 1A
1A\B = 1A (1 − 1B ) = 1A − 1AB .
8
KAPITEL 2. WAHRSCHEINLICHKEITS-MODELLE
2.5
Das Ereignis-System A
Prinzipien für die Wahl eines Ereignissystems:
1. Die Verknüpfung von Ereignissen (Vereingigung, Durchschnitt, Komplement) ist wieder ein Ereignis.
Definition 2.6 Ein System A von Teilmengen der Menge Ω heißt σ-Algebra
über Ω wenn gilt:
1. Ω ∈ A
2. Ac ∈ A, falls A ∈ A
3. ∪∞
i=1 Ai ∈ A, falls Ai ∈ A.
Bemerkungen:
• nach den Regeln von de Morgan gilt auch: ∩ni=1 Ai ∈ A, falls Ai ∈ A.
• P(Ω) ist eine σ-Algebra.
Ab jetzt wird stets vorausgesetzt, dass das Ereignis-System A stets eine
σ-Algebra ist.
2. Man legt zunächst fest, welche Ereignisse mindestens ins A liegen sollen.
A wird dann als die kleinste σ-Algebra, die diese Mengen enthält, definiert.
Definition 2.7 Für ein System von Teilmengen E ⊆ P(Ω) heißt die kleinste
σ-Algebra die E enthält, die von E erzeugte σ-Algebra. Bezeichnung: A(E).
Folgerung 2.1 Falls Ω abzählbar ist, so erzeugt das System der Elementarereignisse E = {{ω} : ω ∈ Ω} die Potenzmenge P(Ω).
Definition 2.8 Sei G1 = {(a, b] : a, b ∈ R, a ≤ b} die Menge der halb-offenen
Intervalle in R. Die σ-Algebra B = A(G1 ) heißt Borel σ-Algebra über R. Die
Elemente aus B heißen auch Borel-Mengen.
Bemerkungen:
• Alternativ kann man B als A(G0 ) definieren, für G0 = {(a, b) : a, b ∈
R, a ≤ b}.
• zu B gehören alle in der Praxis vorkommenden Mengen, z.B. {a} = ∩∞
n=1 (a−
1/n, a], oder (−∞, a] = ∪∞
(a
−
n,
a].
n=1
Definition 2.9 Seien a = (a1 , . . . , an ), b = (b1 , . . . , bn ), a, b ∈ Rn mit ai ≤ bi
für alle i (kurz: a ≤ b). Das n-dimensionale Intervall (a, b] wird definiert als
(a, b] = {x ∈ Rn : ai ≤ xi ≤ bi }. Durch Gn bezeichnet man das System dieser
Intervalle.
2.6. DARSTELLUNG VON EREIGNISSEN DURCH ZUFALLSVARIABLE 9
Definition 2.10 B n := A(Gn ) heißt Borel-σ-Algebra über Rn .
Auch in diesem Fall enthält B n alle in der Praxis vorkommenden Mengen in
Rn : Einpunktmengen, Kurven, Flc̈hen, Körper, usw.
2.6
Darstellung von Ereignissen durch Zufallsvariable
Im Beispiel 2.1 kann man das Ereignis A :=”die Antwort erfolgt von innherhalb
höchstens 10 Sekunden” auch in einer anderer Weise ausdrücken:
Z :=”Antwortzeit”
A :=”Z ≤ 10”.
Die Antwortzeit Z ist hier eine zufällige Größe (unbekannt vor der Durchführung
des Versuchs), oder Zufallsvariable (ZV). Formal ordnet eine ZV jedem Ausgang
des Versuchs einen Wert zu.
Definition 2.11 Sei X : Ω → Ω0 eine Abbildung und A0 ⊆ Ω0 . Dann definiert
man
{X ∈ A0 } = {ω ∈ Ω : X(ω) ∈ A0 }.
(2.1)
Ein Ereignis der Form {X ∈ A0 } heißt durch X beschreibbar.
Im Allgemeinen, falls A 6= P(Ω) ist nicht jede Menge der Form {X ∈ A0 }
ein Ereignis (d.h. ∈ A). Deswegen folgende
Definition 2.12 Eine Zufallsvariable (ZV) ist eine Abbildung X : (Ω, A) →
(Ω0 , A0 ) mit der Eigenschaft
{X ∈ A0 } ∈ A, für alle A0 ∈ A0 .
(2.2)
(A, A0 sind Ereignissysteme auf Ω bzw. Ω0 ).
2.7
Relative Häufigkeit und Wahrscheinlichkeit
Beispiel: Bei einer großen Anzahl n von Wiederholungen eines Münzwurfs,
stellt man fest, dass die relativen Häufigkeiten von “Kopf” bzw. “Zahl” sich
dem Wert 1/2 nähern.
Empirisches Gesetz der großen Zahlen:
• n Wiederholungen eines Zufallsexperiments mit mögliche Ergebnisse {x1 , . . . , xn }.
• hn (A) =
{ Anzahl xi : xi ∈ A}
(relative Häufigkeit von A).
n
• dann gilt hn (A) →n→∞ P (A) (Wahrscheinlichkeit von A).
10
KAPITEL 2. WAHRSCHEINLICHKEITS-MODELLE
Andere Möglichkeiten um Wahrscheinlichkeiten zu berechnen sind Symmetrieüberlegungen. Beim Münzwirf sollten “Kopf” und “Zahl” die gleiche Wahrscheinlichkeit, d.h. 1/2 besitzen.
Eigenschaften die Eine Wahrscheinlichkeit P erfüllen soll:
(1) P (A) ≥ 0
(1’) P (A) ≤ 1
(2) P (Ω) = 1
(2’) P (∅) = 0
(3) P (A1 + A2 ) = P (A1 ) + P (A2 ) (Additivität)
(3n ) P (A1 + · · · + An ) = P (A1 ) + · · · + P (An ) (endliche Additivität)
(3’) P (A1 + A2 + . . . ) = P (A1 ) + P (A2 ) + . . . (σ-Additivität)
Bemerkung: Es genügt (1), (2), (3’) zu fordern; alle andere können daraus
hergeleitet werden.
Definition 2.13 Eine Abbildung P : A → R, wobei A eine σ-Algebra über Ω
ist, heißt Wahrscheinlichkeitsmaß (W-Maß ) auf A, wenn die folgenden drei
Bedingungen erfüllt sind:
(1) P (A) ≥ 0 für alle A ∈ A (Nichtnegativität)
(2) P (Ω)
= 1 (Normiertheit)
P∞
P∞
(3’) P ( i=1 Ai ) = i=1 P (Ai ) (σ-Additivität)
• diese drei Bausteine (Ω, A, P ) bilden ein Wahrscheinlichkeitsraum (WRaum) oder Wahrscheinlichkeitsmodell (W-Modell).
• zur Vereinfachung der Schreibweise benutzen wir die Notation P (X ∈ A0 )
anstatt P ({X ∈ A0 }).
Im folgenden werden drei einfache Klassen von Wahrscheinlichkeitsmodellen
vorgestellt.
Definition 2.14 Ein Zufallsexperiment mit zwei möglichen Ausgängen heißt
Bernoulli-Experiment. Als Merkmalraum benutzt man Ω = {0, 1} und bezeichnet
ω = 1 als “Erfolg” und ω = 0 als “Misserfolg”.
Das W-Modell (Ω, A, P ) mit Ω = {0, 1}, A = P(Ω) und P gegeben durch
P ({1}) = p, P ({0}) = 1 − p mit p ∈ [0, 1] heißt Bernoulli-Modell, das W-Maß
P heißt Bernoulli-Verteilung mit Parameter p (kurz: B(p)).
Beispiel: Münzwurf.
Definition 2.15 Ein Zufallsexperiment mit endlich vielen und gleichwertigen
Ausgängen heißt Laplace-Experiment. Als Merkmalraum wählt man z.B. Ω =
{1, 2, . . . N }. Das W-Maß P auf A = P(Ω) ergibt sich durch P ({1}) = P ({2}) =
· · · = P ({N }) = 1/N .
Für die Wahrscheinlichkeit P (A) eines beliebigen Ereignisses A gilt dann
P (A) =
Anzahl der günstigen Fälle
|A|
=
,
|Ω|
Anzahl der möglichen Fälle
2.8. EIGENSCHAFTEN VON WAHRSCHEINLICHKEITSMASSEN
11
wobei |A| die Anzahl der Elemente aus A bezeichnet.
Das W-Maß P heißt Laplace-Verteilung oder diskrete Gleichverteilung über
Ω (kurz: L(Ω)).
Beispiele: Münzwurf, Würfelwurf.
Definition 2.16 Sei Ω ein Merkmalraum, A ein Ereignis-System über Ω und
a ∈ Ω ein festes ausgewähltes Ergebnis. Dann heißt das W-Maß P definiert
durch P (A) = 1, falls a ∈ A und P (A) = 0, sonst, die Einpunktverteilung im
Punkt a (kurz: P = εa ).
2.8
Eigenschaften von Wahrscheinlichkeitsmaßen
(1) P (A) ≥ 0 für alle A ∈ A (Nichtnegativität)
(2) P (Ω)
= 1 (Normiertheit)
P∞
P∞
(3’) P ( i=1 Ai ) = i=1 P (Ai ) (σ-Additivität)
(4) P (Ac ) = 1 − P (A)
(5) P (A \ B) = P (A) − P (AB)
(6) P (A ∪ B) = P (A) + P (B) − P (AB)
(7) P (A ∪ B) ≤ P (A) + P (B) (Subadditivität)
(8) A ⊆ B ⇒ P (A) ≤ P (B)
(9) A1 ⊆ A2 ⊆ · · · ⇒ P (∪∞
i=1 Ai ) = limi→∞ P (Ai ) (Stetigkeit von unten)
(10) A1 ⊇ A2 ⊇ · · · ⇒ P (∩∞
i=1 Ai ) = limi→∞ P (Ai ) (Stetigkeit von oben).
Definition 2.17 Ein Maß auf A ist eine Abbildung µ : A → R ∪ {+∞} mit
den Eigenschaften:
(1) µ(A) ≥ 0
(2’) µ(∅) = 0
(3’) µ(A1 + A2 + . . . ) = µ(A1 ) + µ(A2 ) + . . . .
2.9
Elementare bedingte Wahrscheinlichkeiten
Definition 2.18 Seien A, B Ereignisse in Ω und sei P (B) > 0. Dann heißt
P (A|B) :=
P (AB)
P (B)
(2.3)
die bedingte Wahrscheinlichkeit von A unter (der Bedingung) B, und es gilt
P (AB) = P (B) · P (A|B).
(2.4)
Die obige Gleichung gilt auch im Fall P (B) = 0.
Eigenschaften der bedingten Wahrscheinlichkeiten:
• Verkettungsregel:
P (ABC) = P (A) · P (B|A) · P (C|AB)
(2.5)
12
KAPITEL 2. WAHRSCHEINLICHKEITS-MODELLE
• Formel von der totalen Wahrscheinlichkeit:
X
X
P (A) =
P (ABi ) =
P (Bi ) · P (A|Bi )
i∈I
(2.6)
i∈I
(I ist eine abzählbare Indexmenge).
• Bayes-Umkehrformel
P (Bk ) · P (A|Bk )
P (Bk ) · P (A|Bk )
.
=
P (A)
P
(B
)
·
P
(A|B
)
i
i
i∈I
P (Bk |A) = P
(2.7)
Definition 2.19 Zwei Ereignisse A und B heißen stochastisch unabhängig,
wenn gilt:
P (AB) = P (A) · P (B).
(2.8)
Somit gilt P (A|B) = P (A), d.h. die W-keit von A wird durch B nicht beeinflusst.
Definition 2.20 Die Ereignisse A1 , A2 , . . . An in einem W-Raum (Ω, A, P ) heißen stochastisch unabhängig, wenn für alle endlichen Teilmengen {Ai1 , Ai2 , . . . Aik }
von diesen Ereignissen die “Produktformel” gilt:
P (Ai1 Ai2 . . . Aik ) = P (Ai1 )P (Ai2 ) . . . P (Aik ).
(2.9)
Bemerkung: Die paarweise stochastische Unabhängigkeit von mehr als zwei
Ereignissen impliziert nicht notwendigerweise deren allgemeine stochastische
Unabhängigkeit.
Kapitel 3
Darstellung von
Wahrscheinlichkeitsmaßen
• Zähldichten (für diskrete Modelle)
• Riemann-Dichten (für stetige Modelle)
• Verteilungsfunktionen
3.1
Diskrete W-Maße und Zähldichten
Für diskrete Modelle ist es ausreichend, die Wahrscheinlichkeiten nur für die Einpunktmengen festzulegen. Die Wahrscheinlichkeiten der anderen Mengen werden daraus hergeleitet.
Satz 3.1 Es sei Ω ein abzählbarer Merkmalraum. Das Ereignis-System sei A =
P(Ω).
(a) Ist P ein W-Maß über (Ω, A) und definiert man f (ω) := P ({ω}) für
ω ∈ Ω, dann gilt:
X
f (ω) = 1
(3.1)
f (ω) ≥ 0, (ω ∈ Ω),
ω∈Ω
und
P (A) =
X
f (ω), (A ∈ A).
(3.2)
ω∈A
(b) Umgekehrt wird durch jede Abbildung f : Ω → R mit der Eigenschaft
(3.1) durch die Vorschrift (3.2) ein W-Maß P auf A definiert, für das P ({ω}) =
f (ω) gilt, für alle ω ∈ Ω.
In beiden Fällen nennt man die Abbildung f eine Zähldichte (Z-Dichte) von
P.
Beispiele von Z-Dichten:
13
14KAPITEL 3. DARSTELLUNG VON WAHRSCHEINLICHKEITSMASSEN
Definition 3.1 (Binomialverteilung) Aus der binomischen Formel
n X
n k n−k
n
(p + q) =
p q
, p, q ∈ [0, 1], p + q = 1
k
(3.3)
k=0
erhält man die Binomial-Z-Dichte f (k) = b(n, p; k) := nk pk q n−k über Ω =
{0, 1, . . . , n}. Das zugehörige W-Maß nennt man Binomialverteilung B(n, p).
Definition 3.2 (geometrische Verteilung) Aus der geometrischen Reihe 1 + q +
q 2 + · · · = (1 − q)−1 mit q ∈ (0, 1) erhält man die geometrische Z-Dichte
f (k) = (1 − q)q k über Ω = {0, 1, 2, . . . }. Das zugehörige W-Maß nennt man
auch geometrische Verteilung.
P∞ k
(Poisson-Verteilung) Aus der Exponential-Reihe eλ = k=0 λk! ergibt sich
die Z-Dichte f (k) = e−λ λk /k!, k ∈ Ω = {0, 1, 2, . . . } (λ > 0). Das zugehörige
W-Maß heißt Poisson-Verteilung π(λ).
Definition 3.3 Für einen Datensatz x = (x1 , . . . , xn ) mit Werten in Ω ∈ R
heißt die relative Häufigkeit A 7→ hn (A) := n1 · (Anzahl der xi mit xi ∈ A) auch
Pn
empirische Verteilung von x. Sie besitzt die Z-Dichte fˆn (x) := n1 i=1 1xi (x), x ∈
Ω.
Die empirische Verteilung von x beschreibt das zufällige Ziehen eines Wertes
xi aus dem Datensatz. Genauer beschrieben, wird dadurch ein zufälliger Index
i gemäß der Laplace-Verteilung über {1, 2, . . . n} ausgewählt.
Definition 3.4 (diskretes W-Maß mit Träger T) Sei T eine abzählbare Teilmenge von Ω
Pund f : Ω → R eine Abbildung mit f ≥ 0, wobei f (ω) = 0 für alle
ω∈
/ T und ω∈T P
f (ω) = 1. Dann heißt f eine Zähldichte über Ω mit Träger
T . Durch P (A) = ω∈A∩T f (ω) wird damit auf einer beliebigen σ-Algebra über
Ω ein sogenanntes diskretes W-Maß P erzeugt.
3.2
Stetige W-Maße und Riemann-Dichten
Betrachte den Raum (R, B).
Definition 3.5 Eine Riemann-integrierbare Funktion
Z +∞
f : R → R mit f (x) ≥ 0 (x ∈ R) und
f (x)dx = 1
(3.4)
−∞
heißt Riemann-Dichte über R (R-Dichte). Jede R − Dichte definiert eindeutig
ein W-Maß P über (R, B) durch
Z b
P ((a, b]) = P ([a, b]) =
f (x)dx.
(3.5)
a
Es gilt zusätztlich P ({a}) = 0 für alle a ∈ R.
3.2. STETIGE W-MASSE UND RIEMANN-DICHTEN
15
Die Fortsetzung des W-Maßes P von dem Erzeuger G1 auf der ganzen σAlgebra B erfolgt durch folgenden Satz.
Satz 3.2 Ist P auf einem geeigneten Erzeuger E von A festgelegt und auf E
nicht-negativ, σ-additiv und normiert, dann gibt es eine eindeutige Fortsetzung
von P auf A.
Beispiele von R-Dichten:
Definition 3.6 (Rechteck-Verteilung) Ist f (x) = 1/(b − a) für a < x < b und
f (x) = 0 sonst, dann ist f eine R-Dichte über Ω = R. Das zugehörige Maß
heißt stetige Gleichverteilung oder Rechteck-Verteilung R(a, b).
Bei der R(a, b)-Verteilung hat jedes Intervall [c, d] ⊂ [a, b] die Wahrscheinlichkeit (d − c)/(b − a) (proportional zu dessen Länge). Die Rechteck-Verteilung
verhält sich also analog zu der diskreten Laplace-Verteilung, wo die Wahrscheinlichkeiten der Teilmengen proportional zur Anzahl deren Elemente sind.
Definition 3.7 (Exponential-Verteilung) Ist α > 0 und
αe−αx für x > 0
−αx
f (x) = αe
1(0,∞) (x) =
,
0
für x ≤ 0
(3.6)
dann ist f eine R-Dichte. Das zugehörige W-Maß heißt Exponential-Verteilung
Exp(α).
Definition 3.8 (Normal-Verteilung) Für jeden Wert a ∈ R und σ > 0 ist
f (x) =
(x−a)2
1
√ e− 2σ2 , x ∈ R
σ 2π
(3.7)
eine R-Dichte. Das zugehörige W-Maß heißt Normalverteilung (mit dem Mittelwert a und der Streuung σ) N (a, σ 2 ).
Im Speziallfall a = 0 und σ = 1 spricht man von der Standard-Normalverteilung
N (0, 1). Deren Dichte ist gegeben durch:
x2
1
φ(x) = √ e− 2 , x ∈ R.
2π
(3.8)
Definition 3.9 (Gamma-Verteilung) Das W-Maß Γα,ν mit α > 0, ν > 0 und
der R-Dichte
αν ν−1 −αx
x
e
für x > 0, sonst = 0,
(3.9)
Γ(ν)
R∞
heißt Gamma (α, ν)-Verteilung. Dabei ist Γ(ν) = 0 uν−1 e−u du die Gamma√
Funktion, welche die Eigenschaften: Γ(ν + 1) = ν · Γ(ν), Γ(1/2) = π und
Γ(ν + 1) = ν! für ν = 1, 2, . . . besitzt. Es gilt zusätzlich Γα,1 = Exp(α).
γα,ν (x) :=
16KAPITEL 3. DARSTELLUNG VON WAHRSCHEINLICHKEITSMASSEN
Definition 3.10 (Beta-Verteilung) Das W-Maß Be(µ, ν) mit µ, ν > 0 und der
R-Dichte
beµ,ν (x) :=
Γ(µ + ν) µ−1
x
(1 − x)ν−1 für x ∈ (0, 1), sonst = 0
Γ(µ)Γ(ν)
(3.10)
heißt Beta(µ, ν)-Verteilung. Speziell gilt Be(1, 1)=R(0, 1).
Wenn man auf die Normiertheit verzichtet, kann man auch allgemeine Maße
über (R, B) mithilfe von R-Dichten definieren. Z.B. erzeugt die konstante RDichte 1 das sogenannte Lebesgue-Maß λ, welche die Längenmessung auf R
beschreibt: λ([a, b]) = b − a.
Analog wie auf R kann man n-dimensionale R-Dichten definieren.
n
Definition 3.11 Eine n-dimensionale
R Riemann-integrierbare Funktion f : R →
n
R mit f (x) ≥ 0 für x ∈ R und Rn f (x)dx = 1 heißt Riemann-Dichte (Rn
n
Dichte) in Rn . Auch hier ergibt sich eindeutig ein W-Maß
R P über (R , B ) das
n
für Ereignisse A ∈ B als Riemann-Integral P (A) = A f (x)dx ausgewertet
werden kann.
Beispiel:
Stetige Gleichverteilung über einem (geeigneten)
Gebiet G ⊂ Rn
R
R
mit G dx < ∞. Die R-Dichte f ist dabei konstant, gleich ( G dx)−1 auf G und
gleich 0 sonst. Für Ereignisse A gilt dann:
R
Z
dx
R
PG (A) =
f (x)dx = A∩G
.
(3.11)
dx
A
G
Analog zum eindimensionalen Lebesgue-Maß kann man über Rn das ndimensionale Lebesgue-Maß λn durch die konstante R-Dichte 1 definieren. Diese
beschreibt das n-dimensionale Volumen der Teilmengen von Rn . Damit kann
man die Formel (3.11) auch als
PG (A) =
λn (A ∩ G)
λn (G)
schreiben.
3.3
Verteilungsfunktionen
Definition 3.12 Ist P ein beliebiges W-Maß über (R, B), dann heißt die Abbildung F : R → R mit
F (x) := P ((−∞, x]), x ∈ R,
(3.12)
die Verteilungsfunktion (VF) von P . Aus (3.12) erhält man die Darstellung
P ((a, b]) = F (b) − F (a), a, b ∈ R, a ≤ b.
(3.13)
3.3. VERTEILUNGSFUNKTIONEN
17
Falls das W-Maß P eine R-Dichte f besitzt, so gilt
Z x
Z b
F (x) =
f (t)dt und P ((a, b]) =
f (t)dt = F (b) − F (a).
−∞
(3.14)
a
Beispiele:
a) Die VF der Rechteckverteilung R(a, b) ist

x≤a
 0,
(x − a)/(b − a), a ≤ x ≤ b
F (x) =

1,
x ≥ b.
b) Die VF der Exp(α)-Verteilung ist
0,
x≤0
F (x) =
1 − e−αx , x ≥ 0.
c) Für die Normalverteilung N (a, σ 2 ) lässt sich die VF nicht durch eine geschlossene Formel ausdrücken, sondern nur numerisch berechnen. Dafür reichen
die Werte der VF der Standard-Normalverteilung aus, denn der allgemeine Fall
kann man auf die VF der N (0, 1)-Verteilung zurückführen.
Sei
Z x
2
1
√ e−t /2 dt
(3.15)
Φ(x) =
2π
−∞
die VF der Standard-Normalverteilung. Dann ist die VF der N (a, σ 2 )-Verteilung
gegeben durch
Z x
2
2
x−a
1
√ e−(t−a) /2σ dt = Φ(
).
(3.16)
Fa,σ2 (x) =
σ
σ
2π
−∞
d) Die VF der Γα,n -Verteilung für n ∈ N ist gegeben durch
!
n−1
X
e−αx (αx)k /k! 1[0,∞) (x), x ∈ R.
Fα,n (x) = 1 −
(3.17)
k=0
e) Die VF einer diskreten Verteilung mit Träger T und Z-Dichte f ist gegeben
durch
X
F (x) = P ((−∞, x]) =
f (t), x ∈ R.
(3.18)
t∈T,t≤x
Bemerkung: In diesem Fall besitzt das W-Maß P keine R-Dichte. Die VF
ist unstetig in den Punkten aus T und die Höhe der Sprünge entspricht genau
dem Wert der Z-Dichte f in diesen Punkten.
f) Die VF der empirischen Verteilung aus Definition 3.3 ist gegeben durch
n
1X
Fbnx :=
1[x ,∞) (x), x ∈ R.
n i=1 i
(3.19)
Es gibt auch W-Maße, die sowohl diskrete als auch stetige Anteile besitzen.
18KAPITEL 3. DARSTELLUNG VON WAHRSCHEINLICHKEITSMASSEN
Definition 3.13 Hat das W-Maß P über R die Darstellung
P (A) = αd Pd (A) + αs Ps (A), A ∈ B,
(3.20)
mit einer diskreten Verteilung Pd , einer stetigen Verteilung Ps (mit R-Dichte)
und Gewichten αs , αd ∈ [0, 1], αs + αd = 1, dann heißt P eine gemischte
Verteilung.
Beispiel: Eine Glühlampe sei beim Einschalten mit einer Wahrscheinlihckeit
vin 10% defekt und nach 500 Stunden werde sie grundsätzlich ausgetauscht, weil
im Mittel nur 40% der Glühlampen diese 500 Stunden überleben. Dazwischen
sei die Lebensdauer der Glühlampe gleichverteilt.
Für dieses Modell gilt:
P ({0}) = 0.1, P ({500}) = 0.4, αd = P ({0}) + P ({500}) = 0.5.
Pd ist eine Zweipunktverteilung mit Pd ({0}) = P ({0})/αd = 0.2, Pd ({500}) =
P ({500})/αd = 0.8.
αs = 1 − αd = 0.5, Ps ist die Rechteckverteilung R(0, 500).
Eigenschaften von Verteilungsfunktionen:
Folgerung 3.1 Ist F die VF eines W-Maßes P über (R, B), dann gilt:
(1) F ist nicht monoton fallend.
(2) F (−∞) := limx→−∞ F (x) = 0, F (∞) := limx→∞ F (x) = 1.
(3) F ist rechtsseitig stetig: limh↓0 F (x + h) = F (x), x ∈ R.
(4) F besitzt linksseitige Grenzwerte: F (x−) := limh↓0 F (x−h) = P ((−∞, x)),
x ∈ R.
(5) Für Einpunktmengen {x} gilt: P ({x}) = F (x) − F (x−), x ∈ R.
Jeder Abbildung F mit den Eigenschaften (1)-(5) kann man eindeutig ein
W-Maß P über (R, B) durch P ((−∞, x]) := F (x) zuordnen. Die Erweiterung
von P auf B erfolgt durch den Fortsetzungssatz.
Kapitel 4
Mehrstufige W-Modelle,
Koppelung
4.1
Koppelung diskreter W-Modelle
Beispiel: (“Ziehen ohne Zurücklegen”)
Aus 100 Werkstücken sind 10 defekt. Wieviel beträgt die Wahrscheinlichkeit,
dass zwei zufällig entnommene Stücke defekt sind?
Betrachte die Zuordnung: 0=”defekt”, 1=”intakt” und die Ereignisse A1 :=”das
erste gezogene Stück ist defekt”, A2 :=”das zweite gezogene Stück ist defekt”
und A :=”beide gezogenen Sücke sind defekt”.
10
9
1
1
1
Dann gilt P (A) = P (A1 ∩ A2 ) = P (A1 )P (A2 |A1 ) = 100
· 99
= 10
· 11
= 110
.
Dieses Zufallsexperiment kann man auch durch folgendes Baumdiagramm
darstellen:
Start
1
10
0
@
1
0,0
1
1
10 · 11
@ 9
@ 10
R
@
1
@
10
10
11
11
@
@
R
0,1
1
10
10 · 11
19
89
99
99
@
@
R
1,0
9
10
10 · 99
1,1
9
89
10 · 99
20
KAPITEL 4. MEHRSTUFIGE W-MODELLE, KOPPELUNG
Ein Zufallsexperiment mit mehreren Merkmalen wird auch mehrstufiger Versuch gennannt. Der (diskrete) Merkmalraum hat dabei die Form Ω = Ω1 × · · · ×
Ωn . Die Konstruktion erfolgt folgendermaßen: Wird bei n Merkmalen ω1 , . . . ωn
mit ωi ∈ Ωi die Wahrscheinlichkeit der Merkmale stufenweise in Abhängigkeit
von den vorangehenden Ergebnissen bewertet, und zwar durch
ω1 7→ f1 (ω1 ), eine Z-Dichte,
ω2 7→ f21 (ω1 ; ω2 ), eine von ω1 abhängige Z-Dichte
ω3 7→ f32 (ω1 , ω2 ; ω3 ), eine von (ω1 , ω2 ) abhängige Z-Dichte, usw.,
dann wird der Gesamtversuch bewertet durch die Z-Dichte
(ω1 , . . . , ωn ) 7→ f (ω1 , . . . , ωn ) := f1 (ω1 )f21 (ω1 ; ω2 ) . . . fnn−1 (ω1 , . . . , ωn−1 ; ωn ).
(4.1)
Die Abbildung f ist eine Z-Dichte auf Ω, denn
fii−1 (ω1 , . . . ωi−1 ; ωi ) ≥ 0 und
X
fii−1 (ω1 , . . . , ωi−1 ; ωi ) = 1.
(4.2)
ωi ∈Ωi
Definition 4.1 (a) Die in der obigen Konstruktion benutzten abhängigen ZDichten fii−1 (ω1 , . . . ωi−1 ; ωi ) heißen Übergangszähldichten (ÜZ-Dichten)von Ω1 ×
· · · × Ωi−1 nach Ωi . Die jeweils vorausgehenden Beobachtungen (ω1 , . . . ωi−1 )
nennt man Vorgeschichte zur Stufe i.
(b) Die durch (4.1) definierte Gesamtdichte f wird als Koppelung von f1 , f21 , . . . fnn−1
bezeichnet und man schreibt kurz
f = f1 ⊗ f21 ⊗ · · · ⊗ fnn−1 .
(4.3)
Bemerkung: Zu jeder ÜZ-Dichte fii−1 gehört ein von ω1 , . . . , ωi−1 abhängiges
W-Maß Pii−1 , genannt auch Übergangs-W-Maß (ÜW-Maß). Das zur Gesamt-ZDichte f gehörige W-Maß P wird dann mit P = P1 ⊗P21 ⊗· · ·⊗Pnn−1 bezeichnet.
4.2
Koppelung stetiger W-Modelle
Die obige Konstruktion im Falle diskreter Modelle kann man auch auf stetige W-Modelle übertragen. Dabei treten die Übergangs-Riemann-Dichten (ÜRDichten) fii−1 (x1 , . . . , xi−1 ; xi ) auf, welche für jede feste Vorgeschichte (x1 , . . . , xi−1 )
gewöhnliche R-Dichten in der Variable xi sind. Dabei muß sichergestellt werden,
dass die Gesamt-Dichte f = f1 ⊗ f21 · · · ⊗ fnn−1 definiert durch
f (x1 , . . . , xn ) := f1 (x1 )f21 (x1 ; x2 ) . . . fnn−1 (x1 , . . . , xn−1 ; xn )
(4.4)
im Rn Riemann-integrierbar ist.
Man kann beide Arten von Modellen kombinieren, indem man auf gewisse
Stufen diskrete Verteilungen (Z-Dichten) angibt und auf andere stetige Verteilungen (R-Dichten).
4.3. UNABHÄNGIGE KOPPELUNG
4.3
21
Unabhängige Koppelung
Beispiel: Wenn man im dem Beispiel aus 4.1 die zu prüfenden Werkstücken aus
verschiedenen “Losen” zieht, sind die entsprechenden Ereignisse unabhängig.
Analog bei einem Verfahren mit Ziehen mit Zurücklegen aus einer Urne oder
bei mehrfachen, unabhängigen Wiederholungen eines Zufallsexperiments (z.B.
Würfeln).
Definition 4.2 Hängen bei einem mehrstufigen Versuch die ÜZ-Dichten oder
ÜR-Dichten f21 , . . . fnn−1 nicht von den jeweiligen Vorgeschichten ab, so spricht
man von unabhängiger Koppelung. Die Übergangs-Dichten sind dann einfache
Z- oder R-Dichten f2 , . . . fn . Die Dichte f des Gesamtversuchs ist gegeben durch
das Produkt der Einzeldichten:
f (ω1 , . . . ωn ) = f1 (ω1 )f2 (ω2 ) . . . fn (ωn )
(4.5)
In diesem Fall bezeichnet man f als Produkt-Dichte.
Folgerung 4.1 (Produktformel)
In einem n-stufigen unabhängig gekoppelten W -Modell mit den einstufigen
W-Maßen P1 , P2 , . . . Pn gilt für ein Produktereignis der Form A = A1 × · · · × An
die Formel
P (A) = P (A1 × · · · × An ) = P1 (A1 )P2 (A2 ) . . . Pn (An ).
(4.6)
Folgerung 4.2 (Ziehen mit Zurücklegen, n-faches Laplace-Experiment)
Werden mehrere unabhängige Laplace-Experimente durchgeführt, dann ist
der Gesamtversuch auch ein Laplace-Experiment. Die Z-Dichten der Einzelversuche sind fi (ωi ) = 1/|Ωi |, (ωi ∈ Ωi ) und die Gesamt-Dichte ist gegeben durch
f (ω1 , . . . , ωn ) =
1
1
1
...
=
mit Ω = Ω1 × · · · × Ωn .
|Ω1 |
|Ωn |
|Ω|
(4.7)
Definition 4.3 (n-faches Bernoulli-Experiment)
Die n-fache unabhängige Wiederholung eines Bernoulli-Experiments mit Parameter p heißt n-faches Bernoulli(p)-Experiment. Der Merkmalraum ist Ω =
{0, 1}n und für die Z-Dichte f gilt
f (ω1 , . . . , ωn ) = pk (1 − p)n−k mit k =
n
X
ωi .
(4.8)
i=1
Das zugehörige W-Maß wird mit Bn (p) bezeichnet.
Definition 4.4 Die n-fache unabhängige Koppelung von Standard-Normalverteilungen
2
N (0, 1) mit den R-Dichten fi (xi ) = φ(xi ) = √12π e−xi /2 heißt n-dimensionale
Standard-Normalverteilung und besitzt auf Rn die Dichte
n
2
2
1
1
f (x1 , . . . , xn ) = √
e− 2 (x1 +···+xn ) .
(4.9)
2π
22
4.4
KAPITEL 4. MEHRSTUFIGE W-MODELLE, KOPPELUNG
Markov-Koppelung
Definition 4.5 Hängen bei einem mehrstufigen Versuch die ÜZ- oder ÜRDichten nicht von der gesamten Vorgeschichte ab, sondern nur vom letzten beobachteten Wert:
fii−1 (ω1 , . . . , ωi−1 ; ωi ) = fii−1 (ωi−1 ; ωi ),
so spricht man von einer Markov-Koppelung.
Die Folge der Beobachtungen bildet ein Markov-Prozess, im diskreten Fall
auch Markov-Kette genannt.
4.5
Zufälliges Ziehen ohne Zurücklegen
Beispiel: Es werden 6 Zahlen aus den Zahlen 1,2, . . . , 49 ohne Zurücklegen
und mit Berücksichtigung der Reihenfolge gezogen. Das entsprechende Koppelungsmodell wird wie folgt beschrieben: Sei Ω1 = · · · = Ω6 = {1, . . . 49}
und Ω = ×6i=1 Ωi = Ω61 . Dabei können in der Wirklichkeit nur Ergebnisse
ω = (ω1 , . . . , ω6 ) vorkommen, bei denen alle ωi verschieden sind (weil nicht
zurückgelegt wird). Die unmöglichen Ereignisse werden dann die W-keit =0
erhalten.
1
und
Die Z-Dichte f1 für die erste Ziehung ergibt sich dann als f1 (ω1 ) = 49
1
1
1
für die ÜZ-Dichte f2 erhält man f2 (ω1 ; ω2 ) = 48 , falls ω1 6= ω2 , sonst =0 (es
wird nur aus 48 verbleibenden Zahlen gezogen). Die weiteren ÜZ-Dichten sind
1
1
gegeben durch f32 (ω1 , ω2 ; ω3 ) = 47
, f43 (ω1 , ω2 , ω3 ; ω4 ) = 46
. . . , falls jeweils alle
ωi verschieden sind und =0 sonst. Dabei ergibt sich das (vernachlässigbare)
Problem, dass für feste, aber unmögliche Vorgeschichten die fii−1 (. . . ) keine
Z-Dichten mehr sind.
Für die Z-Dichte des Gesamtversuchs ergibt sich also:
f (ω1 , . . . , ω6 ) =
1 1 1 1 1 1
· · · · · , falls alle ωi verschieden sind, sonst =0.
49 48 47 46 45 44
Setzen wir nun Ω6= := {ω ∈ Ω : ωi 6= ωj , i 6= j}, so definiert die Z-Dichte f
eine Gleichverteilung (Laplace-Verteilung)
auf dem Träger Ω6= ⊂ Ω.
P
Aus der Bedingung ω∈Ω6= f (ω) = 1 erhält man die Formel über die Anzahl
der möglichen n-Permutationen aus N Objekten, d.h. die Anzahl der Möglichkeiten,
mit Berücksichtigung der Reihenfolge und ohne Wiederholungen n aus N Objekten auszuwählen. Diese Zahl ist gleich der Anzahl der Elemente aus Ω6= :
|Ω6= | = N (N − 1)(N − 2) . . . (N − n + 1) := (N )n .
(4.10)
Für n = 0 definiert man (N )0 = 1. Speziell für N = n erhält man (n)n = n!.
Beispiel: Wenn man 6 aus 49 Zahlen ohne Zurücklegen und ohne Berücksichtigung
der Reihenfolge zieht, kann man die Folge der 6 Zahlen als geordnet betrachten.
Deswegen benutzt man den Merkmalraum Ω0 = {ω ∈ Ω : ω1 < ω2 < · · · < ω6 }.
4.5. ZUFÄLLIGES ZIEHEN OHNE ZURÜCKLEGEN
23
Weil jeder geordneten Folge ω 0 ∈ Ω0 genau 6! ungeordnete Folgen ω ∈ Ω6= entsprechen, ergibt sich für die Z-Dichte f 0 auf Ω0 die Beziehung f 0 (ω 0 ) = 6!f (ω 0 )
und damit f 0 (ω 0 ) = 6!/(49)6 für alle ω 0 . In diesem Fall liegt also auch eine
Gleichverteilung vor.
Durch diese Überlegungen erhält man die Anzahl der möglichen n-Kombinationen
aus N Objekten, d.h. die Anzahl der Möglichkeiten, ohne Berücksichtigung der
Reihenfolge und ohne Wiederholungen n aus N Objekten auszuwählen. Diese
Zahl ist gleich der Anzahl der Elemente aus Ω0 :
N
(N )n
=:
.
(4.11)
|Ω0 | =
n!
n
Beispiel: Aus N = 100 Werkstücken, davon K = 90 “intakt” (=1) und
N − K = 10 “defekt” (=0) werden n = 5 Stücke ohne Zurücklegen entnommen.
Als Merkmalraum wählt man Ω = {0, 1}5 . Für ω = (0, 1, 0, 1, 0) ∈ Ω erhält man
die W-keit:
f (0, 1, 0, 1, 0) =
(90)2 (10)3
10 9 9 89 8
·
·
·
·
=
.
100 99 98 97 06
(100)5
Allgemein erhält man die Z-Dichte
f (ω1 , . . . , ωn ) =
(K)k (N − K)n−k
(N )n
mit k :=
n
X
ωi .
i=1
Die W-keit eines Ereignisses ω ∈ Ω hängt also nur von der Anzahl der beobachteten markierten Stücke ab und nicht von deren Reihenfolge.
Für das Ereignis
Bk :=”es werden k markierte Sücke gezogen” gibt es insn
gesamt genau
k Ergebnisse ω, die die oben angegeben W-keit besitzen. Aus
P
P (Bk ) = ω∈Bk f (ω) folgt also:
n (K)k (N − K)n−k
=
P (Bk ) =
k
(N )n
K
k
N −K
n−k
N
n
, 0 ≤ k ≤ n.
(4.12)
24
KAPITEL 4. MEHRSTUFIGE W-MODELLE, KOPPELUNG
Kapitel 5
Zufallsvariable und
Bildmodelle
5.1
Zufallsvariable und messbare Abbildungen
Definition 5.1 Eine Zufallsvariable (kurz: ZV) ist eine Abbildung vom Merkmalraum Ω in eine Bildmenge Ω0 . Ist A0 das Ereignissystem in Ω0 , dann wird
für eine Zufallsvariable gefordert:
{X ∈ A0 } ∈ A für alle A0 ∈ A0 .
(5.1)
Dabei ist {X ∈ A0 } := {ω ∈ Ω : X(ω) ∈ A0 } ein durch X beschreibbares
Ereignis.
Definition 5.2 Für jede Abbildung X heißt A := {X ∈ A0 } das Urbild von A0 .
Man schreibt dafür auch X −1 (A0 ). Man beachte: X −1 ist eine Zuordnung von
P(Ω0 ) nach P(Ω) (Mengenabbildung), genannt auch Urbildfunktion.
Definition 5.3 Ein Paar (Ω, A) aus einer nicht-leeren Menge Ω und einer σAlgebra A über Ω heißt Messraum. Sind (Ω, A) und (Ω0 , A0 ) Messräume und X
ist eine Abbildung von Ω nach Ω0 mit der Eigenschaft
X −1 (A0 ) ∈ A für alle A0 ∈ A0 ,
(5.2)
so sagt man: X ist messbar, genauer A − A0 -messbar.
Folgerung 5.1 Die folgenden Arten von Abbildungen sind messbar (und damit
Zufallsvariable):
(a) alle Abbildungen Ω → Ω0 , falls A = P(Ω),
(b) alle Indikatorfunktionen 1A mit A ∈ A,
(c) alle stetigen (oder stückweise stetigen) Funktionen R → R oder Rk → Rn ,
falls A, A0 die entsprechenden Borelmengen sind.
25
26
KAPITEL 5. ZUFALLSVARIABLE UND BILDMODELLE
(d) alle Vielfachen, Summen, Produkte, Quotienten (soweit definiert), Maxima und Minima von Zufallsvariablen,
(e) alle Suprema, Infima und Grenzwerte von Folgen von Zufallsvariablen,
(f ) alle messbaren Funktionen von Zufallsvariablen.
5.2
Bildmodelle und Verteilungen von Zufallsvariablen
Beispiel: n Ziehungen (ohne Zurücklegen) aus N Objekten, davon K markiert
(=1) und N − K unmarkiert (=0).
W-Modell: Ω = {0, 1}n , A = P(Ω). P
Für ein Ereignis ω = (ω
ωi die Anzahl der gezogenen marP1 , . . . ωn ) gibt
kierten Objekten und n − ωi entsprechend die Anzahl der gezogenen unmarkierten Objekten an.
Das W-Maß P wird durch die Z-Dichte
f (ω1 , . . . ωn ) =
(K)P ωi (N − K)n−P ωi
, (ω1 , . . . ωn ) ∈ Ω,
(N )n
definiert.
P
Betrachte die ZV Zn : Ω → Ω0 , Zn (ω) = ωi , wobei Ω0 = {0, 1, . . . , n}.
Die Einführung von Zn hat folgende Effekte:
(a) Komprimierung der Information aus ω = (ω1 , . . . , ωn ) durch Nichtberücksichtigung der Ziehungsreihenfolge.
(b) Das Ereignis Bk :=”es werden k markierte Stücke gezogen” wird als
Bk = {Zn = k} dargestellt.
(c) Man kann über Ω0 = {0, 1, . . . , n} ein neues W-Modell für die Anzahl der
gezogenen markierten Stücke angeben, indem man
K N −K
f 0 (k) = P 0 ({k}) = P ({Zn = k}) =
k
n−k
N
n
betrachtet (vgl. (4.12)).
Allgemein wird das W-Maß P 0 auf (Ω0 , P(Ω0 )) durch P 0 (A0 ) = P ({Zn ∈ A0 })
definiert. Die neue Wahrscheinlichkeit wird also über die Urbilder Zn−1 (A0 ) =
{Zn ∈ A0 } bestimmt, d.h. die Wahrscheinlichkeit aller ω, die nach A0 abgebildet
werden. Aufgrund dieses Zusammenhangs bezeichnet man das W-Mass P 0 auch
mit P Zn .
Definition 5.4 (Bildmaß P X unter der ZV X)
Ist (Ω, A, P ) ein W-Raum, Ω0 eine nichtleere Menge, A0 ein Ereignis-System
über Ω0 und X : Ω → Ω0 eine Zufallsvariable, dann ist die Zuordnung
A0 → P X (A0 ) := P (X −1 (A0 )) = P (X ∈ A0 )
(5.3)
mit A0 ∈ A0 ein W-Maß über (Ω0 , A0 ), genannt auch Bildmaß von P unter X
oder Verteilung von X bezüglich P .
(Ω0 , A0 , P X ) ist das Bildmodell von (Ω, A, P ) unter X.
5.3. HYPERGEOMETRISCHE UND BINOMIAL-MODELLE
27
Folgerung 5.2 (a) Ist X : Ω → Ω0 eine ZV und Ω0 (oder zumindest X(Ω))
abzählbar, dann hat P X die Z-Dichte f X mit
f X (ω 0 ) = P (X = ω 0 ), ω 0 ∈ Ω0 .
(5.4)
(b) Ist X eine reellwertige ZV, dann hat P X die Verteilungsfunktion F X mit
F X (t) = P (X ≤ t), t ∈ R.
(5.5)
Man nennt f X bzw. F X die Z-Dichte, bzw. die Verteilungsfunktion von X.
5.3
Hypergeometrische und Binomial-Modelle
Definition 5.5 Das hypergeometrische Modell besteht aus Ω0 = {0, 1, . . . , n}, A0 =
P(Ω0 ) und P Zn , angegeben durch die Z-Dichte
K N −K
h(N, K, n; k) := f Zn (k) =
k
n−k
N
n
, 0 ≤ k ≤ n.
(5.6)
Das W-Maß P Zn heißt hypergeometrische Verteilung und wird mit H(N, K, n)
bezeichnet.
Bemerkung: Für die Fälle k > K bzw. n − k > N − K gilt f Zn (k) = 0.
Beispiel: (n-fache Wiederholung eines Bernoulli(p)-Experiments).
Ω = {0, 1}n , A = P(Ω) und P = Bn (p) mit der Z-Dichte
f (ω1 , . . . , ωn ) = pk (1 − p)n−k mit k =
n
X
ωi .
i=1
ωi = 1: “Erfolg” im i-ten Experiment, ωi = 0: “Misserfolg” im i-ten Experiment.
Betrachte die ZV
Pn Sn = “Anzahl der Erfolge” in n Versuche, d.h.
P
Sn (ω1 , . . . , ωn ) = i=1 ωi . Mit Ak := {Sn = k} gilt dann: P (Ak ) = ω∈Ak f (ω) =
|Ak |pk (1 − p)n−k = nk pk (1 − p)n−k .
Definition 5.6 Das Binomial-Modell mit den Parametern n ∈ N und p ∈ [0, 1]
besteht aus Ω0 = {0, 1, . . . , n}, A0 = P(Ω0 ) und P Sn mit der Z-Dichte
n k
Sn
b(n, p; k) := f (k) =
p (1 − p)n−k , 0 ≤ k ≤ n.
(5.7)
k
Das W-Maß P Sn heißt Binomial(n, p)-Verteilung, kurz B(n, p).
Bemerkungen
• Man beachte den Unterschied zwischen Bn (p) (die Verteilung eines nfachen Bernoulli-Experiments, wo jeder unterschiedliche Ausgang betrachtet wird) und B(n, p) (die Verteilung des Binomial-Modells, wo nur die Anzahl der “Erfolge” in einem n-fachen Bernoulli-Experiment berücksichtigt
wird, nicht deren genauen Reihenfolge).
28
KAPITEL 5. ZUFALLSVARIABLE UND BILDMODELLE
• hypergeometrische Verteilung: “n Ziehungen ohne Zurücklegen aus N Objekten, von welche K markiert sind”.
• Binomial-Verteilung: “n Ziehungen mit Zurücklegen aus N Objekten, von
welche K markiert sind” (für p = K/N ).
• Für große Werte von K und N − K im Vergleich zu n sind die Z-Dichten
der beiden Modelle annähernd gleich.
5.4
Die Poisson-Approximation der BinomialVerteilung
Die Binomial-Verteilung B(n, p) basiert auf n Wiederholungen eines Bernoulli(p)Experiments, wobei die Anzahl der “Erfolge” (und nicht deren Reihenfolge)
untersucht wird. Für große n und kleine p, d.h. für viele Wiederholungen eines Bernoulli-Experiments mit kleiner Erfolgswahrscheinlichkeit, so dass np ≈
konstant, so kann man die Binomial-Verteilung durch eine Poisson-Verteilung
approximieren.
Satz 5.1 (Poisson-Approximation)
Eine Binomial(n, pn )-Verteilung nähert sich für große n und kleine pn einer
Poisson(n · pn )-Verteilung an. Genauer gilt: Für n → ∞ und n · pn → λ konvergieren die Werte der Z-Dichte b(n, pn ; k) für alle k = 0, 1, . . . gegen die entsprechenden Werte π(λ; k) = e−λ λk /k! der Z-Dichte der Poisson(λ)-Verteilung,
π(λ).
Bemerkung: Die Gleiche Aussage gilt für p ≈ 1, denn man kann zu 1 − p
übergehen. Dann gilt λ ≈ n · (1 − pn ).
5.5
Die Normal-Approximation der BinomialVerteilung
Allgemein, für große Werte von n und p nicht nahe bei 0 oder bei 1, kann man
die Binomial-Verteilung durch eine Normalverteilung approximieren.
Satz 5.2 (Zentraler Grenzwertsatz)
Die Summe vieler kleiner und voneinander unabhängiger zufälliger Einflüsse
verhält sich näherungsweise -und für wachsende Anzahl der Summanden mit
zunehmender Genauigkeit- wie eine Normalverteilung.
Satz 5.3 (Normal-Approximation)
Ist F Sn die VF der Binomial(n, p)-Verteilung und Φ die VF der StandardNormalverteilung, dann gilt
x−a
Sn
, x ∈ R,
(5.8)
F (x) ≈ Φ
σ
5.6. WARTEZEITEN - DIE GEOMETRISCHE VERTEILUNG
wobei a = np der “Mittelwert” und σ :=
ximierenden Normalverteilung ist.
5.6
29
p
np(1 − p) die “Streuung” der appro-
Wartezeiten - die geometrische Verteilung
Betrachte n Wiederholungen eines Bernoulli(p)-Experiments. Untersucht wird
die Anzahl der benötigten Versuche, um den ersten “Erfolg” zu erreichen.
Betrachte die ZV W1 :=”Anzahl der Versuche bis zum ersten Erfolg”.
Dann gilt:
P (W1 = k) = (1 − p)k−1 · p für k = 1, 2, 3, . . .
(5.9)
(In den ersten k − 1 Versuche wurden Misserfolge registriert, der erste Erfolg
passiert im k-ten Versuch; alle Versuche sind dabei unabhängig.)
Zählt man nur die W1 − 1 Misserfolge, dann erhält man entsprechend
P (W1 − 1 = k) = (1 − p)k · p für k = 0, 1, 2, . . . .
(5.10)
Definition 5.7 (Geometrische Verteilungen)
Für 0 < p < 1 und q := 1 − p definieren wir die geometrische Verteilung
Geo+ (p) durch die Z-Dichte
geo+ (p; k) := p · q k−1 , k = 1, 2, 3, . . .
(5.11)
und die geometrische Verteilung Geo0 (p) durch die Z-Dichte
geo0 (p; k) := p · q k , k = 0, 1, 2, . . . .
(5.12)
Beide beschreiben die Wartezeit bis zum ersten Erfolg bei einer unendlichen
Folge von unabhängigen Bernoulli(p)-Versuchen, bei Geo+ (p) einschließlich des
erfolgreichen Versuchs, bei Geo0 (p) ohne diesen.
Folgerung 5.3 Die Geo+ (p)-Verteilung besitzt die VF
F W1 (x) = P (W1 ≤ x) = 1 − (1 − p)bxc , x ≥ 0,
(5.13)
die Geo0 (p)-Verteilung besitzt entsprechend die VF
F W1 −1 (x) = P (W1 − 1 ≤ x) = 1 − (1 − p)bx+1c , x ≥ 0,
(5.14)
wobei bxc den ganzzahligen Anteil von x bezeichnet. Für x < 0 sind die beiden
VF gleich 0.
5.7
Mehrfaches Warten - die negative Binomialverteilung
Als Verallgemeinerung des vorherigen Modells kann man die Anzahl Wr der
benötigten Versuche bis zum r-ten Erfolg betrachten.
30
KAPITEL 5. ZUFALLSVARIABLE UND BILDMODELLE
Definition 5.8 (Negative Binomialverteilung)
Die negative Binomialverteilung Nb+ (r, p), die die Anzahl Wr der Versuche
bis zum r-ten Erfolg beschreibt, hat die Z-Dichte
k−1 r
+
Wr
f (k) = P (Wr = k) = nb (r, p; k) =
p (1 − p)k−r . k = r, r + 1, . . . .
r−1
(5.15)
Zählt man nur die Misserfolge, dann ergibt sich Nb0 (r, p) mit der Z-dichte
k+r−1 r
f Wr −r (k) = P (Wr −r = k) = nb0 (r, p; k) =
p (1−p)k . k = 0, 1, 2, . . . .
r−1
(5.16)
Bemerkungen:
• Der Name leitet sich ab von der Darstellung
k+r−1
r−1
• Nb0 (r, p) existiert auch für r ∈ (0, ∞) wegen
k+r−1
r−1
5.8
=
=
k+r−1
k
=
−r
k
.
(k+r−1)k
.
k!
Randverteilung und gemeinsame Verteilung
Definition 5.9 (Randverteilung)
Ist der Merkmalraum Ω ein kartesisches Produkt, also Ω = Ω1 × · · · × Ωn ,
dann heißt für i ∈ {1, . . . , n} die ZV Xi : Ω → Ωi , ω 7→ ωi die i-te Projektion
oder die i-te Koordinatenvariable. Die Verteilung P Xi von Xi heißt die i-te
Randverteilung.
Folgerung 5.4 (a) Die i-te Randverteilung P Xi ergibt sich aus
P Xi (Ai ) = P (Xi ∈ Ai ) = P (Ω1 , × . . . Ai × . . . Ωn ) für Ai ∈ Ai .
(b) Ist Ω abzählbar und f eine Z-Dichte von P , dann besitzt P Xi eine ZDichte f Xi , auch i-te Randdichte genannt, und es gilt
X
X
X
X
f Xi (ωi ) =
···
···
f (ω1 , . . . , ωn ).
ω1 ∈Ω1
ωi−1 ∈Ωi−1 ωi+1 ∈Ωi+1
ωn ∈Ωn
Man muss also über alle “nicht benötigten” ωj aufsummieren.
(c) Ist Ωi = R, Ai = B und A = B n und besitzt P eine R-Dichte f , dann
hat auch P Xi eine R-Dichte f Xi und es gilt
Z
Z
f Xi (xi ) =
. . . f (x1 , . . . xn )dx1 . . . dxi−1 dxi+1 . . . dxn ,
R
R
wobei für alle xj mit j 6= i integriert wird.
Für die unabhängig gekoppelten W-Modell kann man die Randverteilungen
als die Verteilungen der entsprechenden Stufen berechnen:
5.9. STOCHASTISCHE UNABHÄNGIGKEIT VON ZUFALLSVARIABLEN31
Folgerung 5.5 In unabhängig gekoppelten W-Modellen ist die i-te Randverteilung P Xi gleich der W-Verteilung Pi der i-ten Stufe, denn wegen der Produktform von {Xi ∈ Ai } gilt:
P Xi (Ai ) = P (Ω1 × · · · × Ai × · · · × Ωn ) = P1 (Ω1 ) . . . Pi (Ai ) . . . Pn (Ωn ) = Pi (Ai ).
Für die i-te Randdichte erhält man entsprechend f Xi = fi .
Definition 5.10 (gemeinsame Verteilung)
Wenn die ZV Yi von Ω nach Ωi abbilden, mit σ-Algebren A über Ω und Ai
über Ωi , dann ist Y = (Y1 , . . . Yn ) eine ZV von Ω nach Ω0 := Ω1 × · · · × Ωn (Zufallsvektor). Die Verteilung P Y = P (Y1 ,...Yn ) von Y heißt dann die gemeinsame
Verteilung von Y1 , . . . , Yn .
Man kann somit auch Randverteilungen über mehrere Komponenten als gemeinsame Verteilungen definieren, z.B. P (Xi1 ,...,Xik ) (mit den Notationen aus
Definition 5.9). Man wählt somit nur die Komponenten (i1 , . . . ik ) aus (1, . . . n)
aus und betrachtet deren gemeinsame Verteilung.
Folgerung 5.6 Die i-te Randverteilung einer gemeinsamen Verteilung P (Y1 ,...,Yn )
ist P Yi , die Verteilung von Yi .
Folgerung 5.7 Bei der n-fachen Ziehung ohne Zurücklegen aus N Objekten,
wovon K markiert sind, sei (X1 , . . . Xn ) das vollständige Ergebnis (“Ziehungsprotokoll”, Xi (ω) ∈ {0, 1}, “1” entspreche “markiert”). Dann gilt, dass jede
Permutation Xi1 , . . . Xin von X1 , . . . Xn dieselbe gemeinsame Verteilung hat und
dass deshalb alle Randverteilungen P Xi für alle i, bzw. P (Xi1 ,...,Xik ) , (k < n)
für alle (i1 , . . . ik ) mit il 6= im für l 6= m jeweils übereinstimmen. Zufallsvariable
X1 , . . . Xn mit dieser Eigenschaft heißen austauschbar.
5.9
Stochastische Unabhängigkeit von Zufallsvariablen
Satz 5.4 Jede gemeinsame Verteilung P (Y1 ,...Yn ) mit Z-Dichte oder R-Dichte
f (Y1 ,...Yn ) lässt sich als Koppelungs-Modell mit Z-Dichte bzw. R-Dichte
f (Y1 ,...Yn ) (y1 , . . . yn ) = f1 (y1 )f21 (y1 ; y2 ) . . . fnn−1 (y1 , . . . , yn−1 ; yn )
darstellen. Dazu bestimmt man die Randdichten f (Y1 ,...Yn−1 ,) , f (Y1 ,...Yn−2 ,) , . . . , f (Y1 ,Y2 ) ,
f (Y1 ) = f1 (in dieser Reihenfolge) durch Summation bzw. Integration und erhält
daraus
f (Y1 ,...Yi ) (y1 , . . . yi )
.
(5.17)
fii−1 (y1 , . . . yi−1 ; yi ) = (Y ,...Y )
f 1 i−1 (y1 , . . . yi−1 )
Ist dabei der Nenner =0, dann setzt man für fii−1 (y1 , . . . yi−1 ; yi ) eine beliebige
Dichte ein.
32
KAPITEL 5. ZUFALLSVARIABLE UND BILDMODELLE
Definition 5.11 Die nach Satz 5.4 existierenden Übergangs- (Z- oder R-) Dichten nennt man wegen der im diskreten Fall möglichen Darstellung
fii−1 (y1 , . . . yi−1 ; yi ) = P (Yi = yi | Y1 = y1 , . . . , Yi−1 = yi−1 )
auch bedingte Dichten und man schreibt f Yi |(Y1 ,...,Yi−1 ) statt fii−1 . Die zugehörigen
Übergangs-W-Maße heißen bedingte Verteilungen und werden entsprechend als
P Yi |(Y1 ,...,Yi−1 ) geschrieben.
Definition 5.12 Die ZV Y1 , . . . Yn mit Yi : Ω → Ωi heißen stochastisch unabhängig (st.u.), wenn für die gemeinsame Verteilung P (Y1 ,...Yn ) die Produktformel gilt:
P (Y1 ,...Yn ) (A1 × · · · × An ) = P Y1 (A1 ) . . . P Yn (An )
(5.18)
für beliebige Ereignisse Ai in Ωi , bzw. in anschaulicherer Form
P (Y1 ∈ A1 , . . . , Yn ∈ An ) = P (Y1 ∈ A1 ) . . . P (Yn ∈ An ).
(5.19)
Folgerung 5.8 Besitzen die ZV Y1 , . . . Yn mit Yi : Ω → Ωi Z-Dichten bzw. RDichten, dann ist die stochastische Unabhängigkeit äquivalent damit, dass die
gemeinsame Verteilung eine Produkt-Dichte besitzt.
Folgerung 5.9 In einer Folge von stochastisch unabhängigen Bernoulli(p)-Versuchen
sind die Wartezeiten auf den jeweils nächsten Erfolg unabhängig und Geo+ (p)verteilt.
Satz 5.5 Sind die ZV Y1 , . . . , Yn stochastisch unabhängig (z.B. Y1 , . . . Y5 ), dann
sind auch stochastisch unabhängig:
(a) Umstellungen von Y1 , . . . , Yn , z.B. Y3 , Y2 , Y5 , Y1 , Y4 ,
(b) Teilmengen von Y1 , . . . , Yn , z.B. Y1 , Y3 , Y4 , Y5 ,
(c) Disjunkte Gruppen von st.u. ZV, z.B. Z1 = (Y1 , Y3 ) und Z2 = (Y4 , Y5 ),
(d) Messbare Funktionen von st.u. ZV, z.B. g(Z1 ) = Y12 + Y32 und h(Z2 ) =
Y4 · eY5 .
(e) Jede konstante ZV ist von allen ZV stochastisch unabhängig.
(f ) Sind die ZV Y1 , . . . , Yn−1 st.u. und sind (Y1 , . . . , Yn−1 ), Yn st.u., dann
sind auch Y1 , . . . , Yn st.u..
Folgerung 5.10 Die Ereignisse A1 , . . . , An in einem W-Raum (Ω, A, P) sind
genau dann stochastisch unabhängig (s. Definition 2.20), wenn die ZV 1A1 , . . . , 1An
stochastisch unabhängig sind.
5.10
Bild-Verteilungen für stetige W-Modelle
Satz 5.6 Es sei P X eine Verteilung über (R, B) und die ZV Y = a + bX eine
lineare Funktion von X mit a, b ∈ R, b 6= 0 (zur Vereinfachung sei b > 0).
(a) Besitzt P X die VF F X , dann ist die VF von P Y gegeben durch
y−a
Y
X
, y ∈ R.
(5.20)
F (y) = F
b
5.11. SUMMEN-VERTEILUNG UND FALTUNG
(b) Besitzt P X eine R-Dichte f X , dann hat P Y die R-Dichte
1
y−a
f Y (y) = f X
, y ∈ R.
b
b
33
(5.21)
(c) Ist speziell P X die Standard-Normalverteilung N (0,1) mit VF Φ und
R-Dichte φ, dann hat Y = a + bX die VF F Y (y) = Φ y−a
und die R-Dichte
b
y−a
1
Y
f (y) = b φ b . Dies sind die VF und R-Dichte von N (a, b2 ). Die Normalverteilung N (a, σ 2 ) geht also durch die lineare Transformation x 7→ a + σx aus
N (0, 1) hervor.
Satz 5.7 (a) Ist X eine ZV mit Werten in R und der VF F X , dann besitzt
Y = X 2 die VF
√
√
(5.22)
F Y (y) = (F X ( y) − F X ((− y)−))1[0,∞) (y) y ∈ R.
(b) Besitzt X eine R-Dichte f X , dann hat Y = X 2 die R-Dichte
1
√
√
f Y (y) = √ (f X (− y) + f X ( y)1(0,∞) (y) y ∈ R.
2 y
(5.23)
Satz 5.8 Ist P X die Standard-Normalverteilung N (0, 1) mit VF Φ und R2
Dichte φ, dann besitzt die Verteilung P X die VF
2
√
F X (y) = [2Φ( y) − 1]1[0,∞) (y) y ∈ R.
(5.24)
und die R-Dichte
2
1 1
1
√
f X (y) = √ φ( y)1(0,∞) (y) = √ √ e−y/2 1(0,∞) (y) y ∈ R.
y
2π y
(5.25)
2
Die Verteilung P X heißt Chi(1)-Quadrat-Verteilung, kurz χ21 und ist eine spezielle Gamma-Verteilung, nämlich Γ 21 , 12 .
5.11
Summen-Verteilung und Faltung
Satz 5.9 (a) Es seien X und Y zwei ZV über demselben W-Raum mit Werten
in Z und mit gemeinsamer Z-Dichte f (X,Y ) (x, y). Dann erhält man die Z-Dichte
von X + Y aus
X
f X+Y (z) =
f (X,Y ) (x, z − x), z ∈ Z.
(5.26)
x∈Z
(b) Sind X und Y reellwertig mit gemeinsamer R-Dichte f (X,Y ) (x, y), dann
hat X + Y entsprechend die R-Dichte
Z
X+Y
f
(z) =
f (X,Y ) (x, z − x)dx, z ∈ R.
(5.27)
R
34
KAPITEL 5. ZUFALLSVARIABLE UND BILDMODELLE
Bemerkungen: Wegen der Symmetrie kann man die Rollen von X und Y
vertauschen und entsprechende Formeln herleiten.
Falls X und Y stochastisch unabhängig sind, dann besitzt deren gemeinsame Dichte die Produktform, und in den obigen Formeln erhält man somit
f (X,Y ) (x, z − x) = f X (x)f Y (z − x).
Definition 5.13 Die Verteilung der Summe von stochastisch unabhängigen ZV
X und Y heißt die Faltung der Einzelverteilungen:
P X ∗ P Y := P X+Y und f X ∗ f Y = f X+Y .
(5.28)
Folgerung 5.11 Für nicht-negative und stochastisch unabhängige ZV X und
Y berechnet man die Faltung nach folgenden Formeln:
(a) bei ganzzahligen Werten
f X+Y (z) = (f X ∗ f Y )(z) =
z
X
f X (x)f Y (z − x), z ∈ N0 .
(5.29)
f X (x)f Y (z − x)dx, z ≥ 0.
(5.30)
x=0
(b) bei Existenz von R-Dichten
f
X+Y
(z) = (f
X
Y
Z
∗ f )(z) =
z
0
Für z < 0 ist in beiden Fällen f X+Y (z) = 0.
Beispiele
1. Faltung von Binomialverteilungen
Die Binomialverteilung B(n, p) wurde als Verteilung P Sn der Summe Sn
von n st.u. Bernoulli(p)-ZV X1 , . . . , Xn definiert. Deshalb ist B(n, p) die
n-fache Faltung von B(p)-Verteilungen:
B(n, p) = B(p) ∗ B(p) ∗ · · · ∗ B(p) (n Faktoren).
(5.31)
Faßt man erst m und dann n B(p)-Verteilungen zusammen, dann ergibt
sich
B(m + n, p) = B(m, p) ∗ B(n, p).
(5.32)
2. Faltung von Poissonverteilungen
Es gilt
π(λ1 ) ∗ π(λ2 ) = π(λ1 + λ2 ).
(5.33)
Dies ergibt sich aus der Tatsache, dass die Poisson(λ)-Verteilung durch
eine B(n, pn )-Verteilung approximieren lässt, falls n groß ist und npn ≈ λ
gilt. Der exakte Beweis geht jedoch über die Faltungsformel.
5.11. SUMMEN-VERTEILUNG UND FALTUNG
35
3. Faltung von geometrischen Verteilungen
Ausder stochastischen Unabhängigkeit der Geo+ (p)-verteilten Zwischenwartezeiten bei einer Folge von stochastisch unabhängigen Bernoulli(p)Versuchen ergibt sich für die negative Binomialverteilung
Nb+ (r, p) = Geo+ (p) ∗ Geo+ (p) ∗ . . . Geo+ (p) (r Faktoren),
(5.34)
und durch Zusammenfassung der Faktoren
Nb+ (r1 + r2 , p) = Nb+ (r1 , p) ∗ Nb+ (r2 , p).
(5.35)
Dieselben Eigenschaften gelten für Nb0 (r, p) und Geo0 (r, p).
4. Faltung von Normalverteilungen
Die Faltung von zwei beliebigen Normalverteilungen ergibt wieder eine
Normalverteilung:
N (a, σ 2 ) ∗ N (b, τ 2 ) = N (a + b, σ 2 + τ 2 ).
(5.36)
5. Faltung von Gamma-Verteilungen
Die Faltung von zwei Gamma-Verteilungen mit gleichen Parameter α ergibt
Γα,µ ∗ Γα,ν = Γα,µ+ν .
(5.37)
Spezialfälle:
(a) Die Exp(α)-Verteilung ist gleich der Γα,1 -Verteilung. Damit ergibt
sich
Γα,n = Exp(α) ∗ Exp(α) ∗ · · · ∗ Exp(α) (n Faktoren).
(5.38)
(b) Die χ21 -Verteilung ist gleich der Γ 21 , 12 -Verteilung. Somit kann man
die Chi(n) − Quadrat − V erteilung χ2n als Verteilung der Summe
der Quadrate von n stochastisch unabhängigen normalverteilten ZV
einführen:
χ2n := Γ 12 , n2 = χ21 ∗ χ21 ∗ · · · ∗ χ21 (n Faktoren).
(5.39)
36
KAPITEL 5. ZUFALLSVARIABLE UND BILDMODELLE
Kapitel 6
Kenngrößen
6.1
Mediane und Quantile
Sei X : Ω → Ω0 ⊆ R eine ZV mit Z-Dichte oder R-Dichte f X und Verteilungsfunktion F X .
Definition 6.1 Ein Median von X (oder von P X ) ist jeder Wert m ∈ R, an
dem die VF F X den Wert 1/2 erreicht oder überschreitet, d.h. für den gilt:
F X (m−) ≤
1
≤ F X (m).
2
(6.1)
Bemerkungen.
• Links und rechts von einem Median m liegt jeweils höchstens die Hälfte der
gesamten Wahrscheinlichkeit, denn es gilt P (X < m) = F X (m−) ≤ 1/2
und P (X > m) = 1 − F X (m) ≤ 1/2. Der Punkt m selbst kann dabei
auch positive Wahrscheinlichkeit besitzen. Hat der Median m dagegen die
Wahrscheinlicheit 0, dann gilt F (m−) = F (m) = 1/2 und die gesamte
Wahrscheinlichkeit wird genau “in der Mitte” geteilt.
• Es kann mehrere Mediane geben, und zwar dann, wenn die VF F X auf
einem ganzen Intervall den (konstanten) Wert 1/2 annimmt. Dann sind
alle Punkte des Intervalls, einschließlich der Randpunkte, Mediane. In der
Praxis wird dann normalerweise die Intervallmitte zum Median erklärt.
Eine Verallgemeinerung des Medians sind die Quantile oder Prozent-Punkte:
Definition 6.2 Ein Wert u ∈ R heißt α%-Quantil oder α%-Punkt, wenn die
VF F X an der Stelle u den Wert α erreicht oder überschreitet, d.h. wenn
F X (u−) ≤ α ≤ F X (u). Der Median ist also ein 50%-Quantil. Die 25% und
75% -Quantile nennt man auch Quartile.
Definition 6.3 Jede Maximumstelle einer Z-Dichte oder R-Dichte f X heißt
Modalwert von X (oder von P X ).
37
38
KAPITEL 6. KENNGRÖSSEN
6.2
Erwartungswert: Einführung
Intuitiv entspricht der Erwartungswert eines gewichteten Mittels mit relativen
Häufigkeiten.
Beispiel: Bei einem Examen seien die Noten 1 bis 5 mit den relativen
Häufigkeiten 0.11/0.23/0.31/0.27/0.08 aufgetreten. Dann ist der Mittelwert 1 ·
0.11 + 2 · 0.23 + . . . 5 · 0.08 = 2.98.
Interpretiert man die relativen Häufigkeiten als Wahrscheinlichkeiten für die
Examensnote X eines zufällig herausgegriffenen Studenten, dann stellt der obige Mittelwert den “Erwartungswert” von X dar, bezeichnet mit EX. Dieser
berechnet sich dann als
EX = 1 · P (X = 1) + 2 · P (X = 2) + · · · + P (X = 5) =
5
X
k · P (X = k).
k=1
Bevor der Erwartungswert für reellwertige ZV allgemein definiert wird, führen
wir folgende Definition ein:
Definition 6.4 Ist X = (X1 , . . . , Xn ) eine mehrdimensionale ZV (Zufallsvektor), dann definiert man den Erwartungswert von X durch den Vektor der einzelnen Erwartungswerten: EX := (EX1 , . . . , EXn ), auch Erwartungsvektor genannt.
6.3
Erwartungswert: diskrete Modelle
Definition 6.5 Es sei X : Ω → Ω0 ⊂ R eine diskrete ZV mit X ≥ 0 oder Ω0
endlich. Dann heißt
X
X
EX :=
k · P (X = k) =
k · f X (k)
(6.2)
k∈Ω0
k∈Ω0
der Erwartungswert von X (oder von P X ).
Folgerung 6.1 Erwartungswerte der wichtigsten diskreten Verteilungen
(q = 1 − p).
(a) Laplace-Verteilung
L({1, . . . , N }), f X (k) = 1/N ,
(b) Einpunktverteilung
εa ,
f X (a) = 1,
(c) Bernoulli-Versuch
B(p),
f X1 (1) = p, (d) Binomial-Verteilung B(n, p),
f Sn (k) = nk pk (1 −p)n−k
,
N −K
N
(e) Hypergeom. Vert.
H(N, K, n),
f Zn (k) = K
/
k
n−k
n ,
(f) Poisson-Verteilung
π(λ),
f X (k) = e−λ λk /k!,
(g) Geometrische Vert.
Geo+ (p),
f W1 (k) = p(1 − p)k−1 ,
0
Geo0 (p),
f W1 (k) = p(1 − p)k ,
r
k−r
(h) Neg. Binomial-Vert. Nb+ (r, p),
f Wr (k) = k−1
,
r−1 p (1 − p)
0
k+r−1 r
Wr0
Nb (r, p),
f (k) = r−1 p (1 − p)k ,
EX = N2+1 ,
EX = a,
EX1 = p,
ESn = np,
EZn = nK/N ,
EX = λ,
EW1 = 1/p,
EW10 = q/p,
EWr = r/p,
EWr0 = rq/p.
6.3. ERWARTUNGSWERT: DISKRETE MODELLE
39
Die Definition des Erwartungswerts wurde zunächst nur für diskrete ZV
mit endlich vielen oder ausschließlich positiven Werten eingeführt. Im letzten
Fall war auch der Wert 00 + ∞“ möglich. Für den allgemeinen Fall zerlegt man
die auftretenden unendlichen Reihen in Positiv- und Negativteil und stellt die
Bedingung, dass nicht beide Summen unendlich sind.
Definition 6.6 (a) Der Positivteil einer reellen Zahl a ist
0, a ≤ 0
a+ := max(0, a) =
a, a ≥ 0.
Entsprechend ist das Negativteil von a
−
+
a := (−a) = max(0, −a) =
|a|, a ≤ 0
0,
a ≥ 0.
Es gilt also: a− ≥ 0 und a = a+ − a− , |a| = a+ + a− .
(b) Für eine reellwertige Abbildung f definiert man entsprechend f + und f −
durch f + (y) = (f (y))+ , f − (y) = (f (y))− . Also ist auch für eine ZV
X : Ω → Ω0 ⊂ R der Positivteil X + und der Negativteil X − erklärt, und es gilt
X = X + + X −.
Definition 6.7 Es sei X : Ω → Ω0 ⊂ R eine diskrete ZV mit Träger T ⊂ Ω0
(meist T = Ω0 ) und Z-Dichte f X (k), k ∈ T . Dann heißt
X
X
EX :=
k · P (X = k) =
k · f X (k)
(6.3)
k∈T
k∈T
X
der Erwartungswert von X (oder von P ), falls die positive oder die negative
Teilsumme (oder beide) endlich sind, d.h. falls
X
X
EX + =
k · f X (k) < ∞ oder EX − =
|k| · f X (k) < ∞. (6.4)
k∈T,k>0
k∈T,k<0
Der Wert von EX ist dann EX = EX + − EX − , unabhängig von der Summationsreihenfolge und man sagt: “EX existiert”. Falls EX + < ∞ und EX − < ∞
heißt X integrierbar.
Satz 6.1 Die folgenden Gleichungen gelten unter der Voraussetzung, dass die
entsprechenden Summen existieren. Dabei zieht die Existenz einer der beiden
Seiten immer die der anderen nach sich.
(a) Ist X : Ω → Ω0 ⊂ R eine diskrete ZV, sind Ω, Ω0 abzählbar und ist f
eine Z-Dichte von P , dann gilt
X
X
EX :=
k · P (X = k) =
X(ω)f (ω).
(6.5)
k∈Ω0
ω∈Ω
0
(b) Ist X : Ω → Ω ⊂ R eine diskrete ZV, g : Ω0 → Ω00 eine Abbildung und
sind Ω0 , Ω00 abzählbar, dann gilt
X
X
Eg(X) :=
m · P (g(X) = m) =
g(k) · P (X = k).
(6.6)
m∈Ω00
k∈Ω0
40
KAPITEL 6. KENNGRÖSSEN
(c) Sind X : Ω → Ω01 , Y : Ω → Ω02 diskrete ZV, h : Ω01 × Ω02 → Ω00 ⊂ R eine
Abbildung und sind Ω01 , Ω02 , Ω00 abzählbar, dann gilt
X X
X
m · P (h(X, Y ) = m) =
h(k, l) · P (X = k, Y = l).
Eh(X, Y ) :=
k∈Ω01 l∈Ω02
m∈Ω00
(6.7)
Satz 6.2 Es seien X, Y, X1 , . . . , Xn reellwertige ZV.
(a) Gilt P (X = a) = 1, d.h. ist X (“fast sicher”) konstant, dann besitzt X
die Einpunktverteilung εa und es ist EX = a.
(b) Der Erwartungswert ist monoton: Aus X ≤ Y folgt EX ≤ EY , falls
EX, EY existieren. Speziell ergibt sich aus a ≤ X ≤ b auch a ≤ EX ≤ b.
(c) Der Erwartungswert ist linear: Existiert EX, dann existiert auch
E(a + bX) für a, b ∈ R und es gilt
E(a + bX) = a + b · EX.
(6.8)
(d1) Existieren EX und EY und ist EX + EY definiert (z.B. nicht ∞ − ∞),
dann existiert auch E(X + Y ) und es gilt
E(X + Y ) = EX + EY.
(6.9)
(d2) Unter entsprechenden Voraussetzungen (alle EXi existieren, alle EXi 6=
±∞) gilt
n
n
X
X
E(
Xi =
EXi .
(6.10)
i=1
i=1
(e) Sind X, Y stochastisch unabhängig, existieren EX und EY und sind
beide endlich, dann existiert EXY := E(XY ) und es gilt
EXY = EX · EY.
(6.11)
Folgerung 6.2 Ist X : Ω → Ω0 ⊂ R eine reellwertige ZV, so gilt für die ZV
|X| (= X + + X − )
(a)
(b)
(c)
6.4
E|X| = EX + + EX −
EX existiert =⇒ |EX| ≤ E|X|,
X ist integrierbar ⇔ E|X| < ∞.
(6.12)
(6.13)
(6.14)
Erwartungswert: stetige und gemischte Modelle
Definition 6.8 Es sei X : Ω → R eine (reellwertige) ZV mit R-Dichte f X .
Dann heißt
Z +∞
EX :=
xf X (x)dx
(6.15)
−∞
6.4. ERWARTUNGSWERT: STETIGE UND GEMISCHTE MODELLE
41
der Erwartungswert von X (oder von P X ), falls
EX + =
Z
∞
xf X (x)dx < ∞ oder EX − =
Z
0
|x|f X (x)dx < ∞.
(6.16)
−∞
0
Man sagt dann “EX existiert”, und es gilt EX = EX + −EX − . Falls EX + < ∞
und EX − < ∞, dann heißt X integrierbar.
Bemerkung. Im Allgemeinen besitzt X + = max(X, 0) selber keine R+
Dichte, da P X ({0}) = P (X ≤ 0) positiv sein kann. Dass die Ausdrücke in
(6.16) tatsächlich den Erwartungwerten entsprechen, wird im Folgenden erläutert.
Definition 6.9 Es sei X : Ω → R eine ZV mit gemischter Verteilung P X =
αd PdX + αs PsX . Dabei ist PdX eine diskrete Verteilung, PsX eine Verteilung mit
R-Dichte, αd ∈ [0, 1] und αs = 1 − αd . Existieren dann die Erwartungswerte
Ed X von PdX und Es X von PsX , dann sei
EX := αs Ed X + αs Es X
(6.17)
der Erwartungswert von X (bzw. von P X ).
Folgerung 6.3 Für eine reellwertige ZV X : Ω → R mit VF F X lassen sich
der Positiv- und der Negativteil des Erwartungswerts darstellen als
EX + =
Z
∞
[1 − F X (x)]dx,
EX − =
Z
0
F X (x)dx.
(6.18)
−∞
0
Folgerung 6.4 (a) Die in Satz 6.2 zusammengestellten Eigenschaften des Erwartungswerts gelten auch im allgemeinen Fall, also insbesondere die Monotonie
und die Linearität, ebenso auch die Eigenschaften aus Folgerung 6.2.
(b) Die im Satz 6.1 im diskreten Fall angegebenen Darstellungen von Eg(x)
und Eh(X, Y ) müssen für ZV X, Y umgeschrieben werden, indem man die Summen durch entsprechende Integrale ersetzt. Die Existenz kann auf der rechten
oder linken Seite nachgeprüft werden.
(b1) Besitzt X : Ω → R die R-Dichte f X und ist g : R → R eine Rintegrierbare Abbildung, dann gilt
Z ∞
Eg(X) =
g(x)f X (x)dx.
(6.19)
−∞
(b2) Besitzen die ZV X : Ω → R und Y : Ω → R die gemeinsame R-Dichte
f (X,Y ) , ist h eine Abbildung von R2 → R und h · f (X,Y ) R-integrierbar, dann
gilt
Z ∞Z ∞
Eh(X, Y ) =
h(x, y)f (X,Y ) dxdy.
(6.20)
−∞
−∞
42
KAPITEL 6. KENNGRÖSSEN
Folgerung 6.5 Erwartungswerte der wichtigsten stetigen Verteilungen:
1
1(a,b) (x),,
(a) Rechteck-Verteilung: R(a, b),
f X (x) = b−a
X
(b) Exponential-Vert.:
Exp(α),
f (x) = αe−αx 1(0,∞) (x),
αν
(c) Gamma-Verteilung:
Γα,ν ,
f X (x) = Γ(ν)
xν−1 e−αx 1(0,∞) (x),
6.5
(d) Beta-Verteilung:
Be(µ, ν),
f X (x) =
(e) Normal-Verteilung:
(f) Cauchy-Verteilung:
N (a, σ 2 ),
C(α),
f X (x) =
f X (x) =
Γ(µ+ν) µ−1
(1 − x)ν−1 ,
Γ(µ)Γ(ν) x
2
2
1
√1 e− 2 (x−a) /σ ,
2π
1
α
π α2 +x2 ,
Streuung und Varianz
Definition 6.10 Ist X : Ω → Ω0 ⊂ R eine ZV mit endlichem Erwartungswert,
dann heißen
VarX
und StrX
:= E(X − EX)2 = EX 2 − (EX)2
p
√
:=
E(X − EX)2 = VarX
(6.21)
(6.22)
die Varianz und die Streuung von X.
Satz 6.3 (a) Eine Verschiebung hat keinen Einfluss auf die Varianz und die
Streuung:
Var(X + a) = VarX, Str(X + a) = StrX.
(6.23)
(b) Ein Faktor verändert die Varianz quadratisch, die Streuung proportional
mit dem Betrag des Faktors:
Var(bX) = b2 VarX, Str(bX) = |b| · StrX.
(6.24)
Aus (a) und (b) ergibt sich also, dass bei einer linearen Transformation nur der
Faktor eine Rolle spielt:
Var(a + bX) = b2 VarX, Str(a + bX) = |b| · StrX.
(6.25)
(c) Eine oft nützliche Formel ist
E(X −a)2 = VarX +(EX −a)2 , speziell (a = 0) EX 2 = VarX +(EX)2 . (6.26)
Der Wert von E(X − a)2 wird minimal für a = EX.
(d) Konstante ZV besitzen die Streuung 0:
StrX = 0 ⇔ VarX = 0 ⇔ P (X = EX) = 1.
(e) “Varianz einer Summe = Summe der Varianzen” gilt bei stochastisch
unabhängigen ZV:
X, Y seien st.u. ⇒ Var(X + Y ) = VarX + VarY.
(6.27)
EX = a+b
2 ,
EX = 1/α,
EX = ν/α,
EX =
µ
µ+ν ,
EX = a,
EX existiert nicht.
6.6. KOVARIANZ
43
Folgerung 6.6 1. Die Varianz der wichtigsten diskreten Verteilungen:
(a)
(b)
(c)
(d)
(e)
L({1, . . . , N }):
εa :
B(p):
B(n, p):
H(N, K, n):
VarX = (N 2 − 1)/12,
VarX = 0,
VarX1 = p(1 − p),
VarSn = np(1 − p),
N N −K N −n
VarZn = n K
N N −1 ,
(f ) π(λ):
(g) Geo+ (p) :
Geo0 (p) :
(h) Nb+ (r, p) :
Nb0 (r, p) :
VarX = λ,
VarW1 = (1 − p)/p2 ,
Var(W1 − 1) = (1 − p)/p2 ,
VarWr = r(1 − p)/p2 ,
Var(Wr − r) = r(1 − p)/p2 .
2. Die Varianz der wichtigsten stetigen Verteilungen:
(a) R(a, b):
(b) Exp(α):
(c) Γα,ν :
6.6
VarX = (b − a)2 /12,
VarX = 1/α2 ,
VarX = ν/α2 ,
(d) χ2n = Γ 21 , n2 :
(e) N (0, 1) :
(f ) N (a, σ 2 ) :
VarX = 2n,
VarX = 1,
VarX = σ 2 .
Kovarianz
Im Folgenden setzen wir EX 2 , EY 2 < ∞ voraus. Die Existenz und Endlichkeit
der Erwartungswerte EXY, EX und EY folgt dann aus |XY | < max(X 2 , Y 2 ) ≤
X 2 + Y 2 bzw. |X| ≤ X 2 + 1 (setze Y = 1). Damit sind auch VarX und VarY
definiert und endlich.
Definition 6.11 Für die ZV X : Ω → R und Y : Ω → R mit EX 2 , EY 2 < ∞
heißt
Kov(X, Y ) := EXY − EX · EY = E[(X − EX)(Y − EY )]
(6.28)
die Kovarianz von X und Y . Die normierte Kovarianz
korr(X, Y ) :=
Kov(X, Y )
StrX · StrY
(6.29)
heißt Korrelationskoeffizient von X und Y , falls StrX 6= 0 und StrY 6= 0,
andernfalls sei korr(X, Y ) := 0 (weil dann auch Kov(X, Y ) = 0 gilt).
Folgerung 6.7 X und Y seien reellwertige ZV mit EX 2 , EY 2 < ∞. Dann gilt:
(a) Kov(X, X) =VarX, Kov(X + Y ) = Kov(Y, X).
(b) Var(X + Y ) =VarX+VarY + 2Kov(X, Y ).
Entsprechend gilt für ZV Xi : Ω → R mit EXi2 < ∞, i = 1, . . . , n,
Var
n
X
i=1
Xi =
n
X
i=1
VarXi + 2
X
Kov(Xi , Xj )
i<j
.
(c) Sind X und Y stochastisch unabhängig, dann gilt Kov(X, Y ) = 0. Die
Umkehrung gilt im Allgemeinen nicht. Ausnahme: X, Y sind gemeinsam normalverteilt.
44
KAPITEL 6. KENNGRÖSSEN
Folgerung 6.8 Für die ZV X : Ω → R und Y : Ω → R gelte EX 2 , EY 2 < ∞
und VarX 6= 0, VarY 6= 0. Dann ergibt sich
(a) Die mittlere quadratische Abweichung zwischen den ZV Y und a + bX
ist minimal, wenn
b = korr(X, Y )
StrY
und a = EY − bEX.
StrX
Der Minimalwert ist dann Var[1 − (korr(X, Y ))2 ].
(b) Es gilt stets
−1 ≤ korr(X, Y ) ≤ 1.
(6.30)
(6.31)
(c) Es gilt korr(X, Y ) = ±1 genau dann, wenn Y = a + bX (mit Wahrscheinlichkeit 1). Die Vorzeichen von b und korr(X, Y ) stimmen dann überein.
6.7
Mehrdimensionale Normalverteilung
Ein Spezialfall der mehrdimensionalen Normalverteilung, die Standard-Normalverteilung
in Rn wurde in Definition 4.4 eingeführt, als unabhängige Kopplung von n eindimensionalen Standard-Normalverteilungen. Die entsprechende R-Dichte ist gegeben durch:
n
n
2
2
1
1 T
1
1
e− 2 (x1 +···+xn ) = √
e− 2 x x
(6.32)
f X (x1 , . . . , xn ) = √
2π
2π
mit x = (x1 , . . . , xn )T ∈ Rn .
Sei X eine standard-normalverteilte, Rn -wertige ZV und Y = a+AX für a ∈
n
R und A eine invertierbare Matrix. Wir führen also eine lineare Transformation
von X durch. Es gilt somit
Yi = ai + ai1 X1 + · · · + ain Xn , i = 1, . . . , n.
(6.33)
Wegen EXi = 0 impliziert die Linearität des Erwartungswertes EYi = ai für
alle i, also kurz EY = a.
Wegen EXi2 = 1 und EXi Xj = 0 für i 6= j (Unabhängigkeit) ergibt sich
! n
!
n
n
X
X
X
Kov(Xi , Xj ) = E(Yi −EYi )(Yj −EYj ) = E
aik Xk
ajl Xl =
aik ajk .
k=1
l=1
k=1
(6.34)
Fasst man die Kovarianzen zu einer Matrix zusammen: K = (kij ) := (Kov(Yi , Yj )),
dann gilt K = AAT .
Die Matrix K ist also symmetrisch, positiv definit und es gilt detK =detAdetAT =
(detA)2 . Durch die mehrdimensionale Transformationsformel erhält man die RDichte f Y (y) der ZV Y , welche in folgende Definition zusammengefasst wird:
Definition 6.12 Das W-Maß über (Rn , B n ) definiert mit a ∈ Rn und einer
symmetrischen und positiv definiten n × n-Matrix K durch die R-Dichte
n
T
−1
1
1
1
Y
√
f (y) = √
e− 2 (y−a) K (y−a) , y ∈ Rn ,
(6.35)
2π
detK
6.8. ZUFÄLLIGE SUMMEN UND BEDINGTE ERWARTUNGSWERTE 45
heißt n-dimensionale Normalverteilung und wird mit N (a, K) bezeichnet. a ist
dabei der Erwartungswert und K die Kovarianzmatrix. Die n-dimensionale
Standard-Normalverteilung ist also N (0, En ).
Die mehrdimensionale Normalverteilung besitzt folgende Eigenschaften:
Folgerung 6.9 (a) Ist die ZV X N (0, EN )-verteilt und ist Y := a + AX
mit a ∈ Rn und einer regulären n × n Matrix A, dann ist Y N (a, AAT )verteilt. Umgekehrt gibt es zu jeder N (a, K)-verteilten ZV Y eine Darstellung
Y = a + AX mit einer regulären unteren Dreiecksmatrix A und K = AAT ,
sowie N (0, EN )-verteiltem X.
(b) Ist die ZV Y N (a, K)-verteilt und ist Z := b + BY mit b ∈ Rn und
einer regulären n × n-Matrix B, dann ist Z N (b + Ba, BKBT )-verteilt.
(c) Alle Randverteilungen von n-dimensionalen Normalverteilungen (auch kdimensionale mit k < n) sind wieder Normalverteilungen. Die Parameter ai und
kij bleiben für die nicht-wegfallenden Koordinaten unverändert. Insbesondere
besitzen bei einer N (a, K)-verteilten ZV Y die Komponenten Yi eine N (ai , kii )Verteilung.
(d) Die ZV Y1 , . . . Yn sind genau dann stochastisch unabhängig und Yi N (ai , σi2 )verteilt, wenn Y := (Y1 , . . . Yn ) N (a, K)-verteilt ist mit a = (a1 , . . . , an )T und
der Diagonalmatrix K = (kij ) mit kii = σi2 . (Wenn K eine Diagonalmatrix ist,
dann sind alle Kovarianzen Kov(Yi , Yj ) = 0 für i 6= j.
6.8
Zufällige Summen und bedingte Erwartungswerte
In verschiedenen Anwendungen treten Summen von ZV mit einer zufälligen Anzahl von Summanden auf. Gesucht sind die Erwartungswerte oder Verteilungen
dieser Summen, die hier “zufällige Summen” genannt werden.
Beispiele
1. Der jährliche Gesamtschaden aus einer bestimmten Anzahl von Versicherungsverträgen setzt sich zusammen aus einer zufälliger Anzahl Y von
Schäden, bei denen die Schadenhöhen X1 , X2 , . . . XY ebenfalls zufällig
sind. Man möchte den Erwartungswert und die Streuung des Gesamtschadens bestimmen.
2. Ein Kunde kommt an einen Bankschalter und trifft dort eine zufällige
Anzahl weiterer Kunden an, die vor ihm bedient werden sollen. Die Verweilzeit des Kunden am Schalter ist damit eine zufällige Summe von Bedienzeiten.
Eine zufällige Summe kann man somit schreiben als
S=
Y
X
i=1
Y (ω)
Xi oder ω 7→ S(ω) =
X
i=1
Xi (ω).
(6.36)
46
KAPITEL 6. KENNGRÖSSEN
Falls also die ZV Y den Wert
PnY (ω) = n annimmt, stimmt S(ω) mit der
gewöhnlichen Summe Sn (ω) = i=1 Xi (ω)Püberein. Für Y (ω) = 0 sei S(ω) = 0
∞
(leere Summe). Aus der Darstellung S = i=1 Xi · 1{i,i+1,... } (Y ) folgt, dass S
eine messbare Abbildung, also eine ZV ist.
Im Folgenden wird angenommen, dass alle Summanden Xi dieselbe Verteilung besitzen und sowohl untereinander, als auch von der Anzahl Y der Summanden stochastisch unabhängig sind.
Definition 6.13 Es sei Y eine ZV mit Werten in N0 , X1 , X2 , . . . seien reellwertige ZV, identisch verteilt
PY und stochastisch unabhängig, auch von Y . Dann
nennen wir die ZV S =
i=1 Xi mit zufälliger oberer Grenze eine zufällige
Summe.
PY
Satz 6.4 Für die zufällige Summe S = i=1 Xi gilt, falls EY und EXi endlich
sind:
ES
Var S
= EY · EX1 ,
= EY · Var X1 + Var Y · (EX1 )2 .
(6.37)
Bemerkung: Die Formel für den Erwartungswert entspricht der Intuition:
mittlere Anzahl mal mittlere Größe der Summanden.
Um ES zu berechnen, zerlegt man das Ereignis {S = k} nach allen möglichen
Werten von Y , d.h. nach {Y = n}, n = 0, 1, 2, . . . . Nach der Formel der Totalen
Wahrscheinlichkeit erhält man somit
ES
=
=
X
k
∞
X
n=0
k · P (S = k) =
X
k·
k
P (Y = n) ·
X
∞
X
P (Y = n) · P (S = k|Y = n)
n=0
k · P (S = k|Y = n)
k
Die innere Summe stellt den sogenannten “bedingten Erwartunsgwert” dar:
Definition 6.14 Sind S : Ω → Ω0 ⊂ R und Y : Ω → Ω00 diskrete ZV und
existiert der Erwartungswert ES, dann heißt
X
E(S|Y = n) :=
k · P (S = k|Y = n)
(6.38)
k∈Ω0
der bedingte Erwartungswert von S unter Y = n und es gilt die Formel vom
iterierten Erwartungswert:
X
ES =
P (Y = n) · E(S|Y = n).
(6.39)
n∈Ω00
(Falls ES existiert, dann existiert auch E(S|Y = n). Entsprechend heißt, falls
E(S|Y = n) endlich ist,
Var (S|Y = n) := E(S 2 |Y = n) − [E(S|Y = n)]2
(6.40)
6.9. GESETZE DER GROSSEN ZAHLEN UND ZENTRALER GRENZWERTSATZ47
die bedingte Varianz von S unter Y = n und es gilt
X
P (Y = n) · E(S 2 |Y = n) − (ES)2 .
Var S =
(6.41)
n∈Ω00
Bemerkungen.
1. Mit g(n) := E(S|Y = n) kann man die Formel (6.39) auch als
X
ES =
g(n) · P (Y = n) = Eg(Y )
n∈Ω00
schreiben. g(Y ) ist eine ZV die man auch als E(S|Y ) bezeichnet und welche
nur noch den von Y stammenden Teil der Zufälligkeit von S besitzt (über
den von den Xi stammenden Teil der Zufälligkeit wird dabei gemittelt).
2. Die Bedingung Y = n gehört stets zum Erwartungs- bzw. Varianzoperator,
es gibt keine “bedingte ZV”, z.B. “S|Y = n”.
Berechnen
Pn wir nun den Erwartungswert der zufälligen Summe aus Satz 6.4.
Sei Sn = i=1 Xi . Nach der Formel der bedingten Wahrscheinlichkeit, unter
Berücksichtigung der Unabhängigkeit der ZV, gilt:
P (S = k|Y = n)
P (S = k, Y = n)
P (Sn = k, Y = n)
P (Sn = k)P (Y = n)
=
=
P (Y = n)
P (Y = n)
P (Y = n)
= P (Sn = k).
=
Eingesetzt in (6.38) ergibt sich
E(S|Y = n) =
X
k
k · P (Sn = k) = ESn =
n
X
EXi = n · EX1 .
i=1
Nach erneutem Einsetzen in (6.39) folgt
X
ES =
P (Y = n) · n · EX1 = EY · EX1 .
n
Die Formel für die Varianz der zufäligen Summe beweist man analog.
6.9
Gesetze der großen Zahlen und Zentraler
Grenzwertsatz
Bei der Durchführung einer sehr großen Anzahl von Wiederholungen eines Zufallsexperiments, z.B. Münzwurf, erwartet man dass die relativen Häufigkeiten
der Ergebnisse gegen die entsprechenden (berechneten) Wahrscheinlichkeiten
konvergieren. Sei A ein solches Ereignis mit Wahrscheinlichkeit P (A) und Xi = 1
falls A im i-ten Versuch eintritt und Xi = 0 sonst. Dann ist
EXi = 0 · P (Xi = 0) + 1 · P (Xi = 1) = P (Xi = 1) = P (A).
48
KAPITEL 6. KENNGRÖSSEN
Bei n Wiederholungen des ZufallsexperimentsP
mit Ausgängen Xi , i = 1, . . . , n
n
“erwartet” man dass der arithmetische Mittel n1 i=1 Xi den gemeinsamen Erwartungswert EX1 approximiert (alle ZV Xi sind identisch verteilt).
Im Folgenden werden diese Eigenschaften genauer präzisiert und verschiedene Konvergenzbegriffe eingeführt.
Definition 6.15 Es seien Y und Y1 , Y2 , . . . ZV über (Ω, A, P ) mit Werten in
R.
f.s.
(a) Yn konvergiert fast sicher gegen Y , kurz Yn → Y , wenn
P ({ω ∈ Ω : lim Yn (ω) = Y (ω)}) = 1,
n→∞
d.h. wenn höchstens innerhalb einer Ausnahmemenge N ∈ A mit P (N ) = 0 der
Grenzwert limn→∞ Yn (ω) nicht existiert oder 6= Y (ω) ist.
st
(b) Yn konvergiert stochastisch gegen Y , kurz Yn → Y , wenn
lim P (|Yn − Y | ≥ ε) = 0 für alle ε > 0,
n→∞
d.h. für festes ε > 0 und für jedes n darf es eine Ausnahmemenge Mn geben,
auf der |Yn − Y | > ε gilt, aber mit P (Mn ) → 0 für große n.
(r)
(c) Yn konvergiert im r-ten Mittel gegen Y , kurz Yn → Y , mit 1 ≤ r < ∞,
wenn
E|Yn − Y |r → 0.
Für r = 1 sagt man auch “konvergiert im Mittel”, für r = 2 “im quadratischen
Mittel”.
V
(d) Yn konvergiert nach Verteilung gegen Y , kurz Yn → Y , wenn
F Yn (x) → F Y (x) für alle x mit F Y stetig im Punkt x.
Bemerkungen
• Die Einschränkung “F Y stetig im Punkt x” ist nötig, wie man im folgenden Beispiel sehen kann. Sei Yn eine Folge von N (0, 1/n2 )-verteilten
ZV. Da die Streuung um den Mittelwert 0 immer kleiner wird (konvergent
gegen 0), erwartet man als Grenzwert der Folge (Yn ) (im geeigneten Sinn)
die konstante ZV Y = 0. Aber F Yn (y) = Φ(ny) konvergiert an der Stelle
y = 0 gegen Φ(0) = 0.5 6= F Y (0) = 1 (und 6= F Y (0−) = 0).
• Es gelten die Implikationen:
f.s.
st
V
Yn → Y =⇒ Yn → Y =⇒ Yn → Y ,
(r 0 )
(r)
st
Für 1 ≤ r ≤ r0 gilt: Yn → Y =⇒ Yn → Y =⇒ Yn → Y .
Die letzte Implikation ergibt sich aus dem folgenden Satz:
6.9. GESETZE DER GROSSEN ZAHLEN UND ZENTRALER GRENZWERTSATZ49
Satz 6.5 Für jede ZV Y : Ω → R und r ≥ 1, ε > 0 gilt:
P (|Y | > ε) ≤
E|Y |r
,
εr
genannt auch Chebychev-Markov-Ungleichung. Existiert EY 2 , so gilt für r = 2
P (|Y − EY | ≥ ε) ≤
Var Y
.
ε2
Definition 6.16 Man sagt: Für die ZV X1 , X2 , . . . mit EX
i < ∞ gilt das
P
n
starke bzw. das schwache Gesetz der großen Zahlen, wenn n1 i=1 (Xi − EXi )
fast sicher bzw. stochastisch gegen 0 konvergiert. Wenn die Xi identisch verteilt
sind, dann gilt
n
n
1X
1X
f.s.
st
Xi → EX1 bzw.
Xi → EX1 .
n i=1
n i=1
Satz 6.6 (Gesetze der großen Zahlen)
Seien X1 , X2 , . . . identisch verteilt mit VarXi < ∞.
(a) Sind die Xi auch stochastisch unabhängig, dann gilt das starke Gesetz
der großen Zahlen (und damit das schwache).
(b) Sind die Xi nur paarweise unkorreliert, d.h. Kov(Xi , Xj ) = 0 für alle
i 6= j, dann gilt das schwache Gesetz der großen Zahlen.
Aus den Eigenschaften der Normalverteilungen ist folgendes bekannt: Wenn
X −a
X ∼ N (a, σ 2 ) dann gilt
=: Y ∼ N (0, 1) (Standard-Normalverteilung).
σ
Pn
Dies gilt analog für Summen von ZV, allerdings nur approximativ. Sn = i=1 Xi
bezeichne die Summe der stochastisch unabhängigen, identischverteilten ZV Xi .
Dann gilt der zentrale Grenzwertsatz:
Satz 6.7 (Zentraler Grenzwertsatz)
Sind die ZV X1 , X2 , . . . stochastisch unabhängig und identisch verteilt mit
endlicher Streuung, dann konvergieren die “standardisierten” Teilsummen nach
Verteilung gegen eine N (0, 1)-verteilte ZV Y , d.h.:
Pn
Xi − n · EX1 V
Sn − ESn
= i=1√
−→ Y mit P Y = N (0, 1).
(6.42)
StrSn
n StrX1
Herunterladen