Kurzskript - Institut für Mathematische Stochastik

Werbung
Institut für Mathematische Stochastik
Einführung in die
Wahrscheinlichkeitstheorie und Statistik
(Kurzskript zur Vorlesung Wintersemester 2014/15)
von
Prof. Dr. Norbert Gaffke
Inhaltsverzeichnis
1 Wahrscheinlichkeitsräume und Zufallsvariablen
1.1 Modellierung von Zufallsexperimenten . . . . . .
1.2 Sigma-Algebra, W-Verteilung und W-Raum . . .
1.3 Diskrete W-Räume . . . . . . . . . . . . . . . . .
1.4 W-Verteilungen auf der Zahlengeraden . . . . . .
1.5 W-Verteilungen im euklidischen Raum . . . . . .
1.6 Zufallsvariablen . . . . . . . . . . . . . . . . . . .
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
1
1
3
4
7
10
13
2 Stochastische Unabhängigkeit, bedingte Wahrscheinlichkeiten
2.1 Stochastische Unabhängigkeit von Ereignissen . . . . . . . . . . .
2.2 Stochastische Unabhängigkeit von Zufallsvariablen . . . . . . . .
2.3 Modellierung unabhängiger Zufallsexperimente . . . . . . . . . .
2.4 Bedingte Wahrscheinlichkeiten . . . . . . . . . . . . . . . . . . .
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
16
16
17
19
21
3 Reelle Zufallsvariablen
3.1 Erwartungswert . . . . . . . . . .
3.2 Varianz und Standardabweichung
3.3 Kovarianz und Korrelation . . . .
3.4 Charakteristische Funktionen . .
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
23
23
27
29
30
4 Konvergenz von Folgen reeller Zufallsvariablen
4.1 Fast-sichere und stochastische Konvergenz . . . . . . . . . . . . . . . . . . . . . . . . .
4.2 Gesetze der großen Zahlen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
4.3 Konvergenz empirischer Verteilungsfunktionen . . . . . . . . . . . . . . . . . . . . . . .
33
33
34
37
5 Schwache Konvergenz von W-Verteilungen auf der
5.1 Schwache Konvergenz bzw. Verteilungskonvergenz .
5.2 Weitere Beschreibungen der schwachen Konvergenz .
5.3 Zentraler Grenzwertsatz . . . . . . . . . . . . . . . .
Zahlengeraden
. . . . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . . . .
38
38
40
41
6 Einführung in die mathematische Statistik
6.1 Statistische Modellierung . . . . . . . . . .
6.2 Maximum-Likelihood-Schätzung . . . . . .
6.3 Lineare Regression . . . . . . . . . . . . . .
6.4 Statistische Theorie der Schätzer . . . . . .
6.5 Intervallschätzer und Konfidenzintervalle . .
6.6 Testprobleme und Signifikanztests . . . . .
.
.
.
.
.
.
43
43
44
46
47
48
51
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
i
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
Kapitel 1
Wahrscheinlichkeitsräume und
Zufallsvariablen
1.1
Modellierung von Zufallsexperimenten
Der Begriff Zufallsexperiment steht hier für jeden realen Vorgang, der vom Zufall beeinflusst wird.
Typischerweise liefert ein Zufallsexperiment ein Ergebnis, das “zufällig” (zumindest teilweise) ist.
Beispiele für Zufallsexperimente:
• Glücksspiele (z.B. Münzwurf, Würfeln, Lotto)
• 0-1-Experimente (Bernoulli-Experimente), wobei z.B. “1” für Erfolg und “0” für Misserfolg steht
(z.B. Therapie, Platzierung, Schießen). Das betrachtete Zufallsexperiment kann die einmalige
Durchführung eines 0-1-Experimentes sein oder auch eine mehrmalige (z.B. die 10-malige) “unabhängige” Durchführung eines 0-1-Experimentes.
• Zufällige Anzahlen (z.B. Anzahl von Kunden oder Aufträgen, Anzahl von Verkehrsunfällen,
Anzahl radioaktiver Zerfälle)
• Lebensdauern / Ausfallzeitpunkte (z.B. von technischen Bauteilen, von Lebewesen)
• Industrielle Fertigung: Quantitative Charakteristika gefertigter Produkte (z.B. elektr. Widerstände, Festigkeit von Materialien, geometrische Abmessungen von technischen Bauteilen)
Mathematisches Modell eines Zufallsexperiments: Ein W-Raum (M, A, P ) ,
wobei die Bestandteile diese Tripels folgende Bedeutung haben.
• M ist die Menge aller möglichen Ergebnisse des Zufallsexperiments.
Die Festlegung der Ergebnismenge M kann ruhig auch ‘Redundanzen’ beinhalten, d.h. Elemente x als
‘mögliche Ergebnisse’ einbeziehen, die praktisch gar nicht möglich sind.
• A ist ein System von “Ereignissen”, denen jeweils eine Wahrscheinlichkeit zugeordnet werden
kann; ein “Ereignis” A ist eine Teilmenge von M und steht für das Ereignis, dass das Ergebnis
x des Zufallsexperiments in A liegt (x ∈ A).
• P ist eine W-Verteilung, die jedem Ereignis A ∈ A eine W’keit P (A) ∈ [ 0 , 1 ] zuordnet.
Die W-Verteilung P ist geeignet festzulegen (“Verteilungsannahme”) entsprechend dem konkret
zu beschreibenden Zufallsexperiment.
Im diskreten Fall, d.h. wenn die Ergebnismenge M abzählbar ist (z.B. endlich ist), definiert man eine
W-Verteilung
( P )einfach durch Festlegung der W’keiten für die möglichen Ergebnisse bzw. Elementarereignisse: P {x} für jedes x ∈ M ; eine ein-elementige Teilmenge {x} heißt ein Elementarereigniss und
ist natürlich im Wesentlichen dasselbe wie das Ergebnis x (formal aber sind x und {x} voneinander zu
1
Norbert Gaffke: Vorlesung “Einführung in die Wahrscheinlichkeitstheorie und Statistik”, Wintersemester 2014/15
Kapitel 1: Wahrscheinlichkeitsräume und Zufallsvariablen
2
unterscheiden); das Ereignissystem A ist P(M ) (die Potenzmenge von M ) und die W’keiten für beliebige
Ereignisse ergeben sich dann durch
∑ (
)
P (A) =
P {x}
∀A⊆M.
x∈A
In nicht-diskreten Fällen (z.B. M = R) ist die Definition interessanter W-Verteilungen komplizierter; hier
können wir uns i.A. nicht auf Elementarereignisse zurückziehen; auch kann i.A. das Ereignissystem A
nicht als die gesamte Potenzmenge P(M ) gewählt werden.
Beispiele: Modelle für einige einfache Zufallsexperimente
(
)
(1) Würfeln (einmal).
M = {1, 2, 3, 4, 5, 6} , . P {x} = 1/6 ∀ x = 1, 2, . . . , 6 .
(2) Würfeln (zweimal, unabhängig voneinander). Ein Würfel wird zweimal geworfen (erster
Wurf und zweiter Wurf), oder es werden zwei ‘unterscheidbare’ Würfel (Würfel Nr. 1 und Würfel
Nr. 2) gleichzeitig geworfen.
{
}
M = x = (x1 , x2 ) : x1 , x2 ∈ {1, 2, 3, 4, 5, 6} ,
(
)
P {x} = 1/36 ∀ x = (x1 , x2 ) ∈ M .
(3) Lotto-Ziehung ‘6 aus 49’ ohne Zusatzzahl.
{
}
M = x = (x1 , x2 , . . . , x6 ) : 1 ≤ x1 < x2 < . . . < x6 ≤ 49 , xi ∈ N (1 ≤ i ≤ 6) ,
(
)
/( )
P {x} = 1 49
∀x∈M.
6
(4) 0-1-Experiment (einmalige Durchführung).
M = {0, 1} ,
(
)
P {x} =
{
p
, falls x = 1
1 − p , falls x = 0
,
wobei p ∈ [ 0 , 1 ] gegeben ist (die ‘Erfolgswahrscheinlichkeit’). Interessanter sind mehrmalige
unabhängige Durchführungen des 0-1-Experiments:
(5) 0-1-Experiment (n-malige unabhängige Durchführung).
{
}
M = {0, 1}n = x = (x1 , x2 , . . . , xn ) : xi ∈ {0, 1} ∀ i = 1, . . . , n ,
n
(
)
∑
P {x} = pS(x) (1 − p)n−S(x) ∀ x = (x1 , . . . , xn ) ∈ M , wobei S(x) =
xi .
i=1
(6) Eine zufällige Anzahl: Binomial-Modell.
Zufallsexperiment: Ein 0-1-Experiment (mit Erfolgswahrscheinlichkeit p ∈ [ 0 , 1 ] ) wird n-mal
unabhängig durchgeführt, und als Ergebnis wird lediglich die Anzahl der erzielten Erfolge festgehalten. Modell:
( )
(
)
n x
M = { 0, 1, 2, . . . , n } ,
P {x} =
p (1 − p)n−x ∀ x = 0, 1, . . . , n .
x
(6) Eine zufällige Anzahl: Poisson-Modell.
Z.B.: Die Anzahl der Ankünfte von Kunden oder Aufträgen in einer Service-Station in einem
definierten Zeitraum; die Anzahl von Verkehrsunfällen in einer definierten Region in einem definierten Zeitraum; die Anzahl verkaufter Produkte in einem definierten Zeitraum; die Anzahl
registrierter Impulse in der Umgebung einer radioaktiven Substanz in einem definierten Zeitraum.
Ein oft verwendetes Modell:
(
)
λx
M = N0 ,
P {x} = e−λ
∀ x ∈ N0 ,
x!
mit einem geeigneten λ ∈ ( 0 , ∞).
Norbert Gaffke: Vorlesung “Einführung in die Wahrscheinlichkeitstheorie und Statistik”, Wintersemester 2014/15
Kapitel 1: Wahrscheinlichkeitsräume und Zufallsvariablen
1.2
Sigma-Algebra, W-Verteilung und W-Raum
Definition 1.1 (Sigma-Algebra)
Seien M eine nicht-leere Menge und A ⊆ P(M ) (Potenzmenge von M ). Das Mengensystem A heißt
eine Sigma-Algebra in M , wenn es die folgenden drei Bedingungen erfüllt.
(i) M ∈ A .
(ii) Wenn A ∈ A, dann Ac ∈ A (wobei Ac = M \ A).
(iii) Wenn An ∈ A für alle n ∈ N, dann
∞
∪
An ∈ A .
n=1
Wenn A eine Sigma-Algebra in M ist, dann heißt das Paar (M, A) ein Messraum oder ein messbarer
Raum.
Folgerung:
Man zeigt leicht, dass eine Sigma-Algebra A in M auch folgende Eigenschaften hat:
Wenn A, B ∈ A, dann A ∪ B ∈ ∩
A , A ∩ B ∈ A und A \ B ∈ A ;
∞
wenn An ∈ A ∀ n ∈ N , dann
n=1 An ∈ A .
Insbesondere für überabzählbare Mengen M (wie M = R oder M = Rk ) wird die folgende implizite
Definition von interessanten Sigma-Algebren wichtig.
Lemma 1.2 (Erzeugte Sigma-Algebra)
Seien M eine nicht-leere Menge und E ⊆ P(M ) . Dann:
Es existiert genau eine Sigma-Algebra A0 in M , die die beiden folgenden Bedingungen (1) und (2)
erfüllt.
(1) E ⊆ A0 .
(2) Für jede Sigma-Algebra A in M mit E ⊆ A gilt A0 ⊆ A .
Die Sigma-Algebra A0 heißt die von E erzeugte Sigma-Algebra in M ;
abkürzende Schreibweise: A0 = σ(E)
Definition 1.3 (W-Verteilung)
Seien (M, A) ein Messraum und P : A −→ [ 0 , 1 ] . Die Funktion P heißt eine W-Verteilung auf
(M, A), wenn P die folgenden beiden Bedingungen erfüllt.
(i) P (∅) = 0 und P (M ) = 1 .
(ii) Wenn An ∈ A (n ∈ N) eine Folge paarweise disjunkter Mengen ist, dann
P
(∪
∞
n=1
)
An
=
∞
∑
( )
P An .
n=1
(Diese Bedingung nennt man die Sigma-Additivität von P ).
Wenn P eine W-Verteilung auf (M, A) ist, dann heißt das Tripel (M, A, P ) ein W-Raum.
3
Norbert Gaffke: Vorlesung “Einführung in die Wahrscheinlichkeitstheorie und Statistik”, Wintersemester 2014/15
Kapitel 1: Wahrscheinlichkeitsräume und Zufallsvariablen
4
Bemerkung Eine W-Verteilung P hat insbesondere die Eigenschaft der Additivität :
Wenn A, B ∈ A und A ∩ B = ∅, dann P (A ∪ B) = P (A) + P (B) .
Desweiteren implizieren Bedingungen (i), (ii) von Definition 1.3 weitere Eigenschaften:
Lemma 1.4 (Weitere Eigenschaften einer W-Verteilung)
Sei (M, A, P ) ein W-Raum. Dann gilt:
(1) Wenn A, B ∈ A und A ⊆ B, dann P (A) ≤ P (B) und P (B \ A) = P (B) − P (A) .
( )
Insbesondere:
P Ac = 1 − P (A) ∀ A ∈ A .
(2) Wenn An ∈ A für alle n ∈ N , dann P
(∪
∞
n=1
)
∞
( )
∑
An ≤
P An .
n=1
(3) Wenn An ∈ A (n ∈ N) eine isotone Mengenfolge ist (d.h. An ⊆ An+1 ∀ n ∈ N) ,
(∪
)
∞
dann: P
An = lim P (An ) . (Stetigkeit von unten)
n=1
n→∞
Wenn Bn ∈ A (n ∈ N) eine antitone Mengenfolge ist (d.h. Bn+1 ⊆ Bn ∀ n ∈ N) ,
(∩
)
∞
dann: P
Bn = lim P (Bn ) . (Stetigkeit von oben)
n=1
n→∞
Für Situationen, in denen eine Sigma-Algebra nur “implizit” durch einen Erzeuger definiert ist, ist
das folgende “Eindeutigkeitsresultat” für W-Verteilungen interessant.
Lemma 1.5 (Durchschnitt-stabiler Erzeuger / Eindeutigkeitsresultat)
Sei E ⊆ P(M ) ein durchschnitt-stabiles Mengensystem, d.h.:
Wenn E, F ∈ E, dann E ∩ F ∈ E .
Sei A = σ(E) , und seien P1 und P2 zwei W-Verteilungen auf (M, A) , die auf E übereinstimmen:
P1 (E) = P2 (E) ∀ E ∈ E . Dann folgt: P1 = P2 , d.h. P1 (A) = P2 (A) ∀ A ∈ A .
1.3
Diskrete W-Räume
Kleiner Exkurs: Abzählbare Summation nicht-negativer erweitert-reeller Zahlen
Seien
∑ I eine nicht-leere abzählbare Menge und ai ∈ [ 0 , ∞] = [ 0 , ∞) ∪ {∞} ∀ i ∈ I . Dann wird
ai ∈ [ 0 , ∞] wie folgt definiert.
i∈I
(0) Im Fall, dass ai0 = ∞ für mindestens ein i0 ∈ I, wird definiert:
∑
i∈I
(1) Im Fall, dass ai < ∞ ∀ i ∈ I, wird definiert:
(a) Wenn I endlich ist, |I| = r und I = {i1 , . . . , ir } , dann
r
∑
∑
ai :=
ain .
i∈I
n=1
ai := ∞ .
Norbert Gaffke: Vorlesung “Einführung in die Wahrscheinlichkeitstheorie und Statistik”, Wintersemester 2014/15
Kapitel 1: Wahrscheinlichkeitsräume und Zufallsvariablen
5
(b) Wenn I unendlich ist, dann sei eine bijektive Abbildung σ : N −→ I gewählt, und
∞
∞
∑
∑
∑
ai :=
aσ(n) , wobei im Fall der (bestimmten) Divergenz der Reihe:
aσ(n) := ∞
.i∈I
n=1
n=1
Anmerkung: Nach dem Umordnungssatz für absolut konvergente Reihen ist damit
∑
ai wohl-
i∈I
definiert, d.h. unabhängig von der speziellen Wahl der Abzählung σ.
Weiterhin ist es nützlich, auch die Summation über die leere Indexmenge zuzulassen; wir definieren:
∑
ai := 0 .
i∈∅
Folgerung 1:
∑
{∑
}
ai = sup
ai : E ⊆ I , E endlich .
i∈I
i∈E
(Das Supremum einer nicht-leeren Teilmenge S ⊆ [ 0 , ∞] ist das kleinste c ∈ [ 0 , ∞] mit s ≤ c ∀ s ∈ S ;
außerdem wird hier definiert: sup ∅ := 0).
Folgerung 2:
Sei eine disjunkte Zerlegung von I in abzählbar viele Teilmengen gegeben:
∪
I = k∈K Ik , wobei K abzählbar und Ik ⊆ I , (k ∈ K) , paarweise disjunkt .
∑
∑ (∑ )
ai =
ai .
i∈I
Dann:
k∈K i∈Ik
Lemma 1.6 (Diskrete W-Verteilung und Zähldichte)
Sei M eine nicht-leere abzählbare Menge, und A = P(M ) (die Potenzmenge von M ).
(
)
(a) Sei P eine W-Verteilung auf M, P(M ) ; betrachte die Zähldichte von P , d.h. die reelle Funktion
f : M −→ R definiert durch
(
)
f (x) := P {x} ∀ x ∈ M.
Diese Funktion erfüllt die Bedingung
f (x) ≥ 0 ∀ x ∈ M
und
∑
f (x) = 1 ,
(∗)
x∈M
und es gilt
P (A) =
∑
f (x) ∀ A ⊆ M .
x∈A
(b) Sei umgekehrt eine reelle Funktion f : M −→ R gegeben, die die Bedingung (∗) erfüllt;
dann ist durch
∑
P (A) :=
f (x) ∀ A ⊆ M
(
x∈A
)
eine W-Verteilung auf M, P(M ) definiert.
Bemerkung:
(
)
Wenn M abzählbar und P eine W-Verteilung auf M, P(M ) sind, dann nennen wir (M, P(M ), P ) einen
diskreten W-Raum, für den wir auch einfach (M, P ) schreiben.
Norbert Gaffke: Vorlesung “Einführung in die Wahrscheinlichkeitstheorie und Statistik”, Wintersemester 2014/15
Kapitel 1: Wahrscheinlichkeitsräume und Zufallsvariablen
Definition 1.7 (Spezielle diskrete W-Verteilungen)
In den nachfolgend genannten Fällen (1) – (6) wird jeweils (eine abzählbare
Menge M spezifiziert und
)
durch Angabe einer Zähldichte f eine W-Verteilung P auf M, P(M ) definiert.
(1) Sei M irgendeine nicht-leere endliche Menge. Die Gleichverteilung auf M , Abk.: P = U(M ) ,
ist durch die konstante Zähldichte definiert:
1
für alle x ∈ M .
f (x) =
|M |
(2) Sei M = { 0, 1, . . . , n } für ein gegebenes n ∈ N, und sei noch p ∈ [ 0 , 1 ] gegeben.
Die Binomialverteilung zu den Parameterwerten n und p, Abk.: P = Bi(n, p), ist durch die
Zähldichte definiert:
( )
n x
f (x) =
p (1 − p)n−x für alle x = 0, 1, . . . , n .
x
(3) Sei M = { 0, 1, . . . , n } für ein gegebenes n ∈ N, und seien noch N ∈ N, s ∈ N0 mit N ≥ s und
N ≥ n gegeben. Die hypergeometrische Verteilung zu den Parameterwerten N , s und n,
Abk.: P = Hyp(N, s, n) , ist durch die Zähldichte definiert:
( s ) (N −s)
f (x) =
x
(Nn−x
)
für alle x = 0, 1, . . . , n .
n
(4) Seien M = N0 und λ eine gegebene positive reelle Zahl. Die Poisson-Verteilung zum Parameterwert λ, Abk.: P = Poi(λ) , ist durch die Zähldichte definiert:
λx
für alle x ∈ N0 .
f (x) = e−λ ·
x!
{
}
(5) Seien M = x ∈ N : x ≥ r mit einem gegebenen r ∈ N, und sei noch p ∈ ( 0 , 1) gegeben.
Die negative Binomialverteilung zu den Parameterwerten r und p, Abk.: P = NegBi(r, p) , ist
durch die Zähldichte definiert:
(
)
r x−1
f (x) = p
(1 − p)x−r für alle x = r, r + 1, r + 2, . . . .
r−1
Im Fall r = 1, d.h. M = N und P (x) = p (1 − p)x−1 für alle x ∈ N ,
heißt NegBi(r, p) auch die geometrische Verteilung zum Parameterwert p, Abk.: Geo(p) .
{
}
∑k
(6) Sei M = x = (x1 , x2 , . . . , xk ) ∈ Nk0 :
x
=
n
, für gegebene k ∈ N, k ≥ 2, und n ∈ N,
j
j=1
∑k
und seien noch p1 , p2 , . . . , pk ∈ [ 0 , 1 ] mit
j=1 pj = 1 gegeben. Die Multinomialverteilung
zu den Parameterwerten n und p1 , p2 , . . . , pk , Abk.: P = Mu(n; p1 , p2 , . . . , pk ) , ist durch die
Zähldichte definiert:
n!
f (x) =
px1 1 px2 2 · · · pxk k ∀ x = (x1 , x2 , . . . , xk ) ∈ M .
x1 ! x2 ! · · · xk !
Diskrete Verteilungen von Definition 1.7 : Typische Zufallsexperimente
(1) Gleichverteilung
Ein Objekt wird “rein (zufällig” aus
) einer endlichen Grundgesamtheit M gezogen.
Modell: Der W-Raum M, U(M ) .
(2) Binomialverteilung
n-malige unabhängige Durchführung eines 0-1-Experiments mit Wahrscheinlichkeit p für “1”
und 1 − p für “0”, und als Ergebnis des (Gesamt-)Experiments
(
)wird die Anzahl der erzielten
“1”-en festgehalten. Modell: Der W-Raum {0, 1, . . . , n}, Bi(n, p) .
6
Norbert Gaffke: Vorlesung “Einführung in die Wahrscheinlichkeitstheorie und Statistik”, Wintersemester 2014/15
Kapitel 1: Wahrscheinlichkeitsräume und Zufallsvariablen
7
(3) Hypergeometrische Verteilung
Gegeben eine Grundgesamtheit mit N Objekten; jedes Objekt trägt einen binären (0-1-wertigen)
Merkmalswert (z.B. gut/schlecht); insgesamt haben genau s Objekte den Merkmalswert “1”.
Zufallsexperiment: Es wird eine Zufallsstichprobe vom Umfang n aus der Grundgesamtheit gezogen (Ziehen ohne Zurücklegen), und als Ergebnis wird die (Anzahl aller Objekte der Stichprobe
)
mit Merkmalswert “1” festgehalten. Modell: Der W-Raum {0, 1, . . . , n} , Hyp(N, s, n) .
(4) Poisson-Verteilung
Eine zufällige Anzahl, die nicht von vorne herein nach oben beschränkt ist (im
( Unterschied
) zu
(2) und (3)), kann oft näherungsweise modelliert werden durch den W-Raum N0 , Poi(λ) (mit
einem geeigneten λ > 0). Konkretere Beispiele etwa: Anzahl von Kunden, die innerhalb eines
definierten Zeitraumes eine bestimmte Service-Station besuchen; Anzahl der zerfallenen Teilchen
einer radioaktiven Substanz in einem definierten Zeitraum.
(5) Negative Binomialverteilung, insbes. Geometrische Verteilung
Ein 0-1-Experiment mit Wahrscheinlichkeit p für “1” und 1 − p für “0” wird so oft unabhängig
durchgeführt, bis “1” r-mal aufgetreten ist (z.B. “warten auf den r-ten Erfolg”). Die Anzahl
der benötigten
Durchführungen ist das Ergebnis
des (Gesamt-)Zufallsexperiments. Modell: Der
(
)
W-Raum {r, r + 1, r + 2, . . .} , NegBi(r, p) .
(6) Multinomialverteilung
Das Zufallsexperiment bestehe in der n-maligen unabhängigen Durchführung eines Einzelexperiments, das k mögliche verschiedene Ergebnisse a1 , a2 , . . . , ak hervorbringen kann, und zwar
mit den jeweiligen W’keiten p1 , p2 , . . . , pk . Als Ergebnis des (Gesamt-)Experiments werde nur
festgehalten x = (x1 , x2 , . . . , xk ) mit
(1 ≤ j ≤ k) .
xj = Anzahl des Auftretens von aj
(
)
Modell: Der W-Raum M , Mu(n; p1 , p2 , . . . , pk ) mit
M =
{
}
k
∑
x = (x1 , x2 , . . . , xk ) ∈ Nk0 :
xj = n .
j=1
1.4
W-Verteilungen auf der Zahlengeraden
Hier beschäftigen wir uns mit W-Verteilungen im Fall M = R . Zunächst ist eine geignete SigmaAlgebra zu definieren.
Definition 1.8 (Borelsche Sigma-Algebra in R)
Bezeichne I 1 das System aller links offenen und rechts abgeschlossenen Intervalle endlicher Länge:
{
}
I 1 = (a , b ] : a, b ∈ R , a ≤ b .
Die von I 1 in R erzeugte Sigma-Algebra heißt die Borelsche Sigma-Algebra in R, und wir bezeichnen
sie mit B1
Bemerkung:. Andere Erzeuger der Borelschen Sigma-Algebra
Es lassen sich viele andere Mengensysteme in R finden, die ebenfalls Erzeuger von B1 sind, z.B. die
links unbeschränkten und rechts abgeschlossenen Intervalle:
{
}
(−∞ , b ] : b ∈ R .
Norbert Gaffke: Vorlesung “Einführung in die Wahrscheinlichkeitstheorie und Statistik”, Wintersemester 2014/15
Kapitel 1: Wahrscheinlichkeitsräume und Zufallsvariablen
8
W-Verteilungen auf (R, B 1 ) können wir nicht elementar direkt definieren, zumindest nicht die ”stetigen” W-Verteilungen (s.unten). Elementar definierbar
sind) jedoch diskrete W-Verteilungen auf (R, B1 ) :
(
Dies sind effektiv diskrete W-Verteilungen auf M, P(M ) wie in Abschnitt 1.3 , wobei M eine abzählbare Teilmenge von R ist, z.B. M = {0, 1 . . . , n} für ein gegebenes n ∈ N , oder M = N0 . Es gilt
nämlich:
Lemma 1.9 (Diskrete W-Verteilungen auf (R, B 1 ))
(
)
Sei M eine nicht-leere, abzählbare Teilmenge von R , und sei P eine W-Verteilung auf M, P(M ) .
Dann können wir P zu einer W-Verteilung auf (R, B 1 ) machen:
P (A) := P (A ∩ M ) ∀ A ∈ B 1 .
Anmerkung: Dies ist eine triviale Fortsetzung der W-Verteilung P ; es gilt offensichtlich: P P(M ) = P , und
P (R \ M ) = 0 . Im Wesentlichen sind P und P dasselbe, aber formal verschieden.
Ein wichtiges Hilfsmittel zur Beschreibung beliebiger W-Verteilungen auf (R, B1 ) erweist sich der Begriff der Verteilungsfunktion.
Definition 1.10 (Verteilungsfunktion)
Eine Verteilungsfunktion auf R ist eine Funktion F : R −→ [ 0 , 1 ] mit den folgenden Eigenschaften
(i), (ii) und (iii).
(i) F ist isoton;
(ii) F ist rechtsseitig stetig;
(iii)
lim F (x) = 0
x→−∞
und
lim F (x) = 1 .
x→∞
Lemma 1.11 (Verteilungsfunktion einer W-Verteilung auf (R, B 1 ))
Sei P eine W-Verteilung auf (R, B 1 ). Definiere die Funktion
(
)
FP : R −→ [ 0 , 1 ] ,
FP (x) := P (−∞ , x ]
∀ x ∈ R.
Dann gilt: FP ist eine Verteilungsfunktion, und desweiteren:
(
)
P (a , b ]
= FP (b) − FP (a) ∀ a, b ∈ R , a ≤ b ;
( )
P {c} = FP (c) − FP (c -) ∀ c ∈ R,
wobei FP (c -) :=
lim
x→c, x<c
FP (x) .
Bemerkung: Stetige W-Verteilung
Wenn P eine W-Verteilung auf (R, B 1 ) ist, deren Verteilungsfunktion FP stetig ist, dann nennen wir P
eine stetige W-Verteilung
( ) (im Kontrast zu einer diskreten W-Verteilung). Nach Lemma 1.11 ist P genau
dann stetig, wenn P {c} = 0 ∀ c ∈ R.
Das entscheidende Resultat über Verteilungsfunktionen ist nun, dass eine “Eins-zu Eins-Korrespondenz”
zwischen Verteilungsfunktionen und W-Verteilungen auf (R, B 1 ) besteht.
Norbert Gaffke: Vorlesung “Einführung in die Wahrscheinlichkeitstheorie und Statistik”, Wintersemester 2014/15
Kapitel 1: Wahrscheinlichkeitsräume und Zufallsvariablen
Theorem 1.12 (Korrespondenz:
9
W-Verteilung ←→ Verteilungsfunktion)
Bezeichne V(R) die Menge aller Verteilungsfunktionen auf R und W(R, B 1 ) die Menge aller WVerteilungen auf (R, B 1 ). Dann ist durch P 7−→ FP eine bijektive Abbildung von W(R, B 1 ) auf
V(R) gegeben.
Die für uns wichtigen stetigen W-Verteilungen sind sogar Lebesgue-stetig, d.h. sie besitzen eine LebesgueDichte im Sinne des nachfolgenden Lemmas.
Lemma 1.13 (W-Verteilung mit Lebesgue-Dichte)
∫
∞
Sei f : R −→ [ 0 , ∞) eine über R integrierbare Funktion mit
f (x) dx = 1 .
−∞
∫ z
Dann ist durch
F (z) :=
f (x) dx ∀ z ∈ R
−∞
eine (stetige) Verteilungsfunktion auf R gegeben und damit eine W-Verteilung P auf (R, B 1 ).
Man sagt: P besitzt die Lebesgue-Dichte f .
Bemerkung: W’keiten als Integrale der Lebesgue-Dichte
Die W-Verteilung P besitze die Lebesgue-Dichte f . Dann:
(
P [a, b]
)
∫
=
b
f (x) dx
∀ a, b ∈ R , a ≤ b ;
(
P [ a , ∞)
)
a
∫
=
∞
f (x) dx ∀ a ∈ R .
a
Darüber hinaus, wenn wir die allgemeinere Theorie des Lebesgue-Integrals einbeziehen:
∫
P (A) =
f dµ ∀ A ∈ B 1
(µ das eindimensionale Lebesgue-Maß).
A
Definition 1.14 (Spezielle Lebesgue-stetige W-Verteilungen)
In den nachfolgenden Fällen (1)–(6) wird jeweils eine W-Verteilung P auf (R, B 1 ) durch eine LebesgueDichte f definiert.
(1) Seien β ∈ R und σ ∈ ( 0 , ∞) gegeben. Die Normalverteilung zu den Parameterwerten β und σ 2 ,
Abk.: P = N(β, σ 2 ) , ist definiert durch die Lebesgue-Dichte:
)
(
1
1 ( x − β )2
∀ x ∈ R.
f (x) = √
exp −
2
σ
σ 2π
(2) Seien c, d ∈ R mit c < d gegeben. Die Rechteck-Verteilung oder die Gleichverteilung auf dem
Intervall ( c , d ) , Abk.: P = R(c, d) , ist definiert durch die Lebesgue-Dichte:
{
1/(d − c) , falls c < x < d
f (x) =
∀ x ∈ R.
0
, sonst
(3) Sei λ ∈ ( 0 , ∞) gegeben. Die Exponentialverteilung zum Parameterwert λ, Abk.: P = Exp(λ) ,
ist definiert durch die Lebesgue-Dichte:
(
)
{
λ exp −λ x
, falls x > 0
f (x) =
∀ x ∈ R.
0
, sonst
Norbert Gaffke: Vorlesung “Einführung in die Wahrscheinlichkeitstheorie und Statistik”, Wintersemester 2014/15
Kapitel 1: Wahrscheinlichkeitsräume und Zufallsvariablen
10
(4) Seien c, λ ∈ ( 0 , ∞) gegeben. Die Weibull-Verteilung zu den Parameterwerten c und λ,
Abk.: P = Wei(c, λ) , ist definiert durch die Lebesgue-Dichte:
(
)
{
c λc xc−1 exp −(λx)c
, falls x > 0
f (x) =
∀ x ∈ R.
0
, sonst
(5) Seien c, λ ∈ ( 0 , ∞) gegeben. Die Gamma-Verteilung zu den Parameterwerten c und λ,
Abk.: P = Ga(c, λ) , ist definiert durch die Lebesgue-Dichte:
{ c
(
)
λ
xc−1 exp −λx
, falls x > 0
Γ(c)
f (x) =
∀ x ∈ R,
0
, sonst
wobei Γ die Gamma-Funktion bezeichnet, d.h.
∫ ∞
Γ(c) =
tc−1 exp( −t ) dt .
0
(6) Seien β ∈ R und σ ∈ ( 0 , ∞) gegeben. Die Log-Normalverteilung zu den Parameterwerten β und
σ 2 , Abk.: P = LogN(β, σ 2 ) , ist definiert durch die Lebesgue-Dichte:
(
)
1
1
1 ( ln(x) − β )2
f (x) = √
exp −
∀ x ∈ ( 0 , ∞) ; f (x) = 0 ∀ x ≤ 0 .
2
σ
σ 2π x
Bemerkung: Modellierung
Exponential- und Weibull-Verteilungen sowie auch Gamma-Verteilungen werden insbesondere zur Modellierung zufälliger Lebensdauern verwendet. Beispiele zur Verwendung von Normalverteilungen und
Log-Normalverteilungen: Charakteristik eines gefertigten Produkts (z.B. Dicke eines Bleches, Länge eines Stiftes, Widerstand eines elektrischen Bauteils). Insbesondere Normalverteilungen werden in vielen
weiteren Situationen zur Modellierung verwendet.
1.5
W-Verteilungen im euklidischen Raum
Wir betrachten den k-dimensionalen euklidischen Raum Rk , (k ∈ N gegeben). In Verallgemeinerung
von Definition 1.8 definiert man die Borelsche Sigma-Algebra in Rk wie folgt.
Definition 1.15 (Borelsche Sigma-Algebra in Rk )
Bezeichne I k das System aller ”links offenen und rechts abgeschlossenen” achsen-parallelen Quader :
{
}
I k = ( a , b ] : a, b ∈ Rk , a ≤ b ,
wobei für a = (a1 , . . . , ak ) ∈ Rk und b = (b1 , . . . , bk ) ∈ Rk definiert sei:
a ≤ b : ⇐⇒ ai ≤ bi ∀ i = 1, . . . , k ;
und für a, b ∈ Rk mit a ≤ b :
a < b : ⇐⇒ ai < bi ∀ i = 1, . . . , k ;
{
}
k
( a , b ] := x ∈ Rk : a < x ≤ b = × ( ai , bi ] .
i=1
Die von I k in Rk erzeugte Sigma-Algebra heißt die Borelsche Sigma-Algebra in Rk , und wir bezeichnen
sie mit Bk
Bemerkung: Andere Erzeuger von B k
Es ist nicht schwer zu zeigen, dass jedes der folgenden Mengensysteme ebenfalls ein Erzeuger der
Borelschen Sigma-Algebra B k ist.
Norbert Gaffke: Vorlesung “Einführung in die Wahrscheinlichkeitstheorie und Statistik”, Wintersemester 2014/15
Kapitel 1: Wahrscheinlichkeitsräume und Zufallsvariablen
11
(i) {
Das System aller abgeschlossenen
nicht-degenerierten achsen-parallelen Quader:
}
{
}
k
[ a , b ] : a, b ∈ R , a < b , wobei [ a , b ] : x ∈ Rk : a ≤ x ≤ b ;
{
(ii) das System
k
× (−∞ , bi ] : b = (b1 , . . . , bk ) ∈ Rk
}
;
i=1
{
(iii) das System
k
× Ai : Ai ∈ B 1 ∀ i = 1, . . . , k
}
;
i=1
(iv) das System aller offenen Teilmengen von Rk ;
(v) das System aller abgeschlossenen Teilmengen von Rk ;
(vi) das System aller kompakten Teilmengen von Rk .
Analog zum Fall der Dimension k = 1 lassen sich diskrete W-Verteilungen auf (Rk , B k ) auf simple
Weise gewinnen:
Lemma 1.16 (Diskrete W-Verteilungen auf (Rk , B k ))
(
)
Sei M eine nicht-leere, abzählbare Teilmenge von Rk , und sei P eine W-Verteilung auf M, P(M ) .
Dann können wir P zu einer W-Verteilung P auf (Rk , B k ) fortsetzen:
P (A) := P (A ∩ M ) ∀ A ∈ B k .
Beispiel: Multinomial-Verteilung (s. Definition 1.7, Punkt (6)).
Die Korrespondenz zwischen W-Verteilungen und Verteilungsfunktionen im Fall k = 1 (Theorem 1.12)
lässt sich auf beliebige Dimension k ≥ 1 verallgemeinern, was hier aber nicht dargestellt werden soll
(weil recht aufwändig). Als “stetige” W-Verteilungen auf (Rk , B k ) seien hier nur die Lebesgue-stetigen
W-Verteilungen genannt, die also eine Lebesgue-Dichte besitzen. Hier wird der Begriff des LebesgueIntegrals der Analysis verwendet; µ bezeichne das k-dimensionale Lebesgue-Maß.
Lemma 1.17 (W-Verteilung auf (Rk , B k ) mit Lebesgue-Dichte)
∫
k
Sei f : R −→ [ 0 , ∞) eine Lebesgue-integrierbare Funktion mit
f dµ = 1 .
Rk
∫
∫
Dann ist durch
P (A) :=
f dµ :=
f 1 A dµ
∀ A ∈ Bk
A
Rk
eine W-Verteilung P auf (Rk , Bk ) gegeben. Man sagt: P besitzt die Lebesgue-Dichte f .
Dabei bezeichnet 1 A die Indikatorfunkttion von A ⊆ Rk , d.h.
{
1 , falls x ∈ A
1 A (x) =
0 , falls x ∈ Ac
,
∀ x ∈ Rk .
Von besonderem Interesse sind Lebesgue-Dichten, die aus k “eindimensionalen” Lebesgue-Dichten
durch ein Produkt gewonnen werden:
Norbert Gaffke: Vorlesung “Einführung in die Wahrscheinlichkeitstheorie und Statistik”, Wintersemester 2014/15
Kapitel 1: Wahrscheinlichkeitsräume und Zufallsvariablen
12
Lemma 1.18 (Produkt von k Lebesgue-stetigen W-Verteilungen auf (R, B 1 ))
∫ ∞
Seien f1 , . . . , fk mit fi : R −→ [ 0 , ∞) und
fi (x) dx = 1 , für alle i = 1, . . . , k.
−∞
Bezeichne Pi die W-Verteilung auf (R, B 1 ) mit Lebesgue-Dichte fi (s. Lemma 1.13), i = 1, . . . , k.
Definiere:
k
∏
k
f : R −→ [ 0 , ∞) ,
f (x) =
fi (xi ) ∀ x = (x1 , . . . , xk ) ∈ Rk .
i=1
Dann erfüllt f die Bedingungen von Lemma 1.17; die W-Verteilung P auf (Rk , B k ) mit der LebesgueDichte f heißt das Produkt der W-Verteilungen P1 , . . . , Pk , Abk.:
k
P = ⊗ Pi .
i=1
Beispiel: Produkt von Normalverteilungen
Seien Pi = N(βi , σi2 ) mit βi ∈ R, σi ∈ ( 0 , ∞) , i = 1, . . . , k. Dann ist die Lebesgue-Dichte von
k
P = ⊗ N(βi , σi2 ) gemäß Lemma 1.18 gegeben durch:
i=1
f (x) =
k (
∏
i=1
( (x − β )2 )
1
√ exp − i 2 i
2σi
σi 2π
)
= (2π)
−k/2
k
(∏
i=1
σi2
)−1/2
(
)
k
∑
(xi − βi )2
1
exp − 2
.
σi2
i=1
Unter Verwendung von etwas Matrix-Formalismus, wenn x als Spaltenvektor (geschrieben) ist und wir
den (Spalten-)Vektor β = (β1 , . . . , βk )t und die Diagonalmatrix D = diag σ12 , . . . , σk2 einführen,
können wir die Dichte f auch so schreiben:
(
)
(
)−1/2
f (x) = (2π)−k/2 det(D)
exp − 21 (x − β)t D −1 (x − β) .
Allgemeiner definiert man eine k-dimensionale Normalverteilung (die nicht Produnkt von ein-dimensionalen
Normalverteilungen sein muss) wie folgt.
Definition 1.19 (k-dimensionale Normalverteilung)
Seien β = (β1 , . . . , βk )t ∈ Rk und V eine positiv definite (reelle) k × k Matrix (also V symmetrisch und
at V a > 0 für alle (Spalten-)Vektoren a ∈ Rk \{0} ). Die Normalverteilung N(β, V ) ist die W-Verteilung
auf (Rk , B k ) mit der Lebesgue-Dichte
(
)
(
)−1/2
f (x) = (2π)−k/2 det(V )
exp − 12 (x − β)t V −1 (x − β) , x ∈ Rk .
Norbert Gaffke: Vorlesung “Einführung in die Wahrscheinlichkeitstheorie und Statistik”, Wintersemester 2014/15
Kapitel 1: Wahrscheinlichkeitsräume und Zufallsvariablen
1.6
Zufallsvariablen
In diesem Abschnitt gehen wir von einem W-Raum (Ω, C, P) und einem Messraum (M, A) aus.
Definition 1.20 (Messbare Abbildung / Zufallsvariable)
Eine Abbildung X : Ω −→ M heißt messbar (bezgl. der Sigma-Algebren C und A), wenn gilt:
X −1 (A) ∈ C
∀A∈A.
Dabei bezeichnet X −1 (A) für A ⊆ M das Urbild von A unter der Abbildung X, d.h.
{
}
X −1 (A) = ω ∈ Ω : X(ω) ∈ A .
Statt X −1 (A) schreiben wir auch {X ∈ A} .
Eine messbare Abbildung X : Ω −→ M heißt eine Zufallsvariable (auf Ω mit Werten in M ).
Lemma 1.21 (Verteilung einer Zufallsvariablen)
Sei X : Ω −→ M eine Zufallsvariable. Definiere PX : A −→ [ 0 , 1 ] durch:
(
)
PX (A) := P X −1 (A)
∀ A ∈ A.
Dann ist PX eine W-Verteilung auf (M, A) ; sie heißt die Verteilung von X .
Anmerkung: Andere gebräuchliche Bezeichnungen für PX sind X(P) und PX .
Spezialfall: Diskrete Zufallsvariable
Wenn M abzählbar ist und A = P(M ) , dann nennen wir eine Zufallsvariable X : Ω −→ M eine
diskrete Zufallsvariable. Ihre Verteilung ist durch ihre Zähldichte vollständig beschrieben:
(
)
PX {x} = P(X = x)
∀x∈M,
{
}
(
)
wobei {X = x} = ω ∈ Ω : X(ω) = x und P(X = x) = P {X = x} .
Bemerkung: Zufallsexperiment: Modellformulierung mit Zufallsvariablen
Der W-Raum (M, A, P ) sei das Modell für ein Zufallsexperiment. Eine virtuell andere (aber äquivalente) Modellformulierung ist die folgende.
Gegeben sei ein W-Raum (Ω, C, P) (der meistens nicht konkretisiert wird) und eine Zufallsvariable
X : Ω −→ M (die ebenfalls meistens nicht näher spezifiziert wird, außer ihrer Verteilung, s. unten).
Ein Ergebnis x ∈ M des Zufallsexperiments wird als Wert der Zufallsvariablen X aufgefasst, (der Zufall
wählt ein Element ω ∈ Ω und das Ergebnis des Zufallsexperiments ist dann x = X(ω)). Die Verteilung PX
der Zufallsvariablen X ist geeignet festzulegen: PX = P .
13
Norbert Gaffke: Vorlesung “Einführung in die Wahrscheinlichkeitstheorie und Statistik”, Wintersemester 2014/15
Kapitel 1: Wahrscheinlichkeitsräume und Zufallsvariablen
14
Lemma 1.22 (Komposition messbarer Abbildungen)
Seien (Ω, C, P) ein W-Raum , (M, A) und (N, B) zwei Messräume, X : Ω −→ M eine Zufallsvariable
und T : M −→ N eine messbare Abbildung (bezgl. der Sigma-Algebren A und B). Betrachte die
Komposition
(
)
T ◦ X : Ω −→ N ,
(T ◦ X)(ω) = T X(ω) ∀ ω ∈ Ω .
Dann ist T ◦ X eine Zufallsvariable (auf Ω mit Werten in N ) , und für ihre Verteilung gilt:
PT ◦X =
(
PX
)T
.
Definition 1.23 (Produkt-Sigma-Algebra)
Seien n ≥ 2 Messräume (Mi , Ai ) , i = 1, . . . , n, gegeben. Betrachte das cartesische Produkt
n
M := × Mi .
i=1
n
Die Produkt-Sigma-Algebra A = ⊗ Ai ist die Sigma-Algebra in M , die erzeugt
i=1
wird vom Mengensystem
E :=
{
n
× Ai : Ai ∈ Ai , i = 1, . . . , n
}
.
i=1
Beispiel: Diskrete Messräume
Seien Mi abzählbare Mengen und Ai = P(Mi ) , i = 1, . . . , n.
n
n
i=1
i=1
Man zeigt leicht:
⊗ P(Mi ) = P(M ) , wobei M = × Mi (ebenfalls eine abzählbare Menge).
Beispiel: Borelsche Sigma-Algebren
Seien (Mi , Ai ) = (R, B 1 ) , i = 1, . . . , n. Man zeigt leicht:
n
⊗ B1 = Bn .
i=1
Lemma 1.24 (Mehrere Zufallsvariablen, gemeinsame Verteilung)
Seien (Ω, C, P) ein W-Raum , (Mi , Ai ) (i = 1, . . . , n) Messräume und Xi : Ω −→ Mi (i = 1, . . . , n)
Zufallsvariablen. Betrachte die Abbildung
n
(X1 , . . . , Xn ) : Ω −→ M := × Mi ,
i=1
(
)
(X1 , . . . , Xn )(ω) := X1 (ω), . . . , Xn (ω) ∀ ω ∈ Ω .
n
Dann ist (X1 , . . . , Xn ) eine Zufallsvariable, d.h. messbar bezgl. der Sigma-Algebren C und A := ⊗ Ai .
i=1
Die Verteilung P(X1 ,...,Xn ) von (X1 , . . . , Xn ) wird die gemeinsame Verteilung der Zufallsvariablen
X1 , . . . , Xn genannt.
Bemerkung: Gemeinsame Verteilung und “Randverteilungen”
Der gemeinsame Verteilung P(X1 ,...,Xn ) bestimmt die Verteilungen PXi (i = 1, . . . , n) der einzelnen
Zufallsvariablen (sog. Randverteilungen) eindeutig, denn z.B. für i = 1 haben wir für jedes A1 ∈ A1 :
(
)
(
)
PX1 (A1 ) = P(X1 ∈ A1 ) = P (X1 , . . . , Xn ) ∈ A1 × M2 × . . . × Mn = P(X1 ,...,Xn ) A1 × M2 × . . . × Mn .
Analog für beliebiges i ∈ {1, . . . , n}.
Umgekehrt aber bestimmen die Randverteilungen P Xi (i = 1, . . . , n) i.A. nicht die gemeinsame Ver-
Norbert Gaffke: Vorlesung “Einführung in die Wahrscheinlichkeitstheorie und Statistik”, Wintersemester 2014/15
Kapitel 1: Wahrscheinlichkeitsräume und Zufallsvariablen
15
teilung P (X1 ,...,Xn ) . Wichtige Ausnahme: Der Fall, dass die Zufallsvariablen X1 , . . . , Xn stochastisch
unabhängig sind, (s. Kap. 2).
Spezialfall: Diskrete Zufallsvariablen
Seien X1 , . . . , Xn diskrete Zufallsvariablen, d.h. Mi ist abzählbar und Ai = P(Mi ) für alle i = 1, . . . , n.
n
Dann ist (X1 , . . . , Xn ) ebenfalls eine diskrete Zufallsvariable (da M = × Mi abzählbar und A =
i=1
n
⊗ P(Mi ) = P(M ) ). Die gemeinsame Verteilung
i=1
P(X1 ,...,Xn )
ist durch ihre Zähldichte vollständig
beschrieben:
(
)
(
)
P(X1 ,...,Xn ) {(x1 , . . . , xn )} = P X1 = x1 , X2 = x2 , . . . , Xn = xn
∀ (x1 , . . . , xn ) ∈ M ,
{
}
wobei {X1 = x1 , X2 = x2 , . . . , Xn = xn } = ω ∈ Ω : Xi (ω) = xi ∀ i = 1, . . . , n .
Die Zähldichten der Randverteilungen PXi erhält man durch die entsprechenden “Randsummen”;
z.B. für i = 1 :
∑
(
)
(
)
PX1 {x1 } =
P X1 = x1 , X2 = x2 , . . . , Xn = xn
∀ x1 ∈ M 1 .
x2 ∈M2 , ..., xn ∈Mn
Kapitel 2
Stochastische Unabhängigkeit,
bedingte Wahrscheinlichkeiten
2.1
Stochastische Unabhängigkeit von Ereignissen
Gegeben sei ein W-Raum (Ω, C, P). Der Begriff der stochastischen Unabhängigkeit von Ereignissen in
Ω bezieht sich auf die W-Verteilung P. Betrachten wir diesen Begriff zunächst für zwei Ereignisse.
Definition 2.1 (Stochastische Unabhängigkeit zweier Ereignisse)
Zwei Ereignisse A, B ∈ C heißen stochastisch unabhängig, wenn
P( A ∩ B ) = P(A) · P(B) .
Definition 2.2 (Stochastische Unabhängigkeit von n Ereignissen)
Seien n ∈ N und C1 , . . . , Cn ∈ C. Die Ereignisse C1 , . . . , Cn heißen stochastisch unabhängig, wenn für
jede nicht-leere Index-Teilmenge I ⊆ {1, . . . , n} gilt:
(∩ )
∏
P
Ci =
P(Ci ) .
i∈I
i∈I
Definition 2.3 (Stochastische Unabhängigkeit von Ereignis-Systemen)
Seien E1 , . . . , En nicht-leere Teilsysteme von C. Man nennt E1 , . . . , En stochastisch unabhängig, wenn
für jede Auswahl E1 ∈ E1 , . . . , En ∈ En die Ereignisse E1 , . . . , En stochastisch unabhängig sind.
Lemma 2.4 (Erzeugte Dynkin-Systeme, s. Übungsblatt 1)
Seien E1 , . . . , En nicht-leere Teilsysteme von C, und E1 , . . . , En seien stochastisch unabhängig.
Bezeichne δ(Ei ) das von Ei in Ω erzeugte Dynkin-System, i = 1, . . . , n .
Dann sind δ(E1 ), . . . , δ(En ) stochastisch unabhängig.
16
Norbert Gaffke: Vorlesung “Einführung in die Wahrscheinlichkeitstheorie und Statistik”, Wintersemester 2014/15
Kapitel 2: Stochastische Unabhängigkeit, bedingte Wahrscheinlichkeiten
Korollar 2.5
Seien C1 , . . . , Cn ∈ C stochastisch unabhängige Ereignisse.
Die Indexmenge {1, . . . , n} sei partitioniert in r nicht-leere, paarweise disjunkte Teilmengen I1 , . . . , Ir .
{
}
Betrachte die Mengensysteme Ek := Ci : i ∈ Ik , k = 1, . . . , r.
Dann sind die erzeugten Sigma-Algebren σ(E1 ), . . . , σ(Er ) stochastisch unabhängig.
2.2
Stochastische Unabhängigkeit von Zufallsvariablen
Gegeben seien ein W-Raum (Ω, C, P) sowie n Messräume (Mi , Ai ) und Zufallsvariablen Xi : Ω −→ Mi
(messbar bezgl. C und Ai ) , i = 1, . . . , n.
Definition 2.6 (Stochastische Unabhängigkeit von Zufallsvariablen)
Die Zufallsvariablen X1 , . . . , Xn heißen stochastisch unabhängig, wenn für jede Auswahl
A1 ∈ A1 , . . . , An ∈ An gilt: Die Ereignisse {X1 ∈ A1 } , . . . , {Xn ∈ An } sind stochastisch unabhängig.
Anmerkung: Eine äquivalente Formulierung der stochastischen Unabhängigkeit von X1 , . . . , Xn ist:
n
∏
)
(
P(Xi ∈ Ai ) ∀ Ai ∈ Ai , i = 1, . . . , n.
P X1 ∈ A1 , . . . , Xn ∈ An =
i=1
Im Fall diskreter Zufallsvariablen lässt sich die Beschreibung der stochastischen Unabhängigkeit wesentlich vereinfachen:
Lemma 2.7 (Stochastische Unabhängigkeit diskreter Zufallsvariablen)
Die Wertebereiche Mi seien abzählbar und Ai = P(Mi ) , i = 1, . . . , n. Dann gilt:
Die Zufallsvariablen X1 , . . . , Xn sind genau dann stochastisch unabhängig, wenn
(
P X1 = x1 , . . . , Xn = xn
)
=
n
∏
P(Xi = xi ) ∀ xi ∈ Mi , i = 1, . . . , n.
i=1
Bemerkung: Produkt diskreter W-Verteilungen und stoch. Unahhängigkeit diskreter ZV’en
Wenn (Mi , Pi ) , i = 1, . . . , n , diskrete W-Räume sind und fi die Zähldichte von Pi bezeichnet (i =
1, . . . , n), dann ist durch
f (x) :=
n
∏
n
fi (xi ) ∀ x = (x1 , . . . , xn ) ∈ M := × Mi
i=1
i=1
∑
eine
Funktion
von
M
in
[
0
,
1
]
mit
x∈M f (x) = 1 gegeben, die also eine W-Verteilung P auf
(
)
M, P(M ) definiert (Lemma 1.6 (b)). Diese W-Verteilung heißt das Produkt der W-Verteilungen
n
P1 , . . . , Pn , Abk.: P = ⊗ Pi .
i=1
Das Resultat von Lemma 2.7 lässt sich auch so formulieren:
X1 , . . . , Xn stoch. unabhängig
⇐⇒
n
P(X1 ,...,Xn ) = ⊗ PXi .
i=1
17
Norbert Gaffke: Vorlesung “Einführung in die Wahrscheinlichkeitstheorie und Statistik”, Wintersemester 2014/15
Kapitel 2: Stochastische Unabhängigkeit, bedingte Wahrscheinlichkeiten
Auch für nicht-diskrete Zufallsvariablen ist eine Reduktion der Bedingung für stochastische Unabhängigkeit von Definition 2.6 möglich.
Theorem 2.8 (Reduktion auf durchschnitt-stabile Erzeuger)
Für jedes i = 1, . . . , n sei Ei ⊆ P(Mi ) ein durchschnitt-stabiler Erzeuger
∪∞der Sigma-Algebra Ai mit
der weiteren Eigenschaft, dass eine isotone Folge Ei,j ∈ Ei (j ∈ N) mit
j=1 Ei,j = Mi existiert.
Dann gilt die Äquivalenz:
Die Zufallsvariablen X1 , . . . , Xn sind genau dann stochastisch unabhängig, wenn
n
∏
(
)
P X1 ∈ E1 , . . . , Xn ∈ En =
P(Xi ∈ Ei ) ∀ Ei ∈ Ei , i = 1, . . . , n .
i=1
Korollar 2.9 (Stochastische Unabhängigkeit reeller Zufallsvariablen)
Seien (Mi , Ai ) = (R, B 1 ) , i = 1, . . . , n, also X1 , . . . , Xn reelle Zufallsvariablen auf Ω.
(a) X1 , . . . , Xn sind genau dann stochastisch unabhängig, wenn
n
∏
)
(
P(Xi ≤ bi ) ∀ b1 , . . . , bn ∈ R .
P X1 ≤ b1 , . . . , Xn ≤ bn =
i=1
(b) Sei noch vorausgesetzt, dass für jedes i = 1, . . . , n die Zufallsvariable Xi Lebesgue-stetig verteilt
ist, d.h. dass PXi eine Lebesgue-Dichte fi besitzt . Dann gilt die Äquivalenz:
X1 , . . . , Xn sind genau dann stochastisch unabhängig, wenn die gemeinsame Verteilung
P(X1 ,...,Xn ) die Lebesgue-Dichte
f (x) :=
n
∏
fi (xi ) ∀ x = (x1 , . . . , xn ) ∈ Rn
i=1
besitzt, d.h. wenn gilt:
n
P(X1 ,...,Xn ) = ⊗ PXi
(vergl. Lemma 1.18).
i=1
Die beiden folgenden Lemmata sind von Nutzen, wenn aus stochastisch unabhängigen Zufallsvariablen
durch messbare Transformationen neue Zufallsvariablen erzeugt werden.
Wenn wir bei der Formulierung von Lemma 2.11 doppelt indizierte Zufallsvariablen und Messräume verwenden,
so soll das nur zur besseren Lesbarkeit dienen und hat inhaltlich keine weitere Bedeutung.
Lemma 2.10
Seien X1 , . . . , Xn stochastisch unabhängige Zufallsvariablen, wobei Xi : Ω −→ Mi , (i = 1, . . . , n) .
Seien noch weitere Messräume (Ni , Bi ) (i = 1, . . . , n) gegeben sowie messbare Abbildungen:
Ti : Mi −→ Ni
messbar bezgl. Ai und Bi , i = 1, . . . , n .
Dann gilt für Yi := Ti ◦ Xi , i = 1, . . . , n :
Die Zufallsvariablen Y1 , . . . , Yn sind stochastisch unabhängig.
18
Norbert Gaffke: Vorlesung “Einführung in die Wahrscheinlichkeitstheorie und Statistik”, Wintersemester 2014/15
Kapitel 2: Stochastische Unabhängigkeit, bedingte Wahrscheinlichkeiten
19
Lemma 2.11
Seien X11 , . . . , X1n1 , X21 , . . . , X2n2 , . . . , Xk1 , . . . , Xknk stochastisch unabhängige Zufallsvariablen,
wobei
Xij : Ω −→ Mij , (Mij , Aij ) ein Messraum , i = 1, . . . , k , j = 1, . . . , ni .
)
( ni
ni
Betrachte die Messräume
× Mij , ⊗ Aij , i = 1, . . . , k , und die “mehrdimensionalen” Zufallsvaj=1
j=1
riablen
ni
X i = ( Xi1 , . . . , Xini ) : Ω −→ × Mij ,
i = 1, . . . , k .
j=1
Dann sind die Zufallsvariablen X 1 , . . . , X k stochastisch unabhängig.
2.3
Modellierung unabhängiger Zufallsexperimente
Oft haben wir es mit Zufallsexperimenten zu tun, die aus mehreren “unabhängigen” Einzelexperimenten bestehen (z.B. die mehrmalige unabhängige Durchführung eines 0-1-Experiments). Mit Hilfe des
Begriffes der stochastischen Unabhängigkeit lässt sich eine geeignete Modellierung dann allgemein wie
folgt vornehmen.
Das gesamte Zufallsexperiment bestehe aus n unabhängigen Einzelexperimenten; ein Ergebnis des
(gesamten) Zufallsexperiments ist ein n-Tupel
x = (x1 , x2 , . . . , xn ) ,
wobei xi das Ergebnis des i-ten Einzelexperiments bezeichnet, i = 1, . . . , n. Das Modell für das i-te
Einzelexperiment sei durch einen W-Raum (Mi , Ai , Pi ) gegeben (i = 1, . . . , n). Wir können das auch
etwas “ausschmücken”:
Sei (Ω, C, P) ein W-Raum im Hintergrund, und seien Zufallsvariablen Xi : Ω −→ Mi mit PXi = Pi
(i = 1, . . . , n) gegeben. Ein Ergebnis des Gesamtexperiments ist dann ein Wert der Zufallsvariablen
X = (X1 , . . . , Xn ) , und das Modell des Gesamtexperiments ist der W-Raum
(n
)
n
× Mi , ⊗ Ai , P(X1 ,...,Xn ) .
i=1
i=1
Die Unabhängigkeit der Einzelexperimente wird als stochastische Unabhängigkeit der Zufallsvariablen
X1 , X2 , . . . , Xn in die Modellierung eingebracht, so dass – jedenfalls in den beiden Fällen, dass die
Zufallsvariablen entweder alle diskret oder alle Lebesgue-stetig verteilt sind – die Produkt-Verteilung
resultiert:
n
n
P(X1 ,...,Xn ) = ⊗ PXi = ⊗ Pi .
i=1
i=1
Das Modell für das Gesamtexperiment ist also der Produkt-W-Raum
(
)
n
n
n
× Mi , ⊗ Ai , ⊗ Pi .
i=1
i=1
i=1
Oft haben wir spezieller die Situation, dass es sich bei den Einzelexperimenten um unabhängige
Durchführungen desselben Experiments handelt. Dann sind also die W-Räume (Mi , Ai , Pi ) (i = 1, . . . , n)
identisch zu wählen, und die Verteilungen der Zufallsvariablen Xi (i = 1, . . . , n) sind daher identisch.
Man spricht von identisch verteilten Zufallsvariablen X1 , X2 , . . . , Xn , und – zusammen mit der vorausgesetzten stochastischen Unabhängigkeit dieser Zufallsvariablen – von stochastisch unabhängigen
und identisch verteilten (Abk: u.i.v.) Zufallsvariablen X1 , X2 , . . . , Xn . Engl.: independent and identically
distributed (i.i.d.) random variables X1 , X2 , . . . , Xn .
Norbert Gaffke: Vorlesung “Einführung in die Wahrscheinlichkeitstheorie und Statistik”, Wintersemester 2014/15
Kapitel 2: Stochastische Unabhängigkeit, bedingte Wahrscheinlichkeiten
Beispiel: Modell mit n u.i.v. normalverteilten Zufallsvariablen
Z.B. in einer industriellen Fertigung: Zur Überwachung einer (reellen) Produktcharakteristik wird
Stichprobe von n gefertigten Stücken vermessen. Modellierung oft durch n stochastisch unabhängige
reelle Zufallsvariablen X1 , . . . , Xn , die jeweils als normal-(β, σ 2 )-verteilt angenommen werden. Kurzschreibweise:
X1 , . . . , Xn u.i.v. ∼ N(β, σ 2 ) .
Ihre gemeinsame Verteilung (eine W-Verteilung auf (Rn , Bn )) ist daher:
(
)
n
P(X1 ,...,Xn ) = ⊗ N(β, σ 2 ) = N β1n , σ 2 I n ,
i=1
wobei 1n = (1, . . . , 1)t ∈ Rn und I n die n × n Einheitsmatrix bezeichnen. Die Lebesgue-Dichte dieser
Verteilung ist:
(
)
n
( )−n/2
1 ∑
∀ (x1 , . . . , xn ) ∈ Rn .
f (x1 , . . . , xn ) = (2π)−n/2 σ 2
exp − 2
(xi − β)2
2σ i=1
Beispiel: n-malige unabhängige Durchführung eines 0-1-Experiments
Die Wahrscheinlichkeit für “1” im Einzelexperiment sei mit p ∈ [ 0 , 1 ] bezeichnet. Das Modell für
das Gesamtexperiment (n-malige unabhängige Durchführung des 0-1-Experiments) ist gegeben durch
stochastisch unabhängige 0-1-wertige Zufallsvariablen X1 , X2 , . . . , Xn mit P(Xi = 1) = p und
P(Xi = 0) = 1 − p , i = 1, 2, . . . , n , also:
X1 , . . . , Xn u.i.v. ∼ Bi(1, p) .
n
Die gemeinsame Verteilung ist daher P(X1 ,...,Xn ) = ⊗ Bi(1, p) , und ihre Zähldichte ist:
i=1
n
∑n
∑n
∏
)
(
P(Xi = xi ) = p i=1 xi (1 − p)n− i=1 xi
P X1 = x1 , X2 = x2 , . . . , Xn = xn =
i=1
∀ (x1 , . . . , xn ) ∈ {0, 1} .
n
Hier ist
∑n
i=1 xi
gleich der Anzahl der erzielten “1”-en und n−
∑n
i=1 xi
die Anzahl der erzielten “0”-en.
Beispiel: Binomialverteilte Anzahl
In der Praxis wird man bei einem Zufallsexperiment wie im vorigen Beispiel nicht die ausführliche
Sequenz (n-Tupel) (x1 , x2 , . . . , xn ) als Ergebnis dokumentieren, sondern die Reduktion auf die Anzahl
der “1”-en vornehmen. Das Ergebnis des Zufallsexperiments ist dann ein Wert einer Zufallsvariablen
X, die ihre möglichen Werte in der Menge {0, 1, . . . , n} hat.
Die adäquate Verteilungsannahme ist dann: X ∼ Bi(n, p) (s. nachfolgendes Lemma),
(
)
und ein adäquates Modell für das Zufallsexperiment ist der (diskrete) W-Raum {0, 1, . . . , n} , Bi(n, p) .
Lemma 2.12 (Summe von stochastisch unabhängigen binomial-(ni , p)-verteilten ZV’en)
Seien X1 , . . . , Xm stochastisch unabhängige Zufallsvariablen mit Xi ∼ Bi(ni , p) (i = 1, . . . , m),
wobei ni ∈ N (i = 1, . . . , m) und p ∈ [ 0 , 1 ] . Dann gilt:
m
∑
i=1
Xi ∼ Bi(n, p)
mit
n =
m
∑
i=1
ni .
20
Norbert Gaffke: Vorlesung “Einführung in die Wahrscheinlichkeitstheorie und Statistik”, Wintersemester 2014/15
Kapitel 2: Stochastische Unabhängigkeit, bedingte Wahrscheinlichkeiten
21
Bemerkung: Summe von stochastisch unabhängigen 0-1-wertigen ZV’en;
Poisson-Verteilung als Approximation
Seien X1 , . . . , Xn stochastisch unahängige 0-1-wertige Zufallsvariablen, aber nicht notwendig identisch
verteilt: Xi ∼ Bi(1, pi ) mit pi ∈ [0 , 1 ] (i = 1, . . . , n). Wir interessieren uns für die Verteilung der
n
∑
Summenvariablen S :=
Xi . Diese ist i.A. analytisch schwierig zu handhaben. Eine brauchbare
i=1
Approximation liefert eine Poisson-(λ)-Verteilung mit λ :=
n
∑
pi , sofern die Wahrscheinlichkeiten
i=1
pi klein sind, (s. nachfolgendes Lemma). Daher ist oft plausibel, dass eine zufällige Anzahl, z.B. die
Anzahl der Kunden einer Service-Station an einem Tag, oder z. B. die Anzahl zerfallener Teilchen einer
radioaktiven Substanz in einer Sekunde, in guter Näherung durch eine Poisson-verteilte Zufallsvariable
beschreibbar ist. Man kann sich nämlich vorstellen, dass die zufällige Anzahl durch eine Reihe von
unabhängigen 0-1-Experimenten mit jeweils kleinen Wahrscheinlichkeiten für “1” zu Stande kommt.
Lemma 2.13 (Poisson-Verteilung als Approximation)
Seien X1 , . . . , Xn stochastisch unabhängige 0-1-wertige Zufallsvariablen, Xi ∼ Bi(1, pi ) mit
n
∑
pi ∈ [ 0 , 1 ] , i = 1, . . . , n. Betrachte die Summenvariable S :=
Xi .
i=1
Dann gilt für die Verteilung von S und die Poisson-(λ)-Verteilung mit λ :=
n
∑
pi :
i=1
n
∑
S
p2i
P (A) − Poi(λ)(A) ≤
für alle A ⊆ N0 .
i=1
2.4
Bedingte Wahrscheinlichkeiten
Definition 2.14
Seien (Ω, C, P) ein W-Raum und A, B ∈ C mit P(B) > 0. Dann heißt die Zahl
P( A | B ) =
P( A ∩ B )
P(B)
die bedingte Wahrscheinlichkeit von A unter B.
Bemerkungen
1. Wie man leicht sieht, gilt 0 ≤ P(A|B) ≤ 1 .
2. Zur Interpretation des Wertes P(A|B) :
Im Unterschied zur “unbedingten” Wahrscheinlichkeit P(A) des Ereignisses A ist P(A|B) die aktualisierte Wahrscheinlichkeit von A unter der Zusatzinformation, dass das Ereignis B eintritt (oder
eingetreten ist).
3. Wann bleibt die Wahrscheinlichkeit für A dieselbe, d.h. wann gilt P(A|B) = P(A) ?
Das ist offensichtlich genau dann der Fall, wenn P(A ∩ B) = P(A) · P(B) ist, d.h. wenn die Ereignisse
A und B stochastisch unabhängig sind.
4. Wenn wir die bedingte Wahrscheinlichkeit P(A|B) für variierendes A ∈ C betrachten, aber mit
einem festen B ∈ C (mit P(B) > 0), so erkennen wir: P( · |B) ist eine W-Verteilung auf C;
Norbert Gaffke: Vorlesung “Einführung in die Wahrscheinlichkeitstheorie und Statistik”, Wintersemester 2014/15
Kapitel 2: Stochastische Unabhängigkeit, bedingte Wahrscheinlichkeiten
diese bedingte W-Verteilung unter B interpretieren wir als Aktualisierung der W-Verteilung P unter
der Zusatzinformation, dass das Ereignis B eintritt (oder eingetreten ist).
5. Sei X : Ω −→ M eine Zufallsvariable, wobei (M, A) ein Messraum ist, und sei B ∈ C mit P(B) > 0
gegeben. Dann heißt die Funktion auf A,
PX|B (C) := P( {X ∈ C} | B ) , C ∈ A ,
die bedingte Verteilung von X unter B ; diese ist eine W-Verteilung auf (M, A). Offensichtlich gilt:
(
)X
PX|B = P( · |B)
.
Beispiel: Gedächtnislosigkeit der Exponentialverteilung
Sei X : Ω −→ R eine exponential-(λ)-verteilte Zufallsvariable: PX = Exp(λ) , mit einem λ > 0 .
Sei x0 ∈ ( 0 , ∞) gegeben.
Wir interessieren uns für die bedingte Verteilung der Zufallsvariablen X − x0 unter { X > x0 }.
Ergebnis: PX−x0 |X>x0 = Exp(λ) .
Jetzt noch einige allgemeine (aber elementare) Resultate über bedingte Wahrscheinlichkeiten. Zu
Grunde liege ein W-Raum (Ω, C, P) .
Lemma 2.15 (Multiplikationsformel für bedingte Wahrscheinlichkeiten)
( n−1
)
∩
Wenn n ∈ N, n ≥ 2, und A1 , A2 , . . . , An ∈ C mit P
Aj > 0 , dann gilt:
j=1
P
(∩
n
)
Ai
i=1
= P(A1 )
n
( i−1
)
∏
∩
P Ai Aj .
j=1
i=2
Korollar 2.16 (Gemeinsame Verteilung diskreter ZV’en)
Seien X1 , . . . , Xn diskrete Zufallsvariablen, Xi : Ω −→ Mi , Mi abzählbar, (i = 1, . . . , n). Dann gilt:
n
∏
)
(
)
(
P X1 = x1 , X2 = x2 , . . . , Xn = xn = P( X1 = x1 )
P Xi = xi X1 = x1 , . . . , Xi−1 = xi−1
i=2
für alle x1 ∈ M1 , x2 ∈ M2 , . . . , xn ∈ Mn mit P( X1 = x1 , X2 = x2 , . . . , Xn−1 = xn−1 ) > 0.
Lemma 2.17 (Bayes’sche Formeln)
Seien I eine abzählbare, nicht-leere Indexmenge
und Ai ∈ C, i ∈ I , eine Familie paarweise disjunkter
∪
Ereignisse mit P(Ai ) > 0 ∀ i ∈ I und
Ai = Ω , (die Ai , i ∈ I , bilden also eine disjunkte Zerlegung
i∈I
von Ω).
Dann gilt für jedes Ereignis B ∈ C :
∑
P(B) =
P(B|Ai ) P(Ai ).
(“Formel von der totalen Wahrscheinlichkeit”)
i∈I
Wenn P(B) > 0 ist, dann gilt noch:
P(Ai |B) =
P(B|Ai ) P(Ai )
P(B)
für jedes i ∈ I.
22
Kapitel 3
Reelle Zufallsvariablen
Gegeben sei ein W-Raum (Ω, C, P); der Messraum (R, B 1 ) ist hier von besonderer Wichtigkeit: Eine
reelle Zufallsvariable (auf Ω) ist eine Funktion X : Ω −→ R , die messbar bezüglich der SigmaAlgebren C und B 1 ist. Mit M(Ω, C) sei die Menge aller reellen Zufallsvariablen auf Ω bezeichnet.
Lemma 3.1 (Messbarkeit erhaltende Operationen)
(a) Seien X, Y ∈ M(Ω, C). Dann:
(i) aX + bY ∈ M(Ω, C) für alle a, b ∈ R.
(ii) max{X, Y } , min{X, Y } , X · Y ∈ M(Ω, C) , und im Fall Y (ω) ̸= 0 ∀ ω ∈ Ω ist auch
X/Y ∈ M(Ω, C) .
(b) Seien Xn ∈ M(Ω, C) ∀ n ∈ N .
(i) Wenn für jedes ω ∈ Ω die Zahlenfolge Xn (ω) , n ∈ N, nach oben beschränkt ist, dann :
sup Xn ∈ M(Ω, C) .
n∈N
(ii) Wenn für jedes ω ∈ Ω die Zahlenfolge Xn (ω) , n ∈ N, nach unten beschränkt ist, dann :
inf Xn ∈ M(Ω, C) .
n∈N
(iii) Wenn für jedes ω ∈ Ω die Zahlenfolge Xn (ω) , n ∈ N, konvergiert (in R), dann :
lim Xn ∈ M(Ω, C) .
n→∞
3.1
Erwartungswert
Definition 3.2 (Elementare Zufallsvariable: P-Integral / Erwartungswert)
Eine elementare Zufallsvariable (auf Ω) ist eine reelle Zufallsvariable X : Ω −→ R mit endlichem
Bild X(Ω) . Die Menge aller elementaren Zufallsvariablen auf Ω werde mit Me (Ω, C) bezeichnet.
Für X ∈ Me (Ω, C) ist das P-Integral oder der Erwartungswert von X definiert durch:
∫
∑
X dP := E(X) :=
x · P(X = x)
(eine reelle Zahl).
Ω
x∈X(Ω)
Anmerkung: Statt E(X) schreiben wir bisweilen auch EP (X), wenn die zu Grunde liegende
W-Verteilung P hervorgehoben werden soll.
Beispiel: Indikatorvariable
( )
Sei X = 1 A mit einer Menge A ∈ C. Offensichtlich: 1 A ∈ Me (Ω, C) und E 1 A = P(A) .
23
Norbert Gaffke: Vorlesung “Einführung in die Wahrscheinlichkeitstheorie und Statistik”, Wintersemester 2014/15
Kapitel 3: Reelle Zufallsvariablen
24
Beispiel: Binomialverteilte Zufallsvariable
Sei X : Ω −→ {0, 1, . . . , n} eine Zufallsvariable mit X ∼ Bi(n, p) , (d.h. PX = Bi(n, p) ), mit
gegebenen n ∈ N und p ∈ [ 0 , 1 ] . Dann ist X ∈ Me (Ω, C) und
E(X) =
n
∑
k=0
( )
n
∑
n k
k P(X = k) =
k
p (1 − p)n−k = n p ,
k
k=0
wobei die letzte Gleichheit Resultat einiger Umformungen ist.
Lemma 3.3 (Lineare Struktur)
Me (Ω, C) =
und für X =
r
∑
i=1
r
{∑
}
αi 1 Ai : αi ∈ R , Ai ∈ C (i = 1, . . . .r) , r ∈ N ,
i=1
αi 11Ai , wobei αi ∈ R , Ai ∈ C (i = 1, . . . .r) und r ∈ N , gilt:
r
∑
E(X) =
αi P(Ai ) .
i=1
Me (Ω, C) ein linearer Raum, d.h. aX + bY ∈ Me (Ω, C) für alle X, Y ∈ Me (Ω, C) und alle a, b ∈ R,
und das P-Integral (Erwartungswert) ist ein lineares und monotones Funktional, d.h. :
E(aX + bY ) = aE(X) + bE(Y ) für alle X, Y ∈ Me (Ω, C) und alle a, b ∈ R;
wenn X, Y ∈ Me (Ω, C) und X ≤ Y , dann
E(X) ≤ E(Y ) .
Anmerkung: Wie man leicht sieht gilt für alle X, Y ∈ Me (Ω, C) auch:
max{X, Y } , min{X, Y } , X · Y ∈ Me (Ω, C) ,
sowie im Fall Y (ω) ̸= 0 ∀ ω ∈ Ω :
X/Y ∈ Me (Ω, C) .
Wir betrachten jetzt nicht-negative reelle Zufallsvariablen auf Ω , also Zufallsvariablen X ∈ M(Ω, C)
mit X ≥ 0. Die Menge aller nicht-negativen reellen Zufallsvariablen auf Ω werde mit M+ (Ω, C)
bezeichnet. Analog bezeichne M+
e (Ω, C) die Menge aller nicht-negativen elementaren Zufallsvariablen
auf Ω.
Lemma 3.4 (Approximation durch elementare Zufallsvariablen)
Zu jedem X ∈ M+ (Ω, C) existiert eine isotone Folge Xn ∈ M+
e (Ω, C) , n ∈ N, also Xn ≤ Xn+1
∀ n ∈ N , mit lim Xn = X .
n→∞
Anmerkung: Die Xn , n ∈ N, können überdies messbar bezgl. der kleineren Sigma-Algebra
{
}
σ(X) := X −1 (B) : B ∈ B 1 ⊆ C
(
)
gewählt werden, also Xn ∈ M+
∀ n ∈ N.
e Ω, σ(X)
Norbert Gaffke: Vorlesung “Einführung in die Wahrscheinlichkeitstheorie und Statistik”, Wintersemester 2014/15
Kapitel 3: Reelle Zufallsvariablen
25
Theorem 3.5 (P-Integral / Erwartungswert nicht-negativer Zufallsvariablen)
+
e
Sei X ∈ M+ (Ω, C) . Seien Xn ∈ M+
e (Ω, C) , n ∈ N, und Xn ∈ Me (Ω, C) , n ∈ N, zwei isotone Folgen
en = X . Dann gilt:
mit lim Xn = X und lim X
n→∞
n→∞
en ) in [ 0 , ∞] .
lim E(Xn ) = lim E(X
n→∞
n→∞
Daher können wir definieren:
∫
X dP := E(X) := lim E(Xn ) ∈ [ 0 , ∞] .
n→∞
Ω
Beispiel: Poisson-verteilte Zufallsvariable
Sei X : Ω −→ N0 eine Zufallsvariable mit X ∼ Poi(λ) , mit einem λ ∈ ( 0 , ∞) . Dann ist
X ∈ M+ (Ω, C) , und durch
Xn := X 1 {X≤n} =
n
∑
i 1 {X=i} ,
n ∈ N,
i=1
ist eine isotone Folge in M+
e (Ω, C) mit lim Xn = X gegeben. Wir erhalten:
n→∞
E(Xn ) =
n
∑
i e−λ
i=1
λi
i!
∀ n , folglich:
E(X) =
∞
∑
i=1
i e−λ
λi
= λ.
i!
Lemma 3.6 (Linearität und Monotonie des Erwartungswerts für nicht-negative ZV’en)
Seien X, Y ∈ M+ (Ω, C) . Es gilt:
{
E(aX + bY ) = aE(X) + bE(Y ) ∀ a, b ∈ [ 0 , ∞) ;
wenn X ≤ Y , dann
Konvention: c · ∞ :=
∞ , falls c > 0
;
0 , falls c = 0
E(X) ≤ E(Y ).
Sei nun X ∈ M(Ω, C) beliebig. Wir zerlegen die Zufallsvariable X in ihren Positivteil und ihren
Negativteil :
X + := max{X , 0} und X − := max{−X , 0} ; dann:
X + , X − ∈ M+ (Ω, C) und X = X + − X − .
Definition 3.7 (P-integrierbare Zufallsvariable)
Sei X ∈ M(Ω, C) .
Die Zufallsvariable X heißt quasi-P-integrierbar, wenn E(X + ) < ∞ oder E(X − ) < ∞ , und in
diesem Fall:
∫
X dP := E(X) := E(X + ) − E(X − ) ∈ [−∞ , ∞]
Ω
Konvention:
c − ∞ := −∞ , ∞ − c := ∞ , ∀ c ∈ R.
Wenn E(X + ) < ∞ und E(X − ) < ∞ , dann heißt die Zufallsvariable X P-integrierbar.
Mit L1 (P) = L1 (Ω, C, P) sei die Menge aller P-integrierbaren Zufallsvariablen auf Ω bezeichnet.
( )
Anmerkung: Für X ∈ M(Ω, C) gilt die Äquivalenz: X ∈ L1 (P) ⇐⇒ E |X| < ∞ .
Norbert Gaffke: Vorlesung “Einführung in die Wahrscheinlichkeitstheorie und Statistik”, Wintersemester 2014/15
Kapitel 3: Reelle Zufallsvariablen
26
Lemma 3.8 (Linearität und Monotonie des Erwartungswerts auf L1 (P))
Seien X, Y ∈ L1 (P) . Es gilt:
∀ a, b ∈ R :
aX + bY ∈ L1 (P) und E(aX + bY ) = aE(X) + bE(Y ) ;
wenn X ≤ Y , dann
E(X) ≤ E(Y ).
Theorem 3.9 (Konvergenzsätze für P-Integrale / Erwartungswerte)
(1) Monotone Konvergenz
Seien Xn ∈ M+ (Ω, C) , n ∈ N , eine isotone Folge , X ∈ M+ (Ω, C) und lim Xn = X .
n→∞
Dann:
lim E(Xn ) = E(X) .
n→∞
(2) Majorisierte Konvergenz
Seien Xn ∈ M(Ω, C) , n ∈ N , eine Folge , X ∈ M(Ω, C) , lim Xn = X , und es existiere
n→∞
ein Y ∈ L1 (P) mit |Xn | ≤ Y ∀ n ∈ N . Dann:
(
)
Xn ∈ L1 (P) ∀ n , X ∈ L1 (P) und lim E |Xn − X| = 0 , insbes.:
n→∞
lim E(Xn ) = E(X) .
n→∞
Theorem 3.10 (Elementare Transformationsformel für Integrale / Erwartungswerte)
Seien noch (M, A) ein Messraum und T : Ω −→ M eine messbare (bezgl. C und A) Abbildung.
Neben dem W-Raum (Ω, C, P)) betrachten wir auch den W-Raum (M, A, PT ) .
Für jedes g ∈ M(M, A) gilt die Äquivalenz:
g ◦ T ist quasi-P-integrierbar ⇐⇒ g ist quasi-PT -integrierbar.
Im Fall der Quasi–Integrierbarkeit gilt:
∫
∫
g ◦ T dP =
Ω
Folglich gilt auch die Äquivalenz:
g dPT , also
M
EP (g ◦ T ) = EPT (g) .
g ◦ T ist P-integrierbar
⇐⇒
g ist PT -integrierbar.
Korollar 3.11 (Erwartungswerte sind durch die Verteilung der ZV bestimmt)
Seien X ∈ M(Ω, C) und g : R −→ R eine messbare (bezgl. B 1 und B1 ) Funktion.
Dann gilt die Äquivalenz:
g ◦ X ist quasi-P-integrierbar ⇐⇒ g ist quasi-PX -integrierbar.
Im Fall der Quasi–Integrierbarkeit gilt:
EP (g ◦ X) = EPX (g) .
Folglich gilt auch die Äquivalenz:
g ◦ X ist P-integrierbar
⇐⇒
g ist PX -integrierbar.
Norbert Gaffke: Vorlesung “Einführung in die Wahrscheinlichkeitstheorie und Statistik”, Wintersemester 2014/15
Kapitel 3: Reelle Zufallsvariablen
27
Theorem 3.12 (P -Integrale / Erwartungswerte für Lebesgue-stetige W-Verteilung P )
Sei P eine W-Verteilung auf (Rk , Bk ) , die eine Lebesgue-Dichte f besitzt. Wir betrachten den
W-Raum (Rk , B k , P ) . Für jedes g ∈ M(Rk , B k ) gilt die Äquivalenz:
g ∈ L1 (P ) ⇐⇒ g · f ist Lebesgue-integrierbar (über Rk ) .
∫
1
Im Fall g ∈ L (P ) gilt:
EP (g) =
g f dµ
(µ das k-dim. Lebesgue-Maß).
Rk
Wir schließen diesen Abschnitt mit Berechnungsformeln für Erwartungswerte (a) diskreter und
(b) Lebesgue-stetig verteilter reeller Zufallsvariablen. Wir formulieren die Formeln allgemeiner für
Transformationen der reellen Zufallsvariablen (wie in Korollar 3.11 oben).
Lemma 3.13 (Diskrete reelle ZV und Lebesgue-stetig verteilte reelle ZV)
Seien X ∈ M(Ω, C) und g : R −→ R eine messbare (bezgl. B 1 und B1 ) Funktion.
(a) X sei diskret, d.h. es existiert eine abzählbare Teilmenge M ⊆ R mit X(ω) ∈ M ∀ ω ∈ Ω.
∑
Dann gilt die Äquivalenz:
g ◦ X ∈ L1 (P) ⇐⇒
|g(x)| P(X = x) < ∞ .
Im Fall g ◦ X ∈ L1 (P) gilt:
E(g ◦ X) =
∑
x∈M
g(x) P(X = x) .
x∈M
(b) X sei Lebesgue-stetig verteilt, d.h. die Verteilung von X besitzt eine Lebesgue-Dichte f .
Dann gilt die Äquivalenz:
g ◦ X ∈ L1 (P) ⇐⇒ g · f ist Lebesgue-integrierbar (über R) .
∫ ∞
1
Im Fall g ◦ X ∈ L (P) gilt:
E(g ◦ X) =
g(x) f (x) dx .
−∞
3.2
Varianz und Standardabweichung
Sei ein W-Raum (Ω, C, P) gegeben.
Definition 3.14 (Varianz und Standardabweichung einer P-integrierbaren ZV)
Wenn X ∈ L1 (P) , dann heißt
Var(X) := E
die Varianz der Zufallsvariablen X, und
√
(Konvention:
∞ := ∞) .
√
([
X − E(X)
]2 )
∈ [ 0 , ∞]
Var(X) heißt die Standardabweichung von X .
Unter dem zweiten Moment einer reellen Zufallsvariablen X versteht man E(X 2 ) .
Eine simple Beziehung zwischen dem zweiten Moment und der Varianz einer P-integrierbaren Zufallsvariablen X ist:
Lemma 3.15 (Varianz, Erwartungswert und zweites Moment)
Für X ∈ L1 (P) gilt:
Var(X) = E(X 2 ) −
(
E(X)
)2
.
Norbert Gaffke: Vorlesung “Einführung in die Wahrscheinlichkeitstheorie und Statistik”, Wintersemester 2014/15
Kapitel 3: Reelle Zufallsvariablen
28
Eine reelle Zufallsvariable X auf Ω heißt quadrat-P-integrierbar, wenn E(X 2 ) < ∞ .
Lemma 3.16 (Der Raum der quadrat-P-integrierbaren Zufallsvariablen)
Bezeichne L2 (P) = L2 (Ω, C, P) die Menge aller quadrat-P-integrierbaren reellen Zufallsvariablen
auf Ω . Es gilt:
(i) Wenn X, Y ∈ L2 (P) und a, b ∈ R , dann aX + bY ∈ L2 (P) .
(ii)
L2 (P) ⊆ L1 (P) .
(iii) Für eine reelle Zufallsvariable X auf Ω haben wir die Äquivalenz:
X ∈ L2 (P) ⇐⇒ X ∈ L1 (P) und Var(X) < ∞ .
(
)2
≤ E(X 2 ) E(Y 2 ) .
(iv) Wenn X.Y ∈ L2 (P) , dann X · Y ∈ L1 (P) und
E(X Y )
Für die in Kapitel 1 (Abschnitte 1.3 und 1.4) eingeführten Verteilungen sind die Erwartungswerte und
Varianzen in nachfolgender Tabelle angegeben.
PX
U(M ) , M = {x1 , . . . , xm } ⊆ R
E(X)
x=
1
m
m
∑
Var(X)
1
m
xi
i=1
m
∑
(xi − x)2
i=1
np(1 − p)
(
N −n
s
N −1 n N 1 −
Bi(n, p)
np
Hyp(N, s, n)
ns
N
Poi(λ)
λ
λ
NegBi(r, p)
r
p
r(1−p)
p2
N(β, σ 2 )
β
σ2
1
2 (a
R( a , b )
1
λ
Exp(λ)
Wei(c, λ)
1
12
+ b)
1
λ
Γ
(1
c
s
N
)
(b − a)2
1
λ2
+1
)
Ga(c, λ)
c
λ
LogN(β, σ 2 )
(
)
exp β + 12 σ 2
1
λ2
[ (
) ( (
)) 2 ]
Γ 2c + 1 − Γ 1c + 1
c
λ2
)
(
)(
( )
exp 2β + σ 2 exp σ 2 − 1
Norbert Gaffke: Vorlesung “Einführung in die Wahrscheinlichkeitstheorie und Statistik”, Wintersemester 2014/15
Kapitel 3: Reelle Zufallsvariablen
3.3
29
Kovarianz und Korrelation
Sei ein W-Raum (Ω, C, P) gegeben.
Definition 3.17 (Kovarianz zweier reeller Zufallsvariablen)
Seien X, Y ∈ L1 (P) , und es gelte X · Y ∈ L1 (P) . Dann heißt die reelle Zahl
([
][
])
Cov(X, Y ) := E X − E(X) Y − E(Y )
die Kovarianz der beiden Zufallsvariablen X und Y .
Bemerkungen:
1. Wenn die beiden Zufallsvariablen identisch sind, X = Y und X ∈ L2 (P), dann:
Cov(X, X) = Var(X) .
2. Eine optisch andere Formel für die Kovarianz ist (analog zur Varianzformel von Lemma 3.15 ), für
X, Y ∈ L1 (P) mit X · Y ∈ L1 (P) :
Cov(X, Y ) = E(X Y ) − E(X) E(Y ) .
3. Der Erwartungswert E(XY ) und damit auch die Kovarianz Cov(X, Y ) sind durch die gemeinsame
Verteilung P(X,Y ) bestimmt, denn mit Theorem 3.10 (elementare Transformationsformel für Erwartungswerte):
E(XY ) = EP(X,Y ) (g) , mit g : R2 −→ R , g(x, y) = xy .
Lemma 3.18 (Varianz einer Linearkombination)
Wenn X, Y ∈ L2 (P) und a, b ∈ R, dann:
Var(aX + bY ) = Var(X) + Var(Y ) + 2 Cov(X, Y ) .
Allgemeiner: Wenn n ∈ N, n ≥ 2 , X1 , . . . , Xn ∈ L2 (P) und a1 , . . . , an ∈ R , dann:
n
n
(∑
)
∑
Var
ai Xi =
a2i Var(Xi ) + 2
i=1
i=1
∑
ai aj Cov(Xi , Xj ) .
1≤i<j≤n
Lemma 3.19 (Kovarianz zweier Linearkombinationen)
Seien m, n ∈ N , X1 , . . . , Xm , Y1 , . . . , Yn ∈ L2 (P) und a1 , . . . , am , b1 , . . . , bn ∈ R . Dann:
Cov
m
(∑
a i Xi ,
i=1
n
∑
j=1
)
bj Yj
=
m ∑
n
∑
ai bj Cov(Xi , Yj ) .
i=1 j=1
Definition 3.20 (Unkorreliertheit)
Seien X, Y ∈ L1 (P) , mit X · Y ∈ L1 (P) .
Die beiden Zufallsvariablen X und Y heißen unkorreliert, wenn Cov(X, Y ) = 0 , bzw. äquivalent
damit: E(X Y ) = E(X) E(Y ) .
Norbert Gaffke: Vorlesung “Einführung in die Wahrscheinlichkeitstheorie und Statistik”, Wintersemester 2014/15
Kapitel 3: Reelle Zufallsvariablen
30
Theorem 3.21 (Stochastische Unabhängigkeit impliziert Unkorreliertheit)
(a) Seien X, Y ∈ L1 (P) , und X, Y seien stochastisch unabhängig. Dann:
X · Y ∈ L1 (P) und E(X Y ) = E(X) E(Y ) , d.h. X und Y sind unkorreliert.
(b) Allgemeiner: Seien X1 , . . . , Xn ∈ L1 (P) , und X1 , . . . , Xn seien stochastisch unabhängig. Dann:
n
n
n
(∏
)
∏
∏
( )
Xi ∈ L1 (P) und
E
Xi =
E Xi .
i=1
i=1
i=1
Definition 3.22 (Korrelationskoeffizient)
Seien X, Y ∈ L2 (P) mit Var(X) > 0 und Var(Y ) > 0 . Dann heißt
ρ(X, Y ) := √
Cov(X, Y )
√
Var(X) Var(Y )
∈ [ −1 , 1 ]
der Korrelationskoeffizient oder die Korrelation der Zufallsvariablen X und Y .
Interpretation:
Der Korrelationskoeffizient ρ = ρ(X, Y ) ist eine Maßzahl für die Stärke der linearen Abhängigkeit der beiden
Zufallsvariablen X und Y . Die extremen Fälle ρ = ±1 liegen genau dann vor, wenn Y = bX + c P-f.s. mit
gewissen reellen Konstanten b ̸= 0 und c (im Fall b > 0 ist ρ = 1, im Fall b < 0 ist ρ = −1). Der Fall ρ = 0 ist
die Unkorreliertheit der beiden Zufallsvariablen.
3.4
Charakteristische Funktionen
Vorbemerkungen: Komplexe Zufallsvariable
Die Menge C der komplexen Zahlen,
C =
{
z = x + iy : x, y ∈ R
}
,
ist zunächst – bis auf die Schreibweise – identisch mit der euklidischen Ebene R2 und ist daher
insbesondere mit der Borelschen Sigma-Algebra B 2 versehen. Hinzu kommt natürlich die algebraische
Körperstruktur. Eine Funktion Z : Ω −→ C lässt sich durch zwei reelle Funktionen X, Y : Ω −→ R
beschreiben gemäß
Z(ω) = X(ω) + i Y (ω) ∀ ω ∈ Ω ,
kurz:
Z = X + iY .
Sei (Ω, C, P) ein W-Raum. Eine komplexe Zufallsvariable auf Ω ist eine messbare (bezgl. C und B2 )
Funktion Z : Ω −→ C , und das ist gleichbedeutend mit Z = X + iY und X, Y ∈ M(Ω, C). Die
komplexe Zufallsvariable Z = X + iY heißt P-integrierbar, wenn X und Y P-integrierbar sind, und
in diesem Fall heißt
∫
Z dP := E(Z) := E(X) + i E(Y ) ∈ C
Ω
das P-Integral bzw. der Erwartungswert von Z. Bezeichne L1 (P, C) die Menge aller P-integrierbaren
komplexen Zufallsvariablen auf Ω. Man sieht leicht:
( )
(i) Für eine kompleze Zufallsvariable Z auf Ω :
Z ∈ L1 (P, C) ⇐⇒ E |Z| < ∞ ;
( )
( )
(ii) für Z ∈ L1 (P, C) : E(Z) ≤ E |Z| , und E Z = E(Z) ;
Norbert Gaffke: Vorlesung “Einführung in die Wahrscheinlichkeitstheorie und Statistik”, Wintersemester 2014/15
Kapitel 3: Reelle Zufallsvariablen
31
(iii) für Z1 , Z2 ∈ L1 (P, C) und a, b ∈ C :
aZ1 + bZ2 ∈ L1 (P, C) und
E(aZ1 + bZ2 ) = a E(Z1 ) + b E(Z2 ) .
Betrachten wir nun speziell den W-Raum (R, B 1 , P ) für ein P ∈ W(R, B1 ) und für irgend ein gegebenes
t ∈ R die komplexe Zufallsvariable auf R,
R ∋ x 7−→ eitx ∈ C ,
wobei bekanntlich
∀ a ∈ R.
itx Wegen e = 1, ist diese Funktion nach Punkt (i) der Vorbemerkung P -integrierbar, und wir haben
daher
∫
eitx dP (x) ∈ C .
eia = cos(a) + i sin(a)
R
Lesen wir dieses Integral als Funktion der reellen Variablen t, so ist damit jedem P ∈ W(R, B1 ) eine
komplexwertige Funktion zugeordnet.
Definition 3.23 (Charakteristische Funktion)
Für jedes P ∈ W(R, B 1 ) heißt die Funktion
∫
φP : R −→ C ,
φP (t) =
R
eitx dP (x) ∀ t ∈ R ,
die charakteristische Funktion (oder die Fourier-Transformierte) von P .
Wenn (Ω, C, P) ein W-Raum und X eine reelle Zufallsvariable auf Ω sind, dann heißt φX = φPX
die charakteristische Funktion der Zufallsvariablen X; mit der elementaren Transformationsformel
(Theorem 3.10) können wir auch schreiben:
(
)
φX (t) = E eitX
∀ t ∈ R.
Bemerkungen:
1. Für eine charakteristische Funktion φ = φP bzw. φ = φX sieht man leicht:
φ(t) ≤ 1 ∀ t ∈ R , sowie φ(0) = 1 .
Desweiteren ist nicht sehr schwer zu zeigen: φ ist gleichmäßig stetig.
2. Aus Definition 3.23 sehen wir, wie sich die charakteristische Funktion bei einer linearen Transformation der Zufallsvariablen X zu bX + c (mit reellen Konstanten b und c) ändert:
φbX+c (t) = eict φX (bt)
∀ t ∈ R.
Beispiel: Normalverteilte reelle Zufallsvariable
Für X ∼ N(β, σ 2 ) erhalten wir mit Resultaten der Funktionentheorie (Kurvenintegrale holomorpher
Funktionen) :
(
)
φX (t) = exp iβt − 21 σ 2 t2
∀ t ∈ R.
Norbert Gaffke: Vorlesung “Einführung in die Wahrscheinlichkeitstheorie und Statistik”, Wintersemester 2014/15
Kapitel 3: Reelle Zufallsvariablen
32
Beispiel: Binomialverteilte Zufallsvariable
Sei X ∼ Bi(n, p) . Mit elementarer Berechnung erhält man:
φX (t)
=
=
n
∑
j=0
n
∑
eitj
(n )
j
pj (1 − p)n−j
(n) ( it )j (
(
)n
pe
1 − p)n−j = p eit + 1 − p
j
∀ t ∈ R.
j=0
Theorem 3.24 (Eindeutigkeitssatz für charakteristische Funktionen)
Wenn P , Q ∈ W(R, B 1 ) und φP = φQ , d.h. φP (t) = φQ (t) ∀ t ∈ R , dann:
P = Q.
Bemerkung: Inversionsformel
Der Eindeutigkeitssatz lässt sich durch die Herleitung der Inversionsformel beweisen, die für sich
genommen interessant ist:
Für P ∈ W(R, B1 ) mit charakteristischer Funktion φP gilt:
(
)
P (a , b ) +
1
2
(
)
P {a, b} = lim
T →∞
1
2π
∫
T
−T
e−iat − e−ibt
φP (t) dt
it
für alle a, b ∈ R , a < b .
Theorem 3.25 ( Summe stochastisch unabhängiger reeller Zufallsvariablen)
Seien X1 , . . . , Xn stochastisch unabhängige reelle Zufallsvariablen auf Ω. Wir betrachten die Summenn
∑
variable S =
Xi . Dann gilt:
i=1
φS (t) =
n
∏
φXi (t) ∀ t ∈ R .
i=1
Korollar 3.26 (Summe stochastisch unabhängiger normalverteilter ZV’en)
Seien X1 , . . . , Xn stochastisch unabhängige reelle Zufallsvariablen auf Ω mit Xi ∼ N(βi , σi2 ) ,
wobei βi ∈ R und σi ∈ ( 0 , ∞) , für alle i = 1, . . . , n . Dann:
n
∑
i=1
(∑
)
n
n
∑
Xi ∼ N
βi ,
σi2 .
i=1
i=1
Kapitel 4
Konvergenz von Folgen reeller
Zufallsvariablen
4.1
Fast-sichere und stochastische Konvergenz
Seien (Ω, C, P) ein W-Raum, Xn (n ∈ N) eine Folge reeller Zufallsvariablen auf Ω und X eine reelle
Zufallsvariable auf Ω.
Definition 4.1 (Fast-sichere Konvergenz)
Die Folge Xn konvergiert fast-sicher gegen X, abkürzende Schreibweise: Xn → X f.s. , wenn es ein
Ω0 ∈ C mit P(Ω0 ) = 1 gibt, so dass
lim Xn (ω) = X(ω) ∀ ω ∈ Ω0 .
n→∞
Definition 4.2 (Stochastische Konvergenz)
st
Die Folge Xn konvergiert stochastisch gegen X, abkürzende Schreibweise: Xn → X , wenn für jedes
reelle ε > 0 gilt:
(
)
lim P Xn − X > ε = 0 .
n→∞
Bemerkungen:
1. Eine andere Bezeichnung für die stochastische Konvergenz (der Folge Xn gegen X) ist Konvergenz
in Wahrscheinlichkeit (der Folge Xn gegen X).
2. Es verwundert angesichts der beiden Definitionen nicht, dass die Limesvariable X im Fall
st
Xn → X f.s. oder Xn → X nicht streng eindeutig bestimmt ist, sondern nur P-fast-sicher eindeutig
bestimmt ist.
Theorem 4.3 (Beziehungen zwischen fast-sicherer und stochastischer Konvergenz)
st
(a) Wenn Xn → X f.s. , dann Xn → X .
st
(b) Wenn Xn → X , dann existiert eine Teilfolge Xni (i ∈ N) (mit einer strikt aufsteigenden Folge
n1 < n2 < . . . < ni < . . . in N ), so dass Xni → X f.s. (für i → ∞).
33
Norbert Gaffke: Vorlesung “Einführung in die Wahrscheinlichkeitstheorie und Statistik”, Wintersemester 2014/15
Kapitel 4: Konvergenz von Folgen reeller Zufallsvariablen
34
Beispiel: Stochastische Konvergenz ist i.A. schwächer als fast-sichere Konvergenz
Seien Ω = R, C = B 1 und P = R(0, 1). Definiere
i )
∀ i = 1, . . . , m , ∀ m ∈ N ,
m
m
{
}
Wähle irgendeine Abzählung der Indexmenge (i, m) : i ∈ {1, . . . , m} , m ∈ N :
N ∋ n 7−→ (in , mn ) , und betrachte die Folge reeller Zufallsvariablen Xn := 1 Ain ,mn , n ∈ N.
Ai,m :=
[i−1
,
st
Man sieht leicht: Xn → 0 ; aber für jedes ω ∈ [ 0 , 1 ) hat die Folge Xn (ω) (n ∈ N) unendlich viele
Glieder gleich 1 und unendlich viele Glieder gleich 0, und ist daher nicht konvergent.
Für die fast-sichere Konvergenz ist ziemlich offensichtlich, dass sie bei einer stetigen Transformation
erhalten bleibt, in folgendem Sinne.
(i)
Seien k Folgen reeller Zufallsvariablen auf Ω gegeben: Xn , n ∈ N , i = 1, . . . , k ;
seien k reelle Zufallsvariablen X (i) , i = 1, . . . , k, auf Ω gegeben.
Das folgende Resultat ist leicht zu zeigen:
(i)
Wenn Xn → X (i) f.s. für jedes i = 1, . . . , k und wenn g : Rk −→ R stetig ist,
( (1)
(
)
(k) )
dann:
g ◦ Xn , . . . , Xn
→ g ◦ X (1) , . . . , X (k) f.s.
Die Voraussetzung der Stetigkeit von g auf ganz Rk lässt sich abschwächen; es genügt die Voraussetzung, dass die Abbildung g messbar ist (bezgl. B k und B 1 ) und fast überall stetig ist, wobei sich fast
überall auf die gemeinsame Verteilung der Limesvariablen X (1) , . . . , X (k) bezieht:
)
{
}
((
)
P X (1) , . . . , X (k) ∈ Cg = 1 , wobei Cg := x ∈ Rk : g ist stetig im Punkt x .
Das – wie auch das entsprechende Resultat für stochastische Konvergenz – ist der Inhalt des nachfolgenden Continuous Mapping Theorem (CMT). Angemerkt sei, dass für eine messbare Funktion
g : Rk −→ R die Menge Cg eine Borelsche Menge ist.
Theorem 4.4 (Continuous Mapping Theorem)
(i)
(a) Wenn Xn → X (i) f.s. für jedes i = 1, . . . , k und g : Rk −→ R messbar mit
((
)
)
( (1)
(
)
(k) )
g ◦ Xn , . . . , Xn
→ g ◦ X (1) , . . . , X (k) f.s.
P X (1) , . . . , X (k) ∈ Cg = 1 , dann:
(i)
st
(b) Wenn Xn → X (i) für jedes i = 1, . . . , k und g : Rk −→ R messbar mit
((
)
)
( (1)
(
)
(k) ) st
P X (1) , . . . , X (k) ∈ Cg = 1 , dann:
g ◦ Xn , . . . , Xn
→ g ◦ X (1) , . . . , X (k) .
4.2
Gesetze der großen Zahlen
Zur Motivation der hier betrachteten Problemstellungen:
Seien x1 , . . . , xn realisierte Werte von u.i.v. reellen Zufallsvariablen X1 , . . . , Xn , also xi = Xi (ω) ,
n
∑
xi ≈ β , wobei
i = 1, . . . , n , für ein ω ∈ Ω. Dann sollte für großes n approximativ gelten: x := n1
i=1
β den (identischen) Erwartungswert der Zufallsvariablen Xi bezeichnet (die P-integrierbar seien).
Das schwache Gesetz der großen Zahlen (engl. Weak Law of Large Numbers, WLLN) präzisiert dies als
Norbert Gaffke: Vorlesung “Einführung in die Wahrscheinlichkeitstheorie und Statistik”, Wintersemester 2014/15
Kapitel 4: Konvergenz von Folgen reeller Zufallsvariablen
stochastische Konvergenz X n :=
1
n
n
∑
35
st
Xi → β , während das starke Gesetz der großen Zahlen (engl.
i=1
Strong Law of Large Numbers, SLLN) dies als fast-sichere Konvergenz präzisiert: X n → β f.s.
Im Folgenden sei (Ω, C, P) ein W-Raum.
Lemma 4.5 (Tchebychev-Ungleichung)
Sei X eine quadrat-P-integrierbare reelle Zufallsvariable auf Ω. Dann gilt für jedes ε > 0 :
)
(
Var(X)
.
P X − E(X) ≥ ε ≤
ε2
Korollar 4.6
Sei Yn (n ∈ N) eine Folge quadrat-P-integrierbarer reeller Zufallsvariablen auf Ω mit E(Yn ) = 0
st
∀ n ∈ N und mit lim Var(Yn ) = 0 . Dann gilt Yn → 0 .
n→∞
Theorem 4.7 (Schwaches Gesetz der großen Zahlen)
Sei Xi (i ∈ N) eine Folge quadrat-P-integrierbarer und paarweise unkorrelierter reeller Zufallsvariablen
n
∑
auf Ω. Bezeichne X n := n1
Xi ∀ n ∈ N. Es gilt:
i=1
Wenn
lim
n→∞
n
1 ∑
Var(Xi ) = 0 ,
n2
dann
( ) st
Xn − E Xn → 0 .
i=1
Korollar 4.8 (Spezialfall: Identisch verteilte Zufallsvariablen)
Sei Xi (i ∈ N) eine Folge quadrat-P-integrierbarer, identisch verteilter und paarweise unkorrelierter
reeller Zufallsvariablen auf Ω. Dann gilt, mit β := E(Xi ) :
st
Xn → β .
Die Herleitung eines starken Gesetzes der großen Zahlen ist weitaus schwieriger und erfordert einige
vorbereitende Resultate.
Lemma 4.9 (Toeplitz- und Kronecker-Lemma)
Sei xi (i ∈ N) eine reelle Zahlenfolge.
(a) Wenn
lim xi = x ∈ R , dann
i→∞
(b) Wenn die Reihe
n
1 ∑
xi = x .
lim
n→∞ n
i=1
n
∑
i=1
xi
, (n ∈ N), in R konvergiert, dann
i
lim
n→∞
n
1 ∑
xi = 0 .
n
i=1
Norbert Gaffke: Vorlesung “Einführung in die Wahrscheinlichkeitstheorie und Statistik”, Wintersemester 2014/15
Kapitel 4: Konvergenz von Folgen reeller Zufallsvariablen
Lemma 4.10 (Kolmogorov-Ungleichung)
Seien Y1 , . . . , Yn stochastisch unabhängige quadrat-P-integrierbare reelle Zufallsvariablen auf Ω mit
E(Yi ) = 0 ∀ i = 1, . . . , n.
j
∑
Bezeichne Sj :=
Yi für j = 1, . . . , n. Dann gilt für jedes ε > 0 :
i=1
P
(
n
)
1 ∑ ( 2)
E Yi .
max Sj ≥ ε ≤ 2
1≤j≤n
ε
i=1
Lemma 4.11 (Kolmogorov & Khinchin)
Sei Yi (i ∈ N) eine Folge stochastisch unabhängiger ∗ quadrat-P-integrierbarer reeller Zufallsvariablen
∞
∑
( )
auf Ω mit E(Yi ) = 0 ∀ i ∈ N und
E Yi2 < ∞ .
i=1
Dann konvergiert die Partialsummenfolge Sn :=
n
∑
Yi , (n ∈ N), fast-sicher gegen eine reelle
i=1
Zufallsvariable S auf Ω.
∗
Die stochastische Unabhängigkeit der Yi (i ∈ N) bedeutet, dass die Zufallsvariablen Y1 , . . . , Yn stochastisch
unabhängig sind, für jede Wahl von n ∈ N.
Theorem 4.12 (Starkes Gesetz der großen Zahlen von Kolmogorov)
Sei Xi (i ∈ N) eine Folge stochastisch unabhängiger quadrat-P-integrierbarer reeller Zufallsvariablen
n
∑
auf Ω. Bezeichne X n := n1
Xi , (n ∈ N) . Es gilt:
i=1
Wenn
∞
∑
Var(Xi )
i=1
i2
< ∞,
dann
( )
X n − E X n → 0 f.s.
Korollar 4.13 (Spezialfall: U.i.v. Zufallsvariablen)
Sei Xi (i ∈ N) eine Folge stochastisch unabhängiger, identisch verteilter und quadrat-P-integrierbarer
reeller Zufallsvariablen auf Ω. Bezeichne β := E(Xi ) . Dann gilt
X n → β f.s.
36
Norbert Gaffke: Vorlesung “Einführung in die Wahrscheinlichkeitstheorie und Statistik”, Wintersemester 2014/15
Kapitel 4: Konvergenz von Folgen reeller Zufallsvariablen
4.3
37
Konvergenz empirischer Verteilungsfunktionen
Zur Motivation:
Seien x1 , . . . , xn realisierte Werte von u.i.v. reellen Zufallsvariablen X1 , . . . , Xn , also xi = Xi (ω) ,
i = 1, . . . , n , (für ein ω ∈ Ω). Die empirische Verteilungsfunktion
}
1 {
Fbx1 ,...,xn (x) := i ∈ {1, . . . , n} : xi ≤ x ∀ x ∈ R
n
sollte für großes n approximativ mit der “wahren” Verteilungsfunktion F (die Verteilungsfunktion von
PXi ) übereinstimmen: Fbx1 ,...,xn (x) ≈ F (x) ∀ x ∈ R .
Das starke Gesetz der großen Zahlen ergibt eine erste Präzisierung; dabei setzen wir im Folgenden
voraus:
Seien (Ω, C, P) ein W-Raum und Xi (i ∈ N) eine Folge von u.i.v. reellen Zufallsvariablen auf Ω. Betrachte
zu gegebenem x ∈ R die Zufallsvariable auf Ω :
}
1 {
Fbn (x) : ω 7−→ i ∈ {1, . . . , n} : Xi (ω) ≤ x ,
n
1∑
d.h. Fbn (x) =
1 (−∞ , x ] ◦ Xi .
n
n
i=1
Mit Korollar 4.13 erhalten wir dann :
Fbn (x) → F (x) f.s. ∀ x ∈ R ,
(wobei F die Verteilungsfunktion von PXi ).
Beachte: Eine mit dieser fast-sicheren Konvergenz implizierten Menge Ω0 ∈ C mit P(Ω0 ) = 1 wird von x
abhängen: Ω0 = Ω0 (x) , x ∈ R. Der nachfolgende Satz von Glivenko-Cantelli verschärft aber die Konvergenzaussage in zweierlei Hinsicht:
Zum einen gibt es eine “simultane” Teilmenge Ω0 ∈ C mit P(Ω0 ) = 1, so dass die Konvergenz Fbn (x)(ω) → F (x)
für alle ω ∈ Ω0 und alle x ∈ R gültig ist.
Zum anderen ist die Konvergenz für jedes ω ∈ Ω0 sogar gleichmäßig in x.
Bezeichne, für jedes n ∈ N :
Dn (ω) := sup Fbn (x)(ω) − F (x) ∀ ω ∈ Ω ,
x∈R
kurz: Dn = sup Fbn (x) − F (x) .
x∈R
Mit der rechtsseitigen Stetigkeit der Funktionen F und x 7→ Fbn (x)(ω) für jedes ω ∈ Ω sieht man, dass
die oben definierte Funktion Dn : Ω −→ R messbar ist, also eine reelle Zufallsvariable auf Ω ist.
Theorem 4.14 (Glivenko & Cantelli)
Für eine Folge Xi (i ∈ N) von u.i.v. reellen Zufallsvariablen auf Ω gilt:
Dn → 0 f.s.
(für n → ∞) .
Kapitel 5
Schwache Konvergenz von
W-Verteilungen auf der Zahlengeraden
5.1
Schwache Konvergenz bzw. Verteilungskonvergenz
Bezeichne W(R, B1 ) die Menge aller W-Verteilungen auf (R, B 1 ) .
Definition 5.1 (Schwache Konvergenz von W-Verteilungen)
Seien Pn ∈ W(R, B 1 ) ∀ n ∈ N und P ∈ W(R, B1 ) .
Bezeichne Fn die Verteilungsfunktion von Pn für jedes n ∈ N, bezeichne F die Verteilungsfunktion
von P unf CF die Menge aller Stetigkeitsstellen von F .
w
Die Folge Pn (n ∈ N) heißt schwach konvergent gegen P , abkürzende Schreibweise: Pn → P ,
wenn gilt:
lim Fn (x) = F (x)
∀ x ∈ CF .
n→∞
Bemerkung: Eindeutigkeit der Limesverteilung
w
w
Wenn Pn → P und auch Pn → Q für eine Folge Pn ∈ W(R, B1 ) (n ∈ N) und zwei W-Verteilungen
P, Q ∈ W(R, B1 ), dann folgt P = Q.
Mit Definition 5.1 folgt nämlich
FP (x) = FQ (x)
∀ x ∈ CFP ∩ CFQ .
Die Komplemente (CFP )c und (CFQ )c sind abzählbar, woraus man unschwer schließt: FP = FQ , also
P = Q.
Beispiel: Dirac-Verteilungen
Für ein b ∈ R ist die Dirac-Verteilung (oder Einpunkt-Verteilung) im Punkt b gegeben durch
δb (A) = 1 A (b) ∀ A ∈ B 1 ,
und bekanntlich ist δb ∈ W(R, B1 ).
Seien nun an (n ∈ N) eine Folge in R und a ∈ R. Dann ergibt sich aus Definition 5.1 die Äquivalenz:
lim an = a
n→∞
⇐⇒
38
w
δan → δa .
Norbert Gaffke: Vorlesung “Einführung in die Wahrscheinlichkeitstheorie und Statistik”, Wintersemester 2014/15
Kapitel 5: Schwache Konvergenz von W-Verteilungen auf der Zahlengeraden
Beispiel: Diskrete Approximation der R(0, 1)-Verteilung
Betrachte
P = R(0, 1)
und
Pn =
39
n
1 ∑
δj/n .
n
j=1
w
Man zeigt leicht: Pn → R(0, 1).
w
Bemerkung: Pn → P ist schwächer als punktweise Konvergenz von Pn gegen P
Ein anderer – zunächst vielleicht näher liegender – Konvergenzbegriff für W-Verteilungen auf (R, B1 )
ist die punktweise Konvergenz im Sinne reeller Funktionen auf B 1 , d.h.
lim Pn (A) = P (A) ∀ A ∈ B 1 .
n→∞
w
Die Beispiele von oben zeigen aber, dass die schwache Konvergenz Pn → P nicht die punktweise
Konvergenz impliziert. In der Tat ist die punktweise Konvergenz stärker als die schwache Konvergenz:
Wenn
w
lim Pn (A) = P (A) ∀ A ∈ B 1 , dann Pn → P ,
n→∞
(nicht aber umgekehrt).
w
Wenn Pn → P mit einer stetigen Limesverteilung (d.h. mit stetiger Verteilungsfunktion F ), dann ist
die (punktweise) Konvergenz der Verteilungsfunktionen Fn in Definition 5.1 sogar gleichmäßig :
Lemma 5.2 (Stetige Limesverteilung)
Seien Pn ∈ W(R, B 1 ) ∀ n ∈ N und P ∈ W(R, B 1 ) .
w
Wenn Pn → P und die Verteilungsfunktion F von P stetig ist, dann gilt (mit Fn = Verteilungsfunktion
von Pn ∀ n ∈ N) :
(
)
lim sup Fn (x) − F (x) = 0 .
n→∞
x∈R
Lemma 5.3 (Eine schwach konvergente Folge ist straff, engl. tight)
w
Seien Pn ∈ W(R, B 1 ) ∀ n ∈ N und P ∈ W(R, B 1 ) mit Pn → P . Dann gilt:
Zu jedem ε > 0 existiert ein kompaktes Intervall I ⊆ R , so dass Pn (I) ≥ 1 − ε ∀ n ∈ N .
Definition 5.4 (Verteilungskonvergenz von reellen Zufallsvariablen)
Seien (Ω, C, P) ein W-Raum, Xn (n ∈ N) eine Folge reeller Zufallsvariablen auf Ω, X eine reelle
Zufallsvariable auf Ω und P ∈ W(R, B1 ) .
d
(i) Die Folge Xn heißt konvergent in Verteilung gegen P , abkürzende Schreibweise: Xn → P ,
w
wenn gilt: PXn → P .
d
(ii) Die Folge Xn heißt konvergent in Verteilung gegen X, abkürzende Schreibweise: Xn → X ,
w
wenn gilt: PXn → PX .
Norbert Gaffke: Vorlesung “Einführung in die Wahrscheinlichkeitstheorie und Statistik”, Wintersemester 2014/15
Kapitel 5: Schwache Konvergenz von W-Verteilungen auf der Zahlengeraden
40
Bemerkung
d
Hinsichtlich der Konvergenz in Verteilung in (ii), Xn → X , sei angemerkt, dass die Limesvariable
X keineswegs eindeutig bestimmt ist (auch nicht P-f.s.), sondern nur ihre Verteilung PX ist eindeutig
d
bestimmt. Der Konvergenzbegriff Xn → X ist nur virtuell ein Konvergenzbegriff für Zufallsvariablen,
tatsächlich handelt es sich um einen Konvergenzbegriff (schwache Konvergenz) für die Verteilungen
der Zufallsvariablen.
Lemma 5.5 (Stochastische Konvergenz impliziert Konvergenz in Verteilung)
Seien Xn (n ∈ N) eine Folge reeller Zufallsvariablen auf Ω und X eine reelle Zufallsvariable auf Ω.
Es gilt:
st
d
(a) Wenn Xn → X , dann Xn → X .
(b) Im Fall, dass X eine Konstante ist, gilt auch die Umkehrung in (a), d.h. für x0 ∈ R gilt die
Äquivalenz:
st
Xn → x0
5.2
⇐⇒
d
Xn → x 0
( ⇐⇒
w
PXn → δx0 ) .
Weitere Beschreibungen der schwachen Konvergenz
Für eine messbare Funktion g : R −→ R und P ∈ W(R, B 1 ) sagen wir, g sei P -fast überall stetig,
wenn P (Cg ) = 1, wobei Cg die Menge aller Stetigkeitsstellen von g bezeichnet.
Theorem 5.6 (Äquivalente Bedingungen für schwache Konvergenz)
Seien Pn ∈ W(R, B1 ) ∀ n ∈ N und P ∈ W(R, B1 ) . Bezeichne φn die charakteristische Funktion von
Pn (für jedes n ∈ N) und φ die charakteristische Funktion von P . Die folgenden vier Bedingungen
(i) - (iv) sind äquivalent.
w
(i) Pn → P .
(ii)
(iii)
(iv)
lim φn (t) = φ(t) ∀ t ∈ R .
n→∞
lim EPn (h) = EP (h) für jede stetige beschränkte Funktion h : R −→ R.
n→∞
lim EPn (h) = EP (h) für jede messbare beschränkte und P -fast überall stetige
n→∞
Funktion h : R −→ R.
Theorem 5.7 (CMT für schwache Konvergenz bzw. Konvergenz in Verteilung)
w
(a) Seien Pn ∈ W(R, B 1 ) ∀ n ∈ N und P ∈ W(R, B1 ) mit Pn → P .
w
Sei g : R −→ R eine P -fast überall stetige Funktion. Dann: (Pn )g → P g .
d
(b) Seien (Ω, C, P) ein W-Raum und Xn ∀ n ∈ N und X reelle Zufallsvariablen auf Ω mit Xn → X .
Sei g : R −→ R eine PX -fast überall stetige Funktion. Dann:
d
g ◦ Xn → g ◦ X .
Norbert Gaffke: Vorlesung “Einführung in die Wahrscheinlichkeitstheorie und Statistik”, Wintersemester 2014/15
Kapitel 5: Schwache Konvergenz von W-Verteilungen auf der Zahlengeraden
Lemma 5.8
Seien (Ω, C, P) ein W-Raum, Xn , n ∈ N, und Yn , n ∈ N, zwei Folgen reeller Zufallsvariablen auf Ω
und P ∈ W(R, B 1 ) . Es gilt:
d
st
dann Xn + Yn → P und Xn Yn → 0 .
d
st
dann Xn Yn → P .
(a) Wenn Xn → P und Yn → 0 ,
(b) Wenn Xn → P und Yn → 1 ,
5.3
d
st
d
Zentraler Grenzwertsatz
Sei (Ω, C, P) ein W-Raum, und sei Xi ∈ L2 (P), i ∈ N, eine Folge von stochastisch unabhängigen und
identisch verteilten (u.i.v.) reellen Zufallsvariablen auf Ω. Bezeichne
√
β := E(Xi ) und σ := Var(Xi ) ,
und es sei σ > 0. Unser Interesse ist auf das asymptotische (n → ∞) Verhalten der Verteilung der
Summenvariablen
n
∑
Sn =
Xi , n ∈ N ,
i=1
gerichtet. Um Verteilungskonvergenz zu erhalten, betrachten wir die standardisierten Summenvariablen:
Sn − nβ
√
, n ∈ N.
nσ
Offensichtlich haben die standardisierten Summenvariablen alle Erwartungswert gleich 0 und Varianz
gleich 1.
Lemma 5.9 (Taylor-Approximation zweiter Ordnung der charakteristischen Funktion)
Für die charakteristische Funktion φ = φX1 gilt:
φ(t) = 1 + iβt − 12 (σ 2 + β 2 )t2 + o(t2 )
für t → 0 ,
oder anders ausgedrückt:
lim
t→0 , t̸=0
[
])
1 (
2
2 2
1
φ(t)
−
1
+
iβt
−
(σ
+
β
)t
= 0.
2
t2
Theorem 5.10 (Zentraler Grenzwertsatz, Standard-Version)
Für die Folge der standardisierten Summenvariablen gilt:
Sn − nβ d
√
→ N(0, 1) .
nσ
41
Norbert Gaffke: Vorlesung “Einführung in die Wahrscheinlichkeitstheorie und Statistik”, Wintersemester 2014/15
Kapitel 5: Schwache Konvergenz von W-Verteilungen auf der Zahlengeraden
42
Bemerkung: Gleichmäßige Konvergenz der Verteilungsfunktionen
Gemäß Definition 5.1 sagt der zentrale Grenzwertsatz:
( S − nβ
)
n
√
lim P
≤ z = Φ(z) , ∀z ∈ R ,
n→∞
nσ
wobei Φ die Verteilungsfunktion von N(0, 1) bezeichnet. Nach Lemma 5.2 ist die Konvergenz gleichmäßig
in z ∈ R , d.h.
( S − nβ
(n→∞)
)
n
√
sup P
≤ z − Φ(z) −→ 0 .
nσ
z∈R
Daraus ergibt sich das folgende Korollar.
Korollar 5.11 (Asymptotik der Verteilung der Summenvariablen)
(
( z − nβ ) )
sup P Sn ≤ z − Φ √
nσ
z∈R
(n→∞)
−→
0.
Anmerkung: Für großes n haben wir daher als Approximation für die Verteilungsfunktion der
Summenvariablen:
( z − nβ )
(
)
∀ z ∈ R,
P Sn ≤ z ≈ Φ √
nσ
und in diesem Sinne, aber lax ausgedrückt:
(
)
PSn ≈ N nβ , nσ 2 .
Beispiel: Normal-Approximation von Binomial-Verteilungen
Betrachten wir den Spezialfall von u.i.v. 0-1-wertigen Zufallsvariablen:
Xi ∼ Bi(1, p) ∀ i ∈ N , u.i.v. , mit einem p ∈ ( 0 , 1 ) .
√
Dann ist β = p und σ = p(1 − p). Also haben wir (für großes n) die Approximation
( z − np )
(
)
P Sn ≤ z ≈ Φ √
∀ z ∈ R.
np(1 − p)
Wegen Sn ∼ Bi(n, p) ist dies die Normal-Approximation der Bi(n, p)-Verteilung.
Da die Verteilungsfunktion von Bi(n, p) auf den Intervallen z ∈ [ k , k + 1 ) jeweils konstant gleich
P ( Sn ≤ k ) ist (für jedes k = 0, 1, . . . , n − 1), ergibt sich für die Wahl z = k + 12 :
( k + 1 − np )
P( Sn ≤ k ) ≈ Φ √ 2
np(1 − p)
für k = 0, 1, . . . , n − 1 ,
(“Normalapproximation der Binomialverteilung mit Ganzzahligkeitskorrektur”).
Im folgenden weiteren Korollar wird bei der Standardisierung der Summenvariablen Sn nicht die exakte
Standardabweichung σ verwendet, sondern eine “konsistente Folge von Schätzern” σ
bn (n ∈ N).
Korollar 5.12
st
Sei außerdem σ
bn , n ∈ N, eine Folge positiver reeller Zufallsvariablen auf Ω mit σ
bn → σ . Dann gilt:
Sn − nβ d
√
→ N(0, 1) .
nσ
bn
Kapitel 6
Einführung in die mathematische
Statistik
6.1
Statistische Modellierung
Bei der Modellierung eines Zufallsexperiments besteht oft Unsicherheit darüber, welche W-Verteilung
P auf dem Ergebnisraum (M, A) adäquat ist. Die statistische Modellierung trägt dem Rechnung
– innerhalb eines gewissen Rahmens. In einem (parametrischen) statistischen Modell werden einige
Parameter in das Verteilungsmodell aufgenommen, deren Werte offen gelassen werden, also unbekannt
sind.
Definition 6.1 (Statistisches Modell)
Ein (parametrisches) statistisches Modell ist ein Tripel
)
(
( )
M , A , Pϑ ϑ∈Θ ,
wobei (M, A) ein Messraum und (Pϑ )ϑ∈Θ eine Familie von W-Verteilungen auf (M, A) ist.
Beispiele
(1) Binomialmodelle
n
(
)
⊗
(a) M = {0, 1}n , A = P {0, 1}n , Pp =
Bi(1, p) , p ∈ [ 0 , 1 ] der Parameter.
i=1
(
)
(b) M = {0, 1, . . . , n} , A = P {0, 1, . . . , n} , Pp = Bi(n, p) , p ∈ [ 0 , 1 ] der Parameter.
(2) Poisson-Modell
n
( )
⊗
Poi(λ) , λ ∈ ( 0 , ∞) der Parameter.
M = Nn0 , A = P Nn0 , Pλ =
i=1
(3) Normalverteilungsmodell
M = Rn , A = B n , Pβ,σ =
n
⊗
N(β, σ 2 ) , (β, σ) ∈ R × ( 0 , ∞) der Parameter.
i=1
(4) Exponentialverteilungsmodell
n
⊗
Exp(λ) , λ ∈ ( 0 , ∞) der Parameter.
M = Rn , A = B n , P λ =
i=1
43
Norbert Gaffke: Vorlesung “Einführung in die Wahrscheinlichkeitstheorie und Statistik”, Wintersemester 2014/15
Kapitel 6: Einführung in die mathematische Statistik
Bemerkung: Modellformulierung mit Zufallsvariablen
Im Hintergrund seien ein Messraum (Ω, C) mit einer Familie von W-Verteilungen (Pϑ )ϑ∈Θ auf (Ω, C)
vorhanden sowie eine Zufallsvariable X : Ω −→ M . Die Verteilungsfamilie im statistischen Modell von Definition 6.1 ist die Familie der Verteilungen der Zufallsvariablen X unter den diversen Pϑ
(ϑ ∈ Θ) : Pϑ = PX
∀ ϑ ∈ Θ.
ϑ
Zum Beispiel:
n
⊗
Binomialmodell (a) : X = (X1 , . . . , Xn ) ∼
Bi(1, p) , p ∈ [ 0 , 1 ] der Parameter.
i=1
Man formuliert das Modell auch so: X1 , . . . , Xn u.i.v. ∼ Bi(1, p) , p ∈ [ 0 , 1 ] der Parameter.
Binomialmodell (b) :
X ∼ Bi(n, p) , p ∈ [ 0 , 1 ] der Parameter.
Normalverteilungsmodell :
6.2
X1 , . . . , Xn u.i.v. ∼ N(β, σ 2 ) , (β, σ) ∈ R × ( 0 , ∞) der Parameter,
(man spricht auch von den Parametern β und σ).
Maximum-Likelihood-Schätzung
Das zu Grunde gelegte statistische Modell gibt die Möglichkeit für eine modellbasierte Datenanalyse:
Aus dem Ergebnis x des Zufallsexperiments (den “Beobachtungsdaten”) sollen Rückschlüsse über den
wahren Wert des Parameters ϑ gezogen werden. Vereinfacht gesagt ist das deshalb möglich, weil das
beobachtete Ergebnis x unter den verschiedenen prinzipiell möglichen Parameterwerten ϑ ∈ Θ verschiedene Wahrscheinlichkeiten besitzt.
Beispiel: Binomialmodell
X ∼ Bi(n, p) , p ∈ [ 0 , 1 ] der Parameter, für ein gegebenes n ∈ N. Angenommen, wir haben einen
konkreten Wert x ∈ { 0, 1, . . . , n } als Ergebnis erhalten. Jetzt betrachten wir die Wahrscheinlichkeiten, die dieses Ereignis (also das Ergebnis x) für alle möglichen Parameterwerte p besitzt, d. h. wir
betrachten die sog. Likelihood-Funktion
( )
(
)
n x
p (1 − p)n−x .
[ 0 , 1 ] ∋ p 7−→ Lx (p) := Pp {x} =
x
Maximum-Likelihood-Schätzung: Als Schätzung für p wird die Maximumstelle der Likelihood-Funktion
genommen. Dieses Konzept wird in den folgenden Definitionen allgemeiner formuliert für die beiden
wichtigsten Situationen:
(a) Diskretes Modell ; (b) Modell mit Lebesgue-stetigen Verteilungen .
Definition 6.2 (Likelihood-Funktion)
(
)
( )
Gegeben sei ein statistisches Modell M , A , Pϑ ϑ∈Θ .
Fall (a) Sei M abzählbar und A = P(M ) . Für gegebenes x ∈ M heißt die Funktion
(
)
Lx : Θ −→ [ 0 , 1 ] , Lx (ϑ) := Pϑ {x} , ϑ ∈ Θ .
die Likelihood-Funktion (zu x).
Fall (b) Sei (M, A) = (Rn , Bn ) , und für jedes ϑ besitze Pϑ die Lebesgue-Dichte fϑ .
Für gegebenes x ∈ Rn heißt die Funktion
Lx : Θ −→ [ 0 , ∞) ,
die Likelihood-Funktion (zu x).
Lx (ϑ) := fϑ (x) , ϑ ∈ Θ .
44
Norbert Gaffke: Vorlesung “Einführung in die Wahrscheinlichkeitstheorie und Statistik”, Wintersemester 2014/15
Kapitel 6: Einführung in die mathematische Statistik
45
Definition 6.3 (Maximum-Likelihood-Schätzung)
In jedem der beiden Fälle von Definition 6.2 definiert man für ein gegebenes x ∈ M :
b
Eine Maximum-Likelihood-Schätzung (ML-Schätzung) für ϑ (zu x) ist ein Parameterwert ϑ(x)
∈ Θ mit
(
)
b
Lx ϑ(x)
= max Lx (ϑ) .
ϑ∈Θ
Bemerkung: Log-Likelihood-Funktion
Da Lx (ϑ) ∈ [ 0 , ∞) ∀ ϑ ∈ Θ, können wir die Log-Likelihood-Funktion bilden:
ℓx (ϑ) := ln Lx (ϑ) ,
ϑ ∈ Θ,
b
wobei definiert sei: ln(0) := −∞ . Eine ML-Schätzung ϑ(x)
ist dann äquivalent charakterisiert durch
(
)
b
ℓx ϑ(x)
= max ℓx (ϑ) .
ϑ∈Θ
Beispiel: Binomialmodell
X ∼ Bi(n, p) , p ∈ [ 0 , 1 ] der Parameter.
Likelihood-Funktion bzw. Log-likelihood-Funktion zur Beobachtung x ∈ {0, 1, . . . , n} :
( )
n x
Lx (p) =
p (1 − p)n−x ,
x
( )
n
ℓx (p) = ln
+ x ln(p) + (n − x) ln(1 − p) .
x
Eine “Kurvendiskussion” der Funktionen Lx (p) oder ℓx (p) , p ∈ [ 0 , 1 ] liefert als Maximumstelle,
d.h. als ML-Schätzung für p :
x
pb(x) =
.
n
Beispiel: Poisson-Modell
X1 , X2 , . . . , Xn u.i.v. ∼ Poi(λ) , und λ ∈ ( 0 , ∞) ist der Parameter. Zur Beobachtung
x = (x1 , x2 , . . . , xn ) ∈ Nn0 haben wir die Likelihood-Funktion bzw. die Log-Likelihood-Funktion:
∑n
λ i=1 x1
Lx (λ) = e
,
x1 ! x2 ! · · · xn !
)
(∑
n
(
)
xi ln(λ) − ln x1 ! x2 ! · · · xn ! .
ℓx (λ) = −nλ +
−nλ
i=1
Eine “Kurvendiskussion” liefert als ML-Schätzung für λ :
n
1 ∑
b
λ(x) = x =
xi .
n
i=1
b
Die extreme Beobachtung x = 0 (d.h. alle xi = 0) ist – streng gesehen – dabei auszunehmen, da λ(0)
= 0 nicht
im Parameterbereich ( 0 , ∞) liegt.
Norbert Gaffke: Vorlesung “Einführung in die Wahrscheinlichkeitstheorie und Statistik”, Wintersemester 2014/15
Kapitel 6: Einführung in die mathematische Statistik
46
Beispiel: Normalverteilungsmodell
X1 , X2 , . . . , Xn u.i.v. ∼ N (β, σ 2 ) , der Parameter ist (β, σ) ∈ R × ( 0 , ∞) , (n ≥ 2 gegeben).
Die Likelihood-Funktion zur Beobachtung x = (x1 , x2 , . . . , xn ) ∈ Rn :
Als ML-Schätzung
(
Lx (β, σ)
=
ℓx (β, σ)
=
b
β(x),
σ
b(x)
)
( 1 ∑
)
n
(2π)−n/2 σ −n exp − 2 (xi − β)2 ,
2σ i=1
n
n
1 ∑
− ln(2π) − n ln(σ) −
(xi − β)2 .
2
2σ 2 i=1
ergibt sich:
b
β(x)
= x =
1
n
n
∑
√
xi
und
i=1
σ
b(x) =
1
n
n
∑
(xi − x)2 .
i=1
Im Fall, dass die Beobachtungswerte x1 , x2 , . . . , xn alle gleich sind, also x1 = x2 = . . . = xn gilt, erhalten wir
σ
b(x) = 0. Das ist streng genommen kein zulässiger Schätzwert für σ > 0. Dieser Fall hat Wahrscheinlichkeit
Null unter jeder W-Verteilung des Modells und wird daher praktisch nicht auftreten (sofern das Modell zutrifft).
6.3
Lineare Regression
Wir beschränken uns auf das einfachste lineare Regressionsmodel: Die Regressionsgerade.
Eine reelle Zielgröße y hänge von einer reellen Einflussgröße t ab: y = y(t) , (z. B. Umsatz y eines
Produkts in Abhängigkeit vom Werbeaufwand t). In erster Näherung wird davon ausgegangen, dass
y eine lineare Funktion von t ist, d. h.
y(t) = a t + c
(Regressionsgerade)
für alle möglichen Werte t innerhalb eines gewissen Bereichs (in der Regel ein Intervall), wobei a und
c reelle Konstanten sind, die aber unbekannt sind. Es liegen nun Beobachtungsdaten vor:
(t1 , y1 ) , (t2 , y2 ) , . . . , (tn , yn ) ;
(z. B. wurde in n Zeitperioden jeweils der Umsatz yi bei einem Werbeaufwand ti beobachtet).
Die yi -Werte hängen von den jeweiligen ti -Werten ab, aber außerdem noch von unkontrollierbaren
“Zufallseinflüssen”. Daher wird die folgende statistische Sichtweise in das Modell eingebracht:
Die beobachteten Werte y1 , y2 , . . . , yn sind Werte von reellen Zufallsvariablen Y1 , Y2 , . . . , Yn mit:
(
)
Yi ∼ N y(ti ), σ 2 ∀ i = 1, . . . , n , und Y1 , . . . , Yn stoch. unabhängig.
Die Parameter im Modell sind a, c ∈ R und σ > 0.
Beachte: Nur die beobachteten Werte y1 , y2 , . . . , yn werden hier als Werte von Zufallsvariablen behandelt, nicht aber die beobachteten Werte t1 , t2 , . . . , tn . Letztere werden als bekannte Konstanten
gesehen (sie unterliegen keinen Zufallseinflüssen).
Wir haben daher das statistische Modell (Normalverteilungsmodell der Regressionsgeraden):
(
)
(
)
Rn , B n , Pa,c,σ (a,c,σ)∈R2 ×(0,∞) ,
mit Pa,c,σ :=
n
(
)
⊗
N ati + c , σ 2 .
i=1
Die Log-Likelihood-Funktion zur Beobachtung y = (y1 , y2 , . . . , yn ) ∈ Rn lautet:
n
)2
n
1 ∑(
ℓy (a, c, σ) = − ln(2π) − n ln(σ) −
yi − (ati + c) .
2
2
2σ
i=1
Norbert Gaffke: Vorlesung “Einführung in die Wahrscheinlichkeitstheorie und Statistik”, Wintersemester 2014/15
Kapitel 6: Einführung in die mathematische Statistik
47
Die Maximierung ergibt die folgende ML-Schätzung ; dabei wird vorausgesetzt: Die Werte t1 , . . . , tn
sind nicht alle identisch.
ML-Schätzung im Normalverteilungsmodell der Regressionsgeraden
n
∑
b
a(y) =
(ti − t) (yi − y)
i=1
n
∑
b
c(y) = y − b
a(y) t ,
,
(ti − t)2
σ
b(y) =
√
1
n
RSS(y) ,
i=1
wobei:
Anmerkung:
t =
1
n
n
∑
ti ,
y =
i=1
1
n
n
∑
yi ,
RSS(y) =
i=1
n (
∑
[
] )2
yi − b
a(y) ti + b
c(y)
.
i=1
Bezeichnung “RSS” von engl. Residual Sum of Squares.
Bemerkung: Methode der Kleinsten Quadrate (engl.: Least Squares)
Die ML-Schätzungen b
a(y) und b
c(y) sind auch die Lösung des Minimierungsproblems
n (
∑
yi − (a ti + c)
)2
−→ min !
a,c ∈R
i=1
Es wird also diejenige Gerade y(t) = a t + c den Datenpunkten (t1 , y1 ) , (t2 , y2 ) , . . . , (tn , yn ) angepasst, welche im Sinne der Summe der Abweichungsquadrate,
n
∑
(
yi − y(ti )
)2
,
i=1
die geringste Abweichung von den Datenpunkten liefert. Die schließlich verbleibende minimale Abweichungsquadratsumme ist die Residual Sum of Squares RSS(y) .
6.4
Statistische Theorie der Schätzer
Gegeben sei ein statistisches Modell:
(
)
( )
M , A , Pϑ ϑ∈Θ .
b
Eine Parameterschätzung ϑ(x)
ist – wegen des zufälligen Charakters der Beobachtungsdaten x –
b
zwangsläufig fehlerbehaftet. Die Beobachtung x, die der Schätzung ϑ(x)
unterliegt, hätte (im Rahmen
des Verteilungsmodells) auch anders sein können. Deshalb wird die Schätzung zufallsbedingt mehr
oder weniger vom wahren Wert des Parameters ϑ abweichen.
Die statistische Theorie betrachtet das Verhalten von Schätzungen im statistischen Mittel und beschäftigt
b
sich daher mit Schätzfunktionen M ∋ x 7−→ ϑ(x)
; eine solche Funktion nennt man einen Schätzer
für ϑ. Ein Schätzer ϑb ist insbesondere eine Zufallsvariable auf M (Messbarkeit vorausgesetzt). Wir beschränken uns auf reellwertige Schätzer, etwa für eine Komponente von ϑ (wenn ϑ mehrdimensional)
oder auch für eine Transformation eines ein-dimensionalen Parameters (z.B. Schätzer für 1/λ im Exponentialverteilungsmodell mit Parameter λ). Allgemeiner:
Definition 6.4 (Schätzer für einen reellen Parameter)
Sei γ : Θ −→ R gegeben. Eine messbare (bezgl. der Sigma-Algebren A und B1 ) Funktion γ
b : M −→ R
heißt ein Schätzer für γ(ϑ).
Norbert Gaffke: Vorlesung “Einführung in die Wahrscheinlichkeitstheorie und Statistik”, Wintersemester 2014/15
Kapitel 6: Einführung in die mathematische Statistik
48
Eine attraktive Klasse von Schätzern für γ(ϑ) bilden die erwartungstreuen Schätzer (engl. unbiased
estimators).
Definition 6.5 (Erwartungstreuer Schätzer)
Ein Schätzer γ
b für γ(ϑ) heißt erwartungstreu oder unverzerrt (engl. unbiased), wenn gilt:
γ
b ist Pϑ -integrierbar und
Eϑ ( γ
b) = γ(ϑ)
für jedes ϑ ∈ Θ.
∫
γ
b dPϑ
Dabei bezeichnet Eϑ ( γ
b) = EPϑ ( γ
b) =
∀ ϑ ∈ Θ.
M
Beispiele: Erwartungstreue Schätzer
(1) Binomialmodell X ∼ Bi(n, p) , p ∈ [ 0 , 1 ] der Parameter.
Der ML-Schätzer pb(x) = x/n , x ∈ {0, 1, . . . , n} , ist ein erwartungstreuer Schätzer für p.
Anmerkung: Dieser Schätzer ist auch der einzige erwartungstreue Schätzer für p.
(2) Exponentialverteilungsmodell: X1 , . . . , Xn u.i.v. ∼ Exp(λ) , λ ∈ ( 0 , ∞) .
γ
b(x1 , . . . , xn ) = x ist ein erwartungstreuer Schätzer für γ(λ) := 1/λ .
(3) Normalverteilungsmodell: X1 , . . . , Xn u.i.v. ∼ N(β, σ 2 ) , (β, σ) ∈ R ×( 0 , ∞) .
b 1 , . . . , xn ) = x ist ein erwartungstreuer Schätzer für β ;
β(x
n
1 ∑
s2 (x1 , . . . , xn ) = n−1
(xi − x)2 ist ein erwartungstreuer Schätzer für σ 2 , (n ≥ 2 vorausgesetzt).
i=1
(4) Normalverteilungsmodell der Regressionsgeraden (Abschnitt 6.3):
Die Schätzer b
a und b
c sind erwartungstreue Schätzer für a bzw. c ;
1
2
der Schätzer S := n−2
RSS ist ein erwartungstreuer Schätzer für σ 2 , (n ≥ 3 vorausgesetzt).
Die mittlere quadratische Abweichung der Schätzungen γ
b(x) , (x ∈ M ) , vom zu schätzenden Parameter
γ(ϑ) im Falle eines erwartungstreuen Schätzers γ
b ist die Varianz von γ
b, die i.A. eine Funktion des
Modellparameters ϑ ∈ Θ ist:
∫
(
)2
Varϑ (b
γ ) = VarPϑ (b
γ) =
γ
b(x) − γ(ϑ) dPϑ (x) ∀ ϑ ∈ Θ .
M
Beispiel: Binomialmodell
X ∼ Bi(n, p) , p ∈ [ 0 , 1 ] der Parameter. Betrachte den erwartungstreuen Schätzer pb(x) = x/n
∀ x ∈ {0, 1, . . . , n} . Wir erhalten für die Varianz:
Varp ( pb ) = Varp
6.5
(1
n
)
X
=
1
1
p(1 − p)
Varp (X) = 2 n p (1 − p) =
.
2
n
n
n
Intervallschätzer und Konfidenzintervalle
Wir gehen wieder von einem statistischen Modell aus:
(
)
( )
M , A , Pϑ ϑ∈Θ ,
und das Interesse gelte einem reellen Parameter γ(ϑ); es sei also eine Funktion γ : Θ −→ R gegeben.
Norbert Gaffke: Vorlesung “Einführung in die Wahrscheinlichkeitstheorie und Statistik”, Wintersemester 2014/15
Kapitel 6: Einführung in die mathematische Statistik
49
Eine Intervallschätzung für γ(ϑ) auf Grund von x ∈ M ist ein Intervall
[
]
b
I(x)
= γ
b1 (x) , γ
b2 (x) ,
b
mit geeigneten reellen γ
b1 (x) ≤ γ
b2 (x) . Die Intervallschätzung I(x)
soll eine Interpretation dahingehend gestatten, dass der wahre Wert γ(ϑ) mit großer Wahrscheinlichkeit in diesem Intervall liegt1 ,
z.B. mit Wahrscheinlichkeit von mindestens 95 %. Dies zu präzisieren erfordert wieder die statistische
Sichtweise: Ein Intervallschätzer für γ(ϑ) ist eine Intervall-wertige Funktion Ib auf M der Form
[
]
b
M ∋ x 7−→ I(x)
= γ
b1 (x) , γ
b2 (x) ,
mit zwei messbaren (bezgl. A und B1 ) Funktionen γ
bi : M −→ R , i = 1, 2, γ
b1 ≤ γ
b2 .
[
]
b
Wir schreiben dann I = γ
b1 , γ
b2 .
Definition 6.6 (Überdeckungswahrscheinlichkeiten, (1 − α)-Konfidenzintervall)
[
]
Sei Ib = γ
b1 , γ
b2 ein Intervallschätzer für γ(ϑ). Die Wahrscheinlichkeiten
)
(
für ϑ ∈ Θ
b1 ≤ γ(ϑ) ≤ γ
b2
Pϑ γ
b
heißen die Überdeckungswahrscheinlichkeiten des Intervallschätzers I.
({
(
)
})
Dabei bedeutet natürlich: Pϑ γ
b1 ≤ γ(ϑ) ≤ γ
b2 = Pϑ x ∈ M : γ
b1 (x) ≤ γ(ϑ) ≤ γ
b2 (x)
.
Wenn zu einem gegebenen α ∈ ( 0 , 1 ) (i.d.R. klein, z.B. α = 0.05) die Überdeckungswahrscheinlichkeiten
von Ib alle (d.h. ∀ ϑ ∈ Θ) mindestens 1 − α sind, dann heißt Ib ein (1 − α)-Konfidenzintervall für γ(ϑ).
Interpretation eines (1 − α)-Konfidenzintervalls:
]
[
Die Bedingung, dass Ib = γ
b1 , γ
b2 ein (1 − α)-Konfidenzintervall ist (z.B. ein 95 % -Konfidenzintervall,
wenn α = 0.05), beinhaltet ja insbesondere, dass auch für den wahren Wert ϑ des Modellparameters
die Überdeckungswahrscheinlichkeit mindestens 1 − α ist, d.h. das Ereignis
{
}
x∈M : γ
b1 (x) ≤ γ(ϑ) ≤ γ
b2 (x)
hat eine Wahrscheinlichkeit ≥ 1−α (also z.B. ≥ 0.95). Deshalb können wir sozusagen (1−α)·100 % -ig
(z.B. 95 % -ig) darauf vertrauen, dass ein zufällig realisiertes x ∈ M in dieser Menge liegt und daher
[
]
b
das (konkrete) Intervall I(x)
= γ1 (x) , γ
b2 (x) zur Beobachtung x den wahren Wert γ(ϑ) enthält.
Ein (1 − α)-Konfidenzintervall ist in diesem Sinne also in der Tat ein (1 − α)-Vertrauensintervall.
Anmerkung: Die Sprechweise, (für eine konkrete Beobachtung x) ,
b
”die Wahrscheinlichkeit, dass γ(ϑ) im Intervall I(x)
=
[
]
γ
b1 (x) , γ
b2 (x) liegt”
macht mathematisch keinen Sinn. Denn γ
b1 (x) und γ
b2 (x) sind konkrete Werte, z.B. die Werte 2.3 und 5.7.
Was aber sollte die Wahrscheinlichkeit für γ(ϑ) ∈ [ 2.3 , 5.7 ] sein ? Diese existiert nicht, da ja γ(ϑ) keine
Zufallsvariable, sondern eine unbekannte Konstante ist.
1
das ist allerdings wörtlich genommen – für eine konkrete Beobachtung x – so nicht möglich; die Interpretation
erfordert wieder eine statistische Sichtweise, s. nachfolgende Ausführungen.
Norbert Gaffke: Vorlesung “Einführung in die Wahrscheinlichkeitstheorie und Statistik”, Wintersemester 2014/15
Kapitel 6: Einführung in die mathematische Statistik
50
Beispiel: Normalverteilungsmodell mit bekannter Varianz
Seien X1 , X2 , . . . , Xn u.i.v. ∼ N(β, σ02 ) , wobei β ∈ R der Parameter ist; die Varianz σ02 soll hier
bekannt, also kein Parameter sein. Ein (1−α)-Konfidenzintervall für β (hier also γ(β) = β) ist gegeben
durch:
[
σ0
σ0 ]
b
I(x)
= x − q1− α2 √ , x + q1− α2 √
, x = (x1 , . . . , xn ) ∈ Rn ,
n
n
(
)
wobei q1− α2 := Φ−1 1 − α2 das sog. (1 − α2 )-Quantil der Standard-Normalverteilung ist.
Zahlenbeispiel: Für n = 10 und σ0 = 0.23 ergaben die Daten x = (x1 , x2 , . . . , x10 ) : x = 2.57 .
Wir berechnen das 95%-Konfidenzintervall für β:
α = 0.05, 1 − α2 = 0.975, q0.975 = 1.96 ; damit:
b
I(x)
=
[
[
]
0.23
0.23 ]
= 2.43 , 2.71 .
2.57 − 1.96 · √ , 2.57 + 1.96 · √
10
10
Wir berechnen auch das 99%-Konfidenzintervall für β, (jetzt also α = 0.01) : Wir haben 1 −
q0.995 = 2.58 , und analoge Rechnung wie oben ergibt:
[
]
b
I(x)
= 2.38 , 2.76
(99%-Konfidenzintervall für β) ,
α
2
= 0.995 ;
das natürlich breiter als das 95%-Konfidenzintervall ist.
Beispiel: Binomialmodell
Modell: X ∼ Bi(n, p) , p ∈ ( 0 , 1 ) der Parameter.Wir fragen nach einem (1 − α)-Konfidenzintervall
für p (hier also: γ(p) = p). Die Konstruktion eines solchen Konfidenzintervalls ist möglich, aber relativ
kompliziert. Wir beschränken uns auf die Herleitung eines approximativen (1 − α)-Konfidenzintervalls
für p, das auf der Asymptotik (n → ∞) und dem Zentralen Grenzwertsatz beruht. Für größere Werte
von n, (sagen wir n ≥ 30), ist dies als eine gute Näherung anzusehen.
Aus dem CLT erhält man für großes n :
Unter Pp :
Mit q1− α2
√
n√
pb − p
pb(1 − pb)
)
(
:= Φ−1 1 − α2 daher:
approx.
∼
N(0, 1) ,
wobei pb(x) =
(
)
√
pb − p
Pp −q1− α2 ≤ n √
≤ q1− α2 ≈ 1 − α
pb(1 − pb)
x
∀ x ∈ {0, 1, . . . , n} .
n
∀ p ∈ (0, 1) ,
oder äquivalent umgeformt:
)
(
wobei:
Pp pb1 ≤ p ≤ pb2 ≈ 1 − α ∀ p ∈ ( 0 , 1 ) ,
√
√
pb(1 − pb)
pb(1 − pb)
pb1 = pb − q1− α2
und pb2 = pb + q1− α2
.
n
n
Also haben wir mit
[
]
b
I = pb1 , pb2
ein approximatives (1 − α)-Konfidenzintervall für den Parameter p.
Zahlenbeispiel: Für n = 40 hat sich die Beobachtung x = 34 ergeben. Wir berechnen:
√
√
(
)
pb(x) 1 − pb(x)
34
0.85 · 0.15
pb(x) =
= 0.85 und
=
= 0.056 .
40
40
40
Das approximative 95%-Konfidenzintervall für den Parameter p ist daher (mit q0.975 = 1.96 ):
[
]
[
]
b
I(x)
= 0.85 − 1.96 · 0.056 , 0.85 + 1.96 · 0.056 = 0.74 , 0.96 .
Norbert Gaffke: Vorlesung “Einführung in die Wahrscheinlichkeitstheorie und Statistik”, Wintersemester 2014/15
Kapitel 6: Einführung in die mathematische Statistik
6.6
51
Testprobleme und Signifikanztests
Gegeben sei wieder ein statistisches Modell:
(
)
( )
M , A , Pϑ ϑ∈Θ .
Unter einem Testproblem versteht man eine Zerlegung des Parameterbereichs Θ in zwei disjunkte,
nicht-leere Teilmengen Θ0 und Θ1 :
Θ = Θ 0 ∪ Θ1 ,
(Θ0 ̸= ∅ , Θ1 ̸= ∅ , Θ0 ∩ Θ1 = ∅ ) .
Damit verbunden ist die statistische Fragestellung, ob der wahre Wert des Parameters ϑ in der Teilmenge Θ0 oder in der (komplementären) Teilmenge Θ1 liegt. Als Schreibweise für diese Fragestellung
(eigentliches “Testproblem”) ist gebräuchlich:
H0 : ϑ ∈ Θ0
gegen
H1 : ϑ ∈ Θ 1 ;
die mit H0 bezeichnete Möglichkeit nennt man die Nullhypothese und die alternative Möglichkeit H1
heißt die Alternativhypothese. Die Entscheidung zwischen den beiden Möglichkeiten (“Hypothesen”)
ist auf Grund einer Beobachtung x ∈ M zu treffen. Da die Beobachtung x zwar eine statistische
Information über den wahren Wert des Parameters ϑ enthält, so gut wie niemals aber eine vollständige
Information hierüber liefert, ist klar: Jede Entscheidung birgt die Möglichkeit einer Fehlentscheidung
in sich; prinzipiell bestehen zwei Möglichkeiten der Fehlentscheidung:
Eine Fehlentscheidung erster Art, kurz: Fehler erster Art, liegt vor, wenn die Entscheidung für
H1 erfolgt, in Wahrheit aber H0 gültig ist.
Eine Fehlentscheidung zweiter Art, kurz: Fehler zweiter Art, liegt vor, wenn die Entscheidung
für H0 erfolgt, in Wahrheit aber H1 gültig ist.
Die statistische Sichtweise erstreckt sich wieder globaler auf eine eine Entscheidungsregel, in diesem
Kontext ein Test genannt:
(
)
Ein Test ist eine messbare (bezgl. A und P {0, 1} ) Funktion
φ : M −→ {0, 1} .
Ein Test φ ergibt eine Entscheidungsregel über das Testproblem H0 : ϑ ∈ Θ0 gegen H1 : ϑ ∈ Θ1 :
{
Auf Grund der Beobachtung x ∈ M :
Entscheidung für H0 , wenn φ(x) = 0
Entscheidung für H1 , wenn φ(x) = 1
Definition 6.7 (Fehlerwahrscheinlichkeiten eines Tests)
Sei ein Testproblem H0 : ϑ ∈ Θ0 gegen H1 : ϑ ∈ Θ1 gegeben.
Für einen Test φ heißen die Wahrscheinlichkeiten
Pϑ ( φ = 1 )
für alle ϑ ∈ Θ0 :
Fehlerwahrscheinlichkeiten erster Art des Tests φ, und
Pϑ ( φ = 0 )
für alle ϑ ∈ Θ1 :
Fehlerwahrscheinlichkeiten zweiter Art des Tests φ.
Norbert Gaffke: Vorlesung “Einführung in die Wahrscheinlichkeitstheorie und Statistik”, Wintersemester 2014/15
Kapitel 6: Einführung in die mathematische Statistik
52
Beispiel: Ein Binomialmodell
Modell: X ∼ Bi(10, p) , p ∈ [ 0 , 1 ] der Parameter. Testproblem:
H0 : p ≤ 0.6 gegen
H1 : p > 0.6 ;
hier ist also: Θ = [ 0 , 1 ] , Θ0 = [ 0 , 0.6 ] und Θ1 = ( 0.6 , 1] . Betrachte den Test:
{
1 , falls x ≥ 9
φ(x) =
, für alle x ∈ {0, 1, . . . , 10} .
0 , falls x ≤ 8
Wir berechnen:
( )
( )
10 9
10 10
Pp ( φ = 1 ) = Pp ( {9, 10} ) =
p (1 − p) +
p = 10p9 − 9p10 .
9
10
Daraus erhalten wir mit Pp (φ = 0) = 1 − Pp (φ = 1) die Fehlerwahrscheinlichkeiten erster und
zweiter Art des Tests (s. Abbildung).
Pp (φ = 1)
Fehlerw’keit
2. Art
1. Art
p
p
Insbesondere sehen wir: Die Fehlerwahrscheinlichkeiten erster Art sind alle recht klein (maximal 0.046),
während jene zweiter Art bis zu 1− 0.046 = 0.954 betragen können. Dieses Phänomen ist einigermaßen
typisch: Wenn ein Test kleine Fehlerwahrscheinlichkeiten erster Art hat, dann geht das in der Regel auf
Kosten seiner Fehlerwahrscheinlichkeiten zweiter Art (die dann groß werden können). Das allgemein
verwendete Konzept der Signifikanztests (s. unten) erzwingt kleine Fehlerwahrscheinlichkeiten erster
Art.
Definition 6.8 (α-Signifikanztest)
Sei ein Testproblem H0 : ϑ ∈ Θ0 gegen H1 : ϑ ∈ Θ1 gegeben, und sei ein α ∈ ( 0 , 1 ) gewählt
(in der Regel klein, z. B. α = 0.05). Ein Test φ heißt ein α-Niveau-Signifikanztest, oder kürzer ein
α-Signifikanztest, für das Testproblem, wenn seine Fehlerwahrscheinlichkeiten erster Art alle
höchstens α sind, d. h.
Pϑ ( φ = 1 ) ≤ α für alle ϑ ∈ Θ0 .
Interpretation eines α-Signifikanztests φ :
Wenn auf Grund der Beobachtung x der Test φ den Wert 1 liefert, also φ(x) = 1, dann ist die
Gültigkeit der Alternativhypothese H1 “statistisch” (zum Niveau α) nachgewiesen. Denn bei Gültigkeit
der Nullhypothese H0 (kurz: unter H0 ) hätte ja das Ereignis { φ = 1 } eine Wahrscheinlichkeit von
höchstens α (z. B. 5%), wäre also eher unwahrscheinlich. Nun ist dieses Ereignis eingetreten, was
“signifikant” gegen H0 und damit für H1 spricht.
Wenn hingegen auf Grund der Beobachtung x der Test φ den Wert 0 liefert, also φ(x) = 0, dann
Norbert Gaffke: Vorlesung “Einführung in die Wahrscheinlichkeitstheorie und Statistik”, Wintersemester 2014/15
Kapitel 6: Einführung in die mathematische Statistik
53
erfolgt die Entscheidung zwar für die Nullhypothese H0 – aber nicht dem Sinne, dass ihre Gültigkeit
statistisch nachgewiesen wäre. Die Entscheidung fällt zwar für H0 , aber mit wenig Überzeugungskraft
und eher durch Konvention (vergleichbar mit dem juristischen Prinzip: Im Zweifel für die [angeklagte]
Nullhypothese).
Man beachte daher: Ein α-Signifikanztest eignet sich nur zum statistischen Nachweis der Gültigkeit
der Alternativhypothese H1 , nicht aber zum statistischen Nachweis der Nullhypothese H0 .
Beispiel: Normalverteilungsmodell mit bekannter Varianz: Gauß-Tests
Modell: X1 , . . . , Xn u.i.v. ∼ N(β, σ02 ) , β ∈ R der Parameter, σ0 > 0 fest. Interessant sind die
folgenden drei Testprobleme:
(TP1)
H0 : β ≤ β0
gegen H1 : β > β0 ,
(TP2)
H0 : β ≥ β0
gegen H1 : β < β0 ,
(TP3)
H0 : β = β0
gegen H1 : β ̸= β0 .
Dabei ist jeweils β0 eine vorgegebene (also bekannte) reelle Zahl. (TP1) und (TP2) nennt man einseitige
Testprobleme und (TP3) ein zweiseitiges Testproblem.
Als “optimale” α-Signifikanztests für die genannten Testprobleme (TP1), (TP2) und (TP3) ergeben
sich die sog. Gauß-Tests. Bezeichne
1∑
xi ,
n
n
x =
T (x) =
i=1
√ x − β0
,
n
σ0
∀ x = (x1 , . . . , xn ) ∈ Rn ,
sowie qp := Φ−1 (p) (das p-Quantil von N(0, 1) ) für p ∈ ( 0 , 1 ) .
Gauß-Tests:
(TP1)
H0 : β ≤ β0
{
gg.
H1 : β > β 0
φ1 (x) =
{
(TP2)
H0 : β ≥ β0
gg.
H1 : β < β 0
φ2 (x) =
{
(TP3)
H0 : β = β0
gg.
H1 : β ̸= β0
φ3 (x) =
1
0
, falls T (x)
>
q
≤ 1−α
1
0
, falls T (x)
<
≥
1
0
, falls |T (x)|
− q1−α
>
q α
≤ 1− 2
Bemerkung: P-Value-Darstellung der Gauß-Tests
Eine andere (aber äquivalente) Darstellung der Gauß-Tests hat den Vorteil, dass sofort eine Übersicht über die
Entscheidungen der Tests für verschiedene Festlegungen des Niveaus α erhalten wird.
{
φ1 (x) =
(
) <
, falls 1 − Φ T (x)
α
≥
1
0
;
(
)
den Wert 1 − Φ T (x) nennt man den Probability-Value, kurz: P-Value, (zur Beobachtung x) der Gauß-Tests
für (TP1).
{
φ2 (x) =
1
0
(
) <
, falls Φ T (x)
α;
≥
(
)
den Wert Φ T (x) nennt man den P-Value (zur Beobachtung x) der Gauß-Tests für (TP2).
{
φ3 (x) =
1
0
(
(
)) <
, falls 2 1 − Φ |T (x)|
α;
≥
(
(
))
nennt man den P-Value (zur Beobachtung x) der Gauß-Tests für (TP3) .
den Wert 2 1 − Φ |T (x)|
Norbert Gaffke: Vorlesung “Einführung in die Wahrscheinlichkeitstheorie und Statistik”, Wintersemester 2014/15
Kapitel 6: Einführung in die mathematische Statistik
54
Beispiel: Anwendung eines Gauß-Tests
Oft soll ein quantitativer Effekt (z. B. einer Behandlungsmethode) statistisch untersucht werden. Dabei
werden Beobachtungsdaten für die einzelnen Objekte/Individuen jeweils vor und nach der Behandlung
erhoben. Es liegen also paarige Beobachtungen (yi , zi ) ∈ R2 (i = 1, . . . , n) vor.
Folgende Vorgehensweise ist dann verbreitet: Es werden die Differenzen xi := zi − yi (i = 1, . . . , n)
gebildet und diese als Werte von n u.i.v. normal-(β,σ 2 )-verteilten Zufallsvariablen X1 , X2 , . . . , Xn
aufgefasst. Hier setzten wir voraus, dass die Standardabweichung σ = σ0 bekannt ist. Soll nun statistisch nachgewiesen werden, dass die Behandlung einen positiven Effekt hat, so lässt sich dies als
Testproblem (TP1) mit β0 = 0 formulieren:
(TP1)
H0 : β ≤ 0 gegen
H1 : β > 0 .
Zahlenbeispiel:
Folgende Daten an n = 15 Objekten wurden in einer solchen Situation beobachtet.
yi
415 507 389 677 560
zi
441 490 423 698 550
xi = zi − yi 26 −17 34
21 −10
359
394
35
402
472
70
500 461
510 451
10 −10
534 540
581 495
47 −45
390 457
421 424
31 −33
576
580
4
460
490
30
Es sei σ0 = 31.29 . Wir wollen zum 5%-Niveau testen (also α = 0.05): q0.95 = 1.645 ; wir berechnen:
√
x = 12.87 ; T (x) = 15 x /σ0 = 1.59 .
Der Test φ1 ergibt die Entscheidung φ1 (x) = 0. Die vorliegenden Daten ergeben somit zum 5%-Niveau keine
Signifikanz für H1 : β > 0. Als P-Value (auf Grund der vorliegenden Daten) der Gauß-Tests für (TP1) ergibt
)
sich 1 − Φ( 1.59 = 0.056. Die Daten ergeben also Signifikanz für H1 : β > 0 zu jedem Niveau α > 0.056 (also
z. B. zum 6%-Niveau).
Herunterladen