Steilkurs: Wahrscheinlichkeitstheorie

1
Steilkurs W: Wahrscheinlichkeitsrechnung
1. Wahrscheinlichkeitsräume
1.1 Der Begriff des Wahrscheinlichkeitsraums
Ein Wahrscheinlichkeitsraum (W-Raum) (S, A , P) ist ein normierter Maßraum, also
S eine nichtleere Menge, die sogenannte Ergebnismenge, die Menge der möglichen
Ergebnisse des betrachteten Zufallsexperiments; A eine F-Algebra über S, d.h. ein
Mengensystem A d -(S) (= Potenzmenge von S), welches S (das sichere Ereignis) enthält
und abgeschlossen ist bezüglich Komplementbildung und bezüglich abzählbarer
Durchschnitte; P ein normiertes Maß auf A , also ein Maß mit der Eigenschaft P(S) = 1.
Bemerkungen
Sei (S, A , P) ein W-Raum. Jedes Element E 0 A (E ist eine Teilmenge der Ergebnismenge)
heißt Ereignis. Es ist stets i 0 A (das unmögliche Ereignis) und A ist abgeschlossen bezüglich
endlicher Durchschnitte sowie bezüglich endlicher und auch abzählbar unendlicher
Vereinigungen; sind A und B Ereignisse, so ist auch die Differenz A(B ein Ereignis.
Im folgenden sei stets {T}0A für alle T0S. Solche einelementigen Ereignisse heißen
Elementarereignisse.
Ist F eine nichtleere Menge und F eine F-Algebra über F, so heißt das Paar (F,F)
Ereignisraum.
1.2 Standardbeispiele
1.2.1 Falls die Ergebnismenge S höchstens abzählbar ist (d.h. endlich oder abzählbar
unendlich), verwenden wir in der Statistik als Ereignis-F-Algebra stets die Potenzmenge, d.h.
wir betrachten den Ereignisraum (S, A), wobei A = -(S).
1.2.2 Für n0ù bezeichne Bn die F-Algebra der Borelschen Teilmengen des ún (B::=B1). Ist
nun die Ergebnismenge S eine Teilmenge des ún, verwenden wir in der Statistik in der Regel
als Ereignis-F-Algebra A die F-Algebra der Borelschen Teilmengen von S ist, nämlich
A = {B1S | B0Bn}.
1.3 Nullmengen und fast sichere Aussagen
Sei (S, A , P) ein Wahrscheinlichkeitsraum.
Eine Menge N 0 A mit P(N) = 0 heißt P-Nullmenge. Ist (’) eine sich auf die Elemente T0S
beziehende Aussage, die für alle T außerhalb einer P-Nullmenge N gilt, so sagt man, (’)
gelte P-fast sicher (P-f.s.).
1.4 Produkte von Wahrscheinlichkeitsräumen
Sei n$2 eine feste natürliche Zahl und sei für i=1,...,n (Si, A i, Pi) ein W-Raum.
Seien S = S1×...×Sn (kartesisches Produkt), A = A1 q ... q An die Produkt-F-Algebra., nämlich
die kleinste F-Algebra über S, die sämtliche "Quader" A1×...×An mit Ai0Ai, i=1,...,n, enthält.
(S, A ) heißt Produktereignisraum.
Satz: Es existiert genau ein W-Maß P auf (S, A ) derart, daß für alle Ai 0 A i, i=1,...,n, gilt:
P(A1×...×An) = P1(A1)@...@Pn(An).
P heißt die zur Familie (Pi: i=1,...,n) gehörige Produktwahrscheinlichkeit; Bezeichnung:
P = P1q ... qPn.
2
Der W-Raum (S, A, P) heißt das Produkt der W-Räume (Si, A i, Pi), i=1,...,n.
Ist speziell (E, F, Q) ein W-Raum, und ist (Si, A i, Pi) = (E, F, Q) für alle i=1,...,n, schreibe
(S, A, P) = (En, F qn, Qqn).
Man kann auch unendliche Produkte von W-Räumen erklären, worauf wir hier nicht näher
eingehen können.
2. Zufallsvariablen und ihre Verteilung
2.1 Zufallsvariablen
Sei (S, A , P) ein W-Raum, (F, F) ein Ereignisraum, X eine A-F-meßbare Abbildung von S
nach F, also X: S 6 F derart, daß X-1(B) 0 A für alle B0F . Dann heißt X eine (F-wertige)
Zufallsvariable (ZV; auch: Zufallsgröße) auf (S, A , P).
Spezialfälle: X heißt reelle Zufallsvariable, falls (F, F) = (ú, B);
Ist k $2 und (F, F) = (úk, Bk), so heißt X k-dimensionaler Zufallsvektor.
Zufallsgrößen werden meist mit Großbuchstaben bezeichnet: X, Y, Z ...
Schreibweisen: Ist B0F, so schreibt man {X0B}:= X-1(B)= {T0S | X(T)0B}; {X=x}:=
{X0{x}}; P(X0B):= P(X-1(B)); speziell für reelle ZV: {X#x}:= {X 0 <-4, x]} und analog
{X>x} etc.
2.2 Die Verteilung einer Zufallsvariablen
Sei (S, A, P) ein W-Raum, (F, F) ein Ereignisraum, X: S 6 F eine F-wertige Zufallsvariable.
Das Bildmaß PX von P unter der Abbildung X ist erklärt gemäß
PX(B) = P(X0B) für alle B0F.
PX ist ein W-Maß auf (F, F) und heißt die (W-)Verteilung der Zufallsvariablen X.
Statt PX schreibt man auch X(P) oder PBX-1.
Beispiel: Sei (S, A , P) ein W-Raum, (F, F) = (S, A), X: S 6 S identische Abbildung. Dann
ist PX = P. Jedes W-Maß auf (S, A) kann also als Verteilung einer Zufallsgröße X aufgefaßt
werden.
2.3 Identisch verteilte Zufallsgrößen
Für i=1,2 seien (Si, A i, Pi) W-Räume, (F, F) ein Ereignisraum, Xi: Si 6 F Zufallsgrößen. X1
und X2 heißen identisch verteilt, wenn ihre Verteilungen identisch sind, also X1(P1) = X2(P2).
2.4 Die Verteilungsfunktion einer reellen Zufallsvariablen
Sei X eine reelle Zufallsvariable auf dem W-.Raum (S, A , P). Die Funktion FX: ú 6 ú gemäß
FX(x) := P(X#x) (=PX(+-4, x]); x0ú heißt Verteilungsfunktion von X (oder von PX).
Die Verteilungsfunktion F := FX ist stets monoton wachsend und rechtsseitig stetig und es
gilt: F(x) 6 0 für x 6 -4 und F(x) 6 1 für x 6 4. Insbesondere ist 0 # F(x) # 1 für alle x0ú.
Durch die Verteilungsfunktion ist die Verteilung von X eindeutig bestimmt.
Ferner gilt für alle x,a,b 0ú mit a<b:
1 - F(x) = P(X > x); F(x-) = P(X < x); F(x) - F(x-) = P(X = x); P(a<X#b) = F(b)-F(a);
F ist genau dann stetig auf ú, wenn P(X=x) = 0 für alle x0ú.
2.5 Quantile
Sei X eine reelle ZV mit der Verteilungsfunktion F = FX und sei "0+0,1,. Eine Zahl x"0ú
3
heißt "-Quantil von F (oder von X, oder von PX), falls F(x"-) # " # F(x")
( ] P(X>x") # 1-" # P(X$x") ).
Zu "0+0,1, existiert stets ein "-Quantil von F, z.B. x" = inf{x0ú | F(x) $ "} (Diesen Wert
liefert der Quantil-Aufruf in "R"). Allerdings ist das "-Quantil nicht notwendig eindeutig
bestimmt. Bei den in der Statistik auftretenden stetigen Verteilungen sind die Quantile in der
Regel eindeutig bestimmt, nämlich durch die Umkehrfunktion der Verteilungsfunktion: für
"0+0,1, ist F-1(") das "-Quantil von F.
Spezialfall: Ein 0.5-Quantil heißt Median. m ist also genau dann Median von X, falls
P(X#m) $0.5 und P(X$m) $0.5.
2.6 Diskrete Zufallsvariablen und ihre Wahrscheinlichkeitsfunktion
Sei (S, A , P) ein W-Raum, (F, F) ein Ereignisraum.
Eine F-wertige ZV X: S 6 F heißt diskret, wenn eine höchstens abzählbare Menge T d F
existiert mit P(X0T) = 1. Man nennt dann T einen Träger von X (oder der Verteilung von X).
Definiere fX: T 6 ú+ gemäß fX (x) = P(X=x) = PX ({x}) für x0T.
fX heißt Wahrscheinlichkeitsfunktion (W-Funktion, Zähldichte, Massefunktion) von X.
PX ist durch fX eindeutig bestimmt, denn für alle B0F gilt (mit f := fX):
PX(B) = P(X0B) = P(X0B1T) = 3x0B1T f(x). Insbesondere ist 3x0T f(x) = 1.
2.7 Stetige ún-wertige Zufallsvariablen und ihre Dichte
Sei n eine natürliche Zahl, (S, A , P) ein W-Raum, X: S 6 ún eine ZV. Die Verteilung PX
von X ist also ein W-Maß auf der F-Algebra Bn der Borelschen Teilmengen des ún. X heißt
stetig (verteilt), wenn eine nichtnegative Funktion f: ún 6 ú+ existiert derart, daß für alle
Borelschen Mengen B 0 Bn gilt:
P(X0B) = PX(B) = IB f d8n. (Lebesgue-Integral; 8n ist das n-dimensionale Lebesguemaß)
Eine solche Funktion f heißt dann eine (Lebesgue-Wahrscheinlichkeits-)Dichte von X; sie ist
Lebesgue-fast eindeutig bestimmt. Man schreibt f = fX , um auszudrücken, daß f eine Dichte
von X ist.
Bemerkungen
1) Sei X eine stetige reelle Zufallsvariable auf (S, A, P) mit der Verteilungsfunktion F und
x
der Dichte f. Dann ist F stetig auf ú und es ist F ( x ) =
∫ f (t ) dt
für alle x0ú.
−∞
Für alle a,b0ú mit a<b gilt dann: P(a < X # b) = P(a # X < b) = P(a < X < b) = P(a # X # b).
2) Sei X eine stetige reelle Zufallsvariable auf (S, A , P) mit der Verteilungsfunktion F und
sei F stetig und stückweise stetig differenzierbar, d.h. es existiere eine endliche Zerlegung der
Zahlengeraden -4 = a0 < a1 < ... < an = +4, so daß F für jedes i=1,...,n auf +ai-1, ai, stetig
differenzierbar ist. Setze f(x) := FN(x) für x0^i=1,...,n+ai-1,ai,, bzw. f(x) := 0 sonst.
Dann ist X stetig verteilt und f ist eine Dichte von X.
3) Sei X eine stetige ún-wertige Zufallsvariable. Dann ist P(X0N) = 0 für jede 8n-Nullmenge
N, also für jedes N0Bn mit 8n(N) = 0.
4) Eine reelle ZV X mit der Verteilungsfunktion F heißt (bezüglich 0) symmetrisch verteilt,
wenn P(X > x) = P(X < -x) für alle x0ú; im stetigen Fall heißt dies: F(-x) = 1 - F(x) für alle
x0ú, was immer dann gilt, wenn die Dichte f eine gerade Funktion ist. Ist dann "0+0,1, und
x1-" (1-")-Quantil von X, so ist -x1-" ein "-Quantil von X.
4
2.8 Transformationssatz für Dichten
Sei X ein n-dimensionaler stetiger reeller Zufallsvektor mit der Dichte fX, sei U eine offene
Teilmenge des ún mit P(X0U) = 1; J: U 6 ún sei ein C1-Diffeomorphismus, d.h. V := J(U)
ist eine offene Teilmenge des ún, J: U 6 V ist bijektiv, J und J-1 sind stetig differenzierbar
mit auf U resp. auf V nirgends verschwindenden Funktionaldeterminanten DJ resp. DJ-1. Der
n-dimensionale Zufallsvektor Y := J(X) ist dann ebenfalls stetig mit der Dichte
fY(y) = 1V(y)fX(J-1(y))|DJ-1(y)|; y0ún.
Spezialfall n=1: U, V offene Intervalle, X U-wertige reelle ZV, J: U 6 V stetig
differenzierbar mit J'(x) … 0 für alle x0U. Ist X stetig verteilt mit der Dichte fX, so ist Y =
J(X) ebenfalls stetig verteilt mit der Dichte fY(y) = 1V(y)fX(J-1(y))|(J-1)'(y)|; y0ú.
[bekanntlich ist (J-1)'(y) = 1/J'(J-1(y))]
3. Bedingte Wahrscheinlichkeit und Unabhängigkeit
Es liege stets ein W-Raum (S, A, P) zugrunde.
3.1 Die bedingte Wahrscheinlichkeit bei gegebenem Ereignis
Seien B0A mit P(B)>0, A0A.. P(A|B) := P(A1B)/P(B) heißt (elementare) bedingte
Wahrscheinlichkeit von A unter (der Bedingung, der Hypothese) B.
3.2 Satz von der totalen Wahrscheinlichkeit
Sei n0ù und sei S = S1 + ... + Sn eine endliche disjunkte Zerlegung von S mit Si 0 A und
P(Si) > 0 für i=1,...,n. Für jedes A0A gilt dann: P(A) = P(A|S1)P(S1) + ... + P(A|Sn)P(Sn).
3.3 Unabhängige Ereignisse
Endlich viele Ereignisse A1, A2, ..., An heißen unabhängig, wenn für jede nichtleere
Teilmenge J von {1, ..., n} gilt: P(_i0JAi) = Ji0JP(Ai).
Insbesondere sind zwei Ereignisse A, B genau dann unabhängig, wenn P(A1B) = P(A)AP(B).
Falls P(A)AP(B) > 0, so sind A und B genau dann unabhängig, wenn P(A|B) = P(A), und dies
ist wiederum äquivalent zu P(B|A) = P(B).
3.4 Unabhängige Zufallsvariablen
3.4.1 Sei n$2 eine natürliche Zahl, und sei für i=1,...,n (Fi, F i) ein Ereignisraum und
Xi: S 6 Fi eine Fi-wertige Zufallsvariable. Die Familie (Xi: i=1,...,n) heißt unabhängig, wenn
für beliebige Ci0F i, i=1,...,n, gilt: P(X10C1, ..., Xn0Cn) = P(X10C1) A ... A P(Xn0Cn).
3.4.2 Ist ((Fi, F i): i=1,2,...) eine unendliche Familie von Ereignisräumen, und für jedes i0I
Xi: S 6 Fi eine Fi-wertige Zufallsvariable, so heißt die Familie (Xi: i=1,2,...) unabhängig,
wenn für jedes n0ù (Xi: i=1,...,n) unabhängig ist.
Bemerkung: Seien (Fi, F i), Xi, i=1,...,n, wie in 3.4.1 und sei (F, F ) der zur Familie
((Fi, F i): i=1,...,n) gehörige Produktereignisraum (siehe 1.4). Die Produktabbildung
(X1,...,Xn): S 6 F ist eine F-wertige Zufallsgröße. Die Verteilung Q dieser Zufallsgröße heißt
auch die gemeinsame Verteilung von X1, ..., Xn. Für i=1,...,n sei Qi die Verteilung von Xi
(sogenannte i-te Marginalverteilung). Es gilt: X1, ..., Xn sind genau dann unabhängig, wenn
ihre gemeinsame Verteilung gleich dem Produkt der Marginalverteilungen ist, d.h. wenn
Q = Q1 q ... q Qn (vgl. 1.4).
5
3.5 Unabhängige diskrete Zufallsvariablen
Sei ((Fi, F i): i=1,...,n) eine Familie von Meßräumen, und für jedes i=1,...,n sei
Xi : S 6 Fi eine diskrete ZV mit Träger Ti (vgl. 2.6).
Dann gilt: X1, ..., Xn sind unabhängig genau dann, wenn für i=1,...,n und beliebige xi0Ti stets
P(X1=x1,...,Xn=xn) = P(X1=x1)A...AP(Xn=xn) ist.
Auf der linken Seite dieser Gleichung steht die sogenannte gemeinsame W-Funktion der
vektoriellen Zufallsgröße (X1,...,Xn); für i=1,...,n ist Ti h xi 6 P(Xi = xi) die (Marginal-)WFunktion von Xi. Unabhängigkeit bedeutet hier also, daß die gemeinsame W-Funktion von
X1, ..., Xn (Tensor-) Produkt der (Marginal-)W-Funktionen der Xi ist.
3.6 Unabhängige stetige Zufallsvariablen
Sei n$2 und sei X = (X1, ..., Xn): S 6 ún ein n-dim. Zufallsvektor.
1) Seien X1, ..., Xn unabhängig und stetig verteilt und sei für i=1,...,n fi eine W-Dichte von Xi.
Dann ist auch X stetig verteilt und f gemäß f(x1,...,xn) = f1(x1)A...Afn(xn) für (x1,...,xn) 0 ún
ist eine W-Dichte von X.
2) Sei X stetig mit der Dichte f und seien f1, ..., fn W-Dichten auf ú derart, daß
f(x1,...,xn) = f1(x1)A...Afn(xn) für 8n-fast alle (x1,...,xn) 0 ún.
Dann sind X1, ..., Xn unabhängig und für i=1,...,n ist fi eine Dichte von Xi.
Analog zu 3.5 bedeutet also die Unabhängigkeit von X1,...,Xn im stetigen Fall, daß die Dichte
des Zufallsvektors X (die sogenannte gemeinsame Dichte von X1,...,Xn) gleich dem
(Tensor-)Produkt der Marginaldichten der Xi ist.
4. Erwartungswert und andere Momente
Es liege stets ein W-Raum (S, A, P) zugrunde. Da dies ein spezieller Maßraum ist, können
wir aus der Maßtheorie den Begriff des Integrals bezüglich des Maßes P (P-Integral)
übernehmen. Für gewisse reelle Funktionen f: S 6 ú ist also IfdP erklärt. In der Wtheorie
nennt man dieses P-Integral den Erwartungswert von f; Bezeichnung: E(f) = IfdP.
Im folgenden sei L = L(S, A , P) die Menge aller reellen Zufallsvariablen auf (S, A , P) mit
E(|X|) < 4. L2 = L2(S, A , P) die Menge aller reellen Zufallsvariablen auf (S, A , P) mit
E(X²) < 4. Es ist stets L2 d L.
4.1 Der Erwartungswert im diskreten Fall
Sei (F, F ) ein Ereignisraum, X: S 6 F eine diskrete Zufallsvariable mit Träger T d F und
W-Funktion f . Sei weiter g: F 6 ú. Dann gilt:
E(g(X)) = 3x0Tg(x)f(x), falls die Reihe rechts absolut konvergent ist, oder falls g$0 stets.
Insbesondere ist also für eine diskrete reelle Zufallsvariable X E(X) = 3x0Txf(x), falls
T d [0,4, oder falls die Reihe rechts absolut konvergiert.
4.2 Der Erwartungswert im stetigen Fall
Sei n eine natürliche Zahl, X: S 6 ún eine stetige Zufallsvariable mit der Dichte f. Sei weiter
g: ún 6 ú. Dann gilt:
E(g(X)) = Ig(x)f(x)d8n(x), falls die Funktion ún h x 6 g(x)f(x) (Lebesgue-) integrierbar ist,
oder falls g$0 stets..
Im Fall n=1 erhält man für g(x)=x; x0ú: E(X) = Ixf(x)dx, falls X$0 P-f.s. oder
falls I|x|f(x)dx < 4.
6
4.3 Eigenschaften des Erwartungswertes
1) Indikatorfunktionen: E(1A) = P(A) für alle A0A, E(1) = 1.
2) L ist ein (ú-)Vektorraum und E( @ ) ist ein positives lineares Funktional auf L,
d.h. für X,Y 0 L, a,b 0 ú ist aX + bY 0 L (Vektorraumeigenschaft),
E(aX + bY) = a E(X) + b E(Y) (Linearität),
und für X,Y 0 L mit X # Y (P-fast) ist E(X) # E(Y) (Positivität).
L enthält insbesondere alle beschränkten reellen Zufallsvariablen.
4.4 Multiplikationssatz für Erwartungswerte
Seien n0ù und (Xi: i=1,...,n) eine unabhängige Familie von reellen Zufallsvariablen.
Dann ist E(X1A...AXn) = E(X1)A...AE(Xn), wenn wenigstens eine der beiden folgenden
Voraussetzungen erfüllt ist:
a) X i $0 f.s. für i=1,...,n; b) Xi 0L für 1,...,n.
4.5 Varianz und Standardabweichung
Sei X 0 L . var(X) := F²(X) := E((X - E(X))2) heißt Varianz von X (oder zweites zentriertes
Moment); F(X) = var(X)1/2 heißt Standardabweichung von X. Für X 0 L gilt:
1) var(X) $0;
2) var(X) = 0 ] es existiert c0ú mit X = c P-f.s.;
3) var(X) = E(X2) - (E(X))2 ("Verschiebungssatz");
4) var(aX+b) = a² var(X) für a,b0ú.
4.6 Kovarianz und Korrelation
Seien X,Y 0 L2 .
cov(X,Y) := E[(X-E(X))(Y-E(Y))]: Kovarianz von X und Y.
D(X,Y) := cov(X,Y)/(F(X)F(Y)): Korrelationskoeffizient von X und Y (falls F(X)F(Y)>0).
X,Y 0 L2 heißen unkorreliert, falls cov(X,Y) = 0 ( ] D(X,Y) = 0, falls definiert). Es gilt:
1) cov(X,Y) = E(XY) - E(X)E(Y); speziell cov(X,X) = var(X);
2) Die Kovarianz ist eine symmetrische Bilinearform auf L2, d.h. für X,Y,Z 0 L2, a0ú ist
cov(X,Y) = cov(Y,X); cov(aX,Y) = a cov(X,Y); cov(X+Y,Z) = cov(X,Z) + cov(Y,Z).
3) X,Y unabhängig Y X,Y unkorreliert. (Die Umkehrung ist i.a. falsch.)
4) Ungleichung von Cauchy-Schwarz: cov(X,Y)² # var(X)Avar(Y).
Ferner, falls var(X)>0 und var(Y)>0:
5) -1 # D(X,Y) # 1;
6) |D(X,Y)| = 1 ] X, Y P-f.s. affin abhängig, d.h. es existieren a,b,c 0 ú mit a²+b²>0 und
aX + bY = c P-f-s.
4.7 Kovarianzmatrix
Seien X1, ..., Xn 0 L2, Z = (X1, ..., Xn)T (n-dim. Zufallsvektor). Die symmetrische (n,n)-Matrix
C(Z) := (cov(Xi,Xj))i,j=1,...,n heißt Kovarianzmatrix von Z. Es gilt:
1) C(AZ+a) = A C(Z) AT für jede reelle (m,n)-Matrix A und jeden (konstanten) Vektor a0úm;
2) C(Z) ist nichtnegativ definit, d.h. tTC(Z)t $ 0 für alle t 0 ún;
3) var(3i=1,...,nXi) = 3i=1,...,nvar(Xi) + 2 31#i<j#ncov(Xi,Xj), speziell var(3i=1,...,nXi) = 3i=1,...,nvar(Xi),
falls die Xi paarweise unkorreliert sind (Gleichung von Bienaymé).
4.8 Wichtige Ungleichungen
Für X 0 L und ,>0 gilt:
7
1) (Markov) P(|X| > g) # E(X²)/g²; 2) (Tschebyschev) P(|X - E(X)| > g) # var(X)/g².
Beweis: 2) folgt aus 1); 1): Sei A := {|X| > g}. Dann ist 1A # X²/g² stets, also
P(A) = E(1A) # E(X²/g²) = E(X²)/g². (Es wurde nur 4.3 verwendet.)
5. Gesetze der großen Zahlen und zentraler Grenzwertsatz
In diesem Kapitel liege wieder ein W-Raum (S, A, P) zugrunde, Z = Z(S, A, P) sei die Menge
der reellen ZV'en X: S 6 ú. Ferner seien L = L (S, A, P) und L² = L²(S, A, P) wie in 4.
5.1 P-fast sichere Konvergenz
Sei (Xn) eine Folge in Z und sei X0Z. Xn 6 X für n64 P-fast sicher (f.s.) :] es existiert N0A
mit P(N) = 0 und Xn(T) 6 X(T) für n64 und alle T0S(N.
5.2 Das starke Gesetz der großen Zahlen (Kolmogorov)
Sei (Xn) eine Folge von unabhängigen, identisch verteilten, integrierbaren Zufallsvariablen
und sei für n0ù Sn := X1 + ... + Xn. Dann gilt: Sn/n 6 E(X1) für n64 P-f.s.
5.3 P-stochastische Konvergenz
Sei (Xn) eine Folge in Z und sei X0Z. Xn 6 X für n64 P-stochastisch (P-st.; nach
Wahrscheinlichkeit P) :] P(|Xn-X| > g) 6 0 für n64 und alle g>0.
Bemerkung: Wenn (Xn) gegen X P-f.s. konvergiert, so konvergiert (Xn) gegen X auch Pstochastisch.
5.4 Schwaches Gesetz der großen Zahlen
Sei (Xn) eine Folge in L2 und seien die Xn paarweise unkorreliert, also
cov(Xn, Xm) = 0 für n…m. Falls (*) n-23i=1,...,nvar(Xi) 6 0 für n64,,
erfüllt die Folge (Xn) das schwache Gesetz der großen Zahlen, d.h. es gilt
(1/n)3i=1,...,n(Xi-E(Xi)) 6 0 P-stoch. für n64.
Bemerkung: Die Bedingung (*) ist insbesondere dann erfüllt, wenn die Folge der Varianzen
(var(Xn): n0ù) nach oben beschränkt ist.
5.5 Schwache Konvergenz
Sei (Xn) eine Folge von reellen Zufallsvariablen und sei X eine weitere reelle ZV. Für n0ù
sei Fn die Verteilungsfunktion von Xn, und F sei die Verteilungsfunktion von X.
Falls Fn(x) 6 F(x) für n64 in jedem Stetigkeitspunkt x der Funktion F, nennt man (Xn)
schwach (oder nach Verteilung) konvergent gegen X. Man sagt dann auch : die Folge der
Verteilungen der Xn konvergiert schwach gegen die Verteilung von X.
Bemerkungen:
1) Falls Xn 6 X P-stoch., so folgt Xn 6 X schwach.
2) Falls (Xn) schwach gegen X konvergiert und falls F auf ganz ú stetig ist, so konvergiert die
Folge (Fn) gleichmäßig gegen F, also sup{|Fn(x)-F(x)| | x0ú} 6 0 für n64.
5.6 Zentraler Grenzwertsatz
Sei (Xn) eine Folge in L2, wobei die Xn unabhängig und identisch verteilt seien; ferner sei
var(X1)>0. Setze ::= E(X1), F²:= var(X1) und für n0ù Sn := X1 + ... + Xn.
Dann gilt: Sn*:= (Sn - E(Sn))/F(Sn) 6 N(0,1) schwach für n64
Dabei ist E(Sn) = n: und F(Sn) = Fn1/2 für alle n0ù.
8
Bemerkung: Sn* heißt standardisierte Summe. Für die Verteilungsfunktionen Fn* von Sn* gilt
also wegen Bemerkung 2 zu 6.6: sup{|Fn*(x)-M(x)| | x0ú} 6 0 für n64.