Tschebyscheff

Werbung
Grenzwertsätze
Grenzwertsätze
Aussagen, die bisher über Zufallsvariablen gemacht wurden, haben vorausgesetzt,
dass die zugehörige Verteilung bekannt ist. Im aktuellen Abschnitt sollen Aussagen
getroffen werden, für die eine grobe Charakterisierung der Verteilung durch
Erwartungswert und Varianz ausreicht.
Mögliche Problemstellungen:
• Die Wahrscheinlichkeit von {|X-µ|≥c} soll abgeschätzt werden, obwohl von X
nur der Erwartungswert und die Varianz bekannt sind. Tschebyscheff-Ungleichung.
• Die relative Häufigkeit von einem Ereignis A bei unabhängigen Versuchsdurchführungen strebt gegen P(A). Gesetz der großen Zahl.
• Die Verteilung der Summe von unabhängigen Zufallsvariablen soll näherungsweise beschrieben werden. Zentraler Grenzwertsatz.
I.Steinke, T.Stocker
Mehrdimensionale Zufallsvariablen und Grenzwertsätze
241
Grenzwertsätze
Ungleichung von Tschebyscheff
Es wurde bereits festgestellt, dass Erwartungswert und Varianz einer Zufallsvariable
eine „Mittellage“ und die „Streuung“ der Verteilung charakterisieren. Das kommt
z.B. zum Ausdruck in der Ungleichung von Tschebyscheff:
Ungleichung von Tschebyscheff
Für eine Zufallsvariable X mit E(X)=µ und Var(X)=σ2 gelten für beliebiges c>0
folgende Ungleichungen:
P( X − µ ≥ c ) ≤
σ2
c
2
und P( X − µ < c ) ≥ 1 −
σ2
c
2
.
Beweis: Siehe Fahrmeir S.329.
Die Ungleichung gilt universell
• sowohl für diskrete als auch stetige Zufallsvariablen,
• ohne Kenntnis der konkreten Verteilung – solange Erwartungswert und Varianz
bekannt sind.
I.Steinke, T.Stocker
Mehrdimensionale Zufallsvariablen und Grenzwertsätze
242
Grenzwertsätze
Beispiel: Abschätzung des Ausschussanteils.
Aus langjähriger Erfahrung ist dem Hersteller einer bestimmten Schraubensorte
bekannt, dass die Schraubenlängen verteilt sind mit einem Erwartungswert
µ=20 mm und einer Varianz σ2= 0.0225 mm2 . Mit wie viel Prozent Ausschuss kann
man im Mittel höchstens rechnen, wenn die Schraubenlänge zwischen 19.7 und
20.3 mm liegen soll?
Lösung:
X bezeichne die Länge einer beliebigen, zufällig der Produktion entnommenen
Schraube. Dann ist E(X)=20 (in mm) und Var(X)=0.0225 (in mm2). Die Schraube
ist kein Ausschuss, wenn
19.7 < X < 20.3 ⇔ − 0.3 < X − 20 < 0.3 ⇔ | X − 20 |< 0.3.
Sie ist also Ausschuss, wenn |X-20|≥0.3. Damit folgt aus der Ungleichung von
Tschebyscheff für c=0.3, µ=20 und σ2=0.0225
P( X − 20 ≥ 0.3) ≤
σ2
0.0225
= 0.25.
2
0.3
0.09
Der Ausschussanteil beträgt damit im Mittel höchstens 25%.
I.Steinke, T.Stocker
=
Mehrdimensionale Zufallsvariablen und Grenzwertsätze
243
Grenzwertsätze
Setzt man in der Tschebyscheff-Ungleichung c=bσ erhält man
σ2
1
1
P( X − µ ≥ bσ ) ≤
= 2 und P( X − µ < bσ ) ≥ 1 − 2 .
2
b
b
(bσ )
Für b=2 bzw. b=3 erhält man speziell
P( X − µ ≥ 2σ ) ≤ 0.250, P( X − µ < 2σ ) ≥ 0.750,
P( X − µ ≥ 3σ ) ≤ 0.111, P( X − µ < 3σ ) ≥ 0.889.
Unabhängig von der konkreten Verteilung nimmt also X mit Wahrscheinlichkeit
0.89 Werte im Intervall (µ-3σ,µ+3σ) an.
• X nimmt also einen Großteil seiner Werte in einer „Umgebung“ von µ an. µ
beschreibt somit eine zentrale Lage.
• Wenn σ klein ist, ist das obige Intervall auch klein. Damit ist die Verteilung von
X um µ konzentriert und σ bzw. σ2 kann man als Maßzahl zur Beschreibung der
Streuung von X auffassen.
I.Steinke, T.Stocker
Mehrdimensionale Zufallsvariablen und Grenzwertsätze
244
Grenzwertsätze
Die Tschebyscheff-Ungleichung liefert nur eine Abschätzung der entsprechenden
Intervallwahrscheinlichkeit. Ist die zugehörige Verteilung von X bekannt, kann man
zum Teil deutliche Abweichungen der exakten Wahrscheinlichkeit zur Abschätzung
feststellen.
Verteilung
P(|X-µ|<2σ)
P(|X-µ|<3σ)
Abschätzung nach
Tschebyscheff
≥0.75
≥0.889
X~N(0,1)
0.9545
0.9973
X~Exp(1)
0.9502
0.9817
X~B(20,0.25)
0.9348
0.9961
Beispiel: X~Exp(1).
Dann ist µ=E(X)=1 und σ2=Var(X)=1.
P( X − µ < 2σ ) = P(| X − 1 |< 2) = P(−2 < X − 1 < 2) = P(−1 < X < 3)
= FX (3) − FX (−1) = (1 − e −3 ) − 0 = 1 − 0.0498 = 0.9502.
I.Steinke, T.Stocker
Mehrdimensionale Zufallsvariablen und Grenzwertsätze
245
Grenzwertsätze
Gesetz der großen Zahlen
Es wurde bei der Motivierung des Wahrscheinlichkeitsbegriffs festgestellt, dass
sich relative Häufigkeiten zu Ereignissen von unabhängig und identisch wiederholten Versuchen um deren Wahrscheinlichkeitswert stabilisieren.
Beispiel: Würfeln mit einem Würfel.
Das Ereignis A={ eine Sechs wurde gewürfelt } wird beobachtet. Es werde
wiederholt gewürfelt und wir betrachten die konkreten Wurfergebnisse. Wir setzen
xi=1, wenn im i-ten Wurf eine 6 gewürfelt wurde; sonst ist xi=0.
x1, x2, x3, x4… beschreiben das Eintreten von A für (unabhängige) Würfelwürfe.
n
Dann gibt
sn = x1 + x2 + ... + xn = ∑ xi
i =1
die Anzahl der gewürfelten Sechsen nach n Würfen und
sn 1 n
xn = = ∑ xi
n n i =1
die relative Häufigkeit der gewürfelten Sechsen an.
I.Steinke, T.Stocker
Mehrdimensionale Zufallsvariablen und Grenzwertsätze
246
Grenzwertsätze
Die folgende Abbildung gibt den Verlauf der relativen Häufigkeiten für simulierte
Würfelergebnisse wider.
Die relativen Häufigkeiten stabilisieren sich bei p=1/6, der Wahrscheinlichkeit, dass eine Sechs gewürfelt wird. Dieses Verhalten soll im Folgenden
theoretisch begründet werden.
I.Steinke, T.Stocker
Mehrdimensionale Zufallsvariablen und Grenzwertsätze
247
Grenzwertsätze
Eine Folge von Zufallsvariablen (Zn) liegt vor, wenn wir zu jedem natürlichen n
eine Zufallsvariable Zn zuordnen können.
Eine typische Konstruktion von Folgen von Zufallsvariablen könnte so aussehen:
X1,…,Xn, … seien beliebig viele unabhängige Wiederholungen eines Zufallsexperiments. Dann bilden die Summen
n
Sn = ∑ X i
bzw. die arithmetischen Mittel
i =1
1 n
S
Xn = ∑ Xi = n
n i =1
n
Folgen von Zufallsvariablen.
Erwartungswert und Varianz der Summe von Zufallsvariablen
Es seien X1,…,Xn unabhängig und identisch verteilt mit E(Xi)=µ und Var(Xi)=σ2.
Dann gilt
E (S n ) = nµ und Var (S n ) = nσ 2 .
I.Steinke, T.Stocker
Mehrdimensionale Zufallsvariablen und Grenzwertsätze
248
Grenzwertsätze
Beweis: Anwendung der Rechenregeln für Erwartungswert und Varianz.
n
n
i =1
i =1
E (S n ) = ∑ E ( X i ) = ∑ µ = nµ ,
n
n
i =1
i =1
Var (S n ) = ∑ Var ( X i ) = ∑ σ 2 = nσ 2 .
Erwartungswert und Varianz des arithmetischen Mittels
Es seien X1,…,Xn unabhängig und identisch verteilt mit E(Xi)=µ und Var(Xi)=σ2.
Dann gilt
σ2
.
E (X n ) = µ und Var (X n ) =
n
Beweis: Anwendung der Rechenregeln für Erwartungswert und Varianz.
1
1  1
E ( X n ) = E  S n  = E ( S n ) = nµ = µ
n
n  n
nσ 2 σ 2
1  1
Var (X n ) = Var  S n  = 2 Var ( S n ) = 2 =
.
n
n
n  n
Der Erwartungswert des arithmetischen Mittels ist stets µ. Die Varianz strebt mit
wachsendem n gegen Null, d.h. die Verteilung von X n konzentriert sich um µ.
I.Steinke, T.Stocker
Mehrdimensionale Zufallsvariablen und Grenzwertsätze
249
Grenzwertsätze
Eine Folge von Zufallsvariablen (Zn) konvergiert nach Wahrscheinlichkeit
gegen µ, wenn für jedes beliebig kleine ε>0
P( Z n − µ ≤ ε ) → 1 bzw. P( Z n − µ > ε ) → 0
für n → ∞ gilt, i.Z. (in Zeichen) p lim Z n = µ .
Interpretation: Zn konzentriert seine Werte für große n in einer beliebig kleinen
Umgebung von µ.
Gesetz der großen Zahlen
Es seien X1,…,Xn unabhängig und identisch verteilt mit E(Xi)=µ und Var(Xi)=σ2.
Dann konvergiert X n nach Wahrscheinlichkeit gegen µ, also p lim X n = µ .
Beweis: Mit der Ungleichung von Tschebyscheff gilt für beliebiges ε>0:
(
P X n − µXn
(
)
(
)
σ2
≤ ε ≥ 1 − 2 , also P X n − µ ≤ ε ≥ 1 − 2
nε
ε
und folglich P X n − µ ≤ ε
I.Steinke, T.Stocker
σ X2
n
) → 1 für n → ∞.
Mehrdimensionale Zufallsvariablen und Grenzwertsätze
250
Grenzwertsätze
Satz von Bernoulli
Die relative Häufigkeit, mit der ein Ereignis A bei n unabhängigen Wiederholungen
eines Zufallsvorgangs eintritt, konvergiert nach Wahrscheinlichkeit gegen P(A).
Beweis: Wir führen Zufallsvariablen Xi ein mit
 1, falls A im i - ten Versuch eintritt,
Xi = 
 0, falls A im i - ten Versuch nicht eintritt.
Wenn der Zufallsvorgang unabhängig wiederholt wird, sind die Xi auch unabhängig. Sei π=P(A) die Eintrittswahrscheinlichkeit von A. Dann gilt Xi~B(1,π) für
1 n
i=1,…,n. Damit ist
Xn = ∑ Xi
n i =1
gerade die relative Häufigkeit des Auftretens von A . Da E(Xi)=π, folgt nach dem
Gesetz der Großen Zahl p lim X n = π = P( A) .
Gesetz der großen Zahlen und Satz von Bernoulli
sind mit „empirischen Erfahrungen“ konsistent
I.Steinke, T.Stocker
Mehrdimensionale Zufallsvariablen und Grenzwertsätze
251
Grenzwertsätze
Der Zentrale Grenzwertsatz
Der Zentrale Grenzwertsatz besagt, dass es unter bestimmten Bedingungen möglich
ist, die Verteilung der Summe von Zufallsvariablen näherungsweise mit Hilfe einer
Normalverteilung zu beschreiben.
Allgemeine Ausgangssituation:
Seien X1,…,Xn unabhängig und identisch verteilte Zufallsvariablen mit E(Xi)=µ
und Var(Xi)=σ2>0 für i=1,2,….
Bekannt, vgl. S. 248, E(X1+…+Xn)=nµ und Var(X1+…+Xn)=n·σ2.
Wenn die Xi normalverteilt sind, gilt insbesondere
(
X 1 +K + X n ~ N nµ , nσ 2
)
bzw.
X 1 +K + X n − nµ
nσ
2
~ N (0, 1).
Diese Aussage lässt sich zu einer „approximativen Aussage“ verallgemeinern.
Dazu vergleichen wir die Dichte von standardisierten Summen von Zufallsvariablen Xi, die nicht normalverteilt sind.
I.Steinke, T.Stocker
Mehrdimensionale Zufallsvariablen und Grenzwertsätze
252
Grenzwertsätze
Beispiel: Verteilung standardisierter Summen der Exponentialverteilung.
In der folgenden Abbildung sind X1, X2, … ~ Exp(1)-verteilt. Es werden die
Dichten der standardisierten Summen, s.o. , dargestellt.
E ( X i ) = 1, Var ( X i ) = 1.
Zn =
X1 + K + X n − n
n
Die Dichtefunktionen werden für wachsendes n immer symmetrischer. Die Dichte
für n=30 liegt bereits nahe an der Dichte der Standardnormalverteilung.
I.Steinke, T.Stocker
Mehrdimensionale Zufallsvariablen und Grenzwertsätze
253
Grenzwertsätze
Die folgende Tabelle gibt ausgewählte Werte der Verteilungsfunktionen der
standardisierten Summe von Exp(1)-verteilten Zufallsvariablen und der
Standardnormalverteilung an.
FZn(x)
x=-2
x=-1
x=0
x=1
x=2
n=1
0.0000
0.0000
0.6321
0.8647
0.9502
0.1587
n=5
0.0002
0.1468
0.5595
0.8475
0.9590
0.0595
n=15
0.0078
0.1554
0.5343
0.8436
0.9653
0.0343
n=30
0.0122
0.1571
0.5243
0.8425
0.9684
0.0243
n=100
0.0171
0.1582
0.5133
0.8417
0.9721
0.0133
n=400
0.0200
0.1586
0.5066
0.8414
0.9746
0.0066
Φ(x)
0.0228
0.1587
0.5000
0.8413
0.9772
0
∆
Für größer werdende n gibt es deutliche Übereinstimmungen zwischen der
Verteilungsfunktion von Zn und der Verteilungsfunktion der Standardnormalverteilung. Allerdings verbessert sich die Approximation nur allmählich.
I.Steinke, T.Stocker
Mehrdimensionale Zufallsvariablen und Grenzwertsätze
254
Grenzwertsätze
Die obigen Betrachtungen stützen folgenden Satz:
Zentraler Grenzwertsatz nach Lindeberg-Levy
Seien X1,…,Xn unabhängig und identisch verteilte Zufallsvariablen mit
E(Xi)=µ und Var(Xi)=σ2>0 für i=1,…,n.
Dann konvergiert die Verteilungsfunktion FZ n ( z ) = P (Z n ≤ z ) der standardisierten
Summe bzw. des standardisierten Stichprobenmittels
n
Zn =
∑X
i =1
i
− nµ
nσ
2
für n → ∞ an jeder Stelle
Standardnormalverteilung
=
1 n
Xi − µ
∑
n i =1
σ /n
2
= n
X −µ
σ
gegen die Verteilungsfunktion Φ(z) der
FZ n (z ) → Φ ( z ) und damit Z n ~ N (0, 1) .
Schreibweise:
I.Steinke, T.Stocker
a
~
a
approximativ (für großes n) verteilt wie ...
oder asymptotisch (für n gegen unendlich) verteilt wie …
Mehrdimensionale Zufallsvariablen und Grenzwertsätze
255
Grenzwertsätze
Anwendung:
Die Verteilungsfunktion einer standardisierten Summe kann man näherungsweise
mit Hilfe der Verteilungsfunktion der Standardnormalverteilung ausrechnen. Auf
diese Weise kann man Intervallwahrscheinlichkeiten für normierte Summen
näherungsweise berechnen.
Beispiel: Gesamtlebensdauer von Kühlaggregaten.
Die Lebensdauer eines Kühlaggregates sei exponentialverteilt und betrage im
Mittel 4 Jahre. Wie groß ist die approximative Wahrscheinlichkeit dafür, dass die
Gesamtlebensdauer von 400 Kühlaggregaten aus derselben Produktion kleiner als
1500 Jahre ist?
Lösung:
 400

X
−
1600


∑
i
400
1500 − 1600 


 1500 − 1600 
≈ Φ
P ∑ X i ≤ 1500  = P i =1
≤



6400
6400
6400 

 i =1





= Φ (− 1.25) = 1 − Φ (1.25) = 1 − 0.8944 = 0.1056.
I.Steinke, T.Stocker
Mehrdimensionale Zufallsvariablen und Grenzwertsätze
256
Grenzwertsätze
Betrachten wir den Spezialfall, dass die Xi Bernoulli-verteilt sind, i.Z. Xi ~
B(1,π); dann ist
Hn = X1+ …+Xn ~ B(n,π),
vgl. S.158. Hn kann z.B. die Anzahl der Erfolge bei n unabhängig und
identisch durchgeführten Experimenten sein. Unter diesen Bedingungen gilt:
Grenzwertsatz von de Moivre
Für n → ∞ gilt
H n − nπ a
Zn =
~ N (0, 1).
nπ (1 − π )
Für großes n gilt
,
d.h. die B(n,π)-Verteilung lässt sich durch eine Normalverteilung mit µ=nπ und
σ2=nπ(1-π) approximieren. Für die relative Häufigkeit Hn/n gilt entsprechend
I.Steinke, T.Stocker
Mehrdimensionale Zufallsvariablen und Grenzwertsätze
257
Grenzwertsätze
Die Verteilungsfunktion einer binomialverteilten Zufallsvariable Hn lässt sich
also näherungsweise mit Hilfe der Verteilungsfunktion einer normalverteilten
Zufallsvariable berechnen:
 b − nπ 
 a − nπ 



.
P (a ≤ H n ≤ b ) ≈ Φ
−Φ
 nπ (1 − π ) 
 nπ (1 − π ) 




Eine Stetigkeitskorrektur verbessert diese Näherung:
Approximation der Binomialverteilung mit Stetigkeitskorrektur
Sei Hn B(n,π)-verteilt. Falls nπ und n(1-π) hinreichend groß sind, gilt für a≤b:
 b + 0.5 − nπ
P (a ≤ H n ≤ b ) ≈ Φ
 nπ (1 − π )


 a − 0.5 − nπ
 − Φ

 nπ (1 − π )



.


Faustregel: nπ≥5 und n(1-π)≥5.
Anmerkung: Für große n ist es schwierig, die Binomialkoeffizienten der
Binomialeinzelwahrscheinlichkeiten zu berechnen.
I.Steinke, T.Stocker
Mehrdimensionale Zufallsvariablen und Grenzwertsätze
258
Grenzwertsätze
Spezialfälle: Die Verteilungsfunktion von Hn berechnet man näherungsweise
als
 x + 0.5 − nπ 
.
P (H n ≤ x ) ≈ Φ 
 nπ (1 − π ) 


Einzelwahrscheinlichkeiten approximiert man für x=a=b mit
 x + 0.5 − nπ
P (H n = x ) ≈ Φ 
 nπ (1 − π )



 − Φ  x − 0.5 − nπ

 nπ (1 − π )



.


Beispiel: Produktion von Massenartikeln. (aus Fahrmeir)
Bei der Produktion von Massenartikeln, etwa Skiern oder Bauteilen, liege der
Anteil der einwandfrei produzierten Artikel bei 90%. Es werden 100 Artikel
entnommen und geprüft.
(a ) Wie groß ist die Wahrscheinlichkeit, dass höchsten 90 Teile einwandfrei
sind?
(b) Wie groß ist die Wahrscheinlichkeit, dass genau 90 Teile einwandfrei
sind?
I.Steinke, T.Stocker
Mehrdimensionale Zufallsvariablen und Grenzwertsätze
259
Grenzwertsätze
Lösung: Die Anzahl X der einwandfreien Artikel ist B(n,π)-verteilt mit
n=100 und π=0.9. Damit ist nπ=90≥5 und n(1-π)=10≥5.
Anwendung der Approximationsformeln mit Stetigkeitskorrektur:
 90.5 − 100 ⋅ 0.9 
 0.5 
(a ) P( X ≤ 90 ) ≈ Φ
=
Φ


 = Φ (0.167 )
 3 
 100 ⋅ 0.9 ⋅ 0.1 
≈ Φ (0.17 ) = 0.5675.
 90 + 0.5 − 100 ⋅ 0.9 
 90 − 0.5 − 100 ⋅ 0.9 
()
(b) P ( X = 90 ) ≈ Φ
 − Φ

100 ⋅ 0.9 ⋅ 0.1 
100 ⋅ 0.9 ⋅ 0.1 


 0.5 
 0.5 
 0.5  
 0.5  
 0.5 
= Φ
 − Φ −
 = Φ
 − 1 − Φ
  = 2Φ
 − 1 = 0.134.
 3 
 3 
 3  
 3 
 3 
Anmerkung: Der exakte (gerundete) Wert von P(X=90) ist 0.1319. Zur
Berechnung von P(X≤90) müsste man 10 Einzelwahrscheinlichkeiten
berechnen. Man erhält dann P(X≤90)=0.5487.
I.Steinke, T.Stocker
Mehrdimensionale Zufallsvariablen und Grenzwertsätze
260
Herunterladen