Wahrscheinlichkeitsrechnung

Werbung
Kapitel 7
Wahrscheinlichkeitsrechnung
7.1
Kombinatorik
Def. 7.1.1:a) Für eine beliebige natürliche Zahl m bezeichnet man das Produkt aus den Zahlen
von 1 bis m mit m Fakultät:
m! := 1 · 2 · 3 · · · m,
0! := 1 .
b) Für zwei beliebige ganze Zahlen n und k mit 0 ≤ k ≤ n ist durch
n
k
!
:=
n!
k! · (n − k)!
der Binomialkoeffizient “n über k” definiert.
Für diesen Binomialkoeffizienten gilt für 1 ≤ k ≤ n:
(7.1.1)
n
k
!
=
n · (n − 1) · · · (n − k + 1)
.
1 · 2···k
Diese Darstellung ist für die zahlenmäßige Auswertung oft günstiger als die Formel, durch die
der Binomialkoeffizient definiert ist. Darüberhinaus liefert die formale Anwendung von (7.1.1)
die sinnvolle Definition:
(7.1.1’)
(7.1.2)
!
n
:= 0 für k, n ∈ ZZ, 0 ≤ n < k.
k
(m + 1)! = m! · (m + 1).
Satz 7.1.1 (Binomischer Lehrsatz): Für a, b ∈ IR und n ∈ ZZ, n ≥ 0 gilt:
n
(a + b) =
n
X
k=o
!
n
· ak · bn−k .
k
Dabei setzt man x0 := 1, wobei die Funktion von x gemeint ist. 00 für sich genommen bleibt
undefiniert.
37
Urnenmodell: Urne mit n Kugeln; k Kugeln werden nacheinander aus der Urne ”gezogen” und
in einer Stichprobe zusammengestellt.
I) Regeln des Ziehens
a) Ohne Zurücklegen (Abk.: o.Z.)
Jede gezogene Kugel wird nicht wieder in die Urne zurückgelegt, sondern kommt in
die Stichprobe.
b) Mit Zurücklegen (Abk.: m.Z.)
Jede gezogene Kugel wird in der Stichprobe ”registriert” und wieder in die Urne
zurückgelegt. Modell für das ”Registrieren”: Ein Duplikat der gezogenen Kugel kommt
in die Stichprobe.
II) Regel des Zusammenstellens
a) Ohne Berücksichtigung der Anordnung (Abk.: o.B.d.A)
Jede gezogene Kugel bzw. ihr Duplikat kommt in eine Stichprobenurne. Die Reihenfolge der Ziehungen ist also nachher nicht mehr feststellbar.
b) Mit Berücksichtigung der Anordnung (Abk.: m.B.d.A)
Jede gezogene Kugel bzw. ihr Duplikat kommt in dasjenige Fach eines Stichprobenfächerbretts, das die Nummer der Ziehung trägt.
Bem.: ”m. bzw. o. Wiederholung” = ”m. bzw. o. Z.”
n verschiedene Kugeln in der Urne, k Kugel in die Stichprobe: Kombination k-ter Ordnung aus
n (verschiedenen) Elementen (ergänzt durch Regeln aus I) und II), z.B. m.Z.o.B.d.A.)
Kk (n) := Anzahl aller möglichen verschiedenen Kombinationen der jeweils beschriebenen Art.
Kk (n)
m.B.d.A.
m.Z.
nk
(k ∈ IN bel.)
o.Z.
o.B.d.A.
=
(n+k−1)·(n+k−2)···n
1·2···k
n
k
n!
(n−k)!
(k ∈ IN und k ≤ n) = n · (n − 1) · · · (n − k + 1)
n+k−1
k
=
n·(n−1)···(n−k+1)
1·2···k
Sonderfall k = n bei der K.o.Z.m.B.d.A.:
Permutation der Menge {1, 2, . . . , n} := Anordnung der Zahlen 1, 2, . . . , n in willkürlicher Reihenfolge.
Anzahl: Pn := Kn (n)(o.Z.m.B.d.A.) = n!
Bem.: Statt {1, 2, . . . , n} kann jede beliebige Menge mit n verschiedenen Elementen verwendet
werden.
38
Satz 7.1.2 (Stirling–Formel): Für große natürliche Zahlen m ist die folgende Näherung verwendbar:
m √
m
2πm
m! ≈
e
Für die Genauigkeit der Näherung gilt:
m
m ≥ 9 ⇒ |prozentualer Fehler| := | (m/e)
m
√
2πm−m!
m!
· 100| ≤ 1(%)
≥ 85 ⇒ |prozentualer Fehler| ≤ 0.1(%)
Bem. 7.1.5:
a) Wir haben k gleichartige Mengen von je n Elementen. Ziehen wir aus jeder Menge je ein
Element, so ist die Formel für Kombinationen m.Z. . . . k-ter Ordnung aus n Elementen
anzuwenden. Ein Urnenmodell ist dazu nicht mehr nötig.
b) Wenn es auf die Reihenfolge der Auswahl (oder Ziehung) ankommt, ist die Formel ”m.B.d.A”
ist anzuwenden, und wenn nicht (z.B. wenn gezogene Zahlen in natürlicher Reihenfolge bekanntgegeben werden) die Formel ”o.B.d.A” .
7.2
Grundlagen der Wahrscheinlichkeitsrechnung
Ein Ereignis heißt in Bezug auf einen Satz von Bedingungen zufällig, wenn es bei der Realisierung dieses Satzes eintreten kann, aber nicht unbedingt eintreten muss.
Def. 7.2.1: Ein Experiment heißt ein Zufallsexperiment, falls folgende Bedingungen erfüllt
sind:
a) Es kann nicht mit Sicherheit gesagt werden, welches Ergebnis sich einstellen wird.
b) Das Experiment soll (wenigstens theoretisch) beliebig oft unter den gleichen Bedingungen
wiederholt werden können.
c) Sämtliche überhaupt möglichen Ergebnisse sollen vor der Durchführung des Experiments
angegeben werden können.
Def. 7.2.2: Die Menge aller überhaupt möglichen Ergebnisse eines Zufallsexperiments heißt die
Ergebnismenge Ω.
Def. 7.2.3: Ein Ereignis ist eine Teilmenge der Ergebnismenge.
Bem.: Bei überabzählbaren Ergebnismengen bezeichnet man nur Teilmengen aus einer gewissen
Klasse als Ereignisse.
Def. 7.2.4: Jedes Ereignis {ω} mit ω ∈ Ω heißt Elementarereignis. ∅ ist das unmögliche
Ereignis, Ω das sichere Ereignis.
39
Def. 7.2.5 (Klassische Definition der Wahrscheinlichkeit): Eine Ergebnismenge Ω erfülle folgende zwei Bedingungen:
a) Ω ist eine endliche Menge
b) Alle Elementarereignisse sind gleichwahrscheinlich.
A sei ein beliebiges Ereignis, d.h. A ⊂ Ω. Dann heißt
P (A) :=
card A
Anzahl der für das Ereignis A günstigen Ergebnisse
=
card Ω
Anzahl der möglichen Ergebnisse
mit card M := Anzahl der Elemente von M
die Wahrscheinlichkeit
Sonderfall:
1
P ({ω}) = card
Ω
Def.7.2.6 (Statistische Definition der Wahrscheinlichkeit): Ω sei eine Ergebnismenge, A ⊂ Ω
ein Ereignis und n die Zahl der Wiederholungen des Zufallsexperiments
a) Die absolute bzw. relative Häufigkeit von A bei n Wiederholungen ist definiert durch:
fn (A) := Anzahl der Wiederholungen, bei denen A eintritt, bzw. hn (A) := fnn(A)
b) P (A) :=′′ lim′′n→∞ hn (A) (vergl. Satz 7.9.3b).
Beispiel 7.2.1 Zufallsexperiment: Werfen eine Reißnagels
Mögliche Ergebnisse:
K (:= Kopf):
Ergebnis einer Versuchsreihe:
n
5
10
15
40
fn ({K})
2
6
10
25
hn ({K}) 0.4 0.6 0.667 0.625
; Ω := {K,S }
; S (:= Spitze):
60
40
0.667
160
100
0.625
180
110
0.611
200
125
0.625
P ({K}) =′′ lim′′n→∞ hn ({K}) ≈ 0.625, analog P ({S}) ≈ 0.375
Def. 7.2.7 (Axiomatische Definition der Wahrscheinlichkeit): Wird jedem Ereignis A ⊂ Ω eine
reelle Zahl P (A) zugeordnet, so heißt P (A) Wahrscheinlichkeit von A, wenn folgende Bedingungen erfüllt sind:
a) P (A) ≥ 0
b) P (Ω) = 1 (sicheres Ereignis)
c) P (A ∪ B) = P (A) + P (B), falls A ∩ B = ∅ ist (A, B disjunkt)
Bem.:
a) Bei unendlichen Ergebnismengen Ω müsste c) durch eine allgemeinere Bedingung ersetzt
werden.
b) Die axiomatische Definition umfasst die klassische und die statistische Definition der Wahrscheinlichkeit
40
Bsp. 7.2.2: Auf einem Rad mit fester Achse vom Umfang 1 m (d.h. Radius =
wird eine Maßskala für die Bogenlängen angebracht:
@
@
0.25
0
1I
u
0.75
1
2π
m = 0.159m)
feste Marke
@
@
0.5
Das Zufallsexperiment besteht nun darin, das Rad mit hoher Drehzahl zu drehen und plötzlich
zu stoppen. Die Bogenlängen auf der Maßskala, die dann bei der festen Marke stehenbleibt,
wird als Ergebnis des Zufallexperiments registriert. Die Ergebnismenge besteht also aus allen
möglichen Werten auf der Maßskala, d.h. es ist zunächst Ω = [0, 1[. Alle Ergebnisse sind ”gleichberechtigt” oder anders ausgedrückt - kein Ergebnis ist vor dem anderen bevorzugt. Um nun
bei den folgenden Überlegungen zusätzliche formale Schwierigkeiten zu vermeiden, ändern wir
die Ergebnismenge geringfügig ab:
Ω = [0, 1].
Aufgrund der ”Gleichberechtigung” der Ergebnisse erhalten wir für die Wahrscheinlichkeit von
Teilintervallen [a, b] ⊂ [0, 1]:
a
0
Länge von
P ([a, b]) = Länge
von
1
b
[a,b]
[0,1]
=
b−a
1
Für die Wahrscheinlichkeit von Vereinigungen von Teilintervallen [a, b], [c, d] ⊂ [0, 1] erhalten
wir folgende Regeln, wobei wir zwei Fälle unterscheiden müssen:
a
0
c
b
d
Fall 1: [a, b] ∩ [c, d] = ∅
1
P ([a, b] ∪ [c, d]) = Anteil von [a, b] ∪ [c, d] an der Gesamtlänge
= b − a + d − c = P ([a, b]) + P ([c, d]) (vergl. Def. 7.2.7c)
a
b
0
c
d
1
Fall 2: [a, b] ∩ [c, d] 6= ∅
Gilt entsprechend der Skizze speziell 0 ≤ a ≤ b ≤ c ≤ d ≤ 1, so erhält man:
[a, b] ∪ [c, d] = [a, d],
[a, b] ∩ [c, d] = [c, b]
und damit
P ([a, b] ∪ [c, d]) − P ([a, b]) − P ([c, d]) = (d − a) − (b − a) − (d − c) = c − b = −(b − c) = −P ([c, b])
|
{z
=[a,d]
}
= −P ([a, b] ∩ [c, d]) ⇒ P ([a, b] ∪ [c, d]) = P ([a, b]) + P ([c, d]) − P ([a, b] ∩ [c, d]) (vergl. Satz 7.2.2)
Spezialfälle (vergl. die nachstehende Def. 7.2.8):
P ({ω}) = P ([ω, ω]) = ω − ω = 0, d.h. {ω} ist fast unmöglich für jedes ω ∈ Ω.
]0, 1[ ist fast sicher; denn P (]0, 1[) = P (Ω) − P ({0}) − P ({1}) = 1
41
Satz 7.2.1: Folgerungen aus den Bedingungen a) b) und c) von Def. 7.2.7:
i) P (A1 ∪ A2 ∪ . . . ∪ Ak ) = P (A1 ) + P (A2 ) + . . . + P (Ak ), falls Ai ∩ Aj = ∅ f. a. i 6= j
ii) A ⊂ B ⇒ P (B − A) = P (B) − P (A)
iii) A ⊂ B ⇒ P (A) ≤ P (B)
iv) 0 ≤ P (A) ≤ 1
v) P (A) = 1 − P (A)
vi) P (∅) = 0, (unmögliches Ereignis)
Beweis:
i) folgt direkt aus Bedingung c), was durch vollst. Induktion zu beweisen ist
ii) und iii) Es sei A ⊂ B.
Rand von B
B−A
A
Dann kann man B auf folgende Art als Vereinigung zweier disjunkter Mengen darstellen:
B = A ∪ (B − A) ∧ A ∩ (B − A) = ∅ ⇒ (nach Bed. c))
P (B) = P (A) + P (B − A) ≥ P (A) ⇒ P (B − A) = P (B) − P (A)
|
{z
}
≥0 nach Bed. a)
iv) A ⊂ Ω ⇒ 0
Bed. a)
≤
iii)
P (A) ≤ P (Ω)
Bed. b)
ii)
v) P (A) = P (Ω − A) = P (Ω) − P (A)
=
1
Bed. b)
=
1 − P (A)
v)
vi) ∅ = Ω ⇒ P (∅) = 1 − P (Ω) = 0
Def. 7.2.8: Ein Ereignis A ⊂ Ω heißt
a) fast unmöglich (Abk.: f. u.), wenn P (A) = 0 ist,
b) fast sicher (Abk.: f. s.), wenn P (A) = 1 ist.
Satz 7.2.2: Für zwei Ereignisse A, B ⊂ Ω, die nicht disjunkt zu sein brauchen, gilt:
P (A ∪ B) = P (A) + P (B) − P (A ∩ B).
42
Satz 7.2.3: k Kugeln werden zufällig aus einer Urne gezogen und in einer Stichprobe gesammelt.
”Zufällig” bedeutet dabei: Bei jeder der k Ziehungen hat jede Kugel, die sich (noch) in der Urne
befindet, die gleiche Chance, gezogen zu werden. Dann gilt . . .
a) im Falle der Kombinationen m. Z. m. B. d. A., o. Z. m. B. d. A. und o. Z. o. B. d. A.: Jede
Kombination hat die Wahrsch. = Kk1(n)
b) im Falle der Kombinationen m. Z. o. B. d. A.: Die Kombinationen haben i.a. verschiedene
Wahrscheinlichkeiten, insbesondere ist i.a. die Wahrsch. 6= Kk1(n)
Bem.: Damit man den Kombinationen überhaupt Wahrscheinlichkeiten im Sinne von Def. 7.2.7
zuordnen kann, muss man sie als Elementarereignisse oder allgemeinere Ereignisse in einer geeigneten Ergebnismengen auffassen. Dasselbe gilt auch für die Wahrscheinlichkeiten in der folgenden
Erläuterung zu Satz 7.2.3, wobei einige Wahrscheinlichkeiten außerdem günstiger als bedingte
Wahrscheinlichkeiten (vergl. 7.3) aufzufassen sind.
Erläuterung zu Satz 7.2.3: Urne mit n Kugeln, Stichprobenbrett mit k Fächern bei ”m. B.
d. A”
i) Bei der Vorschrift ”m. Z. m. B. d. A.” ist die Wahrscheinlichkeit bei
dem 1. Fach für jede Kugel :
dem 2. Fach für jede Kugel :
1
n
1
n
..
.
dem k–ten Fach für jede Kugel :
1
n
Jede Kombination m. Z. m. B. d. A. hat damit die Wahrscheinlichkeit ( n1 )k =
1
Kk (n)
ii) Bei der Vorschrift ”o. Z. m. B. d. A” ist die Wahrscheinlichkeit bei
dem 1. Fach für jede Kugel :
dem 2. Fach für jede (restliche) Kugel :
..
.
dem k–ten Fach für jede (restliche) Kugel :
1
n
1
n−1
1
n−k+1
Jede Kombination o. Z. m. B. d. A. hat damit die Wahrscheinlichkeit
1
n (n−1)...(n−k+1)
=
1
Kk (n)
iii) Je k! verschiedene Kombinationen o. Z. m. B. d. A. entsprechen einer Kombination o. Z.
o. B. d. A. Damit hat jede Kombination o. Z. o. B. d. A. die Wahrscheinlichkeit
k!
n(n−1)...(n−k+1)
=
1
Kk (n)
iv) Im Gegensatz zu iii) ist die Anzahl der verschiedenen Kombinationen m. Z. m. B. d. A.,
die einer Kombination m. Z. o. B. d. A. entsprechen, abhängig von dem Ziehungsergebnis.
43
Ein Beispiel dazu: 2 Würfe mit einer idealen Münze:
Kombination m. Z. o. B. d. A.
Kombination m. Z. m. B. d. A.
zweimal ”W”
=
ˆ
”W” beim 1. Wurf und ”W” beim 2. Wurf
zweimal ”Z”
=
ˆ
”Z” beim 1. Wurf und ”Z” beim 2. Wurf
einmal ”W”, einmal ”Z”
=
ˆ
”W” beim 1. Wurf und ”Z” beim 2. Wurf
oder ”Z” beim 1. Wurf und ”W” beim 2. Wurf
Da nun diese Kombination m. Z. m. B. d. A. nach i) alle die Wahrscheinlichkeit 14 haben,
hat das Ereignis ”einmal ’W’, einmal ’Z’ ” die Wahrscheinlichkeit 42 = 21 und nicht die
Wahrscheilichkeit 31
Bem.: Bei Wahrscheinlichkeitsuntersuchungen gilt:
1 Wurf mit 2 Münzen =
ˆ 2 Würfen mit 1 Münze
Dasselbe gilt auch für mehrere Münzen oder für zwei oder mehr Würfel. Dieser Sachverhalt
beruht darauf, dass man Münzen, Würfel oder dergleichen unterscheiden kann z.B. durch verschiedene Farben. Werden etwa ein blauer und ein roter Würfel gleichzeitig geworfen, so kann
man das Wurfergebnis beim blauen Würfel als Wurfergebnis des 1. Wurfes bei einem Würfel
auffassen und das des roten als Wurfergebnis des 2. Wurfes.
7.3
Bedingte Wahrscheinlichkeit, stochastische Unabhängigkeit,
Formel für die totale Wahrsch., Formel von Bayes
Def. 7.3.1: Es seien A, B ⊂ Ω zwei Ereignisse mit P (A) > 0. Dann heißt: P (B/A) :=
die bedingte Wahrscheinlichkeit von B unter der Bedingung A
P (B∩A)
P (A)
Def. 7.3.2: Zwei Ereignisse mit A, B ⊂ Ω heißen (stochastisch) unabhängig, wenn gilt:
P (A ∩ B) = P (A) · P (B)
Satz 7.3.1: Für bedingte Wahrscheinlichkeiten bzgl. eines festen Ereignises gelten die Regeln
in Def. 7.2.7 u. d. Sätzen 7.2.1,2) z.B. P (B/A) = 1 − P (B/A)
Satz 7.3.2 (Multiplikationssatz): A, B ⊂ Ω seien zwei Ereignisse mit P (A) > 0 . Dann gilt:
P (B ∩ A) = P (B/A) · P (A)
Def. 7.3.3: Die Ereignisse A1 , A2 , . . . An bilden ein vollständiges System, wenn gilt:
a) A1 ∪ A2 ∪ . . . ∪ An = Ω
(sicheres Ereignis)
b) Ai ∩ Aj = ∅ für alle i 6= j (paarweise disjunkt)
Satz 7.3.3: A1 , A2 , . . . , An bilden ein vollständiges System von Ereignissen, und B sei ein weiteres Ereignis. Weiterhin gelte P (Ai ) > 0 für alle i = 1, 2, . . . , n. Dann gilt die Formel für die
totale Wahrscheinlichkeit:
P (B) =
n
P
i=1
P (B/Ai ) · P (Ai )
44
.
Satz 7.3.4: Es gelten die Voraussetzungen von Satz 7.3.3 und P (B/Ai ) > 0 für mindestens ein
i. Dann gilt die Formel von Bayes:
P (Ai /B) =
P (B/Ai )·P (Ai )
P (B)
(P (B) vergl. Satz 7.3.3).
Def. 7.3.4: Die Ereignisse A1 , A2 , . . . , An ⊂ Ω heißen:
a) paarweise unabhängig, wenn gilt:
P (Ai ∩ Aj ) = P (Ai ) · P (Aj )
für alle i 6= j
b) (insgesamt) unabhängig, wenn für jedes k ≤ n und für jede Kombination von Zahlen
1 ≤ j1 < j2 < . . . < jk ≤ n gilt:
P (Aj 1 ∩ Aj 2 ∩ . . . ∩ Aj k ) = P (Aj 1 ) · P (Aj 2 ) · · · P (Aj k )
Bem.: b) ⇒ a) aber a) 6⇒ b)
7.4
Zufallsvariable, Wahrscheinlichkeitsverteilungen
Def. 7.4.1: Eine Zufallsvariable (Abk.: ZV) ist eine Größe X (oder Y, Z, Xi usw.), die bei der
Durchführung eines Zufallsexperiments (oder bei einem vergleichbaren Vorgang) irgendeinen reellen Wert x annimmt. x heißt dann eine Realisierung von X. Bei einer weiteren Durchführung
des Zufallsexperiments erhält man i. a. eine andere Realisierung x′ von X
Analogien:
X=
ˆ Messvorschrift,
X=
ˆ Merkmal,
x=
ˆ Messergebnis
x=
ˆ Merkmalsausprägung
Bem.: Häufig wird die ZV auch so definiert: Ω Ergebnismenge
ω ∈ Ω 7→ X(ω) ∈ IR
X:
(”messbare” Abbildung)
Bem.: ”X = x”,”X < x” usw. sind für x ∈ IR zufällige Ereignisse.
Def. 7.4.2: Kann eine Zufallsvariable X höchstens abzählbar viele Werte annehmen, also nur
die Werte (0, )1, 2, . . . , n oder (0, )1, 2, . . . (oder allgemeiner x0 , x1 , . . . , xn oder x0 , x1 , x2 , . . .), so
nennt man sie eine diskrete ZV.
Def. 7.4.3: X sei eine diskrete ZV. Sind die Wahrscheinlichkeiten pk := P (X = k) oder allgemeiner pk := P (X = xk ) für alle k bekannt, so spricht man von einer Wahrscheinlichkeitsverteilung von X. Andere Ausdrucksweise: X = k bzw. xk mit Wahrscheinlichkeit pk
Satz 7.4.1: Für jede Wahrscheinlichkeitsverteilung einer diskreten ZV gilt:
a) 0 ≤ pk ≤ 1 für alle k
b)
n
P
k=0
pk = 1 bzw.
∞
P
k=0
pk (:= limm→∞
m
P
k=0
pk ) = 1.
Def. 7.4.4: Es sei X eine beliebige ZV. Dann nennt man die Funktion F (x) := P (X ≤ x) mit
x ∈ IR die Verteilungsfunktion von X.
45
Satz 7.4.2: Für die Verteilungsfunktion F (x) einer ZV gilt:
a) 0 ≤ F (x) ≤ 1
b) F (x) ↑ (nicht immer streng ↑) auf IR,
c) limx→−∞ F (x) = 0 ∧ limx→+∞ F (x) = 1
Bsp. 7.4.1:
i) Eine ZV X sei Poisson-verteilt mit λ = 2 (vergl. 7.6.2):
k
pk := P (X = k) = e−2 2k! ,
p0 = 0.14, p1 = 0.27, p2 = 0.27, p3 = 0.18, . . .
Ausrechnungsbsp. für einen Wert der Verteilungsfunktion F (x):
F (3.5) := P (X ≤ 3.5)
Xdiskret
=
P (X = 0 ∨ X = 1 ∨ . . . ∨ X = 3) =
1
-
-
3(≤3.5)
P
k=0
pk = 0.86
-
F(x)
-
-
0
1
2
3
4
5
x
ii) Für ein Bsp. für eine Verteilungsfunktion stetiger ZV vergl. (7.6.3)
Mit Hilfe der Verteilungsfunktion lässt sich leicht die Wahrscheinlichkeit dafür beschreiben, dass
X in einem bestimmten halboffenen Intervall liegt: Es sei a < b. Dann gilt:
P (a < X ≤ b)
= P (X ≤ b ∧ X > a) = P (X ≤ b ∧ (X ≤ a))
a<b, Satz7.2.1ii)
=
P (X ≤ b) − P (X ≤ a) =F (b) − F (a)
Ist speziell F auf IR stetig differenzierbar, so können wir diese Differenz durch ein bestimmtes
Integral ausdrücken:
F (b) − F (a) =
Rb
a
F ′ (x) dx =
Speziell folgt aus Satz 7.4.2 c) in diesem Fall:
Rb
mit f (x) := F ′ (x)
f (x) dx
a
F (b) = lima→−∞ (F (b) − F (a)) =
1
= limb→∞ F (b) =
46
∞
R
−∞
Rb
f (x) dx,
−∞
f (x) dx
.
Def. 7.4.5: ZV, bei denen die Verteilungsfunktion F (x) stetig differenzierbar oder wenigstens
durch
(7.4.1)
F (x) =
Rx
−∞ f (u) du
mit einer geeigneten Funktion f (u) darstellbar ist, heißen stetige ZV. f (x) := F ′ (x) oder im allgemeineren Fall die Funktion f (u) aus (7.4.1) heißt die Verteilungsdichte oder Wahrscheinlichkeitsdichte der ZV.
Bem.: Die Eigenschaften ”stetig” und ”diskret” schließen bei ZV einander aus. Darüberhinaus
gibt es ZV, die weder diskret noch stetig sind.
Satz 7.4.3: Für die Verteilungsdichte einer stetigen ZV gilt:
a) f (x) ≥ 0 für alle x ∈ IR
b)
∞
R
f (x) dx = 1
−∞
Bem.: f (x) ≤ 1 gilt i.a. nicht, da f (x) nicht als Wahrscheinlichkeit zu interpretieren ist.
Satz 7.4.4: Für eine stetige ZV gilt:
a) P (X = x) =
Rx
f (u) du = 0,
x
b) P (a ≤ X ≤ b) = P (a < X ≤ b) = P (a ≤ X < b) = P (a < X < b) =
Bem.:
Rb
a
f (u) du
a) Bei einer stetigen ZV ist also die Wahrscheinlichkeit, dass X einen ganz bestimmten Wert
annimmt, = 0. Das ist ein weiterer Grund dafür, dass f (x) nicht als Wahrsch. zu interpretieren ist.
b) Bei einer stetigen ZV ist es also gleichgültig, ob die Intervallgrenzen eingeschlossen sind
oder nicht. Bei nicht–stetigen ZV gilt das i.a. nicht.
Satz 7.4.5: Für eine diskrete ZV X gilt (im Gegensatz zu oben):
P (a ≤ X ≤ b) =
n(od.∞)
P
P (a < X ≤ b) =
pk ,
k=0
a ≤ xk ≤ b
Für die übrigen Intervalle gilt analoges
47
n(od.∞)
P
k=0
a < xk ≤ b
pk
Beispiel 7.4.2
i)
6
f (u)
- u
b
Schraffierte Fläche =
Rb
−∞ f (u) du
= F (b) = P (X ≤ b)(= P (−∞ < X ≤ b))
ii)
6
f (u)
-
a
1. Fläche =
iii)
Rb
a
b
a’
f (u) du = P (a ≤ X ≤ b)
b’
2. Fläche =
R b′
a′
f (u) du = P (a′ ≤ X ≤ b′ )
6
f (u)
a
b
-
u
f (u) ist keine Wahrsch.dichte,
da Bedingung a) in Satz 7.4.3 verletzt ist, was in diesem
R
Bsp. zur Folge hat, dass ab f (u) du < 0 ist, also keine Wahrscheinlichkeit sein kann.
iv) Eine ZV X habe eine Exponentialverteilung, d.h.
f (x) :=
(
0
λ e−λ x
für x < 0,
für x ≥ 0,
wobei λ eine feste reelle Zahl > 0 ist, sei die Verteilungsdichte von X. Zunächst lässt sich
leicht überprüfen, dass die Bedingungen von Satz 7.4.3 erfüllt sind:
a) f (x) ≥ 0 für alle x ∈ IR,
48
u
b)
R∞
−∞ f (x) dx =
Rb
0
f (x) dx =
Z
|
0
f (x) dx +
−∞ | {z }
:=0
{z
=0
Rb
−λ x dx
λ
e
0
}
R∞
0
f (x) dx = 1, denn:
−λb + 1 −→ 0 + 1 für b → ∞
= [−e−λ x ]x=b
x=0 = −e
Für die Verteilungsfunktion erhält man:
 Rx
f (u) du = 0

−∞ |

{z }




:=0

Z 0
R
Rx
F (x) =
f (u) du + 0x f (u) du
f (u) du =
−∞


−∞ | {z }



:=0


|
{z
}
für x < 0
vergl.o.
=
1 − e−λ x
für x ≥ 0
=0
Für die Wahrscheinlichkeit, dass X zwischen 1 und 2 liegt, erhält man:
R
= e−λ − e−2λ
P (1 ≤ X ≤ 2) = 12 λe−λ x dx = [−e−λ x ]x=2
x=1
= P (1 < X ≤ 2) = P (1 ≤ X < 2) = P (1 < X < 2)
Skizzen mit λ = 1.2:
1
F (x)
f (x)
-
1
1
2
P (1 ≤ X ≤ 2) = e−1.2 − e−2.4 = 0.210
v) Poisson-Verteilung mit λ = 2:
pk = e−2 ·
2k
k! ,
k = 0, 1, 2, . . .
P (2 ≤ X < 4) = P (X = 2 ∨ X = 3) = P (X = 2) + P (X = 3) = p2 + p3 = 0.45
P (2 ≤ X ≤ 4) = P (X = 2 ∨ X = 3 ∨ X = 4) = p2 + p3 + p4 = 0.54
P (2 < X < 4) = P (X = 3) = p3 = 0.18
49
x
7.5
Erwartungswert, Varianz
Def. 7.5.1:
a) X sei eine diskrete ZV, die bei unendl. vielen Werten xk folgende Zusatzbedingung erfüllt:
∞
P
k=0
|xk | pk < ∞. Dann heißt:
E(X) :=
n
P
k=0
der Erwartungswert von X
xk pk bzw. E(X) :=
∞
P
k=0
xk pk
b) Es sei X eine stetige
ZV mit der Verteilungsdichte f (x), die die folgenden ZusatzbedinR∞
gungen erfüllt: −∞ |x| f (x) dx < ∞.
Dann heißt E(X) :=
Bem.:
R∞
−∞ x
f (x) dx der Erwartungswert von X
a) Im Folgenden seien die Zusatzbedingungen für alle behandelten ZV erfüllt.
b) Es kann vorkommen, dass E(X) von der ZV X gar nicht angenommen wird. E(X) ist i.a.
nicht der wahrscheinlichste Wert von X.
c) E(X) ist als ”Durchschnittswert” von X zu interpretieren
Satz 7.5.1: Für die Bildung des Erwartungswerts einer Funktion einer ZV gilt:
E(g(X)) =
n
P
k=0
Def. 7.5.2:
g(xk ) pk
bzw. =
∞
P
k=0
g(xk ) pk
bzw. =
R∞
−∞ g(x)
f (x) dx
a) V (X) := E[(X − E(X))2 ] heißt Varianz von X.
p
b) σ(X) := + V (X) heißt Standardabweichung von X.
Satz 7.5.2:
a) E(a + bX) = a + b E(X),
E(X + Y ) = E(X) + E(Y )(vergl.(7.8.1)
b) V (a + bX) = b2 V (X)
c) V (X) = E(X 2 ) − (E(X))2
d) V (X) = 0 ⇐⇒ X = E(X) (fast sicher)
e) Für jedes beliebige a ∈ IR gilt: V (X) ≤ E[(X − a)2 ]
Bem.: Aus c) und d) folgt: E(X 2 ) 6= (E(X))2 i. a.
Beweis von Satz 7.5.2 (teilweise):
a) X sei eine ZV, die nur die Werte 0,1,2, . . . , n annehmen kann (für andere ZV verläuft der
Beweis analog):
E(a + b X) =
n
P
k=0
(a + b k)pk = a
n
X
pk + b
n
X
k=0
k=0
k pk = a · 1 + b E(X)
| {z }
| {z }
=1
E(X)
50
(pk := P (X = k))
a)
b) V (a + b X) = E[(a + b X − E(a + b X))2 ] = E[(a + b X − a − b E(X))2 ]
a)
= E[b2 (X − E(X))2 ] = b2 E[(X − E(X))2 ] = b2 V (X)
c) V (X) := E[(X − E(X))2 ] = E[X 2 − 2X · E(X) + (E(X))2 ]
a)
= E(X 2 ) − 2 E(X) E(X) + (E(X))2 = E(X 2 ) − (E(X))2
h
i
h
e) E (X − a)2 = E (X − E(X) + E(X) − a)2
h
i
= E (X − E(X))2 − 2(X − E(X)) (E(X) − a) + (E(X) − a)2
a)
= V (X) − 2(E(X) − a) E(X − E(X)) + (E(X) − a)2 ≥ V (X)
|
7.6
7.6.1
{z
=0
}
|
{z
≥0
i
}
Spezielle Verteilungen
Binomialverteilung
Def. 7.6.1: Ein Zufallsexperiment habe nur zwei mögliche Ergebnisse, die wir mit ”Erfolg” oder
”Fehlschlag” bezeichnen.
Die Wahrsch. für einen Erfolg sei p und für einen Fehlschlag sei q = 1 − p. Wird dieses Zufallsexperiment unter den gleichen Bedingungen n-mal wiederholt, so nennt man das ganze BernoulliExperiment.
Satz 7.6.1: X sei die ZV, die die Anzahl von Erfolgen bei einem Bernoulli-Experiment beschreibt. Dann besitzt X eine Binomialverteilung mit den Parametern p und n, d.h.
(7.6.1)
P (X = k) =
n k n−k
k p q
(k = 0, 1, . . .) (⇒ P (X = k) = 0 für k ≥ n + 1)
Satz 7.6.2: Für eine binomialverteilte ZV X mit den Parametern n und p gilt:
a) E(X) = n · p
b) V (X) = n · p · q
(⇒ σ(X) =
√
n · p · q)
Anwendungsbeispiel: Lieferung von N Stück, M davon defekt (N, M keine ZV), n Ziehungen
eines Stücks mit Zurücklegen.
Bernoulli-Experiment: Jede Ziehung ist ein Zufallsexperiment mit der Wahrscheinlichkeit p =
M/N für einen ”Erfolg”(= Ziehung eines defekten Stückes) und q := 1−p für einen ”Fehlschlag”
(= Ziehung eines nicht defekten Stückes). Durch ”m. Z.” werden nach jeder Ziehung die alten
Bedingungen wiederhergestellt. Die ZV ”Anzahl der Ziehungen von defekten Stücken” ist also
binomialverteilt mit p = M/N und n = Anzahl der Ziehungen insgesamt.
7.6.2
Poisson-Verteilung
Def. 7.6.2: Eine diskrete ZV X heißt Poisson-verteilt mit dem Parameter λ > 0, wenn gilt:
k
P (X = k) = e−λ λk! ,
k = 0, 1, 2, . . .
Satz 7.6.3: Für eine Poisson-verteilte ZV mit dem Parameter λ gilt:
a) E(X) = λ
b) V (X) = λ
(⇒ σ(X) =
√
λ)
51
Satz 7.6.4: Es sei X eine binomialverteilte ZV mit den Parametern p, n. Dann gilt:
k
P (X = k) ≈ e−λ λk!
λ = np
Dabei sollten folgende Bedingungen erfüllt sein: n ≥ 50 und λ = n p ≤ 5
Bem.: Bei der Binomialverteilung sollte der Versuchsausgang mit “ Erfolg” bezeichnet werden,
der die deutlich kleinere Wahrscheinlichkeit hat, insbesondere dann, wenn die Poisson–Näherung
angewendet werden soll. Sind die Wahrscheinlichkeiten für beide Versuchsausgänge nahe bei 1/2,
können die Bezeichnungen “Erfolg” oder “Fehlschlag” beliebig vergeben werden.
7.6.3
Normalverteilung oder Gauß-Verteilung
Def. 7.6.3:
a) Eine ZV heißt normalverteilt mit dem Mittelwert µ und der Varianz σ 2 (Abk. N (µ, σ)verteilt), wenn sie folgende Verteilungsdichte besitzt (exp x := ex ):
f (x) :=
√1
2 πσ
2
exp (− 21 ( x−µ
σ ) ),
b) Eine ZV X mit der Verteilungsdichte ϕ(x) :=
standard-normalverteilt oder N (0, 1)-verteilt.
Φ(x) :=
Rx
−∞ ϕ(u)
√1
2π
x ∈ IR
exp (− 21 x2 ) bezeichnet man als
du ist die zugehörige Verteilungsfunktion.
Bem.: Φ(x) ist eine höhere transzendente Funktion. Daher sind Tabellen nötig.
Skizzen:
6
1
6
1
Φ(x)
ϕ(x)
-
Vert.dichte zur N(1.5,2)-Vert.:
x
1
- x
Vert.dichte zur N(3,0.5)-Vert.:
61
1
6
f(x)
f(x)
- x
1.5
Satz 7.6.5: Für eine N (µ, σ) - verteilte ZV X gilt:
a) E(X) = µ
b) V (X) = σ 2
(⇒ σ(X) = σ)
52
3
- x
Satz 7.6.6:
a) Für jede N (0, 1) - vert. ZV Z gilt: (−Z) ist auch N (0, 1) - vert.
b) Φ(−x) = 1 − Φ(x) (Anwendung: Berechnung von Φ(x) für x < 0)
c) Für eine N (µ, σ) - vert. ZV X gilt (F (x): Verteilungsfkt, f (x): Vert.dichte):
i)
X−µ
σ
ist
x−µ
1
σ ϕ( σ )
a−µ
P (a ≤ X ≤ b) = Φ( b−µ
σ ) − Φ( σ )
P (X < a) = P (X ≤ a) = Φ( a−µ
σ ),
ii) F (x) =
iii)
iv)
N (0, 1) - verteilt
Φ( x−µ
σ ),
f (x) =
P (X > a) = P (X ≥ a) = 1 − Φ( a−µ
σ )
v) P (|X − µ| ≤ t · σ) = Φ(t) − Φ(−t) = 2 Φ(t) − 1 (t ≥ 0)
insbesondere = 0.683 für t = 1,
= 0.995 für t = 2,
= 0.997 für t = 3
Beweis: Es wird ohne Beweis verwendet, dass mit X auch die ZV α X + β,
normalverteilt ist.
a) P (−Z ≤ x) = P (Z ≥ −x) =
R∞
−x ϕ(u)du
u = −z
=
−
R −∞
ϕ(−z)
x
dz =
| {z }
= ϕ(z)(geradeF unktion)
P (Z ≤ x)
a)
b) Φ(−x) = P (Z ≤ −x) = P (−Z ≥ x) = P (Z ≥ x) = 1 − P (Z < x)
1 − Φ(x)
c)
α 6= 0, β ∈ IR,
Z stet.ZV
Satz 7.5.2 a) b) 1
=
σ (E(X) − µ) = 0 (nach Satz 7.6.5)
X−µ Satz 6.5.2 a) b) 1
=
V (X) = 1 (nach Satz 7.6.5)
V( σ )
σ2
Damit ist auf Grund der o. g. allgemeinen Eigenschaft X−µ
σ
=
Rx
−∞ ϕ(z)d z
1 − P (Z ≤ x) =
i) E( X−µ
σ )




ii) F (x) = P (X ≤ x) = P 
f (x) =
F ′ (x)
X −µ
σ }
| {z
N (0,1)−vert. nach i)
1 ′ x−µ
= σ Φ ( σ ) = σ1 ϕ( x−µ
σ )
ii)
X stet.ZV
iii) P (a ≤ X ≤ b)
=
ii)
≤


x−µ 
σ 

N (0, 1)-vert.
= Φ( x−µ
σ )
ii)
a−µ
P (a < X ≤ b) = F (b) − F (a) = Φ( b−µ
σ ) − Φ( σ )
iv) P (X ≤ a) = F (a) = Φ( a−µ
σ ),
)
1 − Φ( a−µ
σ
P (X ≥ a) = 1 − P (X < a)
iii)
X stet. ZV
=
1 − P (X ≤ a) =
b)
v) P (|X − µ| ≤ t σ) = P (µ − t σ ≤ X ≤ µ + t σ) = Φ(t) − Φ(−t) = 2 · Φ(t) − 1
Bem.:
a) Es gilt auch allgemein: E(X) = µ ∧ V (X) = σ 2
X−µ
=⇒ E( X−µ
V ( X−µ
ist eine standardisierte ZV
σ ) = 0,
σ ) = 1;
σ
b) Die Aussage in Satz 7.6.6 c) v) gilt für allgemeine ZV höchstens näherungsweise. Eine
exakte, aber z. T. wesentlich schlechtere Abschätzung liefert Satz 6.9.1
53
=
Satz 7.6.7: X sei eine binomialvert. ZV mit den Parametern p und n. Dann gilt für
0 ≤ k1 ≤ k2 ≤ n:
P (k1 ≤ X ≤ k2 ) ≈ Φ( k√2n−np qp ) − Φ( k√1n−np qp )
(7.6.2)
(vergl. Satz 7.10.1) oder mit höherer Genauigkeit, wenn k1 und k2 ganze Zahlen sind:
(7.6.3)
k1 −0.5−n
p
p
√
√
P (k1 ≤ X ≤ k2 ) ≈ Φ( k2 +0.5−n
n p q ) − Φ(
npq )
Dabei sollten folgende Bedingungen erfüllt sein:
n ≥ 50 ∧ n p ≥ 5 ∧ n q ≥ 5.
Bem.:
a) Unter den Voraussetzungen von Satz 7.6.7 sind auch die folgenden Wahrscheinlichkeiten
mit Hilfe von (7.6.2) oder (7.6.3) zu bestimmen:
P (X ≥ k0 ) = P (k0 ≤ X ≤ n),
P (X ≤ k0 ) = P (0 ≤ X ≤ k0 )
(k0 = 0, 1, 2 . . . , n)
b) Wird der Bereich der Argumentwerte von Φ in einer Tabelle wie etwa der ausgegebenen
überschritten, so kann man z.B. folgende Eigenschaften benutzen:
Für x ≥ 3.90 gilt 0 < 1 − Φ(x) < 0.5 · 10−4 und damit Φ(x) = 1.0000 auf 4 Stellen nach
dem Dezimalpunkt genau,
für x ≤ −3.90 gilt 0 < Φ(x) < 0.5 · 10−4 und damit Φ(x) = 0.0000 auf 4 Stellen nach dem
Dezimalpunkt genau.
7.6.4
Hypergeometrische Verteilung
Ausgangsproblem: Lieferung von N Stück, M davon defekt (N, M keine ZV); zufällige Auswahl
einer Stichprobe von n Stücken und deren Untersuchung (o. Z. o. B. d. A.); Wahrscheinlichkeit,
das m Stücke in der Stichprobe defekt sind, =?.
Bem.: Dieses Verfahren ist günstiger als das Verfahren in 7.6.1.
Für die ZV ”X := Anzahl der defekten Stücke in der Stichprobe” gilt:
(7.6.4)
P (X = m) =
N−M
( n )( N−n )
(M
m )( n−m )
= m NM −m
N
(n)
(M )
Def. 7.6.4: Die in (7.6.4) beschriebene Verteilung heißt hypergeometrische Verteilung mit
den Parametern N, M, n.
Bedingungen: N, M, n, m ∈ Z, 0 ≤ n ≤ N, 0 ≤ m ≤ M ≤ N, 0 ≤ n−m ≤ N −M
(⇒ m ≤ n)
Herleitung von Formel (7.6.4): Nach Satz 7.2.3 a)
haben alle Kombinationen o. Z. o. B. d.
N
A. von n aus N Stücken die Wahrscheinlichkeit 1/ n . Das Ereignis ”X = m” erfasst dann alle
Kombinationen, bei denen genau m defekte und damit (n − m) nicht defekte Stücke ausgewählt
werden. Die Anzahl der Möglichkeiten, m defekte
Stücke für die Stichprobe aus M defekten
Stücken der Lieferungen auszuwählen, beträgt M
,
da
dabei wie oben nach der Vorschrift ”o. Z.
m
o. B. d. A.” vorgegangen wird. Bei jeder solchen Auswahl muss dann die Stichprobe mit (n − m)
−M
aus den (N − M ) nicht defekten Stücken der Lieferung aufgefüllt werden. Dafür gibt es Nn−m
54
Möglichkeiten,
und zwar bei jeder Auswahl vom m defekten Stücken. Damit gibt es insgesamt
M N −M Möglichkeiten
für die Auswahl (o. Z. o. B. d. A.) von m defekten und (n − m) nicht
m n−m
defekten Stücken. Dies ist also die Anzahl der Kombinationen o. Z. o. B. d. A.,
die von dem
Ergebnis ”X = m” erfasst werden, die dann nur mit der Wahrscheinlichkeit 1/ N
für
jede dieser
n
Kombinationen multipliziert zu werden braucht.
Bem.: Eine ähnlich Herleitung für der Bin.-Vert. ist nicht möglich (vergl. Satz 7.2.3 b))
Satz 7.6.8: Es sei X eine hypergeometrisch vert. ZV mit den Parametern N, M, n und Y eine
binomialverteilte ZV mit den Parametern p = M
N und n. Dann gilt:
P (X = m) ≈ P (Y = m) =
n m
m p (1
− p)n−m
n
≤ 0.1.
Dabei sollten folgende Bedingungen erfüllt sein: N ≥ 1000 ∧ N
Zur Näherung der Binominalverteilung vergl. die Sätze 7.6.4/7
Satz 7.6.9 Für die ZV X aus Satz 7.6.8 gilt:
E(X) = n M
N,
7.7
N −M N −n
V (X) = n M
N N N −1
Gemeinsame Verteilung mehrerer Zufallvariabler
Def. 7.7.1: Es seien X1 , X2 , . . . , Xn beliebige ZV. Dann heißt:
F (x1 , x2 , . . . , xn ) := P (X1 ≤ x1 ∧ X2 ≤ x2 ∧ . . . ∧ Xn ≤ xn )
die gemeinsame Verteilungsfunktion der ZV X1 , X2 , . . . , Xn .
Sie ist eine mögliche Beschreibung der gemeinsamen Verteilung der ZV.
Def. 7.7.2: X sei eine diskrete ZV, die die Werte x0 < x1 < . . . , < xn annehmen kann und
Y eine diskrete ZV, die die Werte y0 < y1 < . . . < ym annehmen kann. Dann beschreiben die
Wahrscheinlichkeiten pi,j := P (X = xi ∧ Y = yj ) ebenfalls die gemeinsame Verteilung von X
und Y .
Satz 7.7.1: Für die Werte pi,j aus Def. 7.7.2 gilt:
a) 0 ≤ pi,j ≤ 1 für i = 0, 1, . . . , n; j = 0, 1, . . . , m
b) P (X = xi ) =
m
P
j=0
pi,j =: pi,∗ , P (y = yj ) =
n
P
i=0
pi,j =: p∗,j
Diese Größen beschreiben die Randverteilungen. Für diese Randverteilungen gilt:
n
P
i=0
pi,∗ = 1
∧
Schema:
n
P
j=0
p∗,j = 1
↓ X| Y →
x0
x1
..
.
y0
p0,0
p1,0
..
.
y1
p0,1
p1,1
..
.
y2
p0,2
p1,2
..
.
...
...
...
ym
p0,m
p1,m
..
.
xn
pn,0
p∗,0
pn,1
p∗,1
pn,2
p∗,2
...
...
pn,m
p∗,m
p0,∗
p1,∗
..
.
pn,∗
1
Def. 7.7.3: F (x1 , x2 , . . . , xn ) sei die gemeinsame Verteilungsfunktion der ZV X1 , X2 , . . . , Xn
und Fi (xi ) seien die Verteilungsfunktionen der einzelnen ZV Xi . Dann heißen X1 , X2 , . . . , Xn
55
(stochastisch) unabhängig, wenn für alle x1 , x2 , . . . , xn ∈ IR gilt:
F (x1 , x2 , . . . , xn ) = F1 (x1 ) · F2 (x2 ) · · · Fn (xn )
(7.7.1)
Bem.: Diese Definition ist konsistent mit der Def. 7.3.4 b) (Unabhängigkeit von n Ereignissen)
Satz 7.7.2: Zwei diskrete ZV X, Y (aus Def. 7.7.2) sind genau dann unabhängig, wenn für alle
i = 0, 1, . . . , n und j = 0, 1, . . . , m gilt:
P (X = xi ∧ Y = yj ) = P (X = xi ) · P (Y = yj )
pi,j = pi,∗ · p∗,j
d.h.
7.8
(Definition vergl. Satz 7.7.1)
Kovarianz und Korrelation
(7.8.1)
E(X + Y ) = E(X) + E(Y )
Satz 7.8.1: V (X + Y ) = V (X) + V (Y ) + 2 Cov(X, Y)
Cov(X, Y) := E(X · Y) − E(X) · E(Y) heißt die Kovarianz von X und Y .
Satz 7.8.2: Für X, Y aus Def. 7.7.2 gilt:
E(X · Y ) =
Satz 7.8.3: X, Y unabhängig
⇒
6
⇐
n P
m
P
(
i=0 j=0
xi yj pi,j )
Cov(X, Y) = 0
ZV X, Y mit Cov(X, Y )=0 heißen unkorreliert
Satz 7.8.4: Die ZV X1 , X2 , . . . , Xn sollen alle den gleichen Erwartungswert µ und die gleiche
Varianz σ 2 besitzen. Dann gilt:
a) E(X1 + X2 + . . . + Xn ) = n · µ
b) Im Fall der Unabhängigkeit der ZV: V (X1 + X2 + . . . + Xn ) = n · σ 2
Def. 7.8.1: Es seien X und Y zwei beliebige ZV mit V (X), V (Y ) > 0. Dann heißt
√
̺(X, Y ) := √ Cov(X,Y)
V (X)
V (Y )
der Korrelationskoeffizient von X und Y .
DerpKorrelationskoeffizient
ist also die (dann dimensionslose) Kovarianz der ”normierten” ZV
p
X/ V (X) und Y / V (Y ) und als Maß für den linearen Zusammenhang von X und Y zu
interpretieren.
Satz 7.8.5: X, Y seien ZV aus Def. 7.8.1. Dann gilt:
a) |̺(X, Y )| ≤ 1; dabei nennt man X und Y

unkorreliert,





 schwach korreliert,
stark korreliert,



positiv korreliert,



negativ korreliert,
falls
falls
falls
falls
falls
̺(X, Y ) = 0 ist, (vergl. o.)
|̺(X, Y )| nahe bei 0 aber > 0 ist,
|̺(X, Y )| nahe bei 1 ist,
̺(X, Y ) > 0 ist,
̺(X, Y ) < 0 ist
b) ̺(X, Y ) = +1 (bzw. -1) ⇐⇒ Y = a + bX (fast sicher) für geeignete Konstante a ∈ IR und
b > 0 (bzw. b < 0)
56
Fasst man die Messwertpaare (x1 , y1 ), (x2 , y2 ), . . . , (xn , yn ) als Realisierung von einem Paar
(X, Y ) von ZV auf, so ist (vergl. (6.1.6))
b1 · b2 =
(xy − x · y)2
,
(x2 − x2 )(y 2 − y 2 )
wobei b1 (b2 ) die Steigung der ersten (zweiten) Regressionsgerade ist, ein Schätzwert für (̺(X, Y ))2 .
Damit wäre folgender Ausdruck ein Schätzwert für ̺(X, Y ):
n · (n · xy) − (n · x) · (n · y)
xy − x · y
= r
(7.8.2) ̺ˆ := q
q
r
2
2
2
2
2
2
x −x · y −y
n · (n · x ) − (n · x) ·
n · (n · y 2 ) − (n · y)2
Es gilt also: Beide Regressionsgeraden sind gleich ⇔ b2 = 1/b1 ⇔ |ˆ
̺| = 1.
Außerdem gilt analog zu Satz 7.8.5b) nach (6.1.6):
(7.8.3) |ˆ
̺| = 1 ⇔ b1 · b2 = 1 ⇔ Alle Punkte (xi , yi ) liegen (exakt) auf einer Geraden.
Allgemein gilt:
(7.8.4)
|ˆ
̺| ≤ 1.
7.9
Gesetz der großen Zahl
Def. 7.9.1: Eine unendliche Folge von ZV X1 , X2 , . . . , heißen eine Folge unabhängiger ZV,
wenn je endlich viele der ZV unabhängig sind.
Satz 7.9.1 (Tschebyscheff-Ungleichung):
P (|X − E(X)| ≥ t σ(X)) ≤
1
t2
Satz 7.9.2 (Folgerung): Unter den Voraussetzungen von Satz 7.8.4 b) gilt:
X1 + X2 + . . . + Xn
σ2
− µ ≥ α ≤ 2
P n
α n
(n ∈ IN,
α > 0)
Satz 7.9.3 (Starkes Gesetz der großen Zahl):
a) Es sei X1 , X2 , . . . eine Folge unabhängiger ZV, die alle die gleiche Verteilung, den gleichen
Erwartungswert µ und die gleiche Varianz σ 2 besitzen. Dann gilt:
X1 + X2 + . . . + Xn
→ µ für n → ∞ (fast sicher)
n
b) A ⊂ Ω sei ein Ereignis bei einem Zufallsexperiment, das beliebig oft wiederholt wird, und
P (A) sei eine Wahrscheinlichkeit. Dann gilt für die rel. Häufigkeiten (vergl. Def. 7.2.6)
hn (A) → P (A) für n → ∞ (fast sicher)
57
7.10
Zentraler Grenzwertsatz
Satz 7.10.1: Unter den Voraussetzungen von Satz 7.9.3 a) gilt:
P a≤
X1 + X2 + . . . + Xn − n · µ
√
≤b
nσ
→ Φ(b) − Φ(a) für n → ∞, d.h.
≈
Φ(b) − Φ(a) für ”große” n
Bem. : Häufige Anwendung von Satz 7.10.1: Annahme, dass eine unbekannte Verteilung durch
eine Normalverteilung angenähert werden kann. Diese Anmahme ist nicht immer gerechtfertigt.
57
Kapitel 8
Parameterschätzung
8.1
Schätzfunktionen
Def. 8.1.1: Es seien X1 , X2 , . . . , Xn unabhängige ZV, die alle die gleiche Verteilung besitzen. θ
sei ein unbekannter Parameter dieser Verteilung. X1 , . . . , Xn ist als eine (Beobachtungs- oder)
Messreihe zur Bestimmung von θ mit n Einzelmessungen aufzufassen. Xi entspricht also der
i–ten Messung. Deren Messergebnis xi ist eine Realisierung von Xi . Aus dem Satz x1 , . . . , xn
von Messwerten, den man als Stichprobe vom Umfang n bezeichnet, bestimmt man einen
Schätzwert θ̂ für θ, von dem man ”normalerweise” annimmt, dass er ”nahe bei” θ liegt. Die
Zuordnung von x1 , . . . , xn zu θ̂ bezeichnet man als Schätzfunktion: θ̂ = g(x1 , . . . , xn ).
8.2
Maximum–Likelihood–Methode
Bestimme θ̂ so, dass P (X1 = x1 ∧ X2 = x2 ∧ . . . ∧ Xn = xn ) (bzw. die gemeinsame Verteilungsdichte von X1 , X2 , . . . , Xn an der Stelle (x1 , . . . , xn ) im Falle einer stetigen ZV X) maximal
wäre, wenn θ = θ̂ wäre. Ergebnisse bei einigen Verteilungen (Siehe Tab8-1):
Tabelle 8-1
Verteilung
(
bekannte
Param.
unbek.
Param.
Schätzfkten (nach
der M-L-Meth.)
Eigenschaften
aus 8.3
1 m.Wahrsch. p
0 m. W.(1-p)
(nX ist binomialverteilt)
Poissonverteilung
Exponentialverteilung
N (µ, σ)
–
p
p̂ = x
konsistent, erwart.treu
–
–
σ2
λ
λ
µ
λ̂ = x
λ̂ = x1
µ̂ = x
konsistent, erwart.treu
konsistent, nicht erw.treu
konsistent, erwart.treu
N (µ, σ)
µ
σ2
c2 =
σ
1
n
c2 =
σ
1
n
Xi =
N (µ, σ)
–
µ, σ 2
µ̂ = x
n
P
(xi − µ)2
n
P
konsistent, erwart.treu
(xi −
x)2
konsistent, nicht erw.treu
i=1
Bem.: Die Schätzfunktion (nach der M–L–Meth.) für σ ist σ̂ =
bekanntes noch für unbekanntes µ erwartungstreu.
58
konsistent, erwart.treu
i=1
q
c2 . Sie ist aber weder für
σ
Herunterladen