Klausur zum Fach

Werbung
Institut für Stochastik
Prof. Dr. Daniel Hug
Name:
Vorname:
Matr.-Nr.:
Klausur zum Fach
GRUNDLAGEN DER WAHRSCHEINLICHKEITSTHEORIE
UND STATISTIK
für Studierende der INFORMATIK
Datum:
08. Februar 2012
Dauer:
90 Minuten
Achtung:
Bei dieser Klausur werden nur diejenigen Ergebnisse gewertet, die in die vorgesehenen Kästchen auf dem extra ausgegebenen
Lösungsblatt
eingetragen sind! Die Herleitung wird nicht bewertet, es sei denn, dies wird auf
dem Lösungsblatt explizit gefordert!
Die Aufgabenblätter werden nicht abgegeben und korrigiert!
Diese Klausur hat bestanden, wer mindestens 18 Punkte von 50 möglichen
Punkten erreicht.
Aufgabe 1
(10 Punkte)
Gegeben sei eine Urliste mit den Paaren (x1 , y1 ), . . . , (x8 , y8 )
j
xj
yj
a)
1
1.5
2.6
2
1.7
2.9
3
2.7
3.4
4
2.7
3.7
5
3.1
3.9
6
3.2
4.2
7
3.2
4.5
8
3.4
4.6
Berechnen Sie die Stichprobenmittel x̄, ȳ, die Stichproben-Standardabweichungen sx , sy
und den empirischen Korrelationskoeffizienten rxy .
Hinweis:
8
8
8
8
8
X
X
X
X
X
2
2
xj = 21.5,
xj = 61.37,
yj = 29.8,
yj = 114.68,
xj · yj = 83.57.
j=1
j=1
j=1
j=1
j=1
b)
Bestimmen Sie die zugehörige Regressionsgerade y = a∗ + b∗ · x von y auf x.
c)
Berechnen Sie das 0.2-getrimmte Stichprobenmittel ȳ0.2 von (y1 , . . . , y8 ).
d)
Bestimmen Sie das Stichproben-0.3-Quantil ỹ0.3 von (y1 , . . . , y8 ).
Lösung:
a) Direkt aus den Daten ergeben sich aufgrund der Abschnitte 1.4 und 1.5 im Skript mit Hilfe
der Beziehung
n
n
X
X
(xj − x̄) · (yj − ȳ) =
xj · yj − n · x̄ · ȳ
j=1
j=1
die Ergebnisse
x̄ = 2.6875
ȳ = 3.725
rxy = 0.9589.
1
n−1
sx =
n
X
!! 12
x2i − nx̄2
= 0.716
i=1
sy = 0.7246
b) Nach Abschnitt 1.5 des Skripts ist b∗ = rxy ·
sy
und a∗ = ȳ − b∗ · x̄, also
sx
b∗ = 0.9704
a∗ = 1.117
und die Regressionsgerade y = 1.117 + 0.9704 · x.
c) Für die Lösung der nächsten drei Aufgabenteile benötigen wir die aufsteigend sortierten
y-Werte. Es ist
y() = (2.6, 2.9, 3.4, 3.7, 3.9, 4.2, 4.5, 4.6).
Mit k = [8 · 0.2] = [1.6] = 1 ergibt sich
ȳ0.2 =
1
· (y(2) + . . . + y(7) ) = 3.77.
8−2·1
2
d) Da 8 · 0.3 = 2.4 nicht ganzzahlig ist, ist mit k = [2.4] = 2
ỹ0.3 = y(k+1) = y(3) = 3.4.
e) Da 0.25 · 8 = 2 und 0.75 · 8 = 6 beide ganzzahlig sind, ergibt sich mit k1 = 2 und k2 = 6
y(k1 ) + y(k1 +1)
y(2) + y(3)
=
= 3.15
2
2
y(k2 ) + y(k2 +1)
y(6) + y(7)
=
=
= 4.35
2
2
ỹ0.25 =
ỹ0.75
und damit der Quartilsabstand zu ỹ0.75 − ỹ0.25 = 1.2.
3
Aufgabe 2
(10 Punkte)
Es seien X eine Zufallsvariable mit Werten in {−1, 1, 2} und
2
P(X = 1) = ,
3
P(X = −1) = P(X = 2) =
1
6
sowie Y eine Zufallsvariable mit Werten in {0, 1} und den bedingten Wahrscheinlichkeiten
1
P(Y = 0 | X = −1) = ,
2
a)
1
P(Y = 0 | X = 1) = ,
4
3
P(Y = 1 | X = 2) = .
4
Hinweis: beachten Sie, dass P(Y = 0 | X = −1) + P(Y = 1 | X = −1) = 1 gilt.
Berechnen Sie P(Y = 1 | X = −1), P(Y = 1 | X = 1) und P(Y = 0 | X = 2).
b)
Berechnen Sie die gemeinsame Verteilung von X und Y sowie die Verteilung von Y , d.h.
P(X = x, Y = y) und P(Y = y) für alle x ∈ {−1, 1, 2} und y ∈ {0, 1}.
c)
Bestimmen Sie die Erwartungswerte E(X), E(Y ), E(X + Y ).
d)
Berechnen Sie E(X · Y ) und die Varianz V (X) von X.
e)
Sind X und Y stochastisch unabhängig? Begründen Sie Ihre Antwort.
Lösung:
a) Nach Skript/Vorlesung ist P(· | X = −1) eine Wahrscheinlichkeitsverteilung, also gilt
P(Y = 0 | X = −1) + P(Y = 1 | X = −1) = P(Y ∈ {0, 1} | X = −1) = 1.
(Nachweis war nicht gefordert!) Wir erhalten hiermit
1
1
= ,
2
2
1
3
P(Y = 1 | X = 1) = 1 − P(Y = 0 | X = 1) = 1 − = ,
4
4
3
1
P(Y = 0 | X = 2) = 1 − P(Y = 1 | X = 2) = 1 − = .
4
4
P(Y = 1 | X = −1) = 1 − P(Y = 0 | X = −1) = 1 −
b) Wir erhalten
1
11
1
P(Y = 0, X = −1) = P(Y = 0 | X = −1)P(X = −1) = P(X = −1) =
=
2
26
12
und mit analoger Rechnung
12
1
11
1
= , P(Y = 0, X = 2) =
= ,
43
6
46
24
11
1
32
1
P(Y = 1, X = −1) =
= , P(Y = 1, X = 1) =
= ,
26
12
43
2
31
1
P(Y = 1, X = 2) =
= .
46
8
P(Y = 0, X = 1) =
4
Hieraus folgt weiter
1
1
1
7
+ +
= ,
12 6 24
24
1
1 1
17
P(Y = 1) =
+ + = .
12 2 8
24
P(Y = 0) =
c) Es gilt
2
1
1
5
+ (−1) · + 2 · = ,
3
6
6
6
17
17
E(Y ) = 1 ·
= ,
24
24
37
E(X + Y ) = E(X) + E(Y ) = .
24
E(X) = 1 ·
d) Zunächst ist
E(X · Y ) = (−1)
1
1
1
2
+1· +2· = .
12
2
8
3
Ferner gilt
E(X 2 ) =
1
3
2 1
+ +4· =
3 6
6
2
und daher
V (X) = E(X 2 ) − (E(X))2 =
3
29
− (5/6)2 = .
2
36
e) Die Zufallsvariablen X und Y sind nicht stochastisch unabhängig, da
E(X · Y ) =
2
5 17
6= ·
= E(X) · E(Y ).
3
6 24
5
Aufgabe 3
(10 Punkte)
An einer E-Mail-Adresse kommen erwünschte E-Mails und Spam-Mails an. Jede ankommende
E-Mail sei unabhängig von den vorangehenden mit der Wahrscheinlichkeit p ∈ (0, 1) erwünscht.
Sei Sn die zufällige Anzahl von nicht erwünschten Spam-Mails bei n eingegangenen E-Mails.
a)
Welche Verteilung hat die Zufallsvariable Sn ?
Berechnen Sie P(Sn ≥ 2) für p = 0.7 und n = 10.
b)
Berechnen Sie den Erwartungswert E(Sn ) und die Varianz V (Sn ) für p = 0.7 und n = 10.
c)
Schätzen Sie für p = 0.7 = 1 − q, n = 500 und ε = 0.05 die Wahrscheinlichkeit
1
P · Sn − q ≥ ε
n
nach oben mit Hilfe der Tschebyschev-Ungleichung ab.
d)
Sei nun p ∈ (0, 1) wieder beliebig. Ferner bezeichne Tk die zufällige Anzahl an Spam-Mails
bis zur k-ten erwünschten E-Mail, k = 1, 2.
Welche Verteilungen haben die Zufallsvariablen T1 beziehungsweise T2 ?
Geben Sie E(T1 ) und E(T2 ) an.
e)
Berechnen Sie die Wahrscheinlichkeit P(T1 ≥ 2) für allgemeines p sowie für p = 0.7.
Lösung:
a) Wegen der vorausgesetzten Unabhängigkeit und der festen Wahrscheinlichkeit q = 1 − p
einer nicht erwünschten Spam-Mail (“Treffer”) ist Sn binomialverteilt mit Sn ∼ Bin(n, q),
also
n k n−k
P(Sn = k) =
q p ,
k = 0, . . . , n.
k
Ferner ist
10
P(Sn ≥ 2) = 1 − P(Sn = 0) − P(Sn = 1) = 1 − q · p −
· q 1 · p9
1
= 1 − 0.710 − 10 · 0.3 · 0.79 ≈ 0.8507.
0
10
b) Es gilt E(Sn ) = n · q = 10 · 0.3 = 3 und V (Sn ) = n · q · p = 10 · 0.3 · 0.7 = 2.1.
c) Die Tschebyschev-Ungleichung (Skript!) ergibt
1
q·p
0.3 · 0.7
21
P · Sn − q ≥ ε ≤
=
=
≈ 0.168.
2
2
n
n·ε
500 · 0.05
125
d) Es gilt
P(T1 = j) = P(zunächst j Spam-Mails, dann eine erwünschte E-Mail)
= q j · p,
6
also folgt T1 einer N b(1, p)-Verteilung (negative Binomialverteilung), welche auch als geometrische Verteilung G(p) bezeichnet wird. Ferner ist
P(T2 = j) = P(die ersten j + 1 E-Mails enthalten genau j Spam-Mails und eine
erwünschte E-Mail, dann folgt die zweite erwünschte E-Mail)
j+1 j
=
q · p · p = (j + 1)p2 q j ,
1
also folgt T2 einer N b(2, p)-Verteilung (negative Binomialverteilung). Nach Skript gilt daher
E(T1 ) =
1−p
p
und
E(T2 ) = 2
1−p
.
p
e) Es gilt
P(T1 ≥ 2) = 1 − P(T1 = 0) − P(T1 = 1) = 1 − p − qp = q − qp
= q(1 − p) = q 2 = 0.32 = 0.09.
7
Aufgabe 4
(10 Punkte)
Die Zufallsvariable X besitze die Verteilung N (2, 1). Weiter sei Y := 1 − 2X.
a) Berechnen Sie den Erwartungswert E(Y ) und die Varianz V (Y ).
b) Welche Verteilung hat Y ?
c) Drücken Sie die Wahrscheinlichkeit P(−1 ≤ Y ≤ 3) mit Hilfe der Verteilungsfunktion Φ der
Standardnormalverteilung N (0, 1) aus.
d) Bestimmen Sie die Kovarianz C(X, Y ) und den Korrelationskoeffizienten ρ(X, Y ).
e) Sei U eine auf [0, 1] gleichverteilte Zufallsvariable, das heißt U ∼ U(0, 1). Welche Verteilung
hat die Zufallsvariable 2 · Φ−1 (U ) + 1? Begründen Sie Ihre Antwort.
Lösung: Wir verwenden die aus der Vorlesung bekannten Eigenschaften der Normalverteilung
aus Abschnitt 9.2.
a) E(Y ) = E(1 − 2X) = 1 − 2E(X) = 1 − 2 · 2 = 1 − 4 = −3 und V (Y ) = V (1 − 2X) =
V (−2X) = 4V (X) = 4 · 1 = 4.
b) Aus Satz 9.7 des Skriptums folgt Y ∼ N (−3, 4). Bemerkung: Man kann a) und b) auch
zugleich mit Satz 9.7 beantworten, wenn man die Information über die Maßzahlen (Erwartungswert und Varianz) der Normalverteilung aus dem Skriptum verwendet.
c) Für eine Zufallsvariable N ∼ N (0, 1) gilt −3 + 2N ∼ N (−3, 4) und daher folgt zusammen
mit b)
P(−1 ≤ Y ≤ 3) = P(−1 ≤ −3 + 2N ≤ 3) = P(1 ≤ N ≤ 3)
= Φ(3) − Φ(1)
[= 0.9987 − 0.8413 = 0.1574].
d)
C(X, Y ) = C(X, 1 − 2X) = C(X, −2X) = −2C(X, X) = −2V (X) = −2,
p
√
ρ(X, Y ) = C(X, Y )/ V (X)V (Y ) = (−2)/ 1 · 4 = −1.
e) Nach Skript (Kapitel 15) gilt zunächst Φ−1 (U ) ∼ N (0, 1). Wiederum nach Skript (Satz 9.7)
folgt daher 2Φ−1 (U ) + 1 ∼ N (1, 4).
8
Aufgabe 5
(10 Punkte)
Es soll der unbekannte Parameter ϑ > 0 für die Verteilung mit der Dichte

3

 4t · exp − 1 · t4 , t > 0,
ϑ
ϑ
fϑ (t) =

0,
sonst
bestimmt werden.
a)
Geben Sie die zur Stichprobe x = (x1 , . . . , xn ) gehörende Likelihood-Funktion Lx (ϑ) und
die Loglikelihood-Funktion Mx (ϑ) an.
b)
Berechnen Sie die Ableitung Mx0 (ϑ).
c)
Bestimmen Sie einen Maximum-Likelihood-Schätzer ϑ̂(x) für ϑ zur Stichprobe x.
d)
Bestimmen Sie zunächst die Verteilungsfunktion von X1 , wenn X1 die Dichte fϑ hat.
Zeigen Sie dann, dass X14 einer Exp( ϑ1 )-Verteilung folgt.
e)
Ist ϑ̂ ein erwartungstreuer Schätzer für ϑ?
Lösung: Für die Lösung kann man annehmen, dass xj > 0 für j = 1, . . . , n. Andernfalls wäre
Lx (ϑ) = 0 und Mx (ϑ) = −∞ für alle ϑ > 0.
a) Die zur Stichprobe x = (x1 , . . . , xn ) gehörende Likelihood-Funktion Lx (ϑ) lautet
! n
4 n
n n
Y
Y
X
Y
x
1
1
1
j
Lx (ϑ) =
fϑ (xj ) =
· (4x3j ) · exp −
= n · exp −
x4j
(4x3j ).
ϑ
ϑ
ϑ
ϑ
j=1
j=1
j=1
j=1
Die Loglikelihood-Funktion Mx (ϑ) lautet entsprechend
n
n
1X 4 X
x +
log(4x3j ).
Mx (ϑ) = log Lx (ϑ) = −n log ϑ −
ϑ j=1 j j=1
b) Differenzieren von Mx (ϑ) nach ϑ liefert
n
n
1 X 4
n
0
Mx (ϑ) = − + 2
xj = − 2
ϑ ϑ j=1
ϑ
!
n
1X 4
ϑ−
x .
n j=1 j
P
P
c) Die Bedingung Mx0 (ϑ) = 0 führt auf ϑ = n1 nj=1 x4j . Dann ist ϑ̂(x) = n1 nj=1 x4j ein
Maximum-Likelihood-Schätzer für ϑ, da Mx0 (·) in der einzigen Nullstelle ϑ̂(x) einen Vorzeichenwechsel von + nach − hat.
9
d) Für z ≥ 0 ist
Z
FX1 (z) =
0
z
4 3 −t4 /ϑ
4
4
4
te
dt = [−e−t /ϑ ]z0 = 1 − e−z /ϑ
ϑ
und folglich
FX14 (z) = P(X14 ≤ z) = P(X1 ≤ z 1/4 ) = 1 − e−z/ϑ .
Beide Verteilungsfunktionen sind offensichtlich Null für z < 0. Insbesondere gilt daher, dass
X14 ∼ Exp(1/ϑ).
e) Der Schätzer ist erwartungstreu, da aufgrund des vorangehenden Aufgabenteils gilt:
n
1X
Eϑ (ϑ̂(x)) =
E(Xj4 ) = E(X14 ) = (1/ϑ)−1 = ϑ.
n j=1
10
Herunterladen