Arbeitsgruppenwettbewerb

Werbung
© Oliver Kirchkamp
Prof. Dr. Oliver Kirchkamp
BW24.1 Arbeitsgruppenwettbewerb
[ 22. August 2017, 11:35 ] — 1
Arbeitsgruppenwettbewerb 2017/18
Inhaltsverzeichnis
Aufgabenblatt 1, Abgabe bis Dienstag, 24. Oktober, 8 Uhr
3
Aufgabenblatt 2, Abgabe bis Dienstag, 7. November, 8 Uhr
7
Aufgabenblatt 3, Abgabe bis Dienstag, 14. November, 8 Uhr
10
Aufgabenblatt 4, Abgabe bis Dienstag, 21. November, 8 Uhr
12
Aufgabenblatt 5, Abgabe bis Dienstag, 28. November, 8 Uhr
15
Aufgabenblatt 6, Abgabe bis Dienstag, 5. Dezember, 8 Uhr
18
Aufgabenblatt 7, Abgabe bis Dienstag, 12. Dezember, 8 Uhr
20
Aufgabenblatt 8, Abgabe bis Dienstag, 19. Dezember, 8 Uhr
23
Aufgabenblatt 9, Abgabe bis Dienstag, 9. Januar, 8 Uhr
26
Aufgabenblatt 10, Abgabe bis Dienstag, 16. Januar, 8 Uhr
30
Aufgabenblatt 11, Abgabe bis Dienstag, 23. Januar, 8 Uhr
34
Aufgabenblatt 12, Abgabe bis Dienstag, 30. Januar, 8 Uhr
37
Aufgabenblatt 13, Abgabe bis Dienstag, 6. Februar, 8 Uhr
40
Formeln und Tabellen
43
Mit den Aufgaben in diesem Wettbewerb will ich Ihnen das Vertiefen des Stoffs und
die Vorbereitung auf die Klausur erleichtern. Bitte bearbeiten Sie alle Aufgabenblätter in einer Arbeitsgruppe. Geben Sie die Lösung auf der Homepage der Vorlesung
https://www.kirchkamp.de/bw241 unter „Arbeitsgruppenwettbewerb“ ein.
Sollte in diesem Arbeitsgruppenwettbewerb nach Zahlen gefragt werden, so geben Sie das
Endergebnis bitte auf 3 Nachkommastellen gerundet an. Zwischenergebnisse sollten nicht
gerundet werden.
© Oliver Kirchkamp
BW24.1 Arbeitsgruppenwettbewerb
[ 22. August 2017, 11:35 ] — 2
Denken Sie daran, dass am Ende des Semesters für jede Arbeitsgruppe die Summe aus allen
Wochen zählt – machen Sie also auf jeden Fall schon ab der ersten Woche mit.
Bitte installieren Sie auch zeitnah R auf Ihrem Rechner. Dafür gibt es zwar keine Punkte; Sie
werden das Programm aber für den Wettbewerb benötigen. Fragen zu der Installation können
Sie am besten im Forum stellen.
Sollten Sie keinen eigenen Computer mit R zur Verfügung haben, so können Sie R auch im
Computerpool nutzen.
Am Ende der Aufgabenblätter ist eine Hilfestellung abgedruckt, die Sie so oder so ähnlich auch
in der Klausur bekommen werden.
Ich wünsche Ihnen viel Erfolg!
Oliver Kirchkamp
© Oliver Kirchkamp
BW24.1 Arbeitsgruppenwettbewerb
[ 22. August 2017, 11:35 ] — 3
Aufgabenblatt 1
Abgabe bis Dienstag, 24. Oktober, 8 Uhr
1. Bitte kreuzen Sie alle richtigen Aussagen an (mehrere richtige Antworten möglich).
a) Das Ziehen einer große Stichprobe aus einer Grundgesamtheit ist in der Realität
in der Regel teuer als das Ziehen einer kleinen Stichprobe.
b) Das Ziehen einer kleinen Stichprobe aus einer Grundgesamtheit führt in der Regel
zu einer besseren Schätzung als das Ziehen einer großen Stichprobe.
c) Wenn man aus einer Grundgesamtheit mehrere Stichproben zieht, können die aus
der Stichprobe berechneten Schätzer unterschiedliche Werte annehmen.
d) In R kann das arithmetische Mittel eines Vektors vec mit dem Befehl mean(vec)
oder mit dem Befehl sum(vec)/length(vec) berechnet werden.
e) In R kann die Stichprobenvarianz eines Vektors vec mit dem Befehl var(vec) oder
mit dem Befehl sum((vec-mean(vec))^2)/(length(vec)-1) berechnet werden.
f) Keine der obigen Antworten ist richtig.
2. Von fünf Dörfern wurde in einer Erhebung die Einwohnerzahl sowie die Zahl der
Häuser festgestellt. Das Ergebnis sieht wie folgt aus:
Dorf
Einwohnerzahl
Anzahl der Häuser
1
200
40
2
1100
400
3
356
100
4
2009
856
5
700
300
2-i) Der Korrelationskoeffizient (nach Pearson) ist:
a) 0.921
b) 0.996
c) 0.712
d) 0.967
e) Keine der obigen Antworten ist richtig.
2-ii) Welche Interpretation(en) ist/sind richtig? (mehrere richtige Antworten möglich)
© Oliver Kirchkamp
BW24.1 Arbeitsgruppenwettbewerb
[ 22. August 2017, 11:35 ] — 4
a) Es besteht ein fast linearer Zusammenhang zwischen der Einwohnerzahl und
der Anzahl der Häuser.
b) Der Korrelationskoeffizient r liegt immer im Intervall 0 ≤ r ≤ 1.
c) Der Korrelationskoeffizient (nach Pearson) kann nur berechnet werden, wenn
beide Merkmale ordinal skaliert sind.
d) Je kleiner der Korrelationskoeffizient nach Bravis/Pearson, desto stärker ist
die Unabhängigkeit zwischen beiden Merkmalen.
e) Bei den gegebenen Daten kann der Korrelationskoeffizient nach Spearman
berechnet werden.
f) Keine der obigen Antworten ist richtig.
3. Ein Arbeitnehmerverband möchte einen neuen Gesetzesvorschlag für die Pendlerpauschale entwickeln. Um sich einen Überblick über die Länge des Arbeitsweges der Arbeitnehmer zu verschaffen, werden einige Interviewer beauftragt, Stichproben zu erheben. Sie sollen zufällig ausgewählte Arbeitnehmer der Stadt Jena nach der Länge ihres
Arbeitsweges befragen. Die Zufallsvariable X beschreibt die Länge der Strecke „Wohnung – Arbeitsplatz“ (gemessen in km). Die Interviewer haben die folgenden Stichproben a, . . . , g erhoben:
Stichprobe a:
Stichprobe b:
Stichprobe c:
Stichprobe d:
Stichprobe e:
Stichprobe f:
Stichprobe g:
37; 5; 17; 68; 75; 113; 1; 92; 12; 21
95; 11; 40; 7; 20; 111; 43; 15; 51; 22
120; 15; 30; 8; 20; 68; 18; 33; 72; 40
10; 30; 93; 2; 25; 160; 25; 17; 19; 45
9; 26; 36; 132; 22; 67; 34; 19; 95; 42
17; 31; 145; 6; 90; 45; 88; 14; 11; 98
12; 15; 70; 20; 89; 37; 4; 42; 150; 25
3-i) Berechnen Sie die empirischen Mittelwerte der erhobenen Stichproben a, . . . , g.
a) µ̂x,a = 40, 1; µ̂x,b = 41, 5; µ̂x,c = 42, 4; µ̂x,d = 42, 6; µ̂x,e = 48, 2; µ̂x,f = 54, 5;
µ̂x,g = 46, 6
b) µ̂x,a = 44, 1; µ̂x,b = 41, 5; µ̂x,c = 35, 3; µ̂x,d = 42, 6; µ̂x,e = 48, 2; µ̂x,f = 54, 5;
µ̂x,g = 46, 4
c) µ̂x,a = 44, 5; µ̂x,b = 41, 5; µ̂x,c = 42, 4; µ̂x,d = 42, 6; µ̂x,e = 48, 2; µ̂x,f = 54, 5;
µ̂x,g = 46, 4
d) µ̂x,a = 44, 1; µ̂x,b = 41, 5; µ̂x,c = 42, 4; µ̂x,d = 42, 6; µ̂x,e = 48, 2; µ̂x,f = 54, 5;
µ̂x,g = 51, 6
© Oliver Kirchkamp
BW24.1 Arbeitsgruppenwettbewerb
[ 22. August 2017, 11:35 ] — 5
e) µ̂x,a = 44, 1; µ̂x,b = 41, 5; µ̂x,c = 42, 4; µ̂x,d = 42, 6; µ̂x,e = 48, 2; µ̂x,f = 54, 5;
µ̂x,g = 46, 4
f) Keine der obigen Antworten ist richtig.
3-ii) Berechnen Sie die Stichprobenvarianzen der Stichproben a, c, e und g.
(Hinweis: Die in den Lösungsmöglichkeiten angegebenen Werte für die Stichprobenvarianzen sind gerundet.)
a) σ̂2x,a = 1401, 37; σ̂2x,c = 1083, 24; σ̂2x,e = 1352, 35; σ̂2x,g = 1833, 44
b) σ̂2x,a = 1589, 21; σ̂2x,c = 1203, 6; σ̂2x,e = 1502, 62; σ̂2x,g = 2037, 16
c) σ̂2x,a = 39, 86; σ̂2x,c = 34, 69; σ̂2x,e = 38, 76; σ̂2x,g = 45, 13
d) σ̂2x,a = 37, 43; σ̂2x,c = 32, 91; σ̂2x,e = 36, 77; σ̂2x,g = 42, 82
e) Keine der obigen Antworten ist richtig.
3-iii) Lassen Sie sich die empirischen Mittelwerte der Stichproben a, . . . , g mittels R
in einem Plot ausgeben ohne diese dabei selbst handschriftlich zu berechnen. Die
Variablen für die Stichproben a, . . ., g wurden bereits in R definiert:
a=c(37,5,17,68,75,113,1,92,12,21)
b=c(95,11,40,7,20,111,43,15,51,22)
c=c(120,15,30,8,20,68,18,33,72,40)
d=c(10,30,93,2,25,160,25,17,19,45)
e=c(9,26,36,132,22,67,34,19,95,42)
f=c(17,31,145,6,90,45,88,14,11,98)
g=c(12,15,70,20,89,37,4,42,150,25)
Welche der unten angegebenen Lösungsmöglichkeiten enthält die Kommandos,
die Sie zur Lösung dieser Teilaufgabe in R korrekt eingeben müssen?
a) v=(mean(a), mean(b), mean(c), mean(d), mean(e), mean(f),
mean(g))
plot(v, xlab="Stichproben", ylab="Mittelwerte der
Stichproben")
b) v=1/7*c(mean(a), mean(b), mean(c), mean(d), mean(e),
mean(f), mean(g))
plot(v, xlab="Stichproben", ylab="Mittelwerte der
Stichproben")
c) v=c(sum(a), sum(b), sum(c), sum(d), sum(e), sum(f), sum(g))
plot(v, xlab="Stichproben", ylab="Mittelwerte der
Stichproben")
© Oliver Kirchkamp
BW24.1 Arbeitsgruppenwettbewerb
[ 22. August 2017, 11:35 ] — 6
d) v=c(mean(a), mean(b), mean(c), mean(d), mean(e), mean(f),
mean(g))
plot(v, xlab="Stichproben", ylab="Mittelwerte der
Stichproben")
e) Keine der obigen Antworten ist richtig.
© Oliver Kirchkamp
BW24.1 Arbeitsgruppenwettbewerb
[ 22. August 2017, 11:35 ] — 7
Aufgabenblatt 2
Abgabe bis Dienstag, 7. November, 8 Uhr
1.
Welche Schätzfunktion ist ein erwartungstreuer Schätzer für den Erwartungswert (mehrere richtige Antworten möglich)?
∑
a) g1 = n1 ni=1 xi
b) g2 = 0, 2 · x1 + 0, 8 · xn
∑ √
c) g3 = n1 ni=1 4 x4i
d) g4 =
1
n
∑n √
5
x5i
i=1
e) g5 = x1 + x2 + xn
f) g6 = 0, 4 · x1 + 0, 58 · xn
∑n
1
g) g7 = 2n+n(n−1)
i=1 xi · 2i
h) Keine der obigen Antworten ist richtig.
2.
Gegeben sei die Stichprobe (X1 , …, Xi , …, X40 ) mit unabhängigen und identisch verteilten
Xi . Die Varianz σ2 sei bekannt und es soll der unbekannte Erwartungswert θ geschätzt
werden. Weiterhin sei X1 das arithmetische Mittel der ungeraden i und X2 das arithmetische Mittel der geraden i. n bezeichnet die Anzahl der Beobachtungen.
2-i) Welche der folgenden Schätzfunktionen sind erwartungstreu zum Schätzen von θ
(mehrere richtige Antworten möglich)?
a) g1 = X1
b) g2 =
c) g3 =
d) g4 =
3
4
(
)
· X1 + X2
(n
4
)
· X2 − 8 · X1 ·
1
2
( 13 ·X1 + 23 X2 )
2·n
e) Keine der obigen Antworten ist richtig.
© Oliver Kirchkamp
BW24.1 Arbeitsgruppenwettbewerb
[ 22. August 2017, 11:35 ] — 8
2-ii) Berechnen Sie den mittleren quadratischen Fehler (MSE) von allen erwartungstreuen Schätzfunktionen und wählen Sie die richtigen Antworten aus (mehrere
richtige Antworten möglich):
(
)
a) Die Schätzfunktion g5 = 12 · X1 + X2 ist erwartungstreu und wirksamer als
die erwartungstreuen Schätzfunktionen aus 2-i.
b) Kein mittlerer quadratischer Fehler der erwartungstreuen Schätzfunktionen
ist größer als 0.4 · σ2 .
c) Die Schätzfunktion g1 ist nicht besonders wirksam, weil nur die Hälfte der
Informationen genutzt werden.
d) Keine der obigen Antworten ist richtig.
3.
Eine Fast-Food-Kette besitzt 100 Filialen in Deutschland. x̄1 , . . . , x̄100 seien die durchschnittlichen monatlichen Umsätze der einzelnen Filialen im Jahr 2016 (die Umsätze der
einzelnen Filialen sind unabhängig voneinander). X sei der monatliche Umsatz einer
Filiale. Es gilt: E(X) = θ und var(X) = σ2 .
3-i) Welche Schätzfunktionen sind erwartungstreu zum Schätzen von θ (mehrere richtige Antworten möglich)?
a) g1 = 10 · x̄1 + 90 · x̄99
b) g2 =
10x̄1 +90x̄99
100
c) g3 =
1
100
∑100
i=1
x̄i
d) g4 = 12 x̄5 + 13 x̄20 + 16 x̄37
e) g5 =
∑100
i=1
x̄i
f) Keine der obigen Antworten ist richtig.
3-ii) Welche der Schätzfunktionen ist am wirksamsten?
a) g1 = 10 · x̄1 + 90 · x̄99
b) g2 =
10x̄1 +90x̄99
100
c) g3 =
1
100
∑100
i=1
x̄i
d) g4 = 12 x̄5 + 13 x̄20 + 16 x̄37
© Oliver Kirchkamp
BW24.1 Arbeitsgruppenwettbewerb
∑100
e) g5 =
i=1
[ 22. August 2017, 11:35 ] — 9
x̄i .
4.
Ein Automobilkonzern ist in zwei Werke aufgeteilt. In Werk I arbeiten 6000 Beschäftigte
(= Grundgesamtheit G1 ) und in Werk II arbeiten 4000 Beschäftigte (= Grundgesamtheit
G2 ). Die Firmenleitung will eine neue Arbeitszeitregelung einführen. Dazu sollen die
Anteile p1 , p2 bzw. p der Befürworter der vorgeschlagenen
neuen Arbeitszeitregelung
∪
in G1 , G2 bzw. in der Gesamtbelegschaft G = G1 G2 geschätzt werden.
In G1 wird eine Stichprobe vom Umfang n1 gezogen. In G2 eine Stichprobe vom Umfang
n2 gezogen. In jeder Stichprobe kann jeder Befragte die neue Regelung befürworten (=
Ergebnis 1) oder ablehnen (= Ergebnis 0). Es sei X1 bzw. X2 der Anteil der Befürworter
in der Stichprobe aus G1 bzw. G2 .
4-i) Welche der folgenden Funktionen sind für beliebige n1 und n2 erwartungstreue
1 +4000·p2
Schätzer für p, wobei gilt: p = 6000·p10000
?
a)
1
n1 +n2
b)
1
2
c)
1
10000
· (n1 · X1 + n2 · X2 )
· (X1 + X2 )
· (6000 · X1 + 4000 · X2 )
d) Keine der obigen Antworten ist richtig.
4-ii) Von n1 = 100 Befragten aus G1 waren 40 und von n2 = 50 Befragten aus G2
waren 30 für die neue Regelung. Effiziente Schätzer für p1 , p2 und p sind:
a) p1 = 0.4, p2 = 0.6 und p = 0.50
b) p1 = 0.4, p2 = 0.6 und p = 0.48
c) p1 = 0.6, p2 = 0.4 und p = 0.50
d) Keine der obigen Antworten ist richtig.
© Oliver Kirchkamp
BW24.1 Arbeitsgruppenwettbewerb
[ 22. August 2017, 11:35 ] — 10
Aufgabenblatt 3
Abgabe bis Dienstag, 14. November, 8 Uhr
1.
Gegeben sei eine binomialverteilte Zufallsvariable mit X ∼ B(100, θ) (also 100 Versuche
mit einer Erfolgswahrscheinlichkeit von jeweils θ). Eine Stichprobe ergab die Werte (20,
35, 13, 42, 9, 57, 19, 10, 61, 2, 11, 61, 22, 27).
1-i) Bestimmen Sie den Schätzwert für θ durch die Momentenmethode mithilfe von R
(mehrere richtige Antworten möglich).
a) 14/mean(c(20,35,13,42,9,57,19,10,61,2,11,61,22,27))
b) sum(c(20,35,13,42,9,57,19,10,61,2,11,61,22,27))/14*1/100
c) sum(c(20,35,13,42,9,57,19,10,61,2,11,61,22,27))/100
d) mean(c(20,35,13,42,9,57,19,10,61,2,11,61,22,27))/100
e) mean(c(20,35,13,42,9,57,19,10,61,2,11,61,22,27))/14*1/100
f) Keine der obigen Antworten ist richtig.
1-ii) Wie groß wäre der Schätzer für θ, wenn man die Beobachtungen (1, 19, 5, 31, 65)
hätte?
a) 0, 758
b) 0, 25
c) 0, 36
d) 0, 108
e) 0, 242
f) 0, 67
g) Keine der obigen Antworten ist richtig.
2.
Eine Zufallsvariable X sei binomialverteilt mit n = 150 und p = θ. Ein Stichprobe fällt
folgendermaßen aus: 51, 105, 71, 22, 63. Welche Schätzung erhalten Sie für θ mit der
Maximum-Likelihood-Methode?
© Oliver Kirchkamp
BW24.1 Arbeitsgruppenwettbewerb
[ 22. August 2017, 11:35 ] — 11
a) 52/73
b) 52/125
c) 78/125
d) 33/50
e) Das kann man nicht berechnen!
f) Keine der obigen Antworten ist richtig.
3.
In einer Urne befinden sich schwarze und weiße Kugeln. Um herauszufinden wie groß
der Anteil weißer Kugeln ist, zieht man 10 Kugeln ohne Zurücklegen. X sei die Anzahl
gezogener weißer Kugeln (X ∼ B(10, p)). Danach legt man alle Kugeln wieder zurück
und zieht nochmals 10 Kugeln. Das macht man insgesamt viermal. Dabei zog man beim
ersten Versuch 5, im zweiten 7, im dritten 3 und im vierten 5 weiße Kugeln.
3-i) Schätzen Sie den Parameter p mit der Momentenmethode!
a) 0, 30
b) 0, 57
c) 0, 48
d) 0, 73
e) 0, 50
f) Keine der obigen Antworten ist richtig.
3-ii) Berechnen Sie den Wert nun mit der Likelihoodmethode. Ändert sich dabei der
Schätzwert für p?
a) ja
b) nein
c) Man kann den Wert nicht berechnen
© Oliver Kirchkamp
BW24.1 Arbeitsgruppenwettbewerb
[ 22. August 2017, 11:35 ] — 12
Aufgabenblatt 4
Abgabe bis Dienstag, 21. November, 8 Uhr
1.
In einer Mühle wird Getreide gemahlen und das Mehl in Tüten verpackt. Das Gewicht
einer Tüte Mehl kann dabei als normalverteilt angenommen werden. Die Varianz des
Gewichts ist aus langjähriger Erfahrung bekannt und beträgt 2500 Gramm2 . Eine einfache Stichprobe vom Umfang n = 25 ergibt ein Gesamtgewicht von 26.000 Gramm.
1-i) Wie groß ist das 95%-Konfidenzintervall für den Mittelwert des Gewichts der
Mehltüten?
a) [950; 1130]
b) [942; 1138]
c) [927; 1063]
d) [899; 1067]
e) [998; 1214]
f) Keine der obigen Antworten ist richtig.
1-ii) Die Breite des Konfidenzintervalls soll nun durch eine größere Stichprobe verkleinert werden. Wie ist n zu wählen, damit das Konfidenzintervall maximal eine Breite von 100 hat?
a) n ≤ 250
b) n ≥ 103
c) n ≥ 97
d) n ≥ 56
e) n ≤ 93
f) Keine der obigen Antworten ist richtig.
2.
Die Füllmenge einer Kaffeetasse sei normalverteilt. Ein Kaffeemaschinenhersteller
möchte eine seiner neuen Maschinen testen und herausfinden, wie viel Kaffee sie bei
© Oliver Kirchkamp
BW24.1 Arbeitsgruppenwettbewerb
[ 22. August 2017, 11:35 ] — 13
einem normalen Durchlauf pro Tasse erzeugt. Dazu nimmt er sein Testmodell und lässt
dieses ingesamt 80 Mal durchlaufen. Am Ende des Versuchstages kennt er die gesamte Kaffeemenge der 80 Versuche, welche 15.860 ml beträgt. Allgemein sei außerdem
bekannt, dass die Standardabweichung einer Kaffeetassenfüllung 20 ml beträgt.
2-i) Bestimmen Sie das 95% Konfidenzintervall für den Mittelwert der Füllmenge!
a) [159,051; 237,449]
b) [0; 202,633]
c) [193,867; 202,633]
d) [189,485; 207,015]
e) Keine der obigen Antworten ist richtig.
2-ii) Der Kaffeemaschinenhersteller möchte, dass die Breite des Konfidenzintervalls
höchstens 6 ml beträgt. Wie groß muss die neue Stichprobe mindestens gewählt
werden?
3.
3-i) Die Lebensdauer von Batterien ist normalverteilt. Ein physikalisches Forschungsinstitut hat im Auftrag eines großen Batterieherstellers herausgefunden, dass die
Standardabweichung der Lebensdauer einer Batterie 30 (Stunden) beträgt. Die
Messung der Lebensdauer von 100 der Produktion zufällig entnommenen Batterien ergab eine Gesamtleistungsdauer von 6935,75 Stunden. Berechnen Sie das 90%
Konfidenzintervall für den Mittelwert der Lebensdauer. (Bitte benutzen Sie die Werte aus der Verteilungstabelle im Anhang und runden Sie erst am Ende.)
a) [64.4; 74.3]
b) [65.5; 73.2]
c) [68, 5; 70, 3]
d) [0; 217.9]
e) Keine der obigen Antworten ist richtig.
3-ii) Der Batteriehersteller möchte, dass die Breite des Konfidenzintervalls höchstens 5
(Stunden) beträgt. Wie groß muss die Stichprobe gewählt werden?
a) mindestens 99
b) mindestens 594
© Oliver Kirchkamp
BW24.1 Arbeitsgruppenwettbewerb
[ 22. August 2017, 11:35 ] — 14
c) mindestens 390
d) Keine der obigen Antworten ist richtig.
3-iii) Da der Batteriehersteller sich nicht nur auf eine Meinung verlassen möchte, wurde ebenfalls ein anderes physikalisches Forschungsinstitut damit beauftragt, ein
90%-Konfidenzintervall für den Erwartungswert der Lebensdauer von Batterien
anzugeben. Auch sie gehen davon aus, dass die Lebensdauer von Batterien normalverteilt ist. Anders als das erste Forschungsinstitut kennt dieses Institut aber
nicht die Varianz der Lebensdauer – die Varianz muss geschätzt werden. Das Institut hat eine Stichprobe vom Umfang 20 gezogen und die Lebensdauer der Batterien
(in Stunden) gemessen: (60,5; 80; 71; 73,7; 65; 68; 64,4; 62,9; 74; 78; 72,9; 74; 67,5; 72,8;
61,9; 71; 58; 61; 72,8; 73). Bestimmen Sie das 90% Konfidenzintervall.
a) [54, 3233; 83, 9167]
b) [66, 7338; 71, 5062]
c) [66, 8377; 71, 4023]
d) Keine der obigen Antworten ist richtig.
© Oliver Kirchkamp
BW24.1 Arbeitsgruppenwettbewerb
[ 22. August 2017, 11:35 ] — 15
Aufgabenblatt 5
Abgabe bis Dienstag, 28. November, 8 Uhr
1.
Bei einem Signifikanztest wurde die Nullhypothese auf dem 1% Signifikanzniveau verworfen. Welche der folgenden Aussagen sind richtig (mehrere richtige Antworten möglich)?
a) Die Nullhypothese ist nachweislich eindeutig falsch.
b) Die Alternativhypothese ist nachweislich eindeutig wahr.
c) Mit einer Wahrscheinlichkeit von 99% gilt H1 .
d) Die Nullhypothese kann man mit einer Wahrscheinlichkeit von 1% verwerfen.
e) Keine der obigen Antworten ist richtig.
2.
Um die Unfallzahlen zu senken, wird ein Gesetz erlassen, dass Fahren mit Abblendlicht
am Tag vorschreibt. Ein Automobilclub möchte prüfen, ob die Unfallzahlen im Durchschnitt gesunken sind.
Die Variable X enthält die Zahl der Unfälle im Monat (nach Einführung des Gesetzes).
Die Variable µx,0 enthält den langjährigen Mittelwert aus der Vergangenheit (in der gleichen Einheit).
Stellen Sie die Null- und Alternativhypothese auf.
a) H0 : E(X) = µx,0 , H1 : E(X) ̸= µx,0
b) H0 : E(X) ̸= µx,0 , H1 : E(X) = µx,0
c) H0 : E(X) = µx,0 , H1 : E(X) > µx,0
d) H0 : E(X) = µx,0 , H1 : E(X) ≥ µx,0
e) H0 : E(X) = µx,0 , H1 : E(X) < µx,0
f) H0 : E(X) = µx,0 , H1 : E(X) ≤ µx,0
g) Keine der obigen Antworten ist richtig.
© Oliver Kirchkamp
BW24.1 Arbeitsgruppenwettbewerb
[ 22. August 2017, 11:35 ] — 16
3.
Welche der folgenden Aussagen sind korrekt (mehrere richtige Antworten möglich)?
a) Ein Punktschätzer ist erwartungstreu, wenn der erwartete Schätzwert dem wahren
zu schätzenden Parameter der Verteilung entspricht.
b) Je verzerrter ein Schätzer, desto höher seine Varianz.
c) Konfidenzintervalle minimieren die Varianz erwartungstreuer Schätzfunktionen.
d) Konfidenzintervalle beschreiben einen Bereich von Werten um einen geschätzen
Parameter einer Verteilung.
e) Mit zunehmender Varianz verkleinert sich die Breite des Konfidenzintervalls.
f) Das α-Niveau eines Hypothesentests beschreibt die Wahrscheinlichkeit die Nullhypothese abzulehnen, wenn die Nullhypothese wahr ist.
g) Das α-Niveau eines Hypothesentests beschreibt die Wahrscheinlichkeit die Alternativhypothese abzulehnen, wenn die Alternativhypothese wahr ist.
4.
Sie absolvieren ein Praktikum in einem Kosmetikunternehmen und überprüfen heute die
Abfüllmaschine für Duschgel. Aus einer Stichprobe von 15 Duschgelflaschen bestimmen
Sie eine mittlere Füllmenge von 250 ml bei einer Varianz von 24. Sie nehmen an, dass
die Füllmenge normalverteilt ist.
4-i) Sie erzählen Ihrem Chef von Ihrer Überprüfung und er ist beunruhigt, weil der
Hersteller der Maschine ihm versprochen hat, die Varianz der Füllmenge sei langfristig 14. Ihr Chef beschwert sich beim Hersteller der Abfüllmaschine. Die Servicehotline versichert ihm, dass die von Ihnen gemessene Abweichung zufällig sei
und langfristig auch Ihre Maschine eine Varianz von nicht größer als 14 haben
würde. Welche Hypothesen stellen Sie auf, um die Aussage der Servicehotline zu
überprüfen?
a) H0 : σ2X = 14, H1 : σ2X ̸= 14
b) H0 : σ2X ̸= 14, H1 : σ2X = 14
c) H0 : σ2X = 14, H1 : σ2X > 14
d) H0 : σ2X = 24, H1 : σ2X ≥ 14
e) H0 : σ2X = 14, H1 : σ2X < 14
© Oliver Kirchkamp
BW24.1 Arbeitsgruppenwettbewerb
[ 22. August 2017, 11:35 ] — 17
f) H0 : σ2X = 24, H1 : σ2X ≤ 14
g) Keine der obigen Antworten ist richtig.
4-ii) Testen Sie die Hypothese mit einem einseitigen Test bei einem Signifikanzniveau
von 5%. Beachten Sie, dass wir hier eine Varianz testen. In der Vorlesung hatten wir
zum Test von Mittelwerten den Zusammenhang (x̄ − µ0 )/σx̄ ∼ N(0, 1) benutzt.
Zum Testen von Varianzen verwenden Sie hier die Testfunktion: (n − 1) · σ̂2 /σ20 ∼
χ2n−1 . Die Verteilung und die Quantile der χ2 -Verteilung bestimmen Sie in R mit
pchisq und qchisq. Die χ2 -Verteilung hängt, genauso wie die t-Verteilung, auch
von Freiheitsgraden ab.
Was ist richtig (mehrere richtige Antworten möglich)?
a) Die Testfunktion ergibt für diese Stichprobe einen Wert von 24.
b) Die Testfunktion ergibt für diese Stichprobe einen Wert von 14.
c) Die Testfunktion ergibt für diese Stichprobe einen Wert von 2.
d) Der Ablehnungsbereich für die Testfunktion reicht von −∞ bis 23, 69.
e) Der Ablehnungsbereich für die Testfunktion reicht von 23, 69 bis ∞.
f) Die Nullhypothese kann abgelehnt werden.
g) Keine der obigen Antworten ist richtig.
4-iii) Der Hersteller Ihrer Maschine überprüft die gesamte Angelegenheit und geht nun
von einer langfristigen Varianz von 25 aus. Wie groß muss Ihre Stichprobe sein,
damit das 95%-Konfidenzintervall für die mittlere Füllmenge eine Breite von genau
1.96 ml hat? (verwenden Sie für diese Aufgabe die oben angegebenen Quantile)
a) n = 10
b) n = 25
c) n = 100
d) n = 250
e) n = 1000
f) n = 2500
g) Keine der obigen Antworten ist richtig.
© Oliver Kirchkamp
BW24.1 Arbeitsgruppenwettbewerb
[ 22. August 2017, 11:35 ] — 18
Aufgabenblatt 6
Abgabe bis Dienstag, 5. Dezember, 8 Uhr
1.
Ein Hersteller von Spezialreifen experimentiert bei der Herstellung mit verschiedenen
Gummimischungen die die Lebensdauer der Reifen (gemessen in gefahrenen Kilometern) erhöhen sollen. Folgende Werte wurden im Simulator bei zwei unabhängigen Vergleichsgruppen festgestellt, wobei X ∼ N(θx , 1600) die Lebensdauer eines Reifens aus
Gruppe 1 und Y ∼ N(θy , 2900) die Lebensdauer eines Reifens aus Gruppe 2 beschreibt.
Gruppe 1: (522.5, 513, 516, 539, 531)
Gruppe 2: (541, 529, 533, 532, 535)
1-i) Wie müssen die Hypothesen lauten, wenn man θx und θy auf Gleichheit testen
will?
a) H0 : θx ≤ θy , H1 : θx > θy
b) H0 : θx = θy , H1 : θx ̸= θy
c) H0 : θx ≥ θy , H1 : θx < θy
d) H0 : θx ̸= θy , H1 : θx < θy
e) Keine der obigen Antworten ist richtig.
1-ii) Wählen Sie zu einem Konfidenzniveau von α = 5% den Annahmebereich aus!
a) [−1.6449, 1.6449]
b) [−∞, 1.6449]
c) [−1, 96, 1, 96]
d) [−1.6449, ∞]
e) Keine der obigen Antworten ist richtig.
1-iii) Kann die Nullhypothese abgelehnt werden (α = 5%)?
a) Ja, mit einer Teststatistik von g = −2, 7823.
97
b) Nein, mit einer Teststatistik von g = − 300
.
c) Ja, mit einer Teststatistik von g = 1, 7355.
© Oliver Kirchkamp
BW24.1 Arbeitsgruppenwettbewerb
[ 22. August 2017, 11:35 ] — 19
d) Keine der obigen Antworten ist richtig.
2.
Zwei Gruppen von besonders schweren Personen unterziehen sich einer Behandlung
mit der Ziel der Gewichtsveränderung. Die Teilnehmer von Gruppe 1 nehmen ein neues
Präparat der Pharmaindustrie zu sich. Die Teilnehmer von Gruppe 2 treiben 4 Stunden
Sport pro Tag. Nach 3 Monaten haben die Teilnehmer von Gruppe 1 im Schnitt 50 kg
abgenommen und die Teilnehmer von Gruppe 2 haben 49 kg abgenommen. Ferner sei
bekannt, dass für das Gewicht der Personen in den beiden Gruppen Normalverteilung
angenommen werden kann, dass die Varianz der Gewichte der Gruppenmitglieder von
Gruppe 1 gleich 1 ist und dass die Varianz der Gewichte der Gruppenmitglieder von
Gruppe 2 gleich 5 ist. Gruppe 1 hat 10 Mitglieder und Gruppe 2 hat 15 Mitglieder. Beide
Gruppen sind unabhängig voneinander. Testen Sie auf Gleichheit der Mittelwerte für
α = 0.05 und kennzeichnen Sie die wahren Aussagen (mehrere richtige Antworten
möglich)!
a) Es handelt sich um eine unverbundene Stichprobe.
b) Es handelt sich um eine verbundene Stichprobe.
c) Der Wert der Teststatistik ist 1,459.
d) Der Wert der Teststatistik ist 1,561.
e) Keine der obigen Antworten ist richtig.
© Oliver Kirchkamp
BW24.1 Arbeitsgruppenwettbewerb
[ 22. August 2017, 11:35 ] — 20
Aufgabenblatt 7
Abgabe bis Dienstag, 12. Dezember, 8 Uhr
1.
Eine Umfrage zu den Essgewohnheiten von 1000 zufällig Befragten ergab folgendes Ergebnis:
Gewicht
Normalgewicht
Über- und Untergewicht
∑
Regelmäßigkeit der Mahlzeiten
regelmäßig
leicht unstark unregelmäßig regelmäßig
350
150
100
100
50
250
450
200
350
∑
600
400
1000
Es soll mit einem Signifikanzniveau α = 10% getestet werden, ob eine Abhängigkeit
zwischen dem Gewicht der Testpersonen und der Regelmäßigkeit der Mahlzeiten vorliegt.
1-i) Welche Hypothesen müssen Sie aufstellen?
a) H0 : Die zwei Merkmale sind unabhängig voneinander,
H1 : Die zwei Merkmale sind nicht unabhängig voneinander
b) H0 : Die zwei Merkmale sind nicht unabhängig voneinander,
H1 : Die zwei Merkmale sind unabhängig voneinander
c) H0 : Die zwei Merkmale gehören zum selben Verteilungstyp,
H1 : Die zwei Merkmale gehören nicht zum selben Verteilungstyp
d) H0 : Die zwei Merkmale gehören nicht zum selben Verteilungstyp,
H1 : Die zwei Merkmale gehören zum selben Verteilungstyp
e) Keine der obigen Antworten ist richtig.
1-ii) Wie lautet ungefähr der Wert der Teststatistik (auf 4 Stellen gerundet)
a) g ≈ 2, 6753
b) g ≈ 222, 0569
c) g ≈ 275, 6857
d) keine der obigen Antworten ist richtig
© Oliver Kirchkamp
BW24.1 Arbeitsgruppenwettbewerb
[ 22. August 2017, 11:35 ] — 21
1-iii) Kann die Nullhypothese angenommen werden?
a) Ja, denn H0 kann abgelehnt werden
b) Ja,denn H1 kann abgelehnt werden
c) Nein, denn H0 kann abgelehnt werden
d) Nein, denn H1 kann abgelehnt werden
e) Keine der obigen Antworten ist richtig.
2.
In einer Würfelfabrik wird in der Qualitätskontrolle nach dem 180-fachen Werfen eines
Würfels folgende Häufigkeitsverteilung festgestellt:
Augenzahl
Häufigkeit
1
26
2
24
3
32
4
36
5
27
6
35
Da die Firma keine mangelhafte Würfel ausliefern will, möchte sie mit Hilfe eines χ2 Tests überprüfen ob es sich um einen verfälschten Würfel handelt.
2-i) Wie müssen in diesem Fall die Hypothesen lauten?
a) H0 : Die Augenzahlen treten mit unterschiedlichen Wahrscheinlichkeiten
auf.H1 : Jede Augenzahl tritt mit der gleichen Wahrscheinlichkeit auf.
b) H0 : Der Erwartungswert des Würfels ist ̸= 3, 5, H1 : Der Erwartungswert des
Würfels ist = 3, 5
c) H0 : Jede Augenzahl tritt mit der gleichen Wahrscheinlichkeit auf. H1 : Die Augenzahlen treten mit unterschiedlichen Wahrscheinlichkeiten auf.
d) Keine der obigen Antworten ist richtig.
2-ii) Wie lautet der Wert der Teststatistik (Runden Sie auf 3 Stellen)?
a) g = 3, 975
b) g =
23
5
c) g = 4, 200
d) Keine der obigen Antworten ist richtig.
© Oliver Kirchkamp
BW24.1 Arbeitsgruppenwettbewerb
[ 22. August 2017, 11:35 ] — 22
2-iii) Wählen Sie die richtigen Aussagen aus (mehrere richtige Antworten möglich)!
a) Der Würfel ist mit einer Wahrscheinlichkeit von α = 5% gezinkt.
b) Zum Signifikanzniveau α = 5% kann die Nullhypothese nicht abgelehnt
werden.
c) H0 wird abgelehnt wenn gilt g ∈ [9, 2364, +∞] bei einem Signifikanzniveau
von α = 5%.
d) Für den Wert der Teststatistik gilt g < χ2 (0,95;5)
e) Zum Signifikanzniveau α = 5% wird die Nullhypothese abgelehnt.
f) Keine der obigen Antworten ist richtig.
© Oliver Kirchkamp
BW24.1 Arbeitsgruppenwettbewerb
[ 22. August 2017, 11:35 ] — 23
Aufgabenblatt 8
Abgabe bis Dienstag, 19. Dezember, 8 Uhr
1.
Kennzeichnen Sie die wahren Aussagen (mehrere richtige Antworten möglich)!
a) Die endogene Variable ist unabhängig.
b) Bei der KQ-Methode wird die Summe der senkrechten Abstände der einzelnen Datenpunkte zur Regressionsgeraden minimiert.
c) In einem Modell soll das Merkmal Alter in ganzen Jahren das Einkommen erklären.
Obwohl nur 70 jährige Menschen untersucht werden, kann eine Regressionsgerade
bestimmt werden.
d) Im allgemeinen können erklärende und erklärte Variable beliebig getauscht werden, ohne dass sich das Ergebnis verändert.
e) Wenn das Bestimmtheitsmaß 1 ist, liegen alle Datenpunkte auf der Regressionsgeraden.
f) Die Wurzel des Bestimmtheitsmaßes entspricht dem Korrelationskoeffizient nach
Pearson.
g) Keine der obigen Antworten ist richtig.
2.
Ein Erlebnisbad will untersuchen, inwiefern sich die durchschnittliche Temperatur (X)
auf die Besucherzahlen (Y) auswirkt. Dazu liegen folgende Daten vor:
Januar/Februar
März/April
Mai/Juni
Juli/August
September/Oktober
November/Dezember
durchschnittliche Temperatur
-0,3°
6,8°
14,9°
20,1°
12,2°
2,3°
Besucherzahlen
6327
6703
5688
2492
5182
6159
2-i) Welches ist hierbei die erklärende Variable und welches die erklärte?
a) Y ist die erklärende Variable, X die erklärte.
b) X ist die erklärende Variable, Y die erklärte.
© Oliver Kirchkamp
BW24.1 Arbeitsgruppenwettbewerb
[ 22. August 2017, 11:35 ] — 24
c) Keine der obigen Antworten ist richtig.
2-ii) Wie können Sie die Regressionsgerade mit Hilfe von R bestimmen (mehrere richtige Antworten möglich)? Die Befehle
> x <- c(-0.3,6.8,14.9,20.1,12.2,2.3)
> y <- c(6327,6703,5688,2492,5182,6159)
wurden bereits ausgeführt.
a) lm(x ∼ y)
b) lm(y ∼ x)
c) summary(lm(x ∼ y))
d) summary(lm(y ∼ x))
e) Keine der obigen Antworten ist richtig.
2-iii) Welche Gleichung bestimmt die Regressionsgerade?
a) Yi = 6896, 7 − 157, 7 · Xi
b) Yi = −157, 6 + 6896, 7 · Xi
c) Yi = 6896, 7 + 157, 6 · Xi
d) Xi = 6896, 7 − 157, 6 · Yi
e) Xi = 6896, 7 + 157, 6 · Yi
f) Keine der obigen Antworten ist richtig.
2-iv) Ist β0 signifikant von 0 verschieden?
a) Ja, es ist signifikant von 0 verschieden.
b) Nein, es ist nicht signifikant von 0 verschieden.
c) Keine der obigen Antworten ist richtig.
3.
Es soll untersucht werden, ob die Ausgaben für Werbung einen Einfluss auf die Absatzmenge eines Produktes haben. Dazu wurde folgende Stichprobe erhoben:
© Oliver Kirchkamp
BW24.1 Arbeitsgruppenwettbewerb
Ausgaben für Werbung
Absatz des Produktes
[ 22. August 2017, 11:35 ] — 25
900 1300
400 700
1200
550
400
100
700
250
800
300
1000
500
Die Ausgaben für Werbung werden in der Variable X definiert, die Absatzmenge des
Produktes in der Variable Y.
Sie führen eine lineare Regression zur Überprüfung des Zusammenhangs durch.
3-i) Welche der folgenden Aussagen sind wahr, bzw. welche Annahmen werden gemacht (mehrere richtige Antworten möglich)?
a) X ist die unabhängige Variable, Y ist die abhängige Variable
b) X ist die abhängige Variable, Y ist die unabhängige Variable
c) Sie wissen noch nicht, was die abhängige und was die unabhängige Variable
ist. Deshalb führen Sie eine lineare Regression durch.
d) Sie vermuten zwischen X und Y einen linearen Zusammenhang.
e) Die Residuen sind normalverteilt.
f) Die Residuen korrelieren mit der abhängigen Variable.
g) Die Residuen korrelieren mit sich selbst (= Autokorrelation der Residuen).
h) Keine der obigen Antworten ist richtig.
3-ii) Welche Gleichung bestimmt die Regressionsgerade?
a) Yi = 228 16 · Xi − 204912 12
b) Yi = 1 39
· Xi − 980 60
73
73
c) Yi =
73
112
17
· Xi − 186 28
d) Keine der obigen Antworten ist richtig.
3-iii) Welchen Wert hat das Bestimmtheitsmaß R2 ungefähr?
a) R2 = 0, 9710
b) R2 = 0, 9854
c) R2 = 1, 0298
d) Keine der obigen Antworten ist richtig.
© Oliver Kirchkamp
BW24.1 Arbeitsgruppenwettbewerb
[ 22. August 2017, 11:35 ] — 26
Aufgabenblatt 9
Abgabe bis Dienstag, 9. Januar, 8 Uhr
1.
Ein Delikatessenhersteller in Deutschland besitzt 5 Filialen in 5 verschiedenen Städten.
Das Geschäft läuft gut; es soll eine weitere Filiale eröffnet werden. Um eine richtige
Standortwahl treffen zu können, sollen die externen Erfolgsfaktoren des Gewinns identifiziert werden. Dazu stehen ihnen folgende Daten zur Verfügung:
>
>
>
>
earn <- c(20000,32500,42000,12000,28000) # Gewinn
hab <- c(12000,72000,164000,60000,16000) # Einwohner
park <- c(600,3600,8200,3000,800) # Parkplätze
mil <- c(15,19,24,11,17) # Anzahl Millionäre
1-i) Bestimmen Sie zu einem Signifikanzniveau von α = 5% die Erfolgsfaktoren des
Delikatessenhändlers auf Basis der Ihnen zur Verfügung stehenden Daten. Nutzen
Sie dazu die einfache lineare Regression (d.h. nur eine erklärende Variable). Welche
der folgenden Aussagen sind richtig (mehrere richtige Antworten möglich)?
a) Die Anzahl der Einwohner pro Stadt ist ein Erfolgsfaktor.
b) Die Anzahl der Parkplätze pro Stadt ist ein Erfolgsfaktor.
c) Die Anzahl der Millionäre pro Stadt ist ein Erfolgsfaktor.
d) Keine der obigen Antworten ist richtig.
1-ii) Ihr Kollege reicht Ihnen die Auswertung der Daten mittels einer multiplen Regression.
>
>
>
>
>
est1=lm(earn~hab+park)
est2=lm(earn~hab+mil)
est3=lm(earn~mil+park)
est4=lm(earn~hab+park+mil)
mtable(est1, est2, est3, est4, coef.style="all", summary.stats=c("N"))
Calls:
est1: lm(formula
est2: lm(formula
est3: lm(formula
est4: lm(formula
=
=
=
=
earn
earn
earn
earn
~
~
~
~
hab
hab
mil
hab
+
+
+
+
park)
mil)
park)
park + mil)
© Oliver Kirchkamp
BW24.1 Arbeitsgruppenwettbewerb
[ 22. August 2017, 11:35 ] — 27
==================================================================
est1
est2
est3
est4
-----------------------------------------------------------------(Intercept) 18650.509
-14873.813
-14873.813
-14873.813
(6749.754)
(4066.118)
(4066.118)
(4066.118)
(2.763)
(-3.658)
(-3.658)
(-3.658)
(0.070)
(0.067)
(0.067)
(0.067)
hab
0.127
-0.011
-0.011
(0.022)
(0.079)
(0.022)
(1.602)
(-0.482)
(-0.482)
(0.207)
(0.677)
(0.677)
mil
2469.044*
2469.044*
2469.044*
(283.160)
(283.160)
(283.160)
(8.720)
(8.720)
(8.720)
(0.013)
(0.013)
(0.013)
park
-0.214
(0.444)
(-0.482)
(0.677)
-----------------------------------------------------------------N
5
5
5
5
==================================================================
Welche der folgenden Aussagen sind zu einem Signifikanzniveau von α = 5%
richtig (mehrere richtige Antworten möglich)?
a) Die Anzahl der Einwohner pro Stadt ist ein Erfolgsfaktor.
b) Die Anzahl der Parkplätze pro Stadt ist ein Erfolgsfaktor.
c) Die Anzahl der Millionäre pro Stadt ist ein Erfolgsfaktor.
d) Die Anzahl der Einwohner und Parkplätze pro Stadt sind Erfolgsfaktoren.
e) Die Anzahl der Einwohner und Millionäre pro Stadt sind Erfolgsfaktoren.
f) Die Anzahl der Parkplätze und Millionäre pro Stadt sind Erfolgsfaktoren.
g) Es existieren kollineare Regressoren.
h) Die Anzahl der Parkplätze ist die Omitted Variable.
i) Keine der obigen Antworten ist richtig.
© Oliver Kirchkamp
BW24.1 Arbeitsgruppenwettbewerb
[ 22. August 2017, 11:35 ] — 28
2.
Gegeben seien die folgenden Daten:
Person
Gewicht
Lungenvolumen
Fitness
1
87
42
1
2
73
43
6
3
66
44
7
4
62
54
15
5
68
45
12
6
92
46
4
7
60
50
12
8
70
46
13
9
71
54
14
10
64
47
10
2-i) Es wird davon ausgegangen, dass folgendes Regressionsmodell gilt:
Fitness = β0 + β1 · Gewicht + β2 · Lungenvolumen
Kennzeichnen Sie die wahren Aussagen (mehrere richtige Antworten möglich)!
a) Die Korrelation zwischen dem Gewicht und dem Lungenvolumen ist -0.504.
b) Die multiple Regression liefert als Parameter β0 = −1.786, β1 = −0.232 und
β2 = 0.589
c) Für α = 0.1 sind sowohl β1 als auch β2 signifikant von Null verschieden.
d) Eine Gewichtserhöhung wirkt sich nachweislich positiv auf die Fitness aus.
e) Das Bestimmtheitsmaß beträgt 0.815. Es werden mehr als
Streuung vom Modell erklärt.
4
5
der tatsächlichen
f) Es wird ein weiterer Regressor eingebunden. R2 wird kleiner.
g) Eine Erhöhung des Gewichts um 1 Einheit führt ceteris paribus zu einer Verbesserung der Fitness um 0.232 Einheiten.
h) Keine der obigen Antworten ist richtig.
2-ii) Gehen Sie nun davon aus, das nur jeweils ein Regressor zur Erklärung der Fitness
verwendet wird. Schätzen Sie die beiden Modelle:
M1 :
M2 :
Fitness = β0 + β1 · Gewicht
Fitness = β0 + β1 · Lungenvolumen
Beantworten Sie anschließend die folgenden Fragen (mehrere richtige Antworten
möglich)!
a) Das multiple Regressionsmodell hat einen höheren Erklärungsgehalt als die
beiden einfachen Modelle.
b) Jede Einheit mehr Gewicht reduziert die Fitness um 0.37 Einheiten
© Oliver Kirchkamp
BW24.1 Arbeitsgruppenwettbewerb
[ 22. August 2017, 11:35 ] — 29
c) Die Regressionsgleichung für den Zusammenhang zwischen Fitness und Lungenvolumen lautet: Fitness=-30.674+0.851·Lungenvolumen.
d) Keine der obigen Antworten ist richtig.
2-iii) Kennzeichnen Sie die wahren Aussagen (mehrere richtige Antworten möglich)!
a) Die Regressionskoeffizienten bei einer multiplen Regressionsanalyse können
durch Matrizenrechnung bestimmt werden.
b) Ein multiples Regressionsmodell mit n erklärenden Variablen verfügt über n
Regressionskoeffizienten.
c) Ein Vorteil des multiplen Regressionsmodells gegenüber einem einfachen Regressionsmodell ist die Robustheit gegenüber großen Ausreißern.
d) Je größer der Variance-Inflation-Factor, desto eher liegt Multikollinearität vor
e) Keine der obigen Antworten ist richtig.
© Oliver Kirchkamp
BW24.1 Arbeitsgruppenwettbewerb
[ 22. August 2017, 11:35 ] — 30
Aufgabenblatt 10
Abgabe bis Dienstag, 16. Januar, 8 Uhr
1.
Gegeben seien die folgenden Beobachtungen:
Y
A
B
C
D
E
14
5
4
9
3
7
30
8
2
6
6
7
11
3
1
4
5
4
20
5
2
7
2
8
8
9
7
0
1
4
22
1
3
1
4
7
21
2
3
2
3
6
1-i) Führen Sie eine multiple Regressionsanalyse mit R durch, wobei Y die erklärte
und A, B, C, D, E die erklärenden Variablen sind. Kennzeichnen Sie die wahren
Aussagen (mehrere richtige Antworten möglich)!
a) Das Modell verfügt über einen Regressor und fünf endogene Variablen.
b) Die Nullhypothese β3 = 0 kann für α = 0.025 verworfen werden.
c) Der SER weist einen Freiheitsgrad auf, weil das Modell nur eine abhängige
Variable besitzt.
d) R2 = 0.9273 besagt, dass ca. 93% der tatsächlichen Varianz durch das Modell
erklärt werden.
e) Keine der obigen Antworten ist richtig.
1-ii) Führen Sie – ausgehend vom bisher verwandten Modell – den R-Befehl step aus
und kennzeichnen Sie das beste Modell!
a) Y = β0 + β1 · A + β2 · B + β3 · C + β4 · D + β5 · E
b) Y = β0 + β1 · A + β5 · E
c) Y = β0 + β1 · A + β3 · C + β4 · D + β5 · E
d) Y = β0 + β2 · B + β4 · D + β5 · E
e) Keine der obigen Antworten ist richtig.
1-iii) Führen Sie für das beste Modell den „summary“-Befehl aus und beantworten Sie
anschließend die folgenden Fragen (mehrere richtige Antworten möglich).
© Oliver Kirchkamp
BW24.1 Arbeitsgruppenwettbewerb
[ 22. August 2017, 11:35 ] — 31
a) Das nun geringere Bestimmtheitsmaß deutet darauf hin, dass das neue Modell
schlechter ist.
b) Für α = 0.1 kann gezeigt werden, dass E einen signifikanten Einfluss auf Y
hat. (Verwenden Sie dieses α auch im weiteren Verlauf der Aufgabe)
c) Eine Erhöhung von C um eine Einheit verringert Y um 1,1617 Einheiten, falls
alle anderen Größen konstant gehalten werden.
d) Der Wert des Akaike Kriteriums beträgt 20.32
e) Keine der obigen Antworten ist richtig.
1-iv) Berechnen Sie für alle Modelle aus Aufgabenteil 1-ii das Bestimmtheitsmaß und
den Standardfehler der Residuen (mehrere richtige Antworten möglich).
a) Der Standardfehler der Residuen im dritten Modell beträgt 3,789.
b) Gemessen am Bestimmtheitsmaß schneidet das 2. Modell am schlechtesten ab.
c) Keiner der geschätzten Regressionskoeffizienten ist signifikant von Null verschieden.
d) Keine der obigen Antworten ist richtig.
2.
Ein Pharmaunternehmen forscht an einem neuem Medikament gegen Schlaflosigkeit.
Hierzu führte es vor Anwendung des Medikaments eine Kurzstudie unter 8 Probanden
aus 8 verschiedenen Städten durch, um herauszufinden, welche Größe am meisten Einfluss auf die Schlafdauer ausübt. Folgende Daten wurden ermittelt:
>
>
>
>
Schlafdauer <- c(6,7,8,10,9,11,8,5) # in Stunden
Alter <- c(49,47,20,18,52,19,65,72) # in Jahren
Gewicht <- c(70,90,85,100,69,52,62,90) # in kg
Groesse <- c(172,196,182,181,176,169,175,190) # in cm
2-i) Welche Einflussgröße hat zu einem Signifikanzniveau von α = 5% Einfluss auf
die Schlafdauer? Führen Sie dazu eine (multiple) lineare Regression durch. Welche
Aussagen sind richtig? (mehrere richtige Antworten möglich)
a) Das Alter hat signifikanten Einfluss.
b) Das Gewicht hat signifikanten Einfluss.
c) Die Größe hat signifikanten Einfluss.
© Oliver Kirchkamp
BW24.1 Arbeitsgruppenwettbewerb
[ 22. August 2017, 11:35 ] — 32
d) Keine der obigen Antworten ist richtig.
2-ii) Führen Sie nun eine multiple Regression durch. Betrachten Sie hierbei folgende
Zusammenhänge:
>
>
>
>
>
>
est1 = lm(Schlafdauer ~ Alter + Gewicht)
est2 = lm(Schlafdauer ~ Alter + Groesse)
est3 = lm(Schlafdauer ~ Groesse + Gewicht)
est4 = lm(Schlafdauer ~ Alter + Groesse + Gewicht)
library(memisc)
mtable(est1, est2, est3, est4, coef.style = "all", summary.stats = c("N")
Calls:
est1: lm(formula
est2: lm(formula
est3: lm(formula
est4: lm(formula
=
=
=
=
Schlafdauer
Schlafdauer
Schlafdauer
Schlafdauer
~
~
~
~
Alter +
Alter +
Groesse
Alter +
Gewicht)
Groesse)
+ Gewicht)
Groesse + Gewicht)
========================================================
est1
est2
est3
est4
-------------------------------------------------------(Intercept)
14.561**
24.045
31.404
16.648
(2.758)
(10.814) (19.690) (16.311)
(5.280)
(2.223)
(1.595)
(1.021)
(0.003)
(0.077)
(0.172)
(0.365)
Alter
-0.070*
-0.059
-0.068
(0.024)
(0.026)
(0.031)
(-2.891)
(-2.261)
(-2.188)
(0.034)
(0.073)
(0.094)
Gewicht
-0.046
0.020
-0.039
(0.032)
(0.073)
(0.062)
(-1.460)
(0.273) (-0.640)
(0.204)
(0.796)
(0.557)
Groesse
-0.075
-0.139
-0.015
(0.061)
(0.132)
(0.114)
(-1.223) (-1.052) (-0.130)
(0.276)
(0.341)
(0.903)
-------------------------------------------------------N
8
8
8
8
========================================================
Welche Aussagen sind zu einem Signifikanzniveau von α = 5% korrekt (mehrere
richtige Antworten möglich)?
© Oliver Kirchkamp
BW24.1 Arbeitsgruppenwettbewerb
[ 22. August 2017, 11:35 ] — 33
a) Es existieren kollineare Regressoren.
b) Bei Betrachtung aller 3 Größen in est4 hat das Alter den größten Einfluss.
c) Der t-Wert für Alter in est4 beträgt -2.188.
d) Ein AIC-Wert für das Modell, in dem Größe und Gewicht die Schlafdauer erklären, beträgt 13.52641.
e) Keine der obigen Antworten ist richtig.
3.
Bei einer Betrachtung von 40 Gebrauchtwagen vermutet man, dass das Alter (X1 ) in
Jahren und die gefahrenen Kilometer (X2 ) eines Autos einen großen Einfluss auf den
Preis (Y) haben, zu dem das Auto angeboten wird. Im Laufe der Untersuchung wurden
folgende Befehle schon in R ausgeführt:
> Y1 <- c(20000, 19500, 18000, 13000, 14500, 13000, 10500, 9000, 6900, 7500)
> X1 <- c(1, 1, 1, 2, 2, 2, 2, 3, 3, 3)
> X2 <- c(2500, 4000, 5500, 11000, 15000, 19000, 23000, 29000, 35000, 36000)
3-i) Berechnen Sie die multiple Regressionsgerade. Wie lautet der Wert des AICKriteriums? (Auf 2 Stellen nach dem Komma gerundet!)
3-ii) Als Ergänzung des ersten Modells wird nun in einem zweiten Modell auch der
Verbrauch der Gebrauchtwagen mit einbezogen.
> X3 <- c(7.2, 5.4, 6.0, 7.8, 8.2, 8.5, 8.3, 9, 8.9, 9.2)
Welches Modell würden Sie im Vergleich von Y1 und Y2 auf Grund des AICKriteriums vorziehen?
a) Y2 ∼ X1 + X2 + X3, da AIC2 > AIC1
b) Y1 ∼ X1 + X2, da AIC1 > AIC2
c) Y1 ∼ X1 + X2, da AIC2 > AIC1
d) Y2 ∼ X1 + X2 + X3, da AIC2 < AIC1
e) Keine der obigen Antworten ist richtig.
© Oliver Kirchkamp
BW24.1 Arbeitsgruppenwettbewerb
[ 22. August 2017, 11:35 ] — 34
Aufgabenblatt 11
Abgabe bis Dienstag, 23. Januar, 8 Uhr
1.
In einer Stichprobe von Studierenden liegen für jede Person folgende Daten vor. Wählen
Sie nur die binären oder stetigen Variablen aus (mehrere richtige Antworten möglich)!
a) Stimmenabgabe für die SPD bei der letzten Kommunalwahl.
b) Lieblingshobby im letzten Jahr.
c) Ausgaben für Konsum in der letzten Periode X.
d) Besitz einer gültigen Fahrerlaubnis.
e) Anzahl der bis heute absolvierten Semester.
f) Überschreiten einer bestimmten Mindestkörpergröße (angegeben in cm).
g) Keine der obigen Antworten ist richtig.
2.
Kreuzen Sie alle richtigen Aussagen an! (mehrere richtige Antworten möglich)
a) Diskrete Veriablen gehören zur Gruppe der Metrischen Variablen.
b) Bei Binären Variablen hat es sich um einen Spezialfall kategorialer Variablen.
c) Eine Lineare Regression mit einem diskreten Merkmal erzeugt eine diskrete Regressionsgerade.
d) Es macht keinen Unterschied, ob man eine einfache lineare Regression mit einer
binären Variablen als Regressor durchgeführt, oder man die Mittelwerte zwischen
2 Gruppen mithilfe des Student t-tests vergleicht.
e) Interaktionen zwischen binären und stetigen Variablen führen nie zu aussagekräftigen Ergebnissen, da sie eine Verknüpfung von inkompatiblen Variablentypen in
einer Rechnung darstellen.
f) Die Varianzanalyse kann zum Vergleich von mehr als zwei Stichproben, welche
unterschiedliche Varianzen besitzen, angewandt werden.
g) Der Wilcoxon signed rank Test ist ein nichtparametrisches Verfahren.
© Oliver Kirchkamp
BW24.1 Arbeitsgruppenwettbewerb
[ 22. August 2017, 11:35 ] — 35
h) Keine der obigen Antworten ist richtig.
3.
Sie interessieren sich für die Einkommensunterschiede zwischen verheiraten und unverheirateten Frauen und Männern in Deutschland. In einer Studie erhalten Sie das folgende
durchschnittliche monatliche Nettoeinkommen:
Frau
Mann
Verheiratet
2000
3500
Unverheiratet
2500
3000
3-i) Auf Basis des gleichen Datensatzes schätzen Sie auch eine Regression:
Y = β0 + β1 · dF + β2 · dV + β3 · dF · dV + u
Dabei ist Y das monatliche Nettoeinkommen, dF ein Dummy der den Wert Eins
annimmt, falls die betrachte Person eine Frau ist und bei Männern Null ist, und dV
ein Dummy, der den Wert Eins annimmt, falls die betrachtete Person verheiratet
ist und sonst Null ist. Sie schätzen die Werte für β0 , β1 , β2 und β3 . Welche der
folgenden Antworten ist richtig?
a) β0 = 2500, β1 = −500, β2 = 1000, β3 = −1000
b) β0 = 2000, β1 = 1000, β2 = −1000, β3 = 500
c) β0 = 2000, β1 = 500, β2 = 1000, β3 = −500
d) β0 = 3000, β1 = −500, β2 = 500, β3 = −1000
e) β0 = 3000, β1 = −1000, β2 = 500, β3 = 3000
f) Keine der obigen Antworten ist richtig.
3-ii) Das durchschnittliche Nettoeinkommen der Männer ist:
a) 3250
b) 3000
c) 3500
d) Kann man nicht sagen
e) Keine der obigen Antworten ist richtig.
© Oliver Kirchkamp
BW24.1 Arbeitsgruppenwettbewerb
[ 22. August 2017, 11:35 ] — 36
4.
Sie interessieren sich für die unterschiedlichen Ausgaben von verheirateten und unverheirateten Frauen und Männern für Bekleidung. Durch eine Umfrage erhalten sie
folgende durchschnittliche monatliche Ausgaben:
Frau
Mann
verheiratet
200
250
unverheiratet
300
150
Dabei schätzen Sie die folgende Regression:
Y = β0 + β1 · dF + β2 · dH + β3 · dF · dH
Dabei ist Y die durchschnittlichen Ausgaben für Bekleidung, dF ein Dummy, der den
Wert 1 annimmt, falls die Person eine Frau ist und 0, wenn die Person ein Mann ist. dH
ist ein Dummy, der den Wert 1 annimmt, wenn die Person verheiratet ist, 0, wenn die
Person unverheiratet ist.
4-i) Welchen Wert nehmen β0 , β1 , β2 und β3 an?
a) β0 = 100, β1 = 200, β2 = 150, β3 = 0
b) β0 = 150, β1 = 50, β2 = 300, β3 = 200
c) β0 = 200, β1 = 300, β2 = 250, β3 = −150
d) β0 = 150, β1 = 150, β2 = 100, β3 = −200
e) Keine der obigen Antworten ist richtig.
4-ii) Wieviel Geld geben Frauen in dieser Stichprobe im Durchschnitt monatlich für
Bekleidung aus?
a) 200
b) 300
c) 250
d) Kann man nicht sagen
e) Keine der obigen Antworten ist richtig.
© Oliver Kirchkamp
BW24.1 Arbeitsgruppenwettbewerb
[ 22. August 2017, 11:35 ] — 37
Aufgabenblatt 12
Abgabe bis Dienstag, 30. Januar, 8 Uhr
1.
An einer Klausur nahmen 300 Studenten teil. Dabei gab es die folgende Notenverteilung:
Note
Anzahl Studenten
1,0
39
2,0
51
3,0
73
4,0
66
5,0
71
Der Prüfer nimmt an, dass die Noten gleichverteilt sind und will dies nun testen.
1-i) Welche theoretischen Wahrscheinlichkeiten müssen Sie für die einzelnen Noten
dabei annehmen?
a) P(1, 0) = 0, 1, P(2, 0) = 0, 3, P(3, 0) = 0, 2, P(4, 0) = 0, 3, P(5, 0) = 0, 1
b) P(1, 0) = 0, 13, P(2, 0) = 0, 17, P(3, 0) = 0, 24, P(4, 0) = 0, 22, P(5, 0) =
0, 24
c) P(1, 0) = 0, 15, P(2, 0) = 0, 15, P(3, 0) = 0, 15, P(4, 0) = 0, 15, P(5, 0) =
0, 15
d) P(1, 0) = 0, 16, P(2, 0) = 0, 37, P(3, 0) = 0, 18, P(4, 0) = 0, 25, P(5, 0) =
0, 04
e) P(1, 0) = 0, 2, P(2, 0) = 0, 2, P(3, 0) = 0, 2, P(4, 0) = 0, 2, P(5, 0) = 0, 2
f) Keine der obigen Antworten ist richtig.
1-ii) Testen Sie nun zu einem Signifikanzniveau von 5%, ob die Noten gleichverteilt
sind.
a) Ja, die Noten sind gleichverteilt.
b) Nein, die Noten sind nicht gleichverteilt.
1-iii) Eine andere Klausur führt zu folgender Verteilung:
Note
Anzahl Studenten
1,0
44
2,0
57
3,0
68
4,0
65
5,0
66
Führen Sie noch einmal einen Test zur Gleichverteilung der Noten, zu einem Signifikanzniveau von 5% durch. Sind die Noten gleichverteilt?
a) Ja, die Noten sind gleichverteilt.
© Oliver Kirchkamp
BW24.1 Arbeitsgruppenwettbewerb
[ 22. August 2017, 11:35 ] — 38
b) Nein, die Noten sind nicht gleichverteilt.
2.
Gegeben sei ein gezinkter Würfel. Es gilt:
P(X = 2) = P(X = 3) = P(X = 4) = P(X = 5) =
1
P(X = 1) = − θ
6
1
P(X = 6) = + θ
6
[
1
6
1
θ ∈ 0;
6
]
2-i) Welche der folgenden Aussagen ist zutreffend:
a) Für θ = 0 handelt es sich um einen fairen Würfel.
b) Für θ =
1
6
handelt es sich um einen fairen Würfel.
c) Keine der obigen Antworten ist richtig.
2-ii) Bei einer einfachen Stichprobe wird folgendes Resultat erzielt:
x = (6, 4, 2, 1, 2, 3, 6, 3, 4, 5)
Welcher Wert für den unbekannten Parameter θ ist für die gegeben Beobachtungen
richtig? Benutzen Sie zur Bestimmung des Parameters die ML-Methode.
a) θ̂= 181
b) θ̂= 191
c) θ̂= 171
d) θ̂= 201
e) Keine der obigen Antworten ist richtig.
3.
Sie arbeiten für einen Getränkehersteller, bei dem verschiedene Getränke abgefüllt werden. Nachdem Sie das Ganze einige Zeit beobachtet haben, finden Sie, dass die Flaschen
einer Sorte leerer aussehen als andere und vermuten daher, dass die Soll-Füllmenge von
1000 ml nicht eingehalten wird. Dies möchten Sie nun anhand eines Tests überprüfen.
3-i) Wie lautet die Null- und die Alternativhypothese, wenn Sie beweisen wollen, dass
die Füllmenge zu klein ist?
© Oliver Kirchkamp
BW24.1 Arbeitsgruppenwettbewerb
[ 22. August 2017, 11:35 ] — 39
a) H0 : E(X) = 1000, H1 : E(X) > 1000
b) H0 : E(X) < 1000, H1 : E(X) > 1000
c) H0 : E(X) = 1000, H1 : E(X) < 1000
d) Keine der obigen Antworten ist richtig.
3-ii) Sie entnehmen nun eine Stichprobe vom Umfang n = 25. Dabei ergab sich eine mittlere Füllmenge von 997 ml. Außerdem ist bekannt, dass die Varianz beim
Abfüllen (σ2x ) 400ml2 beträgt. Welche der folgenden Aussagen sind bei einem Signifikanzniveau von 5% richtig (mehrere richtige Antworten möglich)?
a) H0 wird abgelehnt.
b) H0 wird angenommen.
c) Wenn H0 zutrifft, ist die Wahrscheinlichkeit, einen Fehler 1. Art zu machen
5%.
d) Die Wahrscheinlichkeit, einen Fehler 2. Art zu machen, beträgt 5%
e) Keine der obigen Antworten ist richtig.
© Oliver Kirchkamp
BW24.1 Arbeitsgruppenwettbewerb
[ 22. August 2017, 11:35 ] — 40
Aufgabenblatt 13
Abgabe bis Dienstag, 6. Februar, 8 Uhr
1.
Bitte beantworten Sie folgende Fragen bzw. entscheiden Sie, ob folgende Aussagen zum
Thema „t-Statistik für individuelle Koeffizienten“ wahr oder falsch sind.
1-i) Sie haben eine lineare Regression geschätzt und eine Regressionsfunktion erhalten.
Ein geeignetes Prüfkriterium um zu testen, ob die unabhängigen Variablen einen
signifikanten Einfluss auf die abhängige Variable haben, ist die t-Statistik.
a) wahr
b) falsch
c) Keine der obigen Antworten ist richtig.
1-ii) Die t-Statistik berechnet sich
a) aus der Differenz zwischen geschätztem Regressionskoeffizienten und dem
nullhypothetischen Regeressionskoeffizientens dividiert durch den Standardfehler des Regressionskoeffizienten.
b) aus der Differenz zwischen geschätztem Regressionskoeffizienten und dem
wahren Regeressionskoeffizienten dividiert durch den Standardfehler des Regressionskoeffizienten.
c) Keine der obigen Antworten ist richtig.
1-iii) Üblicherweise stellen Sie folgende Nullhypothese auf, um zu überprüfen, ob eine
Variable in ein Modell gehört:
a) H0 : βi = 0
b) H0 : βi ̸= 0
c) Keine der obigen Antworten ist richtig.
1-iv) Wenn Sie die Nullhypothese nicht verwerfen,…
a) können Sie sich recht sicher sein, dass ein Einfluss der unabhängigen Variablen Xi auf die abhängige Variable Y existiert.
b) können Sie sich recht sicher sein, dass kein Einfluss der unabhängigen Variablen Xi auf die abhängige Variable Y existiert.
© Oliver Kirchkamp
BW24.1 Arbeitsgruppenwettbewerb
[ 22. August 2017, 11:35 ] — 41
c) Keine der obigen Antworten ist richtig.
1-v) Lehnen Sie die Nullhypothese ab,
a) können Sie folgern, dass ein Einfluss der unabhängigen Variablen Xi auf die
abhängige Variable Y existiert.
b) können Sie folgern, dass kein Einfluss der unabhängigen Variablen Xi auf die
abhängige Variable Y existiert.
c) Keine der obigen Antworten ist richtig.
1-vi) Sie führen in R folgende Regressionsanalyse durch:
>
>
>
>
>
>
Absatzmenge <- c(300, 250, 100, 400, 600, 800)
Preis <- c(250, 225, 210, 300, 325, 250)
AusgabenWerbung <- c(600, 550, 450, 750, 900, 1100)
est <- lm (Absatzmenge ~ Preis + AusgabenWerbung)
t_values <- coef(est)/sqrt(diag(vcov(est)))
t_values
(Intercept)
-4.0646354
Preis AusgabenWerbung
-0.3102413
15.7876720
Ihr Signifikanzniveau beträgt 10%. Welche Variablen haben signifikanten Einfluss?
a) Preis und Werbung
b) nur Preis
c) nur Werbung
d) weder Preis noch Werbung
e) Keine der obigen Antworten ist richtig.
2.
Ein Unternehmen, dass sich im Bereich der Telekommunikation spezialisiert hat, führte eine umfassende Studie durch. Dazu wurde das Telefonierverhalten von 6 Personen
jeweils vor und nach Abschluss einer Flatrate untersucht. Die Ergebnisse sind in den
folgenden Vektoren gespeichert: (Maßeinheit Stunden)
> vorFlat <- c(25,28,12,16,20,26)
> nachFlat <- c(26,25,20,18,21,24)
© Oliver Kirchkamp
BW24.1 Arbeitsgruppenwettbewerb
[ 22. August 2017, 11:35 ] — 42
Gehen Sie davon aus, dass die beiden Zufallsvariablen normalverteilt sind.
2-i) Berechnen Sie den Wert der Teststatistik (auf 3 Nachkommastellen gerundet)! (∆ =
nachFlat − vorFlat)
a) -1.220
b) -3643982086
c) 0.701
d) -0.455
e) Keine der obigen Antworten ist richtig.
2-ii) Ihre Nullhypothese lautet, dass ein Abschluss einer Flatrate keine Auswirkungen
auf das Telefonierverhalten in Stunden hat. Würden Sie diese zu einem Signifikanzniveau von 5% ablehnen?
a) ja
b) nein
c) Aufgrund der gegeben Daten ist es nicht möglich eine Aussage darüber zu
machen.
[ 22. August 2017, 11:35 ] — 43
√
Schätzer für σx̄ : σ̂x̄ = σ̂x / n
Verteilungen in R:
Typ
Normalverteilung
t-Verteilung
χ2 -Verteilung
F-Verteilung
Verteilung
pnorm
pt
pchisq
pf
Quantil
qnorm
qt
qchisq
qf
Poisson Verteilung: Pλ (X = k) = λk · e−λ /k!;
E[X] = λ; var(X) = λ
Exponentialverteilung:
{ −λx
λe
x≥0
fλ (X) =
;
0
sonst
{
1 − e−λx x ≥ 0
Fλ (X) =
;
0
sonst
E[X] = 1/λ; var(X) = 1/λ2
Bias: Bias(θ̂, θ) = E(θ̂) − θ
Konfidenzintervall
[
( )für den Mittelwert:
( )]
x̄ + σx̄ · Q α2 ; x̄ − σx̄ · Q α2
Fehler 1. und 2. Art: tatsächliche Situation
H0 falsch
Testergebnis
© Oliver Kirchkamp
BW24.1 Arbeitsgruppenwettbewerb
H0 wird
abgelehnt
(positiv)
H0 wird angenommen
(negativ)
1 − β, Power
Sensitivität
H0 wahr
α, Signifikanzniveau
Fehler 1. Art
1−α
Spezifität
β
Fehler 2. Art
Vergleich von Mittelwerten (unverbundene Stichproben)
∫
Einige∫Stammfunktionen: x dx = 12 x2 + C;
n
n+1
+ C;
∫ x1 dx = x /(n∫+ 1)
x dx = ax / ln a + C
dx
=
ln
x
+
C;
a
x
Ableitung der Log-Likelihood Funktion:
f ′ (x1 |θ)
f ′ (xn |θ)
d
dθ ln L(x1 , . . . , xn |θ) = f(x1 |θ) + · · · + f(xn |θ)
Erwartungswert: E(c · X) = c · E(X);
E(X + Y) = E(X) + E(Y)
√x̄A −x̄B
σ̂2
σ̂2
A+ B
nA nB
∼ tnA +nB −2
Vergleich von Mittelwerten (verbundene Stichproben)
g=
¯
∆
σ̂∆
¯
σ̂∆¯ =
∼ tn−1 mit ∆i = Xi − Yi und
√∑
√1
n
¯ 2
i (∆i −∆)
n−1
∑
xij ·
∑
xij
j ∑ i
χ2 -Kontingenztest eij = ∑
Varianz: var(c · X) = c2 · var(X);
i
j xij
var(X+Y) = var(X)+var(Y)+2·cov(X, Y)
∑ ∑ (xij −eij )2
g= i j
∼ χ2(n−1)·(k−1)
eij
Varianz von x̄: var(x̄) = σ2x /n
χ2 -Anpassungstest:
√
2
∑
Standardabweichung von x̄: σx̄ = σx / n
g = k (X(ai )−n·P(ai )) ∼ χ2
i=1
Schätzer für Erwartungswert:
∑
µ̂X = x̄ = n1 i xi
Schätzer für Varianz: σ̂2X =
1
n−1
∑
i (xi
− x̄)2
Schätzer für√Standardabweichung von X:
2
1 ∑
σ̂X = n−1
i (xi − x̄)
n·P(ai )
k−1
X,0
wobei
Test von Mittelwerten: g = x̄−µ
σ̂x̄
g ∼ tn−1 falls X normalverteilt, und
g ∼ N(0, 1) falls n → ∞
AIC = −2 · L + 2 · k (dabei ist L die Likelihood
des Modells und k die Anzahl der
Parameter).
© Oliver Kirchkamp
BW24.1 Arbeitsgruppenwettbewerb
Signifikanztest: Teststatistik g =
zweiseitig (H1 : X̄ ̸= µ0 )
α
2
Annahmebereich
für g
α
2
( )
Q α2
[ 22. August 2017, 11:35 ] — 44
x̄−µ
√0
σ/ n
einseitig (H1 : X̄ > µ0 )
Annahmebereich
für g
(
)
0 Q 1− α
2
α
einseitig (H1 : X̄ < µ0 )
α
0Q(1 − α)
Annahmebereich
für g
Q(α) 0
H0 wird abgelehnt, falls g nicht im Annahmebereich liegt.
p-Wert: Teststatistik g =
x̄−µ
√0
σ/ n
zweiseitig (H1 : X̄ ̸= µ0 )
F(−|g|)
|g|
einseitig (H1 : X̄ > µ0 )
F(−|g|)
0
−|g|
p = 2 · F(−|g|)
F(−g)
0
g
p = F(−g)
einseitig (H1 : X̄ < µ0 )
F(g)
g
0
p = F(g)
H0 wird abgelehnt falls p < α
qnorm(x)
Konfidenzintervall:
qt(x,1)
qt(x,2)
qt(x,3)
Konfidenzintervall
qt(x,4)
für µ
α
α
qt(x,5)
2
2
(
)
(
)
qt(x,6)
X̄ + √σn · Q α2 0 X̄ + √σn · Q 1 − α2
qt(x,7)
qt(x,8)
H0 : X̄ = µ0 wird abgelehnt, falls µ0 nicht im
qt(x,9)
Konfidenzintervall liegt.
qt(x,10)
0.9
1.28
3.08
1.89
1.64
1.53
1.48
1.44
1.41
1.40
1.38
1.37
0.95 0.975 0.99 0.995 0.9975 0.999
1.64 1.96 2.33 2.58
2.81
3.09
6.31 12.71 31.82 63.66 127.32 318.31
2.92 4.30 6.96 9.92 14.09 22.33
2.35 3.18 4.54 5.84
7.45 10.21
2.13 2.78 3.75 4.60
5.60
7.17
2.02 2.57 3.36 4.03
4.77
5.89
1.94 2.45 3.14 3.71
4.32
5.21
1.89 2.36 3.00 3.50
4.03
4.79
1.86 2.31 2.90 3.36
3.83
4.50
1.83 2.26 2.82 3.25
3.69
4.30
1.81 2.23 2.76 3.17
3.58
4.14
© Oliver Kirchkamp
BW24.1 Arbeitsgruppenwettbewerb
qchisq(x,1)
qchisq(x,2)
qchisq(x,3)
qchisq(x,4)
qchisq(x,5)
qchisq(x,6)
qchisq(x,7)
qchisq(x,8)
qchisq(x,9)
qchisq(x,10)
[ 22. August 2017, 11:35 ] — 45
0.001 0.0025 0.005 0.01 0.025 0.05 0.1
0.9 0.95 0.975 0.99 0.995 0.9975 0.999
0.00
0.00 0.00 0.00 0.00 0.00 0.02 2.71 3.84 5.02 6.63 7.88
9.14 10.83
0.00
0.01 0.01 0.02 0.05 0.10 0.21 4.61 5.99 7.38 9.21 10.60 11.98 13.82
0.02
0.04 0.07 0.11 0.22 0.35 0.58 6.25 7.81 9.35 11.34 12.84 14.32 16.27
0.09
0.14 0.21 0.30 0.48 0.71 1.06 7.78 9.49 11.14 13.28 14.86 16.42 18.47
0.21
0.31 0.41 0.55 0.83 1.15 1.61 9.24 11.07 12.83 15.09 16.75 18.39 20.52
0.38
0.53 0.68 0.87 1.24 1.64 2.20 10.64 12.59 14.45 16.81 18.55 20.25 22.46
0.60
0.79 0.99 1.24 1.69 2.17 2.83 12.02 14.07 16.01 18.48 20.28 22.04 24.32
0.86
1.10 1.34 1.65 2.18 2.73 3.49 13.36 15.51 17.53 20.09 21.95 23.77 26.12
1.15
1.45 1.73 2.09 2.70 3.33 4.17 14.68 16.92 19.02 21.67 23.59 25.46 27.88
1.48
1.83 2.16 2.56 3.25 3.94 4.87 15.99 18.31 20.48 23.21 25.19 27.11 29.59
Herunterladen