© Oliver Kirchkamp Prof. Dr. Oliver Kirchkamp BW24.1 Arbeitsgruppenwettbewerb [ 22. August 2017, 11:35 ] — 1 Arbeitsgruppenwettbewerb 2017/18 Inhaltsverzeichnis Aufgabenblatt 1, Abgabe bis Dienstag, 24. Oktober, 8 Uhr 3 Aufgabenblatt 2, Abgabe bis Dienstag, 7. November, 8 Uhr 7 Aufgabenblatt 3, Abgabe bis Dienstag, 14. November, 8 Uhr 10 Aufgabenblatt 4, Abgabe bis Dienstag, 21. November, 8 Uhr 12 Aufgabenblatt 5, Abgabe bis Dienstag, 28. November, 8 Uhr 15 Aufgabenblatt 6, Abgabe bis Dienstag, 5. Dezember, 8 Uhr 18 Aufgabenblatt 7, Abgabe bis Dienstag, 12. Dezember, 8 Uhr 20 Aufgabenblatt 8, Abgabe bis Dienstag, 19. Dezember, 8 Uhr 23 Aufgabenblatt 9, Abgabe bis Dienstag, 9. Januar, 8 Uhr 26 Aufgabenblatt 10, Abgabe bis Dienstag, 16. Januar, 8 Uhr 30 Aufgabenblatt 11, Abgabe bis Dienstag, 23. Januar, 8 Uhr 34 Aufgabenblatt 12, Abgabe bis Dienstag, 30. Januar, 8 Uhr 37 Aufgabenblatt 13, Abgabe bis Dienstag, 6. Februar, 8 Uhr 40 Formeln und Tabellen 43 Mit den Aufgaben in diesem Wettbewerb will ich Ihnen das Vertiefen des Stoffs und die Vorbereitung auf die Klausur erleichtern. Bitte bearbeiten Sie alle Aufgabenblätter in einer Arbeitsgruppe. Geben Sie die Lösung auf der Homepage der Vorlesung https://www.kirchkamp.de/bw241 unter „Arbeitsgruppenwettbewerb“ ein. Sollte in diesem Arbeitsgruppenwettbewerb nach Zahlen gefragt werden, so geben Sie das Endergebnis bitte auf 3 Nachkommastellen gerundet an. Zwischenergebnisse sollten nicht gerundet werden. © Oliver Kirchkamp BW24.1 Arbeitsgruppenwettbewerb [ 22. August 2017, 11:35 ] — 2 Denken Sie daran, dass am Ende des Semesters für jede Arbeitsgruppe die Summe aus allen Wochen zählt – machen Sie also auf jeden Fall schon ab der ersten Woche mit. Bitte installieren Sie auch zeitnah R auf Ihrem Rechner. Dafür gibt es zwar keine Punkte; Sie werden das Programm aber für den Wettbewerb benötigen. Fragen zu der Installation können Sie am besten im Forum stellen. Sollten Sie keinen eigenen Computer mit R zur Verfügung haben, so können Sie R auch im Computerpool nutzen. Am Ende der Aufgabenblätter ist eine Hilfestellung abgedruckt, die Sie so oder so ähnlich auch in der Klausur bekommen werden. Ich wünsche Ihnen viel Erfolg! Oliver Kirchkamp © Oliver Kirchkamp BW24.1 Arbeitsgruppenwettbewerb [ 22. August 2017, 11:35 ] — 3 Aufgabenblatt 1 Abgabe bis Dienstag, 24. Oktober, 8 Uhr 1. Bitte kreuzen Sie alle richtigen Aussagen an (mehrere richtige Antworten möglich). a) Das Ziehen einer große Stichprobe aus einer Grundgesamtheit ist in der Realität in der Regel teuer als das Ziehen einer kleinen Stichprobe. b) Das Ziehen einer kleinen Stichprobe aus einer Grundgesamtheit führt in der Regel zu einer besseren Schätzung als das Ziehen einer großen Stichprobe. c) Wenn man aus einer Grundgesamtheit mehrere Stichproben zieht, können die aus der Stichprobe berechneten Schätzer unterschiedliche Werte annehmen. d) In R kann das arithmetische Mittel eines Vektors vec mit dem Befehl mean(vec) oder mit dem Befehl sum(vec)/length(vec) berechnet werden. e) In R kann die Stichprobenvarianz eines Vektors vec mit dem Befehl var(vec) oder mit dem Befehl sum((vec-mean(vec))^2)/(length(vec)-1) berechnet werden. f) Keine der obigen Antworten ist richtig. 2. Von fünf Dörfern wurde in einer Erhebung die Einwohnerzahl sowie die Zahl der Häuser festgestellt. Das Ergebnis sieht wie folgt aus: Dorf Einwohnerzahl Anzahl der Häuser 1 200 40 2 1100 400 3 356 100 4 2009 856 5 700 300 2-i) Der Korrelationskoeffizient (nach Pearson) ist: a) 0.921 b) 0.996 c) 0.712 d) 0.967 e) Keine der obigen Antworten ist richtig. 2-ii) Welche Interpretation(en) ist/sind richtig? (mehrere richtige Antworten möglich) © Oliver Kirchkamp BW24.1 Arbeitsgruppenwettbewerb [ 22. August 2017, 11:35 ] — 4 a) Es besteht ein fast linearer Zusammenhang zwischen der Einwohnerzahl und der Anzahl der Häuser. b) Der Korrelationskoeffizient r liegt immer im Intervall 0 ≤ r ≤ 1. c) Der Korrelationskoeffizient (nach Pearson) kann nur berechnet werden, wenn beide Merkmale ordinal skaliert sind. d) Je kleiner der Korrelationskoeffizient nach Bravis/Pearson, desto stärker ist die Unabhängigkeit zwischen beiden Merkmalen. e) Bei den gegebenen Daten kann der Korrelationskoeffizient nach Spearman berechnet werden. f) Keine der obigen Antworten ist richtig. 3. Ein Arbeitnehmerverband möchte einen neuen Gesetzesvorschlag für die Pendlerpauschale entwickeln. Um sich einen Überblick über die Länge des Arbeitsweges der Arbeitnehmer zu verschaffen, werden einige Interviewer beauftragt, Stichproben zu erheben. Sie sollen zufällig ausgewählte Arbeitnehmer der Stadt Jena nach der Länge ihres Arbeitsweges befragen. Die Zufallsvariable X beschreibt die Länge der Strecke „Wohnung – Arbeitsplatz“ (gemessen in km). Die Interviewer haben die folgenden Stichproben a, . . . , g erhoben: Stichprobe a: Stichprobe b: Stichprobe c: Stichprobe d: Stichprobe e: Stichprobe f: Stichprobe g: 37; 5; 17; 68; 75; 113; 1; 92; 12; 21 95; 11; 40; 7; 20; 111; 43; 15; 51; 22 120; 15; 30; 8; 20; 68; 18; 33; 72; 40 10; 30; 93; 2; 25; 160; 25; 17; 19; 45 9; 26; 36; 132; 22; 67; 34; 19; 95; 42 17; 31; 145; 6; 90; 45; 88; 14; 11; 98 12; 15; 70; 20; 89; 37; 4; 42; 150; 25 3-i) Berechnen Sie die empirischen Mittelwerte der erhobenen Stichproben a, . . . , g. a) µ̂x,a = 40, 1; µ̂x,b = 41, 5; µ̂x,c = 42, 4; µ̂x,d = 42, 6; µ̂x,e = 48, 2; µ̂x,f = 54, 5; µ̂x,g = 46, 6 b) µ̂x,a = 44, 1; µ̂x,b = 41, 5; µ̂x,c = 35, 3; µ̂x,d = 42, 6; µ̂x,e = 48, 2; µ̂x,f = 54, 5; µ̂x,g = 46, 4 c) µ̂x,a = 44, 5; µ̂x,b = 41, 5; µ̂x,c = 42, 4; µ̂x,d = 42, 6; µ̂x,e = 48, 2; µ̂x,f = 54, 5; µ̂x,g = 46, 4 d) µ̂x,a = 44, 1; µ̂x,b = 41, 5; µ̂x,c = 42, 4; µ̂x,d = 42, 6; µ̂x,e = 48, 2; µ̂x,f = 54, 5; µ̂x,g = 51, 6 © Oliver Kirchkamp BW24.1 Arbeitsgruppenwettbewerb [ 22. August 2017, 11:35 ] — 5 e) µ̂x,a = 44, 1; µ̂x,b = 41, 5; µ̂x,c = 42, 4; µ̂x,d = 42, 6; µ̂x,e = 48, 2; µ̂x,f = 54, 5; µ̂x,g = 46, 4 f) Keine der obigen Antworten ist richtig. 3-ii) Berechnen Sie die Stichprobenvarianzen der Stichproben a, c, e und g. (Hinweis: Die in den Lösungsmöglichkeiten angegebenen Werte für die Stichprobenvarianzen sind gerundet.) a) σ̂2x,a = 1401, 37; σ̂2x,c = 1083, 24; σ̂2x,e = 1352, 35; σ̂2x,g = 1833, 44 b) σ̂2x,a = 1589, 21; σ̂2x,c = 1203, 6; σ̂2x,e = 1502, 62; σ̂2x,g = 2037, 16 c) σ̂2x,a = 39, 86; σ̂2x,c = 34, 69; σ̂2x,e = 38, 76; σ̂2x,g = 45, 13 d) σ̂2x,a = 37, 43; σ̂2x,c = 32, 91; σ̂2x,e = 36, 77; σ̂2x,g = 42, 82 e) Keine der obigen Antworten ist richtig. 3-iii) Lassen Sie sich die empirischen Mittelwerte der Stichproben a, . . . , g mittels R in einem Plot ausgeben ohne diese dabei selbst handschriftlich zu berechnen. Die Variablen für die Stichproben a, . . ., g wurden bereits in R definiert: a=c(37,5,17,68,75,113,1,92,12,21) b=c(95,11,40,7,20,111,43,15,51,22) c=c(120,15,30,8,20,68,18,33,72,40) d=c(10,30,93,2,25,160,25,17,19,45) e=c(9,26,36,132,22,67,34,19,95,42) f=c(17,31,145,6,90,45,88,14,11,98) g=c(12,15,70,20,89,37,4,42,150,25) Welche der unten angegebenen Lösungsmöglichkeiten enthält die Kommandos, die Sie zur Lösung dieser Teilaufgabe in R korrekt eingeben müssen? a) v=(mean(a), mean(b), mean(c), mean(d), mean(e), mean(f), mean(g)) plot(v, xlab="Stichproben", ylab="Mittelwerte der Stichproben") b) v=1/7*c(mean(a), mean(b), mean(c), mean(d), mean(e), mean(f), mean(g)) plot(v, xlab="Stichproben", ylab="Mittelwerte der Stichproben") c) v=c(sum(a), sum(b), sum(c), sum(d), sum(e), sum(f), sum(g)) plot(v, xlab="Stichproben", ylab="Mittelwerte der Stichproben") © Oliver Kirchkamp BW24.1 Arbeitsgruppenwettbewerb [ 22. August 2017, 11:35 ] — 6 d) v=c(mean(a), mean(b), mean(c), mean(d), mean(e), mean(f), mean(g)) plot(v, xlab="Stichproben", ylab="Mittelwerte der Stichproben") e) Keine der obigen Antworten ist richtig. © Oliver Kirchkamp BW24.1 Arbeitsgruppenwettbewerb [ 22. August 2017, 11:35 ] — 7 Aufgabenblatt 2 Abgabe bis Dienstag, 7. November, 8 Uhr 1. Welche Schätzfunktion ist ein erwartungstreuer Schätzer für den Erwartungswert (mehrere richtige Antworten möglich)? ∑ a) g1 = n1 ni=1 xi b) g2 = 0, 2 · x1 + 0, 8 · xn ∑ √ c) g3 = n1 ni=1 4 x4i d) g4 = 1 n ∑n √ 5 x5i i=1 e) g5 = x1 + x2 + xn f) g6 = 0, 4 · x1 + 0, 58 · xn ∑n 1 g) g7 = 2n+n(n−1) i=1 xi · 2i h) Keine der obigen Antworten ist richtig. 2. Gegeben sei die Stichprobe (X1 , …, Xi , …, X40 ) mit unabhängigen und identisch verteilten Xi . Die Varianz σ2 sei bekannt und es soll der unbekannte Erwartungswert θ geschätzt werden. Weiterhin sei X1 das arithmetische Mittel der ungeraden i und X2 das arithmetische Mittel der geraden i. n bezeichnet die Anzahl der Beobachtungen. 2-i) Welche der folgenden Schätzfunktionen sind erwartungstreu zum Schätzen von θ (mehrere richtige Antworten möglich)? a) g1 = X1 b) g2 = c) g3 = d) g4 = 3 4 ( ) · X1 + X2 (n 4 ) · X2 − 8 · X1 · 1 2 ( 13 ·X1 + 23 X2 ) 2·n e) Keine der obigen Antworten ist richtig. © Oliver Kirchkamp BW24.1 Arbeitsgruppenwettbewerb [ 22. August 2017, 11:35 ] — 8 2-ii) Berechnen Sie den mittleren quadratischen Fehler (MSE) von allen erwartungstreuen Schätzfunktionen und wählen Sie die richtigen Antworten aus (mehrere richtige Antworten möglich): ( ) a) Die Schätzfunktion g5 = 12 · X1 + X2 ist erwartungstreu und wirksamer als die erwartungstreuen Schätzfunktionen aus 2-i. b) Kein mittlerer quadratischer Fehler der erwartungstreuen Schätzfunktionen ist größer als 0.4 · σ2 . c) Die Schätzfunktion g1 ist nicht besonders wirksam, weil nur die Hälfte der Informationen genutzt werden. d) Keine der obigen Antworten ist richtig. 3. Eine Fast-Food-Kette besitzt 100 Filialen in Deutschland. x̄1 , . . . , x̄100 seien die durchschnittlichen monatlichen Umsätze der einzelnen Filialen im Jahr 2016 (die Umsätze der einzelnen Filialen sind unabhängig voneinander). X sei der monatliche Umsatz einer Filiale. Es gilt: E(X) = θ und var(X) = σ2 . 3-i) Welche Schätzfunktionen sind erwartungstreu zum Schätzen von θ (mehrere richtige Antworten möglich)? a) g1 = 10 · x̄1 + 90 · x̄99 b) g2 = 10x̄1 +90x̄99 100 c) g3 = 1 100 ∑100 i=1 x̄i d) g4 = 12 x̄5 + 13 x̄20 + 16 x̄37 e) g5 = ∑100 i=1 x̄i f) Keine der obigen Antworten ist richtig. 3-ii) Welche der Schätzfunktionen ist am wirksamsten? a) g1 = 10 · x̄1 + 90 · x̄99 b) g2 = 10x̄1 +90x̄99 100 c) g3 = 1 100 ∑100 i=1 x̄i d) g4 = 12 x̄5 + 13 x̄20 + 16 x̄37 © Oliver Kirchkamp BW24.1 Arbeitsgruppenwettbewerb ∑100 e) g5 = i=1 [ 22. August 2017, 11:35 ] — 9 x̄i . 4. Ein Automobilkonzern ist in zwei Werke aufgeteilt. In Werk I arbeiten 6000 Beschäftigte (= Grundgesamtheit G1 ) und in Werk II arbeiten 4000 Beschäftigte (= Grundgesamtheit G2 ). Die Firmenleitung will eine neue Arbeitszeitregelung einführen. Dazu sollen die Anteile p1 , p2 bzw. p der Befürworter der vorgeschlagenen neuen Arbeitszeitregelung ∪ in G1 , G2 bzw. in der Gesamtbelegschaft G = G1 G2 geschätzt werden. In G1 wird eine Stichprobe vom Umfang n1 gezogen. In G2 eine Stichprobe vom Umfang n2 gezogen. In jeder Stichprobe kann jeder Befragte die neue Regelung befürworten (= Ergebnis 1) oder ablehnen (= Ergebnis 0). Es sei X1 bzw. X2 der Anteil der Befürworter in der Stichprobe aus G1 bzw. G2 . 4-i) Welche der folgenden Funktionen sind für beliebige n1 und n2 erwartungstreue 1 +4000·p2 Schätzer für p, wobei gilt: p = 6000·p10000 ? a) 1 n1 +n2 b) 1 2 c) 1 10000 · (n1 · X1 + n2 · X2 ) · (X1 + X2 ) · (6000 · X1 + 4000 · X2 ) d) Keine der obigen Antworten ist richtig. 4-ii) Von n1 = 100 Befragten aus G1 waren 40 und von n2 = 50 Befragten aus G2 waren 30 für die neue Regelung. Effiziente Schätzer für p1 , p2 und p sind: a) p1 = 0.4, p2 = 0.6 und p = 0.50 b) p1 = 0.4, p2 = 0.6 und p = 0.48 c) p1 = 0.6, p2 = 0.4 und p = 0.50 d) Keine der obigen Antworten ist richtig. © Oliver Kirchkamp BW24.1 Arbeitsgruppenwettbewerb [ 22. August 2017, 11:35 ] — 10 Aufgabenblatt 3 Abgabe bis Dienstag, 14. November, 8 Uhr 1. Gegeben sei eine binomialverteilte Zufallsvariable mit X ∼ B(100, θ) (also 100 Versuche mit einer Erfolgswahrscheinlichkeit von jeweils θ). Eine Stichprobe ergab die Werte (20, 35, 13, 42, 9, 57, 19, 10, 61, 2, 11, 61, 22, 27). 1-i) Bestimmen Sie den Schätzwert für θ durch die Momentenmethode mithilfe von R (mehrere richtige Antworten möglich). a) 14/mean(c(20,35,13,42,9,57,19,10,61,2,11,61,22,27)) b) sum(c(20,35,13,42,9,57,19,10,61,2,11,61,22,27))/14*1/100 c) sum(c(20,35,13,42,9,57,19,10,61,2,11,61,22,27))/100 d) mean(c(20,35,13,42,9,57,19,10,61,2,11,61,22,27))/100 e) mean(c(20,35,13,42,9,57,19,10,61,2,11,61,22,27))/14*1/100 f) Keine der obigen Antworten ist richtig. 1-ii) Wie groß wäre der Schätzer für θ, wenn man die Beobachtungen (1, 19, 5, 31, 65) hätte? a) 0, 758 b) 0, 25 c) 0, 36 d) 0, 108 e) 0, 242 f) 0, 67 g) Keine der obigen Antworten ist richtig. 2. Eine Zufallsvariable X sei binomialverteilt mit n = 150 und p = θ. Ein Stichprobe fällt folgendermaßen aus: 51, 105, 71, 22, 63. Welche Schätzung erhalten Sie für θ mit der Maximum-Likelihood-Methode? © Oliver Kirchkamp BW24.1 Arbeitsgruppenwettbewerb [ 22. August 2017, 11:35 ] — 11 a) 52/73 b) 52/125 c) 78/125 d) 33/50 e) Das kann man nicht berechnen! f) Keine der obigen Antworten ist richtig. 3. In einer Urne befinden sich schwarze und weiße Kugeln. Um herauszufinden wie groß der Anteil weißer Kugeln ist, zieht man 10 Kugeln ohne Zurücklegen. X sei die Anzahl gezogener weißer Kugeln (X ∼ B(10, p)). Danach legt man alle Kugeln wieder zurück und zieht nochmals 10 Kugeln. Das macht man insgesamt viermal. Dabei zog man beim ersten Versuch 5, im zweiten 7, im dritten 3 und im vierten 5 weiße Kugeln. 3-i) Schätzen Sie den Parameter p mit der Momentenmethode! a) 0, 30 b) 0, 57 c) 0, 48 d) 0, 73 e) 0, 50 f) Keine der obigen Antworten ist richtig. 3-ii) Berechnen Sie den Wert nun mit der Likelihoodmethode. Ändert sich dabei der Schätzwert für p? a) ja b) nein c) Man kann den Wert nicht berechnen © Oliver Kirchkamp BW24.1 Arbeitsgruppenwettbewerb [ 22. August 2017, 11:35 ] — 12 Aufgabenblatt 4 Abgabe bis Dienstag, 21. November, 8 Uhr 1. In einer Mühle wird Getreide gemahlen und das Mehl in Tüten verpackt. Das Gewicht einer Tüte Mehl kann dabei als normalverteilt angenommen werden. Die Varianz des Gewichts ist aus langjähriger Erfahrung bekannt und beträgt 2500 Gramm2 . Eine einfache Stichprobe vom Umfang n = 25 ergibt ein Gesamtgewicht von 26.000 Gramm. 1-i) Wie groß ist das 95%-Konfidenzintervall für den Mittelwert des Gewichts der Mehltüten? a) [950; 1130] b) [942; 1138] c) [927; 1063] d) [899; 1067] e) [998; 1214] f) Keine der obigen Antworten ist richtig. 1-ii) Die Breite des Konfidenzintervalls soll nun durch eine größere Stichprobe verkleinert werden. Wie ist n zu wählen, damit das Konfidenzintervall maximal eine Breite von 100 hat? a) n ≤ 250 b) n ≥ 103 c) n ≥ 97 d) n ≥ 56 e) n ≤ 93 f) Keine der obigen Antworten ist richtig. 2. Die Füllmenge einer Kaffeetasse sei normalverteilt. Ein Kaffeemaschinenhersteller möchte eine seiner neuen Maschinen testen und herausfinden, wie viel Kaffee sie bei © Oliver Kirchkamp BW24.1 Arbeitsgruppenwettbewerb [ 22. August 2017, 11:35 ] — 13 einem normalen Durchlauf pro Tasse erzeugt. Dazu nimmt er sein Testmodell und lässt dieses ingesamt 80 Mal durchlaufen. Am Ende des Versuchstages kennt er die gesamte Kaffeemenge der 80 Versuche, welche 15.860 ml beträgt. Allgemein sei außerdem bekannt, dass die Standardabweichung einer Kaffeetassenfüllung 20 ml beträgt. 2-i) Bestimmen Sie das 95% Konfidenzintervall für den Mittelwert der Füllmenge! a) [159,051; 237,449] b) [0; 202,633] c) [193,867; 202,633] d) [189,485; 207,015] e) Keine der obigen Antworten ist richtig. 2-ii) Der Kaffeemaschinenhersteller möchte, dass die Breite des Konfidenzintervalls höchstens 6 ml beträgt. Wie groß muss die neue Stichprobe mindestens gewählt werden? 3. 3-i) Die Lebensdauer von Batterien ist normalverteilt. Ein physikalisches Forschungsinstitut hat im Auftrag eines großen Batterieherstellers herausgefunden, dass die Standardabweichung der Lebensdauer einer Batterie 30 (Stunden) beträgt. Die Messung der Lebensdauer von 100 der Produktion zufällig entnommenen Batterien ergab eine Gesamtleistungsdauer von 6935,75 Stunden. Berechnen Sie das 90% Konfidenzintervall für den Mittelwert der Lebensdauer. (Bitte benutzen Sie die Werte aus der Verteilungstabelle im Anhang und runden Sie erst am Ende.) a) [64.4; 74.3] b) [65.5; 73.2] c) [68, 5; 70, 3] d) [0; 217.9] e) Keine der obigen Antworten ist richtig. 3-ii) Der Batteriehersteller möchte, dass die Breite des Konfidenzintervalls höchstens 5 (Stunden) beträgt. Wie groß muss die Stichprobe gewählt werden? a) mindestens 99 b) mindestens 594 © Oliver Kirchkamp BW24.1 Arbeitsgruppenwettbewerb [ 22. August 2017, 11:35 ] — 14 c) mindestens 390 d) Keine der obigen Antworten ist richtig. 3-iii) Da der Batteriehersteller sich nicht nur auf eine Meinung verlassen möchte, wurde ebenfalls ein anderes physikalisches Forschungsinstitut damit beauftragt, ein 90%-Konfidenzintervall für den Erwartungswert der Lebensdauer von Batterien anzugeben. Auch sie gehen davon aus, dass die Lebensdauer von Batterien normalverteilt ist. Anders als das erste Forschungsinstitut kennt dieses Institut aber nicht die Varianz der Lebensdauer – die Varianz muss geschätzt werden. Das Institut hat eine Stichprobe vom Umfang 20 gezogen und die Lebensdauer der Batterien (in Stunden) gemessen: (60,5; 80; 71; 73,7; 65; 68; 64,4; 62,9; 74; 78; 72,9; 74; 67,5; 72,8; 61,9; 71; 58; 61; 72,8; 73). Bestimmen Sie das 90% Konfidenzintervall. a) [54, 3233; 83, 9167] b) [66, 7338; 71, 5062] c) [66, 8377; 71, 4023] d) Keine der obigen Antworten ist richtig. © Oliver Kirchkamp BW24.1 Arbeitsgruppenwettbewerb [ 22. August 2017, 11:35 ] — 15 Aufgabenblatt 5 Abgabe bis Dienstag, 28. November, 8 Uhr 1. Bei einem Signifikanztest wurde die Nullhypothese auf dem 1% Signifikanzniveau verworfen. Welche der folgenden Aussagen sind richtig (mehrere richtige Antworten möglich)? a) Die Nullhypothese ist nachweislich eindeutig falsch. b) Die Alternativhypothese ist nachweislich eindeutig wahr. c) Mit einer Wahrscheinlichkeit von 99% gilt H1 . d) Die Nullhypothese kann man mit einer Wahrscheinlichkeit von 1% verwerfen. e) Keine der obigen Antworten ist richtig. 2. Um die Unfallzahlen zu senken, wird ein Gesetz erlassen, dass Fahren mit Abblendlicht am Tag vorschreibt. Ein Automobilclub möchte prüfen, ob die Unfallzahlen im Durchschnitt gesunken sind. Die Variable X enthält die Zahl der Unfälle im Monat (nach Einführung des Gesetzes). Die Variable µx,0 enthält den langjährigen Mittelwert aus der Vergangenheit (in der gleichen Einheit). Stellen Sie die Null- und Alternativhypothese auf. a) H0 : E(X) = µx,0 , H1 : E(X) ̸= µx,0 b) H0 : E(X) ̸= µx,0 , H1 : E(X) = µx,0 c) H0 : E(X) = µx,0 , H1 : E(X) > µx,0 d) H0 : E(X) = µx,0 , H1 : E(X) ≥ µx,0 e) H0 : E(X) = µx,0 , H1 : E(X) < µx,0 f) H0 : E(X) = µx,0 , H1 : E(X) ≤ µx,0 g) Keine der obigen Antworten ist richtig. © Oliver Kirchkamp BW24.1 Arbeitsgruppenwettbewerb [ 22. August 2017, 11:35 ] — 16 3. Welche der folgenden Aussagen sind korrekt (mehrere richtige Antworten möglich)? a) Ein Punktschätzer ist erwartungstreu, wenn der erwartete Schätzwert dem wahren zu schätzenden Parameter der Verteilung entspricht. b) Je verzerrter ein Schätzer, desto höher seine Varianz. c) Konfidenzintervalle minimieren die Varianz erwartungstreuer Schätzfunktionen. d) Konfidenzintervalle beschreiben einen Bereich von Werten um einen geschätzen Parameter einer Verteilung. e) Mit zunehmender Varianz verkleinert sich die Breite des Konfidenzintervalls. f) Das α-Niveau eines Hypothesentests beschreibt die Wahrscheinlichkeit die Nullhypothese abzulehnen, wenn die Nullhypothese wahr ist. g) Das α-Niveau eines Hypothesentests beschreibt die Wahrscheinlichkeit die Alternativhypothese abzulehnen, wenn die Alternativhypothese wahr ist. 4. Sie absolvieren ein Praktikum in einem Kosmetikunternehmen und überprüfen heute die Abfüllmaschine für Duschgel. Aus einer Stichprobe von 15 Duschgelflaschen bestimmen Sie eine mittlere Füllmenge von 250 ml bei einer Varianz von 24. Sie nehmen an, dass die Füllmenge normalverteilt ist. 4-i) Sie erzählen Ihrem Chef von Ihrer Überprüfung und er ist beunruhigt, weil der Hersteller der Maschine ihm versprochen hat, die Varianz der Füllmenge sei langfristig 14. Ihr Chef beschwert sich beim Hersteller der Abfüllmaschine. Die Servicehotline versichert ihm, dass die von Ihnen gemessene Abweichung zufällig sei und langfristig auch Ihre Maschine eine Varianz von nicht größer als 14 haben würde. Welche Hypothesen stellen Sie auf, um die Aussage der Servicehotline zu überprüfen? a) H0 : σ2X = 14, H1 : σ2X ̸= 14 b) H0 : σ2X ̸= 14, H1 : σ2X = 14 c) H0 : σ2X = 14, H1 : σ2X > 14 d) H0 : σ2X = 24, H1 : σ2X ≥ 14 e) H0 : σ2X = 14, H1 : σ2X < 14 © Oliver Kirchkamp BW24.1 Arbeitsgruppenwettbewerb [ 22. August 2017, 11:35 ] — 17 f) H0 : σ2X = 24, H1 : σ2X ≤ 14 g) Keine der obigen Antworten ist richtig. 4-ii) Testen Sie die Hypothese mit einem einseitigen Test bei einem Signifikanzniveau von 5%. Beachten Sie, dass wir hier eine Varianz testen. In der Vorlesung hatten wir zum Test von Mittelwerten den Zusammenhang (x̄ − µ0 )/σx̄ ∼ N(0, 1) benutzt. Zum Testen von Varianzen verwenden Sie hier die Testfunktion: (n − 1) · σ̂2 /σ20 ∼ χ2n−1 . Die Verteilung und die Quantile der χ2 -Verteilung bestimmen Sie in R mit pchisq und qchisq. Die χ2 -Verteilung hängt, genauso wie die t-Verteilung, auch von Freiheitsgraden ab. Was ist richtig (mehrere richtige Antworten möglich)? a) Die Testfunktion ergibt für diese Stichprobe einen Wert von 24. b) Die Testfunktion ergibt für diese Stichprobe einen Wert von 14. c) Die Testfunktion ergibt für diese Stichprobe einen Wert von 2. d) Der Ablehnungsbereich für die Testfunktion reicht von −∞ bis 23, 69. e) Der Ablehnungsbereich für die Testfunktion reicht von 23, 69 bis ∞. f) Die Nullhypothese kann abgelehnt werden. g) Keine der obigen Antworten ist richtig. 4-iii) Der Hersteller Ihrer Maschine überprüft die gesamte Angelegenheit und geht nun von einer langfristigen Varianz von 25 aus. Wie groß muss Ihre Stichprobe sein, damit das 95%-Konfidenzintervall für die mittlere Füllmenge eine Breite von genau 1.96 ml hat? (verwenden Sie für diese Aufgabe die oben angegebenen Quantile) a) n = 10 b) n = 25 c) n = 100 d) n = 250 e) n = 1000 f) n = 2500 g) Keine der obigen Antworten ist richtig. © Oliver Kirchkamp BW24.1 Arbeitsgruppenwettbewerb [ 22. August 2017, 11:35 ] — 18 Aufgabenblatt 6 Abgabe bis Dienstag, 5. Dezember, 8 Uhr 1. Ein Hersteller von Spezialreifen experimentiert bei der Herstellung mit verschiedenen Gummimischungen die die Lebensdauer der Reifen (gemessen in gefahrenen Kilometern) erhöhen sollen. Folgende Werte wurden im Simulator bei zwei unabhängigen Vergleichsgruppen festgestellt, wobei X ∼ N(θx , 1600) die Lebensdauer eines Reifens aus Gruppe 1 und Y ∼ N(θy , 2900) die Lebensdauer eines Reifens aus Gruppe 2 beschreibt. Gruppe 1: (522.5, 513, 516, 539, 531) Gruppe 2: (541, 529, 533, 532, 535) 1-i) Wie müssen die Hypothesen lauten, wenn man θx und θy auf Gleichheit testen will? a) H0 : θx ≤ θy , H1 : θx > θy b) H0 : θx = θy , H1 : θx ̸= θy c) H0 : θx ≥ θy , H1 : θx < θy d) H0 : θx ̸= θy , H1 : θx < θy e) Keine der obigen Antworten ist richtig. 1-ii) Wählen Sie zu einem Konfidenzniveau von α = 5% den Annahmebereich aus! a) [−1.6449, 1.6449] b) [−∞, 1.6449] c) [−1, 96, 1, 96] d) [−1.6449, ∞] e) Keine der obigen Antworten ist richtig. 1-iii) Kann die Nullhypothese abgelehnt werden (α = 5%)? a) Ja, mit einer Teststatistik von g = −2, 7823. 97 b) Nein, mit einer Teststatistik von g = − 300 . c) Ja, mit einer Teststatistik von g = 1, 7355. © Oliver Kirchkamp BW24.1 Arbeitsgruppenwettbewerb [ 22. August 2017, 11:35 ] — 19 d) Keine der obigen Antworten ist richtig. 2. Zwei Gruppen von besonders schweren Personen unterziehen sich einer Behandlung mit der Ziel der Gewichtsveränderung. Die Teilnehmer von Gruppe 1 nehmen ein neues Präparat der Pharmaindustrie zu sich. Die Teilnehmer von Gruppe 2 treiben 4 Stunden Sport pro Tag. Nach 3 Monaten haben die Teilnehmer von Gruppe 1 im Schnitt 50 kg abgenommen und die Teilnehmer von Gruppe 2 haben 49 kg abgenommen. Ferner sei bekannt, dass für das Gewicht der Personen in den beiden Gruppen Normalverteilung angenommen werden kann, dass die Varianz der Gewichte der Gruppenmitglieder von Gruppe 1 gleich 1 ist und dass die Varianz der Gewichte der Gruppenmitglieder von Gruppe 2 gleich 5 ist. Gruppe 1 hat 10 Mitglieder und Gruppe 2 hat 15 Mitglieder. Beide Gruppen sind unabhängig voneinander. Testen Sie auf Gleichheit der Mittelwerte für α = 0.05 und kennzeichnen Sie die wahren Aussagen (mehrere richtige Antworten möglich)! a) Es handelt sich um eine unverbundene Stichprobe. b) Es handelt sich um eine verbundene Stichprobe. c) Der Wert der Teststatistik ist 1,459. d) Der Wert der Teststatistik ist 1,561. e) Keine der obigen Antworten ist richtig. © Oliver Kirchkamp BW24.1 Arbeitsgruppenwettbewerb [ 22. August 2017, 11:35 ] — 20 Aufgabenblatt 7 Abgabe bis Dienstag, 12. Dezember, 8 Uhr 1. Eine Umfrage zu den Essgewohnheiten von 1000 zufällig Befragten ergab folgendes Ergebnis: Gewicht Normalgewicht Über- und Untergewicht ∑ Regelmäßigkeit der Mahlzeiten regelmäßig leicht unstark unregelmäßig regelmäßig 350 150 100 100 50 250 450 200 350 ∑ 600 400 1000 Es soll mit einem Signifikanzniveau α = 10% getestet werden, ob eine Abhängigkeit zwischen dem Gewicht der Testpersonen und der Regelmäßigkeit der Mahlzeiten vorliegt. 1-i) Welche Hypothesen müssen Sie aufstellen? a) H0 : Die zwei Merkmale sind unabhängig voneinander, H1 : Die zwei Merkmale sind nicht unabhängig voneinander b) H0 : Die zwei Merkmale sind nicht unabhängig voneinander, H1 : Die zwei Merkmale sind unabhängig voneinander c) H0 : Die zwei Merkmale gehören zum selben Verteilungstyp, H1 : Die zwei Merkmale gehören nicht zum selben Verteilungstyp d) H0 : Die zwei Merkmale gehören nicht zum selben Verteilungstyp, H1 : Die zwei Merkmale gehören zum selben Verteilungstyp e) Keine der obigen Antworten ist richtig. 1-ii) Wie lautet ungefähr der Wert der Teststatistik (auf 4 Stellen gerundet) a) g ≈ 2, 6753 b) g ≈ 222, 0569 c) g ≈ 275, 6857 d) keine der obigen Antworten ist richtig © Oliver Kirchkamp BW24.1 Arbeitsgruppenwettbewerb [ 22. August 2017, 11:35 ] — 21 1-iii) Kann die Nullhypothese angenommen werden? a) Ja, denn H0 kann abgelehnt werden b) Ja,denn H1 kann abgelehnt werden c) Nein, denn H0 kann abgelehnt werden d) Nein, denn H1 kann abgelehnt werden e) Keine der obigen Antworten ist richtig. 2. In einer Würfelfabrik wird in der Qualitätskontrolle nach dem 180-fachen Werfen eines Würfels folgende Häufigkeitsverteilung festgestellt: Augenzahl Häufigkeit 1 26 2 24 3 32 4 36 5 27 6 35 Da die Firma keine mangelhafte Würfel ausliefern will, möchte sie mit Hilfe eines χ2 Tests überprüfen ob es sich um einen verfälschten Würfel handelt. 2-i) Wie müssen in diesem Fall die Hypothesen lauten? a) H0 : Die Augenzahlen treten mit unterschiedlichen Wahrscheinlichkeiten auf.H1 : Jede Augenzahl tritt mit der gleichen Wahrscheinlichkeit auf. b) H0 : Der Erwartungswert des Würfels ist ̸= 3, 5, H1 : Der Erwartungswert des Würfels ist = 3, 5 c) H0 : Jede Augenzahl tritt mit der gleichen Wahrscheinlichkeit auf. H1 : Die Augenzahlen treten mit unterschiedlichen Wahrscheinlichkeiten auf. d) Keine der obigen Antworten ist richtig. 2-ii) Wie lautet der Wert der Teststatistik (Runden Sie auf 3 Stellen)? a) g = 3, 975 b) g = 23 5 c) g = 4, 200 d) Keine der obigen Antworten ist richtig. © Oliver Kirchkamp BW24.1 Arbeitsgruppenwettbewerb [ 22. August 2017, 11:35 ] — 22 2-iii) Wählen Sie die richtigen Aussagen aus (mehrere richtige Antworten möglich)! a) Der Würfel ist mit einer Wahrscheinlichkeit von α = 5% gezinkt. b) Zum Signifikanzniveau α = 5% kann die Nullhypothese nicht abgelehnt werden. c) H0 wird abgelehnt wenn gilt g ∈ [9, 2364, +∞] bei einem Signifikanzniveau von α = 5%. d) Für den Wert der Teststatistik gilt g < χ2 (0,95;5) e) Zum Signifikanzniveau α = 5% wird die Nullhypothese abgelehnt. f) Keine der obigen Antworten ist richtig. © Oliver Kirchkamp BW24.1 Arbeitsgruppenwettbewerb [ 22. August 2017, 11:35 ] — 23 Aufgabenblatt 8 Abgabe bis Dienstag, 19. Dezember, 8 Uhr 1. Kennzeichnen Sie die wahren Aussagen (mehrere richtige Antworten möglich)! a) Die endogene Variable ist unabhängig. b) Bei der KQ-Methode wird die Summe der senkrechten Abstände der einzelnen Datenpunkte zur Regressionsgeraden minimiert. c) In einem Modell soll das Merkmal Alter in ganzen Jahren das Einkommen erklären. Obwohl nur 70 jährige Menschen untersucht werden, kann eine Regressionsgerade bestimmt werden. d) Im allgemeinen können erklärende und erklärte Variable beliebig getauscht werden, ohne dass sich das Ergebnis verändert. e) Wenn das Bestimmtheitsmaß 1 ist, liegen alle Datenpunkte auf der Regressionsgeraden. f) Die Wurzel des Bestimmtheitsmaßes entspricht dem Korrelationskoeffizient nach Pearson. g) Keine der obigen Antworten ist richtig. 2. Ein Erlebnisbad will untersuchen, inwiefern sich die durchschnittliche Temperatur (X) auf die Besucherzahlen (Y) auswirkt. Dazu liegen folgende Daten vor: Januar/Februar März/April Mai/Juni Juli/August September/Oktober November/Dezember durchschnittliche Temperatur -0,3° 6,8° 14,9° 20,1° 12,2° 2,3° Besucherzahlen 6327 6703 5688 2492 5182 6159 2-i) Welches ist hierbei die erklärende Variable und welches die erklärte? a) Y ist die erklärende Variable, X die erklärte. b) X ist die erklärende Variable, Y die erklärte. © Oliver Kirchkamp BW24.1 Arbeitsgruppenwettbewerb [ 22. August 2017, 11:35 ] — 24 c) Keine der obigen Antworten ist richtig. 2-ii) Wie können Sie die Regressionsgerade mit Hilfe von R bestimmen (mehrere richtige Antworten möglich)? Die Befehle > x <- c(-0.3,6.8,14.9,20.1,12.2,2.3) > y <- c(6327,6703,5688,2492,5182,6159) wurden bereits ausgeführt. a) lm(x ∼ y) b) lm(y ∼ x) c) summary(lm(x ∼ y)) d) summary(lm(y ∼ x)) e) Keine der obigen Antworten ist richtig. 2-iii) Welche Gleichung bestimmt die Regressionsgerade? a) Yi = 6896, 7 − 157, 7 · Xi b) Yi = −157, 6 + 6896, 7 · Xi c) Yi = 6896, 7 + 157, 6 · Xi d) Xi = 6896, 7 − 157, 6 · Yi e) Xi = 6896, 7 + 157, 6 · Yi f) Keine der obigen Antworten ist richtig. 2-iv) Ist β0 signifikant von 0 verschieden? a) Ja, es ist signifikant von 0 verschieden. b) Nein, es ist nicht signifikant von 0 verschieden. c) Keine der obigen Antworten ist richtig. 3. Es soll untersucht werden, ob die Ausgaben für Werbung einen Einfluss auf die Absatzmenge eines Produktes haben. Dazu wurde folgende Stichprobe erhoben: © Oliver Kirchkamp BW24.1 Arbeitsgruppenwettbewerb Ausgaben für Werbung Absatz des Produktes [ 22. August 2017, 11:35 ] — 25 900 1300 400 700 1200 550 400 100 700 250 800 300 1000 500 Die Ausgaben für Werbung werden in der Variable X definiert, die Absatzmenge des Produktes in der Variable Y. Sie führen eine lineare Regression zur Überprüfung des Zusammenhangs durch. 3-i) Welche der folgenden Aussagen sind wahr, bzw. welche Annahmen werden gemacht (mehrere richtige Antworten möglich)? a) X ist die unabhängige Variable, Y ist die abhängige Variable b) X ist die abhängige Variable, Y ist die unabhängige Variable c) Sie wissen noch nicht, was die abhängige und was die unabhängige Variable ist. Deshalb führen Sie eine lineare Regression durch. d) Sie vermuten zwischen X und Y einen linearen Zusammenhang. e) Die Residuen sind normalverteilt. f) Die Residuen korrelieren mit der abhängigen Variable. g) Die Residuen korrelieren mit sich selbst (= Autokorrelation der Residuen). h) Keine der obigen Antworten ist richtig. 3-ii) Welche Gleichung bestimmt die Regressionsgerade? a) Yi = 228 16 · Xi − 204912 12 b) Yi = 1 39 · Xi − 980 60 73 73 c) Yi = 73 112 17 · Xi − 186 28 d) Keine der obigen Antworten ist richtig. 3-iii) Welchen Wert hat das Bestimmtheitsmaß R2 ungefähr? a) R2 = 0, 9710 b) R2 = 0, 9854 c) R2 = 1, 0298 d) Keine der obigen Antworten ist richtig. © Oliver Kirchkamp BW24.1 Arbeitsgruppenwettbewerb [ 22. August 2017, 11:35 ] — 26 Aufgabenblatt 9 Abgabe bis Dienstag, 9. Januar, 8 Uhr 1. Ein Delikatessenhersteller in Deutschland besitzt 5 Filialen in 5 verschiedenen Städten. Das Geschäft läuft gut; es soll eine weitere Filiale eröffnet werden. Um eine richtige Standortwahl treffen zu können, sollen die externen Erfolgsfaktoren des Gewinns identifiziert werden. Dazu stehen ihnen folgende Daten zur Verfügung: > > > > earn <- c(20000,32500,42000,12000,28000) # Gewinn hab <- c(12000,72000,164000,60000,16000) # Einwohner park <- c(600,3600,8200,3000,800) # Parkplätze mil <- c(15,19,24,11,17) # Anzahl Millionäre 1-i) Bestimmen Sie zu einem Signifikanzniveau von α = 5% die Erfolgsfaktoren des Delikatessenhändlers auf Basis der Ihnen zur Verfügung stehenden Daten. Nutzen Sie dazu die einfache lineare Regression (d.h. nur eine erklärende Variable). Welche der folgenden Aussagen sind richtig (mehrere richtige Antworten möglich)? a) Die Anzahl der Einwohner pro Stadt ist ein Erfolgsfaktor. b) Die Anzahl der Parkplätze pro Stadt ist ein Erfolgsfaktor. c) Die Anzahl der Millionäre pro Stadt ist ein Erfolgsfaktor. d) Keine der obigen Antworten ist richtig. 1-ii) Ihr Kollege reicht Ihnen die Auswertung der Daten mittels einer multiplen Regression. > > > > > est1=lm(earn~hab+park) est2=lm(earn~hab+mil) est3=lm(earn~mil+park) est4=lm(earn~hab+park+mil) mtable(est1, est2, est3, est4, coef.style="all", summary.stats=c("N")) Calls: est1: lm(formula est2: lm(formula est3: lm(formula est4: lm(formula = = = = earn earn earn earn ~ ~ ~ ~ hab hab mil hab + + + + park) mil) park) park + mil) © Oliver Kirchkamp BW24.1 Arbeitsgruppenwettbewerb [ 22. August 2017, 11:35 ] — 27 ================================================================== est1 est2 est3 est4 -----------------------------------------------------------------(Intercept) 18650.509 -14873.813 -14873.813 -14873.813 (6749.754) (4066.118) (4066.118) (4066.118) (2.763) (-3.658) (-3.658) (-3.658) (0.070) (0.067) (0.067) (0.067) hab 0.127 -0.011 -0.011 (0.022) (0.079) (0.022) (1.602) (-0.482) (-0.482) (0.207) (0.677) (0.677) mil 2469.044* 2469.044* 2469.044* (283.160) (283.160) (283.160) (8.720) (8.720) (8.720) (0.013) (0.013) (0.013) park -0.214 (0.444) (-0.482) (0.677) -----------------------------------------------------------------N 5 5 5 5 ================================================================== Welche der folgenden Aussagen sind zu einem Signifikanzniveau von α = 5% richtig (mehrere richtige Antworten möglich)? a) Die Anzahl der Einwohner pro Stadt ist ein Erfolgsfaktor. b) Die Anzahl der Parkplätze pro Stadt ist ein Erfolgsfaktor. c) Die Anzahl der Millionäre pro Stadt ist ein Erfolgsfaktor. d) Die Anzahl der Einwohner und Parkplätze pro Stadt sind Erfolgsfaktoren. e) Die Anzahl der Einwohner und Millionäre pro Stadt sind Erfolgsfaktoren. f) Die Anzahl der Parkplätze und Millionäre pro Stadt sind Erfolgsfaktoren. g) Es existieren kollineare Regressoren. h) Die Anzahl der Parkplätze ist die Omitted Variable. i) Keine der obigen Antworten ist richtig. © Oliver Kirchkamp BW24.1 Arbeitsgruppenwettbewerb [ 22. August 2017, 11:35 ] — 28 2. Gegeben seien die folgenden Daten: Person Gewicht Lungenvolumen Fitness 1 87 42 1 2 73 43 6 3 66 44 7 4 62 54 15 5 68 45 12 6 92 46 4 7 60 50 12 8 70 46 13 9 71 54 14 10 64 47 10 2-i) Es wird davon ausgegangen, dass folgendes Regressionsmodell gilt: Fitness = β0 + β1 · Gewicht + β2 · Lungenvolumen Kennzeichnen Sie die wahren Aussagen (mehrere richtige Antworten möglich)! a) Die Korrelation zwischen dem Gewicht und dem Lungenvolumen ist -0.504. b) Die multiple Regression liefert als Parameter β0 = −1.786, β1 = −0.232 und β2 = 0.589 c) Für α = 0.1 sind sowohl β1 als auch β2 signifikant von Null verschieden. d) Eine Gewichtserhöhung wirkt sich nachweislich positiv auf die Fitness aus. e) Das Bestimmtheitsmaß beträgt 0.815. Es werden mehr als Streuung vom Modell erklärt. 4 5 der tatsächlichen f) Es wird ein weiterer Regressor eingebunden. R2 wird kleiner. g) Eine Erhöhung des Gewichts um 1 Einheit führt ceteris paribus zu einer Verbesserung der Fitness um 0.232 Einheiten. h) Keine der obigen Antworten ist richtig. 2-ii) Gehen Sie nun davon aus, das nur jeweils ein Regressor zur Erklärung der Fitness verwendet wird. Schätzen Sie die beiden Modelle: M1 : M2 : Fitness = β0 + β1 · Gewicht Fitness = β0 + β1 · Lungenvolumen Beantworten Sie anschließend die folgenden Fragen (mehrere richtige Antworten möglich)! a) Das multiple Regressionsmodell hat einen höheren Erklärungsgehalt als die beiden einfachen Modelle. b) Jede Einheit mehr Gewicht reduziert die Fitness um 0.37 Einheiten © Oliver Kirchkamp BW24.1 Arbeitsgruppenwettbewerb [ 22. August 2017, 11:35 ] — 29 c) Die Regressionsgleichung für den Zusammenhang zwischen Fitness und Lungenvolumen lautet: Fitness=-30.674+0.851·Lungenvolumen. d) Keine der obigen Antworten ist richtig. 2-iii) Kennzeichnen Sie die wahren Aussagen (mehrere richtige Antworten möglich)! a) Die Regressionskoeffizienten bei einer multiplen Regressionsanalyse können durch Matrizenrechnung bestimmt werden. b) Ein multiples Regressionsmodell mit n erklärenden Variablen verfügt über n Regressionskoeffizienten. c) Ein Vorteil des multiplen Regressionsmodells gegenüber einem einfachen Regressionsmodell ist die Robustheit gegenüber großen Ausreißern. d) Je größer der Variance-Inflation-Factor, desto eher liegt Multikollinearität vor e) Keine der obigen Antworten ist richtig. © Oliver Kirchkamp BW24.1 Arbeitsgruppenwettbewerb [ 22. August 2017, 11:35 ] — 30 Aufgabenblatt 10 Abgabe bis Dienstag, 16. Januar, 8 Uhr 1. Gegeben seien die folgenden Beobachtungen: Y A B C D E 14 5 4 9 3 7 30 8 2 6 6 7 11 3 1 4 5 4 20 5 2 7 2 8 8 9 7 0 1 4 22 1 3 1 4 7 21 2 3 2 3 6 1-i) Führen Sie eine multiple Regressionsanalyse mit R durch, wobei Y die erklärte und A, B, C, D, E die erklärenden Variablen sind. Kennzeichnen Sie die wahren Aussagen (mehrere richtige Antworten möglich)! a) Das Modell verfügt über einen Regressor und fünf endogene Variablen. b) Die Nullhypothese β3 = 0 kann für α = 0.025 verworfen werden. c) Der SER weist einen Freiheitsgrad auf, weil das Modell nur eine abhängige Variable besitzt. d) R2 = 0.9273 besagt, dass ca. 93% der tatsächlichen Varianz durch das Modell erklärt werden. e) Keine der obigen Antworten ist richtig. 1-ii) Führen Sie – ausgehend vom bisher verwandten Modell – den R-Befehl step aus und kennzeichnen Sie das beste Modell! a) Y = β0 + β1 · A + β2 · B + β3 · C + β4 · D + β5 · E b) Y = β0 + β1 · A + β5 · E c) Y = β0 + β1 · A + β3 · C + β4 · D + β5 · E d) Y = β0 + β2 · B + β4 · D + β5 · E e) Keine der obigen Antworten ist richtig. 1-iii) Führen Sie für das beste Modell den „summary“-Befehl aus und beantworten Sie anschließend die folgenden Fragen (mehrere richtige Antworten möglich). © Oliver Kirchkamp BW24.1 Arbeitsgruppenwettbewerb [ 22. August 2017, 11:35 ] — 31 a) Das nun geringere Bestimmtheitsmaß deutet darauf hin, dass das neue Modell schlechter ist. b) Für α = 0.1 kann gezeigt werden, dass E einen signifikanten Einfluss auf Y hat. (Verwenden Sie dieses α auch im weiteren Verlauf der Aufgabe) c) Eine Erhöhung von C um eine Einheit verringert Y um 1,1617 Einheiten, falls alle anderen Größen konstant gehalten werden. d) Der Wert des Akaike Kriteriums beträgt 20.32 e) Keine der obigen Antworten ist richtig. 1-iv) Berechnen Sie für alle Modelle aus Aufgabenteil 1-ii das Bestimmtheitsmaß und den Standardfehler der Residuen (mehrere richtige Antworten möglich). a) Der Standardfehler der Residuen im dritten Modell beträgt 3,789. b) Gemessen am Bestimmtheitsmaß schneidet das 2. Modell am schlechtesten ab. c) Keiner der geschätzten Regressionskoeffizienten ist signifikant von Null verschieden. d) Keine der obigen Antworten ist richtig. 2. Ein Pharmaunternehmen forscht an einem neuem Medikament gegen Schlaflosigkeit. Hierzu führte es vor Anwendung des Medikaments eine Kurzstudie unter 8 Probanden aus 8 verschiedenen Städten durch, um herauszufinden, welche Größe am meisten Einfluss auf die Schlafdauer ausübt. Folgende Daten wurden ermittelt: > > > > Schlafdauer <- c(6,7,8,10,9,11,8,5) # in Stunden Alter <- c(49,47,20,18,52,19,65,72) # in Jahren Gewicht <- c(70,90,85,100,69,52,62,90) # in kg Groesse <- c(172,196,182,181,176,169,175,190) # in cm 2-i) Welche Einflussgröße hat zu einem Signifikanzniveau von α = 5% Einfluss auf die Schlafdauer? Führen Sie dazu eine (multiple) lineare Regression durch. Welche Aussagen sind richtig? (mehrere richtige Antworten möglich) a) Das Alter hat signifikanten Einfluss. b) Das Gewicht hat signifikanten Einfluss. c) Die Größe hat signifikanten Einfluss. © Oliver Kirchkamp BW24.1 Arbeitsgruppenwettbewerb [ 22. August 2017, 11:35 ] — 32 d) Keine der obigen Antworten ist richtig. 2-ii) Führen Sie nun eine multiple Regression durch. Betrachten Sie hierbei folgende Zusammenhänge: > > > > > > est1 = lm(Schlafdauer ~ Alter + Gewicht) est2 = lm(Schlafdauer ~ Alter + Groesse) est3 = lm(Schlafdauer ~ Groesse + Gewicht) est4 = lm(Schlafdauer ~ Alter + Groesse + Gewicht) library(memisc) mtable(est1, est2, est3, est4, coef.style = "all", summary.stats = c("N") Calls: est1: lm(formula est2: lm(formula est3: lm(formula est4: lm(formula = = = = Schlafdauer Schlafdauer Schlafdauer Schlafdauer ~ ~ ~ ~ Alter + Alter + Groesse Alter + Gewicht) Groesse) + Gewicht) Groesse + Gewicht) ======================================================== est1 est2 est3 est4 -------------------------------------------------------(Intercept) 14.561** 24.045 31.404 16.648 (2.758) (10.814) (19.690) (16.311) (5.280) (2.223) (1.595) (1.021) (0.003) (0.077) (0.172) (0.365) Alter -0.070* -0.059 -0.068 (0.024) (0.026) (0.031) (-2.891) (-2.261) (-2.188) (0.034) (0.073) (0.094) Gewicht -0.046 0.020 -0.039 (0.032) (0.073) (0.062) (-1.460) (0.273) (-0.640) (0.204) (0.796) (0.557) Groesse -0.075 -0.139 -0.015 (0.061) (0.132) (0.114) (-1.223) (-1.052) (-0.130) (0.276) (0.341) (0.903) -------------------------------------------------------N 8 8 8 8 ======================================================== Welche Aussagen sind zu einem Signifikanzniveau von α = 5% korrekt (mehrere richtige Antworten möglich)? © Oliver Kirchkamp BW24.1 Arbeitsgruppenwettbewerb [ 22. August 2017, 11:35 ] — 33 a) Es existieren kollineare Regressoren. b) Bei Betrachtung aller 3 Größen in est4 hat das Alter den größten Einfluss. c) Der t-Wert für Alter in est4 beträgt -2.188. d) Ein AIC-Wert für das Modell, in dem Größe und Gewicht die Schlafdauer erklären, beträgt 13.52641. e) Keine der obigen Antworten ist richtig. 3. Bei einer Betrachtung von 40 Gebrauchtwagen vermutet man, dass das Alter (X1 ) in Jahren und die gefahrenen Kilometer (X2 ) eines Autos einen großen Einfluss auf den Preis (Y) haben, zu dem das Auto angeboten wird. Im Laufe der Untersuchung wurden folgende Befehle schon in R ausgeführt: > Y1 <- c(20000, 19500, 18000, 13000, 14500, 13000, 10500, 9000, 6900, 7500) > X1 <- c(1, 1, 1, 2, 2, 2, 2, 3, 3, 3) > X2 <- c(2500, 4000, 5500, 11000, 15000, 19000, 23000, 29000, 35000, 36000) 3-i) Berechnen Sie die multiple Regressionsgerade. Wie lautet der Wert des AICKriteriums? (Auf 2 Stellen nach dem Komma gerundet!) 3-ii) Als Ergänzung des ersten Modells wird nun in einem zweiten Modell auch der Verbrauch der Gebrauchtwagen mit einbezogen. > X3 <- c(7.2, 5.4, 6.0, 7.8, 8.2, 8.5, 8.3, 9, 8.9, 9.2) Welches Modell würden Sie im Vergleich von Y1 und Y2 auf Grund des AICKriteriums vorziehen? a) Y2 ∼ X1 + X2 + X3, da AIC2 > AIC1 b) Y1 ∼ X1 + X2, da AIC1 > AIC2 c) Y1 ∼ X1 + X2, da AIC2 > AIC1 d) Y2 ∼ X1 + X2 + X3, da AIC2 < AIC1 e) Keine der obigen Antworten ist richtig. © Oliver Kirchkamp BW24.1 Arbeitsgruppenwettbewerb [ 22. August 2017, 11:35 ] — 34 Aufgabenblatt 11 Abgabe bis Dienstag, 23. Januar, 8 Uhr 1. In einer Stichprobe von Studierenden liegen für jede Person folgende Daten vor. Wählen Sie nur die binären oder stetigen Variablen aus (mehrere richtige Antworten möglich)! a) Stimmenabgabe für die SPD bei der letzten Kommunalwahl. b) Lieblingshobby im letzten Jahr. c) Ausgaben für Konsum in der letzten Periode X. d) Besitz einer gültigen Fahrerlaubnis. e) Anzahl der bis heute absolvierten Semester. f) Überschreiten einer bestimmten Mindestkörpergröße (angegeben in cm). g) Keine der obigen Antworten ist richtig. 2. Kreuzen Sie alle richtigen Aussagen an! (mehrere richtige Antworten möglich) a) Diskrete Veriablen gehören zur Gruppe der Metrischen Variablen. b) Bei Binären Variablen hat es sich um einen Spezialfall kategorialer Variablen. c) Eine Lineare Regression mit einem diskreten Merkmal erzeugt eine diskrete Regressionsgerade. d) Es macht keinen Unterschied, ob man eine einfache lineare Regression mit einer binären Variablen als Regressor durchgeführt, oder man die Mittelwerte zwischen 2 Gruppen mithilfe des Student t-tests vergleicht. e) Interaktionen zwischen binären und stetigen Variablen führen nie zu aussagekräftigen Ergebnissen, da sie eine Verknüpfung von inkompatiblen Variablentypen in einer Rechnung darstellen. f) Die Varianzanalyse kann zum Vergleich von mehr als zwei Stichproben, welche unterschiedliche Varianzen besitzen, angewandt werden. g) Der Wilcoxon signed rank Test ist ein nichtparametrisches Verfahren. © Oliver Kirchkamp BW24.1 Arbeitsgruppenwettbewerb [ 22. August 2017, 11:35 ] — 35 h) Keine der obigen Antworten ist richtig. 3. Sie interessieren sich für die Einkommensunterschiede zwischen verheiraten und unverheirateten Frauen und Männern in Deutschland. In einer Studie erhalten Sie das folgende durchschnittliche monatliche Nettoeinkommen: Frau Mann Verheiratet 2000 3500 Unverheiratet 2500 3000 3-i) Auf Basis des gleichen Datensatzes schätzen Sie auch eine Regression: Y = β0 + β1 · dF + β2 · dV + β3 · dF · dV + u Dabei ist Y das monatliche Nettoeinkommen, dF ein Dummy der den Wert Eins annimmt, falls die betrachte Person eine Frau ist und bei Männern Null ist, und dV ein Dummy, der den Wert Eins annimmt, falls die betrachtete Person verheiratet ist und sonst Null ist. Sie schätzen die Werte für β0 , β1 , β2 und β3 . Welche der folgenden Antworten ist richtig? a) β0 = 2500, β1 = −500, β2 = 1000, β3 = −1000 b) β0 = 2000, β1 = 1000, β2 = −1000, β3 = 500 c) β0 = 2000, β1 = 500, β2 = 1000, β3 = −500 d) β0 = 3000, β1 = −500, β2 = 500, β3 = −1000 e) β0 = 3000, β1 = −1000, β2 = 500, β3 = 3000 f) Keine der obigen Antworten ist richtig. 3-ii) Das durchschnittliche Nettoeinkommen der Männer ist: a) 3250 b) 3000 c) 3500 d) Kann man nicht sagen e) Keine der obigen Antworten ist richtig. © Oliver Kirchkamp BW24.1 Arbeitsgruppenwettbewerb [ 22. August 2017, 11:35 ] — 36 4. Sie interessieren sich für die unterschiedlichen Ausgaben von verheirateten und unverheirateten Frauen und Männern für Bekleidung. Durch eine Umfrage erhalten sie folgende durchschnittliche monatliche Ausgaben: Frau Mann verheiratet 200 250 unverheiratet 300 150 Dabei schätzen Sie die folgende Regression: Y = β0 + β1 · dF + β2 · dH + β3 · dF · dH Dabei ist Y die durchschnittlichen Ausgaben für Bekleidung, dF ein Dummy, der den Wert 1 annimmt, falls die Person eine Frau ist und 0, wenn die Person ein Mann ist. dH ist ein Dummy, der den Wert 1 annimmt, wenn die Person verheiratet ist, 0, wenn die Person unverheiratet ist. 4-i) Welchen Wert nehmen β0 , β1 , β2 und β3 an? a) β0 = 100, β1 = 200, β2 = 150, β3 = 0 b) β0 = 150, β1 = 50, β2 = 300, β3 = 200 c) β0 = 200, β1 = 300, β2 = 250, β3 = −150 d) β0 = 150, β1 = 150, β2 = 100, β3 = −200 e) Keine der obigen Antworten ist richtig. 4-ii) Wieviel Geld geben Frauen in dieser Stichprobe im Durchschnitt monatlich für Bekleidung aus? a) 200 b) 300 c) 250 d) Kann man nicht sagen e) Keine der obigen Antworten ist richtig. © Oliver Kirchkamp BW24.1 Arbeitsgruppenwettbewerb [ 22. August 2017, 11:35 ] — 37 Aufgabenblatt 12 Abgabe bis Dienstag, 30. Januar, 8 Uhr 1. An einer Klausur nahmen 300 Studenten teil. Dabei gab es die folgende Notenverteilung: Note Anzahl Studenten 1,0 39 2,0 51 3,0 73 4,0 66 5,0 71 Der Prüfer nimmt an, dass die Noten gleichverteilt sind und will dies nun testen. 1-i) Welche theoretischen Wahrscheinlichkeiten müssen Sie für die einzelnen Noten dabei annehmen? a) P(1, 0) = 0, 1, P(2, 0) = 0, 3, P(3, 0) = 0, 2, P(4, 0) = 0, 3, P(5, 0) = 0, 1 b) P(1, 0) = 0, 13, P(2, 0) = 0, 17, P(3, 0) = 0, 24, P(4, 0) = 0, 22, P(5, 0) = 0, 24 c) P(1, 0) = 0, 15, P(2, 0) = 0, 15, P(3, 0) = 0, 15, P(4, 0) = 0, 15, P(5, 0) = 0, 15 d) P(1, 0) = 0, 16, P(2, 0) = 0, 37, P(3, 0) = 0, 18, P(4, 0) = 0, 25, P(5, 0) = 0, 04 e) P(1, 0) = 0, 2, P(2, 0) = 0, 2, P(3, 0) = 0, 2, P(4, 0) = 0, 2, P(5, 0) = 0, 2 f) Keine der obigen Antworten ist richtig. 1-ii) Testen Sie nun zu einem Signifikanzniveau von 5%, ob die Noten gleichverteilt sind. a) Ja, die Noten sind gleichverteilt. b) Nein, die Noten sind nicht gleichverteilt. 1-iii) Eine andere Klausur führt zu folgender Verteilung: Note Anzahl Studenten 1,0 44 2,0 57 3,0 68 4,0 65 5,0 66 Führen Sie noch einmal einen Test zur Gleichverteilung der Noten, zu einem Signifikanzniveau von 5% durch. Sind die Noten gleichverteilt? a) Ja, die Noten sind gleichverteilt. © Oliver Kirchkamp BW24.1 Arbeitsgruppenwettbewerb [ 22. August 2017, 11:35 ] — 38 b) Nein, die Noten sind nicht gleichverteilt. 2. Gegeben sei ein gezinkter Würfel. Es gilt: P(X = 2) = P(X = 3) = P(X = 4) = P(X = 5) = 1 P(X = 1) = − θ 6 1 P(X = 6) = + θ 6 [ 1 6 1 θ ∈ 0; 6 ] 2-i) Welche der folgenden Aussagen ist zutreffend: a) Für θ = 0 handelt es sich um einen fairen Würfel. b) Für θ = 1 6 handelt es sich um einen fairen Würfel. c) Keine der obigen Antworten ist richtig. 2-ii) Bei einer einfachen Stichprobe wird folgendes Resultat erzielt: x = (6, 4, 2, 1, 2, 3, 6, 3, 4, 5) Welcher Wert für den unbekannten Parameter θ ist für die gegeben Beobachtungen richtig? Benutzen Sie zur Bestimmung des Parameters die ML-Methode. a) θ̂= 181 b) θ̂= 191 c) θ̂= 171 d) θ̂= 201 e) Keine der obigen Antworten ist richtig. 3. Sie arbeiten für einen Getränkehersteller, bei dem verschiedene Getränke abgefüllt werden. Nachdem Sie das Ganze einige Zeit beobachtet haben, finden Sie, dass die Flaschen einer Sorte leerer aussehen als andere und vermuten daher, dass die Soll-Füllmenge von 1000 ml nicht eingehalten wird. Dies möchten Sie nun anhand eines Tests überprüfen. 3-i) Wie lautet die Null- und die Alternativhypothese, wenn Sie beweisen wollen, dass die Füllmenge zu klein ist? © Oliver Kirchkamp BW24.1 Arbeitsgruppenwettbewerb [ 22. August 2017, 11:35 ] — 39 a) H0 : E(X) = 1000, H1 : E(X) > 1000 b) H0 : E(X) < 1000, H1 : E(X) > 1000 c) H0 : E(X) = 1000, H1 : E(X) < 1000 d) Keine der obigen Antworten ist richtig. 3-ii) Sie entnehmen nun eine Stichprobe vom Umfang n = 25. Dabei ergab sich eine mittlere Füllmenge von 997 ml. Außerdem ist bekannt, dass die Varianz beim Abfüllen (σ2x ) 400ml2 beträgt. Welche der folgenden Aussagen sind bei einem Signifikanzniveau von 5% richtig (mehrere richtige Antworten möglich)? a) H0 wird abgelehnt. b) H0 wird angenommen. c) Wenn H0 zutrifft, ist die Wahrscheinlichkeit, einen Fehler 1. Art zu machen 5%. d) Die Wahrscheinlichkeit, einen Fehler 2. Art zu machen, beträgt 5% e) Keine der obigen Antworten ist richtig. © Oliver Kirchkamp BW24.1 Arbeitsgruppenwettbewerb [ 22. August 2017, 11:35 ] — 40 Aufgabenblatt 13 Abgabe bis Dienstag, 6. Februar, 8 Uhr 1. Bitte beantworten Sie folgende Fragen bzw. entscheiden Sie, ob folgende Aussagen zum Thema „t-Statistik für individuelle Koeffizienten“ wahr oder falsch sind. 1-i) Sie haben eine lineare Regression geschätzt und eine Regressionsfunktion erhalten. Ein geeignetes Prüfkriterium um zu testen, ob die unabhängigen Variablen einen signifikanten Einfluss auf die abhängige Variable haben, ist die t-Statistik. a) wahr b) falsch c) Keine der obigen Antworten ist richtig. 1-ii) Die t-Statistik berechnet sich a) aus der Differenz zwischen geschätztem Regressionskoeffizienten und dem nullhypothetischen Regeressionskoeffizientens dividiert durch den Standardfehler des Regressionskoeffizienten. b) aus der Differenz zwischen geschätztem Regressionskoeffizienten und dem wahren Regeressionskoeffizienten dividiert durch den Standardfehler des Regressionskoeffizienten. c) Keine der obigen Antworten ist richtig. 1-iii) Üblicherweise stellen Sie folgende Nullhypothese auf, um zu überprüfen, ob eine Variable in ein Modell gehört: a) H0 : βi = 0 b) H0 : βi ̸= 0 c) Keine der obigen Antworten ist richtig. 1-iv) Wenn Sie die Nullhypothese nicht verwerfen,… a) können Sie sich recht sicher sein, dass ein Einfluss der unabhängigen Variablen Xi auf die abhängige Variable Y existiert. b) können Sie sich recht sicher sein, dass kein Einfluss der unabhängigen Variablen Xi auf die abhängige Variable Y existiert. © Oliver Kirchkamp BW24.1 Arbeitsgruppenwettbewerb [ 22. August 2017, 11:35 ] — 41 c) Keine der obigen Antworten ist richtig. 1-v) Lehnen Sie die Nullhypothese ab, a) können Sie folgern, dass ein Einfluss der unabhängigen Variablen Xi auf die abhängige Variable Y existiert. b) können Sie folgern, dass kein Einfluss der unabhängigen Variablen Xi auf die abhängige Variable Y existiert. c) Keine der obigen Antworten ist richtig. 1-vi) Sie führen in R folgende Regressionsanalyse durch: > > > > > > Absatzmenge <- c(300, 250, 100, 400, 600, 800) Preis <- c(250, 225, 210, 300, 325, 250) AusgabenWerbung <- c(600, 550, 450, 750, 900, 1100) est <- lm (Absatzmenge ~ Preis + AusgabenWerbung) t_values <- coef(est)/sqrt(diag(vcov(est))) t_values (Intercept) -4.0646354 Preis AusgabenWerbung -0.3102413 15.7876720 Ihr Signifikanzniveau beträgt 10%. Welche Variablen haben signifikanten Einfluss? a) Preis und Werbung b) nur Preis c) nur Werbung d) weder Preis noch Werbung e) Keine der obigen Antworten ist richtig. 2. Ein Unternehmen, dass sich im Bereich der Telekommunikation spezialisiert hat, führte eine umfassende Studie durch. Dazu wurde das Telefonierverhalten von 6 Personen jeweils vor und nach Abschluss einer Flatrate untersucht. Die Ergebnisse sind in den folgenden Vektoren gespeichert: (Maßeinheit Stunden) > vorFlat <- c(25,28,12,16,20,26) > nachFlat <- c(26,25,20,18,21,24) © Oliver Kirchkamp BW24.1 Arbeitsgruppenwettbewerb [ 22. August 2017, 11:35 ] — 42 Gehen Sie davon aus, dass die beiden Zufallsvariablen normalverteilt sind. 2-i) Berechnen Sie den Wert der Teststatistik (auf 3 Nachkommastellen gerundet)! (∆ = nachFlat − vorFlat) a) -1.220 b) -3643982086 c) 0.701 d) -0.455 e) Keine der obigen Antworten ist richtig. 2-ii) Ihre Nullhypothese lautet, dass ein Abschluss einer Flatrate keine Auswirkungen auf das Telefonierverhalten in Stunden hat. Würden Sie diese zu einem Signifikanzniveau von 5% ablehnen? a) ja b) nein c) Aufgrund der gegeben Daten ist es nicht möglich eine Aussage darüber zu machen. [ 22. August 2017, 11:35 ] — 43 √ Schätzer für σx̄ : σ̂x̄ = σ̂x / n Verteilungen in R: Typ Normalverteilung t-Verteilung χ2 -Verteilung F-Verteilung Verteilung pnorm pt pchisq pf Quantil qnorm qt qchisq qf Poisson Verteilung: Pλ (X = k) = λk · e−λ /k!; E[X] = λ; var(X) = λ Exponentialverteilung: { −λx λe x≥0 fλ (X) = ; 0 sonst { 1 − e−λx x ≥ 0 Fλ (X) = ; 0 sonst E[X] = 1/λ; var(X) = 1/λ2 Bias: Bias(θ̂, θ) = E(θ̂) − θ Konfidenzintervall [ ( )für den Mittelwert: ( )] x̄ + σx̄ · Q α2 ; x̄ − σx̄ · Q α2 Fehler 1. und 2. Art: tatsächliche Situation H0 falsch Testergebnis © Oliver Kirchkamp BW24.1 Arbeitsgruppenwettbewerb H0 wird abgelehnt (positiv) H0 wird angenommen (negativ) 1 − β, Power Sensitivität H0 wahr α, Signifikanzniveau Fehler 1. Art 1−α Spezifität β Fehler 2. Art Vergleich von Mittelwerten (unverbundene Stichproben) ∫ Einige∫Stammfunktionen: x dx = 12 x2 + C; n n+1 + C; ∫ x1 dx = x /(n∫+ 1) x dx = ax / ln a + C dx = ln x + C; a x Ableitung der Log-Likelihood Funktion: f ′ (x1 |θ) f ′ (xn |θ) d dθ ln L(x1 , . . . , xn |θ) = f(x1 |θ) + · · · + f(xn |θ) Erwartungswert: E(c · X) = c · E(X); E(X + Y) = E(X) + E(Y) √x̄A −x̄B σ̂2 σ̂2 A+ B nA nB ∼ tnA +nB −2 Vergleich von Mittelwerten (verbundene Stichproben) g= ¯ ∆ σ̂∆ ¯ σ̂∆¯ = ∼ tn−1 mit ∆i = Xi − Yi und √∑ √1 n ¯ 2 i (∆i −∆) n−1 ∑ xij · ∑ xij j ∑ i χ2 -Kontingenztest eij = ∑ Varianz: var(c · X) = c2 · var(X); i j xij var(X+Y) = var(X)+var(Y)+2·cov(X, Y) ∑ ∑ (xij −eij )2 g= i j ∼ χ2(n−1)·(k−1) eij Varianz von x̄: var(x̄) = σ2x /n χ2 -Anpassungstest: √ 2 ∑ Standardabweichung von x̄: σx̄ = σx / n g = k (X(ai )−n·P(ai )) ∼ χ2 i=1 Schätzer für Erwartungswert: ∑ µ̂X = x̄ = n1 i xi Schätzer für Varianz: σ̂2X = 1 n−1 ∑ i (xi − x̄)2 Schätzer für√Standardabweichung von X: 2 1 ∑ σ̂X = n−1 i (xi − x̄) n·P(ai ) k−1 X,0 wobei Test von Mittelwerten: g = x̄−µ σ̂x̄ g ∼ tn−1 falls X normalverteilt, und g ∼ N(0, 1) falls n → ∞ AIC = −2 · L + 2 · k (dabei ist L die Likelihood des Modells und k die Anzahl der Parameter). © Oliver Kirchkamp BW24.1 Arbeitsgruppenwettbewerb Signifikanztest: Teststatistik g = zweiseitig (H1 : X̄ ̸= µ0 ) α 2 Annahmebereich für g α 2 ( ) Q α2 [ 22. August 2017, 11:35 ] — 44 x̄−µ √0 σ/ n einseitig (H1 : X̄ > µ0 ) Annahmebereich für g ( ) 0 Q 1− α 2 α einseitig (H1 : X̄ < µ0 ) α 0Q(1 − α) Annahmebereich für g Q(α) 0 H0 wird abgelehnt, falls g nicht im Annahmebereich liegt. p-Wert: Teststatistik g = x̄−µ √0 σ/ n zweiseitig (H1 : X̄ ̸= µ0 ) F(−|g|) |g| einseitig (H1 : X̄ > µ0 ) F(−|g|) 0 −|g| p = 2 · F(−|g|) F(−g) 0 g p = F(−g) einseitig (H1 : X̄ < µ0 ) F(g) g 0 p = F(g) H0 wird abgelehnt falls p < α qnorm(x) Konfidenzintervall: qt(x,1) qt(x,2) qt(x,3) Konfidenzintervall qt(x,4) für µ α α qt(x,5) 2 2 ( ) ( ) qt(x,6) X̄ + √σn · Q α2 0 X̄ + √σn · Q 1 − α2 qt(x,7) qt(x,8) H0 : X̄ = µ0 wird abgelehnt, falls µ0 nicht im qt(x,9) Konfidenzintervall liegt. qt(x,10) 0.9 1.28 3.08 1.89 1.64 1.53 1.48 1.44 1.41 1.40 1.38 1.37 0.95 0.975 0.99 0.995 0.9975 0.999 1.64 1.96 2.33 2.58 2.81 3.09 6.31 12.71 31.82 63.66 127.32 318.31 2.92 4.30 6.96 9.92 14.09 22.33 2.35 3.18 4.54 5.84 7.45 10.21 2.13 2.78 3.75 4.60 5.60 7.17 2.02 2.57 3.36 4.03 4.77 5.89 1.94 2.45 3.14 3.71 4.32 5.21 1.89 2.36 3.00 3.50 4.03 4.79 1.86 2.31 2.90 3.36 3.83 4.50 1.83 2.26 2.82 3.25 3.69 4.30 1.81 2.23 2.76 3.17 3.58 4.14 © Oliver Kirchkamp BW24.1 Arbeitsgruppenwettbewerb qchisq(x,1) qchisq(x,2) qchisq(x,3) qchisq(x,4) qchisq(x,5) qchisq(x,6) qchisq(x,7) qchisq(x,8) qchisq(x,9) qchisq(x,10) [ 22. August 2017, 11:35 ] — 45 0.001 0.0025 0.005 0.01 0.025 0.05 0.1 0.9 0.95 0.975 0.99 0.995 0.9975 0.999 0.00 0.00 0.00 0.00 0.00 0.00 0.02 2.71 3.84 5.02 6.63 7.88 9.14 10.83 0.00 0.01 0.01 0.02 0.05 0.10 0.21 4.61 5.99 7.38 9.21 10.60 11.98 13.82 0.02 0.04 0.07 0.11 0.22 0.35 0.58 6.25 7.81 9.35 11.34 12.84 14.32 16.27 0.09 0.14 0.21 0.30 0.48 0.71 1.06 7.78 9.49 11.14 13.28 14.86 16.42 18.47 0.21 0.31 0.41 0.55 0.83 1.15 1.61 9.24 11.07 12.83 15.09 16.75 18.39 20.52 0.38 0.53 0.68 0.87 1.24 1.64 2.20 10.64 12.59 14.45 16.81 18.55 20.25 22.46 0.60 0.79 0.99 1.24 1.69 2.17 2.83 12.02 14.07 16.01 18.48 20.28 22.04 24.32 0.86 1.10 1.34 1.65 2.18 2.73 3.49 13.36 15.51 17.53 20.09 21.95 23.77 26.12 1.15 1.45 1.73 2.09 2.70 3.33 4.17 14.68 16.92 19.02 21.67 23.59 25.46 27.88 1.48 1.83 2.16 2.56 3.25 3.94 4.87 15.99 18.31 20.48 23.21 25.19 27.11 29.59