Wirtschaftsstatistik 2, Gruppe 1, letztes Update am 23. November 2014 Übungsbeispiele für Midterm und Endterm Test Bei dem Midterm und Endterm Test ist nicht das korrekte Ergebnis (Zahl) wichtig, sondern die Schritte und Begründung der einzelnen Schritte in Ihrer Lösung. Versuchen Sie bitte, sich diese zu überlegen. Für manche Beispiele steht auch die Lösung zur Verfügung (rot markiert im Klammern). Ähnliche Beispiele mit Musterlösungen können Sie auch in dem Buch zu diesem Kurs (Brannath, W., Futschik, A., Krall, C., (2010) Statistik im Studium der Wirtschaftswissenschaften. 3. Edition) finden. Die Beispiele, aus dem Buch sind auch für beide Tests relevant. Am Anfang der jeweiligen Kapitel finden sie eine Tabelle mit Beispielen aus diesem Buch, die sie berechnen sollten. Die zweite Zeile in der Tabellen ist für mögliche Korrekturen der Lösungen aus dem Buch. 1 Wahrscheinlichkeitsrechnung Beispiel Korrektur 3.41 - 3.45 - 3.46 - 3.50 - 3.60 - 4.3 - 4.4 - 4.5 - 4.6 - 4.35 - 4.40 - 4.41 - 4.63 - Tabelle 1: Empfohlene Beispiele aus dem Buch. Versuchen Sie beim Beispiel 4.35 zusätzlich den erwarteten Gewinn berechnen, falls Sie 6 Runden spielen und bezahlen 1 e pro Runde für Ihre Teilnahme. Versuchen Sie die Beispiele 4.40 und 4.63 mit binomischer Verteilung zu lösen. Übungsbeispiele: In allen folgenden Aufgaben mit den Würfeln nehmen wir immer an, dass wir die Würfel unterscheiden können1 . Lösen Sie bitte folgende Aufgaben2 : 1. Wir werfen gleichzeitig 4 Würfel. Mit welcher Wahrscheinlichkeit... 1 a) sind alle Augenzahlen an allen Würfeln ungerade? ( 16 ) b) ist die Summe aller Augenzahlen an allen Würfeln zusammen 6? ( 10 ) 64 c) ist die Summe aller Augenzahlen an allen Würfeln zusammen > 5? (Hinweis: Es ist einfacher die Wahrscheinlichkeit des komplementäres Ereignisses zu berechnen.) (1 − 654 ) 2. Mit welcher Wahrscheinlichkeit ist mindestens ein Augenzahl gleich 6 falls wir gleichzeitig 2 11 ) Würfel werfen? ( 36 Schauen Sie sich die Formelsammlung auf meiner Homepage an und benutzen Sie die Formel aus dem Teil Unabhängigkeit und bedingte Wahrscheinlichkeit um folgende Beispiele zu lösen. Hinweis: Bedingte Wahrscheinlichkeit haben wir in Vorlesung nicht erwähnt. Wiederholen Sie die Definition, die Sie im Wirtschaftsstatistik 1 hatten, oder aus bfk (Kap 3.1.4) 1 Überlegen Sie sich bitte, was würde sich verändern, falls wir die Würfel nicht unterscheiden können. Hier brauchen Sie nichts rechnen, nur den Prinzip bitte erklären. 2 Benutzen Sie die Formel aus dem Teil Eigenschafte der Wahrscheinlichkeit aus beiliegender Formelsammlung um Ihre Schritte zu begründen. 1 3. Wir werfen gleichzeitig 2 Würfel. Mit welcher Wahrscheinlichkeit ist mindestens eine von den Augenzahlen gleich 6 unter der Bedingung, dass die Summe beider Augenzahlen gleich 8 ist. Sind die Ereignisse A = Eine von den Augenzahlen ist gleich 6) und B = (Summe beider Augenzahlen ist gleich 8) unabhängig? ( 52 , nicht unabhängig - warum?) 4. Im WS 2 Kurs gibt es 70% Männer und 30% Frauen. Lange Haare tragen 10% der Männer und 80% der Frauen. Mit welcher Wahrscheinlichkeit rufe ich zur Tafel a) jemanden (egal ob Frau oder Mann), der lange Haare hat. (0.31) b) eine Frau, unter der Bedingung, dass ich nur jemanden mit langen Haaren zur Tafel rufe. (0.8) Lösen Sie folgende Probleme: 5. Gegeben ist eine diskrete Zufallsvariable X mit der Verteilung: x1 = −5, mit P (X = −5) = 0.3, X = x2 = 0, mit P (X = 0) = 0.45, x3 = 2, mit P (X = 2) = 0.25, a) Berechnen Sie die Standardabweichung von X b) Berechnen Sie die Verteilungsfunktion F (x) der Zufallsvariablen X und zeichnen Sie sie. c) Berechnen Sie den Erwartungswert der Zufallsvariable Y , falls Y = X 3 . d) Bestimmen Sie die Varianz der Zufallsvariable Z, falls Z = −3X − 1. 6. Ein betrunkener Nachtwächter hat einen Schlüsselbund mit 10 Schlüsseln und will eine Tür aufschließen, in deren Schloss genau einer Schlüssel passt. Er probiert dazu einen zufällig ausgewählten Schlüssel aus. Passt er nicht, so fällt ihm der Schlüsselbund aus der Hand, die Schlüssel durchmischen sich und er wiederholt sein Vorgehen. Sei X der Anzahl der Versuche, bis er den passenden Schlüssel findet. Was ist die Verteilung von X ? 7. Sie haben in Ihrem Geldbeutel 4 Banknoten und zwar: zwei 5 e Banknoten, eine 10 e Banknote und eine 20 e Banknote. Ein Dieb nimmt zufällig zwei Banknoten (egal in welcher Reihenfolge) aus Ihrem Geldbeutel. (Er kann mit derselben Wahrscheinlichkeit jede Banknote nehmen). X ist eine Zufallsvariable, die sagt, wie viel Geld Ihnen genommen wird. a) Schreiben Sie alle mögliche werte der Zufallsvariable X aus. Das heißt: x1 =? e x2 =? e X= .. . xn =? e Wie viele mögliche Werte gibt es? (n =?) Berechnen Sie bitte für jedes k = 1, . . . ,n die Wahrscheinlichkeit P (X = xk ). (P (X = 10) = 16 ,P (X = 15) = 31 , P (X = 25) = 13 , P (X = 30) = 16 ) 2 b) Der Dieb muss nachher 10 e Bestrafung für Falschparken bezahlen. Zuhause nimmt ihm seine Frau noch 45 davon, was er gebracht hat. Y ist eine Zufallsvariable, die uns sagt, wie viel ihm am Ende des Tages übriggeblieben ist. Berechnen Sie die Wahrscheinlichkeit, dass er dann noch auf ein Bier mit seinen Freunden gehen kann d.h. P (Y ≥ 2.5 e) =? (Das Bier kostet nämlich nur 2.5 e). ( 12 ) 8. Bedenken wir die selbe Situation, wie im vorherigen Beispiel (dieselbe Geldbeutel und derselbe Dieb). a) Skizzieren Sie die Verteilungsfunktion F (x) der Zufallsvariablen X. b) Berechnen Sie den erwarteten Verlust sowie varX. (EX = 20 e, varX = 50 e2 ) c) Berechnen Sie den Erwartungswert und die Varianz von Y . (EY = 2 e, varY = 2 e2 ) 9. Eine Zufallsvariable X hat die Verteilung mit folgender Dichtefunktion: ( 2c + 2x für 0 ≤ x ≤ 1, f (x) = 0 sonst. a) Zeigen Sie, dass f (x) eine Dichtefunktion ist nur wenn c = 0. (Hinweis: Benutzen Sie eine der R1 Eigenschaften der Dichtefunktion) 0 f (x)dx = 1 nur falls c = 0 warum? b) Berechnen Sie E X. (E X = 2/3) c) Zeichnen Sie f (x) im [x,f (x)] Koordinatensystem, wobei 0 ≤ x ≤ 1. Wo liegt E X auf Ihrem Bild? d) Berechnen Sie den Median der Verteilung von X ohne die Verteilungsfunktion zu berechnen. Wo liegt der Median auf Ihrem Bild? (Hinweis: Die Fläche unter der f (x) ist Sn = a∗b 2 und es entspricht der Wahrscheinlichkeit P (0 ≤ X ≤ 1). Median ist so ein Zahl, dass p P (median ≤ X) = 1/2 ). (median = 1/2) 10. Eine Zufallsvariable X hat die Verteilung mit folgender Dichtefunktion: c ∗ e−x/5 falls x > 0, f (x) = 0 sonst. a) Berechnen Sie die Konstante c, so dass f (x) eine Dichtefunktion ist. (Hinweis: Benutzen Sie eine der Eigenschaften der Dichtefunktion, die wir in der Vorlesung erwähnt haben.) (c = 51 ) b) Berechnen Sie die Verteilungsfunktion dieser Zufallsvariablen und versuchen Sie den Graphen dieser Funktion zu skizzieren. 1 − e−x/5 falls x > 0, F (x) = 0 sonst. 3 c) Berechnen Sie EX und var(X). (EX = 5, varX = 25) d) Berechnen Sie die Quantilsfunktion und den Median. Versuchen Sie den Graphen der Quan1 ), wobei 0 ≤ α ≤ 1. Median ist F −1 (0.5) = tilsfunktion zu skizzieren. (F −1 (α) = 5 log( 1−α 3.47) 2 Die Normalverteilung Beispiel Korrektur 4.42 - 4.43b) - 4.44 - 4.45 % 4.47 - Tabelle 2: Empfohlene Beispiele aus dem Buch: Für das Beispiel 4.45 gibt es mindestens 3 gute Lösungswege. Probieren sie alle drei und enscheiden Sie sich, welche war die einfachste. Bei mir waren bei allen drei die Ergebnisse unterschiedlich von dem im Buch. ( Bi: 0.908, Poi: 0.907, N: 0.921). Übungsbeispiele: Die Werte der Verteilungsfunktion Φ(x) für die Standardnormalverteilung und t−Verteilung finden Sie in bfk2010 (die Seiten 318-319). 1. Die Zufallsvariable X sei standardnormalverteilt. Mit welcher Wahrscheinlichkeit: a) Ist X kleiner als 1? (84%) b) Liegt X zwischen 1 und 2? (13%) c) Ist X entweder größer als 2 oder kleiner als −2? (4%) 2. Wie verändert sich das Ergebnis im Beispiel 1c) falls X ∼ N (−1.5,2). (Es wäre 38%) 3. Wir betrachten eine Zufallsstichprobe X1 , . . . , Xn , wobei Xi ∼ N (µ,σ 2 ) für jede i = 1, . . . ,n. a) Mit welcher Wahrscheinlichkeit ist X̄n kleiner als die Konstante µ? (50%) b) Wie groß muss unsere Zufallsstichprobe sein (d.h. n =?), so dass P (X̄n > 0) = 99%, angenommen dass µ = 4 und σ 2 = 1? (n ≥ 1) In der folgenden Aufgabe sollten Sie die Zentrale Grenzwertsatz benutzen. Die Fragestellung hier ist anders als die im Beispiel aus der Vorlesung. Überlegen Sie sich, was Sie eigentlich berechnen sollen. 4. Eine Kiste enthält 5000 Schrauben, von denen 250 ein defektes Gewinde besitzen. Aus der Kiste werden 100 Schrauben ohne Zurücklegen entnommen. a) Welche exakte Verteilung besitzt die Zufallsvariable X, die Anzahl der defekten Schrauben unter den 100 gezogenen ergibt? Durch welche Verteilung lässt sich diese exakte Verteilung approximieren? 4 b) Berechnen Sie approximativ die Wahrscheinlichkeit, dass maximal 3 Schrauben unter den gezogenen defekt sind. 5. Ein Beamter verlässt an den 225 Arbeitstagen eines Jahres sein Büro immer erst kurz nach Dienstschluss. Die Dauern der täglichen zusätzlichen Arbeitszeiten lassen sich jeweils durch exponentialverteilte Zufallsvariablen X1 , . . . , X365 mit einem Erwartungswert von 5 Minuten angemessen beschreiben und sind unabhängig. a) Berechnen Sie die Parameter µ und σ 2 der Normalverteilung, die Sie durch Zentrale Grenzwertsatz an X1 , . . . , X365 bekommen. b) Berechnen Sie (approximativ3 ) die Wahrscheinlichkeit, dass unser Beamter in einem Jahr mehr als 16 Stunden zusätzlich arbeitet. 6. Eine Firma hat 100 Kunden. Jeder Kunde bezahlt der Firma einen Betrag für das nächste Jahr. Die Zufallsvariable Xi entspricht der Zahlung des i-ten Kunden. Wir nehmen an, dass die Zufallsvariablen X1 , . . . ,X100 unabhängig sind mit EXi = µ = 170e und varXi = σ 2 = 2500e2 . a) Bezeichnen wir als G die Gesamteinnahmen der Firma. Wie kann man mit Hilfe P100der Zufallsvariablen X1 ,...,X100 die Gesamteinnahmen G der Firma ausdrücken? ( G= i=1 Xi ) b) Bezeichnen wir mit A die Gesamtausgaben der Firma. Wie groß können diese sein, sodass sie mit einer Wahrscheinlichkeit von 90% nicht die Gesamteinnahmen der Firma übersteigen? Mit anderen Worten, berechnen Sie A, so dass P (G ≥ A) = 90%. (A ≤ 16360 e) c) Schreiben Sie drei Annahmen des Satzes, den Sie in diesem Beispiel benutzen. 7. Sie wollen Ihre eigene Firma mit 100 Angestellten gründen. Jeder von Ihren Angestellten würde einen Gehalt ungefähr in der Höhe von 1400 e (netto) monatlich erwarten. Die Standardabweichung σ des Gehaltswunsches eines Angestellten ist 300 e. Mit wenigstens wie viel Geld sollten Sie beim Budgetentwurf für die Lohnausgaben rechnen, so dass Sie diese Ausgaben mit der Wahrscheinlichkeit von 99% nicht unterschätzen? (146990 e) 3 Schätzverfahren Beispiel Korrektur 5.13 - 5.14 - 5.15 - 5.16 - 5.27 - 5.30 - 5.32a)b)c) - Tabelle 3: Empfohlene Beispiele aus dem Buch: Bemerken Sie, dass Sie im Beispiel 5.13 die Zentrale Grenzwertsatz haben. Auf welcher Stelle? Übungsbeispiele: In den folgenden Aufgaben haben Sie oft einen Teil des Outputs vom statistischen Software R zur Verfügung. 3 Da wir nicht ∞ viele Beobachtungen haben, sondern nur 365, ist unsere Ergebnis nicht exakt, sondern nur approximativ. 5 1. Jetzt ist es schon ein paar Jahren als Sie Ihre Firma gegründet haben. Der Firmenvorstand wollte jetzt die Gehaltspolitik der Firma anschauen und beurteilen. Dafür haben Sie eine Umfrage bei Ihren Angestellten durchführen. Die Ergebnisse dieser Umfrage werden Ihnen später helfen Ihre Gehaltspolitik und anschließend auch die Personalpolitik zu optimieren. Die Datenbank (zufriedenheit.txt) mit den Ergebnissen der Umfrage beträgt folgende Variable: Id Geschlecht Dauer Zufriedenheit Ausbildung Gehalt die Identifikationsnummer des Angestellten (1 bis 100) das Geschlecht des Angestellten (Frau, Mann) die Dauer, die der Angestellte in Ihren Firma schon arbeitet (in Jahren) die Zufriedenheit des Angestellten mit der Firma (zufrieden, eher zufrieden, eher unzufrieden, unzufrieden) die erreichte Ausbildung (Grundschule, Matura, Diplom) monatlicher Gehalt (in e ) a) Schauen Sie sich die Daten gut an. Welche(n) von den Variablen konnten wir als stetige Variable behandeln? (Gehalt) b) Folgender Output zeigt die geschätzte Quantile der Variable Gehalt. Quantil 0% 5% 10% 25% 50% 75% 90% 95% 100% Gehalt 685.9 948.6 1038.8 1189.1 1371.8 1611.0 1875.0 1933.8 2162.1 Wie viel muss ein Angestellte monatlich verdienen, so dass er zwischen 5% Angestellten ist, die am besten verdienen? (mindestens 1933.8) c) An der Abbildung 1 sind zwei Boxplot Grafiken. Beide bilden die geschätzte Quantile der Variable Gehalt ab, ein für die Männer und ein für die Frauen in Ihrer Firma. Überlegen Sie sich ob wir daraus schließen konnten, dass der Gehalt von Geschlecht des Angestellten abhängt. Warum ja/nein? (Hinweis: die Mediane vergleichen) d) An der Abbildung 2 ist das Histogramm der Variable Gehalt. Überlegen Sie sich ob Sie daraus schließen konnten, dass diese Variable normalverteilt ist. Warum ja/nein? (Hinweis: mit der Glockenkurve vergleichen) e) Konstruieren Sie das 95% Konfidenzintervall für den Erwartungswert der Variable Gehalt. Welche Quantile brauchen Sie hier? (Vorsicht, die Varianz σ 2 kennen wir nicht und müssen es aus den Daten schätzen d.h. statt σ 2 müssen wir den Schätzer s2 benutzen!) Interpretieren Sie dieses Intervall. (Hinweis: s = 308.84,X̄n = 1408.45, Qt99 (97.5%) = 1.98) (KI= (1347.17, 1469.72)) f) Würde sich die Länge des Konfidenzintervalles verändern, falls wir für Überdeckungswahrscheinlichkeit 99% ( statt üblichen 95%) wählen? (Ja, KI wird breiter.) 2. Wie verändert sich das Konfidenzintervall für den Mittelwert einer normalverteilten Zufallsvariablen X mit bekannter Varianz, wenn folgende Größen erhöht werden: a) Überdeckungswahrscheinlichkeit. ( KI wird breiter.) b) Stichprobenumfang n. ( KI wird enger.) 6 c) Varianz σ 2 der Zufallsvariablen X. (KI wird breiter.) 3. Eine Maschine produziert Fahrradschläuche. Der Durchmesser der Fahrradschläuche ist vom Zufall abhängig und normalverteilt mit den Parametern µ und σ 2 = 9cm2 . Wir haben eine Stichprobe von 25 zufällig ausgewählten Fahrradschläuchen mit mittleren Durchmesser von 41 cm. a) Geben Sie explizit das KI für µ zum Niveau k% an. b) Bestimmen Sie das KI explizit für k = 10% c) Wie groß muss man den Stichprobenumfang wählen, damit das KI aus b) maximal 1cm breit wird? 4 Testverfahren Beispiel Korrektur 6.19 - 6.20 - 6.22 - 6.23 - 6.25 - 6.26 - Tabelle 4: Empfohlene Beispiele aus dem Buch. Im Beispiel 6.20 brauchen Sie die Fragestellung nicht aus dem Konfidenzintervall ermitteln sondern einen statistischen Test verwenden. ID Gehalt 3 1400.67 4 949.47 5 1299.6 6 1659.47 7 1191.93 8 1255.8 9 1466.87 10 1368.67 11 1168.27 Tabelle 5: Das Gehalt von 10 ausgewählten Angestellten. Übungsbeispiele: 1. In der Tabelle 5 haben wir, als repräsentative Stichprobe, 10 von unseren Angestellten ausgewählt. Xi ist eine Zufallsvariable, die das Gehalt von i-ten Angestellten repräsentiert. Wir nehmen an, dass Xi ∼ N (µ, σ 2 ) und dass Xi voneinander unabhängig sind. Benutzen Sie die Tabelle 5: a) Um den Punktschätzer für µ und σ zu bestimmen. Vergleichen Sie ihre Werte mit den Werten, die der Software R aus der gesamten Datenbank berechnet hat, d.h. mit X̄n = 1408.45 und s = 308.84. (X̄n = 1352.2, s = 238.3) b) Zentrieren Sie Ihren neuen Punktschätzer für µ und bestimmen Sie dessen Verteilung. (Beachten Sie den Unterschied zwischen zwei Fällen : Entweder σ = 300 oder σ ist unbekannt.) √ √ ( n X̄nσ−µ ∼ N (0,1), n X̄ns−µ ∼ t9 ) c) Benutzen Sie Ihre neue Punktschätzer aus 1b), um den 90% Konfidenzintervall für µ zu bestimmen. Sagen Sie auch explizit, welche Quantile Sie benutzt haben. (Falls σ− bekannt, d.h. QN (0,1) (95%) = 1.65 und das KI = (1195.7,1508.7), σ− unbekannt, d.h. Qt9 (95%) = 1.83 und das KI = (1214,1490.3) ) 7 12 1761.2 2. Mit den Annahmen aus dem vorherigen Beispiel, berechnen Sie die konkrete Werte der Teststatistik und Ablehnungsbereich für den Test der Hypothese H0 : µ = 1500 mit Signifikanzniveau α = 5% 10%, wobei σ 2 unbekannt ist. (Hinweis : schauen Sie sich auch die Seite 173 aus dem Buch bfk2010 an). a) Finden Sie die passende Alternativhypothese. (H1 : µ 6= 1500) b) Entscheiden Sie, ob wir die H0 auf dem 5% 10%4 Testniveau verwerfen sollten. (Verwerfen, da | T |> Qt9 (95%), wobei T = −1.96.) c) Den p-Wert dieses Tests finden wir im Software Output: p-Wert = 0.038 0.0815 Benutzen Sie p-Wert um nochmal die H0 zu beurteilen. (Das Signifikanzniveau bleibt α = 5%) (Verwerfen, da α > p−Wert ist5 .) ID vorher nachher 1 10 0 2 15 10 3 5 0 4 5 5 5 20 25 Tabelle 6: Die Messung des Gewaltindex an 5 Personen vor und nach dem Trainingsprogramm. 3. Zur Beurteilung eines Trainingsprogramms zur friedlichen Lösung sozialer Konflikte wird an 5 Personen die jeweilige Gewaltneigung vor und nach dem Programm miteinander Verglichen. Zur Messung wird ein normalverteilter Index verwendet. Dabei ergaben sich folgende Werte ( sehe 6). Lässt sich zum Signifikanzniveau von 5% bestätigen, dass diese Maßnahme erfolgreich war? 5 Korrelation, Einfachregression und Dummy Variablen Beispiel Korrektur 7.1 - 7.2 - 7.8a)b)e) - 7.10 - 7.11 - 7.12a)c) - 7.13a) - 7.14a) - 7.16a)c)d) - 7.18a)b)c)e) - Tabelle 7: Empfohlene Beispiele aus dem Buch. In dem Beispiel 7.8 brauchen Sie nur das Konfidenzinterval ausrechnen und im Beispiel 7.10 brauchen Sie kein Konfidenzinterval für die Vorhersage, sondern nur die individuelle Vorhersage ausrechnen. Dauer Gehalt 21 1400.67 5 949.47 11 1299.6 28 1659.47 10 1191.93 12 1255.8 7 1466.87 13 1368.67 1 1168.27 Tabelle 8: Dauer (in Jahren) und Gehalt (in Euro) von 10 ausgewählten Angestellten. Übungsbeispiele: Für diese Beispiele sind auch die Seiten (198 bis 203) und (206 bis 208) aus dem Buch relevant. Sie werden auch die Formeln aus der Folien zur Einfachregression brauchen. 4 Hier war vorher 5% Testniveau. Da müssten wir aber die Teststatistik mit dem Qt9 (97.5%) vergleichen. Würde sich dann das Testergebnis ändern? Ja, da |T | < Qt9 (97.5%) = 2.262. Sie sehen, dass das Testergebnis auch davon abhängt, welches Testniveau wir uns wählen. 5 Allgemein ein statistischer Test liefert uns nur eine Entscheidung über H0 egal ob wir p-Wert oder Ablehnungsbereich verwenden. 8 29 1761.2 5.1 Korrelation 1. Gegeben sind zwei normalverteilte Zufallsvariablen X1 ∼ N (−1, 9) und X2 ∼ N (1, 1). Sie wissen auch, dass Corr(X1 , X2 ) = 0. Welche der Abbildungen A, B, C, D (sehe 6) könnte den zweidimensionalen Daten [x1 , x2 ] entsprechen, wobei x1 ist Realisation von X1 und x2 ist Realisation von X2 ? 5.2 Einfachregression 2. In der Tabelle 8 haben wir, als repräsentative Stichprobe, 10 von den Angestellten, die bei uns in der Firma arbeiten, ausgewählt. Lassen wir Xi die Dauer (die der Angestellte in den Firma schon arbeitet) und Yi das Gehalt von i-ten Angestellten repräsentieren. In der Tabelle 8 haben wir also statistische Daten, die als Beobachtungspaaren dargestellt sind (xi ,yi ) für 1 ≤ i ≤ 10. Wir werden untersuchen wie ( und ob) die Dauer, die man in Firma schon arbeitet, die Höhe seines Gehalts beeinflusst. Dafür benutzen wir den linearen Einfachregressionsmodell (Seite 199): Yi = β0 + β1 Xi + εi . (1) Um unseres Modell zu konstruieren, brauchen wir uns folgendes zu überlegen: a) Welche von den zwei Variablen nehmen wir als unabhängige (Regressor) und welche als abhängige (Regressand)? (abh: Gehalt, unabh: Dauer) b) Welche zwei Voraussetzungen werden an die Störterme εi in (1) genommen? c) Schauen Sie sich die Abbildung 3 an. Geben Sie kurzes Kommentar dazu, ob es ein Zusammenhang ergibt, über die stärke dieses Zusammenhangs, über die Linearität und möglichen Ausreißer. (Proporz. lineare Bezieh.) d) Versuchen Sie den Objekten in der Abbildung 3 die Symbole aus der Vorlesung zuzuordnen. e) Benutzen Sie die Daten aus der Tabelle 8 und die Formel (7) aus den Folien zur Vorlesung, um die Parameter β0 und β1 zu schätzen. Interpretieren Sie graphisch und inhaltlich den Wert des Punktschätzers für β1 . Benutzen Sie die Formel (8) aus der Folien um die Varianz von εi zu schätzen. (β̂0 = 1061, β̂1 = 21.26, Sε2 = 18830.7) f) Versuchen Sie, das 99% Konfidenzintervall für den Parameter β1 zu finden. (das 99% KI= (4.96,37.55)) 3. Unserer Vorstand möchte von uns wissen, ob es einen positiven Zusammenhang zwischen Dauer und Gehalt gibt. Gehen wir nur aus der Daten aus der Tabelle 8 aus. a) Welche Null- und Alternativhypothese passen zur Fragestellung der Vorstand?(Ob der Zusammenhang positiv ist, hängt von einen von den Parametern β0 und β1 ab.) (H0 : β1 ≤ 0, H1 : β1 > 0) b) Welchen Wert hat die Teststatistik? (Hinweis: Formel (11) aus der Folien.) T = 4.38 9 c) Mit welchem Quantil wird der Wert der Teststatistik verglichen, falls wir als Testniveau α = 5% nehmen? ( Wir benutzen Qt8 (95%) = 1.86, da die Hypothese einseitig ist, sonst wäre es Qt8 (97.5%).) d) Wie lautet die Entscheidung nach dem Test? (H0 verwerfen. Auf dem Testniveau α = 5% bestätigen wir einen positiven lin. Zusammenhang zwischen Gehalt und Dauer) 4. Wir werden nun Spezialfälle der Einfachregression analysieren. a) Sei Yi = β0 + εi , für i = 1, . . . ,n. (Regression ohne echten Regressor). Bestimmen Sie durch die Methode der Kleinsten Quadraten den Schätzer für β0 . b) Sei Yi = β1 xi + εi , für i = 1, . . . ,n. (Regression ohne Konstante). Bestimmen Sie durch die Methode der kleinsten Quadraten den Schätzer für β1 . (β̂1 = xȳ¯nn ). 5. Gegeben ist eine Stichprobe von 400 Kindern aus Indien aus den Jahren 2005/06. Es interessiert uns der Zusammenhang zwischen Variablen Alter (cage) und Größe (cheight). Der statistische Software R liefert uns folgendes Output. Coefficients: Estimate Std. Error t value P-value (Intercept) 61.0576 0.83144 73.43 <2e-16 **** cage 0.70859 0.02418 29.30 <2e-16 **** --Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1 Residual standard error: 8.139 on ??? degrees of freedom Multiple R-squared: 0.6833, Adjusted R-squared: 0.6825 F-statistic: 858.7 on 1 and 398 DF, p-value: <2.2e-16 a) Geben Sie die hier geschätzte Regressionsgleichung explizit an. b) Versuchen Sie die geschätzte geschätzte Regressionsgerade in ein Streudiagramm zu skizzieren. c) Welche Zahl würde man auf der Stelle ??? finden? d) Konstruieren Sie das 99% KI für den Parameter β1 . e) Überprüfen Sie, ob es zum Signifikanzniveau von α = 5% einen signifikanten Zusammenhang zwischen dem Alter und Körpergröße gibt. 5.3 Dummy Variablen 6. Eine Regression von durchschnittlichen Stundenlöhnen Y , hier gemessen in Dollar pro Stunde, auf eine unabhängige Variable X: (X = 1 falls Person einen höheren Schulabschluss hat, X = 0 falls nicht) ergab: Ŷ = 8.11 + 6.20X. Ein statistisches Software liefert uns noch Sβ̂1 = 0.85 und R2 = 0.15. a) Was bedeutet Wert 8.11? b) Was bedeutet Wert 6.20? c) Liefert diese Regression statistisch signifikante Evidenz, dass Arbeiter mit höherem Schulabschluss im Durchschnitt mehr verdienen als Arbeiter ohne höheren Schulabschluss? Warum? 10 d) Wenn man statt durchschnittlicher Stundenlöhne Y durchschnittliche Wochenlöhne verwendet hätte, wobei YW ochen = 40 ∗ YStunden , welcher Folgen hätte es auf R2 ? (Begründen Sie Ihre 2 2 Antwort dadurch, dass Sie die RW ochen − RStunden berechnen.) 7. Die Abbildung 7 bildet 100 Beobachtungen ab, die wir durch ein Regressionsmodell mit Dummy Variable D modellieren. a) Schreiben Sie die Formell eines passendes Regressionsmodells, wo: yi ist die abhängige Variable, xi (= i) und Di sind die unabhängigen Variablen. b) Schreiben Sie, wozu benutzt man die Variable Di in dieser Situation und welche Werte die Variable Di annimmt (abhängig von i). c) ŷi (für i = 1, . . . ,100) sind die Punktschätzer für yi aus dem Modell aus 2a). Berechnen Sie den Wert der Residuen e40 = y40 − ŷ40 . (Hier bitte ausführlich Ihre Berechnung aufschreiben.) 6 Mehrfachregression Beispiel Korrektur 8.17 - 8.18 - 8.19 - 8.21 - 8.22a)c) - 8.23a)b)c)d)e) - 8.24a)b)c)e) - 8.26a)b)c)d)g) - Tabelle 9: Empfohlene Beispiele aus dem Buch. Übungsbeispiele: 1. Die Gleichungen (7) im Mehrfache regression.pdf definieren die Matrix Notation, die (vor allem) in Mehrfachregression benutzt wird. Trotzdem kann man es auch zum Beschreibung der Einfachregression benutzen. Das Modell hat dann die Formel: Y = Xβ + ε, wobei: 1 x1 y1 ε1 1 x2 Y = ... , X = . . ,ε = ... . . . . . yn εn 1 xn Lösen Sie die folgende Aufgaben allgemein (d.h. ohne konkrete Werte einzusetzen) nur mit Symbolen xij , yj , β̂j ). Die Lösung finden Sie auf meiner hompage. a) Wie schaut für dieses Modell der Vektor β aus? b) Berechnen Sie das Produkt X t X c) Berechnen Sie die Inverse (X t X)−1 d) Berechnen Sie das Produkt X t Y e) Berechnen6 Sie das Produkt (X t X)−1 X t Y 6 Falls Sie diese Aufgabe gelöst haben, haben Sie den optimalen Schätzer für den Vektorparameter β gefunden. 11 f) Formen Sie Ihr Ergebnis aus 1e) um, so dass es den Gleichungen (7) aus Einfach regression.pdf entspricht. 2. In einer Datenbank haben wir Daten über 11 Patienten. Die Variablen sind Folgende: systolic die Höhe des systolisches Blutdrucks weight das Gewicht (kg) age das Alter (Jahren) Wir wollen mit der Mehrfachregression die Abhängigkeit der Variable systolic von weight und alter untersuchen. Der statistische Software R liefert uns folgendes Output. Coefficients: Estimate Std. Error t value P-value (Intercept) 31.0782 11.9190 2.607 0.03125 age 0.8640 0.2474 3.493 0.00817 weight 0.6739 0.2631 2.561 0.03357 --Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 * ** * ‘.’ 0.1 ‘ ’ 1 Residual standard error: 2.319 on 8 degrees of freedom Multiple R-squared: 0.9768, Adjusted R-squared: F-statistic: 168.7 on 2 and 8 DF, p-value: 2.878e-07 0.971 a) Geben Sie die hier geschätzte Regressionsgleichung explizit an. b) Versuchen Sie die geschätzte Parameter interpretieren. c) Konstruieren Sie das 95% KI für den Parameter β2 . d) Ist (laut unseres Modell) der Blutdruck von Alter und Gewicht abhängig? (Begründen Sie in einer Satz Ihre Entscheidung). e) Prognostizieren Sie den Blutdruck eines Patienten der 90 kg wiegt und 50 Jahren alt ist. 3. In unserer Datenbank gibt es Daten über n Studenten. Die Variable sind folgende: Gewicht das Gewicht (kg) Körpergröße die Körpergröße (cm) IQ der Quotient der Intelligenz Gehirn die Größe des Gehirns (Kilo-Pixels) Wir wollen mit der Mehrfachregression die Abhängigkeit der Variable IQ von Gewicht, Körpergröße und Gehirn untersuchen. Das statistische Software R liefert uns folgenden Output (wobei NA heißt, dass diese Werte nicht zur Verfügung stehen): Coefficients: Estimate Std. Error t value Pr(>|t|) (Intercept) 117.41 67.76 1.733 0.09219 Gehirn 0.20 0.06 3.393 NA Gewicht -0.14 0.47 -0.304 0.76334 -1.04 0.52 -1.996 0.05397 Körpergröße --Residual standard error: 21.3 on 34 degrees of freedom Multiple R-squared: 0.2649, Adjusted R-squared: F-statistic: 4.85 on 3 and 34 DF, p-value: NA a) Geben Sie die hier geschätzte Regressionsgleichung explizit an. b) Bestimmen sie, wie viele Studenten es in der Datenbank gibt, d.h. n =?. 12 0.2001 c) Interpretieren Sie in einem Satz den geschätzten Koeffizienten β̂3 (Koeffizient bei der Variable Körpergröße). d) Bestimmen Sie das 95% Konfidenzintervall für β3 . e) Welche Variablen haben laut dem Output kein signifikantes (α = 5%) Einfluss auf IQ? f) Können wir auf dem Signifikanzniveau α = 5% unser Modell als signifikant bezeichnen? Begründen Sie. g) Prognostizieren Sie IQ eines Menschen, der 100kg wiegt, 180cm groß ist mit Gehirngröße von 900 Kilo-Pixels. h) Sie stellen fest, dass der Korrelationskoeffizient zwischen Gewicht und Körpergröße rx1 ,x2 = 0.91. Hat diese Tatsache irgendwelchen Einfluss auf die Qualität der Prognose y∗? Antworten Sie Ja (oder Nein) + Warum / unter welche(n) Annahme(n). i) Sei dass der Korrelationskoeffizient zwischen Gewicht und Körpergröße rx2 ,x3 = 0.91. Welchen Einfluss auf die Interpretation der Parameter β2 und β3 hat diese Tatsache. j) Sei, dass der Korrelationskoeffizient zwischen Gewicht und Körpergröße rx2 ,x3 = 0.91. Wie nennt man dieses Phänomen (angenommen, dass wir diese zwei Variable als Regressoren benutzen)? k) Sei dass der Korrelationskoeffizient zwischen Gewicht und Körpergröße rx2 ,x3 = 0.91, würde die Regressionsgerade für die Variablen Gewicht und Körpergröße steigen oder sinken? Begründen Sie in einem Satz. l) Beim Überprüfen der Modellannahmen stellen Sie fest, dass die Residuen nicht normal-verteilt sind. Ist es trotzdem möglich, die Testergebnisse zu verwenden? Begründen Sie. Hinweiss: Hier kann die Zentrale Grenzwertsatz helfen. 7 Einfache Varianzanalyse Beispiel Korrektur 9.4 - 9.5 - 9.6 - 9.10 - 9.11 - 9.12 - 9.13 - Tabelle 10: Empfohlene Beispiele aus dem Buch. Übungsbeispiele: 1. Unsere Datenbank (smokers.txt) beinhaltet die Prozenten der Raucher (Smokers) für entsprechende Kombination von zwei Faktoren: Income und Age. Die einzelne Variablen (Faktoren) sind in der Tabelle oben beschrieben. In den folgenden Aufgaben interessiert uns, ob die Prozentzahl der Raucher von Alter abhängig ist. D.h., ob sich die Prozenten der Raucher in den drei Stufen (young, middle, old) signifikant unterscheiden. a) Überlegen Sie sich, welche zwei Methoden kennen Sie, womit Sie die signifikante Abhängigkeit von zwei Variablen untersuchen könnten.(Sie brauchen es aber jetzt nicht untersuchen.) (Hinweis: Erinnert euch an den Beispiel 5 aus der Beispielserie 3 und Beispiel 3 aus Beispielserie 6.) 13 Variable (Faktor) Smokers Income Age Werte (Faktorstufen) 0% bis 100% < 5000 (. . . 1) 5001 bis 9999 (. . . 2) 10000 bis 14999 (. . . 3) 15000 bis 24999 (. . . 4) ≥ 25000 (. . . 5) 17 bis 30 (. . . young) 31 bis 64 (. . . middle) ≥ 65 (. . . old) Beschreibung die Prozentzahl der Raucher das jährliche Einkommen (in $) das Alter der Raucher Tabelle 11: Die Beschriftung der Datenbank smokers.txt b) Warum kann man für diesen Fall nur eine von den beiden Methoden verwenden? Welche? (Hinweis: Es geht um die Anzahl der möglichen Werten bei der Variable Age.) c) Um die Wirkung von Alter auf die Prozentzahl der Raucher zu beurteilen, schauen wir uns zuerst die Abbildung 4 an. Bei Welchen Gruppen sehen wir den Unterschied am besten? d) Auch die Varianzanalyse können wir als ein statistisches Model bezeichnen. Und auch dieses Model hat bestimmte Annahmen an die Daten. Nur falls diese Annahmen erfüllt sind, kann man die Ergebnisse wahrnehmen. Die drei Annahmen sind: 1.) Die Unabhängigkeit zwischen Stichproben. 2.) Die Normalität der einzelnen Stichproben. 3.) Die gleiche Varianzen zwischen Stichproben. Versuchen Sie die zweite Annahme mittels Abbildung 5 zu beurteilen. e) Um die zweite Annahme auch formal zu überprüfen, benutzen wir s.g. Shapiro-Wilk test. Die Nullhypothese hier ist Normalität. Statistisches Software R liefert und für dieses Test die pWert= 0.975. Stimmt diese Ergebnis damit was Sie aus dem Histogramm schließen? Falls nicht, welche Entscheidung würden Sie schließlich treffen? f) Versuchen Sie die drei Annahmen des Shapiro-Wilk Tests (z.B. im Internet) aussuchen und überprüfen. 2. In einer Datenbank gibt es Daten über 85 amerikanische Fußballspieler aus fünf verschiedenen Mannschaften. Die Datenbank hat folgende Spalten: Id Gewicht Mannschaft die Identifikationsnummer des Sportlers (1 bis 85) das Gewicht des Sportlers der Name der Mannschaft Es interessiert uns ob sich die Gewichte der Sportler zwischen den Mannschaften unterscheiden. a) Geben Sie die H0 und H1 zur einfachen Varianzanalyse an, mit der wir den Einfluss der Variable Mannschaft auf das Gewicht untersuchen können. b) Schreiben Sie die drei Annahmen dieses Verfahren auf. c) In dem Softwareoutput für die einfache Varianzanalyse steht folgende Tabelle: 14 Mannschaft Residuals Total Df Sum Sq Mean Sq F value Pr(>F) ? 353 88.15 ? 0.189 ? ? 55.97 ? 4830 Ersetzen Sie die Fragezeichen in der zweiten Spalte durch die richtigen Freiheitsgrade. d) Wie hängen die zwei Summen SQA und SQR mit der gesamten Varianz in den Daten zusammen? e) Ersetzen Sie das Fragezeichen in der dritten Spalte durch den richtigen Wert der SQR. f) Ersetzen Sie das Fragezeichen in der fünften Spalte durch den richtigen Wert der Teststatistik. g) Treffen Sie eine Entscheidung (Testniveau α = 5%) über die H0 und begründen Sie diese Entscheidung kurz. 15 8 Zeitreihenanalyse . . . on the way... 16 2000 Gehalt 1500 1000 Frau Mann Abbildung 1: Der Boxplot der Variable Gehalt für die Männer und Frauen. 17 25 20 15 frequency 10 5 0 1000 1500 2000 Abbildung 2: Das Histogram der Variable Gehalt. 1.5 + 1.0 0.5 0 2 4 6 8 10 12 14 Abbildung 3: Das Streudiagramm für ausgewählte Daten aus der Datenbank Zufriedenheit.txt. 18 40 35 30 15 20 25 Smokers middle old young Age Abbildung 4: Der Boxplot der Variable Smokers für die drei Faktorstufen des Faktors Age. 2 1 0 Frequency 3 4 Histogram of residuals −8 −6 −4 −2 0 2 residuals Abbildung 5: Histogram der Residuen. 19 4 6 Abbildung 6: Das Streudiagam der Daten x1 ∼ X1 und x2 ∼ X2 . y 100 80 60 40 20 20 40 60 80 100 Abbildung 7: Das Streudiagramm der Variablen x und y 20 x