Wirtschaftsstatistik 2, Gruppe 1, letztes Update am 23. November

Werbung
Wirtschaftsstatistik 2, Gruppe 1, letztes Update am 23. November 2014
Übungsbeispiele für Midterm und Endterm Test
Bei dem Midterm und Endterm Test ist nicht das korrekte Ergebnis (Zahl) wichtig, sondern die Schritte
und Begründung der einzelnen Schritte in Ihrer Lösung. Versuchen Sie bitte, sich diese zu überlegen.
Für manche Beispiele steht auch die Lösung zur Verfügung (rot markiert im Klammern). Ähnliche
Beispiele mit Musterlösungen können Sie auch in dem Buch zu diesem Kurs (Brannath, W., Futschik, A.,
Krall, C., (2010) Statistik im Studium der Wirtschaftswissenschaften. 3. Edition) finden. Die Beispiele,
aus dem Buch sind auch für beide Tests relevant. Am Anfang der jeweiligen Kapitel finden sie eine
Tabelle mit Beispielen aus diesem Buch, die sie berechnen sollten. Die zweite Zeile in der Tabellen ist
für mögliche Korrekturen der Lösungen aus dem Buch.
1
Wahrscheinlichkeitsrechnung
Beispiel
Korrektur
3.41
-
3.45
-
3.46
-
3.50
-
3.60
-
4.3
-
4.4
-
4.5
-
4.6
-
4.35
-
4.40
-
4.41
-
4.63
-
Tabelle 1: Empfohlene Beispiele aus dem Buch.
Versuchen Sie beim Beispiel 4.35 zusätzlich den erwarteten Gewinn berechnen, falls Sie 6 Runden
spielen und bezahlen 1 e pro Runde für Ihre Teilnahme. Versuchen Sie die Beispiele 4.40 und 4.63 mit
binomischer Verteilung zu lösen.
Übungsbeispiele: In allen folgenden Aufgaben mit den Würfeln nehmen wir immer an, dass wir die
Würfel unterscheiden können1 . Lösen Sie bitte folgende Aufgaben2 :
1. Wir werfen gleichzeitig 4 Würfel. Mit welcher Wahrscheinlichkeit...
1
a) sind alle Augenzahlen an allen Würfeln ungerade? ( 16
)
b) ist die Summe aller Augenzahlen an allen Würfeln zusammen 6? ( 10
)
64
c) ist die Summe aller Augenzahlen an allen Würfeln zusammen > 5? (Hinweis: Es ist einfacher
die Wahrscheinlichkeit des komplementäres Ereignisses zu berechnen.) (1 − 654 )
2. Mit welcher Wahrscheinlichkeit ist mindestens ein Augenzahl gleich 6 falls wir gleichzeitig 2
11
)
Würfel werfen? ( 36
Schauen Sie sich die Formelsammlung auf meiner Homepage an und benutzen Sie die Formel aus
dem Teil Unabhängigkeit und bedingte Wahrscheinlichkeit um folgende Beispiele zu lösen.
Hinweis: Bedingte Wahrscheinlichkeit haben wir in Vorlesung nicht erwähnt. Wiederholen Sie die
Definition, die Sie im Wirtschaftsstatistik 1 hatten, oder aus bfk (Kap 3.1.4)
1
Überlegen Sie sich bitte, was würde sich verändern, falls wir die Würfel nicht unterscheiden können. Hier brauchen Sie
nichts rechnen, nur den Prinzip bitte erklären.
2
Benutzen Sie die Formel aus dem Teil Eigenschafte der Wahrscheinlichkeit aus beiliegender Formelsammlung um Ihre
Schritte zu begründen.
1
3. Wir werfen gleichzeitig 2 Würfel. Mit welcher Wahrscheinlichkeit ist mindestens eine von den
Augenzahlen gleich 6 unter der Bedingung, dass die Summe beider Augenzahlen gleich 8 ist. Sind
die Ereignisse A = Eine von den Augenzahlen ist gleich 6) und B = (Summe beider Augenzahlen
ist gleich 8) unabhängig? ( 52 , nicht unabhängig - warum?)
4. Im WS 2 Kurs gibt es 70% Männer und 30% Frauen. Lange Haare tragen 10% der Männer und
80% der Frauen. Mit welcher Wahrscheinlichkeit rufe ich zur Tafel
a) jemanden (egal ob Frau oder Mann), der lange Haare hat. (0.31)
b) eine Frau, unter der Bedingung, dass ich nur jemanden mit langen Haaren zur Tafel rufe. (0.8)
Lösen Sie folgende Probleme:
5. Gegeben ist eine diskrete Zufallsvariable X mit der Verteilung:


x1 = −5, mit P (X = −5) = 0.3,
X = x2 = 0,
mit P (X = 0) = 0.45,


x3 = 2,
mit P (X = 2) = 0.25,
a) Berechnen Sie die Standardabweichung von X
b) Berechnen Sie die Verteilungsfunktion F (x) der Zufallsvariablen X und zeichnen Sie sie.
c) Berechnen Sie den Erwartungswert der Zufallsvariable Y , falls Y = X 3 .
d) Bestimmen Sie die Varianz der Zufallsvariable Z, falls Z = −3X − 1.
6. Ein betrunkener Nachtwächter hat einen Schlüsselbund mit 10 Schlüsseln und will eine Tür aufschließen, in deren Schloss genau einer Schlüssel passt. Er probiert dazu einen zufällig ausgewählten Schlüssel aus. Passt er nicht, so fällt ihm der Schlüsselbund aus der Hand, die Schlüssel
durchmischen sich und er wiederholt sein Vorgehen. Sei X der Anzahl der Versuche, bis er den
passenden Schlüssel findet. Was ist die Verteilung von X ?
7. Sie haben in Ihrem Geldbeutel 4 Banknoten und zwar: zwei 5 e Banknoten, eine 10 e Banknote
und eine 20 e Banknote. Ein Dieb nimmt zufällig zwei Banknoten (egal in welcher Reihenfolge)
aus Ihrem Geldbeutel. (Er kann mit derselben Wahrscheinlichkeit jede Banknote nehmen). X ist
eine Zufallsvariable, die sagt, wie viel Geld Ihnen genommen wird.
a) Schreiben Sie alle mögliche werte der Zufallsvariable X aus. Das heißt:

x1 =? e



 x2 =? e
X=
..

.



xn =? e
Wie viele mögliche Werte gibt es? (n =?)
Berechnen Sie bitte für jedes k = 1, . . . ,n die Wahrscheinlichkeit P (X = xk ).
(P (X = 10) = 16 ,P (X = 15) = 31 , P (X = 25) = 13 , P (X = 30) = 16 )
2
b) Der Dieb muss nachher 10 e Bestrafung für Falschparken bezahlen. Zuhause nimmt ihm seine
Frau noch 45 davon, was er gebracht hat. Y ist eine Zufallsvariable, die uns sagt, wie viel ihm
am Ende des Tages übriggeblieben ist. Berechnen Sie die Wahrscheinlichkeit, dass er dann
noch auf ein Bier mit seinen Freunden gehen kann d.h. P (Y ≥ 2.5 e) =? (Das Bier kostet
nämlich nur 2.5 e). ( 12 )
8. Bedenken wir die selbe Situation, wie im vorherigen Beispiel (dieselbe Geldbeutel und derselbe
Dieb).
a) Skizzieren Sie die Verteilungsfunktion F (x) der Zufallsvariablen X.
b) Berechnen Sie den erwarteten Verlust sowie varX. (EX = 20 e, varX = 50 e2 )
c) Berechnen Sie den Erwartungswert und die Varianz von Y . (EY = 2 e, varY = 2 e2 )
9. Eine Zufallsvariable X hat die Verteilung mit folgender Dichtefunktion:
(
2c + 2x für 0 ≤ x ≤ 1,
f (x) =
0
sonst.
a) Zeigen Sie, dass f (x) eine Dichtefunktion
ist nur wenn c = 0. (Hinweis: Benutzen Sie eine der
R1
Eigenschaften der Dichtefunktion) 0 f (x)dx = 1 nur falls c = 0 warum?
b) Berechnen Sie E X. (E X = 2/3)
c) Zeichnen Sie f (x) im [x,f (x)] Koordinatensystem, wobei 0 ≤ x ≤ 1. Wo liegt E X auf Ihrem
Bild?
d) Berechnen Sie den Median der Verteilung von X ohne die Verteilungsfunktion zu berechnen.
Wo liegt der Median auf Ihrem Bild? (Hinweis: Die Fläche unter der f (x) ist Sn = a∗b
2
und es entspricht der Wahrscheinlichkeit
P
(0
≤
X
≤
1).
Median
ist
so
ein
Zahl,
dass
p
P (median ≤ X) = 1/2 ). (median = 1/2)
10. Eine Zufallsvariable X hat die Verteilung mit folgender Dichtefunktion:
c ∗ e−x/5 falls x > 0,
f (x) =
0
sonst.
a) Berechnen Sie die Konstante c, so dass f (x) eine Dichtefunktion ist. (Hinweis: Benutzen Sie
eine der Eigenschaften der Dichtefunktion, die wir in der Vorlesung erwähnt haben.) (c = 51 )
b) Berechnen Sie die Verteilungsfunktion dieser Zufallsvariablen und versuchen Sie den Graphen
dieser Funktion zu skizzieren.
1 − e−x/5 falls x > 0,
F (x) =
0
sonst.
3
c) Berechnen Sie EX und var(X). (EX = 5, varX = 25)
d) Berechnen Sie die Quantilsfunktion und den Median. Versuchen Sie den Graphen der Quan1
), wobei 0 ≤ α ≤ 1. Median ist F −1 (0.5) =
tilsfunktion zu skizzieren. (F −1 (α) = 5 log( 1−α
3.47)
2 Die Normalverteilung
Beispiel
Korrektur
4.42
-
4.43b)
-
4.44
-
4.45
%
4.47
-
Tabelle 2: Empfohlene Beispiele aus dem Buch:
Für das Beispiel 4.45 gibt es mindestens 3 gute Lösungswege. Probieren sie alle drei und enscheiden
Sie sich, welche war die einfachste. Bei mir waren bei allen drei die Ergebnisse unterschiedlich von dem
im Buch. ( Bi: 0.908, Poi: 0.907, N: 0.921).
Übungsbeispiele: Die Werte der Verteilungsfunktion Φ(x) für die Standardnormalverteilung und t−Verteilung
finden Sie in bfk2010 (die Seiten 318-319).
1. Die Zufallsvariable X sei standardnormalverteilt. Mit welcher Wahrscheinlichkeit:
a) Ist X kleiner als 1? (84%)
b) Liegt X zwischen 1 und 2? (13%)
c) Ist X entweder größer als 2 oder kleiner als −2? (4%)
2. Wie verändert sich das Ergebnis im Beispiel 1c) falls X ∼ N (−1.5,2). (Es wäre 38%)
3. Wir betrachten eine Zufallsstichprobe X1 , . . . , Xn , wobei Xi ∼ N (µ,σ 2 ) für jede i = 1, . . . ,n.
a) Mit welcher Wahrscheinlichkeit ist X̄n kleiner als die Konstante µ? (50%)
b) Wie groß muss unsere Zufallsstichprobe sein (d.h. n =?), so dass P (X̄n > 0) = 99%,
angenommen dass µ = 4 und σ 2 = 1? (n ≥ 1)
In der folgenden Aufgabe sollten Sie die Zentrale Grenzwertsatz benutzen. Die Fragestellung hier
ist anders als die im Beispiel aus der Vorlesung. Überlegen Sie sich, was Sie eigentlich berechnen
sollen.
4. Eine Kiste enthält 5000 Schrauben, von denen 250 ein defektes Gewinde besitzen. Aus der Kiste
werden 100 Schrauben ohne Zurücklegen entnommen.
a) Welche exakte Verteilung besitzt die Zufallsvariable X, die Anzahl der defekten Schrauben
unter den 100 gezogenen ergibt? Durch welche Verteilung lässt sich diese exakte Verteilung
approximieren?
4
b) Berechnen Sie approximativ die Wahrscheinlichkeit, dass maximal 3 Schrauben unter den
gezogenen defekt sind.
5. Ein Beamter verlässt an den 225 Arbeitstagen eines Jahres sein Büro immer erst kurz nach Dienstschluss. Die Dauern der täglichen zusätzlichen Arbeitszeiten lassen sich jeweils durch exponentialverteilte Zufallsvariablen X1 , . . . , X365 mit einem Erwartungswert von 5 Minuten angemessen
beschreiben und sind unabhängig.
a) Berechnen Sie die Parameter µ und σ 2 der Normalverteilung, die Sie durch Zentrale Grenzwertsatz an X1 , . . . , X365 bekommen.
b) Berechnen Sie (approximativ3 ) die Wahrscheinlichkeit, dass unser Beamter in einem Jahr mehr
als 16 Stunden zusätzlich arbeitet.
6. Eine Firma hat 100 Kunden. Jeder Kunde bezahlt der Firma einen Betrag für das nächste Jahr. Die
Zufallsvariable Xi entspricht der Zahlung des i-ten Kunden. Wir nehmen an, dass die Zufallsvariablen X1 , . . . ,X100 unabhängig sind mit EXi = µ = 170e und varXi = σ 2 = 2500e2 .
a) Bezeichnen wir als G die Gesamteinnahmen der Firma. Wie kann man mit Hilfe
P100der Zufallsvariablen X1 ,...,X100 die Gesamteinnahmen G der Firma ausdrücken? ( G= i=1 Xi )
b) Bezeichnen wir mit A die Gesamtausgaben der Firma. Wie groß können diese sein, sodass sie
mit einer Wahrscheinlichkeit von 90% nicht die Gesamteinnahmen der Firma übersteigen? Mit
anderen Worten, berechnen Sie A, so dass P (G ≥ A) = 90%. (A ≤ 16360 e)
c) Schreiben Sie drei Annahmen des Satzes, den Sie in diesem Beispiel benutzen.
7. Sie wollen Ihre eigene Firma mit 100 Angestellten gründen. Jeder von Ihren Angestellten würde
einen Gehalt ungefähr in der Höhe von 1400 e (netto) monatlich erwarten. Die Standardabweichung σ des Gehaltswunsches eines Angestellten ist 300 e. Mit wenigstens wie viel Geld sollten Sie beim Budgetentwurf für die Lohnausgaben rechnen, so dass Sie diese Ausgaben mit der
Wahrscheinlichkeit von 99% nicht unterschätzen? (146990 e)
3 Schätzverfahren
Beispiel
Korrektur
5.13
-
5.14
-
5.15
-
5.16
-
5.27
-
5.30
-
5.32a)b)c)
-
Tabelle 3: Empfohlene Beispiele aus dem Buch:
Bemerken Sie, dass Sie im Beispiel 5.13 die Zentrale Grenzwertsatz haben. Auf welcher Stelle?
Übungsbeispiele: In den folgenden Aufgaben haben Sie oft einen Teil des Outputs vom statistischen
Software R zur Verfügung.
3
Da wir nicht ∞ viele Beobachtungen haben, sondern nur 365, ist unsere Ergebnis nicht exakt, sondern nur approximativ.
5
1. Jetzt ist es schon ein paar Jahren als Sie Ihre Firma gegründet haben. Der Firmenvorstand wollte
jetzt die Gehaltspolitik der Firma anschauen und beurteilen. Dafür haben Sie eine Umfrage bei
Ihren Angestellten durchführen. Die Ergebnisse dieser Umfrage werden Ihnen später helfen Ihre
Gehaltspolitik und anschließend auch die Personalpolitik zu optimieren. Die Datenbank (zufriedenheit.txt) mit den Ergebnissen der Umfrage beträgt folgende Variable:
Id
Geschlecht
Dauer
Zufriedenheit
Ausbildung
Gehalt
die Identifikationsnummer des Angestellten (1 bis 100)
das Geschlecht des Angestellten (Frau, Mann)
die Dauer, die der Angestellte in Ihren Firma schon arbeitet (in Jahren)
die Zufriedenheit des Angestellten mit der Firma
(zufrieden, eher zufrieden, eher unzufrieden, unzufrieden)
die erreichte Ausbildung (Grundschule, Matura, Diplom)
monatlicher Gehalt (in e )
a) Schauen Sie sich die Daten gut an. Welche(n) von den Variablen konnten wir als stetige Variable behandeln? (Gehalt)
b) Folgender Output zeigt die geschätzte Quantile der Variable Gehalt.
Quantil 0%
5%
10%
25%
50%
75%
90%
95%
100%
Gehalt 685.9 948.6 1038.8 1189.1 1371.8 1611.0 1875.0 1933.8 2162.1
Wie viel muss ein Angestellte monatlich verdienen, so dass er zwischen 5% Angestellten ist,
die am besten verdienen? (mindestens 1933.8)
c) An der Abbildung 1 sind zwei Boxplot Grafiken. Beide bilden die geschätzte Quantile der Variable Gehalt ab, ein für die Männer und ein für die Frauen in Ihrer Firma. Überlegen Sie sich
ob wir daraus schließen konnten, dass der Gehalt von Geschlecht des Angestellten abhängt.
Warum ja/nein?
(Hinweis: die Mediane vergleichen)
d) An der Abbildung 2 ist das Histogramm der Variable Gehalt. Überlegen Sie sich ob Sie daraus
schließen konnten, dass diese Variable normalverteilt ist. Warum ja/nein?
(Hinweis: mit der Glockenkurve vergleichen)
e) Konstruieren Sie das 95% Konfidenzintervall für den Erwartungswert der Variable Gehalt.
Welche Quantile brauchen Sie hier? (Vorsicht, die Varianz σ 2 kennen wir nicht und müssen
es aus den Daten schätzen d.h. statt σ 2 müssen wir den Schätzer s2 benutzen!) Interpretieren
Sie dieses Intervall.
(Hinweis: s = 308.84,X̄n = 1408.45, Qt99 (97.5%) = 1.98) (KI= (1347.17, 1469.72))
f) Würde sich die Länge des Konfidenzintervalles verändern, falls wir für Überdeckungswahrscheinlichkeit 99% ( statt üblichen 95%) wählen? (Ja, KI wird breiter.)
2. Wie verändert sich das Konfidenzintervall für den Mittelwert einer normalverteilten Zufallsvariablen X mit bekannter Varianz, wenn folgende Größen erhöht werden:
a) Überdeckungswahrscheinlichkeit. ( KI wird breiter.)
b) Stichprobenumfang n. ( KI wird enger.)
6
c) Varianz σ 2 der Zufallsvariablen X. (KI wird breiter.)
3. Eine Maschine produziert Fahrradschläuche. Der Durchmesser der Fahrradschläuche ist vom Zufall abhängig und normalverteilt mit den Parametern µ und σ 2 = 9cm2 . Wir haben eine Stichprobe
von 25 zufällig ausgewählten Fahrradschläuchen mit mittleren Durchmesser von 41 cm.
a) Geben Sie explizit das KI für µ zum Niveau k% an.
b) Bestimmen Sie das KI explizit für k = 10%
c) Wie groß muss man den Stichprobenumfang wählen, damit das KI aus b) maximal 1cm breit
wird?
4 Testverfahren
Beispiel
Korrektur
6.19
-
6.20
-
6.22
-
6.23
-
6.25
-
6.26
-
Tabelle 4: Empfohlene Beispiele aus dem Buch.
Im Beispiel 6.20 brauchen Sie die Fragestellung nicht aus dem Konfidenzintervall ermitteln sondern
einen statistischen Test verwenden.
ID
Gehalt
3
1400.67
4
949.47
5
1299.6
6
1659.47
7
1191.93
8
1255.8
9
1466.87
10
1368.67
11
1168.27
Tabelle 5: Das Gehalt von 10 ausgewählten Angestellten.
Übungsbeispiele:
1. In der Tabelle 5 haben wir, als repräsentative Stichprobe, 10 von unseren Angestellten ausgewählt.
Xi ist eine Zufallsvariable, die das Gehalt von i-ten Angestellten repräsentiert. Wir nehmen an,
dass Xi ∼ N (µ, σ 2 ) und dass Xi voneinander unabhängig sind. Benutzen Sie die Tabelle 5:
a) Um den Punktschätzer für µ und σ zu bestimmen. Vergleichen Sie ihre Werte mit den Werten,
die der Software R aus der gesamten Datenbank berechnet hat, d.h. mit X̄n = 1408.45 und
s = 308.84. (X̄n = 1352.2, s = 238.3)
b) Zentrieren Sie Ihren neuen Punktschätzer für µ und bestimmen Sie dessen Verteilung. (Beachten Sie den Unterschied zwischen zwei Fällen : Entweder σ = 300 oder σ ist unbekannt.)
√
√
( n X̄nσ−µ ∼ N (0,1), n X̄ns−µ ∼ t9 )
c) Benutzen Sie Ihre neue Punktschätzer aus 1b), um den 90% Konfidenzintervall für µ zu bestimmen. Sagen Sie auch explizit, welche Quantile Sie benutzt haben.
(Falls σ− bekannt, d.h. QN (0,1) (95%) = 1.65 und das KI = (1195.7,1508.7),
σ− unbekannt, d.h. Qt9 (95%) = 1.83 und das KI = (1214,1490.3) )
7
12
1761.2
2. Mit den Annahmen aus dem vorherigen Beispiel, berechnen Sie die konkrete Werte der Teststatistik und Ablehnungsbereich für den Test der Hypothese H0 : µ = 1500 mit Signifikanzniveau α =
5% 10%, wobei σ 2 unbekannt ist. (Hinweis : schauen Sie sich auch die Seite 173 aus dem Buch
bfk2010 an).
a) Finden Sie die passende Alternativhypothese. (H1 : µ 6= 1500)
b) Entscheiden Sie, ob wir die H0 auf dem 5% 10%4 Testniveau verwerfen sollten.
(Verwerfen, da | T |> Qt9 (95%), wobei T = −1.96.)
c) Den p-Wert dieses Tests finden wir im Software Output:
p-Wert = 0.038 0.0815
Benutzen Sie p-Wert um nochmal die H0 zu beurteilen. (Das Signifikanzniveau bleibt α = 5%)
(Verwerfen, da α > p−Wert ist5 .)
ID
vorher
nachher
1
10
0
2
15
10
3
5
0
4
5
5
5
20
25
Tabelle 6: Die Messung des Gewaltindex an 5 Personen vor und nach dem Trainingsprogramm.
3. Zur Beurteilung eines Trainingsprogramms zur friedlichen Lösung sozialer Konflikte wird an 5
Personen die jeweilige Gewaltneigung vor und nach dem Programm miteinander Verglichen. Zur
Messung wird ein normalverteilter Index verwendet. Dabei ergaben sich folgende Werte ( sehe 6).
Lässt sich zum Signifikanzniveau von 5% bestätigen, dass diese Maßnahme erfolgreich war?
5 Korrelation, Einfachregression und Dummy Variablen
Beispiel
Korrektur
7.1
-
7.2
-
7.8a)b)e)
-
7.10
-
7.11
-
7.12a)c)
-
7.13a)
-
7.14a)
-
7.16a)c)d)
-
7.18a)b)c)e)
-
Tabelle 7: Empfohlene Beispiele aus dem Buch.
In dem Beispiel 7.8 brauchen Sie nur das Konfidenzinterval ausrechnen und im Beispiel 7.10 brauchen
Sie kein Konfidenzinterval für die Vorhersage, sondern nur die individuelle Vorhersage ausrechnen.
Dauer
Gehalt
21
1400.67
5
949.47
11
1299.6
28
1659.47
10
1191.93
12
1255.8
7
1466.87
13
1368.67
1
1168.27
Tabelle 8: Dauer (in Jahren) und Gehalt (in Euro) von 10 ausgewählten Angestellten.
Übungsbeispiele: Für diese Beispiele sind auch die Seiten (198 bis 203) und (206 bis 208) aus dem
Buch relevant. Sie werden auch die Formeln aus der Folien zur Einfachregression brauchen.
4
Hier war vorher 5% Testniveau. Da müssten wir aber die Teststatistik mit dem Qt9 (97.5%) vergleichen. Würde sich dann
das Testergebnis ändern? Ja, da |T | < Qt9 (97.5%) = 2.262. Sie sehen, dass das Testergebnis auch davon abhängt, welches
Testniveau wir uns wählen.
5
Allgemein ein statistischer Test liefert uns nur eine Entscheidung über H0 egal ob wir p-Wert oder Ablehnungsbereich
verwenden.
8
29
1761.2
5.1 Korrelation
1. Gegeben sind zwei normalverteilte Zufallsvariablen X1 ∼ N (−1, 9) und X2 ∼ N (1, 1). Sie
wissen auch, dass Corr(X1 , X2 ) = 0. Welche der Abbildungen A, B, C, D (sehe 6) könnte den
zweidimensionalen Daten [x1 , x2 ] entsprechen, wobei x1 ist Realisation von X1 und x2 ist Realisation von X2 ?
5.2 Einfachregression
2. In der Tabelle 8 haben wir, als repräsentative Stichprobe, 10 von den Angestellten, die bei uns in
der Firma arbeiten, ausgewählt. Lassen wir Xi die Dauer (die der Angestellte in den Firma schon
arbeitet) und Yi das Gehalt von i-ten Angestellten repräsentieren. In der Tabelle 8 haben wir also
statistische Daten, die als Beobachtungspaaren dargestellt sind (xi ,yi ) für 1 ≤ i ≤ 10. Wir werden
untersuchen wie ( und ob) die Dauer, die man in Firma schon arbeitet, die Höhe seines Gehalts
beeinflusst. Dafür benutzen wir den linearen Einfachregressionsmodell (Seite 199):
Yi = β0 + β1 Xi + εi .
(1)
Um unseres Modell zu konstruieren, brauchen wir uns folgendes zu überlegen:
a) Welche von den zwei Variablen nehmen wir als unabhängige (Regressor) und welche als
abhängige (Regressand)?
(abh: Gehalt, unabh: Dauer)
b) Welche zwei Voraussetzungen werden an die Störterme εi in (1) genommen?
c) Schauen Sie sich die Abbildung 3 an. Geben Sie kurzes Kommentar dazu, ob es ein Zusammenhang ergibt, über die stärke dieses Zusammenhangs, über die Linearität und möglichen
Ausreißer.
(Proporz. lineare Bezieh.)
d) Versuchen Sie den Objekten in der Abbildung 3 die Symbole aus der Vorlesung zuzuordnen.
e) Benutzen Sie die Daten aus der Tabelle 8 und die Formel (7) aus den Folien zur Vorlesung, um
die Parameter β0 und β1 zu schätzen. Interpretieren Sie graphisch und inhaltlich den Wert des
Punktschätzers für β1 . Benutzen Sie die Formel (8) aus der Folien um die Varianz von εi zu
schätzen. (β̂0 = 1061, β̂1 = 21.26, Sε2 = 18830.7)
f) Versuchen Sie, das 99% Konfidenzintervall für den Parameter β1 zu finden.
(das 99% KI= (4.96,37.55))
3. Unserer Vorstand möchte von uns wissen, ob es einen positiven Zusammenhang zwischen Dauer
und Gehalt gibt. Gehen wir nur aus der Daten aus der Tabelle 8 aus.
a) Welche Null- und Alternativhypothese passen zur Fragestellung der Vorstand?(Ob der Zusammenhang positiv ist, hängt von einen von den Parametern β0 und β1 ab.)
(H0 : β1 ≤ 0, H1 : β1 > 0)
b) Welchen Wert hat die Teststatistik? (Hinweis: Formel (11) aus der Folien.) T = 4.38
9
c) Mit welchem Quantil wird der Wert der Teststatistik verglichen, falls wir als Testniveau α =
5% nehmen?
( Wir benutzen Qt8 (95%) = 1.86, da die Hypothese einseitig ist, sonst wäre es Qt8 (97.5%).)
d) Wie lautet die Entscheidung nach dem Test? (H0 verwerfen. Auf dem Testniveau α = 5%
bestätigen wir einen positiven lin. Zusammenhang zwischen Gehalt und Dauer)
4. Wir werden nun Spezialfälle der Einfachregression analysieren.
a) Sei Yi = β0 + εi , für i = 1, . . . ,n. (Regression ohne echten Regressor). Bestimmen Sie durch
die Methode der Kleinsten Quadraten den Schätzer für β0 .
b) Sei Yi = β1 xi + εi , für i = 1, . . . ,n. (Regression ohne Konstante). Bestimmen Sie durch die
Methode der kleinsten Quadraten den Schätzer für β1 .
(β̂1 = xȳ¯nn ).
5. Gegeben ist eine Stichprobe von 400 Kindern aus Indien aus den Jahren 2005/06. Es interessiert
uns der Zusammenhang zwischen Variablen Alter (cage) und Größe (cheight). Der statistische
Software R liefert uns folgendes Output.
Coefficients:
Estimate Std. Error t value P-value
(Intercept) 61.0576
0.83144
73.43 <2e-16 ****
cage
0.70859
0.02418 29.30 <2e-16 ****
--Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
Residual standard error: 8.139 on ??? degrees of freedom
Multiple R-squared: 0.6833,
Adjusted R-squared: 0.6825
F-statistic: 858.7 on 1 and 398 DF, p-value: <2.2e-16
a) Geben Sie die hier geschätzte Regressionsgleichung explizit an.
b) Versuchen Sie die geschätzte geschätzte Regressionsgerade in ein Streudiagramm zu skizzieren.
c) Welche Zahl würde man auf der Stelle ??? finden?
d) Konstruieren Sie das 99% KI für den Parameter β1 .
e) Überprüfen Sie, ob es zum Signifikanzniveau von α = 5% einen signifikanten Zusammenhang
zwischen dem Alter und Körpergröße gibt.
5.3 Dummy Variablen
6. Eine Regression von durchschnittlichen Stundenlöhnen Y , hier gemessen in Dollar pro Stunde,
auf eine unabhängige Variable X: (X = 1 falls Person einen höheren Schulabschluss hat, X = 0
falls nicht) ergab: Ŷ = 8.11 + 6.20X. Ein statistisches Software liefert uns noch Sβ̂1 = 0.85 und
R2 = 0.15.
a) Was bedeutet Wert 8.11?
b) Was bedeutet Wert 6.20?
c) Liefert diese Regression statistisch signifikante Evidenz, dass Arbeiter mit höherem Schulabschluss im Durchschnitt mehr verdienen als Arbeiter ohne höheren Schulabschluss? Warum?
10
d) Wenn man statt durchschnittlicher Stundenlöhne Y durchschnittliche Wochenlöhne verwendet
hätte, wobei YW ochen = 40 ∗ YStunden , welcher Folgen hätte es auf R2 ? (Begründen Sie Ihre
2
2
Antwort dadurch, dass Sie die RW
ochen − RStunden berechnen.)
7. Die Abbildung 7 bildet 100 Beobachtungen ab, die wir durch ein Regressionsmodell mit Dummy
Variable D modellieren.
a) Schreiben Sie die Formell eines passendes Regressionsmodells, wo: yi ist die abhängige Variable, xi (= i) und Di sind die unabhängigen Variablen.
b) Schreiben Sie, wozu benutzt man die Variable Di in dieser Situation und welche Werte die
Variable Di annimmt (abhängig von i).
c) ŷi (für i = 1, . . . ,100) sind die Punktschätzer für yi aus dem Modell aus 2a). Berechnen Sie
den Wert der Residuen e40 = y40 − ŷ40 . (Hier bitte ausführlich Ihre Berechnung aufschreiben.)
6 Mehrfachregression
Beispiel
Korrektur
8.17
-
8.18
-
8.19
-
8.21
-
8.22a)c)
-
8.23a)b)c)d)e)
-
8.24a)b)c)e)
-
8.26a)b)c)d)g)
-
Tabelle 9: Empfohlene Beispiele aus dem Buch.
Übungsbeispiele:
1. Die Gleichungen (7) im Mehrfache regression.pdf definieren die Matrix Notation, die (vor allem)
in Mehrfachregression benutzt wird. Trotzdem kann man es auch zum Beschreibung der Einfachregression benutzen. Das Modell hat dann die Formel: Y = Xβ + ε, wobei:






1 x1
y1
ε1
 1 x2 






Y =  ...  , X =  . .  ,ε =  ...  .
.
.
 . . 
yn
εn
1 xn
Lösen Sie die folgende Aufgaben allgemein (d.h. ohne konkrete Werte einzusetzen) nur mit Symbolen xij , yj , β̂j ). Die Lösung finden Sie auf meiner hompage.
a) Wie schaut für dieses Modell der Vektor β aus?
b) Berechnen Sie das Produkt X t X
c) Berechnen Sie die Inverse (X t X)−1
d) Berechnen Sie das Produkt X t Y
e) Berechnen6 Sie das Produkt (X t X)−1 X t Y
6
Falls Sie diese Aufgabe gelöst haben, haben Sie den optimalen Schätzer für den Vektorparameter β gefunden.
11
f) Formen Sie Ihr Ergebnis aus 1e) um, so dass es den Gleichungen (7) aus Einfach regression.pdf
entspricht.
2. In einer Datenbank haben wir Daten über 11 Patienten. Die Variablen sind Folgende:
systolic die Höhe des systolisches Blutdrucks
weight das Gewicht (kg)
age
das Alter (Jahren)
Wir wollen mit der Mehrfachregression die Abhängigkeit der Variable systolic von weight und
alter untersuchen. Der statistische Software R liefert uns folgendes Output.
Coefficients:
Estimate Std. Error t value P-value
(Intercept) 31.0782
11.9190
2.607 0.03125
age
0.8640
0.2474
3.493 0.00817
weight
0.6739
0.2631
2.561 0.03357
--Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05
*
**
*
‘.’ 0.1 ‘ ’ 1
Residual standard error: 2.319 on 8 degrees of freedom
Multiple R-squared: 0.9768,
Adjusted R-squared:
F-statistic: 168.7 on 2 and 8 DF, p-value: 2.878e-07
0.971
a) Geben Sie die hier geschätzte Regressionsgleichung explizit an.
b) Versuchen Sie die geschätzte Parameter interpretieren.
c) Konstruieren Sie das 95% KI für den Parameter β2 .
d) Ist (laut unseres Modell) der Blutdruck von Alter und Gewicht abhängig? (Begründen Sie in
einer Satz Ihre Entscheidung).
e) Prognostizieren Sie den Blutdruck eines Patienten der 90 kg wiegt und 50 Jahren alt ist.
3. In unserer Datenbank gibt es Daten über n Studenten. Die Variable sind folgende:
Gewicht
das Gewicht (kg)
Körpergröße die Körpergröße (cm)
IQ
der Quotient der Intelligenz
Gehirn
die Größe des Gehirns (Kilo-Pixels)
Wir wollen mit der Mehrfachregression die Abhängigkeit der Variable IQ von Gewicht, Körpergröße und Gehirn untersuchen. Das statistische Software R liefert uns folgenden Output (wobei
NA heißt, dass diese Werte nicht zur Verfügung stehen):
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept)
117.41
67.76
1.733 0.09219
Gehirn
0.20
0.06
3.393 NA
Gewicht
-0.14
0.47
-0.304 0.76334
-1.04
0.52
-1.996 0.05397
Körpergröße
--Residual standard error: 21.3 on 34 degrees of freedom
Multiple R-squared: 0.2649,
Adjusted R-squared:
F-statistic: 4.85 on 3 and 34 DF, p-value: NA
a) Geben Sie die hier geschätzte Regressionsgleichung explizit an.
b) Bestimmen sie, wie viele Studenten es in der Datenbank gibt, d.h. n =?.
12
0.2001
c) Interpretieren Sie in einem Satz den geschätzten Koeffizienten β̂3 (Koeffizient bei der Variable
Körpergröße).
d) Bestimmen Sie das 95% Konfidenzintervall für β3 .
e) Welche Variablen haben laut dem Output kein signifikantes (α = 5%) Einfluss auf IQ?
f) Können wir auf dem Signifikanzniveau α = 5% unser Modell als signifikant bezeichnen? Begründen Sie.
g) Prognostizieren Sie IQ eines Menschen, der 100kg wiegt, 180cm groß ist mit Gehirngröße von
900 Kilo-Pixels.
h) Sie stellen fest, dass der Korrelationskoeffizient zwischen Gewicht und Körpergröße rx1 ,x2 =
0.91. Hat diese Tatsache irgendwelchen Einfluss auf die Qualität der Prognose y∗? Antworten
Sie Ja (oder Nein) + Warum / unter welche(n) Annahme(n).
i) Sei dass der Korrelationskoeffizient zwischen Gewicht und Körpergröße rx2 ,x3 = 0.91. Welchen
Einfluss auf die Interpretation der Parameter β2 und β3 hat diese Tatsache.
j) Sei, dass der Korrelationskoeffizient zwischen Gewicht und Körpergröße rx2 ,x3 = 0.91. Wie
nennt man dieses Phänomen (angenommen, dass wir diese zwei Variable als Regressoren benutzen)?
k) Sei dass der Korrelationskoeffizient zwischen Gewicht und Körpergröße rx2 ,x3 = 0.91, würde
die Regressionsgerade für die Variablen Gewicht und Körpergröße steigen oder sinken? Begründen Sie in einem Satz.
l) Beim Überprüfen der Modellannahmen stellen Sie fest, dass die Residuen nicht normal-verteilt
sind. Ist es trotzdem möglich, die Testergebnisse zu verwenden? Begründen Sie. Hinweiss:
Hier kann die Zentrale Grenzwertsatz helfen.
7 Einfache Varianzanalyse
Beispiel
Korrektur
9.4
-
9.5
-
9.6
-
9.10
-
9.11
-
9.12
-
9.13
-
Tabelle 10: Empfohlene Beispiele aus dem Buch.
Übungsbeispiele:
1. Unsere Datenbank (smokers.txt) beinhaltet die Prozenten der Raucher (Smokers) für entsprechende
Kombination von zwei Faktoren: Income und Age. Die einzelne Variablen (Faktoren) sind in der
Tabelle oben beschrieben. In den folgenden Aufgaben interessiert uns, ob die Prozentzahl der
Raucher von Alter abhängig ist. D.h., ob sich die Prozenten der Raucher in den drei Stufen (young,
middle, old) signifikant unterscheiden.
a) Überlegen Sie sich, welche zwei Methoden kennen Sie, womit Sie die signifikante Abhängigkeit
von zwei Variablen untersuchen könnten.(Sie brauchen es aber jetzt nicht untersuchen.) (Hinweis: Erinnert euch an den Beispiel 5 aus der Beispielserie 3 und Beispiel 3 aus Beispielserie
6.)
13
Variable (Faktor)
Smokers
Income
Age
Werte (Faktorstufen)
0% bis 100%
< 5000 (. . . 1)
5001 bis 9999 (. . . 2)
10000 bis 14999 (. . . 3)
15000 bis 24999 (. . . 4)
≥ 25000 (. . . 5)
17 bis 30 (. . . young)
31 bis 64 (. . . middle)
≥ 65 (. . . old)
Beschreibung
die Prozentzahl der Raucher
das jährliche Einkommen (in $)
das Alter der Raucher
Tabelle 11: Die Beschriftung der Datenbank smokers.txt
b) Warum kann man für diesen Fall nur eine von den beiden Methoden verwenden? Welche? (Hinweis: Es geht um die Anzahl der möglichen Werten bei der Variable Age.)
c) Um die Wirkung von Alter auf die Prozentzahl der Raucher zu beurteilen, schauen wir uns
zuerst die Abbildung 4 an. Bei Welchen Gruppen sehen wir den Unterschied am besten?
d) Auch die Varianzanalyse können wir als ein statistisches Model bezeichnen. Und auch dieses
Model hat bestimmte Annahmen an die Daten. Nur falls diese Annahmen erfüllt sind, kann
man die Ergebnisse wahrnehmen. Die drei Annahmen sind:
1.) Die Unabhängigkeit zwischen Stichproben.
2.) Die Normalität der einzelnen Stichproben.
3.) Die gleiche Varianzen zwischen Stichproben.
Versuchen Sie die zweite Annahme mittels Abbildung 5 zu beurteilen.
e) Um die zweite Annahme auch formal zu überprüfen, benutzen wir s.g. Shapiro-Wilk test. Die
Nullhypothese hier ist Normalität. Statistisches Software R liefert und für dieses Test die pWert= 0.975. Stimmt diese Ergebnis damit was Sie aus dem Histogramm schließen? Falls
nicht, welche Entscheidung würden Sie schließlich treffen?
f) Versuchen Sie die drei Annahmen des Shapiro-Wilk Tests (z.B. im Internet) aussuchen und
überprüfen.
2. In einer Datenbank gibt es Daten über 85 amerikanische Fußballspieler aus fünf verschiedenen
Mannschaften. Die Datenbank hat folgende Spalten:
Id
Gewicht
Mannschaft
die Identifikationsnummer des Sportlers (1 bis 85)
das Gewicht des Sportlers
der Name der Mannschaft
Es interessiert uns ob sich die Gewichte der Sportler zwischen den Mannschaften unterscheiden.
a) Geben Sie die H0 und H1 zur einfachen Varianzanalyse an, mit der wir den Einfluss der Variable Mannschaft auf das Gewicht untersuchen können.
b) Schreiben Sie die drei Annahmen dieses Verfahren auf.
c) In dem Softwareoutput für die einfache Varianzanalyse steht folgende Tabelle:
14
Mannschaft
Residuals
Total
Df Sum Sq Mean Sq F value Pr(>F)
?
353
88.15
?
0.189
?
?
55.97
?
4830
Ersetzen Sie die Fragezeichen in der zweiten Spalte durch die richtigen Freiheitsgrade.
d) Wie hängen die zwei Summen SQA und SQR mit der gesamten Varianz in den Daten zusammen?
e) Ersetzen Sie das Fragezeichen in der dritten Spalte durch den richtigen Wert der SQR.
f) Ersetzen Sie das Fragezeichen in der fünften Spalte durch den richtigen Wert der Teststatistik.
g) Treffen Sie eine Entscheidung (Testniveau α = 5%) über die H0 und begründen Sie diese
Entscheidung kurz.
15
8 Zeitreihenanalyse
. . . on the way...
16
2000
Gehalt
1500
1000
Frau
Mann
Abbildung 1: Der Boxplot der Variable Gehalt für die Männer und Frauen.
17
25
20
15
frequency
10
5
0
1000
1500
2000
Abbildung 2: Das Histogram der Variable Gehalt.
1.5
+
1.0
0.5
0
2
4
6
8
10
12
14
Abbildung 3: Das Streudiagramm für ausgewählte Daten aus der Datenbank Zufriedenheit.txt.
18
40
35
30
15
20
25
Smokers
middle
old
young
Age
Abbildung 4: Der Boxplot der Variable Smokers für die drei Faktorstufen des Faktors Age.
2
1
0
Frequency
3
4
Histogram of residuals
−8
−6
−4
−2
0
2
residuals
Abbildung 5: Histogram der Residuen.
19
4
6
Abbildung 6: Das Streudiagam der Daten x1 ∼ X1 und x2 ∼ X2 .
y
100
80
60
40
20
20
40
60
80
100
Abbildung 7: Das Streudiagramm der Variablen x und y
20
x
Herunterladen