Wirtschaftsstatistik 2, Gruppe 1, letztes Update am 23. November

Wirtschaftsstatistik 2, Gruppe 1, letztes Update am 23. November 2014
Übungsbeispiele für Midterm und Endterm Test
Bei dem Midterm und Endterm Test ist nicht das korrekte Ergebnis (Zahl) wichtig, sondern die Schritte
und Begründung der einzelnen Schritte in Ihrer Lösung. Versuchen Sie bitte, sich diese zu überlegen.
Für manche Beispiele steht auch die Lösung zur Verfügung (rot markiert im Klammern). Ähnliche
Beispiele mit Musterlösungen können Sie auch in dem Buch zu diesem Kurs (Brannath, W., Futschik, A.,
Krall, C., (2010) Statistik im Studium der Wirtschaftswissenschaften. 3. Edition) finden. Die Beispiele,
aus dem Buch sind auch für beide Tests relevant. Am Anfang der jeweiligen Kapitel finden sie eine
Tabelle mit Beispielen aus diesem Buch, die sie berechnen sollten. Die zweite Zeile in der Tabellen ist
für mögliche Korrekturen der Lösungen aus dem Buch.
1
Wahrscheinlichkeitsrechnung
Beispiel
Korrektur
3.41
-
3.45
-
3.46
-
3.50
-
3.60
-
4.3
-
4.4
-
4.5
-
4.6
-
4.35
-
4.40
-
4.41
-
4.63
-
Tabelle 1: Empfohlene Beispiele aus dem Buch.
Versuchen Sie beim Beispiel 4.35 zusätzlich den erwarteten Gewinn berechnen, falls Sie 6 Runden
spielen und bezahlen 1 e pro Runde für Ihre Teilnahme. Versuchen Sie die Beispiele 4.40 und 4.63 mit
binomischer Verteilung zu lösen.
Übungsbeispiele: In allen folgenden Aufgaben mit den Würfeln nehmen wir immer an, dass wir die
Würfel unterscheiden können1 . Lösen Sie bitte folgende Aufgaben2 :
1. Wir werfen gleichzeitig 4 Würfel. Mit welcher Wahrscheinlichkeit...
1
a) sind alle Augenzahlen an allen Würfeln ungerade? ( 16
)
b) ist die Summe aller Augenzahlen an allen Würfeln zusammen 6? ( 10
)
64
c) ist die Summe aller Augenzahlen an allen Würfeln zusammen > 5? (Hinweis: Es ist einfacher
die Wahrscheinlichkeit des komplementäres Ereignisses zu berechnen.) (1 − 654 )
2. Mit welcher Wahrscheinlichkeit ist mindestens ein Augenzahl gleich 6 falls wir gleichzeitig 2
11
)
Würfel werfen? ( 36
Schauen Sie sich die Formelsammlung auf meiner Homepage an und benutzen Sie die Formel aus
dem Teil Unabhängigkeit und bedingte Wahrscheinlichkeit um folgende Beispiele zu lösen.
Hinweis: Bedingte Wahrscheinlichkeit haben wir in Vorlesung nicht erwähnt. Wiederholen Sie die
Definition, die Sie im Wirtschaftsstatistik 1 hatten, oder aus bfk (Kap 3.1.4)
1
Überlegen Sie sich bitte, was würde sich verändern, falls wir die Würfel nicht unterscheiden können. Hier brauchen Sie
nichts rechnen, nur den Prinzip bitte erklären.
2
Benutzen Sie die Formel aus dem Teil Eigenschafte der Wahrscheinlichkeit aus beiliegender Formelsammlung um Ihre
Schritte zu begründen.
1
3. Wir werfen gleichzeitig 2 Würfel. Mit welcher Wahrscheinlichkeit ist mindestens eine von den
Augenzahlen gleich 6 unter der Bedingung, dass die Summe beider Augenzahlen gleich 8 ist. Sind
die Ereignisse A = Eine von den Augenzahlen ist gleich 6) und B = (Summe beider Augenzahlen
ist gleich 8) unabhängig? ( 52 , nicht unabhängig - warum?)
4. Im WS 2 Kurs gibt es 70% Männer und 30% Frauen. Lange Haare tragen 10% der Männer und
80% der Frauen. Mit welcher Wahrscheinlichkeit rufe ich zur Tafel
a) jemanden (egal ob Frau oder Mann), der lange Haare hat. (0.31)
b) eine Frau, unter der Bedingung, dass ich nur jemanden mit langen Haaren zur Tafel rufe. (0.8)
Lösen Sie folgende Probleme:
5. Gegeben ist eine diskrete Zufallsvariable X mit der Verteilung:


x1 = −5, mit P (X = −5) = 0.3,
X = x2 = 0,
mit P (X = 0) = 0.45,


x3 = 2,
mit P (X = 2) = 0.25,
a) Berechnen Sie die Standardabweichung von X
b) Berechnen Sie die Verteilungsfunktion F (x) der Zufallsvariablen X und zeichnen Sie sie.
c) Berechnen Sie den Erwartungswert der Zufallsvariable Y , falls Y = X 3 .
d) Bestimmen Sie die Varianz der Zufallsvariable Z, falls Z = −3X − 1.
6. Ein betrunkener Nachtwächter hat einen Schlüsselbund mit 10 Schlüsseln und will eine Tür aufschließen, in deren Schloss genau einer Schlüssel passt. Er probiert dazu einen zufällig ausgewählten Schlüssel aus. Passt er nicht, so fällt ihm der Schlüsselbund aus der Hand, die Schlüssel
durchmischen sich und er wiederholt sein Vorgehen. Sei X der Anzahl der Versuche, bis er den
passenden Schlüssel findet. Was ist die Verteilung von X ?
7. Sie haben in Ihrem Geldbeutel 4 Banknoten und zwar: zwei 5 e Banknoten, eine 10 e Banknote
und eine 20 e Banknote. Ein Dieb nimmt zufällig zwei Banknoten (egal in welcher Reihenfolge)
aus Ihrem Geldbeutel. (Er kann mit derselben Wahrscheinlichkeit jede Banknote nehmen). X ist
eine Zufallsvariable, die sagt, wie viel Geld Ihnen genommen wird.
a) Schreiben Sie alle mögliche werte der Zufallsvariable X aus. Das heißt:

x1 =? e



 x2 =? e
X=
..

.



xn =? e
Wie viele mögliche Werte gibt es? (n =?)
Berechnen Sie bitte für jedes k = 1, . . . ,n die Wahrscheinlichkeit P (X = xk ).
(P (X = 10) = 16 ,P (X = 15) = 31 , P (X = 25) = 13 , P (X = 30) = 16 )
2
b) Der Dieb muss nachher 10 e Bestrafung für Falschparken bezahlen. Zuhause nimmt ihm seine
Frau noch 45 davon, was er gebracht hat. Y ist eine Zufallsvariable, die uns sagt, wie viel ihm
am Ende des Tages übriggeblieben ist. Berechnen Sie die Wahrscheinlichkeit, dass er dann
noch auf ein Bier mit seinen Freunden gehen kann d.h. P (Y ≥ 2.5 e) =? (Das Bier kostet
nämlich nur 2.5 e). ( 12 )
8. Bedenken wir die selbe Situation, wie im vorherigen Beispiel (dieselbe Geldbeutel und derselbe
Dieb).
a) Skizzieren Sie die Verteilungsfunktion F (x) der Zufallsvariablen X.
b) Berechnen Sie den erwarteten Verlust sowie varX. (EX = 20 e, varX = 50 e2 )
c) Berechnen Sie den Erwartungswert und die Varianz von Y . (EY = 2 e, varY = 2 e2 )
9. Eine Zufallsvariable X hat die Verteilung mit folgender Dichtefunktion:
(
2c + 2x für 0 ≤ x ≤ 1,
f (x) =
0
sonst.
a) Zeigen Sie, dass f (x) eine Dichtefunktion
ist nur wenn c = 0. (Hinweis: Benutzen Sie eine der
R1
Eigenschaften der Dichtefunktion) 0 f (x)dx = 1 nur falls c = 0 warum?
b) Berechnen Sie E X. (E X = 2/3)
c) Zeichnen Sie f (x) im [x,f (x)] Koordinatensystem, wobei 0 ≤ x ≤ 1. Wo liegt E X auf Ihrem
Bild?
d) Berechnen Sie den Median der Verteilung von X ohne die Verteilungsfunktion zu berechnen.
Wo liegt der Median auf Ihrem Bild? (Hinweis: Die Fläche unter der f (x) ist Sn = a∗b
2
und es entspricht der Wahrscheinlichkeit
P
(0
≤
X
≤
1).
Median
ist
so
ein
Zahl,
dass
p
P (median ≤ X) = 1/2 ). (median = 1/2)
10. Eine Zufallsvariable X hat die Verteilung mit folgender Dichtefunktion:
c ∗ e−x/5 falls x > 0,
f (x) =
0
sonst.
a) Berechnen Sie die Konstante c, so dass f (x) eine Dichtefunktion ist. (Hinweis: Benutzen Sie
eine der Eigenschaften der Dichtefunktion, die wir in der Vorlesung erwähnt haben.) (c = 51 )
b) Berechnen Sie die Verteilungsfunktion dieser Zufallsvariablen und versuchen Sie den Graphen
dieser Funktion zu skizzieren.
1 − e−x/5 falls x > 0,
F (x) =
0
sonst.
3
c) Berechnen Sie EX und var(X). (EX = 5, varX = 25)
d) Berechnen Sie die Quantilsfunktion und den Median. Versuchen Sie den Graphen der Quan1
), wobei 0 ≤ α ≤ 1. Median ist F −1 (0.5) =
tilsfunktion zu skizzieren. (F −1 (α) = 5 log( 1−α
3.47)
2 Die Normalverteilung
Beispiel
Korrektur
4.42
-
4.43b)
-
4.44
-
4.45
%
4.47
-
Tabelle 2: Empfohlene Beispiele aus dem Buch:
Für das Beispiel 4.45 gibt es mindestens 3 gute Lösungswege. Probieren sie alle drei und enscheiden
Sie sich, welche war die einfachste. Bei mir waren bei allen drei die Ergebnisse unterschiedlich von dem
im Buch. ( Bi: 0.908, Poi: 0.907, N: 0.921).
Übungsbeispiele: Die Werte der Verteilungsfunktion Φ(x) für die Standardnormalverteilung und t−Verteilung
finden Sie in bfk2010 (die Seiten 318-319).
1. Die Zufallsvariable X sei standardnormalverteilt. Mit welcher Wahrscheinlichkeit:
a) Ist X kleiner als 1? (84%)
b) Liegt X zwischen 1 und 2? (13%)
c) Ist X entweder größer als 2 oder kleiner als −2? (4%)
2. Wie verändert sich das Ergebnis im Beispiel 1c) falls X ∼ N (−1.5,2). (Es wäre 38%)
3. Wir betrachten eine Zufallsstichprobe X1 , . . . , Xn , wobei Xi ∼ N (µ,σ 2 ) für jede i = 1, . . . ,n.
a) Mit welcher Wahrscheinlichkeit ist X̄n kleiner als die Konstante µ? (50%)
b) Wie groß muss unsere Zufallsstichprobe sein (d.h. n =?), so dass P (X̄n > 0) = 99%,
angenommen dass µ = 4 und σ 2 = 1? (n ≥ 1)
In der folgenden Aufgabe sollten Sie die Zentrale Grenzwertsatz benutzen. Die Fragestellung hier
ist anders als die im Beispiel aus der Vorlesung. Überlegen Sie sich, was Sie eigentlich berechnen
sollen.
4. Eine Kiste enthält 5000 Schrauben, von denen 250 ein defektes Gewinde besitzen. Aus der Kiste
werden 100 Schrauben ohne Zurücklegen entnommen.
a) Welche exakte Verteilung besitzt die Zufallsvariable X, die Anzahl der defekten Schrauben
unter den 100 gezogenen ergibt? Durch welche Verteilung lässt sich diese exakte Verteilung
approximieren?
4
b) Berechnen Sie approximativ die Wahrscheinlichkeit, dass maximal 3 Schrauben unter den
gezogenen defekt sind.
5. Ein Beamter verlässt an den 225 Arbeitstagen eines Jahres sein Büro immer erst kurz nach Dienstschluss. Die Dauern der täglichen zusätzlichen Arbeitszeiten lassen sich jeweils durch exponentialverteilte Zufallsvariablen X1 , . . . , X365 mit einem Erwartungswert von 5 Minuten angemessen
beschreiben und sind unabhängig.
a) Berechnen Sie die Parameter µ und σ 2 der Normalverteilung, die Sie durch Zentrale Grenzwertsatz an X1 , . . . , X365 bekommen.
b) Berechnen Sie (approximativ3 ) die Wahrscheinlichkeit, dass unser Beamter in einem Jahr mehr
als 16 Stunden zusätzlich arbeitet.
6. Eine Firma hat 100 Kunden. Jeder Kunde bezahlt der Firma einen Betrag für das nächste Jahr. Die
Zufallsvariable Xi entspricht der Zahlung des i-ten Kunden. Wir nehmen an, dass die Zufallsvariablen X1 , . . . ,X100 unabhängig sind mit EXi = µ = 170e und varXi = σ 2 = 2500e2 .
a) Bezeichnen wir als G die Gesamteinnahmen der Firma. Wie kann man mit Hilfe
P100der Zufallsvariablen X1 ,...,X100 die Gesamteinnahmen G der Firma ausdrücken? ( G= i=1 Xi )
b) Bezeichnen wir mit A die Gesamtausgaben der Firma. Wie groß können diese sein, sodass sie
mit einer Wahrscheinlichkeit von 90% nicht die Gesamteinnahmen der Firma übersteigen? Mit
anderen Worten, berechnen Sie A, so dass P (G ≥ A) = 90%. (A ≤ 16360 e)
c) Schreiben Sie drei Annahmen des Satzes, den Sie in diesem Beispiel benutzen.
7. Sie wollen Ihre eigene Firma mit 100 Angestellten gründen. Jeder von Ihren Angestellten würde
einen Gehalt ungefähr in der Höhe von 1400 e (netto) monatlich erwarten. Die Standardabweichung σ des Gehaltswunsches eines Angestellten ist 300 e. Mit wenigstens wie viel Geld sollten Sie beim Budgetentwurf für die Lohnausgaben rechnen, so dass Sie diese Ausgaben mit der
Wahrscheinlichkeit von 99% nicht unterschätzen? (146990 e)
3 Schätzverfahren
Beispiel
Korrektur
5.13
-
5.14
-
5.15
-
5.16
-
5.27
-
5.30
-
5.32a)b)c)
-
Tabelle 3: Empfohlene Beispiele aus dem Buch:
Bemerken Sie, dass Sie im Beispiel 5.13 die Zentrale Grenzwertsatz haben. Auf welcher Stelle?
Übungsbeispiele: In den folgenden Aufgaben haben Sie oft einen Teil des Outputs vom statistischen
Software R zur Verfügung.
3
Da wir nicht ∞ viele Beobachtungen haben, sondern nur 365, ist unsere Ergebnis nicht exakt, sondern nur approximativ.
5
1. Jetzt ist es schon ein paar Jahren als Sie Ihre Firma gegründet haben. Der Firmenvorstand wollte
jetzt die Gehaltspolitik der Firma anschauen und beurteilen. Dafür haben Sie eine Umfrage bei
Ihren Angestellten durchführen. Die Ergebnisse dieser Umfrage werden Ihnen später helfen Ihre
Gehaltspolitik und anschließend auch die Personalpolitik zu optimieren. Die Datenbank (zufriedenheit.txt) mit den Ergebnissen der Umfrage beträgt folgende Variable:
Id
Geschlecht
Dauer
Zufriedenheit
Ausbildung
Gehalt
die Identifikationsnummer des Angestellten (1 bis 100)
das Geschlecht des Angestellten (Frau, Mann)
die Dauer, die der Angestellte in Ihren Firma schon arbeitet (in Jahren)
die Zufriedenheit des Angestellten mit der Firma
(zufrieden, eher zufrieden, eher unzufrieden, unzufrieden)
die erreichte Ausbildung (Grundschule, Matura, Diplom)
monatlicher Gehalt (in e )
a) Schauen Sie sich die Daten gut an. Welche(n) von den Variablen konnten wir als stetige Variable behandeln? (Gehalt)
b) Folgender Output zeigt die geschätzte Quantile der Variable Gehalt.
Quantil 0%
5%
10%
25%
50%
75%
90%
95%
100%
Gehalt 685.9 948.6 1038.8 1189.1 1371.8 1611.0 1875.0 1933.8 2162.1
Wie viel muss ein Angestellte monatlich verdienen, so dass er zwischen 5% Angestellten ist,
die am besten verdienen? (mindestens 1933.8)
c) An der Abbildung 1 sind zwei Boxplot Grafiken. Beide bilden die geschätzte Quantile der Variable Gehalt ab, ein für die Männer und ein für die Frauen in Ihrer Firma. Überlegen Sie sich
ob wir daraus schließen konnten, dass der Gehalt von Geschlecht des Angestellten abhängt.
Warum ja/nein?
(Hinweis: die Mediane vergleichen)
d) An der Abbildung 2 ist das Histogramm der Variable Gehalt. Überlegen Sie sich ob Sie daraus
schließen konnten, dass diese Variable normalverteilt ist. Warum ja/nein?
(Hinweis: mit der Glockenkurve vergleichen)
e) Konstruieren Sie das 95% Konfidenzintervall für den Erwartungswert der Variable Gehalt.
Welche Quantile brauchen Sie hier? (Vorsicht, die Varianz σ 2 kennen wir nicht und müssen
es aus den Daten schätzen d.h. statt σ 2 müssen wir den Schätzer s2 benutzen!) Interpretieren
Sie dieses Intervall.
(Hinweis: s = 308.84,X̄n = 1408.45, Qt99 (97.5%) = 1.98) (KI= (1347.17, 1469.72))
f) Würde sich die Länge des Konfidenzintervalles verändern, falls wir für Überdeckungswahrscheinlichkeit 99% ( statt üblichen 95%) wählen? (Ja, KI wird breiter.)
2. Wie verändert sich das Konfidenzintervall für den Mittelwert einer normalverteilten Zufallsvariablen X mit bekannter Varianz, wenn folgende Größen erhöht werden:
a) Überdeckungswahrscheinlichkeit. ( KI wird breiter.)
b) Stichprobenumfang n. ( KI wird enger.)
6
c) Varianz σ 2 der Zufallsvariablen X. (KI wird breiter.)
3. Eine Maschine produziert Fahrradschläuche. Der Durchmesser der Fahrradschläuche ist vom Zufall abhängig und normalverteilt mit den Parametern µ und σ 2 = 9cm2 . Wir haben eine Stichprobe
von 25 zufällig ausgewählten Fahrradschläuchen mit mittleren Durchmesser von 41 cm.
a) Geben Sie explizit das KI für µ zum Niveau k% an.
b) Bestimmen Sie das KI explizit für k = 10%
c) Wie groß muss man den Stichprobenumfang wählen, damit das KI aus b) maximal 1cm breit
wird?
4 Testverfahren
Beispiel
Korrektur
6.19
-
6.20
-
6.22
-
6.23
-
6.25
-
6.26
-
Tabelle 4: Empfohlene Beispiele aus dem Buch.
Im Beispiel 6.20 brauchen Sie die Fragestellung nicht aus dem Konfidenzintervall ermitteln sondern
einen statistischen Test verwenden.
ID
Gehalt
3
1400.67
4
949.47
5
1299.6
6
1659.47
7
1191.93
8
1255.8
9
1466.87
10
1368.67
11
1168.27
Tabelle 5: Das Gehalt von 10 ausgewählten Angestellten.
Übungsbeispiele:
1. In der Tabelle 5 haben wir, als repräsentative Stichprobe, 10 von unseren Angestellten ausgewählt.
Xi ist eine Zufallsvariable, die das Gehalt von i-ten Angestellten repräsentiert. Wir nehmen an,
dass Xi ∼ N (µ, σ 2 ) und dass Xi voneinander unabhängig sind. Benutzen Sie die Tabelle 5:
a) Um den Punktschätzer für µ und σ zu bestimmen. Vergleichen Sie ihre Werte mit den Werten,
die der Software R aus der gesamten Datenbank berechnet hat, d.h. mit X̄n = 1408.45 und
s = 308.84. (X̄n = 1352.2, s = 238.3)
b) Zentrieren Sie Ihren neuen Punktschätzer für µ und bestimmen Sie dessen Verteilung. (Beachten Sie den Unterschied zwischen zwei Fällen : Entweder σ = 300 oder σ ist unbekannt.)
√
√
( n X̄nσ−µ ∼ N (0,1), n X̄ns−µ ∼ t9 )
c) Benutzen Sie Ihre neue Punktschätzer aus 1b), um den 90% Konfidenzintervall für µ zu bestimmen. Sagen Sie auch explizit, welche Quantile Sie benutzt haben.
(Falls σ− bekannt, d.h. QN (0,1) (95%) = 1.65 und das KI = (1195.7,1508.7),
σ− unbekannt, d.h. Qt9 (95%) = 1.83 und das KI = (1214,1490.3) )
7
12
1761.2
2. Mit den Annahmen aus dem vorherigen Beispiel, berechnen Sie die konkrete Werte der Teststatistik und Ablehnungsbereich für den Test der Hypothese H0 : µ = 1500 mit Signifikanzniveau α =
5% 10%, wobei σ 2 unbekannt ist. (Hinweis : schauen Sie sich auch die Seite 173 aus dem Buch
bfk2010 an).
a) Finden Sie die passende Alternativhypothese. (H1 : µ 6= 1500)
b) Entscheiden Sie, ob wir die H0 auf dem 5% 10%4 Testniveau verwerfen sollten.
(Verwerfen, da | T |> Qt9 (95%), wobei T = −1.96.)
c) Den p-Wert dieses Tests finden wir im Software Output:
p-Wert = 0.038 0.0815
Benutzen Sie p-Wert um nochmal die H0 zu beurteilen. (Das Signifikanzniveau bleibt α = 5%)
(Verwerfen, da α > p−Wert ist5 .)
ID
vorher
nachher
1
10
0
2
15
10
3
5
0
4
5
5
5
20
25
Tabelle 6: Die Messung des Gewaltindex an 5 Personen vor und nach dem Trainingsprogramm.
3. Zur Beurteilung eines Trainingsprogramms zur friedlichen Lösung sozialer Konflikte wird an 5
Personen die jeweilige Gewaltneigung vor und nach dem Programm miteinander Verglichen. Zur
Messung wird ein normalverteilter Index verwendet. Dabei ergaben sich folgende Werte ( sehe 6).
Lässt sich zum Signifikanzniveau von 5% bestätigen, dass diese Maßnahme erfolgreich war?
5 Korrelation, Einfachregression und Dummy Variablen
Beispiel
Korrektur
7.1
-
7.2
-
7.8a)b)e)
-
7.10
-
7.11
-
7.12a)c)
-
7.13a)
-
7.14a)
-
7.16a)c)d)
-
7.18a)b)c)e)
-
Tabelle 7: Empfohlene Beispiele aus dem Buch.
In dem Beispiel 7.8 brauchen Sie nur das Konfidenzinterval ausrechnen und im Beispiel 7.10 brauchen
Sie kein Konfidenzinterval für die Vorhersage, sondern nur die individuelle Vorhersage ausrechnen.
Dauer
Gehalt
21
1400.67
5
949.47
11
1299.6
28
1659.47
10
1191.93
12
1255.8
7
1466.87
13
1368.67
1
1168.27
Tabelle 8: Dauer (in Jahren) und Gehalt (in Euro) von 10 ausgewählten Angestellten.
Übungsbeispiele: Für diese Beispiele sind auch die Seiten (198 bis 203) und (206 bis 208) aus dem
Buch relevant. Sie werden auch die Formeln aus der Folien zur Einfachregression brauchen.
4
Hier war vorher 5% Testniveau. Da müssten wir aber die Teststatistik mit dem Qt9 (97.5%) vergleichen. Würde sich dann
das Testergebnis ändern? Ja, da |T | < Qt9 (97.5%) = 2.262. Sie sehen, dass das Testergebnis auch davon abhängt, welches
Testniveau wir uns wählen.
5
Allgemein ein statistischer Test liefert uns nur eine Entscheidung über H0 egal ob wir p-Wert oder Ablehnungsbereich
verwenden.
8
29
1761.2
5.1 Korrelation
1. Gegeben sind zwei normalverteilte Zufallsvariablen X1 ∼ N (−1, 9) und X2 ∼ N (1, 1). Sie
wissen auch, dass Corr(X1 , X2 ) = 0. Welche der Abbildungen A, B, C, D (sehe 6) könnte den
zweidimensionalen Daten [x1 , x2 ] entsprechen, wobei x1 ist Realisation von X1 und x2 ist Realisation von X2 ?
5.2 Einfachregression
2. In der Tabelle 8 haben wir, als repräsentative Stichprobe, 10 von den Angestellten, die bei uns in
der Firma arbeiten, ausgewählt. Lassen wir Xi die Dauer (die der Angestellte in den Firma schon
arbeitet) und Yi das Gehalt von i-ten Angestellten repräsentieren. In der Tabelle 8 haben wir also
statistische Daten, die als Beobachtungspaaren dargestellt sind (xi ,yi ) für 1 ≤ i ≤ 10. Wir werden
untersuchen wie ( und ob) die Dauer, die man in Firma schon arbeitet, die Höhe seines Gehalts
beeinflusst. Dafür benutzen wir den linearen Einfachregressionsmodell (Seite 199):
Yi = β0 + β1 Xi + εi .
(1)
Um unseres Modell zu konstruieren, brauchen wir uns folgendes zu überlegen:
a) Welche von den zwei Variablen nehmen wir als unabhängige (Regressor) und welche als
abhängige (Regressand)?
(abh: Gehalt, unabh: Dauer)
b) Welche zwei Voraussetzungen werden an die Störterme εi in (1) genommen?
c) Schauen Sie sich die Abbildung 3 an. Geben Sie kurzes Kommentar dazu, ob es ein Zusammenhang ergibt, über die stärke dieses Zusammenhangs, über die Linearität und möglichen
Ausreißer.
(Proporz. lineare Bezieh.)
d) Versuchen Sie den Objekten in der Abbildung 3 die Symbole aus der Vorlesung zuzuordnen.
e) Benutzen Sie die Daten aus der Tabelle 8 und die Formel (7) aus den Folien zur Vorlesung, um
die Parameter β0 und β1 zu schätzen. Interpretieren Sie graphisch und inhaltlich den Wert des
Punktschätzers für β1 . Benutzen Sie die Formel (8) aus der Folien um die Varianz von εi zu
schätzen. (β̂0 = 1061, β̂1 = 21.26, Sε2 = 18830.7)
f) Versuchen Sie, das 99% Konfidenzintervall für den Parameter β1 zu finden.
(das 99% KI= (4.96,37.55))
3. Unserer Vorstand möchte von uns wissen, ob es einen positiven Zusammenhang zwischen Dauer
und Gehalt gibt. Gehen wir nur aus der Daten aus der Tabelle 8 aus.
a) Welche Null- und Alternativhypothese passen zur Fragestellung der Vorstand?(Ob der Zusammenhang positiv ist, hängt von einen von den Parametern β0 und β1 ab.)
(H0 : β1 ≤ 0, H1 : β1 > 0)
b) Welchen Wert hat die Teststatistik? (Hinweis: Formel (11) aus der Folien.) T = 4.38
9
c) Mit welchem Quantil wird der Wert der Teststatistik verglichen, falls wir als Testniveau α =
5% nehmen?
( Wir benutzen Qt8 (95%) = 1.86, da die Hypothese einseitig ist, sonst wäre es Qt8 (97.5%).)
d) Wie lautet die Entscheidung nach dem Test? (H0 verwerfen. Auf dem Testniveau α = 5%
bestätigen wir einen positiven lin. Zusammenhang zwischen Gehalt und Dauer)
4. Wir werden nun Spezialfälle der Einfachregression analysieren.
a) Sei Yi = β0 + εi , für i = 1, . . . ,n. (Regression ohne echten Regressor). Bestimmen Sie durch
die Methode der Kleinsten Quadraten den Schätzer für β0 .
b) Sei Yi = β1 xi + εi , für i = 1, . . . ,n. (Regression ohne Konstante). Bestimmen Sie durch die
Methode der kleinsten Quadraten den Schätzer für β1 .
(β̂1 = xȳ¯nn ).
5. Gegeben ist eine Stichprobe von 400 Kindern aus Indien aus den Jahren 2005/06. Es interessiert
uns der Zusammenhang zwischen Variablen Alter (cage) und Größe (cheight). Der statistische
Software R liefert uns folgendes Output.
Coefficients:
Estimate Std. Error t value P-value
(Intercept) 61.0576
0.83144
73.43 <2e-16 ****
cage
0.70859
0.02418 29.30 <2e-16 ****
--Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
Residual standard error: 8.139 on ??? degrees of freedom
Multiple R-squared: 0.6833,
Adjusted R-squared: 0.6825
F-statistic: 858.7 on 1 and 398 DF, p-value: <2.2e-16
a) Geben Sie die hier geschätzte Regressionsgleichung explizit an.
b) Versuchen Sie die geschätzte geschätzte Regressionsgerade in ein Streudiagramm zu skizzieren.
c) Welche Zahl würde man auf der Stelle ??? finden?
d) Konstruieren Sie das 99% KI für den Parameter β1 .
e) Überprüfen Sie, ob es zum Signifikanzniveau von α = 5% einen signifikanten Zusammenhang
zwischen dem Alter und Körpergröße gibt.
5.3 Dummy Variablen
6. Eine Regression von durchschnittlichen Stundenlöhnen Y , hier gemessen in Dollar pro Stunde,
auf eine unabhängige Variable X: (X = 1 falls Person einen höheren Schulabschluss hat, X = 0
falls nicht) ergab: Ŷ = 8.11 + 6.20X. Ein statistisches Software liefert uns noch Sβ̂1 = 0.85 und
R2 = 0.15.
a) Was bedeutet Wert 8.11?
b) Was bedeutet Wert 6.20?
c) Liefert diese Regression statistisch signifikante Evidenz, dass Arbeiter mit höherem Schulabschluss im Durchschnitt mehr verdienen als Arbeiter ohne höheren Schulabschluss? Warum?
10
d) Wenn man statt durchschnittlicher Stundenlöhne Y durchschnittliche Wochenlöhne verwendet
hätte, wobei YW ochen = 40 ∗ YStunden , welcher Folgen hätte es auf R2 ? (Begründen Sie Ihre
2
2
Antwort dadurch, dass Sie die RW
ochen − RStunden berechnen.)
7. Die Abbildung 7 bildet 100 Beobachtungen ab, die wir durch ein Regressionsmodell mit Dummy
Variable D modellieren.
a) Schreiben Sie die Formell eines passendes Regressionsmodells, wo: yi ist die abhängige Variable, xi (= i) und Di sind die unabhängigen Variablen.
b) Schreiben Sie, wozu benutzt man die Variable Di in dieser Situation und welche Werte die
Variable Di annimmt (abhängig von i).
c) ŷi (für i = 1, . . . ,100) sind die Punktschätzer für yi aus dem Modell aus 2a). Berechnen Sie
den Wert der Residuen e40 = y40 − ŷ40 . (Hier bitte ausführlich Ihre Berechnung aufschreiben.)
6 Mehrfachregression
Beispiel
Korrektur
8.17
-
8.18
-
8.19
-
8.21
-
8.22a)c)
-
8.23a)b)c)d)e)
-
8.24a)b)c)e)
-
8.26a)b)c)d)g)
-
Tabelle 9: Empfohlene Beispiele aus dem Buch.
Übungsbeispiele:
1. Die Gleichungen (7) im Mehrfache regression.pdf definieren die Matrix Notation, die (vor allem)
in Mehrfachregression benutzt wird. Trotzdem kann man es auch zum Beschreibung der Einfachregression benutzen. Das Modell hat dann die Formel: Y = Xβ + ε, wobei:






1 x1
y1
ε1
 1 x2 






Y =  ...  , X =  . .  ,ε =  ...  .
.
.
 . . 
yn
εn
1 xn
Lösen Sie die folgende Aufgaben allgemein (d.h. ohne konkrete Werte einzusetzen) nur mit Symbolen xij , yj , β̂j ). Die Lösung finden Sie auf meiner hompage.
a) Wie schaut für dieses Modell der Vektor β aus?
b) Berechnen Sie das Produkt X t X
c) Berechnen Sie die Inverse (X t X)−1
d) Berechnen Sie das Produkt X t Y
e) Berechnen6 Sie das Produkt (X t X)−1 X t Y
6
Falls Sie diese Aufgabe gelöst haben, haben Sie den optimalen Schätzer für den Vektorparameter β gefunden.
11
f) Formen Sie Ihr Ergebnis aus 1e) um, so dass es den Gleichungen (7) aus Einfach regression.pdf
entspricht.
2. In einer Datenbank haben wir Daten über 11 Patienten. Die Variablen sind Folgende:
systolic die Höhe des systolisches Blutdrucks
weight das Gewicht (kg)
age
das Alter (Jahren)
Wir wollen mit der Mehrfachregression die Abhängigkeit der Variable systolic von weight und
alter untersuchen. Der statistische Software R liefert uns folgendes Output.
Coefficients:
Estimate Std. Error t value P-value
(Intercept) 31.0782
11.9190
2.607 0.03125
age
0.8640
0.2474
3.493 0.00817
weight
0.6739
0.2631
2.561 0.03357
--Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05
*
**
*
‘.’ 0.1 ‘ ’ 1
Residual standard error: 2.319 on 8 degrees of freedom
Multiple R-squared: 0.9768,
Adjusted R-squared:
F-statistic: 168.7 on 2 and 8 DF, p-value: 2.878e-07
0.971
a) Geben Sie die hier geschätzte Regressionsgleichung explizit an.
b) Versuchen Sie die geschätzte Parameter interpretieren.
c) Konstruieren Sie das 95% KI für den Parameter β2 .
d) Ist (laut unseres Modell) der Blutdruck von Alter und Gewicht abhängig? (Begründen Sie in
einer Satz Ihre Entscheidung).
e) Prognostizieren Sie den Blutdruck eines Patienten der 90 kg wiegt und 50 Jahren alt ist.
3. In unserer Datenbank gibt es Daten über n Studenten. Die Variable sind folgende:
Gewicht
das Gewicht (kg)
Körpergröße die Körpergröße (cm)
IQ
der Quotient der Intelligenz
Gehirn
die Größe des Gehirns (Kilo-Pixels)
Wir wollen mit der Mehrfachregression die Abhängigkeit der Variable IQ von Gewicht, Körpergröße und Gehirn untersuchen. Das statistische Software R liefert uns folgenden Output (wobei
NA heißt, dass diese Werte nicht zur Verfügung stehen):
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept)
117.41
67.76
1.733 0.09219
Gehirn
0.20
0.06
3.393 NA
Gewicht
-0.14
0.47
-0.304 0.76334
-1.04
0.52
-1.996 0.05397
Körpergröße
--Residual standard error: 21.3 on 34 degrees of freedom
Multiple R-squared: 0.2649,
Adjusted R-squared:
F-statistic: 4.85 on 3 and 34 DF, p-value: NA
a) Geben Sie die hier geschätzte Regressionsgleichung explizit an.
b) Bestimmen sie, wie viele Studenten es in der Datenbank gibt, d.h. n =?.
12
0.2001
c) Interpretieren Sie in einem Satz den geschätzten Koeffizienten β̂3 (Koeffizient bei der Variable
Körpergröße).
d) Bestimmen Sie das 95% Konfidenzintervall für β3 .
e) Welche Variablen haben laut dem Output kein signifikantes (α = 5%) Einfluss auf IQ?
f) Können wir auf dem Signifikanzniveau α = 5% unser Modell als signifikant bezeichnen? Begründen Sie.
g) Prognostizieren Sie IQ eines Menschen, der 100kg wiegt, 180cm groß ist mit Gehirngröße von
900 Kilo-Pixels.
h) Sie stellen fest, dass der Korrelationskoeffizient zwischen Gewicht und Körpergröße rx1 ,x2 =
0.91. Hat diese Tatsache irgendwelchen Einfluss auf die Qualität der Prognose y∗? Antworten
Sie Ja (oder Nein) + Warum / unter welche(n) Annahme(n).
i) Sei dass der Korrelationskoeffizient zwischen Gewicht und Körpergröße rx2 ,x3 = 0.91. Welchen
Einfluss auf die Interpretation der Parameter β2 und β3 hat diese Tatsache.
j) Sei, dass der Korrelationskoeffizient zwischen Gewicht und Körpergröße rx2 ,x3 = 0.91. Wie
nennt man dieses Phänomen (angenommen, dass wir diese zwei Variable als Regressoren benutzen)?
k) Sei dass der Korrelationskoeffizient zwischen Gewicht und Körpergröße rx2 ,x3 = 0.91, würde
die Regressionsgerade für die Variablen Gewicht und Körpergröße steigen oder sinken? Begründen Sie in einem Satz.
l) Beim Überprüfen der Modellannahmen stellen Sie fest, dass die Residuen nicht normal-verteilt
sind. Ist es trotzdem möglich, die Testergebnisse zu verwenden? Begründen Sie. Hinweiss:
Hier kann die Zentrale Grenzwertsatz helfen.
7 Einfache Varianzanalyse
Beispiel
Korrektur
9.4
-
9.5
-
9.6
-
9.10
-
9.11
-
9.12
-
9.13
-
Tabelle 10: Empfohlene Beispiele aus dem Buch.
Übungsbeispiele:
1. Unsere Datenbank (smokers.txt) beinhaltet die Prozenten der Raucher (Smokers) für entsprechende
Kombination von zwei Faktoren: Income und Age. Die einzelne Variablen (Faktoren) sind in der
Tabelle oben beschrieben. In den folgenden Aufgaben interessiert uns, ob die Prozentzahl der
Raucher von Alter abhängig ist. D.h., ob sich die Prozenten der Raucher in den drei Stufen (young,
middle, old) signifikant unterscheiden.
a) Überlegen Sie sich, welche zwei Methoden kennen Sie, womit Sie die signifikante Abhängigkeit
von zwei Variablen untersuchen könnten.(Sie brauchen es aber jetzt nicht untersuchen.) (Hinweis: Erinnert euch an den Beispiel 5 aus der Beispielserie 3 und Beispiel 3 aus Beispielserie
6.)
13
Variable (Faktor)
Smokers
Income
Age
Werte (Faktorstufen)
0% bis 100%
< 5000 (. . . 1)
5001 bis 9999 (. . . 2)
10000 bis 14999 (. . . 3)
15000 bis 24999 (. . . 4)
≥ 25000 (. . . 5)
17 bis 30 (. . . young)
31 bis 64 (. . . middle)
≥ 65 (. . . old)
Beschreibung
die Prozentzahl der Raucher
das jährliche Einkommen (in $)
das Alter der Raucher
Tabelle 11: Die Beschriftung der Datenbank smokers.txt
b) Warum kann man für diesen Fall nur eine von den beiden Methoden verwenden? Welche? (Hinweis: Es geht um die Anzahl der möglichen Werten bei der Variable Age.)
c) Um die Wirkung von Alter auf die Prozentzahl der Raucher zu beurteilen, schauen wir uns
zuerst die Abbildung 4 an. Bei Welchen Gruppen sehen wir den Unterschied am besten?
d) Auch die Varianzanalyse können wir als ein statistisches Model bezeichnen. Und auch dieses
Model hat bestimmte Annahmen an die Daten. Nur falls diese Annahmen erfüllt sind, kann
man die Ergebnisse wahrnehmen. Die drei Annahmen sind:
1.) Die Unabhängigkeit zwischen Stichproben.
2.) Die Normalität der einzelnen Stichproben.
3.) Die gleiche Varianzen zwischen Stichproben.
Versuchen Sie die zweite Annahme mittels Abbildung 5 zu beurteilen.
e) Um die zweite Annahme auch formal zu überprüfen, benutzen wir s.g. Shapiro-Wilk test. Die
Nullhypothese hier ist Normalität. Statistisches Software R liefert und für dieses Test die pWert= 0.975. Stimmt diese Ergebnis damit was Sie aus dem Histogramm schließen? Falls
nicht, welche Entscheidung würden Sie schließlich treffen?
f) Versuchen Sie die drei Annahmen des Shapiro-Wilk Tests (z.B. im Internet) aussuchen und
überprüfen.
2. In einer Datenbank gibt es Daten über 85 amerikanische Fußballspieler aus fünf verschiedenen
Mannschaften. Die Datenbank hat folgende Spalten:
Id
Gewicht
Mannschaft
die Identifikationsnummer des Sportlers (1 bis 85)
das Gewicht des Sportlers
der Name der Mannschaft
Es interessiert uns ob sich die Gewichte der Sportler zwischen den Mannschaften unterscheiden.
a) Geben Sie die H0 und H1 zur einfachen Varianzanalyse an, mit der wir den Einfluss der Variable Mannschaft auf das Gewicht untersuchen können.
b) Schreiben Sie die drei Annahmen dieses Verfahren auf.
c) In dem Softwareoutput für die einfache Varianzanalyse steht folgende Tabelle:
14
Mannschaft
Residuals
Total
Df Sum Sq Mean Sq F value Pr(>F)
?
353
88.15
?
0.189
?
?
55.97
?
4830
Ersetzen Sie die Fragezeichen in der zweiten Spalte durch die richtigen Freiheitsgrade.
d) Wie hängen die zwei Summen SQA und SQR mit der gesamten Varianz in den Daten zusammen?
e) Ersetzen Sie das Fragezeichen in der dritten Spalte durch den richtigen Wert der SQR.
f) Ersetzen Sie das Fragezeichen in der fünften Spalte durch den richtigen Wert der Teststatistik.
g) Treffen Sie eine Entscheidung (Testniveau α = 5%) über die H0 und begründen Sie diese
Entscheidung kurz.
15
8 Zeitreihenanalyse
. . . on the way...
16
2000
Gehalt
1500
1000
Frau
Mann
Abbildung 1: Der Boxplot der Variable Gehalt für die Männer und Frauen.
17
25
20
15
frequency
10
5
0
1000
1500
2000
Abbildung 2: Das Histogram der Variable Gehalt.
1.5
+
1.0
0.5
0
2
4
6
8
10
12
14
Abbildung 3: Das Streudiagramm für ausgewählte Daten aus der Datenbank Zufriedenheit.txt.
18
40
35
30
15
20
25
Smokers
middle
old
young
Age
Abbildung 4: Der Boxplot der Variable Smokers für die drei Faktorstufen des Faktors Age.
2
1
0
Frequency
3
4
Histogram of residuals
−8
−6
−4
−2
0
2
residuals
Abbildung 5: Histogram der Residuen.
19
4
6
Abbildung 6: Das Streudiagam der Daten x1 ∼ X1 und x2 ∼ X2 .
y
100
80
60
40
20
20
40
60
80
100
Abbildung 7: Das Streudiagramm der Variablen x und y
20
x