Lösungen zu ausgewählten Übungsbeispielen zu Kap. 4

Werbung
Nagl, Einführung in die Statistik, Anhang 4
Seite 1
Übungsaufgaben zu Kap. 4.
1. Entnehmen Sie die Daten für zu Hause und in Uni Arbeiten (in Stunden) dem Skript
a) Berechnen Sie die Differenzen für die 4 Personen.
b) Berechnen Sie das 95% Konfidenzintervall für die Populations-MittelwertsDifferenzen.
c) Testen Sie die Hypothese: Populations-Mittelwerts-Differenzen sind 0.
d) Berechnen Sie den Determinationskoeffizienten 1. Art.
2. Der durchschnittliche Aspirinkonsum (Pillen pro Jahr) in der Schweiz soll mit
jenem in Deutschland verglichen werden. Annahme: der Aspirinkonsum sei in
beiden Länden normalverteilt.
Stichproben:
Schweiz
Deutschland
Mittelwert
30
25
Standardabweichung
15
10
Stichprobengröße
100
30
Nullhypothese: der Aspirinkonsum ist im Schnitt in beiden
Ländern gleich (Alternative: ungleich).

Erstellen Sie ein Streudiagramm, mit Eintragen der Mittelwerte und der 95%
Konfidenzintervalle
a) 95%-Konfidenzintervalle Pop.mittelwert für Schweiz und Deutschland?
b) Berechnen Sie den Determinationskoeffizient 1. Art.

Test und Konfidenzintervalle der Mittelwertdifferenz unter der Annahme: Die
Populationsstandardabweichungen seien gleich.
c) Testverteilung? Freiheitsgrade?
d) kritischer Bereich?
e) Testwert? Wird H0 abgelehnt? Warum?
f) Berechnen Sie ein Konfidenzintervall für die Differenz der Populationsmittelwerte?
g) Welche Differenzhypothesen würden akzeptiert werden?

Test und Konfidenzintervalle der Mittelwertdifferenz unter der Annahme: Die
Populationsstandardabweichungen seien verschieden.
h) Testverteilung? Freiheitsgrade?
i) kritischer Bereich?
j) Testwert? Wird H0 abgelehnt? Warum?
k) Welche Differenzhypothesen würden akzeptiert werden?
3. Die ‚Wirkung‘ einer Behandlung mit einem HDL-steigernden Medikaments wurde
untersucht. Die Meßpaare (HDL vor Behandlung, HDL nach Behandlung) sind: (30,
35), (35, 45), (37,48), (39,49), (45,51), (53,52). Unterstellen Sie, daß die Differenzwerte
normalverteilt sind.
a) Stellen Sie die Daten in einem Streudiagramm fragestellungsadäquat dar.
b) Berechnen Sie ein 95% Konfidenzintervall für (Pop.mittelwert vorherPop.mittelwert nachher)
c) Testen Sie die Nullhypothese: Keine Veränderung vs. Veränderung.
d) Testen Sie die Nullhypothese: Keine Veränderung vs. Verbesserung.
e) Berechnen Sie den Determinationskoeffizienten 1. Art.
Nagl, Einführung in die Statistik, Anhang 4
Seite 2
4. Wieviel Zeit sitzen Besitzer von PCs vor ihren PCs? Gibt es Unterschiede nach
Ausbildung? Eine Untersuchung ergab folgende Messwerte:
Stichproben (nach Bildung)
Ohne Abi
Mit Abi
Mehr als Abi
n
20
10
10
a. Mittel
1
6
4
Std
2
3
3
Untersuchen Sie zur Prädiktion die Mittelwertsregel:
Charakterisieren Sie genau die Regel (mit Bildung)
Charakterisieren Sie genau die Regel (ohne Bildung)
Fehler(Ohne Bildung)? Fehler(Mit Bildung)?
PRE-Maß?
Wird H0 ( im Schnitt keine Unterschiede nach Bildung; Ha: es gibt Unterschiede)
abgelehnt?
f) Erstellen Sie die Gruppeneffektdarstellung (Skript S.79) mit symmetrischer
Effektrestriktion
g) Erstellen Sie ein Pfaddiagramm.
a)
b)
c)
d)
e)
5. Eine Stichprobe von Nettomonatsverdiensten(in DM) wurde erhoben; es soll
untersucht werden, ob auf Grund der Kenntnis der Branchenzugehörigkeit des
Verdienenden eine fehlerreduzierende Prädiktionsregel gefunden werden kann
(welche?)und um wieviel der Fehler durch die Regel reduziert werden kann
(welches PRE-maß ist angemessen?). Befragt wurden 15 Männer
Branchen:
Nettomonatsverdienste
Geld-,Bank-,Versicherungswesen 2900, 3800, 4700
Bergbau
3000, 3400, 4000
Öffentlicher Dienst
2700, 3200, 3700
Handel
2200, 2500, 3000, 3500
Landwirtschaft
1800, 2500
a)
b)
c)
d)
e)
Charakterisieren Sie genau die Regel (mit Branchen)
Charakterisieren Sie genau die Regel (ohne Branchen)
Fehler(Ohne Bildung)? Fehler(Mit Branchen)?
PRE-Maß?
Wird H0 ( im Schnitt keine Unterschiede nach Branchen; Ha: es gibt Unterschiede)
abgelehnt?
f) Erstellen Sie die Gruppeneffektdarstellung (Skript S.79) mit symmetrischer
Effektrestriktion
g) Erstellen Sie ein Pfaddiagramm.
6. Die Intelligenz eineiiger Zwillinge (n=19), die in unterschiedlichem Milieu
aufgewachsen sind, wurde untersucht. Die Auswahl der ersten 11 Zwillinge aus den
Daten von NEWMAN H.H et al. (1937) liegt hier vor (E: Erstgeboren, Z:
Zweitgeboren). Untersuche, wie gut durch eine Gerade (als Regel) die Intelligenz des
Nagl, Einführung in die Statistik, Anhang 4
Seite 3
Z-Zwillings (=:y) auf Grund der Intelligenz des E-Zwillings (=:x) prädiziert werden
kann.
Merkmale
Vpnr
Unterschied in Ausbildung (Jahre)
Trennung im x. Monat
im 'besseren' Milieu
Alter bei Test
Geschlecht
IQ(E)-Binet-Stanford
IQ(Z)-Binet-Stanford
1
1
18
Z
19
0
85
97
2
3
4
10
1
4
18
2
5
Z
E
Z
27 23 29
0
1
0
66 99 89
78 101 106
5
6
7
1
0
0
14 36
1
Z
E
E
38 59 13
0
0
1
89 102 105
93 94 106
8
9 10 11
1
0
1 14
3
1 12 18
E
E
Z
Z
15 19 12 35
0
1
0
0
92 102 122 92
77 96 127 116
a)
b)
c)
d)
e)
f)
g)
h)
i)
j)
k)
Charakterisieren Sie genau die Regel (mit E-Zwilling)
Charakterisieren Sie genau die Regel (ohne E-Zwilling)
Fehler(Ohne E-Zwilling)? Fehler(Mit E-Zwilling)?
PRE-Maß?
Konfidenzintervall für ?
Testen Sie H0: =0. Testwert? KB? Wird H0 abgelehnt?
Erstellen Sie ein Pfaddiagramm.
Korrelationskoeffizient?
Berechnen Sie ein 95%Konfidenzintervall für z().
Berechnen Sie ein 95%Konfidenzintervall für  selbst.
Testen Sie H0: =0. Teststatistk? Wird H0 abgelehnt(einseitig), (zweiseitig) bei
=5%?
l) Testen Sie H0: =0.20. Teststatistk? Wird H0 abgelehnt(einseitig), (zweiseitig) bei
=5%?
7. Erstellen Sie die Kreuztabelle (für die Personen 17-32) der beiden Merkmale: Vaterund Mutterausbildung. Interpretieren Sie das Ergebnis.
a) Berechnen Sie gemeinsame und Randanteile
b) Berechnen Sie x- und y-Bedingte Anteile. Interpretieren Sie die beide Arten von
bedingten Anteilen.
8. Bei Mobilitätsstudien werden die Väter-Sohnpaare untersucht zur Feststellung der
Mobilität zwischen zwei Generationen. Es seien folgende bedingten Anteile
gefunden worden:
Vaterschicht
a)
b)
c)
d)
e)
f)
g)
h)
US.
MS
OS
US
0.70
0.20
0
Sohnschicht
MS
0.20
0.60
0.40
OS
0.10
0.20
0.60
0.6
0.3
0.1
Berechnen Sie die gemeinsamen Anteile
Berechnen Sie die y-Bedingten Anteile.
Interpretieren Sie die x- und y-Bedingten Anteile.
Welchen Bedingungen müßten die x-Bedingten Anteile entsprechen bei völliger
Chancengleichheit?
Berechnen Sie Lambda ()
Berechnen Sie Tau ()
Berechnen Sie Phi () und Cramers v
Testen Sie die Hypothese der Unabhängigkeit (n sei=1000)
Nagl, Einführung in die Statistik, Anhang 4
8. Die Kreuztabelle (für die Personen 1-55)
der beiden Merkmale: Vater- und
Mutterausbildung ist:
a) Erstellen Sie ein strukturiertes
Staffeldiagramm
b) Berechnen Sie PRU
c) Prüfen Sie die Hypothese der
Unabhängigkeit der beiden Merkmale
d) Berechnen Sie Phi und Cramers v.
Seite 4
VaterAusbildung
Volks-S.
höhere S.
Abi u.m.
Ausbildung der Mutter
Volkshöhere Abi u.
schule
Schule
mehr
19
6
0
8
6
0
1
8
4
28
20
4
25
14
13
52
10. Was ist eine prädiktive Beziehung zwischen x und y? Welche Bedingungen müssen
zusätzlich erfüllt sein, damit die prädiktive als kausale Beziehung interpretiert
werden darf?
11. Berechnen Sie Kappa
a) Zu den Daten der Aufgabe 9 ein kappa für die Aussage: ‚Männer heiraten nur
Frauen, denen sie ausbildungsmäßig mindestens gleichwertig sind’.
b) Zu den Daten der Aufgabe 8 ein kappa für die Aussage: ‚Es gibt keinen sozialen
Abstieg’.
c) Zu den Daten der Aufgabe 8 ein kappa für die Aussage: ‚Wenn der Vater
Unterschichtler ist, ist auch der Sohn Unterschichtler .
12. Die Aussage : 'Wenn jemand in einer Gruppe einen hohen Status hat, dann
akzeptiert er die Normen der Gruppe' soll auf Grund der folgenden Kreuztabelle
untersucht werden:
Status
a)
b)
c)
d)
Akzeptieren der Normen
ja
nein
--------------------------------------niedrig
40
20
hoch
30
10
---------------------------------------
Welches PRE-maß ist für diese Fragestellung angemessen ?
Welches sind die Fehlerzellen ?
Berechnen Sie das von Ihnen vorgeschlagene PRE-maß
Fehler (Ohne x)=________________ Fehler(Mit x)=
13. Die Aussage : 'Die Mutter hat die gleiche Einstellung gegenüber der Tochter wie
der Vater' soll auf Grund der folgenden Untersuchungsergebnisse untersucht
werden:
Einstellung
der Mutter
a)
b)
c)
d)
des Vaters: positiv
negativ
------------------------------positiv
40
0
negativ
20
40
-------------------------------
Welches PRE-maß ist für diese Fragestellung angemessen ?
Berechnen das von Ihnen vorgeschlagene PRE-maß.
Berechnen Sie auch phi**2 und PEARSON-chi**2 und LR-chi**2.
Berechnen Sie PRU
Nagl, Einführung in die Statistik, Anhang 4
Seite 5
14. Die Aussage für Kampfpiloten: 'Wenn jemand als zweites Kind in der
Geschwisterreihenfolge geboren wird, ist er sehr erfolgreich' soll auf Grund
folgender Kreuztabelle untersucht werden:
Geboren in Geschwisterreihenfolge als:
zweiter
andere Position
Erfolgreich
nein mittel sehr
------------------10
10
30
30
10
10
-------------------
a) Berechnen Sie kappa für die obige Aussage.
b) Berechnen Sie tau.
c) Berechnen Sie lambda.
15. Gegeben seien die gemeinsamen Anteile für die Übereinstimmung der Klassifikation
durch zwei Beurteiler.
Gemeinsame Anteile
2
0
0.10
0.03
0
0
0.13
2. Beurteiler
3
4
0.02
0
0.05
0
0.40
0.03
0.10
0.03
0
0
0.50
0.13
5
a) Berechnen Sie ein kappa für die
1
0.14
0.02
2
0.15
0
Übereinstimmungsaussage
3
0.48
0
4
0.13
0
b) Berechnen Sie ein kappa für die
5
0.10
0.10
gewichtete (lineare Fehler)
5
0.12
1
Übereinstimmung
c) Berechnen Sie ein kappa für gewichtete (quadratische Fehler) Übereinstimmung
1. Beurteiler
1
0.10
0
0.02
0
0
0.12
16. In einer Stichprobe der Größe n (=20) aus einer Population wurden x (=5) SPDWähler gezählt. Sei  der Anteil der SPD-Wähler in der Population.
a) Schreiben Sie die Formel für die Wahrscheinlichkeit an, dass bei einer
Stichprobe der Größe n genau x SPD-Wähler gezogen werden.
b) Schreiben Sie die Formel der Likelihood an für eine Stichprobe der Größe n mit
genau x SPD-Wähler als Funktion von  .
c) Zeichnen Sie die Likelihoodfunktion (mit ca. 10 Stützpunkten).
d) An welcher Stelle der -Achse vermuten Sie das Maximum der
Likelihoodfunktion?
e) Zeichnen Sie den Logarithmus der Likelihoodfunktion (mit ca. 10 Stützpunkten).
An welcher Stelle der -Achse hat sie das Maximum?
f) Finden Sie mit Hilfe des Nullsetzens der ersten Ableitung nach  die Formel für
den Maximalpunkt!
17. Kreuztabelle, die im Skript bearbeitet wird (Dosisgruppe=x und Behandlungserfolg)
4
6
12
18
36
14
8
2
a) Berechnen Sie das Likelihood-Ratio-chi**2 zur Überprüfung der Hypothese der
Unabhängigkeit zwischen Dosisgruppe und Behandlungserfolg.
Nagl, Einführung in die Statistik, Anhang 4
Seite 6
b) Vergleichen Sie diesen Wert mit der Differenz zwischen
F(MIT x,nat) bei der PRU-Berechnung.
F(OHNE x,nat)-
18. Konzeption und Durchführung des Likelihood-Ratio-Test der Hypothese: In der
Gesamtheit ist der Anteil der SPD-Wähler = 0.70 (=0.70). Als Stichprobe diene
weiterhin: n=20. Die Anzahl der SPD-Wähler in der Stichprobe sei wiederum x= 5
(wie oben im Übung 16.)
a) Berechnen Sie die Ln-Likelihood LnL(; x, n-x) an der Stelle des ML-Schätzers
für den Populationsanteil; tragen Sie auch den Wert in die Ln-Likelihoodgraphik
ein.
b) Wieviel dimensional ist der Raum (=), in dem das Maximum gesucht werden
konnte in a)? (abgekürzt: dim()=?)
c) Die oben charakterisierte Hypothese schränkt den Raum ein (Restriktion von ).
Der eingeschränkte Raum werde mit 0 abgekürzt. Das Maximum von LnLikelihood LnL(; x, n-x) darf nun nur noch in diesem eingeschränkten Raum
gesucht werden. Welchen Wert hat das Maximum von LnL(; x, n-x) in diesem
eingeschränkten Raum? Dieses Maximum wird mit sup LnL(; x, n-x)
0
abgekürzt. Wie groß ist die Dimension von 0 (kurz: dim(0))?
d) Das Maximum der Ln-Likelihoodfunktion einmal im Raum  (nicht
eingeschränkt) gesucht, dann im eingeschränkten Raum 0 (=Teilraum von ).
In welchem Raum muß daher das Maximum der Funktion größer sein?
e) Bilden Sie die Differenz d=-2( sup LnL(; x, n-x)- sup LnL(; x, n-x)).
0

f) Diese Differenz ist approximativ (n groß) chi**2 verteilt. Der Freiheitsgrad der
chi**2-Verteilung ist gleich der Differenz der Raumdimensionen: dim()dim(0). Wird die oben gesetzte Hypothese abgelehnt auf dem Signifikanzniveau
von =0.05?
g) Testen Sie die vorliegende Nullhypothese mit Hilfe des Anpassungstests aus
Kapitel 3 (LR-chi**2). Vergleichen Sie das Ergebnis mit dem in f) berechneten!
(Vergleichen Sie auch die Formeln!)
19. Kombinieren der Likelihood aus mehreren unabhängigen Stichproben.
Population
1
2
3
4
Erfolg
Mißerfolg
1
2
3
4
1-1
1-2
1-3
1-4
Stichprobennu
mmer:
1
2
3
4
Größe
40 =n1
20 =n2
20 =n3
20 =n4
Erfolg
Mißerfolg
4 =n11
6 =n21
12 =n31
18 =n41
36 =n12
14 =n22
8 =n32
2 =n42
a) Bestimmen Sie zuerst für jede der 4 Stichproben den ML-Schätzer für den
Populationsanteil i (i=1,2,3,4).
b) Schreiben Sie für jede Stichprobe den Ln der Likelihood an (später auch
konkret berechnen!) an der Ln-Maximumsstelle.
c) Sei A das Ereignis, dass aus der ersten Population bei 40 mal Ziehen 4 Erfolge
gezogen werden; sei B das Ereignis, dass aus der zweiten Population bei 20 mal
Ziehen 6 Erfolge gezogen werden; sei C das entsprechende Ereignis für die 3.
Stichprobe und D für die 4. Die Wahrscheinlichkeiten für die einzelnen
Ereignisse seien mit P(A), P(B) usw. abgekürzt. Die 4 Ereignisse seien alle
unabhängig. Wie groß ist die Wahrscheinlichkeit, dass alle 4 Ereignisse
zutreffen: P(A  B C  D)? Wie groß ist der ln P(A B C  D)?
Nagl, Einführung in die Statistik, Anhang 4
Seite 7
d) Schreiben Sie nun die Likelihood bzw. den natürlichen Logarithmus des
kombinierten Ergebnisses (die Likelihood ist proportional zur
Wahrscheinlichkeit)! Sie ist nun eine Funktion der 4 Populationsanteile.
20. Fortsetzung des vorherigen Übungsbeispiels: (Die kombinierte Likelihood wurde im
letzten Beispiel gefunden: lnL:=lnL(1, 2, 3, 4 ; n11, n12, n21, n22, n31, n32, n41, n42) =
n11ln(1)+n12ln(1-1) +n21ln(2)+n22ln(1-2) +n31ln(3)+n32ln(1-3) +n41ln(4)+n42ln(14). Die ML-Schätzer für 1, 2, 3, 4 in der kombinierten Likelihood sind weiterhin die
Stichprobenanteile.) Konzeption und Durchführung des Likelihood-Ratio-Test der
Hypothese: Der Anteil des Erfolgs ist in allen Populationen gleich 1=2=3=4
(=:0).
a) Wieviel dimensional ist der Raum (=), in dem das Maximum in der
kombinierten Likelihood gesucht werden kann? (abgekürzt: dim()=?)
b) Die oben charakterisierte Hypothese schränkt den Raum ein (Restriktion von ).
Der eingeschränkte Raum werde mit 0 abgekürzt. Das Maximum von LnLikelihood lnL darf nun nur noch in diesem eingeschränkten Raum gesucht
werden. Wie groß ist die Dimension von 0 (kurz: dim(0))?
c) Vereinfachen Sie die kombinierte lnL, indem Sie in die Berechnungsformel
jeweils die verschiedenen i durch 0 ersetzen. Zeigen Sie dadurch, dass unter
Geltung der Hypothese gilt: lnL(1, 2, 3, 4 ; n11, n12, n21, n22, n31, n32, n41, n42) =
(n11+n21 +n31+n41) ln(0)+ (n12+n22 +n32+n42) ln(1-0). Dieser Ausdruck ist gleich
der ln-Likelihood in der Randverteilung: (n1) ln(0)+ (n2) ln(1-0).
d) Wie lautet der ML-Schätzer für die Randverteilung?
e) Das Maximum der Ln-Likelihoodfunktion einmal im Raum  (nicht
eingeschränkt) gesucht, dann im eingeschränkten Raum 0 (=Teilraum von ).
In welchem Raum muß daher das Maximum der Funktion größer sein?
f) Bilden Sie die Differenz d=-2( sup LnL(1, 2, 3, 4 ; n11, n12, ...)- sup LnL(1, 2,
0

3, 4 ; n11, n12, ...)).
g) Diese Differenz ist approximativ (n groß) chi**2 verteilt. Der Freiheitsgrad der
chi**2-Verteilung ist gleich der Differenz der Raumdimensionen: dim()dim(0). Wird die oben gesetzte Hypothese abgelehnt auf dem Signifikanzniveau
von =0.05?
h) Vergleichen Sie das Ergebnis mit dem LR-chi**2 auf Unabhängigkeit, das oben
(im Übungsbeispiel 17) bereits berechnet wurde.
21. Der Zusammenhang zwischen Rauchen (=y) und Alter (=x) werde durch die folgende
Tabelle beschrieben (Gesamtstichprobe). Eine logistische Regressionsgerade mit
Alter als Prädiktor wurde berechnet. Der ML-Schätzer für den Abschnitt = -3.697,
für die Steigung = 0.1279.
Raucher
ja
nein
ALTER
20
21
22
23
24
25
30
32
2
7
9
2
10
12
2
8
10
6
7
13
2
3
5
2
1
3
1
1
2
0
1
1
17
38
55
Nagl, Einführung in die Statistik, Anhang 4
Seite 8
a) Berechnen Sie die ˆ 1 (x) (Anteil der Raucher für die Prädiktion durch die oben
beschriebene Gerade).
b) Erstellen Sie ein Pfaddiaramm.
c) Berechnen Sie mit Hilfe der natürlichen Logarithmen die Entropie in Nits:
Fy(OHNE x, nat).
d) Berechnen Sie mit Hilfe der natürlichen Logarithmen die Entropie in Nits:
Fy(MIT x, nat).
e) Berechnen Sie PRU.
22. Kreuztabelle, (Alters=x und Parteipräferenz y)
Alter
Partei
Andere cdu spd
20
12
9
9
30
30
10
20
10
40
50
6
9
15
30
28
38
34
100
a) Berechnen Sie die ML-Schätzer für die Parteipräferenzanteile pro Altersgruppe.
b) Berechnen Sie die LnLikelihood für diese unrestringierten ML-Schätzer.
c) Wieviel dimensional ist der Raum, in dem die Parameter variieren können bei
den obigen ML-Schätzern?
d) Berechnen Sie die ML-Schätzer für die Präferenzanteile pro Altersgruppe unter
der Restriktion, dass in allen Gruppen die Anteile gleich sind.
e) Berechnen Sie die LnLikelihood für diese restringierten ML-Schätzer.
f) Wieviel dimensional ist der Raum, in dem die Parameter variieren können bei
den wie eben restringierten ML-Schätzern?
g) Führen Sie einen Likelihood-Ratio-Test durch. Wie groß ist chi**“? wieviel
Freiheitsgrade? Welche Hypothese haben Sie jetzt getestet?
h) Berechnen Sie F(OHNE x,nat), F(MIT x,nat) bei der PRU-Berechnung.
i) Berechnen Sie PRU
23. Kreuztabelle, (Alters=x und Parteipräferenz y)
Alter
Parteipräferenz
Andere cdu spd
20
12
9
9
30
30
10
20
10
40
50
6
9
15
30
28
38
34
100
Zwei Logits werden betrachtet: A-Logit= ln(Ant. Andere / Ant. Spd)
und der CDU-Logit = ln(Ant. Cdu / Ant. Spd).
Das Regressionsmodell lautet: A-Logit = 1+ 1 Alter.
CDU-Logit = 2+ 2 Alter.
Die Regressionskoeffizienten wurden mit ML geschätzt: ̂ 1 =1.293, ̂1 = -0.045,
̂ 2 =1.013, ̂ 2 = -0.026.
Nennen Sie den hier betrachteten Parameterraum 1. n1(20) ist dann gleich n11,
n2(20) ist dann gleich n12. n3(20) ist dann gleich n13 usw.
23.1
Berechnen Sie die auf der Geraden liegenden Logits und die entsprechenden
Anteile für x= 20, 30 und 50.
Nagl, Einführung in die Statistik, Anhang 4
23.2
23.3
Seite 9
Wie viele Dimensionen hat der Parameterraum 1?
Berechnen Sie den Ln der Likelihood für die durch die Gerade geschätzten
Anteile. Das ist dann genau= sup LnL(1, 1 , 2, 2; n1(x), n2(x), n3(x),... ).
1
23.4
Berechnen Sie für den eingeschränkten Raum 0, in dem 1 =0 und 2 =0 (=
Nullhypothese) den Ln der Likelihood: sup LnL(1, 1 , 2, 2; n1(x), n2(x),
0
23.5
23.6
23.7
n3(x),... ).
Testen Sie die Nullhypothese mit Hilfe des Likelihood-Ratio-Tests.
Interpretieren Sie das Ergebnis.
Berechnen Sie PRU für das Modell
Nagl, Einführung in die Statistik, Anhang 4
Seite 10
Lösungen zu ausgewählten Übungsbeispielen zu Kap. 4
3 b) (-11.59251,-2.07416) c)t(5)=-3.6908 KB=außerh. von (-2.57,2.57) Ho abgelehnt d) Verbesserung
bedeutet hier Reduktion: KB kleiner gleich 2.02; H0 abgelehnt. e) d1.A=(383-102.83)/383=0.7315
4a) ohneAbi1, MitAbi6, MehrAls Abi4 b) egal welches x, immer 3 c) ssq(between)=180.
ssq(within)=238=F(Mit). F(Ohne)=ssq(total)=238+180 d) DetKoeff1.Art = 0.43 e) df1=2, df2=40-3=37
F(2,37)=(180/2)/(238/37)= 13.99 ; F0.95 (2,37 ) 3.25; d.h KB3.25 H0 abgelehnt. f) zur Gruppeneffektdarstellung: generelles Niveau k mit Abweichungen für die 3 Gruppen: Mi1=k+a1, Mi2=k+a2, Mi3=k+a3,
so daß a1+a2+a3=0 ist. Dh. Mi1+Mi2+Mi3=3k+(a1+a2+a3). dh. k=( Mi1+Mi2+Mi3)/3=11/3=3.666.
a1=1-3.666=-2.666. a2=6-3.666=2.333. a3=4-3.666=0.333.
g) Graphische Darstellung von k,a1,a2,a3 und e
Zu 5)
Netto Netto/100-20(für einfacheres Rechnen)
Geld-,Bank-,Versicherungswesen
Geld-,Bank-,Versicherungswesen
Geld-,Bank-,Versicherungswesen
Bergbau
Bergbau
Bergbau
Öffentlicher Dienst
Öffentlicher Dienst
Öffentlicher Dienst
Handel
Handel
Handel
Handel
Landwirtschaft
Landwirtschaft
2900
3800
4700
3000
3400
4000
2700
3200
3700
2200
2500
3000
3500
1800
2500
9
18
27
10
14
20
7
12
17
2
5
10
15
-2
5
Lösung zu 5) Computer-Ausdruck (JMP) zu Branche:
30
25
20
15
10
5
0
-5
Bergbau
Geld-,Bank-,Versicherungswesen
Landwirtschaft
Öffentlicher
Dienst
Handel
Branche
Level
Number
Bergbau
3
Geld-,Bank-,Versicherungswesen 3
Handel
Landwirtschaft
Öffentlicher Dienst
Mean
Std Dev
Std Err Mean
14.6667
5.03322
2.9059
18.0000
9.00000
5.1962
4
8.0000
5.71548
2.8577
2
1.5000
4.94975
3.5000
3
12.0000
5.00000
2.8868
Analysis of Variance
Source DF
Sum of Squares Mean Square
Model 4
405.76667
101.442
Error 10
385.16667
38.517
C Total 14
790.93333
F Ratio
2.6337
p=0.0976
Nagl, Einführung in die Statistik, Anhang 4
Seite 11
Response:
netto/100-20
Summary of Fit
RSquare 0.513023
RSquare Adj 0.318232
Root Mean Square Error 6.20618
Mean of Response
11.26667
Observations
15
Parameter Estimates
Term
Intercept
Branche[Bergbau-Öffentl]
Branche[Geld-,B-Öffentl]
Branche[Handel-Öffentl]
Branche[Landwir-Öffentl]
t Ratio
6.60
1.19
2.22
-0.97
-2.47
Effect Test
Source Nparm DF
Branche 4
4
Estimate
10.833333
3.8333333
7.1666667
-2.833333
-9.333333
Std Error
1.642001
3.224826
3.224826
2.910956
3.775072
Sum of Squares F Ratio Prob>F
405.76667
2.6337 0.0976
Prob>|t|
<.0001
0.2620
0.0505
0.3533
0.0330
130
Lösung zu 6)
Linear Fit
IQ(Z)-Binet-Stanford = 31.1363 + 0.71764 IQ(E)-Binet-Stanford
Summary of Fit
RSquare 0.467623 RSquare Adj 0.40847
Root Mean Square Error 11.33919
Mean of Response
99.18182 Observations
11
Analysis of Variance
Source DF
Sum of Squares Mean Square
Model 1
1016.4415
1016.44
Error 9
1157.1948
128.58
C Total 10
2173.6364
F Ratio
7.9053
Prob>F
0.0203
Parameter Estimates
Term
Intercept
IQ(E)-Binet-Stanford
Estimate
31.136343
0.7176416
Std Error
24.44167
0.25524
IQ(Z)-Binet-Stanford
120
110
100
90
80
70
60
70
80
90
100
110
IQ(E)-Binet-Stanford
t Ratio Prob>|t| Lower 95%
1.27
0.2346 -24.15503
2.81
0.0203 0.1402442
120
130
Upper
86.42772
1.2950391
6 h) Korr.Koeff r=0.68. i) Konf.Int für z(rho)=( 0.83621675 (1.96*(1/8.0)sqrt)) =(0.1432521, 1.5291814) j)
Konf.Int für rho=( 0.1432521, 0.9102844) k) 0.83621675/(1/8.0)sqrt =2.36517814. ein- und zweiseitig
ablehnen. l)z=(0.83621675-0.20273255)/(1/8.0)sqrt= 1.79176389; zwei und linksseitig ablehnen. rechtseitig
akzeptieren.
7) Schulbildung, Vater
Schulbildung, Mutter
1
Total %
Row %
Col %
2
3
4
1
6
37.50
85.71
66.67
3
18.75
60.00
33.33
0
0.00
0.00
0.00
0
0.00
0.00
0.00
9
56.25
2
1
6.25
14.29
20.00
2
12.50
40.00
40.00
0
0.00
0.00
0.00
2
12.50
66.67
40.00
5
31.25
3
0
0.00
0.00
0.00
0
0.00
0.00
0.00
1
6.25
100.00
100.00
0
0.00
0.00
0.00
1
6.25
4
0
0.00
0.00
0.00
0
0.00
0.00
0.00
0
0.00
0.00
0.00
1
6.25
33.33
100.00
1
6.25
5
31.25
Tests
Source
DF
Model
9
Error
4
C Total 13
Total Count 16
1
6.25
Test
ChiSquare
Likelihood Ratio
16.788
Pearson
24.960
3
18.75
Warning: 20% of cells have expected count less than 5, Chi-squares suspect
Warning: average cell count less than 5, LR Chi-square suspect
7
43.75
16
100.00
-LogLikelihood
8.39379
11.003228
19.397022
RSquare (U)
0.4327
Prob>ChiSq
0.0521
0.0030
Nagl, Einführung in die Statistik, Anhang 4
Seite 12
8 a) gem. Anteile
US.
MS
OS
Vaterschicht
b) y-Bedingte Anteile
Sohnschicht
US
MS
0.42
0.12
0.06
0.18
0
0.04
OS
0.06
0.06
0.06
0.48
0.18
0.34
0.6
0.3
0.1
Vaterschicht
US.
MS
OS
US
0.875
0.125
0
0.48
Sohnschicht
MS
0.353
0.529
0.118
0.34
OS
0.33
0.33
0.33
0.6
0.3
0.1
0.18
c) Nur jeder zehnte aus der Unterschicht erreicht die Oberschicht; aber jeder 3. in der Oberschicht stammt aus
der US.
d) Bei Chancengleichheit:
Vaterschicht
US.
MS
OS
US
0.48
0.48
0.48
0.48
Sohnschicht
MS
0.34
0.34
0.34
0.34
OS
0.18
0.18
0.18
0.6
0.3
0.1
0.18
8e) MIT-Regel: v us  s us, v ms  s ms, v os  s os F(MIT)=0.34. OHNE-Regel: immer US.
F(OHNE)=0.52. lambda=0.346153846.
f) tau=0.2084942 F(O)=0.6216 F(M)= 0.492
g) phi=0.611, v=0.432
h) Pearson chi**2=372.79, Likelihood Ratio Chi**2=388.581, df=4
9b) PRU=0.261 F(O)= 1.2957378 F(M)=0.9572099
c) Test
ChiSquare Prob>ChiSq (Programm-Ausdruck)
Likelihood Ratio 24.404
<.0001
Pearson
22.680
0.0001
Warning: 20% of cells have expected count less than 5, Chi-squares suspect.
(Fisher Exact Test p-Value=9.81E-05)
d) Phi=0.660
v=0.467
11 a) F(MIT)=0.115 ; F(OHNE)=0.2426; kappa=0.5244 b) F(MIT)=0.1 ; F(OHNE)=0.226; kappa=0.5575
c) F(MIT)=0.18 ; F(OHNE)=0.312; kappa=0.4231
12a)kappa b)hoch&nein c)0.167 d)FO=0.12,FM=0.10
13a) kappa b)0.615 (FO=0.52,FM=0.2) c) phi**2=0.444; R2=44.4, L2=58.22 d)0.43
14a) kappa=0.33 (FO=0.3,FM=0.2) b) tau=0.125, F(O)=0.64,F(M)=0.56 c)lambda=0.33 (FO=0.6,FM=0.4)
15) siehe Skript
17a)LRChi**2=44.238 b) F(OHNE x,nat)-F(MIT x,nat)= 0.673 - 0.452 = 0.22119
18a) LnL(; 5, 15) beim ML-Schätzer von 5/20 ist gleich 5*ln(0.25)+15*ln(0.75)= -11.2467029 b) dim()=1
c) LnL(; 5, 15) bei =0 ist gleich 5*ln(0.70)+15*ln(0.30)= -19.84297 dim(0)=0 d) Das Maximum im nicht
restringierten Raum ist größer (höchstens gleich) e) d= -2*(-8.596264)=17.1925 f) df= dim()-dim(0)=1; der
kritische chi**2-Wert für df=1 ist 3.84. 17.1925 ist im krit. Bereich, daher H0 ablehnen g) LRchi**2=17.1925
19) a) MLSchätzer für PopAnteile sind die Anteile in der Stichprobe p 1=n11/n1=4/40 usw. b) 1.Stp
4*ln(4/40)+36*ln(36/40); 2.Stp 6*ln(6/20)+14*ln(14/20);... c) P(A  B C  D)= P(A) P(B) P(C) P(D). ln(P(A
 B C  D))= ln(P(A))+ ln (P(B)) + ln( P(C)) + ln( P(D)). d) lnL(1, 2, 3, 4 ; n11, n12, n21, n22, n31, n32,
n41, n42) = n11ln(1)+n12ln(1-1) +n21ln(2)+n22ln(1-2) +n31ln(3)+n32ln(1-3) +n41ln(4)+n42ln(1-4).
20a) dim()=4 b) dim(0)=1 d) Das ist der Anteil der Stichproben-Randverteilung
f)ml0= sup LnL(1, 2, 3, 4 ; 4, 36, ...)=40*ln(0.4)+60*ln(0.6)= -67.3011667. ml= sup LnL(1, 2, 3, 4 ;
0

4, 36 , ...)= 4*ln(4/40)+36*ln(36/40)+6*ln(6/20)+14*ln(14/20)+...= -45.1824. d=-2(ml0-ml)=
-2(-67.3011667- -45.1824)=-2*-22.1186=44.237
g) df= dim()-dim(0)=3; der kritische chi**2-Wert für df=3 ist 7.81 ; 44.237 liegt im kritischen Bereich, H0
abgelehnt.
h) Der eben durchgeführte LR-Test entspricht exakt dem früher eingeführten LR-chi**2 Test auf
Unabhängigkeit.
Nagl, Einführung in die Statistik, Anhang 4
21zu a)
x= Alter
20
21
22
23
24
25
30
32
̂(x)
-1.13944
-1.01155
-0.88367
-0.75579
-0.62791
-0.50003
0.139377
0.39514
P(Y=nein)
0.757576
0.733324
0.707583
0.680439
0.652016
0.622466
0.465212
0.402481
Seite 13
P(Y=ja)
0.242424
0.266676
0.292417
0.319561
0.347984
0.377534
0.534788
0.597519
Anzahl
9
12
10
13
5
3
2
1
21c) 34.01 / 55=F(OHNE, nat) d) 33.40/ 55=F(MIT x-Geraden, nat) e) PRU=0.0177
22a) Die ML-Schätzer für die Parteipräferenzanteile pro Altersgruppe in der Pop. sind die
Parteipräferenzanteile pro Gruppein der Stichprobe (bzw. die 9 zeilenbedingten Stichproben-Anteile)
22b) lnL1=LnLikelihood mit diesen unrestringierten ML-Parameterschätzern= -105.14542 c) dim()=6
22d) Anteile über alle Gruppen hinweg gleich (genauer: der Anteil der CDU-Präferenz ist in allen Gruppen
gleich, der SPD-Präferenzanteil ist in allen Gruppen gleich und der Andere-Präferenzanteil ist in allen Gruppen
gleich). Durch diese Hypothese wird der Raum  eingeschränkt. Im durch diese Hypothese restringierten Raum
0 sollen nun die Präferenzanteile berechnet werden. Die in diesem eingeschränkten Raum ML-geschätzten
Präferenzanteile sind gleich den y-Randanteilen der Stichprobe (0.28, 0.38, 0.34)
22e) lnL0=LnLikelihood mit diesen restringierten ML-Parameterschätzern= -109.09076 f) dim(0)=2
22g) LR-Chi**2=-2(lnL0-lnL1)= 7.89068. df= dim()-dim(0)=4. Hypothese: siehe bei 22d) d.h. die
Hypothese ist die den Raum einschränkende Aussage
22h) F(OHNE x,nat)=-n* lnL0= 1.0909076. F(MIT x,nat)=-n* lnL1= 1.0514542
22i) PRU=0.0362
23.1
Alter
20
30
50
And-Logit Cdu-logit
0.393
0.493
-0.057
0.233
-0.957
-0.287
23.2
Dim(1)=4
23.3 ML-Anteile and
cdu
spd
bei
0.359686 0.397515 0.242799
Geradenforderung 0.294544 0.393636 0.31182
0.179917
0.351601
0.468482
Die mit Hilfe der Linearen Gleichungen berechneten Anteile sind die ML-geschätzten Anteile in 1 dar. Für sie
können nun LnL berechnet werden: -106.909.
23.4 Wurde in 22 als restringierte Lösung berechnet (0 in allen Altersgruppen gleiche Anteile): = -109.09076
dim(0)=2
23.5 LRchi**2= 4.364399= -2(-109.09076- (-106.909)) , Df=4-2 =2. H0 wird nicht abgelehnt.
Herunterladen