Document

Werbung
Nagl, Statistik für Soziologen II, Hausaufgaben
Seite 1
1. Hausaufgabe
1.1. Von 30 Kirchgängern waren 20 CDU-Wähler, von den 70 Nicht-Kirchgängern waren ebenfalls 20
CDU-Wähler.
1.1.1. Erstellen Sie die Häufigkeitstabelle für diesen Bericht.
1.1.2. Testen Sie die Hypothese, dass es keinen Zusammenhang zwischen Kirchgang und CDUParteipräferenz gibt.
1.1.3. Berechnen Sie tau.
1.1.4. Berechnen Sie PRU.
1.1.5. Berechnen Sie lambda.
1.1.6. Berechnen Sie für die Aussage „Wenn jemand Kirchgänger ist, wählt er CDU“ das adäquate
PRE-Maß
1.2. Die Kreuztabelle für die beiden Merkmale ‚Angst vor Lehrenden’ (=x) und ‚Rauchen’(=y) ist (für
Studentenuntersuchung, n=54):
ANGST vor Lehrenden Raucher
ja
nein
keine
3
17
indiff
2
6
ja
12
14
1.2.1. Berechnen Sie Pchi**2 und LRchi**2. Testen Sie die Hypothese: Die beiden Merkmale sind
unabhängig.
1.2.2. Kritisieren Sie eben durchgeführte Berechnung.
1.2.3. Bitte noch tau berechnen.
1.3. Angenommen, ein in einer großen Stichprobe berechnetes tau sei 0.30. Die Varianz des berechneten
tau sei 0.50.
1.3.1. Berechnen Sie das Konfidenzintervall
1.3.2. Testen Sie die Hypothese, dass das tau in der Population null ist.
Nagl, Statistik für Soziologen II, Hausaufgaben
Seite 2
2. Hausaufgabe
2.1. In einer Stichprobe der Größe n=30 aus einer Population wurden 10 SPD-Wähler gezählt. Sei  der
Anteil der SPD-Wähler in der Population.
2.1.1. Schreiben Sie die Formel für die Likelihoodfunktion für .
2.1.2. Zeichnen Sie die Likelihoodfunktion (mit ca. 10 Stützpunkten)
2.1.3. Schreiben Sie die Formel für den nat. Logarithmus der Likelihoodfunktion für .
2.1.4. Zeichnen Sie den natürlichen Logarithmus der Likelihoodfunktion (ebenfalls mit ca. 10
Stützpunkten)
2.1.5. An welcher Stelle der -Achse vermuten Sie das Maximum der Likelihoodfunktion?
2.1.6. An welcher Stelle der -Achse vermuten Sie das Maximum der logarithmierten
Likelihoodfunktion?
2.1.7. Wie wird der Wert der -Achse genannt, bei dem das Maximum der Likelihoodfunktion liegt?
2.2. Die Kreuztabelle für die beiden Merkmale ‚Angst vor Lehrenden’ (=x) und ‚Rauchen’(=y) ist (für
Studentenuntersuchung, n=54):
ANGST vor Lehrenden Raucher
ja
nein
keine
3
17
indiff
2
6
ja
12
14
2.2.1. Berechnen Sie die Raucher-Logits für jede Stufe des x-Merkmals
2.2.2. Zeichnen Sie die Logits in einem Streudiagramm
2.2.3. Berechnen Sie die Effekte bei asymmetrischer Restriktion (Normalfall sei keine Angst) und
tragen Sie die Werte im Streudiagramm ein
2.2.4. Berechnen Sie die Effekte bei symmetrischer Restriktion und tragen Sie die Werte im
Streudiagramm ein
2.2.5. Erstellen Sie ein Pfaddiagramm für die asymmetrischen Effekte
2.2.6. Berechnen Sie die Entropie (bei natürlichem Log) F(Ohne x, nat) und F(Mit x,nat). Wie groß ist
die Differenz?
2.2.7. Multiplizieren Sie die Differenz mit 54 (=Stichprobengröße).
2.2.8. Berechnen Sie für die Tabelle das LR2 für den Test auf Unabhängigkeit der beiden Merkmale.
2.2.9. Welche Ähnlichkeit sehen Sie zwischen dem Ergebnis in 2.2.7 und 2.2.8?
2.2.10. Berechnen Sie PRU
Nagl, Statistik für Soziologen II, Hausaufgaben
Seite 3
3. Hausaufgabe
3.1. In der Stichprobe der Größe n=30 aus einer Population wurden 10 SPD-Wähler gezählt (wie oben). Sei
 der Anteil der SPD-Wähler in der Population. Der nicht restringierte Parameterraum werde mit 
abgekürzt. Zusätzlich gibt es die Hypothese, dass der Anteil der SPD-Wähler gleich 0.80 sei. Diese
Hypothese schränkt den Raum ein (eingeschränkt, mit 0 abgekürzt).
3.1.1. Berechnen Sie die Ln-Likelihood LnL(; x, n-x) an der Stelle des ML-Schätzers für den
Populationsanteil in ; tragen Sie auch den Wert in die Ln-Likelihoodgraphik ein. Wieviel
dimensional ist der Raum (=), in dem das Maximum gesucht werden kann (abgekürzt:
dim()=?)?
3.1.2. Berechnen Sie die Ln-Likelihood LnL(; x, n-x) an der Stelle des ML-Schätzers für den
Populationsanteil in 0; tragen Sie auch den Wert in die Ln-Likelihoodgraphik ein. Wieviel
dimensional ist der Raum (=0), in dem das Maximum gesucht werden kann (abgekürzt:
dim(0)=?)?
3.1.3. Bilden Sie die Differenz d=-2( sup LnL(; x, n-x) - sup LnL(; x, n-x) ).

0
3.1.4. Welche Verteilung hat d (approximativ, bei großem n)?
3.2. Die folgende Gesamtstichprobe besteht aus drei unabhängigen Teilstichproben:
Popula
NichtGröße
Stichprobe
tion Rauch Rauch
nnummer:
er
er
Raucher Nicht-R
1 20 =n1
3 =n11
17 =n12
1
1
1-1
2 8 =n2
2 =n21
6 =n22
2
2
1-2
3 26 =n3
12 =n31 14 =n32
3
3
1-3
3.2.1. Bestimmen Sie zuerst für jede der 3 Stichproben den ML-Schätzer für den Populationsanteil i
(i=1,2,3)
3.2.2. Schreiben Sie für jede Stichprobe den Ln der Likelihood an (als Formel).
3.2.3. Schreiben Sie für jede Stichprobe den Ln der Likelihood an (später auch konkret berechnen!) an
der Ln-Maximumsstelle.
3.2.4. Schreiben Sie Ln der Likelihood an (als Formel), nun aber für die Gesamtstichprobe.
3.2.5. Schreiben Sie Ln der Likelihood an an der Ln-Maximumsstelle, nun aber für die
Gesamtstichprobe (als Formel und als konkreten Wert).
3.2.6. Der nicht restringierte Raum der Parameter werde wieder mit  abgekürzt. Wie groß ist dim()?
3.2.7. Wie lautet die Formel für den Ln der Likelihood für die Gesamtstichprobe, wenn alle Parameter
gleich sind: i = 0 (i=1,2,3). (Vereinfachen Sie die Formel aus 3.2.4).
Nagl, Statistik für Soziologen II, Hausaufgaben
Seite 4
4. Hausaufgabe
4.1. Die drei Populationen (von Hausaufgabe 3.2) seien durch Ausprägungen einer quantitativen Variablen
x beschreibbar (1. Pop habe den Wert x=0, 2. Pop. habe den Wert x=1 und die 3. Pop. habe in x den
Wert 2). Im Rahmen einer logistischen Regressionsanalyse wurden die ML-Schätzer für den Abschnitt
 und die Steigung  ermittelt ( ̂ = -1.77, ̂ =0.802). Die Variable x misst übrigens die Angst vor
Lehrenden. Nennen Sie den hier betrachteten Parameterraum 1. n1(0) ist dann gleich n11, n2(0) ist
dann gleich n12 usw.
4.1.1
Berechnen Sie die auf der Geraden liegenden Logits und die entsprechenden Anteile für x= 0, 1
und 2.
4.1.2
Wie viele Dimensionen hat der Parameterraum 1?
4.1.3
Berechnen Sie den Ln der Likelihood für die durch die Gerade geschätzten Anteile. Das ist dann
genau= sup LnL(, ; n1(x), n2(x), ... ).
1
4.1.4
Berechnen Sie für den eingeschränkten Raum 0, in dem =0 (= Nullhypothese) den Ln der
4.1.5
4.1.6
Likelihood: sup LnL(, ; n1(x), n2(x), ... ).
0
Testen Sie die Nullhypothese mit Hilfe des Likelihood-Ratio-Tests.
Interpretieren Sie das Ergebnis.
4.2
Kreuztabelle, (Alters=x und Familienstand y)
Alter
1:verh/liiert
3
10
20
23
20
25
50
2:getrennt
3
5
10
18
Familienstand
3:Sonstige+Ledig
24
25
0
49
30
40
30
100
Zwei Logits werden betrachtet: 1-Logit= ln(Ant. 1:verh/liiert / Ant. Sonstige)
und der 2-Logit = ln(Ant. 2: getrennt / Ant. Sonstige).
Das Regressionsmodell lautet: 1-Logit
= 1+  1 Alter.
2-Logit
= 2+ 2 Alter.
Die Regressionskoeffizienten wurden mit ML geschätzt: ̂ 1 = -6.682, ̂1 =0.2313,
̂ 2 =-6.913, ̂ 2 = 0.2216.
Nennen Sie den hier betrachteten Parameterraum 1. n1(20) ist dann gleich n11, n2(20) ist dann gleich
n12. n3(20) ist dann gleich n13 usw.
4.2.1
Berechnen Sie die auf der Geraden liegenden Logits und die entsprechenden Anteile für x= 20, 25
und 50.
4.2.2
Wie viele Dimensionen hat der Parameterraum 1?
4.2.3
Berechnen Sie den Ln der Likelihood für die durch die Gerade geschätzten Anteile. Das ist dann
genau= sup LnL(1, 1 , 2, 2; n1(x), n2(x), n3(x),... ).
1
4.2.4
Berechnen Sie für den eingeschränkten Raum 0, in dem 1=0 und 2=0 (=Nullhypothese) den Ln
der Likelihood: sup LnL(1, 1 , 2, 2; n1(x), n2(x), n3(x),... ).
4.2.5
4.2.6
Testen Sie die Nullhypothese mit Hilfe des Likelihood-Ratio-Tests.
Interpretieren Sie das Ergebnis.
0
Nagl, Statistik für Soziologen II, Hausaufgaben
Seite 5
5. Hausaufgabe
5.1. Beim Beispiel (Angst vor Lehrenden =x vs. Rauchen=y) wurden für drei verschiedene Modelle die
ML-Schätzer berechnet: M0 Kein Unterschied in den Anteilen beim Rauchen, M1 Lineares
Logitmodell und für das Gruppenlogitmodell (=M2). M1 ist als Spezialfall von M2 beschreibbar,
ebenfalls M0 als Spezialfall von M1. Die ln Likelikoods der drei Modelle waren:
Ml 0= -33.64, Ml1=
-30.913 , Ml2= -30.9.
5.1.1. Warum ist M1 ist als Spezialfall von M2 beschreibbar?
5.1.2. Warum ist M0 ist als Spezialfall von M1 beschreibbar?
5.1.3. Prüfen Sie die Hypothese, dass eine Gerade die Logits adäquat beschreibt
5.2. Beim Beispiel (Alter =x vs. Fam.stand=y) wurden ebenfalls die entsprechenden drei verschiedene
Modelle die ML-Schätzer. M1 ist als Spezialfall von M2 beschreibbar, ebenfalls M0 als Spezialfall
von M1. Die ln Likelikoods der drei Modelle waren:
Ml0= -102.4, Ml1= -77.83 , Ml2= -74.28.
5.2.1. Warum ist M1 ist als Spezialfall von M2 beschreibbar?
5.2.2. Prüfen Sie die Hypothese, dass eine Gerade die Logits adäquat beschreibt
5.3. Für die Auto-Modelle dreier Länder wurde ermittelt, wieviel Prozent der von einem Modell verkauften
Autos innerhalb eines Jahres massive Ausfälle zeigten:
Japanische Modelle: 3 7 15
Englische Modelle: 19 11 36
Deutsche Modelle: 10 11
5.3.1. Bilden Sie alle ordinalen Paarvergleiche (y: Defektprozentsatz)
5.3.2. Erzeugen Sie die Gruppenpaarvergleichshäufigkeitstabelle
5.3.3. Erzeugen Sie die Modalprädiktionsregeln
5.3.4. Berechnen Sie ein lambda für diese Modalprädiktionsregeln
5.3.5. Stellen Sie die Modalprädiktionsregeln übersichtlich dar in Form einer Vergleichsmatrix der
Länder und als HASSE-Diagramm
5.4. Für verschiedene Berufe wurde ermittelt, wer seine Aufgabe mit wenig bzw. mehr überzeugter
Pflichterfüllung durchführt. Dabei sei folgende Kreuztabelle erzielt worden (Kreuztabelle mit
Häufigkeiten):
Zöllner
Mechaniker
Wissenschafter
1: klein
0
10
0
Pflichterfüllung (y)
2:mittel
10
5
5
3:groß
20
0
5
5.4.1. Bilden Sie alle ordinalen Paarvergleiche
5.4.2. Erzeugen Sie die Gruppenpaarvergleichshäufigkeitstabelle
5.4.3. Erzeugen Sie die Modalprädiktionsregeln
5.4.4. Berechnen Sie ein lambda für diese Modalprädiktionsregeln
5.4.5. Stellen Sie die Modalprädiktionsregeln übersichtlich dar in Form einer Vergleichsmatrix der
Länder und als HASSE-Diagramm
Nagl, Statistik für Soziologen II, Hausaufgaben
Seite 6
6. Hausaufgabe
Hautfarbe(a)
Regionale
Herkunft
(b)
Schwarz(s)
Nord (n)
Derzeitige
Region der
Kaserne (c)
y: Wunsch für
Aufenthalt in
Kaserne im
Süden
Norden
Nord (n)
387
36
Süd(s)
876
250
Süd(s)
Nord (n)
383
270
Süd(s)
381
1712
Weiß (w)
Nord(n)
Nord (n)
955
162
Süd(s)
874
510
Süd(s)
Nord (n)
104
176
Süd(s)
91
869
Daten aus: Stouffer S. et. al. (1949, p. 553): American Soldier, New York;
bearbeitet von Goodman, L. A: A Modified Multiple Regression Approach..,
American
Sociological
Review
(1972, S. 28 ff.)
Daten
aus der
STOUFFER
-Studie:
6.1. Zu den
6.1.1. Erstellen Sie die Modalregeln zur Prädiktion von y, die alle drei Prädiktoren berücksichtigen
6.1.2. Versuchen Sie die Modalregel-Bedingung für die Präferenz des Nordens zu vereinfachen (etwa
mit Hilfe des Venn-Diagramm)
6.1.3. Berechnen Sie das Multiple Lambda
6.1.4. Berechnen Sie für die Sequenz der Variablen a,b,c die semipartiellen Koeffizienten
6.2. Jemand berichte für eine Studie die folgenden partiellen Lambdas ya=0.40, yb.a=0.40, yc.ab
=0.40 .
6.2.1. Wie groß ist das Multiple Lambda?
6.2.2. Wie groß sind die entsprechenden semipartiellen Lambdas?
Nagl, Statistik für Soziologen II, Hausaufgaben
Seite 7
7. Hausaufgabe
7.1. Nach der Variablen a (mit 4 Ausprägungen: 1, 2, 3, 4) sollen für die entstehenden 4 Teilgruppen
Lambdas für den Zusammenhang zwischen b und y berechnet werden. Für die 4 Teilgruppen sind die
Fehler bekannt:
Teilgruppen
1.
F(a=1,b)=10
F(a=1)=20
2.
F(a=2,b)=10
F(a=2)=30
3.
F(a=3,b)=10
F(a=3)=40
4.
F(a=4,b)=10
F(a=4)=50
7.1.1. Berechnen Sie die Teilgruppen-Lambdas
7.1.2. Wie groß ist F(a,b)?
7.1.3. Wie groß ist F(a)?
7.1.4. Wie groß ist yb.a?
7.2. Für die Stouffer-Daten:
7.2.1. Berechnen Sie für alle möglichen Teiltabellen Entropie-Maße und stellen Sie die Entropie-Maße
übersichtlich in einem ‚Modell’-Diamanten dar (Entropie in nits).
7.2.2. Berechnen Sie nur das multiple PRU
7.2.3. Berechnen Sie nun alle –2lnL werte für die verschiedenen Teiltabellen und tragen Sie –2lnL
Werte wiederum in einen ‚Modell-Diamanten’ ein.
7.2.4. Wählen Sie das Modell aus, das den kleinsten SBC-Wert hat.
7.2.5. Prüfen Sie die Hypothese, dass c und y bedingt unabhängig sind(Bedingung sei a und b).
7.3. Inwiefern wirken sich Aufstiegschancen auf die Leistung aus. Mit Hilfe eines Leistungsindex wurde
die Leistung gemessen. Zusätzlich sollte das Alter kontrolliert werden. Jeweils drei Personen pro Zelle:
Gruppe (a)
alt
alt
jung
jung
Aufstiegschancen
(b)
gut
schlecht
gut
schlecht
Anzahl
3
3
3
3
Leistungsindex
Mittelwert
Standardabw.
15
1
14
1
20
1
10
1
7.3.1. Berechnen Sie den multiplen Determinationskoeffizienten 1. Art.
7.3.2. Erstellen Sie ein Streudiagramm mit den Mittelwerteinträgen.
7.3.3. Berechnen Sie auch F(a) und F(b).
7.3.4. Berechnen Sie die Prädiktionswerte unter Geltung eines rein additiven Modells.
7.3.5. Berechnen Sie den Prädiktionsfehler bei der Prädiktion mit dem rein additiven Modell.
7.3.6. Zeichnen Sie den ‚Modell-Diamanten’ mit den entsprechenden Einträgen.
Herunterladen