Nagl, Statistik für Soziologen II, Hausaufgaben Seite 1 1. Hausaufgabe 1.1. Von 30 Kirchgängern waren 20 CDU-Wähler, von den 70 Nicht-Kirchgängern waren ebenfalls 20 CDU-Wähler. 1.1.1. Erstellen Sie die Häufigkeitstabelle für diesen Bericht. 1.1.2. Testen Sie die Hypothese, dass es keinen Zusammenhang zwischen Kirchgang und CDUParteipräferenz gibt. 1.1.3. Berechnen Sie tau. 1.1.4. Berechnen Sie PRU. 1.1.5. Berechnen Sie lambda. 1.1.6. Berechnen Sie für die Aussage „Wenn jemand Kirchgänger ist, wählt er CDU“ das adäquate PRE-Maß 1.2. Die Kreuztabelle für die beiden Merkmale ‚Angst vor Lehrenden’ (=x) und ‚Rauchen’(=y) ist (für Studentenuntersuchung, n=54): ANGST vor Lehrenden Raucher ja nein keine 3 17 indiff 2 6 ja 12 14 1.2.1. Berechnen Sie Pchi**2 und LRchi**2. Testen Sie die Hypothese: Die beiden Merkmale sind unabhängig. 1.2.2. Kritisieren Sie eben durchgeführte Berechnung. 1.2.3. Bitte noch tau berechnen. 1.3. Angenommen, ein in einer großen Stichprobe berechnetes tau sei 0.30. Die Varianz des berechneten tau sei 0.50. 1.3.1. Berechnen Sie das Konfidenzintervall 1.3.2. Testen Sie die Hypothese, dass das tau in der Population null ist. Nagl, Statistik für Soziologen II, Hausaufgaben Seite 2 2. Hausaufgabe 2.1. In einer Stichprobe der Größe n=30 aus einer Population wurden 10 SPD-Wähler gezählt. Sei der Anteil der SPD-Wähler in der Population. 2.1.1. Schreiben Sie die Formel für die Likelihoodfunktion für . 2.1.2. Zeichnen Sie die Likelihoodfunktion (mit ca. 10 Stützpunkten) 2.1.3. Schreiben Sie die Formel für den nat. Logarithmus der Likelihoodfunktion für . 2.1.4. Zeichnen Sie den natürlichen Logarithmus der Likelihoodfunktion (ebenfalls mit ca. 10 Stützpunkten) 2.1.5. An welcher Stelle der -Achse vermuten Sie das Maximum der Likelihoodfunktion? 2.1.6. An welcher Stelle der -Achse vermuten Sie das Maximum der logarithmierten Likelihoodfunktion? 2.1.7. Wie wird der Wert der -Achse genannt, bei dem das Maximum der Likelihoodfunktion liegt? 2.2. Die Kreuztabelle für die beiden Merkmale ‚Angst vor Lehrenden’ (=x) und ‚Rauchen’(=y) ist (für Studentenuntersuchung, n=54): ANGST vor Lehrenden Raucher ja nein keine 3 17 indiff 2 6 ja 12 14 2.2.1. Berechnen Sie die Raucher-Logits für jede Stufe des x-Merkmals 2.2.2. Zeichnen Sie die Logits in einem Streudiagramm 2.2.3. Berechnen Sie die Effekte bei asymmetrischer Restriktion (Normalfall sei keine Angst) und tragen Sie die Werte im Streudiagramm ein 2.2.4. Berechnen Sie die Effekte bei symmetrischer Restriktion und tragen Sie die Werte im Streudiagramm ein 2.2.5. Erstellen Sie ein Pfaddiagramm für die asymmetrischen Effekte 2.2.6. Berechnen Sie die Entropie (bei natürlichem Log) F(Ohne x, nat) und F(Mit x,nat). Wie groß ist die Differenz? 2.2.7. Multiplizieren Sie die Differenz mit 54 (=Stichprobengröße). 2.2.8. Berechnen Sie für die Tabelle das LR2 für den Test auf Unabhängigkeit der beiden Merkmale. 2.2.9. Welche Ähnlichkeit sehen Sie zwischen dem Ergebnis in 2.2.7 und 2.2.8? 2.2.10. Berechnen Sie PRU Nagl, Statistik für Soziologen II, Hausaufgaben Seite 3 3. Hausaufgabe 3.1. In der Stichprobe der Größe n=30 aus einer Population wurden 10 SPD-Wähler gezählt (wie oben). Sei der Anteil der SPD-Wähler in der Population. Der nicht restringierte Parameterraum werde mit abgekürzt. Zusätzlich gibt es die Hypothese, dass der Anteil der SPD-Wähler gleich 0.80 sei. Diese Hypothese schränkt den Raum ein (eingeschränkt, mit 0 abgekürzt). 3.1.1. Berechnen Sie die Ln-Likelihood LnL(; x, n-x) an der Stelle des ML-Schätzers für den Populationsanteil in ; tragen Sie auch den Wert in die Ln-Likelihoodgraphik ein. Wieviel dimensional ist der Raum (=), in dem das Maximum gesucht werden kann (abgekürzt: dim()=?)? 3.1.2. Berechnen Sie die Ln-Likelihood LnL(; x, n-x) an der Stelle des ML-Schätzers für den Populationsanteil in 0; tragen Sie auch den Wert in die Ln-Likelihoodgraphik ein. Wieviel dimensional ist der Raum (=0), in dem das Maximum gesucht werden kann (abgekürzt: dim(0)=?)? 3.1.3. Bilden Sie die Differenz d=-2( sup LnL(; x, n-x) - sup LnL(; x, n-x) ). 0 3.1.4. Welche Verteilung hat d (approximativ, bei großem n)? 3.2. Die folgende Gesamtstichprobe besteht aus drei unabhängigen Teilstichproben: Popula NichtGröße Stichprobe tion Rauch Rauch nnummer: er er Raucher Nicht-R 1 20 =n1 3 =n11 17 =n12 1 1 1-1 2 8 =n2 2 =n21 6 =n22 2 2 1-2 3 26 =n3 12 =n31 14 =n32 3 3 1-3 3.2.1. Bestimmen Sie zuerst für jede der 3 Stichproben den ML-Schätzer für den Populationsanteil i (i=1,2,3) 3.2.2. Schreiben Sie für jede Stichprobe den Ln der Likelihood an (als Formel). 3.2.3. Schreiben Sie für jede Stichprobe den Ln der Likelihood an (später auch konkret berechnen!) an der Ln-Maximumsstelle. 3.2.4. Schreiben Sie Ln der Likelihood an (als Formel), nun aber für die Gesamtstichprobe. 3.2.5. Schreiben Sie Ln der Likelihood an an der Ln-Maximumsstelle, nun aber für die Gesamtstichprobe (als Formel und als konkreten Wert). 3.2.6. Der nicht restringierte Raum der Parameter werde wieder mit abgekürzt. Wie groß ist dim()? 3.2.7. Wie lautet die Formel für den Ln der Likelihood für die Gesamtstichprobe, wenn alle Parameter gleich sind: i = 0 (i=1,2,3). (Vereinfachen Sie die Formel aus 3.2.4). Nagl, Statistik für Soziologen II, Hausaufgaben Seite 4 4. Hausaufgabe 4.1. Die drei Populationen (von Hausaufgabe 3.2) seien durch Ausprägungen einer quantitativen Variablen x beschreibbar (1. Pop habe den Wert x=0, 2. Pop. habe den Wert x=1 und die 3. Pop. habe in x den Wert 2). Im Rahmen einer logistischen Regressionsanalyse wurden die ML-Schätzer für den Abschnitt und die Steigung ermittelt ( ̂ = -1.77, ̂ =0.802). Die Variable x misst übrigens die Angst vor Lehrenden. Nennen Sie den hier betrachteten Parameterraum 1. n1(0) ist dann gleich n11, n2(0) ist dann gleich n12 usw. 4.1.1 Berechnen Sie die auf der Geraden liegenden Logits und die entsprechenden Anteile für x= 0, 1 und 2. 4.1.2 Wie viele Dimensionen hat der Parameterraum 1? 4.1.3 Berechnen Sie den Ln der Likelihood für die durch die Gerade geschätzten Anteile. Das ist dann genau= sup LnL(, ; n1(x), n2(x), ... ). 1 4.1.4 Berechnen Sie für den eingeschränkten Raum 0, in dem =0 (= Nullhypothese) den Ln der 4.1.5 4.1.6 Likelihood: sup LnL(, ; n1(x), n2(x), ... ). 0 Testen Sie die Nullhypothese mit Hilfe des Likelihood-Ratio-Tests. Interpretieren Sie das Ergebnis. 4.2 Kreuztabelle, (Alters=x und Familienstand y) Alter 1:verh/liiert 3 10 20 23 20 25 50 2:getrennt 3 5 10 18 Familienstand 3:Sonstige+Ledig 24 25 0 49 30 40 30 100 Zwei Logits werden betrachtet: 1-Logit= ln(Ant. 1:verh/liiert / Ant. Sonstige) und der 2-Logit = ln(Ant. 2: getrennt / Ant. Sonstige). Das Regressionsmodell lautet: 1-Logit = 1+ 1 Alter. 2-Logit = 2+ 2 Alter. Die Regressionskoeffizienten wurden mit ML geschätzt: ̂ 1 = -6.682, ̂1 =0.2313, ̂ 2 =-6.913, ̂ 2 = 0.2216. Nennen Sie den hier betrachteten Parameterraum 1. n1(20) ist dann gleich n11, n2(20) ist dann gleich n12. n3(20) ist dann gleich n13 usw. 4.2.1 Berechnen Sie die auf der Geraden liegenden Logits und die entsprechenden Anteile für x= 20, 25 und 50. 4.2.2 Wie viele Dimensionen hat der Parameterraum 1? 4.2.3 Berechnen Sie den Ln der Likelihood für die durch die Gerade geschätzten Anteile. Das ist dann genau= sup LnL(1, 1 , 2, 2; n1(x), n2(x), n3(x),... ). 1 4.2.4 Berechnen Sie für den eingeschränkten Raum 0, in dem 1=0 und 2=0 (=Nullhypothese) den Ln der Likelihood: sup LnL(1, 1 , 2, 2; n1(x), n2(x), n3(x),... ). 4.2.5 4.2.6 Testen Sie die Nullhypothese mit Hilfe des Likelihood-Ratio-Tests. Interpretieren Sie das Ergebnis. 0 Nagl, Statistik für Soziologen II, Hausaufgaben Seite 5 5. Hausaufgabe 5.1. Beim Beispiel (Angst vor Lehrenden =x vs. Rauchen=y) wurden für drei verschiedene Modelle die ML-Schätzer berechnet: M0 Kein Unterschied in den Anteilen beim Rauchen, M1 Lineares Logitmodell und für das Gruppenlogitmodell (=M2). M1 ist als Spezialfall von M2 beschreibbar, ebenfalls M0 als Spezialfall von M1. Die ln Likelikoods der drei Modelle waren: Ml 0= -33.64, Ml1= -30.913 , Ml2= -30.9. 5.1.1. Warum ist M1 ist als Spezialfall von M2 beschreibbar? 5.1.2. Warum ist M0 ist als Spezialfall von M1 beschreibbar? 5.1.3. Prüfen Sie die Hypothese, dass eine Gerade die Logits adäquat beschreibt 5.2. Beim Beispiel (Alter =x vs. Fam.stand=y) wurden ebenfalls die entsprechenden drei verschiedene Modelle die ML-Schätzer. M1 ist als Spezialfall von M2 beschreibbar, ebenfalls M0 als Spezialfall von M1. Die ln Likelikoods der drei Modelle waren: Ml0= -102.4, Ml1= -77.83 , Ml2= -74.28. 5.2.1. Warum ist M1 ist als Spezialfall von M2 beschreibbar? 5.2.2. Prüfen Sie die Hypothese, dass eine Gerade die Logits adäquat beschreibt 5.3. Für die Auto-Modelle dreier Länder wurde ermittelt, wieviel Prozent der von einem Modell verkauften Autos innerhalb eines Jahres massive Ausfälle zeigten: Japanische Modelle: 3 7 15 Englische Modelle: 19 11 36 Deutsche Modelle: 10 11 5.3.1. Bilden Sie alle ordinalen Paarvergleiche (y: Defektprozentsatz) 5.3.2. Erzeugen Sie die Gruppenpaarvergleichshäufigkeitstabelle 5.3.3. Erzeugen Sie die Modalprädiktionsregeln 5.3.4. Berechnen Sie ein lambda für diese Modalprädiktionsregeln 5.3.5. Stellen Sie die Modalprädiktionsregeln übersichtlich dar in Form einer Vergleichsmatrix der Länder und als HASSE-Diagramm 5.4. Für verschiedene Berufe wurde ermittelt, wer seine Aufgabe mit wenig bzw. mehr überzeugter Pflichterfüllung durchführt. Dabei sei folgende Kreuztabelle erzielt worden (Kreuztabelle mit Häufigkeiten): Zöllner Mechaniker Wissenschafter 1: klein 0 10 0 Pflichterfüllung (y) 2:mittel 10 5 5 3:groß 20 0 5 5.4.1. Bilden Sie alle ordinalen Paarvergleiche 5.4.2. Erzeugen Sie die Gruppenpaarvergleichshäufigkeitstabelle 5.4.3. Erzeugen Sie die Modalprädiktionsregeln 5.4.4. Berechnen Sie ein lambda für diese Modalprädiktionsregeln 5.4.5. Stellen Sie die Modalprädiktionsregeln übersichtlich dar in Form einer Vergleichsmatrix der Länder und als HASSE-Diagramm Nagl, Statistik für Soziologen II, Hausaufgaben Seite 6 6. Hausaufgabe Hautfarbe(a) Regionale Herkunft (b) Schwarz(s) Nord (n) Derzeitige Region der Kaserne (c) y: Wunsch für Aufenthalt in Kaserne im Süden Norden Nord (n) 387 36 Süd(s) 876 250 Süd(s) Nord (n) 383 270 Süd(s) 381 1712 Weiß (w) Nord(n) Nord (n) 955 162 Süd(s) 874 510 Süd(s) Nord (n) 104 176 Süd(s) 91 869 Daten aus: Stouffer S. et. al. (1949, p. 553): American Soldier, New York; bearbeitet von Goodman, L. A: A Modified Multiple Regression Approach.., American Sociological Review (1972, S. 28 ff.) Daten aus der STOUFFER -Studie: 6.1. Zu den 6.1.1. Erstellen Sie die Modalregeln zur Prädiktion von y, die alle drei Prädiktoren berücksichtigen 6.1.2. Versuchen Sie die Modalregel-Bedingung für die Präferenz des Nordens zu vereinfachen (etwa mit Hilfe des Venn-Diagramm) 6.1.3. Berechnen Sie das Multiple Lambda 6.1.4. Berechnen Sie für die Sequenz der Variablen a,b,c die semipartiellen Koeffizienten 6.2. Jemand berichte für eine Studie die folgenden partiellen Lambdas ya=0.40, yb.a=0.40, yc.ab =0.40 . 6.2.1. Wie groß ist das Multiple Lambda? 6.2.2. Wie groß sind die entsprechenden semipartiellen Lambdas? Nagl, Statistik für Soziologen II, Hausaufgaben Seite 7 7. Hausaufgabe 7.1. Nach der Variablen a (mit 4 Ausprägungen: 1, 2, 3, 4) sollen für die entstehenden 4 Teilgruppen Lambdas für den Zusammenhang zwischen b und y berechnet werden. Für die 4 Teilgruppen sind die Fehler bekannt: Teilgruppen 1. F(a=1,b)=10 F(a=1)=20 2. F(a=2,b)=10 F(a=2)=30 3. F(a=3,b)=10 F(a=3)=40 4. F(a=4,b)=10 F(a=4)=50 7.1.1. Berechnen Sie die Teilgruppen-Lambdas 7.1.2. Wie groß ist F(a,b)? 7.1.3. Wie groß ist F(a)? 7.1.4. Wie groß ist yb.a? 7.2. Für die Stouffer-Daten: 7.2.1. Berechnen Sie für alle möglichen Teiltabellen Entropie-Maße und stellen Sie die Entropie-Maße übersichtlich in einem ‚Modell’-Diamanten dar (Entropie in nits). 7.2.2. Berechnen Sie nur das multiple PRU 7.2.3. Berechnen Sie nun alle –2lnL werte für die verschiedenen Teiltabellen und tragen Sie –2lnL Werte wiederum in einen ‚Modell-Diamanten’ ein. 7.2.4. Wählen Sie das Modell aus, das den kleinsten SBC-Wert hat. 7.2.5. Prüfen Sie die Hypothese, dass c und y bedingt unabhängig sind(Bedingung sei a und b). 7.3. Inwiefern wirken sich Aufstiegschancen auf die Leistung aus. Mit Hilfe eines Leistungsindex wurde die Leistung gemessen. Zusätzlich sollte das Alter kontrolliert werden. Jeweils drei Personen pro Zelle: Gruppe (a) alt alt jung jung Aufstiegschancen (b) gut schlecht gut schlecht Anzahl 3 3 3 3 Leistungsindex Mittelwert Standardabw. 15 1 14 1 20 1 10 1 7.3.1. Berechnen Sie den multiplen Determinationskoeffizienten 1. Art. 7.3.2. Erstellen Sie ein Streudiagramm mit den Mittelwerteinträgen. 7.3.3. Berechnen Sie auch F(a) und F(b). 7.3.4. Berechnen Sie die Prädiktionswerte unter Geltung eines rein additiven Modells. 7.3.5. Berechnen Sie den Prädiktionsfehler bei der Prädiktion mit dem rein additiven Modell. 7.3.6. Zeichnen Sie den ‚Modell-Diamanten’ mit den entsprechenden Einträgen.