Nagl, Einführung in die Statistik, Anhang 4 Seite 1 Übungsaufgaben zu Kap. 4. 1. Entnehmen Sie die Daten für zu Hause und in Uni Arbeiten (in Stunden) dem Skript a) Berechnen Sie die Differenzen für die 4 Personen. b) Berechnen Sie das 95% Konfidenzintervall für die Populations-MittelwertsDifferenzen. c) Testen Sie die Hypothese: Populations-Mittelwerts-Differenzen sind 0. d) Berechnen Sie den Determinationskoeffizienten 1. Art. 2. Der durchschnittliche Aspirinkonsum (Pillen pro Jahr) in der Schweiz soll mit jenem in Deutschland verglichen werden. Annahme: der Aspirinkonsum sei in beiden Länden normalverteilt. Stichproben: Schweiz Deutschland Mittelwert 30 25 Standardabweichung 15 10 Stichprobengröße 100 30 Nullhypothese: der Aspirinkonsum ist im Schnitt in beiden Ländern gleich (Alternative: ungleich). Erstellen Sie ein Streudiagramm, mit Eintragen der Mittelwerte und der 95% Konfidenzintervalle a) 95%-Konfidenzintervalle Pop.mittelwert für Schweiz und Deutschland? b) Berechnen Sie den Determinationskoeffizient 1. Art. Test und Konfidenzintervalle der Mittelwertdifferenz unter der Annahme: Die Populationsstandardabweichungen seien gleich. c) Testverteilung? Freiheitsgrade? d) kritischer Bereich? e) Testwert? Wird H0 abgelehnt? Warum? f) Berechnen Sie ein Konfidenzintervall für die Differenz der Populationsmittelwerte? g) Welche Differenzhypothesen würden akzeptiert werden? Test und Konfidenzintervalle der Mittelwertdifferenz unter der Annahme: Die Populationsstandardabweichungen seien verschieden. h) Testverteilung? Freiheitsgrade? i) kritischer Bereich? j) Testwert? Wird H0 abgelehnt? Warum? k) Welche Differenzhypothesen würden akzeptiert werden? 3. Die ‚Wirkung‘ einer Behandlung mit einem HDL-steigernden Medikaments wurde untersucht. Die Meßpaare (HDL vor Behandlung, HDL nach Behandlung) sind: (30, 35), (35, 45), (37,48), (39,49), (45,51), (53,52). Unterstellen Sie, daß die Differenzwerte normalverteilt sind. a) Stellen Sie die Daten in einem Streudiagramm fragestellungsadäquat dar. b) Berechnen Sie ein 95% Konfidenzintervall für (Pop.mittelwert vorherPop.mittelwert nachher) c) Testen Sie die Nullhypothese: Keine Veränderung vs. Veränderung. d) Testen Sie die Nullhypothese: Keine Veränderung vs. Verbesserung. e) Berechnen Sie den Determinationskoeffizienten 1. Art. Nagl, Einführung in die Statistik, Anhang 4 Seite 2 4. Wieviel Zeit sitzen Besitzer von PCs vor ihren PCs? Gibt es Unterschiede nach Ausbildung? Eine Untersuchung ergab folgende Messwerte: Stichproben (nach Bildung) Ohne Abi Mit Abi Mehr als Abi n 20 10 10 a. Mittel 1 6 4 Std 2 3 3 Untersuchen Sie zur Prädiktion die Mittelwertsregel: Charakterisieren Sie genau die Regel (mit Bildung) Charakterisieren Sie genau die Regel (ohne Bildung) Fehler(Ohne Bildung)? Fehler(Mit Bildung)? PRE-Maß? Wird H0 ( im Schnitt keine Unterschiede nach Bildung; Ha: es gibt Unterschiede) abgelehnt? f) Erstellen Sie die Gruppeneffektdarstellung (Skript S.79) mit symmetrischer Effektrestriktion g) Erstellen Sie ein Pfaddiagramm. a) b) c) d) e) 5. Eine Stichprobe von Nettomonatsverdiensten(in DM) wurde erhoben; es soll untersucht werden, ob auf Grund der Kenntnis der Branchenzugehörigkeit des Verdienenden eine fehlerreduzierende Prädiktionsregel gefunden werden kann (welche?)und um wieviel der Fehler durch die Regel reduziert werden kann (welches PRE-maß ist angemessen?). Befragt wurden 15 Männer Branchen: Nettomonatsverdienste Geld-,Bank-,Versicherungswesen 2900, 3800, 4700 Bergbau 3000, 3400, 4000 Öffentlicher Dienst 2700, 3200, 3700 Handel 2200, 2500, 3000, 3500 Landwirtschaft 1800, 2500 a) b) c) d) e) Charakterisieren Sie genau die Regel (mit Branchen) Charakterisieren Sie genau die Regel (ohne Branchen) Fehler(Ohne Bildung)? Fehler(Mit Branchen)? PRE-Maß? Wird H0 ( im Schnitt keine Unterschiede nach Branchen; Ha: es gibt Unterschiede) abgelehnt? f) Erstellen Sie die Gruppeneffektdarstellung (Skript S.79) mit symmetrischer Effektrestriktion g) Erstellen Sie ein Pfaddiagramm. 6. Die Intelligenz eineiiger Zwillinge (n=19), die in unterschiedlichem Milieu aufgewachsen sind, wurde untersucht. Die Auswahl der ersten 11 Zwillinge aus den Daten von NEWMAN H.H et al. (1937) liegt hier vor (E: Erstgeboren, Z: Zweitgeboren). Untersuche, wie gut durch eine Gerade (als Regel) die Intelligenz des Nagl, Einführung in die Statistik, Anhang 4 Seite 3 Z-Zwillings (=:y) auf Grund der Intelligenz des E-Zwillings (=:x) prädiziert werden kann. Merkmale Vpnr Unterschied in Ausbildung (Jahre) Trennung im x. Monat im 'besseren' Milieu Alter bei Test Geschlecht IQ(E)-Binet-Stanford IQ(Z)-Binet-Stanford 1 1 18 Z 19 0 85 97 2 3 4 10 1 4 18 2 5 Z E Z 27 23 29 0 1 0 66 99 89 78 101 106 5 6 7 1 0 0 14 36 1 Z E E 38 59 13 0 0 1 89 102 105 93 94 106 8 9 10 11 1 0 1 14 3 1 12 18 E E Z Z 15 19 12 35 0 1 0 0 92 102 122 92 77 96 127 116 a) b) c) d) e) f) g) h) i) j) k) Charakterisieren Sie genau die Regel (mit E-Zwilling) Charakterisieren Sie genau die Regel (ohne E-Zwilling) Fehler(Ohne E-Zwilling)? Fehler(Mit E-Zwilling)? PRE-Maß? Konfidenzintervall für ? Testen Sie H0: =0. Testwert? KB? Wird H0 abgelehnt? Erstellen Sie ein Pfaddiagramm. Korrelationskoeffizient? Berechnen Sie ein 95%Konfidenzintervall für z(). Berechnen Sie ein 95%Konfidenzintervall für selbst. Testen Sie H0: =0. Teststatistk? Wird H0 abgelehnt(einseitig), (zweiseitig) bei =5%? l) Testen Sie H0: =0.20. Teststatistk? Wird H0 abgelehnt(einseitig), (zweiseitig) bei =5%? 7. Erstellen Sie die Kreuztabelle (für die Personen 17-32) der beiden Merkmale: Vaterund Mutterausbildung. Interpretieren Sie das Ergebnis. a) Berechnen Sie gemeinsame und Randanteile b) Berechnen Sie x- und y-Bedingte Anteile. Interpretieren Sie die beide Arten von bedingten Anteilen. 8. Bei Mobilitätsstudien werden die Väter-Sohnpaare untersucht zur Feststellung der Mobilität zwischen zwei Generationen. Es seien folgende bedingten Anteile gefunden worden: Vaterschicht a) b) c) d) e) f) g) h) US. MS OS US 0.70 0.20 0 Sohnschicht MS 0.20 0.60 0.40 OS 0.10 0.20 0.60 0.6 0.3 0.1 Berechnen Sie die gemeinsamen Anteile Berechnen Sie die y-Bedingten Anteile. Interpretieren Sie die x- und y-Bedingten Anteile. Welchen Bedingungen müßten die x-Bedingten Anteile entsprechen bei völliger Chancengleichheit? Berechnen Sie Lambda () Berechnen Sie Tau () Berechnen Sie Phi () und Cramers v Testen Sie die Hypothese der Unabhängigkeit (n sei=1000) Nagl, Einführung in die Statistik, Anhang 4 8. Die Kreuztabelle (für die Personen 1-55) der beiden Merkmale: Vater- und Mutterausbildung ist: a) Erstellen Sie ein strukturiertes Staffeldiagramm b) Berechnen Sie PRU c) Prüfen Sie die Hypothese der Unabhängigkeit der beiden Merkmale d) Berechnen Sie Phi und Cramers v. Seite 4 VaterAusbildung Volks-S. höhere S. Abi u.m. Ausbildung der Mutter Volkshöhere Abi u. schule Schule mehr 19 6 0 8 6 0 1 8 4 28 20 4 25 14 13 52 10. Was ist eine prädiktive Beziehung zwischen x und y? Welche Bedingungen müssen zusätzlich erfüllt sein, damit die prädiktive als kausale Beziehung interpretiert werden darf? 11. Berechnen Sie Kappa a) Zu den Daten der Aufgabe 9 ein kappa für die Aussage: ‚Männer heiraten nur Frauen, denen sie ausbildungsmäßig mindestens gleichwertig sind’. b) Zu den Daten der Aufgabe 8 ein kappa für die Aussage: ‚Es gibt keinen sozialen Abstieg’. c) Zu den Daten der Aufgabe 8 ein kappa für die Aussage: ‚Wenn der Vater Unterschichtler ist, ist auch der Sohn Unterschichtler . 12. Die Aussage : 'Wenn jemand in einer Gruppe einen hohen Status hat, dann akzeptiert er die Normen der Gruppe' soll auf Grund der folgenden Kreuztabelle untersucht werden: Status a) b) c) d) Akzeptieren der Normen ja nein --------------------------------------niedrig 40 20 hoch 30 10 --------------------------------------- Welches PRE-maß ist für diese Fragestellung angemessen ? Welches sind die Fehlerzellen ? Berechnen Sie das von Ihnen vorgeschlagene PRE-maß Fehler (Ohne x)=________________ Fehler(Mit x)= 13. Die Aussage : 'Die Mutter hat die gleiche Einstellung gegenüber der Tochter wie der Vater' soll auf Grund der folgenden Untersuchungsergebnisse untersucht werden: Einstellung der Mutter a) b) c) d) des Vaters: positiv negativ ------------------------------positiv 40 0 negativ 20 40 ------------------------------- Welches PRE-maß ist für diese Fragestellung angemessen ? Berechnen das von Ihnen vorgeschlagene PRE-maß. Berechnen Sie auch phi**2 und PEARSON-chi**2 und LR-chi**2. Berechnen Sie PRU Nagl, Einführung in die Statistik, Anhang 4 Seite 5 14. Die Aussage für Kampfpiloten: 'Wenn jemand als zweites Kind in der Geschwisterreihenfolge geboren wird, ist er sehr erfolgreich' soll auf Grund folgender Kreuztabelle untersucht werden: Geboren in Geschwisterreihenfolge als: zweiter andere Position Erfolgreich nein mittel sehr ------------------10 10 30 30 10 10 ------------------- a) Berechnen Sie kappa für die obige Aussage. b) Berechnen Sie tau. c) Berechnen Sie lambda. 15. Gegeben seien die gemeinsamen Anteile für die Übereinstimmung der Klassifikation durch zwei Beurteiler. Gemeinsame Anteile 2 0 0.10 0.03 0 0 0.13 2. Beurteiler 3 4 0.02 0 0.05 0 0.40 0.03 0.10 0.03 0 0 0.50 0.13 5 a) Berechnen Sie ein kappa für die 1 0.14 0.02 2 0.15 0 Übereinstimmungsaussage 3 0.48 0 4 0.13 0 b) Berechnen Sie ein kappa für die 5 0.10 0.10 gewichtete (lineare Fehler) 5 0.12 1 Übereinstimmung c) Berechnen Sie ein kappa für gewichtete (quadratische Fehler) Übereinstimmung 1. Beurteiler 1 0.10 0 0.02 0 0 0.12 16. In einer Stichprobe der Größe n (=20) aus einer Population wurden x (=5) SPDWähler gezählt. Sei der Anteil der SPD-Wähler in der Population. a) Schreiben Sie die Formel für die Wahrscheinlichkeit an, dass bei einer Stichprobe der Größe n genau x SPD-Wähler gezogen werden. b) Schreiben Sie die Formel der Likelihood an für eine Stichprobe der Größe n mit genau x SPD-Wähler als Funktion von . c) Zeichnen Sie die Likelihoodfunktion (mit ca. 10 Stützpunkten). d) An welcher Stelle der -Achse vermuten Sie das Maximum der Likelihoodfunktion? e) Zeichnen Sie den Logarithmus der Likelihoodfunktion (mit ca. 10 Stützpunkten). An welcher Stelle der -Achse hat sie das Maximum? f) Finden Sie mit Hilfe des Nullsetzens der ersten Ableitung nach die Formel für den Maximalpunkt! 17. Kreuztabelle, die im Skript bearbeitet wird (Dosisgruppe=x und Behandlungserfolg) 4 6 12 18 36 14 8 2 a) Berechnen Sie das Likelihood-Ratio-chi**2 zur Überprüfung der Hypothese der Unabhängigkeit zwischen Dosisgruppe und Behandlungserfolg. Nagl, Einführung in die Statistik, Anhang 4 Seite 6 b) Vergleichen Sie diesen Wert mit der Differenz zwischen F(MIT x,nat) bei der PRU-Berechnung. F(OHNE x,nat)- 18. Konzeption und Durchführung des Likelihood-Ratio-Test der Hypothese: In der Gesamtheit ist der Anteil der SPD-Wähler = 0.70 (=0.70). Als Stichprobe diene weiterhin: n=20. Die Anzahl der SPD-Wähler in der Stichprobe sei wiederum x= 5 (wie oben im Übung 16.) a) Berechnen Sie die Ln-Likelihood LnL(; x, n-x) an der Stelle des ML-Schätzers für den Populationsanteil; tragen Sie auch den Wert in die Ln-Likelihoodgraphik ein. b) Wieviel dimensional ist der Raum (=), in dem das Maximum gesucht werden konnte in a)? (abgekürzt: dim()=?) c) Die oben charakterisierte Hypothese schränkt den Raum ein (Restriktion von ). Der eingeschränkte Raum werde mit 0 abgekürzt. Das Maximum von LnLikelihood LnL(; x, n-x) darf nun nur noch in diesem eingeschränkten Raum gesucht werden. Welchen Wert hat das Maximum von LnL(; x, n-x) in diesem eingeschränkten Raum? Dieses Maximum wird mit sup LnL(; x, n-x) 0 abgekürzt. Wie groß ist die Dimension von 0 (kurz: dim(0))? d) Das Maximum der Ln-Likelihoodfunktion einmal im Raum (nicht eingeschränkt) gesucht, dann im eingeschränkten Raum 0 (=Teilraum von ). In welchem Raum muß daher das Maximum der Funktion größer sein? e) Bilden Sie die Differenz d=-2( sup LnL(; x, n-x)- sup LnL(; x, n-x)). 0 f) Diese Differenz ist approximativ (n groß) chi**2 verteilt. Der Freiheitsgrad der chi**2-Verteilung ist gleich der Differenz der Raumdimensionen: dim()dim(0). Wird die oben gesetzte Hypothese abgelehnt auf dem Signifikanzniveau von =0.05? g) Testen Sie die vorliegende Nullhypothese mit Hilfe des Anpassungstests aus Kapitel 3 (LR-chi**2). Vergleichen Sie das Ergebnis mit dem in f) berechneten! (Vergleichen Sie auch die Formeln!) 19. Kombinieren der Likelihood aus mehreren unabhängigen Stichproben. Population 1 2 3 4 Erfolg Mißerfolg 1 2 3 4 1-1 1-2 1-3 1-4 Stichprobennu mmer: 1 2 3 4 Größe 40 =n1 20 =n2 20 =n3 20 =n4 Erfolg Mißerfolg 4 =n11 6 =n21 12 =n31 18 =n41 36 =n12 14 =n22 8 =n32 2 =n42 a) Bestimmen Sie zuerst für jede der 4 Stichproben den ML-Schätzer für den Populationsanteil i (i=1,2,3,4). b) Schreiben Sie für jede Stichprobe den Ln der Likelihood an (später auch konkret berechnen!) an der Ln-Maximumsstelle. c) Sei A das Ereignis, dass aus der ersten Population bei 40 mal Ziehen 4 Erfolge gezogen werden; sei B das Ereignis, dass aus der zweiten Population bei 20 mal Ziehen 6 Erfolge gezogen werden; sei C das entsprechende Ereignis für die 3. Stichprobe und D für die 4. Die Wahrscheinlichkeiten für die einzelnen Ereignisse seien mit P(A), P(B) usw. abgekürzt. Die 4 Ereignisse seien alle unabhängig. Wie groß ist die Wahrscheinlichkeit, dass alle 4 Ereignisse zutreffen: P(A B C D)? Wie groß ist der ln P(A B C D)? Nagl, Einführung in die Statistik, Anhang 4 Seite 7 d) Schreiben Sie nun die Likelihood bzw. den natürlichen Logarithmus des kombinierten Ergebnisses (die Likelihood ist proportional zur Wahrscheinlichkeit)! Sie ist nun eine Funktion der 4 Populationsanteile. 20. Fortsetzung des vorherigen Übungsbeispiels: (Die kombinierte Likelihood wurde im letzten Beispiel gefunden: lnL:=lnL(1, 2, 3, 4 ; n11, n12, n21, n22, n31, n32, n41, n42) = n11ln(1)+n12ln(1-1) +n21ln(2)+n22ln(1-2) +n31ln(3)+n32ln(1-3) +n41ln(4)+n42ln(14). Die ML-Schätzer für 1, 2, 3, 4 in der kombinierten Likelihood sind weiterhin die Stichprobenanteile.) Konzeption und Durchführung des Likelihood-Ratio-Test der Hypothese: Der Anteil des Erfolgs ist in allen Populationen gleich 1=2=3=4 (=:0). a) Wieviel dimensional ist der Raum (=), in dem das Maximum in der kombinierten Likelihood gesucht werden kann? (abgekürzt: dim()=?) b) Die oben charakterisierte Hypothese schränkt den Raum ein (Restriktion von ). Der eingeschränkte Raum werde mit 0 abgekürzt. Das Maximum von LnLikelihood lnL darf nun nur noch in diesem eingeschränkten Raum gesucht werden. Wie groß ist die Dimension von 0 (kurz: dim(0))? c) Vereinfachen Sie die kombinierte lnL, indem Sie in die Berechnungsformel jeweils die verschiedenen i durch 0 ersetzen. Zeigen Sie dadurch, dass unter Geltung der Hypothese gilt: lnL(1, 2, 3, 4 ; n11, n12, n21, n22, n31, n32, n41, n42) = (n11+n21 +n31+n41) ln(0)+ (n12+n22 +n32+n42) ln(1-0). Dieser Ausdruck ist gleich der ln-Likelihood in der Randverteilung: (n1) ln(0)+ (n2) ln(1-0). d) Wie lautet der ML-Schätzer für die Randverteilung? e) Das Maximum der Ln-Likelihoodfunktion einmal im Raum (nicht eingeschränkt) gesucht, dann im eingeschränkten Raum 0 (=Teilraum von ). In welchem Raum muß daher das Maximum der Funktion größer sein? f) Bilden Sie die Differenz d=-2( sup LnL(1, 2, 3, 4 ; n11, n12, ...)- sup LnL(1, 2, 0 3, 4 ; n11, n12, ...)). g) Diese Differenz ist approximativ (n groß) chi**2 verteilt. Der Freiheitsgrad der chi**2-Verteilung ist gleich der Differenz der Raumdimensionen: dim()dim(0). Wird die oben gesetzte Hypothese abgelehnt auf dem Signifikanzniveau von =0.05? h) Vergleichen Sie das Ergebnis mit dem LR-chi**2 auf Unabhängigkeit, das oben (im Übungsbeispiel 17) bereits berechnet wurde. 21. Der Zusammenhang zwischen Rauchen (=y) und Alter (=x) werde durch die folgende Tabelle beschrieben (Gesamtstichprobe). Eine logistische Regressionsgerade mit Alter als Prädiktor wurde berechnet. Der ML-Schätzer für den Abschnitt = -3.697, für die Steigung = 0.1279. Raucher ja nein ALTER 20 21 22 23 24 25 30 32 2 7 9 2 10 12 2 8 10 6 7 13 2 3 5 2 1 3 1 1 2 0 1 1 17 38 55 Nagl, Einführung in die Statistik, Anhang 4 Seite 8 a) Berechnen Sie die ˆ 1 (x) (Anteil der Raucher für die Prädiktion durch die oben beschriebene Gerade). b) Erstellen Sie ein Pfaddiaramm. c) Berechnen Sie mit Hilfe der natürlichen Logarithmen die Entropie in Nits: Fy(OHNE x, nat). d) Berechnen Sie mit Hilfe der natürlichen Logarithmen die Entropie in Nits: Fy(MIT x, nat). e) Berechnen Sie PRU. 22. Kreuztabelle, (Alters=x und Parteipräferenz y) Alter Partei Andere cdu spd 20 12 9 9 30 30 10 20 10 40 50 6 9 15 30 28 38 34 100 a) Berechnen Sie die ML-Schätzer für die Parteipräferenzanteile pro Altersgruppe. b) Berechnen Sie die LnLikelihood für diese unrestringierten ML-Schätzer. c) Wieviel dimensional ist der Raum, in dem die Parameter variieren können bei den obigen ML-Schätzern? d) Berechnen Sie die ML-Schätzer für die Präferenzanteile pro Altersgruppe unter der Restriktion, dass in allen Gruppen die Anteile gleich sind. e) Berechnen Sie die LnLikelihood für diese restringierten ML-Schätzer. f) Wieviel dimensional ist der Raum, in dem die Parameter variieren können bei den wie eben restringierten ML-Schätzern? g) Führen Sie einen Likelihood-Ratio-Test durch. Wie groß ist chi**“? wieviel Freiheitsgrade? Welche Hypothese haben Sie jetzt getestet? h) Berechnen Sie F(OHNE x,nat), F(MIT x,nat) bei der PRU-Berechnung. i) Berechnen Sie PRU 23. Kreuztabelle, (Alters=x und Parteipräferenz y) Alter Parteipräferenz Andere cdu spd 20 12 9 9 30 30 10 20 10 40 50 6 9 15 30 28 38 34 100 Zwei Logits werden betrachtet: A-Logit= ln(Ant. Andere / Ant. Spd) und der CDU-Logit = ln(Ant. Cdu / Ant. Spd). Das Regressionsmodell lautet: A-Logit = 1+ 1 Alter. CDU-Logit = 2+ 2 Alter. Die Regressionskoeffizienten wurden mit ML geschätzt: ̂ 1 =1.293, ̂1 = -0.045, ̂ 2 =1.013, ̂ 2 = -0.026. Nennen Sie den hier betrachteten Parameterraum 1. n1(20) ist dann gleich n11, n2(20) ist dann gleich n12. n3(20) ist dann gleich n13 usw. 23.1 Berechnen Sie die auf der Geraden liegenden Logits und die entsprechenden Anteile für x= 20, 30 und 50. Nagl, Einführung in die Statistik, Anhang 4 23.2 23.3 Seite 9 Wie viele Dimensionen hat der Parameterraum 1? Berechnen Sie den Ln der Likelihood für die durch die Gerade geschätzten Anteile. Das ist dann genau= sup LnL(1, 1 , 2, 2; n1(x), n2(x), n3(x),... ). 1 23.4 Berechnen Sie für den eingeschränkten Raum 0, in dem 1 =0 und 2 =0 (= Nullhypothese) den Ln der Likelihood: sup LnL(1, 1 , 2, 2; n1(x), n2(x), 0 23.5 23.6 23.7 n3(x),... ). Testen Sie die Nullhypothese mit Hilfe des Likelihood-Ratio-Tests. Interpretieren Sie das Ergebnis. Berechnen Sie PRU für das Modell Nagl, Einführung in die Statistik, Anhang 4 Seite 10 Lösungen zu ausgewählten Übungsbeispielen zu Kap. 4 3 b) (-11.59251,-2.07416) c)t(5)=-3.6908 KB=außerh. von (-2.57,2.57) Ho abgelehnt d) Verbesserung bedeutet hier Reduktion: KB kleiner gleich 2.02; H0 abgelehnt. e) d1.A=(383-102.83)/383=0.7315 4a) ohneAbi1, MitAbi6, MehrAls Abi4 b) egal welches x, immer 3 c) ssq(between)=180. ssq(within)=238=F(Mit). F(Ohne)=ssq(total)=238+180 d) DetKoeff1.Art = 0.43 e) df1=2, df2=40-3=37 F(2,37)=(180/2)/(238/37)= 13.99 ; F0.95 (2,37 ) 3.25; d.h KB3.25 H0 abgelehnt. f) zur Gruppeneffektdarstellung: generelles Niveau k mit Abweichungen für die 3 Gruppen: Mi1=k+a1, Mi2=k+a2, Mi3=k+a3, so daß a1+a2+a3=0 ist. Dh. Mi1+Mi2+Mi3=3k+(a1+a2+a3). dh. k=( Mi1+Mi2+Mi3)/3=11/3=3.666. a1=1-3.666=-2.666. a2=6-3.666=2.333. a3=4-3.666=0.333. g) Graphische Darstellung von k,a1,a2,a3 und e Zu 5) Netto Netto/100-20(für einfacheres Rechnen) Geld-,Bank-,Versicherungswesen Geld-,Bank-,Versicherungswesen Geld-,Bank-,Versicherungswesen Bergbau Bergbau Bergbau Öffentlicher Dienst Öffentlicher Dienst Öffentlicher Dienst Handel Handel Handel Handel Landwirtschaft Landwirtschaft 2900 3800 4700 3000 3400 4000 2700 3200 3700 2200 2500 3000 3500 1800 2500 9 18 27 10 14 20 7 12 17 2 5 10 15 -2 5 Lösung zu 5) Computer-Ausdruck (JMP) zu Branche: 30 25 20 15 10 5 0 -5 Bergbau Geld-,Bank-,Versicherungswesen Landwirtschaft Öffentlicher Dienst Handel Branche Level Number Bergbau 3 Geld-,Bank-,Versicherungswesen 3 Handel Landwirtschaft Öffentlicher Dienst Mean Std Dev Std Err Mean 14.6667 5.03322 2.9059 18.0000 9.00000 5.1962 4 8.0000 5.71548 2.8577 2 1.5000 4.94975 3.5000 3 12.0000 5.00000 2.8868 Analysis of Variance Source DF Sum of Squares Mean Square Model 4 405.76667 101.442 Error 10 385.16667 38.517 C Total 14 790.93333 F Ratio 2.6337 p=0.0976 Nagl, Einführung in die Statistik, Anhang 4 Seite 11 Response: netto/100-20 Summary of Fit RSquare 0.513023 RSquare Adj 0.318232 Root Mean Square Error 6.20618 Mean of Response 11.26667 Observations 15 Parameter Estimates Term Intercept Branche[Bergbau-Öffentl] Branche[Geld-,B-Öffentl] Branche[Handel-Öffentl] Branche[Landwir-Öffentl] t Ratio 6.60 1.19 2.22 -0.97 -2.47 Effect Test Source Nparm DF Branche 4 4 Estimate 10.833333 3.8333333 7.1666667 -2.833333 -9.333333 Std Error 1.642001 3.224826 3.224826 2.910956 3.775072 Sum of Squares F Ratio Prob>F 405.76667 2.6337 0.0976 Prob>|t| <.0001 0.2620 0.0505 0.3533 0.0330 130 Lösung zu 6) Linear Fit IQ(Z)-Binet-Stanford = 31.1363 + 0.71764 IQ(E)-Binet-Stanford Summary of Fit RSquare 0.467623 RSquare Adj 0.40847 Root Mean Square Error 11.33919 Mean of Response 99.18182 Observations 11 Analysis of Variance Source DF Sum of Squares Mean Square Model 1 1016.4415 1016.44 Error 9 1157.1948 128.58 C Total 10 2173.6364 F Ratio 7.9053 Prob>F 0.0203 Parameter Estimates Term Intercept IQ(E)-Binet-Stanford Estimate 31.136343 0.7176416 Std Error 24.44167 0.25524 IQ(Z)-Binet-Stanford 120 110 100 90 80 70 60 70 80 90 100 110 IQ(E)-Binet-Stanford t Ratio Prob>|t| Lower 95% 1.27 0.2346 -24.15503 2.81 0.0203 0.1402442 120 130 Upper 86.42772 1.2950391 6 h) Korr.Koeff r=0.68. i) Konf.Int für z(rho)=( 0.83621675 (1.96*(1/8.0)sqrt)) =(0.1432521, 1.5291814) j) Konf.Int für rho=( 0.1432521, 0.9102844) k) 0.83621675/(1/8.0)sqrt =2.36517814. ein- und zweiseitig ablehnen. l)z=(0.83621675-0.20273255)/(1/8.0)sqrt= 1.79176389; zwei und linksseitig ablehnen. rechtseitig akzeptieren. 7) Schulbildung, Vater Schulbildung, Mutter 1 Total % Row % Col % 2 3 4 1 6 37.50 85.71 66.67 3 18.75 60.00 33.33 0 0.00 0.00 0.00 0 0.00 0.00 0.00 9 56.25 2 1 6.25 14.29 20.00 2 12.50 40.00 40.00 0 0.00 0.00 0.00 2 12.50 66.67 40.00 5 31.25 3 0 0.00 0.00 0.00 0 0.00 0.00 0.00 1 6.25 100.00 100.00 0 0.00 0.00 0.00 1 6.25 4 0 0.00 0.00 0.00 0 0.00 0.00 0.00 0 0.00 0.00 0.00 1 6.25 33.33 100.00 1 6.25 5 31.25 Tests Source DF Model 9 Error 4 C Total 13 Total Count 16 1 6.25 Test ChiSquare Likelihood Ratio 16.788 Pearson 24.960 3 18.75 Warning: 20% of cells have expected count less than 5, Chi-squares suspect Warning: average cell count less than 5, LR Chi-square suspect 7 43.75 16 100.00 -LogLikelihood 8.39379 11.003228 19.397022 RSquare (U) 0.4327 Prob>ChiSq 0.0521 0.0030 Nagl, Einführung in die Statistik, Anhang 4 Seite 12 8 a) gem. Anteile US. MS OS Vaterschicht b) y-Bedingte Anteile Sohnschicht US MS 0.42 0.12 0.06 0.18 0 0.04 OS 0.06 0.06 0.06 0.48 0.18 0.34 0.6 0.3 0.1 Vaterschicht US. MS OS US 0.875 0.125 0 0.48 Sohnschicht MS 0.353 0.529 0.118 0.34 OS 0.33 0.33 0.33 0.6 0.3 0.1 0.18 c) Nur jeder zehnte aus der Unterschicht erreicht die Oberschicht; aber jeder 3. in der Oberschicht stammt aus der US. d) Bei Chancengleichheit: Vaterschicht US. MS OS US 0.48 0.48 0.48 0.48 Sohnschicht MS 0.34 0.34 0.34 0.34 OS 0.18 0.18 0.18 0.6 0.3 0.1 0.18 8e) MIT-Regel: v us s us, v ms s ms, v os s os F(MIT)=0.34. OHNE-Regel: immer US. F(OHNE)=0.52. lambda=0.346153846. f) tau=0.2084942 F(O)=0.6216 F(M)= 0.492 g) phi=0.611, v=0.432 h) Pearson chi**2=372.79, Likelihood Ratio Chi**2=388.581, df=4 9b) PRU=0.261 F(O)= 1.2957378 F(M)=0.9572099 c) Test ChiSquare Prob>ChiSq (Programm-Ausdruck) Likelihood Ratio 24.404 <.0001 Pearson 22.680 0.0001 Warning: 20% of cells have expected count less than 5, Chi-squares suspect. (Fisher Exact Test p-Value=9.81E-05) d) Phi=0.660 v=0.467 11 a) F(MIT)=0.115 ; F(OHNE)=0.2426; kappa=0.5244 b) F(MIT)=0.1 ; F(OHNE)=0.226; kappa=0.5575 c) F(MIT)=0.18 ; F(OHNE)=0.312; kappa=0.4231 12a)kappa b)hoch&nein c)0.167 d)FO=0.12,FM=0.10 13a) kappa b)0.615 (FO=0.52,FM=0.2) c) phi**2=0.444; R2=44.4, L2=58.22 d)0.43 14a) kappa=0.33 (FO=0.3,FM=0.2) b) tau=0.125, F(O)=0.64,F(M)=0.56 c)lambda=0.33 (FO=0.6,FM=0.4) 15) siehe Skript 17a)LRChi**2=44.238 b) F(OHNE x,nat)-F(MIT x,nat)= 0.673 - 0.452 = 0.22119 18a) LnL(; 5, 15) beim ML-Schätzer von 5/20 ist gleich 5*ln(0.25)+15*ln(0.75)= -11.2467029 b) dim()=1 c) LnL(; 5, 15) bei =0 ist gleich 5*ln(0.70)+15*ln(0.30)= -19.84297 dim(0)=0 d) Das Maximum im nicht restringierten Raum ist größer (höchstens gleich) e) d= -2*(-8.596264)=17.1925 f) df= dim()-dim(0)=1; der kritische chi**2-Wert für df=1 ist 3.84. 17.1925 ist im krit. Bereich, daher H0 ablehnen g) LRchi**2=17.1925 19) a) MLSchätzer für PopAnteile sind die Anteile in der Stichprobe p 1=n11/n1=4/40 usw. b) 1.Stp 4*ln(4/40)+36*ln(36/40); 2.Stp 6*ln(6/20)+14*ln(14/20);... c) P(A B C D)= P(A) P(B) P(C) P(D). ln(P(A B C D))= ln(P(A))+ ln (P(B)) + ln( P(C)) + ln( P(D)). d) lnL(1, 2, 3, 4 ; n11, n12, n21, n22, n31, n32, n41, n42) = n11ln(1)+n12ln(1-1) +n21ln(2)+n22ln(1-2) +n31ln(3)+n32ln(1-3) +n41ln(4)+n42ln(1-4). 20a) dim()=4 b) dim(0)=1 d) Das ist der Anteil der Stichproben-Randverteilung f)ml0= sup LnL(1, 2, 3, 4 ; 4, 36, ...)=40*ln(0.4)+60*ln(0.6)= -67.3011667. ml= sup LnL(1, 2, 3, 4 ; 0 4, 36 , ...)= 4*ln(4/40)+36*ln(36/40)+6*ln(6/20)+14*ln(14/20)+...= -45.1824. d=-2(ml0-ml)= -2(-67.3011667- -45.1824)=-2*-22.1186=44.237 g) df= dim()-dim(0)=3; der kritische chi**2-Wert für df=3 ist 7.81 ; 44.237 liegt im kritischen Bereich, H0 abgelehnt. h) Der eben durchgeführte LR-Test entspricht exakt dem früher eingeführten LR-chi**2 Test auf Unabhängigkeit. Nagl, Einführung in die Statistik, Anhang 4 21zu a) x= Alter 20 21 22 23 24 25 30 32 ̂(x) -1.13944 -1.01155 -0.88367 -0.75579 -0.62791 -0.50003 0.139377 0.39514 P(Y=nein) 0.757576 0.733324 0.707583 0.680439 0.652016 0.622466 0.465212 0.402481 Seite 13 P(Y=ja) 0.242424 0.266676 0.292417 0.319561 0.347984 0.377534 0.534788 0.597519 Anzahl 9 12 10 13 5 3 2 1 21c) 34.01 / 55=F(OHNE, nat) d) 33.40/ 55=F(MIT x-Geraden, nat) e) PRU=0.0177 22a) Die ML-Schätzer für die Parteipräferenzanteile pro Altersgruppe in der Pop. sind die Parteipräferenzanteile pro Gruppein der Stichprobe (bzw. die 9 zeilenbedingten Stichproben-Anteile) 22b) lnL1=LnLikelihood mit diesen unrestringierten ML-Parameterschätzern= -105.14542 c) dim()=6 22d) Anteile über alle Gruppen hinweg gleich (genauer: der Anteil der CDU-Präferenz ist in allen Gruppen gleich, der SPD-Präferenzanteil ist in allen Gruppen gleich und der Andere-Präferenzanteil ist in allen Gruppen gleich). Durch diese Hypothese wird der Raum eingeschränkt. Im durch diese Hypothese restringierten Raum 0 sollen nun die Präferenzanteile berechnet werden. Die in diesem eingeschränkten Raum ML-geschätzten Präferenzanteile sind gleich den y-Randanteilen der Stichprobe (0.28, 0.38, 0.34) 22e) lnL0=LnLikelihood mit diesen restringierten ML-Parameterschätzern= -109.09076 f) dim(0)=2 22g) LR-Chi**2=-2(lnL0-lnL1)= 7.89068. df= dim()-dim(0)=4. Hypothese: siehe bei 22d) d.h. die Hypothese ist die den Raum einschränkende Aussage 22h) F(OHNE x,nat)=-n* lnL0= 1.0909076. F(MIT x,nat)=-n* lnL1= 1.0514542 22i) PRU=0.0362 23.1 Alter 20 30 50 And-Logit Cdu-logit 0.393 0.493 -0.057 0.233 -0.957 -0.287 23.2 Dim(1)=4 23.3 ML-Anteile and cdu spd bei 0.359686 0.397515 0.242799 Geradenforderung 0.294544 0.393636 0.31182 0.179917 0.351601 0.468482 Die mit Hilfe der Linearen Gleichungen berechneten Anteile sind die ML-geschätzten Anteile in 1 dar. Für sie können nun LnL berechnet werden: -106.909. 23.4 Wurde in 22 als restringierte Lösung berechnet (0 in allen Altersgruppen gleiche Anteile): = -109.09076 dim(0)=2 23.5 LRchi**2= 4.364399= -2(-109.09076- (-106.909)) , Df=4-2 =2. H0 wird nicht abgelehnt.