Christian Piele Übungsaufgaben 1 1. Überprüft bitte die folgende Aussagen: a. „Wenn eine Person eine Frau ist, dann will sie sich keine Karte für die FußballWeltmeisterschaft kaufen.“ b. „ Wenn eine Person ein Mann ist, dann will er sich eine Karte für die FußballWeltmeisterschaft kaufen.“ Mit Hilfe folgender Kreuztabelle (Befragung vor Beginn der WM): Will WM ansehen Geschlecht (sex; =x) nein (0) Mann (0) 10 Frau (1) 20 ja (1) 40 30 a) Welches PRE – Maß ist für diese Fragestellung angemessen? b) Bitte berechnet das PRE – Maß für beide Aussagen: a. Aussage: Fehler (ohne x) = Fehler (mit x) = PRE = b. Aussage: Fehler (ohne x) = Fehler (mit x) = PRE = 2. Es soll untersucht werden, ob die Studienrichtung (=X) den Zeitpunkt des Einstieges in das Berufsleben beeinflusst. Dazu wird erhoben, ob Absolventen sofort nach ihrem Abschluss oder erst später einen Arbeitsplatz bekommen (=Y). Folgende Daten liegen vor: X\Y Jura Medizin Philosophie a) b) c) d) Sofort 30 25 10 65 Später 5 0 30 35 35 25 40 100 Bitte berechnet die Anteile und die Anzahlen unter Unabhängigkeit. Sind X und Y unabhängig voneinander? Bitte berechne das passende PRE- Maß für die Aussage „ Wer Jura studiert bekommt sofort einen Arbeitsplatz.“ Fehler (ohne x) = Fehler (mit x) = PRE = Was sagt dieses PRE – Maß aus? 3. Kurz nach der Papstwahl wurde nach der Zustimmung für den neuen Papst gefragt. Es wurden Deutsche, Spanier und Briten befragt. X\Y Deutsche Spanier Briten Gute Wahl 20 25 15 60 Schlechte Wahl 15 0 25 40 35 25 40 100 a) Bitte berechnet die x-bedingten und die y-bedingten Anteile. b) Bitte berechnet die Anteile und die Anzahlen unter Unabhängigkeit. c) Sind X und Y unabhängig? d) Eine Befragung vor der Wahl ergab folgende Aussage: „Wer die deutsche oder die spanische Staatsangehörigkeit hat ist mit dem Ausgang der Wahl zufrieden.“ Bitte berechnet das passende PRE- Maß und testet mit Hilfe des KI die Hypothese, dass das PRE-Maß gleich Null ist, mit Var(PRE)= 0,025. Wird die Hypothese angenommen oder abgelehnt? Lösungen: Aufgabe 1 : a.) kappa b.) Für Aussage a: F(M) = 0,3; F(O) = 0,35; k = 0,143 Für Aussage b: F(M) = 0,1; F(O) = 0,15; k = 1/3 Aufgabe 2: a.) Anzahlen unter Unabhängigkeit X\Y Jura Medizin Philosophie Sofort 22,75 16,25 26 Später 12,25 8,75 14 Anteile unter Unabhängigkeit X\Y Jura Medizin Philosophie Sofort 0,2275 0,1625 0,26 Später 0,1225 0,0875 0,14 b.) Nein, X und Y sind abhängig voneinander. c.) F(M)= 0,05; F(O)= 0,1225 k = 0,592 d.) Fehlerreduktion um 59,2 %. Aufgabe 3 a) x-bedingte Anteile: X\Y Deutsche Spanier Briten Gute Wahl 20/35 25/25 15/40 0.60 Schlechte Wahl 15/35 0/25 25/40 0.40 0.35 0.25 0.40 1.00 y-bedingte Anteile: X\Y Deutsche Spanier Briten b) Gute Wahl 20/60 25/60 15/60 0.60 Schlechte Wahl 15/40 0/40 25/40 0.40 0.35 0.25 0.40 1.00 Anteile unter Unabhängigkeit (Anzahlen in Klammern): X\Y Deutsche Spanier Briten Gute Wahl 0.21 (21) 0.15 (15) 0.24 (24) 0.60 (60) Schlechte Wahl 0.14 (14) 0.10 (10) 0.16 (16) 0.40 (40) 0.35 (35) 0.25 (25) 0.40 (40) 1.00 (100) c) Nein, X und Y sind abhängig. d) untere Grenze: 0,065; obere Grenze: 0,685 → Nullhypothese wird abgelehnt, da 0 nicht in KI. Übungsaufgaben 2 1. Bitte berechne für das k aus Aufgabe 2 (der Übungsaufgaben 1) ein 95 % Konfidenzintervall. Var(k) =0,036. Untere Grenze : Obere Grenze : 2. a) Bitte berechnet die odds und logits zu den Anteilen. Anteile odds logits 0,4 0,25 0,9 0,14 0,8 0,6 0,75 0,2 0,33 0,1 b) Bitte berechnet die Anteile aus den logits. logits Anteile 0 - 0,995 - 0,847 3,892 - 0,201 3. Erstelle bitte für ā ↔ b die „Wahrheitstafel“. Lösungen: Aufgabe 1: Untere Grenze: 0,22 Obere Grenze: 0,964 Aufgabe 2: a) Anteile odds logits 0,4 2/3 - 0,405 0,25 1/3 - 1,099 0,9 9 2,197 0,14 0,163 -1,814 0,8 4 1,386 0,6 1,5 0,405 0,75 3 1,099 0,2 0,25 -1,386 0,33 0,5 - 0,693 0,1 1/9 - 2,197 logits Anteile 0 0,5 - 0,995 0,27 - 0,847 0,3 3,892 0,98 - 0,201 0,45 b) Aufgabe 3 : ā↔b F W W F Übungsaufgaben 3 Aufgabe 1: Es wurden Daten über das Schlafbedürfnis von Männern und Frauen erhoben. Hohes Bedürfnis Niedriges Bedürfnis Männer 65 35 Frauen 55 45 a) Bestimme den ML-Schätzer für ein hohes Schlafbedürfnis für die Frauen und den für die Männer. b) Berechnet bitte PRU. F(O) = F(M) = PRU = Aufgabe 2: Überprüfe die Behauptung: „Wenn jemand ein Mann ist, hat er eine dünne Haut.“ mit Hilfe folgender Kreuztabelle: Hautdicke (=y) dünn dick (=0) (=1) Sex (=x) Frauen Männer 30 20 50 20 30 50 50 50 100 a) Berechne Kappa für die obige Aussage! F(ohne)= F(mit)= Kappa= b) Berechne ein LR-chi² : Ist das Ergebnis signifikant für alpha= 1% ? Kritischer Bereich: df? c) Berechne PRU= F(ohne)= F(mit)= Aufgabe 3: Die Prädiktion von Sex (m, w) mit Hilfe der Hautdicke soll untersucht werden. Die Kreuztabelle mit den Häufigkeiten sei: Hautdicke in mm 0,5 1,5 2 Sex männlich weiblich 10 30 40 10 20 30 20 10 30 40 60 100 a) Berechne die ML-Schätzer für Sex pro Gruppe. b) Berechne die LnLikelihood für diese nicht restringierten ML-Schätzer. c) Wie viele Dimensionen hat der Raum, indem diese Parameter variieren können? d) Berechne die ML-Schätzer für Sex unter der Restriktion, dass in allen Gruppen die Anteile gleich sind. e) Berechne die LnLikelihood für diese restringierten ML-Schätzer. f) Wie viele Dimensionen hat der Raum, indem diese Parameter variieren können? g) Führe einen Likelihood-Ratio-Test durch. Wie groß ist chi²? Wie viele Freiheitsgrade gibt es? Welche Hypothese habt ihr jetzt getestet? Lösungen: Aufgabe 1: a) allg. ML- Schätzer: π^(x) = x/n Männer: π^(x) = 0,65 Frauen: π^(x) = 0,55 b) F(O) = 0,673 F(M) = 0,668 PRU = 0,0078 Aufgabe 2: a) F(ohne)= 0,25 F(mit)= 0,3 Kappa= -0,2 b) LR-chi² = 4,027 Ergebnis ist nicht signifikant H0 wird angenommen! KB= 6,63 und größer df= 1 c) PRU= 0,0289 F(ohne)= 0,693 F(mit)= 0,673 Aufgabe 3: a) π1(0,5)= 1/4 π1(1,5)= 1/3 π1(2)= 2/3 π2(0,5)= 3/4 π2(1,5)= 2/3 π2(2)= 1/3 b) suplnL= -60,684 c) dim(Ω0)= 3 d) π1= 40/100 π2= 60/100 e) suplnL= -67,301 f) dim(Ω)= 1 g) Testwert= 2*І(-67,301-(-60,684))І = 13,234 df= 2 KB= 5,99 und größer H0 verwerfen, da Testwert in KB! H0: Merkmale sind unabhängig, es gibt keine Unterschiede in den Gruppen. Übungsaufgaben 4 (Einiges bereits in Tutorium besprochen) Aufgabe 1 Attraktive Männer betrügen angeblich ihre Frauen häufiger als weniger attraktive. Also soll die Prädiktion von betrügen (=y) mit Hilfe von Attraktivität (=x) untersucht werden. Die Kreuztabelle mit den Häufigkeiten sei: Betrug (=y) Werte auf ja nein Attraktivitätsskala(=x) -----------------0 0 20 10 20 10 20 40 10 -----------------Die Beziehung zwischen x und y soll mit Hilfe des logistischen Modells überprüft werden. Die Logits (für treu) werden durch eine Gerade beschrieben; die Koeffizienten auf Grund der MLSchätzung sind alpha= -1.86 und beta = 0.18. Die Nullhypothese sei: Die Steigung ist 0. a) Berechnen Sie bitte die beiden entsprechenden Maxima der ln Likelihood im (durch Nullhypothese ) eingeschränkten Raum: und im nicht-eingeschränkten Raum: b) Wird die Nullhypothese verworfen (auf Grund des Vergleichs der ln Likelihoods)? df : chi**2: KB: c) Reicht die Gerade zur Beschreibung des Logits aus? H0: Die Gerade reicht aus, die Logits zu beschreiben. df : chi**2: KB: d) Maximum der ln Likelihood für Gruppenmodell: Aufgabe 2 Die Prädiktion von Sex (m, w) mit Hilfe der Hautdicke soll untersucht werden. Die Kreuztabelle mit den Häufigkeiten sei: Sex Hautdicke (x) in mm 0.5 1.5 2.0 m 10 10 20 w 30 20 10 Die Beziehung zwischen x und y soll mit Hilfe des logistischen Modells überprüft werden. Zuerst soll x als nominale Variable betrachtet werden (Gruppen). Die Nullhypothese sei: x und y sind unabhängig a) Berechnen Sie bitte die beiden entsprechenden Maxima der ln Likelihood im (durch die Nullhypothese) eingeschränkten Raum: und im nicht-eingeschränkten Raum: Nun mit x im Sinne einer quantitativen Variablen. Die Logits (für m) werden durch eine Gerade beschrieben, deren Koeffizienten auf Grund der MLSchätzung alpha = -1.804 und beta = 1.0774 sind. Die Nullhypothese sei: Die Steigung ist 0. b) Berechnen Sie bitte die beiden entsprechenden Maxima der ln Likelihood im (durch die Nullhypothese) eingeschränkten Raum: und im nicht eingeschränkten Raum: c) Wird die Nullhypothese verworfen (auf Grund des Vergleichs der ln Likelihoods)? Freiheitsgrad (df): chi**2: KB: Reicht die Gerade zur Beschreibung der Logits aus? H 0: Die Gerade reicht aus, die Logits zu beschreiben. d) chi**2: Freiheitsgrad (df): KB: Aufgabe 3 Berechnet mit Hilfe der Geradengleichung die logits der Anteile π(x) für folgende x: X Logit(π(x)) 0 10 15 30 45 Für die Gerade sind folgendes alpha und beta gegeben: α = 1,34 β = 0,23 Aufgabe 4 Mit Hilfe des Alters (in Jahren) soll untersucht werden, ob die britische Bevölkerung mit dem neuen/alten Premier zufrieden ist: Die Kreuztabelle mit den Häufigkeiten sei (n = 100) : y: zufrieden ja nein _____________________________ Alter jung (20 Jahre) 10 30 mittel (40 Jahre) 10 20 älter (60 Jahre) 30 0 Die Beziehung zwischen den beiden Variablen soll zuerst mit Hilfe des Gruppenmodells überprüft werden. Die Nullhypothese sei: Es gibt keine Unterschiede in den Altersgruppen. a) Berechnen Sie bitte die beiden entsprechenden Maxima der ln Likelihood im (durch die Nullhypothese) restringierten Raum _________________________ und im nicht-restringierten Raum ___________________________________ b) Dimension der Räume: Dim(restr. Raum) = _______________________ Dim(nicht restr. Raum) = ___________________ c) Wird die Nullhypothese verworfen (auf Grund des Vergleichs der ln Likelihoods) ____________________________________________________ d) Chi**2: ____________________ df: ________________________________ e) Berechnen Sie ein PRU zur Bewertung der Gruppenunterschiede: Fehler(OHNE):_________________ Fehler(MIT):______________________ PRU: Jetzt soll die Beziehung zwischen den beiden Variablen mit Hilfe des logistischen Modells überprüft werden. Mit x im Sinne einer quantitativen Variablen. Die Logits (für ja) werden durch eine Gerade beschrieben. Die Koeffizienten der Geraden auf Grund der ML-Schätzung sind: alpha = -2.446; beta = 0.05555 Die Nullhypothese sei: Die Gerade reicht aus zur Beschreibung der Logits. f) Berechnen Sie bitte die beiden entsprechenden Maxima der ln Likelihood im (durch die Nullhypothese) restringierten Raum _________________________ und im nicht-restringierten Raum ___________________________________ g) Dimension der Räume: Dim(restr. Raum) = _______________________ Dim(nicht restr. Raum) = ___________________ h) Wird die Nullhypothese verworfen (auf Grund des Vergleichs der ln Likelihoods) ____________________________________________________ i) Chi**2: ____________________ df: ________________________________ j) Um wieviel Prozent reduziert das Gruppenmodell die Unsicherheit des Linearmodells? Fehler(OHNE):_________________ Fehler(MIT):______________________ PRU : Die Nullhypothese sei: Die Steigung ist 0. k) Berechnen Sie bitte die beiden entsprechenden Maxima der ln Likelihood im (durch die Nullhypothese) restringierten Raum _________________________ und im nicht-restringierten Raum ___________________________________ l) Dimension der Räume: Dim(restr. Raum) = _______________________ Dim(nicht restr. Raum) = ___________________ m) Wird die Nullhypothese verworfen (auf Grund des Vergleichs der ln Likelihoods) ____________________________________________________ n) Chi**2: ____________________ df: ________________________________ o) Um wieviel Prozent reduziert das Linearmodell die Unsicherheit des Primitivmodells? Fehler(OHNE):_________________ Fehler(MIT):______________________ PRU : Lösungen: 1. a) b) c) d) eingeschränkter Raum: -67.301 und nicht eingeschänkter Raum: -49.5 df: 1 chi**2: 35,601 KB: 3,84 und größer df: 1 chi**2: 10.76; KB: 3,84 und größer; H0 wird verworfen, da TW in KB. -44.12 2. a) eingeschränkter Raum: - 67,301 und nicht eingeschränkter Raum: - 60,684 b) eingeschränkter Raum: - 67,301 und nicht eingeschränkter Raum: - 62,078 c) df: 1 chi**2: 10, 446 KB: 3,84 und größer → H0 wird verworfen, da TW in KB. d) chi**2: 2,788 df: 1 KB: 3,84 und größer → H0 wird angenommen, da TW nicht in KB. 3. X Logit(π(x)) 0 1,34 10 3,64 15 4,79 30 8,24 45 11,69 4. (2 hierbei für Gruppenmodell, 1 für Geradenmodell, und 0 für Primitivmodell) a) sup ln L(..) in 0 = -69.315 sup ln L(..) in 2 = -41.589 b) dim(0) = 1; dim(2) = 3 c) ja, weil der Testwert im kritischen Bereich liegt (KB: 5.99 und größer) d) Chi2 = 55.452; df = 2 e) Fehler (OHNE) = 0.69315; Fehler(MIT) = 0.41589 PRU = 0,4 f) sup ln L(..) in 1 = -52.916 sup ln L(..) in 2 = -41.589 g) dim(1) = 2; dim(2) = 3 h) ja, weil der Testwert im kritischen Bereich liegt (KB: 3.84 und größer) i) Chi2 = 22.654; df = 1 j) Fehler (OHNE) = 0.52916; Fehler (MIT) = 0.41589 PRU = 0,214 k) sup ln L(..) in 0 = -69.315 sup ln L(..) in 1 = -52.916 l) dim(0) = 1; dim(1) = 2 m) ja, weil der Testwert im kritischen Bereich liegt (KB: 3.84 und größer) n) Chi2 = 32,798 o) Fehler (OHNE) = 0. 69315; Fehler (MIT) = 0.52916 PRU = 0,237 Übungsaufgaben 5: (Die Vorgehensweise bei der Aufgabe 2-4 wird im nächsten Tutorium u.a. besprochen) 1. Für verschiedene Studienfächer wurde das Lernpensum der Studenten ermittelt. Dabei sei folgende Kreuztabelle erzielt worden (Kreuztabelle mit Häufigkeiten): 1: niedrig 0 10 0 Jura Biologie Theologie a) b) c) d) Lernpensum (y) 2: mittel 10 5 5 3: hoch 20 0 5 Bilden Sie alle ordinalen Paarvergleiche Erzeugen Sie die Gruppenpaarvergleichshäufigkeitstabelle Erzeugen Sie die Modalprädiktionsregeln Berechnen Sie ein Lambda für diese Modalprädiktionsregeln e) Stellen Sie die Modalprädiktionsregeln übersichtlich dar in Form einer Vergleichsmatrix der Studienrichtungen und als Hasse-Diagramm 2. Für verschiedene Abiturnoten wurde ermittelt, wie später die Abschlussnote im Studium aussieht. Dabei sei folgende Kreuztabelle erzielt worden (Kreuztabelle mit Häufigkeiten): Abiturnote 1 2 3 1 Abschlussnote Studium (y) 2 3 10 15 0 5 5 7 0 0 3 a) Bildet bitte alle ordinalen Paarvergleiche b) Bildet bitte die Kreuztabelle der ordinalen Paarvergleiche. (Häufigkeiten) Wie groß ist nges ? c) Errechnet aus dieser Tabelle das Zusammenhangsmaß Goodman-Kruskals . 3. Für verschiedene Alterstufen wurde die durchschnittliche Höhe des Taschengeldes in Euro ermittelt. Dabei hat sich folgende Häufigkeitstabelle ergeben. (x – Alter der Kinder; y – Höhe des Taschengeldes in Euro) 5 6 7 3 0 5 10 4 10 5 0 5 15 10 20 a) Bildet bitte alle ordinalen Paarvergleiche b) Bildet bitte die Kreuztabelle der ordinalen Paarvergleiche. c) Errechnet aus dieser Tabelle das Zusammenhangsmaß KENDALLS a. 4. Der Zusammenhang zwischen den beiden ordinalen Merkmalen x und y soll auf Grund der folgenden Kreuztabelle untersucht werden: y 1 2 3 x -------------------1 10 10 0 2 0 10 10 -------------------a) Wie groß ist? n(<<): ______ n(<=):_______ n(==): b) Berechnet bitte Somers d (x->y): Lösungen: 1. a) Häufigkeiten in Klammern J2 (10) J3 (20) J2 (10) = (90) < (200) J3 (20) = (380) B1 (10) B2 (5) T2 (5) T3 (5) B1 (10) > (100) > (200) = (90) B2 (5) = (50) > (100) < (50) = (20) T2 (5) = (50) > (100) < (50) = (25) = (20) T3 (5) < (50) = (100) < (50) < (25) < (25) = (20) b) und c) Modalregeln sind markiert < 200 400 100 700 Jura Bio Theol. Summe d) F(o) = 1900; e) Jura = 470 50 150 670 > 200 0 50 250 F(m) = 1000; Theologie < 50 125 25 200 Theologie = > 150 100 25 0 40 25 215 125 = 0.474 Jura = < = Jura Biologie Theologie Jura Biologie = > 50 400 110 50 25 125 185 575 < 0 50 0 50 Biologie > = > Theologie = < = y hoch Biologie y niedrig 2.) a) 1,1 1,1 = = 1,2 1,3 2,1 2,2 2,3 3,1 3,2 3,2 1,2 =< == 1,3 2,1 =< <= =< <> == <> == 2,2 << <= <> =< == 2,3 << << <= =< =< == b) Häufigkeitstabelle der ordinalen Paarvergleiche: 3,1 <= <> <> <= <> <> == 3,2 << <= <> << <= <> =< == 3,3 << << <= << << <= =< =< == < < = > = 330 146 75 > 245 388 245 75 146 330 nges = n(n-1) = 45 (45 – 1) = 1980 c) Goodman-Kruskals : (330 – 75 ) : (330 + 75) = 0,6296 3.) a) 5,3 5,3 5,4 5,5 6,3 6,4 6,5 7,3 7,4 7,5 5,4 5,5 == =< == 6,3 <> <> == 6,4 <= <> =< == 6,5 << <= =< =< == 7,3 <> <> <= <> <> == 7,4 7,5 << <= << << <= =< == Die leeren Zellen oberhalb der Geraden, sind diejenigen, in welchen sich auf Grund der Multiplikation der Häufigkeiten Null ergibt; Sie müssen also nicht bearbeitet werden. b) < < = > = 500 475 600 > 750 900 750 600 475 500 c) KENDALLS a : (500 – 600) : [(75 * 74) : 2] = - 0,036 4. a) 300 ; b) 0.75 100 ; 360 Übungsaufgaben 6: 1. Für ein ordinales Merkmal y und ein nominales Merkmal x sei folgende Kreuztabelle gegeben, bitte führt einen Mediantest durch: x Gruppe a Gruppe b Gruppe c a) b) c) y 0 1 2 3 4 5 6 7 ------------------------3 3 3 3 3 0 0 0 0 0 3 3 3 3 3 0 0 0 0 6 3 3 3 3 ------------------------- Wie groß ist der Median? Pearson-chi**2 für Mediantest: Wo ist der kritische Bereich? Wird H0 verworfen? 2. Kreuztabelle mit Autofarbe (x) und Alter (y) sei gegeben. Bitte führt einen Test mit der Quantilsbereichsregel durch. Zum Quantil 1/3. y 0 1 2 3 4 5 6 7 x ------------------------rot 4 3 2 1 1 0 0 0 blau 0 0 2 3 2 3 4 0 schwarz 0 0 2 6 3 5 3 1 ------------------------a) Wie groß ist das erste Terzil? b) Wo wird die Grenze gesetzt? c) Pearson-chi**2 für Quantilstest: d) LRx**2 für Quantilstest: e) Wo ist der kritische Bereich? Wird H0 verworfen? 3. Der Zustand am Morgen (=y) soll mit Hilfe mehrerer Prädiktoren vorhergesagt werden. Die Prädiktoren sind: a: Zeitpunkt des Ins-Bett-Gehens (früh/spät) b: wie man geträumt hat (gut/schlecht) c: Kaffee trinken (ja/nein) y: Zustand am morgen a b früh gut schlecht spät gut schlecht c ja nein ja nein ja nein ja nein a) Bestimmt bitte alle möglichen Teiltabellen! superfit 12 12 4 1 7 7 4 2 normal 8 2 3 5 3 5 8 4 Nicht fit 3 6 12 4 5 9 6 10 Zum PRE-Maß lambda: b) Berechnet bitte alle Fehler der Teiltabellen und tragt diese in die Grafik ein! (Diamant) c) Wie groß sind die semipartiellen lambdas der Sequenz b, c, a? d) Wie groß ist das multiple lambda? e) Wie groß ist das partielle lambda λyc.ab ? f) Versucht mit Hilfe des Venn-Diagramms die Modalregel-Bedingung für „superfit“ zu vereinfachen! 4. Das Bestehen der Statistik-Klausur (=y) soll mit Hilfe dreier Prädiktoren prädiziert werden. Die Prädiktoren sind: a: Mathe im Abitur (ja/nein) b: bayrisches Abitur (ja/nein) c: gelernt (ja/nein) y: Bestehen a b c ja nein ja ja ja 7 1 nein 3 1 nein ja 10 2 nein 6 8 nein ja ja 4 0 nein 1 5 nein ja 30 12 nein 2 8 a) Bestimmt bitte alle möglichen Teiltabellen! Zum PRE-Maß lambda: b) Berechnet bitte alle Fehler der Teiltabellen und tragt diese in die Grafik ein! (Diamant) c) Wie groß sind die semipartiellen lambdas der Sequenz a, c, b? d) Wie groß ist das multiple lambda? e) Wie groß ist das partielle lambda λyba.c ? f) Versucht mit Hilfe des Venn-Diagramms die Modalregel-Bedingung für das Bestehen zu vereinfachen. Lösungen: Lösungen: 1. 2. a) 3.5 b) 8 c) 5.99 und größer; H0 wird verworfen da der TW im KB liegt a) 3 b) zwischen dem 2. und 3. Wert, da dort das Verhältnis 1:3 am Besten abgebildet wird. c) 19,9277 d) 19,1862 e) 5.99 und größer; H0 wird verworfen da beide TW im KB liegen. 3. b) F(-)=87 a b c F(a)=83 F(b)=72 F(c)=86 ab F(ab)=72 ac F(ac)=83 bc F(bc)=72 abc F(abc)=67 c) λy(b) = λy(b.-) = 0.1724 λy(c.b) = 0 λy(a.bc) = 0.0575 d) λy|abc = 0.2299 e) λyc.ab = 0.0694 f) Modalregeln für „superfit“: [(a=f) (b=g) (c=j)] [(a=f) (b=g) (c=n)] [(a=s) (b=g) (c=j)] vereinfachen zu : [(a=f) (b=g)] [(b=g) ((c=j)] = (b=g) [(a=f) (c=j)] 4. b) F(-)=37 a b c F(a)=37 F(b)=37 F(c)=27 ab F(ab)=37 ac F(ac)=27 bc F(bc)=27 abc F(abc)=25 c) λy(a) = λy(a.-) = 0 λy(c.a) = 0.27027 λy(b.ac) = 0.054054 d) λy|abc = 0.324324 e) λyba.c = 0.074074 f) Modalregeln für „Bestehen“: [(a=j) (b=j) (c=j)] [(a=j) (b=j) (c=n)] [(a=j) (b=n) (c=j)] [(a=n) (b=j) (c=j)] [(a=n) (b=n) (c=j)] vereinfachen zu : (c=j) [(a=j) (b=j)] Übungsaufgaben 7: (Vorgehen bei Aufgabe 2 wird nächstes Mal noch besprochen) Aufgabe 1 Gegeben seien zwei Prädiktoren x und z. Modalregeln zur Prädiktion von y sind gefragt. Für jede der zwei Ausprägungen des Merkmals z sei lambda yx und der Fehler(ohne x) (= Fehler(z)) bekannt: Z Fehler(ohne x) Lambda yx Z1 15 1/3 Z2 5 4/5 a) Berechnen Sie bitte das partielle lambda λyx.z = b) Wie groß ist der Fehler (z) ? Wie groß ist der Fehler (xz) ? Aufgabe 2 Die Begeisterung für die Fußball-WM (=y) soll mit Hilfe dreier Prädiktoren prädiziert werden. Die Prädiktoren sind: a: Geschlecht (m/w) b: Person ist sportlich (ja/nein) c: spielt selbst (ja/nein) y: Begeisterung a b c ja nein m ja ja 18 2 nein 18 4 nein ja 10 2 nein 8 10 w ja ja 7 1 nein 10 30 nein ja 8 2 nein 18 2 a) Bestimmen Sie bitte alle möglichen Teiltabellen! Zum PRE-Maß PRU: b) Berechnen Sie bitte alle Fehler der Teiltabellen und tragen diese in die Grafik ein! c) Wie groß sind die semipartiellen PRUs der Sequenz b, a, c? d) Wie groß ist das multiple PRU? e) Wie groß ist das partielle PRUya.bc ? f) Bestimmen Sie alle -2lnL( ) und tragen diese in die Grafik ein! g) Testen Sie die globale Nullhypothese; Wird sie abgelehnt oder angenommen? h) Testen Sie die partiellen Nullhypothesen: 1. a, y bedingt unabhängig; Bedingung b 2. bc, y bedingt unabhängig; Bedingung a Lösungen: Aufgabe 1 a) b) λyx.z = 0.45 = 9/20 Fehler(z) = 20; Fehler(xz) = 11 Aufgabe 2 a) a m w ja 54 43 b ja nein nein 18 35 a m w a m w b ja nein ja 53 44 nein 37 16 c ja nein ja 43 54 b ja nein ja nein ja 36 18 17 26 nein 6 12 31 4 c ja nein ja nein ja 28 26 15 28 nein 4 14 3 32 c ja nein ja nein ja 25 28 18 26 nein 3 34 4 12 b) F()=0,649 a b c F(a)=0,628 F(b)=0,638 F(c)=0,594 F(ab) =0,536 F(ac) =0,583 F(bc) =0,576 F(abc) =0,478 c) PRU y(b.-) = PRU y(b) = 0.017 PRU y(a.b) = 0.16 PRU y(c.ab) = 0.089 d) PRU y|abc = 0.263 e) PRU ya.bc = 0.1701 nein 7 46 f) F(-) = 194,7 F(a) =188,4 F(ab) = 160,8 F(b) F(c) = 191,4 = 178,5 F(ac) = 174,9 F(bc) = 172,8 F(abc) = 143,4 g) Verglichen werden -2lnL(-) und -2lnL(abc): 194,7 – 143,4 = 51,3 (TW) df: 8-1= 7; KB: im grünen Heftchen bei df = 7 in Chi**2-Verteilung schauen= 14,07 und größer → H0 wird abgelehnt, da TW in KB. h) 1. Verglichen werden -2lnL(b) und -2lnL(ab): 191,4 – 160,8 = 30,6 df: 4-2= 2; KB: im grünen Heftchen bei df = 2 in Chi**2-Verteilung schauen= 5,99 und größer → H0 wird abgelehnt, da TW in KB → Merkmal a ist relevant 2. Verglichen werden -2lnL(a) und -2lnL(abc): 188,4 – 143,4 = 45 df: 8-2= 6; KB: im grünen Heftchen bei df = 6 in Chi**2-Verteilung schauen= 12,59 und größer → H0 wird abgelehnt, da TW in KB → Merkmale b, c sind relevant Übungsaufgaben 9: 1. Inwiefern wirken sich Aufstiegschancen auf die Leistung aus. Mit Hilfe eines Leistungsindex wurde die Leistung gemessen. Zusätzlich sollte das Alter kontrolliert werden. Jeweils drei Personen pro Zelle: Gruppe (a) alt alt jung jung Aufstiegschancen (b) gut schlecht gut schlecht Anzahl 3 3 3 3 Leistungsindex Mittelwert Standardabw. 15 1 14 1 20 1 10 1 a) Berechnen Sie den multiplen Determinationskoeffizienten 1. Art. b) Erstellen Sie ein Streudiagramm mit den Mittelwerteinträgen. c) Berechnen Sie auch F(a) und F(b). (Tipp: über Fehlerreduktion berechnen) 2. Bei 40 Personen sollen die Unterschiede in sprachlicher Kompetenz untersucht werden. Es soll der Einfluss von Alter und Geschlecht untersucht werden. Folgende Tabelle sei das Ergebnis: Geschlecht (a) m w Alter (b) Anzahl jung alt jung alt 10 10 10 10 Y: sprachliche Kompetenz Mittelwert Standardabw. 1 2 1 2 2 2 4 2 Untersuchen Sie zur Prädiktion die Mittelwertsregeln! Berechnen Sie: a) den multiplen Determinationskoeffizienten 1. Art b) Fehler(-) und Fehler(ab) c) Wie groß sind die Fehlerreduktionen durch a und durch b? Lösungen: 1. a) Multipler Determinationskoeffizient 1. Art = 0.950078 b) Zeichnung c) F(a) = 159.50 und F(b) = 69.50 2. a) Multipler Determinationskoeffizient 1. Art = 0.294 b) c) Fehler(-) = 204; Fehler(ab) = 144 Fehlerreduktion(a) = 40; Fehlerreduktion(b) = 10 Übungsblatt 10: Aufgabe 1 Zu Aufgabe 1 Übungsblatt 9 d) Berechnen Sie die Prädiktionswerte unter Geltung eines rein additiven Modells. e) Berechnen Sie den Prädiktionsfehler bei der Prädiktion mit dem rein additiven Modell. f) Zeichnen Sie den ‚Modell-Diamanten’ mit den entsprechenden Einträgen. g) Testen Sie die Hypothesen: 1. H0(x2): die Mittelwerte der x2 Gruppen sind gleich. 2. H0(x1x2): es liegt das rein additive Modell vor. Aufgabe 2 Zu Aufgabe 2 Übungsblatt 9: d) Welche Zellen-Mittelwerte wären zu erwarten, wenn keine Interaktion zwischen a und b vorhanden wäre? e) Testen Sie die Hypothesen: 1. H0(x1): die Mittelwerte der x1 Gruppen sind gleich. 2. H0(x1x2): es liegt das rein additive Modell vor. f) Zeichnen Sie den ‚Modell-Diamanten’ mit den entsprechenden Einträgen. Lösungen: d) Prädiktionswerte unter Geltung eines rein additiven Modells: alt/g 17.25; alt/ s 11.75; j/g 17.75; j/s 12.25 Prädiktionsfehler bei der Prädiktion mit dem rein additiven Modell F(a,b)= 68.75 ‚Modell-Diamant’ mit Einträgen: e) f) - 160.25 1 ssqe(-) 1 a b I1 ssqe(a) b I2 ssqe(b) FR(b . a) 90.75 0.75 FR(b) FR(a) 69.50 2 2 FR(a . b) 0.75 90.75 a, b 68.75 3 a, b I1+I2-1 ssqe(a,b) Rein additives Modell FR. durch Interaktion 60.75 FR(ab. (a,b) ) 152.25 FR(ab) a,b,ab a,b,ab ssqe(a, b, ab) I1I2 8 z 4 Anzahl linear unabhängiger Parameter g) 1. TW: 90,75; 2. TW: 60,75; in beiden Fällen KB= 5,32 H0 verwerfen 2. a) b) m, jung: 0.5; m, alt: 1.5; w, jung: 2.5; w, alt: 3.5; 1. TW: 10 KB= 4,11, H0 verwerfen; 2. TW: 2,5; KB= 4,11, H0 annehmen c) ‚Modell-Diamant’ mit Einträgen: - - ssqe(-) 1 b I1 ssqe(a) FR. durch Interaktion b 164 2 FR(a . b) 194 2 40 10 a, b 154 3 a, b I1+I2-1 ssqe(a,b) Rein additives Modell 10 a I2 ssqe(b) FR(b . a) 1 40 FR(b) FR(a) a 204 10 FR(ab. (a,b) ) 60 FR(ab) a,b,ab ssqe(a, b, ab) I1I2 a,b,ab 144 4 z Übungsaufgaben 11: Aufgabe 1 Testet bitte die Nullhypothesen: H0 = ρ1 = ρ2 (Korrelationen in beiden Gruppen sind gleich) ρ1 = r1 = 0,75 ; ρ2 = r2 = 0,2 ; n1 = 33 n2 = 48 a.) Alternativhypothese: Die Korrelationen in den beiden Gruppen sind verschieden. b.) Testet bitte auch linksseitig. Aufgabe 2 Testet bitte die Nullhypothesen: H0 = ρ1 = ρ2 (Korrelationen in beiden Gruppen sind gleich) ρ1 = r1 = 0,6 ; ρ2 = r2 = 0,35 ; n1 = 15 n2 = 10 Führt bitte einen rechtsseitigen Test durch mit α = 0,01 Lösungen: Aufgabe 1 a.) TW: 3,268 KB: -1,96 und kleiner ; 1,96 und größer → H0 wird abgelehnt, da TW im KB b.) TW: 3,268 bleibt gleich KB: - 1,645 und kleiner → H0 wird angenommen, da TW nicht im KB Aufgabe 2 TW: 0,689 KB: 2,33 und größer → H0 wird angenommen, da TW nicht im KB Folien von Tutorium Prädiktion mit Hilfe eines linearen Modells: Ausgangslage sind die Mittelwerte α-Haupteffekt: αi1 = μi1. – μ.. (Summe der αi muss null sein symmetrische Restriktion) β-Haupteffekt: βi2 = μ.i2 – μ.. (Summe der βj muss null sein symmetrische Restriktion) rein additive Darstellung: Rekonstruktion der Mittelwerte μi1i2 = μ.. + αi1 + βi2 (=Mittelwerte für den Fall, dass lineares Modell vorliegt) Interaktionseffekte: Differenzen der Zellmittelwerte zum rein additiven Modell Bsp.: αβ11 = μ11 – (μ.. + α1 + β1) αβ ist kein Produkt!!! Prädiktion anhand des Modells: - Regel: additive Haupteffekte als Mittelwertsregel: R(x1x2): yi1i2j = yi1. + y.i2 – y.. - Fehler: Summe quadrierter Residuen F(x1x2): ssqe(x1x2)= = Beispiel: (Werte aus den Tabellen sind vom Beispiel des letzten Tutoriums) Mittelwerte als Ausgangslage: x1 w m x2 jung 0 1 0,5 alt 1 6 3,5 0,5 3,5 2 rein additive Darstellung: x1 w m x2 jung -1 μ11 2 μ21 -1,5 β1 alt 2 μ12 5 μ22 1,5 β2 α1 = 0,5 – 2 = -1,5 μ11 = 2 – 1,5 – 1,5 = -1 α2 = 3,5 – 2 = 1,5 μ12 = 2 – 1,5 + 1,5 = 2 β1 = 0,5 – 2 = -1,5 μ21 = 2 +1,5 – 1,5 = 2 β2 = 3,5 – 2 = 1,5 μ22 = 2 +1,5 +1,5 = 5 -1,5 α1 1,5 α2 2 μ.. Interaktionseffekte: x1 w m x2 jung 1 αβ11 -1 αβ21 0 alt -1 αβ12 1 αβ22 0 0 0 } Summe der αβ`s muss null sein!!! Summe der αβ`s muss null sein!!! αβ11 = 0 – (-1) = 1 αβ12 = 1 – 2 = -1 αβ21 = 1 – 2 = -1 αβ22 = 6 – 5 = 1 = 124 – 2*3*(0,5² + 3,5²) – 2*3*(0,5² + 3,5²) + 2*2*3*2² = 22 ssq(x1) = 27 ssq(x2) = 27 ssqe(total) = 76 ssqe(x1) = 49 ssqe(x2) = 49 rein additives Modell ssqe(x1,x2) = 22 ssq(x2.x1) = 27 ssq(x1.x2) = 27 Fehlerreduktion durch Interaktion = ssq(x1x2) = 12 ssqe(x1 komb. x2) = 10 Berechnung der Fehler über Fehlerreduktion: = = 2*3*(0,5² + 3,5²) – 2*2*3*2² = 75 – 48 = 27 = = 2*3*(0,5² + 3,5²) – 2*2*3*2² = 75 – 48 = 27 = = 3*(0² + 1² + 1² + 6²) – 75 – 75 + 48= 12 Hypothesen und Tests: Haupteffekthypothesen: - H0 zum Faktor x1: die Mittelwerte in den x1-Gruppen sind gleich. H0(x1): μ1. = μ2. = … = μI1. TW: F-Wert: F(dfZähler, dfNenner) = (ssq(x1)/dfz) / (ssqe(within)/dfn) ssqe(within) = ssqe(cells)!!! wobei: dfz = I1 – 1, dfn = n – I1*I2 F-Wert in grünem Heftchen nachschauen und Entscheidung über H0(x1). - H0 zum Faktor x2: die Mittelwerte in den x2-Gruppen sind gleich. H0(x2): μ.1 = μ.2 = … = μ.I2 TW: F-Wert: F(dfZähler, dfNenner) = (ssq(x2)/dfz) / (ssqe(within)/dfn) wobei: dfz = I2 – 1, dfn = n – I1*I2 F-Wert in grünem Heftchen nachschauen und Entscheidung über H0(x2). Interaktionseffekt-Hypothese: H0 zu Faktoren x1 x2: das rein additive Modell liegt vor. H0(x1x2): alle Effektparameter (αβi1i2) sind null. TW: F-Wert: F(dfz, dfn) = (ssq(x1x2)/dfz) / (ssqe(within)/dfn) wobei: dfz = (I1 – 1)*(I2 – 1), dfn = n - I1*I2 F-Wert in grünem Heftchen nachschauen und Entscheidung über H0(x1x2). Ein Beispiel für eine ANOVA-Tabelle findet ihr im Skript auf Seite 216. Alte Klausuraufgabe: Die Unterschiede in der Hautdicke wird bei 40 Personen untersucht (20 weibliche und 20 männliche). Dabei soll zusätzlich der Alterseffekt konstant gehalten bzw. mituntersucht werden. Ergebnis: a) Sex m w b) Alter Anzahl Kinder 10 Erwachsene 10 Kinder 10 Erwachsene 10 y: Hautdicke (in mm) arithm. Mittel Standardabw. 1 1 2 1 0,5 1 1,5 1 Untersuchen Sie zur Prädiktion die Mittelwertsregeln. Berechnen Sie: a) den multiplen Determinationskoeffizienten 1. Art:_________0,258________ b) Fehler(-):____48,5_____und den Fehler(within):_________36_____________ Testen Sie folgende Hypothesen: c) Die Interaktionseffekte zwischen a und b sind null. Freiheitsgrade:___1; 36____ Testwert:_______0_____________ d) Die b-Haupteffekte sind null; Freiheitsgrade:___1; 36_______ Testwert:_______10____________ H0 ablehnen?____ja______ krit. F-Wert:______4,11____________ Korrelationstest: Zwei unverbundene Stichproben: H0: Korrelation in beiden Gruppen gleich. 1. Schritt: r in z(r) einsetzen zur Transformation: 2. Schritt: z(ri) in Formel für Testwert einsetzen; Teststatistik ist approximativ normalverteilt: Beispiel: ρ1 = r1 = 0,5 n1 = 43 ρ2 = r2 = 0,4 n2 = 23 z(r1) = 0,5493 z(r2) = 0,42365 TW =(0,5493 - 0,42365) / ( 1/40 + 1/20 ) = 0,4588 KB = +1,96 und größer und -1,96 und kleiner H0 annehmen.