Nagl, Einführung in die Statistik, Anhang 3 Seite 1 Übungsaufgaben zu Kap. 4. 1. Entnehmen Sie die Daten für zu Hause und in Uni Arbeiten (in Stunden) dem Skript a) Berechnen Sie die Differenzen für die 4 Personen. b) Berechnen Sie das 95% Konfidenzintervall für die Populations-MittelwertsDifferenzen. c) Testen Sie die Hypothese: Populations-Mittelwerts-Differenzen sind 0. d) Berechnen Sie den Determinationskoeffizienten 1. Art. 2. Der durchschnittliche Aspirinkonsum (Pillen pro Jahr) in der Schweiz soll mit jenem in Deutschland verglichen werden. Annahme: der Aspirinkonsum sei in beiden Länden normalverteilt. Stichproben: Schweiz Deutschland Mittelwert 30 25 Standardabweichung 15 10 Stichprobengröße 100 30 Nullhypothese: der Aspirinkonsum ist im Schnitt in beiden Ländern gleich (Alternative: ungleich). Erstellen Sie ein Streudiagramm, mit Eintragen der Mittelwerte und der 95% Konfidenzintervalle a) 95%-Konfidenzintervalle Pop.mittelwert für Schweiz und Deutschland? b) Berechnen Sie den Determinationskoeffizient 1. Art. Test und Konfidenzintervalle der Mittelwertdifferenz unter der Annahme: Die Populationsstandardabweichungen seien gleich. c) Testverteilung? Freiheitsgrade? d) kritischer Bereich? e) Testwert? Wird H0 abgelehnt? Warum? f) Berechnen Sie ein Konfidenzintervall für die Differenz der Populationsmittelwerte? g) Welche Differenzhypothesen würden akzeptiert werden? Test und Konfidenzintervalle der Mittelwertdifferenz unter der Annahme: Die Populationsstandardabweichungen seien verschieden. h) Testverteilung? Freiheitsgrade? i) kritischer Bereich? j) Testwert? Wird H0 abgelehnt? Warum? k) Welche Differenzhypothesen würden akzeptiert werden? 3. Die ‚Wirkung‘ einer Behandlung mit einem HDL-steigernden Medikaments wurde untersucht. Die Meßpaare (HDL vor Behandlung, HDL nach Behandlung) sind: (30, 35), (35, 45), (37,48), (39,49), (45,51), (53,52). Unterstellen Sie, daß die Differenzwerte normalverteilt sind. a) Stellen Sie die Daten in einem Streudiagramm fragestellungsadäquat dar. b) Berechnen Sie ein 95% Konfidenzintervall für (Pop.mittelwert vorherPop.mittelwert nachher) c) Testen Sie die Nullhypothese: Keine Veränderung vs. Veränderung. d) Testen Sie die Nullhypothese: Keine Veränderung vs. Verbesserung. e) Berechnen Sie den Determinationskoeffizienten 1. Art. Nagl, Einführung in die Statistik, Anhang 3 Seite 2 4. Wieviel Zeit sitzen Besitzer von PCs vor ihren PCs? Gibt es Unterschiede nach Ausbildung? Eine Untersuchung ergab folgende Messwerte: Stichproben (nach Bildung) Ohne Abi Mit Abi Mehr als Abi n 20 10 10 a. Mittel 1 6 4 Std 2 3 3 Untersuchen Sie zur Praediktion die Mittelwertsregel: Charakterisieren Sie genau die Regel (mit Bildung) Charakterisieren Sie genau die Regel (ohne Bildung) Fehler(Ohne Bildung)? Fehler(Mit Bildung)? PRE-Maß? Wird H0 ( im Schnitt keine Unterschiede nach Bildung; Ha: es gibt Unterschiede) abgelehnt? f) Erstellen Sie die Gruppeneffektdarstellung (Skript S.79) mit symmetrischer Effektrestriktion g) Erstellen Sie ein Pfaddiagramm. a) b) c) d) e) 5. Eine Stichprobe von Nettomonatsverdiensten(in DM) wurde erhoben; es soll untersucht werden, ob auf Grund der Kenntnis der Branchenzugehörigkeit des Verdienenden eine fehlerreduzierende Prädiktionsregel gefunden werden kann (welche?)und um wieviel der Fehler durch die Regel reduziert werden kann (welches PRE-maß ist angemessen?). Befragt wurden 15 Männer Branchen: Nettomonatsverdienste Geld-,Bank-,Versicherungswesen 2900, 3800, 4700 Bergbau 3000, 3400, 4000 Öffentlicher Dienst 2700, 3200, 3700 Handel 2200, 2500, 3000, 3500 Landwirtschaft 1800, 2500 a) b) c) d) e) Charakterisieren Sie genau die Regel (mit Branchen) Charakterisieren Sie genau die Regel (ohne Branchen) Fehler(Ohne Bildung)? Fehler(Mit Branchen)? PRE-Maß? Wird H0 ( im Schnitt keine Unterschiede nach Branchen; Ha: es gibt Unterschiede) abgelehnt? f) Erstellen Sie die Gruppeneffektdarstellung (Skript S.79) mit symmetrischer Effektrestriktion g) Erstellen Sie ein Pfaddiagramm. 6. Die Intelligenz eineiiger Zwillinge (n=19), die in unterschiedlichem Milieu aufgewachsen sind, wurde untersucht. Die Auswahl der ersten 11 Zwillinge aus den Daten von NEWMAN H.G et al. (1937) liegt hier vor (E: Erstgeboren, Z: Zweitgeboren). Untersuche, wie gut durch eine Gerade (als Regel) die Intelligenz des Nagl, Einführung in die Statistik, Anhang 3 Seite 3 Z-Zwillings (=:y) auf Grund der Intelligenz des E-Zwillings (=:x) prädiziert werden kann. Merkmale Vpnr Unterschied in Ausbildung (Jahre) Trennung im x. Monat im 'besseren' Milieu Alter bei Test Geschlecht IQ(E)-Binet-Stanford IQ(Z)-Binet-Stanford 1 1 18 Z 19 0 85 97 2 3 4 10 1 4 18 2 5 Z E Z 27 23 29 0 1 0 66 99 89 78 101 106 5 6 7 1 0 0 14 36 1 Z E E 38 59 13 0 0 1 89 102 105 93 94 106 8 9 10 11 1 0 1 14 3 1 12 18 E E Z Z 15 19 12 35 0 1 0 0 92 102 122 92 77 96 127 116 a) b) c) d) e) f) g) h) i) j) k) Charakterisieren Sie genau die Regel (mit E-Zwilling) Charakterisieren Sie genau die Regel (ohne E-Zwilling) Fehler(Ohne E-Zwilling)? Fehler(Mit E-Zwilling)? PRE-Maß? Konfidenzintervall für ? Testen Sie H0: =0. Testwert? KB? Wird H0 abgelehnt? Erstellen Sie ein Pfaddiagramm. Korrelationskoeffizient? Berechnen Sie ein 95%Konfidenzintervall für z(). Berechnen Sie ein 95%Konfidenzintervall für selbst. Testen Sie H0: =0. Teststatistk? Wird H0 abgelehnt(einseitig), (zweiseitig) bei =5%? l) Testen Sie H0: =0.20. Teststatistk? Wird H0 abgelehnt(einseitig), (zweiseitig) bei =5%? 7. Erstellen Sie die Kreuztabelle (für die Personen 17-32) der beiden Merkmale: Vaterund Mutterausbildung. Interpretieren Sie das Ergebnis. a) Berechnen Sie gemeinsame und Randanteile b) Berechnen Sie x- und y-Bedingte Anteile. Interpretieren Sie die beide Arten von bedingten Anteilen. 8. Bei Mobilitätsstudien werden die Väter-Sohnpaare untersucht zur Feststellung der Mobilität zwischen zwei Generationen. Es seien folgende bedingten Anteile gefunden worden: Vaterschicht a) b) c) d) e) f) g) h) US. MS OS US 0.70 0.20 0 Sohnschicht MS 0.20 0.60 0.40 OS 0.10 0.20 0.60 0.6 0.3 0.1 Berechnen Sie die gemeinsamen Anteile Berechnen Sie die y-Bedingten Anteile. Interpretieren Sie die x- und y-Bedingten Anteile. Welchen Bedingungen müßten die x-Bedingten Anteile entsprechen bei völliger Chancengleichheit? Berechnen Sie Lambda () Berechnen Sie Tau () Berechnen Sie Phi () und Cramers v Testen Sie die Hypothese der Unabhängigkeit (n sei=1000) Nagl, Einführung in die Statistik, Anhang 3 8. Die Kreuztabelle (für die Personen 1-55) der beiden Merkmale: Vater- und Mutterausbildung ist: a) Erstellen Sie ein strukturiertes Staffeldiagramm b) Berechnen Sie PRU c) Prüfen Sie die Hypothese der Unabhängigkeit der beiden Merkmale d) Berechnen Sie Phi und Cramers v. Seite 4 VaterAusbildung Volks-S. höhere S. Abi u.m. Ausbildung der Mutter Volkshöhere Abi u. schule Schule mehr 19 6 0 8 6 0 1 8 4 28 20 4 25 14 13 52 10. Was ist eine prädiktive Beziehung zwischen x und y? Welche Bedingungen müssen zusätzlich erfüllt sein, damit die prädiktive als kausale Beziehung interpretiert werden darf? Lösungen zu ausgewählten Übungsbeispielen zu Kap. 3 210 312 49*48*47*46*45*44 b) 49*48*47*46*45*44/(1*2*3*4*5*6) MIT versch. Reihenfolgen 20*19*18*17*16 OHNE versch. Reihenfolgen 20*19*18*17*16/5! z.B. 3 Würfelwürfe nötig: Falls 1. Wurf 1 oder 2, dann sei A=0, bei 3 oder 4 sei A=36, bei 5 oder 6 sei A=72. 2.Wurf : B=(Augenzahl-1)*6 3.Wurf: C=Augenzahl. Die gesuchten Zufallszahlen sind:C+B+A. Falls das Ergebnis > 100 ist, dann soll das Ergebnis übergangen werden. Es muß für das neue Ergebnis immer neu gestartet werde. 7a) 100=E(IQ) b) 100 15*15 15*15*3/4 c) 100 15*15 15*15*(n-1)/n 9a) 1/(210) b) 1/(210) c) 0.009765625 d) 0.043945313 e) 0.828125 10a) 0.36689674 b) 0.2446628 c) 0.027099198 11a) 0.65625 b) 0.9647998 12a) 0.3244806 b) 0.70465262 13a) (70.6,129.4) b) (90.7,109.3) c) (97.06,102.94) 16a) 941.96*(15/1)) =(64.6, 123.4) b) 941.96*(15/ 10 ))=(84.7029037, 103.297096) c) (91.06, 96.94) 17a) df=10-1=9 b) 2.26 c) 2500-( 2.26*(1000/ 10 )) = (1785.32525,3214.67475) 20a) Mittelwert der Stichprobe b) Normal-Verteilung c) beidseitig, 97 1.96*(15/5) =(91.12,102.88 ) d) nee 21a) Mittelwert der Stichprobe b) Student-Verteilung c) linksseitig, bis 2400- 1.66*(1000/10)=2234.0 d) nee 22) siehe Skript S.55 23a) Binomialverteilung b)0/20-5/20 c) 0.0207 d)0.8042 e) 1- 0.8042=0.1958 24a) Binomialverteilung b)20/30-30/30 c)0.0494 d)1-0.2696= 0.7304 e) 0.2696 25a) LR-Chi**2=21.2, df=2=3-1, n=280, I=3 b) krit. Chi**2=5.99. 21.2 ist im krit. Bereich. H0 ablehnen 26a) geschätzte Einzelerfolgswt=0.50 b) 0.0625 0.2500 0.3750 0.0625 c) LR-Chi**2=6.11. df=5- 1 –1 =3. (Zusätzlich 1 abziehen für den geschätzten Parameter der Binomialverteilung: geschätzte Einzelerfolgswt) KrWert=7.81 für =0.05. H0 (Binomialverteilung) akzeptiert 27a) 95% Konf.int: (91.3, 120.7) b) KB außerhalb(76.3,105.7) 106 in KBH0 abl. c) KB ah:(77.3,106.7) H0 ok d) KB außerhalb: (78.3,107.7) 106 ni KBH0 akz. e) KB außerhalb: (91.3, 120.7) 106 ni KBH0 akz. f) KB außerhalb: (104.3,133.7) 106 ni KBH0 akz. g) KB außerhalb: (105.3,134.7) 106 ni KBH0 akz. h) KB außerhalb: (106.3,135.7) 106 in KBH0 abl. i) 95% Konf.int: (98.65, 113.35) j) (98.65, 113.35) 1) 2) 3a) 4) 5) Nagl, Einführung in die Statistik, Anhang 3 Seite 5 Lösungen zu ausgewählten Übungsbeispielen zu Kap. 4 3 b) (-11.59251,-2.07416) c)t(5)=-3.6908 KB=außerh. von (-2.57,2.57) Ho abgelehnt d) Verbesserung bedeutet hier Reduktion: KB kleiner gleich 2.02; H0 abgelehnt. e) d1.A=(383-102.83)/383=0.7315 4a) ohneAbi1, MitAbi6, MehrAls Abi4 b) egal welches x, immer 3 c) ssq(between)=180. ssq(within)=238=F(Mit). F(Ohne)=ssq(total)=238+180 d) DetKoeff1.Art = 0.43 e) df1=2, df2=40-3=37 F(2,37)=(180/2)/(238/37)= 13.99 ; F0.95 (2,37 ) 3.25; d.h KB3.25 H0 abgelehnt. f) zur Gruppeneffektdarstellung: generelles Niveau k mit Abweichungen für die 3 Gruppen: Mi1=k+a1, Mi2=k+a2, Mi3=k+a3, so daß a1+a2+a3=0 ist. Dh. Mi1+Mi2+Mi3=3k+(a1+a2+a3). dh. k=( Mi1+Mi2+Mi3)/3=11/3=3.666. a1=1-3.666=-2.666. a2=6-3.666=2.333. a3=4-3.666=0.333. g) Graphische Darstellung von k,a1,a2,a3 und e Zu 5) Netto Netto/100-20(für einfacheres Rechnen) Geld-,Bank-,Versicherungswesen Geld-,Bank-,Versicherungswesen Geld-,Bank-,Versicherungswesen Bergbau Bergbau Bergbau Öffentlicher Dienst Öffentlicher Dienst Öffentlicher Dienst Handel Handel Handel Handel Landwirtschaft Landwirtschaft 2900 3800 4700 3000 3400 4000 2700 3200 3700 2200 2500 3000 3500 1800 2500 9 18 27 10 14 20 7 12 17 2 5 10 15 -2 5 Lösung zu 5) Computer-Ausdruck (JMP) zu Branche: 30 25 20 15 10 5 0 -5 Ber gbau Gel d- , Bank- , Ver si cher ungswesen Landwi r t schaf t Í f f ent l i cher à Handel Br anche Level Number Bergbau 3 Geld-,Bank-,Versicherungswesen 3 Handel Landwirtschaft Öffentlicher Dienst Mean Std Dev Std Err Mean 14.6667 5.03322 2.9059 18.0000 9.00000 5.1962 4 8.0000 5.71548 2.8577 2 1.5000 4.94975 3.5000 3 12.0000 5.00000 2.8868 Analysis of Variance Source DF Sum of Squares Mean Square Model 4 405.76667 101.442 Error 10 385.16667 38.517 C Total 14 790.93333 F Ratio 2.6337 p=0.0976 Response: netto/100-20 Summary of Fit RSquare 0.513023 RSquare Adj 0.318232 Root Mean Square Error 6.20618 Mean of Response 11.26667 Observations 15 Nagl, Einführung in die Statistik, Anhang 3 Parameter Estimates Term Intercept Branche[Bergbau-Öffentl] Branche[Geld-,B-Öffentl] Branche[Handel-Öffentl] Branche[Landwir-Öffentl] Effect Test Source Nparm DF Branche 4 4 Seite 6 Estimate 10.833333 3.8333333 7.1666667 -2.833333 -9.333333 Std Error 1.642001 3.224826 3.224826 2.910956 3.775072 t Ratio 6.60 1.19 2.22 -0.97 -2.47 Sum of Squares F Ratio Prob>F 405.76667 2.6337 0.0976 Prob>|t| <.0001 0.2620 0.0505 0.3533 0.0330 130 Lösung zu 6) Linear Fit IQ(Z)-Binet-Stanford = 31.1363 + 0.71764 IQ(E)-Binet-Stanford Summary of Fit RSquare 0.467623 RSquare Adj 0.40847 Root Mean Square Error 11.33919 Mean of Response 99.18182 Observations 11 Analysis of Variance Source DF Sum of Squares Mean Square Model 1 1016.4415 1016.44 Error 9 1157.1948 128.58 C Total 10 2173.6364 F Ratio 7.9053 Prob>F 0.0203 Parameter Estimates Term Intercept IQ(E)-Binet-Stanford Estimate 31.136343 0.7176416 Std Error 24.44167 0.25524 IQ(Z)-Binet-Stanford 120 110 100 90 80 70 60 70 80 90 100 110 IQ(E)-Binet-Stanford t Ratio Prob>|t| Lower 95% 1.27 0.2346 -24.15503 2.81 0.0203 0.1402442 120 130 Upper 86.42772 1.2950391 6 h) Korr.Koeff r=0.68. i) Konf.Int für z(rho)=( 0.83621675 (1.96*(1/8.0)sqrt)) =(0.1432521, 1.5291814) j) Konf.Int für rho=( 0.1432521, 0.9102844) k) 0.83621675/(1/8.0)sqrt =2.36517814. ein- und zweiseitig ablehnen. l)z=(0.83621675-0.20273255)/(1/8.0)sqrt= 1.79176389; zwei und linksseitig ablehnen. rechtseitig akzeptieren. 7) Schulbildung, Vater Schulbildung, Mutter 1 Total % Row % Col % 2 3 4 1 6 37.50 85.71 66.67 3 18.75 60.00 33.33 0 0.00 0.00 0.00 0 0.00 0.00 0.00 9 56.25 2 1 6.25 14.29 20.00 2 12.50 40.00 40.00 0 0.00 0.00 0.00 2 12.50 66.67 40.00 5 31.25 3 0 0.00 0.00 0.00 0 0.00 0.00 0.00 1 6.25 100.00 100.00 0 0.00 0.00 0.00 1 6.25 4 0 0.00 0.00 0.00 0 0.00 0.00 0.00 0 0.00 0.00 0.00 1 6.25 33.33 100.00 1 6.25 Vaterschicht 1 6.25 Test ChiSquare Likelihood Ratio 16.788 Pearson 24.960 3 18.75 Warning: 20% of cells have expected count less than 5, Chi-squares suspect Warning: average cell count less than 5, LR Chi-square suspect -LogLikelihood 8.39379 11.003228 19.397022 RSquare (U) 0.4327 Prob>ChiSq 0.0521 0.0030 16 100.00 8 a) gem. Anteile US. MS OS 5 31.25 Tests Source DF Model 9 Error 4 C Total 13 Total Count 16 7 43.75 b) y-Bedingte Anteile Sohnschicht US MS 0.42 0.12 0.06 0.18 0 0.04 OS 0.06 0.06 0.06 0.48 0.18 0.34 0.6 0.3 0.1 Vaterschicht US. MS OS US 0.875 0.125 0 0.48 Sohnschicht MS 0.353 0.529 0.118 0.34 OS 0.33 0.33 0.33 0.18 0.6 0.3 0.1 Nagl, Einführung in die Statistik, Anhang 3 Seite 7 c) Nur jeder zehnte aus der Unterschicht erreicht die Oberschicht; aber jeder 3. in der Oberschicht stammt aus der US. d) Bei Chancengleichheit: Vaterschicht US. MS OS US 0.48 0.48 0.48 0.48 Sohnschicht MS 0.34 0.34 0.34 0.34 OS 0.18 0.18 0.18 0.6 0.3 0.1 0.18 8e) MIT-Regel: v us s us, v ms s ms, v os s os F(MIT)=0.34. OHNE-Regel: immer US. F(OHNE)=0.52. lambda=0.346153846. f) tau=0.2084942 F(O)=0.6216 F(M)= 0.492 g) phi=0.611, v=0.432 h) Pearson chi**2=372.79, Likelihood Ratio Chi**2=388.581, df=4 9b) PRU=0.261 F(O)= 1.2957378 F(M)=0.9572099 c) Test ChiSquare Prob>ChiSq (Programm-Ausdruck) Likelihood Ratio 24.404 <.0001 Pearson 22.680 0.0001 Warning: 20% of cells have expected count less than 5, Chi-squares suspect. (Fisher Exact Test p-Value=9.81E-05) d) Phi=0.660 v=0.467