=0.05, falls nichts anderes erwähnt. WS1999/2000 Alexander Felk / Claudius Wagemann Probeklausur „Einführung in die Statistik“ 1. Nach Angaben von Wissenschaftlern liegt die Wahrscheinlichkeit eines Wolfkontaktes im Bayerischen Wald bei 40 %. Anwohner hingegen behaupten alternativ dazu, dass die Wahrscheinlichkeit bei 75 % liege. Daraufhin begaben sich unabhängige Forscher 50 mal in den Bayerischen Wald um diese Hypothesen zu testen. Als Teststatistik diente die Anzahl der Wolfkontakte. a) Welche Verteilung hat diese Teststatistik? b) Berechnen Sie beide Fehler c) Zeichnen Sie eine Kreuztabelle unter Berücksichtigung der oben berechneten Werte. Beachten Sie die richtige Zuordnung. Angenommen man unterteilt die Wolfkontakte in drei Tageszeiten und zwar morgens, mittags und abends. Die Anwohner behaupten nun, dass die Wahrscheinlichkeit eines Wolfkontakts immer gleich sei, während die Wissenschaftler sich darauf berufen, dass man in der Realität feststellte, dass Wölfe zu 80 % nachtaktiv, d.h. abends unterwegs sind. Die restliche Zeit des Tages seien die Wölfe zu gleichen Teilen anzutreffen. d) Berechnen Sie mit einem der beiden Ihnen bekannten Abweichungsmaßen diese Angaben und interpretieren Sie das Ergebnis. 2. In einem Nachrichtenmagazin wurde der Versuch unternommen einen Zusammenhang zwischen dem Alter der Leser und deren durchschnittlich gelesenen Seiten herzustellen. Zu diesem Zweck wurden sieben verschiedene Personen untersucht, wobei man zu folgendem Ergebnis kam: Alter (=x) Seiten (=y) a) b) c) d) e) 21 80 49 62 63 35 34 36 43 80 29 47 34 52 Welches PRE-Maß muss hier verwendet werden? Berechnen Sie das PRE-Maß. Berechne Sie die Fehler (ohne) und Fehler (mit). Stellen Sie die allgemeine Prädiktionsgleichung auf. Welchen Wert würde man für x=50 prädizieren? 3. Eine psychologische Untersuchung beschäftigt sich mit der Nervosität und der Anspannung von Studenten vor einer anstehenden Klausur. Dazu wurde beobachtet wie lange vor dem offiziellen Beginn der Klausur die Studenten vor den Hörsälen eintreffen. Die Beobachtungen ergaben folgendes Ergebnis: Minuten vor der Klausur 0 bis 1 Minute 1 bis 5 Minuten 5 bis 10 Minuten 10 bis 20 Minuten 20 bis 30 Minuten a) b) c) d) Anzahl der Studenten 2 10 55 38 15 Berechnen Sie das 1.Dezil. Berechnen Sie den Median und das arithmetische Mittel. Berechnen Sie die Quintilsdistanz. Wieviele Prozent kommen in den letzten 10 Minuten vor der Klausur? -1- =0.05, falls nichts anderes erwähnt. WS1999/2000 Alexander Felk / Claudius Wagemann Probeklausur „Einführung in die Statistik“ e) Zeichnen Sie ein Histogramm und ein Summenpolygon. 4. Bei einer Untersuchung des Kultusministeriums wurden die Fakultäten von Jura, Verwaltung und Biologie untersucht. Dabei wurde ein Hauptaugenmerk auf die Dauer des Studiums in Fachsemester gelegt. Bei einer 12-köpfigen Stichprobe wurden folgende Semesterzahlen festgestellt. Jura Verwaltung Biologie a) b) c) d) 8 7 9 10 9 10 9 9 11 12 14 12 Welche Skalenniveaus liegen vor? Zeichnen Sie ein Pfaddiagramm. Welches PRE-Maß liegt vor? Berechne PRE-Maß. Welche Aussage hat das PRE-Maß? Ein Mitarbeiter des Ministeriums stellt die Hypothese auf, dass zwischen den einzelnen Mittelwerten kein Unterschied besteht. e) Testen Sie diese Hypothese anhand eines geeigneten Tests. Wird die Hypothese akzeptiert? Begründung. 5. Untersucht werden soll, ob die Mitgliedschaft in einem Sportverein mit der Lebenseinstellung zu tun hat. Folgende Kreuztabelle kann erstellt werden: Mitglied im Sportvereins nicht Mitglied im Sportverein Lebenseinstellung positiv mittel 30 10 0 20 negativ 0 20 a) Testen Sie die Hypothese: H0: Die Merkmale sind unabhängig unter Berücksichtigung der entsprechenden Alternativhypothese. b) Berechnen Sie zur Prädiktion von Lebenseinstellung ein tau. c) Erstellen Sie eine Tabelle mit spaltenbedingten Anteilen. 6. Ein Unternehmen erhebt, wieviel Praktikumsmonate ihre Stellenbewerber aufweisen können. Für 6 Bewerber ergeben sich folgende Ergebnisse: 12 0 36 12 6 12 a) b) c) d) Berechnen Sie die Entropie. Berechnen Sie das vierte Quintil. Zeichnen Sie einen Boxplot. Warum ist der Stichprobenmittelwert der sechs Stellenbewerber ein erwartungstreuer Schätzer für den Mittelwert der Population ? e) Konstruieren Sie einen Test mit dem Mittelwert als Teststatistik für die Nullhypothese: Die durchschnittliche Anzahl an Praktikumsmonaten beträgt 12 (Alternative: mehr). Wird die Nullhypothese abgelehnt ? (Begründung !) Wie groß ist der Fehler 1.Art ? -2- =0.05, falls nichts anderes erwähnt. WS1999/2000 Alexander Felk / Claudius Wagemann Probeklausur „Einführung in die Statistik“ 7. Untersucht werden soll, wie sich die Zeit, die man zur Arbeitsstätte zurücklegen muss, zwischen Köln und Konstanz unterscheidet. Unterstellt werden dabei gleiche Populationsvarianzen für Köln und Konstanz. Folgendes Stichprobenergebnis wird erzielt: Köln Stichprobenmittelwert 45 Stichprobenstandardabweichung 10 Stichprobengröße 100 Konstanz 15 5 50 Untersucht werden soll die Hypothese: H0: Der Unterschied zwischen Köln und Konstanz beträgt 15 Minuten (Erläuterung: In Köln braucht man im Durchschnitt 15 Mnuten länger zur Arbeitsstätte). Alternativ: Der Unterschied beträgt mehr als 15 Minuten. a) b) c) d) e) Testwert Kritischer Bereich Welche Verteilung hat die Teststatistik ? Wird die Nullhypothese angenommen ? (Begründung !) eta² 8. Eine Wohngemeinschaft mit zwei Personen erfasst, wie viel Telefoneinheiten seit Semesterbeginn pro Monat von welchem der beiden Bewohner telefoniert worden sind. Es ergeben sich (Unabhängigkeit der Monatswerte werde vorausgesetzt) folgende Ergebnisse: Person 1 Person 2 10/1999 11/1999 12/1999 1/2000 2/2000 400 100 500 200 300 100 300 100 400 100 a) Berechnen Sie eta². b) Kann bei dieser Datenkonstellation die Behauptung, dass der Anteil der Monate, in denen Person 1 mehr telefoniert als Person 2, bei 0.5 liegt, gegenüber die Alternativhypothese, wonach dieser Anteil größer ist, auf 1 %-Signifikanzniveau aufrechterhalten werden ? (Begründung unter Angabe des Kritischen Bereichs.) c) Geben Sie ein 95 %-Konfidenzintervall für den Unterschied in den telefonierten Einheiten zwischen Person 1 und Person 2 an. Lösungen: (alle Angaben ohne Gewähr !) 1. a) b) c) d) binomial Fehler 1.Art: 1 - 0.9686 = 0.0314; Fehler 2.Art: 0.0001 Zeichnung Pearsons ² = 66.70625; Likelihood ² = 49.56 2. a) b) c) d) Determinationskoeffizient 2.Art r² = 0.1310653; Var (x) = 1166/6; Var (y) = 2126/6; Cov (x,y) = -570/6 Fehler (Ohne) = 2126; Fehler (Mit) = b = -0.2681; a = 66.4559; y = 66.4559 - 0.2681*x -3- Alexander Felk / Claudius Wagemann Probeklausur „Einführung in die Statistik“ =0.05, falls nichts anderes erwähnt. WS1999/2000 e) y (Dach) = 66.4559 - 0,2681 * 50 = 53.050 3. a) b) c) d) e) 5 Median = 9.3636; Mittelwert = 11.570833; Quintilsdistanz = 11.5406; 4.Quintil = 17.631604; 1.Quintil = 6.0909 55.833 % Zeichnung 4. a) b) c) d) e) nominal - intervall 1 = -0.933; 2 = -0.133; 3 = 1.0667; = 9.933 Determinationskoeffizient 1.Art; ²= 0.1714 Durch Hinzunahme/Berücksichtigung der zusätzlichen Information reduziert sich der Fehler um 17.14 % F-Test; F = 0.931; Hypothese wird akzeptiert 5. a) b) c) 0 chi² (Pearson) = 53.33, df = 2, kritischer Wert: 5.99, Nullhypothese ablehnen Fehler (ohne) = 0.65625, Fehler (mit) = 0.4375, tau = 0.3333 1 1/3 0 2/3 1 6. a) b) c) d) e) 7. a) b) c) d) e) 1.79 12 Zeichnung Weil der Erwartungswert über den Stichprobenmittelwert gleich dem Mittelwert der Population ist. Testwert -0.2, kritischer Wert (für df = 5): 2.02, daher tw nicht im kritischen Bereich, Nullhypothese angenommen. Begründung: weil tw nicht im kritischen Bereich; Fehler 1.Art: 0.05 Zwischenergebnisse: df = 148, SE = 1.5016, Endergebnis: tw = [(45 - 15) - 15]/1.5016 = 9.9893 1.66 und größer student-t Nein, weil tw im kritischen Bereich SSQ(between) = 30000; SSQ(within) = 11125; SSQ(total) = 41125, d.h. eta² = 0.7294 8. a) Bitte beachten: Zu verwenden ist die Sonderformel für verbundene Stichproben !! eta² = 0.9657 b) rechtsseitiger Binomialtest: kein kritischer Bereich für Signifikanzniveau 0.01 vorhanden; folglich immer Entscheidung für die Nullhypothese c) X(quer) = 260; Standardfehler der Differenzen: 54.77/5 = 24.49, d.h. Konfidenzintervall: +/- 2.78 * 24.49 + 260; untere Grenze daher: 191.9178, obere Grenze: 328.0822 -4-