9.1 Der Weinkonsum (in Liter) pro Jahr (=Y) sei normalverteilt in beiden Ländern (I und D). In I sei Y NV (37,16), in D NV (32,9). Def.: Meistertrinker seien die 5 % eines Landes, die mehr als die anderen Bewohner des Landes trinken. a) Ab welcher Weinmenge ist man Meistertrinker in I ? b) Wieviel Prozent der I-er trinken weniger als 35 Liter ? c) In einem Land wurde eine Stichprobe (n = 4) gezogen. Leider ist vergessen worden, in welchem Land die Stichprobe gezogen wurde. Hypothese: in I. Alternativhypothese: in D. Konstruiere einen Test mit dem Mittelwert als Teststatistik. Wie groß ist der Fehler 2. Art? Originalaufgabe aus der Klausur "Statistik II für Soziologen", SS 1994 9.2 Es soll die Frage untersucht werden, ob Türen auf der "Stoßen-Seite" gleich abgenutzt werden wie auf der "Ziehen-Seite". Alternativ wird behauptet, daß die "Stoßen-Seite" stärker beansprucht wird. Bei acht Türen wurde ein Verschmutzungswert erhoben: 1. 2. 3. 4. 5. 6. 7. 8. Stoßen-Seite 41 23 25 20 4 50 7 13 Ziehen-Seite 40 22 23 19 3 51 5 12 Prüfen Sie zuerst die Hypothese, daß die durchschnittliche Abnutzung gleich ist unter Berücksichtigung der angemessenen Alternativhypothese. a) Testwert b) Welche Verteilung hat die Teststatistik ? c) Wird H0 abgelehnt ? Begründung d) Bestimme den kritischen Bereich ! Prüfen Sie nun die Hypothese, daß der Verschmutzungsunterschied nur zufällig ist, bei entsprechender Alternative, daß er wohl überzufällig ist (Teststatistik: Anzahl der Türen, die auf der Stoß-Seite stärker verschmutzt sind). e) Wird H0 abgelehnt bei 8 positiven Antworten ? Begründung f) Bestimme den Kritischen Bereich g) Welche Verteilung hat die Teststatistik ? Originalaufgabe aus der Klausur "Statistik II für Soziologen", SS 1991 9.3 Der durchschnittliche Aspirinkonsum (Pillen pro Jahr) in der Schweiz soll mit jenem in Deutschland verglichen werden. Stichproben: Schweiz Deutschland Mittelwert 30 20 Standardabweichung 30 20 Stichprobengröße 100 30 Testen Sie die Nullhypothese: der Aspirinkonsum ist im Schnitt in beiden Ländern gleich (Alternative: in der Schweiz mehr). Die Populationsstandardabweichungen seien gleich. a) Testverteilung ? b) kritischer Bereich ? c) Testwert ? H0 abgelehnt ? d) Berechnen Sie fuer Deutschland das 95%-Konfidenzintervall: untere Grenze, obere Grenze Originalaufgabe aus der Klausur "Statistik II für Soziologen", SS 1999 9.4 20 % aller Studenten freuen sich auf Statistikklausuren, 50 % stehen Statistikklausuren skeptisch gegenüber, der Rest ist indifferent. a) Berechne die Modaldispersion. b) Berechne die qualitative Varianz. c) Berechne die Entropie. Wenn nichts anderes angegeben ist, dann verwende bei allen Tests ein Signifikanzniveau von 5 %. Lösungen: 9.1 a) 43.58, b) 0.3085, c) krit.Bereich: 33.71 und kleiner, Macht: 0.1271 9.2 a) Zwischenergebnisse: Mittelwert der Differenzen: 1, Standardabweichung der Differenzen: 0.9258, tw = 3.055, b) student-t, c) Ablehnung der Nullhypothese, weil tw im kritischen Bereich, d) 1.90 und größer (df = 7), e) Ablehnung der Nullhypothese, weil tw (8) im kritischen Bereich, siehe Teilaufgabe f, f) 7 und 8, g) binomial 9.3 a) student-t, b) 1.66 und größer (df = 128), c) Zwischenergebnisse: SE = 5.8387, df = 128, tw = 1.71, ja, Ablehnung, d) 12.51 bis 27.49 9.4 a) 0.5, b) 0.62, c) 1.4854 Neue Aufgaben: 10.1 In Konstanz werden in vier Buslinien jeweils drei zufällig ausgewählte Personen nach ihrem Alter befragt. Dabei werden folgende Resultate festgestellt: Buslinie Linie 1 (Autofähre) Linie 6 (PLK Reichenau) Linie 9 (Uni) Linie 10 (Friedhof) Alter der Fahrgäste 34 56 75 27 45 63 20 25 30 65 80 80 a) Führe folgenden Test durch: H0: Das Alter der Fahrgäste unterscheidet sich nicht für die verschiedenen Buslinien. HA: H0 ist falsch. b) Gib insbesondere an: Testverteilung ? Testwert ? Kritischer Bereich ? c) Berechne ² und interpretiere es. d) Berechne im Sinne des PRE-Konzepts den Fehler (OHNE). Um welche SSQ handelt es sich ? e) Erstelle eine Tabelle, die auch in einem Computerausdruck zu finden sein könnte, und deren Spalten überschrieben sind mit „source of variance“, „SSQ“, „df“ und „MSQ“. 10.2 In einem Training wurden unterschiedliche Methoden (A, B, C) versucht, die Fähigkeit zu schnellerem Rechnen zu erlernen. Die Fähigkeit wurde mit einer Intervallskala nach dem Training gemessen. Mit Methode A und B wurden je zwei Personen, mit C vier Personen trainiert. Ergebnis: Methoden: Fähigkeitswerte A 113 115 B 110 114 C 109 110 112 113 Finden Sie eine angemessene Prädiktionsregel. a) Charakterisieren Sie genau die Regel: b) Welches PRE-Maß ist das ? c) Berechnen Sie das PRE-Maß: Originalaufgabe aus der Klausur „Statistik I für Soziologen“, WS 1993/94 10.3 Das Hormon Vasopresin ist eventuell in der Lage, den Tiefschlaf zu verbessern. 30 Studenten sind bereit, das Medikament auszuprobieren. Als Teststatistik diene die Anzahl der Studenten, bei denen eine Verbesserung des Tiefschlafs festgestellt wird. H0: Die Wahrscheinlichkeit einer Verbesserung ist 0.50. HA: Die Wahrscheinlichkeit einer Verbesserung ist 0.70. Konstruieren Sie einen Test der H0-Hypothese: a) Welche Verteilung hat die Teststatistik ? b) Kritischer Bereich: W (Fehler 1.Art) c) Macht des Tests ? Originalaufgabe aus der Klausur „Statistik II für Soziologen“, SS 1998 10.4Vermischtes a) Aufgrund eines berechneten Stichprobenmittelwertes wird ein 95%-Konfidenzintervall für angegeben. Zudem werde die Nullhypothese eines zweiseitigen, univariaten Mittelwerttests aufgestellt. Wie kann ohne Durchführung des Tests festgestellt werden, ob die Nullhypothese bei diesem Stichprobenmittelwert angenommen oder verworfen wird ? b) Welches Streuungsmaß für nominal skalierte Daten ist gleichzeitig ein Fehlermaß bei einer probabilistischen Entscheidungsregel ? c) Im Rahmen einer Therapie sollen sechs Patienten miteinander Zweiergespräche führen. Wie viele solcher Zweiergespräche sind nötig, damit jeder Patient einmal mit jedem anderen gesprochen hat ? Wenn nichts anderes angegeben ist, dann verwende bei allen Tests ein Signifikanzniveau von 5 %. Lösungen Blatt 10: 10.1a) Entscheidung für Alternativhypo b) F-Verteilung, tw = 6.1538, Kritischer Bereich: ab 4.07 c) 0.6976, Prozentsatz der erklärten Varianz d) 5590, SSQ (total) e) Source of variance SSQ df MSQ between 3900 3 1300 within 1690 8 211.25 total 5590 10.2a) ohne Gruppen: 112, Gruppe A: 114, Gruppe B: 112, Gruppe C: 111 b) Determinationskoeffizient 1.Art c) 0.375 10.3a) binomial b) 20 - 30, 0.0494 c) 0.7304 10.4a) Wenn der Nullhypo. außerhalb des Konfidenzintervalls liegt, wird die Nullhypothese abgelehnt. b) qualitative Varianz c) 15 Aufgaben 11 11.1 Bei acht Personen mit Schlafstörungen soll mittels werden. Die Patienten werden drei verschiedenen wird erhoben: Therapeut A B Schlafdauer in Stunden 2 2 5 2 (vor der Therapie) (nach der Therapie) 4 4 6 4 einer Therapie die Schlafdauer verlängert Therapeuten zugeteilt. Folgende Statistik 4 6 C 4 6 6 6 7 6 Zu überprüfen sind die folgenden Hypothesentests (beachte, dass für keinen der Tests alle in der Tabelle enthaltenen Informationen verwendet werden müssen. Stelle insbesondere fest, um welchen Test es sich handelt. a) H0: Die Therapiegruppen der Therapeuten A, B und C unterscheiden sich nicht hinsichtlich der Schlafdauer, die die jeweiligen Patienten vor Beginn der Therapie angaben. HA: H0 ist falsch. b) H0: Die einzelnen Patienten schlafen nach der Therapie im Durchschnitt zwei Stunden länger. (So wird es von den Therapeuten angepriesen). HA: Die durchschnittliche Verbesserung des Schlafes beträgt weniger als zwei Stunden. c) H0: Der Anteil derjenigen Patienten, bei denen sich eine längere Schlafdauer einstellt, ist 0.5 (d.h. eine Schlafverbesserung ist rein zufällig). HA: Der Anteil derjenigen Patienten, bei denen sich eine längere Schlafdauer einstellt, ist größer als 0.5 (d.h. eine Schlafverbesserung ist nicht zufällig). d) H0: Die durchschnittliche Schlafdauer nach Ende der Therapie ist 6 Stunden. HA: Die durchschnittliche Schlafdauer nach Ende der Therapie beträgt weniger als 6 Stunden. 11.2Für vier Datenpaare in zwei intervallskalierten Variablen soll eine Regressionsgerade berechnet werden. Die Daten sind: 1. 2. 3. 4. x 1 1 2 4 y 1 2 5 4 Berechnen Sie: a) Abschnitt auf y-Achse a b) Determinationskoeff. 2.Art Stichp.-Kovarianz c) Steigung b d) Welchen Wert würden Sie für x=2 auf Grund der Gleichung prädizieren ? Originalaufgabe aus der Klausur „Statistik I für Soziologen“, WS 1994/95 11.3 Bei fünf Personen wird untersucht, wie viele Zigaretten sie am Tag rauchen und wieviel Stunden Sport sie in der Woche treiben. Die Ergebnisse: Person 1 2 3 4 5 Zigaretten 0 0 5 10 40 Sport 0 1 1 4 0 a) Erstelle die Regressionsgerade y = a + bx für den Zusammenhang zwischen Zigarettenkonsum und Sport. b) Sind die Regressionskoeffizienten a und b signifikant ? c) Erstelle 95 %-Konfidenzintervalle für a und b. 11.4Für 10 Studenten wird erhoben, wie lange sie pro Tag telefonieren. Folgende Ergebnisse sind feststellbar: Tägliche Telefonierzeit in Minuten Anzahl der Studenten 0 bis 30 5 30 bis 60 4 60 bis 120 1 a) Berechne Mittelwert, Varianz, 3.Quartil und 9.Dezil. b) Behauptet wird nun, dass 50 % aller Studenten pro Tag 0 - 30 Minuten telefonieren, 25 % 30 - 60 Minuten und der Rest 60 bis 120 Minuten. Überprüfe diese Behauptung für die obigen Daten mithilfe eines geeignetes Hypothesentests. Alle Tests sind auf Signfikanzniveau 5 % durchzuführen. Aufgabenblatt 12 1. Untersucht wird, ob Kochkenntnisse einen Einfluss auf Mensaessen haben. kann sehr gut kochen kann zur Not schon kochen kann überhaupt nicht kochen isst in der Mensa 2 6 10 isst nicht in der Mensa 8 4 0 a) b) c) d) Erstelle eine Tabelle mit gemeinsamen Anteilen und Randanteilen. Erstelle eine Tabelle mit zeilenbedingten Anteilen. Erstelle eine Tabelle mit spaltenbedingten Anteilen. Wie sähe die Tabelle der gemeinsamen Anteile aus, wenn zwischen Kochkenntnissen und Mensaessen kein Einfluss bestünde ? (= Tabelle unter Unabhängigkeit) e) Führe einen ²-Test durch. (Stelle speziell fest: ²-Wert ? Anzahl df ? Kritischer Bereich ? Wie lautet bei einem bivariaten ²-Test die Nullhypothese ?) f) Erstelle ein strukturiertes Staffeldiagramm. 2. Bei einer Stichprobe erhielt man folgende Häufigkeitsverteilung für die beiden Merkmale: Geschlecht und Einkommen: Geschlecht Einkommen in DM/Woche 100 200 300 20 30 m 10 20 10 w 30 Teste die Hypothese: Die beiden Merkmale sind unabhängig. a) Testwert = Name des Werts: Freiheitsgrade = b) Kritischer Wert = H0 ablehnen ? Prüfe zusätzlich die Hypothese, daß die Frauen im Durchschnitt gleich viel verdienen wie die Männer. (Alternative: Männer verdienen im Schnitt mehr). (Zusatzbemerkung: Es liegt Homoskedastizität vor.) c) Testwert = Name des Werts: d) Kritischer Wert = H0 ablehnen ? Originalaufgabe aus der Nachklausur „Statistik II für Soziologen“ WS 1989/90 Zwischenergebnisse für die Teilaufgaben c) und d): Männerstichprobe: Mittelwert: 233.33 Standardabweichung: 75.16 n = 60 Frauenstichprobe: Mittelwert: 166.67 Standardabweichung: 75.16 n = 60 3. Der Computerausdruck einer Regressionsanalyse weist folgende Werte aus: Cov(X,Y) = 6, (Var(X)) = 2, (Var(Y)) = 10. Ferner ist bekannt, dass beim t-Test für die Regressionskoeffizienten jeweils 198 Freiheitsgrade festgestellt werden können. a) Wie groß ist n ? b) Berechne die Korrelation. c) Ist diese Korrelation signifikant ? d) Berechne die obere und die untere Grenze eines 95 %-Konfidenzintervalls für die Korrelation. e) Berechne die obere und die untere Grenze eines 99 %-Konfidenzintervalls für die Korrelation. 4. 10 % aller Studenten werden während der gesamten Semesterferien nicht in Konstanz sein, 70 % werden für ein paar Tage oder Wochen nicht in Konstanz sein, und 20 % werden immer in Konstanz sein. a) Berechne die qualitative Varianz. Wie ist sie zu interpretieren ? b) Zeichne ein Netzdiagramm. Wenn nichts anderes angegeben ist, dann verwende bei al