EU Einführung in die Statistik – Übungsblatt 1 1. Bei einem Gedächtnisexperiment werden 40 Probanden 30 Gegenstände vorgelegt, die sie hinterher auswendig niederzuschreiben haben. Die folgende Aufzählung listet auf, an wie viele der Gegenstände sich jeder einzelne Proband erinnert hat: 12 14 15 11 a) b) c) d) e) 20 9 16 14 23 6 12 18 0 22 13 19 14 14 15 20 16 29 17 6 12 1 2 8 10 10 14 10 30 11 22 12 12 22 9 14 Welches Skalenniveau liegt vor (Anzahl erinnerte Gegenstände)? Erstelle die Verteilung (Tabelle). Wie viel Prozent der Probanden haben sich an 20 oder weniger Gegenstände erinnert? Stelle die Verteilung (d.h. die Prozentanteile) in einem Stabdiagramm dar. Stelle die kumulierte Verteilung in einem geeigneten Diagramm dar. Wie heißt dieses Diagramm? 2. Studenten werden nach dem Mensabesuch gefragt, welches Essen sie gewählt haben. 12 Befragte haben Stammessen genommen, 6 Wahlessen, 6 Salat und 3 Eintopf. a) Welches Skalenniveau liegt vor (gewähltes Essen)? b) Erstelle die Verteilung (Tabelle). c) Ist es sinnvoll, in dieser Verteilung kumulierte Anteile auszuweisen? (kurze Begründung) d) Stelle die Verteilung in einem Kreisdiagramm dar. e) Stelle die Verteilung in einem Staffeldiagramm dar. 3. Es wird eine Untersuchung vorgenommen, wie viel Liter alkoholische Getränke pro Woche getrunken werden. Die Daten werden in folgender Tabelle zusammengefasst: 0 bis 1 Liter 1 bis 2 Liter 2 bis 5 Liter 5 bis 10 Liter 10 bis 20 Liter 20 bis 30 Liter 6 Personen 10 Personen 17 Personen 5 Personen 1 Person 1 Person a) Erstelle eine statistisch korrekte Tabelle, die Angaben über die x i , die n i , die Prozentanteile und die kumulierten Anteile enthält. b) Handelt es sich hierbei um stetige oder diskrete Daten? c) Wie groß ist der Anteil der Personen, die 10 Liter und weniger trinken? d) Stelle sowohl die Verteilung (d.h. die Prozentanteile) als auch die kumulierte Verteilung graphisch dar. e) Erläutere (kurz) an einer Deiner Zeichnungen, was unter dem Prinzip der „Flächentreue“ verstanden wird. B B B B Übungsblatt 2 Aufgabe 1 Zur Darstellung von Datenmaterial hat man zunächst viele Möglichkeiten (Stabdiagramm, Stamm-und-Blatt, Kreisdiagramm, Staffeldiagramm, Histogramm, Summenpolygon...) Entscheide von den folgenden Datensätzen, welche Darstellungen sinnvoll sind und führe sie dann aus: A 40% a) Blutgruppen in Europa: 0 40% B 15% AB 5% b) Bei 20 Versuchspersonen wurde die Reaktionszeit in ms gemessen. Hier ist die sortierte Liste: 242, 255, 260, 261, 271, 272, 272, 272, 279, 279, 280, 284, 285, 285, 301, 317, 321, 324, 338, 338 c) Klassenstufe von 250 befragten Jugendlichen: Stufe 8 9 10 11 Anzahl 75 60 65 50 Aufgabe 2 Entnimm dem folgenden Histogramm die Klassenanteile. Zeichne das zugehörige Summenpolygon. f(x) 0,002 0,001 900 1000 1100 1200 1300 1400 1500 900 1000 1100 1200 1300 1400 1500 x = Einkommen in € F(x) x = Einkommen in € Übungsblatt 3 Auch wenn wir im Tutorium am Dienstag noch nicht zum arithmetischen Mittel gekommen sind, versucht doch bitte trotzdem auch die Aufgaben zu lösen, welche eine Berechnung desselben beinhalten. Aufgabe 1. Um das Sozialverhalten von Studenten besser einschätzen zu können, werden 8 Studenten danach befragt, wie viele Personen sie zu ihrer letzten Geburtstagsfeier eingeladen haben. Es wurden folgende Angabe gemacht (ein Wert pro befragtem Student): 10 10 34 16 1 16 0 150 a) b) c) d) e) f) Erstelle die Verteilung (Tabelle) mit allen notwendigen Angaben. Bestimme die Extremwerte (Maximum, Minimum) und den Modalwert. Berechne das arithmetische Mittel. Berechne Median und 2. Terzil Berechne das 3. Quartil und den oberen Hinge. Berechne das 2. Quintil, das 4. Dezil und das 40 Perzentil. Aufgabe 2. Gegeben sei folgende Tabelle: i xi 1 14 2 19 Berechne hierfür: a) Die Extremwerte c) Das 5.Dezil e) Das arithmetische Mittel g) Modalwert 3 15 4 13 5 12 6 14 7 15 8 13 9 20 b) Den Median d) Das 2.,3. und 4.Quintil f) Hinges und Eights Aufgabe 3. Folgende Verspätungen wurden in Konstanz festgestellt: Wartezeit Anzahl 0 bis zu 2 Minuten 20 2 bis zu 8 Minuten 20 8 bis zu 20 Minuten 10 a) Berechne die Dichten b) Berechne kumulierte Anteile c) Berechne Median und 4.Quintil d) Zeiche Histogramm und kumulierte Verteilung Aufgabe 4. Gegeben sind die Urlisten dreier Merkmale. Erstelle jeweils die sortierte Liste, die Häufigkeitsverteilung und die kumulierte Verteilung. a) Anzahl von Geschwistern (diskret, quantitativ): 1; 1; 2; 2; 0; 3; 2; 1; 1; 1; 0; 1; 0; 0; 0; 1; 3; 1; 2; 2; 0; 0; 0; 1; 1 b) Geschlecht (diskret; qualitativ): m; w; w; w; m; w; m; m; m; w; w; m; m; w; w; w; w; m; w; w c) IQs (stetig; quantitativ): 110; 112; 100; 98; 97; 98; 100; 120; 110; 105; 103; 100; 100; 97; 132; 111; 120; 110; 100; 100 10 15 Aufgabe 5. Bestimme für die obigen Merkmale die folgenden Lagemaßzahlen, falls sinnvoll: a) Modalwert b) Median c) 1. und 3. Quartil d) Hinges und Eights e) Arithmetisches Mittel Aufgabe 6. Gegeben ist jeweils eine Dichtefunktion. Erstelle jeweils ein Schaubild der jeweiligen Verteilungsfunktion. Welche Maßzahlen kann man direkt aus dem Schaubild ablesen? Bestimme jeweils Modalwert, Median und arithmetisches Mittel. a) Augenzahlen bei 20 Würfen b) Haarwachstum bei 10 VP f(x) f(x) 0,3 3 0,2 2 0,1 1 0 1 2 3 4 5 6 Augenzahl F(x) 0 0 0,1 0,2 0,3 0,4 0,5 0,6 mm/Woche 0,1 0,2 0,3 0,4 0,5 0,6 mm/Woche F(x) 1 2 3 4 5 6 Augenzahl 0 Übungsblatt 4 Hier ist das nächste Übungsblatt. Ich habe mal ein paar Aufgaben reingesetzt, die noch nicht dran waren, die Formeln stehen aber im Skript. Versucht euch einfach wieder daran. Wird schon schief gehen. Außerdem habe ich – um Zeit im Tutorium zu sparen die Lösungen gleich drangehängt, damit wir nur noch die unklaren Aufgaben zu besprechen haben. Ach ja, bitte denkt noch an Aufgabe 6 vom letzten Übungsblatt. Aufgabe 1 Gegeben sind folgende Studiendauern von Absolventen zweier Studienfächer A und B: A: B: 12, 14, 9, 19, 10, 9, 11 14, 11, 11, 12, 12, 11, 13, 12 a) Gib jeweils die Extremwerte, den Modalwert, den Median und das arithmetische Mittel an. All diese Werte sind Lagemaße. Was lässt sich zusammenfassend über die Lage der beiden Verteilungen A und B im Vergleich sagen? Denkt dabei an den Vergleich Median/Arithm. Mittel, welchen wir durchgesprochen hatten. Berechne für A die Stichproben-Varianz und die Standardabweichung. Berechne für B die Schiefe. b) c) Aufgabe 2 Bei 27 Familien wird die Anzahl der Kinder bestimmt. Folgende Werte ergeben sich: Kinderzahl 0 1 2 3 4 Anzahl Familien 9 7 7 2 2 Berechne die Stichproben-Varianz und die Standardabweichung. Aufgabe 3 Die Tabelle gibt die Altersstruktur zweier verschiedener Vereine an: Alter in Jahren >15-20 >20-25 >25-30 >30-50 Verein 1 4 40 38 18 Verein 2 24 28 26 22 a) b) c) d) Vergleiche die Lage der beiden Altersverteilungen mithilfe des arithmetischen Mittels. Vergleiche die Lage der beiden Altersverteilungen mithilfe des Medians. Vergleiche die Streuung der beiden Altersverteilungen mithilfe der Varianz. Vergleiche die Streuung der beiden Altersverteilungen mithilfe des Quartilsabstandes. LÖSUNGEN Aufgabe 1 a) A: Extremwerte 9, 19; Modalwert 9; Median 11; arith. Mittel 12 B: Extremwerte 11, 14; Modalwert 11, 12; Median 12; arithm. Mittel 12 Die Mittelwerte stimmen überein, das liegt aber v. a. an dem „Ausreißer“ 19 in A. Bei der Berechnung des Median spielt ein solcher Ausreißer keine große Rolle, deshalb äußert sich in dem kleineren Median von A die Tatsache, dass eigentlich die Verteilung A eher links von B liegt. b) Var = 12,67; Std = 3,56 c) Std = 1,07; Schiefe 0 Aufgabe 2 Var=3,27; Std=1,81 Aufgabe 3 a) Mittelwerte 27,35 und 26,45 b) Mediane 25,79 und 24,64 c) Varianzen 42,1 und 64,27 d) Quartilsabstände 6,45 und 9,25 Lage der beiden Verteilungen ungefähr gleich, aber zweiter Verein hat eine viel größere Streuung. Lösung zur Aufgabe 6 des letzten Blattes a) Mode(X)=6 Med(X)=4 Arith. Mittel =3,65 b) mode(X)=2 Med(X)=0,2 Arith. Mittel=0,215 Übungsblatt 5 Viel Spaß bei dem nächsten Blatt. Die Aufgaben 3 und 4 sind übrigens Originalaufgaben aus der Klausur „Statistik I für Soziologen“ WS 1993/94 Aufgabe 1 a) Die xi-Werte einer Verteilung werden um den Wert 2 erhöht. Wie verändert sich - der Median? - das arithmetische Mittel? - die Varianz? - die Entropie? b) Die xi-Werte einer Verteilung werden verdoppelt. Wie verändert sich - der Median? - das arithmetische Mittel? - die Varianz? - die Entropie? Aufgabe 2 Vergleiche die Homogenität des Publikums in drei verschiedenen Vorträgen, welche 3 Maße für die Dispersion kennst du, die hierfür passen würden. Anteil 1 Studis 0,8 MB 0,6 Profs 0,4 0,2 0 Vortrag 1 Vortrag 2 Vortrag 3 Aufgabe 3 Dracula sagt: „Die Verteilung der Länge meiner Zähne ist rechtsschief.“ Die sichtbare Zahnlänge in mm gibt Draculas Dentist wie folgt an: 7,6 7,8 7,7 7.8 7.8 7.9 34,6 10,1 10,2 10,2 10,0 35,5 7,9 7,8 7,7 7,8 7,9 8,1 8,2 31,7 10,0 10,0 10,0 10,1 32,1 8,1 8,1 7,8 a) Zeichne den Boxplot sowie ein Stamm und Blatt Diagramm für die Zahnlänge. b) Berechne die Schiefe. 7,6 7,8 Aufgabe 4 Elf zufällig vorbeikommende Personen werden gefragt, wie viele Weihnachtsgeschenke sie denn schon eingekauft hätten. Die einzelnen Antworten (bereits in sortierter Reihenfolge) sind: 0 1 1 5 5 6 7 7 10 10 52 a) Berechne das 1. Quartil und den unteren Hinge. b) Berechne die Schiefe. Ist die Verteilung rechtsschief, linksschief oder symmetrisch? c) Berechne die Entropie. d) Zeichne den Boxplot. e) Berechne das arithmetische, das getrimmte und das winsorisierte (q=0,2) Mittel f) Berechne den mqa 7,6 7,7 LÖSUNGEN Aufgabe 1 a) Median +2, Arithm. Mittel +2, Varianz bleibt, ebenso die Entropie b) Median *2, Arithm. Mittel *2, Varianz *2² = *4, Entropie bleibt gleich Aufgabe 2 3 Möglichkeiten: Modaldispersion, qualitative Varianz oder Entropie. Homogenes Publikum heißt starke Konzentration auf eine Gruppe (z. B. fast lauter Studis), also geringe Dispersion Modaldispersionen: 0,15 bzw. 0,3 bzw. 0,55 Qual. Varianzen: 0,265 bzw. 0,46 bzw. 0,615 Entropien: in Nits:0,518 bzw. 0,802 bzw. 1,010; in Bits: 0,748, bzw. 1,157, bzw. 1,458 Bei Verein 1 sind alle Dispersionsmaße am kleinsten, das ist also das homogenste Publikum. Aufgabe 3 e) BoxPlot: Median: 8,0; oberer Hinge: 10,05; unterer Hinge: 7,8; oberer innerer Zaun: 13,425; oberer äußerer Zaun: 16,8; unterer innerer Zaun: 4,425; unterer äußerer Zaun: 1,05. Hingeabstand: 2,25; Whiskers: 7,6 und 10,2; Extrempunkte: die 4 Werte > 30 Stem and Leaf: a. 6667778888888999 b. 1112 c. – d. 00001122 … 31 7 32 1 33 – 34 6 35 5 f) Schiefe: (11,6 – 8)/8,476 = 0,425 rechtsschief Aufgabe 4 a) 1. Quartil: 1; unterer Hinge: 3 b) Schiefe: (9,45 – 6)/14,51 = 0,238 rechtsschief c) Entropie in Bits: 2,7322; in Nits: 1,8938 d) BoxPlot: Median: 6,0; oberer Hinge: 8,5; unterer Hinge: 3; oberer innerer Zaun: 16,75; oberer äußerer Zaun: 25; unterer innerer Zaun: -5,25; unterer äußerer Zaun: -13,5. Hingeabstand: 5,5; Whiskers: 0 und 10; Extrempunkt: 52 e) [z] = 2; getrimmtes Mittel: 5,86; winsorisiertes Mittel: 5,73 f) mqa: 421,345 Diese Angaben sind wie immer ohne Gewähr, aber nach bestem Wissen und Gewissen 2mal nachgerechnet! c) Übungsblatt 6 Diesmal sind einige Aufgaben dabei, die wir noch nicht im Tutorium besprochen haben. Sie kamen jedoch in der Vorlesung bereits dran, daher dürften sie keine allzu großen Probleme darstellen. Aufgabe 1 In einer Urne befinden sich 5 Kugeln, die mit den Zahlen 1..5 nummeriert sind. Wie groß ist die Wahrscheinlichkeit, a) dass unter drei mit einem Griff gezogenen Kugeln sowohl die 1 als auch die 2 dabei sind? b) dass bei dreimaligem Ziehen mit Zurücklegen die erste Kugel 1 und die zweite auch 1 ist? c) dass bei dreimaligem Ziehen mit Zurücklegen keine 1 dabei ist? d) dass bei dreimaligem Ziehen ohne Zurücklegen die erste Kugel 2 und die zweite 1 ist? e) dass bei dreimaligem Ziehen ohne Zurücklegen weder die 2 noch die 3 dabei ist? Aufgabe 2 Wie viele Möglichkeiten gibt es, a) fünfmal eine Münze zu werfen (und das Ergebnis in der Form ZKKZK zu notieren)? b) 7 Bücher nebeneinander ins Regal zu stellen? c) aus 12 Äpfeln drei auszuwählen? d) von 100 Teilnehmern eines Wettbewerbs die Medaillenränge zu besetzen? e) aus 20 Bewerbern 4 verschiedene Stellen zu besetzen? Aufgabe 3 Eine Münze wird dreimal hintereinander geworfen. Kopf sei mit 1 codiert, Zahl mit 0. a) Erstelle die Verteilung (Dichtefunktion und kumulierte Verteilungsfunktion) von Mittelwertstatistik der drei Würfe. b) Berechne Erwartungswert und Standardabweichung von X , der X. Aufgabe 4 Ein Glücksrad bleibt in 10% der Fälle auf der 0 stehen, in 50% der Fälle auf der 1 und in 40% der Fälle auf der 2. Die Zufallsvariable X steht für die Zahl, auf der das Glücksrad stehen bleibt. a) Gib die Dichtefunktion und die Verteilungsfunktion für die Zufallsvariable X an. b) Berechne Erwartungswert und Varianz für X. Nun wird das Rad dreimal hintereinander gedreht. Als Zufallsvariable X dient nun der Mittelwert der drei Zahlen. c) Gib die Dichtefunktion und die Verteilungsfunktion für die Zufallsvariable X 0 1 2 an. d) Berechne den Erwartungswert für die Zufallsvariable dieser Erwartungswert? X . Was bedeutet e) Berechne die Varianz für die Zufallsvariable X . Was bedeutet diese Varianz? f) Welcher Erwartungswert und welche Varianz hätte die Mittelwertstatistik, wenn anstatt dreimal nun 20mal gedreht würde? Aufgabe 5 Der Gaststättenverband möchte die Ausgehfreudigkeit seiner Klientel vor und nach der Einführung des Euro vergleichen. Dazu wurden 200 Personen befragt, wie oft sie zur Zeit pro Woche abends ausgehen und wie oft sie vor der Euro-Einführung pro Woche abends ausgingen: Häufigkeit des Ausgehens: Anteil zur Zeit: Anteil vor dem Euro 0 0,1 0 1 0,2 0,3 2 0,3 0,3 3 0,2 0,2 4 0,1 0,1 5 0,05 0,1 6 0 0 7 0,05 0 a) Berechne jeweils die Standardabweichung. b) Angenommen, aus diesen 200 Personen werden sehr viele Stichproben der Größe n=20 genommen und jeweils der Mittelwert der Ausgehhäufigkeit berechnet. Welche Standardabweichung hätte diese Verteilung? LÖSUNGEN Aufgabe 1 a) Entspricht Ziehen ohne Zurücklegen mit beliebiger Reihenfolge der Ereignisses (1, 2, X), da X noch den Wert 3, 4 und 5 annehmen kann, müssen wir also die Einzelwahrscheinlichkeit mal 3 nehmen: (Kehrwert von 5 über 3) * 3, also 0,3 b) 0,2², also 0,04 c) 0,8³, also 0,512 d) 0,2 * 0,25, also 0,05 e) Reihenfolge spielt keine Rolle, einzig mögliches Ereignis: (1, 4, 5). Dessen Wahrscheinlichkeit ist 1 / 5 über 3, also 0,1 Alle diese Aufgaben sind natürlich noch auf andere Art und Weise zu lösen, z.B. per Baumdiagramm. Aufgabe 2 a) 2 hoch 5, also 32 b) 7!, also 5040 c) 12 über 3, also 220 d) 100*99*98, also 970200 e) 20*19*18*17, also 116280 Aufgabe 3 Ausgang 0,0,0 0,0,1 0,1,0 0,1,1 1,0,1 1,1,1 x quer 0,000 0,333 0,333 0,667 0,667 1,000 xi p(Xquer=xi) Kum. Vert. xi*p(Xquer=xi) xi^2*p(Xquer=xi) 0,000 0,167 0,167 0,000 0,000 0,333 0,500 0,333 0,111 0,037 0,667 0,833 0,333 0,222 0,148 1,000 1,000 0,167 0,167 0,167 1,000 0,500 0,352 = Summe = E (x quer) b) E(x quer) = 0,5; Var (x quer) = 0,102, Std (x quer) = 0,319 Aufgabe 4 a) xi p(X=xi) p(X<=xi) 0 0,1 0,1 1 0,5 0,6 2 0,4 1 b) E(X)=1,3 Var(X)= 0,41 (Achtung, es handelt sich um die Population, also wird auch die Populationsvarianz benötigt) c) und d) Ausgang p(Ausgang) x quer xi 0,0,0 0,001 0,000 0,000 0,001 0,000 0,000 0,0,1 0,005 0,333 0,333 0,015 0,005 0,002 0,0,2 0,004 0,667 0,667 0,087 0,058 0,039 0,1,0 0,005 0,333 1,000 0,245 0,245 0,245 0,1,1 0,025 0,667 1,333 0,348 0,464 0,619 0,1,2 0,020 1,000 1,667 0,240 0,400 0,667 0,2,0 0,004 0,667 2,000 0,064 0,128 0,256 0,2,1 0,020 1,000 0,2,2 0,016 1,333 1,0,0 0,005 0,333 1,0,1 0,025 0,667 1,0,2 0,020 1,000 1,1,0 0,025 0,667 1,1,1 0,125 1,000 1,1,2 0,100 1,333 1,2,0 0,020 1,000 1,2,1 0,100 1,333 1,2,2 0,080 1,667 2,0,0 0,004 0,667 2,0,1 0,020 1,000 2,0,2 0,016 1,333 2,1,0 0,020 1,000 2,1,1 0,100 1,333 2,1,2 0,080 1,667 2,2,0 0,016 1,333 2,2,1 0,080 1,667 2,2,2 0,064 2,000 p(Xquer=xi) xi*p(Xquer=xi) xi^2*p(Xquer=xi) 1,000 = Summe 1,300 = E(Xquer) 1,828 = E (Xquer²) 1,000 = Summe e) Var (X) = E (x quer²) - E (x quer)² = 1,828 - 1,3² = 0,137 (entspricht Var (X)/n = 0,41/3) f) E(X20)=1,3, Var(X20)=0,41/20= 0,021 Aufgabe 5 a) Mittelwert jeweils 2,4; sn-1=1,698 bzw 1,314 b) Std(x20)=0,380 zw, 0,294 Diese Angaben sind wie immer ohne Gewähr, aber nach bestem Wissen und Gewissen 2mal nachgerechnet! Übungsblatt 7 Sodelle, diesmal sind’s 6 Aufgaben, aber die dürften euch dennoch nicht überfordern. Nur bei Aufgabe 5 gibt’s was zum Knabbern. Aufgabe 1 Gegeben sei eine Urne mit 3 Kugeln (a, b, c). Auf a und b steht die Zahl 1, auf der c-Kugel eine 0. Die Zahlen auf den Kugeln sind die Werte der x-Variablen. Berechnen Sie für die x-Variable der Grundgesamtheit a) die Verteilung (Werte und Anteile). b) arithmetisches Mittel und Varianz. Sie ziehen zufällig eine Stichprobe (MIT Zurücklegen) der Größe 2 (n=2). Berechnen Sie für die Zufallsvariable des arithmetischen Mittels: c) die Verteilung (Werte und Wahrscheinlichkeiten): d) den Erwartungswert und die Varianz Originalaufgabe aus der Klausur „Einführung in die Statistik“ WS 00/01 Aufgabe 2 Gegeben sei ein Würfel mit 4 Seiten (analog zum Beispiel im Skript) a) Erstelle die Verteilung; berechne Erwartungswert und Varianz von X. Man würfle mit diesem Würfel 2 Mal und berechne darüber die durchschnittliche Augenzahl. b) Erstelle die Verteilung. Berechne Erwartungswert und Varianz über den Durchschnitt. c) Wie groß ist die Wahrscheinlichkeit, bei 2 mal Werfen mit diesem Würfel die gleiche Augenzahl zu erhalten? Aufgabe 3 Eine Urne enthält 4 Kugeln. Auf einer Kugel steht eine 3 und auf den anderen Kugeln steht je eine 0. a) Gib die Wahrscheinlichkeitsverteilung an. b) Berechne Erwartungswert und Varianz der Verteilung. c) Nun wird aus der Urne dreimal mit Zurücklegen gezogen. Bei jedem Zug wird der Mittelwert der drei gezogenen Zahlen berechnet. Gib die Wahrscheinlichkeitsverteilung dieser Mittelwerte an. d) Berechne Erwartungswert und Varianz der Mittelwerte. e) Von den jeweils drei gezogenen Zahlen wird nun auch noch die Stichprobenvarianz berechnet. Welchen Erwartungswert hat diese Stichprobenvarianz? f) Nun wird aus der Urne 20mal mit Zurücklegen gezogen und jeweils der Mittelwert der 20 gezogenen Zahlen berechnet. Berechne den Erwartungswert der Mittelwerte. Berechne die Varianz der Mittelwerte. Berechne den Erwartungswert der Stichprobenvarianzen. Aufgabe 4 Die Lebensfreude wird auf einer Intervallskala gemessen. In der Population (zum Beispiel alle Studenten) sind die Lebensfreude-Werte (LF) folgendermaßen verteilt: LF Anteil 3 0,4 8 0,5 9 0,1 Stichproben der Größe n=25 werden zufällig gezogen. Berechne Erwartungswert und Varianz der Mittelwerte dieser Stichproben. Berechne den Erwartungswert der StichprobenVarianzen. b) Welcher der in a) berechneten Werte ändert sich, wenn die Stichprobengröße steigt? c) Was sagt der zentrale Grenzwertsatz in dieser Situation aus? a) Aufgabe 5 15% der Europäer haben negativen Rhesus-Faktor (nehmen wir mal an). a) Man wählt 10 Europäer. Wie groß ist die Wahrscheinlichkeit, dass keiner von ihnen negativen Rhesusfaktor hat? b) Man wählt zufällig 23 Personen. Mit welcher W’t haben genau 2 davon negativen RhesusFaktor? c) Man wählt 10 Personen. Mit welcher W’t haben mindestens 2 davon negativen RhesusFaktor? d) Man wählt zufällig 20 Personen. Bestimme Erwartungswert und Varianz der Zufallsvariablen „Anteil Personen mit negativem Rhesus-Faktor in der Stichprobe“ e) Man wählt zufällig 20 Personen. Bestimme Erwartungswert und Varianz der Zufallsvariablen „Anzahl Personen mit negativem Rhesus-Faktor in der Stichprobe“ Aufgabe 6 Das Gewicht von Hühnereiern in Gramm sei normalverteilt mit μ = 56 und δ = 8. Die Eier werden in Sechserpackungen verkauft. Ein besonders eifriger Verbraucherschützer (beVS) kontrolliert das Gewicht der Eier. a) Wie groß ist der Mittelwert über alle Sixpack-Mittelwerte? b) Wie groß ist die Varianz der Sixpack-Mittelwerte? c) d) Der beVS berechnet für jeden Sixpack einzeln die Varianz sn21 . Wie groß ist der Mittelwert über all diese Varianzen? Was ändert sich, wenn statt der Sixpacks 30er-Kartons kontrolliert werden? LÖSUNGEN Aufgabe 1 a) xi p(X=xi) 0 1/3 1 2/3 b) Arithm. Mittel = 2/3; Var (X) = 2/9 c) xi p(X=xi) 0 0,1111 1 0,4444 2 0,4444 d) E (Xquer) = 4/3; Var (Xquer) = 4/9 ( = 20/9 – 16/9) Aufgabe 2 a) xi p(X=xi) 1 0,25 2 0,25 3 0,25 4 0,25 E(X) = 2,5; Var (X) = 1,25 b) xi p(X=xi) 1 1/16 1,5 1/8 2 3/16 2,5 ¼ 3 3/16 3,5 1/8 4 1/16 E(Xquer) = 2,5; Var (Xquer) = 0,625 c) 16 mögl. Fälle, 4 günstige, also W’t = 0,25 Aufgabe 3 a) xi b) c) p(X=xi) 3 ¼ 0 ¾ E(X)=3/4 Var(X)=27/16 xi p(Xquer =xi) 0 27/64 1 27/64 2 9/64 3 1/64 d) e) f) E(Xquer)=3/4 Var(Xquer)=9/16 E(s n-1 2)=27/16 E(Xquer)=3/4, Var(Xquer)=27/320, E(s n-1 2)=27/16 Aufgabe 4 a) Erst für die Population: E(X)=6,1 Var(X)=6,49 Jetzt für die Stichproben: E(Xquer)=6,1 Var(Xquer)=0,26 E(s n-1 2)=6,49 b) Nur Var(Xquer) c) Die Stichprobenmittelwerte sind mit wachsendem n immer besser normalverteilt mit μ =6,1 und δ 2 = 6,49/n, d.h. die Streuung der Mittelwerte wird immer geringer und geht gegen 0 für n gegen unendlich. Aufgabe 5 a) W’t = 0,85 hoch 10 = 0,1968744 b) W’t = 23 über 2 * 0,15² * 0,85^21 = 0,18754284 c) W’t = 1 – (0,15 * 0,85^9 * 10 + ,85^10) = 0,45570018 d) E=0,15; var=0,15*0,85/20=0,006375 e) E=0,15*20=3; var = 0,15*0,85*20= 2,55 Aufgabe 6 c) Mittelwert immer 56 d) Varianz bei n = 6: 64/6 = 10,67 e) E (Var) = 64 f) Nur die Varianz der Mittelwerte: 64/30 Diese Angaben sind wie immer ohne Gewähr, aber nach bestem Wissen und Gewissen 2mal nachgerechnet! Und hier noch die korrigierten Lösungen zur Aufgabe 3 des letzten Übungsblattes Ausgang 0,0,0 0,0,1 0,1,0 0,1,1 1,0,0 1,0,1 1,1,0 1,1,1 x quer 0,000 0,333 0,333 0,667 0,333 0,667 0,667 1,000 xi p(Xquer=xi) Kum. Vert. xi*p(Xquer=xi) xi^2*p(Xquer=xi) 0,000 0,125 0,125 0,000 0,000 0,333 0,500 0,375 0,125 0,042 0,667 0,875 0,375 0,250 0,167 1,000 1,000 0,125 0,125 0,125 1,000 0,500 0,333 = Summe = E (x quer) b) E(x quer) = 0,5; Var (x quer) = 0,083, Std (x quer) = 0,289 Übungsblatt 8 Bitte dran denken. Nächste Woche findet das Tutorium schon um 12:00 Uhr statt. Dies ist das letzte Übungsblatt vor Weihnachten. Das nächste wird kurz nach den Feiertagen im Netz stehen, sodass ihr genügend Zeit habt, es durchzurechnen. Aufgabe 1 Das Merkmal Körpergröße sei normalverteilt mit μ = 172 und δ = 6,5 (also NV(172;6,5 2). f) Wie groß ist der Anteil derer, die unter 180 groß sind? g) Wie groß ist der Anteil derer, die über 190 groß sind? h) Wie groß ist der Anteil derer, die vom Mittelwert höchstens um 10 cm abweichen? i) Wie groß ist der Anteil derer, die zwischen 170 und 180 groß sind? j) – k) Wie groß muss jemand sein, damit nur 5% aller anderen größer sind als er? l) Nun werden Stichproben der Größe n=25 gezogen und jeweils der Mittelwert gebildet. Wie groß ist die W’t, dass so ein Mittelwert unter 180 liegt? Aufgabe 2 Die Frauen werden in einem Land durchschnittlich 76 Jahre alt, die Männer 70. Das Alter sei normalverteilt (Standardabweichung = 15). a) Wie viel Prozent der Frauen werden älter als 95% der Männer? b) Man ziehe nun „unendlich“ viele Zufallsstichproben von jeweils 9 Männern und ebenso „unendlich“ viele Zufallsstichproben von jeweils 9 Frauen. Wie viel Prozent der Frauenstichproben-Mittelwerte sind größer als 95% der Männerstichproben-Mittelwerte? Originalaufgabe aus der Klausur „Statistik II für Soziologen“, SS 1999 Aufgabe 3 Gegeben sei eine Binomialverteilung mit n=10 und p=0,5. a) Zeichne mithilfe der Tabellen (Tabellenanhang A) ein Stabdiagramm für die Variable „Anzahl der Treffer“. b) Berechne den Erwartungswert und die Varianz für „Anzahl der Treffer“. c) Skizziere mithilfe der Ergebnisse von Teilaufgabe b) eine Normalverteilungs-Approximation für „Anzahl der Treffer“. d) Ab welchem Wert liegen die 5% niedrigsten Trefferzahlen (Lösung mithilfe der Normalverteilung)? Aufgabe 4 Ein Fragebogen zum Thema depressive Verstimmung im Herbst führt bei jedem Befragten zu einer Maßzahl zwischen 0 und 3. Aus theoretischen Überlegungen heraus lässt sich vorhersagen, dass die Verteilung in der Population folgendermaßen aussieht: Maßzahl Anteil 0 0,2 1 0,5 2 0,2 3 0,1 Es werden Gruppen von jeweils 50 Personen untersucht: die 50 Maßzahlen werden gemittelt. f) Was besagt der zentrale Grenzwertsatz in dieser Situation? g) Berechne Erwartungswert und Standardabweichung der Stichprobenmittelwerte. h) Mit welcher W’t ist ein Stichprobenmittelwert kleiner oder gleich 1? LÖSUNGEN Aufgabe 1 a) Z=1,23; Phi(z)=0,8907 = p b) Z=2,77: Phi(z)=0,9972; p=1-0,9972=0,0028 c) Z = 1,54; D(z)=0,8764 =p d) z(170)= - 0,31, Phi(z)=0,3783, z(180)=1,23, phi(z)=0,8907, p=0,8907-0,3783=0,5124 e) Z=1, D(Z)=0,6827 f) Phi(z)=0,95; z=1,645, x=182,7 g) Z=6,15, phi(z)=1 Aufgabe 2 a) Männer: Phi(z)=0,95; z=1,645, x=94,675, dann Frauen: Z = 1,245 : Phi(z)= 0,8944, p=1-0,8944=0,1056 b) Männer: Phi(z)=0,95; z=1,645, x=78,225, dann Frauen: Z = 0,445: Phi(z)= 0,6736, p=1-0,6736=0,3264 Aufgabe 3 a) Binomialverteilung B(10;0,5) 0,3 0,25 0,2 0,15 0,1 0,05 0 Anzahl Erfolge b) Erwartungswert = n*p = 10*0,5 = 5;; Varianz der Anzahl = n*p* (1-p) = 0,25 * 10 = 2,5 c) Entspricht NV(5; 2,5) d) Liegen über NV berechnet bei < 2,4 Erfolge. (Z = -1,645) Aufgabe 4 a) Die Stichprobenmittelwerte sind annähernd normalverteilt mit Mittelwert 1,2 (wie in der Population) und Varianz 0,76/50=0,0152 i) E(Xquer)=1,2; Std(xquer)=0,123 j) Approximation über NV: Z=1,62, phi(z)=0,9474=p Übungsblatt 9 Wie versprochen gibt es hiermit einen ganzen Haufen Übungen zu den Themengebieten Normalverteilung, Konfidenzintervalle und Wahrscheinlichkeiten. Zu letzterem sind wir im letzten Tutorium leider nicht mehr gekommen. Daher schaut ihr euch dazu am besten nochmals die Präsentation von Herrn Nagl an, die im Internet steht. Auch wenn sie ziemlich unübersichtlich erscheinen sollte, so wird euch sicher viel anhand der Aufgaben 7 bis 9 klar. Ansonsten können wir es gerne auch noch mal in der nächsten Stunde ansprechen. Viel Spaß beim Rechnen und einen guten Rutsch. Aufgabe 1 Es wurde eine neuer Angst-Fragebogen entwickelt, der nach der Auswertung einen Zahlenwert zwischen 0 und 5 liefert. Nun soll der Mittelwert µ dieses Angst-Werts in der Population geschätzt werden. Es werden zwei verschiedene Schätzer für µ verwendet: 1. Es werden Zehnerstichproben genommen und dann der Mittelwert der ersten fünf Angstwerte X X2 X3 X 4 X5 als Schätzer genommen. Also: ˆ 1 5 2. Es werden Zweierstichproben genommen und dann folgender gewichtete Mittelwert als 2X1 X 2 Schätzer genommen: ˆ 3 a) Sind die Schätzer erwartungstreu? b) Welcher der beiden Schätzer ist effizienter? c) Sind die Schätzer konsistent? Aufgabe 2 a) Die durchschnittliche Anzahl an Kopien, die Studenten in diesem Semester bis dato gemacht haben sei normalverteilt. Aus Vorgängeruntersuchungen weiß man, dass in der Population σ= 10 ist. Um ein Konfidenzintervall für zu bestimmen, werde bei 16 Personen die Anzahl an bisher angefertigten Kopien erhoben: Es lässt sich ein Durchschnittswert von 200 feststellen. Erstelle das 95%Konfidenzintervall für den Mittelwert. b) Diesmal ist σ nicht bekannt, sondern es wird in der Stichprobe die Stichprobenstandardabweichung sn-1 berechnet. Diese ergibt nun einen Wert von 10. Gib das 95% Konfidenzintervall für an. c) Warum ist das Konfidenzintervall für Teilaufgabe b größer als bei Teilaufgabe a, wenn doch das in a) verwendete σ gleich groß ist wie sn-1 aus b? d) Die Untersuchung wird auf 100 Personen ausgedehnt. Sie werden befragt, wie groß ihrer Meinung nach der Anteil an kaputten Kopierern ist. Im Durchschnitt über die 100 Befragten stellt sich heraus, dass in dieser Stichprobe ein durchschnittlicher Anteil von kaputten Kopierern von 0,2 festgestellt werden kann. Die SP-Standardabweichung des Anteils beträgt 0,15. Approximiere mithilfe der Normalverteilung ein 95% Konfidenzintervall für den Anteil an kaputten Kopierern. e) Nun sei die Standardabweichung nicht bekannt, sondern wird grob geschätzt durch die entsprechende Stichprobenstandardabweichung. Approximiere mithilfe der Normalverteilung ein 95% Konfidenzintervall für den Anteil an kaputten Kopierern. f) In Teilaufgabe d) und e) wurde die Binomialverteilung mit der Normalverteilung approximiert. Welche Voraussetzung muss n dafür erfüllen? Aufgabe 3 Der IQ von Studenten ist normalverteilt mit δ=15 und µ=110. 10 Studenten unterziehen sich einem IQTest. 1. Mit welcher Wahrscheinlichkeit liegt der Stichprobenmittelwert zwischen 105 und 115? 2. Gib das 95%-Konfidenzintervall des Stichprobenmittelwerts an. Was bedeutet dieses Konfidenzintervall? Aufgabe 4 Das für Weihnachtsgeschenke ausgegebene Geld pro Person ist in der Population annähernd normalverteilt mit einer Varianz von 1600 €2. Bei einer Gruppe von 50 Befragten ergibt sich ein mittleres Weihnachtsgeschenke-Budget von 130€. Mit welcher Wahrscheinlichkeit kann man sagen, dass in der Population der Mittelwert zwischen 120 und 140 € liegt? Aufgabe 5 In einer Klinik wird anhand der Krankenakten von 200 Personen die Dauer eines bestimmten Heilungsprozesses untersucht: Dauer (in Tagen) 3 4 5 6 Anzahl Patienten 50 100 20 30 Gib ein 90%-Konfidenzintervall für die mittlere Dauer des Heilungsprozesses an. Aufgabe 6 Die Anzahl der pro Jahr von Uniangehörigen angefertigten Kopien sei normalverteilt. Es sei bekannt, dass die Std in der Population 1000 ist. Um den Mittelwert in der Population zu schätzen, wird eine Stichprobe gezogen. Wie groß sollte die Stichprobe sein, damit das 95%-KI die Breite 100 hat? Aufgabe 7 Eine Lostrommel enthält 20 Lose, davon sind 16 Nieten. Man zieht (ohne Zurücklegen) 2 Lose. a) Zeichne einen Baum. b) Fülle die Tabelle der bedingten Wahrscheinlichkeiten aus: 2. Zug Niete 2. Zug Gewinn Rand 1. Zug Niete 1. Zug Gewinn c) Was bedeuten die bedingten Wahrscheinlichkeiten? d) Was bedeuten die Randwahrscheinlichkeiten? Wie sind sie zu berechnen? Wo sind sie im Baum zu finden? e) Fülle die Tabelle der gemeinsamen Wahrscheinlichkeiten aus: 2. Zug Niete 2. Zug Gewinn Summe 1. Zug Niete 1. Zug Gewinn Summe f) Wo sind hier die Randwahrscheinlichkeiten? g) Wie erkennt man, ob der erste und der zweite Zug stochastisch unabhängig sind? Aufgabe 8 Eine Lostrommel enthält 20 Lose, davon sind 16 Nieten. Man zieht (ohne Zurücklegen) 4 Lose. a. Zeichne einen Baum mit allen bedingten Wahrscheinlichkeiten. b. Berechne die Randwahrscheinlichkeit p(im zweiten Zug eine Niete). c. Berechne die Randwahrscheinlichkeit p(im letzten Zug ein Gewinn). d. Berechne die bedingte Wahrscheinlichkeit p(im letzten Zug Gewinn|im ersten Niete, im zweiten Niete, im dritten Niete) e. Berechne die Gemeinsame Wahrscheinlichkeit p(im ersten Zug Niete, im zweiten Niete, im dritten Niete, im vierten Gewinn) f. Die vier Züge sind nicht stochastisch unabhängig. Wie kann man das erkennen? Aufgabe 9 Die folgende Tabelle gibt die gemeinsamen Wahrscheinlichkeit für Geschlecht und Schizophrenie unter Hochschulangehörigen an. Berechne daraus die bedingten Wahrscheinlichkeiten: p(S|M), p(S|W), p(M|S), p(M|nS) : männlich M weiblich W Summe schizophren S 0,02 0,003 nicht schizophren nS 0,68 0,297 Summe Sind Geschlecht und Schizophrenie unabhängig? LÖSUNGEN Aufgabe 1 a) Ja, bei beiden gilt: E ( Θ ) = θ b) Der erste ist effizienter, da er die geringere Varianz aufweist. 3. Der erste ist konsistent, der zweite nicht aufgrund der Gewichtung. Aufgabe 2 a) u = 195,1; o = 204,9 b) u = 194,675; o = 205,325 c) Weil bei b) aufgrund der unbekannten Populationsvarianz die Student-t- Verteilung mit df= 15 verwendet werden muss. Also t = 2,13 statt z = 1,96. d) u = -0,94 und o = 0,494 e) u = 0,1212 und o = 0,2788 f) n > 100 und Aufgabe 3 a) Z= 1,054; D(z)=0,7063=p b) u=100,7; o=119,3 bedeutet: die Wahrscheinlichkeit, dass ein zufälliger Stichprobenmittelwert zwischen 100,7 und 119,3 liegt, beträgt 95%. Achtung! Nicht verwechseln mit dem Konfidenzintervall von µ! In dem Fall gilt die Wahrscheinlichkeitsaussage nämlich nicht! Aufgabe 4 Xquer =130, z=1,768, D(z)=0,9233=p Aufgabe 5 Stichprobenmittelwert xquer=4,15, Stichprobenvarianz=0,932, Konfidenzzahl (t-Verteilung mit df= 199) =1,65 u= 4,037 o=4,263, Achtung: Nicht vergessen den Standardfehler der Stichprobe zu berechnen Aufgabe 6 Zwischenschritt: (1000 /√ n ) * 1,96 = 50 ; n = 1537 Aufgabe 7 b) Fülle die Tabelle der bedingten Wahrscheinlichkeiten aus: 2. Zug Niete 2. Zug Rand Gewinn 1. Zug Niete 15/19 4/19 0,8 1. Zug 16/19 3/19 0,2 Gewinn c) „Wie groß ist die Wahrscheinlichkeit für x2=0, wenn man davon ausgeht, dass x1=0“… 4. Wahrscheinlichkeit für ein Teilereignis, z. B. x1=0, wobei der andere Zug (hier der zweite) gar nicht interessieren. 5. Fülle die Tabelle der gemeinsamen Wahrscheinlichkeiten aus: 2. Zug Niete 2. Zug Summe Gewinn 1. Zug Niete 0,8*15/19 0,8*4/19 0,8 1. Zug Gewinn 0,2*16/19 0,2*3/19 0,2 Summe 0,8 0,2 1 6. Summe der entsprechenden gemeinsamen Wahrscheinlichkeiten 7. Wenn sich die bedingte Wahrscheinlichkeit je nach Bedingung ändert, hier z. B.: p(x2=0|x1=0) ist verschieden von p(x2=0|x1=1) (Der Ausgang des ersten Zugs beeinflusst die Wahrscheinlichkeiten im zweiten Zug) Aufgabe 8 b) 0,8 c) 0,2 d) 4/17 (direkt am Baum abzulesen) e) 16/20*15/19*14/18*4/17 = 0,116 (den Pfad multiplizieren) f) Siehe Aufgabe 7 g) Aufgabe 9 männlich M weiblich W Summe schizophren S 0,02 0,003 0,023 nicht schizophren nS 0,68 0,297 0,977 Summe 0,7 0,3 1 Sind Geschlecht und Schizophrenie unabhängig? Nein, weil die Wahrscheinlichkeit für S verschieden ist für w und für m. p(S|M) =0,0286 (= p(M und S) / (p(M und S) + p(M und nS))) p(S|W) =0,01 p(M|S) = 0,870 p(M|nS) =0,696 Alle Angaben wie immer ohne Gewähr!!! Übungsblatt 10 Hypothesentests und Bootstrap. Leider reichte am Dienstag die Zeit nicht mehr für das komplette Kapitel Hypothesentesten. Im Endeffekt wird der kritische Bereich gleich wie die Grenzen eines Konfidenzintervalles gebildet. Man muss eben nur beachten den richtigen z-Wert einzusetzen. Ansonsten gilt auch: Für σ bekannt NV, sonst Student-t. Aufgabe 1 Die Tabelle gibt die Einschlafdauer in Minuten von 25 depressiven Patienten an: Einschlafdauer 0-30 30-60 60-90 90-120 Anzahl 2 9 4 10 Es soll getestet werden, ob Depressive eine höhere Einschlafdauer haben als andere Menschen, die normalerweise 20 Minuten brauchen. Das Signifikanzniveau wird auf 1% festgelegt. a) Wie lauten die Null- und die Alternativhypothese? b) Nenne die Teststatistik. c) Wie ist die Teststatistik verteilt? d) Bestimme den kritischen Bereich. e) Wird die Nullhypothese abgelehnt? f) Führe den Test nun auch zweiseitig durch. Welche inhaltliche Aussage wird damit getestet? Aufgabe 2 Die Körpergewicht von Erwachsenen ist normalverteilt mit σ = 5kg. Skandinavier wiegen im Mittel 70 kg. Nun werden 20 Amerikaner vermessen. Es ergibt sich ein Stichprobenmittelwert von 72 kg. Kann mögliche Teststatistiken gibt es für diesen Hypothesentest? Aufgabe 3 Nach Angaben eines Autohändlers soll der Benzinverbrauch eines bestimmten Modells unter 4 Litern pro 100 km liegen. Bei 25 Testfahrten wurde ein Mittelwert von 3,8 Litern bei einer Standardabweichung von 0,4 Litern ermittelt. Lässt sich die Behauptung des Herstellers mit Signifikanzniveau 5% aufrecht erhalten? Aufgabe 4 X sei eine dichotome Variable. Bei einer Zehnerstichprobe wird fünfmal 0 und fünfmal 1 gemessen. Um Bootstrap-Intervalle zu bestimmen werden nun aus dieser Stichprobe nun 20 Zehnerstichproben (mit Zurücklegen) gezogen. Bei jeder dieser 20 Stichproben wird der Anteil Einsen bestimmt. Die folgenden Werte ergeben sich: 0,5; 0,3; 0,7; 0,5; 0,5; 0,8; 0,4; 0,2; 0,6; 0,7; 0,7; 0,1; 0,4; 0,5; 0,5; 0,8; 0,8; 0,6; 0,4; 0,5 Besimme das 80%-Bootstrap-Intervall für den Mittelwert von X. Aufgabe 4 Bestimme für alle der folgenden Testangaben den kritischen Bereich. (Die Verteilungen seien normalverteilt.) a) Ho:=100; Ha:=98 ; σx=10 ; n=16 b) Ho:=100; Ha:=98 ; σx=10 ; n=16 für 1%Signifikanzniveau c) Ho:=100; Ha:=90 ; σx=10 ; n=16 d) Ho:=0; Ha:=-0,1 ; σx=0,5 ; n=25 e) Ho:=10; Ha:=5 ; σx=1 ; n=2 f) Ho:=100; Ha:=102 ; σx=10 ; n=16 g) Ho:=20; Ha:=22 ; σx=2 ; n=4 h) Ho:=9; Ha:=12 ; σx=0,1 ; n=100 i) Ho:=100; Ha:>100 ; σx=16 ; n=100 j) Ho:=100; Ha:≠100 ; σx=8 ; n=20 k) Ho:=100; Ha:≠100 ; σx=8 ; n=25 LÖSUNGEN Aufgabe 1 a) b) c) d) e) f) Nullhypothese: my = 20, Alternativhypothese: my > 20 Testsatistik xquer (Mittelwert in der Stichprobe); Testwert: 71,4 Student-t-verteilt Standardfehler 6,321; Tabellenwert 2,49 ; kB ab 20+2,49*6,321= 35,74 Ja, die Nullhypothese wird abgelehnt Alles gleich, bis auf Tabellenwert, der ist hier 2,80, Kritischer Bereich: unter 2,3 oder über 37,7, Nullh. Wird abgelehnt. Man testet allgemeiner, ob sich Depressive in der Einschlafdauer überhaupt von normalen Menschen unterscheiden. Aufgabe 2 Nullh: my=70; Alternativh.: my>70 Teststatistik: z-Wert des Stichprobenmittelwerts; Testwert = (72-70)/(5/Wurzel(20)) = 1,789 Normalverteilt Kb: ab 1,645 Testwert im kB, also wird Nullhypothese verworfen Das ginge auch mit Teststatistik xquer: Testwert 72, KB ab 70 + 1,645*5/Wurzel(20)= 71,84 Testwert im kB, Nullh. verworfen Aufgabe 3 Nullh: my>=4; Alternativh: my<4; Teststatistik: xquer ist student-t-verteilt; Testwert 3,8 kB bis 4-1,71*0,4/5 = 3,863, Testwert im kB, also Nullh. abgelehnt, dem Händler kann geglaubt werden. Aufgabe 4 Erst sortieren: 0,1; 0,2; 0,3; 0,4; 0,4; 0,4; 0,5; 0,5; 0,5; 0,5; 0,5; 0,5; 0,6; 0,6; 0,7; 0,7; 0,7; 0,8; 0,8; 0,8 Zu bestimmen ist das erste und das neunte Dezil: 0,1*20=2 also ist erstes Dezil der Mittelwert des 2. und des 3. Wertes: 0,25 0,9*20=18, also Mittelwert des 18. und des 19. Wertes: 0,8 also 80%-Bootstrap-Intervall: 0,25 bis 0,8 Aufgabe 5 a) b) c) d) e) f) g) h) i) j) k) Kritischer Bereich 95,8875 und kleiner 94,175 und kleiner 95,8875 und kleiner -0,1645 und kleiner 8,8368 und kleiner 104,1125 und größer 21,645 und größer 9,01645 und größer 102,638 und größer 103,50622 und größer; 96,493778 und kleiner 103,136 und größer; 96,864 und kleiner Übungsblatt 11 Zuerst noch zwei kleine Nachtrage: 1) Zu der im Tutorium gerechnet Chi²-Aufgabe. Die korrekten Testwerte betragen: LR-Chi² = 8,553 und P-Chi² = 10,833. In unserem Fall mit KB ab 9,49 (df = 4) hätten wir also ein interpretatorisches Problem, da wir bei der Likelihood-Ratio Methode die H0 beibehalten, nicht aber bei der Pearson Methode. 2) Zur Frage des Nachschauens in der Tabelle. Unser Beispiel n = 20, p = 0,4. Hierbei liegt der KB bei 13 und größer bei rechtsseitigem Test. Es gibt 2 Arten dies herauszubekommen. Entweder man addiert die Einzelwahrscheinlichkeiten in der A-Tabelle solange von rechts her auf, bis man das erste Mal einen Wert > 0,05 erhält (in dem Fall bei x = 12) und geht dann einen Wert zurück nach rechts (also x = 13) oder man schaut in der kumulierten Tabelle wann von links kommend der erste Wert > 0,95 ist (in dem Fall bei x = 12) und geht noch einen weiter nach rechts (also x = 13). Dies kann man sich logisch so erklären, dass ich ja quasi von der anderen Seite her schaue und wenn ich sehe dass die Wahrscheinlichkeit von x kleiner gleich 12: 0,9790 ist, folgt logisch, dass 1- 0,9790 = 0,210 die Wahrscheinlichkeit für x größer 13 ist. Dies ist die erste Wahrscheinlichkeit von rechts her gesehen, die kleiner 0,05 ist. Und unser genaues Alpha ist ja als kleiner gleich 5 definiert. Aufgabe 1 Bestimme für Aufgabe 5 des letzten Blattes den Fehler 2. Art sowie die Macht des Tests, soweit dies möglich ist. Aufgabe 2 Bestimme für alle der folgenden Testangaben den kritischen Bereich und den exakten Wert des Fehlers 1. Art, also das exakte Alpha. Wenn möglich gib auch den Fehler 2. Art und die Macht des Tests an. a) Ho: p=0,8; Ha: p=0,5; n=50 b) Ho: P=0,7; Ha:p=0,5; n=100 c) Ho:p=0,975; Ha: p=0,4; n=8 d) Ho:p=0,975; Ha: p<0,975; n=8 e) Ho:p=0,1; Ha:p=0,4; n=20 f) Ho:p=0,4; Ha:p=0,6; n=100 g) Ho:p=0,3; Ha:p=0,4; n= 10 h) Ho:p=0,5; Ha:p≠0,5; n=70 i) Ho:p=0,5; Ha:p≠0,5; n=50 j) Ho:p=0,5; Ha:p≠0,5; n=5 k) Ho:p=0,5; Ha: p≠0,5; n=8 Aufgabe 3 Jugendliche Straftäter werden nach einer Strafmaßnahme ohne weitere Betreuung zu 60% rückfällig. Es soll getestet werden, ob zusätzliche Betreuungsmaßnahmen diese Rückfallquote verringern können. Wende wenn möglich die Normalverteilungsapproximation an. a) 80 jugendliche Straftäter werden nach der Jugendhaft in einem Heim untergebracht: Die Rückfallquote beträgt in diesem Fall 57%. Ist sie signifikant geringer als ohne den Heimaufenthalt? (α = 0,05) b) 20 jugendliche Straftäter werden nach der Jugendhaft in Wohngemeinschaften untergebracht: Die Rückfallquote beträgt in diesem Fall 55%. Ist sie signifikant geringer als ohne Wohngemeinschaft? (α = 0,05) c) Berechne für die Aufgabe b) auch das exakte Aufgabe 4 Ein Würfel soll daraufhin getestet werden, ob er gezinkt ist, d. h. ob die sechs Seiten mit verschiedenen Wahrscheinlichkeiten gewürfelt werden. Er wird dafür 60mal geworfen mit folgendem Ergebnis: Augenzahl Anteil in der 60er-Stichprobe 1 8/60 2 2/60 3 10/60 4 10/60 5 15/60 6 15/60 Führe einen 2-Anpassungstest mit α = 0,05 durch. Formuliere das Ergebnis des Tests in Worten. Aufgabe 5 Eine Aufstellung beschreibt, wie oft jede Zahl bei den Ziehungen der Lottozahlen in den Jahren von 1955 und 1999 gezogen wurde (exakt wurden alle 2303 Ziehungen zwischen dem 9.10.1955 und dem 20.11.1999 berücksichtigt). Folgender Ausschnitt aus dieser Aufstellung gibt an, wie oft die Zahlen 1 bis 10 gezogen wurden: Zahl 1: 280 mal Zahl 2: 288 mal Zahl 3: 300 mal Zahl 4: 270mal Zahl 5: 280 mal Zahl 6: 290 mal Zahl 7: 271 mal Zahl 8: 260 mal Zahl 9: 289 mal Zahl 10: 275 mal Im folgenden sollen die Ergebnisse für die Zahlen 11 bis 49 vernachlässigt werden, so als ob sie gar nicht gezogen worden wären. Zu erwarten wäre, dass jede der Zahlen 1 bis 10 gleich oft gezogen worden ist. Daher wird als Nullhypothese formuliert: Die Häufigkeit der Ziehung ist unter den Zahlen 1 bis 10 gleichverteilt. Alternativ wird behauptet: Es liegt keine Gleichverteilung vor. Überprüfe die Hypothese aufgrund der oben angegebenen Daten mithilfe eines Chi²- Anpassungstestes, wobei als Teststatistik zu verwenden ist: a) Likelihood-ratio-chi² b) Pearsons –chi² Aufgabe 6 Der Anteil der Studenten, die ohne gründliche Vorbereitung zur Klausur antreten (H0), ist 0.20. Die Alternativhypothese sei: Dieser Anteil ist 0.40. Von 50 untersuchten Studenten gaben 30% zu, sich auf die Klausur nicht gründlich vorzubereiten. Teststatistik: Anzahl der Studenten, die sich auf die Klausur nicht gründlich vorbereiten. Konstruieren Sie einen Test der H0-Hypothese. a) Welche Verteilung hat die Teststatistik? b) Kritischer Bereich? c) Exaktes alpha? Wird H0 verworfen? d) Macht des Tests? LÖSUNGEN Aufgabe 1 a) b) c) d) e) f) g) h) i) j) k) Kritischer Bereich 95,8875 und kleiner 94,175 und kleiner 95,8875 und kleiner -0,1645 und kleiner 8,8368 und kleiner 104,1125 und größer 21,645 und größer 9,01645 und größer 102,638 und größer 103,50622 und größer; 96,493778 und kleiner 103,136 und größer; 96,864 und kleiner Aufgabe 2 Kritischer Bereich a) 0 bis 34 b) 0 bis 61 c) 0 bis 6 d) 0bis 6 e) 5 bis 20 f) 49 bis 100 g) 6 bis 10 h) 0 bis 26; 44 bis 70 i) 0 bis 17; 33 bis 50 j) nicht vorhanden Fehler 1.Art 0,0308 0,0340 0,0158 0,0158 0,0432 0,0423 0,0473 0,0414 0,0328 0 Fehler 2. Art 0,7995 0,9370 0,0094 0,7389 0 0,7995 0,3632 0 nicht möglich nicht möglich nicht möglich Fehler 2.Art 0,0033 0,0105 0,0085 nicht möglich 0,0510 0,0100 0,8338 nicht möglich nicht möglich nicht möglich Macht des Tests 0,2005 0,0630 0,9906 0,2611 1 0,2005 0,6368 1 nicht möglich nicht möglich nicht möglich Macht des Tests 0,9967 0,9895 0,9915 nicht möglich 0,9490 0,9900 0,1662 nicht möglich nicht möglich nicht möglich k) 0 und 8 0,0078 nicht möglich nicht möglich Aufgabe 3 a) Hier darf man Normalverteilung unterstellen, weil n*π = 80*0,6=48 >15 (siehe S.79 im Skript) Nullh: π =0,6; Alternativh.: π < 0,6 Teststatistik p in der Stichprobe; Testwert = 0,57, Stf = Wurzel(0,6*0,4/n)=0,055 kB bis 0,6-1,645*0,055= 0,510, Testwert ist nicht im kB, Nullh. beibehalten b) Hier darf man nicht Normalverteilung unterstellen, also muss man einen Binomialtest durchführen Nullh: π =0,6; Alternativh.: π < 0,6 Teststatistik p in der Stichprobe, Testwert 0,55 kB aus Binomialtabelle mit π =0,6 und n=20: bis 7/20=0,35, also Testwert nicht im kB, Nullh. beibehalten d) Exaktes α: 0,021 Aufgabe 4 Nullhypothese: π 1= 1/6; π 2= 1/6… π 6= 1/6 Alternativhypothese: Ho stimmt nicht TW: LR-Chi² = 14,319; P-Chi² = 11,8 KB mit df = 6-1 = 5: 11,07 und größer Beide Testwerte sind im KB H0 verworfen. Die Verteilung unterscheidet sich signifikant von der angenommenen Gleichverteilung: Der Würfel ist also gezinkt. Aufgabe 5 H0: π 1= 1/10; π 2= 1/10… π 10= 1/10 Gesamt N (Summe aller ni) = 2803: pi, also jeweils x/ ni a) LR-Chi² = 4,4657 b) P-Chi² = 4,4599 KB ab 16,92 bei df = 9. Beide Testwerte sind nicht im KB. Die Ho wird beibehalten. Es geht im Lotto also doch mit rechten Dingen zu. Aufgabe 6 a) Binomialverteilt mit B (50; 0,2), keine NV, da n* π = 50*0,2 = 10 < 15 b) KB ab 16 bis 50, TW: =,3 * 50 = 15 c) Exaktes α: 0,308; Ho wird nicht verworfen, da 15 nicht im KB d) MdT: 0,9045 So, das alles ist mal wieder ohne Gewähr!!! Übungsblatt 12 Nachtrag zu Aufgabe 6 Übungsblatt 11, A 6c) exaktes Alpha = 0,0308. Kommafehler. Sorry! Aufgabe 1 Eine Studie vergleicht die Aggressivität von Männern mit der von Frauen. Dazu werden 20 Frauen und 30 Männer einem Experiment unterzogen und beobachtet. Die Frauen zeigen im Mittel 12 aggressive Verhaltensweisen bei einer Standardabweichung von 4,4. Die Männer agieren im Mittel 15 mal aggressiv bei einer Standardabweichung von 3,0. g) Bestimme jeweils für beide Gruppen getrennt das 95%-Konfidenzintervall für den Mittelwert. h) Konstruiere einen Test für die Mittelwertsdifferenz für den homoskedastischen Fall mit α = 0,05. i) Konstruiere einen Test für die Mittelwertsdifferenz für den heteroskedastischen Fall mit α = 0,05. Aufgabe 2 Einige Männer werden nun einem Antiaggressionstraining unterzogen. Danach wird unter denselben Bedingungen nochmals die Anzahl aggressiver Verhaltensweisen gemessen: VP Nr. Anzahl vorher Anzahl nachher 1 14 12 2 15 10 3 17 15 4 18 10 5 19 13 6 10 9 7 12 5 Teste die Alternativhypothese: Das Aggressionstraining vermindert die Anzahl aggressiver Handlungen. Aufgabe 3 Der durchschnittliche Aspirinkonsum (Pillen pro Jahr) in der Schweiz soll mit jenem in Deutschland verglichen werden. Stichproben Schweiz Deutschland Mittelwert 30 20 Populations-Standardabweichung 30 20 Stichprobengröße 100 30 Testen Sie die Nullhypothese: der Aspirinkonsum ist im Schnitt in beiden Ländern gleich (Alternative: in der Schweiz mehr). a) Testverteilung ? b) kritischer Bereich ? c) Testwert ? H0 abgelehnt? Aufgabe 4 Eine Arbeitszeituntersuchung für Beschäftigte des öffentlichen Dienstes ergibt folgende jährliche Arbeitszeit in Stunden: Art der Beschäftigung Größe der Stichprobe mittlere Arbeitszeit sn21 Finanzbeamte 100 1750 90000 Amtsärzte 120 2010 40000 Wiss. Angestellte 120 1880 55000 Lehrer 80 1950 64000 e) Gib die Regel(mit), die Regel(ohne), den Fehler(mit) und den Fehler(ohne) an. f) Berechne das PRE-Maß. Aufgabe 5 Wie viel Kilowatt können durch Energiesparlampen durchschnittlich pro Woche eingespart werden? Für eine Stichprobe von fünf Haushalten wurden folgende Ergebnisse erzielt: Haushalte: 1 2 3 4 5 Kw/Woche mit üblichen Lampen 24 40 10 20 30 Kw/Woche mit Energiesparlampen 20 36 11 16 26 a) Berechnen Sie das 95%Konfidenzintervall für die Differenz der Populationsmittelwerte. b) Berechnen Sie das für diesen Fall adäquate PRE-Maß. Wie heißt dieses PRE-Maß und was besagt es? LÖSUNGEN Aufgabe 1 a) Frauen: u= 9,944 und o= 14,056 mit t(19)=2,09; Männer: u= 13,883 und o =16,117 mit t(29)=2,04 b) Ho: y0 = 0; Ha: y0 =/= 0; also zweiseitiger Test mit KB < -2,01 und > 2,01; TW: t (48) = 2,808 mit s² pool = 13,1008 und der Standardabweichung 1,0683 TW liegt im KB, Nullhypothese wird verworfen c) Ho: y0 = 0; Ha: y0 =/= 0; also zweiseitiger Test mit KB < -2,04 und > 2,04; TW: t (31) = 2,66 mit der Standardabweichung 1,1261 TW liegt im KB, Nullhypothese wird verworfen Aufgabe 2 Ho: y1-y2 < 0; Ha: y1-y2 > 0; also rechtsseitiger Test; KB > 2,024 mit t(6)=1,94 und s = 2,760; TW: d(quer) = 4,429 TW liegt im KB, Nullhypothese wird verworfen Aufgabe 3 Ho: y1-y2 = 0; Ha: y1-y2 =/= 0; also beidseitiger Test a) NV, da beide Sigmas bekannt sind b) KB: in z > 1,96 und < -1,96, bzw. transformiert: > 9,263 und < - 9,263 c) TW: y1-y2 = 10, bzw: z = 2,12: TW liegt im KB, Nullhypothese wird verworfen Aufgabe 4 a) Gib die Regel(mit), die Regel(ohne), den Fehler(mit) und den Fehler(ohne) an. Regel(mit): y1Dach=1750, y2Dach=2010; y3Dach=1880; y4Dach=1950 Regel(ohne): yDach=1899,524 Fehler(mit)= ssq(within)=25271000 Fehler(ohne)=ssq(within)+ssq(between)=25271000+3949905=29220905 b) Berechne das PRE-Maß. Eta^2=0,135 Aufgabe 5 a) u = 0,22; o = 5,78 b) η² (eta Quadrat) = 0,6923, mithilfe der Unterscheidung von normalen und Energiesparlampen lässt sich der Prädiktionsfehler um 69 % senken. Anders ausgedrückt: Diese 69 % ist der Anteil der durch das x-Merkmal erklärte Varianz. So, das alles ist mal wieder ohne Gewähr!!! Übungsblatt 13 Wie schon im Tutorium erwähnt sind ein paar Aufgabenteile am Dienstag noch nicht besprochen worden. Da es sich aber fast nur um Formeleinsetzarbeit handelt, könnt ihr euch ja schon mal daran versuchen. Zu Aufgabe 1b) vom letzten Übungsblatt: Fehler im TW, der korrekte wäre t (48) = 2,87. Sorry! Zu Aufgabe 4 vom letzten Übungsblatt: Die ssq(between) = 3949905 ist korrekt berechnet. Abweichende Werte ergeben sich durch die Rundung des Mittelwertes von y auf eine Nachkommastelle. Aufgabe 1 Bei acht Personen mit Schlafstörungen soll mittels einer Therapie die Schlafdauer verlängert werden. Die Patienten werden drei verschiedenen Therapeuten zugeteilt. Folgende Statistik wird erhoben: Therapeut A Schlaufdauer 2 2 in h vorher Schlafdauer 4 4 in h nachher 5 Therapeut B 2 4 6 Therapeut C 4 7 6 4 6 6 6 6 Zu überprüfen sind die folgenden Hypothesentests: (Beachte, dass für keinen der Tests alle in der Tabelle enthaltenen Informationen verwendet werden müssen. Stelle fest, um welchen Test es sich jeweils handelt!) a) H0: Die Therapiegruppen der Therapeuten A, B und C unterscheiden sich im Durchschnitt nicht hinsichtlich der Schlafdauer, die die jeweiligen Patienten vor Beginn der Therapie angaben. H A: H0 ist falsch. b) H0: Die einzelnen Patienten schlafen nach der Therapie im Durchschnitt zwei Stunden länger. (So wird es von den Therapeuten angepriesen). HA: Die durchschnittliche Verbesserung des Schlafes beträgt weniger als zwei Stunden. c) H0: Der Anteil derjenigen Patienten, bei denen sich eine längere Schlafdauer einstellt, ist 0.5 (d.h. eine Schlafverbesserung ist rein zufällig). HA: Der Anteil derjenigen Patienten, bei denen sich eine längere Schlafdauer einstellt, ist größer als 0.5 (d.h. eine Schlafverbesserung ist nicht zufällig). d) H0: Die durchschnittliche Schlafdauer nach Ende der Therapie ist 6 Stunden. HA: Die durchschnittliche Schlafdauer nach Ende der Therapie beträgt weniger als 6 Stunden. Aufgabe 2 Eine Arbeitszeituntersuchung für Beschäftigte des öffentlichen Dienstes ergibt folgende jährliche Arbeitszeit in Stunden: Art der Beschäftigung Größe der Stichprobe Finanzbeamte 100 Amtsärzte 120 Wiss. Angestellte 120 Lehrer 80 g) h) i) j) k) mittlere Arbeitszeit 1750 2010 1880 1950 sn21 90000 40000 55000 64000 Gib die Regel(mit), die Regel(ohne), den Fehler(mit) und den Fehler(ohne) an. Berechne das PRE-Maß. Teste die universelle Nullhypothese. Gib den adjustierten Determinationskoeffizienten 1. Art an. Welche Voraussetzungen müssen erfüllt sein, damit man eine Varianzanalyse durchführen kann? Aufgabe 3 Züchtern ist es gelungen, gezielt dumme, mittelgescheite und blitzgescheite Ratten zu Züchten. Es soll untersucht werden, ob die Klugheit der Ratten einen Einfluss auf die Durchsetzungsfähigkeit hat. Als Maß für die Durchsetzungsfähigkeit dient die Gewichtszu- bzw. Abnahme bei einem gemeinsamen Aufenthalt in einem Käfig mit begrenzten Futterresourcen : Rattenart dumm mittel Gewichtsveränderungen -4; -6; +1; -2 -3; +5; +7; blitzgescheit +4; +2; +7; +8; +5 Führe eine (einfaktorielle) Varianzanalyse durch. Stelle das Ergebnis als ANOVA-Tabelle dar. Aufgabe 4 Folgende Datenpaare geben die Nebenverdienste von Studenten verschiedener Semesterzahl an: Semesterzahl: x Verdienst in €: y 2 220 3 220 5 300 6 450 11 600 Es soll eine lineare Prädiktionsregel für den Verdienst berechnet werden (Welches Skalenniveau ist dafür notwendig?): a) Gib die Regel(ohne x) und die Regel(mit x) an. b) Berechne die prädizierten Werte für die fünf Studenten. c) Berechne den Fehler(ohne) und den Fehler(mit). d) Berechne das PRE-Maß und den adjustierten Determinationskoeffizienten 2. Art. e) -Konfidenzintervall an. f) Welche Voraussetzungen sind notwendig, um aus der Regressionsgeraden aus der Stichprobe auf die Regressionsgerade der Population zu schließen? g) Wie groß ist die (Produktmoment-)Korrelation zwischen dem x- und dem y-Merkmal? Was sagt diese Korrelation aus? Aufgabe 5 Der Computerausdruck einer Regressionsanalyse weist folgende Werte aus: Cov(X,Y) = 6, (Var(X)) = 2, (Var(Y)) = 10. Ferner ist bekannt, dass beim t-Test für die Regressionskoeffizienten jeweils 198 Freiheitsgrade festgestellt werden können. a) Wie groß ist n ? b) Berechne die Korrelation. LÖSUNGEN Aufgabe 1 a) Varianzanalyse: TW F ( 2,5) = 1,014 KB ab 5,79 TW nicht im KB, Ho beibehalten b) Mittelwerttest bei verbundenen SP: TW: d quer = 1,25 linksseitiger Test KB kleiner 1,217 TW nicht im KB, Ho beibehalten. c) Binomialtest: TW: p = 0,75, bzw. Anzahl = 6 rechtsseitiger Test KB größer als 7 TW nicht im KB, Ho beibehalten d) Mittelwerttest: TW: x quer = 5,25 linksseitiger Test KB kleiner 5,30 TW im KB, Ho verworfen Aufgabe 2 a) Regel(mit): y1Dach=1750, y2Dach=2010; y3Dach=1880; y4Dach=1950 Regel(ohne): yDach=1899,524 Fehler(mit)= ssq(within)=25271000 Fehler(ohne)=ssq(within)+ssq(between)=25271000+3949601=29220601 b) Eta^2=0,135 c) H0: alle Mittelwerte gleich HA: mindestens zwei verschieden voneinander TS: F-ratio ist F-verteilt mit df1=3 und df2=416 TW=21,67 kB ab 2,65, also ho verworfen d) 0,1289 e) Intervallskaliertes y, y in jeder Gruppe normalverteilt, in allen Gruppen gleiche Populationsvarianz Aufgabe 3 Variationsquelle Gescheitheit Fehler Total ssq 144,45 105,55 250 df 2 9 11 msq 72,225 11,728 22,727 F-Ratio 6,16 kB ab 4,26, also H0 abgelehnt: Die Klugheit hat Einfluss auf die Gewichtszu- bzw. abnahme Aufgabe 4 a) Regel(ohne): yDach=358, Regel(mit): yDach = a+b*x, a und b müssen folgendermaßen berechnet werden: Xquer= 5,4; yquer=358; Var(x)=12,3; Cov(x,y)=558,5 Damit ist b=Cov(x,y)/Var(x)=45,407 und a = yquer-b*xquer=112,805 b) 203,618; 249,024; 339,837; 385,244; 612,276 c) F(ohne)=ssq(total)=108480; F(mit)=7039,87952 d) PRE=r^2=0,935; Adj. Det.koeff. =0,913 e) KI=23,445 bis 67,369 f) Homoskedastizität, Für jedes x sind die y normalverteilt g) r = 0,967 bedeutet: starker, positiver linearer Zusammenhang Aufgabe 5 a) n = 200 b) r=0,3