Übungsblatt 1 1. Bei einem Gedächtnisexperiment werden 40 Probanden 30 Gegenstände vorgelegt, die sie hinterher auswendig niederzuschreiben haben. Die folgende Aufzählung listet auf, an wie viele der Gegenstände sich jeder einzelne Proband erinnert hat: 12 20 23 0 14 16 12 10 30 12 14 9 6 22 14 29 1 10 11 22 15 16 12 13 15 17 2 14 22 9 11 14 18 19 20 6 8 10 12 14 a) Welches Skalenniveau liegt vor (Anzahl erinnerte Gegenstände)? b) Erstelle die Verteilung (Tabelle). c) Wie viel Prozent der Probanden haben sich an 20 oder weniger Gegenstände erinnert? d) Stelle die Verteilung (d.h. die Prozentanteile) in einem Stabdiagramm dar. e) Stelle die kumulierte Verteilung in einem geeigneten Diagramm dar. Wie heißt dieses Diagramm? 2. Studenten werden nach dem Mensabesuch gefragt, welches Essen sie gewählt haben. 12 Befragte haben Stammessen genommen, 6 Wahlessen, 6 Salat und 3 Eintopf. a) Welches Skalenniveau liegt vor (gewähltes Essen)? b) Erstelle die Verteilung (Tabelle). c) Ist es sinnvoll, in dieser Verteilung kumulierte Anteile auszuweisen? (kurze Begründung) d) Stelle die Verteilung in einem Kreisdiagramm dar. e) Stelle die Verteilung in einem Staffeldiagramm dar. 3. Es wird eine Untersuchung vorgenommen, wie viel Liter alkoholische Getränke pro Woche getrunken werden. Die Daten werden in folgender Tabelle zusammengefasst: 0 bis 1 Liter 6 Personen 1 bis 2 Liter 10 Personen 2 bis 5 Liter 17 Personen 5 bis 10 Liter 5 Personen 10 bis 20 Liter 1 Person 20 bis 30 Liter 1 Person a) Erstelle eine statistisch korrekte Tabelle, die Angaben über die xi, die ni, die pi und die kumulierten Anteile enthält. b) Handelt es sich hierbei um stetige oder diskrete Daten? c) Wie groß ist der Anteil der Personen, die 10 Liter und weniger trinken? d) Stelle sowohl die Verteilung (d.h. die Prozentanteile) als auch die kumulierte Verteilung graphisch dar. e) Erläutere (kurz) an einer deiner Zeichnungen, was unter dem Prinzip der „Flächentreue“ verstanden wird. Lösungen 1. a) Absolutskala b) Index Wert Häufigkeit relat. Häuf. kumulierter Anteil i xi ni pi=ni/n F(xi)=Σpi 1 0 1 0,025 0,025 2 1 1 0,025 0,05 3 2 1 0,025 0,075 4 6 2 0,05 0,125 5 8 1 0,025 0,15 6 9 2 0,05 0,2 7 10 3 0,075 0,275 8 11 2 0,05 0,325 9 12 5 0,125 0,45 10 13 1 0,025 0,475 11 14 6 0,15 0,625 12 15 2 0,05 0,675 13 16 2 0,05 0,725 14 17 1 0,025 0,75 15 18 1 0,025 0,775 16 19 1 0,025 0,8 17 20 2 0,05 0,85 18 22 3 0,075 0,925 19 23 1 0,025 0,95 20 29 1 0,025 0,975 21 30 1 0,025 1 c) F(20)=0,85 → 85% e) Verteilungsfunktion für diskrete Daten: Treppenfunktion! 2. a) Nominalskala b) i xi ni pi 1 1 3 1/9 2 2 6 2/9 3 3 6 2/9 4 4 12 4/9 c) Nein, denn wegen der Nominalskala ist die Reihenfolge beliebig. 3. a) i oi xi ui ni pi F(xi) 1 [0;1] 6 0,15 0,15 2 [1;2] 10 0,25 0,4 3 [2;5] 17 0,425 0,825 4 [5;10] 5 0,125 0,95 5 [10;20] 1 0,025 0,975 6 [20;30] 1 0,025 1 b) stetige, da die Literanzahl jeden beliebigen Wert annehmen kann. c) F(10)=0,95 e) Flächentreue: der Anteil (p) wird als Fläche unterm Summenpolygon dargestellt. Übungsblatt 2 Paul Illg 1. Es wird eine Untersuchung vorgenommen, wie viel Liter alkoholische Getränke pro Woche getrunken werden. Die Daten werden in folgender Tabelle zusammengefasst: 0 bis 1 Liter 6 Personen 1 bis 2 Liter 10 Personen 2 bis 5 Liter 17 Personen 5 bis 10 Liter 5 Personen 10 bis 20 Liter 1 Person 20 bis 30 Liter 1 Person f) Erstelle eine statistisch korrekte Tabelle, die Angaben über die xi, die ni, die pi und die kumulierten Anteile enthält. g) Handelt es sich hierbei um stetige oder diskrete Daten? h) Wie groß ist der Anteil der Personen, die 10 Liter und weniger trinken? i) Stelle sowohl die Verteilung (d.h. die Prozentanteile) als auch die kumulierte Verteilung graphisch dar. j) Erläutere (kurz) an einer deiner Zeichnungen, was unter dem Prinzip der „Flächentreue“ verstanden wird. 2. Bei sechs Schulkindern wird erhoben, wie viele Fernsehsendungen sie pro Woche ansehen. Es kommt zu folgenden Ergebnissen (pro Schulkind eine Angabe für die Anzahl von Sendungen): 20 40 5 40 20 0 a) b) c) d) e) f) Berechne das arithmetische Mittel. Berechne getrimmtes und winsorisiertes Mittel für q=0,2 Berechne die Spannweite. Berechne die mittlere Quartilsdistanz. Berechne den H-spread Berechne die Standardabweichung. Beachte: Es handelt sich um eine Stichprobe! g) Jemand kommt auf die Idee, als Streuungsmaß die mittlere Abweichung vom Median zu berechnen. Auf welches Ergebnis kommt er? 3. 20 Studenten werden nach ihrer derzeitigen Wohnsituation befragt. 10 Befragte wohnen in WG`s 4 im Wohnheim 4 mit ihrem Partner zusammen 2 zuhause bei ihren Eltern a) Erstelle die Häufigkeitsverteilung b) ist es sinnvoll in dieser Verteilung kumulierte Anteile anzugeben? (Begründung!) c) stelle die Verteilung in einem Kreisdiagramm dar. d) stelle die Verteilung in einem Staffeldiagramm dar. e) stelle die Verteilung in einem Netzdiagramm dar. 4. Mittelwert/Median a) Gegeben seien 10 Werte. Berechnet werden sowohl ein arithmetisches Mittel als auch der Median. A1) Muss das arithmetische Mittel zwingend identisch mit einem der 10 Werte sein? Kann es identisch mit einem der 10 Werte sein? A2) Muss der Median zwingend identisch mit einem der 10 Werte sein? Kann er identisch mit einem der 10 Werte sein? b) Gegeben seien 9 Werte. Berechnet werden sowohl ein arithmetisches Mittel als auch der Median. B1) Muss das arithmetische Mittel zwingend identisch mit einem der 9 Werte sein? Kann es identisch mit einem der 9 Werte sein? B2) Muss der Median zwingend identisch mit einem der 9 Werte sein? Kann er identisch mit einem der 9 Werte sein? Lösungen 1. a) i oi xi ni pi F(xi) ui 1 [0;1] 6 0,15 0,15 2 [1;2] 10 0,25 0,4 3 [2;5] 17 0,425 0,825 4 [5;10] 5 0,125 0,95 5 [10;20] 1 0,025 0,975 6 [20;30] 1 0,025 1 b) stetige, da die Literanzahl jeden beliebigen Wert annehmen kann. c) F(10)=0,95 e) Flächentreue: der Anteil (p) wird als Fläche unterm Summenpolygon dargestellt. 2. a) mean(x)=(Σxi)/n=20,833 b) q=0,2 z=n*q=1,2 [z]=1 xgetr.=21,25 c) sp=xn-x1=40 d) q1=0,25 z1=n*q1=1,5 [z1]=1 x1=5 q2=0,75 z2=n*q2=4,5 [z2]=4 x2=4 d0,25=x0,75-x0,25=35 dq/2=17,5 e) dh=d0,25=35 f) sn-1=√(1/(n-1) Σxi²-n*xarith.²)=16,85 g) med(x)= 20 dx=1/nΣ│xi-x0,5│=12,5 xwin.=21,667 3. a) i xi ni pi 1 1 10 0,5 2 2 4 0,2 3 3 4 0,2 4 4 2 0,1 b) Da es bei qualitativen Daten keine Reihenfolge gibt, sind kumulierte Anteile wenig sinnvoll ! 4. a) A1) Muss nicht, kann aber. A2) Muss nicht, kann aber (nur wenn 5.& 6. Wert gleich sind). b) B1) Muss nicht, kann aber. B2) Muss mit dem fünften Wert identisch sein. Übungsblatt 3 1. Bei sechs Schulkindern wird erhoben, wie viele Fernsehsendungen sie pro Woche ansehen. Es kommt zu folgenden Ergebnissen (pro Schulkind eine Angabe für die Anzahl von Sendungen): 20 40 5 40 20 0 h) Berechne das arithmetische Mittel. i) Berechne getrimmtes und winsorisiertes Mittel für q=0,2 j) Berechne die Spannweite. k) Berechne die mittlere Quartilsdistanz. l) Berechne den H-spread m) Berechne die Standardabweichung. Beachte: Es handelt sich um eine Stichprobe! n) Jemand kommt auf die Idee, als Streuungsmaß die mittlere Abweichung vom Median zu berechnen. Auf welches Ergebnis kommt er? 2. Mittelwert/Median c) Gegeben seien 10 Werte. Berechnet werden sowohl ein arithmetisches Mittel als auch der Median. A1) Muss das arithmetische Mittel zwingend identisch mit einem der 10 Werte sein? Kann es identisch mit einem der 10 Werte sein? A2) Muss der Median zwingend identisch mit einem der 10 Werte sein? Kann er identisch mit einem der 10 Werte sein? d) Gegeben seien 9 Werte. Berechnet werden sowohl ein arithmetisches Mittel als auch der Median. B1) Muss das arithmetische Mittel zwingend identisch mit einem der 9 Werte sein? Kann es identisch mit einem der 9 Werte sein? B2) Muss der Median zwingend identisch mit einem der 9 Werte sein? Kann er identisch mit einem der 9 Werte sein? 3. Dracula sagt: „Die Verteilung der Länge meiner Zähne ist rechtsschief.“ Die sichtbare Zahnlänge in mm gibt Draculas Dentist wie folgt an: 7,6 7,7 7.8 7.8 7.9 34,6 10,1 10,2 10,2 10,0 35,5 7,9 7,8 7,7 7,6 7,6 7,8 7,8 7,9 8,1 8,2 31,7 10,0 10,0 10,0 10,1 32,1 8,1 8,1 7,8 7,8 7,7 a) Zeichne den Boxplot sowie ein Stamm und Blatt Diagramm für die Zahnlänge. b) Berechne die Schiefe. 4. Elf zufällig vorbeikommende Personen werden gefragt, wie viele Weihnachtsgeschenke sie denn schon eingekauft hätten. Die einzelnen Antworten (bereits in sortierter Reihenfolge) sind: 0 1 1 5 5 6 7 7 10 10 52 a)Berechne das 1. Quartil. b)Berechne den unteren Hinge. c)Berechne die Schiefe. Ist die Verteilung rechtsschief, linksschief oder symmetrisch? d)Berechne die Entropie. e)Zeichne den Boxplot. 5. Transformationen a) Die xi einer Verteilung werden um den Wert 2 erhöht. Wie verändert sich - der Median? - das arithmetische Mittel? - die Varianz? - die Entropie? b) Die xi einer Verteilung werden verdoppelt. Wie verändert sich - der Median? - das arithmetische Mittel? - die Varianz? - die Entropie? Lösungen 1. a) mean(x)=(Σxi)/n=20,833 b) q=0,2 z=n*q=1,2 [z]=1 xgetr.=21,25 c) sp=xn-x1=40 d) q1=0,25 z1=n*q1=1,5 [z1]=1 x1=5 q2=0,75 z2=n*q2=4,5 [z2]=4 x2=4 d0,25=x0,75-x0,25=35 dq/2=17,5 e) dh=d0,25=35 f) sn-1=√(1/(n-1) Σxi²-n*xarith.²)=16,85 g) med(x)= 20 dx=1/nΣ│xi-x0,5│=12,5 xwin.=21,667 2. a) A1) Muss nicht, kann aber. A2) Muss nicht, kann aber (nur wenn 5.& 6. Wert gleich sind). b) B1) Muss nicht, kann aber. B2) Muss mit dem fünften Wert identisch sein. 3. a) med(x)=(xn/2+x(n/2+1))/2=8 q=1/4 z=n*q=8 hu=xq=(xz+xz+1)/2=7,8 q=3/4 z=n*q=24 ho=xq=(xz+xz+1)/2=10,05 dh=ho-hu=2,25 unterer innerer Zaun: hu-1,5*dh=4,425 oberer innerer Zaun: ho+1,5*dh=13,425 unterer äußerer Zaun: hu-3*dh=1,05 oberer äußerer Zaun: ho-3*dh=16,8 b) mean(x)=(Σxi)/n=11,6 sn-1=√(1/(n-1) Σxi²-n*xarith.²)=8,476 schiefe(x)=(mean(x)-med(x))/sn-1=0,425>0 =>rechtsschief 4. a) med(x)`=med(x)+2 b) med(x)`=med(x)*2 mean(x)`=mean(x)+2 mean(x)`=mean(x)*2 var(x)`=var(x) var(x)`=2²*var(x) 5. a) A1) Muss nicht, kann aber. A2) Muss nicht, kann aber (nur wenn 5.& 6. Wert gleich sind). b) B1) Muss nicht, kann aber. B2) Muss mit dem fünften Wert identisch sein. h(x)`=h(x) h(x)`=h(x) Übungsblatt 4 Paul Illg Originalaufgabe aus der Klausur „Statistik für Soziologen“ WS 1993/94 13. Der Weg der Radfahrer von zu Hause zur Arbeitsstätte wurde untersucht: Distanz Anzahl 0-1 km 5 1-10 km 5 a) Berechne die Dichten. b) Zeichne Histogramm und kumulierte Verteilung. c) Berechne kumulierte Anteile. d) Berechne Mittelwert und Varianz. e) Berechne Median und 1. Quartil. 18. Bekannt sei, dass sich 10% der Menschen über Schneeeinbruch freuen, 50% dem Schnee indifferent gegenüber stehen und 40% sich nicht freuen, wenn es schneit. a) Berechne die Entropie. b) Jemand versucht mithilfe einer Modalregel vorherzusagen, ob sich eine beliebig ausgewählte Versuchsperson über den Schneeeinbruch freut oder nicht. Wie groß ist der Fehler, den er bei modaler Prädiktion macht? Mit welchem Dispersionsmaß ist der Fehlerwert gleichzusetzen? c) Jemand versucht mithilfe einer probabilistischen Regel vorherzusagen, ob sich eine beliebig ausgewählte Versuchsperson über den Schneeeinbruch freut oder nicht. Wie groß ist der Fehler, den er bei probabilistischer Prädiktion macht? Mit welchem Dispersionsmaß ist der Fehlerwert gleichzusetzen? d) Stelle die angegebenen Prozentwerte in einem Staffeldiagramm dar. e) Stelle die angegebenen Prozentwerte in einem Netzdiagramm dar. 21. Stichprobenauswahlen a) Für die Teilnahme an einem psychologischen Experiment haben sich 30 Personen gemeldet, obwohl nur zehn von ihnen berücksichtigt werden können. Wie viele Möglichkeiten gibt es, die 10er – Gruppe zusammenzustellen? b) Ein Photograph wird beauftragt, zehn Menschen zu fotografieren, die in einer Reihe nebeneinander stehen. 30 Personen melden sich für dieses Foto, aus denen er nun zehn auswählen muss: der erste, den er auswählt, soll auf dem Photo ganz links stehen, der zweite daneben usw. Wie viele mögliche Fotos können entstehen? c) Aus 10 Kugeln werden 4 Kugeln mit Zurücklegen gezogen. Wie groß ist die Anzahl möglicher Stichproben? 24. Berechnen sie für die Messwerte 25 19 28 25 31 folgende Maßzahlen: a) Mittelwert und Varianz. b) 1. Quintil und 1. Quartil. c) Quartilsdistanz und 2. Qartil. Lösungen 1. a)+c) Dichte=hi=pi/bi i ui xi oi bi xi ni pi F(xi) hi 1 [0 ; 1] 1 0,5 5 0,5 0,5 0,5 2 [1 ; 10] 9 5,5 5 0,5 1 0,05 d) xarith.=Σxipi=3 sn-1²=1/(n-1) Σxi²-n*xarith.²=6,9444 e) med(x)= om+um+1/2=1 q=1/4 xq= um+((q-F(um))bm)/F(om)-F(um)=0,5 2. a) h(x)b=-1/ln2Σpi*ln(pi)=1,36 b) Modaldispersion md=1-max(pi)=0,5 c)qualitative Varianz qv=1-Σpi²=0,58 3. a) N=30 n=10 N =30045015 Möglichkeiten n b) N(N-1)(N-2)∆(N-n+1)=1,09*1014 c) N=10 n=4 Nn=10.000 4. a) xarith.=25,6 s²=1/n-1Σxi²-nxarith.²=19,8 b) q=1/5 z=n*q=1 xq=(x(z)+x(z+1))/2=22 q=1/4 z=1,25 [z]=1 xq=x([z]+1)=25 c) q=1/2 z=2,5 [z]=2 xq=25 q=3/4 z=3,75 [z]=3 xq=28 d0,25=x0,75-x0,25=3 Übungsblatt 5 1. Student M. steht morgens voll verpennt vor dem Kleiderschrank und angelt sich mit geschlossenen Augen 2 Socken aus dem ungeordneten Fach (die Socken sind nicht zu Paaren geordnet, sondern liegen einzeln im Fach). M. besitzt 20 weiße und 30 schwarze Socken. a) Wie groß ist die Wahrscheinlichkeit, dass er 2 weiße hervorzieht? b) Wie groß ist die Wahrscheinlichkeit, dass er 2 schwarze erwischt? c) Wie groß ist die Wahrscheinlichkeit, dass er mit 2 verschiedenen Socken zur Uni geht? 2. Aufgrund der amtlichen Universitätsstatistik, die Aussagen über die Gesamtheit aller an der Universität immatrikulierten Studenten macht, kann folgende Verteilung der Studenten nach Semesterzahlen festgemacht werden: POPULATIONSDATEN Semesteranzahl Prozentsatz 1.-4.Semester 40% 5.-8. Semester 30% 9.-12. Semester 20% 13.-20. Semester 10% a) Wie viel Prozent aller Studierenden befinden sich im 8. Semester oder darunter? b) Berechne das 7. Dezil. c) Zufällig werden in einer Stichprobe einzelne Studenten ausgewählt und nach ihrer Semesteranzahl befragt. Berechne für die Variable „Semesteranzahl“ den Erwartungswert und die Varianz. d) Angenommen, es würden von verschiedenen Befragern jeweils vier Studenten ausgewählt und nach ihrer Semesteranzahl befragt. Die Befrager notieren sich nur die durchschnittliche Semesteranzahl der vier Probanden. Wie groß sind Erwartungswert und Varianz für die Variable „durchschnittliche Semesteranzahl bei vier Befragten“? Originalaufgabe aus der Klausur „Statistik I für Soziologen“, WS 1993/94 3. Gegeben sei eine Urne mit 3 Kugeln (a, b, c). Auf a und b steht die Zahl 1, auf der c-Kugel eine 0. Die Zahlen auf den Kugeln sind die Werte der x-Variablen. - Berechnen Sie für die x-Variable der Grundgesamtheit a. die Verteilung (Werte und Anteile): b. arithmetisches Mittel und Varianz. - Sie ziehen zufällig eine Stichprobe (MIT Zurücklegen) der Größe 2 (n=2). Berechnen Sie für die Zufallsvariable des arithmetischen Mittels: c. die Verteilung (Werte und Wahrscheinlichkeiten): d. den Erwartungswert und die Varianz 4. Gegeben sei ein Würfel mit 4 Seiten (analog zum Beispiel im Skript) a) Erstelle die Verteilung; berechne Erwartungswert und Varianz von X. Man würfle mit diesem Würfel 2 Mal und berechne darüber die durchschnittliche Augenzahl. b) Erstelle die Verteilung. Berechne Erwartungswert und Varianz über den Durchschnitt. c) Wie groß ist die Wahrscheinlichkeit, bei 2 mal Werfen mit diesem Würfel die gleiche Augenzahl zu erhalten? Lösungen 1. a) P(A)=20/50*19/49=15,5% b) P(A)=30/50*29/49=35,5% c) P(A)=20/50*30/49+20/49*30/50=49% 2. a) F(8)=0,7 =>70% b) q=7/10 xq=(um+om+1)/2=8,5 c) xarith.=Σxipi=6,7 s² =n/n Σ(xi-xarith.)²*pi=19,56 d) n=4 E(xarith.)=E(x)=6,7 Var(xarith.)=Var(x)/n=4,89 3. a) I xi ni лi 1 1 2 2/3 2 0 1 1/3 b) xarith.=Σxiлi=0,667 Var(x)= л(1-л)=2/9 c) i xi P(xarith.=xi) 1 0 1/9 2 0,5 4/9 3 1 4/9 d) E(xarith.)=л=2/3 Var(xarith.)=Var(x)/2=1/9 4. a) I=xi Pi 1 0,25 2 0,25 3 0,25 4 0,25 E(x)=Σxipi=2,5 Var(x)= Σ(xi-E(xi))²*pi=1,25 b) i xi P(xarith.=xi) 1 1 1/16 2 1,5 1/16 3 2 1/16 4 2,5 1/16 5 3 1/16 6 3,5 1/16 7 4 1/16 E(xarith.)=E(x)=2,5 Var(xarith.)=Var(x)/2=0,625 c) P(A)=1/4 Übungsblatt 6 - Aufgaben Paul Illg 1. Es sei bekannt, dass in einer Gesellschaft 80% der Bevölkerung über Stress in der Vorweihnachtszeit klagt. Diesem Umstand will ein psychologisches Forscherteam nachgehen und wählt dafür zufällig eine Stichprobe von 20 Personen aus. a) Berechne den Erwartungswert für die Variable „Anzahl der Personen in der Stichprobe, die über Stress in der Vorweihnachtszeit klagen“ (= Stresspersonen). b) Welcher Anteil an Stresspersonen ist zu erwarten? c) Berechne für Anzahl und Anteil der Stresspersonen die jeweilige Varianz (also eine Varianz für „Anzahl“ und eine Varianz für „Anteil“) d) Angenommen, es würden innerhalb der Stichprobe Vierergrüppchen gebildet: Wie groß wären jetzt Erwartungswert und Varianz für durchschnittlichen Anteil bzw. durchschnittliche Anzahl an Stresspersonen? e) Innerhalb der 20köpfigen Stichprobe befinden sich nun 20 Stresspersonen. Wie wahrscheinlich war es, dass alle zufällig ausgewählten Personen Stresspersonen sind? f) Der Projektleiter des Forscherteams will die Stichprobe dann nicht zulassen, wenn sich lediglich 10 oder weniger Stresspersonen in der Stichprobe befinden. Wie wahrscheinlich ist es, dass der Projektleiter die Stichprobe ablehnt? Ein anderer Projektleiter besteht darauf, dass mindesten 16 Stresspersonen in der Gruppe sein müssen. Wie wahrscheinlich ist es, dass ihm dieser Wunsch erfüllt wird? 2. Der Intelligenzquotient ist normalverteilt mit = 100 und σ² = 16² (Schreibweise: NV(100/16²). Es werden Stichproben von 9 Personen gezogen, über die der Mittelwert des IQ gebildet wird. a) b) c) d) e) f) g) Wie groß ist der Anteil derjenigen Mittelwerte, die größer als 103 sind? Wie groß ist der Anteil derjenigen Mittelwerte, die kleiner als 97 sind? Wie groß ist der Anteil derjenigen Mittelwerte, die größer als 97 sind? Wie groß ist der Anteil derjenigen Mittelwerte, die größer als 100 sind? Wie groß ist der Anteil derjenigen Mittelwerte, die kleiner als 150 sind? Ab welchem IQ-Mittelwert liegen die 5% intelligentesten Gruppen? Ab welchem IQ-Mittelwert liegen die 5% am wenigsten intelligenten Gruppen? h) Ab welchem IQ-Mittelwert liegen die 2,5% intelligentesten Gruppen, ab welchem die 2,5% am wenigsten intelligenten Gruppen? Wie groß ist der Prozentanteil der Mittelwerte, die zwischen diesen beiden Gruppen liegen? 3. Es wird angenommen, dass 20% aller Weinachtgeschenke nach Weihnachten umgetauscht werden. Linda kauft 20 Geschenke. a) Wie groß ist die Wahrscheinlichkeit, dass keines der Geschenke umgetauscht wird? b) Wie wahrscheinlich ist es, dass max. 5 Geschenke umgetauscht werden? c) Wie groß ist die Wahrscheinlichkeit, dass mindestens die Hälfte der Geschenke umgetauscht werden? 4. Bei einem unbedingten Reflex, etwa dem Patellarsehnen-Reflex, tritt im Durchschnitt nach 0,04 Sekunden eine Reaktion auf. Angenommen, die Reaktionszeit sei NV(0,04; 0,6²), wie wahrscheinlich ist es dann, dass eine Reaktion erst nach 1 Sekunde oder später auftritt? Übungsblatt 6 - Lösungen Tutorium bei Niklas 1. a) E(x)Anz.=n* л=16 b) E(x)Ant.= л=0,8 c) Var(x)=n л(1-л)=3,2 Var(x)= л(1-л)=0,16 d) E(xarith.4)Ant.= л=0,8 E(xarith.4)Anz.=n* л=3,2 Var(xarith.4)Anz.=n л(1-л)=0,64 e) P(A)=лk(1-л)(n-k)(n)=0,0115 →1,15% Tabelle A k f) P(k≤10)=0,0026 P(k≥16)=0,6296 Var(xarith.4)Ant.=Var(x)/4=0,04 2. a) Std(xarith.n)=√(s²/n)=5,33 z=x-µ/Std(xarith.n)=0,5625 Tabelle E z=0,56 Φ(-z)=0,2877 → 28,77% b) z=-0,5625 →28,77% c) z=-0,5625 →71,23% d) z=0 →50% e) z=9,375 →100% f) Tabelle E →z=1,645 xarith.=µ+z*Std(xarith.n)=108,77 g) z=-1,645 →xarith.=91,3 h) z=±1,96 →xarith.=110,45 ; 89,546 D(z)=0,95 →95% 3. a) n=20 л=0,2 k=0 b) P(k≤5)=0,8042 c) P(k≥10)=1-P(k≤9)=0,0026 4. µ=0,04 δ²=0,6² P(k=0)=0,0115 z=(x-µ)/δ=1,6 P(z≥1,6)=0,0548→5,48% Tab. E Übungsblatt 7 Paul Illg 1. Zur Erinnerung: Kugelbeispiel: 4 Kugeln a,b,c,d. a,b,c=0, d=1. Dreimal ziehen OHNE Zurücklegen. a) Erstelle die Verteilung der Mittelwerte. b) Berechne Erwartungswert und Varianz dieser Mittelwertsverteilung. 2. Gegeben sei ein Würfel mit 4 Seiten (analog zum Beispiel im Skript) a) Erstelle die Verteilung; berechne Erwartungswert und Varianz von X. Man würfle mit diesem Würfel 2 Mal und berechne darüber die durchschnittliche Augenzahl. b) Erstelle die Verteilung. Berechne Erwartungswert und Varianz über den Durchschnitt. c) Wie groß ist die Wahrscheinlichkeit, bei 2 mal Werfen mit diesem Würfel die gleiche Augenzahl zu erhalten? 3. Bei einem unbedingten Reflex, etwa dem Patellarsehnen-Reflex, tritt im Durchschnitt nach 0,04 Sekunden eine Reaktion auf. Angenommen, die Reaktionszeit sei NV(0,04; 0,6²), wie wahrscheinlich ist es dann, dass eine Reaktion erst nach 1 Sekunde oder später auftritt? 4. Ein Student hofft bei jedem Telefonklingeln, dass seine Freundin ihn anruft. Aus Erfahrung weiß er, dass die Chance jeweils 0,3 beträgt. Mit welcher Wahrscheinlichkeit a) kommen fünf von den nächsten zehn Anrufen von seiner Freundin? b) sind höchstens vier von den nächsten zehn Anrufen von seiner Freundin? c) kommt in einer Folge von 10 Anrufen der Anruf der Freundin erst ganz am Schluss? Originalaufgabe aus der Klausur „Statistik II für Soziologen“, SS 1999 5. Die Frauen werden in einem Land durchschnittlich 76 Jahre alt, die Männer 70. Das Alter sei normalverteilt (Standardabweichung = 20). a) Wie viel Prozent der Frauen werden älter als 95% der Männer? b) Man ziehe nun „unendlich“ viele Zufallsstichproben von jeweils 9 Männern und ebenso „unendlich“ viele Zufallsstichproben von jeweils 9 Frauen. Wie viel Prozent der Frauenstichproben-Mittelwerte sind größer als 95% der MännerstichprobenMittelwerte? Lösungen 1. I 1 2 xi 0 1 лi ¾ ¼ E(X) =л= ¼ Var(X) =л(1-л)= 0,1875 2. a) I=xi Pi 1 0,25 2 0,25 3 0,25 4 0,25 E(x)=Σxipi=2,5 Var(x)= Σ(xi-E(xi))²*pi=1,25 b) i xi P(xarith.=xi) 1 1 1/16 2 1,5 1/16 3 2 1/16 4 2,5 1/16 5 3 1/16 6 3,5 1/16 7 4 1/16 E(xarith.)=E(x)=2,5 Var(xarith.)=Var(x)/2=0,625 c) P(A)=1/4 3. µ=0,04 δ²=0,6² z=(x-µ)/δ=1,6 P(z≥1,6)=0,0548→5,48% 4. a) P(5von10)=pk(1-p)(n-k) n =0,1029 →10,3% k b) P(k≤4)=0,8497 →84,97% Tab. B c) P(k=0)=0,0404 P(k=1)=0,3 P(k=0)*P(k=1)=0,01212 →1,21% Tab. E Tab. A 5. a) z=1,645 x=µ+z*Std(x)=102,9 z= x-µ/δ =1,345 P(z≥1,345)=0,0893 b) Std(x9)=Std(x)/√n=6,667 xarith.=µ+z*Std(xarith.n)=80,96 z= x-µ/δ =0,745 P(z≥0,745)=0,2281→22,81% Übungslatt 8 1. Für x aus einer dichotomen Population wurde eine einfache Zufallsstichprobe gezogen (n=10): 1, 1, 0, 0, 0, 0, 0, 0, 1, 1. Es sollen Bootstrap-Konfidenzintervalle erzeugt werden; daher wurden aus dieser Stichprobe 10 Zufallsstichproben gezogen. Der Anteil der Einsen in diesen Stichproben war jeweils: 0.3, 0.4, 0.3, 0.1, 0.7, 0.5, 0.4, 0.3, 0.3, 0.5. a) Berechnen Sie das 80%-Bootstrap-Konfidenzintervall für die Varianz der dichotomen Variablen: b) Berechnen Sie das 80%-Bootstrap-Konfidenzintervall für den Mittelwert der dichotomen Variablen: 2. Mittelwerttests: Bestimme für alle der folgenden Testangaben den kritischen Bereich. (falls nicht anders angegeben α = 0,05) Wenn möglich, dann gib auch den Fehler 2.Art und die Macht des Tests an. a) Ho:=100; Ha:=98 ; σx=10 ; n=16 b) Ho:=100; Ha:=98 ; σx=10 ; n=16 für 1%Signifikanzniveau c) Ho:=100; Ha:=90 ; σx=10 ; n=16 d) Ho:=0; Ha:=-0,1 ; σx=0,5 ; n=25 e) Ho:=10; Ha:=5 ; σx=1 ; n=2 f) Ho:=100; Ha:=102 ; σx=10 ; n=16 g) Ho:=20; Ha:=22 ; σx=2 ; n=4 h) Ho:=9; Ha:=12 ; σx=0,1 ; n=100 i) Ho:=100; Ha:>100 ; σx=16 ; n=100 j) Ho:=100; Ha:≠100 ; σx=8 ; n=20 k) Ho:=100; Ha:≠100 ; σx=8 ; n=25 Nicht vergessen: jedesmal den Standardfehler berechnen (σ/√n)! Originalaufgabe aus „Einführung in die Statistik“, WS 00/01 3. Der Anteil der Studenten, die ohne gründliche Vorbereitung zur Klausur antreten (H0), ist 0.40. Die Alternativhypothese sei: Dieser Anteil ist 0.20. Von 50 untersuchten Studenten gaben 30% zu, sich auf die Klausur nicht gründlich vorzubereiten. Teststatistik: Anzahl der Studenten, die sich auf die Klausur nicht gründlich vorbereiten. Konstruieren Sie einen Test der H0-Hypothese. a. Welche Verteilung hat die Teststatistik? b. Kritischer Bereich? c. Exaktes alpha? Wird H0 verworfen? d. Macht des Tests? Originalaufgabe aus „Einführung in die Statistik“, WS 00/01 4. Die jährliche Steuer pro Person in DM sei normalverteilt, mit einer Standardabweichung = 1000 (in der Population). Der Mittelwert soll auf Grund einer Stichprobe geschätzt werden. a. Wie groß sollte n (Stichprobengröße) sein, damit das 95%-Konfidenzintervall nur 100 DM breit ist? Die jährliche Steuer pro Person in DM sei normalverteilt, mit einer Standardabweichung = 2000 (in der Population). Der Mittelwert soll auf Grund einer Stichprobe geschätzt werden. b. Wie groß sollte n (Stichprobengröße) sein, damit das 95%-Konfidenzintervall nur 100 DM breit ist? 1. a) sortierte Liste der Var(x)=л(1-л) (i) (1) (2) (3) (4) (5) (6) xi 0,09 0,21 0,21 0,21 0,21 0,21 1. Dezil: 0,15 9. Dezil: 0,25 80% bootstrap-Konfidenzintervall (0,15;0,25) b) sortierte Liste der Mittelwerte (i) (1) (2) (3) (4) (5) (6) (7) xi 0,1 0,3 0,3 0,3 0,3 0,4 0,4 1. Dezil: 0,2 9. Dezil: 0,6 80% bootstrap-Konfidenzintervall (0,2;0,6) 2. Kritischer Bereich a) 95,8875 und kleiner b) 94,175 und kleiner c) 95,8875 und kleiner d) -0,1645 und kleiner e) 8,8368 und kleiner f) 104,1125 und größer g) 21,645 und größer h) 9,01645 und größer i) 102,638 und größer j) 103,50622 und größer; 96,493778 und kleiner k) 103,136 und größer; 96,864 und kleiner 3. a) H0: л0=0,4 Ha: лa=0,2 b) α=0,05 linksseitig c) exaktes α=0,028 KB:{0,...,13} d) p=0,2 n=50 Tab. B (7) 0,24 (8) 0,5 Fehler 2. Art 0,7995 0,9370 0,0094 0,7389 0 0,7995 0,3632 0 nicht möglich nicht möglich Macht des Tests 0,2005 0,0630 0,9906 0,2611 1 0,2005 0,6368 1 nicht möglich nicht möglich nicht möglich nicht möglich Binominalverteilung л=0,3→x=15 →H0 wird akzeptiert! MdT: P(x≤13)=0,8894 4. a) o0,95 – u0,95 =µ+1,96*δ/√n–(µ–1,96*δ/√n)= 100 1,96 ∙ 2000/√n = 100 →n=1536,6 1537 Leute sollten in der Stichprobe sein b) n=(z*2δ/100)²=6146,56 →6147 Leute (8) 0,24 (9) 0,25 (9) 0,5 (10) 0,7 (10) 0,25 Übungsblatt 9 Paul Illg 1. Zum Millennium - Jahreswechsel wurde eine Aufstellung darüber veröffentlicht, wie oft jede Zahl bei den Ziehungen der Lottozahlen in den Jahren von 1955 und 1999 gezogen wurde (exakt wurden alle 2803 Ziehungen zwischen dem 9.10.1955 und dem 20.11.1999 berücksichtigt). Folgender Ausschnitt aus dieser Aufstellung gibt an, wie oft die Zahlen 1 bis 10 gezogen wurden: Zahl 1: 280 mal Zahl 2: 288 mal Zahl 3: 300 mal Zahl 4: 270mal Zahl 5: 280 mal Zahl 6: 290 mal Zahl 7: 271 mal Zahl 8: 260 mal Zahl 9: 289 mal Zahl 10: 275 mal Im folgenden sollen die Ergebnisse für die Zahlen 11 bis 49 vernachlässigt werden, so als ob sie gar nicht gezogen worden wären. Zu erwarten wäre, dass jede der Zahlen 1 bis 10 gleich oft gezogen worden ist. Daher wird als Nullhypothese formuliert: Die Häufigkeit der Ziehung ist unter den Zahlen 1 bis 10 gleichverteilt. Alternativ wird behauptet: Es liegt keine Gleichverteilung vor. Überprüfe die Hypothese aufgrund der oben angegebenen Daten mithilfe eines Chi²Anpassungstestes, wobei als Teststatistik zu verwenden ist: a) Likelihood-ratio-chi² b) Pearsons –chi² Originalaufgabe aus „Einführung in die Statistik“ WS 00/01 2. Die Dauer des täglichen Zeitungslesens wurde bei 100 Studenten erhoben, das Ergebnis: Klasseneinteilung des Zeitungslesens Häufigkeit 0 bis zu 10 Minuten 40 10 bis zu 30 Minuten 40 30 bis zu 90 Minuten 10 90 bis zu 170 Minuten 10 a. Berechnen Sie die Dichten. b. Berechnen Sie Median und 2.Quintil. c. Prüfen Sie die Hypothese, dass der Anteil in allen 4 Klassen in gleich groß ist: Welcher Test muss hier angewandt werden? Wie heißt die Teststatistik? Wert der Teststatistik? Kritischer Wert der Teststatistik? 3. H0: Der durchschnittliche IQ von Studenten ist 100, Ha: Er ist ungleich 100. Es wurde eine Stichprobe gezogen und folgendes 95%-Konfidenzintervall für den Populationsmittelwert berechnet: [102,3 ; 108,7]. Wird die Nullhypothese verworfen? Falls ja, warum und zu welchem Signifikanzniveau? Wie groß war n und das Stichprobenmittel? Lösungen 1. a) LRχ²=–2nΣpiln(лi/pi)=4,47 b) Pχ²=nΣ(pi-лi)²/лi=4,46 p=1/10 df=9 α=0,05 KB:16,92< H0 beibehalten! 2. a) Dichte=hi=pi/bi i ui xi oi xi bi ni pi F(xi) hi 1 0-10 5 10 40 2/5 2/5 0,04 2 10-30 20 20 40 2/5 4/5 0,02 3 30-90 60 60 10 1/10 9/10 0,001667 4 90-170 130 80 10 1/10 1 0,00125 u +((q-F(u ))b ) m m m b) med(x)= /F(om)-F(um)=15 q=2/5 xq=(ui+oi)/2=10 d) H0:pi=лi Ha:pi≠лi LRχ²=–2nΣpiln(лi/pi)=38,55 Pχ²=nΣ(pi-лi)²/лi =36 KB:7,81< df=3 →H0 abgelehnt! 3. Ja: Das Konfidenzintervall des Testwerts überdeckt „mü“ (wo ist das auf dieser Tastatur!) nicht. alpha = 0,05 Stichprobenmittel = 105,5 n = 85 Übungsblatt 10 Paul Illg Heute mal etwas weniger Arbeit, viel Spaß 1. Es soll die Frage untersucht werden, ob Türen auf der "Stoßen-Seite" gleich abgenutzt werden wie auf der "Ziehen-Seite". Alternativ wird behauptet, dass die "Stoßen-Seite" stärker beansprucht wird. Bei acht Türen wurde ein Verschmutzungswert erhoben: 1. 2. 3. 4. 5. 6. 7. 8. Stoße 41 23 25 20 4 50 7 13 nSeite Ziehe 40 22 23 19 3 51 5 12 nSeite Prüfen Sie zuerst die Hypothese, dass die durchschnittliche Abnutzung gleich ist unter Berücksichtigung der angemessenen Alternativhypothese. a) Testwert b) Welche Verteilung hat die Teststatistik? c) Wird H0 abgelehnt? Begründung d) Bestimme den kritischen Bereich ! Prüfen Sie nun die Hypothese, dass der Verschmutzungsunterschied nur zufällig ist, bei entsprechender Alternative, dass er wohl überzufällig ist (Teststatistik: Anzahl der Türen, die auf der Stoß-Seite stärker verschmutzt sind). e) Wird H0 abgelehnt bei 8 positiven Antworten? Begründung f) Bestimme den Kritischen Bereich g) Welche Verteilung hat die Teststatistik? Lösungen 47. a) sd=√((1/n–1)Σdj²–nđ²)=0,9258 TW=đ–µ0/(sd/√n)=3,0553 df=7 b) Student-t-Verteilung c) H0 wird abgelehnt, 3,0553 im Kb liegt. d) KB: 1,9< e) TW=8 liegt im KB →H0 wird verworfen! f) α=0,05 exaktes α=0,0352 KB:[7;8] Tab. A (von hinten aufaddieren) g) Binominalverteilung Übungsblatt 11 von Paul Illg 49. Das geschlechtsspezifische Kaufverhalten in Bezug auf Schuhe soll untersucht werden. Hierzu wurden 20 Männer und 50 Frauen nach der Anzahl der Schuhpaare, die sie durchschnittlich pro Jahr einkaufen, befragt. Die Stichprobe ergab für die Männer einen Mittelwert von 3, bei einer Standardabweichung von 2 und für die Frauen einen Mittelwert von 7, bei einer Standardabweichung von 4. Nullhypothese: Das Kaufverhalten unterscheidet sich nicht zwischen Männern und Frauen. Alternativhypothese: Frauen kaufen mehr Schuhe. a) erstelle je ein 95%-Konfidenzintervall für die Populationsmittelwerte der Männer und Frauen. b) berechne den Determinationskoeffizienten 1. Art. Test und Konfidenzintervall der Mittelwertdifferenz unter der Annahme: Die Populationsstandardabweichungen seien gleich. c) Testverteilung? Freiheitsgrade? d) Kritischer Bereich? e) Testwert? Wird Ho abgelehnt? f) Berechne ein Konfidenzintervall für die Differenz der Populationsmittelwerte. g) Welche Differenzhypothesen würden akzeptiert werden? Test und Konfidenzintervall unter der Annahme: Die Populationsstandardabweichungen seien verschieden. h) Testverteilung? Freiheitsgrade? i) Kritischer Bereich? j) Testwert? Wird Ho abgelehnt? k) Welche Differenzhypothesen würden akzeptiert werden? 52. Bei acht Personen mit Schlafstörungen soll mittels einer Therapie die Schlafdauer verlängert werden. Die Patienten werden drei verschiedenen Therapeuten zugeteilt. Folgende Statistik wird erhoben: Therapeut A 2 2 5 Schlafdauer in h vorher Schlafdauer 4 in h nachher 4 6 Therapeut B 2 4 6 Therapeut C 4 7 4 6 6 6 6 Zu überprüfen sind die folgenden Hypothesentests: (Beachte, dass für keinen der Tests alle in der Tabelle enthaltenen Informationen verwendet werden müssen. Stelle fest, um welchen Test es sich jeweils handelt!) a) H0: Die Therapiegruppen der Therapeuten A, B und C unterscheiden sich im Durchschnitt nicht hinsichtlich der Schlafdauer, die die jeweiligen Patienten vor Beginn der Therapie angaben. HA: H0 ist falsch. b) H0: Die einzelnen Patienten schlafen nach der Therapie im Durchschnitt zwei Stunden länger. (So wird es von den Therapeuten angepriesen). HA: Die durchschnittliche Verbesserung des Schlafes beträgt weniger als zwei Stunden. c) H0: Der Anteil derjenigen Patienten, bei denen sich eine längere Schlafdauer einstellt, ist 0.5 (d.h. eine Schlafverbesserung ist rein zufällig). HA: Der Anteil derjenigen Patienten, bei denen sich eine längere Schlafdauer einstellt, ist größer als 0.5 (d.h. eine Schlafverbesserung ist nicht zufällig). d) H0: Die durchschnittliche Schlafdauer nach Ende der Therapie ist 6 Stunden. HA: Die durchschnittliche Schlafdauer nach Ende der Therapie beträgt weniger als 6 Stunden. Lösungen 1. a) m-KI: ўm±t>0,95<(df)*sm/√nm=[2,0653 ; 3,9346] w-KI: ўw±t>0,95<(df)*sw/√nw=[5,8629 ; 8,1370] b) ssq(within)=(n1-1)s1²+(n2-1)s2²=860 ssq(between)=Σniўi²-nў²=228,6065 ssq(total)=ssq(within)+ssq(between)=1088,606 η²=ssq(between)/ssq(total)=0,21 c) Student-t-Verteilung df=nm+nw-2=68 d) KB<-1,68 e) spool²=(n1-1)s1²+(n2-1)s2²/n1+n2-2=3,5563 s=ў1-ў2=spool*√(1/n1+1/n2)=0,9409 TW=(ў1-ў2)-µ0/s=ў1-ў2=-4,2512 → H0 abgelehnt! f) KI: (ў1-ў2)±t>0,95<(df)* s=ў1-ў2=[-5,8912 ; 2,1087] g) Alle, deren Testwert im Bereich des KI liegt! h) Student-t-verteilung df=(s1²/n1+s2²/n2)²/(s1²/n1)²/(n1-1)+(s2²/n2)²/(n2-1)=64,45 i) KB<-1,68 j) s≠ў1-ў2=√(s1²/n1)+(s2²/n2)=0,7211 TW=(ў1-ў2)-µ0/s≠ў1-ў2=-5,5470 TW im KB → H0 abgelehnt! k) KI: (ў1-ў2)±t>0,95<*s≠ў1-ў2)=[-5,4494 ; -2,5506] 2. a) Varianzanalyse H0: µ1=µ2=µ3 Ha: H0 ist falsch. df1=I-1=2 df2=n-I=5 Σn ў ²-nў² η²*df2 i i η²= /ΣΣyij²-nў²=0,2885 TW=F(df1,df2)= /(1-η²)*df1=1,0136 Tab. F KB: 5,97< TW nicht imKB. →H0 wird beibehalten! b) Vergleich zweier Mittelwerte, bei verbundenen Stichproben H0: µ1-µ2=-2=µ0 H0: µ1-µ2>-2 df=n-1=7 TW=đ=-1,25 δ unbekannt → Student-t-Verteilung KB rechtsseitig sd²=1/n–1Σdi²ni–nđ²=1,357 µ0+t0,95<(df)sd/√n →KB>-1,22 TW nicht im KB. →H0 wird beibehalten! c) Binominaltest H0: л0=0,5 Ha: лa>0,5 TW=6 KB rechtsseitig Tab. B exaktes α=0,0352 KB≥7 TW nicht im KB → H0 wird beibehalten! Schlafverbesserung ist rein zufällig! d) Mittelwerttest H0: µ0=6 Ha: µa<6 df=n-1=7 xarith.=5,25 δ unbekannt → Student-t-Verteilung KB linksseitig 1 sn-1=√( /n–1Σxi²–nxarith.²)=1,035 µ0+t>0,95(df) sn-1/√n → KB<5,30 TW im KB → H0 wird abgelehnt! Übungsblatt 12 von Paul Illg 50. Wie viel Kilowatt können durch Energiesparlampen durchschnittlich pro Woche eingespart werden? Für eine Stichprobe von fünf Haushalten wurden folgende Ergebnisse erzielt: Haushalte: 1 2 3 4 5 Kw/Woche mit üblichen Lampen 24 40 10 20 30 Kw/Woche mit Energiesparlampen 20 36 11 16 26 a. Berechnen Sie das 95%Konfidenzintervall für die Differenz der Populationsmittelwerte. b. Berechnen Sie das für diesen Fall adäquate PRE-Maß. Wie heißt dieses PRE-Maß? c. Testen Sie H0: Populationsmittelwerte sind gleich (Alternative: ungleich) Testwert? Kritischer Bereich? Wird H0 abgelehnt? Warum? 51. Die durchschnittliche häusliche Arbeitszeit (in Stunden) für 2 Wohnarten werden verglichen. Wohnart Stichproben: zu Hause WG Mittelwert : 10 20 Standardabweichung: 2 2 Stichprobengröße: 10 20 Die Populationsstandardabweichungen seien gleich. a. Berechnen Sie das Konfidenzintervall für den Mittelwert jeder Gruppe. b. Berechnen Sie das Konfidenzintervall für die Differenz der Populationsmittelwerte. c. Testen Sie H0: Populationsmittelwerte sind gleich (Alternative: ungleich) Kritischer Bereich: Wird H0 abgelehnt? Warum? d. Berechne das PRE-Maß. Charakterisiere die Regel mit und die Regel ohne xMerkmal. 58. Bei Lehrern verschiedener Fächer (=x) wurde erhoben, wie viel Zeit sie für die Vorbereitung des Unterrichtes in einem Monat benötigen (Normalverteilungs- und Homoskedastizitätsannahmen seien OK). Die Daten: Mathematik Deutsch Englisch y-Mittelwert 15 30 25 y-Standardabweichung 5 10 8 Anzahl Befragter 25 30 20 Untersuche zur Prädiktion die Mittelwertregel! a) Berechne das geeignete PRE-Maß, wie heißt es? b) Charakterisiere genau die Prädiktionsregel (OHNE Fach) und die Prädiktionsregel (MIT Fach). c) Wie groß sind die Fehler (OHNE Fach) und Fehler (MIT Fach)? Teste die Hypothese, dass die Populationsmittelwerte gleich seien: d) Wert der Teststatistik? e) Kritischer Bereich, Freiheitsgrade? f) Wird die Hypothese abgelehnt? 53. In Konstanz werden in vier Buslinien jeweils drei zufällig ausgewählte Personen nach ihrem Alter befragt. Dabei werden folgende Resultate festgestellt: Buslinie Alter der Fahrgäste Linie 1 (Autofähre) 34 56 75 Linie 6 (PLK Reichenau) 27 45 63 Linie 9 (Uni) 20 25 30 Linie 10 (Friedhof) 65 80 80 a) Führe folgenden Test durch: H0: Das Alter der Fahrgäste unterscheidet sich nicht für die verschiedenen Buslinien. HA: H0 ist falsch. b) Gib insbesondere an: Testverteilung ? Testwert ? Kritischer Bereich ? c) Berechne ² und interpretiere es. d) Berechne im Sinne des PRE-Konzepts den Fehler (OHNE). Um welche SSQ handelt es sich? Erstelle eine Tabelle, die auch in einem Computerausdruck zu finden sein könnte, und deren Spalten überschrieben sind mit „source of variance“, „SSQ“, „df“ und „MSQ“. Lösungen 50. a) đ=Σdi/nd=3 sd=√(1/n–1Σdj²–nđ²)=2,2361 df=n-1=4 KI: darith.±t>0,95<(df)* Std(đ)=[0,22 ; 5,78] b) Determinationskoeffizient 1. Art für verbundene Stichproben ηv²=n*đ²/Σdj²=0,6923 →Fehlerreduktion um 69,23% c) H0: µ1-µ2=0 µ1=µ2 Ha: µ1-µ2≠0 µ1≠µ2 TW=đ-µ0/Std(đ)=3 → H0 wird abgelehnt! Std(đ)=sd/√n=1 51. a) df=n1-1=9 Std(ў1)=s1/√n1=0,6325 1-KI: ў1±t0,975<(df)* Std(ў1)=[8,57 ; 11,43] df=n2-1=19 Std(ў2)=s2/√n2=0,4472 2-KI: ў2±t0,975<(df)* Std(ў2)=[19,07 ; 20,93] b) d=-10 df=n1+n2-2=28 spool²=(n1-1)s1²+(n2-1)s2²/n1+n2-2=4 s=ў1-ў2=spool*√(1/n1+1/n2)=0,7746 KI: d±t0,975<(df)* s=ў1-ў2=[-11,59 ; -8,41] c) H0: µ1=µ2 Ha: µ1≠µ2 α=0,05 TW=(ў1-ў2)-µ0/s=ў1-ў2=-12,91 KB: beidseitig 2,05 → H0 wird abgelehnt, da TW im KB! d) Regel(Mit x): ŷ1:=10 ŷ2:=20 Regel(Ohne x): ŷ:=16,667 ssq(within)=(n1-1)s1²+(n2-1)s2²=112 ssq(between)=Σniўi²-nў²=663,3 ssq(total)=ssq(within)+ssq(between)=775,3 η²=ssq(between)/ssq(total)=0,8555 → Fehlerreduktion um 85,55% 58. a) ssq(between)=Σniўi²-nў²=3116,667 ssq(within)=(n1-1)s1²+(n2-1)s2²=4716 ssq(total)=ssq(between)+ssq(within)=7832,667 Determinationskoeffizient 1. Art η²=ssq(between)/ssq(total)=0,3979 b) Regel(OHNE): ў=23,67 Regel(MIT): ў1=15 ў2=30 ў3=25 c) Fehler(OHNE)=ssq(total)=7832,667 Fehler(MIT)=ssq(within)=4716 ssq(between)*df2 d) TW=F(df1,df2)= /ssq(within)*df1=24,173 e) df1=I-1=2 df2=n-I=72 KB>3,13 f) H0 wird abgelehnt! 53. a) H0: alle x sind gleich Ha: H0 ist falsch. F=6,15 F im KB → H0 wird abgelehnt! b) F-Verteilung TW=F(df1,df2)=η²*df2/(1-η²)*df1 KB rechtsseitig α=0,05 df1=I-1=3 df2=n-I=8 Tab. F KB>4,07 c) ў1=55 ў2=45 ў3=25 ў4=75 ў=50 Σn ў ²-nў² i i η²= /ΣΣyij²-nў²=0,6977 → Mit x reduziert sich der Fehler um 69,77% d) Fehler(Ohne x)=ssq(total)=ΣΣyij²-nў²=5590 e) Variationsquelle SSQ df MSQ Buslinie 3900 3 1300 Fehler 1690 8 211,25 Total 5590 11 508,18 Übungsblatt 12 von Paul Illg 1. Bei fünf Personen wird untersucht, wie viele Zigaretten sie am Tag rauchen und wie viel Stunden Sport sie in der Woche treiben. Die Ergebnisse: Person 1 2 3 4 5 Zigaretten 0 0 5 10 40 Sport 0 1 1 4 0 a) Erstelle die Regressionsgerade y = a + bx für den Zusammenhang zwischen Zigarettenkonsum und Sport. b) Sind die Regressionskoeffizienten a und b signifikant ? c) Erstelle 95 %-Konfidenzintervalle für a und b. 2. Der Computerausdruck einer Regressionsanalyse weist folgende Werte aus: Cov(X,Y) = 6, (Var(X)) = 2, (Var(Y)) = 10. Ferner ist bekannt, dass beim t-Test für die Regressionskoeffizienten jeweils 198 Freiheitsgrade festgestellt werden können. a) Wie groß ist n ? b) Berechne die Korrelation. c) Ist diese Korrelation signifikant ? d) Berechne die obere und die untere Grenze eines 95 %-Konfidenzintervalls für die Korrelation. e) Berechne die obere und die untere Grenze eines 99 %-Konfidenzintervalls für die Korrelation. 3. Es soll untersucht werden, ob bzw. in welchem Maße der Zeitschriftenkonsum von der Altersgruppe abhängt. Dafür wurden 100 Menschen verschiedener Altersgruppe befragt, ob sie eine Zeitschriftabonniert haben oder nicht. Hier sind die x-bedingten Anteile: Ja Nein Randhäufigkeit Kinder und Jugendliche 0,2 0,8 0,2 Junge Erwachsene 0,6 0,4 0,4 „bestes Alter“ 0,3 0,7 0,4 Teste mit alpha = 0,05 die Alternativhypothese: Zeitschriftenkonsum und Lebensalter sind nicht unabhängig: a) Berechne die gemeinsamen Anteile. b) Welcher Anteil aller Befragten hat eine Zeitschrift abonniert? c) Berechne aus den Randanteilen die gemeinsamen Anteile, die man erwarten würde, wenn man Unabhängigkeit annimmt. d) Teststatistik? e) Verteilung unter H0? f) Kritischer Bereich? g) Testwert? H0 verworfen? Lösungen 1. a) I x y x² y² xy 1 0 0 0 0 0 2 0 1 0 1 0 3 5 1 25 1 5 4 10 4 100 16 40 5 40 0 1600 0 0 Σ 55 6 1725 18 45 n=5 x=11 ў=1,2 Var(x)=280 Var(y)=2,7 Cov(xy)=-5,25 b=-0,01875 a=1,40625 y=1,40625-0,01875x b) H0: α=β=0 Ha: α≠0≠β s=√((n-1/n-2)(Var(y)-Cov²(xy)/Var(x)))=1,8624 b-TW=β-µ0/se/√((n-1)Var(x))=-0,3369 df=3 KB : ±3,18 a-TW=α-µ0/se*√(1/n+xarith.²/(n-1)*sx²)=1,36 → α & β sind nicht signifikant! c) df=3 β±t>0,95<(df)se/√(n-1)sx²=[-0,1957 ; 0,1582] α±t>0,95<(df)se*(√(1/n+xarith.²/(n-1)*sx²))=[-1,8807 ; 4,6932] 2. a) n=df+2=200 b) rxy=Cov(xy)/√(Var(x)Var(y))=0,3 c) H0: ρ=0 Ha: ρ≠0 Stf(ρ)=0,07125 z(r)=0,31 z(r)-z(ρ) TW= /Stf(ρ)=4,35 → Ja, r ist signifikant! -1 d) KI: z (z(r)±z>0,95<√(1/n-3))=[0,167 ; 0,42] e) KI: z-1(z(r)±z>0,99<√(1/n-3))=[0,125 ; 0,456] 3. a) Kinder Erwachsene Alte Ja 0,04 0,24 0,12 0,4 Nein 0,16 0,16 0,28 0,6 0,2 0,4 0,4 Ja 0,08 0,16 0,16 0,4 Nein 0,12 0,24 0,24 0,6 0,2 0,4 0,4 b) 0,4 c) Kinder Erwachsene Alte d) Pχ² e) χ²-Verteilung f) df=(I-1)*(J-1)=2 KB>5,99 g) TW=Pχ²=n(ΣΣ(pij²/лij)-1)=11,667 → H0 wird abgelehnt! Übungsblatt 13 - Aufgaben 1. Untersucht wird, ob Kochkenntnisse einen Einfluss auf Mensaessen haben. isst in der Mensa kann sehr gut kochen 2 kann zur Not schon kochen 6 kann überhaupt nicht 10 kochen isst nicht Mensa 8 4 0 in der a) Erstelle eine Tabelle mit gemeinsamen Anteilen und Randanteilen. b) Erstelle eine Tabelle mit zeilenbedingten Anteilen. c) Erstelle eine Tabelle mit spaltenbedingten Anteilen. d) Wie sähe die Tabelle der gemeinsamen Anteile aus, wenn zwischen Kochkenntnissen und Mensaessen kein Einfluss bestünde ? (= Tabelle unter Unabhängigkeit) e) Führe einen ²-Test durch. (Stelle speziell fest: ²-Wert ? Anzahl df ? Kritischer Bereich ? Wie lautet bei einem bivariaten ²-Test die Nullhypothese ?) f) Erstelle ein strukturiertes Staffeldiagramm. g) Berechne Phi-Quadrat und Cramers v. h) Gib für jedes der drei PRE-Maße (lambda, tau und PRU) den Fehler(ohne) und den Fehler(mit) an. Berechne daraus auch jeweils das PRE-Maß selbst. Originalaufgabe aus der Nachklausur „Statistik II für Soziologen“ WS 1989/90 2. Bei einer Stichprobe erhielt man folgende Häufigkeitsverteilung für die beiden Merkmale: Geschlecht und Einkommen: Einkommen DM/Woche 100 200 Geschlecht m 10 20 w 30 20 in 300 30 10 Teste die Hypothese: Die beiden Merkmale sind unabhängig. a) Testwert = Name des Werts: Freiheitsgrade = b) Kritischer Wert = H0 ablehnen ? Prüfe zusätzlich die Hypothese, dass die Frauen im Durchschnitt gleich viel verdienen wie die Männer. (Alternative: Männer verdienen im Schnitt mehr). (Zusatzbemerkung: Es liegt Homoskedastizität vor.) c) Testwert = Name des Werts: d) Kritischer Wert = H0 ablehnen ? Übungsblatt 1 - Lösungen Tutorium bei Niklas 1. a) Mensa nicht Mensa kocht 1/15 4/15 0,33 kocht eher 3/15 2/15 0,33 kocht nicht 1/3 0 0,33 0,6 0,4 1 b) Mensa nicht Mensa kocht 0,2 0,8 1 kocht eher 0,6 0,4 1 kocht nicht 1 0 1 0,6 0,4 1 c) Mensa nicht Mensa kocht 0,11 0,66 0,33 kocht eher 0,33 0,33 0,33 kocht nicht 0,55 0 0,33 1 1 1 d) Mensa nicht Mensa kocht 0,2 0,13 0,33 kocht eher 0,2 0,13 0,33 kocht nicht 0,2 0,13 0,33 0,6 0,4 1 e) H0: лij=лi∙*л∙j Ha: лij≠лi∙*л∙j df=(I-1)*(J-1)=2 TW=Pχ²=n(ΣΣ(pij²/лij)-1)=13,3 KB>5,99 → H0 wird abgelehnt! g) φ²= Pχ²/n=0,44 K=min(I,J)-1=1 υ= √(φ²/K)=0,66 h) λ: F(M)=1-max(pij)=0,2 F(O)=1-max(p∙j)=0,4 λ=1-F(M)/F(O)=0,5 τ: F(M)=Σpi∙*(1-Σpīj²)=0,264 F(O)=1-Σp∙j²=0,48 τ=1-F(M)/F(O)=0,45 PRU: F(M)=Σpi∙*(-Σpījlnpīj)=0,3871 F(O)=-Σp∙jlnp∙j=0,673 PRU=0,425 2. a) TW=Pχ²=n(ΣΣ(pij²/лij)-1)=20 df=(I-1)*(J-1)=2 b) KB>5,99 → H0 wird abgelehnt! c) s1²=1/n-1(Σxi²-nxarith.²)=5650=s2² spool²=(n1-1)s1²+(n2-1)s2²/n1+n2-2=75,16 s=ў1-ў2=spool*√(1/n1+1/n2)=13,72 TW=t(df) für unverbundene Stichproben=(ў1-ў2)-µ0/s=ў1-ў2=4,68 d) KB>1,66 → H0 wird abgelehnt!