Einführung in die Statistik – Übungsblatt 1 Paula Perkuhn, Besprechung am 08.11. 1. Bei einem Gedächtnisexperiment werden 40 Probanden 30 Gegenstände vorgelegt, die sie hinterher auswendig niederschreiben sollen. Die folgende Aufzählung listet auf, an wie viele der Gegenstände sich jeder einzelne Proband erinnert hat: 12 14 15 11 20 9 16 14 23 6 12 18 0 22 13 19 14 14 15 20 16 29 17 6 12 1 2 8 10 10 14 10 30 11 22 12 12 22 9 14 a) Erstelle die Urliste, die sortierte Liste und die Häufigkeitsverteilung. b) Wie viel Prozent der Probanden haben sich an 20 oder weniger Gegenstände erinnert? In welcher Liste lässt sich das am besten ablesen? c) Angenommen aus den Daten des Experimentes soll letztlich die durchschnittliche Gedächtnisleistung (Mittelwert) der 40 Probanden berechnet werden: Welches Skalenniveau muss vorliegen, damit diese Rechenoperation sinnvoll ist? 2. Studenten werden nach dem Mensabesuch gefragt, welches Essen sie gewählt haben. 12 Befragte haben Stammessen genommen, 6 Wahlessen, 6 Salat und 3 Eintopf. a) Welches Skalenniveau liegt vor (gewähltes Essen)? b) Erstelle die Verteilung (Tabelle). Wie groß ist n, wie groß ist I? c) Ist es sinnvoll, in dieser Verteilung kumulierte Anteile auszuweisen? (kurze Begründung) 3. Im Folgenden sind einige Merkmale aufgelistet, die bei einer Umfrage erhoben werden könnten: ● ● ● ● ● ● a) b) Soziale Schicht Einkommen in Euro Körpergröße Augenfarbe Konfession Anzahl der Studenten in einer Übung Welche dieser Merkmale sind qualitativ, welche quantitativ? Handelt es sich jeweils um stetige oder diskrete Daten? Einführung in die Statistik – Übungsblatt 2 Paula Perkuhn, Besprechung am 08.11. 1. Bei 20 Versuchspersonen wurde die Reaktionszeit in ms gemessen. Hier ist die sortierte Liste: 265, 265, 270, 271, 272, 272, 272, 272, 279, 279, 280, 284, 285, 285, 301, 317, 317, 318, 319, 319. a) Handelt es sich um diskrete oder stetige Daten? b) Erstelle die Häufigkeitsverteilung, die Angaben über die xi, ni, die relativen Anteile und die kumulierten Anteile enthält. c) Zeichne den Graphen der Dichtefunktion f(x) und der Verteilungsfunktion F(x). d) Erstelle ein weiteres Diagramm, welches zur Darstellung der Daten sinnvoll ist. e) Fasse die Daten sinnvoll zu Klassen zusammen. Erstelle die neue Häufigkeitstabelle und zeichne den Graphen der Dichtefunktion. 2. 100 Probanden wurden gefragt, wieviel sie sich die nächste Silvesternacht kosten lassen wollen. Folgende Daten wurden erhoben: Geldbetrag 0 bis 50 Euro 50 bis 100 Euro 100 bis 200 Euro 1000 bis 2000 Euro Anzahl Personen 10 80 9 1 a) Berechne die Anteile und die kumulierten Anteile. b) Zeichne den Graphen der Dichtefunktion f(x) und der Verteilungsfunktion F(x). c) Erläutere kurz an einer deiner Zeichnungen, was unter dem Prinzip der Flächentreue verstanden wird. 3. Die Blutgruppen sind in Europa folgendermaßen verteilt: A 40% 0 40% B 15% a) Stelle die Daten durch mindestens 2 geeignete Diagramme dar. b) Ist die Berechnung kumulierter Anteile hier sinnvoll? Warum? AB 5% Einführung in die Statistik – Übungsblatt 3 Paula Perkuhn, Besprechung am 15.11. 1. Um das Sozialverhalten von Studenten besser einschätzen zu können, werden 8 Studenten danach befragt, wie viele Personen sie zu ihrer letzten Geburtstagsfeier eingeladen haben. Es wurden folgende Angaben gemacht (ein Wert pro befragtem Student): 10 10 34 16 1 16 0 150 c) d) e) f) g) h) Erstelle die Verteilung (Tabelle) mit allen notwendigen Angaben. Bestimme die Extremwerte (Maximum, Minimum) und den Modalwert. Berechne das arithmetische Mittel. Berechne Median und 2. Terzil Berechne das 3. Quartil und den oberen Hinge. Berechne das 2. Quintil, das 4. Dezil und das 40. Perzentil. 2. Mittelwert/Median: a) Gegeben seien 10 beliebige Werte. Berechnet werden soll sowohl das arithmetisches Mittel als auch der Median. - Muss das arithmetische Mittel zwingend identisch mit einem der 10 Werte sein? Kann es identisch mit einem der 10 Werte sein? - Muss der Median zwingend identisch mit einem der 10 Werte sein? Kann er identisch mit einem der 10 Werte sein? b) Gegeben seinen 9 Werte. Berechnet werden soll sowohl das arithmetische Mittel als auch der Median. - Muss das arithmetische Mittel zwingend identisch mit einem der 9 Werte sein? Kann er identisch mit einem der 9 Werte sein? - Muss der Median zwingend identisch mit einem der 9 Werte sein? Kann er identisch mit einem der 9 Werte sein? 3. Gegeben sei folgende Tabelle: I 1 2 3 Xi 14 19 15 Berechne hierfür: a) Die Extremwerte c) Das 5.Dezil e) Das arithmetische Mittel g) Modalwert 4 13 5 12 6 14 7 15 8 13 9 20 b) Den Median d) Das 2.,3. und 4.Quintil f) Hinges und Eights 4. Gegeben iat folgende Urliste über die Anzahl an Geschwistern (diskret, quantitativ): 1; 1; 2; 2; 0; 3; 2; 1; 1; 1; 0; 1; 0; 0; 0; 1; 3; 1; 2; 2; 0; 0; 0; 1; 1 a) Erstelle jeweils die Häufigkeitsverteilung und zeichne ein Schaubild von f(x). b) Bestimme für die obigen Merkmale die folgenden Lagemaßzahlen: d) Modalwert e) Median f) 1. und 3. Quartil g) Hinges und Eights h) Arithmetisches Mittel 5. Gegeben sind folgende Messwerte: 190, 191, 194, 185, 186, 189, 189, 184, 184, 175, 178, 170, 174, 174, 165, 167 Teile die Daten in 6 Klassen ein und erstelle ein Stamm & Blatt- Diagramm! 10 15 Einführung in die Statistik – Übungsblatt 4 Paula Perkuhn, Besprechung am 22.11. mit Lisa Sezer als Vertretung i) Dracula sagt: „Die Verteilung der Länge meiner Zähne ist rechtsschief.“ Die sichtbare Zahnlänge in mm gibt Draculas Dentist wie folgt an: 7,6 7,8 7,7 7.8 7.8 7.9 34,6 10,1 10,2 10,2 10,0 35,5 7,9 7,8 7,7 7,6 7,6 7,8 7,9 8,1 8,2 31,7 10,0 10,0 10,0 10,1 32,1 8,1 8,1 7,8 7,8 7,7 c) Zeichne den Boxplot der Verteilung der Zahnlängen d) Berechne die Varianz der Verteilung (es handele sich bei den Daten um eine Population ! ) e) Angenommen, man mißt Dracula’s Zähne in Zoll (1 Zoll=2,31 cm), wie groß wäre dann die Varianz ? f) Berechne die Schiefe der Verteilung (für Maßeinheit mm) 2. Bekannt sei, dass sich 10% der Menschen über Schneeeinbruch freuen, 50% dem Schnee indifferent gegenüber stehen und 40% traurig sind, wenn es schneit. i) Berechne die Entropie der Verteilung in Nits (in Bits) j) Berechne die qualitative Varianz k) Berechne die Modaldispersion 3. Am Ende des Monats November werden 100 Studenten befragt, an wie vielen Tagen im November sie um später als 9 Uhr aufgewacht sind. Folgende Werte werden von den Befragten angegeben: i Xi pi 1 0 0.2 2 3 0.15 3 9 0.2 4 11 0.3 5 21 0.05 6 30 0.1 ● ● c) Berechne die Varianz der Verteilung Angenommen, man zieht weiter 100er Stichproben aus der Population der Studenten, wie groß wäre dann der Standardfehler des arithmetischen Mittels ? (=Die Standardabweichung der Verteilung der Mittelwerte) Berechne die mittlere Quadrierte Abweichung der Werte voneinander 4. Bei sechs Schulkindern wird erhoben, wie viele Fernsehsendungen sie pro Woche ansehen. Es kommt zu folgenden Ergebnissen (pro Schulkind eine Angabe für die Anzahl der Sendungen): 20 40 5 40 20 0 d) e) f) g) Berechne das arithmetische Mittel. Berechne getrimmtes und winsorisiertes Mittel für q=0,2 Berechne die Spannweite. Berechne den H-spread. 5. Der Weg der Radfahrer von zu Hause zur Arbeitsstätte wurde untersucht: Distanz Anzahl 0 bis zu 1 Kilometer 5 1 bis zu 10 Kilometer 5 a) b) c) d) Berechne die Dichten. Berechne kumulierte Anteile. Berechne den Mittelwert. Berechne das 1. Quartil. Lösungen zu Übungsblatt 4 1.a) Zeichnung wird im Tutorium besprochen; Median = 8; unterer Hinge = 7,8; oberer Hinge = 10,05;unterer innerer Zaun von 7,8 bis 4,425; unterer äußerer Zaun von 4,425 bis 1,05; oberer innerer Zaun von 10,05 bis 13,425; oberer äußerer Zaun von 13,425 bis 16,8 b) Da es sich um eine Population handelt wird durch n geteilt; Var(X) = (6533,14 – (32 * 134,56)) / 32 = 69,60 Berechnung bei vielen Taschenrechnern direkt, ohne Zwischenschritte möglich! c) Zoll = 0 + 2,31X; Var(Zoll) = (2,31)2 * Var (X) = 371,3959 d) schiefe (X) = (11,6 – 8) / 8,3427 = 0,4315; die Verteilung ist rechtsschief 2.a) h(X) = -(0,1ln0,1 + 0,5ln0,5 + 0,4ln0,4) = 0,9433; h(X)b = h(X)/ln2 = 1,3610 b) qv = 1 – (0,12 + 0,52 + 0,42) = 0,58 c) md = 0,5 3.a) Var(X) = (100(9,62 * 0,2 + 6,62 * 0,15 + 0,62 * 0,2 + 1,42 * 0,3 + 11,42 * 0,05 + 20,42 * 0,1)) / 99 = 74,48 b) Stf = Std(X) / √n = 0,8630 c) mqa = 2 * Var(X) = 148,9697 4.a) 20,833 b) z = n * q = 1,2; getri. Mittel: (5 + 20 + 20 + 40) / 4 = 21,25; wins. Mittel: (5 + 5 + 20 + 20 + 40 + 40) / 6 = 21,67 c) sp = 40 d) unterer Hinge = 5; oberer Hinge = 40; H-Spread = 35 5.a) h1 = 0,5; h2 = 0,0556 b) F(x1) = 0,5; F(x2) = 1 c) (0,5 * 5 + 5,5 * 5) / 10 = 3 d) 0 + ((0,25 – 0) * 1) / (0,5 – 0) = 0,5 Einführung in die Statistik – Übungsblatt 5 Paula Perkuhn, Besprechung am 29.11. 1. In einer Urne befinden sich 6 Kugeln, die mit den Zahlen 1 bis 6 nummeriert sind. Wie viele Möglichkeiten gibt es, j) nacheinander drei Kugeln mit Zurücklegen zu ziehen? k) nacheinander drei Kugeln ohne Zurücklegen zu ziehen? l) Drei Kugeln auf einmal zu ziehen ? 2. In einer Urne befinden sich 6 Kugeln, die mit den Zahlen 1 bis 6 nummeriert sind. Wie groß ist die Wahrscheinlichkeit, g) dass unter drei mit einem Griff gezogenen Kugeln sowohl die 1 als auch die 2 dabei sind? h) dass bei dreimaligem Ziehen mit Zurücklegen die erste Kugel 1 und die zweite auch 1 ist? i) dass bei dreimaligem Ziehen mit Zurücklegen keine 1 dabei ist? j) dass bei dreimaligem Ziehen ohne Zurücklegen die erste Kugel 2 und die zweite 1 ist? k) dass bei dreimaligem Ziehen ohne Zurücklegen weder die 2 noch die 3 dabei ist? 3. Wie viele Möglichkeiten gibt es, l) fünfmal eine Münze zu werfen (und das Ergebnis in der Form ZKKZK zu notieren)? m) 7 verschiedene Bücher nebeneinander im Regal anzuordnen? n) aus 12 verschiedenen Äpfeln drei auszuwählen, egal welche Reihenfolge? o) von 100 Teilnehmern eines Wettbewerbs die Medaillenränge zu besetzen? p) aus 20 Bewerbern 4 verschiedene Stellen zu besetzen? 4. Bei einem Multiple-Choice-Test sind einer Frage 5 mögliche Antworten beigefügt, von denen aber nur 2 richtig sind. Die Wahrscheinlichkeit, dass ein Prüfling ohne Sachkenntnis zufällig die richtigen Antworten ankreuzt soll bei diesem Test nicht über 0,2 liegen. Ist diese Bedingung erfüllt? (In der Aufgabe ist angegeben, dass 2 von 5 Antworten richtig sind.) 5. Stichprobenauswahlen ● Für die Teilnahme an einem psychologischen Experiment haben sich 30 Personen gemeldet, obwohl nur zehn von ihnen berücksichtigt werden können. Wie viele Möglichkeiten gibt es, die 10er – Gruppe zusammenzustellen? ● Ein Photograph wird beauftragt, zehn Menschen zu fotografieren, die in einer Reihe nebeneinander stehen. 30 Personen melden sich für dieses Foto, aus denen er nun zehn auswählen muss: der erste, den er auswählt, soll auf dem Photo ganz links stehen, der zweite daneben usw. Wie viele mögliche Fotos können entstehen? Lösungen zu Übungsblatt 5 1. a) 6 * 6 * 6 = 63 ( = Nn mit N = Größe der Population aus der gezogen wird, n = Stichprobengröße) b) 6 * 5 * 4 c) „6 über 3“, also [6! / (3! * (6 – 3)!)] = 20 2. a) 4 / 20 b) 1/6 * 1/6 * 6/6 c) 5/6 * 5/6 * 5/6 d) 1/6 * 1/5 * 4/4 e) 4/6 * 3/5 * 2/4 3. a) 2 * 2 * 2 * 2* 2 b) 7! c) „12 über 3“, also [12! / (3! * (12 – 3)!)] d) 100 * 99 * 98 e) 20 * 19 * 18 * 17 4. (1 / „5 über 2“) = 0,1 5. „30 über 10“ = 30045015 6. 30! / 20! Einführung in die Statistik – Übungsblatt 6 Paula Perkuhn, Besprechung am 06.12. 1. Zur Wiederholung: m) Was versteht man unter einer Variable? n) Was versteht man unter einer Zufallsvariable? o) Was versteht man unter einer Statistik? p) Was versteht man unter der Realisierung einer Zufallsvariable/einer Statistik? q) Was versteht man unter einem Parameter? r) Was versteht man unter einer Wahrscheinlichkeitsverteilung? 2. Es soll mit 2 Würfeln gewürfelt werden. a) Was ist hier der Stichprobenraum, was die Größe des Stichprobenraumes? b) Die 2 Würfe sollen als Zufallsvariablen behandelt werden (Ergebnis beim ersten Wurf: X1; beim zweiten Wurf: X2); die Summe der Augenzahlen (X1+X2) ist dann eine Statistik dieser Zufallsvariablen. Was sind jeweils die möglichen Realisierungen der Zufallsvariablen? Was die möglichen Realisierungen der Statistik? c) Erstelle die Wahrscheinlichkeitsverteilung für die Statistik! 3. In einer Urne befinden sich 10 Kugeln, 3 rote und 7 grüne. Es werden mit Zurücklegen zufällig zwei Kugeln daraus gezogen. a) Wie groß ist die Wahrscheinlichkeit, dass beide Kugeln rot sind? b) Wie groß ist die Wahrscheinlichkeit, dass die erste Kugel rot, die zweite grün ist? 4. Gegeben ist eine Urne mit 3 Kugeln: a, b und c. Die Kugeln sind beschriftet, auf a steht eine 1, auf b eine 2 und auf c eine 3. Nun soll zufällig aus der Urne gezogen werden, wobei jeweils die Zahl auf der gezogenen Kugel eine Realisation x der Zufallsvariable X sei. Gib für die Population an: a) die Verteilung b) arithmetisches Mittel und Varianz Nun wird mit Zurücklegen eine Stichprobe der Größe n=2 gezogen. Berechne für die Zufallsvariable des arithmetischen Mittels c) die Wahrscheinlichkeitsverteilung d) den Erwartungswert und die Varianz. Lösungen zu Übungsblatt 6 1. Eine Variable ist der numerische Code eines Merkmals. Eine Zufallsvariable oder auch Stichprobenvariable X ist eine Variable, deren Wert durch zufällige Auswahl eines Elements (Stichprobenziehen) eindeutig bestimmt wird (z.B. kann X bei einmal Würfeln die Werte 1, 2, 3, 4, 5 oder 6 annehmen. Durch Würfeln wird der tatsächliche Wert eindeutig und durch Zufall bestimmt). Eine Statistik oder auch Stichprobenfunktion ist eine Funktion von Zufallsvariablen (z.B. Mittelwertstatistik bei Stichprobe der Größe 2 = (X1+X2)/2). Auch Statistiken sind Zufallsvariablen (z.B. Mittelwertstatistik bei 2 mal Würfeln: Der Wert der Statistik wird durch den ersten und zweiten Wurf eindeutig und zufällig bestimmt.) Die Realisierung einer Zufallsvariablen X ist das konkrete Stichprobenergebnis x. Die Realisierung einer Statistik oder auch der Wert der Statistik ist die konkrete Maßzahl bzw. der konkret berechnete Funktionswert in der Stichprobe. Ein Parameter ist eine Maßzahl in der Population. Eine Wahrscheinlichkeitsverteilung ist die Verteilung einer Zufallsvariable oder einer Statistik; hier wird jeder möglichen Realisation der Zufallsvariable oder der Statistik eine Wahrscheinlichkeit zugeordnet. 2. a) Stichprobenraum Ω enthält alle möglichen Stichproben, also Ω={(1,1);(1,2);(1,3);(1,4);(1,5);(1,6);(2,1);(2,2);(2,3);(2,4);(2,5);(2,6);(3,1);(3,2);(3,3);(3,4);(3,5);(3,6 );(4,1);(4,2);(4,3);(4,4);(4,5);(4,6);(5,1);(5,2);(5,3);(5,4);(5,5);(5,6);(6,1);(6,2);(6,3);(6,4);(6,5);(6,6)}; die Größe des Stichprobenraums # Ω erhält man durch Kombinatorik: # Ω = 6 * 6 = 36 b) mögliche Realisierungen der 2 Zufallsvariablen sind jeweils 1, 2, 3, 4, 5, oder 6. Mögliche Realisierungen der Statistik sind die Zahlen zwischen 2 und 12. c) P((X1+X2) = xi) erhält man durch abzählen: wieviele mögliche Stichproben gibt es, bei denen für die Summe der Augenzahlen xi rauskommt (günstige Fälle); wieviele mögliche Stichproben gibt es insgesamt (mögliche Fälle)? i xi P((X1+X2) = xi) P((X1+X2) ≤ xi) 1 2 1/36 1/36 2 3 2/36 3/36 3 4 3/36 6/36 4 5 4/36 10/36 5 6 5/36 15/36 6 7 6/36 21/36 7 8 5/36 26/36 8 9 4/36 30/36 9 10 3/36 33/36 10 11 2/36 35/36 11 12 1/36 36/36 3. a) 0,09; günstige Fälle: 3 * 3; mögliche Fälle: 10 * 10 b) 0,21; günstige Fälle: 3 * 7; mögliche Fälle: 10 * 10 4. a) i xi πi 1 1 1/3 2 2 1/3 3 3 1/3 b) arithmetisches Mittel: (1 * 1/3) + (2 * 1/3) + (3 * 1/3) = 2 Varianz (nach Verschiebungssatz s. Skript S. 29): [(1 + 4 + 9) – (3*4)] / 3 = 2/3 c) i xi P([(X1+X2) / 2] = xi) 1 1 (1 * 1) / (3 * 3) 2 1,5 (2 * 1) / (3 * 3) 3 2 [(2 * 1) + (1 * 1)] / (3 * 3) 4 2,5 (2 * 1) / (3 * 3) 5 3 (1 * 1) / (3 * 3) d) E(Xquer) = (1 * 1/9) + (1,5 * 2/9) + (2* 3/9) + (2,5 * 2/9) + (3 * 1/9) = 2 = arithmetisches Mittel in der Population Varianz(Xquer) = E(Xquer2) – E(Xquer)2 = [(1 * 1/9) + (2,25 * 2/9) + (4* 3/9) + (6,25 * 2/9) + (9 * 1/9)] – 4 = 1/3 = (Varianz in der Population / n) Einführung in die Statistik – Übungsblatt 7 Paula Perkuhn, Besprechung am 13.12., 17:50 – 19:20 Uhr 1.Wie lautet der zentrale Grenzwertsatz ? Wie lautet das Gesetz der großen Zahl ? 2. Ein gütiger Lehrer findet seine Noten folgendermaßen: Er würfelt mit zwei Würfeln und notiert die kleinere der beiden Augenzahlen als Note. Gib die Wahrscheinlichkeitsverteilung und den Erwartungswert an. 3. Das Gewicht von Hühnereiern in Gramm sei normalverteilt mit Mittelwert = 56 und Standartabweichung = 8. Die Eier werden in Sechserpackungen verkauft. Ein besonders eifriger Verbraucherschützer kontrolliert das Gewicht der Eier. s) Wie groß ist der Mittelwert über alle (möglichen) Sixpack-Mittelwerte? t) Wie groß ist die Varianz der (möglichen) Sixpack-Mittelwerte? u) Der Verbraucherschützer berechnet für jeden Sixpack einzeln die Varianz ist der Mittelwert über all diese Varianzen? sn21 . Wie groß 4.Ein Würfel wird zweimal geworfen. Bestimme Wahrscheinlichkeitsverteilung, Erwartungswert und Varianz für 4. die Augensumme 5. das Maximum der Augenzahlen 5. 15% der Europäer haben negativen Rhesus-Faktor (nehmen wir mal an). (Tipp: Wie kann man die Stichprobenverteilung des Anteils exakt berechnen?) l) Man wählt 10 Europäer. Wie groß ist die Wahrscheinlichkeit, dass keiner von ihnen negativen Rhesusfaktor hat? m) Man wählt zufällig 23 Personen. Mit welcher W’t haben genau 2 davon negativen Rhesus-Faktor? 6. Das Merkmal Körpergröße sei in der Population normalverteilt mit Mittelwert 172 und Standardabweichung 6,5; also NV(172;6,52). q) Wie groß ist der Anteil derer (in der Population), die unter 180 groß sind? r) Wie groß ist der Anteil derer, die über 190 groß sind? s) Wie groß ist der Anteil derer, die vom Mittelwert höchstens um 10 cm abweichen? t) Wie groß muss jemand sein, damit nur 5% aller anderen größer sind als er? u) Nun werden Stichproben der Größe n=25 gezogen und jeweils der Mittelwert gebildet. Wie groß ist die W’t, dass so ein Mittelwert unter 180 liegt? 7. Es sei bekannt, dass in einer Gesellschaft 80% der Bevölkerung über Stress in der Vorweihnachtszeit klagt. Diesem Umstand will ein psychologisches Forscherteam nachgehen und wählt dafür zufällig eine Stichprobe von 20 Personen aus. ● Berechne den Erwartungswert für die Variable „Anzahl der Personen in der Stichprobe, die über Stress in der Vorweihnachtszeit klagen“ (= Stresspersonen). ● Welcher Anteil an Stresspersonen ist zu erwarten? ● Berechne für Anzahl und Anteil der Stresspersonen die jeweilige Varianz (also eine Varianz für „Anzahl“ und eine Varianz für „Anteil“) ● Angenommen, es würden innerhalb der Stichprobe Vierergrüppchen gebildet: Wie groß wären jetzt Erwartungswert und Varianz für durchschnittlichen Anteil bzw. durchschnittliche Anzahl an Stresspersonen? ● Innerhalb der 20köpfigen Stichprobe befinden sich nun 20 Stresspersonen. Wie wahrscheinlich war es, dass alle zufällig ausgewählten Personen Stresspersonen sind? ● Der Projektleiter des Forscherteams will die Stichprobe dann nicht zulassen, wenn sich lediglich 10 oder weniger Stresspersonen in der Stichprobe befinden. Wie wahrscheinlich ist es, dass der Projektleiter die Stichprobe ablehnt? Ein anderer Projektleiter besteht darauf, dass mindesten 16 Stresspersonen in der Gruppe sein müssen. Wie wahrscheinlich ist es, dass ihm dieser Wunsch erfüllt wird? Lösungen zu Übungsblatt 6 1. Zentraler Grenzwertsatz: Die Verteilung des Mittelwerts über n Werte, die unabhängig voneinander aus der gleichen Population gezogen wurden, nähert sich mit steigendem n (steigender Stichprobengröße) der Normalverteilung an. Wenn die Stichprobengröße groß genug ist kann daher für die Stichprobenverteilung des Mittelwerts die Normalverteilung angenommen werden. Gesetz der großen Zahl: Der Anteil der Mittelwerte, die dem Populationsmittelwert nahe sind, nimmt mit zunehmender Stichprobengröße zu; bzw. die Streuung der Sichprobenmittelwerte um den Populationsmittelwert wird mit zunehmender Stichprobengröße immer kleiner. 2. Minimumsverteilung; Minimum kann sein: 1, 2, 3, 4, 5 oder 6; es gibt 36 gleichwahrscheinliche unterschiedliche Stichproben (Anzahl möglicher Fälle); Anzahl günstiger Fälle abzählen i xi P(min(X) =xi) 1 1 11/36 2 2 9/36 3 3 7/36 4 4 5/36 5 5 3/36 6 6 1/36 Erwartungswert: (1*11/36) + (2*9/36) + (3*7/36) + (4*5/36) + (5*3/36) + (6*1/36) = 2,528 3. a) E( X ) = μ = 56; b) Var( X ) = σ2/n = 64/6 = 10,67 c) E(S2n-1) = σ2 4. a) i xi P(X1+X2 = xi) 1 2 1/36 2 3 2/36 3 4 3/36 4 5 4/36 5 6 5/36 6 7 6/36 7 8 5/36 8 9 4/36 9 10 3/36 10 11 2/36 11 12 1/36 E(X1+X2) = (2*1/36) + (3*2/36) + (4*3/36) + +(5*4/36) + (6*5/36) + (7*6/36) + (8*5/36) + (9*4/36) + (10*3/36) + (11*2/36) + (12*1/36) = 7 Var(X1+X2) = E(X2) – E(X)2 = [(4*1/36) + (9*2/36) + (16*3/36) + (25*4/36) + (36*5/36) + (49*6/36) + (64*5/36) + (81*4/36) + (100*3/36) + (121*2/36) + (144*1/36)] – 49 = 5,833 b) i xi P(max(X1,X2) = xi) 1 1 1/36 2 2 3/36 3 3 5/36 4 4 7/36 5 5 9/36 6 6 11/36 E(max(X1,X2) = xi) = (1*1/36) + (2*3/36) + (3*5/36) + (4*7/36) + (5*9/36) + (6*11/36) = 4,472 Var(max(X1,X2) = xi) = E(X2) – E(X)2 = [(1*1/36) + (4*3/36) + (9*5/36) + (16*7/36) + (25*9/36) + (36*11/36)] – 4,4722 = 1,973 5. a) p = 0,15; n = 10; k = 0; P(X=0) = „10 über 0“*0,150*0,8510 = 19,69 % b) n = 23; k = 2; P(X=2) = „23 über 2“*0,152*0,8521 = 18,75 % 6. μ = 172; σ = 6,5 a) P(X<180) = P(Z<(180-172)/6,5) (Hier wird durch σ geteilt, nicht durch den Standardfehler, da es um Populationsanteile und nicht um Stichprobenverteilungen geht) = P(Z<1,23) = 89,07 % (siehe Tabelle Standardnormalverteilung) b) P(X<190) = 1 – P(X<190) = 1 – P(Z<(190-172)/6,5) = 1 – P(Z<2,77) = 0,28 % c) P(162<X<182) = D(10/6,5) = D(1,54) = 87,64 % d) P(X>x) = 0,05; 1 – P(X<x) = 0,05; P(X<x) = 0,95; P(Z<(x-172)/6,5) = 0,95 in Tabelle nachsehen; (X172)/6,5 = 1,96; x=184,74 e) Annäherung der Mittelwertverteilung durch die Normalverteilung nach dem zentralen Grenzwertsatz; P(Xquer<180) = P(Z<((180-172)/(6,5/5)) = P(Z<6,15) = 1 Lösungen zu Aufgabe 7 kann ich wegen Krankheit leider erst nachreichen; die Aufgabe wird dann im nächsten Tutorium besprochen Einführung in die Statistik – Übungsblatt 8 Paula Perkuhn, Besprechung am 20.12., 17:50 – 19:20 Uhr 1. Was versteht man unter Einzelwahrscheinlichkeiten, Randwahrscheinlichkeiten, bedingten Wahrscheinlichkeiten und gemeinsamen Wahrscheinlichkeiten? 2. In einer Urne befinden sich 10 Kugeln, 4 davon mit einer 0 beschriftet, 6 mit einer 1. Es wird 3 mal ohne zurücklegen gezogen. Zeichne den Baum mit gemeinsamen und bedingten Wahrscheinlichkeiten. Wie groß ist die Wahrscheinlichkeit dafür, genau eine 0 zu ziehen? Wie groß die Wahrscheinlichkeit, beim zweiten Zug eine 1 zu ziehen? 3. Die Wahrscheinlichkeit, dass ein zufällig ausgewählter Student, der zur Statistikprüfung antritt, gelernt hat, sei 60%. Die Wahrscheinlichkeit, eine gute Note zu schreiben unter der Bedingung, dass man gelernt hat, sei 80%. Wie groß ist die Wahrscheinlichkeit, dass ein zufällig ausgewählter Student, der zur Statistikprüfung antritt, sowohl gelernt hat als auch eine gute Note schreibt? 4. Die Wahrscheinlichkeit für ein Ereignis A sei 50%. Die Wahrscheinlichkeit für ein Ereignis B sei 80%. Wie groß müsste die gemeinsame Wahrscheinlichkeit P(A∩B) sein, wenn die beiden Ereignisse stochastisch unabhängig sind? 5. Die Wahrscheinlichkeit, dass man beim rausgehen keinen Regenschirm mitnimmt sei 50%. Die Wahrscheinlichkeit, dass es regnet unter der Bedingung, dass man keinen Regenschirm mitgenommen hat, sei 90%. Die Wahrscheinlichkeit, dass es regnet unter der Bedingung, dass man doch einen Regenschirm mitgenommen hat, sei 20%. Wie groß ist die Wahrscheinlichkeit, dass man keinen Regenschirm mitgenommen hat unter der Bedingung, dass es regnet? (Tipp: Satz von Bayes!) 6. Eine Lostrommel enthält 10 Lose, davon sind 8 Nieten. Man zieht (ohne Zurücklegen) 2 Lose. n)Berechne die Randwahrscheinlichkeit P(im zweiten Zug eine Niete). o)Berechne die Randwahrscheinlichkeit P(im ersten Zug ein Gewinn). p)Berechne die bedingte Wahrscheinlichkeit P(im letzten Zug Gewinn|im ersten Niete) q)Berechne die Gemeinsame Wahrscheinlichkeit P(im ersten Zug Niete, im zweiten Niete) r) Die zwei Züge sind nicht stochastisch unabhängig. Wie kann man das erkennen? 7. Die folgende Tabelle gibt die gemeinsamen Wahrscheinlichkeit für Geschlecht und Schizophrenie unter Hochschulangehörigen an. Berechne daraus die bedingten Wahrscheinlichkeiten: P(S|M),P(S|W), P(M|S), P(M|nS) : männlich M weiblich W Summe schizophren S 0,02 0,003 nicht schizophren nS 0,68 0,297 Summe Sind Geschlecht und Schizophrenie unabhängig? Lösungen zu Übungsblatt 8 1. Einzelwahrscheinlichkeiten sind die Wahrscheinlichkeiten für ein bestimmtes Einzelereignis an einer Stelle im Baum. Beim Ziehen mit zurücklegen: P(A). Beim Ziehen ohne zurücklegen muss man unterscheiden zwischen bedingten Wahrscheinlichkeiten und Randwahrscheinlichkeiten. Randwahrscheinlichkeiten sind die Wahrscheinlichkeiten für ein bestimmtes Einzelereignis an einer bestimmten Stelle im Baum, z.B. die Wahrscheinlichkeit, an dritter Stelle eine 1 zu ziehen P(X3 = 1). Man erhält die Randwahrscheinlichkeiten, indem man die gemeinsamen Wahrscheinlichkeiten aller Sequenzen, für die z.B. (X3 = 1) zutrifft, zusammenaddiert. Bedingte Wahrscheinlichkeiten sind die Wahrscheinlichkeiten für ein bestimmtes Einzelereignis in Abhängigkeit der vorigen Züge, z.B. die Wahrscheinlichkeit, eine 1 zu ziehen, wenn man vorher eine 0 gezogen hat P(1|0). Beim Ziehen mit zurücklegen entsprechen die bedingten Wahrscheinlichkeiten den Randwahrscheinlichkeiten. Gemeinsame Wahrscheinlichkeiten sind die Wahrscheinlichkeiten für bestimmte Sequenzen von Einzelereignissen, z.B. P(1∩0) = P((X1 = 1) ∩ (X2 = 0)). Man erhält sie durch Multiplikation der bedingten Wahrscheinlichkeiten der Sequenz: P(1∩0) = P(1) * P(0|1). 2. Gemeinsame Wahrscheinlichkeiten: P(0,0,0) = 0,4 * 3/9 * 2/8 = 1/30 P(0,0,1) = 0,4 * 3/9 * 6/8 = 1/10 P(0,1,0) = 0,4 * 6/9 * 3/8 = 1/10 P(0,1,1) = 0,4 * 6/9 * 5/8 = 1/6 P(1,0,0) = 0,6 * 4/9 * 3/8 = 1/10 P(1,0,1) = 0,6 * 4/9 * 5/8 = 1/6 P(1,1,0) = 0,6 * 5/9 * 4/8 = 1/6 P(1,1,1) = 0,6 * 5/9 * 4/8 = 1/6 Bedingte Wahrscheinlichkeiten (für alle 8 möglichen Sequenzen): P(0) = 0,4; P(0|0) = 3/9; P(0|0,0) = 2/8 P(0) = 0,4; P(0|0) = 3/9; P(1|0,0) = 6/8 P(0) = 0,4; P(1|0) = 6/9; P(0|0,1) = 3/8 P(0) = 0,4; P(1|0) = 6/9; P(1|0,1) = 5/8 P(1) = 0,6; P(0|1) = 4/9; P(0|1,0) = 3/8 P(1) = 0,6; P(0|1) = 4/9; P(1|1,0) = 5/8 P(1) = 0,6; P(1|1) = 5/9; P(0|1,1) = 4/8 P(1) = 0,6; P(1|1) = 5/9; P(1|1,1) = 4/8 P(genau eine 0) = P(1,1,0) + P(1,0,1) + P(0,1,1) = 0,144 + 0,144 + 0,144 = 0,432 P(X2 = 1) = P(0,1,0) + P(0,1,1) + P(1,1,0) + P(1,1,1) = 0,096 + 0,144 + 0,144 + 0,216 = 0,6 (eine Randwahrscheinlichkeit) 3. P(gelernt) = 0,6; P(gut|gelernt) = 0,8; P(gut ∩ gelernt) = 0,6 * 0,8 = 0,48 4. Stochastische Unabhängigkeit: P(A∩B) = P(A) * P(B), also hier P(A∩B) = 0,5 * 0,8 = 0,4. 5. kS = kein Schirm; S = Schirm; R = Regen P(kS) = 0,5; P(R|kS) = 0,9; P(R|S) = 0,2 gesucht: P(kS|R) Satz von Bayes: P(kS|R) = [P(R|kS) * P(kS)] / [( P(R|kS) * P(kS) ) + ( P(R|S) * P(S) ) = [ 0,9 * 0,5 ] / [( 0,9 * 0,5 ) + ( 0,2 * 0,5 ) = 0,818 6. a) P(im zweiten Zug eine Niete) = (0,8 * 7/9) + (0,2 * 8/9) = 0,8 b) P(im ersten Zug ein Gewinn) = (0,2 * 8/9) + (0,2 * 1/9) = 0,2 c) P(im letzten Zug Gewinn|im ersten Niete) = 2/9 d) P(im ersten Zug Niete, im zweiten Niete) = P(Niete) * P(Niete|Niete) = 0,8 * 7/9 = 0,622 e) P(Niete) * P(Niete) = 0,8 * 0,8 = 0,64 ≠ P(Niete und Niete) 7. schizophren S nicht schizophren nS Summe männlich M 0,02 0,68 0,7 weiblich W 0,003 0,297 0,3 Summe 0,023 0,977 1 Geschlecht und Schizophrenie sind nicht unabhängig, z.B. da P(S∩M) ≠ P(S) * P(M). P(S|M) = P(S∩M) / P(M) = 0,0286 P(S|W) = 0,01 P(M|S) = 0,870 P(M|nS) = 0,696Da es wohl letztes Mal doch etwas zu schnell ging, in der Hoffnung dass es weiterhilft...: Einführung in die Statistik – Erläuterungen zu Übungsblatt 7 v) Allgemeine Fragestellung, um die es letztes Mal ging: Wir ziehen aus einer Population eine Stichprobe der Größe n und berechnen irgendeine Maßzahl über diese Stichprobe (z.B. den Mittelwert); Wie groß ist die Wahrscheinlichkeit, dass diese Maßzahl gleich/ kleiner als/ größer als einem bestimmten Wert ist? w) z.B. in Aufgabe 5 a): aus der Population aller Europäer wird eine Stichprobe der Größe 10 gezogen. Maßzahl ist hier die Anzahl (von Europäern mit negativem Rhesusfaktor). Gesucht ist die Wahrscheinlichkeit, dass die Anzahl gleich 0 ist. x) Es gibt mehrere Möglichkeiten, solche Aufgaben zu lösen. Im Allgemeinen brauchen wir die Stichprobenverteilung der Maßzahl, um die es geht. y) Zur Erinnerung: eine Verteilung ist eine Liste oder Grafik, die alle möglichen Ergebnisse darstellt (z.B. alle möglichen Merkmalsausprägungen, alle möglichen Maßzahlen usw.) zusammen mit ihren jeweiligen relativen Häufigkeiten (wie oft kommt eine bestimmte Merkmalsausprägung vor = Häufigkeitsverteilung) oder ihren jeweiligen Wahrscheinlichkeiten (wenn es um Zufallsvariablen oder Statistiken geht, wo die Häufigkeit ja nicht einfach abzählbar ist = Wahrscheinlichkeitsverteilung). z) Die Stichprobenverteilung kann man wie besprochen auf 3 Wegen erhalten: aa) Simulationsexperimente: nach dem frequentistischen Wahrscheinlichkeitsbegriff wissen wir, dass wir nur sehr viele (im Skript: 5000) Stichproben ziehen und über alle Stichproben die gesuchte Maßzahl berechnen müssen. Die entstehende Häufigkeitsverteilung der Maßzahl müsste in etwa der gesuchten Stichprobenverteilung (Wahrscheinlichkeitsverteilung) entsprechen. Diese Methode ist aber sehr aufwändig. bb) Exaktes berechnen der einzelnen Wahrscheinlichkeiten der Stichprobenverteilung nach dem klassischen Wahrscheinlichkeitsbegriff: cc) z.B. mit Kombinatorik ermitteln, welche Stichproben jeweils möglich sind, und wie wahrscheinlich diese jeweils sind. Dann über alle möglichen Stichproben die gesuchte Maßzahl berechnen, man erhält eine Liste aller möglichen Maßzahlen. Dazu die jeweiligen Wahrscheinlichkeiten berechnen (Summe der Wahrscheinlichkeiten für alle möglichen Stichproben, bei denen die gleiche Maßzahl herauskommt, ergibt die Wahrscheinlichkeit für diese Maßzahl). dd) Beispiel hierfür: Aufgabe 2: Maßzahl ist hier das Minimum. Es gibt 36 mögliche Stichproben, 6 mögliche Maßzahlen. Die 36 Stichproben sind beim fairen Würfel alle gleich wahrscheinlich, nämlich 1/36. Um z.B. das Minimum 4 zu würfeln, gibt es 5 mögliche Stichproben: (4,4), (4,5), (5,4), (4,6), (6,4); die Wahrscheinlichkeit für das Minimum 4 ist somit (1/36) + (1/36) + (1/36) + (1/36) + (1/36) = 5/36. ee) Weitere Möglichkeit des exakten Berechnens - Sonderfall Binomialverteilung: für die Maßzahlen Anzahl und Anteil ist die Stichprobenverteilung immer durch eine einfache Gleichung berechenbar, wenn nur der Parameter π (Anteil in der Population) gegeben ist. Die Wahrscheinlichkeit dafür, dass die Anzahl in der Stichprobe genau k ist, oder – was aufs gleiche rauskommt – der Anteil in der Stichprobe genau k/n ist, ist dann: P(Anzahl = k) = P(Anteil = k/n) = „n über k“ * πk * (1 – π)(n – k). Entsprechend lassen sich dann auch kumulierte Wahrscheinlichkeiten berechnen: P(Anz < k) = P(Anteil < k/n) = „n über 1“ * π1 * (1 – π)(n – 1) + „n über 2“ * π2 * (1 – π)(n – 2) + ... + „n über (k - 1)“ * π(k - 1) * (1 – π)(n – (k – 1)). ff) Beispiel hierfür: Aufgabe 5 a): gegeben ist der Anteil in der Pupulation (π = 15%), n (= 10, die Stichprobengröße) und k (= 0, die Anzahl „Treffer“); Gesucht ist die Wahrscheinlichkeit P(Anz = 0). Durch Einsetzen in die eben beschriebene Formel erhält man das Ergebnis. gg) Ebensogut hätte gefragt sein können die Wahrscheinlichkeit P(Anz < 2). Diese Wahrscheinlichkeit erhält man durch aufkumulieren: P(Anz < 1) = P(Anz = 0) + P(Anz =1). hh) Annähern der Stichprobenverteilung durch die Normalverteilung (NV): ii) Durch den zentralen Grenzwertsatz ist bekannt, dass sich die Stichprobenverteilung des Mittelwerts für eine große Stichprobengröße der Normalverteilung annähert. Man kann außerdem zeigen, dass das auch für viele andere Maßzahlen gilt (siehe Tabelle S.55 im Skript). jj) Die Normalverteilung ist eine Verteilung, deren Gleichung ebenso wie die der Binomialverteilung bekannt ist. Wenn wir also annehmen, dass die Stichprobenverteilung wegen außreichend großem n durch die NV angenähert werden kann, brauchen wir die einzelnen Wahrscheinlichkeiten nicht mehr berechnen, da wir sie einfach durch die Gleichung der NV berechnen können. Da die Berechnung etwas kompliziert ist hat man die verschiedenen Werte der NV in einer Tabelle zusammengestellt, wo man sie nurnoch ablesen muss. kk) Der einzige Haken ist, dass es sehr viele Normalverteilungen gibt: die Verteilung und damit die Wahrscheinlichkeiten verändern sich in Abhängigkeit der 2 Parameter Populationsmittelwert und Populationsvarianz. ll) Man hat sich daher darauf geeinigt, nur die sogenannte Standardnormalverteilung zu tabellieren. Das ist die NV mit Mittelwert 0 und Standardabweichung 1. Die Tabelle der StandardNV ist aber auch brauchbar, wenn die Population, aus der wir ziehen, nicht den Mittelwert 0 und die Std 1 hat; denn alle Normalverteilungen lassen sich durch standardisieren in die StandardNV umwandeln (und durch restandardisieren wieder zurück umwandeln). mm) Beispiel hierfür: Aufgabe 6: gegeben ist Populationsmittelwert, Populationsstandardabweichung und die Info, dass die Population normalverteilt ist. Wahrscheinlichkeiten lassen sich jetzt leicht in der Tabelle nachschlagen. Z.B. Aufgabe a): gesucht ist P(Anteil < 180); da der Anteil hier eine Zufallsvariable ist kann man auch schreiben: P(X<180); das muss man jetzt standardisieren, da nur die StandardNV tabelliert ist; dadurch werden die x-Werte zu sogenannten z-Werten (Benennung für standardisierte xWerte): P(Z<1,23); diese Wahrscheinlichkeit lässt sich in der Tabelle ablesen. nn) Achtung bei diesem Beispiel: hier werden Anteile der Population, nicht Wahrscheinlichkeiten in den möglichen Stichproben berechnet. Daher wird auch beim standardisieren durch die Stndardabweichung der Population geteilt und nicht durch die Standardabweichung einer Statistik ( = Standardfehler). Und zuletzt noch die bisher fehlenden Lösungen zu Aufgabe 7: Gegeben ist der Anteil π in der Population (80%) und die Stichprobengröße n (=20). Allein dadurch, dass in der Angabe der Populationsanteil steht lässt vermuten, dass es um eine Aufgabe zur Binomialverteilung geht... Die Binomialverteilung für π = 0,8 und n = 20 ist im grünen Heft tabelliert. a) Der Erwartungswert für die Binomialverteilung lässt sich vereinfacht ausrechnen: E(Anz) = n * p = 20 * 0,8 = 16; alternativ, aber wesentlich umständicher, ließe sich das selbe Ergebnis natürlich auf dem alten Weg finden: E(X) = Summe der Produkte aller möglichen Anzahlen mit ihren jeweiligen Wahrscheinlichkeiten, abgelesen aus der Tabelle. b) Wie bei a), nur dass es jetzt um den Anteil, nicht die Anzahl geht: E(Anteil) = p = 0,8. c) Auch für die Varianz kann man sich bei der Binomialverteilung Arbeit sparen, da es auch heir eine einfachere Formel gibt: Var (Anz) = n * π * (1 – π) = 20 * 0,8 * 0,2 = 3,2; Var (Anteil) = [π * (1 – π)]/n = (0,8 * 0,2)/20 = 0,008. d) Hier muss ich zugeben habe ich versehentlich eine Aufgabe ausgewählt, die erstens sehr schwierig zu lösen und zweitens sehr missverständlich gestellt ist. Also keine Panik wenn es nicht geklappt hat – in der Klausur sind die Aufgaben sicher eindeutiger gestellt. Vierergrüppchen heißt, es werden jetzt 5 Stichproben mit je n = 4 gezogen. Die Maßzahl ist jetzt der Mittelwert über die Anzahl/ den Anteil in jeder der 5 Stichproben. Ich löse hier die Aufgabe mal nur für den Anteil, Anzahl geht dann entsprechend. Wir müssen also zuerst für jede Vierergruppe den Anteil ermitteln. In jeder der 5 Vierergruppen kann der Anteil variieren zwischen 0, 0,25, 0,5, 0,75 oder 1. Wir haben es also mit 5 Zufallsvariablen X1, X2, X3, X4 und X5 zu tun, die jeweils einen dieser 5 Werte annehmen: X1: 0; 0,25; 0,5; 0,75; 1 X2: 0; 0,25; 0,5; 0,75; 1 X3: 0; 0,25; 0,5; 0,75; 1 X4: 0; 0,25; 0,5; 0,75; 1 X5: 0; 0,25; 0,5; 0,75; 1 Als nächstes berechnen wir den Mittelwert aus diesen Zufallsvariablen, Xquer. Auch Xquer ist eine Zufallsvariable; ihre Werte sind abhängig davon, welche Anteile in den 5 Vierergruppen realisiert wurden. Xquer wäre z.B. 1, wenn alle 5 ZV den Wert 1 annehmen, oder z.B. 0,1 wenn die ersten beiden ZVn den Wert 0,5 annehmen, alle anderen 3 ZVn den Wert 0 usw... Gesucht ist nun der Erwartungswert über Xquer. Um diesen ohne zu viel rechnen zu erhalten, können wir die Regel E(Xquer) = μ anwenden: Xquer kann hier auch angesehen werden als ein Mittelwert, den man erhält, wenn man 5 Stichproben der Größe 4 aus einer Population mit den Werten 0; 0,25; 0,5; 0,75; 1 zieht. μ wäre in dem Fall der Mittelwert aus 0; 0,25; 0,5; 0,75 und 1, also 0,5. Folglich ist E(Xquer) = 0,5. Ebenso bei der Varianz: Var(Xquer) = σ2 / n. σ2 ist die Varianz in der Population der Werte 0; 0,25; 0,5; 0,75 und 1. Diese ergibt ausgerechnet 1,25 (nach der ganz normalen Formel für die Varianz in der Population). 1,25 / n ergibt dann 0,025, folglich Var(Xquer) = 0,025. e) gesucht: P(X=20) mit pi = 0,8 und n = 20; in Tabelle nachsehen: 1,15% f) P(X kleiner/gleich 10) = P(X=0) + P(X=1) + ... + P(X=10) = (siehe Tabelle für kumulierte Anteile der Binomialverteilung) 0,26%; P(X größer/gleich 16) = 1 – P(X kleiner/ gleich 15) = (siehe Tabelle) 62,96% Wenn noch was unklar geblieben ist, Fragen bitte in der nächsten Tutoriumssitzung oder auch gerne per EMail an mich: [email protected] Einführung in die Statistik – Übungsblatt 9 Paula Perkuhn, Besprechung am 10.01., 17:50 – 19:20 Uhr 1. Der IQ von Studenten ist normalverteilt mit o=15 und µ=110. 10 Studenten unterziehen sich einem IQ-Test. oo) Mit welcher Wahrscheinlichkeit liegt der Stichprobenmittelwert zwischen 105 und 115? pp) Der Stichprobenmittelwert sei 115. Gib das 95%-Konfidenzintervall zur Schätzung des Populationsmittelwerts an. 2. Das für Weihnachtsgeschenke ausgegebene Geld pro Person ist in der Population annähernd normalverteilt mit einer Varianz von 1600€2. Bei einer Gruppe von 50 Befragten ergibt sich ein mittleres Weihnachtsgeschenke-Budget von 130€. Mit welcher Wahrscheinlichkeit kann man sagen, dass in der Population der Mittelwert zwischen 120 und 140 € liegt? 3. In einer Klinik wird anhand der Krankenakten von 200 Personen die Dauer eines bestimmten Heilungsprozesses untersucht: Dauer (in Tagen) Anzahl Patienten 3 50 4 100 5 20 6 30 Gib ein 90%-Konfidenzintervall für die mittlere Dauer des Heilungsprozesses an. Original-Klausuraufgaben: 4. Eine Leistungsskala wurde so konstruiert, dass die Werte in der Population normalverteilt mit N(50, 10 * 10) sind. Es soll eine einfache Zufallsstichprobe gezogen werden. Wie groß muss n sein, damit das 95%Konfidenzintervall für den Mittelwert höchstens 4 Skalenpunkte breit ist? 5.Gegeben sei die Häufigkeitsverteilung eines diskreten, ordinalen Merkmals x: x 0 1 3 Häufigkeit 5 20 10 Berechne folgende Maßzahlen, falls sinnvoll: a) 1. Quartil und 3. Quintil b) Eighths c) qualitative Varianz d) Entropie in nits e) Varianz Lösungen zu Übungsblatt 9 1. a) D((5/(15/√10)) = D(1,05) = (siehe Tabelle der StandardNV) 70,63% b) o = 115 + 1,96 * (15/√10) = 124,30; u = 115 – 1,96 * (15/√10) = 105,70 2. o = 130 + z * (400/√50) = 140 u = 130 - z * (400/√50) = 120 z = (140 – 130)/(400/√50) = 0,18 D(0,18) = 14,28% 3. o = xquer + t (df) * (sn-1/√n) = 50 + t (3) * (35,59/2) = 50 + 2,35 * 17,80 = 91,82 u = xquer - t (df) * (sn-1/√n) = 50 - t (3) * (35,59/2) = 50 - 2,35 * 17,80 = 8,18 4.o = xquer + z * (10/√n) 6 5 u = xquer - z * (10/√n) o–u=4 [xquer + z * (10/√n)] - [xquer - z * (10/√n)] = 4 2z * (10/√n) = 4 2 * 1,96 * (10/√n) = 4 (10/√n) = 4/3,92 = 1,02 n = 96,04 5. a) z = n*q = 40 * 0,25 = 10; 1.Quartil = (x(10) + x(11))/2 = 1 z = 40 * 0,6 = 24; 3. Quintil = (x(24) + x(25))/2 = 1 b) Tiefe(Median) = 20,5; Tiefe(Hinge) = 10,5; Tiefe (Eighth) = 5,5; eu = (x(5) + x(6))/2 = 0,5; eo = (x(35) + x(36))/2 = 4,5 c) qv = 1 – (p12 + p22 + p32 + p42) = 1 – (0,1252 + 0,52 + 0,252 + 0,1252) = 0,65625 d) h(x) = - [0,125ln(0,125) + 0,5ln(0,5) + 0,25ln(0,25) + 0,125ln(0,125)] = 1,2130 e) erst ab Intervallskala sinnvoll Einführung in die Statistik – Übungsblatt 10 Paula Perkuhn, Besprechung am 17.01., 17:50 – 19:20 Uhr 1. Nullhypothese: der Mittelwert des IQ in der Population der Statistikvorlesungsbesucher ist kleiner oder gleich 120; Alternativhypothese: der Mittelwert ist größer. Alpha soll 5% sein. Konstruiere den Mittelwerttest für eine Stichprobe von 20 Studenten. (Annahmne: auch in dieser Population ist der IQ normalverteilt mit der Standardabweichung 15). a) Was ist die Teststatistik? b) Wie ist die Teststatistik verteilt? c) Bestimme den kritischen Bereich! d) Der Stichprobenmittelwert sei 130. Wird die Nullhypothese verworfen? 2. X sei eine dichotome Variable. Bei einer Zehnerstichprobe wird fünfmal 0 und fünfmal 1 gemessen. Um Bootstrap-Intervalle zu bestimmen werden aus dieser Stichprobe nun 20 Zehnerstichproben (mit Zurücklegen) gezogen. Bei jeder dieser 20 Stichproben wird der Anteil Einsen bestimmt. Die folgenden Werte ergeben sich: 0,5; 0,3; 0,7; 0,5; 0,5; 0,8; 0,4; 0,2; 0,6; 0,7; 0,7; 0,1; 0,4; 0,5; 0,5; 0,8; 0,8; 0,6; 0,4; 0,5 Besimme das 90%-Bootstrap-Intervall für den Mittelwert von X. 3. Das Einkommen in der Population sei normalverteilt, wobei die Standardabweichung nicht bekannt ist. Als Nullhypothese nehmen wir an, dass das durchschnittliche Einkommen pro Person 2400 Euro beträgt. Die Alternativhypothese sei, dass es genau 2000 Euro beträgt. Eine Stichprobe von 50 Leuten liefert einen Mittelwert von 2500 Euro und eine Standardabweichung von 1000 (berechnet nach der Formel s n-1). Konstruiere einen Mittelwerttest (α = 5%)! a) Was ist die Teststatistik? b) Wie ist die standardisierte Teststatistik verteilt? c) Bestimme den kritischen Bereich! d) Wird die Nullhypothese verworfen? 4. Es wurde ein Fragebogen entwickelt, mit dem man herausfinden kann, ob jemand einen Helferkomplex hat. In einer Stichprobe von 200 Psychologiestudenten hatten 60% einen Helferkomplex. Erstelle ein 95% Konfidenzintervall für den Anteil Psychologiestudenten mit Helferkomplex! Lösungen zu Übungsblatt 10 1. a) Mittelwert der Stichprobe b) Normalverteilung, da Population normalverteilt und zentraler Grenzwertsatz c) kritischer Bereich kommt von rechts; gesucht: z-Wert, ab dem 5% der Fläche liegen. Tabelle der Normalverteilung: z = 1,645; restandardisieren: x = 1,645 * (sigma / √20) + 120 = 125,52; Kritischer Bereich: alle Werte, die größer 125,52 sind. (Für μ unter Geltung der Nullhypothese reicht es, in der Formel 120 einzusetzen - selbst wenn die Nullhypothese ja auch alle Werte für μ umfasst, die kleiner als 120 sind; aber die Normalverteilung mit μ = 120 liegt am weitesten rechts, also am nähesten an den Verteilungen, die in der Alternativhypothese enthalten sind.) d) ja 2. Da es sich um eine dichotome Variable handelt entspricht der Anteil dem Mittelwert – die Liste der Anteile ist bereits die Liste der Mittelwerte. Wir brauchen die sortierte Liste: 0,1; 0,2; 0,3; 0,4; 0,4; 0,4; 0,5; 0,5; 0,5; 0,5; 0,5; 0,5; 0,6; 0,6; 0,7; 0,7; 0,7; 0,8; 0,8; 0,8 90%-Intervall heißt 10% Fehler, die sich auf links und rechts der Verteilung verteilen; wir brauchen das 0,05Quantil und das 0,95-Quantil als Intervallgrenzen. z = n * q = 20 * 0,05 = 1; Quantil = (x(1) + x(2))/2 = 0,15 = u z = n * q = 20 * 0,95 = 19 Quantil = (x(19) + x(20))/2 = 0,8 = o 3. a) Mittelwert der Stichprobe b) Student-t-Verteilung c) kritischer Bereich kommt von links; gesucht: t-Wert, bis zu dem 5% der Fläche liegen. Tabelle student-tVerteilung: t(49) = - 1,68; restandardisieren: x = -1,68 * (1000 / √50) + 2400 = 2162,41; Kritischer Bereich: alle Werte, die kleiner als 2162,41 sind. d) Die Nullhypothese wird beibehalten. 4. o = 0,6 + 1,96 * √((0,6 * 0,4) / (200 – 1)) = 0,6 + 1,96 * √(0,24 / 199) = 0,6681 u = 0,6 - 1,96 * √((0,6 * 0,4) / (200 – 1)) = 0,6 - 1,96 * √(0,24 / 199) = 0,5319 Einführung in die Statistik – Übungsblatt 11 Paula Perkuhn, Besprechung am 24.01., 17:50 – 19:20 Uhr 1. Nach Angaben eines Autohändlers soll der Benzinverbrauch eines bestimmten Modells unter 4 Litern pro 100 km liegen. Bei 25 Testfahrten wurde ein Mittelwert von 3,8 Litern bei einer Standardabweichung von 0,4 Litern ermittelt. Lässt sich die Behauptung des Herstellers mit Signifikanzniveau 5% aufrecht erhalten? 2. Ein Würfel soll daraufhin getestet werden, ob er gezinkt ist, d. h. ob die sechs Seiten mit verschiedenen Wahrscheinlichkeiten gewürfelt werden. Er wird dafür 60mal geworfen mit folgendem Ergebnis: Augenzahl Anteil in der 60er-Stichprobe 1 8/60 2 2/60 3 10/60 4 10/60 5 15/60 6 15/60 Führe einen Chi2-Anpassungstest mit α = 0,05 durch. 3. Es soll überprüft werden, ob, wie wir vermuten, Akupunktur geeignet ist, den Zigarettenkonsum von Rauchern zu reduzieren. Dafür wird von 10 Rauchern der tägliche Konsum vor und nach der Akupunktur gemessen: Vorher Nachher 20 18 20 10 25 0 25 30 25 20 25 5 30 35 30 18 30 32 30 31 Erfolg heißt hier: der tägliche Konsum hat sich reduziert. Falls Akupunktur wirkungslos ist, kann man davon ausgehen, dass der Erfolgsanteil 0,5 ist (rein zufällige Veränderung des Konsums). Aufgrund voriger Studien können wir auf jeden Fall ausschließen, dass Akupunktur den Zigarettenkonsum von Rauchern erhöht. qq) Wie lauten die Null- und die Alternativhypothese? rr) Nenne die Teststatistik. ss) Wie ist die Teststatistik verteilt? tt) uu) Berechne die Macht des Tests für HA: π = 0,6. 4. Binomialtests (für die von euch, die noch ein bißchen üben wollen): Bestimme für alle der folgenden Testangaben den kritischen Bereich und den exakten Wert des Fehlers 1. Art. Wenn möglich gib auch den Fehler 2. Art und die Macht des Tests an. s) Ho:p=0,8; Ha:p=0,5; n=50 t) Ho:p=0,7; Ha:p=0,5; n=100 u) Ho:p=0,975; Ha:p=0,4; n=8 v) Ho:p=0,975; Ha:p<0,975; n=8 w) Ho:p=0,1; Ha:p=0,4; n=20 x) Ho:p=0,4; Ha:p=0,6; n=100 y) Ho:p=0,3; Ha:p=0,4; n=10 z) Ho:p=0,5; Ha:p≠0,5; n=70 aa) Ho:p=0,5; Ha:p≠0,5; n=50 bb) Ho:p=0,5; Ha:p≠0,5; n=5 Ho:p=0,5; Ha:p≠0,5; n=8Lösungen zu Übungsblatt 11 1. Wiederholung des t-Tests: H0: μ>=4; H1: μ<4 Teststatistik: Xquer; Verteilung der Teststatistik: student-t-Verteilung; Testwert: 3,8 KB bis 4-1,71*0,4/5 = 3,863; Testwert liegt im KB, also H0 abgelehnt, dem Händler kann geglaubt werden. 2. H0: π1 = 1/6; π2 = 1/6; π3 = 1/6; π4 = 1/6; π5 = 1/6; π6 = 1/6 reale Beobachtung: p1 = 8/60; p2 = 2/60; p3 = 10/60; p4 = 10/60; p5 = 15/60; p6 = 15/60 Frage: sind die Unterschiede zufällig oder signifikant? Zuerst Testplanung: KB festlegen Chi2-Verteilung; immer rechtsseitig beim Anpassungstest; df = I-1 = 5; KB: 11,07 und größer Dann Stichprobe ziehen (Würfelexperiment durchführen), Daten erhalten, damit Teststatistik berechnen: Teststatistik: LR-Chi2 = -2*60[8/60 ln((1/6)/(8/60)) + 2/60 ln((1/6)/(2/60)) + 10/60 ln((1/6)/(10/60)) + 10/60 ln((1/6)/(10/60)) + 15/60 ln((1/6)/(15/60)) + 15/60 ln((1/6)/(15/60))] = -120[0,11933] = 14,32 P-Chi2 = 60 [(8/60 – 1/6)2/(1/6) + (2/60 – 1/6)2/(1/6) + (10/60 – 1/6)2/(1/6) + (10/60 – 1/6)2/(1/6) + (15/60 – 1/6)2/(1/6) + (15/60 – 1/6)2/(1/6)] = 60 * 0,196666 = 11,8 In beiden Fällen s´liegt der Testwert im kritischen Bereich; H0 wird abgelehnt; der Würfel ist wahrscheinlich gezinkt. 3. a) H0: π = 0,5; H1: π > 0,5 b) Anteil (auch Anzahl möglich) derer, die in der Stichprobe nach Akupunktur weniger rauchen c) Binomialverteilt d) rechtsseitiger Test; Tabelle der Binomialverteilung, n = 10, π0 = 0,5; von unten her aufkumulieren da KB von rechts kommt: KB = (10, 9) bzw. gleichwertig: KB = (1; 0,9); In der Stichprobe gibt es eine Verbesserung bei 6 von 10 Leuten, das liegt nicht im KB; H0 wird beibehalten. e) gesucht ist Wahrscheinlichkeit, einen Wert im kritischen Bereich zu ziehen (also 9 oder 10), unter der Annahme, wir würden aus einer Binomialverteilung mit den Parametern n = 10 und π = 0,6 ziehen (Verteilung der Alternativhypothese); Tabelle der Binomialverteilung für n = 10, π0 = 0,6; Wahrscheinlichkeit für X = 9 und für X = 10 zusammenzählen ergibt 0,0403 + 0,006 = 0,0463 4. a) b) c) d) e) f) g) h) i) j) k) Kritischer Bereich 0 bis 34 0 bis 61 0 bis 6 0bis 6 5 bis 20 49 bis 100 6 bis 10 0 bis 26; 44 bis 70 0 bis 17; 33 bis 50 nicht vorhanden 0 und 8 Fehler 1.Art 0,0308 0,0340 0,0158 0,0158 0,0432 0,0423 0,0473 0,0414 0,0328 0 0,0078 Fehler 2.Art 0,0033 0,0107 0,0085 nicht möglich 0,0510 0,0100 0,8338 nicht möglich nicht möglich nicht möglich nicht möglich Macht des Tests 0,9967 0,9895 0,9915 nicht möglich 0,9490 0,9900 0,1662 nicht möglich nicht möglich nicht möglich nicht möglich Einführung in die Statistik – Übungsblatt 11 Paula Perkuhn, Besprechung am 24.01., 17:50 – 19:20 Uhr 1. Nach Angaben eines Autohändlers soll der Benzinverbrauch eines bestimmten Modells unter 4 Litern pro 100 km liegen. Bei 25 Testfahrten wurde ein Mittelwert von 3,8 Litern bei einer Standardabweichung von 0,4 Litern ermittelt. Lässt sich die Behauptung des Herstellers mit Signifikanzniveau 5% aufrecht erhalten? 2. Ein Würfel soll daraufhin getestet werden, ob er gezinkt ist, d. h. ob die sechs Seiten mit verschiedenen Wahrscheinlichkeiten gewürfelt werden. Er wird dafür 60mal geworfen mit folgendem Ergebnis: Augenzahl Anteil in der 60er-Stichprobe 1 8/60 2 2/60 3 10/60 4 10/60 5 15/60 6 15/60 Führe einen Chi2-Anpassungstest mit α = 0,05 durch. 3. Es soll überprüft werden, ob, wie wir vermuten, Akupunktur geeignet ist, den Zigarettenkonsum von Rauchern zu reduzieren. Dafür wird von 10 Rauchern der tägliche Konsum vor und nach der Akupunktur gemessen: Vorher Nachher 20 18 20 10 25 0 25 30 25 20 25 5 30 35 30 18 30 32 30 31 Erfolg heißt hier: der tägliche Konsum hat sich reduziert. Falls Akupunktur wirkungslos ist, kann man davon ausgehen, dass der Erfolgsanteil 0,5 ist (rein zufällige Veränderung des Konsums). Aufgrund voriger Studien können wir auf jeden Fall ausschließen, dass Akupunktur den Zigarettenkonsum von Rauchern erhöht. vv) Wie lauten die Null- und die Alternativhypothese? ww) Nenne die Teststatistik. xx) Wie ist die Teststatistik verteilt? yy) Bestimme den kri zz) Berechne die Macht des Tests für HA: π = 0,6. 4. Binomialtests (für die von euch, die noch ein bißchen üben wollen): Bestimme für alle der folgenden Testangaben den kritischen Bereich und den exakten Wert des Fehlers 1. Art. Wenn möglich gib auch den Fehler 2. Art und die Macht des Tests an. cc) Ho:p=0,8; Ha:p=0,5; n=50 dd) Ho:p=0,7; Ha:p=0,5; n=100 ee) Ho:p=0,975; Ha:p=0,4; n=8 ff) Ho:p=0,975; Ha:p<0,975; n=8 gg) Ho:p=0,1; Ha:p=0,4; n=20 hh) Ho:p=0,4; Ha:p=0,6; n=100 ii) Ho:p=0,3; Ha:p=0,4; n=10 jj) Ho:p=0,5; Ha:p≠0,5; n=70 kk) Ho:p=0,5; Ha:p≠0,5; n=50 ll) Ho:p=0,5; Ha:p≠0,5; n=5 Ho:p=0,5; Ha:p≠0,5; n=8Lösungen zu Übungsblatt 11 1. Wiederholung des t-Tests: H0: μ>=4; H1: μ<4 Teststatistik: Xquer; Verteilung der Teststatistik: student-t-Verteilung; Testwert: 3,8 KB bis 4-1,71*0,4/5 = 3,863; Testwert liegt im KB, also H0 abgelehnt, dem Händler kann geglaubt werden. 2. H0: π1 = 1/6; π2 = 1/6; π3 = 1/6; π4 = 1/6; π5 = 1/6; π6 = 1/6 reale Beobachtung: p1 = 8/60; p2 = 2/60; p3 = 10/60; p4 = 10/60; p5 = 15/60; p6 = 15/60 Frage: sind die Unterschiede zufällig oder signifikant? Zuerst Testplanung: KB festlegen Chi2-Verteilung; immer rechtsseitig beim Anpassungstest; df = I-1 = 5; KB: 11,07 und größer Dann Stichprobe ziehen (Würfelexperiment durchführen), Daten erhalten, damit Teststatistik berechnen: Teststatistik: LR-Chi2 = -2*60[8/60 ln((1/6)/(8/60)) + 2/60 ln((1/6)/(2/60)) + 10/60 ln((1/6)/(10/60)) + 10/60 ln((1/6)/(10/60)) + 15/60 ln((1/6)/(15/60)) + 15/60 ln((1/6)/(15/60))] = -120[0,11933] = 14,32 P-Chi2 = 60 [(8/60 – 1/6)2/(1/6) + (2/60 – 1/6)2/(1/6) + (10/60 – 1/6)2/(1/6) + (10/60 – 1/6)2/(1/6) + (15/60 – 1/6)2/(1/6) + (15/60 – 1/6)2/(1/6)] = 60 * 0,196666 = 11,8 In beiden Fällen s´liegt der Testwert im kritischen Bereich; H0 wird abgelehnt; der Würfel ist wahrscheinlich gezinkt. 3. a) H0: π = 0,5; H1: π > 0,5 b) Anteil (auch Anzahl möglich) derer, die in der Stichprobe nach Akupunktur weniger rauchen c) Binomialverteilt d) rechtsseitiger Test; Tabelle der Binomialverteilung, n = 10, π0 = 0,5; von unten her aufkumulieren da KB von rechts kommt: KB = (10, 9) bzw. gleichwertig: KB = (1; 0,9); In der Stichprobe gibt es eine Verbesserung bei 6 von 10 Leuten, das liegt nicht im KB; H0 wird beibehalten. e) gesucht ist Wahrscheinlichkeit, einen Wert im kritischen Bereich zu ziehen (also 9 oder 10), unter der Annahme, wir würden aus einer Binomialverteilung mit den Parametern n = 10 und π = 0,6 ziehen (Verteilung der Alternativhypothese); Tabelle der Binomialverteilung für n = 10, π0 = 0,6; Wahrscheinlichkeit für X = 9 und für X = 10 zusammenzählen ergibt 0,0403 + 0,006 = 0,0463 4. a) b) c) d) e) f) g) h) i) j) k) Kritischer Bereich 0 bis 34 0 bis 61 0 bis 6 0bis 6 5 bis 20 49 bis 100 6 bis 10 0 bis 26; 44 bis 70 0 bis 17; 33 bis 50 nicht vorhanden 0 und 8 Fehler 1.Art 0,0308 0,0340 0,0158 0,0158 0,0432 0,0423 0,0473 0,0414 0,0328 0 0,0078 Fehler 2.Art 0,0033 0,0107 0,0085 nicht möglich 0,0510 0,0100 0,8338 nicht möglich nicht möglich nicht möglich nicht möglich Macht des Tests 0,9967 0,9895 0,9915 nicht möglich 0,9490 0,9900 0,1662 nicht möglich nicht möglich nicht möglich nicht möglich Einführung in die Statistik – Übungsblatt 12 Paula Perkuhn, Besprechung am 31.01., 18:00 – 19:30 Uhr 1. Wie viel Kilowatt können durch Energiesparlampen durchschnittlich pro Woche eingespart werden? Für eine Stichprobe von fünf Haushalten wurden folgende Ergebnisse erzielt: Haushalte: 1 2 3 4 5 Kw/Woche mit üblichen Lampen 24 40 10 20 30 Kw/Woche mit Energiesparlampen 20 36 11 16 26 a) Berechne das 95%Konfidenzintervall für die Differenz der Populationsmittelwerte. b) Teste H0: Populationsmittelwerte sind gleich (Alternative: ungleich) 2. Die durchschnittliche häusliche Arbeitszeit (in Stunden) für 2 Wohnarten werden verglichen. Wohnart Stichproben: zu Hause WG Mittelwert : 10 20 Standardabweichung: 2 2 Stichprobengröße: 10 20 Die Populationsstandardabweichungen seien gleich. a) Berechnen Sie das Konfidenzintervall für die Differenz der Populationsmittelwerte. b) Testen Sie H0: Populationsmittelwerte sind gleich (Alternative: ungleich) 3. Eine Studie vergleicht die Aggressivität von Männern mit der von Frauen. Dazu werden 20 Frauen und 30 Männer einem Experiment unterzogen und beobachtet. Die Frauen zeigen im Mittel 12 aggressive Verhaltensweisen bei einer Standardabweichung von 4,4. Die Männer agieren im Mittel 15 mal aggressiv bei einer Standardabweichung von 3,0. a) Bestimme jeweils für beide Gruppen getrennt das 95%-Konfidenzintervall für den Mittelwert b) Konstruiere ein Konfidenzintervall für die Mittelwertsdifferenz für den heteroskedastischen Fall mit alpha = 0,05. 4. In Konstanz werden in vier Buslinien jeweils drei zufällig ausgewählte Personen nach ihrem Alter befragt. Dabei werden folgende Resultate festgestellt: Buslinie Alter der Fahrgäste Linie 1 (Autofähre) 34 56 75 Linie 6 (PLK Reichenau) 27 45 63 Linie 9 (Uni) 20 25 30 Linie 10 (Friedhof) 65 80 80 Berechne den Determinationskoeffizient 1. Art und interpretiere ihn.Lösungen zu Übungsblatt 12 1. a) verbundene Stichproben: Differenzenwerte: 4, 4, -1, 4, 4 dquer = 3; s = √(0,25)(16 * 4 + 1 * 1 – 5 * 9) = 2,24 o = 3 + 2,78(2,24/2,24) = 5,78 u = 3 - 2,78(2,24/2,24) = 0,22 b) H0 liegt nicht im Konfidenzintervall, also: H0 wird abgelehnt. Oder: KB für TW größer 0 + 2,78 * 1 und kleiner 0 – 2,78 * 1; der Testwert dquer liegt im kritischen Bereich. 2. a) unverbundene Stichproben, homoskedastischer Fall: s = √(1/10 + 1/20) * √((9 * 4 + 19 * 4)/(28)) = 0,7746 df = 28 t = 2,05 o = 10 + 2,05 * 0,7746 = 11,59 u = 10 - 2,05 * 0,7746 = 8,41 b) H0 liegt nicht im Konfidenzintervall, also: H0 wird abgelehnt. Oder: KB aus student-t-Verteilung, bei TW größer 2,05 oder kleiner -2,05. TW = (10 – 0) / 0,7746 = 12,9; TW liegt im kritischen Bereich. 3. a) Frauen: o = 12 + 2,09 * 4,4/√20 = 14,06; u = 12 – 2,09 * 4,4/√20 = 9,94 Männer: o = 15 + 2,045 * 3/√30 = 16,12; u = 15 – 2,045 * 3/√30 = 13,88 b) df = ((19,36/20) + (9/30))2/((((19,36/20)2)/19) + (((9/30)2)/29)) = 1,61/0,05 = 30,71 s = √(19,36/20) + (9/30) = 1,13 o = -3 + 2,04 * 1,13 = -0,69 u = -3 – 2,04 * 1,13 = -5,31 4. yquer1 = 55; yquer2 = 45; yquer3 = 25; yquer4 = 75; yquer = 50 ssq (between) = (3 * 552) + (3 * 452) + (3 * 252) + (3 * 752) – (12 * 502) = 3900 ssq (total) = 342 + 562 + 752 + 272 + 452 + 632 + 202 + 252 + 302 + 652 + 802 + 802 – 12 * 502 = 5590 Det.1.Art = 3900/5590 = 0,70, d.h. Die Unterscheidung der Busse reduziert den Fehler beim Prädizieren des Alters um 70% (bei Prädiktionsregel = Mittelwerte prädizieren) Einführung in die Statistik – Übungsblatt 13 Paula Perkuhn, Besprechung am 07.02., 18:00 – 19:30 Uhr 1. die Aufgabe, die wir im Tutorium nicht mehr geschafft haben: Ihr habt folgende Daten erhoben: Art der Beschäftigung n Mittlere Arbeitszeit s2(n-1) Finanzbeamte 100 1750 90000 Amtsärzte 120 2010 40000 Wiss. Angestellte 120 1880 55000 Lehrer 80 1950 64000 a) Berechne den Determinationskoeffizienten 1. Art. Was sagt er hier aus? Berechne den adjustierten Determinationskoeffizienten 1. Art. b) Teste die universelle Nullhypothese (die Mittelwerte in den Populationen aller 4 Gruppen sind gleich)! c) Stelle die symmetrischen Effekte in einem Pfaddiagramm dar! 2. Gegeben sind folgende Datenpaare (xi,yi). Beide Merkmale sind intervall-skaliert. xi 10 15 22 37 60 yi 2,5 2,2 2 1,4 4 a) Berechne die Varianzen der beiden Merkmale und die Kovarianz! b) Berechne den Determinationskoeffizient 2. Art! c) Berechne eine Geradengleichung, die die gegebenen Datenpunkte optimal beschreibt! 3. Es wurden folgende Daten über die Wirkung eines Antiaggressionstrainings erhoben: VP Nr. 1 2 3 4 5 6 7 Anzahl aggr. Handlungen vorher 14 15 17 18 19 10 12 Anzahl aggr. Handlungen nachher 12 10 15 10 13 9 5 Berechne den Determinationskoeffizient 1. Art! 4. Züchtern ist es gelungen, gezielt dumme, mittelgescheite und blitzgescheite Ratten zu Züchten. Es soll untersucht werden, ob die Klugheit der Ratten einen Einfluss auf die Durchsetzungsfähigkeit hat. Als Maß für die Durchsetzungsfähigkeit dient die Gewichtszu- bzw. Abnahme bei einem gemeinsamen Aufenthalt in einem Käfig mit begrenzten Futterressourcen : Rattenart Gewichtsveränderungen dumm -4; -6; +1; -2 mittel -3; +5; +7; blitzgescheit +4; +2; +7; +8; +5 Führe eine (einfaktorielle) Varianzanalyse durch. Stelle das Ergebnis als ANOVA-Tabelle dar und die asymmetrischen Effekte (allgemeines Niveau soll dem Gruppenmittelwert der dummen Ratten entsprechen) in einem Pfaddiagramm.Lösungen zu Übungsblatt 13 1. a) ssq(between) = 3955983,23 ssq(within) = 25271000 ssq(total) = ssq(within) + ssq(between) = 29226983,23 Det.1.Art = 0,1354; d.h. Die Unterscheidung der Gruppen bei der Prädiktion der Arbeitszeit reduziert den Prädiktionsfehler um 13,54%! adjustierter Det.1.Art: 0,129 b) df1 = 3, df2 = 416 F(3,416) = 21,71 KB: 2,65 und größer > die Nullhypothese wird verworfen c) allgemeines Niveau k = 1897,5; alpha1 = -147,5; alpha2 = +112,5; alpha3 = -17,5; alpha4 = +52,5 2. a) Var(x) = (5778 – 4147,2)/4 = 407,7 Var(y) = 0,942 Cov(x,y) = 1/4((25+33+44+51,8+240) – 5 * 28,8 * 2,42) = 11,33 b) Det.2.Art = 11,33/(407,7 * 0,942) = 0,0295 c) b = cov(x,y)/var(x) = 0,0277; a = 1,6222; Geradengleichung: y = 1,62 + 0,03x 3. d: 2,5,2,8,6,1,7; dquer = 4,43; n = 7 ssq(dquer) = (4 + 25 + 4 + 64 + 36 + 1 + 49) – 7 * 4,432 = 45,63 ssq(0) =183 Det.1.Art = 0,7506 4. Variationsquelle Sum of Squares df Mean Sum of Sqares F-Ratio Faktor, between 144,45 2 72,225 F(2,9) = 4,40 Error, within 147,8 9 16,42 Total 292,25 11 26,57 KB: 4,26 und größer; die Nullhypothese, dass alle Gruppenmittelwerte gleich sind, wird abgelehnt allgemeines Niveau k = -2,74; alpha1 = 0; alpha2 = 3 + 2,75 = 5,75; alpha3 = 5,2 + 2,75 = 7,95