Übungsblatt 1 zur Einführung in die Statistik, WS 06/07 1. Aufgabe Bestimme anhand des gegebenen Zahlencodes jeweils das Skalenniveau, auf dem die Messwerte basieren, und gib jeweils zwei zulässige und eine unzulässige Transformation an. Merkmal einige Ausprägungen Konfession rk ev oB a a’ a’’ 220 Hz 440 Hz 880 Hz 1970 1961 1988 122,2 ms 211,0 ms 200,4 ms Tonhöhe Frequenz Geburtsjahr Reaktionszeit in ms Skalenniveau Zahlencode1 zulässiger Zahlencode2 zulässiger Zahlencode3 unzulässiger Zahlencode4 0 3 2,8 1 2 5 1 2 4 70 61 88 122,2 ms 211,0 ms 200,4 ms 2. Aufgabe Bestimme alle sinnvollen Skalenniveaus für die jeweiligen Aussagen (ohne Beweis) und beweise anschließend das mindestnotwendige Skalenniveau für Aussage b) und c). Nominal Ordinal Intervall Verhältnis Absolut a) Ratten sind mindestens so ängstlich wie Mäuse. b) In Zweiergruppen wird doppelt so viel geleistet wie in Vierergruppen. c) In der Wüste ist der Temperaturunterschied zwischen Tag und Nacht dreimal so groß wie am Meer. d) In der Wüste ist der Temperaturunterschied zwischen Tag und Nacht größer als am Meer. e) Der Mittelwert der Körpergröße dreier Männer ist genau so groß wie der Mittelwert der Körpergröße zweier Frauen. 3. Aufgabe Bei einem Gedächtnisexperiment werden 40 Probanden 30 Gegenstände vorgelegt, die sie hinterher auswendig niederzuschreiben haben. Die folgende Aufzählung listet auf, an wie viele der Gegenstände sich jeder einzelne Proband erinnert hat: 12, 20, 23, 0, 14, 16, 12, 10, 30, 12 14, 9, 6, 22, 14, 29, 1, 10, 11, 22 15, 16, 12, 13, 15, 17, 2, 14, 22, 9 11, 14, 18, 19, 20, 6, 8, 10, 12, 14 a) b) c) d) e) f) welches Skalenniveau liegt vor? Erstelle die Häufigkeitsverteiliung. Wieviel Prozent der Probanden konnten sich an 20 oder weniger Gegenstände erinnern? Fasse die unterschiedlichen Ausprägungen in Klassen zusammen. Erstelle ein Histogramm. Stelle die Verteilungsfunktion (der jetzt in Klassen eingeteilten Ausprägungen) in einem geeigneten Diagramm dar. Lösungen 1 zur Einführung in die Statistik, WS 06/07 Zu 1 Bestimme anhand des gegebenen Zahlencodes jeweils das Skalenniveau, auf dem die Messwerte basieren, und gib jeweils zwei zulässige und eine unzulässige Transformation an. Merkmal einige Ausprägungen Skalenniveau Zahlencode1 zulässiger Zahlencode2 zulässiger Zahlencode3 unzulässiger Zahlencode4 Konfession rk ev oB a a’ a’’ 220 Hz 440 Hz 880 Hz 1970 1961 1988 122,2 ms 211,0 ms 200,4 ms Nominal 0 3 2,8 1 2 5 1 2 4 70 61 88 122,2 ms 211,0 ms 200,4 ms 1 4 9 3 4 8 4 8 16 11 0 33 20 -10 5 1 2 9 3,5 7 14 132 60 276 17 12 17 -1 -2 -9 200 420 860 -11 0 -33 144,4 422,0 400,8 Tonhöhe Frequenz Geburtsjahr Reaktionszeit in ms Ordinal Verhältnis Intervall Absolut Die Skalenniveaus sind zwingend, die zulässigen und unzulässigen Zahlencodes stellen lediglich Beispiele vieler möglichen Lösungen dar. Zu 2 Bestimme alle sinnvollen Skalenniveaus für die jeweiligen Aussagen (ohne Beweis) und beweise anschließend das mindestnotwendige Skalenniveau für Aussage b) und c). Nominal a) Ratten sind mindestens so ängstlich wie Mäuse. b) In Zweiergruppen wird doppelt so viel geleistet wie in Vierergruppen. c) In der Wüste ist der Temperaturunterschied zwischen Tag und Nacht dreimal so groß wie am Meer. d) In der Wüste ist der Temperaturunterschied zwischen Tag und Nacht größer als am Meer. e) Der Mittelwert der Körpergröße dreier Männer ist genau so groß wie der Mittelwert der Körpergröße zweier Frauen. Ordinal Intervall Verhältnis Absolut x x x x x x x x x x x x x x x Beweis b) Z = 2 * V (Z = Leistungsstärke einer Zweiergruppe / V = Leistungsstärke einer Vierergruppe) Test mit Intervallskalen-Transformation: Y = a + bx Y(Z) = 2 * Y(V) a+bz = 2 * (a + bV) a + bz = 2a + 2bV Anfangsaussage (Z = 2 * V) gilt nur, wenn a = 0. Daher ist eine Intervallskala nicht möglich. Die Transformation Y = a + bx mit a = 0 entspricht aber genau der zulässigen Transformation der Verhältnisskala Y = bx. Daher ist das mindestnotwendige Skalenniveau eine Verhältnisskala. Beweis c) Tw – Nw = 3 * (Tm – Nm) (Die Variablen stehen für die Temperatur zu den jeweiligen Bedingungen; T = Tag; N = Nacht; w = Wüste; m = Meer) Test mit Intervallskalen-Transformation: Y = a + bx Y(Tw) – Y(Nw) = 3 * (Y(Tm) - Y(Nm)) a + bTw – (a + bNw) = 3 * (a + bTm – (a + bNm)) bTw – bNw = 3 * (bTm – bNm) b * (Tw – Nw) = 3b * (Tm – Nm) Tw – Nw = 3 * (Tm – Nm) zusammenfassen b ausklammern geteilt durch b Daraus folgt: Eine Intervallskala ist zulässig Test mit Ordinalskalen-Transformation: Zahlen ausdenken, bei denen die Aussage wahr wäre z.B. 2–1=4–1 Wenn eine Ordinalskala möglich wäre, müsste eine wahre Aussage bei jeder entsprechenden Transformation ebenfalls wahr bleiben. mögliche Transformation ausdenken z.B. 2–1=5–1 Da die Differenz auf der linken Seite der Gleichung jetzt nicht mehr dreimal so groß ist wie die Differenz auf der rechten Seite, ist eine Ordinalskala nicht möglich. Daraus folgt: Das mindestnotwendige Skalenniveau ist eine Intervalskala. Zu 3 a) Absolutskala b) Index Xi ni 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 0 1 2 6 8 9 10 11 12 13 14 15 16 17 18 19 20 22 23 29 30 1 1 1 2 1 2 3 2 5 1 6 2 2 1 1 1 2 3 1 1 1 c) 85 % d) 6 Klassen erscheinen sinnvoll e) 0,1 0,05 0,01 10 20 30 10 20 30 f) 1 0,5 0,1 Übungsblatt 2 zur Einführung in die Statistik, WS 06/07 1. Aufgabe Es wird eine Untersuchung vorgenommen, wie viel Bier (in l) pro Woche getrunken wird. Die Datenwerden in folgender Tabelle zusammengefasst: 0 bis 1 Liter 1 bis 2 Liter 2 bis 5 Liter 5 bis 10 Liter 10 bis 20 Liter 20 bis 30 Liter a) b) c) d) e) f) g) 6 Personen 10 Personen 17 Personen 5 Personen 1 Person 1 Person Welches Skalenniveau liegt vor? Handelt es sich hierbei um diskrete oder stetige Daten? Wie groß ist der Anteil der Personen, die 10 Liter und weniger trinken? Gebe diesen Wert in Prozent an. Stelle sowohl die Dichtefunktion als auch die kumulierte Verteilung graphisch dar. Wie heißen diese Diagramme? Berechne den Modalwert. 2. Aufgabe Gegeben sei folgende Häufigkeitsverteilung: a) b) c) d) e) Index Xi ni 1 2 3 4 5 6 7 30 32 35 42 48 49 57 2 1 3 1 1 1 2 Berechne das Arithmetische Mittel Berechne den Median Berechne das 1. und das 3. Quartil Berechne die Hinges. Berechne das fünfte Septil. 3. Aufgabe 20 Personen wurden nach ihrem Abschluss befragt: (0 = kein Abschluss; 1 = Hauptschulabschluss; 2 = Mittlere Reife; 3 = Abitur; 4 = Uni-Abschluss) 2, 4, 1, 3, 3, 2, 3, 4, 4, 1, 4, 2, 3, 1, 4, 2, 4, 3, 1, 2, a) b) c) d) e) f) g) h) Welche Skala wurde verwendet. Stelle die einzelnen Anteile und die kumulierten Anteile graphisch dar. Berechne das 1. und das 3. Quartil. Berechne die Hinges. Berechne den Modalwert. Berechne den Median. Berechne das erste Oktil. Wie viele Oktile gibt es? Berechne die Eighths. Lösungen 2 zur Einführung in die Statistik, WS 06/07 Zu 1 a) b) c) d) e) Absolutskala Stetige Daten 0,95 95 % 0,25 0,2 0,15 0,1 0,025 1 2 5 10 1 2 5 10 1 0,5 0,1 f) Histogramm, Summenpolygon g) 1,5 Zu 2 a) b) c) d) e) 40,91 35 32 und 49 33,5 und 48,5 48 Zu 3 a) Ordinalskala b) 0,3 0,2 0,1 0,05 1 2 3 4 1 2 3 4 1 0,5 0,1 c) d) e) f) g) h) 2 und 4 2 und 4 4 3 1; Es gibt sieben Oktile 1 und 4 Übungsblatt 3 zur Einführung in die Statistik, WS 06/07 1. Aufgabe 24 Studenten wurden nach der Anzahl ihrer DVDs befragt: 1, 2, 3, 3, 3, 4, 5, 5, 6, 8, 10, 10, 12, 13, 14, 14, 14, 15, 15, 16, 19, 24, 35, 50 a) b) c) d) e) f) g) h) i) j) k) l) Berechne das arithmetische Mittel. Berechne den Median. Berechne die Spannweite. Berechne den Terzilabstand. Berechne den H-Spread. Berechne die Eighths. Berechne den Modalwert. Berechne das Minimum. Berechne die Varianz der Stichprobe. Berechne die Standardabweichung der Stichprobe. Berechne den Standardfehler der Stichprobe. Wie würden sich die Werte verändern, wenn sie mit dieser Stichprobe die Population schätzen wollten. m) Zeichne einen Box-Plot. 2. Aufgabe Gegeben sei folgende Häufigkeitsverteilung: Index Xi ni 1 2 3 4 5 6 7 72 75 81 82 89 95 101 4 1 2 8 2 5 1 a) b) c) d) e) Berechne die Modal-Dispersion. Berechne die qualitative Varianz. Berechne die Entropie. Berechne die Schiefe. Handelt es sich hierbei um eine linksschiefe eine rechtsschiefe oder um eine symmetrische Verteilung? f) Berechne den MAD. g) Berechne den Variationskoeffizient. h) Berechne den Quartilsdispersionskoeffizient. 3. Aufgabe Gegeben seien folgende Klassen: 0 bis 15 15 bis 50 50 bis 140 4 Personen 13 Personen 3 Personen a) Berechne das 0,9 Quantil. Lösungen 3 zur Einführung in die Statistik, WS 06/07 Zu 1 a) b) c) d) e) f) g) h) i) j) k) l) m) 12,54 11 49 8,5 10,5 3 und 21,5 3 und 14 1 120,50 10,98 2,24 Die Werte würden größer werden (125,74 - 11,21 - 2,29 ) 50 45 . 40 35 30 25 – 20 15 10 5 0 – Zu 2 a) b) c) d) e) f) g) h) 0,652 0,783 h(X) = 1,70 ; h(X)b = 2,45 0,25 rechtsschief (Schiefe größer 0) 7 0,10 0,080 Zu 3 a) 80 Übungsblatt 4 zur Einführung in die Statistik, WS 06/07 1. Aufgabe Eine Untersuchung ergab folgende Daten: 8 16 14 26 26 Messobjekte Messobjekte Messobjekte Messobjekte Messobjekte 20 40 70 110 150 - 40 70 110 150 200 a) Berechne das Arithmetische Mittel. Achtung: Bei stetigen Daten entspricht xi immer der Klassenmitte. b) Berechne den Median. c) Berechne das 0,1 Quantil. d) Berechne die Modal-Dispersion. Achtung: Falls es mehrere Modalausprägungen geben sollte, ;-) würde man sich bei der Berechnung der Modal-Dispersion für eine Modalausprägung entscheiden. e) Berechne die Varianz. Achtung: Ab jetzt wird bei einer Datenerhebung bzw. Stichprobe immer durch n – 1 geteilt, da Ihr Euch nicht für die Streuung innerhalb der Stichprobe interessiert, sondern die die Streuung innerhalb der Gesamtheit / Population schätzen wollt! f ) Berechne die Standardabweichung. g) Berechne den Standardfehler. h) Berechne die Entropie in nits. i ) Berechne die Entropie in bits. 2. Aufgabe Eine Münze wird dreimal geworfen: a) Wie wahrscheinlich ist es, dreimal Zahl zu werfen? b) Berechne die Wahrscheinlichkeit, zweimal Zahl und einmal Kopf zu werfen? c) Mit welcher Wahrscheinlichkeit wird beim ersten und letzten Wurf Kopf geworfen? 3. Aufgabe Beim Mastermind ergibt sich eine Farbkombination daraus, dass in fünf Löcher jeweils acht verschiedene Farben gesteckt werden können. Wie viele Farbkombinationen gibt es, wenn a) gleiche Farben auch mehrfach vorkommen dürfen? b) keine Farbe doppelt vorkommen darf? 4. Aufgabe Wie Wahrscheinlich ist es, mit einer Zahlenkombination den Jackpott im Lotto zu knacken? (Da ich als Tutor beim Land angestellt bin, versuche ich nun mit dieser Wahrscheinlichkeit die Spielsucht zu bekämpfen! :-) 5. Aufgabe Zwei sechsseitige Würfel werden hintereinander geworfen. a) Mit welcher Wahrscheinlichkeit ist keine 1 dabei? b) Mit welcher Wahrscheinlichkeit wird eine sieben geworfen? c) Mit welcher Wahrscheinlichkeit ist die Augenzahl des zweiten Würfels größer als die des ersten? Lösungen 4 zur Einführung in die Statistik, WS 06/07 Zu 1 n) 114,556 o) 120,769 p) 41,875 q) 0,711 r) 2512,160 s) 50,121 t) 5,283 u) 1,529 v) 2,206 Zu 2 a) b) c) 0,125 0,375 0,25 Zu 3 a) b) 32768 6720 Zu 4 7,151 * 10^ -9 bzw. 1 : 139 838 160 Zu 5 a) 0,6944 bzw. 25/36 b) 0,1666 bzw. 1/6 c) 0,4166 bzw. 15/36 bzw. 5/12 Übungsblatt 5 zur Einführung in die Statistik, WS 06/07 1. Aufgabe In einer Urne befinden sich 3 rote, 4 blaue und 2 grüne Kugeln. 2 Kugeln werden gleichzeitig gezogen. a) b) c) d) e) f) Handelt es sich um Ziehen mit oder ohne zurücklegen? Wie wahrscheinlich ist es, eine rote und eine blaue Kugel zu ziehen? Mit welcher Wahrscheinlichkeit ist mindestens eine der Kugeln grün? Wie viele Permutationen gibt es? (siehe Skript Seite 38) Wie viele Kombinationen gibt es? (siehe Skript Seite 38) Achtung: 1.) Dass manche Kugeln die gleiche Farbe haben, spielt bei der Frage nach der Variation, Permutation bzw. Kombination keine Rolle. Ohne Ergänzung beziehen sich diese Begriffe immer auf N, also in diesem Fall auf alle Kugeln. 2.) Der Begriff der Kombination wird ab jetzt immer im statistischen Sinne verwendet (Die Reihenfolge wird nicht berücksichtigt). Wie viele Farbkombinationen gibt es? 2. Aufgabe Eine sechsseitige Taschentuchpackung wird geworfen. Michael will ausprobieren, ob es sich hierbei um einen gerechten Würfel handelt. Zu seinem Entsetzen stellt er fest, dass die Packung nur jedes fünfzigste Mal auf einer der Kanten stehen bleibt und er sie leider nicht als Würfel verwenden kann. a) b) c) Welcher Wahrscheinlichkeitsbegriff wird hier verwendet? (siehe Skript Seite 41) Mit welcher Wahrscheinlichkeit bleibt die Packung bei 20 Versuchen nie auf der Kante stehen? Wie wahrscheinlich ist es, dass die Packung bei drei Würfen höchstens einmal auf der Kante stehen bleibt? (alle Stellen hinterm Komma angeben) 3. Aufgabe Auf einen achtseitigen Würfel werden die Zahlen drei bis zehn geschrieben. a) Wie kann der Erwartungswert interpretiert werden? (siehe Skript Seite 43 unten) b) Berechne den Erwartungswert. Achtung: Falls nichts anderes erwähnt wird, geht man, im Sinne des Klassischen Wahrscheinlichkeitsbegriffs, bei einem Würfel immer von einem gerechten Würfel aus, bei dem jede Seite mit der gleichen Wahrscheinlichkeit geworfen wird. c) Berechne die Varianz. Achtung: Möglichst nicht mit der Formel auf Seite 43 berechnen, sondern sofort mit dem viel einfacheren Verschiebungssatz, der für Wahrscheinlichkeiten im Skript erst auf Seite 89 unten eingeführt wird. Aufgabe 4 dient zum Verständnis des Erwartungswerts, ist aber in dieser Form nicht klausurrelevant. Aufgabe 5 ist eine reine Spaßaufgabe mit verblüffendem Ergebnis. 5. Aufgabe Auf dem Konstanzer Weihnachtsmarkt werden für einen guten Zweck Lose für 50 Cent verkauft. Jedes zweite Los ist eine Niete. Bei 40% aller Lose darf man noch mal ziehen, bei jedem zehnten Los gewinnt man einen Glühwein, der am Stand 2,50 € kostet. Lohnt es sich, viele Lose zu kaufen, um sich billiger voll laufen zu lassen? 5. Aufgabe In einer Quizshow werden Ihnen drei Umschläge angeboten, in zwei sind Nieten in einem das Auto. Nachdem Sie sich für einen Umschlag entschieden haben, öffnet der Showmaster einen der beiden anderen Umschläge und zeigt Ihnen eine Niete. Er bietet Ihnen an, Ihre Entscheidung noch mal zu überdenken. Sie haben nun die Wahl zwischen ihrem bisherigen und dem anderen ungeöffneten Umschlag. Kann man statistisch gesehen einen der beiden bevorzugen? Lösungen 5 zur Einführung in die Statistik, WS 06/07 Zu 1 a) b) c) d) e) f) Ohne Zurücklegen 1/3 5/12 bzw. 0,4167 72 36 6 Zu 2 a) Der Frequentistische Wahrscheinlichkeitsbegriff. b) 0,6676 c) 0,998816 Zu 3 a) „Der Erwartungswert kann als durchschnittlicher Wert auf lange Sicht interpretiert werden.“ b) 6,5 c) 5,25 (47,5 – (6,5)^2) Zu 4 Anmerkung vorweg: Die Lose, für die man erneut ziehen darf, können gedanklich einfach weggelassen werden. Antwort: Nein, es lohnt sich nicht! 1. Variante: Der Erwartungswert des Gewinns beträgt 0,41667 €. Das heißt, dass man („auf lange Sicht“) durchschnittlich 0,41667 € für jedes Los gewinnt, für welches man 0,5 € bezahlen muss. 2. Variante: Kauft man für das Geld, das ein Glühwein kosten würde (2,5 €), fünf Lose, bekommt man dafür („auf lange Sicht“) durchschnittlich nur 0,83 (5/6) Tassen Glühwein. 3. Variante: Um einen Glühwein zu gewinnen, müsste man („auf lange Sicht“) durchschnittlich 3 € (6 mal 0,5 €) bezahlen. Zu 5 Ja! Sie sollten statistisch gesehen Ihre Entscheidung revidieren und den anderen Umschlag wählen. (Aufklärung gibt’s im Tutorium!) Übungsblatt 6 zur Einführung in die Statistik, WS 06/07 1. Aufgabe Gegeben sei eine Urne mit 10 Kugeln. Auf einer Kugel steht die Zahl 1, auf den anderen jeweils eine 0. Die Zahlen auf den Kugeln sind die Werte der x-Variablen. Bilden Sie fuer die x-Variable der Grundgesamtheit a) das arithmetische Mittel: ---------------------------------------------------------------------------------------------------b) die Varianz: -------------------------------------------------------------------------------------------------------------------Sie ziehen zufaellig OHNE Zuruecklegen drei Kugeln, d.h. eine Stichprobe der Groesse 2 (n=2) Berechnen Sie fuer die Zufallsvariable „Spannweite der x-Werte“: c) die Verteilung (Werte mit Wahrscheinlichkeiten): --------------------------------------------------------------------d) den Erwartungswert der Spannweite -----------------------------------------------------------------------------------und die Varianz der Spannweite -----------------------------------------------------------------------------------------Achtung: Bei dichotomen Variablen (0 und 1 / Dummy-Variablen) werden für den Erwartungswert und die Varianz der Population die vereinfachten Formeln auf Seite 51 verwendet. Das entspricht der Varianzberechnung geteilt durch n, da die Grundgesamtheit (hier die Urne) bekannt ist und nicht geschätzt werden muss. Bei anderen bzw. mehreren möglichen Ausprägungen einer Zufallsvariable (Mittelwertsstatistik / Minimumsstatistik / Maximumsstatistik / Stichprobenvarianz / Spannweite usw.) muss der Erwartungswert und die Varianz nach den normalen Formeln berechnet werden. (Erwartungswert Seite 43, Varianz Seite 89) 2. Aufgabe Gegeben sei eine Urne mit 10 Kugeln. Auf 8 Kugeln steht die Zahl 1, auf den anderen jeweils eine 0. Die Zahlen auf den Kugeln sind die Werte der x-Variablen. Bilden Sie fuer die x-Variable der Grundgesamtheit a) die Verteilung (Werte und Anteile): -------------------------------------------------------------------------------------b) die Varianz: -------------------------------------------------------------------------------------------------------------------Sie ziehen zufaellig MIT Zuruecklegen drei Kugeln, d.h. eine Stichprobe der Groesse 3 (n=3) Berechnen Sie fuer die Zufallsvariable „Stichprobenvarianz der gezogenen x-Werte“: c) die Verteilung (Stichprobenvarianzwerte mit W`ten): ---------------------------------------------------------------d) den Erwartungswert der Stichprobenvarianz -------------------------------------------------------------------------und die Varianz der Stichprobenvarianz ------------------------------------------------------------------------------Achtung: Bei der Berechnung der Stichprobenvarianz muss man durch n-1 teilen, da eine spätere Schätzung der Population vorausgesetzt wird. 3. Aufgabe Ein vierseitiger Farbwürfel mit den Farben schwarz, weiß, rot und gelb wird 4 Mal geworfen. Mit welcher Wahrscheinlichkeit wird a) höchstens 3 Mal rot geworfen. b) entweder 2 Mal schwarz oder 3 Mal gelb geworfen. c) mindestens 2 Mal schwarz geworfen. 4. Aufgabe Gegeben sei eine Urne mit 4 Kugeln (a, b, c, d). Auf der a-Kugel steht die Zahl 1, auf den b, c, dKugeln eine 0. Die Zahlen auf den Kugeln sind die Werte der x-Variablen. Bilden Sie fuer die x-Variable der Grundgesamtheit a) die Spannweite: --------------------------------------------------------------------------------------------b) die Varianz: --------------------------------------------------------------------------------------------------------------------Die Urne symbolisiert nun eine Studentenpopulation. Sie wollen mit dieser Urne nun c) die Mittelwertsstatistik und ------------------------------------------------------------------------------------------------d) den Erwartungswert der Maximumsstatistik ---------------------------------------------------------------------beschreiben, falls Sie dreimal OHNE Zuruecklegen aus dieser Population ziehen würden. Lösungen 6 zur Einführung in die Statistik, WS 06/07 Zu 1 a) b) c) d) 0,1 0,09 P(X=0) = 0,8 P(X=1) = 0,2 0,2; 0,16 Zu 2 a) b) c) d) f(1) = 0,8 f(0) = 0,2 0,16 P(X=0) = 0,52 P(X=1/3) = 0,48 0,16; 0,027733 Zu 3 a) 0,9961 b) 0,2578 c) 0,4727 Zu 4 a) b) c) d) 1 0,1875 P(X=0) = 27/64 P(X=1/3) = 27/64 P(X=2/3) = 9/64 P(X=1) = 1/64 37/64 Übungsblatt 7 zur Einführung in die Statistik, WS 06/07 Intelligenz ist in der Population annähernd normalverteilt mit einem Mittelwert von 100 und einer Standardabweichung von 15. 1. Aufgabe a) Forrest Gump hat einen IQ von 75. Berechnen Sie seinen Z-Wert. b) Interpretieren Sie diesen Z-Wert. c) Wie viel Prozent der Bevölkerung sind intelligenter als er? 2. Aufgabe Welchen IQ müsste man mindestens haben, um a) zu der intelligenteren Hälfte zu gehören? b) zu den intelligentesten 30% zu gehören? 3. Aufgabe Sie sind Intelligenzforscher/in und ziehen dafür zufällig eine Personenstichprobe der Größe n=1. a) Mit welcher Wahrscheinlichkeit ist der IQ dieser Person größer als 115? Sie sind immer noch Intelligenzforscher/in und ziehen dafür zufällig eine Personenstichprobe der Größe n=3. b) Mit welcher Wahrscheinlichkeit ist der Mittelwert dieser drei Personen größer als 115? c) Mit welcher Wahrscheinlichkeit hat genau eine der drei Personen einen höheren IQ als 115? 4. Aufgabe Ihnen sei bekannt, dass die Anzahl der Gähner im Statistiktutorium annähernd normalverteilt ist mit einem Mittelwert von 6 und einer Varianz von 4. a) b) Sie gähnen nur ein einziges Mal. Wie viel Prozent aller Anwesenden gähnen noch seltener als Sie? Wie groß ist das Intervall um den Mittelwert, in dem sich 95% aller Anwesenden befinden? 5. Aufgabe Für die folgende Aufgabe sollten Sie die grüne Tabelle verwenden. Sie spielen Basketball und wollen Freiwürfe üben. Sie werfen 20 Mal und wissen, dass Sie im Schnitt 6 von 10 Freiwürfen treffen. a) Mit welcher Wahrscheinlichkeit treffen Sie genau 9 Mal? b) Mit welcher Wahrscheinlichkeit treffen Sie höchstens 13 Mal? c) Mit welcher Wahrscheinlichkeit treffen Sie mindestens 12 Mal? d) Mit welcher Wahrscheinlichkeit treffen Sie mindestens 11 Mal und höchstens 13 Mal? Lösungen 7 zur Einführung in die Statistik, WS 06/07 Zu 1 a) - 1,667 bzw. - 5/3 b) Sein IQ ist 1,667 Standardabweichungen (nach links) vom Mittelwert entfernt. c) 95,25% Zu 2 a) Man müsste mindestens einen IQ von 100 haben (bzw. größer 100). b) Man müsste mindestens einen IQ von 108 haben. Zu 3 a) 0,1587 b) 0,0418 c) 0,3370 Zu 4 a) 0,62% b) 2,08 - 9,92 Zu 5 a) b) c) d) 0,071 0,75 0,5956 0,5053 Übungsblatt 8 zur Einführung in die Statistik, WS 06/07 1. Aufgabe Das Merkmal Körpergröße sei normalverteilt mit einem Mittelwert von 172 und einer Standardabweichung von 6,5 NV(172;6,52). a) Wie groß ist der Anteil derer, die größer sind als 1,90 m? b) Sie wählen zufällig jemanden aus der Population aus: Mit welcher Wahrscheinlichkeit weicht diese Person höchstens um 10 cm vom Mittelwert ab? c) Welchen Anteil machen diejenigen Personen mit einer Körpergröße zwischen 1,70 m und 1,80 in der Population aus? d) Wie wahrscheinlich ist es, dass eine Person, die Sie zufällig treffen, weniger vom Mittelwert abweicht als der Durchschnitt? e) Wie groß muss man sein, um sich zu den größten 15% zählen zu dürfen? f) Nun werden Stichproben der Größe n=25 gezogen und jeweils der Mittelwert gebildet. Wie groß ist die W’t, dass so ein Mittelwert unter 180 liegt? g) In welchem symmetrischen Intervall um 172 liegen 50% dieser Stichprobenmittelwerte? h) Wie groß muss man die Stichprobengröße n wählen, dass das Intervall um den Populationsmittelwert, in dem 95% aller Stichprobenmittelwerte liegen, genau 10 cm breit ist? 2. Aufgabe Das Einkommen in der Population sei normalverteilt. Der Populationsmittelwert von 2400 € sei Ihnen bekannt, allerdings nicht die Populationsvarianz. Um diese herauszufinden ziehen Sie eine Stichprobe der Größe n=23. Die von Ihnen ermittelte Stichprobenvarianz beträgt 810 000 €^2. Wie breit ist das Intervall um den Populationsmittelwert, in dem sich 80% aller Mittelwerte von Stichproben der Größe n=23 befinden? 3. Aufgabe Maximilian nimmt an, dass mehr Studenten am Wochenende nach Hause fahren als in Konstanz bleiben. In einer Befragung von 150 Studenten sei der Anteil der Wochenendheimfahrer ermittelt worden (p=0,32). a) Geben sie die untere und die obere Grenze des 99% Konfidenzintervall an. b) Interpretieren Sie dieses Konfidenzintervall hinsichtlich Maximilians Behauptung. 4. Aufgabe Eine „Leistungsskala“ wurde so konstruiert, dass die Werte in der Population normalverteilt N (70, 20*20) sind. Es soll eine einfache Zufallsstichprobe gezogen werden. a) Wie gross muss n (Stichprobengroesse) sein, damit das 99% Konfidenzintervall für den Mittelwert höchstens 6 Skalenpunkte breit ist? ----------------------------------------------------b) Wie gross ist die Wahrscheinlichkeit, dass in einer Stichprobe der Groesse n=10 der Mittelwert groesser als 60 ist? ------------------------------------------------------------------------ Ich wünsche Ihnen allen (wahrscheinlich nachträglich) frohe Weihnachten und einen guten Rutsch ins neue Jahr!!! Nebenbei empfehle ich Ihnen noch, alles Bisherige noch mal zu wiederholen und zu verinnerlichen. Die meisten Aufgaben der Klausur werden wohl eher den Teil nach Weihnachten abfragen. Allerdings ist ein gutes Verständnis des bisherigen Stoffs dringend notwendig, um das (ab jetzt) schnelle Tempo mitgehen zu können. Lösungen 8 zur Einführung in die Statistik, WS 06/07 Zu 1 a) b) c) d) e) f) g) h) 0,0028 0,8764 0,5124 0,6827 1,79m (1,7876m) 1 Untere Grenze: 167,58 Obere Grenze: 176,42 7 Zu 2 2376€ Zu 3 a) Untere Grenze: 0,2214 Obere Grenze: 0,4186 b) Maximilian hat mit einer 99% Sicherheit Unrecht. Zu 4 a) 296 b) 0,9429 Übungsblatt 9 zur Einführung in die Statistik, WS 06/07 1. Aufgabe Das Körpergewicht von Erwachsenen ist normalverteilt mit sigma = 5kg. Skandinavier wiegen im Mittel 70 kg. Nun werden 20 Amerikaner vermessen. Es ergibt sich ein Stichprobenmittelwert von 72 kg. Kann man mit alp H0: Es gibt keinen Unterschied HA: Amerikaner sind schwerer. 2. Aufgabe H0: Der durchschnittliche IQ von Studenten ist 100, Ha: Er ist ungleich 100. Es wurde eine Stichprobe gezogen und folgendes 95%-Konfidenzintervall für den Populationsmittelwert berechnet: [102,3 ; 108,7]. Wird die Nullhypothese verworfen? Falls ja, warum und zu welchem Signifikanzniveau? Wie groß war n und das Stichprobenmittel? 3. Aufgabe X sei eine dichotome Variable. Bei einer Zehnerstichprobe wird fünfmal 0 und fünfmal 1 gemessen. Um Bootstrap-Intervalle zu bestimmen werden nun aus dieser Stichprobe nun 20 Zehnerstichproben (mit Zurücklegen) gezogen. Bei jeder dieser 20 Stichproben wird der Anteil Einsen bestimmt. Die folgenden Werte ergeben sich: 0,5; 0,3; 0,7; 0,5; 0,5; 0,8; 0,4; 0,2; 0,6; 0,7; 0,7; 0,1; 0,4; 0,5; 0,5; 0,8; 0,8; 0,6; 0,4; 0,5 Bestimme das 80%-Bootstrap-Intervall für den Mittelwert von X. 4. Aufgabe Nach Angaben eines Autohändlers soll der Benzinverbrauch eines bestimmten Modells unter 3,8 Litern pro 100 km liegen. Bei 25 Testfahrten wurde ein Mittelwert von 4,0 Litern bei einer Stichprobenstandardabweichung von 0,4 Litern ermittelt. Lässt sich die Behauptung des Herstellers zum Signifikanzniveau von 5% aufrecht erhalten? (Einseitige Testung) Bestimme den kritischen Bereich. Jemand behauptet, dass der Benzinverbrauch des Modells auf 100 km 4,0 Liter beträgt. Berechne die Macht des Tests für diese Alternativhypothese. 5. Aufgabe Jugendliche Straftäter werden nach einer Strafmaßnahme ohne weitere Betreuung zu 60% rückfällig. Es soll getestet werden, ob zusätzliche Betreuungsmaßnahmen diese Rückfallquote verringern können. a) 120 jugendliche Straftäter werden nach der Jugendhaft in einem Heim untergebracht: Die Rückfallquote beträgt in diesem Fall 57%. Ist dies ein signifikanter Unterschied? (alpha = 0,05) Tipp: Der Anteil bei einem Dichotomen Merkmal kann wie das arithmetische Mittel behandelt werden. Für n=120 ist der Anteil mit sehr guter Annäherung normalverteilt. b) 20 jugendliche Straftäter werden nach der Jugendhaft in Wohngemeinschaften untergebracht: Die Rückfallquote beträgt in diesem Fall 35%. Ist sie signifikant geringer als ohne Wohngemeinschaft? (alpha = 0,05) c) Berechne für die Aufgabe b) auch das exakte alpha und die Macht des Tests für Ha : Rückfallquote bei Wohngemeinschaft = 50 % Lösungen 9 zur Einführung in die Statistik, WS 06/07 Zu 1 Ja: Der Testwert (72 kg) fällt in den kritischen Bereich (größer 71,839). Zu 2 Ja: Das Konfidenzintervall des Testwerts überdeckt „mü“ (wo ist das auf dieser Tastatur!) nicht. alpha = 0,05 Stichprobenmittel = 105,5 n = 85 Zu 3 (0,25 – 0,8) Zu 4 Nein, der Testwert fällt in den kritischen Bereich (größer 3,9368) Macht des Test: 0,7852 Achtung: Hier muss ein t-Test durchgeführt werden!!! Zu 5 a) Nein: Der Testwert (0,57) fällt nicht in den kritischen Bereich (kleiner 0,511). b) Ja, der Testwert (7 Treffer = 35% von 20) fällt in den kritischen Bereich. c) Exaktes alpha: 0,0210 Macht des Tests: 0,1316 (unglaublich schlechter Test!) Übungsblatt 10 zur Einführung in die Statistik, WS 06/07 1. Aufgabe Für x aus einer dichotomen Population wurde eine einfache Zufallsstichprobe gezogen (n=10) : 1, 0, 1, 0, 0, 1, 1, 1, 0, 1. Es sollen Bootstrap-Konfidenzintervalle erzeugt werden; daher wurden aus dieser Stichprobe 10 Zufallsstichproben gezogen. Der Anteil der Einsen in dieser Stichprobe war jeweils: 0.4, 0.6, 0.8, 0.6, 0.5, 0.7, 0.8, 0.5, 0.5, 0.6. a) Berechnen Sie das 90% - Bootstrap-Konfidenzintervall für die Varianz der dichotomen Variablen: ---------------------------------------------------------------b) Berechnen Sie das 80% - Bootstrap-Konfidenzintervall für den Mittelwert der dichotomen Variablen: --------------------------------------------------------------2. Aufgabe Bisher wurde angenommen, dass 70% der Studenten an der Universität Konstanz die Statistik lieben. Michael glaubt aber, dies sei sogar bei 9 von 10 Studenten der Fall. Um diese Vermutung zu bestätigen, befragt er 50 Personen in der „Übung“ am Mittwoch. 40 von ihnen stimmten dem Satz „Ja, ich liebe die Statistik“ bedingungslos zu. a) Wie lautet die H0 und die HA dieses Tests? b) Wie ist die Teststatistik verteilt? c) Wird die Nullhypothese verworfen? d) Wie groß ist das exakte alpha? e) Wie groß ist die Macht des Tests? f ) Wie groß ist der Fehler erster Art? g) Wie groß ist der Fehler zweiter Art? 3. Aufgabe Ein Würfel soll daraufhin getestet werden, ob er gezinkt ist, d. h. ob die sechs Seiten mit verschiedenen Wahrscheinlichkeiten gewürfelt werden. Er wird dafür 60mal geworfen mit folgendem Ergebnis: Augenzahl Anteil in der 60er-Stichprobe 1 8/60 2 2/60 3 4 5 6 10/60 10/60 15/60 15/60 Führe einen LR-Chi2-Anpassungstest mit alpha = 0,05 durch. Formuliere das Ergebnis des Tests in Worten. 4. Aufgabe Einige Männer werden nun einem Antiaggressionstraining unterzogen. Danach wird unter denselben Bedingungen nochmals die Anzahl aggressiver Verhaltensweisen gemessen: VP Nr. Anzahl vorher Anzahl nachher 1 14 12 2 15 10 3 17 15 4 18 10 5 19 13 6 10 9 7 12 5 Teste die Alternativhypothese: Das Aggressionstraining vermindert die Anzahl aggressiver Handlungen (alpha= 0.05). Lösungen 10 zur Einführung in die Statistik, WS 06/07 Zu 1 a) 0,16 – 0,25 b) 0,45 – 0,8 Zu 2 a) b) c) d) e) f) g) H0: pi = 0,7 HA: pi = 0,9 Binomialverteilt Nein 0,0402 0,9755 0,0402 0,0245 Zu 3 Testwert = 14,32 (größer 11.07) Die Anteile der Gruppen in der Stichprobe unterscheiden sich signifikant von den angenommenen Anteilen. Der Würfel ist also nicht fair! Zu 4 Der Testwert 4,429 ist größer 2,024 bzw. - 4,429 ist kleiner - 2,024 Übungsblatt 11 zur Einführung in die Statistik, WS 06/07 1. Aufgabe Der durchschnittliche Aspirinkonsum (Pillen pro Jahr) in der Schweiz soll mit jenem in Deutschland verglichen werden. Stichproben Mittelwert Standardabweichung Stichprobengröße Schweiz 30 25 100 Deutschland 20 15 25 Testen Sie die Nullhypothese: der Aspirinkonsum ist im Schnitt in beiden Ländern gleich (Alternative: In einem Land ist er höher). Die Populationsstandardabweichungen seien gleich. a) b) c) d) Testverteilung? Kritischer Bereich? Testwert? Wird H0 abgelehnt? Berechnen Sie für Deutschland das 95%-Konfidenzintervall: (untere Grenze, obere Grenze) Anmerkung: Das ist die Aufgabe aus der Übung mit anderen Zahlen. 2. Aufgabe In Konstanz werden in vier Buslinien jeweils drei zufällig ausgewählte Personen nach ihrem Alter befragt. Dabei werden folgende Resultate festgestellt: Buslinie Linie 1 (Autofähre) Linie 6 (PLK Reichenau) Linie 9 (Uni) Linie 10 (Friedhof) Alter der Fahrgäste 34 56 75 27 45 63 20 25 30 65 80 80 a) Berechne im Sinne des PRE-Konzepts den Fehler (OHNE). Um welche SSQ handelt es sich? b) Berechne ² und interpretiere es. c) Führe folgenden Test durch: H0: Das Alter der Fahrgäste unterscheidet sich nicht für die verschiedenen Buslinien. HA: H0 ist falsch. (alpha = 0,05) Testverteilung? Testwert? Kritischer Bereich? Wird H0 verworfen? Anmerkung: Für c) braucht ihr einen F-Test (Seite 112, 113) Den Testwert F könnt ihr über ² berechnen. Im grünen Heft gibt es zwei F-Tabellen, eine für 95% und eine für 99%. Probiert’s aus, Ihr schafft das! 3. Aufgabe Es soll die Frage untersucht werden, ob Türen auf der "Stoßen-Seite" gleich abgenutzt werden wie auf der "Ziehen-Seite". Alternativ wird behauptet, dass die "Stoßen-Seite" stärker beansprucht wird. Bei acht Türen wurde ein Verschmutzungswert erhoben: 1. Stoßen- 41 Seite Ziehen- 40 Seite 2. 23 3. 25 4. 20 5. 4 6. 50 7. 7 8. 13 22 23 19 3 51 5 12 Prüfen Sie zuerst die Hypothese, dass die durchschnittliche Abnutzung gleich ist unter Berücksichtigung der angemessenen Alternativhypothese. a) Testwert b) c) d) e) Welche Verteilung hat die Teststatistik? Wird H0 abgelehnt? Begründung Bestimme den kritischen Bereich. Berechne den Determinationskoeffizienten 1. Art 4. Aufgabe Y Intervallskala wurde in 3 Gruppen (x1, x2, x3) gemessen. Stichproben: Y-Mittelwert Y-Standardabweichung Stichprobengroesse X1 10 5 10 X2 20 5 5 X3 18 5 5 Untersuchen Sie zur Prädiktion die Mittelwertregel a) Charakterisieren Sie genau die Prädiktionsregel (MIT X):_________________________________ Regel (OHNE X)____________________________________________________________________ b) Fehler (OHNE X) _____________________ Fehler (MIT X)_______________________________ c) Testen Sie H0, dass alle Populationsmittelwerte gleich sind. Testwert:______________________________ Wird H0 verworfen (alpha = 0,01)? __________ kritischer Bereich?_________________________ Lösungen 11 zur Einführung in die Statistik, WS 06/07 Zu 1 a) b) c) d) t-Verteilung KB ist beidseitig: kleiner -1,98 oder größer 1,98 TW: 1,91 kleiner 1,98. Daraus folgt: H0 wird beibehalten. (Standardfehler: 5,229) Untere Grenze: 9,6456 Obere Grenze: 30,3544 Zu 2 a) Fehler(OHNE): 5590. Es handelt sich hierbei um SSQ(total) b) Fehler(OHNE) – Fehler(MIT) geteilt durch Fehler(OHNE) = (5590 - 1690)/ 5590 = 0,6977 Bei Berücksichtigung der Gruppen kann der Fehler um 69,77% verringert werden. c) F-Verteilung: TW: F(3,8) = 6,1538 KB: größer 4,07 Da der Testwert (TW) in den kritischen Bereich fällt, wird H0 verworfen. Zu 3 a) b) c) d) e) TW = 1 t-Verteilung Ja, der Testwert fällt in den kritischen Bereich. KB größer 0,6219 ² = 0,5714 Ihr braucht hier den Determinationskoeffizienten 1. Art für verbundene Stichproben (Seite 108) Zu 4 a) Regel(MIT X) Als Vorhersage wird der jeweilige Gruppen-Mittelwert verwendet. Regel(OHNE X) Als Vorhersage wird der jeweilige Gesamt-Mittelwert verwendet. b) Fehler(OHNE X) = 840 Fehler (MIT X) = 425 c) TW: F(2,17) = 8,3 H0 wird verworfen, da der TW in den kritischen Bereich fällt (KB: größer als 6,11) Übungsblatt 12 zur Einführung in die Statistik, WS 06/07 1. Aufgabe Für vier Datenpaare in zwei intervallskalierten Variablen soll eine Regressionsgerade berechnet werden. Die Daten sind: x y 1. 2. 3. 4. 1 1 1 2 2 5 4 4 Berechnen Sie: a) b) c) d) e) Abschnitt auf y-Achse a Determinationskoeffizient. 2.Art Steigung b Stelle die Gleichung der Regressionsgeraden auf. Welchen Wert würden Sie für x=2 auf Grund der Gleichung prädizieren? 2. Aufgabe Bei fünf Personen wird untersucht, wie viele Zigaretten sie am Tag rauchen und wieviel Stunden Sport sie in der Woche treiben. Die Ergebnisse: Person Zigaretten Sport a) b) c) d) 1 0 0 2 0 1 3 5 1 4 10 4 5 40 0 Erstelle die Regressionsgerade y = a + bx für den Zusammenhang zwischen Zigarettenkonsum und Sport. Ist der Regressionskoeffizient b signifikant? (Seite 124) Erstelle das 95 %-Konfidenzintervall für b. (Seite 123) Berechne die Korrelation. (Seite 126) Anmerkung: Das neue Thema würde ich einfach mit dem Formelblatt versuchen. Für ein besseres Verständnis lohnt es sich natürlich ins Skript zu schauen. 3. Aufgabe Der Computerausdruck einer Regressionsanalyse weist folgende Werte aus: Cov(X,Y) = 6, Var(X) = 4, Var(Y) = 100. Ferner ist bekannt, dass beim t-Test für die Regressionskoeffizienten jeweils 198 Freiheitsgrade festgestellt werden können. a) b) c) d) e) Wie groß ist n ? Berechne die Korrelation. Berechne den Determinationskoeffizienten 2. Art Ist diese Korrelation signifikant? Berechne die obere und die untere Grenze eines 95 %-Konfidenzintervalls für die Korrelation. (Seite 130) Lösungen 12 zur Einführung in die Statistik, WS 06/07 Zu 1 a) b) c) d) e) 4/3 bzw. 1,333 0,4167 5/6 bzw. 0,833 y = 5/6x + 4/3 bzw. 0,833x + 1.333 3 Zu 2 a) y = -0,01875x + 1,40625 b) Nein, der TW fällt nicht in den kritischen Bereich (TW = -0,3369 größer -3,18) Zwischenergebnis: Se = 1,8625 c) (- 0,1957; 0,15822) d) - 0,1909 Zu 3 a) b) c) d) e) 200 0,3 0,09 (Korrelation ins Quadrat) Ja, der Testwert (in z-Werten) 4,3443 ist größer 1,97 (0,1683; 0,4212)