Tutorium zur Vorlesung Statistik I, Prof. Dr. W. Ludwig-Mayerhofer WiSe 2009/10 Aufgabensammlung Tutorium WiSe 2009/10 In der folgenden Aufgabensammlung finden Sie die Aufgaben, die im Tutorium1 besprochen werden. Bearbeiten Sie die Aufgaben unbedingt vorab. Teilen Sie bitte den Tutoren Bastian Baumann und Regine Pfaff vorab mit, mit welchen Aufgaben Sie besondere Schwierigkeiten hatten, damit im Vorfeld Schwerpunkte der Aufgabenbesprechung geplant werden können. Die mit * gekennzeichneten Aufgaben sind Aufgaben, die über den Stoff der Vorlesung hinausgehen. Bastian Baumann: [email protected] Regine Pfaff: [email protected] 1 Termine und Räume s. Web-Seiten von Prof. Ludwig-Mayerhofer: http://www.fb1.unisiegen.de/soziologie/mitarbeiter/ludwig-mayerhofer/statistik/ludwigm_down_stat1.html 1/15 Tutorium zur Vorlesung Statistik I, Prof. Dr. W. Ludwig-Mayerhofer WiSe 2009/10 Merkmale, Merkmalsträger, Merkmalsausprägungen Auf welchem Skalenniveau liegen die Merkmale vor? Welche der metrischen Merkmale sind diskret? Wer oder was ist Merkmalsträger? Nennen Sie mögliche Merkmalsausprägungen. - Bruttoinlandsprodukt der OECD-Staaten in Mrd. Euro Dauer der Betriebszugehörigkeit in Monaten Anzahl der Zimmer in der Wohnung Geburtenrate Anzahl der Siege bei der Tour de France Höhe des Preisgeldes bei internationalen Radrennen Anzahl der täglichen Fernsehstunden Kontostand in € (ohne Dispositionskredit) Bundestagswahlergebnisse in Prozent Tabellenplätze in der Bundesliga Lieblingsfächer in der Schule (jeder Schüler soll seine drei Lieblingsfächer nennen) Alter Verdienst in € Geburtsmonat Gewicht in g Zum Umgang mit dem Summenzeichen Berechnen Sie anhand der Tabelle die Summe von Fall-Nr. 1 2 3 4 5 6 7 Fernsehnutzung pro Tag in Minuten 30 160 90 20 0 90 30 Berechnen Sie die folgenden Summen zu oben stehenden Daten. 2/15 Tutorium zur Vorlesung Statistik I, Prof. Dr. W. Ludwig-Mayerhofer WiSe 2009/10 Häufigkeiten und grafische Darstellung von Verteilungen Eine Kommune hat erfragen lassen, an wie vielen Wochentagen Eltern ihre Kinder mit dem PKW zur Schule fahren, und folgende Angaben erhalten: Anzahl Wochen- abs. Häufigkeit rel. Häufigkeit kum. Häufigkeit tage (in Prozent) (in Prozent) 0 120 1 45 2 15 3 9 4 21 5 90 Berechnen Sie relative und kumulierte Häufigkeiten. Geben Sie den Median an und berechnen Sie das arithmetische Mittel. Bewerten Sie folgende Aussagen mit richtig oder falsch und begründen Sie die Antwort: - 70% der Befragten fahren ihre Kinder viermal oder häufiger mit dem PKW in die Schule. Mehr als die Hälfte der befragten Eltern fahren ihre Kinder wenigstens einmal in der Woche in die Schule. Der Modus kann mit Hilfe der Tabelle oben nicht abgelesen werden. 23 Haushalte eines Studentenwohnheims wurden nach der Höhe ihrer monatlichen Telefonrechnung (in €) befragt und machten folgende Angaben: 51 - 18 39 21 49 49 18 18 20 27 23 43 19 24 24 33 27 35 27 48 29 Erstellen Sie ein Stamm-Blatt-Diagramm. Geben Sie den Median an und berechnen Sie das arithmetische Mittel. Berechnen Sie die Standardabweichung. 3/15 53 32 Tutorium zur Vorlesung Statistik I, Prof. Dr. W. Ludwig-Mayerhofer WiSe 2009/10 Das Histogramm zeigt die Verteilung der allgemeinen Umsatzsteuersätze (in Prozent) von 47 Staaten. Bewerten Sie die folgenden Aussagen jeweils mit richtig oder falsch, begründen Sie kurz die Antwort. Das Histogramm zeigt, dass weniger Staaten mit einem niedrigen Umsatzsteuersatz (Ums.St. < 10) als Staaten mit einem hohen Umsatzsteuersatz (Ums.St. > 20) existieren. Der Median ist nicht größer als 21 Die Verteilung der Umsatzsteuersätze ist mehrgipflig. Es folgt ein Boxplot-Diagramm zum täglichen Fernsehkonsum von Studenten in Stunden (erfundene Werte). Lesen Sie die Daten aus der Grafik ab und tragen Sie sie in die Tabelle ein. Studenten und Fernsehkonsum Wert des 1. Quartils Wert des 2. Quartils Wert des 3. Quartils Interquartilsabstand Median b) Erläutern Sie anhand der Daten, was die Größen 1. Quartil und 3. Quartil aussagen. 4/15 Tutorium zur Vorlesung Statistik I, Prof. Dr. W. Ludwig-Mayerhofer WiSe 2009/10 Es folgt ein Stamm-Blatt-Diagramm. Die Daten stammen aus dem Campus-File der Sozialhilfestatistik 1998 (http://www.forschungsdatenzentren.de/) und beschreiben die Dauer der Arbeitslosigkeit in Monaten. Der Stichprobenumfang beträgt n = 8607. - An welcher Stelle im geordneten Datensatz befindet sich der Median? - Geben Sie alle drei Quartile an. (Geben Sie, falls Sie die Quartil-Werte nicht finden können, an, in welcher Zeile des Stamm-Blatt-Diagrammes bzw. in welchem Wertebereich sich die gesuchten Quartilwerte befinden müssten.) - Welche Aussage verbindet sich mit dem zweiten Quartil-Wert? bisherige Dauer der Arbeitslosigkeit (in Monaten) Stem-and-Leaf Plot Frequency Stem & 1556,00 0 1058,00 0 1007,00 1 799,00 1 693,00 2 586,00 2 466,00 3 437,00 3 271,00 4 286,00 4 214,00 5 239,00 5 133,00 6 109,00 6 105,00 7 62,00 7 86,00 8 500,00 Extremes . . . . . . . . . . . . . . . . . Leaf 00000000001111111111222222222233333333344444444 5555555666666777777888888999999 00001111111122222233333444444 55556666677777888889999 0001112223333333444 55566667777888999 0001112223344 555666778899 0012334 566777889 001234 567899 0234& 56789 124& 7& 123& (>=85) Ein Stengel (stem) bezeichnet die Zehnerstelle der Monate in Sozialhilfe (d.h. stem = 4: Merkmalsausprägungen von 40 bis 49 Monate) Ein Blatt (leaf) repräsentiert 34 Fälle. (d.h.: Die fett-kursiv gedruckte 4-er Serie im 2-er Stengel umfasst 3 * 34 Fälle, also 102 Fälle.) "&" steht für "nicht vollständige Blätter". 34 Personen bezogen 77 Monate Sozialhilfe, die Merkmalsausprägungen 78 und 79 Monate wurden von weniger als 34 Fällen besetzt. 5/15 Tutorium zur Vorlesung Statistik I, Prof. Dr. W. Ludwig-Mayerhofer WiSe 2009/10 Einfache Streuungsmaße und der Box-and-Whisker-Plot Konstruieren Sie aus nachfolgenden Daten einen Box-and-Whisker-Plot. fiktive Einkommensdaten (Tageseinkommen in DM) N = 4160 Mittelwert Median Modus Spannweite Minimum Maximum 1. Quartil 2. Quartil 3. Quartil besonders niedrige Werte besonders große Werte Interquartilsabstand IQR * 1,5 3. Quartil + 1,5IQR 1. Quartil - 1,5IQR 85,79 81 62 203 16 219 62 81 100 16 17 20 156 201 209 219 38 57 157 (5) In einer Gemeinde wurde Ende 2001 für jeden Haushalt das Einkommen erfasst und anschließend verschiedene statistische Maßzahlen für die resultierende Häufigkeitsverteilung ermittelt. Ende 2004 wurde diese Erhebung bei denselben Haushalten erneut durchgeführt. Es ergab sich, dass jeder Haushalt sein Einkommen um 30 Prozent gegenüber 2001 gesteigert hat. Welche der folgenden Maßzahlen haben für 2004 denselben Wert wie für 2001? - der Modus die Varianz der Variationskoeffizient der Wert des 2. Quartils Keine der vorstehenden Antworten ist richtig. 6/15 Tutorium zur Vorlesung Statistik I, Prof. Dr. W. Ludwig-Mayerhofer WiSe 2009/10 Der Vorstandsvorsitzende eines Unternehmens hat sich von der Personalabteilung Kennwerte für die Gehälter der Beschäftigten berechnen lassen. Bei einer anschließenden Prüfung der Daten wird festgestellt, dass bei den Bereichsleitern und ihren Stellvertretern vergessen wurde, die Erfolgsprämien zu den Gehältern hinzuzurechnen. Diese Gruppe stellt etwas 2 Prozent der Beschäftigten; auch ohne Berücksichtigung der Prämien sind es die am besten bezahlten Arbeitskräfte. Der Leiter der Personalabteilung denkt verärgert, dass er nun die ganze Arbeit noch einmal machen muss. Doch ist das nicht ganz richtig, denn ein Teil der folgenden Kennwerte bleiben auch bei entsprechend korrigierten Daten unverändert und muss daher nicht neu berechnet werden. Welche Kennwerte ändern sich nicht? - das arithmetische Mittel der Median der Interquartilsabstand die Standardabweichung die Varianz der Wert des 1. Quartils 7/15 Tutorium zur Vorlesung Statistik I, Prof. Dr. W. Ludwig-Mayerhofer WiSe 2009/10 Komplexere Streuungsmaße Die in einer Stichprobe bestimmte Varianz eines Merkmals beträgt 1346. Wie groß ist die Standardabweichung in der Stichprobe? Unten stehend finden Sie Angaben zum monatlichen Einkommen von Studierenden in €. - Berechnen Sie das arithmetische Mittel - Geben Sie auch Modus und Median an - An welcher Stelle liegt das 0,75-Quantil und welchen Wert hat es? - Berechnen Sie Varianz und Standardabweichung der Daten (also nicht den Schätzer für die Grundgesamtheit). 200 260 320 Wartezeit (in min) 0 1 2 3 4 5 6 7 8 9 10 Summe: 300 500 220 320 410 Roadrunner Taxi Müller 2 8 12 11 3 4 2 5 2 3 1 1 2 3 12 18 12 2 0 0 0 0 53 50 450 280 300 250 400 350 360 Zwei Taxifirmen buhlen um Kunden. Taxifirma „Roadrunner“ behauptet schneller auf Kundenanrufe zu reagieren als die Konkurrenzfirma „Taxi Müller“. Beide haben Sie deshalb beauftragt herauszufinden, welches der beiden Unternehmen für die Kunden die bessere Wahl darstellt. Die folgende Häufigkeitstabelle haben Sie bereits angelegt. Dort ist festgehalten, wie lang ein Kunde nach seinem Anruf auf das jeweilige Taxi warten muss (zur Einfachheit wird in dem Beispiel davon ausgegangen, dass Wartezeiten von über 10 min. nicht vorkommen). Auch die durchschnittliche Wartezeit der Kunden sind schon berechnet. Für „Roadrunner“ liegt sie bei 3,72 min, für „Taxi Müller“ bei 3,76 min. Doch mit diesem Ergebnis sind Sie noch nicht zufrieden und rechnen weiter… Berechnen Sie jeweils Varianz und Standardabweichung aus den Daten. Interpretieren Sie Ihre Ergebnisse. Welche Firma ist nun „besser“? Genauer: Unterscheiden sich die Firmen überhaupt, oder kann es den Kunden gleichgültig sein welches Unternehmen sie wählen? Warum sollten Kunden eher mit „Roadrunner“ bzw. eher mit „Taxi Müller“ fahren? 8/15 Tutorium zur Vorlesung Statistik I, Prof. Dr. W. Ludwig-Mayerhofer WiSe 2009/10 Konfidenzintervalle und Signifikanztests Bestimmen Sie das Konfidenzintervall für den Frauenanteil und für den Mittelwert. Lesen Sie die Quantilwerte im Statistik-Lehrbuch oder in den Vorlesungsunterlagen ab. männlich weiblich n abs. 2221 1939 4160 rel. 53,4 46,6 100,0 α = 0,05 Einkommen (Bruttotageseinkommen) Mittelwert Standardabweichung der Stichprobe n 82,9 28,9 1601 α = 0,05 Ausgewählte Quantile der Normalverteilung α zα α zα 0.000 -∞ 0.950 1.645 0.005 -2.576 0.955 1.695 0.010 -2.326 0.960 1.751 0.015 -2.170 0.965 1.812 0.020 -2.054 0.970 1.881 0.025 -1.960 0.975 1.960 0.030 -1.881 0.980 2.054 0.035 -1.812 0.985 2.170 0.040 -1.751 0.990 2.326 0.045 -1.695 0.995 2.576 In einer Stichprobe (N=144) erreicht die Meinung über das Vertrauen in die Polizei auf einer Skala zwischen 1 (überhaupt kein Vertrauen) bis 7 (vollstes Vertrauen) einen Mittelwert x von 5,2 bei einer Standardabweichung Sx von 1,2. Berechnen Sie ein Konfidenzintervall, das den wahren Wert des Vertrauens der Population in die Polizei mit einer Wahrscheinlichkeit von 95% überdeckt. * Bestimmen Sie nun das Intervall für eine Irrtumswahrscheinlichkeit von α = 0,1. Den Quantilwert können Sie aus dem nebenstehenden Auszug der Quantile der Normaverteilung ablesen. Wie verändert sich die Intervallbreite? 9/15 Tutorium zur Vorlesung Statistik I, Prof. Dr. W. Ludwig-Mayerhofer WiSe 2009/10 Eine Parteivorsitzende hat eine Umfrage in Auftrag gegeben, und nach den Ergebnissen wird ihre Partei bei der nächsten Wahl 52 Prozent der gültigen Stimmen erhalten. „52 Prozent bei einer Stichprobe von 600 Personen – das bedeutet doch mit hoher Wahrscheinlichkeit, dass wir die Wahl gewinnen, d.h. mindestens 50 Prozent der Stimmen erhalten!“ meint sie. Doch ihr Mitarbeiter, der einen B.A. in Social Science hat, erwidert: „Wenn Sie mit ‚hoher Wahrscheinlichkeit‘ eine Wahrscheinlichkeit von 95 Prozent meinen, so haben Sie leider nicht recht.“ Mit welcher Berechnung wird der Mitarbeiter die Parteivorsitzende (hoffentlich) überzeugen? (Bitte geben Sie aber nicht nur die reine Berechnung an, sondern formulieren Sie die Schlussfolgerung auch verbal.) Ernährungswissenschaftlerinnen und Psychologen vermuten, dass der morgendliche Verzehr roher Karotten gegen Ängstlichkeit hilft. In einer Stichprobe von 36 Personen, die regelmäßig Karotten zum Frühstück verzehren, ergibt sich ein Mittelwert von 96 für Ängstlichkeit, gemessen mit einem standardisierten Test (Skala von 50 bis 150 mit Ä=50: „überhaupt nicht ängstlich“ und Ä=150 „durch und durch ängstlich“). Der Skalen-Konstruktion liegt die Annahme zugrunde, dass der Mittelwert für Ängstlichkeit in der Grundgesamtheit bei 100 liegt. Das Forschungsteam fragt sich nun, ob die vorliegende Stichprobe, die einen um vier Punkte verminderten Mittelwert für Ängstlichkeit aufweist, nun typisch ist für Grundgesamtheit oder nicht. Es berechnet eine Teststatistik für die Differenz zwischen Stichprobenmittelwert und Grundgesamtheitsmittelwert; diese Teststatistik ist standardnormalverteilt. - Formulieren Sie Alternativ- und Nullhypothese zu diesem Testproblem. Handelt es sich dabei um gerichtete oder ungerichtete Hypothesen? * Sie prüfen nun die Hypothese mittels einer Teststatistik auf dem 5%-Niveau und erhalten für diese Teststatistik einen Wert von -1,65. Zu welcher Entscheidung gelangen Sie: Trifft Ihre Forschungshypothese zu oder nicht? (Ein ähnliches Testproblem finden Sie im Lehrbuch von Kühnel und Krebs im Kapitel zu Signifikanztests, das bei der Lösung der Aufgabe weiterhelfen kann.) 10/15 Tutorium zur Vorlesung Statistik I, Prof. Dr. W. Ludwig-Mayerhofer WiSe 2009/10 Ein- und zweiseitige Hypothesen Sie interessieren sich für den Zusammenhang von Fachzugehörigkeit (Mathematikstudium vs. Psychologiestudium) und Studienmotivation. Sie nutzen dazu ein Testverfahren, das auf einer standardnormalverteilten Teststatistik basiert. Sie testen auf 95%igem Signifikanzniveau (also α = 0,05). - - Sie arbeiten mit folgender Hypothese (H1): „Die Studienmotivation in beiden Fächergruppen unterscheidet sich nicht voneinander“. Schraffieren Sie den Ablehnungsbereich für die dazugehörige Nullhypothese. Sie arbeiten mit folgender Hypothese (H1): „Die Studienmotivation ist in Mathematik höher als in Psychologie“. Schraffieren Sie nun den Annahmebereich für die dazugehörige Nullhypothese. Sie testen die zweite Hypothese. Die Teststatistik, die Sie berechnen, liegt im Ablehnungsbereich. Was bedeutet das inhaltlich, also bezogen auf das Beispiel? Hinweise: 1. Es ist nicht problematisch, die gefragten Bereiche grafisch nicht ganz korrekt abzutragen. Halten Sie aber bitte in der Grafik die jeweils den/ die kritischen Wert/e fest, der die Grenzen für die gefragten Bereiche markiert. 2. Die notwendigen Quantilwerte der Normalverteilung finden Sie auf den vorhergehenden Blatt. 11/15 Tutorium zur Vorlesung Statistik I, Prof. Dr. W. Ludwig-Mayerhofer WiSe 2009/10 Kreuztabellenanalyse Bei einer Umfrage wurden Personen danach befragt, welche Partei sie am nächsten Sonntag wählen würden. Die Frage war dabei, ob sie eher CDU oder SPD wählen würden. In der folgenden Tabelle sind die absoluten Häufigkeiten aufgelistet. Bei der Untersuchung wollte man herausfinden, ob Geschlecht und Parteipräferenz zusammenhängen. - Rechnen Sie die Prozentsatzdifferenz, das Relative Risiko (der Männer, SPD zu wählen) sowie die Odds Ratio aus. - Testen Sie, ob ein eventuell bestehender Zusammenhang (mit 95%-iger Wahrscheinlichkeit) auch in der Grundgesamtheit besteht. Beachten Sie bei beiden Arbeitsschritten, dass hier die beeinflussende Variable (Geschlecht) in Abweichung von der Konvention zur Kreuztabellierung ausnahmsweise in den Zeilen und nicht in den Spalten abgetragen ist. Hinweis: Sie können die Tabelle in einem ersten Arbeitsschritt auch neu, und zwar nach den üblichen Konventionen für Kreuztabellen notieren. Männlich Weiblich gesamt CDU/CSU 144 200 344 SPD 153 145 298 gesamt 297 345 n=642 Rechnen Sie ausschließlich mit auf ganze Zahlen gerundeten Zahlen. In einer Statistikklausur bekommen Sie folgende (fiktive) Kreuztabelle vorgelegt, die Auskunft über die Ergebnisse der Männer- und Frauenfußballnationalmannschaften eines Landes in den letzten zehn Jahren gibt. Sie werden gebeten zu berechnen, ob der Unterschied statistisch überzufällig (signifikant) auf dem 5-Prozent-Niveau ist (kritischer Χ²-Wert bei 2 Freiheitsgraden: 5,991). - Wie sieht Ihre Antwort aus? * Warum muss eine Teststatistik, die sich aus einer derartigen Tabelle ergibt, einer Χ²Verteilung mit zwei Freiheitsgraden folgen? Siege Unentschieden Niederlagen Gesamt Männer 53 % 17 % 31 % 100 % Frauen 77 % 10 % 13 % 100 % 12/15 Gesamt 62 % 15 % 23 % 100 % Tutorium zur Vorlesung Statistik I, Prof. Dr. W. Ludwig-Mayerhofer WiSe 2009/10 Mittelwertvergleiche: Varianzanalyse Ein Einrichtungsmagazin interessiert sich für den Zusammenhang zwischen Mietpreis und der Wohnort. Es bittet Sie, die erhobenen Daten zu bearbeiten. Ermittelt wurden die Mietpreise von jeweils fünf 2-Zimmer-Küche-Bad-Wohnungen in den Städten Siegen, Mainz und Köln (erfundene Werte): Mietpreis (in € pro Monat) 1 2 3 4 5 - Siegen 230 280 310 310 290 Mainz 300 400 270 450 380 Köln 520 490 420 600 320 Welche Variable ist in diesem Beispiel die unabhängige und welche die abhängige Variable? Bestimmen Sie η² (Eta-Quadrat )und interpretieren Sie das Ergebnis. Was bedeutet ein η² (nahe) 0 inhaltlich, was eines von (nahe) 1? Wie müssen die Daten beschaffen sein, damit η² einen Wert nahe 1 bzw. nahe 0 annimmt? 13/15 Tutorium zur Vorlesung Statistik I, Prof. Dr. W. Ludwig-Mayerhofer WiSe 2009/10 Kovarianz und Korrelation, lineare Regression Für die zehn umsatzstärksten Unternehmen Deutschlands ergaben sich 1995 folgende Umsätze Y (in Milliarden DM) und Beschäftigungszahlen X (in Tausend): Unternehmen 1 2 3 4 5 6 7 8 9 10 - - Umsatz (Y) 103,54 88,76 88,12 72,37 65,50 52,17 49,40 46,14 44,58 41,93 Beschäftigte (X) 311,0 373,0 242,4 125,4 135,1 161,6 106,6 115,8 142,9 83,8 Tragen Sie die auf ganze Zahlen gerundeten Werte für die zehn Unternehmen in einem Streudiagramm ab und interpretieren Sie dieses. Bestimmen Sie Pearsons Korrelationskoeffizienten r. Ändert sich der Koeffizient, wenn man statt mit den angegebenen Werten mit den absoluten Werten, also nicht in den Einheiten „in Tausend“ und „in Mrd. DM“ rechnet? (Es ist dann bspw. im Falle des zweiten Unternehmens mit den Werten 88.760.000.000 DM bzw. 373.000 Beschäftigte). Begründen Sie Ihre Antwort! Schildern Sie die Vor- bzw. Nachteile der Kovarianz gegenüber Pearsons Korrelationskoeffizienten R. (Hinweis: Wie sähe die Kovarianz der absoluten Werte im Vergleich zu der mit den angegebenen Werte aus?) 14/15 Tutorium zur Vorlesung Statistik I, Prof. Dr. W. Ludwig-Mayerhofer WiSe 2009/10 Lineare Regressionsanalyse Die lineare Regressionsgleichung für vorstehende Aufgabe lautet: Y = 30,4 + 0,19X + E R² beträgt 0,722. - Tragen Sie die Regressionsgerade im eben erstellen Diagramm ab. Verbalisieren Sie den in der Gleichung formulierten Zusammenhang von Beschäftigtenanzahl und Umsatz: Was besagt der Regressionskoeffizient von 0,19? Was besagt der Wert R² von 0,722? Dem R²-Wert lässt sich entnehmen, ob die erklärte Varianz oder die nicht erklärte Varianz (Residualvarianz) größer ist. Wie ist das in diesem Beispiel? In (fiktiver!) Erweiterung des Beispiels wird zudem der Einfluss des Bildungsstandes der Beschäftigten berücksichtigt. Dieses Merkmal wird in Form des Anteils der Belegschaft, die über Abitur verfügt, gemessen. Es ergibt sich folgende Gleichung: Y = 25,3 + 0,07X Beschäftigte + 0,98X Prozent Abi + E Dieses Modell hat ein (korrigiertes) R² von 0,774. - Wie hoch wird der Umsatz in einer Firma geschätzt, in der 130 000 Menschen beschäftigt sind und in der 30 % der Beschäftigten Abitur haben? Welches der beiden Modelle schätzt den Umsatz besser? 15/15