Übungsbeispiele Statistik I & II für SoziologInnen Version 3.2 1 24. November 2015 Grundlagen 1.1. Betrachten Sie die folgenden Merkmale: • Lebensalter • Temperatur (in Grad Celsius bzw. Kelvin) • Arbeitslosenzahl bzw. Arbeitslosenrate • Bestellmenge • Religion • Preis • Kontostand • Abschlussnote der Lehrveranstaltung (i) Sind die Merkmale nominalskaliert, ordinalskaliert, metrisch skaliert oder verhältnisskaliert? (ii) Handelt es sich dabei um qualitative oder quantitative Merkmale? (iii) Sind die Ausprägungen stetig oder diskret? 1.2. Welche der folgenden Aussagen sind richtig? (i) Das Merkmal ”Grundstücksgröße” ist verhältnisskaliert und stetig. (ii) Verhältnisskalierte Merkmale haben einen absoluten Nullpunkt, negative Merkmalsausprägungen sind nicht möglich. (iii) Für intervallskalierte Merkmale existiert ein absoluter Nullpunkt. Quotientenbildung von Merkmalsausprägungen liefert wertvolle Information. 1.3. Interpretieren Sie folgenden Artikel aus dem Standard vom 26. Mai 2010: Mehr und weniger Herzprobleme: Divergierende Zahlen zu Verboten von Michael Möseneder Wien - Wie gesund sind Rauchverbote? Schon kurzfristig extrem wirksam gegen Herzinfarkte, sagen Kardiologen. Allerdings gibt es auch offizielle Statistiken, die die Vorteile etwas relativieren. 1 Um 21 Prozent ging in Island die Zahl der Herzprobleme bei Nichtrauchern nach der Einführung der Rauchverbote an öffentlichen Orten im Jahr 2007 zurück, zeigt eine im Vorjahr beim Europäischen Kardiologenkongress präsentierte Studie. Konkret wurde verglichen, wie viele Menschen in den fünf Wochen vor und in den fünf Monaten nach dem Rauchverbot mit akuten Herzbeschwerden ins Krankenhaus kamen. Bei den Männern, die 75 Prozent der Patienten ausmachten, waren es vor dem Verbot 157 Betroffene, danach 124 Personen. Für Studienleiter Thorarinn Gudnason von der Universität Reykjavik ist die Schlussfolgerung klar: Ein allgemeines Rauchverbot könnte weltweit Leben retten, ohne große Investitionen oder Nebenwirkungen wie für medizinische Therapien zu benötigen. Das gilt allerdings offenbar nur für Männer: Die Studie zeigt, dass sich bei Frauen praktisch nichts verändert. In Irland, das als erstes EU-Land schon im März 204 strene Antitabakgesetze erlassen hat, ist man im Gesundheitsministerium etwas vorsichtiger mit der Beurteilung kurzfristiger Effekte. Eine klare Auswirkung würde sich erst Jahre später zeigen, sagt man im Gesundheitsministerium. Denn die Zahlen, die Pressesprecher Martin Woods vorlegt, scheinen die isländische Studie nicht unbedingt zu bestätigen. Die Zahl der Herzinfarkte in ganz Irland ging zwischen 1998 und 208 zwar um 5.4 Prozent zurück. Die Zahl der Herzerkrankungen insgesamt ist im selben Zeitraum allerdings um 2.9 Prozent gestiegen. Interessant dabei: Zwischen 2006 und 2008 ist die Zahl der Erkrankungen in Irland sogar leicht angestiegen, während sie in den EU-15-Staaten weiter gesunken ist. ”Ein Rückgang würde sich nicht unbedingt sofort nach einem Rauchverbot zeigen”, meint Woods. 2 Lagemaße und Streuungsmaße 2.1. Verwendung des Summen- (Σ) bzw. Produkt-(Π) Symbols. Für eine kompaktere Darstellung ist folgende Schreibweise üblich: A1 + A2 + . . . + An−1 + An = Σni=1 Ai , B1 B2 · · · Bm−1 Bm = Πm k=1 Bk Finden Sie die alternative Schreibweise zu (i) Pn l=1 cl xl Pn k=1 ck Was erhält man im Fall, dass cl = 1, für alle l = 1, 2, · · · , n? 2 (ii) q α α m−1 αm xα1 1 xα2 2 · · · xm−1 xm mit α = α1 + α2 + · · · + αm 2.2. Erklären Sie die Begriffe (i) arithmetisches (gewichtetes) Mittel (ii) geometrisches (gewichtetes) Mittel (iii) harmonisches (gewichtetes) Mittel 2.3. In der folgenden Tabelle sind die Stimmanteile, die die wichtigsten Parteien bei der letzten Wahl erreicht haben, aufgeschlüsselt nach Altersgruppen angegeben. 16-25 25-45 45-65 65 - SPÖ 23% 29% 31% 33% ÖVP 19% 22% 35% 36% FPÖ 29% 18% 15% 16% Grüne 14% 20% 8% 6% BZÖ 12% 9% 4% 7% 3% 2% 7% 2% sonstige Berechnen Sie die Stimmanteile in der Gesamtbevölkerung, wenn die Häufigkeit der einzelnen Altersgruppen (der abgegebenen gültigen Stimmen) folgendermaßen aussieht: Altersklasse Häufigkeit 16-25 25-45 45-65 22% 30% 65 - 35% 13% 2.4. In den Städten Wien, Graz und Salzburg wurde der Durchschnittspreis für ein Produkt ermittelt. In Wien ergab sich aus 20 Messungen ein Durchschnittspreis von 120 Euro, 15 Beobachtungen in Graz ergaben ein Mittel von 130 Euro, die Geschäfte in Salzburg (basierend auf 18 Erhebungen) verlangten durchschnittlich 135 Euro für das Produkt. Wie hoch ist der durchschnittliche Verkaufspreis unter Berücksichtigung der vorliegenden Informationen? 2.5. In der folgenden Tabelle sind die Einwohnerzahlen von Neustadt aufgelistet. Jahr 2004 2005 2006 2007 2008 Bevölkerung 7320 7480 7810 7735 7815 3 (i) Berechnen Sie die jährlichen Zuwachsraten sowie die durchschnittliche Zuwachsrate. Welches Mittel müssen Sie dafür verwenden? (ii) Angenommen Sie erhalten noch die Information, dass die Bevölkerung im Jahr 2002 aus 7125 Personen bestand. Wie können Sie diese Information verwenden, um die durchschnittliche jährliche Zuwachsrate für die Periode 2002-2008 zu berechnen? 2.6. In der folgenden Tabelle sind die Einwohnerzahlen von Wien aufgelistet. Jahr Bevölkerung Wiens 1846 521 289 1851 550 947 1869 900 998 1880 1 162 591 (i) Berechnen Sie die durchschnittlichen jährlichen Zuwachsraten für die 3 Zeiträume 1846-1851, 1851-1869, 1869-1880. (ii) Berechnen Sie dann aus diesen jährlichen durchschnittlichen Zuwachsraten die durchschnittliche Zuwachsrate für den Zeitraum 1846-1880. 2.7. Familie Hofmann fährt von A nach B. Die ersten 100 km werden dabei auf der Autobahn mit einer Durchschnittgeschwindigkeit von 120 km/h zurückgelegt, weitere 80 km werden auf der Bundesstraße mit durchschnittlich 80 km/h, die letzten 20 km werden im Mittel mit 40 km/h durch das Stadtgebiet zurückgelegt. Berechnen Sie die Durchschnittgeschwindigkeit der gesamten Fahrt. 2.8. Im Katalog eines amerikanischen Reiseveranstalters sind für Pauschalreisen folgende Preise in $ angegeben: 600, 680, 720, 760, 840 Die Varianz dieser Preise beträgt 6400 $2 . Wie groß ist die Varianz der entsprechenden Euro-Preise, wenn man einen Umrechnungskurs von 1$ = 0.70Euro zugrundelegt? 3 Graphische Darstellung 3.1. Betrachten Sie folgendes Wahlergebnis bei den Landtagswahlen 2013 (bzw. 2008) in der Gemeinde StAW: 4 Stimm- abgegebene gültige berechtigte Stimmen Stimmen 2008 7520 4780 4691 2286 1141 604 0 545 54 61 2013 7567 4920 4850 2100 920 875 499 409 47 0 ÖVP SPÖ Grüne Frank FPÖ KPÖ Andere (i) Berechnen Sie die Stimmanteile der einzelnen Parteien. (ii) Stellen Sie das Ergebnis geeignet graphisch dar und vergleichen Sie die Wahlen 2013 mit 2008. 3.2. An einer Mautstation einer Gebirgsstraße werden die Ankünfte von Fahrzeugen (Ankünfte pro Zeitintervall) beobachtet und folgende Werte festgestellt: 0, 5, 3, 3, 6, 4, 2, 2, 1, 1, 3, 3, 3, 4, 0, 2, 1, 1, 5, 4, 0, 1, 1, 4, 3, 6, 5, 0, 2, 1, 4, 2, 4, 5, 2, 0, 3, 2, 1, 5, Ermitteln Sie die absoluten und relativen Häufigkeiten der Fahrzeugankünfte und stellen Sie die Häufigkeitsverteilung und Summenhäufigkeitsfunktion graphisch dar. 3.3. Von 100 Personen, die nach ihrem monatlichen Einkommen befragt wurden, ergab sich folgende Häufigkeitsverteilung: monatl. Einkommen Anzahl der Personen bis 999 20 1000 bis 1499 33 1500 bis 1999 27 2000 bis 2499 14 2500 bis 5000 6 Stellen Sie Häufigkeitsverteilung und Summenhäufigkeitsfunktion graphisch dar. 3.4. Eine Untersuchung über das Durchschnitteinkommen von 2-Personen-Haushalten in den Ländern A und B ergab folgendes Ergebnis: 5 Land A Land B Einkommen in A$ Anzahl der Haushalte Einkommen in B$ Anzahl der Haushalte 800 bis unter 1400 18 1400 bis unter 2000 12 1400 bis unter 2000 48 2000 bis unter 2800 30 2000 bis unter 2600 24 2800 bis unter 3600 74 2600 bis unter 3000 10 3600 bis unter 4000 48 4000 bis unter 5000 24 5000 bis unter 5800 12 Ein A$ entspricht dabei dem Wert von 2 B$. (i) Zeichnen Sie die relativen Summenkurven (ii) Bestimmen Sie (graphisch und rechnerisch) den Zentralwert (=Median). (iii) Zeichnen Sie zum Vergleich der Einkommensstrukturen geeignete Histogramme (Bezugsklassenbreite 400 A$.) 3.5. Um die Wirkung der Erdbeschaffung auf das Wachstum neuer Hybridpflanzen zu erforschen, werden Schößlinge in 3 verschiedenen Erdarten eingepflanzt und ihr Wachstum in 3 Kategorien klassifiziert. Wachstum Ton Sand Lehm schlecht 16 8 14 mittelmß̈ig 31 16 21 gut 18 36 25 Geben Sie eine geeignete graphische Darstellung zur Illustration dieser Daten. 3.6. Die Anzahl der Beschäftigten (in Tausend) in den 3 Hauptberufsgruppen in den Jahren 1979 und 1989 für die USA ist in folgender Tabelle angegeben: 1979 1989 Industrie 26 461 25 326 Service 47 416 65 318 Regierung 15 947 17 769 Summe 89 824 108 413 (i) Berechnen Sie die relativen Häufigkeiten. (ii) Zeichnen Sie gruppierte Balkendiagramme. 6 3.7. Im Rahmen des ”Canada Social Survey, 1991” wurden Personen hinsichtlich ihrer subjektiv erlebten Stressbelastung befragt. Kategorie absolute Häufigkeit keine 2310 gering 3783 hoch 4397 sehr hoch 844 gesamt 11334 (a) Berechnen Sie die relativen und kumulierten rel. Häufigkeiten. (b) Stellen Sie die Häufigkeiten mittels eines Tortendiagramms dar. (c) Wie hoch ist der Anteil der Personen mit keiner oder geringen Stressbelastung. (d) Wie hoch ist der Anteil mit zumindest geringer Stressbelastung. 3.8. Gegeben sind die folgenden Messungen über sauren Regen in Wisconsin. 3.58 3.80 4.01 4.05 4.12 4.18 4.20 4.30 4.32 4.35 4.50 4.52 4.57 4.58 4.60 4.61 4.61 4.65 4.72 4.73 4.78 4.79 5.07 5.40 5.41 5.48 (a) Stellen Sie die Daten in einem Stem & Leaf Diagramm dar. (b) Berechnen Sie Mittelwert und Standardabweichung. (c) Berechnen Sie den Median und die Quartile. (d) Zeichnen Sie einen Box-Plot. 3.9. Gegeben sind die folgenden klassifizierten Daten: Klasse abs. Häufigkeit 0-5000 5000 - 6000 6000 - 7000 7000 - 10000 7 37 46 (a) Ermitteln Sie rechnerisch aus diesen klassifizierten Daten (i) den Mittelwert (ii) den Median (iii) die Varianz 7 10 (iv) das dritte Quartil. (b) Erstellen Sie (i) das Histogramm (ii) das Summenhäufigkeitspolygon (iii) ermitteln Sie graphisch den Median und das dritte Quartil (c) Ist die Verteilung rechts- oder links-schief? (keine Rechnung erforderlich; vergleichen Sie Median und Mittelwert!) 4 Konzentrationsmessung 4.1. In folgender Tabelle sind verschiedene Verteilungen (A − H) des Gesamtumsatzes eines Industriezweigs auf einzelne Unternehmen (a − j) aufgelistet. Vergleichen Sie nun die Verteilungen hinsichtlich deren Konzentration mittels (a) graphischer Darstellung der Lorenzkurven (b) Berechnung des Herfindahl-Index als Maßzahl der absoluten Konzentration (c) Berechnung des Lorenz-Münzner Koeffizienten als Maßzahl der relativen Konzentration Unter- Verteilung nehmen A B C a 1000 360 b 0 c D E F G H 200 500 1000 180 100 199 300 200 140 280 180 100 199 0 200 200 130 260 150 100 199 d 0 80 200 120 240 150 100 199 e 0 60 200 110 220 100 100 199 f 100 100 1 g 40 100 1 h 40 100 1 i 30 100 1 j 30 100 1 Gesamtumsatz 1000 1000 1000 1000 2000 1000 1000 1000 4.2. Im Sozialbericht der APA wurden für die Verteilung der Bruttobezüge 2006 in Österreich folgende Daten erhoben: 8 Anteil an der Bevölkerung 1. Fünftel Anteil der Bruttobezüge (in %) 2. Fünftel 3. Fünftel 4. Fünftel 5. Fünftel 2.2 9.5 17.1 24.5 46.7 (a) Zeichnen Sie die Lorenzkurven. (b) Berechnen Sie den Gini-Koeffizienten. (c) Berechnen Sie den Robin-Hood Index (Hoover-Index). 4.3. In einem Land besitzen 50% der Bevölkerung 3% des Einkommensvermögens, weitere 40% besitzen 47%, 9% besitzen 27% und 1% besitzt 23% des Gesamteinkommens. Zeichnen Sie die Lorenz-Kurven und berechnen Sie den Lorenz-Münzner Koeffizienten. 4.4. In Musterland verfügen die reichsten 20% der Bevölkerung über 30% des Vermögens, während die ärmsten 30% nur 15% besitzt. Weiters besitzen 40% der Bevölkerung 45% des Vermögens. Berechnen Sie den Vermögensanteil der übrigen 10% und zeichnen Sie die Lorenzkurve. Nach welchem Kriterium sind die Daten anzuordnen? 5 Wahrscheinlichkeitsrechnung 5.1. Zwei Frauen und vier Männer bilden eine Gruppe, aus der ein Dreierkomitee zufällig gewählt wird. (a) Man bilde einen geeigneten Ereignisraum für dieses ”Zufallsexperiment”. (b) Man bestimme die Ereignisse A = { die Frauen haben die Mehrheit im Komitee } B = { die Männer haben die Mehrheit im Komitee } C = { im Komitee befindet sich kein Mann } D = { das Komitee wird nur aus Männern gebildet } (c) Berechnen Sie die Wahrscheinlichkeiten für das Eintreten der Ereignisse A, B, C, D. 5.2. Ein Übungsleiter hat Schwierigkeiten, sich die Namen seiner Studenten zu merken. Nach 2 Monaten sind es noch 4 Studenten, deren Namen er nicht zuordnen kann. Mit welcher Wahrscheinlichkeit ordnet er jedem dieser Studenten einen falschen aus den noch 4 verbleibenden Namen seiner Liste zu. 9 5.3. Marianne und Hans suchen nach einem fairen Spiel, um entscheiden zu können, ob sie am Abend ins Kino (Wunsch von Hans) oder ins Theater (Wunsch von Marianne) gehen. Welches der folgenden Glücksspiele würden Sie zur fairen Entscheidung empfehlen (mit Begründung)? (a) Eine Runde ”Schere-Stein-Papier” spielen. (b) Eine (faire) Münze zweimal werfen, wobei Marianne gewinnt, wenn wenigstens einmal ZAHL gefallen ist. Ansonst gewinnt Hanns (c) Aus einer Kiste, die 3 Lose mit den Zahlen 1, 2 oder 3 enthält, zieht jeder der beiden blind ein Los, wobei dieses wieder zurückgelegt wird. Ist die Summe der Zahlen auf den gezogenen Losen gerade, gewinnt Hans, ansonst Marianne. (d) Zwei Würfel werden geworfen. Ist der Betrag der Augendifferenz 1 oder 2 gewinnt Marianne, andernfalls Hans. 5.4. Bei einer schwierigen sozialpolitischen Entscheidung werden drei Experten zu Rate gezogen. Die Experten irren bei Alternativentscheidungen mit den Wahrscheinlichkeiten 0.05, 0.10 bzw. 0.15. Wie groß ist die Wahrscheinlichkeit, dass die Mehrheit der Experten einen Irrtum begeht? (unter der Annahme, dass die Urteile unabhängig abgegeben werden.) 5.5. Eine Drei-Mann-Jury hat zwei Mitglieder, die unabhängig voneinander urteilen und jeweils mit Wahrscheinlichkeit p die richtige Entscheidung treffen. Das dritte Mitglied trifft seine Entscheidung durch Werfen einer fairen Münze. Die Mehrheit entscheidet. Wie groß ist die Wahrscheinlichkeit einer richtigen Entscheidung? 5.6. In einer Stadt erscheinen 2 Zeitungen. Ein erwachsener Einwohner wird zufällig ausgewählt. Zi sei das Ereignis ”Die Person liest Zeitung i”, i = 1, 2. Weiters werden folgende Ereignisse betrachtet: A= die Person liest wenigstens eine Zeitung B= die Person liest beide Zeitungen C= die Person liest höchstens eine Zeitung D= die Person liest keine Zeitung E= die Person liest genau eine Zeitung Weiters ist bekannt, dass von den erwachsenen Einwohnern 45% Zeitung 1 lesen, 30% lesen Zeitung 2 nicht aber Zeitung 1, und 35% lesen Zeitung 1, nicht aber Zeitung 2. (i) Stellen Sie die Ereignisse A bis E durch geeignete Verknüpfungen der Ereignissse Z1 und Z2 dar und zeichnen Sie ein Venn-Diagramm. 10 (ii) Berechnen Sie die Wahrscheinlichkeiten der Ereignisse A bis E. (iii) Sie stellen fest, dass eine zufällig ausgewählte Person Leser von Zeitung 2 ist. Wie groß ist die Wahrscheinlichkeit, dass die Person auch Zeitung 1 liest? 5.7. Die Wahrscheinlichkeit, arbeitslos zu sein, hängt vom Bildungsniveau ab. Unter Personen mit Pflichtschulabschluss beträgt die Wahrscheinlichkeit arbeitslos zu sein 8%, Personen mit Matura sind zu 5% arbeitslos, während unter Akademikern die Arbeitslosigkeit bei 2% liegt. Weiters ist bekannt, dass der Anteil der Personen mit Pflichtschulabschluss/Matura/Studium bei 30%/55%/15% liegt. (Hinweis: Satz von Bayes) (a) Sie wählen aus der Grundgesamtheit eine Person zufällig aus. Wie groß ist die Wahrscheinlichkeit, dass die Person arbeitslos ist? (b) Sie wählen eine Person zufällig aus und stellen fest, dass sie arbeitslos ist. Mit welcher Wahrscheinlichkeit handelt es sich um (i) einen Akademiker (ii) einen Maturanten (iii) eine Person mit Pflichtschulabschluss? 5.8. Das Personalbüro einer Firma weiß, dass 80% aller Bewerber die erforderlichen Qualifikationen aufweisen. Obwohl die Bewerber gründlich interviewt werden, sind die Entscheidungen des Personalchefs in typischer Weise irrtumsbehaftet: 1/48 der qualifizierten Bewerber werden nicht aufgenommen, während 1/6 der Ungeeigneten akzeptiert werden. Wie groß ist die Wahrscheinlichkeit, dass eine eingestellte Person ungeeignet ist? 5.9. Mit welcher Wahrscheinlichkeit tragen auf einem Ball mindestens 5 von 250 Männern die gleiche Krawatte, wenn es 1000 verschiedene Krawatten zu kaufen gibt 6 Diskrete Verteilungen 6.1. Nehmen Sie an, dass der Anteil der selbständig Erwerbstätigen in der Grundgesamtheit bei 25% liegt und Sie eine repräsentative Menge von 10 Personen auswählen. Es sei X die Anzahl der Selbständigen in der Stichprobe. (a) Bestimmen Sie Erwartungswert und Varianz von X. Welche Verteilung folgt X? (b) Berechnen Sie P {X ≤ 4}, P {3 ≤ X ≤ 8}, P {X ≥ 8}. 6.2. In einer Personengruppe von 40 Personen befinden sich 10 selbständig Erwerbstätige. 10 Personen werden zufällig ausgewählt und nach ihrem Beschäftigungsverhältnis befragt. Es sei X die Anzahl der Selbständigen unter den Befragten. (a) Bestimmen Sie Erwartungswert und Varianz von X̃. 11 (b) Berechnen Sie P {X ≤ 4}, P {3 ≤ X ≤ 8}, P {X ≥ 8}. (c) Vergleichen Sie die Ergebnisse mit Beispiel 6.1 6.3. Die Ankünfte von Kunden in einem Geschäft pro Zeiteinheit sei durch eine poison-verteilte Zufallsvariable X und durch folgende Wahrscheinlichkeitsfunktion gegeben: P {X = n} = λn e−λ n! mit Parameter λ = 5. Berechnen Sie die Wahrscheinlichkeit, dass innerhalb der nächsten Zeiteinheit (i) höchstens 4, (ii) genau 5, (iii) mehr als 5 Kunden eintreffen. 6.4. Ein Versicherungsvertreter schließt mit 5 Personen, die alle das gleiche Alter haben, Lebensversicherungen ab. Nach der Sterbetafel beträgt die Wahrscheinlichkeit für jeden dieser Kunden, die nächsten 30 Jahre zu überleben, 0.60. Berechnen Sie die Wahrscheinlichkeit dafür, dass nach 30 Jahren • genau 2 Kunden • alle 5 Kunden • wenigstens noch 2 Kunden am Leben sind. 6.5. Es sei X die Anzahl der in einer Vierkinderfamilie geborenen Knaben. Man bestimme die Wahrscheinlichkeitsfunktion dieser Zufallsgröße, wenn die Wahrscheinlichkeit einer Knabengeburt (a) p=0.5, (b) p=0.512, beträgt. 6.6. Ein Ereignis A tritt mit Wahrscheinlichkeit p = 0.4 ein. Das Experiment wird solang wiederholt, bis das Ereignis A zum ersten Mal auftritt. Wie groß ist die Wahrscheinlichkeit, dass genau 3 Versuche erforderlich sind? 6.7. Der Lehrveranstaltungsleiter weiß(von früheren Semestern), dass nur 80% der zu einer Lehrveranstaltung angemeldeten StudentInnen diese auch wirklich besuchen. Daher nimmt er auch insgesamt 45 StudentInnen auf, obwohl nur 40 im Seminarraum Platz haben. (a) Mit welcher Wahrscheinlichkeit besuchen mehr StudentInnen die Lehrveranstaltung als Sitzplätze zu Verfügung stehen. (b) Um den guten Ruf zu wahren, möchte der Lehrveranstaltungsleiter mit einer Wahrscheinlichkeit von 95% ausreichend Sitzplätze verfügbar haben. Wieviel StudentInnen darf er höchstens aufnehmen? 12 7 Kreuztabellen & Korrelation 7.1. Die Mietervereinigung einer Stadt veröffentlicht zum Jahresende folgende Tabelle über den Mietpreis in Abhängigkeit von der Wohnfläche: Mietpreis von ... bis unter ... Wohnfläche 0 - 300 300 - 600 600 - 900 900 - 1200 0 - 40 101 53 0 0 40 - 80 96 215 13 8 80 - 120 3 14 35 62 Berechnen Sie unter Verwendung der Klassenmitten einen geeigneten Korrelationskoeffizienten als Maß für den Zusammenhang zwischen Mietpreis und Wohnfläche. 7.2. Bei einer Statistik-Prüfung an einer Universität ergaben sich für die daran teilgenommenen Studenten von drei Fachrichtungen die folgenden Ergebnisse: Fachrichtung bestanden nicht bestanden BWL 334 122 VWL 125 85 53 25 Soziologie Berechnen Sie als Maß für den Zusammenhang zwischen der Studienrichtung und dem Prüfungsergebnis den Pearsonschen Kontingenzkoeffizienten. 7.3. Ein Gruppe von Personen wird hinsichtlich ihrer Einstellung zur Wirtschaftslage bzw. bezüglich der Bewertung des demokratischen Systems befragt. Die Ergebnisse sind in folgender Kreuztabelle zusammengefasst. demokratisches System Wirtschaftslage ist sehr gut funktoniert gut etwas viel völlig verändern verändern verändern 1 6 0 0 gut 24 94 12 1 teils teils 46 349 86 2 schlecht 16 191 74 10 4 31 23 8 sehr schlecht (i) Berechnen Sie die Anteilwerte und interpretieren Sie das Ergebnis. 13 (ii) Fassen Sie die Ausprägungen entsprechend zusammen, damit ein χ2 − Test durchgeführt werden kann, und stellen Sie fest, ob ein Zusammenhang zwischen der Einstellung zum demoktarischen System mit der Einschätzung der Wirtschaftslage besteht. 7.4. Eine Untersuchung über das Rauchverhalten soll unter anderem Aufschluss darüber geben, ob ein Zusammenhang zwischen der Anzahl der in einer Woche gerauchten Zigaretten und dem Alter der Person besteht. Dazu werden 400 Männer (M) sowie 400 Frauen (F) zufälig ausgewählt und hinsichtlich der beiden oben genannten Kriterien befragt. Das Ergebnis ist in folgender Tabelle zusammengefasst: Alter bis 16 16 - 20 20 - 30 30 - 45 über 45 Konsum M F M M M F M F bis 20 25 8 15 15 10 20 12 15 8 9 20 - 80 12 14 20 24 18 30 22 21 32 17 80 - 140 8 21 40 39 80 55 35 34 12 26 140 - 5 12 12 15 11 10 7 15 F F 8 8 (i) Überprüfen Sie die beiden Merkmale auf deren Abhängigkeit für die Gruppe der Männer (α = 0.01). (ii) Überprüfen Sie die beiden Merkmale auf deren Abhängigkeit für die Gruppe der Frauen (α = 0.01). (iii) Überprüfen Sie die beiden Merkmale auf deren Abhängigkeit (α = 0.01). 7.5. Anhand einer Umfrage soll bestimmt werden, ob ein Zusammenhang zwischen eigener Bildung und der Bildung des Vaters besteht. Dabei ergeben sich folgende Werte: Schulbildung des Befragten Schulbildung des Vaters Pflicht- Lehre schule FS, BMS AHS/BHS Hochschule Pflichtschule 410 347 48 13 Lehre, FS, BMS 180 491 160 38 AHS/BHS 21 40 76 24 Hochschule 2 12 32 24 (i) Berechnen Sie den Pearsonschen Kontingenzkoeffizienten. (ii) Führen Sie einen χ2 − Test zum Signifikanzniveau α = 0.05 durch. 14 7.6. Am Ende eines Schuljahres wird in einer Schule das Anwesenheitsbuch einer Klasse überprüft. Dabei stellt man fest, dass es im abgelaufenen Jahr an den einzelnen Wochentagen folgende Abwesenheiten gegeben hat: Wochentag Mo Di Abwesenheit 40 Mi Do 45 35 Fr 45 65 Führen Sie einen Test (χ2 − Anpassungstest) durch, ob eine Gleichverteilung der Abwesenheit an den Wochentagen vorliegt. (α = 0.05) 7.7. Die nachstehende Tabelle wurde für eine Kohorte von 600 Personen erhoben. Berechnen Sie das Assoziationsmaß λ nach Goodman & Kruskal für den prädiktiven Wert des Merkmals ”Region” zur richtigen Vorhersage des abhängigen Merkmals ”Schulbildung”. Merkmal: Bildung ohne Schul- Lehr- Hochschul- Region abschluss abschluss Matura abschluss Norden 10 50 60 80 200 Zentral 20 60 70 50 200 Süden 60 80 40 20 200 90 190 170 150 600 Angenommen wir wählen rein nach dem Zufallsprinzip eine Person aus der obigen Kohorte von 600 Personen aus. • Sei A das Ereignis: ”Die Person stammt aus der Region Norden” • Sei B das Ereignis: ”Die Bildung der Person ist Matura oder Hochschulabschluss”. Bestimmen Sie für diese zufällig ausgewählte Person die folgenden Wahrscheinlichkeiten: (a) P (A ∩ B), 8 (b) P (A|B), (c) P (A ∪ B) Stetige Verteilungen 8.1. Die Zufallsvariable X sei standardnormalverteilt. Bestimmen Sie die Wahrscheinlichkeiten P ({X ≤ 2.15}), P ({X ≥ 1.18}), 15 P ({−0.5 ≤ X ≤ 2}), P (X 2 ≤ 4}). 8.2. Bei der Musterung des österreichischen Bundesheeres wurde festgestellt, dass die Körpergröße X der Rekruten annähernd als normalverteilte Zufallsvariable mit Mittelwert 168 cm und Standardabweichung 6 cm betrachtet werden kann. Berechnen Sie die Wahrscheinlichkeiten der Ereignisse: (a) {X ≤ 150cm}, (b) {X ≥ 185cm}, (c) {160cm ≤ X ≤ 170cm}. 8.3. Sei X eine normalverteilte Zufallsvariable mit Mittelwert µ = 4 und Varianz σ 2 = 25. Welche Verteilung haben 2X, −X, 3X − 12. 8.4. Die Zufallsvariable X sei standardnormalverteilt. In welchem symmetrischen Bereich um 0 liegt X mit einer Wahrscheinlichkeit von (a) 90% (b) 95% (c) 99%? 8.5. Eine Zufallsvariable X sei normalverteilt mit Erwartungswert µ = 80 und Varianz σ 2 = 16. Eine Stichprobe vom Umfang n = 100 wird gezogen und das arithmetische Mittel X̄n der beobachteten Werte gebildet. (i) Bestimmen Sie die Verteilung des Stichprobenmittels X̄n . (ii) Mit welcher Wahrscheinlichkeit liegt das Stichprobenmittel im Intervall [79.5, 80.5]. 8.6. Es sei die folgende Funktion einer Zufallsvariablen X gegeben: f (x) = 2x für 0 0≤x≤1 sonst (i) Zeigen Sie, dass f (x) eine Dichtefunktion ist. (ii) Bestimmen Sie die Verteilungsfunktion. (iii) Bestimmen Sie die Wahrscheinlichkeiten P ({0.3 ≤ X ≤ 0.7}), P ({X = 0.25}), P ({X > 0.6}). (iv) Bestimmen Sie Erwartungswert und Varianz von X. 8.7. Zwei Personen sind mit dem Problem konfrontiert, aus einer normalverteilten Grundgesamtheit eine Stichprobe vom Umfang n = 100 zu ziehen und die Summe der erhobenen Merkmalsausprägungen zu bestimmen. Die eine Person erfüllt die Aufgabe nach Vorschrift, die andere zieht nur eine Stichprobe vom Umfang 10 und multipliziert die Summe der Beobachtungswerte mit 10. Wie groß sind die Erwartungswerte und Varianzen der von beiden Personen errechneten Summen? 16 8.8. Die Konsumausgaben pro Monat eines Haushaltes seien normalverteilt mit µ = 2200 Euro und einer Varianz von σ 2 = 400 Euro2 . Wie sind die Gesamtkonsumausgaben von 50 Haushalten verteilt und wie groß ist die Wahrscheinlichkeit, dass insgesamt mehr als 150000 Euro ausgegeben werden? 8.9. Aus einer Gruppe von Ehepaaren, bei denen beide Partner berufstätig sind, wird ein Paar zufällig ausgewählt. Wie groß sind Erwartungswert und Varianz der Summe der Einkommen beider Partner, wenn bekannt ist, dass das Einkommen des Mannes (X) einen Erwartungswert von E(X) = 1400Euro bei einer Varianz von V (X) = 60Euro2 besitzt während das Einkommen der Frau (Y ) einen Erwartungswert von E(Y ) = 1000Euro und eine Varianz von V (Y ) = 80Euro2 hat. Weiterhin gilt für die Covarianz Cov(X, Y ) = 50Euro2 . 9 Schätzverfahren 9.1. Vor einer Wahl planen zwei Meinungsforschungsinstitute unabhängig voneinander jeweils 1000 zufällig ausgewählte Personen danach zu befragen, ob sie beabsichtigen, ”grün” zu wählen. Wie groß ist die Wahrscheinlichkeit dafür, dass die Anteile der ”Grün”-Wähler in den beiden Stichproben um höchstens einen Prozentpunkt differieren, wenn 5% der Bevölkerung beabsichtigen, ”Grün” zu wählen? 9.2. Von den 60000 Besuchern einer Sportveranstaltung wurden 196 zufällig ausgewählte Personen nach ihrem Wohnort befragt. (i) Unter den 196 befragten Personen befanden sich 49 Einheimische. Berechnen Sie das 95.45%− Konfidenzintervall für den Anteil der Einheimischen bei der Veranstaltung. (ii) Wieviele Personen müssten Sie befragen, damit mit einer Sicherheitswahrscheinlichkeit von 95.45% der absolute Fehler der Stichprobenschätzung des Anteilswertes höchstens 0.01 beträgt. 9.3. Zur Schätzung des Durchschnittsalters der Leser einer bestimmten Zeitung werden 50 ihrer Abonnenten zufällig ausgewählt und nach ihrem Alter befragt. Die Erhebungsergebnisse sind in folgender Häufigkeitstabelle dargestellt: Alter Anzahl 20 28 3 2 30 31 38 45 48 49 54 58 61 62 65 68 72 5 6 8 8 4 3 1 2 2 1 1 3 1 (a) Berechnen Sie ein Konfidenzintervall (α = 0.95) für das Durchschnittsalter der Leser unter der Annahme, dass das Alter der Leser normalverteilt ist mit einer Varianz von σ 2 = 100. 17 (b) Wie lautet das Konfidentzintervall, wenn derselbe Schätzwert x̄ = 43 aus einer Stichprobe vom Umfang n = 20 ermittelt wurde. 9.4. Der Verband der Spielwarenindustrie ist durch Meldungen über den Rückgang der Kinderzahl in der Bevölkerung beunruhigt. Er führt daher eine Umfrage unter 2800 Haushalten durch, die durch eine Zufallsstichprobe nach dem Modell ohne Zurücklegen ausgewählt wurde. Aus den 2000 beantworteten Fragebogen wird folgende Häufigkeitsverteilung ermittelt: 0 1 2 3 4 5 1100 400 350 100 40 10 Kinderzahl Anzahl (a) Berechnen Sie einen (erwartungstreuen) Schätzwert für die durchschnittliche Kinderzahl der Haushalte. (b) Berechnen Sie einen (erwartungstreuen) Schätzwert für den Anteil der kinderlosen Haushalte. Kann die Varianz der Schätzfunktion berechnet werden? 9.5. Ein Marktforschungsinstitut will in einer Stadt den Monatsumsatz eines bestimmten Artikels feststellen. Von den 5000 Einzelhändlern werden 350 zufällig ausgewählt und befragt. Es ergibt sich ein durchschnittlicher Monatsumsatz von x̄ = 780 Euro bei einer Standardabweichung von s = 40 Euro. (i) Bestimmen Sie ein 95% Konfidenzintervall für den durchschnittlichen Monatsumsatz. (ii) Zwischen welchen Grenzen liegt der gesamte Monatsumsatz in der Großstadt (bei einem Signifikanzniveau von 95%.) (iii) Wie groß ist der Stichprobenumfang n zu wählen, wenn der absolute Fehler des symmetrischen Konfidenzintervalls für den (unbekannten) durchschnittlichen Monatsumsatz in der Grundgesamtheit ∆µ = 1 Euro betragen soll (bei einem Signifikanzniveau von 95%.) 9.6. Bei der Überprüfung zweier Abfüllmaschinen wird jeweils eine Stichprobe vom Umfang 50 aus der laufenden Produktion jeder Maschine gezogen. Bei Maschine I ergibt sich ein durchschnittliches Füllgewicht von x̄1 = 810g bei einer Standardabweichung von s1 = 4g, bei der zweiten Maschine erhält man x̄2 = 808g sowie eine Standardabweichung von s2 = 2g. Berechnen Sie ein 95%Konfidenzintervall für die Differenz der durchschnittlichen Füllgewichte. 18 9.7. Eine Bank möchte wissen, wieviel ihrer Kunden in einer Stadt eine Wohnung suchen. Dazu werden 400 Kunden zufällig ausgewählt und befragt. Von den 400 Kunden geben 88 an, eine Wohnung zu suchen. Berechnen Sie ein 90%−Konfidenzintervall für den Prozentsatz an Kunden, die eine Wohnung suchen. 9.8. Betrachten Sie die Aufgabenstellung aus Beispiel 9.7. Welche Probleme könnten sich aus folgenden Auswahlverfahren der Stichprobe ergeben? (i) Zwischen 9:00 und 12:00 Uhr vormittag werden solang Kunden angerufen, bis man 400 Personen erreicht hat, die zuhause sind. (ii) Alle Kunden, deren Personennamen mit ”M” beginnt, werden angeschrieben und schriftlich befragt. Von den angeschriebenen 542 Kunden antworten 215. 9.9. Mittels einer Umfrage soll geklärt werden, welcher Anteil der österreichischen Bevölkerung einer Mitliedschaft bei der NATO zustimmt. (i) Wie groß muss eine Stichprobe gewählt werden, um den Anteilswert (bei einem Signifikanzniveau von 95%) auf ±5% genau zu schätzen? (ii) Wieviele Personen müssen befragt werden, wenn die Schätzgenauigkeit ±1% betragen soll (bei gleicher Überdeckungswahrscheinlichkeit)? (iii) Wie kann man die erforderliche Stichprobengröße abschätzen, wenn Vorwissen über den Anteil besteht? 9.10. Welche der folgenden Aussagen sind richtig? (i) Mit zunehmender Varianz der Beobachtungen nimmt auch die Länge des Konfidenzintervals zu. (ii) Basierend auf denselben Daten ist ein 95%−Konfidenzintervall stets länger als ein 90%−Konfidenzintervall. (iii) Mit zunehmender Stichprobengröße nimmt die Länge eines Konfidenzintervalls zu. (iv) Schätzungen für den Anteilswert sind umso schwieriger, je näher der unbekannte Anteilswert bei 0.5 liegt. (v) Aus einer Stichprobe wurde ein [0.10, 0.30] als 95%−Konfidenzintervall für den Bekanntheitsgrad eines Politikers ermittelt. Um ein Konfidenzintervall der Länge 0.10 zu erhalten, müsste der Stichprobenumfang ungefähr verdoppelt werden. 9.11. Um den Anteil der Bevölkerung mit Migrationshintergrund in Großstädten zu bestimmen, werden die Daten von einer repräsentativen Stichprobe von n = 500 Personen erhoben. Dabei stellt sich heraus, dass 100 Personen ausländischer Herkunft sind. Bestimmen Sie ein 95%− Konfidenzintervall für Personen mit Migrationshintergrund. 19 9.12. Ein Kurzentrum, welches eine spezielle Diät anbietet, möchte feststellen, wieviel die Gäste nach einem zweiwöchigen Aufenthalt typischerweise abnehmen. Dazu wird das Gewicht von 10 Gästen vor und nach dem Aufenthalt ermittelt: Gast 1 2 3 4 5 6 7 8 9 10 vorher 85 78 92 103 105 95 89 84 88 110 nachher 78 75 89 97 101 87 80 82 81 101 (i) Schätzen Sie aus den obigen Daten die mittlere Gewichtsabnahme durch den Kurbesuch. (ii) Berechnen Sie ein 95%−Konfidenzintervall für die Gewichtsabnahme. 9.13. Eine Umfrage unter 100 Personen im Alter zwischen 20 und 30 Jahren ergab, dass 46% der Befragten Raucher sind. (i) Berechnen Sie ein 90%− Konfidenzintervall für der Anteil der Raucher in dieser Altersgruppe. (ii) Wieviele Personen müssen befragt werden, damit dass 90%−Konfidenzintervall eine Länge von höchstens 0.05 aufweist? (ohne Vorwissen über den Anteil der Raucher). 9.14. Zwei Unterrichtsmethoden sollen durch eine Studie verglichen werden. Bei Methode A erreichten 25 Studenten beim darauffolgenden Test eine mittlere Punktezahl von x̄a = 82, wobei die Standardabweichung sa = 6.5 betrug. Bei Methode B erzielten 27 Studenten ein durchschnittliches Ergebnis von x̄B = 77 bei einer Standardabweichung von sB = 6.7. (i) Berechnen Sie unter der Annahme gleicher Varianzen ein 95%− Konfidenzintervall für den Unterschied in der Effizienz der beiden Methoden. (ii) Wie ändert sich die Berechnung, wenn Sie von unterschiedlichen Varianzen ausgehen? 9.15. Durch eine Werbekampagne soll potentiellen Kunden der Eindruck vermittelt werden, dass das Reinigungsmittel ”Sonnenglanz” ein besonders gutes Preis-Leistungsverhältnis hat. Um die Effizienz der Werbekampagne zu untersuchen, werden jeweils vor und nach der Kampagne 100 Kunden entsprechend befragt. Vor der Kampagne finden 15 befragte Kunden, dass sie beim Kauf von Sonnenglanz ”im Vergleich zu Konkurrenzprodukten mehr für ihr Geld bekommen”; nach der Kampagne wird diese Frage von 25 Personen bejaht. Berechnen Sie ein 90%Konfidenzintervall für die Veränderung der Produkteinschätzung. (Hinweis: berechnen Sie das Konfidenzintervall für die Differenz der Anteilswerte.) 20 9.16. Über einen Zeitraum von 7 Tagen wurden in einem Wiener Bezirk jeweils 100 Verkehrskontrollen täglich durchgeführt. An den Wochentagen gab es bei 360 (von 500) Kontrollen Beanstandungen am Wochenende waren bei 100 von 200 Kontrollen Beanstandungen zu verzeichnen. Berechnen Sie ein 90%−Konfidenzintervall für den Unterschied im Beanstandungsanteil zwischen Wochentagen und Wochenende. 9.17. In einer Stadt liegen für 161 Jahre die Niederschlagsmengen im Monat April vor. Die Messreihe xi , · · · , x161 (xi = Niederschlagsmenge in mm im Jahr i) hat ein arithmetisches Mittel von x̄ = 53.68 und eine empirische Standardabweichung von s = 6.13. Unter der Annahme, dass die Niederschlagsmengen Realisierungen von unabhängigen, identisch (i.i.d) N (µ, σ 2 )− verteilten Zufallsvariablen sind sollen folgende Konfidenzintervalle zum Signifikanzniveau von 95% berechnet werden: (i) für den unbekannten Mittelwert µ, (ii) für die unbekannte Varianz σ 2 , (iii) für den unbekannten Mittelwert µ unter der Voraussetzung σ 2 = 6.132 . 9.18. Die Produktionsabteilung eines Werkes überprüft die Qualität eines Produktes. Zu diesem Zweck wird aus der laufenden Produktion eine Stichprobe vom Umfang 25 entnommen, bei der 6 Ausschussstücke auftreten. (i) Schätzen Sie die Wahrscheinlichkeit, dass ein Produktionsstück Ausschuss ist. (ii) Bestimmen Sie ein 90%−Konfidenzintervall für den Anteil fehlerhafter Stücke in der Gesamtproduktion, unter der Annahme, dass die Approximation der Binomialverteilung durch die Normalverteilung gerechtfertigt ist. (iii) Bestimmen Sie ein 90%−Konfidenzintervall für den Anteil fehlerhafter Stücke in der Gesamtproduktion, unter Verwendung der Pearson-Clopper Werte. 9.19. Bei der Anlieferung von Bauteilen mit einem Drehgewinde werden einige Teile zufällig ausgewählt und deren Gewindedurchmesser vermessen. Die Abweichungen (in µm) von der untersten zulässigen Durchmessergrenze, das sogenannte Spiel, werden wie folgt notiert: 0.7, 1.9, 2.6, 3.7, 3.9, 4.4, 4.9, 5.8, 6.5, 9.6 Führen Sie folgende Berechnungen durch, wobei angenommen werden kann, dass die Abweichungen vom Mindestdurchmesser normalverteilt sind. (i) Bestimmen Sie ein Konfidenzintervall für die Varianz des Spiels (d.h. die Varianz der Abweichung vom Mindestdurchmesser) zum 80% Niveau. 21 (ii) Bauteile mit Werten über 9µm für das Spiel sind unbrauchbar und gelten als Ausschuss. Bestimmen Sie anhand obiger Stichprobe ein exaktes Konfidenzintervall für den Ausschussanteil in der Lieferung zum Niveau von 80%. 9.20. Die Lebensdauer von Computern kann als exponentialverteilt mit Parameter λ angesehen werden. Eine Untersuchung von n = 100 Computern ergab eine durchschnittliche Lebensdauer von x̄ = 2 Jahren. Geben Sie eine Schätzung für λ an und bestimmen Sie die Grenzen eines Konfidenzintervalls für λ zum Niveau von 95%. Hinweise: Die Dichte der Exponentialverteilung mit Parameter λ ist gegeben durch λe−λx f (x) = für 0 x≥0 sonst Der Erwartungswert beträgt 1/λ. Für das Konfidenzintervall erhält man " χ22n,α/2 χ22n,1−α/2 , 2nx̄ 2nx̄ # wobei χ2k,γ das γ−Quantil der χ2 −Verteilung mit k Freiheitsgraden bezeichnet. (z.B: χ2200,0.025 = 162.7, χ2200,0.975 = 241.1) 9.21. Um den Anteil der einzelnen Beschäftigungsverhältnisse unter der sich im arbeitsfähigen Alter befindlichen Bevölkerung zu erheben wurden 250 Personen befragt. Darunter befanden sich 20 Arbeitslose, 180 unselbständig Beschäftigte sowie 50 Selbständige. (i) Schätzen Sie die Wahrscheinlichkeiten pi , i1 , 2, 3, dass eine Person der Grundgesamtheit (1) arbeitslos, (2) unselbständig, (3) selbständig ist. (ii) Geben Sie simultane 90%−Konfidenzintervalle für die Wahrscheinlichkeiten p1 , p2 , p3 an. 9.22. Ein Tierpark besitzt 12 Exemplare einer inzwischen selten gewordenen Tierart. In einem Forschungsinstitut wurde eine bisher unbekannte Krankheit entdeckt, die diese Tierart befallen kann. Um entsprechende Massnahmen zu ergreifen, will der Leiter des Tierparks wissen, wieviel seiner Exemplare erkrankt sind. Da die Tiere in einem großen Freigehege leben, ist es zu aufwändig, alle Tiere einzufangen und zu untersuchen. Es werden daher nur 4 Tiere eingefangen und untersucht. Dabei stelt sich heraus, dass ein Tier erkrankt ist. Berechnen Sie unter geeigneten Modellannahmen (Ziehen ohne Zurücklegen) einen Maximum-Likelihood-Schätzwert für die unbekannte Anzahl der kranken Tiere im Freigehege. 9.23. Zur Feststellung der Anzahl Θ der in einem bestimmten Revier lebenden Rothirsche wurden insgesamt 7 Tiere gefangen, gekennzeichnet und anschließend wieder freigelassen. 22 Nach einer gewissen Zeit wurde eine weitere Fangaktion durchgeführt. Dabei wurden 3 Rothirsche gefangen, und man stellte fest, dass 2 davon gekennzeichnet waren. Nehmen Sie an, dass zwischen den beiden Fangaktionen keine Zu- bzw. Abwanderung von Rothirschen erfolgt ist und dass es zu einer guten Durchmischung der Population kam. Berechnen Sie einen (ganzzahligen) Maximum-Likelihood-Schätzer für die Gesamtzahl der in dem Revier lebenden Rothische unter geeigneten Modellannahmen (Ziehen ohne Zurücklegen.) 9.24. Die Zufallsvariablen X1 , · · · , Xn seien unabhängig und identisch Poisson-verteilt mit dem unbekannten Parameter λ. • Bestimmen Sie einen Maximum-Likelihood-Schätzer λ̂n : IN → IR für λ. • Bestimmen Sie (in Abhängigkeit vom wahren Parameter λ) den Erwartungswert und die Varianz des Maximum-Likelihood-Schätzers λ̂n (X1 , · · · , Xn ). 10 Testverfahren 10.1. Die folgenden Messwerte seien Realisierungen von unabhängigen identisch N (µ, σ 2 )− verteilten Zufallsvariablen: 0.84, 0.01, 0.35, −0.76, −0.11, −0.17, 0.16, 0.63, −0.09, 0.22, 0.35 (a) Geben Sie einen geeigneten Test an, um die Hypothese µ = µ0 zu Niveau α = 0.02 zu testen. (b) Welche Antwort ergibt sich in (a) für den Fall µ0 = 0? (c) Man gebe alle Werte von µ0 an, für die der in (a) beschriebene Test nicht zur Ablehnung der Hypothese führt. 10.2. Die Popularität des Bürgermeisters hat nachgelassen. Angesichts bevorstehender Wahlen verkündet der Bürgermeister ein neues kommunalpolitisches Konzept und lässt 500 zufällig ausgewählte Bürger der Stadt befragen. Dabei stellt sich heraus, dass 270 von ihnen seine Politik befürworten. Ist nun die Hypothese ”Höchstens die Hälfte der Einwohner befürworten die neue Politik des Bürgermeisters” zugunsten der Alternative ”Mehr als 50 % befürworten die neue Politik des Bürgermeisters” auf dem Niveau von 5% zu verwerfen? 10.3. Der Bekanntheitsgrad eines Politikers betrug in der Vergangenheit θ = 0.35. Nachdem er in einen Skandal verwickelt war, möchte die Partei wissen, ob dies einen Einfluss auf den Bekanntheitsgrad gehabt hat. In einer Stichprobe von n = 2000 Personen geben 825 23 Personen an, den Politiker zu kennen. Interpretieren Sie das Ergebnis. (Signifikanzniveau α = 0.05.) 10.4. Ein Rechnungsprüfer ist der Ansicht, dass die Buchführung der zu prüfenden Firma als ordnungsgemäss zu betrachten sei, wenn der Prozentsatz fehlerhafter Belege nicht mehr als 1% beträgt. Aus der als sehr groß anzunehmenden Grundgesamtheit aller Belege werden nun n = 300 zufällig ausgewählt und geprüft. Dabei werden 6 fehlerhafte Belege gefunden. Kann der Rechnungsprüfer die Ordnungsmäßigkeit der Buchhaltung bestätigen? (α = 0.05) 10.5. Ein Unternehmen rüstet seinen Fuhrpark mit zwei verschiedenen Reifensorten A und B aus. 12 Reifen der Sorte A erreichen eine durchschnittliche Laufleistung von x̄1 = 40000 km bei einer Standardabwechung von s1 = 5950km. Eine gleich große Stichprobe der Sorte B ergibt eine durchschnittliche Laufleistung von x̄2 = 38000 km bei einer Standardabweichung von s2 = 5150km. Wie beurteilen Sie die Hypothese, dass beide Reifensorten die gleiche durchschnittliche Laufleistung besitzen, unter der Voraussetzung, dass die Laufleistungen normalverteilt sind und die Varianzen übereinstimmen σ12 = σ22 . (α = 0.05) 10.6. Betrachten Sie nochmals Beispiel 10.5 und testen Sie die Nullhypothese H0 : σ12 = σ22 gegen die Alternative HA : σ12 > σ22 . 10.7. Jeweils 50 Versuchspersonen werden mit drei verschiedenenLernmethoden (A, B, C) trainiert und bekommen dann ein Problem gestellt. Die Lösungen werden mit ”gut”, ”mit- telmäßig” oder ”schlecht” bewertet. gut mittelmäßig schlecht A 30 10 10 B 30 15 5 C 5 25 20 Lassen diese Daten darauf schließen, dass die Leistungsfähigkeit von der Trainingsmethode abhängt? Formulieren Sie Null- und Alternativ-hypothese und führen Sie den entsprechenden Test durch (α = 0.05). 10.8. Zwei Medikamente A und B werden an jeweils 10 (verschiedenen) Versuchspersonen getestet. Die Patienten der ersten Gruppe waren durchschnittlich 23 Tage krank, die Standardabweichung s1 betrug 3.6 Tage. Die Patienten der zweiten Grupe waren durchschnittlich 21.5 Tage krank, die Standardabweichung s2 betrug 4.1 Tage. (a) Testen Sie, ob die Varianzen der Krankheitsdauern gleich sind (α = 0.05). 24 (b) Ermitteln Sie nun unter Verwendung des Resultats aus (a) ein 95%− Konfidenzintervall für die Unterschiede der Krankheitsdauern bei Behandlung mit Medikament A und B. 10.9. Bei einer repräsentativen Umfrage über die Bekanntheit einer Marke in einem Land antworten von 1000 Personen 420, dass sie die Marke kennen. Bei einer zweiten Umfrage in einem anderen Land gaben von 1200 Personen 500 Pesonen an, die Marke zu kennen. Kann bei einer Irrtumswahrscheinlichkeit von 5% von einem gleichen Bekanntheitsgrad der Marke in beiden Ländern gesprochen werden? 10.10. Sie planen eine Umfrage unter n = 200 Wahlberechtigten um empirisch zu testen, ob sich der Anteil der Partei X seit der letzen Wahl, bei der diese einen Stimmenanteil von 30% erreicht hat signifikant vergrößert hat. (a) Ab welchem Anteil von Respondenten, die angeben Partei X zu wählen würden Sie bei Anwendung eines geeigneten Signifikanztests von einem signifikanten Ergebnis sprechen? (Irrtumswahrscheinlichkeit α = 0.05). (b) Angenommen der Anteil der Wähler hat sich tatsächlich um 2% auf 32% erhöht. Wie groß ist in diesem Fall die Wahrscheinlichkeit, dass Sie in der Stichprobe ein Ergebnis erhalten, das einen Stimmenverlust signalisiert, also einen Stichprobenanteil p < 30%? (c) Wie groß ist unter (b) der Fehler 2. Art des Testverfahrens. Darunter versteht man die Wahrscheinlichkeit, dass Sie trotz dieser realen Steigerung um 2 Prozentpunkte aufgrund der Stichprobe mit dem unter (a) entwickelten Testverfahren irrtümlich die Nullhypothese annehmen? 10.11. (Hartung-Heine 6.6) Bei einer Landtagwahl wurden von 5000 bereits ausgezählten Stimmzetteln 300 für die Partei Y registriert. Wird diese Partei bei einem Signifikanzniveau α = 0.01% die 5%−Hürde überwinden? 10.12. (Hartung Heine 6.7) Die Produktionsabteilung eines Werkes überprüft die Qualität seines Produktes. Unter 25 dem Produktionslos zufällig entnommenen Stücken wurden 4 Ausschussstücke ermittelt. Überprüfen Sie zum Niveau α = 0.05 die Hypothese, dass der Ausschussanteil in der Gesamtproduktion bei über 25% liegt. 10.13. (Lehn, Wegmann, Rettig, 142) An einem Fußgängerübergang soll eine Ampel installiert werden, wenn während der Hauptverkehrszeit im Mittel mehr als 10 Fahrzeuge pro Minute den Übergang passieren. Es kann angenommen werden, dass die Anzahl von Fahrzeugen, 25 die pro Minute beobachtet werden, durch unabhängige Poisson-verteilte Zufallsvariable beschrieben werden können. Formulieren Sie eine der Problemstellung angemessene Nullhypothese und prüfen Sie mit einem Test zum Niveau von 5%, wenn in einer zweistündigen Zählung während der Hauptverkehrszeit insgesamt 1278 Fahrzeuge gezählt wurden. (Hinweis: Die Summe der 120 poisson-verteilten Zufallsvariablen ist näherungsweise normalverteilt.) 10.14. (Deutler 136) Aufgrund einer Zufallsstichprobe aus dem Datenbestand der Eheschließungen im Jahr 2008 beabsichtigt man folgende Vermutungen zu bestätigen: (i) Bei Ehepaaren besteht ein Zusammenhang zwischen dem Familienstand des Mannes vor der Eheschließung und dem Familienstand der Frau vor der Eheschließung. (ii) Die Männer, die 2008 geheiratet haben, waren zum Zeitpunkt der Eheschließung im Durchschnitt älter als 25 Jahre. (iii) Im ersten Halbjahr 2008 wurden mehr Ehen geschlossen als im zweiten Halbjahr 2008. Welche Tests eignen sich zur Beantwortung dieser Fragestellungen und wie lauten die entsprechenden Nullhypothesen. 10.15. (Deutler 138) Mit Θ werde der Anteil der Wähler der Partei X bezeichnet. Aufgrund einer erhobenen Stichprobe vom Umfang n = 100 soll nun für den Anteilswert die Nullhypothese H0 : Θ ≤ 0.1 getestet werden (Signifikanzniveau α = 0.0228.) Skizzieren Sie die Gütefunktion und bestimmen Sie deren Wert an der Stelle Θ = 0.2? 10.16. (Futschik/Brannert 6.4, Seite 155) Betrachten Sie das Testproblem H0 : µ = 0 HA : µ 6= 0 wobei angenommen wird, dass 10 normalverteilte Beobachtungen mit bekannter Varianz σ 2 = 4 vorliegen. (i) Wir groß ist der Fehler erster Art, wenn wir die Nullhypothese ablehnen, falls |T | > 1.96 (dabei bezeichnet T die gewohnte Teststatistik)? (ii) Wie groß ist der Fehler zweiter Art, wenn tatsächlich µ = 1? (iii) Wie groß ist der Fehler zweiter Art in b), wenn 100 statt 10 Beobachtungen vorliegen? 26 10.17. (Lehn, Rettig 153) Es wird angenommen, dass vorliegende Messwerte eine Realisierung von unabhängigen, identisch verteilten, stetigen Zufallsvariablen sind. Die geordnete Stichprobe sei gegeben durch −2.45 −2.01 −1.87 −1.81 −0.99 −0.65 −0.59 −0.53 −0.46 −0.34 −0.24 −0.22 −0.08 −0.04 0.10 0.23 0.28 0.38 0.41 0.56 0.57 0.93 1.11 1.13 2.70 Man überprüfe die Annahme, dass es sich um N (0, 1)−verteilte Zufallsvariable handelt zum Niveau von α = 0.05 durch Anwendung (i) des Kolmogoroff-Smirnov-Tests (ii) des χ2 − Anpassungstests und wähle dabei die Klasseneinteilung (−∞, a0 ], (a0 , a1 ], (a1 , a2 ], (a2 , ∞) mit a0 = −0.6, a1 = 0, a2 = 0.6. 10.18. (Lehn 118, Seite 90) Eine neue Sorte von Reagenzgläsern soll bezüglich ihrer Schmelztemperatur mit einer gebräuchlichen Sorte, bei der die mittlere Schmelztemperatur 745◦ C beträgt, verglichen werden. Bei der neuen Sorte wurden folgende Temperaturwerte ermittelt: 675 720 621 653 750 631 742 828 715 611 790 671 820 730 650 785 Es wird angenommen, dass die Messwerte x1 , · · · , x16 eine Realisierung von unabhängigen identisch N (µ, 4900)− verteilten Zufallsvariablen X1 , · · · , X16 sind. Durch Anwendung eines geeigneten Tests zum Niveau α = 0.05 überprüfe man (a) die Hypothese H0 : µ = 745 gegen HA : µ 6= 745 (b) die Hypothese H0 : µ = 745 gegen HA : µ < 745 10.19. Das Gesundheitsministerium vergibt an ein Forschungsinstitut einen Auftrag zur Überprüfung des Rauchverhaltens der Bürger. Zu überprüfen ist, ob Männer mehr rauchen als Frauen. Es soll ein Signifikanztest (α = 0.01) durchgeführt werden. Dazu wurden 500 Männer sowie 300 Frauen befragt, wieviel Zigaretten sie in der Woche rauchen. Es ergaben sich folgende Mittelwerte x̄i sowie empirische Varianzen s2i (i = M, F ): x̄M = 137.8, s2M = 1000, 27 x̄F = 131.2, s2F = 2100. 11 Verteilungsunabhängige Tests 11.1. (Lehn 173, Seite 111) Zwei Therapien für eine bestimmte fiebrige Erkrankung sollen verglichen werden. Dazu werden bei 4 bzw. 6 Patienten die Therapien angewendet und jeweils die Dauer der Behandlung, bis der Patient fieberfrei ist, in Stunden ermittelt. xi (Therapie 1) 89.75 94.50 98.75 101.50 yi (Therapie 2) 89.00 91.00 94.00 96.75 99.50 102.25 Es wird angenommen, dass die angegebenen Messwerte x1 , · · · , x4 , y1 , · · · , y6 eine Realisierung unabhängiger Zufallsvariablen X1 , · · · , X4 , Y1 , · · · , Y6 sind und dass X1 , · · · , X4 bzw. Y1 , · · · , Y6 jeweils die gleiche stetige Verteilungsfunktion F bzw. G besitzen. Man überprüfe die Hypothese H0 : F = G gegen HA : F 6= G zum Niveau α = 0.05 durch Anwenden des (a) Zweistichproben-Tests von Wilcoxon-Mann-Whitney (U-Test) (b) Run-Tests von Wald und Wolfowitz. 11.2. (Lehn 174) Bei der Messung der Reaktionszeiten von 15 Autofahrern einer bestimmten Altersklasse und 13 Autofahrern einer anderen Altersklasse ergaben sich die folgenden (jeweils der Größe nach geordneten) Werte in Sekunden: xi (Altersklasse I) yi (Altersklasse II) 0.214 0.236 0.238 0.241 0.249 0.250 0.251 0.259 0.267 0.269 0.273 0.280 0.281 0.296 0.204 0.210 0.215 0.228 0.229 0.240 0.242 0.248 0.255 0.258 0.276 0.283 0.253 0.247 Es wird angenommen, dass die angegebenen Messwerte x1 , · · · , x15 , y1 , · · · , y13 eine Realisierung unabhängiger Zufallsvariablen X1 , · · · , X15 , Y1 , · · · , Y13 sind und dass X1 , · · · , X15 bzw. Y1 , · · · , Y13 jeweils die gleiche stetige Verteilungsfunktion F bzw. G besitzen. Man überprüfe die Hypothese H0 : F = G gegen HA : F 6= G zum Niveau α = 0.05 durch Anwenden des (a) Zweistichproben-Tests von Wilcoxon-Mann-Whitney (U-Test) (b) Run-Tests von Wald und Wolfowitz. 28 12 Lineare Regression 12.1. (Brannert Futschik 7.8) Der Zusammenhang zwischen Vorbereitungszeit und erreichten Punkten bei einer Statistik-Prüfung soll ermittelt werden. Dazu wurden von 5 Stundenten die folgenden Daten erhoben: Vorbereitungszeit (in Std.) Punkte 4 6 9 7 12 45 62 88 94 85 (a) Schätzen Sie die Regressionsgerade y = β0 + β1 x. (b) Berechnen Sie die Standardabweichung der Residuen. (c) Wie groß ist das Bestimmtheitsmaß. (d) Berechnen Sie ein 95%− Konfidenzintervall für β1 (i.e. den Anstieg der Regressionsgeraden). Deutet das Konfidenzintervall auf einen Zusammenhang zwischen Vorbereitungszeit und Punktezahl hin? 12.2. (Brannerth Futschick) Eltern möchten oft wissen, wie groß ihr Kind einmal werden wird. Um festzustellen, ob solche Prognosen (basierend auf der Körpergröße im Alter von 2 Jahren) möglich sind, wurden folgende Daten erhoben: Größe mit 2 Jahren 99 76 81 86 89 91 91 76 Größe als Erwachsener 180 160 160 170 172 173 178 163 (a) Schätzen Sie die Regressionsgerade y = β0 + β1 x. (b) Angenommen ein Kind ist mit 2 Jahren 88 cm groß. Geben Sie eine Prognose für die Körpergröße im Erwachsenenalter an. Berechnen Sie weiters ein 95% Konfidenzintervall zur Prognose. 12.3. In einem Regressionsmodell wurde der Zusammenhang zwischen Übergewicht (Y ) und Süßigkeitenkonsum (X) untersucht. Dabei beschreibt X die Anzahl der Tage pro Woche an denen die Befragten Süßigkeiten konsumierten. Folgende Ergebnisse sind bekannt: Es wurden insgesamt 7 Personen befragt, deren Süßigkeitskonsum durch die Ausprägungen x1 = 1, x2 = 2, x3 = 3, x4 = 4, x5 = 5, x6 = 6, x7 = 7 gegeben ist. Die geschätzten Regressionskoeffizienten sind durch b0 = −1.2, b1 = 2.1 gegeben, die Standardabweichung der Residuen beträgt se = 2.1. (a) Berechnen Sie die Standardabweichung des Koeffizienten b1 . (b) Testen Sie zum Niveau α = 0.05 ob der Süßigkeitenkonsum zur Erklärung von Übergewicht beiträgt. 29 (c) Welches Übergewicht haben typischerweise im Mittel Personen, die an 3 Tagen pro Woche Süßigkeiten konsumieren? Berechnen Sie ein 95%− Konfidenzintervall. 12.4. (Lehn 183) Im statistischen Jahrbuch für Deutschland des Jahres 1986 finden sich folgende Angaben über das durchschnittliche Heiratsalter von Männern und Frauen, die zum ersten Mal heiraten: Jahr xi (Männer yi (Frauen) 1 1971 26.0 23.7 2 1972 25.6 23.0 3 1973 25.5 22.9 4 1974 25.6 22.9 5 1975 25.3 22.7 6 1976 25.6 22.9 7 1977 25.7 22.9 8 1978 25.9 23.1 9 1979 26.0 23.2 10 1980 26.1 23.4 11 1981 26.3 23.6 12 1982 26.6 23.8 13 1983 26.9 24.1 14 1984 27.0 24.4 Es wird angenommen, dass die Durchschnittswerte yi des Erstheitazsalters von Frauen durch unabhängige normalverteilte Zufallsvariable Yi , i = 1, · · · , 14 beschrieben werden können. Ferner sei vorausgesetzt, dass diese Zufallsvariablen die gleiche Varianz σ 2 besitzen und die Erwartungswerte E(Yi ) von der Form E(Yi ) = axi + b sind, wobei xi das zugehörige durchschnittliche Erstheiratsalter der Männer im i−ten Jahr ist. (a) Man berechne geeignete Schätzwerte für die unbekannten Parameter a, b, und σ 2 . (b) Ist die Nullhypothese b = 0 (i.e. das erwartete Durchschnittsalter der Frauen ist proportional zum Durchschnittsalter der Männer) auf dem 90%− Niveau zu verwerfen? 12.5. (Hartung Heine 11.1) Dem Jahresgutachten zur gesamtwirtschaftlichen Entwicklung von BUSINESSLAND ist nachfolgende Tabelle entnommen. Diese gibt Aufschluss über die Ersparnisse von privaten Haushalten sowie deren verfügbare Einkünfte in den Jahren 1996-2005 (in Millionen Geldeinheiten). Normalverteilung kann vorausgesetzt werden. 30 i Jahr verfügbares Ersparnisse Einkommen xi yi 1 1996 34.2 2.8 2 1997 40.8 4.1 3 1998 42.5 4.5 4 1999 47.3 4.3 5 2000 50.1 4.9 6 2001 52.6 5.8 7 2002 56.9 7.0 8 2003 61.4 7.7 9 2004 73.5 8.1 10 2005 76.7 8.8 (a) Es wird vermutet, dass die Ersparnisse annährend linear vom verfügbaren Einkommen abhängen. Schätzen Sie die Parameter der linearen Einfachregression mittels der Methode der kleinsten Quadrate und stellen Sie die auf diese Weise erhaltene Gerade gemeinsam mit den Ursprungsdaten in einem Diagramm dar. (b) Schätzen Sie die Fehlervarianz und geben Sie für diese ein 90%−Konfidenzintervall an. (c) Beurteilen Sie die Güte der Anpassung, die die Regression unter (a) erzielt, anhand des Bestimmtheitsmasses. (d) Bestimmen Sie zum Niveau 90% Konfigenzintervalle für das Absolutglied und den Steigungsparameter der Regressionsgeraden. (e) Geben Sie eine Prognose für die Ersparnisse der privaten Haushalte ab, wenn mit einem verfügbaren Einkommen von x0 = 80 Millionen GE gerechnet werden kann. (f) Berechnen Sie i. ein Konfidenzintervall zum Niveau α = 0.95 für die erwarteten Ersparnisse bei einem verfügbaren Einkommen von x0 = 80 Millionen GE. ii. ein Prognoseintervall mit Trefferwahrscheinlichkeit α = 0.95 für die prognostizierten Ersparnisse y0 bei einem verfügbaren Einkommen von x0 = 80 Millionen GE. (g) Zeichnen Sie Konfidenz- und Prognosestreifen zum Niveau 0.95 gemeinsam mit der im Aufgabenteil (a) ermittelten Regressionsgeraden in ein Diagramm. Erstellen Sie zuvor eine Wertetabelle (z.B mit Excel). 31 12.6. (Hartung Heine 11.1) Die Verkaufszahlen in einer Boutique für Bademoden unterliegen gewissen saisonalen Einflüssen. In folgender Tabelle ist die Anzahl der verkauften Badeanzüge für 7 Zeitpunkte festgehalten. t 0 1 2 3 4 5 6 yt 25 40 46 29 12 6 17 Im Weiteren sollen entsprechende Normalverteilungsannahmen getroffen werden. (a) Bestimmen Sie nach der Methode der kleinsten Quadrate Schätzwerte b0 und b1 , wenn angenomen werden kann, dass sich die Verkaufszahlen für Badeanzüge durch den Ansatz ŷt = b0 + b1 sin t erklären lassen, und berechnen Sie das zugehörige Bestimmtheitsmass. (b) Testen Sie zum 5% Niveau, ob das Absolutglied der Regressionsfunktion signifikant kleiner als 27 ist. (c) Besteht zum 10% Niveau eine signifikante Abweichung des Steigungsparameters der Regressionsfunktion vom Wert 20? 12.7. In einer Grazer Universitäts-Frauenklinik wurden die Länge L und der Kopfumfang U neugeborener Knaben gemessen: L 51 47 52 48 52 52 50 48 54 50 U 34 35 36 34 37 36 35 33 38 34 (i) Betrachten Sie die Körperlänge L als unabhängige Variable, und den Kopfumfang U als abhängige Variable. Bestimmen Sie die entsprechende Regressionsgerade. (ii) Vertauschen Sie nun die Rollen von L und U , i.e. die Körperlänge ist nun die abhängige Variable, die durch den Kopfumfang K bestimmt ist. Berechnen Sie die entsprechende Regressionsgerade und vergleichen Sie das Ergebnis mit (i). (iii) Berechnen Sie das Bestimmtheitsmaß. Ist es wesentlich, welche der Variablen die unabhängige bzw. abhängige Variable ist? 13 Mehrfache Regression 13.1. (Fu/Bra 8.16) Ein Statistiker hat für einige Restaurants gleichen Typs den wöchentlichen Umsatz y (in 1000 US$), das Durchschnittsjahreseinkommen x1 (in 1000 US$) und die Populationsgröße x2 (in 1000 Personen) der Regionen, in denen sich die Lokale befinden, 32 erfragt. Anhand der Daten von n = 11 Restaurants errechnet er folgende Regressionsgerade ŷ = −9.02 + 0.768x1 + 0.176x2 . Weiters ist bekannt: • Gesamtabweichungsquadratsumme SQT = • Residuenquadratsumme SQR = P11 2 i=1 ei P11 i=1 (yi − ȳ)2 = 364.91 = 130.12 • Standardabweichungen der Regressionskoeffizienten: sb1 = 0.204, sb2 = 0.084. (a) Wie groß ist das Bestimmtheitsmass dieser Mehrfachregression? (b) Welcher Test steht mit dem Bestimmtheitsmass in Verbindung? Führen Sie ihn durch und interpretieren Sie das Ergebnis. (Wählen Sie selbst ein Signifikanzniveau.) (c) Berechnen Sie das 95%−Konfidenzintervall für den Koeffizienten der zur Populationsgröße gehört. (d) Ist der Einfluß der Populationsgröße signifikant? (α = 0.05). 13.2. (Fu/Bra 8.17) Im folgenden finden Sie die Ergebnisse einer Mehrfachregression zur Erklärung der Obdachlosenrate Y (Prozent der Bevölkerung) durch die unabhängigen Variablen • Arbeitslosenrate X1 (Prozent der Erwerbsfähigen) • durchschnittliche Lebenshaltungskosten X2 (Prozent des Bruttoeinkommens). Die Regression wurde mit einer Stichprobe von n = 21 vergleichbar großen Städten berechnet. k Variable Koeffizient bk 0 Konstante -0.018 1 X1 0.097 2 X2 Standardabweichung sbk 0.027 0.002 Die Stichprobe hatte eine durchschnittliche Obdachlosenrate ȳ bzw. Standardabweichung sY von ȳ = 21 1 X 21 i=1 yi = 1.518%, sY 33 v u 21 u 1 X =t (yi − ȳ)2 = 0.189% 20 i=1 Die erklärte Abweichungsquadratsumme beträgt SQE = 21 X (ŷi − ȳ)2 = 0.521 i=1 Die durchschnittliche Arbeitslosenrate der Stichprobe betrug 7.986%. Die über alle Städte der Stichprobe gemittelten Lebenshaltungskosten betrugen 71.472%. (a) Bestimmen Sie den fehlenden Regressionskoeffizienten und schätzen Sie die Obdachlosenrate in einer Stadt mit einer Arbeitslosenrate von 9% und durchschnittlichen Lebenshaltungskosten von 70%. (b) Berechnen Sie das Bestimmtheitsmass. (c) In welchem statistischen Test spielt das Bestimmtheitsmaß eine Rolle? Formulieren Sie Null- und Alternativhypothese dieses Tests und führen Sie ihn durch. Interpretieren Sie Ihr Ergebnis! (α = 0.01.) (d) Berechnen Sie ein 99%− Konfidentintervall für den Koeffizienten der Arbeitslosenrate. (e) Hat die Arbeitslosenrate einen signifikanten Einfluß auf die Obdachlosenrate Y ? Testen Sie auf dem Niveau α = 0.01. 13.3. (Fu/Bra 8.18) Um die Koeffizienten des Modells y = β0 + β1 x1 + β2 x2 + β3 x3 + β4 x4 + zu schätzen, wurden 30 Beobachtungen gesammelt, mit folgendem Ergebnis: Source of Degress of Variation Freedom Regression 4 126.3 31.58 Residual 25 269.1 11.70 Total 29 395.4 Sum of Mean Squares Squares Testen Sie (mit α = 0.01) die folgende Hypothese H0 : β1 = β2 = β3 = β4 = 0 vs. H1 : βi 6= 0 für mindestens ein i ∈ {1, 2, 3, 4}. 14 Varianzanalyse 14.1. (Lehn 177) Vier Bauern haben ungefähr gleichaltrige Mastrinder. Die Anzahl der Rinder auf den Bauernhöfen sowie die Gewichtszunahme (in kg) sind in folgender Tabelle zusammengefasst: 34 Anzahl Rinder bei Bauer Gewichtszunahme (in kg) 7 A 7.2 5.0 5.5 4.4 5.2 3.8 5.4 9 B 5.1 3.6 5.6 7.1 1.7 5.3 7.4 6.6 8 C 3.4 4.3 4.5 7.0 4.2 3.5 5.8 1.9 8 D 1.4 2.0 2.5 1.6 4.9 2.3 2.6 1.8 5.7 Unter geeigneten Normalverteilungsannahmen teste man zum Niveau α = 5% die Annahme, dass die Mastfütterungsmethoden der vier Bauern gleichwertig sind. 14.2. (Lehn 178) Während der Fussballweltmeisterschaft 1982 in Spanien ermittelte der medizinische Betreuer einer Mannschaft folgende Gewichtsverluste einiger Feldspieler bei den 3 Vorrundenspielen: Anzahl Spieler Spiel Gewichtsabnahme (in kg) n1 = 6 Spiel 1 1.86 1.84 1.97 1.75 1.83 n2 = 5 Spiel 2 1.67 1.98 1.77 1.85 2.01 n3 = 7 Spiel 3 1.61 1.76 1.73 1.82 1.74 1.88 1.68 1.69 Es bezeichne xij den Gewichtsverlust des j−ten Spielers beim i−ten Spiel (1 ≤ j ≤ ni , i = 1, 2, 3). Unter der Annahme, dass die Messergebnisse xij eine Realisierung von unabhängigen, für gleiches i identisch N (µi , σ 2 )− verteilten Zufallsvariablen Xij sind, teste man anhand dieser Daten mit Hilfe eines geeigneten Verfahrens zum Niveau α = 5% die Annahme der Gleichheit des mittleren Gewichtsverlustes in allen Vorrundenspielen. 14.3. Es soll untersucht werden, ob der Erfolg bei einer Prüfung für SoziologInnen vom benützten Lehrbuch abhängt. Dazu wurden für 3 gängige Lehrbücher jeweils 20 Studierende ausgewählt und deren Prüfungsergebnisse (auf einer Skala von 0-100) ermittelt. Die aus der Erhebung ermittelten Kennzahlen sind in folgender Tabelle zusammengefasst: Ergebnisse x̄ s2 A 66 12 B 70 14 C 72 10 Lehrbuch (i) Sind diese 3 Lehrbücher unterschiedlich effizient? Testen Sie zu Niveau α = 0.05. (ii) Nachträglich erfahren Sie, dass Lehrbuch A an einer anderen Universität als die Bücher B und C verwendet wurden. Beeinflußt diese Information Ihre unter (i) gemachte Aussage? 35 14.4. Ergänzen Sie folgende Varianzanalysetabelle Source of var. Sum of sqares Between groups Within groups df mean sq. 4 20 F 200 Total 39 (i) Gibt es signifikante Unterschiede der Gruppen bzgl. der Mittelwerte? (α = 0.01) (ii) Wieviele Beobachtungen pro Gruppe und wieviele Gruppen gibt es, unter der Annahme gleicher Beobachtungszahlen je Gruppe? 14.5. Vier Benzinmarken wurden hinsichtlich Verunreinigungen untersucht. Es wurden jeweils bei ni Tankstellen Proben genommen. Dabei ergab sich folgendes: mittlere Standard- Marke ni Verunreinigung abweichung A 6 1.8 0.15 B 8 0.9 0.25 C 10 1.4 0.10 D 5 1.6 0.06 (i) Erstellen Sie eine Varianzanalysentabelle. (ii) Gibt es einen signifikanten Unterschied zwischen den Marken? (α = 0.05) 14.6. Drei verschiedene Kopierer sollen bezüglich Tonerverbrauch (in Litern pro 100 000 Kopien) verglichen werden. Von jeder Marke wurden 5 Kopierer getestet und folgende Verbrauchswerte gemessen: Marke A Marke B Marke C 3.5 4.6 2.8 4.2 5.2 2.6 2.7 5.4 2.1 2.9 5.1 3.1 3.7 3.4 3.5 (i) Testet Sie zum Nivea α = 0.05 ob es signifikante Verbrauchsunterschiede zwischen den Kopierermarken gibt. (ii) Wenn es nur zwei Marken zu vergleichen gäbe, welchen Test könnten Sie dann alternativ anwenden? 36 (iii) Welche Modellannahmen hat der Test aus (i)? 14.7. Drei verschiedene Medikamente A1 , A2 und A3 wurden bei der Behandlung von 2 Typen von Krankheiten B1 und B2 verwendet. Für den Behandlungserfolg wurden Masszahlen erhoben, die in folgender Tabelle zusammengefasst sind: Mittel A1 Krankheit B1 Krankheit B2 6 5 12 18 Mittel A2 Mittel A3 6 4 2 5 8 8 7 9 2 3 7 16 15 13 (i) Welches Mittel scheint am effizientesten? Welches am wenigsten effizient? (ii) Deuten die Daten darauf hin, dass eine der beiden Krankheiten schwerer zu behandeln ist? (iii) Führen Sie eine Varianzanalyse durch. Können die Unterschiede zwischen den Krankheiten bzw. zwischen den Medikamenten auf Zufall zurückgeführt werden? Liegt Wechselwirkung vor? (α = 0.05) 14.8. In einem Land kommt es zu einem Konjunkturaufschwung. Es soll geprüft werden, ob drei bestimmte Branchen vom Aufschwung in gleicher Weise profitieren. Weiters stellt sich die Frage, ob der Aufschwung kleine Betriebe anders betrifft als große Betriebe. Dazu wurden aus den drei Branchen jeweils ein kleiner und ein großer Betrieb zufällig ausgewählt und folgende prozentuelle Gewinnveränderungen erhoben: Betriebsgröße Branche klein groß Metallindustrie 3.5 -0.2 Textilindustrie 5.4 4.2 Handel 8.6 9.4 (i) Prüfen Sie, ob die Branchen vom Aufschwung unterschiedlich profitieren (α = 0.05). (ii) Prüfen Sie, ob kleine Betriebe vom Aufschwung gleich stark wie große Betriebe profitieren (α = 0.05). (iii) Welche Modellannahmen haben Sie beim Prüfen obiger Hypothesen getroffen? 37 References [1] Baier, B. and Burtscher K., Übungen ”Angewandte Mathematik und Statistik I & II” für SoziologInnen, (UB II 1,280.561) [2] Bleymüller, Gehlert, Gülicher, Statistik für Wirtschaftswissenschaftler, Verlag Vahlen. [3] Brannath, Werner, Futschik, Andreas: Statistik im Studium der Wirtschaftswis- senschaften, WUV Studienbücher Wirtschaftswissenschaften, 2007. [4] Coulter, Philip B., Measuring Inequality, 1989. [5] Deutler, Schaffranek, Steinmetz, Statistik Übungen im wirtschaftswissenschaftlichen Grundstudium, Springer Verlag, (UB I 1,099.713) [6] Gnoss, Müller, Zwerenz, Übungen zur Statistik (deskriptive & induktive Statistik), Verlag f. Wirtschaftsskripten, (UB I 1,099.906) [7] Hartung,J. und Heine B., Statistik-Übungen, deskriptive Statistik, Oldenburg-Verlag, München, Wien, (UB I 1,095.003) [8] Hartung,J. und Heine B., Statistik-Übungen, induktive Statistik, 2004, Oldenburg-Verlag, München, Wien, (UB I 1,095.003) [9] Lehn, Jürgen, Wegmann, Helmut, Rettig, Stefan: Aufgabensammlung zur Einführung in die Statistik, Teubner Verlag, Stuttgart, 2001, (UB I 1,445.036) 38