Tutorium zu „Einführung in die Statistik“ Übungsblatt 1 Aufgabe 1 Bei einer Studie werden anhand einiger Stichproben gewisse Merkmal begutachtet: a) b) c) d) e) Parteizugehörigkeit der Wähler in einer Wahlkneipe Stromstärke in mehreren Haushalten in Wollmatingen Länge der Haare von Juristinnen Nationalität von Passanten in der Münchner Innenstadt Geschwindigkeit bei Reaktionszeitexperimenten an der Uni Konstanz 1) Was könnte die jeweils zu Grunde liegende Population (Grundgesamtheit) sein und welche möglichen Merkmalsausprägungen gibt es? 2) Charakterisiert die genannten Merkmale durch die Eigenschaften qualitativ/quantitativ und stetig/diskret. Aufgabe 2 Die Probanden Peter, Christian und Dennis nehmen an einem Test teil. Bildet man den Durchschnitt ihrer Ergebnisse, so entspricht dieser genau dem Resultat von Christian. Welches Mindestskalenniveau wird hier gesucht? (Tipp: Denkt an die Aufgabe aus dem Tutorium) Aufgabe 3 Studenten werden nach dem Mensabesuch gefragt, welches Essen sie gewählt haben. 12 Befragte haben Stammessen genommen, 6 Wahlessen, 6 Salat und 3 Eintopf. a) Welches Skalenniveau liegt vor? b) Erstelle die Verteilung (Häufigkeitsverteilung). c) Ist es sinnvoll, in dieser Verteilung kumulierte Anteile auszuweisen? (gebt bitte eine kurze Begründung) d) Stelle die Verteilung in einem Kreisdiagramm dar. Aufgabe 4 Bei einem Gedächtnisexperiment werden 40 Probanden 30 Gegenstände vorgelegt, die sie hinterher auswendig niederzuschreiben haben. Die folgende Aufzählung listet auf, an wie viele der Gegenstände sich jeder einzelne Proband erinnert hat: 12 14 15 11 a) b) c) d) e) 20 9 16 14 23 6 12 18 0 22 13 19 14 14 15 20 16 29 17 6 12 1 2 8 10 10 14 10 30 11 22 12 12 22 9 14 Welches Skalenniveau liegt vor (Anzahl der erinnerten Gegenstände; Stückzahl)? Erstelle die Verteilung (Häufigkeitsverteilung). Wie viel Prozent der Probanden haben sich an 20 oder weniger Gegenstände erinnert? Stelle die Verteilung (d.h. die Prozentanteile) ein einem Stabdiagramm dar. Stelle die kumulierte Verteilung in einem geeigneten Diagramm dar. Wie heißt es? Kristin Wilmes Tutorium zu „Einführung in die Statistik“ Aufgabe 5 Es wird eine Untersuchung vorgenommen, wie viel Liter alkoholische Getränke pro Woche getrunken werden. Die Daten werden in folgender Tabelle zusammengefasst: 0 bis 1 Liter 1 bis 2 Liter 2 bis 5 Liter 5 bis 10 Liter 10 bis 20 Liter 20 bis 30 Liter 6 Personen 10 Personen 17 Personen 5 Personen 1 Person 1 Person a)Erstelle eine statistisch korrekte Tabelle, die Angaben über die x i, die n i , die Prozentanteile und die kumulierten Anteile enthält. b) Handelt es sich hierbei um stetige oder diskrete Daten? c) Wie groß ist der Anteil der Personen, die 10 Liter und weniger trinken? d) Stelle sowohl die Verteilung (d.h. die Prozentanteile) als auch die kumulierte Verteilung graphisch dar. e) Erläutere (kurz) an einer deiner Zeichnungen, was unter dem „Prinzip der Flächentreue“ verstanden wird. B Kristin Wilmes B Tutorium-Einführung in die Statistik Übungsblatt 2 Aufgabe 1 a) versucht doch bitte die Nummer 5 d) des alten Blattes einmal alleine zu lösen. (Tipp: zunächst eine Tabelle erstellen mit Index, Klassengrenzen, Klassenbreite, Häufigkeit, Anteil, Dichte= Höhe; von Vorteil wäre es hier auch schon die kumulierten Anteile mit auszuweisen); dann bitte graphisch darstellen (sowohl Anteile im Histogramm als auch kum. Anteile im Summenpolygon) b) wenn ihr euch die Zeichnungen anschaut, habt ihr vielleicht schon eine Vorstellung, was man unter „Flächentreue“ verstehen könnte? Aufgabe 2 80 Studentinnen werden nach der Anzahl ihrer Handtaschen befragt. Die Ergebnisse sind teilweise in folgender Tabelle abzulesen: 1 2 3 4 Summe i 43 ni 0,15 0,125 f(xi) F(xi) a) Was wäre in diesem Fall das n? Wofür stehen ni, f(xi) und F(xi)? Ergänzt bitte die leeren Felder. b) Zeichnet ein Stabdiagramm (rel. Anteile). c) Nun wollen auch die kumulierten Anteile dargestellt werden. Wie nennt man diese Darstellungsart? Bitte führe sie durch. Aufgabe 3 Die Hobby-Statistikerin Alexa U. führt eine Untersuchung durch, wie viele Nüsse in einer Packung Studentenfutter enthalten sind. Sie kauft 25 Packungen und notiert die Anzahl der Nüsse je Packung 23 29 34 59 33 54 19 48 45 49 23 33 49 44 47 37 42 22 36 35 27 23 29 56 52 a) Anhand eines stem- and leaf- Diagrammes soll eine Einteilung in fünf Klassen gefunden werden b) Arbeite die klassierten Daten tabellarisch auf und zeichne ein Histogramm c) Wie werden in diesem Fall die kumulierten Daten graphisch dargestellt? Bitte durchführen Falls ihr dies nach der Vorlesung am Montag schon könnt und Lust habt, könnt ihr euch ja schon mal an Folgendem versuchen oder es euch einfach schon mal angucken und überlegen, wie es gehen könnte (machen wir aber auch noch mal im Tutorium) Aufgabe 4 Um das Sozialverhalten von Studenten besser einschätzen zu können, werden 8 Studenten danach befragt, wie viele Personen sie zu ihrer letzten Geburtstagsfeier eingeladen haben. Es wurden folgende Angaben gemacht: 10 10 34 16 1 16 0 150 a) Erstelle die Verteilung (Tabelle) mit allen notwendigen Angaben b) Bestimme die Extremwerte (Maximum, Minimum) und den Modalwert c) Berechne das arithmetische Mittel d) Berechne Median und 2.Terzil e) Berechne das 3.Quartil und den oberen Hinge f) Berechne das 2. Quintil, das 4. Dezil und das 40 Perzentil Tutorium zur Einführung in die Statistik Übungsblatt 3 Aufgabe 1 1. Um das Sozialverhalten von Studenten besser einschätzen zu können, werden 8 Studenten danach befragt, wie viele Personen sie zu ihrer letzten Geburtstagsfeier eingeladen haben. Es wurden folgende Angaben gemacht (ein Wert pro befragtem Student): 10 10 34 16 1 16 0 150 a) Erstelle die Verteilung (Tabelle) mit allen notwendigen Angaben. b) Bestimme die Extremwerte (Maximum, Minimum) und den Modalwert. Gibt es hier eine Besonderheit? Wie heißt diese? c) Berechne das arithmetische Mittel. d) Berechne Median und 2. Terzil e) Was kann man auf Grund von arithmetischem Mittel, Median und Modalwert über die Schiefe aussagen (skewness)? (tut so, als würde es nur den ersten Modalwert geben) f) Berechne das 3. Quartil und den oberen Hinge. g) Berechne das 2. Quintil, das 4. Dezil und das 40. Perzentil. Aufgabe 2 Mittelwert (arithmetisches Mittel) vs. Median a) Überlegt euch noch einmal, wo die generellen Unterschiede zwischen beiden liegen. Was sind beispielsweise Vorteile für die jeweilige Verwendung und welche Skalenniveaus müssen benutzt werden? b) Bei 10 gegebenen Werten sollen sowohl arithmetisches Mittel als auch der Median berechnet werden b1) Muss das arithmetische Mittel zwingend identisch mit einem der 10 Werte sein? Kann es identisch mit einem der 10 Werte sein? b2) Muss der Median zwingend identisch mit einem der 10 Werte sein? Kann er? c) Gegeben seien dieses Mal nur 9 Werte. Wieder sollen sowohl arithmetisches Mittel und Median berechnet werden. c1) Muss das arithmetische Mittel zwingend identisch mit einem der 9 Werte sein? Kann es? c2) Muss der Median zwingend identisch mit einem der 9 Werte sein? Kann er? Kleiner Tipp: Am besten haltet ihr euch bei der Lösung an die jeweiligen Formeln- denkt dran: Gegenüberstellung: ungerade vs. gerade Werte Aufgabe 3 Gegeben sei folgende Tabelle: i xi 1 14 Berechne hierfür: 2 19 3 15 4 13 5 12 6 14 7 15 8 13 9 20 10 15 a) Extremwerte c) das 5. Dezil e) das arithmetische Mittel g) Modalwert Kristin Wilmes b) den Median d) das 2.,3. und 4. Quintil f) Hinges und Eights Übungsblatt 4 Aufgabe 1 (wie versprochen hier noch einmal eine Aufgabe zu Quantilen bei klassierten Daten) In Konstanz wurden folgende Verspätungen festgestellt: Wartezeit 0 bis 2 min 2 bis 8 min 8 bis 20 min Anzahl 20 20 10 a) Berechne Dichten und kumulierte Anteile b) Berechne Median und 4. Quintil Aufgabe 2 Die folgenden Daten geben an, wie häufig eine Stichprobe von Studenten am wöchentlichen Uni-Sportangebot binnen eines Jahres teilgenommen hat Sortierte Liste x (i) x(i) Berechnet: 16 25 a) Modalwert= 32 b) Median= 25 c)Mittelwert= 17 d) Varianz= 18 e) Standardabweichung= 20 25 f) Welche Aussagen kann man anhand der 21 berechneten Daten machen (Schiefe?; Weiteres?) Aufgabe 3 Elf zufällig vorbeikommende Personen werden gefragt, wie viele Weihnachtsgeschenke sie denn schon eingekauft hätten. Die einzelnen Antworten (bereits in sortierter Reihenfolge) sind: 0-1-1-5-5-6-7-7-10-10-52 a) Berechne das 1. Quartil b) Berechne den unteren Hinge c) Berechne die Schiefe. Handelt es sich um eine rechtsschiefe, linksschiefe oder symmetrische Verteilung? d) Berechne die Entropie (in bits) e) Zeichne den Boxplot Aufgabe 4 Bei sechs Schulkindern wird erhoben, wie viele Fernsehsendungen sie pro Woche ansehen. Es kommt zu folgenden Ergebnissen 20 40 5 40 20 0 a) Berechne das arithmetische Mittel b) Berechne getrimmtes und winsorisiertes Mittel für q= 0,2 c) Berechne die Spannweite d) Berechne die mittlere Quartildistanz e) Berechne den h-spread f) Berechne die Standardabweichung g) Berechne die mittlere Abweichung der Werte vom Median Übungsblatt 5 Aufgabe 1 a) Aus einer Urne mit 20 Kugeln werden 3 Exemplare mit Zurücklegen gezogen. Wie viele mögliche Stichproben gibt es? b) Von 30 Schülern einer Klasse können 5 eine besondere Förderung erhalten. Wie viele Möglichkeiten gibt es, diese 5er Gruppe zusammenzustellen? c) Im Supermarkt kauft Monika 27 Rüben. Ihr ist langweilig und sie erstellt mit ihnen lange Schlangen zu jeweils 13 Rüben auf dem Tisch: mal kommt die kleinste nach vorne, mal die rote, mal die eckige,… Wie viele Kombinationsmöglichkeiten entstehen? Aufgabe 2 Gegeben sei die Häufigkeitsverteilung eines diskreten, ordinalen Merkmals x x: Häufigkeit: 0 5 1 20 3 10 6 5 Berechnen Sie folgende Maßzahlen, falls SINNVOLL (= ZULÄSSIG): a) 1.Quartil und 3.Quintil b) Eighths c) qualitative Varianz d) arithmetisches Mittel e) Entropie (in nits) f) mittlere quadrierte Abweichung der Werte voneinander g) Varianz Aufgabe 3 In einer Lieferung von 500 Lindt-Weihnachtsmännern sind durch unsachten Transport nun 10% mit einer angeschlagenen „Mütze“, was optisch zuerst nicht auffällt, da die Verpackung keinen Schaden nahm. Wie groß ist die Wahrscheinlichkeit, dass ein Kindergarten, der 30 Weihnachtsmänner kauft, genau 3 kaputte bekommt a) Berechne die Wahrscheinlichkeit für „mit Zurücklegen“ b) Berechne jetzt die Wahrscheinlichkeit für „ohne Zurücklegen“ Übungsblatt 6 Aufgabe 1 An den Kassen von Supermärkten und Kaufhäusern wird ein zusätzliches Gerät bereitgestellt, mit dem die Echtheit von 100 Euro-Scheinen geprüft werden soll. Aus Erfahrung weiß man, dass 15 von 10000 Scheinen gefälscht sind. Bei diesem Gerät wird durch Aufblinken einer Leuchte angezeigt, dass der Schein als falsch eingestuft wird. Es ist bekannt, dass das Gerät mit einer Wahrscheinlichkeit von 0,95 aufblinkt, wenn der Schein falsch ist, und mit einer Wahrscheinlichkeit von 0,1, wenn der Schein echt ist. Wie sicher kann man davon ausgehen, dass der 100 Euro Schein tatsächlich falsch ist, wenn das Gerät aufblinkt? Rechnet ihr mit einer hohen oder kleinen Wahrscheinlichkeit? Macht euch den Sachverhalt in einem Wahrscheinlichkeitsbaum klar. Aufgabe 2 Gegeben sei eine Urne mit vier Kugeln (a,b,c,d). Auf a, b, und c steht die Zahl 0, auf der dKugel steht die Zahl 1. Die Zahlen auf den Kugeln sind die Werte der x-Variablen. Berechne für die x-Variable der Grundgesamtheit folgende Zahlen: a) arithmetisches Mittel und Varianz Man zieht zufällig eine Stichprobe (mit Zurücklegen) der Größe 2 ( n=2). Berechne für die Zufallsvariable des arithmetischen Mittels b) die Verteilung (Werte und Wahrscheinlichkeiten) c) den Erwartungswert und die Varianz Berechne für die Zufallsvariable Varianz des Mittelwertes der Stichprobe d) den Erwartungswert und die Varianz Aufgabe 3 Es sei bekannt, dass in einer Gesellschaft 80% der Bevölkerung über Stress in der Vorweihnachtszeit klagt. Diesem Umstand will ein psychologisches Forscherteam nachgehen und wählt dafür zufällig eine Stichprobe von 20 Probanden aus. a) Berechne den Erwartungswert für die Varible „Anzahl der Personen in der Stichprobe, die über Stress in der Vorweihnachtszeit klagen“ b) Welcher Anteil an Stresspersonen ist zu erwarten? c) Berechne für Anzahl und Anteil der Stresspersonen die jeweilige Varianz (also eine Varianz für „Anzahl“ und eine Varianz für „Anteil“) d) Angenommen, es würden innerhalb der Stichprobe Vierergrüppchen gebildet: Wie groß wären jetzt Erwartungswert und Varianz für durchschnittlichen Anteil bzw. durchschnittliche Anzahl an Stresspersonen? e) Innerhalb der 20-köpfigen Stichprobe befinden sich nun 20 Stresspersonen. Wie wahrscheinlich war es, dass alle ausgewählten Personen Stresspersonen sind? f) Der Projektleiter des Forscherteams will die Stichprobe dann nicht zulassen, wenn sich lediglich 10 oder weniger Stresspersonen in der Stichprobe befinden. Wie wahrscheinlich ist es, dass der Projektleiter die Stichprobe ablehnt? g) Ein anderer Projektleiter besteht darauf, dass mindestens 16 Stresspersonen in der Gruppe sein müssen. Wie wahrscheinlich ist es, dass ihm dieser Wunsch erfüllt wird? Übungsblatt 7 Aufgabe 1 Gegeben sei eine Urne mit 10 Kugeln. Auf 6 Kugeln steht die Zahl 1, auf den anderen Kugeln steht jeweils eine 0. Die Zahlen auf den Kugeln sind die Werte der x-Variablen. Bilden Sie für die x-Variable der Grundgesamtheit a) die Varianz b) die Verteilung (Werte und Anteile) Sie ziehen zufällig mit Zurücklegen zwei Kugeln, d.h. eine Stichprobe der Größe 2 (n=2) Berechnen Sie für die Zufallsvariable „Stichprobenvarianz der gezogenen x-Werte“ c) den Erwartungswert der Stichprobenvarianz und die Varianz der Stichprobenvarianz d) die Verteilung (Stichprobenvarianzwerte mit W´ten) Aufgabe 2 Gegeben sei eine Urne mit 10 Kugeln. Auf 8 Kugeln steht die Zahl 1, auf den anderen Kugeln steht jeweils eine 0. Sie ziehen zufällig OHNE Zurücklegen zwei Kugeln, d.h. eine Stichprobe der Größe 2 (n=2) Berechne für die Zufallsvariable „Spannweite der x-Werte“ in der Stichprobe a) die Verteilung (Werte und Wahrscheinlichkeiten) b) den Erwartungswert der Spannweite und die Varianz der Spannweite Aufgabe 3 Üben wir noch einmal den Umgang mit der Binomialverteilung und dem grünen Heftchen. Am besten versucht ihr die Aufgaben zunächst auf dem alten rechnerischen Wege zu ermitteln und schaut sie dann in der Tabelle nach (bei allen Aspekten handelt es sich um ein Ziehen mit Zurücklegen) a) Es sei bekannt, dass 10% der Apfelsinen um Weihnachten herum schlecht sind. Wie groß ist die Wahrscheinlichkeit, dass beim Ziehen von 20 Apfelsinen 3 der Apfelsinen schlecht sind. b) Aus 100 Weihnachtsgeschenken wählt man 50 aus. Wenn bekannt ist, dass jedes 5. Weihnachtsgeschenk den Beschenkten nicht erfreut, wie groß ist die W´t, dass von diesen 50 Geschenken 13 eher unbeliebte Geschenke sind? c) Bei einer Anzahl von 9 Einzelversuchen und einer Erfolgsw´t von 0,9 wie groß ist die W´t 5 Erfolge zu erzielen? d) Zieht man aus einer Lostrommel einhundert Kugeln und weiß, dass 70% gelb sind, wie groß ist die Wahrscheinlichkeit 63 oder weniger gelbe Kugeln zu erwischen? e) Es sei bekannt, dass 25% aller Schüler mit dem Bus zur Schule kommen. Wählt man 10 Schüler aus, wie groß ist die Wahrscheinlichkeit, dass 3 oder mehr mit dem Bus anreisen? Aufgabe 4 Ein wenig Theorie: a) welche drei Arten des induktiven Schließens gibt es? b) Bei der ersten Art, anhand welcher drei Kriterien werden Schätzer beurteilt? c) Bei der Intervallschätzung unterscheidet man im Generellen zwei Fälle. Nach welchem Kriterium wir beurteilt, welchen Fall man anwendet? (Wir haben bisher nur den ersten besprochen).Welche Verteilung wird bei diesem ersten Fall zu Grunde gelegt? Aufgabe 5 Versucht doch schon mal ein Konfidenzintervall auszurechnen. Wir haben das ja letzte Stunde schon kurz angesprochen a) Aus der Population sei bekannt, dass die Standardabweichung einen Wert von 15 annimmt. Bei einer Stichprobe von 16 Leuten (n=16) ergab sich ein Mittelwert von 90. Berechne bitte ein 95% Konfindenzintervall. b) Von 6400 zufällig ausgewählten Personen aus der Bevölkerung gaben 2304 an, dieses Jahr weniger für Weihnachtsgeschenke auszugeben. Bestimme das 95% Konfidenzintervall für diejenigen Personen, die in diesem Jahr kürzer treten möchten. (kleiner Tipp: es handelt sich um eine Dummy-Variable) Übungsblatt 8 Aufgabe 1 Veranschaulicht euch bitte noch mal folgende theoretische Aspekte: a) wobei handelt es sich bei einer Normalverteilung und durch welche zwei Angaben wird diese charakterisiert? b) was ist das besondere an einer Standardnormalverteilung? c) wie standardisiere ich normalverteilte Werte? Was bedeutet das genau? d) womit arbeite ich, wenn ich KI (= Konfidenzintervalle) mit bekannter Populationsstandardabweichung (=sigma) berechne? Aufgabe 2 Punkt- und Intervallschätzer. a) Die durchschnittliche Anzahl an Kopien, die Studenten in diesem Semester bis dato gemacht haben sei normalverteilt. Aus Vorgängeruntersuchungen weiß man, dass in der Population σ= 10 ist. Um ein Konfidenzintervall für my zu bestimmen, werde bei 16 Personen die Anzahl an bisher angefertigten Kopien erhoben: Es lässt sich ein Durchschnittswert von 200 feststellen. Erstelle das 95%Konfidenzintervall. b) Diesmal ist σ nicht bekannt, sondern es wird in der Stichprobe die Stichprobenstandardabweichung sn-1 berechnet. Diese ergibt nun einen Wert von 10. Gib das 95% Konfidenzintervall für my an. c) Warum ist das Konfidenzintervall für Teilaufgabe b größer als bei Teilaufgabe a, wenn doch das in a verwendete σ gleich groß ist wie sn-1 aus b? d) Die Untersuchung wird auf 100 Personen ausgedehnt. Sie werden befragt, wie groß ihrer Meinung nach der Anteil an kaputten Kopierern ist. Im Durchschnitt über die 100 Befragten stellt sich heraus, dass in dieser Stichprobe ein durchschnittlicher Anteil von kaputten Kopierern von 0,2 festgestellt werden kann. Die in der Stichprobe festgestellte Standardabweichung des Anteils beträgt 0,15. Approximiere mithilfe der Normalverteilung ein 95% Konfidenzintervall für den Anteil an kaputten Kopierern. e) Um das my einer Verteilung zu schätzen, werden zur Bestimmung eines Punktschätzers zehn Daten der interessierenden Verteilung in einer Stichprobe ausgewählt. Zur Wahl für den Punktschätzer stehen das arithmetische Mittel über diese zehn Daten oder der als achtes gezogene Wert. Beide erfüllen offensichtlich das Anfordernis der Erwartungstreue. Welcher der beiden Punktschätzer wird letztendlich ausgewählt und warum (Fachbegriffe)? Aufgabe 3 Martin hat im Untertest 1 eines Intelligenztest den Punktwert 8,5 erreicht und im Untertest 2 den Punktwert 90. Das Testmanuell weist folgende Normwerte für die beiden Untertests auf; für die beiden Untertests liegt Normalverteilung vor Norm für Untertest 1 : my=6,5 Norm für Untertest 2: my=70 sigma²=4 sigma²= 144 a) Hat Martin im Untertest 1 oder 2 besser abgeschnitten? b) Wie hoch ist die Wahrscheinlichkeit für die in den beiden Untertests erreichten und alle kleineren Punktwerte? Benutzt zur Lösung die Tabelle der Standardnormalverteilung Aufgabe 4 Der Student Superspurter war von den letzten Olympischen Spielen derart begeister, dass er unbedingt als 100m Läufer mit zu den nächsten fahren möchte. Seine Leistung x schätzt er wie folgt ein: normalverteilt (10,4; 0,2²). Wie groß ist die Wahrscheinlichkeit, dass Superspurter a) zwischen 10,2 und 10,6 Sekunden läuft? b) Nicht unter 10,8 Sekunden läuft? c) Höchstens 10,1 Sekunden läuft? Übungsblatt 9 Aufgabe 1 Die Populationsvarianz sei bekannt: σ ²=1000. Bei einer Stichprobe mit n=16 und xquer= 50 fragt man sich, wie breit ein 95% Konfidenzintervall sein wird. Berechne bitte auf 2 Arten Aufgabe 2 Der jährliche Krankenkassenbeitrag pro Person sei normalverteilt mit σ = 100. Der Mittelwert soll auf Grund der Stichprobe geschätzt werden. Wie groß sollte n (Stichprobengröße) sein, damit das 95% KI nur 100 Euro breit ist? Aufgabe 3 Für x aus einer dichotomen Population wurde eine einfache Zufallsstichprobe gezogen (n=10) 1, 1, 0, 0 ,0 ,0 ,0 ,0 ,0 ,1, 1 Es sollen Bootstrap-Konfidenzintervalle erzeugt werden; daher wurden aus der Stichprobe 10 Zufallsstichproben gezogen. Der Anteil der Einsen in diesen Stichproben war jeweils 0,3 - 0,4 - 0,3 - 0,1 - 0,7 - 0,5 - 0,4 - 0,3 - 0,3 - 0,5 a) Berechne das 80% Bootstrap-Konfidenzintervall für die Varianz der dichotomen Variablen b) Berechne das 80% Bootstrap-KI für den Mittelwert der dichotomen Variablen Aufgabe 4 Mittelwerttests: bestimme für alle der folgenden Testangaben den kritischen Bereich. Wenn möglich gib auch den Fehler 2. Art (β) und die Macht des Tests (MdT) an. Wenn nichts besonderes angegeben ist, rechne immer mit α =0,05 a) Ho: μ=100 Ha: μ = 98 σ = 10 n=16 α = 0,05 b) Ho: μ=100 Ha: μ =98 σ = 10 n=16 α = 0,01 c) Ho: μ=9 Ha: μ = 12 σ = 0,1 n= 100 d) Ho: μ=100 Ha: μ ≠100 σ=8 n=25 e) Ho: μ=0 Ha: μ = -0,1 σ = 0,5 n=25 f)Ho: μ=100 Ha: μ =102 σ = 10 n=16 g) Ho: μ= 10 Ha: μ = 5 σ=1 n= 2 h) Ho: μ= 100 Ha: μ >100 σ = 16 n= 100 Aufgabe 5 Der Weinkonsum (in Litern) pro Jahr (=Y)sei normalverteilt in beiden Ländern (Italien und Deutschland). In Italien sei Y normalverteilt mit NV(37,16) und in Deutschland sei X normalverteilt mit NV(32, 9) Es werde folgende Konvention getroffen: Meistertrinker seien die 5% eines Landes, die mehr als die anderen Bewohner des Landes trinken. a) Ab welcher Weinmenge ist man Meistertrinker in Italien? b) Wieviel % der Italiener trinken weniger als 35 Liter? c) In einem Land wurde eine Stichprobe (n=4) gezogen. Leider ist vergessen worden, in welchem Land die Stichprobe gezogen wurde. Hypothese: in Italien Alternativhypothese: in Deutschland Konstruiere einen Test mit dem Mittelwert als Teststatistik. Wie groß ist der Fehler 2. Art? Aufgabe 6 In einer statistischen Qualitätskontrolle bei der Herstellung von Massenprodukten entnimmt man im Allgemeinen in kurzen Abständen kleine Stichproben, um den Produktionsprozess laufend unter Kontrolle zu halten. Bei welcher der drei folgenden Stichproben muss korrigierend in die Produktion eingegriffen werden, wenn für ein Werkstück im Mittel ein Durchmesser von μ=10 cm eingehalten werden soll? (bei einem Signifikanzniveau α=0,01; die Standardabweichung der Produktion beträgt σ= 0,1 cm) Stichprobe 1: 9,91 10,00 10,05 10,10 10,01 Stichprobe 2: 10,18 9,97 10,00 10,05 10,06 Stichprobe 3: 9,80 9.80 9,92 10,03 9,80 Aufgabe 7 Es wird behauptet, dass der Median der Studienzeit 6 Jahre sei. Alternativ wird die Hypothese aufgestellt: 6 Jahre ist das erste Quintil. Bei einer Stichprobe von 20 Studenten wird untersucht, ob ihr Studium kürzer oder gleich 6 Jahre war (Erfolg). Als Teststatistik werde gewählt: ANZAHL von Erfolgen. Konstruiere den Test a) Welche Verteilung hat die Teststatistik? b) Berechne β c) Exaktes α? d) Bestimme den kritischen Bereich e) Wird Ho bei 19 Erfolgen akzeptiert? Übungsblatt 10 Aufgabe 1 Konstruieren Sie einen Test für das Energie-Sparlampenbeispiel, bei dem nur die Anzahl der Erfolge als Teststatistik verwendet wird( n=5; Ergebnis: 4 Erfolge) Ho Hypothese: π=0,5 (Chance für Einsparung entspricht dem Zufall) Ha: π=0,8 (Chance für Einsparung ist 0,8) a) exaktes α ___________ wird Ho verworfen? b) Macht des Testes?_______________ c) Kritischer Bereich?______________ d) Welche Verteilung hat die Teststatistik? Original Klausuraufgabe WS2000/2001 Aufgabe 2 In einem psychologischen Interventionstraining zum akuten Aggressionsabbau wurde eine Stichprobe von sechs äußerst aggressiven Personen gezogen. Diese wurden zu Beginn des Trainings mit Hilfe eines einschlägigen Fragebogens auch auf der Dimension „Einfühlungsvermögen“ getestet. Dabei ergab sich folgendes Bild: Vpn 1 2 3 4 5 6 Einfühlungs- 2 5 7 8 1 2 vermögen Wurde dieser Fragebogen am Ende der Interventionsphase erneut vorgelegt, ergab sich für dieselben Personen folgendes Ergebnis: Vpn 1 2 3 4 5 6 Einfühlungs- 8 10 3 8 4 10 vermögen Kann hieraus gefolgert werden (auf einem Signifikanzniveau von alpha=1%), dass die Intervention in puncto „Nachvollziehen der Gefühle anderer“ erfolgreich war? Entwirf hierzu einen geeigneten Test (Teststatistik...) und fälle eine Entscheidung. Aufgabe 3 Zum Millenium-Jahreswechsel wurde eine Aufstellung darüber veröffentlicht, wie oft jede Zahl bei den Ziehungen der Lottozahlen in den Jahren 1995-99 gezogen wurde. Folgender Ausschnitt aus dieser Aufstellung gibt an, wie oft die Zahlen 1 bis 10 gezogen wurden: 1: 280 mal 6: 290 mal 2: 288 mal 7: 271 mal 3: 300 mal 8: 260 mal 4: 270 mal 9: 289 mal 5: 280 mal 10: 275 mal Im Folgenden sind die Ergebnisse für die Zahlen 11 bis 49 vernachlässigt worden, so als ob sie gar nicht gezogen worden wären. Zu erwarten wäre, dass jede der Zahlen 1 bis 10 gleich oft gezogen worden ist. Daher wird die Nullhypothese formuliert: Die Häufigkeit der Ziehung ist unter den Zahlen 1 bis 10 gleichverteilt. Alternativ wird behauptet: Es liegt keine Gleichverteilung vor. Überprüfe die Hypothese aufgrund der oben genannten Daten mithilfe eines Chi² Anpassungstestes, wobei als Teststatistik zu verwenden ist: a) die Likelihood-Ratio-Chi² Teststatistik b) welches Maß wäre alternativ noch möglich? Wäre ein Unterschied zu erwarten? Aufgabe 4 Der Anteil der Studenten, die ohne gründliche Vorbereitung zur Klausur antreten (Ho) ist 0,4. Die Alternativhypothese ist: Dieser Anteil sei 0,2 Von 50 untersuchten Studenten gaben 30% zu, sich auf die Klausur nicht gründlich vorzubereiten. Teststatistik: Anzahl der Studenten, die sich auf die Klausur nicht gründlich vorbereiten. Konstruieren Sie einen Test der Ho-Hypothese. a) Welche Verteilung hat die Teststatistik? b) Kritischer Bereich? c) Exaktes α? Wird Ho verworfen? d) Macht des Testes? Übungsblatt 11 Aufgabe 1 Originalaufgabe SS 1991 Es soll die Frage untersucht werden, ob Türen auf der „Stoßen-Seite“ gleich abgenutzt werden wie auf der „Ziehen-Seite“. Alternativ wird behauptet, dass die „Stoßen-Seite“ stärker beansprucht wird. Bei acht Türen wurde ein Verschmutzungswert erhoben: Stoßenseite Ziehenseite 1 41 2 23 3 25 4 20 5 4 6 50 7 7 8 13 40 22 23 19 3 51 5 12 Prüfen Sie zuerst die Hypothese, dass die durchschnittliche Abnutzung gleich ist, unter Berücksichtigung der angemessenen Alternativhypothese. a) Testwert b) Welche Verteilung hat die Teststatistik? c) Wird Ho abgelehnt? Begründung d) Bestimme den kritischen Bereich Prüfen Sie nun die Hypothese, dass der Verschmutzungsunterschied nur zufällig ist, bei entsprechender Alternative, dass er wohl überzufällig ist (Teststatistik: Anzahl der Türen, die auf der Stoßen-Seite stärker verschmutzt sind). e) Wird Ho abgelehnt bei 8 positiven Antworten? Begründung f) Bestimme den kritischen Bereich g) Welche Verteilung hat die Teststatistik? Aufgabe 2 300 zufällig aus der Bundesbevölkerung ausgewählte berufstätige Personen wurden im Januar 2006 danach befragt, ob sie einen Fernsehapparat mit Kabelanschluss besitzen. Außerdem sollten sie ihre durchschnittliche tägliche Fernsehdauer an Wochentagen angeben. 168 der befragten Personen haben Fernsehapparate mit Kabelanschluss, 116 der befragten Personen haben zwar einen Fernsehapparat, aber keinen Kabelanschluss. Die durchschnittliche wochentägliche Fernsehzeit der befragten Fernsehbesitzer mit Kabelanschluss beträgt 1,42 h bei einer Stichproben-Standardabweichung von 0,75 Stunden. Die durchschnittliche wochentägliche Fernsehzeit der befragten Fernseherbesitzer ohne Kabelanschluss beträgt 1,38 h bei einer Stichproben-Standardabweichung von 0,73 Stunden. Prüfe, ob durch diese Befragungsergebnisse statistisch gesichert davon ausgegangen werden kann, dass an Wochentagen berufstätige Besitzer eines Fernsehgerätes mit Kabelanschluss im Mittel mehr fernsehen als berufstätige Besitzer eines Fernsehgerätes ohne Kabelanschluss. Gehe dabei davon aus, dass das untersuchte Merkmal für beide Teilgesamtheiten wenigstens näherungsweise normalverteilt ist und dass Varianzhomogenität vorliegt. a) Stelle eine geeignete Nullhypothese und Alternativhypothese zur Untersuchung der interessierenden Fragestellung auf. b) Führe einen geeigneten Test zum Signifikanzniveau 0,01 durch und interpretiere deine Testentscheidung Aufgabe 3 Wie viel Kilowatt können durch Energiesparlampen durchschnittlich pro Woche eingespart werden? Für eine Stichprobe von fünf Haushalten wurden folgende Ergebnisse erzielt: Haushalte: Kw/Woche mit üblichen Lampen: Kw/Woche mit EnergieSparlampen 1 2 3 4 5 24 40 10 20 30 36 11 16 26 20 a) Berechnen Sie das 95% Konfidenzintervall für die Differenz der Populationsmittelwerte. b) Berechnen Sie das für diesen Fall adäquate PRE-Maß. Wie heißt dieses PRE-Maß? c) Testen Sie Ho:Populationsmittelwerte sind gleich (Alternative: ungleich) Testwert? Kritischer Bereich? Wird Ho abgelehnt? Warum? Aufgabe 4 In Konstanz werden in vier Buslinien jeweils drei zufällig ausgewählte Personen nach ihrem Alter befragt. Dabei werden folgende Resultate festgestellt: Buslinie Alter der Fahrgäste Linie 1 (Autofähre) Linie 6 (PLK Reichenau) Linie 9 (Uni) Linie 10 (Friedhof) 34 27 20 65 56 45 25 80 75 63 30 80 a)Führe folgenden Test durch: Ho: Das Alter der Fahrgäste unterscheidet sich nicht für die verschiedenen Buslinien. Ha: Ho ist falsch b)Gib insbesondere an: Testverteilung? Testwert? Kritischer Bereich? c) Berechne ² und interpretiere es d) Berechne im Sinne des PRE-Konzeptes den Fehler (Ohne). Um welche ssq handelt es sich? e) Erstelle eine Tabelle, die auch in einem Computerausdruck zu finden sein könnte, und deren Spalten überschrieben sind mit „source of variance“, „ssq“, „df“ und „msq“. Aufgabe 5 Die durchschnittliche häusliche Arbeitszeit (in Stunden) für 2 Wohnarten werden verglichen. Wohnart Stichproben: zu Hause WG Mittelwert: Standardabweichung: Stichprobengröße: 10 2 10 20 2 20 Die Populationsstandardabweichungen seien gleich. a) Berechne das Konfidenzintervall für den Mittelwert jeder Gruppe. b) Bereche das Konfidenzintervall für die Differenz der Populationsmittelwerte c) Teste Ho: Populationsmittelwerte sind gleich(Alternative: ungleich) Kritischer Bereich? Wird Ho abgelehnt? Warum? Übungsblatt 12 Aufgabe 1 Für die örtliche Krankenkasse ist es interessant zu wissen, wie lange sich Sportler unterschiedlicher Disziplinen im Durchschnitt pro Woche fit halten. Um dieser Tatsache näher zu kommen, wurden folgende Sportler nach ihrer durchschnittlichen, wöchentlichen Trainingszeit in Minuten befragt: Radfahrer 150 24 30 290 Inlineskater 95 125 300 24 Volleyballer 160 230 120 45 90 Marathonläufer 560 255 340 160 620 490 a) mit Hilfe welches Verfahrens kann ausgewertet werden, ob sich die verschiedenen Sportler gleich lange betätigen? b) Wie lautet die Regel (mit x)? Wie hoch ist der Fehler (ohne x)? c) Führe das geeignete Verfahren durch und erstelle einen dementsprechende Tabelle mit allen nötigen Angaben. Was ist die Teststatistik? Wo liegt der kritische Bereich? Teste mit Signifikanzniveau alpha= 0,01 d) Berechne den Determinationskoeffizienten und e) den adjustierten Determinationskoeffizienten Aufgabe 2 Für n=11 Verbände von Reha Kliniken wurde die Anzahl von beschäftigten Angestellten im therapeutischen Bereich sowie die Anzahl von Erstklientenkontakten pro Jahr erhoben. Es soll nun der Zusammenhang zwischen diesen Größen untersucht wrden yi: 193 152 279 173 221 278 124 94 254 174 148 Kontakte Xi: 10 8 13 9 11 14 6 4 12 7 5 Mitarbeiter a) Berechne arithmetisches Mittel, Stichprobenvarianz und Stichprobenkovarianz. b) Bestimme die Regressionsgerade. Prognostiziere aufgrund der eben ermittelten Gerade wie hoch die Anzahl der Kontakte bei einer rapiden Zunahme auf 100 Mitarbeiter aussähe. c) Bestimme den Determinatinskoeffizienten 2. Art Aufgabe 3 Bei acht Personen mit Schlafstörungen soll mittels einer Therapie die Schlafdauer verlängert werden. Die Patienten wurden drei verschiedenen Therapeuten zugeteilt. Folgende Statistik wird erhoben: Schlafdauer in h vorher Schlafdauer in h nachher Therapeut A 2 A A B B 5 Therapeut B 2 4 4 4 C 6 Therapeut C 4 4 6 4 6 6 6 6 7 Zu überprüfen sind folgende Hypothesen: (Beachte, dass für keinen der Tests alle in der Tabelle erhaltenen Informationen verwendet werden müssen. Stelle fest, um welchen Test es sich jeweils handelt!) a) Ho: Die Therapiegruppen der Therapeuten A, B und C unterscheiden sich im Durchschnitt nicht hinsichtlich der Schlafdauer, die die jeweiligen Patienten vor Beginn der Therapie angaben. Ha: Ho ist falsch. b) Ho: die einzelnen Patienten schlafen nach der Therapie im Durchschnitt zwei Stunden länger (So wird es von den Therapeuten angepriesen). Ha: die durchschnittliche Verbesserung des Schlafes beträgt weniger als zwei Stunden. c) Ho: der Anteil derjenigen Patienten, bei denen sich eine längere Schlafdauer einstellt, ist 0,5 (d.h. eine Schlafverbesserung ist rein zufällig). Ha: der Anteil derjenigen Patienten, bei denen sich eine längere Schlafdauer einstellt, ist größer als 0,5 (d.h. eine Schlafverbesserung ist nicht zufällig). d) Ho: die durchschnittliche Schlafdauer nach Ende der Therapie ist 6 Stunden. Ha: die durchschnittliche Schlafdauer nach Ende der Therapie beträgt weniger als 6 Stunden. Aufgabe 4 Bei fünf Personen wird untersucht, wie viele Zigaretten sie am Tag rauchen und wie viel Stunden Sport sie in der Woche treiben. Die Ergebnisse: Person Zigaretten Sport 1 2 0 0 3 0 1 4 5 1 5 10 4 40 0 a) Erstelle die Regressionsgerade y= a+bx für den Zusammenhang zwischen Zigarettenkonsum und Sport b) Sind die Regressionskoeffizienten a und b signifikant? c) Erstelle ein 95% Konfidenzintervall für a und b. Aufgabe 5 Im Wetteramt Friedrichshafen möchten zwei angehende Meterologen überprüfen, ob Verdunstung und Lufttemperatur tatsächlich signifikant miteinander zusammenhängen. Hierzu wählen sie als Signifikanzniveau alpha= 0,05. Sie wollen ihre Entscheidung auf Grund einer Stichprobe mit 36 Werten treffen. Weil sie schon fleißig waren, haben sie bereits den Korrelationskoeffizienten zwischen Verdunstung und Lufttemperatur berechnet. Dieser beträgt 0,8381. Wie können sie ihre Entscheidung treffen? a) Teststatistik? b) Kritischer Wert? c) Welche Entscheidung werden sie fällen? Übungsblatt 12 Aufgabe 1 Für die örtliche Krankenkasse ist es interessant zu wissen, wie lange sich Sportler unterschiedlicher Disziplinen im Durchschnitt pro Woche fit halten. Um dieser Tatsache näher zu kommen, wurden folgende Sportler nach ihrer durchschnittlichen, wöchentlichen Trainingszeit in Minuten befragt: Radfahrer 150 24 30 290 Inlineskater 95 125 300 24 Volleyballer 160 230 120 45 90 Marathonläufer 560 255 340 160 620 490 f) mit Hilfe welches Verfahrens kann ausgewertet werden, ob sich die verschiedenen Sportler gleich lange betätigen? g) Wie lautet die Regel (mit x)? Wie hoch ist der Fehler (ohne x)? h) Führe das geeignete Verfahren durch und erstelle einen dementsprechende Tabelle mit allen nötigen Angaben. Was ist die Teststatistik? Wo liegt der kritische Bereich? Teste mit Signifikanzniveau alpha= 0,01 i) Berechne den Determinationskoeffizienten und j) den adjustierten Determinationskoeffizienten Aufgabe 2 Für n=11 Verbände von Reha Kliniken wurde die Anzahl von beschäftigten Angestellten im therapeutischen Bereich sowie die Anzahl von Erstklientenkontakten pro Jahr erhoben. Es soll nun der Zusammenhang zwischen diesen Größen untersucht wrden yi: 193 152 279 173 221 278 124 94 254 174 148 Kontakte Xi: 10 8 13 9 11 14 6 4 12 7 5 Mitarbeiter d) Berechne arithmetisches Mittel, Stichprobenvarianz und Stichprobenkovarianz. e) Bestimme die Regressionsgerade. Prognostiziere aufgrund der eben ermittelten Gerade wie hoch die Anzahl der Kontakte bei einer rapiden Zunahme auf 100 Mitarbeiter aussähe. f) Bestimme den Determinatinskoeffizienten 2. Art Aufgabe 3 Bei acht Personen mit Schlafstörungen soll mittels einer Therapie die Schlafdauer verlängert werden. Die Patienten wurden drei verschiedenen Therapeuten zugeteilt. Folgende Statistik wird erhoben: Schlafdauer in h vorher Schlafdauer in h nachher Therapeut A 2 A A B B 5 Therapeut B 2 2 4 4 C 6 Therapeut C 4 4 6 4 6 6 6 6 7 Zu überprüfen sind folgende Hypothesen: (Beachte, dass für keinen der Tests alle in der Tabelle erhaltenen Informationen verwendet werden müssen. Stelle fest, um welchen Test es sich jeweils handelt!) e) Ho: Die Therapiegruppen der Therapeuten A, B und C unterscheiden sich im Durchschnitt nicht hinsichtlich der Schlafdauer, die die jeweiligen Patienten vor Beginn der Therapie angaben. Ha: Ho ist falsch. f) Ho: die einzelnen Patienten schlafen nach der Therapie im Durchschnitt zwei Stunden länger (So wird es von den Therapeuten angepriesen). Ha: die durchschnittliche Verbesserung des Schlafes beträgt weniger als zwei Stunden. g) Ho: der Anteil derjenigen Patienten, bei denen sich eine längere Schlafdauer einstellt, ist 0,5 (d.h. eine Schlafverbesserung ist rein zufällig). Ha: der Anteil derjenigen Patienten, bei denen sich eine längere Schlafdauer einstellt, ist größer als 0,5 (d.h. eine Schlafverbesserung ist nicht zufällig). h) Ho: die durchschnittliche Schlafdauer nach Ende der Therapie ist 6 Stunden. Ha: die durchschnittliche Schlafdauer nach Ende der Therapie beträgt weniger als 6 Stunden. Aufgabe 4 Bei fünf Personen wird untersucht, wie viele Zigaretten sie am Tag rauchen und wie viel Stunden Sport sie in der Woche treiben. Die Ergebnisse: Person Zigaretten Sport 1 2 0 0 3 0 1 4 5 1 5 10 4 40 0 d) Erstelle die Regressionsgerade y= a+bx für den Zusammenhang zwischen Zigarettenkonsum und Sport e) Sind die Regressionskoeffizienten a und b signifikant? f) Erstelle ein 95% Konfidenzintervall für a und b. Aufgabe 5 Im Wetteramt Friedrichshafen möchten zwei angehende Meterologen überprüfen, ob Verdunstung und Lufttemperatur tatsächlich signifikant miteinander zusammenhängen. Hierzu wählen sie als Signifikanzniveau alpha= 0,05. Sie wollen ihre Entscheidung auf Grund einer Stichprobe mit 36 Werten treffen. Weil sie schon fleißig waren, haben sie bereits den Korrelationskoeffizienten zwischen Verdunstung und Lufttemperatur berechnet. Dieser beträgt 0,8381. Wie können sie ihre Entscheidung treffen? d) Teststatistik? e) Kritischer Wert? f) Welche Entscheidung werden sie fällen?