Übungsblatt 1

Werbung
Tutorium zu „Einführung in die Statistik“
Übungsblatt 1
Aufgabe 1
Bei einer Studie werden anhand einiger Stichproben gewisse Merkmal begutachtet:
a)
b)
c)
d)
e)
Parteizugehörigkeit der Wähler in einer Wahlkneipe
Stromstärke in mehreren Haushalten in Wollmatingen
Länge der Haare von Juristinnen
Nationalität von Passanten in der Münchner Innenstadt
Geschwindigkeit bei Reaktionszeitexperimenten an der Uni Konstanz
1) Was könnte die jeweils zu Grunde liegende Population (Grundgesamtheit) sein und
welche möglichen Merkmalsausprägungen gibt es?
2) Charakterisiert die genannten Merkmale durch die Eigenschaften qualitativ/quantitativ
und stetig/diskret.
Aufgabe 2
Die Probanden Peter, Christian und Dennis nehmen an einem Test teil. Bildet man den
Durchschnitt ihrer Ergebnisse, so entspricht dieser genau dem Resultat von Christian.
Welches Mindestskalenniveau wird hier gesucht? (Tipp: Denkt an die Aufgabe aus dem
Tutorium)
Aufgabe 3
Studenten werden nach dem Mensabesuch gefragt, welches Essen sie gewählt haben. 12
Befragte haben Stammessen genommen, 6 Wahlessen, 6 Salat und 3 Eintopf.
a) Welches Skalenniveau liegt vor?
b) Erstelle die Verteilung (Häufigkeitsverteilung).
c) Ist es sinnvoll, in dieser Verteilung kumulierte Anteile auszuweisen? (gebt bitte eine
kurze Begründung)
d) Stelle die Verteilung in einem Kreisdiagramm dar.
Aufgabe 4
Bei einem Gedächtnisexperiment werden 40 Probanden 30 Gegenstände vorgelegt, die sie
hinterher auswendig niederzuschreiben haben. Die folgende Aufzählung listet auf, an wie
viele der Gegenstände sich jeder einzelne Proband erinnert hat:
12
14
15
11
a)
b)
c)
d)
e)
20
9
16
14
23
6
12
18
0
22
13
19
14
14
15
20
16
29
17
6
12
1
2
8
10
10
14
10
30
11
22
12
12
22
9
14
Welches Skalenniveau liegt vor (Anzahl der erinnerten Gegenstände; Stückzahl)?
Erstelle die Verteilung (Häufigkeitsverteilung).
Wie viel Prozent der Probanden haben sich an 20 oder weniger Gegenstände erinnert?
Stelle die Verteilung (d.h. die Prozentanteile) ein einem Stabdiagramm dar.
Stelle die kumulierte Verteilung in einem geeigneten Diagramm dar. Wie heißt es?
Kristin Wilmes
Tutorium zu „Einführung in die Statistik“
Aufgabe 5
Es wird eine Untersuchung vorgenommen, wie viel Liter alkoholische Getränke pro Woche
getrunken werden. Die Daten werden in folgender Tabelle zusammengefasst:
0 bis 1 Liter
1 bis 2 Liter
2 bis 5 Liter
5 bis 10 Liter
10 bis 20 Liter
20 bis 30 Liter
6 Personen
10 Personen
17 Personen
5 Personen
1 Person
1 Person
a)Erstelle eine statistisch korrekte Tabelle, die Angaben über die x i, die n i , die Prozentanteile
und die kumulierten Anteile enthält.
b) Handelt es sich hierbei um stetige oder diskrete Daten?
c) Wie groß ist der Anteil der Personen, die 10 Liter und weniger trinken?
d) Stelle sowohl die Verteilung (d.h. die Prozentanteile) als auch die kumulierte Verteilung
graphisch dar.
e) Erläutere (kurz) an einer deiner Zeichnungen, was unter dem „Prinzip der Flächentreue“
verstanden wird.
B
Kristin Wilmes
B
Tutorium-Einführung in die Statistik
Übungsblatt 2
Aufgabe 1
a) versucht doch bitte die Nummer 5 d) des alten Blattes einmal alleine zu lösen.
(Tipp: zunächst eine Tabelle erstellen mit Index, Klassengrenzen, Klassenbreite,
Häufigkeit, Anteil, Dichte= Höhe; von Vorteil wäre es hier auch schon die
kumulierten Anteile mit auszuweisen); dann bitte graphisch darstellen (sowohl Anteile
im Histogramm als auch kum. Anteile im Summenpolygon)
b) wenn ihr euch die Zeichnungen anschaut, habt ihr vielleicht schon eine Vorstellung,
was man unter „Flächentreue“ verstehen könnte?
Aufgabe 2
80 Studentinnen werden nach der Anzahl ihrer Handtaschen befragt. Die Ergebnisse sind
teilweise in folgender Tabelle abzulesen:
1
2
3
4
Summe
i
43
ni
0,15
0,125
f(xi)
F(xi)
a) Was wäre in diesem Fall das n? Wofür stehen ni, f(xi) und F(xi)? Ergänzt bitte die
leeren Felder.
b) Zeichnet ein Stabdiagramm (rel. Anteile).
c) Nun wollen auch die kumulierten Anteile dargestellt werden. Wie nennt man diese
Darstellungsart? Bitte führe sie durch.
Aufgabe 3
Die Hobby-Statistikerin Alexa U. führt eine Untersuchung durch, wie viele Nüsse in einer
Packung Studentenfutter enthalten sind. Sie kauft 25 Packungen und notiert die Anzahl der
Nüsse je Packung
23
29
34
59
33
54
19
48
45
49
23
33
49
44
47
37
42
22
36
35
27
23
29
56
52
a) Anhand eines stem- and leaf- Diagrammes soll eine Einteilung in fünf Klassen
gefunden werden
b) Arbeite die klassierten Daten tabellarisch auf und zeichne ein Histogramm
c) Wie werden in diesem Fall die kumulierten Daten graphisch dargestellt? Bitte
durchführen
Falls ihr dies nach der Vorlesung am Montag schon könnt und Lust habt, könnt ihr euch ja
schon mal an Folgendem versuchen oder es euch einfach schon mal angucken und überlegen,
wie es gehen könnte (machen wir aber auch noch mal im Tutorium)
Aufgabe 4
Um das Sozialverhalten von Studenten besser einschätzen zu können, werden 8 Studenten
danach befragt, wie viele Personen sie zu ihrer letzten Geburtstagsfeier eingeladen haben. Es
wurden folgende Angaben gemacht:
10 10 34 16 1 16 0 150
a) Erstelle die Verteilung (Tabelle) mit allen notwendigen Angaben
b) Bestimme die Extremwerte (Maximum, Minimum) und den Modalwert
c) Berechne das arithmetische Mittel
d) Berechne Median und 2.Terzil
e) Berechne das 3.Quartil und den oberen Hinge
f) Berechne das 2. Quintil, das 4. Dezil und das 40 Perzentil
Tutorium zur Einführung in die Statistik
Übungsblatt 3
Aufgabe 1
1. Um das Sozialverhalten von Studenten besser einschätzen zu können, werden 8 Studenten
danach befragt, wie viele Personen sie zu ihrer letzten Geburtstagsfeier eingeladen haben. Es
wurden folgende Angaben gemacht (ein Wert pro befragtem Student):
10 10 34 16 1 16 0 150
a) Erstelle die Verteilung (Tabelle) mit allen notwendigen Angaben.
b) Bestimme die Extremwerte (Maximum, Minimum) und den Modalwert. Gibt es hier
eine Besonderheit? Wie heißt diese?
c) Berechne das arithmetische Mittel.
d) Berechne Median und 2. Terzil
e) Was kann man auf Grund von arithmetischem Mittel, Median und Modalwert über die
Schiefe aussagen (skewness)? (tut so, als würde es nur den ersten Modalwert geben)
f) Berechne das 3. Quartil und den oberen Hinge.
g) Berechne das 2. Quintil, das 4. Dezil und das 40. Perzentil.
Aufgabe 2
Mittelwert (arithmetisches Mittel) vs. Median
a) Überlegt euch noch einmal, wo die generellen Unterschiede zwischen beiden liegen.
Was sind beispielsweise Vorteile für die jeweilige Verwendung und welche
Skalenniveaus müssen benutzt werden?
b) Bei 10 gegebenen Werten sollen sowohl arithmetisches Mittel als auch der Median
berechnet werden
b1) Muss das arithmetische Mittel zwingend identisch mit einem der 10 Werte sein? Kann
es identisch mit einem der 10 Werte sein?
b2) Muss der Median zwingend identisch mit einem der 10 Werte sein? Kann er?
c) Gegeben seien dieses Mal nur 9 Werte. Wieder sollen sowohl arithmetisches Mittel
und Median berechnet werden.
c1) Muss das arithmetische Mittel zwingend identisch mit einem der 9 Werte sein? Kann
es?
c2) Muss der Median zwingend identisch mit einem der 9 Werte sein? Kann er?
Kleiner Tipp: Am besten haltet ihr euch bei der Lösung an die jeweiligen Formeln- denkt
dran: Gegenüberstellung: ungerade vs. gerade Werte
Aufgabe 3
Gegeben sei folgende Tabelle:
i
xi
1
14
Berechne hierfür:
2
19
3
15
4
13
5
12
6
14
7
15
8
13
9
20
10
15
a) Extremwerte
c) das 5. Dezil
e) das arithmetische Mittel
g) Modalwert
Kristin Wilmes
b) den Median
d) das 2.,3. und 4. Quintil
f) Hinges und Eights
Übungsblatt 4
Aufgabe 1
(wie versprochen hier noch einmal eine Aufgabe zu Quantilen bei klassierten Daten)
In Konstanz wurden folgende Verspätungen festgestellt:
Wartezeit
0 bis 2 min
2 bis 8 min
8 bis 20 min
Anzahl
20
20
10
a) Berechne Dichten und kumulierte Anteile
b) Berechne Median und 4. Quintil
Aufgabe 2
Die folgenden Daten geben an, wie häufig eine Stichprobe von Studenten am wöchentlichen
Uni-Sportangebot binnen eines Jahres teilgenommen hat
Sortierte Liste
x
(i)
x(i)
Berechnet:
16
25
a) Modalwert=
32
b) Median=
25
c)Mittelwert=
17
d) Varianz=
18
e) Standardabweichung=
20
25
f) Welche Aussagen kann man anhand der
21
berechneten Daten machen (Schiefe?;
Weiteres?)
Aufgabe 3
Elf zufällig vorbeikommende Personen werden gefragt, wie viele Weihnachtsgeschenke sie
denn schon eingekauft hätten. Die einzelnen Antworten (bereits in sortierter Reihenfolge)
sind:
0-1-1-5-5-6-7-7-10-10-52
a) Berechne das 1. Quartil
b) Berechne den unteren Hinge
c) Berechne die Schiefe. Handelt es sich um eine rechtsschiefe, linksschiefe oder
symmetrische Verteilung?
d) Berechne die Entropie (in bits)
e) Zeichne den Boxplot
Aufgabe 4
Bei sechs Schulkindern wird erhoben, wie viele Fernsehsendungen sie pro Woche ansehen. Es
kommt zu folgenden Ergebnissen
20
40
5
40
20
0
a) Berechne das arithmetische Mittel
b) Berechne getrimmtes und winsorisiertes Mittel für q= 0,2
c) Berechne die Spannweite
d) Berechne die mittlere Quartildistanz
e) Berechne den h-spread
f) Berechne die Standardabweichung
g) Berechne die mittlere Abweichung der Werte vom Median
Übungsblatt 5
Aufgabe 1
a) Aus einer Urne mit 20 Kugeln werden 3 Exemplare mit Zurücklegen gezogen. Wie
viele mögliche Stichproben gibt es?
b) Von 30 Schülern einer Klasse können 5 eine besondere Förderung erhalten. Wie viele
Möglichkeiten gibt es, diese 5er Gruppe zusammenzustellen?
c) Im Supermarkt kauft Monika 27 Rüben. Ihr ist langweilig und sie erstellt mit ihnen
lange Schlangen zu jeweils 13 Rüben auf dem Tisch: mal kommt die kleinste nach
vorne, mal die rote, mal die eckige,… Wie viele Kombinationsmöglichkeiten
entstehen?
Aufgabe 2
Gegeben sei die Häufigkeitsverteilung eines diskreten, ordinalen Merkmals x
x:
Häufigkeit:
0
5
1
20
3
10
6
5
Berechnen Sie folgende Maßzahlen, falls SINNVOLL (= ZULÄSSIG):
a) 1.Quartil und 3.Quintil
b) Eighths
c) qualitative Varianz
d) arithmetisches Mittel
e) Entropie (in nits)
f) mittlere quadrierte Abweichung der Werte voneinander
g) Varianz
Aufgabe 3
In einer Lieferung von 500 Lindt-Weihnachtsmännern sind durch unsachten Transport nun
10% mit einer angeschlagenen „Mütze“, was optisch zuerst nicht auffällt, da die Verpackung
keinen Schaden nahm. Wie groß ist die Wahrscheinlichkeit, dass ein Kindergarten, der 30
Weihnachtsmänner kauft, genau 3 kaputte bekommt
a) Berechne die Wahrscheinlichkeit für „mit Zurücklegen“
b) Berechne jetzt die Wahrscheinlichkeit für „ohne Zurücklegen“
Übungsblatt 6
Aufgabe 1
An den Kassen von Supermärkten und Kaufhäusern wird ein zusätzliches Gerät bereitgestellt,
mit dem die Echtheit von 100 Euro-Scheinen geprüft werden soll. Aus Erfahrung weiß man,
dass 15 von 10000 Scheinen gefälscht sind. Bei diesem Gerät wird durch Aufblinken einer
Leuchte angezeigt, dass der Schein als falsch eingestuft wird. Es ist bekannt, dass das Gerät
mit einer Wahrscheinlichkeit von 0,95 aufblinkt, wenn der Schein falsch ist, und mit einer
Wahrscheinlichkeit von 0,1, wenn der Schein echt ist.
Wie sicher kann man davon ausgehen, dass der 100 Euro Schein tatsächlich falsch ist, wenn
das Gerät aufblinkt? Rechnet ihr mit einer hohen oder kleinen Wahrscheinlichkeit? Macht
euch den Sachverhalt in einem Wahrscheinlichkeitsbaum klar.
Aufgabe 2
Gegeben sei eine Urne mit vier Kugeln (a,b,c,d). Auf a, b, und c steht die Zahl 0, auf der dKugel steht die Zahl 1. Die Zahlen auf den Kugeln sind die Werte der x-Variablen.
Berechne für die x-Variable der Grundgesamtheit folgende Zahlen:
a) arithmetisches Mittel und Varianz
Man zieht zufällig eine Stichprobe (mit Zurücklegen) der Größe 2 ( n=2). Berechne für die
Zufallsvariable des arithmetischen Mittels
b) die Verteilung (Werte und Wahrscheinlichkeiten)
c) den Erwartungswert und die Varianz
Berechne für die Zufallsvariable Varianz des Mittelwertes der Stichprobe
d) den Erwartungswert und die Varianz
Aufgabe 3
Es sei bekannt, dass in einer Gesellschaft 80% der Bevölkerung über Stress in der
Vorweihnachtszeit klagt. Diesem Umstand will ein psychologisches Forscherteam nachgehen
und wählt dafür zufällig eine Stichprobe von 20 Probanden aus.
a) Berechne den Erwartungswert für die Varible „Anzahl der Personen in der Stichprobe,
die über Stress in der Vorweihnachtszeit klagen“
b) Welcher Anteil an Stresspersonen ist zu erwarten?
c) Berechne für Anzahl und Anteil der Stresspersonen die jeweilige Varianz (also eine
Varianz für „Anzahl“ und eine Varianz für „Anteil“)
d) Angenommen, es würden innerhalb der Stichprobe Vierergrüppchen gebildet: Wie
groß wären jetzt Erwartungswert und Varianz für durchschnittlichen Anteil bzw.
durchschnittliche Anzahl an Stresspersonen?
e) Innerhalb der 20-köpfigen Stichprobe befinden sich nun 20 Stresspersonen. Wie
wahrscheinlich war es, dass alle ausgewählten Personen Stresspersonen sind?
f) Der Projektleiter des Forscherteams will die Stichprobe dann nicht zulassen, wenn
sich lediglich 10 oder weniger Stresspersonen in der Stichprobe befinden. Wie
wahrscheinlich ist es, dass der Projektleiter die Stichprobe ablehnt?
g) Ein anderer Projektleiter besteht darauf, dass mindestens 16 Stresspersonen in der
Gruppe sein müssen. Wie wahrscheinlich ist es, dass ihm dieser Wunsch erfüllt wird?
Übungsblatt 7
Aufgabe 1
Gegeben sei eine Urne mit 10 Kugeln. Auf 6 Kugeln steht die Zahl 1, auf den anderen Kugeln
steht jeweils eine 0. Die Zahlen auf den Kugeln sind die Werte der x-Variablen.
Bilden Sie für die x-Variable der Grundgesamtheit
a) die Varianz
b) die Verteilung (Werte und Anteile)
Sie ziehen zufällig mit Zurücklegen zwei Kugeln, d.h. eine Stichprobe der Größe 2 (n=2)
Berechnen Sie für die Zufallsvariable „Stichprobenvarianz der gezogenen x-Werte“
c) den Erwartungswert der Stichprobenvarianz und die Varianz der Stichprobenvarianz
d) die Verteilung (Stichprobenvarianzwerte mit W´ten)
Aufgabe 2
Gegeben sei eine Urne mit 10 Kugeln. Auf 8 Kugeln steht die Zahl 1, auf den anderen Kugeln
steht jeweils eine 0.
Sie ziehen zufällig OHNE Zurücklegen zwei Kugeln, d.h. eine Stichprobe der Größe 2 (n=2)
Berechne für die Zufallsvariable „Spannweite der x-Werte“ in der Stichprobe
a) die Verteilung (Werte und Wahrscheinlichkeiten)
b) den Erwartungswert der Spannweite und die Varianz der Spannweite
Aufgabe 3
Üben wir noch einmal den Umgang mit der Binomialverteilung und dem grünen Heftchen.
Am besten versucht ihr die Aufgaben zunächst auf dem alten rechnerischen Wege zu
ermitteln und schaut sie dann in der Tabelle nach (bei allen Aspekten handelt es sich um ein
Ziehen mit Zurücklegen)
a) Es sei bekannt, dass 10% der Apfelsinen um Weihnachten herum schlecht sind. Wie
groß ist die Wahrscheinlichkeit, dass beim Ziehen von 20 Apfelsinen 3 der
Apfelsinen schlecht sind.
b) Aus 100 Weihnachtsgeschenken wählt man 50 aus. Wenn bekannt ist, dass jedes 5.
Weihnachtsgeschenk den Beschenkten nicht erfreut, wie groß ist die W´t, dass von
diesen 50 Geschenken 13 eher unbeliebte Geschenke sind?
c) Bei einer Anzahl von 9 Einzelversuchen und einer Erfolgsw´t von 0,9 wie groß ist die
W´t 5 Erfolge zu erzielen?
d) Zieht man aus einer Lostrommel einhundert Kugeln und weiß, dass 70% gelb sind,
wie groß ist die Wahrscheinlichkeit 63 oder weniger gelbe Kugeln zu erwischen?
e) Es sei bekannt, dass 25% aller Schüler mit dem Bus zur Schule kommen. Wählt man
10 Schüler aus, wie groß ist die Wahrscheinlichkeit, dass 3 oder mehr mit dem Bus
anreisen?
Aufgabe 4
Ein wenig Theorie:
a) welche drei Arten des induktiven Schließens gibt es?
b) Bei der ersten Art, anhand welcher drei Kriterien werden Schätzer beurteilt?
c) Bei der Intervallschätzung unterscheidet man im Generellen zwei Fälle. Nach
welchem Kriterium wir beurteilt, welchen Fall man anwendet? (Wir haben bisher nur
den ersten besprochen).Welche Verteilung wird bei diesem ersten Fall zu Grunde
gelegt?
Aufgabe 5
Versucht doch schon mal ein Konfidenzintervall auszurechnen. Wir haben das ja letzte Stunde
schon kurz angesprochen
a) Aus der Population sei bekannt, dass die Standardabweichung einen Wert von 15
annimmt. Bei einer Stichprobe von 16 Leuten (n=16) ergab sich ein Mittelwert von
90. Berechne bitte ein 95% Konfindenzintervall.
b) Von 6400 zufällig ausgewählten Personen aus der Bevölkerung gaben 2304 an, dieses
Jahr weniger für Weihnachtsgeschenke auszugeben. Bestimme das 95%
Konfidenzintervall für diejenigen Personen, die in diesem Jahr kürzer treten möchten.
(kleiner Tipp: es handelt sich um eine Dummy-Variable)
Übungsblatt 8
Aufgabe 1
Veranschaulicht euch bitte noch mal folgende theoretische Aspekte:
a) wobei handelt es sich bei einer Normalverteilung und durch welche zwei Angaben wird
diese charakterisiert?
b) was ist das besondere an einer Standardnormalverteilung?
c) wie standardisiere ich normalverteilte Werte? Was bedeutet das genau?
d) womit arbeite ich, wenn ich KI (= Konfidenzintervalle) mit bekannter
Populationsstandardabweichung (=sigma) berechne?
Aufgabe 2
Punkt- und Intervallschätzer.
a) Die durchschnittliche Anzahl an Kopien, die Studenten in diesem Semester bis dato
gemacht haben sei normalverteilt. Aus Vorgängeruntersuchungen weiß man, dass in
der Population σ= 10 ist. Um ein Konfidenzintervall für my zu bestimmen, werde bei
16 Personen die Anzahl an bisher angefertigten Kopien erhoben: Es lässt sich ein
Durchschnittswert von 200 feststellen. Erstelle das 95%Konfidenzintervall.
b) Diesmal ist σ nicht bekannt, sondern es wird in der Stichprobe die
Stichprobenstandardabweichung sn-1 berechnet. Diese ergibt nun einen Wert von 10.
Gib das 95% Konfidenzintervall für my an.
c) Warum ist das Konfidenzintervall für Teilaufgabe b größer als bei Teilaufgabe a,
wenn doch das in a verwendete σ gleich groß ist wie sn-1 aus b?
d) Die Untersuchung wird auf 100 Personen ausgedehnt. Sie werden befragt, wie groß
ihrer Meinung nach der Anteil an kaputten Kopierern ist. Im Durchschnitt über die
100 Befragten stellt sich heraus, dass in dieser Stichprobe ein durchschnittlicher Anteil
von kaputten Kopierern von 0,2 festgestellt werden kann. Die in der Stichprobe
festgestellte Standardabweichung des Anteils beträgt 0,15. Approximiere mithilfe der
Normalverteilung ein 95% Konfidenzintervall für den Anteil an kaputten Kopierern.
e) Um das my einer Verteilung zu schätzen, werden zur Bestimmung eines
Punktschätzers zehn Daten der interessierenden Verteilung in einer Stichprobe
ausgewählt. Zur Wahl für den Punktschätzer stehen das arithmetische Mittel über
diese zehn Daten oder der als achtes gezogene Wert. Beide erfüllen offensichtlich das
Anfordernis der Erwartungstreue. Welcher der beiden Punktschätzer wird letztendlich
ausgewählt und warum (Fachbegriffe)?
Aufgabe 3
Martin hat im Untertest 1 eines Intelligenztest den Punktwert 8,5 erreicht und im Untertest 2
den Punktwert 90. Das Testmanuell weist folgende Normwerte für die beiden Untertests auf;
für die beiden Untertests liegt Normalverteilung vor
Norm für Untertest 1 : my=6,5
Norm für Untertest 2: my=70
sigma²=4
sigma²= 144
a) Hat Martin im Untertest 1 oder 2 besser abgeschnitten?
b) Wie hoch ist die Wahrscheinlichkeit für die in den beiden Untertests erreichten und
alle kleineren Punktwerte? Benutzt zur Lösung die Tabelle der
Standardnormalverteilung
Aufgabe 4
Der Student Superspurter war von den letzten Olympischen Spielen derart begeister, dass er
unbedingt als 100m Läufer mit zu den nächsten fahren möchte. Seine Leistung x schätzt er
wie folgt ein: normalverteilt (10,4; 0,2²).
Wie groß ist die Wahrscheinlichkeit, dass Superspurter
a) zwischen 10,2 und 10,6 Sekunden läuft?
b) Nicht unter 10,8 Sekunden läuft?
c) Höchstens 10,1 Sekunden läuft?
Übungsblatt 9
Aufgabe 1
Die Populationsvarianz sei bekannt: σ ²=1000. Bei einer Stichprobe mit n=16 und xquer= 50
fragt man sich, wie breit ein 95% Konfidenzintervall sein wird.
Berechne bitte auf 2 Arten
Aufgabe 2
Der jährliche Krankenkassenbeitrag pro Person sei normalverteilt mit σ = 100. Der Mittelwert
soll auf Grund der Stichprobe geschätzt werden. Wie groß sollte n (Stichprobengröße) sein,
damit das 95% KI nur 100 Euro breit ist?
Aufgabe 3
Für x aus einer dichotomen Population wurde eine einfache Zufallsstichprobe gezogen (n=10)
1, 1, 0, 0 ,0 ,0 ,0 ,0 ,0 ,1, 1
Es sollen Bootstrap-Konfidenzintervalle erzeugt werden; daher wurden aus der Stichprobe 10
Zufallsstichproben gezogen. Der Anteil der Einsen in diesen Stichproben war jeweils
0,3 - 0,4 - 0,3 - 0,1 - 0,7 - 0,5 - 0,4 - 0,3 - 0,3 - 0,5
a) Berechne das 80% Bootstrap-Konfidenzintervall für die Varianz der dichotomen Variablen
b) Berechne das 80% Bootstrap-KI für den Mittelwert der dichotomen Variablen
Aufgabe 4
Mittelwerttests: bestimme für alle der folgenden Testangaben den kritischen Bereich. Wenn
möglich gib auch den Fehler 2. Art (β) und die Macht des Tests (MdT) an. Wenn nichts
besonderes angegeben ist, rechne immer mit α =0,05
a) Ho: μ=100 Ha: μ = 98
σ = 10
n=16
α = 0,05
b) Ho: μ=100 Ha: μ =98
σ = 10
n=16
α = 0,01
c) Ho: μ=9
Ha: μ = 12
σ = 0,1 n= 100
d) Ho: μ=100 Ha: μ ≠100
σ=8
n=25
e) Ho: μ=0
Ha: μ = -0,1 σ = 0,5 n=25
f)Ho: μ=100 Ha: μ =102
σ = 10 n=16
g) Ho: μ= 10 Ha: μ = 5
σ=1
n= 2
h) Ho: μ= 100 Ha: μ >100
σ = 16
n= 100
Aufgabe 5
Der Weinkonsum (in Litern) pro Jahr (=Y)sei normalverteilt in beiden Ländern (Italien und
Deutschland). In Italien sei Y normalverteilt mit NV(37,16) und in Deutschland sei X
normalverteilt mit NV(32, 9)
Es werde folgende Konvention getroffen: Meistertrinker seien die 5% eines Landes, die mehr
als die anderen Bewohner des Landes trinken.
a) Ab welcher Weinmenge ist man Meistertrinker in Italien?
b) Wieviel % der Italiener trinken weniger als 35 Liter?
c) In einem Land wurde eine Stichprobe (n=4) gezogen. Leider ist vergessen worden, in
welchem Land die Stichprobe gezogen wurde.
Hypothese: in Italien
Alternativhypothese: in Deutschland
Konstruiere einen Test mit dem Mittelwert als Teststatistik. Wie groß ist der Fehler 2.
Art?
Aufgabe 6
In einer statistischen Qualitätskontrolle bei der Herstellung von Massenprodukten entnimmt
man im Allgemeinen in kurzen Abständen kleine Stichproben, um den Produktionsprozess
laufend unter Kontrolle zu halten. Bei welcher der drei folgenden Stichproben muss
korrigierend in die Produktion eingegriffen werden, wenn für ein Werkstück im Mittel ein
Durchmesser von μ=10 cm eingehalten werden soll? (bei einem Signifikanzniveau α=0,01;
die Standardabweichung der Produktion beträgt σ= 0,1 cm)
Stichprobe 1: 9,91 10,00 10,05 10,10 10,01
Stichprobe 2: 10,18 9,97 10,00 10,05 10,06
Stichprobe 3: 9,80 9.80 9,92 10,03 9,80
Aufgabe 7
Es wird behauptet, dass der Median der Studienzeit 6 Jahre sei. Alternativ wird die Hypothese
aufgestellt: 6 Jahre ist das erste Quintil. Bei einer Stichprobe von 20 Studenten wird
untersucht, ob ihr Studium kürzer oder gleich 6 Jahre war (Erfolg). Als Teststatistik werde
gewählt: ANZAHL von Erfolgen. Konstruiere den Test
a) Welche Verteilung hat die Teststatistik?
b) Berechne β
c) Exaktes α?
d) Bestimme den kritischen Bereich
e) Wird Ho bei 19 Erfolgen akzeptiert?
Übungsblatt 10
Aufgabe 1
Konstruieren Sie einen Test für das Energie-Sparlampenbeispiel, bei dem nur die Anzahl der
Erfolge als Teststatistik verwendet wird( n=5; Ergebnis: 4 Erfolge)
Ho Hypothese: π=0,5 (Chance für Einsparung entspricht dem Zufall)
Ha: π=0,8 (Chance für Einsparung ist 0,8)
a) exaktes α ___________ wird Ho verworfen?
b) Macht des Testes?_______________
c) Kritischer Bereich?______________
d) Welche Verteilung hat die Teststatistik?
Original Klausuraufgabe WS2000/2001
Aufgabe 2
In einem psychologischen Interventionstraining zum akuten Aggressionsabbau wurde eine
Stichprobe von sechs äußerst aggressiven Personen gezogen. Diese wurden zu Beginn des
Trainings mit Hilfe eines einschlägigen Fragebogens auch auf der Dimension
„Einfühlungsvermögen“ getestet. Dabei ergab sich folgendes Bild:
Vpn
1
2
3
4
5
6
Einfühlungs- 2
5
7
8
1
2
vermögen
Wurde dieser Fragebogen am Ende der Interventionsphase erneut vorgelegt, ergab sich für
dieselben Personen folgendes Ergebnis:
Vpn
1
2
3
4
5
6
Einfühlungs- 8
10
3
8
4
10
vermögen
Kann hieraus gefolgert werden (auf einem Signifikanzniveau von alpha=1%), dass die
Intervention in puncto „Nachvollziehen der Gefühle anderer“ erfolgreich war?
Entwirf hierzu einen geeigneten Test (Teststatistik...) und fälle eine Entscheidung.
Aufgabe 3
Zum Millenium-Jahreswechsel wurde eine Aufstellung darüber veröffentlicht, wie oft jede
Zahl bei den Ziehungen der Lottozahlen in den Jahren 1995-99 gezogen wurde. Folgender
Ausschnitt aus dieser Aufstellung gibt an, wie oft die Zahlen 1 bis 10 gezogen wurden:
1: 280 mal
6: 290 mal
2: 288 mal
7: 271 mal
3: 300 mal
8: 260 mal
4: 270 mal
9: 289 mal
5: 280 mal
10: 275 mal
Im Folgenden sind die Ergebnisse für die Zahlen 11 bis 49 vernachlässigt worden, so als ob
sie gar nicht gezogen worden wären. Zu erwarten wäre, dass jede der Zahlen 1 bis 10 gleich
oft gezogen worden ist.
Daher wird die Nullhypothese formuliert: Die Häufigkeit der Ziehung ist unter den Zahlen 1
bis 10 gleichverteilt.
Alternativ wird behauptet: Es liegt keine Gleichverteilung vor. Überprüfe die Hypothese
aufgrund der oben genannten Daten mithilfe eines Chi² Anpassungstestes, wobei als
Teststatistik zu verwenden ist:
a) die Likelihood-Ratio-Chi² Teststatistik
b) welches Maß wäre alternativ noch möglich? Wäre ein Unterschied zu erwarten?
Aufgabe 4
Der Anteil der Studenten, die ohne gründliche Vorbereitung zur Klausur antreten (Ho) ist 0,4.
Die Alternativhypothese ist: Dieser Anteil sei 0,2
Von 50 untersuchten Studenten gaben 30% zu, sich auf die Klausur nicht gründlich
vorzubereiten.
Teststatistik: Anzahl der Studenten, die sich auf die Klausur nicht gründlich vorbereiten.
Konstruieren Sie einen Test der Ho-Hypothese.
a) Welche Verteilung hat die Teststatistik?
b) Kritischer Bereich?
c) Exaktes α? Wird Ho verworfen?
d) Macht des Testes?
Übungsblatt 11
Aufgabe 1
Originalaufgabe SS 1991
Es soll die Frage untersucht werden, ob Türen auf der „Stoßen-Seite“ gleich abgenutzt werden
wie auf der „Ziehen-Seite“.
Alternativ wird behauptet, dass die „Stoßen-Seite“ stärker beansprucht wird.
Bei acht Türen wurde ein Verschmutzungswert erhoben:
Stoßenseite
Ziehenseite
1
41
2
23
3
25
4
20
5
4
6
50
7
7
8
13
40
22
23
19
3
51
5
12
Prüfen Sie zuerst die Hypothese, dass die durchschnittliche Abnutzung gleich ist, unter
Berücksichtigung der angemessenen Alternativhypothese.
a) Testwert
b) Welche Verteilung hat die Teststatistik?
c) Wird Ho abgelehnt? Begründung
d) Bestimme den kritischen Bereich
Prüfen Sie nun die Hypothese, dass der Verschmutzungsunterschied nur zufällig ist, bei
entsprechender Alternative, dass er wohl überzufällig ist (Teststatistik: Anzahl der Türen, die
auf der Stoßen-Seite stärker verschmutzt sind).
e) Wird Ho abgelehnt bei 8 positiven Antworten? Begründung
f) Bestimme den kritischen Bereich
g) Welche Verteilung hat die Teststatistik?
Aufgabe 2
300 zufällig aus der Bundesbevölkerung ausgewählte berufstätige Personen wurden im Januar
2006 danach befragt, ob sie einen Fernsehapparat mit Kabelanschluss besitzen. Außerdem
sollten sie ihre durchschnittliche tägliche Fernsehdauer an Wochentagen angeben. 168 der
befragten Personen haben Fernsehapparate mit Kabelanschluss, 116 der befragten Personen
haben zwar einen Fernsehapparat, aber keinen Kabelanschluss.
Die durchschnittliche wochentägliche Fernsehzeit der befragten Fernsehbesitzer mit
Kabelanschluss beträgt 1,42 h bei einer Stichproben-Standardabweichung von 0,75 Stunden.
Die durchschnittliche wochentägliche Fernsehzeit der befragten Fernseherbesitzer ohne
Kabelanschluss beträgt 1,38 h bei einer Stichproben-Standardabweichung von 0,73 Stunden.
Prüfe, ob durch diese Befragungsergebnisse statistisch gesichert davon ausgegangen werden
kann, dass an Wochentagen berufstätige Besitzer eines Fernsehgerätes mit Kabelanschluss im
Mittel mehr fernsehen als berufstätige Besitzer eines Fernsehgerätes ohne Kabelanschluss.
Gehe dabei davon aus, dass das untersuchte Merkmal für beide Teilgesamtheiten wenigstens
näherungsweise normalverteilt ist und dass Varianzhomogenität vorliegt.
a) Stelle eine geeignete Nullhypothese und Alternativhypothese zur Untersuchung der
interessierenden Fragestellung auf.
b) Führe einen geeigneten Test zum Signifikanzniveau 0,01 durch und interpretiere deine
Testentscheidung
Aufgabe 3
Wie viel Kilowatt können durch Energiesparlampen durchschnittlich pro Woche eingespart
werden? Für eine Stichprobe von fünf Haushalten wurden folgende Ergebnisse erzielt:
Haushalte:
Kw/Woche mit üblichen
Lampen:
Kw/Woche mit EnergieSparlampen
1
2
3
4
5
24
40
10
20
30
36
11
16
26
20
a) Berechnen Sie das 95% Konfidenzintervall für die Differenz der
Populationsmittelwerte.
b) Berechnen Sie das für diesen Fall adäquate PRE-Maß. Wie heißt dieses PRE-Maß?
c) Testen Sie Ho:Populationsmittelwerte sind gleich (Alternative: ungleich)
Testwert?
Kritischer Bereich? Wird Ho abgelehnt?
Warum?
Aufgabe 4
In Konstanz werden in vier Buslinien jeweils drei zufällig ausgewählte Personen nach ihrem
Alter befragt. Dabei werden folgende Resultate festgestellt:
Buslinie
Alter der Fahrgäste
Linie 1 (Autofähre)
Linie 6 (PLK Reichenau)
Linie 9 (Uni)
Linie 10 (Friedhof)
34
27
20
65
56
45
25
80
75
63
30
80
a)Führe folgenden Test durch:
Ho: Das Alter der Fahrgäste unterscheidet sich nicht für die verschiedenen Buslinien.
Ha: Ho ist falsch
b)Gib insbesondere an: Testverteilung? Testwert? Kritischer Bereich?
c) Berechne ² und interpretiere es
d) Berechne im Sinne des PRE-Konzeptes den Fehler (Ohne). Um welche ssq handelt es sich?
e) Erstelle eine Tabelle, die auch in einem Computerausdruck zu finden sein könnte, und
deren Spalten überschrieben sind mit „source of variance“, „ssq“, „df“ und „msq“.
Aufgabe 5
Die durchschnittliche häusliche Arbeitszeit (in Stunden) für 2 Wohnarten werden verglichen.
Wohnart
Stichproben:
zu Hause
WG
Mittelwert:
Standardabweichung:
Stichprobengröße:
10
2
10
20
2
20
Die Populationsstandardabweichungen seien gleich.
a) Berechne das Konfidenzintervall für den Mittelwert jeder Gruppe.
b) Bereche das Konfidenzintervall für die Differenz der Populationsmittelwerte
c) Teste Ho: Populationsmittelwerte sind gleich(Alternative: ungleich)
Kritischer Bereich? Wird Ho abgelehnt? Warum?
Übungsblatt 12
Aufgabe 1
Für die örtliche Krankenkasse ist es interessant zu wissen, wie lange sich Sportler
unterschiedlicher Disziplinen im Durchschnitt pro Woche fit halten. Um dieser Tatsache
näher zu kommen, wurden folgende Sportler nach ihrer durchschnittlichen, wöchentlichen
Trainingszeit in Minuten befragt:
Radfahrer
150
24
30
290
Inlineskater
95
125
300
24
Volleyballer
160
230
120
45
90
Marathonläufer
560
255
340
160
620
490
a) mit Hilfe welches Verfahrens kann ausgewertet werden, ob sich die verschiedenen
Sportler gleich lange betätigen?
b) Wie lautet die Regel (mit x)? Wie hoch ist der Fehler (ohne x)?
c) Führe das geeignete Verfahren durch und erstelle einen dementsprechende Tabelle mit
allen nötigen Angaben. Was ist die Teststatistik? Wo liegt der kritische Bereich? Teste
mit Signifikanzniveau alpha= 0,01
d) Berechne den Determinationskoeffizienten und
e) den adjustierten Determinationskoeffizienten
Aufgabe 2
Für n=11 Verbände von Reha Kliniken wurde die Anzahl von beschäftigten Angestellten im
therapeutischen Bereich sowie die Anzahl von Erstklientenkontakten pro Jahr erhoben. Es soll
nun der Zusammenhang zwischen diesen Größen untersucht wrden
yi:
193
152
279
173
221
278
124
94
254
174
148
Kontakte
Xi:
10
8
13
9
11
14
6
4
12
7
5
Mitarbeiter
a) Berechne arithmetisches Mittel, Stichprobenvarianz und Stichprobenkovarianz.
b) Bestimme die Regressionsgerade. Prognostiziere aufgrund der eben ermittelten Gerade
wie hoch die Anzahl der Kontakte bei einer rapiden Zunahme auf 100 Mitarbeiter
aussähe.
c) Bestimme den Determinatinskoeffizienten 2. Art
Aufgabe 3
Bei acht Personen mit Schlafstörungen soll mittels einer Therapie die Schlafdauer verlängert
werden. Die Patienten wurden drei verschiedenen Therapeuten zugeteilt. Folgende Statistik
wird erhoben:
Schlafdauer
in h vorher
Schlafdauer
in h nachher
Therapeut
A
2
A
A
B
B
5
Therapeut
B
2
4
4
4
C
6
Therapeut
C
4
4
6
4
6
6
6
6
7
Zu überprüfen sind folgende Hypothesen: (Beachte, dass für keinen der Tests alle in der
Tabelle erhaltenen Informationen verwendet werden müssen. Stelle fest, um welchen Test es
sich jeweils handelt!)
a) Ho: Die Therapiegruppen der Therapeuten A, B und C unterscheiden sich im
Durchschnitt nicht hinsichtlich der Schlafdauer, die die jeweiligen Patienten vor
Beginn der Therapie angaben. Ha: Ho ist falsch.
b) Ho: die einzelnen Patienten schlafen nach der Therapie im Durchschnitt zwei Stunden
länger (So wird es von den Therapeuten angepriesen). Ha: die durchschnittliche
Verbesserung des Schlafes beträgt weniger als zwei Stunden.
c) Ho: der Anteil derjenigen Patienten, bei denen sich eine längere Schlafdauer einstellt,
ist 0,5 (d.h. eine Schlafverbesserung ist rein zufällig). Ha: der Anteil derjenigen
Patienten, bei denen sich eine längere Schlafdauer einstellt, ist größer als 0,5 (d.h. eine
Schlafverbesserung ist nicht zufällig).
d) Ho: die durchschnittliche Schlafdauer nach Ende der Therapie ist 6 Stunden.
Ha: die durchschnittliche Schlafdauer nach Ende der Therapie beträgt weniger als 6
Stunden.
Aufgabe 4
Bei fünf Personen wird untersucht, wie viele Zigaretten sie am Tag rauchen und wie viel
Stunden Sport sie in der Woche treiben. Die Ergebnisse:
Person
Zigaretten
Sport
1
2
0
0
3
0
1
4
5
1
5
10
4
40
0
a) Erstelle die Regressionsgerade y= a+bx für den Zusammenhang zwischen
Zigarettenkonsum und Sport
b) Sind die Regressionskoeffizienten a und b signifikant?
c) Erstelle ein 95% Konfidenzintervall für a und b.
Aufgabe 5
Im Wetteramt Friedrichshafen möchten zwei angehende Meterologen überprüfen, ob
Verdunstung und Lufttemperatur tatsächlich signifikant miteinander zusammenhängen.
Hierzu wählen sie als Signifikanzniveau alpha= 0,05. Sie wollen ihre Entscheidung auf Grund
einer Stichprobe mit 36 Werten treffen. Weil sie schon fleißig waren, haben sie bereits den
Korrelationskoeffizienten zwischen Verdunstung und Lufttemperatur berechnet. Dieser
beträgt 0,8381. Wie können sie ihre Entscheidung treffen?
a) Teststatistik?
b) Kritischer Wert?
c) Welche Entscheidung werden sie fällen?
Übungsblatt 12
Aufgabe 1
Für die örtliche Krankenkasse ist es interessant zu wissen, wie lange sich Sportler
unterschiedlicher Disziplinen im Durchschnitt pro Woche fit halten. Um dieser Tatsache
näher zu kommen, wurden folgende Sportler nach ihrer durchschnittlichen, wöchentlichen
Trainingszeit in Minuten befragt:
Radfahrer
150
24
30
290
Inlineskater
95
125
300
24
Volleyballer
160
230
120
45
90
Marathonläufer
560
255
340
160
620
490
f) mit Hilfe welches Verfahrens kann ausgewertet werden, ob sich die verschiedenen
Sportler gleich lange betätigen?
g) Wie lautet die Regel (mit x)? Wie hoch ist der Fehler (ohne x)?
h) Führe das geeignete Verfahren durch und erstelle einen dementsprechende Tabelle mit
allen nötigen Angaben. Was ist die Teststatistik? Wo liegt der kritische Bereich? Teste
mit Signifikanzniveau alpha= 0,01
i) Berechne den Determinationskoeffizienten und
j) den adjustierten Determinationskoeffizienten
Aufgabe 2
Für n=11 Verbände von Reha Kliniken wurde die Anzahl von beschäftigten Angestellten im
therapeutischen Bereich sowie die Anzahl von Erstklientenkontakten pro Jahr erhoben. Es soll
nun der Zusammenhang zwischen diesen Größen untersucht wrden
yi:
193
152
279
173
221
278
124
94
254
174
148
Kontakte
Xi:
10
8
13
9
11
14
6
4
12
7
5
Mitarbeiter
d) Berechne arithmetisches Mittel, Stichprobenvarianz und Stichprobenkovarianz.
e) Bestimme die Regressionsgerade. Prognostiziere aufgrund der eben ermittelten Gerade
wie hoch die Anzahl der Kontakte bei einer rapiden Zunahme auf 100 Mitarbeiter
aussähe.
f) Bestimme den Determinatinskoeffizienten 2. Art
Aufgabe 3
Bei acht Personen mit Schlafstörungen soll mittels einer Therapie die Schlafdauer verlängert
werden. Die Patienten wurden drei verschiedenen Therapeuten zugeteilt. Folgende Statistik
wird erhoben:
Schlafdauer
in h vorher
Schlafdauer
in h nachher
Therapeut
A
2
A
A
B
B
5
Therapeut
B
2
2
4
4
C
6
Therapeut
C
4
4
6
4
6
6
6
6
7
Zu überprüfen sind folgende Hypothesen: (Beachte, dass für keinen der Tests alle in der
Tabelle erhaltenen Informationen verwendet werden müssen. Stelle fest, um welchen Test es
sich jeweils handelt!)
e) Ho: Die Therapiegruppen der Therapeuten A, B und C unterscheiden sich im
Durchschnitt nicht hinsichtlich der Schlafdauer, die die jeweiligen Patienten vor
Beginn der Therapie angaben. Ha: Ho ist falsch.
f) Ho: die einzelnen Patienten schlafen nach der Therapie im Durchschnitt zwei Stunden
länger (So wird es von den Therapeuten angepriesen). Ha: die durchschnittliche
Verbesserung des Schlafes beträgt weniger als zwei Stunden.
g) Ho: der Anteil derjenigen Patienten, bei denen sich eine längere Schlafdauer einstellt,
ist 0,5 (d.h. eine Schlafverbesserung ist rein zufällig). Ha: der Anteil derjenigen
Patienten, bei denen sich eine längere Schlafdauer einstellt, ist größer als 0,5 (d.h. eine
Schlafverbesserung ist nicht zufällig).
h) Ho: die durchschnittliche Schlafdauer nach Ende der Therapie ist 6 Stunden.
Ha: die durchschnittliche Schlafdauer nach Ende der Therapie beträgt weniger als 6
Stunden.
Aufgabe 4
Bei fünf Personen wird untersucht, wie viele Zigaretten sie am Tag rauchen und wie viel
Stunden Sport sie in der Woche treiben. Die Ergebnisse:
Person
Zigaretten
Sport
1
2
0
0
3
0
1
4
5
1
5
10
4
40
0
d) Erstelle die Regressionsgerade y= a+bx für den Zusammenhang zwischen
Zigarettenkonsum und Sport
e) Sind die Regressionskoeffizienten a und b signifikant?
f) Erstelle ein 95% Konfidenzintervall für a und b.
Aufgabe 5
Im Wetteramt Friedrichshafen möchten zwei angehende Meterologen überprüfen, ob
Verdunstung und Lufttemperatur tatsächlich signifikant miteinander zusammenhängen.
Hierzu wählen sie als Signifikanzniveau alpha= 0,05. Sie wollen ihre Entscheidung auf Grund
einer Stichprobe mit 36 Werten treffen. Weil sie schon fleißig waren, haben sie bereits den
Korrelationskoeffizienten zwischen Verdunstung und Lufttemperatur berechnet. Dieser
beträgt 0,8381. Wie können sie ihre Entscheidung treffen?
d) Teststatistik?
e) Kritischer Wert?
f) Welche Entscheidung werden sie fällen?
Herunterladen
Explore flashcards