Einführung in die Statistik

Werbung
9.1 Der Weinkonsum (in Liter) pro Jahr (=Y) sei normalverteilt in beiden Ländern (I
und D). In I sei Y NV (37,16), in D NV (32,9). Def.: Meistertrinker seien die 5 %
eines Landes, die mehr als die anderen Bewohner des Landes trinken.
a) Ab welcher Weinmenge ist man Meistertrinker in I ?
b) Wieviel Prozent der I-er trinken weniger als 35 Liter ?
c) In einem Land wurde eine Stichprobe (n = 4) gezogen. Leider ist
vergessen worden, in welchem Land die Stichprobe gezogen wurde.
Hypothese: in I. Alternativhypothese: in D. Konstruiere einen Test
mit dem
Mittelwert als Teststatistik. Wie groß ist der Fehler 2.
Art?
Originalaufgabe aus der Klausur "Statistik II für Soziologen", SS 1994
9.2 Es soll die Frage untersucht werden, ob Türen auf der "Stoßen-Seite" gleich
abgenutzt werden wie auf der "Ziehen-Seite". Alternativ wird behauptet, daß die
"Stoßen-Seite" stärker beansprucht wird.
Bei acht Türen wurde ein Verschmutzungswert erhoben:
1. 2. 3. 4. 5. 6. 7. 8.
Stoßen-Seite 41 23 25 20 4
50 7
13
Ziehen-Seite 40 22 23 19 3
51 5
12
Prüfen Sie zuerst die Hypothese, daß die durchschnittliche Abnutzung gleich ist
unter Berücksichtigung der angemessenen Alternativhypothese.
a) Testwert
b) Welche Verteilung hat die Teststatistik ?
c) Wird H0 abgelehnt ? Begründung
d) Bestimme den kritischen Bereich !
Prüfen Sie nun die Hypothese, daß der Verschmutzungsunterschied nur zufällig ist,
bei entsprechender Alternative, daß er wohl überzufällig ist (Teststatistik: Anzahl der Türen, die auf der Stoß-Seite stärker verschmutzt sind).
e) Wird H0 abgelehnt bei 8 positiven Antworten ? Begründung
f) Bestimme den Kritischen Bereich
g) Welche Verteilung hat die Teststatistik ?
Originalaufgabe aus der Klausur "Statistik II für Soziologen", SS 1991
9.3 Der durchschnittliche Aspirinkonsum (Pillen pro Jahr) in der Schweiz soll mit
jenem in Deutschland verglichen werden.
Stichproben:
Schweiz Deutschland
Mittelwert
30
20
Standardabweichung
30
20
Stichprobengröße
100
30
Testen Sie die Nullhypothese: der Aspirinkonsum ist im Schnitt in beiden Ländern
gleich (Alternative: in der Schweiz mehr). Die Populationsstandardabweichungen
seien gleich.
a) Testverteilung ?
b) kritischer Bereich ?
c) Testwert ? H0 abgelehnt ?
d) Berechnen Sie fuer Deutschland das 95%-Konfidenzintervall: untere Grenze, obere Grenze
Originalaufgabe aus der Klausur "Statistik II für Soziologen", SS 1999
9.4 20 % aller Studenten freuen sich auf Statistikklausuren, 50 % stehen Statistikklausuren skeptisch gegenüber, der Rest ist indifferent.
a) Berechne die Modaldispersion.
b) Berechne die qualitative Varianz.
c) Berechne die Entropie.
Wenn nichts anderes angegeben ist, dann verwende bei allen Tests ein Signifikanzniveau von 5 %.
Lösungen:
9.1 a) 43.58, b) 0.3085, c) krit.Bereich: 33.71 und kleiner, Macht: 0.1271
9.2 a) Zwischenergebnisse: Mittelwert der Differenzen: 1, Standardabweichung der Differenzen:
0.9258, tw = 3.055, b) student-t, c) Ablehnung der Nullhypothese, weil tw im kritischen Bereich,
d) 1.90 und größer (df = 7), e) Ablehnung der Nullhypothese, weil tw (8) im kritischen Bereich,
siehe Teilaufgabe f, f) 7 und 8, g) binomial
9.3 a) student-t, b) 1.66 und größer (df = 128), c) Zwischenergebnisse: SE = 5.8387, df = 128, tw =
1.71, ja, Ablehnung, d) 12.51 bis 27.49
9.4 a) 0.5, b) 0.62, c) 1.4854
Neue Aufgaben:
10.1
In Konstanz werden in vier Buslinien jeweils drei zufällig ausgewählte Personen nach ihrem
Alter befragt. Dabei werden folgende Resultate festgestellt:
Buslinie
Linie 1 (Autofähre)
Linie 6 (PLK Reichenau)
Linie 9 (Uni)
Linie 10 (Friedhof)
Alter der Fahrgäste
34 56 75
27 45 63
20 25 30
65 80 80
a) Führe folgenden Test durch:
H0: Das Alter der Fahrgäste unterscheidet sich nicht für die verschiedenen Buslinien.
HA: H0 ist falsch.
b) Gib insbesondere an: Testverteilung ? Testwert ? Kritischer Bereich ?
c) Berechne ² und interpretiere es.
d) Berechne im Sinne des PRE-Konzepts den Fehler (OHNE). Um welche SSQ handelt es
sich ?
e) Erstelle eine Tabelle, die auch in einem Computerausdruck zu finden sein könnte, und deren Spalten überschrieben sind mit „source of variance“, „SSQ“, „df“ und „MSQ“.
10.2
In einem Training wurden unterschiedliche Methoden (A, B, C) versucht, die Fähigkeit zu
schnellerem Rechnen zu erlernen. Die Fähigkeit wurde mit einer Intervallskala nach dem
Training gemessen. Mit Methode A und B wurden je zwei Personen, mit C vier Personen trainiert. Ergebnis:
Methoden:
Fähigkeitswerte
A
113 115
B
110 114
C
109 110 112 113
Finden Sie eine angemessene Prädiktionsregel.
a) Charakterisieren Sie genau die Regel:
b) Welches PRE-Maß ist das ?
c) Berechnen Sie das PRE-Maß:
Originalaufgabe aus der Klausur „Statistik I für Soziologen“, WS 1993/94
10.3
Das Hormon Vasopresin ist eventuell in der Lage, den Tiefschlaf zu verbessern. 30 Studenten
sind bereit, das Medikament auszuprobieren. Als Teststatistik diene die Anzahl der Studenten,
bei denen eine Verbesserung des Tiefschlafs festgestellt wird.
H0: Die Wahrscheinlichkeit einer Verbesserung ist 0.50.
HA: Die Wahrscheinlichkeit einer Verbesserung ist 0.70.
Konstruieren Sie einen Test der H0-Hypothese:
a) Welche Verteilung hat die Teststatistik ?
b) Kritischer Bereich:
W (Fehler 1.Art)
c) Macht des Tests ?
Originalaufgabe aus der Klausur „Statistik II für Soziologen“, SS 1998
10.4Vermischtes
a) Aufgrund eines berechneten Stichprobenmittelwertes wird ein 95%-Konfidenzintervall
für  angegeben. Zudem werde die Nullhypothese eines zweiseitigen, univariaten Mittelwerttests aufgestellt. Wie kann ohne Durchführung des Tests festgestellt werden, ob
die Nullhypothese bei diesem Stichprobenmittelwert angenommen oder verworfen wird ?
b) Welches Streuungsmaß für nominal skalierte Daten ist gleichzeitig ein Fehlermaß bei einer probabilistischen Entscheidungsregel ?
c) Im Rahmen einer Therapie sollen sechs Patienten miteinander Zweiergespräche führen.
Wie viele solcher Zweiergespräche sind nötig, damit jeder Patient einmal mit jedem anderen gesprochen hat ?
Wenn nichts anderes angegeben ist, dann verwende bei allen Tests ein Signifikanzniveau von 5 %.
Lösungen Blatt 10:
10.1a) Entscheidung für Alternativhypo
b) F-Verteilung, tw = 6.1538, Kritischer Bereich: ab 4.07
c) 0.6976, Prozentsatz der erklärten Varianz
d) 5590, SSQ (total)
e) Source of variance
SSQ
df
MSQ
between
3900
3
1300
within
1690
8
211.25
total
5590
10.2a) ohne Gruppen: 112, Gruppe A: 114, Gruppe B: 112, Gruppe C: 111
b) Determinationskoeffizient 1.Art
c) 0.375
10.3a) binomial
b) 20 - 30, 0.0494
c) 0.7304
10.4a) Wenn  der Nullhypo. außerhalb des Konfidenzintervalls liegt, wird die Nullhypothese
abgelehnt.
b) qualitative Varianz
c) 15
Aufgaben 11
11.1
Bei acht Personen mit Schlafstörungen soll mittels
werden. Die Patienten werden drei verschiedenen
wird erhoben:
Therapeut A
B
Schlafdauer in Stunden 2 2 5
2
(vor der Therapie)
(nach der Therapie)
4 4 6
4
einer Therapie die Schlafdauer verlängert
Therapeuten zugeteilt. Folgende Statistik
4
6
C
4
6
6
6
7
6
Zu überprüfen sind die folgenden Hypothesentests (beachte, dass für keinen der Tests alle in
der Tabelle enthaltenen Informationen verwendet werden müssen. Stelle insbesondere fest,
um welchen Test es sich handelt.
a) H0: Die Therapiegruppen der Therapeuten A, B und C unterscheiden sich nicht hinsichtlich der Schlafdauer, die die jeweiligen Patienten vor Beginn der Therapie angaben.
HA: H0 ist falsch.
b) H0: Die einzelnen Patienten schlafen nach der Therapie im Durchschnitt zwei Stunden
länger. (So wird es von den Therapeuten angepriesen).
HA: Die durchschnittliche Verbesserung des Schlafes beträgt weniger als zwei Stunden.
c) H0: Der Anteil derjenigen Patienten, bei denen sich eine längere Schlafdauer einstellt, ist
0.5 (d.h. eine Schlafverbesserung ist rein zufällig).
HA: Der Anteil derjenigen Patienten, bei denen sich eine längere Schlafdauer einstellt, ist
größer als 0.5 (d.h. eine Schlafverbesserung ist nicht zufällig).
d) H0: Die durchschnittliche Schlafdauer nach Ende der Therapie ist 6 Stunden.
HA: Die durchschnittliche Schlafdauer nach Ende der Therapie beträgt weniger als 6
Stunden.
11.2Für vier Datenpaare in zwei intervallskalierten Variablen soll eine Regressionsgerade berechnet
werden. Die Daten sind:
1. 2. 3. 4.
x 1 1 2 4
y 1 2 5 4
Berechnen Sie:
a) Abschnitt auf y-Achse a
b) Determinationskoeff. 2.Art
Stichp.-Kovarianz
c) Steigung b
d) Welchen Wert würden Sie für x=2 auf Grund der Gleichung prädizieren ?
Originalaufgabe aus der Klausur „Statistik I für Soziologen“, WS 1994/95
11.3
Bei fünf Personen wird untersucht, wie viele Zigaretten sie am Tag rauchen und wieviel Stunden Sport sie in der Woche treiben. Die Ergebnisse:
Person
1 2 3 4 5
Zigaretten 0 0 5 10 40
Sport
0 1 1 4 0
a) Erstelle die Regressionsgerade y = a + bx für den Zusammenhang zwischen Zigarettenkonsum und Sport.
b) Sind die Regressionskoeffizienten a und b signifikant ?
c) Erstelle 95 %-Konfidenzintervalle für a und b.
11.4Für 10 Studenten wird erhoben, wie lange sie pro Tag telefonieren. Folgende Ergebnisse sind
feststellbar:
Tägliche Telefonierzeit in Minuten
Anzahl der Studenten
0 bis 30
5
30 bis 60
4
60 bis 120
1
a) Berechne Mittelwert, Varianz, 3.Quartil und 9.Dezil.
b) Behauptet wird nun, dass 50 % aller Studenten pro Tag 0 - 30 Minuten telefonieren, 25 %
30 - 60 Minuten und der Rest 60 bis 120 Minuten. Überprüfe diese Behauptung für die
obigen Daten mithilfe eines geeignetes Hypothesentests.
Alle Tests sind auf Signfikanzniveau 5 % durchzuführen.
Aufgabenblatt 12
1.
Untersucht wird, ob Kochkenntnisse einen Einfluss auf Mensaessen haben.
kann sehr gut kochen
kann zur Not schon kochen
kann überhaupt nicht kochen
isst in der Mensa
2
6
10
isst nicht in der Mensa
8
4
0
a)
b)
c)
d)
Erstelle eine Tabelle mit gemeinsamen Anteilen und Randanteilen.
Erstelle eine Tabelle mit zeilenbedingten Anteilen.
Erstelle eine Tabelle mit spaltenbedingten Anteilen.
Wie sähe die Tabelle der gemeinsamen Anteile aus, wenn zwischen Kochkenntnissen und
Mensaessen kein Einfluss bestünde ? (= Tabelle unter Unabhängigkeit)
e) Führe einen ²-Test durch. (Stelle speziell fest: ²-Wert ? Anzahl df ? Kritischer Bereich ?
Wie lautet bei einem bivariaten ²-Test die Nullhypothese ?)
f) Erstelle ein strukturiertes Staffeldiagramm.
2.
Bei einer Stichprobe erhielt man folgende Häufigkeitsverteilung für die beiden Merkmale: Geschlecht und Einkommen:
Geschlecht
Einkommen in DM/Woche
100
200
300
20
30
m 10
20
10
w 30
Teste die Hypothese: Die beiden Merkmale sind unabhängig.
a) Testwert =
Name des Werts:
Freiheitsgrade =
b) Kritischer Wert =
H0 ablehnen ?
Prüfe zusätzlich die Hypothese, daß die Frauen im Durchschnitt gleich viel verdienen wie die
Männer. (Alternative: Männer verdienen im Schnitt mehr). (Zusatzbemerkung: Es liegt Homoskedastizität vor.)
c) Testwert =
Name des Werts:
d) Kritischer Wert =
H0 ablehnen ?
Originalaufgabe aus der Nachklausur „Statistik II für Soziologen“ WS 1989/90
Zwischenergebnisse für die Teilaufgaben c) und d):
Männerstichprobe: Mittelwert: 233.33 Standardabweichung: 75.16 n = 60
Frauenstichprobe: Mittelwert: 166.67 Standardabweichung: 75.16 n = 60
3.
Der Computerausdruck einer Regressionsanalyse weist folgende Werte aus: Cov(X,Y) = 6,
(Var(X)) = 2, (Var(Y)) = 10. Ferner ist bekannt, dass beim t-Test für die Regressionskoeffizienten jeweils 198 Freiheitsgrade festgestellt werden können.
a) Wie groß ist n ?
b) Berechne die Korrelation.
c) Ist diese Korrelation signifikant ?
d) Berechne die obere und die untere Grenze eines 95 %-Konfidenzintervalls für die Korrelation.
e) Berechne die obere und die untere Grenze eines 99 %-Konfidenzintervalls für die Korrelation.
4.
10 % aller Studenten werden während der gesamten Semesterferien nicht in Konstanz sein, 70 %
werden für ein paar Tage oder Wochen nicht in Konstanz sein, und 20 % werden immer in Konstanz sein.
a) Berechne die qualitative Varianz. Wie ist sie zu interpretieren ?
b) Zeichne ein Netzdiagramm.
Wenn nichts anderes angegeben ist, dann verwende bei al
Herunterladen