Einführung in die Statistik – Übungsaufgaben 1

Werbung
Einführung in die Statistik – Übungsblatt 1
Paula Perkuhn, Besprechung am 08.11.
1.
Bei einem Gedächtnisexperiment werden 40 Probanden 30 Gegenstände vorgelegt, die
sie hinterher auswendig niederschreiben sollen. Die folgende Aufzählung listet auf, an
wie viele der Gegenstände sich jeder einzelne Proband erinnert hat:
12
14
15
11
20
9
16
14
23
6
12
18
0
22
13
19
14
14
15
20
16
29
17
6
12
1
2
8
10
10
14
10
30
11
22
12
12
22
9
14
a) Erstelle die Urliste, die sortierte Liste und die Häufigkeitsverteilung.
b) Wie viel Prozent der Probanden haben sich an 20 oder weniger Gegenstände erinnert?
In welcher Liste lässt sich das am besten ablesen?
c) Angenommen aus den Daten des Experimentes soll letztlich die durchschnittliche
Gedächtnisleistung (Mittelwert) der 40 Probanden berechnet werden: Welches
Skalenniveau muss vorliegen, damit diese Rechenoperation sinnvoll ist?
2.
Studenten werden nach dem Mensabesuch gefragt, welches Essen sie gewählt haben. 12
Befragte haben Stammessen genommen, 6 Wahlessen, 6 Salat und 3 Eintopf.
a) Welches Skalenniveau liegt vor (gewähltes Essen)?
b) Erstelle die Verteilung (Tabelle). Wie groß ist n, wie groß ist I?
c) Ist es sinnvoll, in dieser Verteilung kumulierte Anteile auszuweisen? (kurze
Begründung)
3.
Im Folgenden sind einige Merkmale aufgelistet, die bei einer Umfrage erhoben werden
könnten:
●
●
●
●
●
●
a)
b)
Soziale Schicht
Einkommen in Euro
Körpergröße
Augenfarbe
Konfession
Anzahl der Studenten in einer Übung
Welche dieser Merkmale sind qualitativ, welche quantitativ?
Handelt es sich jeweils um stetige oder diskrete Daten?
Einführung in die Statistik – Übungsblatt 2
Paula Perkuhn, Besprechung am 08.11.
1. Bei 20 Versuchspersonen wurde die Reaktionszeit in ms gemessen. Hier ist die sortierte
Liste: 265, 265, 270, 271, 272, 272, 272, 272, 279, 279, 280, 284, 285, 285, 301, 317, 317,
318, 319, 319.
a) Handelt es sich um diskrete oder stetige Daten?
b) Erstelle die Häufigkeitsverteilung, die Angaben über die xi, ni, die relativen Anteile und
die kumulierten Anteile enthält.
c) Zeichne den Graphen der Dichtefunktion f(x) und der Verteilungsfunktion F(x).
d) Erstelle ein weiteres Diagramm, welches zur Darstellung der Daten sinnvoll ist.
e) Fasse die Daten sinnvoll zu Klassen zusammen. Erstelle die neue Häufigkeitstabelle
und zeichne den Graphen der Dichtefunktion.
2. 100 Probanden wurden gefragt, wieviel sie sich die nächste Silvesternacht kosten lassen
wollen. Folgende Daten wurden erhoben:
Geldbetrag
0 bis 50 Euro
50 bis 100 Euro
100 bis 200 Euro
1000 bis 2000 Euro
Anzahl Personen
10
80
9
1
a) Berechne die Anteile und die kumulierten Anteile.
b) Zeichne den Graphen der Dichtefunktion f(x) und der Verteilungsfunktion F(x).
c) Erläutere kurz an einer deiner Zeichnungen, was unter dem Prinzip der Flächentreue
verstanden wird.
3. Die Blutgruppen sind in Europa folgendermaßen verteilt:
A
40%
0
40%
B
15%
a) Stelle die Daten durch mindestens 2 geeignete Diagramme dar.
b) Ist die Berechnung kumulierter Anteile hier sinnvoll? Warum?
AB
5%
Einführung in die Statistik – Übungsblatt 3
Paula Perkuhn, Besprechung am 15.11.
1. Um das Sozialverhalten von Studenten besser einschätzen zu können, werden 8 Studenten
danach befragt, wie viele Personen sie zu ihrer letzten Geburtstagsfeier eingeladen haben. Es
wurden folgende Angaben gemacht (ein Wert pro befragtem Student):
10 10 34 16 1 16 0 150
c)
d)
e)
f)
g)
h)
Erstelle die Verteilung (Tabelle) mit allen notwendigen Angaben.
Bestimme die Extremwerte (Maximum, Minimum) und den Modalwert.
Berechne das arithmetische Mittel.
Berechne Median und 2. Terzil
Berechne das 3. Quartil und den oberen Hinge.
Berechne das 2. Quintil, das 4. Dezil und das 40. Perzentil.
2. Mittelwert/Median:
a) Gegeben seien 10 beliebige Werte. Berechnet werden soll sowohl das arithmetisches Mittel
als auch der Median.
- Muss das arithmetische Mittel zwingend identisch mit einem der 10 Werte sein? Kann es
identisch mit einem der 10 Werte sein?
- Muss der Median zwingend identisch mit einem der 10 Werte sein? Kann er identisch mit
einem der 10 Werte sein?
b) Gegeben seinen 9 Werte. Berechnet werden soll sowohl das arithmetische Mittel als auch der
Median.
- Muss das arithmetische Mittel zwingend identisch mit einem der 9 Werte sein? Kann er
identisch mit einem der 9 Werte sein?
- Muss der Median zwingend identisch mit einem der 9 Werte sein? Kann er identisch mit einem
der 9 Werte sein?
3. Gegeben sei folgende Tabelle:
I
1
2
3
Xi
14
19
15
Berechne hierfür:
a) Die Extremwerte
c) Das 5.Dezil
e) Das arithmetische Mittel
g) Modalwert
4
13
5
12
6
14
7
15
8
13
9
20
b) Den Median
d) Das 2.,3. und 4.Quintil
f) Hinges und Eights
4. Gegeben iat folgende Urliste über die Anzahl an Geschwistern (diskret, quantitativ):
1; 1; 2; 2; 0; 3; 2; 1; 1; 1; 0; 1; 0; 0; 0; 1; 3; 1; 2; 2; 0; 0; 0; 1; 1
a) Erstelle jeweils die Häufigkeitsverteilung und zeichne ein Schaubild von f(x).
b) Bestimme für die obigen Merkmale die folgenden Lagemaßzahlen:
d) Modalwert
e) Median
f) 1. und 3. Quartil
g) Hinges und Eights
h) Arithmetisches Mittel
5. Gegeben sind folgende Messwerte:
190, 191, 194, 185, 186, 189, 189, 184, 184, 175, 178, 170, 174, 174, 165, 167
Teile die Daten in 6 Klassen ein und erstelle ein Stamm & Blatt- Diagramm!
10
15
Einführung in die Statistik – Übungsblatt 4
Paula Perkuhn, Besprechung am 22.11. mit Lisa Sezer als Vertretung
i)
Dracula sagt: „Die Verteilung der Länge meiner Zähne ist rechtsschief.“ Die sichtbare Zahnlänge in mm
gibt Draculas Dentist wie folgt an:
7,6
7,8
7,7
7.8
7.8
7.9
34,6 10,1 10,2 10,2 10,0 35,5 7,9
7,8
7,7
7,6
7,6
7,8
7,9
8,1
8,2
31,7 10,0 10,0 10,0 10,1 32,1 8,1
8,1
7,8
7,8
7,7
c) Zeichne den Boxplot der Verteilung der Zahnlängen
d) Berechne die Varianz der Verteilung (es handele sich bei den Daten um eine Population ! )
e) Angenommen, man mißt Dracula’s Zähne in Zoll (1 Zoll=2,31 cm), wie groß wäre dann die Varianz ?
f) Berechne die Schiefe der Verteilung (für Maßeinheit mm)
2. Bekannt sei, dass sich 10% der Menschen über Schneeeinbruch freuen, 50% dem Schnee indifferent
gegenüber stehen und 40% traurig sind, wenn es schneit.
i) Berechne die Entropie der Verteilung in Nits (in Bits)
j) Berechne die qualitative Varianz
k) Berechne die Modaldispersion
3. Am Ende des Monats November werden 100 Studenten befragt, an wie vielen Tagen im November sie um
später als 9 Uhr aufgewacht sind. Folgende Werte werden von den Befragten angegeben:
i
Xi
pi
1
0 0.2
2
3 0.15
3
9 0.2
4 11 0.3
5 21 0.05
6 30 0.1
●
●
c)
Berechne die Varianz der Verteilung
Angenommen, man zieht weiter 100er Stichproben aus der Population der Studenten, wie groß wäre dann
der Standardfehler des arithmetischen Mittels ? (=Die Standardabweichung der Verteilung der Mittelwerte)
Berechne die mittlere Quadrierte Abweichung der Werte voneinander
4. Bei sechs Schulkindern wird erhoben, wie viele Fernsehsendungen sie pro Woche ansehen. Es kommt zu
folgenden Ergebnissen (pro Schulkind eine Angabe für die Anzahl der Sendungen):
20 40 5 40 20 0
d)
e)
f)
g)
Berechne das arithmetische Mittel.
Berechne getrimmtes und winsorisiertes Mittel für q=0,2
Berechne die Spannweite.
Berechne den H-spread.
5. Der Weg der Radfahrer von zu Hause zur Arbeitsstätte wurde untersucht:
Distanz
Anzahl
0 bis zu 1 Kilometer 5
1 bis zu 10 Kilometer 5
a)
b)
c)
d)
Berechne die Dichten.
Berechne kumulierte Anteile.
Berechne den Mittelwert.
Berechne das 1. Quartil.
Lösungen zu Übungsblatt 4
1.a) Zeichnung wird im Tutorium besprochen; Median = 8; unterer Hinge = 7,8; oberer Hinge =
10,05;unterer innerer Zaun von 7,8 bis 4,425; unterer äußerer Zaun von 4,425 bis 1,05; oberer innerer
Zaun von 10,05 bis 13,425; oberer äußerer Zaun von 13,425 bis 16,8
b) Da es sich um eine Population handelt wird durch n geteilt; Var(X) = (6533,14 – (32 * 134,56)) / 32
= 69,60
Berechnung bei vielen Taschenrechnern direkt, ohne Zwischenschritte möglich!
c) Zoll = 0 + 2,31X; Var(Zoll) = (2,31)2 * Var (X) = 371,3959
d) schiefe (X) = (11,6 – 8) / 8,3427 = 0,4315; die Verteilung ist rechtsschief
2.a) h(X) = -(0,1ln0,1 + 0,5ln0,5 + 0,4ln0,4) = 0,9433; h(X)b = h(X)/ln2 = 1,3610
b) qv = 1 – (0,12 + 0,52 + 0,42) = 0,58
c) md = 0,5
3.a) Var(X) = (100(9,62 * 0,2 + 6,62 * 0,15 + 0,62 * 0,2 + 1,42 * 0,3 + 11,42 * 0,05 + 20,42 * 0,1)) / 99 =
74,48
b) Stf = Std(X) / √n = 0,8630
c) mqa = 2 * Var(X) = 148,9697
4.a) 20,833
b) z = n * q = 1,2; getri. Mittel: (5 + 20 + 20 + 40) / 4 = 21,25; wins. Mittel: (5 + 5 + 20 + 20 + 40 + 40) /
6 = 21,67
c) sp = 40
d) unterer Hinge = 5; oberer Hinge = 40; H-Spread = 35
5.a) h1 = 0,5; h2 = 0,0556
b) F(x1) = 0,5; F(x2) = 1
c) (0,5 * 5 + 5,5 * 5) / 10 = 3
d) 0 + ((0,25 – 0) * 1) / (0,5 – 0) = 0,5
Einführung in die Statistik – Übungsblatt 5
Paula Perkuhn, Besprechung am 29.11.
1. In einer Urne befinden sich 6 Kugeln, die mit den Zahlen 1 bis 6 nummeriert sind. Wie viele Möglichkeiten
gibt es,
j) nacheinander drei Kugeln mit Zurücklegen zu ziehen?
k) nacheinander drei Kugeln ohne Zurücklegen zu ziehen?
l) Drei Kugeln auf einmal zu ziehen ?
2. In einer Urne befinden sich 6 Kugeln, die mit den Zahlen 1 bis 6 nummeriert sind. Wie groß ist die
Wahrscheinlichkeit,
g) dass unter drei mit einem Griff gezogenen Kugeln sowohl die 1 als auch die 2 dabei sind?
h) dass bei dreimaligem Ziehen mit Zurücklegen die erste Kugel 1 und die zweite auch 1 ist?
i) dass bei dreimaligem Ziehen mit Zurücklegen keine 1 dabei ist?
j) dass bei dreimaligem Ziehen ohne Zurücklegen die erste Kugel 2 und die zweite 1 ist?
k) dass bei dreimaligem Ziehen ohne Zurücklegen weder die 2 noch die 3 dabei ist?
3. Wie viele Möglichkeiten gibt es,
l) fünfmal eine Münze zu werfen (und das Ergebnis in der Form ZKKZK zu notieren)?
m) 7 verschiedene Bücher nebeneinander im Regal anzuordnen?
n) aus 12 verschiedenen Äpfeln drei auszuwählen, egal welche Reihenfolge?
o) von 100 Teilnehmern eines Wettbewerbs die Medaillenränge zu besetzen?
p) aus 20 Bewerbern 4 verschiedene Stellen zu besetzen?
4. Bei einem Multiple-Choice-Test sind einer Frage 5 mögliche Antworten beigefügt, von denen aber nur 2
richtig sind. Die Wahrscheinlichkeit, dass ein Prüfling ohne Sachkenntnis zufällig die richtigen Antworten
ankreuzt soll bei diesem Test nicht über 0,2 liegen. Ist diese Bedingung erfüllt? (In der Aufgabe ist
angegeben, dass 2 von 5 Antworten richtig sind.)
5. Stichprobenauswahlen
● Für die Teilnahme an einem psychologischen Experiment haben sich 30 Personen gemeldet, obwohl
nur zehn von ihnen berücksichtigt werden können. Wie viele Möglichkeiten gibt es, die 10er – Gruppe
zusammenzustellen?
● Ein Photograph wird beauftragt, zehn Menschen zu fotografieren, die in einer Reihe nebeneinander
stehen. 30 Personen melden sich für dieses Foto, aus denen er nun zehn auswählen muss: der erste, den
er auswählt, soll auf dem Photo ganz links stehen, der zweite daneben usw. Wie viele mögliche Fotos
können entstehen?
Lösungen zu Übungsblatt 5
1. a) 6 * 6 * 6 = 63 ( = Nn mit N = Größe der Population aus der gezogen wird, n = Stichprobengröße)
b) 6 * 5 * 4
c) „6 über 3“, also [6! / (3! * (6 – 3)!)] = 20
2. a) 4 / 20
b) 1/6 * 1/6 * 6/6
c) 5/6 * 5/6 * 5/6
d) 1/6 * 1/5 * 4/4
e) 4/6 * 3/5 * 2/4
3. a) 2 * 2 * 2 * 2* 2
b) 7!
c) „12 über 3“, also [12! / (3! * (12 – 3)!)]
d) 100 * 99 * 98
e) 20 * 19 * 18 * 17
4. (1 / „5 über 2“) = 0,1
5. „30 über 10“ = 30045015
6. 30! / 20!
Einführung in die Statistik – Übungsblatt 6
Paula Perkuhn, Besprechung am 06.12.
1. Zur Wiederholung:
m) Was versteht man unter einer Variable?
n) Was versteht man unter einer Zufallsvariable?
o) Was versteht man unter einer Statistik?
p) Was versteht man unter der Realisierung einer Zufallsvariable/einer Statistik?
q) Was versteht man unter einem Parameter?
r) Was versteht man unter einer Wahrscheinlichkeitsverteilung?
2. Es soll mit 2 Würfeln gewürfelt werden.
a) Was ist hier der Stichprobenraum, was die Größe des Stichprobenraumes?
b) Die 2 Würfe sollen als Zufallsvariablen behandelt werden (Ergebnis beim ersten Wurf: X1; beim
zweiten Wurf: X2); die Summe der Augenzahlen (X1+X2) ist dann eine Statistik dieser
Zufallsvariablen. Was sind jeweils die möglichen Realisierungen der Zufallsvariablen? Was die
möglichen Realisierungen der Statistik?
c) Erstelle die Wahrscheinlichkeitsverteilung für die Statistik!
3. In einer Urne befinden sich 10 Kugeln, 3 rote und 7 grüne. Es werden mit Zurücklegen zufällig
zwei Kugeln daraus gezogen.
a) Wie groß ist die Wahrscheinlichkeit, dass beide Kugeln rot sind?
b) Wie groß ist die Wahrscheinlichkeit, dass die erste Kugel rot, die zweite grün ist?
4. Gegeben ist eine Urne mit 3 Kugeln: a, b und c. Die Kugeln sind beschriftet, auf a steht eine 1,
auf b eine 2 und auf c eine 3. Nun soll zufällig aus der Urne gezogen werden, wobei jeweils die
Zahl auf der gezogenen Kugel eine Realisation x der Zufallsvariable X sei. Gib für die Population
an:
a) die Verteilung
b) arithmetisches Mittel und Varianz
Nun wird mit Zurücklegen eine Stichprobe der Größe n=2 gezogen. Berechne für die
Zufallsvariable des arithmetischen Mittels
c) die Wahrscheinlichkeitsverteilung
d) den Erwartungswert und die Varianz.
Lösungen zu Übungsblatt 6
1.
Eine Variable ist der numerische Code eines Merkmals.
Eine Zufallsvariable oder auch Stichprobenvariable X ist eine Variable, deren Wert durch zufällige
Auswahl eines Elements (Stichprobenziehen) eindeutig bestimmt wird (z.B. kann X bei einmal
Würfeln die Werte 1, 2, 3, 4, 5 oder 6 annehmen. Durch Würfeln wird der tatsächliche Wert
eindeutig und durch Zufall bestimmt).
Eine Statistik oder auch Stichprobenfunktion ist eine Funktion von Zufallsvariablen (z.B.
Mittelwertstatistik bei Stichprobe der Größe 2 = (X1+X2)/2). Auch Statistiken sind Zufallsvariablen
(z.B. Mittelwertstatistik bei 2 mal Würfeln: Der Wert der Statistik wird durch den ersten und
zweiten Wurf eindeutig und zufällig bestimmt.)
Die Realisierung einer Zufallsvariablen X ist das konkrete Stichprobenergebnis x. Die
Realisierung einer Statistik oder auch der Wert der Statistik ist die konkrete Maßzahl bzw. der
konkret berechnete Funktionswert in der Stichprobe.
Ein Parameter ist eine Maßzahl in der Population.
Eine Wahrscheinlichkeitsverteilung ist die Verteilung einer Zufallsvariable oder einer Statistik; hier
wird jeder möglichen Realisation der Zufallsvariable oder der Statistik eine Wahrscheinlichkeit
zugeordnet.
2. a) Stichprobenraum Ω enthält alle möglichen Stichproben, also
Ω={(1,1);(1,2);(1,3);(1,4);(1,5);(1,6);(2,1);(2,2);(2,3);(2,4);(2,5);(2,6);(3,1);(3,2);(3,3);(3,4);(3,5);(3,6
);(4,1);(4,2);(4,3);(4,4);(4,5);(4,6);(5,1);(5,2);(5,3);(5,4);(5,5);(5,6);(6,1);(6,2);(6,3);(6,4);(6,5);(6,6)};
die Größe des Stichprobenraums # Ω erhält man durch Kombinatorik: # Ω = 6 * 6 = 36
b) mögliche Realisierungen der 2 Zufallsvariablen sind jeweils 1, 2, 3, 4, 5, oder 6. Mögliche
Realisierungen der Statistik sind die Zahlen zwischen 2 und 12.
c) P((X1+X2) = xi) erhält man durch abzählen: wieviele mögliche Stichproben gibt es, bei denen
für die Summe
der Augenzahlen xi rauskommt (günstige Fälle); wieviele mögliche Stichproben gibt es
insgesamt (mögliche
Fälle)?
i
xi
P((X1+X2) = xi)
P((X1+X2) ≤ xi)
1
2
1/36
1/36
2
3
2/36
3/36
3
4
3/36
6/36
4
5
4/36
10/36
5
6
5/36
15/36
6
7
6/36
21/36
7
8
5/36
26/36
8
9
4/36
30/36
9
10
3/36
33/36
10
11
2/36
35/36
11
12
1/36
36/36
3. a) 0,09; günstige Fälle: 3 * 3; mögliche Fälle: 10 * 10
b) 0,21; günstige Fälle: 3 * 7; mögliche Fälle: 10 * 10
4. a)
i
xi
πi
1
1
1/3
2
2
1/3
3
3
1/3
b) arithmetisches Mittel: (1 * 1/3) + (2 * 1/3) + (3 * 1/3) = 2
Varianz (nach Verschiebungssatz s. Skript S. 29): [(1 + 4 + 9) – (3*4)] / 3 = 2/3
c)
i
xi
P([(X1+X2) / 2] = xi)
1
1
(1 * 1) / (3 * 3)
2
1,5
(2 * 1) / (3 * 3)
3
2
[(2 * 1) + (1 * 1)] / (3 * 3)
4
2,5
(2 * 1) / (3 * 3)
5
3
(1 * 1) / (3 * 3)
d) E(Xquer) = (1 * 1/9) + (1,5 * 2/9) + (2* 3/9) + (2,5 * 2/9) + (3 * 1/9) = 2 = arithmetisches Mittel in
der
Population
Varianz(Xquer) = E(Xquer2) – E(Xquer)2 = [(1 * 1/9) + (2,25 * 2/9) + (4* 3/9) + (6,25 * 2/9) + (9
* 1/9)] – 4 =
1/3 = (Varianz in der Population / n)
Einführung in die Statistik – Übungsblatt 7
Paula Perkuhn, Besprechung am 13.12., 17:50 – 19:20 Uhr
1.Wie lautet der zentrale Grenzwertsatz ? Wie lautet das Gesetz der großen Zahl ?
2. Ein gütiger Lehrer findet seine Noten folgendermaßen: Er würfelt mit zwei Würfeln und notiert die
kleinere der beiden Augenzahlen als Note. Gib die Wahrscheinlichkeitsverteilung und den Erwartungswert
an.
3. Das Gewicht von Hühnereiern in Gramm sei normalverteilt mit Mittelwert = 56 und Standartabweichung
= 8. Die Eier werden in Sechserpackungen verkauft. Ein besonders eifriger Verbraucherschützer
kontrolliert das Gewicht der Eier.
s) Wie groß ist der Mittelwert über alle (möglichen) Sixpack-Mittelwerte?
t) Wie groß ist die Varianz der (möglichen) Sixpack-Mittelwerte?
u) Der Verbraucherschützer berechnet für jeden Sixpack einzeln die Varianz
ist der Mittelwert über all diese Varianzen?
sn21 . Wie groß
4.Ein Würfel wird zweimal geworfen. Bestimme Wahrscheinlichkeitsverteilung, Erwartungswert und
Varianz für
4. die Augensumme
5. das Maximum der Augenzahlen
5. 15% der Europäer haben negativen Rhesus-Faktor (nehmen wir mal an). (Tipp: Wie kann man die
Stichprobenverteilung des Anteils exakt berechnen?)
l) Man wählt 10 Europäer. Wie groß ist die Wahrscheinlichkeit, dass keiner von ihnen negativen
Rhesusfaktor hat?
m) Man wählt zufällig 23 Personen. Mit welcher W’t haben genau 2 davon negativen Rhesus-Faktor?
6. Das Merkmal Körpergröße sei in der Population normalverteilt mit Mittelwert 172 und
Standardabweichung 6,5; also NV(172;6,52).
q) Wie groß ist der Anteil derer (in der Population), die unter 180 groß sind?
r) Wie groß ist der Anteil derer, die über 190 groß sind?
s) Wie groß ist der Anteil derer, die vom Mittelwert höchstens um 10 cm abweichen?
t) Wie groß muss jemand sein, damit nur 5% aller anderen größer sind als er?
u) Nun werden Stichproben der Größe n=25 gezogen und jeweils der Mittelwert gebildet. Wie groß
ist die W’t, dass so ein Mittelwert unter 180 liegt?
7. Es sei bekannt, dass in einer Gesellschaft 80% der Bevölkerung über Stress in der
Vorweihnachtszeit klagt. Diesem Umstand will ein psychologisches Forscherteam nachgehen
und wählt dafür zufällig eine Stichprobe von 20 Personen aus.
● Berechne den Erwartungswert für die Variable „Anzahl der Personen in der Stichprobe, die über
Stress in der Vorweihnachtszeit klagen“ (= Stresspersonen).
● Welcher Anteil an Stresspersonen ist zu erwarten?
● Berechne für Anzahl und Anteil der Stresspersonen die jeweilige Varianz (also eine Varianz für
„Anzahl“ und eine Varianz für „Anteil“)
● Angenommen, es würden innerhalb der Stichprobe Vierergrüppchen gebildet: Wie groß wären
jetzt Erwartungswert und Varianz für durchschnittlichen Anteil bzw. durchschnittliche Anzahl an
Stresspersonen?
● Innerhalb der 20köpfigen Stichprobe befinden sich nun 20 Stresspersonen. Wie wahrscheinlich
war es, dass alle zufällig ausgewählten Personen Stresspersonen sind?
● Der Projektleiter des Forscherteams will die Stichprobe dann nicht zulassen, wenn sich lediglich
10 oder weniger Stresspersonen in der Stichprobe befinden. Wie wahrscheinlich ist es, dass der
Projektleiter die Stichprobe ablehnt? Ein anderer Projektleiter besteht darauf, dass mindesten 16
Stresspersonen in der Gruppe sein müssen. Wie wahrscheinlich ist es, dass ihm dieser Wunsch
erfüllt wird?
Lösungen zu Übungsblatt 6
1. Zentraler Grenzwertsatz: Die Verteilung des Mittelwerts über n Werte, die unabhängig
voneinander aus der gleichen Population gezogen wurden, nähert sich mit steigendem n
(steigender Stichprobengröße) der Normalverteilung an. Wenn die Stichprobengröße groß genug
ist kann daher für die Stichprobenverteilung des Mittelwerts die Normalverteilung angenommen
werden.
Gesetz der großen Zahl: Der Anteil der Mittelwerte, die dem Populationsmittelwert nahe sind,
nimmt mit zunehmender Stichprobengröße zu; bzw. die Streuung der Sichprobenmittelwerte um
den Populationsmittelwert wird mit zunehmender Stichprobengröße immer kleiner.
2. Minimumsverteilung; Minimum kann sein: 1, 2, 3, 4, 5 oder 6; es gibt 36 gleichwahrscheinliche
unterschiedliche Stichproben (Anzahl möglicher Fälle); Anzahl günstiger Fälle abzählen
i
xi
P(min(X) =xi)
1
1
11/36
2
2
9/36
3
3
7/36
4
4
5/36
5
5
3/36
6
6
1/36
Erwartungswert: (1*11/36) + (2*9/36) + (3*7/36) + (4*5/36) + (5*3/36) + (6*1/36) = 2,528
3. a) E( X ) = μ = 56; b) Var( X ) = σ2/n = 64/6 = 10,67
c) E(S2n-1) = σ2
4. a)
i
xi
P(X1+X2 = xi)
1
2
1/36
2
3
2/36
3
4
3/36
4
5
4/36
5
6
5/36
6
7
6/36
7
8
5/36
8
9
4/36
9
10
3/36
10
11
2/36
11
12
1/36
E(X1+X2) = (2*1/36) + (3*2/36) + (4*3/36) + +(5*4/36) + (6*5/36) + (7*6/36) + (8*5/36) + (9*4/36) +
(10*3/36) + (11*2/36) + (12*1/36) = 7
Var(X1+X2) = E(X2) – E(X)2 = [(4*1/36) + (9*2/36) + (16*3/36) + (25*4/36) + (36*5/36) + (49*6/36) +
(64*5/36) + (81*4/36) + (100*3/36) + (121*2/36) + (144*1/36)] – 49 = 5,833
b)
i
xi
P(max(X1,X2) = xi)
1
1
1/36
2
2
3/36
3
3
5/36
4
4
7/36
5
5
9/36
6
6
11/36
E(max(X1,X2) = xi) = (1*1/36) + (2*3/36) + (3*5/36) + (4*7/36) + (5*9/36) + (6*11/36) = 4,472
Var(max(X1,X2) = xi) = E(X2) – E(X)2 = [(1*1/36) + (4*3/36) + (9*5/36) + (16*7/36) + (25*9/36) +
(36*11/36)] – 4,4722 = 1,973
5. a) p = 0,15; n = 10; k = 0; P(X=0) = „10 über 0“*0,150*0,8510 = 19,69 %
b) n = 23; k = 2; P(X=2) = „23 über 2“*0,152*0,8521 = 18,75 %
6. μ = 172; σ = 6,5
a) P(X<180) = P(Z<(180-172)/6,5) (Hier wird durch σ geteilt, nicht durch den Standardfehler, da es um
Populationsanteile und nicht um Stichprobenverteilungen geht) = P(Z<1,23) = 89,07 % (siehe Tabelle
Standardnormalverteilung)
b) P(X<190) = 1 – P(X<190) = 1 – P(Z<(190-172)/6,5) = 1 – P(Z<2,77) = 0,28 %
c) P(162<X<182) = D(10/6,5) = D(1,54) = 87,64 %
d) P(X>x) = 0,05; 1 – P(X<x) = 0,05; P(X<x) = 0,95; P(Z<(x-172)/6,5) = 0,95 in Tabelle nachsehen; (X172)/6,5 = 1,96; x=184,74
e) Annäherung der Mittelwertverteilung durch die Normalverteilung nach dem zentralen Grenzwertsatz;
P(Xquer<180) = P(Z<((180-172)/(6,5/5)) = P(Z<6,15) = 1
Lösungen zu Aufgabe 7 kann ich wegen Krankheit leider erst nachreichen; die Aufgabe wird dann im
nächsten Tutorium besprochen
Einführung in die Statistik – Übungsblatt 8
Paula Perkuhn, Besprechung am 20.12., 17:50 – 19:20 Uhr
1. Was versteht man unter Einzelwahrscheinlichkeiten, Randwahrscheinlichkeiten, bedingten
Wahrscheinlichkeiten und gemeinsamen Wahrscheinlichkeiten?
2. In einer Urne befinden sich 10 Kugeln, 4 davon mit einer 0 beschriftet, 6 mit einer 1. Es wird 3 mal ohne
zurücklegen gezogen. Zeichne den Baum mit gemeinsamen und bedingten Wahrscheinlichkeiten. Wie groß
ist die Wahrscheinlichkeit dafür, genau eine 0 zu ziehen? Wie groß die Wahrscheinlichkeit, beim zweiten
Zug eine 1 zu ziehen?
3. Die Wahrscheinlichkeit, dass ein zufällig ausgewählter Student, der zur Statistikprüfung antritt, gelernt
hat, sei 60%. Die Wahrscheinlichkeit, eine gute Note zu schreiben unter der Bedingung, dass man gelernt
hat, sei 80%. Wie groß ist die Wahrscheinlichkeit, dass ein zufällig ausgewählter Student, der zur
Statistikprüfung antritt, sowohl gelernt hat als auch eine gute Note schreibt?
4. Die Wahrscheinlichkeit für ein Ereignis A sei 50%. Die Wahrscheinlichkeit für ein Ereignis B sei 80%.
Wie groß müsste die gemeinsame Wahrscheinlichkeit P(A∩B) sein, wenn die beiden Ereignisse
stochastisch unabhängig sind?
5. Die Wahrscheinlichkeit, dass man beim rausgehen keinen Regenschirm mitnimmt sei 50%. Die
Wahrscheinlichkeit, dass es regnet unter der Bedingung, dass man keinen Regenschirm mitgenommen hat,
sei 90%. Die Wahrscheinlichkeit, dass es regnet unter der Bedingung, dass man doch einen Regenschirm
mitgenommen hat, sei 20%. Wie groß ist die Wahrscheinlichkeit, dass man keinen Regenschirm
mitgenommen hat unter der Bedingung, dass es regnet? (Tipp: Satz von Bayes!)
6. Eine Lostrommel enthält 10 Lose, davon sind 8 Nieten. Man zieht (ohne Zurücklegen) 2 Lose.
n)Berechne die Randwahrscheinlichkeit P(im zweiten Zug eine Niete).
o)Berechne die Randwahrscheinlichkeit P(im ersten Zug ein Gewinn).
p)Berechne die bedingte Wahrscheinlichkeit P(im letzten Zug Gewinn|im ersten Niete)
q)Berechne die Gemeinsame Wahrscheinlichkeit P(im ersten Zug Niete, im zweiten Niete)
r) Die zwei Züge sind nicht stochastisch unabhängig. Wie kann man das erkennen?
7. Die folgende Tabelle gibt die gemeinsamen Wahrscheinlichkeit für Geschlecht und Schizophrenie unter
Hochschulangehörigen an. Berechne daraus die bedingten Wahrscheinlichkeiten: P(S|M),P(S|W), P(M|S),
P(M|nS) :
männlich M
weiblich W
Summe
schizophren S
0,02
0,003
nicht schizophren nS
0,68
0,297
Summe
Sind Geschlecht und Schizophrenie unabhängig?
Lösungen zu Übungsblatt 8
1. Einzelwahrscheinlichkeiten sind die Wahrscheinlichkeiten für ein bestimmtes Einzelereignis an
einer Stelle im Baum. Beim Ziehen mit zurücklegen: P(A). Beim Ziehen ohne zurücklegen muss
man unterscheiden zwischen bedingten Wahrscheinlichkeiten und Randwahrscheinlichkeiten.
Randwahrscheinlichkeiten sind die Wahrscheinlichkeiten für ein bestimmtes Einzelereignis an
einer bestimmten Stelle im Baum, z.B. die Wahrscheinlichkeit, an dritter Stelle eine 1 zu ziehen
P(X3 = 1). Man erhält die Randwahrscheinlichkeiten, indem man die gemeinsamen
Wahrscheinlichkeiten aller Sequenzen, für die z.B. (X3 = 1) zutrifft, zusammenaddiert.
Bedingte Wahrscheinlichkeiten sind die Wahrscheinlichkeiten für ein bestimmtes Einzelereignis in
Abhängigkeit der vorigen Züge, z.B. die Wahrscheinlichkeit, eine 1 zu ziehen, wenn man vorher
eine 0 gezogen hat P(1|0). Beim Ziehen mit zurücklegen entsprechen die bedingten
Wahrscheinlichkeiten den Randwahrscheinlichkeiten.
Gemeinsame Wahrscheinlichkeiten sind die Wahrscheinlichkeiten für bestimmte Sequenzen von
Einzelereignissen, z.B. P(1∩0) = P((X1 = 1) ∩ (X2 = 0)). Man erhält sie durch Multiplikation der
bedingten Wahrscheinlichkeiten der Sequenz: P(1∩0) = P(1) * P(0|1).
2. Gemeinsame Wahrscheinlichkeiten:
P(0,0,0) = 0,4 * 3/9 * 2/8 = 1/30
P(0,0,1) = 0,4 * 3/9 * 6/8 = 1/10
P(0,1,0) = 0,4 * 6/9 * 3/8 = 1/10
P(0,1,1) = 0,4 * 6/9 * 5/8 = 1/6
P(1,0,0) = 0,6 * 4/9 * 3/8 = 1/10
P(1,0,1) = 0,6 * 4/9 * 5/8 = 1/6
P(1,1,0) = 0,6 * 5/9 * 4/8 = 1/6
P(1,1,1) = 0,6 * 5/9 * 4/8 = 1/6
Bedingte Wahrscheinlichkeiten (für alle 8 möglichen Sequenzen):
P(0) = 0,4; P(0|0) = 3/9; P(0|0,0) = 2/8
P(0) = 0,4; P(0|0) = 3/9; P(1|0,0) = 6/8
P(0) = 0,4; P(1|0) = 6/9; P(0|0,1) = 3/8
P(0) = 0,4; P(1|0) = 6/9; P(1|0,1) = 5/8
P(1) = 0,6; P(0|1) = 4/9; P(0|1,0) = 3/8
P(1) = 0,6; P(0|1) = 4/9; P(1|1,0) = 5/8
P(1) = 0,6; P(1|1) = 5/9; P(0|1,1) = 4/8
P(1) = 0,6; P(1|1) = 5/9; P(1|1,1) = 4/8
P(genau eine 0) = P(1,1,0) + P(1,0,1) + P(0,1,1) = 0,144 + 0,144 + 0,144 = 0,432
P(X2 = 1) = P(0,1,0) + P(0,1,1) + P(1,1,0) + P(1,1,1) = 0,096 + 0,144 + 0,144 + 0,216 = 0,6 (eine
Randwahrscheinlichkeit)
3. P(gelernt) = 0,6; P(gut|gelernt) = 0,8; P(gut ∩ gelernt) = 0,6 * 0,8 = 0,48
4. Stochastische Unabhängigkeit: P(A∩B) = P(A) * P(B), also hier P(A∩B) = 0,5 * 0,8 = 0,4.
5. kS = kein Schirm; S = Schirm; R = Regen
P(kS) = 0,5; P(R|kS) = 0,9; P(R|S) = 0,2
gesucht: P(kS|R)
Satz von Bayes: P(kS|R) = [P(R|kS) * P(kS)] / [( P(R|kS) * P(kS) ) + ( P(R|S) * P(S) ) =
[ 0,9
* 0,5 ] / [( 0,9
* 0,5 ) + ( 0,2
* 0,5 ) = 0,818
6. a) P(im zweiten Zug eine Niete) = (0,8 * 7/9) + (0,2 * 8/9) = 0,8
b) P(im ersten Zug ein Gewinn) = (0,2 * 8/9) + (0,2 * 1/9) = 0,2
c) P(im letzten Zug Gewinn|im ersten Niete) = 2/9
d) P(im ersten Zug Niete, im zweiten Niete) = P(Niete) * P(Niete|Niete) = 0,8 * 7/9 = 0,622
e) P(Niete) * P(Niete) = 0,8 * 0,8 = 0,64 ≠ P(Niete und Niete)
7.
schizophren S
nicht schizophren nS
Summe
männlich M
0,02
0,68
0,7
weiblich W
0,003
0,297
0,3
Summe
0,023
0,977
1
Geschlecht und Schizophrenie sind nicht unabhängig, z.B. da P(S∩M) ≠ P(S) * P(M).
P(S|M) = P(S∩M) / P(M) = 0,0286
P(S|W) = 0,01
P(M|S) = 0,870
P(M|nS) = 0,696Da es wohl letztes Mal doch etwas zu schnell ging, in der Hoffnung dass es weiterhilft...:
Einführung in die Statistik – Erläuterungen zu Übungsblatt 7
v) Allgemeine Fragestellung, um die es letztes Mal ging: Wir ziehen aus einer Population eine Stichprobe
der Größe n und berechnen irgendeine Maßzahl über diese Stichprobe (z.B. den Mittelwert); Wie groß
ist die Wahrscheinlichkeit, dass diese Maßzahl gleich/ kleiner als/ größer als einem bestimmten Wert
ist?
w) z.B. in Aufgabe 5 a): aus der Population aller Europäer wird eine Stichprobe der Größe 10 gezogen.
Maßzahl ist hier die Anzahl (von Europäern mit negativem Rhesusfaktor). Gesucht ist die
Wahrscheinlichkeit, dass die Anzahl gleich 0 ist.
x) Es gibt mehrere Möglichkeiten, solche Aufgaben zu lösen. Im Allgemeinen brauchen wir die
Stichprobenverteilung der Maßzahl, um die es geht.
y) Zur Erinnerung: eine Verteilung ist eine Liste oder Grafik, die alle möglichen Ergebnisse darstellt (z.B.
alle möglichen Merkmalsausprägungen, alle möglichen Maßzahlen usw.) zusammen mit ihren
jeweiligen relativen Häufigkeiten (wie oft kommt eine bestimmte Merkmalsausprägung vor =
Häufigkeitsverteilung) oder ihren jeweiligen Wahrscheinlichkeiten (wenn es um Zufallsvariablen oder
Statistiken geht, wo die Häufigkeit ja nicht einfach abzählbar ist = Wahrscheinlichkeitsverteilung).
z) Die Stichprobenverteilung kann man wie besprochen auf 3 Wegen erhalten:
aa) Simulationsexperimente: nach dem frequentistischen Wahrscheinlichkeitsbegriff wissen wir, dass
wir nur sehr viele (im Skript: 5000) Stichproben ziehen und über alle Stichproben die gesuchte
Maßzahl berechnen müssen. Die entstehende Häufigkeitsverteilung der Maßzahl müsste in etwa
der gesuchten Stichprobenverteilung (Wahrscheinlichkeitsverteilung) entsprechen. Diese Methode
ist aber sehr aufwändig.
bb) Exaktes berechnen der einzelnen Wahrscheinlichkeiten der Stichprobenverteilung nach dem
klassischen Wahrscheinlichkeitsbegriff:
cc) z.B. mit Kombinatorik ermitteln, welche Stichproben jeweils möglich sind, und wie
wahrscheinlich diese jeweils sind. Dann über alle möglichen Stichproben die gesuchte
Maßzahl berechnen, man erhält eine Liste aller möglichen Maßzahlen. Dazu die jeweiligen
Wahrscheinlichkeiten berechnen (Summe der Wahrscheinlichkeiten für alle möglichen
Stichproben, bei denen die gleiche Maßzahl herauskommt, ergibt die Wahrscheinlichkeit für
diese Maßzahl).
dd) Beispiel hierfür: Aufgabe 2: Maßzahl ist hier das Minimum. Es gibt 36 mögliche Stichproben,
6 mögliche Maßzahlen. Die 36 Stichproben sind beim fairen Würfel alle gleich
wahrscheinlich, nämlich 1/36. Um z.B. das Minimum 4 zu würfeln, gibt es 5 mögliche
Stichproben: (4,4), (4,5), (5,4), (4,6), (6,4); die Wahrscheinlichkeit für das Minimum 4 ist
somit (1/36) + (1/36) + (1/36) + (1/36) + (1/36) = 5/36.
ee) Weitere Möglichkeit des exakten Berechnens - Sonderfall Binomialverteilung: für die
Maßzahlen Anzahl und Anteil ist die Stichprobenverteilung immer durch eine einfache
Gleichung berechenbar, wenn nur der Parameter π (Anteil in der Population) gegeben ist. Die
Wahrscheinlichkeit dafür, dass die Anzahl in der Stichprobe genau k ist, oder – was aufs
gleiche rauskommt – der Anteil in der Stichprobe genau k/n ist, ist dann: P(Anzahl = k) =
P(Anteil = k/n) = „n über k“ * πk * (1 – π)(n – k). Entsprechend lassen sich dann auch kumulierte
Wahrscheinlichkeiten berechnen: P(Anz < k) = P(Anteil < k/n) = „n über 1“ * π1 * (1 – π)(n – 1)
+ „n über 2“ * π2 * (1 – π)(n – 2) + ... + „n über (k - 1)“ * π(k - 1) * (1 – π)(n – (k – 1)).
ff) Beispiel hierfür: Aufgabe 5 a): gegeben ist der Anteil in der Pupulation (π = 15%), n (= 10, die
Stichprobengröße) und k (= 0, die Anzahl „Treffer“); Gesucht ist die Wahrscheinlichkeit
P(Anz = 0). Durch Einsetzen in die eben beschriebene Formel erhält man das Ergebnis.
gg) Ebensogut hätte gefragt sein können die Wahrscheinlichkeit P(Anz < 2). Diese
Wahrscheinlichkeit erhält man durch aufkumulieren: P(Anz < 1) = P(Anz = 0) + P(Anz =1).
hh) Annähern der Stichprobenverteilung durch die Normalverteilung (NV):
ii) Durch den zentralen Grenzwertsatz ist bekannt, dass sich die Stichprobenverteilung des
Mittelwerts für eine große Stichprobengröße der Normalverteilung annähert. Man kann
außerdem zeigen, dass das auch für viele andere Maßzahlen gilt (siehe Tabelle S.55 im
Skript).
jj) Die Normalverteilung ist eine Verteilung, deren Gleichung ebenso wie die der
Binomialverteilung bekannt ist. Wenn wir also annehmen, dass die Stichprobenverteilung
wegen außreichend großem n durch die NV angenähert werden kann, brauchen wir die
einzelnen Wahrscheinlichkeiten nicht mehr berechnen, da wir sie einfach durch die Gleichung
der NV berechnen können. Da die Berechnung etwas kompliziert ist hat man die
verschiedenen Werte der NV in einer Tabelle zusammengestellt, wo man sie nurnoch ablesen
muss.
kk) Der einzige Haken ist, dass es sehr viele Normalverteilungen gibt: die Verteilung und damit
die Wahrscheinlichkeiten verändern sich in Abhängigkeit der 2 Parameter
Populationsmittelwert und Populationsvarianz.
ll) Man hat sich daher darauf geeinigt, nur die sogenannte Standardnormalverteilung zu
tabellieren. Das ist die NV mit Mittelwert 0 und Standardabweichung 1. Die Tabelle der
StandardNV ist aber auch brauchbar, wenn die Population, aus der wir ziehen, nicht den
Mittelwert 0 und die Std 1 hat; denn alle Normalverteilungen lassen sich durch standardisieren
in die StandardNV umwandeln (und durch restandardisieren wieder zurück umwandeln).
mm)
Beispiel hierfür: Aufgabe 6: gegeben ist Populationsmittelwert,
Populationsstandardabweichung und die Info, dass die Population normalverteilt ist.
Wahrscheinlichkeiten lassen sich jetzt leicht in der Tabelle nachschlagen. Z.B. Aufgabe a):
gesucht ist P(Anteil < 180); da der Anteil hier eine Zufallsvariable ist kann man auch
schreiben: P(X<180); das muss man jetzt standardisieren, da nur die StandardNV tabelliert ist;
dadurch werden die x-Werte zu sogenannten z-Werten (Benennung für standardisierte xWerte): P(Z<1,23); diese Wahrscheinlichkeit lässt sich in der Tabelle ablesen.
nn) Achtung bei diesem Beispiel: hier werden Anteile der Population, nicht Wahrscheinlichkeiten
in den möglichen Stichproben berechnet. Daher wird auch beim standardisieren durch die
Stndardabweichung der Population geteilt und nicht durch die Standardabweichung einer
Statistik ( = Standardfehler).
Und zuletzt noch die bisher fehlenden Lösungen zu Aufgabe 7:
Gegeben ist der Anteil π in der Population (80%) und die Stichprobengröße n (=20). Allein dadurch, dass
in der Angabe der Populationsanteil steht lässt vermuten, dass es um eine Aufgabe zur Binomialverteilung
geht... Die Binomialverteilung für π = 0,8 und n = 20 ist im grünen Heft tabelliert.
a) Der Erwartungswert für die Binomialverteilung lässt sich vereinfacht ausrechnen: E(Anz) = n * p = 20 *
0,8 = 16; alternativ, aber wesentlich umständicher, ließe sich das selbe Ergebnis natürlich auf dem alten
Weg finden: E(X) = Summe der Produkte aller möglichen Anzahlen mit ihren jeweiligen
Wahrscheinlichkeiten, abgelesen aus der Tabelle.
b) Wie bei a), nur dass es jetzt um den Anteil, nicht die Anzahl geht: E(Anteil) = p = 0,8.
c) Auch für die Varianz kann man sich bei der Binomialverteilung Arbeit sparen, da es auch heir eine
einfachere Formel gibt: Var (Anz) = n * π * (1 – π) = 20 * 0,8 * 0,2 = 3,2; Var (Anteil) = [π * (1 – π)]/n =
(0,8 * 0,2)/20 = 0,008.
d) Hier muss ich zugeben habe ich versehentlich eine Aufgabe ausgewählt, die erstens sehr schwierig zu
lösen und zweitens sehr missverständlich gestellt ist. Also keine Panik wenn es nicht geklappt hat – in der
Klausur sind die Aufgaben sicher eindeutiger gestellt.
Vierergrüppchen heißt, es werden jetzt 5 Stichproben mit je n = 4 gezogen. Die Maßzahl ist jetzt der
Mittelwert über die Anzahl/ den Anteil in jeder der 5 Stichproben. Ich löse hier die Aufgabe mal nur für
den Anteil, Anzahl geht dann entsprechend.
Wir müssen also zuerst für jede Vierergruppe den Anteil ermitteln. In jeder der 5 Vierergruppen kann der
Anteil variieren zwischen 0, 0,25, 0,5, 0,75 oder 1. Wir haben es also mit 5 Zufallsvariablen X1, X2, X3, X4
und X5 zu tun, die jeweils einen dieser 5 Werte annehmen:
X1: 0; 0,25; 0,5; 0,75; 1
X2: 0; 0,25; 0,5; 0,75; 1
X3: 0; 0,25; 0,5; 0,75; 1
X4: 0; 0,25; 0,5; 0,75; 1
X5: 0; 0,25; 0,5; 0,75; 1
Als nächstes berechnen wir den Mittelwert aus diesen Zufallsvariablen, Xquer. Auch Xquer ist eine
Zufallsvariable; ihre Werte sind abhängig davon, welche Anteile in den 5 Vierergruppen realisiert wurden.
Xquer wäre z.B. 1, wenn alle 5 ZV den Wert 1 annehmen, oder z.B. 0,1 wenn die ersten beiden ZVn den
Wert 0,5 annehmen, alle anderen 3 ZVn den Wert 0 usw...
Gesucht ist nun der Erwartungswert über Xquer. Um diesen ohne zu viel rechnen zu erhalten, können wir
die Regel E(Xquer) = μ anwenden: Xquer kann hier auch angesehen werden als ein Mittelwert, den man
erhält, wenn man 5 Stichproben der Größe 4 aus einer Population mit den Werten 0; 0,25; 0,5; 0,75; 1
zieht. μ wäre in dem Fall der Mittelwert aus 0; 0,25; 0,5; 0,75 und 1, also 0,5. Folglich ist E(Xquer) = 0,5.
Ebenso bei der Varianz: Var(Xquer) = σ2 / n. σ2 ist die Varianz in der Population der Werte 0; 0,25; 0,5;
0,75 und 1. Diese ergibt ausgerechnet 1,25 (nach der ganz normalen Formel für die Varianz in der
Population). 1,25 / n ergibt dann 0,025, folglich Var(Xquer) = 0,025.
e) gesucht: P(X=20) mit pi = 0,8 und n = 20; in Tabelle nachsehen: 1,15%
f) P(X kleiner/gleich 10) = P(X=0) + P(X=1) + ... + P(X=10) = (siehe Tabelle für kumulierte Anteile der
Binomialverteilung) 0,26%;
P(X größer/gleich 16) = 1 – P(X kleiner/ gleich 15) = (siehe Tabelle) 62,96%
Wenn noch was unklar geblieben ist, Fragen bitte in der nächsten Tutoriumssitzung oder auch gerne per EMail an mich: [email protected]
Einführung in die Statistik – Übungsblatt 9
Paula Perkuhn, Besprechung am 10.01., 17:50 – 19:20 Uhr
1. Der IQ von Studenten ist normalverteilt mit o=15 und µ=110. 10 Studenten unterziehen sich
einem IQ-Test.
oo) Mit welcher Wahrscheinlichkeit liegt der Stichprobenmittelwert zwischen 105 und 115?
pp) Der Stichprobenmittelwert sei 115. Gib das 95%-Konfidenzintervall zur Schätzung des
Populationsmittelwerts an.
2. Das für Weihnachtsgeschenke ausgegebene Geld pro Person ist in der Population annähernd
normalverteilt mit einer Varianz von 1600€2. Bei einer Gruppe von 50 Befragten ergibt sich ein mittleres
Weihnachtsgeschenke-Budget von 130€. Mit welcher Wahrscheinlichkeit kann man sagen, dass in der
Population der Mittelwert zwischen 120 und 140 € liegt?
3. In einer Klinik wird anhand der Krankenakten von 200 Personen die Dauer eines bestimmten
Heilungsprozesses untersucht:
Dauer (in Tagen)
Anzahl Patienten
3
50
4
100
5
20
6
30
Gib ein 90%-Konfidenzintervall für die mittlere Dauer des Heilungsprozesses an.
Original-Klausuraufgaben:
4. Eine Leistungsskala wurde so konstruiert, dass die Werte in der Population normalverteilt mit N(50, 10 *
10) sind. Es soll eine einfache Zufallsstichprobe gezogen werden. Wie groß muss n sein, damit das 95%Konfidenzintervall für den Mittelwert höchstens 4 Skalenpunkte breit ist?
5.Gegeben sei die Häufigkeitsverteilung eines diskreten, ordinalen Merkmals x:
x
0
1
3
Häufigkeit
5
20
10
Berechne folgende Maßzahlen, falls sinnvoll:
a) 1. Quartil und 3. Quintil
b) Eighths
c) qualitative Varianz
d) Entropie in nits
e) Varianz
Lösungen zu Übungsblatt 9
1. a) D((5/(15/√10)) = D(1,05) = (siehe Tabelle der StandardNV) 70,63%
b) o = 115 + 1,96 * (15/√10) = 124,30; u = 115 – 1,96 * (15/√10) = 105,70
2. o = 130 + z * (400/√50) = 140
u = 130 - z * (400/√50) = 120
z = (140 – 130)/(400/√50) = 0,18
D(0,18) = 14,28%
3. o = xquer + t (df) * (sn-1/√n) = 50 + t (3) * (35,59/2) = 50 + 2,35 * 17,80 = 91,82
u = xquer - t (df) * (sn-1/√n) = 50 - t (3) * (35,59/2) = 50 - 2,35 * 17,80 = 8,18
4.o = xquer + z * (10/√n)
6
5
u = xquer - z * (10/√n)
o–u=4
[xquer + z * (10/√n)] - [xquer - z * (10/√n)] = 4
2z * (10/√n) = 4
2 * 1,96 * (10/√n) = 4
(10/√n) = 4/3,92 = 1,02
n = 96,04
5. a) z = n*q = 40 * 0,25 = 10; 1.Quartil = (x(10) + x(11))/2 = 1
z = 40 * 0,6 = 24; 3. Quintil = (x(24) + x(25))/2 = 1
b) Tiefe(Median) = 20,5; Tiefe(Hinge) = 10,5; Tiefe (Eighth) = 5,5;
eu = (x(5) + x(6))/2 = 0,5; eo = (x(35) + x(36))/2 = 4,5
c) qv = 1 – (p12 + p22 + p32 + p42) = 1 – (0,1252 + 0,52 + 0,252 + 0,1252) = 0,65625
d) h(x) = - [0,125ln(0,125) + 0,5ln(0,5) + 0,25ln(0,25) + 0,125ln(0,125)] = 1,2130
e) erst ab Intervallskala sinnvoll
Einführung in die Statistik – Übungsblatt 10
Paula Perkuhn, Besprechung am 17.01., 17:50 – 19:20 Uhr
1. Nullhypothese: der Mittelwert des IQ in der Population der Statistikvorlesungsbesucher ist
kleiner oder gleich 120; Alternativhypothese: der Mittelwert ist größer. Alpha soll 5% sein.
Konstruiere den Mittelwerttest für eine Stichprobe von 20 Studenten. (Annahmne: auch in
dieser Population ist der IQ normalverteilt mit der Standardabweichung 15).
a) Was ist die Teststatistik?
b) Wie ist die Teststatistik verteilt?
c) Bestimme den kritischen Bereich!
d) Der Stichprobenmittelwert sei 130. Wird die Nullhypothese verworfen?
2. X sei eine dichotome Variable. Bei einer Zehnerstichprobe wird fünfmal 0 und fünfmal 1 gemessen. Um
Bootstrap-Intervalle zu bestimmen werden aus dieser Stichprobe nun 20 Zehnerstichproben (mit Zurücklegen)
gezogen. Bei jeder dieser 20 Stichproben wird der Anteil Einsen bestimmt. Die folgenden Werte ergeben sich:
0,5; 0,3; 0,7; 0,5; 0,5; 0,8; 0,4; 0,2; 0,6; 0,7; 0,7; 0,1; 0,4; 0,5; 0,5; 0,8; 0,8; 0,6; 0,4; 0,5
Besimme das 90%-Bootstrap-Intervall für den Mittelwert von X.
3. Das Einkommen in der Population sei normalverteilt, wobei die Standardabweichung nicht bekannt ist. Als
Nullhypothese nehmen wir an, dass das durchschnittliche Einkommen pro Person 2400 Euro beträgt. Die
Alternativhypothese sei, dass es genau 2000 Euro beträgt. Eine Stichprobe von 50 Leuten liefert einen
Mittelwert von 2500 Euro und eine Standardabweichung von 1000 (berechnet nach der Formel s n-1). Konstruiere
einen Mittelwerttest (α = 5%)!
a) Was ist die Teststatistik?
b) Wie ist die standardisierte Teststatistik verteilt?
c) Bestimme den kritischen Bereich!
d) Wird die Nullhypothese verworfen?
4. Es wurde ein Fragebogen entwickelt, mit dem man herausfinden kann, ob jemand einen Helferkomplex hat. In
einer Stichprobe von 200 Psychologiestudenten hatten 60% einen Helferkomplex. Erstelle ein 95%
Konfidenzintervall für den Anteil Psychologiestudenten mit Helferkomplex!
Lösungen zu Übungsblatt 10
1. a) Mittelwert der Stichprobe
b) Normalverteilung, da Population normalverteilt und zentraler Grenzwertsatz
c) kritischer Bereich kommt von rechts; gesucht: z-Wert, ab dem 5% der Fläche liegen. Tabelle der
Normalverteilung: z = 1,645; restandardisieren: x = 1,645 * (sigma / √20) + 120 = 125,52; Kritischer Bereich:
alle Werte, die größer 125,52 sind. (Für μ unter Geltung der Nullhypothese reicht es, in der Formel 120
einzusetzen - selbst wenn die Nullhypothese ja auch alle Werte für μ umfasst, die kleiner als 120 sind; aber die
Normalverteilung mit μ = 120 liegt am weitesten rechts, also am nähesten an den Verteilungen, die in der
Alternativhypothese enthalten sind.)
d) ja
2. Da es sich um eine dichotome Variable handelt entspricht der Anteil dem Mittelwert – die Liste der Anteile ist
bereits die Liste der Mittelwerte. Wir brauchen die sortierte Liste:
0,1; 0,2; 0,3; 0,4; 0,4; 0,4; 0,5; 0,5; 0,5; 0,5; 0,5; 0,5; 0,6; 0,6; 0,7; 0,7; 0,7; 0,8; 0,8; 0,8
90%-Intervall heißt 10% Fehler, die sich auf links und rechts der Verteilung verteilen; wir brauchen das 0,05Quantil und das 0,95-Quantil als Intervallgrenzen.
z = n * q = 20 * 0,05 = 1; Quantil = (x(1) + x(2))/2 = 0,15 = u
z = n * q = 20 * 0,95 = 19 Quantil = (x(19) + x(20))/2 = 0,8 = o
3. a) Mittelwert der Stichprobe
b) Student-t-Verteilung
c) kritischer Bereich kommt von links; gesucht: t-Wert, bis zu dem 5% der Fläche liegen. Tabelle student-tVerteilung: t(49) = - 1,68; restandardisieren: x = -1,68 * (1000 / √50) + 2400 = 2162,41; Kritischer Bereich: alle
Werte, die kleiner als 2162,41 sind.
d) Die Nullhypothese wird beibehalten.
4. o = 0,6 + 1,96 * √((0,6 * 0,4) / (200 – 1)) = 0,6 + 1,96 * √(0,24 / 199) = 0,6681
u = 0,6 - 1,96 * √((0,6 * 0,4) / (200 – 1)) = 0,6 - 1,96 * √(0,24 / 199) = 0,5319
Einführung in die Statistik – Übungsblatt 11
Paula Perkuhn, Besprechung am 24.01., 17:50 – 19:20 Uhr
1. Nach Angaben eines Autohändlers soll der Benzinverbrauch eines bestimmten Modells unter 4 Litern
pro 100 km liegen. Bei 25 Testfahrten wurde ein Mittelwert von 3,8 Litern bei einer Standardabweichung
von 0,4 Litern ermittelt. Lässt sich die Behauptung des Herstellers mit Signifikanzniveau 5% aufrecht
erhalten?
2. Ein Würfel soll daraufhin getestet werden, ob er gezinkt ist, d. h. ob die sechs Seiten mit verschiedenen
Wahrscheinlichkeiten gewürfelt werden. Er wird dafür 60mal geworfen mit folgendem Ergebnis:
Augenzahl
Anteil in der 60er-Stichprobe
1
8/60
2
2/60
3
10/60
4
10/60
5
15/60
6
15/60
Führe einen Chi2-Anpassungstest mit α = 0,05 durch.
3. Es soll überprüft werden, ob, wie wir vermuten, Akupunktur geeignet ist, den Zigarettenkonsum von
Rauchern zu reduzieren. Dafür wird von 10 Rauchern der tägliche Konsum vor und nach der Akupunktur
gemessen:
Vorher
Nachher
20
18
20
10
25
0
25
30
25
20
25
5
30
35
30
18
30
32
30
31
Erfolg heißt hier: der tägliche Konsum hat sich reduziert. Falls Akupunktur wirkungslos ist, kann man
davon ausgehen, dass der Erfolgsanteil 0,5 ist (rein zufällige Veränderung des Konsums). Aufgrund voriger
Studien können wir auf jeden Fall ausschließen, dass Akupunktur den Zigarettenkonsum von Rauchern
erhöht.
qq) Wie lauten die Null- und die Alternativhypothese?
rr) Nenne die Teststatistik.
ss) Wie ist die Teststatistik verteilt?
tt)
uu) Berechne die Macht des Tests für HA: π = 0,6.
4. Binomialtests (für die von euch, die noch ein bißchen üben wollen): Bestimme für alle der folgenden
Testangaben den kritischen Bereich und den exakten Wert des Fehlers 1. Art. Wenn möglich gib auch den
Fehler 2. Art und die Macht des Tests an.
s) Ho:p=0,8;
Ha:p=0,5;
n=50
t) Ho:p=0,7;
Ha:p=0,5;
n=100
u) Ho:p=0,975; Ha:p=0,4;
n=8
v) Ho:p=0,975; Ha:p<0,975; n=8
w) Ho:p=0,1;
Ha:p=0,4;
n=20
x) Ho:p=0,4;
Ha:p=0,6;
n=100
y) Ho:p=0,3;
Ha:p=0,4;
n=10
z) Ho:p=0,5;
Ha:p≠0,5;
n=70
aa) Ho:p=0,5;
Ha:p≠0,5;
n=50
bb) Ho:p=0,5;
Ha:p≠0,5;
n=5
Ho:p=0,5;
Ha:p≠0,5;
n=8Lösungen zu Übungsblatt 11
1. Wiederholung des t-Tests: H0: μ>=4; H1: μ<4
Teststatistik: Xquer; Verteilung der Teststatistik: student-t-Verteilung; Testwert: 3,8
KB bis 4-1,71*0,4/5 = 3,863; Testwert liegt im KB, also H0 abgelehnt, dem Händler kann geglaubt
werden.
2. H0: π1 = 1/6; π2 = 1/6; π3 = 1/6; π4 = 1/6; π5 = 1/6; π6 = 1/6
reale Beobachtung: p1 = 8/60; p2 = 2/60; p3 = 10/60; p4 = 10/60; p5 = 15/60; p6 = 15/60
Frage: sind die Unterschiede zufällig oder signifikant?
Zuerst Testplanung: KB festlegen
Chi2-Verteilung; immer rechtsseitig beim Anpassungstest; df = I-1 = 5; KB: 11,07 und größer
Dann Stichprobe ziehen (Würfelexperiment durchführen), Daten erhalten, damit Teststatistik berechnen:
Teststatistik: LR-Chi2 = -2*60[8/60 ln((1/6)/(8/60)) + 2/60 ln((1/6)/(2/60)) + 10/60 ln((1/6)/(10/60)) +
10/60 ln((1/6)/(10/60)) + 15/60 ln((1/6)/(15/60)) + 15/60 ln((1/6)/(15/60))] = -120[0,11933] = 14,32
P-Chi2 = 60 [(8/60 – 1/6)2/(1/6) + (2/60 – 1/6)2/(1/6) + (10/60 – 1/6)2/(1/6) + (10/60 – 1/6)2/(1/6) + (15/60
– 1/6)2/(1/6) + (15/60 – 1/6)2/(1/6)] = 60 * 0,196666 = 11,8
In beiden Fällen s´liegt der Testwert im kritischen Bereich; H0 wird abgelehnt; der Würfel ist
wahrscheinlich gezinkt.
3. a) H0: π = 0,5; H1: π > 0,5
b) Anteil (auch Anzahl möglich) derer, die in der Stichprobe nach Akupunktur weniger rauchen
c) Binomialverteilt
d) rechtsseitiger Test; Tabelle der Binomialverteilung, n = 10, π0 = 0,5; von unten her aufkumulieren da KB
von rechts kommt: KB = (10, 9) bzw. gleichwertig: KB = (1; 0,9); In der Stichprobe gibt es eine
Verbesserung bei 6 von 10 Leuten, das liegt nicht im KB; H0 wird beibehalten.
e) gesucht ist Wahrscheinlichkeit, einen Wert im kritischen Bereich zu ziehen (also 9 oder 10), unter der
Annahme, wir würden aus einer Binomialverteilung mit den Parametern n = 10 und π = 0,6 ziehen
(Verteilung der Alternativhypothese); Tabelle der Binomialverteilung für n = 10, π0 = 0,6;
Wahrscheinlichkeit für X = 9 und für X = 10 zusammenzählen ergibt 0,0403 + 0,006 = 0,0463
4.
a)
b)
c)
d)
e)
f)
g)
h)
i)
j)
k)
Kritischer Bereich
0 bis 34
0 bis 61
0 bis 6
0bis 6
5 bis 20
49 bis 100
6 bis 10
0 bis 26; 44 bis 70
0 bis 17; 33 bis 50
nicht vorhanden
0 und 8
Fehler 1.Art
0,0308
0,0340
0,0158
0,0158
0,0432
0,0423
0,0473
0,0414
0,0328
0
0,0078
Fehler 2.Art
0,0033
0,0107
0,0085
nicht möglich
0,0510
0,0100
0,8338
nicht möglich
nicht möglich
nicht möglich
nicht möglich
Macht des Tests
0,9967
0,9895
0,9915
nicht möglich
0,9490
0,9900
0,1662
nicht möglich
nicht möglich
nicht möglich
nicht möglich
Einführung in die Statistik – Übungsblatt 11
Paula Perkuhn, Besprechung am 24.01., 17:50 – 19:20 Uhr
1. Nach Angaben eines Autohändlers soll der Benzinverbrauch eines bestimmten Modells unter 4 Litern
pro 100 km liegen. Bei 25 Testfahrten wurde ein Mittelwert von 3,8 Litern bei einer Standardabweichung
von 0,4 Litern ermittelt. Lässt sich die Behauptung des Herstellers mit Signifikanzniveau 5% aufrecht
erhalten?
2. Ein Würfel soll daraufhin getestet werden, ob er gezinkt ist, d. h. ob die sechs Seiten mit verschiedenen
Wahrscheinlichkeiten gewürfelt werden. Er wird dafür 60mal geworfen mit folgendem Ergebnis:
Augenzahl
Anteil in der 60er-Stichprobe
1
8/60
2
2/60
3
10/60
4
10/60
5
15/60
6
15/60
Führe einen Chi2-Anpassungstest mit α = 0,05 durch.
3. Es soll überprüft werden, ob, wie wir vermuten, Akupunktur geeignet ist, den Zigarettenkonsum von
Rauchern zu reduzieren. Dafür wird von 10 Rauchern der tägliche Konsum vor und nach der Akupunktur
gemessen:
Vorher
Nachher
20
18
20
10
25
0
25
30
25
20
25
5
30
35
30
18
30
32
30
31
Erfolg heißt hier: der tägliche Konsum hat sich reduziert. Falls Akupunktur wirkungslos ist, kann man
davon ausgehen, dass der Erfolgsanteil 0,5 ist (rein zufällige Veränderung des Konsums). Aufgrund voriger
Studien können wir auf jeden Fall ausschließen, dass Akupunktur den Zigarettenkonsum von Rauchern
erhöht.
vv) Wie lauten die Null- und die Alternativhypothese?
ww)
Nenne die Teststatistik.
xx) Wie ist die Teststatistik verteilt?
yy) Bestimme den kri
zz) Berechne die Macht des Tests für HA: π = 0,6.
4. Binomialtests (für die von euch, die noch ein bißchen üben wollen): Bestimme für alle der folgenden
Testangaben den kritischen Bereich und den exakten Wert des Fehlers 1. Art. Wenn möglich gib auch den
Fehler 2. Art und die Macht des Tests an.
cc) Ho:p=0,8;
Ha:p=0,5;
n=50
dd) Ho:p=0,7;
Ha:p=0,5;
n=100
ee) Ho:p=0,975; Ha:p=0,4;
n=8
ff) Ho:p=0,975; Ha:p<0,975; n=8
gg) Ho:p=0,1;
Ha:p=0,4;
n=20
hh) Ho:p=0,4;
Ha:p=0,6;
n=100
ii) Ho:p=0,3;
Ha:p=0,4;
n=10
jj) Ho:p=0,5;
Ha:p≠0,5;
n=70
kk) Ho:p=0,5;
Ha:p≠0,5;
n=50
ll) Ho:p=0,5;
Ha:p≠0,5;
n=5
Ho:p=0,5;
Ha:p≠0,5;
n=8Lösungen zu Übungsblatt 11
1. Wiederholung des t-Tests: H0: μ>=4; H1: μ<4
Teststatistik: Xquer; Verteilung der Teststatistik: student-t-Verteilung; Testwert: 3,8
KB bis 4-1,71*0,4/5 = 3,863; Testwert liegt im KB, also H0 abgelehnt, dem Händler kann geglaubt
werden.
2. H0: π1 = 1/6; π2 = 1/6; π3 = 1/6; π4 = 1/6; π5 = 1/6; π6 = 1/6
reale Beobachtung: p1 = 8/60; p2 = 2/60; p3 = 10/60; p4 = 10/60; p5 = 15/60; p6 = 15/60
Frage: sind die Unterschiede zufällig oder signifikant?
Zuerst Testplanung: KB festlegen
Chi2-Verteilung; immer rechtsseitig beim Anpassungstest; df = I-1 = 5; KB: 11,07 und größer
Dann Stichprobe ziehen (Würfelexperiment durchführen), Daten erhalten, damit Teststatistik berechnen:
Teststatistik: LR-Chi2 = -2*60[8/60 ln((1/6)/(8/60)) + 2/60 ln((1/6)/(2/60)) + 10/60 ln((1/6)/(10/60)) +
10/60 ln((1/6)/(10/60)) + 15/60 ln((1/6)/(15/60)) + 15/60 ln((1/6)/(15/60))] = -120[0,11933] = 14,32
P-Chi2 = 60 [(8/60 – 1/6)2/(1/6) + (2/60 – 1/6)2/(1/6) + (10/60 – 1/6)2/(1/6) + (10/60 – 1/6)2/(1/6) + (15/60
– 1/6)2/(1/6) + (15/60 – 1/6)2/(1/6)] = 60 * 0,196666 = 11,8
In beiden Fällen s´liegt der Testwert im kritischen Bereich; H0 wird abgelehnt; der Würfel ist
wahrscheinlich gezinkt.
3. a) H0: π = 0,5; H1: π > 0,5
b) Anteil (auch Anzahl möglich) derer, die in der Stichprobe nach Akupunktur weniger rauchen
c) Binomialverteilt
d) rechtsseitiger Test; Tabelle der Binomialverteilung, n = 10, π0 = 0,5; von unten her aufkumulieren da KB
von rechts kommt: KB = (10, 9) bzw. gleichwertig: KB = (1; 0,9); In der Stichprobe gibt es eine
Verbesserung bei 6 von 10 Leuten, das liegt nicht im KB; H0 wird beibehalten.
e) gesucht ist Wahrscheinlichkeit, einen Wert im kritischen Bereich zu ziehen (also 9 oder 10), unter der
Annahme, wir würden aus einer Binomialverteilung mit den Parametern n = 10 und π = 0,6 ziehen
(Verteilung der Alternativhypothese); Tabelle der Binomialverteilung für n = 10, π0 = 0,6;
Wahrscheinlichkeit für X = 9 und für X = 10 zusammenzählen ergibt 0,0403 + 0,006 = 0,0463
4.
a)
b)
c)
d)
e)
f)
g)
h)
i)
j)
k)
Kritischer Bereich
0 bis 34
0 bis 61
0 bis 6
0bis 6
5 bis 20
49 bis 100
6 bis 10
0 bis 26; 44 bis 70
0 bis 17; 33 bis 50
nicht vorhanden
0 und 8
Fehler 1.Art
0,0308
0,0340
0,0158
0,0158
0,0432
0,0423
0,0473
0,0414
0,0328
0
0,0078
Fehler 2.Art
0,0033
0,0107
0,0085
nicht möglich
0,0510
0,0100
0,8338
nicht möglich
nicht möglich
nicht möglich
nicht möglich
Macht des Tests
0,9967
0,9895
0,9915
nicht möglich
0,9490
0,9900
0,1662
nicht möglich
nicht möglich
nicht möglich
nicht möglich
Einführung in die Statistik – Übungsblatt 12
Paula Perkuhn, Besprechung am 31.01., 18:00 – 19:30 Uhr
1. Wie viel Kilowatt können durch Energiesparlampen durchschnittlich pro Woche eingespart
werden? Für eine Stichprobe von fünf Haushalten wurden folgende Ergebnisse erzielt:
Haushalte:
1 2 3 4 5
Kw/Woche mit üblichen Lampen
24 40 10 20 30
Kw/Woche mit Energiesparlampen 20 36 11 16 26
a) Berechne das 95%Konfidenzintervall für die Differenz der Populationsmittelwerte.
b) Teste H0: Populationsmittelwerte sind gleich (Alternative: ungleich)
2. Die durchschnittliche häusliche Arbeitszeit (in Stunden) für 2 Wohnarten werden verglichen.
Wohnart
Stichproben:
zu Hause
WG
Mittelwert :
10
20
Standardabweichung: 2
2
Stichprobengröße:
10
20
Die Populationsstandardabweichungen seien gleich.
a) Berechnen Sie das Konfidenzintervall für die Differenz der Populationsmittelwerte.
b) Testen Sie H0: Populationsmittelwerte sind gleich (Alternative: ungleich)
3. Eine Studie vergleicht die Aggressivität von Männern mit der von Frauen. Dazu werden 20 Frauen und
30 Männer einem Experiment unterzogen und beobachtet. Die Frauen zeigen im Mittel 12 aggressive
Verhaltensweisen bei einer Standardabweichung von 4,4. Die Männer agieren im Mittel 15 mal aggressiv
bei einer Standardabweichung von 3,0.
a) Bestimme jeweils für beide Gruppen getrennt das 95%-Konfidenzintervall für den Mittelwert
b) Konstruiere ein Konfidenzintervall für die Mittelwertsdifferenz für den heteroskedastischen Fall mit
alpha = 0,05.
4. In Konstanz werden in vier Buslinien jeweils drei zufällig ausgewählte Personen nach ihrem Alter
befragt. Dabei werden folgende Resultate festgestellt:
Buslinie
Alter der Fahrgäste
Linie 1 (Autofähre)
34
56
75
Linie 6 (PLK Reichenau)
27
45
63
Linie 9 (Uni)
20
25
30
Linie 10 (Friedhof)
65
80
80
Berechne den Determinationskoeffizient 1. Art und interpretiere ihn.Lösungen zu Übungsblatt
12
1. a) verbundene Stichproben:
Differenzenwerte: 4, 4, -1, 4, 4
dquer = 3; s = √(0,25)(16 * 4 + 1 * 1 – 5 * 9) = 2,24
o = 3 + 2,78(2,24/2,24) = 5,78
u = 3 - 2,78(2,24/2,24) = 0,22
b) H0 liegt nicht im Konfidenzintervall, also: H0 wird abgelehnt.
Oder: KB für TW größer 0 + 2,78 * 1 und kleiner 0 – 2,78 * 1; der Testwert dquer liegt im kritischen
Bereich.
2. a) unverbundene Stichproben, homoskedastischer Fall:
s = √(1/10 + 1/20) * √((9 * 4 + 19 * 4)/(28)) = 0,7746
df = 28
t = 2,05
o = 10 + 2,05 * 0,7746 = 11,59
u = 10 - 2,05 * 0,7746 = 8,41
b) H0 liegt nicht im Konfidenzintervall, also: H0 wird abgelehnt.
Oder: KB aus student-t-Verteilung, bei TW größer 2,05 oder kleiner -2,05. TW = (10 – 0) / 0,7746 = 12,9;
TW liegt im kritischen Bereich.
3. a) Frauen: o = 12 + 2,09 * 4,4/√20 = 14,06; u = 12 – 2,09 * 4,4/√20 = 9,94
Männer: o = 15 + 2,045 * 3/√30 = 16,12; u = 15 – 2,045 * 3/√30 = 13,88
b) df = ((19,36/20) + (9/30))2/((((19,36/20)2)/19) + (((9/30)2)/29)) = 1,61/0,05 = 30,71
s = √(19,36/20) + (9/30) = 1,13
o = -3 + 2,04 * 1,13 = -0,69
u = -3 – 2,04 * 1,13 = -5,31
4. yquer1 = 55; yquer2 = 45; yquer3 = 25; yquer4 = 75; yquer = 50
ssq (between) = (3 * 552) + (3 * 452) + (3 * 252) + (3 * 752) – (12 * 502) = 3900
ssq (total) = 342 + 562 + 752 + 272 + 452 + 632 + 202 + 252 + 302 + 652 + 802 + 802 – 12 * 502 = 5590
Det.1.Art = 3900/5590 = 0,70, d.h. Die Unterscheidung der Busse reduziert den Fehler beim Prädizieren
des Alters um 70% (bei Prädiktionsregel = Mittelwerte prädizieren)
Einführung in die Statistik – Übungsblatt 13
Paula Perkuhn, Besprechung am 07.02., 18:00 – 19:30 Uhr
1. die Aufgabe, die wir im Tutorium nicht mehr geschafft haben:
Ihr habt folgende Daten erhoben:
Art der Beschäftigung
n
Mittlere Arbeitszeit
s2(n-1)
Finanzbeamte
100
1750
90000
Amtsärzte
120
2010
40000
Wiss. Angestellte
120
1880
55000
Lehrer
80
1950
64000
a) Berechne den Determinationskoeffizienten 1. Art. Was sagt er hier aus? Berechne den
adjustierten Determinationskoeffizienten 1. Art.
b) Teste die universelle Nullhypothese (die Mittelwerte in den Populationen aller 4 Gruppen sind
gleich)!
c) Stelle die symmetrischen Effekte in einem Pfaddiagramm dar!
2. Gegeben sind folgende Datenpaare (xi,yi). Beide Merkmale sind intervall-skaliert.
xi
10
15
22
37
60
yi
2,5
2,2
2
1,4
4
a) Berechne die Varianzen der beiden Merkmale und die Kovarianz!
b) Berechne den Determinationskoeffizient 2. Art!
c) Berechne eine Geradengleichung, die die gegebenen Datenpunkte optimal beschreibt!
3. Es wurden folgende Daten über die Wirkung eines Antiaggressionstrainings erhoben:
VP Nr.
1
2
3
4
5
6
7
Anzahl aggr. Handlungen vorher
14
15
17
18
19
10
12
Anzahl aggr. Handlungen nachher 12
10
15
10
13
9
5
Berechne den Determinationskoeffizient 1. Art!
4. Züchtern ist es gelungen, gezielt dumme, mittelgescheite und blitzgescheite Ratten zu
Züchten. Es soll untersucht werden, ob die Klugheit der Ratten einen Einfluss auf die
Durchsetzungsfähigkeit hat. Als Maß für die Durchsetzungsfähigkeit dient die Gewichtszu- bzw.
Abnahme bei einem gemeinsamen Aufenthalt in einem Käfig mit begrenzten Futterressourcen :
Rattenart
Gewichtsveränderungen
dumm
-4; -6; +1; -2
mittel
-3; +5; +7;
blitzgescheit
+4; +2; +7; +8; +5
Führe eine (einfaktorielle) Varianzanalyse durch. Stelle das Ergebnis als ANOVA-Tabelle dar und die
asymmetrischen Effekte (allgemeines Niveau soll dem Gruppenmittelwert der dummen Ratten
entsprechen) in einem Pfaddiagramm.Lösungen zu Übungsblatt 13
1. a) ssq(between) = 3955983,23
ssq(within) = 25271000
ssq(total) = ssq(within) + ssq(between) = 29226983,23
Det.1.Art = 0,1354; d.h. Die Unterscheidung der Gruppen bei der Prädiktion der Arbeitszeit reduziert den
Prädiktionsfehler um 13,54%!
adjustierter Det.1.Art: 0,129
b) df1 = 3, df2 = 416
F(3,416) = 21,71
KB: 2,65 und größer > die Nullhypothese wird verworfen
c) allgemeines Niveau k = 1897,5; alpha1 = -147,5; alpha2 = +112,5; alpha3 = -17,5; alpha4 = +52,5
2. a) Var(x) = (5778 – 4147,2)/4 = 407,7
Var(y) = 0,942
Cov(x,y) = 1/4((25+33+44+51,8+240) – 5 * 28,8 * 2,42) = 11,33
b) Det.2.Art = 11,33/(407,7 * 0,942) = 0,0295
c) b = cov(x,y)/var(x) = 0,0277; a = 1,6222; Geradengleichung: y = 1,62 + 0,03x
3. d: 2,5,2,8,6,1,7; dquer = 4,43; n = 7
ssq(dquer) = (4 + 25 + 4 + 64 + 36 + 1 + 49) – 7 * 4,432 = 45,63
ssq(0) =183
Det.1.Art = 0,7506
4.
Variationsquelle
Sum of Squares
df
Mean Sum of Sqares
F-Ratio
Faktor, between
144,45
2
72,225
F(2,9) = 4,40
Error, within
147,8
9
16,42
Total
292,25
11
26,57
KB: 4,26 und größer; die Nullhypothese, dass alle Gruppenmittelwerte gleich sind, wird abgelehnt
allgemeines Niveau k = -2,74; alpha1 = 0; alpha2 = 3 + 2,75 = 5,75; alpha3 = 5,2 + 2,75 = 7,95
Herunterladen