Ein metrisches Merkmal

Werbung
170
❏ Ein metrisches Merkmal
171
› Beispiel
Nitratbelastung in NÖ-Trinkwasser
Quelle NösiWAG/WWF 1998
526 Meßstellen, Angaben in mg/l, Grenzwert ist 50mg/l
23 23 32 32 32
12 12 12 23 23
23 12 12 20 20
9 9 9 9 1
1 1 1 1 1
9 9 9 9 47
12
23
12
1
1
13
12 12 12 12 12 12 23 12
20 20 20 20 20 20 20
4
12 4 1 1 1 1 1
1
1 9 9 9 1 1 1
1
1 1 1 1 9 9 9
9
14 14 13 13 47 10 47 . . .
! Information aus Rohdaten ist unübersichtlich.
172
i
Darstellung eines metrischen Merkmals
Methoden um: Daten zusammenzufassen
Information übersichtlich darzustellen.
Wesentlicher Begriff:
i Häufigkeitsverteilung oder kurz Verteilung
Welche Zahlen kommen wie oft vor?
✔ numerische Methoden
Wie kann Verteilung mit wenigen Maßzahlen gut und sinnvoll
beschrieben werden?
✔ graphische Methoden
Wie kann Verteilung gut dargestellt werden?
173
i
Häufigkeitsverteilung
Durch Auszählen ➜ Häufigkeitstabelle
Bestimmen und Angeben der Häufigkeiten aller möglichen Werte
(Ausprägungen), die eine Variable annimmt.
! Wie bei kategorialen Daten!
› Beispiel: Testergebnisse bei Studenten
Punkte bei einem Test von 20 Studenten:
6,3,7,5,6,4,4,6,7,3,5,9,6,4,2,7,5,5,8,6
174
› Beispiel
Punkteverteilung bei Test
Punkte abs. H. rel. H.
2
1
0.05
3
2
0.10
4
3
0.15
5
4
0.20
6
5
0.25
7
3
0.15
8
1
0.05
9
1
0.05
Gesamt
20
1.00
5
4
3
2
1
0
0
2
4
6
8
10
175
i
Histogramme
Histogramme: Darstellung (stetiger) metrischer Daten.
Fläche der Balken proportional zu Häufigkeiten.
Höhe und Breite nicht egal.
! Bei Balkendiagrammen: Höhe der Balken proportional zu den
Häufigkeiten, Breite egal.
Diskrete Daten: Messungen auf bestimmte Punkte der
Zahlengeraden beschränkt, z.B. ganze Zahlen 0, 1, 2, . . ..
Stetige Daten: Messung im Prinzip beliebig genau, alle Punkte der
Zahlengeraden kommen in Frage ➜ Klasseneinteilung
176
Prozent
› Beispiel
Punkte in einem Test / Nitrat im Trinkwasser
30
30
20
20
10
10
0
0
2
3
4
5
6
7
Punkte in einem Test
8
9
0
Nitrat
5 10 15 20 25 30 35 40 45
177
Prozent
› Beispiel
Auswirkungen unterschiedlicher Balkenbreiten
50
50
40
40
30
30
20
20
10
10
0
0
Nitrat
Nitrat
178
Prozent
› Beispiel
Auswirkungen unterschiedlicher Balkenbreiten
50
50
40
40
30
30
20
20
10
10
0
0
Nitrat
Nitrat
179
Prozent
› Beispiel
Auswirkungen unterschiedlicher Balkenbreiten
50
50
40
40
30
30
20
20
10
10
0
0
Nitrat
Nitrat
180
i
➊
Regeln zur Erstellung eines Histogramms
Anzahl der Klassen k üblicherweise zwischen 5 und 20.
Faustregel: k ist die kleinste Zahl, sodaß 2k > n.
n bis 8 9–16 17–32 33–64 65–128 129–512 513–1024
k
3
4
5
6
7
8
9
max − min
➋
Klassenbreite =
➌
Höhe der Balken = relative Häufigkeit der Klasse.
Gelegentlich ungleiche Klassenbreiten: Fläche des Balkens muß
proportional zur relativen Häufigkeit sein.
k
181
i
Lage und Streuung eines Merkmals
Lage
Lage
➞
➞
Schuhgröße
50
▼
▼
Streuung
Körpergröße
100
150
▼
▼
Streuung
182
i
Überblick: Statistische Maßzahlen
Lagemaße
Mittelwert x̄
∼
Median x
Modus
Graphische Darstellungen
Histogramm
Stem-and-Leaf Plot
Box Plot
Streuungsmaße
Varianz s2
Standardabweichung s
Interquartilsabstand
Spannweite (Range)
183
i
Mittelwert - arithmetisches Mittel
Mittelwert (arithmetisches Mittel)
x̄ =
n
1X
n j =1
xj =
Summe aller Werte
Anzahl der Werte
✔ Eingipfelige symmetrische Verteilung
› Beispiel: Punktezahl in einem Test
Punktezahlen in einem Test von n = 20 Studenten
xj : 2,3,3,4,4,4,5,5,5,5,6,6,6,6,6,7,7,7,8,9
184
?
Wann ist der Mittelwert ein gutes Lagemaß?
6
4
2
0
!
E
x̄ = 5.4
2
3
4
5
6
7
8
9
Die Form der Verteilung bestimmt, ob Mittelwert ein gutes
Maß zur Beschreibung ist.
Hier ist der Mittelwert ein gutes Maß, etwa die Hälfte der Wert
ist größer bzw. kleiner als x̄.
185
› Beispiel
Anzahl der Angestellten in n = 20 Gemüsegeschäften
Daten: 2,3,3,3,4,4,4,4,5,5,5,5,5,5,6,6,6,8,10,15
8
6
4
2
0
x̄ = 5.4
2
4
6
8
10
13
14
! Verwendung von x̄ wenig sinnvoll ➜ schiefe Verteilung.
186
› Beispiel
Anzahl der Krankenstandstage von n = 20 Arbeitern
Daten: 0,0,0,0,0,0,0,0,1,1,1,1,1,2,2,2,3,3,15,76
10
8
6
4
x̄ = 5.4
2
0
0
20
60
70
80
187
› Beispiel
Anzahl der gelesenen Ausgaben einer Monatszeitschrift
Anzahl von Ausgaben einer Monatszeitschrift gelesen von n = 20
Personen
Daten: 0,0,0,0,0,0,0,1,1,1,2,10,11,11,11,12,12,12,12,12
8
6
4
x̄ = 5.4
2
U-förmige Verteilung
0
0
1
2
3
4
5
6
7
8
9 10 11 12
188
› Beispiel
Anzahl der gelesenen Ausgaben einer Monatszeitschrift
U-förmige Verteilung
✔ Verteilung ist zwar symmetrisch, hat aber 2 Gipfel
✔ Mittelwert repräsentiert keinen typischen Wert, wie auch bei
schiefen Verteilungen
! Zusammenfassung der Daten müßte komplexer sein.
z.B. etwa die Hälfte der Leute liest keine oder fast keine Ausgabe, während die andere Hälfte alle oder nahezu alle Ausgaben
liest.
189
› Beispiel
Gleichverteilung
Anzahl der PKWs, die während einer Grünphase über eine Kreuzung
fahren (n = 20 Grünphasen)
10
8
6
4
2
x̄ = 5.4
0
Gleichverteilung
4
5
6
7
✔ Verteilung ist zwar symmetrisch, hat aber keinen Gipfel
! Mittelwert repräsentiert keinen typischen Wert
190
i
Lagemaße
Es gibt im wesentlichen 2 Arten von Daten:
➊
Einigermaßen symmetrische Verteilung mit einem Gipfel in der
Mitte.
➥
Mittelwert ist ein gutes Maß zur Beschreibung, da er typisch
für die Daten ist.
➋
Schiefe, U-förmige mehrgipfelige oder Gleichverteilung. Es gibt
keine typischen Werte.
➥
Mittelwert ist ein schlechtes Maß.
191
i
Der Median
∼
Der Median x ist definiert als der Wert in der Mitte.
! 50% der Werte sind ≤ als der Median
50% der Werte sind ≥ als der Median
17 17 18 18 18 19 19 19 19 20 21
➞
Werte
1
2
3
4
5
6
➞
Rangplätze
7
8
9 10 11
m . . . mittlerer Rangplatz
192
i
➊
➋
➌
Berechnung des Medians nach J. Tukey
Sortieren der Werte der Größe nach
Berechnen des Rangplatzes des Medians: m =
Bestimmen des Wertes des Medians.
n+1
2
E Ist n eine gerade Zahl, nimmt man den Mittelwert der beiden
mittleren Zahlen.
17 17 18 18 18 19 19 19 19 20 21
➞
Werte
1
2
3
4
5
6
➞
Rangplätze
7
8
9 10 11
m . . . mittlerer Rangplatz
193
i
➊
➋
➌
Berechnung des Medians nach J. Tukey
Sortieren der Werte der Größe nach
Berechnen des Rangplatzes des Medians: m =
Bestimmen des Wertes des Medians.
n+1
2
E Ist n eine gerade Zahl, nimmt man den Mittelwert der beiden
mittleren Zahlen.
Werte
Rangplätze
17 17 18 18 18 19 19 19 19 20 21
1
2
3
4
5
6
∼
x=
7
8
18 + 19
2
9 10 11
= 18.5
194
i
Stem and Leaf Plot
› Beispiel: Berechnen Sie den Median für folgende Werte:
17 19 22 21 27 22 18 18 16 18
15 16 17 20 19 19 19 20 18 18
23 20 18 21 18 17 19 22 17
➜ Sortieren
195
i
Stem and Leaf Plot
› Beispiel: Berechnen Sie den Median für folgende Werte:
15 16 16 17 17 17 17 18 18 18
18 18 18 18 19 19 19 19 19 20
20 20 21 21 22 22 22 23 27
➜ Sortieren
196
i
Stem and Leaf Plot
› Beispiel: Berechnen Sie den Median für folgende Werte:
15 16 16 17 17 17 17 18 18 18
18 18 18 18 19 19 19 19 19 20
20 20 21 21 22 22 22 23 27
➜ Sortieren
E Stem and Leaf Plot nach John Tukey
197
i
Stem and Leaf Plot
1 (1) 1 5
2 (3) 1 66
4 (7) 1 7777
7 (14) 1 8888888
5
1 99999
3 (10) 2 000
2 (7) 2 11
3 (5) 2 222
1 (2) 2 3
1 (1) 2 7
198
i
Stem and Leaf Plot
1 (1) 1 5
2 (3) 1 66
4 (7) 1 7777
7 (14) 1 8888888
← Median
5
1 99999
3 (10) 2 000
2 (7) 2 11
3 (5) 2 222
1 (2) 2 3
1 (1) 2 7
199
i
Stem and Leaf Plot
1 (1) 1 5
2 (3) 1 66
4 (7) 1 7777
7 (14) 1 8888888
5
1 99999
3 (10) 2 000
2 (7) 2 11
3 (5) 2 222
1 (2) 2 3
1 (1) 2 7
Häufigkeit
Wird in SPSS statt
Tiefe ausgegeben
200
i
Stem and Leaf Plot
1 (1) 1 5
2 (3) 1 66
4 (7) 1 7777
7 (14) 1 8888888
5
1 99999
3 (10) 2 000
2 (7) 2 11
3 (5) 2 222
1 (2) 2 3
1 (1) 2 7
Depth
Tiefe
Wird in SPSS statt
201
i
Stem and Leaf Plot
1 (1) 1 5
2 (3) 1 66
4 (7) 1 7777
7 (14) 1 8888888
5
1 99999
3 (10) 2 000
2 (7) 2 11
3 (5) 2 222
1 (2) 2 3
1 (1) 2 7
Stem
Stammweiteausgeg
hier 10
202
i
Stem and Leaf Plot
1 (1) 1 5
2 (3) 1 66
4 (7) 1 7777
7 (14) 1 8888888
5
1 99999
3 (10) 2 000
2 (7) 2 11
3 (5) 2 222
1 (2) 2 3
1 (1) 2 7
Leaf
Blatt
darf nur einstellig sein
203
i
Der Modus einer Verteilung
Der Modus ist Gipfel der Verteilung, der häufigste Wert.
› Beispiel:
0,0,1,1,1,1,2,3,5,19 Modus = 1
Manchmal mehr als 1 Modus:
› Beispiel:
0,0,1,1,1,2,2,3,3,3,5,19 lokaler Modus bei 1 und bei 3
! Wenn Verteilung 2 oder mehrere Gipfel hat: bimodal oder
multimodal
Manchmal kein Modus: 0,1,3,4,6,7,9,11,15 bei Gleichverteilung
204
i
Vergleich Mittelwert, Median und Modus
Mittelwert Summe der Werte/Anzahl der Werte
Median
mittlerer Datenpunkt
Modus
häufigster Wert
Bei eingipfeligen, einigermaßen symmetrischen Verteilungen sind die
Wert der drei annähernd gleich.
! Bei anderen Formen der Verteilung sind die Werte unterschiedlich. Meist Mittelwert 6= Modus ≈ Median
Beispiel
Mittelwert Median
Modus
Testpunkte (symmetrische Vert.)
5.4
5.5
6
Krankenstände (schiefe Vert.)
5.4
1
0
Monatsmagazin (U-förmige Vert.)
5.4
1.5
0 bzw. 12
205
i
Skalenniveau und Lagemaße
Vergleich Mittelwert, Median und Modus
Mittelwert Median Modus
Nominalskala
–
–
ok
Rangskala
–
ok
ok
Intervall- (Rational)skala
ok
ok
ok
206
i
Vorteile des Mittelwertes
• kann ausgerechnet werden, ohne die Daten zu sortieren.
• wenn man x̄ und n kennt, kann man Summe der Einzelwerte
berechnen:
x̄ =
n
1X
n j =1
xj
→
n · x̄ =
n
X
xj
j =1
• Mittelwert kann in weiteren Analyeschritten verwendet werden,
z.B. bei Zusammenfassen mehrerer Datensätze
➜ gewichtete Mittelwerte
207
i
Ausreisser – Outliers
Outliers sind Beobachtungen, die weit weg vom Rest liegen.
› Beispiel: Krankenstände
Mittelwert wäre 1.7 statt 5.4, wenn man die Beobachtung 76
weggelassen hätte.
? Wie enstehen Outliers und was macht man?
✔ Fehler? ➜ korrigieren oder weglassen
✔ reliabel? ➜ weglassen und getrennt darüber berichten
! Median und Modus sind robust gegenüber Ausreissern.
208
i
Gewichtete Mittelwerte
Bei Kombination von Datensätzen gibt es 2 Möglichkeiten,
Gesamtmittelwert zu bestimmen:
P
n
xj x̄
Daten 1:
0,1,1,2,2,3,3,4
8
16
2
Daten 2:
3,4,5
3
12
4
kombiniert: 0,1,1,2,2,3,3,3,4,4,5 11
➊ Mittelwert der einzelnen Mittelwerte:
➋ Mittelwert aller individuellen Werte
28
x̄1 + x̄2
2
2.55
209
i
Gewichtete Mittelwerte
Ergebnisse können unterschiedlich sein.
für
für
➊
➋
x̄ = 3
x̄ = 2.55
Berechnung des gewichteten Mittels:
Die einzelnen Mittelwerte und Stichprobengrößen müssen bekannt
sein
28
n1 · x̄1 + n2 · x̄2
8·2+3·4
=
= 2.55
x̄ =
=
8+3
11
n1 + n2
Jeder Mittelwert mit seinem Anteil an Gesamtbeobachtungszahl
gewichtet.
210
i
Streuungsmaße
Um Daten bzw. Verteilungen zu beschreiben, genügt es nicht, nur
eine Maßzahl für die Lage anzugeben.
Z.B. das durchschnittliche Alter der Studtenten im HS ist 20.5
! Auch die Streuung ist wichtig.
Oft genügt die Information:
Z.B. die meisten Studenten sind zwischen 18 und 21 Jahre alt.
Manchmal präzisere Angaben notwendig.
211
i
2 Arten von Streuungsmaßen
? Wie sehr weichen Daten vom Mittelwert ab?
• mittlere absolute Abweichung
• Varianz
• Standardabweichung
? In welchem Bereich liegen die Daten, bzw. zwischen welchen
Werten liegen die Daten bzw. 50% der Daten
• Spannweite (Range)
• Interquartilsabstand (IQD)
E Streuungsmaße nur bei eingipfeligen, symmetrischen Verteilungen gut interpretierbar.
212
› Beispiel
Zuspätkommende Angestellte
Anzahl von Angestellten, die an 5 Werktagen zu spät ins Büro
kommen:
Daten xj : 11 2 5 1 6
x̄ = 25/5 = 5
➜ Abweichungen vom Mittelwert dj = xj − x̄
Abweichungen dj : 6 -3 0 -4 1
! Mittelwert der dj immer Null, kein geeignetes Streuungsmaß.
E Besser: Mittelwert der absoluten Abweichungen.
213
i
Mittlere absolute Abweichung
MAA =
n
1X
n j =1
|xj − x̄|
› Im Beispiel: MAA = (6 + 3 + 0 + 4 + 1)/5 = 2.8
Werte liegen durchschnittlich 2.8 Einheiten vom Mittelwert entfernt.
✔ Vorteile
verständliches Maß
bei kleinen Stichproben leicht zu berechnen
✔ Nachteile
für spätere Analyse nicht verwendbar
214
i
Varianz und Standardabweichung
Die Varianz ist der Mittelwert der quadrierten Abweichungen
var(x) = s2 =
n
1X
n j =1
(xj − x̄)2
› Beispiel: zuspät kommende Angestellte
Abweichungen:
Quadrate davon:
6 -3 0 -4 1
36 9 0 16 1
s2 = 62/5 = 12.4
215
i
Standardabweichung
Varianz in quadrierten Einheiten
Um zu ursprünglichen Einheiten zurückzukehren:
Standardabweichung ➜ Wurzel aus Varianz
v
u X
√
p
u1 n
s = Var(x) = s2 = t
(xj − x̄)2
n j =1
√
› Im Beispiel: s = 12.4 = 3.5
! Standardabweichung ist etwas größer als MAA.
216
qqqq
qqq qqqq
qqqqq qqqq
q
qq qqqq
qqqq qqqqq
qqq
qq
qqq
qq
qqq
qqq
qqq
q
qqqqqqq
q
q
q
q
qqq
q
q
qqq
qqqq
qq qq qqqqq
qqq
qqq
q
qq q
q
q
qqq
qqq
q
q
qq q
qqq
qqq
qqq
qqq
qqqqq
qqq
qqq
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
qqq
q
q
q
q
q
q
q
qqqqqq
qqq qq
qqqq
q
q
q
q
q
qqq
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
qqq
qqqq
qqq qq
q
qqq
q
q
q
qqq
q
q
q
q
qqqq qq qq
q
q
q
q
qqq
qqqq qqqqq
q
qqq
q
q
q
qqq
q
q
q
q
qqqq qqqq
q
qqq
q
qqq
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
qqq
qqqqqqqqqqq
qqq
q
q
q
q
qqq
q
q
q
q
qqq
q qqqqqqqq
q
q
qqq
q
q
q
q
q
q
q
q
q
q
q
q
q
qq
qqq
q
q qqqq qqqqqqq
q
q
q
q
q
q
qqq qqqqq qqqqq
q
qqq
q
q
q
q
q
q
q
q
q
q
q
q
qqq qqqqqq qqq
qq
qq
qqqqqq
qqqqq qqqqqqqqqqq
qqqq
qq
qqqqqqq
q
q
qq
q
qqqqqq
q
q
q
q
q
q
q
q
q
q
q
q
qqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqq
q
qqqqqqq
q
q
qqqq qqqqq
qqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqq
217
› Beispiel
Wühldauer von Schweinen
100 Schweine in einem neuen Stall
40
30
Prozent
20
10
0
5
15
25
30
20
5
2.0
3.0
4.0
5.0
6.0
7.0
? Wie lassen sich Mittelwert und Varianz berechnen?
218
i
Mittelwert und Varianz aus relativen Häufigkeiten
› Beispiel: Punkte im Test von 20 Studenten
• Daten xi: 2, 3,3, 4,4,4, 5,5,5,5, 6,6,6,6,6, 7,7,7, 8, 9
Index i bezeichnet die i-te Person, insgesamt n.
• unterschiedliche Werte x∗j : 2,3,4,5,6,7,8,9
Index j bezeichnet die j-te Zahl, die vorkommt, insgesamt J
verschiedene Zahlen.
hj
absolute Häufigkeit der j-ten Zahl
rj = hj /n relative Häufigkeit der j-ten Zahl
219
i
Mittelwert und Varianz aus relativen Häufigkeiten
Berechnung des Mittelwerts
x̄= (2 + 3 + 3 + 4 + 4 + 4 + . . . + 7 + 7 + 7 + 8 + 9)/20
= (2·1 + 3·2 + 4·3 + 5·4 + 6·6 + 7·3 + 8·1 + 9·1)/20
= x1 · h1 + x2 · h2 + . . . + xJ · hJ )/n
1X
xj · hj
=
n j
X
=
xj · rj = 5.4
j
220
i
Mittelwert und Varianz aus relativen Häufigkeiten
j
1
2
3
4
5
6
7
8
P
2
3
4
5
6
7
8
9
x∗j
I
II
III
IIII
IIIII
III
I
I
hj
1
2
3
4
5
3
1
1
rj
0.05
0.10
0.15
0.20
0.25
0.15
0.05
0.05
x∗j · rj
0.10
0.30
0.60
1.00
1.50
1.05
0.40
0.40
5.40
[1]
x2j
4
9
16
25
36
49
64
81
x∗j 2 · rj
0.20
0.90
2.40
5.00
9.00
7.35
3.20
4.05
32.10
[2]
221
i
Mittelwert und Varianz aus relativen Häufigkeiten
Mittelwert
x̄ =
X
j
xj =
X
j
x∗j · rj = 5.40
Varianz
Mittelwert der Quadrate [2] minus Quadrat des Mittelwerts [1]:
2
s =
1X
n
j
x2j − x̄2 = [2] − [1]2 = 32.10 − 5.42 = 2.94
› Übungsaufgabe: dieselbe Rechnung für die Wühldauer der
Schweine
222
i
Die Spannweite
Spannweite (Range) größter Wert − kleinster Wert
› Beispiel: xj : 11, 2, 5, 1, 6
x̄ = 5
Spannweite = 11 − 1 = 10
! Wird in der Praxis nicht als Streuungsmaß verwendet, sondern
zur Beschreibung des Wertebereichs (Trägers) der Daten.
Jenes Intervall auf der Zahlengeraden, in dem die Werte von X
liegen.
223
i
Interquartilsabstand
Quantile jene Werte, die eine Haufigkeitsverteilung in gleich
große Stücke teilen.
Quartile teilen eine Häufigkeitsverteilung in 4 Teile
Q1: unteres Quartil 25% der Werte sind kleiner als Q1
Q2: Median
50% der Werte sind kleiner als Q2
Q3: oberes Quartil
75% der Werte sind kleiner als Q3
224
› Beispiel
Quartile
Daten xj := 16, 17, 17, 18, 18, 18, 19, 19, 19, 20, 20, 22
1
1
1
1
2
2
2
6
77
888
999
00
2
Q1 = 17.5
Q2 = 18.5
Q3 = 19.5
225
i
Perzentile
xp Perzentile teilen Häufigkeitsverteilung in 100 Teile
xp ist Wert am Rangplatz p · (n + 1)
Wenn keine ganze Zahl, Mittelwert der Nachbarn.
x0.25 = Q1
x0.50 = Q2
x0.75 = Q3
0.25 Perzentil (unteres Quartil)
0.50 Perzentil (Median)
0.75 Perzentil (oberes Quartil)
› Beispiel (Fortsetzung)
0.25 · 13 = 3.25 ➜ keine ganze Zahl
17 + 18
Q1 = Mittel aus 3. und 4. Wert =
= 17.5
2
n = 12,
226
i
Interquartilsabstand und mittlerer Quartilsabstand
Interquartilsabstand (inter quartile distance)
IQD = Q3 − Q1
mittlerer Quartilsabstand
MQA =
Q3 − Q1
2
✔ nicht so von extremen Werten wie Maximum und Minimum
abhängig.
✔ geben Intervall an, in dem 50% der Werte rund um den Median
liegen.
✔ nur bei symmetrischen und eingipfeligen Verteilungen geeignet.
227
i
Streuungsmaße und Skalenniveau
MAA Varianz IQD Range
(Nominalskala)
–
–
–
(ok)
Rangskala
–
–
?
ok
Intervall-(Rational)skala
ok
ok
ok
ok
228
i
Der Box Plot
✔ gibt Verteilung gut wieder
✔ zeigt Lage- und Streuungsmaße
✔ günstig beim Vergleich mehrer Datensätze
Einfache Version ergibt sich aus Minimum, Maximum und
Quartilen:
25%
min
25%
25% 25%
Q1
Q2
Q3
max
-
15
17
19
21
23
25
27
229
› Beispiel
Boxplot
Daten zu diesem Beispiel:
(1)
(3)
(7)
(14)
(10)
(7)
(5)
(2)
(1)
1
1
1
1
1
2
2
2
2
2
5
66
7777
8888888
99999
000
11
222
3
7
n = 29
min = 15
max = 27
Q1 = (17 + 18)/2 = 17.5
Q2 = 19
Q3 = (20 + 21)/2 = 20.5
230
i
Anatomie eine Boxplots
? ?
y y
y
?
231
i
Anatomie eine Boxplots
Box
Main body of data
?
? ?
y y
y
?
232
i
Anatomie eine Boxplots
Inner Fences
?
? ?
y y
?
y
?
233
i
Anatomie eine Boxplots
1.5 × Länge der Box
? ?
y y
-
y
?
234
i
Anatomie eine Boxplots
Outer Fences
?
? ?
?
y y
y
?
235
i
Anatomie eine Boxplots
3 × Länge der Box
? ?
-
y y
-
y
?
236
i
Anatomie eine Boxplots
größter Wert
innerhalb der Inner Fences
?
? ?
y y
y
?
237
i
Anatomie eine Boxplots
kleinster Wert
innerhalb der Inner Fences
?
? ?
y y
y
?
238
i
Anatomie eine Boxplots
upper outliers
? ?
y y
?
y
?
239
i
Anatomie eine Boxplots
lower outliers
? ?
? ?
y y
y
?
240
i
Anatomie eine Boxplots
far lower outliers
?
?
? ?
y y
y
?
241
i
Anatomie eine Boxplots
far upper outliers
? ?
?
y y
y
?
242
?
Frage
Ein metrisches Merkmal - wichtige Fragestellungen
➊
In welchem Bereich kann man einen Mittelwert
in der Grundgesamtheit erwarten?
› Beispiel: In welchem Bereich kann NPDC die Einnahmen aus
dem Verkauf von CARIDEX erwarten?
243
?
Frage
Ein metrisches Merkmal - wichtige Fragestellungen
➋
Ist ein Mittelwert anders (kleiner, größer oder
ungleich) als eine bestimmte Vorgabe?
› Beispiel: Erreicht man mit einer bestimmten Diät eine durchschnittliche Gewichtsabnahme von mindestens 5 kg?
244
?
Fragestellung 1
In welchem Bereich kann man den Mittelwert einer Grundgesamtheit
erwarten?
› Beispiel: CARIDEX, Anzahl der behandelten Zähne pro Woche
Gesucht ist der Mittelwert der in einer Woche mit Caridex
behandelten Zähne für alle in Frage kommenden Zahnärzte.
? In welchem Bereich kann man diesen Mittelwert erwarten?
? Wenn der Mittelwert aus der Stichprobe errechnet wurde, kann
man daraus schließen, wo der unbekannte Mittelwert der Population liegt?
245
› Beispiel
CARIDEX
Repräsentative Stichprobe n = 400 Zahnärzte:
100
80
60
Anzahl
40
20
0
2
3
4
5
6
7
8
9
10
11
246
i
Inferenzstatistik
Beschreibende Statistik
Graphische und numerische Methoden, um Informationen aus Daten
zu gewinnen und zusammenzufassen.
Inferenzstatistik – Schliessende Statistik
Methoden, um Informationen aus Stichproben so zu nutzen, daß
Rückschlüsse auf eine Population gezogen werden können.
•
•
•
•
Schätzen, Prognose
Testen, Prüfen von Fragestellungen
Aufspüren von Zusammenhängen
Entwicklung von Erklärungsmustern
247
i
Inferenzstatistik
Meist ist es nicht möglich, die gesamte Population zu untersuchen –
zu aufwendig oder zu kostspielig.
Einfacher: Stichprobe ziehen ➜ Schlußfolgerungen aufgrund von
Statistiken.
Aber: Schätzungen und Schlußfolgerungen aufgrund von Stichprobendaten nicht immer korrekt.
Daher: Maße für die Zuverlässigkeit von Schlußfolgerungen.
!
Konfidenzniveau:
Prozentsatz der Fälle, in denen eine
Schätzung korrekt ist.
Signifikanzniveau: Prozentsatz der Fälle, in denen eine Entscheidung falsch ist.
248
i
➊
➜
Methoden der Inferenzstatistik
Methoden zu Schätzung oder Vorhersage von Werten in einer
Population.
siehe Fragestellung 2.
› Beispiele
• Wieviel Prozent der Österreicher sind für die Einführung des
Euro?
• Wie hoch ist der Durchschnittsverbrauch von Milch/Tag bei
Kindern unter 10?
249
i
Methoden der Inferenzstatistik
➋
Methoden zur Überprüfung (Testen) von Fragestellungen
(Hypothesen), die die Population betreffen.
➜
siehe Fragestellung 3
› Beispiele
• Unterscheiden sich Arbeiter und Angestellte bezüglich der
durchschnittlichen Anzahl von Krankenstandstagen pro Jahr?
• Besteht ein Zusammenhang der Intelligenzquotienten bei verheirateten Paaren?
250
i
Methoden der Inferenzstatistik
➌
Modelle zum Auffinden von Zusammenhängen und
Erklärungsmustern.
➜
siehe Fragestellung 5: zwei metrische Merkmale
› Beispiele
• Hängen die Anzahl eingenommener Vitamintabletten und die
Anzahl von Krankenstandstagen zusammen?
• Läßt sich der Bezinverbrauch durch das Gewicht, Hubraum, PS
oder Herstellerland eines Autos erklären?
251
i
Grundidee der Inferenzstatistik
Population (Grundgesamtheit)
Charakteristika einer Population ➜ Parameter
› Beispiele:
• Durchschnittsalter aller Studenten an der WU
• Anteil der Euro-Befürworter in Österreich
Stichprobe
Charakteristika einer Stichprobe ➜ Statistiken
› Beispiele:
• Mittelwert, Prozentsatz . . .
252
i
Beziehung Parameter ↔ Statistiken
3 Arten von Verteilungen
➊
Verteilung einer Population
Häufigkeiten für alle Werte aus einer Population
➋
Verteilung in einer Stichprobe
Häufigkeiten für alle Werte aus einer Stichprobe
➌
Verteilung von Statistiken
Häufigkeiten, mit der bestimmte Kennwerte (Statistiken) auftreten, wenn viele Stichproben aus derselben Population gezogen
werden.
253
i
Beziehung Parameter ↔ Statistiken
Beispiel
✔ Stichprobe ziehen → Mittelwert berechnen
✔ Zweite Stichprobe ziehen → Mittelwert berechnen
✔ Dritte Stichprobe ziehen → Mittelwert berechnen
das macht man viele Male. . .
✔ Histogramm aller so berechneten Mittelwerte
➥
E
Resultat sieht immer aus wie eine Normalverteilung, egal wie
die Verteilung in der Population war.
Das gilt auch für andere Statistiken wie Anteile,
Regressionskoeffizienten etc.
254
Verteilung in Population
Mittelwert = 16.00
Median = 16.00
Standardabweichung = 2.24
2
4
6
8 10 12 14 16 18 20 22 24 26 28 30 32
5 Stichproben
n=5
x̄ = 14.03
1000 Stichproben
n=5
x̄ = 16.07
s = 2.22
255
i
Die Normalverteilung
Theoretische Verteilung, die durch
• Mittelwert µ und
• Standardabweichung σ
relative Häufigkeit
festgelegt wird.
rrrrrrrrrrrrrrrrrr
rrrr
rrr
r
r
rrr
rr
rrr
rrrr
rrr
rr
r
rr
r
rr
rr r
rr
rr
rr
rr
rr
rr
rr
rr
rr
rr
rr
rrr
rr
rr
rr
rrr
rr
rrr
rrr
r
rr
rr
r
rrr
r
rr
rrr
r
r
r
rrr
r
rr
rrrr
r
r
r
r
rrrr
r
r
rrrrrr
rrr
r
r
r
rrrrrr
r
r
r
r
r
r
rrrrrrrrrrrrrr
r
r
r
r
r
rrrrrrrrrrrrrrrrrrr
rrrrrrrrrrrrrrrrrrrrrrrrrrrr
1
−(x−µ)2/2σ 2
f (x) = √ e
σ 2π
256
i
Die Normalverteilung
257
i
Gestalt der Normalverteilung
Die Gestalt der Verteilung wird durch die Parameter µ und σ
bestimmt.
Schreibweise: X ∼ N (µ, σ 2)
r
rrrrrr
rrr rrrr
r rr
rr rrr
rrrr rrrr
r
rrr rrrr
rr
rrrr
rrr
r
rrr
r
r
r
r
r
r
r rrrrr
r
r
rrr
r
r
r rrr
r
r
rr
r
rrr
rr
r
rrrr
rrr
r
rr
r
rrr
rrr
rr
r
rrr
r
rr
r
rrrr
rr
rr
r
rrr
r
r
r
rr rr
rrrrrrrrrrrrrrrrrrrrrr
r
rrr
r
r
r
r
r
r
r
r
r
r
r
rrr
r
r
r
r
r
r
rr r
rrrrrr
rrr
r
rrr
r
r
r
r
r
r
r
r
r
r
r
r
r
r
rrr
r
r
r
r
rrrr rr r
rrr
r
r
r
r
rrr
r
r
r
r
r
r
r
r
r
r
r
r
r
r
r
r
rrr
rrrr rr
rrr
r
r
r
r
r
rr
r
r
r
r
rrrrrrr
rr
r
r
rr
r
r
r
r
r
r
rrrr
r
r
rr
r
r
r
r
r
r
rrr
r rrrrrrr
rrr
r
r
r
r
r
r
r
r
r
rrr
r
r
r
r
r
r
r
r
r
r
r
r
r
r
r
rrr
r
r
r
r
rr rrrrrr
rrr
r
r
r
r
rr
r
r
r
r
r
r
r
r
r
r
r
r
r
r
r
r
r
r
rrr rrrrrrr rrrr
r
r
rrrr
r
r
r
r
r
r
r
r
rrrr rrrrrr rr
r
rr
rrrr
rrrrr
rrrrrr
rr
rrrrr
rrrrrrr rrrrrrrrrrrrrrrrrrrrrrrrrr
rrrrrrrr
r
r
r
r
r
r
r
r
r
r
r
r
r
r
r
r
r
r
r
r
r
rrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrr
r
r
rrr rrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrr
rrrrrrrrrrrr rrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrr
rrrrrrrrrrrrr
rrrrrrrrrr
rrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrr
N(0,1)
N(2,0.5)
N(-1,2)
-6
-4
-2
0
2
4
6
258
i
Die Standardnormalverteilung
Z ∼ N (0, 1)
Eigenschaften
✔ Verteilung ist eingipfelig und symmetrisch
Mittelwert, Median und Modus gleich
✔ Normalverteilung paßt daher oft sehr gut für symmetrische,
eingipfelige Daten wie z.B. Körpergröße, IQ etc.
✔ Normalverteilung ist ein Modell, d.h. ein vereinfachtes Abbild
der Realität.
✔ sind Mittelwert und Varianz bekannt, kann man die relative
Häufigkeit (genauer Wahrscheinlichkeit) angeben, mit der Werte
in einem bestimmten Intervall realisiert werden.
259
i
Eigenschaften der Standardnormalverteilung
ca. 68% der Daten liegen ±1 · σ vom Mittelwert.
ca. 95% der Daten liegen ±2 · σ vom Mittelwert.
260
i
Normalverteilung
Nur selten haben Daten Mittelwert 0 und Varianz 1. Man kann aber
jede beliebige Variable X in eine Variable Z so transformieren, daß
sie dann Mittelwert 0 und Varianz 1 besitzt.
x−µ
➜ Standardisieren z =
σ
X ∼ N (2, 2)
-6 -4 -2
0
2
4
6
8
261
i
Normalverteilung
Nur selten haben Daten Mittelwert 0 und Varianz 1. Man kann aber
jede beliebige Variable X in eine Variable Z so transformieren, daß
sie dann Mittelwert 0 und Varianz 1 besitzt.
x−µ
➜ Standardisieren z =
σ
X − 2 ∼ N (0, 2)
-6 -4 -2
0
2
4
6
8
262
i
Normalverteilung
Nur selten haben Daten Mittelwert 0 und Varianz 1. Man kann aber
jede beliebige Variable X in eine Variable Z so transformieren, daß
sie dann Mittelwert 0 und Varianz 1 besitzt.
x−µ
➜ Standardisieren z =
σ
X −2
∼ N (0, 1)
Z= √
2
-6 -4 -2
0
2
4
6
8
263
i
Zentraler Grenzwertsatz
X mit beliebiger Verteilung, Mittelwert µ und Varianz σ 2:
E Mittelwerte aus Stichproben der Größe n sind approximativ
normalverteilt, wenn n ausreichend groß ist.
Dabei gilt:
• Mittelwert der Stichprobenmittel = µx̄ = µ
σ
• Standardabweichung der Stichprobenmittel = σx̄ = √
n
! Faustregel:n > 30
264
i
Variabilität der Verteilung in Stichproben und von Statistiken
› Beispiel:
• Getränk in 1 Liter Flaschen abgefüllt
• Maschine arbeitet mit µ = 1 und σ = 0.02
• 10 Tage jeweils 1 Stichprobe von n = 10 Flaschen ➜ Mittelwerte
1.10
u
1.05
u
u
u
u
u
u
u
u
u
u
u
u
u
u
u
u
q
q
q
q
q
q
q
q
q
q
q
q
u
u
u
q
q
q
q
q
q
qqqqqqqqqqqqqu
u
qqqq u
q
q
u
u
u
u
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
u
u
u
u
u
u
u
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
u qqqqqqq
u qqq qqqqqq u
qqq u qqqqqqqqqqqqqqqqqqqquqqqqqq
qqq
u
u qqqqqqqqqqqqqqu
qqqqqqqqqqqqqqqqqqqqqqqqqu
qqqqqqqqqqqqqqq u
qqqqqqq
qqqqqq u
uqqqqqqq qqqqqqq qqqq u
u
qq
q
q
q
u
u
u
u
u
u
q
q
q
q
q
q
q
qqu
q
u
u
u
q
u
u
qqqqqq u
u
u
u
u
qqqqu
u
u
u
u
u
u
u
u
u
u
u
u
u
u
u
u
u
1.00
Liter
u
u
u
u
0.95
0.90
0
2
Stichprobe
4
6
8
10
265
› Beispiel
Abfüllanlage
! Verteilung√ der Stichprobenmittelwerte hat eine um den
Faktor 1/ n geringere Streuung als Verteilung in Population
1.10
Verteilung
aller Werte
x̄ = 1.00
s = 0.018
1.05
1.00
0.95
0.90
Verteilung
der Mittelwerte
x̄x̄ = 1.00
sx̄ = 0.007
266
i
Konfidenzintervalle
Wir wissen, wie groß die Variabilität der Mittelwerte sein kann und
welche Form ihre Verteilung hat.
Weiters wissen wir
• ca. 68% der Stichprobenmittel liegen ±1σ von µ.
• ca. 95% der Stichprobenmittel liegen ±2σ von µ.
Fragestellung 1 (Caridex) war:
? Wenn wir den Mittelwert errechnet haben, können wir dann
daraus schließen, wo das unbekannte µ liegt?
267
i
Konfidenzintervall für den Mittelwert
Problem: man kennt µ nicht
➜ Ersetzen durch aktuellen Stichprobenmittelwert (schätzen).
Man kennt allerdings auch σ nicht . . .
Konfidenzintervall für Mittelwerte
bei bekannter Varianz σ 2 der Population
KI: x̄ ± c
σ
c = z(1+γ )/2 √
n
! Es ist sehr plausibel, daß das Intervall das unbekannte µ enthält.
Plausibel: mit Konfidenzniveau γ (Sicherheitswahrscheinlichkeit),
üblich sind Werte von 95% oder 99%.
268
i
Interpretation von Konfidenzintervallen
✔ Ziehen sehr vieler Stichproben
✔ Berechnen des Mittelwerts und des entsprechenden Konfidenz
intervalls für jede Stichprobe.
✔ der Anteil der Konfidenzintervalle, die das tatsächliche µ ent
halten, beträgt γ.
! für eine einzelnen Stichprobe kann man keine exakte Aussage
machen.
269
› Beispiel
15 Stichproben mit 15 Konfidenzintervallen
µ
1
2
3
4
5
6
7
8
9
10 11 12 13 14 15
270
i
Konfidenzintervalle bei unbekannter Varianz
Normalfall, Varianz muß aus Stichprobe geschätzt werden: s2 → σ̂ 2
2
σ̂ =
1
n−1
X
(xi − x̄)2
Anstelle der Normalverteilung wird die t-Verteilung verwendet.
• t-Verteilung sieht aus wie Normalverteilung, nur breiter.
• Hat Freiheitsgrade df wie χ2-Verteilung.
• Wenn df→ ∞: t-Verteilung → Normalverteilung
271
i
t-Verteilung
Freiheitsgrade
-5
-4
-3
-2
-1
0
1
2
3
4
5
1
2
5
∞
272
i
Konfidenzintervall bei unbekannter Varianz
KI: x̄ ± c
σ̂
c = t 1+γ ,n−1 √
2
n
t 1+γ ,n−1 = (1 + γ)/2– Perzentil der t-Verteilung mit n − 1
2
Freiheitsgraden.
Diese Perzentile sind tabelliert.
273
i
Tabelle wichtiger t-Werte für γ = 0.95
df t-Wert
1 12.71
2
4.30
3
3.18
4
2.78
5
2.57
6
2.45
7
2.36
8
2.31
9
2.26
10
2.23
df t-Wert
11
2.20
12
2.18
13
2.16
14
2.14
15
2.13
16
2.12
17
2.11
18
2.10
19
2.09
20
2.09
df t-Wert
21
2.08
22
2.07
23
2.07
24
2.06
25
2.06
26
2.06
27
2.05
28
2.05
29
2.05
30
2.04
df t-Wert
40
2.02
50
2.01
60
2.00
70
1.99
80
1.99
90
1.99
100
1.98
150
1.98
200
1.97
∞
1.96
274
› Beispiel
Caridex, 95%-Konfidenzintervall
• Stichprobe n = 400
• x̄ = 4.015
• σ̂ = 1.76, berechnet mit 1/(n − 1)
df= 399,
=⇒ t-Wert = 1.96
σ̂
KI: x̄ ± c c = t0.975,399 √
n
1.76
c = 1.96 · √
= 0.172
400
KI: [3.843; 4.187]
275
› Beispiel
CARIDEX: Ergebnis SPSS
behandelte Zähne
Verarbeitete Fälle
Fälle
Gültig
Fehlend
N Prozent N Prozent
400 100.0% 0
0.0%
Gesamt
N Prozent
400 100.0%
Univariate Statistiken
behandelte Zähne
Mittelwert
95% Konfidenzintervall
des Mittelwerts
Untergrenze
Obergrenze
Statistik
4.01
3.84
4.19
Standard
fehler
0.09
276
› Beispiel
CARIDEX: Ergebnis R
In R werden Konfidenzintervalle gemeinsam mit Tests über den
Mittelwert (siehe Fragestellung 2) ausgeführt.
One Sample t-test
data: CAVITIES
t = 45.5152, df = 399, p-value =< 2.2e-16
alternative hypothesis: true mean is not equal to 0
95 percent confidence interval:
3.841581 4.188419
sample estimates:
mean of x
4.015
277
?
Fragestellung 2
Ist ein Mittelwert anders (ungleich, kleiner oder größer) als eine
bestimmte Vorgabe?
Man möchte prüfen, ob die Größe eines Durchschnittswerts in der
Grundgesamtheit einer bestimmten Annahme entspricht.
› Beispiel: Wird mit einer bestimmten Diät innerhalb von 3
Wochen eine durchschnittliche Gewichtsabnahme von mehr als
5 kg erreicht?
278
› Beispiel
Diät-Boxplot
Stichprobe n = 20 ergab: x̄ = 4.73
8
7
6
5
4
3
2
1
0
279
› Beispiel
Diät-Gewichtsabnahme
Stichprobe n = 20 ergab: x̄ = 4.73
? Widerspricht dies der Vorgabe, daß die durchschnittliche Gewichtsabnahme in 3 Wochen mehr als 5 kg beträgt?
2 Lösungsansätze
➊
➋
Varianz in Population bekannt
Varianz in Population unbekannt
wird aus Stichprobe geschätzt.
280
i
Testen von Hypothesen
Eine Hypothese ist eine Vorhersage über einen bestimmten Aspekt
einer oder mehrerer Variabler.
Problemstellung
Liefern Stichprobendaten genügend Evidenz, daß die jeweilige
Fragestellung positiv beantwortet werden kann?
2 Arten von Hypothesen
• Nullhypothese H0
• Alternativhypothese HA
281
i
Die Nullhypothese
In der Nullhypothese H0 wird ein einzelner Wert für einen
Parameter festgelegt.
› Beispiel: Führt eine bestimmte Diät innerhalb von 3 Wochen zu
einer durchschnittlichen Gewichtsreduktion von 5 kg?
H0 : µ = 5
282
i
Alternativhypothese
Die Alternativhypothese HA
• ist die wichtigere Hypothese, das was man eigentlich sagen will.
• ist das logische Gegenteil der Nullhypothese
• wird akzeptiert, wenn H0 verworfen wird.
• legt einen Bereich für den Wert eines Parameters fest.
E Art der Alternative hängt ab von Vorwissen und Interessen,
insbesondere von den Kosten einer Fehlentscheidung.
➥
3 mögliche Formen
283
i
Arten von Alternativen
➊
Konsumentenschützer vermuten Schwindel, glauben, daß der
Gewichtsverlust geringer ist als angegeben.
HA : µ < 5
➋
Hersteller ist von Diät überzeugt, möchte zeigen, daß Abnahme
durchschnittlich mehr als 5 kg beträgt.
HA : µ > 5
➌
Ernährungswissenschaftler möchte nur prüfen, ob die Angabe
richtig ist.
HA : µ 6= 5
284
i
Signifikanzniveau
Eine Stichprobe von 20 Personen könnte ergeben x̄ = 4.73.
? Spricht die für oder gegen dies Nullhypothese?
! Entscheidungen nur mit bestimmter Sicherheit
Beim Testen verwendet man das Signifikanzniveau (Fehlerniveau)
α und nicht wie bei Konfidenzintervallen das Sicherheitsniveau γ.
Beziehung: Signifikanzniveau α ↔ Konfidenzniveau γ:
α=1−γ
Gebräuchliche Werte: α = 0.05, α = 0.01
285
i
Testen von Hypothesen – kritische Schranke
kritische
Schranke
HA : µ < 5
α = 0.05
4
J
H0 verwerfen
4.41
5
6
I
H0 beibehalten
286
i
Testen von Hypothesen – p-Wert
HA : µ < 5
p-Wert = 0.224
4
4.73
N
5
6
Stichproben-Mittelwert
J
I
H0 verwerfen
H0 beibehalten
287
i
Prüfen von H0 mittels p-Wert
p-Wert ist die Wahrscheinlichkeit, einen bestimmten
Stichprobenmittelwert (Teststatistik) oder einen noch extremeren
Wert in Richtung Alternativhypothese zu erhalten, unter der
Annahme, daß H0 zutrifft.
! Überschreitungswahrscheinlichkeit
Damit wird beurteilt, wie plausibel die Nullhypothese ist.
Je nach Formulierung von HA gibt es zwei verschiedene Situationen.
p-Wert < α =⇒ H0 verwerfen
p-Wert ≥ α =⇒ H0 beibehalten
288
i
Prüfen von H0 mittels kritischem Wert
Kann der p-Wert nicht berechnet werden, dann wird die
Nullhypothese beurteilt mittels eines Vergleichs der Teststatistik T
mit einem kritischen Wert. Im Beispiel: Teststatistik T = x̄.
! Teststatistik T > oder < kritischer Wert =⇒ H0 verwerfen.
HA : µ < µ 0
H0 verwerfen, wenn T < als kritischer Wert.
HA : µ > µ 0
H0 verwerfen, wenn T > als kritischer Wert.
HA : µ 6= µ0
H0 verwerfen, wenn |T | > als kritischer Wert.
289
› Beispiel
Diät-Gewichtsabnahme
Erreicht man mit einer bestimmten Diät innerhalb von 3 Wochen
eine durchschnittliche Gewichtsabnahme von mehr als 5 kg?
✔ Irrtumswahrscheinlichkeit α = 0.05
✔ Stichprobe: n = 20, x̄ = 4.73, s = 1.6
➜ 2 mögliche Situationen
➊
Varianz σ 2 der Population bekannt
Einstichproben z-Test mit Normalverteilung
in der Praxis eher selten
290
› Beispiel
➋
Diät-Gewichtsabnahme
Varianz σ 2 der Population ist nicht bekannt und muß aus der
Stichprobe geschätzt werden
Einstichproben t-Test
! Berechnung mit Statistikprogrammen, in der Regel werden
p-Werte berechnet.
291
› Beispiel
Ergebnis: Diät - Gewichtsabnahme – R
> t.test(x, mu=5, alternative="greater")
One Sample t-test
data: abnahme
t = -0.7414, df = 19, p-value = 0.7662
alternative hypothesis: true mean is greater than 5
95 percent confidence interval:
4.116767
Inf
sample estimates:
mean of x
4.734953
292
› Beispiel
Ergebnis: Diät - Gewichtsabnahme
✔ p-Wert 0.766 ist größer als 0.05, daher H0 beibehalten.
➥
man erreicht mit dieser Diät keine durchschnittliche Gewichtsabnahme von 5 kg oder mehr innerhalb von 3 Wochen.
293
› Beispiel
Ergebnis: Diät - Gewichtsabnahme – SPSS
Statistik bei einer Stichprobe
Gewichtsabnahme
N
20
Mittelwert
4.73
Standardabweichung1.60
Test bei einer Stichprobe
Gewichtsabnahme
Testwert = 5
T
df Sig. (2-seitig)
-0.741 19
0.468
294
› Beispiel
Ergebnis: Diät - Gewichtsabnahme – SPSS
•
SPSS gibt den p-Wert nur für 2-seitige Alternative aus, im
Beispiel ist HA : µ > 5 aber einseitig.
•
den einseitigen p-Wert erhält man durch Halbieren des zweiseitigen Wertes: 0.234 = 0.468/2
! Achtung: das Stichprobenmittel x̄ = 4.73 liegt nicht in der
Richtung der Alternative H0 : µ = 5,
•
➥
HA : µ > 5
daher ist der korrekte p-Wert: 1 − 0.234 = 0.766.
Entscheidung dieselbe wie oben: H0 : µ = 5 beibehalten.
Herunterladen