Von der Normalverteilung zu z-Werten und

Werbung
Von der Normalverteilung zu z-Werten und
Konfidenzintervallen
Sven Garbade
Fakultät für Angewandte Psychologie
SRH Hochschule Heidelberg
[email protected]
Statistik 1
S. Garbade (SRH Heidelberg)
Normalverteilung
Statistik 1
1 / 50
Agenda
Die Normalverteilung
Zentrales Grenzwerttheorem
z-Werte
Konfidenzintervalle
S. Garbade (SRH Heidelberg)
Normalverteilung
Statistik 1
2 / 50
Die Normalverteilung
Outline
Die Normalverteilung
Von der Binomialverteilung zur Normalverteilung
Verschiedene Normalverteilungen
Bedeutung der Normalverteilung
Dichte
Standardnormalverteilung
Flächenanteile der Standardnormalverteilung
Verteilungsfunktion
Quantilsfunktion
S. Garbade (SRH Heidelberg)
Normalverteilung
Statistik 1
3 / 50
Die Normalverteilung
Von der Binomialverteilung zur Normalverteilung
Von der Binomialverteilung zur Normalverteilung
0.10
0.00
0.05
Wahrscheinlichkeit [0, 1]
0.15
0.20
p = 0.5
0
5
10
15
20
• Eine Binomialverteilung:
• Jetzt stellen wir uns die Binomialverteilung mit folgenden Änderungen
k
vor:
• Sehr vielen k, oder besser: k 7→ ∞.
• Wir haben keine diskreten Stufen mehr, sondern stetige, dass heisst
zwischen zwei Zahlen liegen unendlich viele weitere Zahlen, k ∈ R+ .
• Dann wird aus den Stufen“ eine Linie.
”
S. Garbade (SRH Heidelberg)
Normalverteilung
Statistik 1
4 / 50
Die Normalverteilung
Von der Binomialverteilung zur Normalverteilung
Von der Binomial- zur Normalverteilung
0.06
0.05
Dichte
0.04
0.03
0.10
0.01
0.00
0.02
0.05
Wahrscheinlichkeit [0, 1]
0.15
0.07
0.20
0.08
p = 0.5
5
10
15
20
k
S. Garbade (SRH Heidelberg)
0
5
10
15
20
k
Normalverteilung
Statistik 1
5 / 50
Die Normalverteilung
Von der Binomialverteilung zur Normalverteilung
Eigenschaften der Normalverteilung
• Wir erhalten eine glockenförmige, symmetrische, unimodale
(eingipflige) Verteilung.
• Nähert sich links und rechts asymptotisch der x-Achse.
• Unterscheiden sich bezüglich ihres Mittelwertes und ihrer
Standardabweichung.
• Diese Verteilung wurde vom deutschen Mathematiker Carl Friedrich
Gauß 1809 beschrieben. Sie heißt daher auch Gauß-Verteilung.
Vorläufer sind Arbeiten zum Binomialkoeffizienten von Abraham de
Moivre (1733) und Pierre-Simon Laplace (1782).
S. Garbade (SRH Heidelberg)
Normalverteilung
Statistik 1
6 / 50
Die Normalverteilung
Verschiedene Normalverteilungen
Verschiedene Normalverteilungen
1.00
µ = 16; σ = 0.5
Dichte
0.75
0.50
0.25
µ = 15; σ = 1.2
0
13
S. Garbade (SRH Heidelberg)
14
15
16
17
Werte der Variablen
Normalverteilung
Statistik 1
7 / 50
Die Normalverteilung
Bedeutung der Normalverteilung
Bedeutung der Normalverteilung
• Sehr bedeutsame Verteilung für die Statistik.
• Für kontinuierliche Variablen.
• Bei unendlichem n (z. B. unendlichem Münzwurf) geht die Binomial–
in die Normalverteilung über.
• Viele Merkmale sind in der Bevölkerung/Population normalverteilt
(Bsp. IQ), oder können ausreichend gut durch eine Normalverteilung
beschrieben werden.
• Konvention: Populationsparameter wie Mittelwert und
Standardabweichung werden mit griechischen Buchstaben bezeichnet:
µ (sprich: mü) und σ (sprich: sigma).
S. Garbade (SRH Heidelberg)
Normalverteilung
Statistik 1
8 / 50
Die Normalverteilung
Dichte
Dichte
• Im Gegensatz zu diskreten Variablen können Wahrscheinlichkeiten für
stetige Variablen nicht direkt berechnet werden.
• Grund hierfür ist der Wertebereich: zwischen zwei reellen Zahlen
liegen unendlich viele andere reelle Zahlen.
• Beispiel: Zwei Menschen sind nicht exakt gleich groß.
• Da der Ereignisraum unendlich groß ist, liegt die Wahrscheinlichkeit
für ein Ereignis nahe bei Null.
• Die Wahrscheinlichkeit einer stetigen Zufallsvariable wird daher
darüber bestimmt, wie wahrscheinlich es ist, dass diese Zahl in ein
bestimmtes Intervall fällt.
• Dazu muss zunächst die Häufigkeitsverteilung der Variablen bestimmt
werden: Diese nennt man Dichte bzw. Dichtefunktion.
• Die Fläche unter einer Dichteverteilung ist 1, bzw. 100%.
S. Garbade (SRH Heidelberg)
Normalverteilung
Statistik 1
9 / 50
Die Normalverteilung
Dichte
Dichte (Forts. 2)
• Die Wahrscheinlichkeit, dass eine stetige Zufallsvariable mit bekannter
Verteilung in ein bestimmtes Intervall fällt, ist der Flächenanteil, der
unterhalb der Dichteverteilung liegt.
• Flächenanteil unterhalb der Dichte ist gleich der
Wahrscheinlichkeit, dass eine Zufallsvariable dieser Verteilung in
diesem Intervall liegt.
S. Garbade (SRH Heidelberg)
Normalverteilung
Statistik 1
10 / 50
Die Normalverteilung
Dichte
Dichtefunktion der Normalverteilung
Dichtefunktion der Normalverteilung
Die Dichtefunktion der Normalverteilung ist definiert über:
[
]
1
(x − µ)2
f(x) = √ exp −
mit: −∞ < x < ∞
2σ 2
σ 2π
wobei:
f(x)
µ
σ
π
exp
(1)
Dichte an der Stelle x
Populationsmittelwert
Standardabweichung der Population
3.14159265. . .
Exponentialfunktion ex mit e = 2.718282 . . .
S. Garbade (SRH Heidelberg)
Normalverteilung
Statistik 1
11 / 50
Die Normalverteilung
Dichte
Rechenbeispiel Dichte
• Für die normalverteilte Variable x = 14 ∼ N (µ = 15, σ = 1.2) soll die
Dichte berechnet werden.
• Einsetzen:
]
[
1
(x − µ)2
f(x) = √ exp −
2σ 2
σ 2π
[
]
1
(14 − 15)2
√ exp −
=
2 · 1.22
1.2 · 2π
(
)
1
= 0.33 · exp −
2.88
= 0.33 · 0.71
= 0.23
S. Garbade (SRH Heidelberg)
Normalverteilung
Statistik 1
12 / 50
Die Normalverteilung
Standardnormalverteilung
Standardnormalverteilung
Standardnormalverteilung
Setzt man für µ = 0 und σ = 1 vereinfacht sich die Dichte der
Normalverteilung zu:
[
]
1
(x − 0)2
√ exp −
φ(x) =
2 · 12
1 · 2π
[ 2]
1
x
= √ exp −
2
2π
(2)
Diese Dichtefunktion nennt man Standardnormalverteilung. Jede
normalverteilte Variable N (µ, σ) kann in die Standardnormalverteilung
N (µ = 0, σ = 1) überführt werden.
S. Garbade (SRH Heidelberg)
Normalverteilung
Statistik 1
13 / 50
Die Normalverteilung
Standardnormalverteilung
Standardnormalverteilung µ = 0; σ = 1
Dichte
-3σ
-2σ
S. Garbade (SRH Heidelberg)
-1σ
0
Normalverteilung
1σ
2σ
3σ z-Werte
Statistik 1
14 / 50
Die Normalverteilung
Standardnormalverteilung
Standardnormalverteilung µ = 0; σ = 1
Dichte
≈68.26% der Fläche
-3σ
-2σ
-1σ
∫1
−1
S. Garbade (SRH Heidelberg)
0
√1
2π
1σ
[ 2]
exp − x2 dx
Normalverteilung
2σ
3σ z-Werte
Statistik 1
14 / 50
Die Normalverteilung
Standardnormalverteilung
Standardnormalverteilung µ = 0; σ = 1
Dichte
≈95.44% der Fläche
-3σ
-2σ
-1σ
∫2
−2
S. Garbade (SRH Heidelberg)
0
√1
2π
1σ
[ 2]
exp − x2 dx
Normalverteilung
2σ
3σ z-Werte
Statistik 1
14 / 50
Die Normalverteilung
Flächenanteile der Standardnormalverteilung
Flächenanteile
• Da die Berechnung der Flächenanteile der Dichte verschiedener
Verteilungen und damit der Wahrscheinlichkeiten für stetige Variablen
i. d. R. sehr aufwendig ist, existieren für viele Verteilungen
entsprechende Tabellen.
• Heuzutage können diese Flächenanteile auch mit Statistik- oder
Tabellenkalkulationsprogrogrammen einfach bestimmt werden.
• Typischerweise sind die Flächen links vom Wert der Variablen
tabelliert.
• Die Flächenanteile der Standardnormalverteilung sind tabelliert. Alle
anderen normalverteilten Variablen müssen zunächst standardisiert
werden, um die tabellierten Werte zu nutzen.
S. Garbade (SRH Heidelberg)
Normalverteilung
Statistik 1
15 / 50
Die Normalverteilung
Flächenanteile der Standardnormalverteilung
Flächenanteile der Standardnormalverteilung
Angegeben sind die Flächenanteile links vom z-Wert:
z
-3
-2.9
-2.8
-2.7
-2.6
-2.5
-2.4
-2.326
-2.3
-2.2
-2.1
-2
-1.96
-1.9
Fläche
0.0013
0.0019
0.0026
0.0035
0.0047
0.0062
0.0082
0.0100
0.0107
0.0139
0.0179
0.0228
0.0250
0.0287
z
-1.8
-1.7
-1.645
-1.6
-1.5
-1.4
-1.3
-1.2
-1.1
-1
-0.9
-0.8
-0.7
-0.6
S. Garbade (SRH Heidelberg)
Fläche
0.0359
0.0446
0.0500
0.0548
0.0668
0.0808
0.0968
0.1151
0.1357
0.1587
0.1841
0.2119
0.2420
0.2749
z
-0.5
-0.4
-0.3
-0.2
-0.1
0
0.1
0.2
0.3
0.4
0.5
0.6
0.7
Fläche
0.3085
0.3446
0.3821
0.4207
0.4602
0.5000
0.5398
0.5793
0.6179
0.6554
0.6915
0.7257
0.7580
Normalverteilung
z
0.8
0.9
1
1.1
1.2
1.3
1.4
1.5
1.6
1.645
1.7
1.8
1.9
Fläche
0.7881
0.8159
0.8413
0.8643
0.8849
0.9032
0.9192
0.9332
0.9452
0.9500
0.9554
0.9641
0.9713
z
1.96
2
2.1
2.2
2.3
2.326
2.4
2.5
2.6
2.7
2.8
2.9
3
Fläche
0.9750
0.9772
0.9821
0.9861
0.9893
0.9900
0.9918
0.9938
0.9953
0.9965
0.9974
0.9981
0.9987
Statistik 1
16 / 50
Die Normalverteilung
Flächenanteile der Standardnormalverteilung
Bestimmung des Flächenanteils µ ± 1σ
• Wieviel Prozent der Messwerte der Standardnormalverteilung liegen
im Bereich von ± einer Standardabweichung um den Mittelwert?
• Die Tabelle liefert für:
• F(z = 1) = 0.8413
• F(z = −1) = 0.1587
• Damit ist die Fläche im Bereich µ ± 1σ: 0.8413 − 0.1587 ≈ 0.6826.
• Dies entspricht 68.26% der Fläche (unter Berücksichtigung der
Rundungsungenauigkeiten).
• Da die Fläche unterhalb der Dichte als Wahrscheinlichkeit interpretiert
werden kann, gilt äquivalent: p(−1 < z < 1) = 0.6826.
S. Garbade (SRH Heidelberg)
Normalverteilung
Statistik 1
17 / 50
Die Normalverteilung
Flächenanteile der Standardnormalverteilung
Flächenanteile der Normalverteilung
• Für alle Normalverteilungen gilt:
• ± eine Standardabweichung um den Mittelwert liegen ≈68.24% aller
Werte.
• ± zwei Standardabweichungen um den Mittelwert liegen ≈95.44% aller
Werte.
S. Garbade (SRH Heidelberg)
Normalverteilung
Statistik 1
18 / 50
Die Normalverteilung
Verteilungsfunktion
Verteilungsfunktion
• Das Integral über die Dichtefunktion nennt man
Verteilungsfunktion. Im englischen wird die Verteilungsfunktion als
probability function (Wahrscheinlichkeitsfunktion) bezeichnet.
• Im diskreten Fall entspricht dies der Aufsummation.
• Die Verteilungsfunktion gibt an, wie wahrscheinlich es ist, dass eine
Zufallsvariable kleiner oder gleich einem gegebenen Wert ist.
• Die rechnerische Bestimmung ist i. d. R. sehr aufwendig. Alle
Statistikprogramme und einige Tabellenkalkulationsprogramme bieten
aber entsprechende Funktionen zur Berechnung der
Verteilungsfunktion vieler wichtiger Wahrscheinlichkeitsfunktionen an.
• Viele in der Statistik wichtige Funktionen sind in Tabellenwerken
wiedergegeben.
S. Garbade (SRH Heidelberg)
Normalverteilung
Statistik 1
19 / 50
Die Normalverteilung
Verteilungsfunktion
Verteilungsfunktion bei N (µ = 0, σ = 1)
Wahrscheinlichkeit [0,1]
1.0
0.75
0.5
0.25
0.0
-3
S. Garbade (SRH Heidelberg)
-2
-1
0
1
z-Werte
Normalverteilung
2
3
Statistik 1
20 / 50
Die Normalverteilung
Verteilungsfunktion
Verteilungsfunktion bei N (µ = 15, σ = 1.2)
Wahrscheinlichkeit [0,1]
1.00
0.75
0.50
0.25
0
13
S. Garbade (SRH Heidelberg)
14
15
16
17
Werte der Variablen
Normalverteilung
18
Statistik 1
21 / 50
Die Normalverteilung
Quantilsfunktion
Quantilsfunktion
• In der Statistik ist auch oft von Interesse, welche Wahrscheinlichkeit
einem bestimmen Wert entspricht.
• Dies ist das Inverse der Verteilungsfunktion und wird als
Quantilsfunktion bezeichnet.
• Die Quantilsfunktion liefert also zu einem bestimmten
Wahrscheinlichkeitswert (zwischen [0,1] bzw. 0 und 100%) den
entsprechenden Wert der Variablen aus der Verteilung.
S. Garbade (SRH Heidelberg)
Normalverteilung
Statistik 1
22 / 50
Die Normalverteilung
Quantilsfunktion
Quantilsfunktion bei N (µ = 15, σ = 1.2)
16
15
14
12
13
Werte der Variablen
17
18
Quantilsfunktion bei µ = 15 und σ = 1.2
0.0
0.2
0.4
0.6
0.8
1.0
Wahrscheinlichkeit [0,1]
S. Garbade (SRH Heidelberg)
Normalverteilung
Statistik 1
23 / 50
Zentrales Grenzwerttheorem
Outline
Zentrales Grenzwerttheorem
Nicht-normalverteilte Population
Simulation
Zentrales Grenzwerttheorem
S. Garbade (SRH Heidelberg)
Normalverteilung
Statistik 1
24 / 50
Zentrales Grenzwerttheorem
Nicht-normalverteilte Population
Nicht-normalverteilte Population
• Ein Merkmal y im Wertebereich 10 bis 60 ist gleichverteilt.
• Die Größe der Population beträgt N = 100000.
• Mittelwert: µ = 35.02876.
S. Garbade (SRH Heidelberg)
Normalverteilung
Statistik 1
25 / 50
Zentrales Grenzwerttheorem
Nicht-normalverteilte Population
Histogramm
2000
0
1000
Frequency
3000
4000
Histogram of y
10
20
30
40
50
60
y
S. Garbade (SRH Heidelberg)
Normalverteilung
Statistik 1
26 / 50
Zentrales Grenzwerttheorem
Simulation
Simulation
• Nun ziehen wir m Zufallsstichproben der Größe n aus der Population
und berechnen deren Mittelwert.
• Beispiel: Es werden 1000 Zufallsstichproben der Größe 15 gezogen.
Damit m = 1000, n = 15. Wir haben damit 1000 Mittelwerte, die aus
jeweils 15 zufälligen Einheiten der Population berechnet wurden.
• Aus diesen 1000 Mittelwerten wird wiederum der Mittelwert berechnet.
• Wie sieht die Verteilung der Mittelwerte aus? Was passiert?
S. Garbade (SRH Heidelberg)
Normalverteilung
Statistik 1
27 / 50
Zentrales Grenzwerttheorem
Simulation
Mittelwertsverteilungen bei µ = 35.02876
m = 1000, n = 8
Mittelwert = 35.2042
300
200
Frequency
0
20
30
40
50
60
20
30
40
50
Mittelwert
m = 1000, n = 15
Mittelwert = 34.93
m = 1000, n = 40
Mittelwert = 35.0506
Frequency
50
0
50 100
0
100
200
Mittelwert
200
10
Frequency
100
150
0
50
Frequency
250
m = 1000, n = 4
Mittelwert = 34.9755
20
25
30
35
40
45
Mittelwert
S. Garbade (SRH Heidelberg)
30 32 34 36 38 40 42
Mittelwert
Normalverteilung
Statistik 1
28 / 50
Zentrales Grenzwerttheorem
Zentrales Grenzwerttheorem
Zentrales Grenzwerttheorem
Zentrales Grenzwerttheorem
Die Verteilung von Mittelwerten aus Stichproben des Umfangs n, die
derselben Grundgesamtheit entnommen wurden, geht mit wachsendem
Stichprobenumfang in eine Normalverteilung über.
Zitat aus Bortz und Schuster (2010, S. 86).
S. Garbade (SRH Heidelberg)
Normalverteilung
Statistik 1
29 / 50
Zentrales Grenzwerttheorem
Zentrales Grenzwerttheorem
Standardfehler des Mittels
• Aus der Mittelwertsverteilung kann die Standardabweichung s
berechnet werden.
• Man kann zeigen, dass die Varianz der Mittelwertsverteilung n mal
kleiner ist als die Populationsvarianz.
Standarddfehler des Mittels
Allgemein kann die Varianz und Streuung der Mittelwertsverteilung
berechnet werden über
s2
n
s
Standardabweichung: σ̂x̄ = √
n
Varianz: σ̂x̄2 =
(3)
(4)
Die Standardabweichung der Mittelwertsverteilung wird als Standardfehler
des Mittels bezeichnet.
S. Garbade (SRH Heidelberg)
Normalverteilung
Statistik 1
30 / 50
z-Werte
Outline
z-Werte
Was sind z-Werte?
Berechnung von z-Werten
Anwendungsbeispiele
Hinweise zur Interpretation
S. Garbade (SRH Heidelberg)
Normalverteilung
Statistik 1
31 / 50
z-Werte
Was sind z-Werte?
Was sind z-Werte?
• International gültige Standardeinheit.
• z-Werte sind am Mittelwert und Streuung standardisiert: Sie haben
einen Mittelwert von 0 und eine Streuung von 1.
• Auch viele BMI und Größentabellen basieren auf z-Werten, werden
hier aber als SD-Scores bzw. Standard Deviation Scores bezeichnet.
• Vorteil: Werte sind unabhängig vom Mittelwert und der
Standardabweichung, sind also standardisiert und somit auch zwischen
verschiedenen Kohorten vergleichbar.
• Zur Berechnung von Prozenträngen kann bei normalverteilten
Variablen die Tabelle mit den z-Werten herangezogen werden.
S. Garbade (SRH Heidelberg)
Normalverteilung
Statistik 1
32 / 50
z-Werte
Berechnung von z-Werten
Berechnung von z-Werten
Berechnung von z-Werten
zi =
xi − x
s
(5)
mit:
xi i-ter Messwert
x Mittelwert aller xi
s Standardabweichung von x
z-transformierte Variablen haben einen Mittelwert von 0 und eine
Standardabweichung von 1.
S. Garbade (SRH Heidelberg)
Normalverteilung
Statistik 1
33 / 50
z-Werte
Berechnung von z-Werten
Beispiel
• Folgende Messwerte: 4, 7, 5, 9, 5, 9, 5, 9, 6, 3.
• Kennwerte:
• Mittelwert: 6.2
• s = 2.2
• z-Transformation: z1 = (4 − 6.2)/2.2, z2 = (7 − 6.2)/2.2, . . .
• z-Werte: −1, 0.36, −0.55, 1.27, −0.55, 1.27, −0.55, 1.27, −0.09, −1.45.
• → man kann somit sofort erkennen, ob ein Messwert über oder
unter dem Mittelwert liegt, und wie wieviele Einheiten in
Standardabweichungen er von diesem entfernt ist.
• Kennwerte der z-Werte:
• Mittelwert = 0.00
• s = 0.99
S. Garbade (SRH Heidelberg)
Normalverteilung
Statistik 1
34 / 50
z-Werte
Anwendungsbeispiele
Beispiel Normalverteilung
Wie wahrscheinlich ist es, bei einer normalverteilten Zufallsvariable
N (µ = 15, σ = 1.2) eine Zahl von bis zu 14 zu erhalten?
F(x) =
∫ 14
1√
−∞ 1.2· 2π
[
]
2
exp − (x−15)
dx
2·1.22
0.25
µ = 15; σ = 1.2
0
13
14
15
16
17
Werte der Variablen
S. Garbade (SRH Heidelberg)
Normalverteilung
Statistik 1
35 / 50
z-Werte
Anwendungsbeispiele
Berechnung
Ein Merkmal ist normalverteilt mit µ = 15, σ = 1.2. Wie wahrscheinlich ist
es, einen Wert von bis zu 14 Punkten zu erreichen?
1
Berechne z-Wert: z =
2
Tabellenauszug:
z
-0.9
-0.8
-0.7
x−x
s
=
Fläche
0.1841
0.2119
0.2420
−1
1.2
14−15
1.2
=
z
0.5
0.6
0.7
Fläche
0.6915
0.7257
0.7580
= −0.833
z
1.7
1.8
1.9
Fläche
0.9554
0.9641
0.9713
3
Unsere Tabelle liefert für einen z-Wert von -0.8 ein Flächenanteil von
≈ 0.2119.
4
Damit erreichen etwa 21% aller Personen einen Wert von
höchstens 14, etwa 79% haben einen höheren Wert.
S. Garbade (SRH Heidelberg)
Normalverteilung
Statistik 1
36 / 50
z-Werte
Anwendungsbeispiele
Vergleich zwischen unterschiedlichen Kohorten
• Zwei Schüler haben folgende Noten:
• Schüler A: Note 1.7, mit Klassendurchschnitt 1.9, s = 1.1
• Schüler B: Note 1.9, mit Klassendurchschnitt 2.1, s = 0.8
• Welcher Schüler ist, gemessen an seinem Kollektiv, besser?
• Berechnung der z-Werte:
• Schüler A: 1.7−1.9
= −0.18
1.1
• Schüler B:
1.9−2.1
0.8
= −0.25
• Damit liegt Schüler B 0.25 Noten unter dem Klassendurchschnitt,
Schüler A liegt 0.18 Noten unter dem Klassendurchschnitt. Schüler B
hat, gemessen an der Klassenleistung, damit die bessere
Durchschnittsnote.
S. Garbade (SRH Heidelberg)
Normalverteilung
Statistik 1
37 / 50
z-Werte
Hinweise zur Interpretation
Hinweise zur Interpretation
• z-Werte können bei jeder Variablen immer berechnet werden.
• Oft wird dann auch von standardisierter Variable gesprochen.
• Die Flächenanteile anhand der Standardnormalverteilung können aber
nur sinnvoll interpretiert werden, wenn das Merkmal tatsächlich
normalverteilt ist.
S. Garbade (SRH Heidelberg)
Normalverteilung
Statistik 1
38 / 50
Konfidenzintervalle
Outline
Konfidenzintervalle
Vertrauensbereich
Konfidenzintervalle für Mittelwerte
S. Garbade (SRH Heidelberg)
Normalverteilung
Statistik 1
39 / 50
Konfidenzintervalle
Vertrauensbereich
Stichprobe und Population
• Wenn eine Messung durchgeführt wird, möchte man i. d. R. wissen,
wie die Verhältnisse in der Population sind.
• Meistens kann man aber nicht die ganze Population messen, sondern
nur eine Stichprobe.
• Beispiel:
• Wir möchten wissen, wie intelligent die Studierenden der SRH
Heidelberg sind.
• Dazu erheben wir von 112 Studierenden mit dem IST 2000 den
Intelligenzquotienten.
• Die SRH hat aber knapp 2600 Studierende, es haben also nicht alle
Studierenden an unserer Studie mitgemacht.
• Der mittlere IQ berechnet aus den 112 Teilnehmern ist also nur eine
Schätzung für den IQ aller 2600 SRH Studierenden.
S. Garbade (SRH Heidelberg)
Normalverteilung
Statistik 1
40 / 50
Konfidenzintervalle
Vertrauensbereich
Vertrauensbereich
• Parameter wie der Mittelwert sind Schätzungen von unbekannten
Populationsparametern.
• Diese Schätzung ist mit einer gewissen Ungewissheit verbunden: Wir
kennen den wahren Populationsparameter nicht, haben aber eine
Schätzung für diesen.
• Ein Vertrauensbereich oder Konfidenzintervall ist ein Bereich um
einen Parameter, in dem man mit einer gewissen Wahrscheinlichkeit
den wahren Populationsparameter vermutet.
S. Garbade (SRH Heidelberg)
Normalverteilung
Statistik 1
41 / 50
Konfidenzintervalle
Vertrauensbereich
Herleitung
• Für die Berechnung eines Konfidenzintervalle gibt es verschiedene
Verfahren.
• Typischerweise macht man eine Annahme über die Verteilung des
gemessenen Merkmals.
• Dies ermöglicht es, wie im vorangegangenen Abschnitt gezeigt, eine
Wahrscheinlichkeit für das Auftreten eines Parameters in bestimmten
Grenzen zu berechnen.
S. Garbade (SRH Heidelberg)
Normalverteilung
Statistik 1
42 / 50
Konfidenzintervalle
Konfidenzintervalle für Mittelwerte
95% der Standardnormalverteilung
• Wir suchen den Bereich, der 95% der Fläche um den Mittelwert der
Standardnormalverteilung umfasst.
• Der Wert 1.96 schneidet 97.5% der Standardnormalverteilung ab.
• Der Wert -1.96 schneidet 2.5% der Verteilung ab.
• Dazwischen liegen also 95%.
• Man spricht von einem (1 − α) Konfidenzintervall, bei einem 95% KI
ist α = 0.05 bzw. 5%.
• Allgemein: Zwischen zwei Perzentile −z1−α/2 und zα/2 befindet sich
die Fläche (1 − α).
• Äquivalent ist folgende Schreibweise: Zwischen zα/2 und z1−α/2
befindet sich die Fläche (1 − α).
S. Garbade (SRH Heidelberg)
Normalverteilung
Statistik 1
43 / 50
Konfidenzintervalle
Konfidenzintervalle für Mittelwerte
95% der Standardnormalverteilung
Dichte
95% der Fläche
2.5% der Fläche
-3σ
-2σ
S. Garbade (SRH Heidelberg)
2.5% der Fläche
-1σ
0
Normalverteilung
1σ
2σ
3σ z-Werte
Statistik 1
44 / 50
Konfidenzintervalle
Konfidenzintervalle für Mittelwerte
Herleitung
• Die Stichprobenverteilung des arithmetischen Mittel hat den
Erwartungswert µ und Streuung σx̄ .
• Wenn diese in die Standardnormalverteilung überführt werden soll,
lautet die z-Transformation:
z=
x̄ − µ
σx̄
• Die Wahrscheinlichkeit, dass dieser z-Wert größer als das z−α/2 und
kleiner als z1−α/2 ist lautet:
P(z−α/2 ≤ z ≤ z1−α/2 ) = 1 − α
• Durch einsetzen ergibt sich:
P(z−α/2 ≤
S. Garbade (SRH Heidelberg)
x̄ − µ
≤ z1−α/2 ) = 1 − α
σx̄
Normalverteilung
Statistik 1
45 / 50
Konfidenzintervalle
Konfidenzintervalle für Mittelwerte
Herleitung (Forts. 2)
• Dies kann umgeformt werden zu:
P(x̄ − z−α/2 · σx̄ ≤ µ ≤ x̄ + z1−α/2 · σx̄ ) = 1 − α
Komfidenzintervall für Mittelwert
Damit liegt der Parameter µ mit einer Wahrscheinlichkeit (1 − α) in
folgenden Grenzen:
untere Grenze = x̄ − z−α/2 · σx̄
obere Grenze = x̄ + z1−α/2 · σx̄
(6)
• Eine ähnliche Herleitung finden Sie im Bortz und Schuster (2010, S.
93f)
S. Garbade (SRH Heidelberg)
Normalverteilung
Statistik 1
46 / 50
Konfidenzintervalle
Konfidenzintervalle für Mittelwerte
Anwendungsbeispiel
• Die durchschnittliche Arbeitsmotivation in einer Firma wurde mit dem
Wert 34 (eher durchschnittlich) und Streuung 5.3 mit
Stichprobengröße N = 66 ermittelt.
• Wie groß ist das 95% Konfidenzintervall für den Mittelwert?
• Berechnung:
• Da das KI 95% sein soll, ist α = 0.05.
• Damit ist z1−α/2 = 1.96.
• Es gilt σx̄ = √sn .
• Obere Grenze: 34 + 1.96 ·
• Untere Grenze: 34 − 1.96
5.3
√
= 35.28
66
5.3
· √66 = 32.72
• Schlusssatz: Mit einer Wahrscheinlichkeit von 95% liegt die wahre
Arbeitsmotivation im Bereich 32.72 bis 35.28.
S. Garbade (SRH Heidelberg)
Normalverteilung
Statistik 1
47 / 50
Konfidenzintervalle
Konfidenzintervalle für Mittelwerte
Hinweise zur Interpretation
• Durch Konfidenzintervalle kann abgeschätzt werden, in welchem
Intervall ein wahrer Populationsparameter, z. B. µ liegt.
• Konfidenzintervalle werden auch sehr oft in der Diagnostik eingesetzt,
um abzuschätzen, ob sich Werte zwischen Testteilnehmern bedeutsam
unterscheiden, oder über die Zeit bedeutsam verändert haben.
• Überschneiden sich beispielsweise die Konfidenzintervalle zweier
Mittelwerte nicht, so kann man davon ausgehen, dass die beiden
Mittelwerte unterschiedlichen Populationen entstammen, sich daher
unterscheiden.
S. Garbade (SRH Heidelberg)
Normalverteilung
Statistik 1
48 / 50
Konfidenzintervalle
Konfidenzintervalle für Mittelwerte
Mitarbeitermotivation in zwei Firmen
• 95% KI Firma A: 34 ± 1.96 ·
• 95% KI Firma B: 39 ± 1.96 ·
5.3
√
66
6.4
√
82
:= [32.72, 35.28]
:= [37.61, 40.38]
Testwert
40
35
rs
Firma A
ut
Firma B
30
S. Garbade (SRH Heidelberg)
Normalverteilung
Statistik 1
49 / 50
Konfidenzintervalle
Konfidenzintervalle für Mittelwerte
Literaturverzeichnis
Bortz, J. & Schuster, C. (2010). Statistik für Human- und
Sozialwissenschaftler (7. Auflage). Berlin: Springer.
S. Garbade (SRH Heidelberg)
Normalverteilung
Statistik 1
50 / 50
Herunterladen