Intervallschätzung Bibliografie - und Sozialwissenschaftliche Fakultät

Werbung
Intervallschätzung
Intervallschätzung (allgemein)
Konfidenzintervall des arithmetischen Mittels
Konfidenzintervall für die Differenz zweier
arithmetischer Mittel
Dr. Ricabal Delgado/Prof. Kück
Lehrstuhl Statistik
Schätzung II
1
Bibliografie:
¾ Prof. Dr. Kück
Universität Rostock
Statistik, Vorlesungsskript
Abschnitt 7.1.2, 7.1.3, 7.1.4
¾ Bleymüller / Gehlert / Gülicher
Verlag Vahlen
Statistik für Wirtschaftswissenschaftler
¾ MM*Stat. Eine interaktive Einführung in die Welt der Statistik
PC Pool WISO-Fakultät
\\zeus\statistik\MMstat\start
¾ Dr. Roland Jeske
Online Statistik
http://www.wiwi.uni-konstanz.de/heiler/os2/
¾ http://www.wiwi.uni-rostock.de/~stat/download.htm
Dr. Ricabal Delgado/Prof. Kück
Lehrstuhl Statistik
Schätzung II
2
1
Intervallschätzung
Mit einer Intervallschätzung wird ein unbekannter Parameter der
Grundgesamtheit derart geschätzt, dass
¾ ein Intervall entsteht und
¾ vor der Ziehung der Stichprobe die Wahrscheinlichkeit dafür
angegeben werden kann, dass der wahre Parameterwert der
Grundgesamtheit in diesem Intervall liegt. Diese Aussage erfolgt
unter Vorbehalt einer Irrtumswahrscheinlichkeit α.
Ein solches Intervall wird als Schätzintervall oder Realisation
eines Konfidenz- oder Vertrauensintervalls bezeichnet. Die
Wahrscheinlichkeit 1-α heißt Konfidenzniveau.
Dr. Ricabal Delgado/Prof. Kück
Lehrstuhl Statistik
Schätzung II
3
Konfidenzintervall
Gegeben sei eine Zufallsstichprobe (X1, X2, . . . , Xn) aus einer
Grundgesamtheit X. Ein Intervall [Ku, Ko] heißt Konfidenzintervall zum
Niveau 1-α für den Parameter q der Grundgesamtheit X, wenn die
Bedingungen gelten:
g u (X 1 , X 2 , K , X n ) ≤ g o (X 1 , X 2 , K , X n ) für alle möglichen SP
W[g u (X1 , X 2 , K , X n ) ≤ q ≤ g o (X1 , X 2 , K, X n )] = 1 − α
oder
W[q ≤ g u (X 1 , X 2 , K , X n )] + W[q ≥ g o (X 1 , X 2 , K , X n )] = α
Die zufälligen Grenzen Ku und Ko werden Konfidenzgrenzen genannt.
Die Wahrscheinlichkeit 1-α bezeichnet das Konfidenzniveau, den
Sicherheitsgrad oder die Aussagewahrscheinlichkeit. Sie ist die
Wahrscheinlichkeit, dass das Konfidenzintervall den Parameter q
überdeckt. Der Wert α gibt dabei die Irrtumswahrscheinlichkeit der
Konfidenzschätzung an, d. h. den relativ geringen Anteil der konkreten
Intervalle (Realisationen), die den Parameter q nicht überdecken.
Dr. Ricabal Delgado/Prof. Kück
Lehrstuhl Statistik
Schätzung II
4
2
Konfidenzintervall - Grafische Darstellung
q
Realisation oder konkrete SP
Nr.
1
2
3
4
5
.
.
.
98
99
100
Dr. Ricabal Delgado/Prof. Kück
Lehrstuhl Statistik
Schätzung II
¾Eines der 100 konkreten
Intervalle überdeckt den
Parameter nicht.
¾Dies ist ein Beispiel für ein
99%iges Konfidenzintervall
für den Parameter q.
¾Bei 1000 SP ist es zu
erwarten, dass 10 Intervalle
den Parameter q nicht
überdecken.
5
Konfidenzintervall - Interpretation vor der
Ziehung der Stichprobe
Da die Konfidenzgrenzen Ku und Ko vor der Ziehung der konkreten
Stichprobe, Funktionen der Stichprobenvariablen (X1, X2, . . . , Xn) sind,
sind sie ebenfalls Zufallsvariablen. [Ku, Ko] ist somit ein Zufallsintervall,
über das Wahrscheinlichkeitsaussagen möglich sind.
Das Konfidenzniveau 1 - α gibt den Anteil aller möglichen
Realisationen [ku, ko] des Konfidenzintervalls an, die den unbekannten
Wert des Parameters q überdecken.
Die Irrtumswahrscheinlichkeit α gibt den Anteil aller möglichen
Schätzintervalle (Realisationen) [ku, ko] an, die den unbekannten Wert
des Parameters q nicht überdecken.
Wird das Verfahren der Intervallschätzung sehr oft wiederholt,
dann erhält man in (1 - α) · 100% der Fälle ein Schätzintervall, das q
enthält, und in α · 100% der Fälle ein Schätzintervall, das q nicht enthält.
Dr. Ricabal Delgado/Prof. Kück
Lehrstuhl Statistik
Schätzung II
6
3
Konfidenzintervall - Interpretation nach der
Ziehung der Stichprobe
Setzt man die konkreten Stichprobenwerte (x1, ..., xn) in die
Stichprobenfunktionen Ku und Ko ein, so führt das zu Realisationen
ku = g1(x1, ..., xn) und ko = g2(x1, ..., xn) und damit zu einem realisierten
Konfidenzintervall oder Schätzintervall [ku, ko]. Die Grenzen des Schätzintervalls
ku und ko sind nunmehr feste Größen (keine Zufallsgrößen) und
Wahrscheinlichkeitsaussagen sind nicht mehr möglich. Entweder liegt der
unbekannte Wert des Parameters q in dem Schätzintervall oder nicht.
Da jedoch das Konfidenzniveau 1 - α (0,90; 0,95 oder 0,99) nahe bei Eins
gewählt wird, vertraut man darauf, für die konkrete Stichprobe ein Schätzintervall
erhalten zu haben, dass q einschließt. Ob im Einzelfall diese Annahme richtig oder
falsch ist, kann nicht gesagt werden. Bekannt ist jedoch der mittlere prozentuale
Fehleranteil mit α · 100%, der sich bei wiederholter Beobachtung von Stichproben
des Umfangs n ergibt.
Dr. Ricabal Delgado/Prof. Kück
Lehrstuhl Statistik
Schätzung II
7
Konfidenzbreite, Schätzungsfehler,
Standardfehler und Konfidenzniveau
Für das Konfidenzintervall zum Niveau 1-α eines beliebigen
Parameters q gilt folgendes:
Konfidenzbreite = Intervallbreite = K o − K u = 2 e = 2 ⋅ Schätzfehler
Schätzfehler = e =
Intervallbreite
2
Die Hälfte der Konfidenzbreite wird Schätzfehler (e) genannt. Er
bringt die Genauigkeit der Schätzung zum Ausdruck und setzt sich
aus drei Komponenten zusammen:
¾Streuung des Schätzers des Parameters
¾Sicherheit der Schätzung (Konfidenzniveau 1-α)
¾Stichprobenumfang n.
Dr. Ricabal Delgado/Prof. Kück
Lehrstuhl Statistik
Schätzung II
8
4
Wechselwirkung zwischen Intervallbreite 2e
und Konfidenzniveau 1-α bei konstantem n
Irrtumswahrscheinlichkeit
Konfidenzniveau
q
α
1-α
0,10
0,90
0,05
0,95
0,01
0,99
0,001
0,999
Dr. Ricabal Delgado/Prof. Kück
Lehrstuhl Statistik
Bei gleichem SP-Umfang n nimmt
die Breite des Schätzintervalls 2e
mit wachsendem Konfidenzniveau
1-α zu und umgekehrt.
Das bedeutet, die Präzision der
Schätzung nimmt mit sinkender
Irrtumswahrscheinlichkeit α ab und
umgekehrt. Je breiter ein
Schätzintervall ist (2e), um so kleiner
die Präzision der Schätzung ist.
Schätzung II
9
Abhängigkeit der Intervallbreite 2e
vom Stichprobenumfang n bei konstantem 1-α
q
n
20
.
.
.
100
.
.
.
200
.
.
.
1000
Dr. Ricabal Delgado/Prof. Kück
Lehrstuhl Statistik
Die Breite des Schätzintervalls 2e
nimmt mit wachsendem n bei
konstantem Konfidenzniveau 1-α ab.
Das bedeutet, die Präzision der
Schätzung bei einer Genauigkeit der
Aussage 1-α nimmt mit wachsendem
Stichprobenumfang n zu.
Schätzung II
10
5
Statistische Fehler
Die Irrtumswahrscheinlichkeit α und die damit verbundene Sicherheit
wird häufig mit einem Fehlermaß identifiziert. Das trifft nur bedingt
zu, denn der hier in Rede stehende statistische Fehler bzw.
Fehlerbereich erfasst die Abweichung eines Ergebnisses einer
Beobachtung vom „wahren“ Wert. Er tritt auf als
¾Zufälliger Fehler (Schätzfehler)
¾Systematischer (nicht zufälliger) Fehler
Die zufälligen Fehler sind -so paradox das klingt- vom Statistiker gut
abzuschätzen, ihre Abschätzung liegt dem Konfidenzmodell zugrunde.
Darüber hinaus auftretende systematische Fehler, die besonders bei
wirtschaft- und sozialwissenschaftlichen Daten durch vielfältige
Möglichkeiten entstehen, sind für den Statistiker schwer oder gar nicht
messbar. Eine hohe statistische Sicherheit sollte also nicht suggerieren,
dass Fehler ausgeschlossen werden könnten!
Dr. Ricabal Delgado/Prof. Kück
Lehrstuhl Statistik
Schätzung II
11
Möglichkeit zur Bildung von
Konfidenzintervallen
Ein zweiseitiges Konfidenzintervall [Ku, Ko] heißt symmetrisch, wenn gilt:
W[q ≤ g u (X1 , X 2 ,K, X n )] = W[g u (X1 , X 2 , K, X n ) ≥ q] =
α
2
Ein Konfidenzintervall heißt halbseitig offen oder einseitig, falls eine der
Grenzen von vornherein als unbeschränkt festgelegt wird, d. h. wenn gilt:
¾(-∞, Ko] ⇒ W[q≤ go(X1, X2, . . . , Xn)]=1-α ⇔ W[q≥ go(X1, X2, . . . , Xn)]=α
¾[Ku, +∞) ⇒ W[go(X1, X2, . . . , Xn) ≥ q]=1-α ⇔ W[q ≤ go(X1, X2, . . . , Xn)]=α
Ob ein einseitiges oder zweiseitiges Konfidenzintervall zu bestimmen ist,
hängt von der sachlichen Fragestellung ab. Wenn von Interesse ist, ob z. B.
ein Parameter q höchstens einen bestimmten Wert annimmt, dann ist eine
einseitige Fragestellung geboten.
Dr. Ricabal Delgado/Prof. Kück
Lehrstuhl Statistik
Schätzung II
12
6
Konstruktion der Konfidenzintervalle
Um ein Konfidenzintervall zum Niveau 1-α für einen Parameter q zu
konstruieren, wird meistens eine von q abhängige Stichprobenfunktion
g(X1, X2, . . . , Xn; q), deren Verteilung bekannt ist und aber nicht von q
abhängt, genutzt. Sie heißt Pivotgröße.
Beispiel: Sei (X1, X2, . . . , Xn) eine Zufallsstichprobe einer normalverteilten
Grundgesamtheit X mit den Parameter µ und σ². Die Stichprobenfunktionen
Z und T (s. u.) sind Pivot-Funktionen für µ. Der Stichprobenmittelwert⎯X ist
aber keine Pivotgröße von µ. Seine Verteilung hängt von µ ab.
Z = g 1 (X1 , X 2 ,..., X n ; µ) =
X− µ
σ
Z ∼ N(0, 1)
Standardnormalverteilung
n
T = g 2 (X1 , X 2 ,..., X n ; µ) =
T ∼ tn-1
X− µ
S
Studentverteilung mit n-1 FG
n
X = g 3 (X1 , X 2 ,..., X n ) =
1 n
∑ X1
n i =1
X ~ N(µ ;
Dr. Ricabal Delgado/Prof. Kück
Lehrstuhl Statistik
σ²
)
n
Normalverteilung
Schätzung II
13
Konstruktion eines Konfidenzintervalls für µ
(Normalverteilung der GG, bekannte Varianz σ²und einfache SP)
Sei X ein Merkmal, das in der Grundgesamtheit einer Normalverteilung mit den
Parametern µ und σ² genügt. Sei (X1, X2, . . . , Xn) eine einfache Zufallsstichprobe
(Ziehen mit Zurücklegen). Unterstellen wir, dass die Varianz σ² bekannt ist. Ein
symmetrisches Konfidenzintervall zum Niveau 1-α für den Parameter µ ist:
[X −
σ
Z
n
1−
; X+
α
2
σ
n
Z
1−
α
2
]
Z=
X− µ
~ N(0, 1)
σ
n
W( − Z
1 −
≤Z≤Z
α
2
1 −
α
2
) = W( − Z
1 −
α
2
≤
1− α
X− µ
≤ Z α ) = 1− α
1 −
σ
2
n
α
2
⇓
W( − X −
σ
n
Z
1 −
α
2
≤ −µ ≤ − X+
σ
n
−Z
Z
1 −
α
2
) = 1− α
⇓
W( + X +
σ
n
Z
1 −
α
2
≥ +µ ≥ + X−
σ
n
Dr. Ricabal Delgado/Prof. Kück
Lehrstuhl Statistik
α
2
Z
1 −
α
2
W[X −
) = 1− α
Schätzung II
σ
n
1−
Z
α
2
Z
1−
α
2
≤ µ ≤ X+
σ
n
1−
α
2
Z
1−
α
2
] = 1− α
14
7
Konstruktion eines Konfidenzintervalls für µ
(Normalverteilung der GG, unbekannte Varianz und einfache SP)
Sei X ein Merkmal, das in der Grundgesamtheit einer Normalverteilung mit
den Parametern µ und σ² genügt. Sei (X1, X2, . . . , Xn) eine kleine einfache
Zufallsstichprobe (n<30). Nehmen wir an, dass die Varianz σ² unbekannt ist
(meistens in praxi). Ein symmetrisches Konfidenzintervall zum Niveau 1-α für
den Parameter µ ist:
[X −
W(− t
S
n
t
; X+
α
1− ; n −1
2
S
n
t
α
1− ; n −1
2
X− µ
~ t n -1
S
]
α
1− ; n −1
2
1− α
n
X− µ
≤
≤ t α ) = 1− α
1− ; n −1
S
2
⇓
W(− X −
S
n
t
α
1− ; n −1
2
≤ −µ ≤ − X+
S
n
α
2
α
2
n
−t
t
α
1− ; n −1
2
) = 1− α
t
1−
α
; n −1
2
1−
α
; n −1
2
⇓
W(+ X +
S
n
t
α
1− ; n −1
2
≥ + µ ≥ + X−
S
n
t
α
1− ; n −1
2
) = 1− α
Dr. Ricabal Delgado/Prof. Kück
Lehrstuhl Statistik
W[X −
S
n
t
α
1− ; n −1
2
≤ µ ≤ X+
S
n
t
α
1− ; n −1
2
Schätzung II
] = 1− α
15
Mittlere Montagedauer von Geräten eines
Typs in einer Großserienproduktion - Beispiel
Die Montagedauer von Geräten eines Typs in einer Großserienproduktion wird
statistisch mittels Stichproben überwacht. Sie kann für die Gesamtproduktion
(näherungsweise) als normalverteilt vorausgesetzt werden. Zu bestimmen ist eine
95%ige Intervallschätzung für die mittlere Montagedauer der Schichtproduktion.
Die Berechnungen aus 16 zufällig gezogenen Stichprobenmessungen lieferten eine
mittlere Montagedauer von 205 min und eine Standardabweichung von 20 min.
µ: Mittlere Montagedauer der Schichtproduktion (Mittelwert einer normalverteilten
GG mit unbekannter Varianz, kleiner SP (n<30) und n/N<0,05).
Konfidenzintervall
W[X16 −
t
1−
α
; n −1
2
s16
16
t
1−
0,95
; 15
2
≤ µ ≤ X16 +
= t 0,975 ; 15 = 2,131
Dr. Ricabal Delgado/Prof. Kück
Lehrstuhl Statistik
Punktschätzung für µ und σ
s16
16
t
1−
0,95
; 15
2
] = 0,95 k u = 205 −
Tab. 16 der
Formelsammlung
k u = 205 +
20
16
20
16
2,131= 205 − 10,655 = 194,345
2,131= 205 + 10,655 = 215,655
[194,345 ≤ µ ≤ 215,655]
Schätzung II
16
8
Intervallschätzung mittlerer Montagedauer
- Interpretation µ: Mittlere Montagedauer der Schichtproduktion (Mittelwert einer normalverteilten
GG mit unbekannter Varianz, kleiner SP (n<30) und n/N<0,05).
W[X16 −
s16
16
t
1−
0,95
; 15
2
≤ µ ≤ X16 +
s16
16
t
1−
0,95
; 15
2
] = 0,95
[194,345 ≤ µ ≤ 215,655]
Interpretation: Da das Konfidenzniveau 0,95 nahe bei Eins gewählt wurde,
vertraut man darauf, ein Schätzintervall, das Intervall [194,345 ; 215,655],
erhalten zu haben, das den Mittelwert µ überdeckt. Ob in diesem Fall diese
Annahme richtig oder falsch ist, kann nicht gesagt werden. Bekannt ist jedoch der
mittlere prozentuale Fehleranteil mit 5 %, der sich bei wiederholter Beobachtung
von Stichproben des Umfangs 16 ergibt.
Dr. Ricabal Delgado/Prof. Kück
Lehrstuhl Statistik
Schätzung II
17
Kriterien zur Erzeugung der
Konfidenzintervalle für µ
Bei der Konstruktion eines Konfidenzintervalls für den Erwartungswert µ
sind bei den vier Kriterien folgende Entscheidungen möglich:
Verteilung des Merkmals
Stichproben- Entnahmetechnik
Varianz σ²
in der GG
umfang
der SP
Normalverteilung
bekannt
n ≥ 30
Ziehen mit
Zurücklegen
Keine Normalverteilung
unbekannt
n < 30
Ziehen ohne
Zurücklegen
Die Konfidenzintervalle [Ku, K0] werden fallweise wie folgt berechnet:
Dr. Ricabal Delgado/Prof. Kück
Lehrstuhl Statistik
Schätzung II
18
9
Konfidenzintervalle für µ - Zusammenfassung
Parameter
µ
(σ bekannt)
µ
(σ
unbekannt)
Konfidenzintervall
[X − Zσ (X) ; X + Zσ (X)]
Standardfehler
(1) ohne Zurücklegen
(2) mit Zurücklegen
n
σ
(2) σ(X) =
(1) σ̂(X) =
N− n
n− 1
σ
(1) σ(X) =
n
N− n
n− 1
S
n
[X − tσ̂(X) ; X + tσ̂(X)]
(2) σ̂(X) =
S
n
*
*
Anzuwendende Verteilung
kleine SP
große SP
Normalverteilung Normalverteilung
Faustregel:
n>30
Bedingung:
Grundgesamtheit
normalverteilt
Studentverteilung Normalverteilung
mit ν=n-1
Faustregel:
n>30
t→Z
Bedingung:
Grundgesamtheit
normalverteilt
Für n/N < 0,05 kann der Korrekturfaktor für endliche Gesamtheit vernachlässigt werden.
N− n
→1
n− 1
Dr. Ricabal Delgado/Prof. Kück
Lehrstuhl Statistik
Schätzung II
19
Verteilung der Differenz zweier
Stichprobenmittelwerte D =⎯X1 -⎯X2
Es wird unterstellt, dass folgende Bedingungen erfüllt sind:
¾Gegeben sind zwei Grundgesamtheiten, in denen die Zufallsvariablen X1 und X2
den Normalverteilungen N(µ1, σ1²) bzw. N(µ2, σ2²) genügen.
¾Aus jeder Grundgesamtheit wird eine einfache Zufallsstichprobe (Ziehen mit
Zurücklegen) mit den Stichprobenumfängen n1 bzw. n2 gezogen.
¾Die beiden Zufallsstichproben sind unabhängig voneinander.
Da die beiden Zufallsvariablen X1 und X2 normalverteilt sind und die einfachen
Zufallsstichproben unabhängig voneinander sind, so ist die Differenz zweier
Stichprobenmittelwerte D =⎯X1 -⎯X2 normalverteilt mit den Parametern:
µ D = E(D) = µ D = µ1 − µ 2
σ 2D = Var(D) = σ 2D =
2
1
2
2
σ
σ
+
n1 n 2
Dr. Ricabal Delgado/Prof. Kück
Lehrstuhl Statistik
Z=
D− µ D (X 1 − X 2 ) − (µ1 − µ 2 )
~ N(0, 1)
=
σD
σ12 σ 22
+
n1 n 2
Schätzung II
20
10
Konfidenzintervall für die Differenz µ1 - µ2
(Normalverteilungen und bekannte Varianzen σ12 und σ22)
D − µ D ( X 1 − X 2 ) − (µ 1 − µ 2 )
=
~ N(0, 1)
σD
σ 12 σ 22
+
n1 n 2
Z=
W[− Z
1−
α
2
≤
(X1 − X 2 ) − (µ1 − µ 2 )
σ12 σ 22
+
n1 n 2
W[−(X1 − X 2 ) − Z
1−
W[+(X1 − X 2 ) + Z
W[(X1 − X 2 ) − Z
1−
1−
≤Z
1−
α
2
1− α
−Z
] = 1− α
α
2
σ12 σ 22
+
≤ −(µ1 − µ 2 ) ≤ −(X1 − X 2 ) + Z
1−
n1 n 2
α
2
σ12 σ 22
+
] = 1− α
n1 n 2
α
2
σ12 σ 22
+
≥ + (µ1 − µ 2 ) ≥ +(X1 − X 2 ) − Z α
1−
n1 n 2
2
σ12 σ 22
+
] = 1− α
n1 n 2
σ12 σ 22
+
≤ (µ1 − µ 2 ) ≤ (X1 − X 2 ) + Z α
1−
n1 n 2
2
α
2
Dr. Ricabal Delgado/Prof. Kück
Lehrstuhl Statistik
α
2
α
2
1−
Z
α
2
1−
α
2
Für unabhängige
einfache SP oder
n1/N1<0,05 und
n2/N2<0,05
σ12 σ 22
+
] = 1− α
n1 n 2
Schätzung II
21
Konfidenzintervall für die Differenz µ1 - µ2
(Normalverteilung und unbekannte Varianzen σ12 und σ22)
(X1 − X 2 ) − (µ1 − µ 2 )
2
1
2
2
S
S
+
n1 n 2
W[ − t
1 −
α
;v
2
≤
~ tv
(X 1 − X 2 ) − (µ 1 − µ 2 )
S12 S 22
+
n1 n 2
W[ − (X 1 − X 2 ) − t
W[ + (X 1 − X 2 ) + t
W[( X 1 − X 2 ) − t
v=
≤t
1 −
α
;v
2
⎡ S12 S 22 ⎤
⎢ + ⎥
⎣ n1 n 2 ⎦
⎡ S12 ⎤
⎢ ⎥
⎣ n1 ⎦
2
2
1− α
2
α
2
α
2
⎡ S 22 ⎤
⎢ ⎥
n2
+⎣ ⎦
n1 − 1
n2 −1
−t
1−
α
;v
2
α
;v
2
S12 S 22
+
≤ − (µ 1 − µ 2 ) ≤ − (X 1 − X 2 ) + t
1 −
n1 n 2
α
;v
2
S12 S 22
] = 1− α
+
n1 n 2
1 −
α
;v
2
S12 S 22
+
≥ + (µ 1 − µ 2 ) ≥ + (X 1 − X 2 ) − t
1 −
n1 n 2
α
;v
2
S12 S 22
] = 1− α
+
n1 n 2
α
;v
2
S12 S 22
+
≤ (µ 1 − µ 2 ) ≤ (X 1 − X 2 ) + t
1 −
n1 n 2
Dr. Ricabal Delgado/Prof. Kück
Lehrstuhl Statistik
1−
α
;v
2
] = 1− α
1 −
1 −
t
Schätzung II
α
;v
2
S12 S 22
+
] = 1− α
n1 n 2
Für
unabhängige
einfache
Stichproben
oder
n1/N1<0,05
und
n2/N2<0,05
22
11
Konfidenzintervall für die Differenz µ1- µ2
- Zusammenfassung ¾Ziehen der Stichproben mit Zurücklegen oder n1/N1<0,05 und n2/N2<0,05
normalverteilte Grundgesamtheiten,
[(X1 − X 2 ) − Z α
bekannte Varianzen
1−
2
σ 12 σ 22
+
; (X1 − X 2 ) + Z α
1−
n1 n 2
2
S12 S 22
Normalverteilte Grundgesamt- [(X 1 − X 2 ) − t α
+
;
1− ; v
n1 n 2
2
heiten, d. h. X1~ N(µ1, σ1²) bzw.
X2 ~ N(µ2, σ2²) ,
unbekannte Varianzen σ1² und
v=
σ2² und
kleine Stichproben (n1<30 oder
n2<30)
Unbekannte Varianzen
σ1² und σ2² und große
Stichproben (n1>30 und n2>30)
[(X1 − X 2 ) − Z
Dr. Ricabal Delgado/Prof. Kück
Lehrstuhl Statistik
α
1−
2
(X
1
− X 2 )+ t
⎡ S12 S 22 ⎤
⎢ + ⎥
⎣ n1 n 2 ⎦
2
σ12 σ 22
+
]
n1 n 2
S12 S 22
+
]
n1 n 2
α
1− ; v
2
2
2
⎡ S12 ⎤
⎡ S 22 ⎤
⎢ ⎥
⎢ ⎥
⎣ n1 ⎦ + ⎣ n 2 ⎦
n1 − 1
n2 −1
S12 S 22
+
; (X1 − X 2 ) + Z
1−
n1 n 2
α
2
S12 S 22
+
]
n1 n 2
Schätzung II
23
Differenz mittlerer Monatsverdienste der Angestellten in
Schleswig-Holstein und MV - Intervallschätzung
Beispiel: Eine SP-Untersuchung von je 100 Personen zur Ermittlung
durchschnittlicher Bruttomonatsverdienste der Angestellten in ausgewählten
Branchen Mecklenburg-Vorpommerns (MV) und Schleswig-Holsteins (SH)
brachte folgende Ergebnisse:
Branche
Bruttomonatsverdienste in Euro
Kreditinstitute
Versicherungsgewerbe
SH
MV
Durchschnitt
1.925
1.045
Standardabweichung
200
150
Durchschnitt
Varianz
1.980
1.075
25.500
40.000
Vergleichsaspekte:
¾
Differenz beider Branchen je Bundesland (Branchenvergleich)
¾
Differenz beider Bundesländer je Branche (Regionalvergleich)
Dr. Ricabal Delgado/Prof. Kück
Lehrstuhl Statistik
Schätzung II
24
12
Mittlere Monatsverdienste der Angestellten
in Schleswig-Holstein und MV - Rahmenbedingungen
Branche
Bruttomonatsverdienste in Euro
Kreditinstitute
Durchschnitt
Versicherungsgewerbe
SH
MV
⎯x
1.925
1.045
Standardabweichung
s
200
150
Stichprobenumfang
n
100
100
⎯x
1.980
1.075
Varianz
s²
25.500
40.000
Stichprobenumfang
n
100
100
Durchschnitt
Bedingungen:
¾ Unbekannte Verteilungen des Merkmals Bruttomonatsverdienst in allen
Grundgesamtheiten
¾ Unbekannte Varianzen des Merkmals in den Grundgesamtheiten
¾ Große (nij>30) und unabhängige Zufallsstichproben.
Dr. Ricabal Delgado/Prof. Kück
Lehrstuhl Statistik
Schätzung II
25
Differenz mittlerer Monatsverdienste von Angestellten der
Kreditinstitute in SH und MV - Intervallschätzung
Regionalvergleich:
Branche
Bruttomonatsverdienste in Euro
Kreditinstitute
W[(X1 − X 2 ) − Z
0,95
1−
2
σ̂ D =
s12
s2
+ 2 =
100 100
Z
= Z 0,975 = 1,96
1−
0,95
2
SH
MV
Durchschnitt
1.925
1.045
Standardabweichung
200
150
Stichprobenumfang
100
100
S12
S2
+ 2 ≤ µ1 − µ 2 ≤ (X1 − X 2 ) + Z
1−
100 100
200² 150²
+
=
100 100
S12
S2
+ 2 ] = 0,95
100 100
40000 22500
+
= 625 = 25
100
100
[880 − 1,96 ⋅ 25 ≤ µ 1 − µ 2 ≤ 880 + 1,96 ⋅ 25]
Tab. 12 der
Formelsammlung = [880 − 49 ≤ µ − µ ≤ 880 + 49]
1
(X − X ) = 1.925 − 1.045 = 880
1
0,95
2
[831 ≤ µ1 − µ 2 ≤ 929]
2
Dr. Ricabal Delgado/Prof. Kück
Lehrstuhl Statistik
2
Schätzung II
26
13
Differenz mittlerer Monatsverdienste von Angestellten der
Kreditinstitute in SH und MV - Interpretation
Regionalvergleich:
Branche
Bruttomonatsverdienste in Euro
Kreditinstitute
W[(X1 − X 2 ) − Z
0,95
1−
2
SH
MV
Durchschnitt
1.925
1.045
Standardabweichung
200
150
Stichprobenumfang
100
100
S12
S2
+ 2 ≤ µ1 − µ 2 ≤ (X1 − X 2 ) + Z
1−
100 100
0,95
2
S12
S2
+ 2 ] = 0,95
100 100
[831 ≤ µ1 − µ 2 ≤ 929]
Interpretation: Da das Konfidenzniveau 0,95 nahe bei Eins gewählt wurde, vertraut man
darauf, dass die Differenz der durchschnittlichen Bruttomonatsverdienste bei Kreditinstituten
beider Länder im Intervall [831 ; 929] liegt. Ob in diesem Fall diese Annahme richtig oder
falsch ist, kann nicht gesagt werden. Bekannt ist jedoch der mittlere prozentuale Fehleranteil
mit 5 %, der sich bei wiederholter Beobachtung von Stichproben des Umfangs 100 ergibt. Da
das Konfidenzintervall den Wert Null nicht überdeckt, kann man von einem signifikanten
Unterschied der mittleren Einkommen in Kreditinstituten von MV und SH ausgehen.
Dr. Ricabal Delgado/Prof. Kück
Lehrstuhl Statistik
Schätzung II
27
Differenz mittlerer Monatsverdienste von Angestellten der
Versicherungen in SH und MV - Intervallschätzung
Regionalvergleich:
Branche
Bruttomonatsverdienste in Euro
Versicherungsgewerbe
Durchschnitt
Varianz
Stichprobenumfang
W[(X1 − X 2 ) − Z
1−
0,95
2
1.980
1.075
25.500
40.000
100
100
25.500 40.000
+
= 655 = 25,593
100
100
= Z 0,975 = 1,96
Tab. 12 oder
Tab. 14 der
Formelsammlung
[905 − 1,96 ⋅ 25,593 ≤ µ1 − µ 2 ≤ 905 + 1,96 ⋅ 25,593]
= [905 − 50,16 ≤ µ1 − µ 2 ≤ 905 + 50,16]
(X − X ) = 1.980 − 1.075 = 905
1
MV
S12
S2
S12
S2
+ 2 ≤ µ1 − µ 2 ≤ (X1 − X 2 ) + Z 0,95
+ 2 ] = 0,95
1−
100 100
100 100
2
0,95
2
s12
s2
+ 2 =
100 100
σ̂ D =
Z
1−
SH
[854,84 ≤ µ1 − µ 2 ≤ 955,16]
2
Dr. Ricabal Delgado/Prof. Kück
Lehrstuhl Statistik
Schätzung II
28
14
Differenz mittlerer Monatsverdienste von Angestellten der
Versicherungen in SH und MV - Interpretation
Regionalvergleich:
Branche
Bruttomonatsverdienste in Euro
Versicherungsgewerbe
Durchschnitt
Varianz
Stichprobenumfang
W[(X1 − X 2 ) − Z
1−
0,95
2
S12
S2
S12
S2
+ 2 ≤ µ1 − µ 2 ≤ (X1 − X 2 ) + Z 0,95
+ 2 ] = 0,95
1−
100 100
100
100
2
SH
MV
1.980
1.075
25.500
40.000
100
100
[854,84 ≤ µ1 − µ 2 ≤ 955,16]
Interpretation: Da das Konfidenzniveau 0,95 nahe Eins gewählt wurde, vertraut man
darauf, dass die Differenz der durchschnittlichen Bruttomonatsverdienste im
Versicherungsgewerbe beider Länder im Intervall [855 ; 955] liegt. Ob in diesem Fall diese
Annahme richtig oder falsch ist, kann nicht gesagt werden. Bekannt ist jedoch der mittlere
prozentuale Fehleranteil mit 5 %, der sich bei wiederholter Beobachtung von Stichproben des
Umfangs 100 ergibt. Da das Konfidenzintervall den Wert Null nicht überdeckt, kann man von
einem signifikanten Unterschied der mittleren Einkommen im Versicherungsgewerbe von MV
und SH ausgehen.
Dr. Ricabal Delgado/Prof. Kück
Lehrstuhl Statistik
Schätzung II
29
Differenz der mittleren Monatsverdienste von Angestellten der
Kreditinstitute und der Versicherungen - Intervallschätzung
Branchenvergleich Schleswig-Holstein:
Branche
Bruttomonatsverdienste in Euro
Kreditinstitute
Durchschnitt
Standardabweichung
1.925
200
Stichprobenumfang
Durchschnitt
Varianz
Stichprobenumfang
100
1.980
25.500
100
Versicherungsgewerbe
W[(X1 − X 2 ) − Z
σ̂ D =
Z
1−
0,95
2
s12
s2
+ 2 =
100 100
0,95
1−
2
S12
S2
S12
S2
+ 2 ≤ µ1 − µ 2 ≤ (X1 − X 2 ) + Z 0,95
+ 2 ] = 0,95
−
1
100 100
100 100
2
[55 − 1,96 ⋅ 25,6 ≤ µ − µ ≤ 55 + 1,96 ⋅ 25,6]
40.000 25.500
1
2
+
= 655 = 25,593
100
100
= [55 − 50,17 ≤ µ − µ ≤ 55 + 50,17]
= Z 0,975 = 1,96
1
Tab. 12 oder 14 der
Formelsammlung
(X − X ) = 1.980 − 1.925 = 55
1
SH
2
[4,83 ≤ µ1 − µ 2 ≤ 105,17]
2
Dr. Ricabal Delgado/Prof. Kück
Lehrstuhl Statistik
Schätzung II
30
15
Differenz der mittleren Monatsverdienste von Angestellten der
Kreditinstitute und der Versicherungen - Interpretation
Branchenvergleich Schleswig-Holstein:
Branche
Bruttomonatsverdienste in Euro
Kreditinstitute
Durchschnitt
Standardabweichung
1.925
200
Stichprobenumfang
Durchschnitt
Varianz
Stichprobenumfang
100
1.980
25.500
100
Versicherungsgewerbe
W[(X1 − X 2 ) − Z
1−
0,95
2
S12
S2
S12
S2
+ 2 ≤ µ1 − µ 2 ≤ (X1 − X 2 ) + Z 0,95
+ 2 ] = 0,95
1−
100 100
100 100
2
SH
[4,83 ≤ µ1 − µ 2 ≤ 105,17]
Interpretation: Da das Konfidenzniveau 0,95 nahe Eins gewählt wurde, vertraut man
darauf, dass die Differenz der durchschnittlichen Bruttomonatsverdienste bei
Versicherungsgewerbe und Kreditinstitute in Schleswig-Holsteins im Intervall [5 ; 105] liegt.
Ob in diesem Fall diese Annahme richtig oder falsch ist, kann nicht gesagt werden. Bekannt ist
jedoch der mittlere prozentuale Fehleranteil mit 5 %, der sich bei wiederholter Beobachtung
von Stichproben des Umfangs 100 ergibt. Da das Konfidenzintervall den Wert Null nicht
überdeckt, kann man von einem signifikanten Unterschied zwischen den
Bruttomonatsverdiensten in beiden Branchen ausgehen.
Dr. Ricabal Delgado/Prof. Kück
Lehrstuhl Statistik
Schätzung II
31
Differenz der mittleren Monatsverdienste von Angestellten der
Kreditinstitute und der Versicherungen - Intervallschätzung
Branchenvergleich in Mecklenburg-Vorpommern:
Branche
Bruttomonatsverdienste in Euro
Kreditinstitute
Durchschnitt
Standardabweichung
1.045
150
Stichprobenumfang
Durchschnittliche
Varianz
Stichprobenumfang
100
1.075
40.000
100
Versicherungsgewerbe
W[(X1 − X 2 ) − Z
0,95
1−
2
σ̂ D =
Z
0,95
2
1−
s12
s2
+ 2 =
100 100
S12
S2
S12
S2
+ 2 ≤ µ1 − µ 2 ≤ (X1 − X 2 ) + Z 0,95
+ 2 ] = 0,95
1−
100 100
100 100
2
40.000 22.500
+
= 625 = 25
100
100
= Z 0,975 = 1,96
MV
[30 − 1,96 ⋅ 25 ≤ µ 1 − µ 2 ≤ 30 + 1,96 ⋅ 25]
= [30 − 49 ≤ µ 1 − µ 2 ≤ 30 + 49]
Tab. 12 oder 14 der
Formelsammlung
[−19 ≤ µ1 − µ 2 ≤ 79]
(X − X ) = 1.075 − 1.045 = 30
1
2
Dr. Ricabal Delgado/Prof. Kück
Lehrstuhl Statistik
Schätzung II
32
16
Differenz der mittleren Monatsverdienste von Angestellten der
Kreditinstitute und der Versicherungen - Interpretation
Branchenvergleich in Mecklenburg-Vorpommern:
Branche
Bruttomonatsverdienste in Euro
Kreditinstitute
Durchschnitt
Standardabweichung
1.045
150
Stichprobenumfang
Durchschnitt
Varianz
Stichprobenumfang
100
1.075
40.000
100
Versicherungsgewerbe
W[(X1 − X 2 ) − Z
1−
0,95
2
S12
S2
+ 2 ≤ µ1 − µ 2 ≤ (X1 − X 2 ) + Z
1−
100 100
MV
S12
S2
+ 2 ] = 0,95
100 100
0,95
2
[−19 ≤ µ1 − µ 2 ≤ 79]
Interpretation: Da das Konfidenzniveau 0,95 nahe Eins gewählt wurde, vertraut man darauf,
dass die Differenz der durchschnittlichen Bruttomonatsverdienste beider Branchen in MV im
Intervall [-19 ; 79] liegt. Da die Null zum Schätzintervall gehört, kann man von einem
signifikanten Unterschied zwischen den durchschnittlichen Bruttomonatsverdienst der Branchen
in MV ausgehen. Ob in diesem Fall diese Annahme richtig oder falsch ist, kann nicht gesagt
werden. Bekannt ist jedoch der mittlere prozentuale Fehleranteil mit 5 %, der sich bei
wiederholter Beobachtung von Stichproben des Umfangs 100 ergibt.
Dr. Ricabal Delgado/Prof. Kück
Lehrstuhl Statistik
Schätzung II
33
So erzeugt SPSS eine Statistik der Konfidenzintervalle (95%)
Beispiel: Campusfile Mikrozensus, Einkommen der Haushalte
T h u e ri ng e n
S a ch se n - A n ha l t
S a ch se n
Land der Bundesrepublik
M e ckl e nb u r g -V o r p o mm e r n
B r a nd e n b u rg
B e r lin
S a a rla n d
B a ye r n
B a d e n -W u e r ttem b e r g
R h e in la n d -P fa l z
H e sse n
N o rd r he i n -W e stfa l en
B r e me n
N ie d e rs ac h se n
H a mb u r g
S ch le s wi g- H o lste in
2 .5 00
3 .0 00
3 .50 0
4 .0 0 0
4 .5 0 0
5 .0 0 0
9 5 % C I h h ne
Dr. Ricabal Delgado/Prof. Kück
Lehrstuhl Statistik
Schätzung II
34
17
So erzeugt SPSS eine Statistik der Konfidenzintervalle (99%)
Beispiel: Campusfile Mikrozensus, Einkommen der Haushalte
T h u e ri ng e n
S a ch se n -A nh a l t
S a ch se n
Land der Bundesrepublik
M e ckl e nb u r g -V o r p o mm e r n
B r a nd e n b u rg
B e r lin
S a a rla n d
B a ye r n
B a d e n -W u e r ttem b e r g
R h e in la n d -P fa l z
H e sse n
N o rd r he i n -W e stfa l en
B r e me n
N ie d e rs ac h se n
H a mb u r g
S ch le sw i g- H o lste in
2 5 00 ,0 0
3 00 0 ,0 0
3 5 0 0 ,0 0
4 00 0 ,0 0
4 5 0 0 ,0 0
5 0 0 0 ,0 0
99% C I hhne
Dr. Ricabal Delgado/Prof. Kück
Lehrstuhl Statistik
Schätzung II
35
18
Herunterladen