Statistik

Werbung
Statistik
Wichtige Sätze der Wahrscheinlichkeitstheorie die in der Statistik benutzt werden:
Satz 1 - Der Zentrale Grenzwertsatz
Sei (Xn )n eine Folge von unabhängigen zufälligen Variablen, welche dieselbe Verteilung haben. Sei µ =
E(Xn ) und σ 2 = V (Xn ) > 0 für alle n ≥ 1. Es gilt
(1)
lim P
1
n (X1
n→∞
+ . . . + Xn ) − µ
√σ
n
!
<b
1
=√
2π
Zb
t2
e− 2 dt = FN (0,1) (b),
−∞
für alle b ∈ R.
Satz 2
Seien X ∼ N (0, 1) und Y ∼ χ2 (n) unabhängige zufällige Variablen. Dann gilt
X
Z = q ∼ Student(n).
Y
n
Satz 3
Seien X1 , . . . , Xn unabhängige zufällige Variablen mit normaler Verteilung N (0, 1). Dann gilt
X12 + . . . + Xn2 ∼ χ2 (n).
Sei X die zufällige Variable, welche das untersuchte statistische Merkmal darstellt. Seien x1 , . . . , xn statistische Daten (Beobachtungen, Stichprobenwerte) für das Merkmal X, die anhand einer Stichprobe erhalten
wurden.
Die Daten x1 , . . . , xn können als Werte (Realisierungen) von n zufälligen Variablen X1 , . . . , Xn betrachtet
werden; X1 , . . . , Xn heißen Stichprobenvariablen und sind unabhängige zufällige Variablen mit derselben
Verteilung wie X.
I Stichprobenmittel (empirischer Mittelwert)
X̄n =
1
(X1 + . . . + Xn )
n
ist ein erwartungstreuer Schätzer für den Erwartungswert E(X) des Merkmals X
I Wert des Stichprobenmittels
1
x̄n = (x1 + . . . + xn )
n
I Stichprobenvarianz (empirische Varianz)
n
S̃n2
1 X
(Xk − X̄n )2
=
n−1
k=1
I Wert der Stichprobenvarianz
n
s̃2n =
1 X
(xk − x̄n )2
n−1
k=1
1
I empirische Standardabweichung
n
S̃n =
1 X
(Xk − X̄n )2
n−1
!1
2
k=1
I Wert der empirischen Standardabweichung
n
s̃n =
1 X
(xk − x̄n )2
n−1
!1
2
k=1
I Die Schätzfunktion θ̂(X1 , . . . , Xn ) ist erwartungstreu für den unbekannten Parameter θ, wenn
E(θ̂(X1 , . . . , Xn )) = θ.
Quantil der Ordnung α für die Verteilung des beobachteten Merkmals X ist der Wert zα ∈ R für welchen gilt
P (X < zα ) ≤ α ≤ P (X ≤ zα ).
• Falls X stetige zufällige Variable ist, dann zα Quantil der Ordnung α =⇒ P (X ≤ zα ) = α =⇒ FX (zα ) = α
• α · 100% der Werte von X sind kleiner oder gleich mit zα
Statistische Teste
Sei α ∈ (0, 1) das Signifikanzniveau (Irrtumswahrscheinlichkeit).
Test für den Erwartungswert m = E(X) des beobachteten Merkmals X, wenn die Varianz des
Merkmals σ 2 = V (X) bekannt ist (Gauß Test, Z-Test)
I falls X ∼ N (m, σ 2 ) oder n > 30, dann
X̄n − m
√σ
n
∼ N (0, 1)
I anhand der statistischen Daten x1 , . . . , xn berechnet man z =
x̄n − m0
√σ
n
I man berechnet das Quantil der Ordnung α der normalen Verteilung N (0, 1) zα = norminv(α, 0, 1)
H0 : m = m0
H0 : m ≤ m0
H0 : m ≥ m0
H1 : m 6= m0
H1 : m > m0
H1 : m < m0
Man akzeptiert H0 , wenn
|z| < z1− α2
z < z1−α
z > zα
Man lehnt H0 ab, zugunsten von H1 , wenn
|z| ≥ z1− α2
z ≥ z1−α
z ≤ zα
Test für Anteilswert p des beobachteten Merkmals X ∼ Bernoulli(p) (Approximativer Gauß
Test)
X̄n − p
I falls X ∼ Bernoulli(p) und np(1 − p) ≥ 10, dann q
∼ N (0, 1)
p(1−p)
n
x̄n − p0
I anhand der statistischen Daten x1 , . . . , xn berechnet man z = q
p0 (1−p0 )
n
I man berechnet das Quantil der Ordnung α der normalen Verteilung N (0, 1) zα = norminv(α, 0, 1)
2
H0 : p = p0
H0 : p ≤ p0
H0 : p ≥ p0
H1 : p 6= p0
H1 : p > p0
H1 : p < p0
Man akzeptiert H0 , wenn
|z| < z1− α2
z < z1−α
z > zα
Man lehnt H0 ab, zugunsten von H1 , wenn
|z| ≥ z1− α2
z ≥ z1−α
z ≤ zα
Test für den Erwartungswert m = E(X) des beobachteten Merkmals X, wenn die Varianz des
Merkmals σ 2 = V (X) unbekannt ist (Student Test, T-Test)
I falls X ∼ N (m, σ 2 ) oder n > 30, dann
X̄n − m
S̃n
√
n
∼ Student(n − 1)
I anhand der statistischen Daten x1 , . . . , xn berechnet man t =
x̄n − m0
s̃n
√
n
I man berechnet das Quantil der Ordnung α der Studentverteilung mit n − 1 Freiheitsgraden
tα = tinv(α, n − 1)
H0 : m = m0
H0 : m ≤ m0
H0 : m ≥ m0
H1 : m 6= m0
H1 : m > m0
H1 : m < m0
Man akzeptiert H0 , wenn
|t| < t1− α2
t < t1−α
t > tα
Man lehnt H0 ab, zugunsten von H1 , wenn
|t| ≥ t1− α2
t ≥ t1−α
t ≤ tα
Test für Standardabweichung σ =
I wenn X ∼ N (m, σ 2 ), dann
n−1 2
S̃
σ2 n
p
V (X) des beobachteten Merkmals X
∼ χ2 (n − 1)
n−1 2
· s̃n
σ02
I man berechnet das Quantil der Ordnung α der χ2 Verteilung mit n − 1 Freiheitsgraden
qα = chi2inv(α, n − 1)
I anhand der statistischen Daten x1 , . . . , xn berechnet man q =
H0 : σ = σ0
H1 : σ =
6 σ0
H0 : σ ≤ σ0
H1 : σ > σ0
H0 : σ ≥ σ0
H1 : σ < σ 0
Man akzeptiert H0 , wenn
q α2 < q < q1− α2
q < q1−α
q > qα
Man lehnt H0 ab, zugunsten von H1 , wenn
q∈
/ (q α2 , q1− α2 )
q ≥ q1−α
q ≤ qα
Aufgaben:
1. Ein Autohersteller behauptet, dass der Benzinverbrauch für einen neuen Autotyp im Mittel 6l/100 km
ist. Dabei kann er davon ausgehen, dass der Verbrauch normalverteilt ist mit σ = 0.3l. Eine Verbraucherzentrale vermutet, dass der Hersteller einen zu niedrigen Mittelwert angegeben hat und überprüft 20 Autos des
neuen Typs aud ihren Verbrauch und berechnet einen empirischen Mittelwert von 6.1 l. a) Kann hiermit die
Behauptung des Herstellers widerlegt werden? b) Wie großmuss der durchschnittliche Benzinverbrauch einer
Stichprobe mit n = 20 und σ = 0.3 mindestens sein, damit die Behauptung des Herstellers widerlegt wird?
(α = 0.01)
Lösung: H0 : m ≤ 6 mit H1 : m > 6, Varianz ist bekannt σ 2 = 0.09, n = 20, x̄n = 6.1
x̄n − m0
6.1 − 6
a) z =
= 0.3 ≈ 1.4907 < z1−α = norminv(1 − α) ≈ 2.3263
σ
√
n
√
20
⇒ H0 wird akzeptiert ⇒ die Behauptung des Herstellers kann nicht widerlegt werden
3
b) z =
x̄n − m0
√σ
n
=
x̄n − 6
0.3
√
20
0.3
≥ z1−α = norminv(1 − α) ≈ 2.3263 ⇒ x̄n ≥ 6 + z1−α · √ ≈ 6.1561
20
2. Die Anleitungen eines Medikaments geben an, dass jede Tablette 2.4 g aktive Substanzen enthält. 100
zufällig gewählte Tabletten werden untersucht und man stellt fest, dass im Mittel 2.5 g aktive Substanzen
enthalten mit einer Standardabweichung von 0.2 g. Kann man behaupten, dass das Medikament die Angaben
respektiert? (α = 0.01)
Lösung: H0 : m = 2.4 mit H1 : m 6= 2.4, Varianz ist unbekannt, n = 100, x̄n = 2.5, s̃n = 0.2
x̄n − m0
2.5 − 2.4
z=
=
= 5 > t1−α/2 = tinv(1 − α/2, n − 1) ≈ 2.6264
0.2
s̃n
√
√
n
100
⇒ H1 wird akzeptiert ⇒ die Angaben werden nicht respektiert
3. Es soll die Hypothese überprüft werden, dass ein Abfüllautomat normgerecht arbeitet, das heißt, dass das
mittlere Gewicht der abgepackten Tüten 500g beträgt. Es wurde aus den in einer Stunde produzierten Mehltüten
eine Stichprobe von 121 Tüten ermittelt, welche im Durchschnitt 498.3 g wogen mit einer Standardabweichung
von 1 g. (α = 0.05)
Lösung: H0 : m = 500 mit H1 : m 6= 500, Varianz ist unbekannt, n = 121, x̄n = 498.3, s̃n = 1
|498.3 − 500|
|x̄n − m0 |
=
|z| =
= 18.7 > t1−α/2 = tinv(1 − α/2, n − 1) ≈ 1.9799
1
s̃n
√
n
√
121
⇒ H1 wird akzeptiert ⇒ der Abfüllautomat arbeitet nicht normgerecht
4. 49 Studenten eines Studienjahrganges wurden gefragt, wieviel Zeit sie für ihr Selbststudium in der
Woche durchschnittlich verwenden. Man erhielt folgende Werte
Studienzeit
9
10
11
12
13
15
16
17
Absolute Häufigkeit
5
5
11
12
10
1
2
3
Es kann vorausgesetzt werden, dass die Zeit normalverteilt ist.
a) Uberprüfen Sie die Annahme, dass die Studenten dieses Jahrganges im Mittel 14 Stunden pro Woche für das
Selbststudium verwenden. Wählen Sie das Signifikanzniveau 5%.
b) Testen Sie beim Signifikanzniveau 1% die Hypothese, dass die Varianz der Selbststudienzeit nicht grösser
als 2 ist.
5. Der Produzent eines bestimmten elektrischen Gerätes gibt an, dass die mittlere Lebensdauer mindestens
1000 Stunden beträgt. Ein Kunde möchte vor dem Kauf eines größeren Postens die Geräte überprüfen. Dazu
kontrolliert er die Lebensdauer von 25 zufällig ausgewählten Geräten und berechnet das arithmetische Mittel
von 994 h und die empirische Standardabweichung von 25.6 h. Mit dieser Stichprobe prüft der Käufer die Nullhypothese m ≥ 1000 (h) gegen die Alternativhypothese m < 1000 (h) zum Signifikanzniveau α = 0.05. Kann
er die Angabe des Produzenten bestätigen? Die Lebensdauer des elektrischen Gerätes kann erfahrungsgemäß
als normalverteilt angesehen werden.
6. In einem Stadtgebiet beträgt der Anteilswert der Einwohner, die öffentliche Verkehrsmittel benutzen,
0.21. Man vermutet einen Anstieg der Benutzer. Anhand einer Umfrage in diesem Stadtgebiet wurde ermittelt, dass 64 von 300 Einwohnern öffentliche Verkehrsmittel benutzen. Lässt sich die Vermutung bestätigen?
(Testniveau: α = 0.05).
Momentenmethode für das Schätzen unbekannter Parameter θ = (θ1 , . . . , θr ) der Verteilung
des beobachteten Merkmals X
Beispiele:
X ∼ Exp(λ unbekannter Parameter: θ = λ
X ∼ N (m, σ 2 ) unbekannte Parameter: (θ1 , θ2 ) = (m, σ)
X ∼ U nif [a, b] unbekannte Parameter: (θ1 , θ2 ) = (a, b)
4
Seien x1 , . . . , xn statistische Daten und X1 , . . . , Xn seien Stichprobenvariablen für das Merkmal X, die anhand
einer Stichprobe erhalten wurden.
Man löst das System

n

 E(X k ) = 1 X X k
i
n
i=1


k = {1, ..., r}
mit Unbekannte θ1 , . . . , θr .
Die Lösung des Systems θ̂1 , . . . , θ̂r ist der Schätzer für die unbekannten Parameter.
Beispiel 1: Sei X ∼ U nif [0, a] unbekannter Parameter: θ = a;
die statistischen Daten sind: 0.1,0.3,0.9,0.49,0.12,0.31,0.98,0.73, 0.13,0.62;
Für: r = 1, berechnet man E(X) = a2 ; n = 10, x̄n = 0.468
Man löst
E(X) =
n
n
i=1
i=1
1X
1X
a
=
Xi =⇒
Xi
n
2
n
Der Schätzer für den unbekannten Paramater a ist
n
â(X1 , ..., Xn ) =
2X
Xi ,
n
i=1
und der Schätzwert ist
n
â(x1 , ..., xn ) =
2X
xi = 0.936,
n
i=1
Der unbekannte Paramater a wird durch den Wert 0.936 geschätzt.
Ist â(X1 , ..., Xn ) ein erwartungstreuer Schätzer für den Parameter a?
Beispiel 2: Bei der Herstellung von Batterien läßt es sich nicht vermeiden, dass einige Batterien defekt sind.
Zur Schätzung des unbekannten Ausschußanteils wird dem FertigungsprozeB eine Stichprobe von 100 Batterien entnommen und geprüft. Man erhält 10 defekte Batterien. Bestimmen Sie den Momenten-Schätzer
für die Ausschußwahrscheinlichkeit p. Welche Eigenschaften hat dieser Schätzer? (Man berechne seinen Erwartungswert, seine Varianz)
Lösung: Das beobachtete statistische Merkmal X ist
X∼
0
1
!
1−p p
wobei X = 1 zeigt an, dass die untersuchte Batterie defekt ist, X = 0 zeigt an, dass die untersuchte Batterie
nicht defekt ist. Es gilt E(X) = p. Der Momenten-Schätzer für den unbekannten Paramater p ist
n
1X
p̂(X1 , ..., Xn ) =
Xi ,
n
i=1
und der Schätzwert ist
n
p̂(x1 , ..., xn ) =
1X
10
xi =
= 0.1.
n
100
i=1
5
Es gilt
p(1 − p)
.
n
Beispiel 3: Die Lebensdauer X eines Bauelementes besitze eine eine Eponentialverteilung mit der Dichte
(
λe−λx , für x > 0
f (x) =
0,
für x ≤ 0,
E(p̂(X1 , ..., Xn )) = p(erwartungstreu) und V (p̂(X1 , ..., Xn )) =
wobei der Parameter λ > 0 unbekannt ist und mit Hilfe einer Stichprobe X1 , . . . , Xn geschätzt werden soll.
6
Herunterladen