Statistik Wichtige Sätze der Wahrscheinlichkeitstheorie die in der Statistik benutzt werden: Satz 1 - Der Zentrale Grenzwertsatz Sei (Xn )n eine Folge von unabhängigen zufälligen Variablen, welche dieselbe Verteilung haben. Sei µ = E(Xn ) und σ 2 = V (Xn ) > 0 für alle n ≥ 1. Es gilt (1) lim P 1 n (X1 n→∞ + . . . + Xn ) − µ √σ n ! <b 1 =√ 2π Zb t2 e− 2 dt = FN (0,1) (b), −∞ für alle b ∈ R. Satz 2 Seien X ∼ N (0, 1) und Y ∼ χ2 (n) unabhängige zufällige Variablen. Dann gilt X Z = q ∼ Student(n). Y n Satz 3 Seien X1 , . . . , Xn unabhängige zufällige Variablen mit normaler Verteilung N (0, 1). Dann gilt X12 + . . . + Xn2 ∼ χ2 (n). Sei X die zufällige Variable, welche das untersuchte statistische Merkmal darstellt. Seien x1 , . . . , xn statistische Daten (Beobachtungen, Stichprobenwerte) für das Merkmal X, die anhand einer Stichprobe erhalten wurden. Die Daten x1 , . . . , xn können als Werte (Realisierungen) von n zufälligen Variablen X1 , . . . , Xn betrachtet werden; X1 , . . . , Xn heißen Stichprobenvariablen und sind unabhängige zufällige Variablen mit derselben Verteilung wie X. I Stichprobenmittel (empirischer Mittelwert) X̄n = 1 (X1 + . . . + Xn ) n ist ein erwartungstreuer Schätzer für den Erwartungswert E(X) des Merkmals X I Wert des Stichprobenmittels 1 x̄n = (x1 + . . . + xn ) n I Stichprobenvarianz (empirische Varianz) n S̃n2 1 X (Xk − X̄n )2 = n−1 k=1 I Wert der Stichprobenvarianz n s̃2n = 1 X (xk − x̄n )2 n−1 k=1 1 I empirische Standardabweichung n S̃n = 1 X (Xk − X̄n )2 n−1 !1 2 k=1 I Wert der empirischen Standardabweichung n s̃n = 1 X (xk − x̄n )2 n−1 !1 2 k=1 I Die Schätzfunktion θ̂(X1 , . . . , Xn ) ist erwartungstreu für den unbekannten Parameter θ, wenn E(θ̂(X1 , . . . , Xn )) = θ. Quantil der Ordnung α für die Verteilung des beobachteten Merkmals X ist der Wert zα ∈ R für welchen gilt P (X < zα ) ≤ α ≤ P (X ≤ zα ). • Falls X stetige zufällige Variable ist, dann zα Quantil der Ordnung α =⇒ P (X ≤ zα ) = α =⇒ FX (zα ) = α • α · 100% der Werte von X sind kleiner oder gleich mit zα Statistische Teste Sei α ∈ (0, 1) das Signifikanzniveau (Irrtumswahrscheinlichkeit). Test für den Erwartungswert m = E(X) des beobachteten Merkmals X, wenn die Varianz des Merkmals σ 2 = V (X) bekannt ist (Gauß Test, Z-Test) I falls X ∼ N (m, σ 2 ) oder n > 30, dann X̄n − m √σ n ∼ N (0, 1) I anhand der statistischen Daten x1 , . . . , xn berechnet man z = x̄n − m0 √σ n I man berechnet das Quantil der Ordnung α der normalen Verteilung N (0, 1) zα = norminv(α, 0, 1) H0 : m = m0 H0 : m ≤ m0 H0 : m ≥ m0 H1 : m 6= m0 H1 : m > m0 H1 : m < m0 Man akzeptiert H0 , wenn |z| < z1− α2 z < z1−α z > zα Man lehnt H0 ab, zugunsten von H1 , wenn |z| ≥ z1− α2 z ≥ z1−α z ≤ zα Test für Anteilswert p des beobachteten Merkmals X ∼ Bernoulli(p) (Approximativer Gauß Test) X̄n − p I falls X ∼ Bernoulli(p) und np(1 − p) ≥ 10, dann q ∼ N (0, 1) p(1−p) n x̄n − p0 I anhand der statistischen Daten x1 , . . . , xn berechnet man z = q p0 (1−p0 ) n I man berechnet das Quantil der Ordnung α der normalen Verteilung N (0, 1) zα = norminv(α, 0, 1) 2 H0 : p = p0 H0 : p ≤ p0 H0 : p ≥ p0 H1 : p 6= p0 H1 : p > p0 H1 : p < p0 Man akzeptiert H0 , wenn |z| < z1− α2 z < z1−α z > zα Man lehnt H0 ab, zugunsten von H1 , wenn |z| ≥ z1− α2 z ≥ z1−α z ≤ zα Test für den Erwartungswert m = E(X) des beobachteten Merkmals X, wenn die Varianz des Merkmals σ 2 = V (X) unbekannt ist (Student Test, T-Test) I falls X ∼ N (m, σ 2 ) oder n > 30, dann X̄n − m S̃n √ n ∼ Student(n − 1) I anhand der statistischen Daten x1 , . . . , xn berechnet man t = x̄n − m0 s̃n √ n I man berechnet das Quantil der Ordnung α der Studentverteilung mit n − 1 Freiheitsgraden tα = tinv(α, n − 1) H0 : m = m0 H0 : m ≤ m0 H0 : m ≥ m0 H1 : m 6= m0 H1 : m > m0 H1 : m < m0 Man akzeptiert H0 , wenn |t| < t1− α2 t < t1−α t > tα Man lehnt H0 ab, zugunsten von H1 , wenn |t| ≥ t1− α2 t ≥ t1−α t ≤ tα Test für Standardabweichung σ = I wenn X ∼ N (m, σ 2 ), dann n−1 2 S̃ σ2 n p V (X) des beobachteten Merkmals X ∼ χ2 (n − 1) n−1 2 · s̃n σ02 I man berechnet das Quantil der Ordnung α der χ2 Verteilung mit n − 1 Freiheitsgraden qα = chi2inv(α, n − 1) I anhand der statistischen Daten x1 , . . . , xn berechnet man q = H0 : σ = σ0 H1 : σ = 6 σ0 H0 : σ ≤ σ0 H1 : σ > σ0 H0 : σ ≥ σ0 H1 : σ < σ 0 Man akzeptiert H0 , wenn q α2 < q < q1− α2 q < q1−α q > qα Man lehnt H0 ab, zugunsten von H1 , wenn q∈ / (q α2 , q1− α2 ) q ≥ q1−α q ≤ qα Aufgaben: 1. Ein Autohersteller behauptet, dass der Benzinverbrauch für einen neuen Autotyp im Mittel 6l/100 km ist. Dabei kann er davon ausgehen, dass der Verbrauch normalverteilt ist mit σ = 0.3l. Eine Verbraucherzentrale vermutet, dass der Hersteller einen zu niedrigen Mittelwert angegeben hat und überprüft 20 Autos des neuen Typs aud ihren Verbrauch und berechnet einen empirischen Mittelwert von 6.1 l. a) Kann hiermit die Behauptung des Herstellers widerlegt werden? b) Wie großmuss der durchschnittliche Benzinverbrauch einer Stichprobe mit n = 20 und σ = 0.3 mindestens sein, damit die Behauptung des Herstellers widerlegt wird? (α = 0.01) Lösung: H0 : m ≤ 6 mit H1 : m > 6, Varianz ist bekannt σ 2 = 0.09, n = 20, x̄n = 6.1 x̄n − m0 6.1 − 6 a) z = = 0.3 ≈ 1.4907 < z1−α = norminv(1 − α) ≈ 2.3263 σ √ n √ 20 ⇒ H0 wird akzeptiert ⇒ die Behauptung des Herstellers kann nicht widerlegt werden 3 b) z = x̄n − m0 √σ n = x̄n − 6 0.3 √ 20 0.3 ≥ z1−α = norminv(1 − α) ≈ 2.3263 ⇒ x̄n ≥ 6 + z1−α · √ ≈ 6.1561 20 2. Die Anleitungen eines Medikaments geben an, dass jede Tablette 2.4 g aktive Substanzen enthält. 100 zufällig gewählte Tabletten werden untersucht und man stellt fest, dass im Mittel 2.5 g aktive Substanzen enthalten mit einer Standardabweichung von 0.2 g. Kann man behaupten, dass das Medikament die Angaben respektiert? (α = 0.01) Lösung: H0 : m = 2.4 mit H1 : m 6= 2.4, Varianz ist unbekannt, n = 100, x̄n = 2.5, s̃n = 0.2 x̄n − m0 2.5 − 2.4 z= = = 5 > t1−α/2 = tinv(1 − α/2, n − 1) ≈ 2.6264 0.2 s̃n √ √ n 100 ⇒ H1 wird akzeptiert ⇒ die Angaben werden nicht respektiert 3. Es soll die Hypothese überprüft werden, dass ein Abfüllautomat normgerecht arbeitet, das heißt, dass das mittlere Gewicht der abgepackten Tüten 500g beträgt. Es wurde aus den in einer Stunde produzierten Mehltüten eine Stichprobe von 121 Tüten ermittelt, welche im Durchschnitt 498.3 g wogen mit einer Standardabweichung von 1 g. (α = 0.05) Lösung: H0 : m = 500 mit H1 : m 6= 500, Varianz ist unbekannt, n = 121, x̄n = 498.3, s̃n = 1 |498.3 − 500| |x̄n − m0 | = |z| = = 18.7 > t1−α/2 = tinv(1 − α/2, n − 1) ≈ 1.9799 1 s̃n √ n √ 121 ⇒ H1 wird akzeptiert ⇒ der Abfüllautomat arbeitet nicht normgerecht 4. 49 Studenten eines Studienjahrganges wurden gefragt, wieviel Zeit sie für ihr Selbststudium in der Woche durchschnittlich verwenden. Man erhielt folgende Werte Studienzeit 9 10 11 12 13 15 16 17 Absolute Häufigkeit 5 5 11 12 10 1 2 3 Es kann vorausgesetzt werden, dass die Zeit normalverteilt ist. a) Uberprüfen Sie die Annahme, dass die Studenten dieses Jahrganges im Mittel 14 Stunden pro Woche für das Selbststudium verwenden. Wählen Sie das Signifikanzniveau 5%. b) Testen Sie beim Signifikanzniveau 1% die Hypothese, dass die Varianz der Selbststudienzeit nicht grösser als 2 ist. 5. Der Produzent eines bestimmten elektrischen Gerätes gibt an, dass die mittlere Lebensdauer mindestens 1000 Stunden beträgt. Ein Kunde möchte vor dem Kauf eines größeren Postens die Geräte überprüfen. Dazu kontrolliert er die Lebensdauer von 25 zufällig ausgewählten Geräten und berechnet das arithmetische Mittel von 994 h und die empirische Standardabweichung von 25.6 h. Mit dieser Stichprobe prüft der Käufer die Nullhypothese m ≥ 1000 (h) gegen die Alternativhypothese m < 1000 (h) zum Signifikanzniveau α = 0.05. Kann er die Angabe des Produzenten bestätigen? Die Lebensdauer des elektrischen Gerätes kann erfahrungsgemäß als normalverteilt angesehen werden. 6. In einem Stadtgebiet beträgt der Anteilswert der Einwohner, die öffentliche Verkehrsmittel benutzen, 0.21. Man vermutet einen Anstieg der Benutzer. Anhand einer Umfrage in diesem Stadtgebiet wurde ermittelt, dass 64 von 300 Einwohnern öffentliche Verkehrsmittel benutzen. Lässt sich die Vermutung bestätigen? (Testniveau: α = 0.05). Momentenmethode für das Schätzen unbekannter Parameter θ = (θ1 , . . . , θr ) der Verteilung des beobachteten Merkmals X Beispiele: X ∼ Exp(λ unbekannter Parameter: θ = λ X ∼ N (m, σ 2 ) unbekannte Parameter: (θ1 , θ2 ) = (m, σ) X ∼ U nif [a, b] unbekannte Parameter: (θ1 , θ2 ) = (a, b) 4 Seien x1 , . . . , xn statistische Daten und X1 , . . . , Xn seien Stichprobenvariablen für das Merkmal X, die anhand einer Stichprobe erhalten wurden. Man löst das System n E(X k ) = 1 X X k i n i=1 k = {1, ..., r} mit Unbekannte θ1 , . . . , θr . Die Lösung des Systems θ̂1 , . . . , θ̂r ist der Schätzer für die unbekannten Parameter. Beispiel 1: Sei X ∼ U nif [0, a] unbekannter Parameter: θ = a; die statistischen Daten sind: 0.1,0.3,0.9,0.49,0.12,0.31,0.98,0.73, 0.13,0.62; Für: r = 1, berechnet man E(X) = a2 ; n = 10, x̄n = 0.468 Man löst E(X) = n n i=1 i=1 1X 1X a = Xi =⇒ Xi n 2 n Der Schätzer für den unbekannten Paramater a ist n â(X1 , ..., Xn ) = 2X Xi , n i=1 und der Schätzwert ist n â(x1 , ..., xn ) = 2X xi = 0.936, n i=1 Der unbekannte Paramater a wird durch den Wert 0.936 geschätzt. Ist â(X1 , ..., Xn ) ein erwartungstreuer Schätzer für den Parameter a? Beispiel 2: Bei der Herstellung von Batterien läßt es sich nicht vermeiden, dass einige Batterien defekt sind. Zur Schätzung des unbekannten Ausschußanteils wird dem FertigungsprozeB eine Stichprobe von 100 Batterien entnommen und geprüft. Man erhält 10 defekte Batterien. Bestimmen Sie den Momenten-Schätzer für die Ausschußwahrscheinlichkeit p. Welche Eigenschaften hat dieser Schätzer? (Man berechne seinen Erwartungswert, seine Varianz) Lösung: Das beobachtete statistische Merkmal X ist X∼ 0 1 ! 1−p p wobei X = 1 zeigt an, dass die untersuchte Batterie defekt ist, X = 0 zeigt an, dass die untersuchte Batterie nicht defekt ist. Es gilt E(X) = p. Der Momenten-Schätzer für den unbekannten Paramater p ist n 1X p̂(X1 , ..., Xn ) = Xi , n i=1 und der Schätzwert ist n p̂(x1 , ..., xn ) = 1X 10 xi = = 0.1. n 100 i=1 5 Es gilt p(1 − p) . n Beispiel 3: Die Lebensdauer X eines Bauelementes besitze eine eine Eponentialverteilung mit der Dichte ( λe−λx , für x > 0 f (x) = 0, für x ≤ 0, E(p̂(X1 , ..., Xn )) = p(erwartungstreu) und V (p̂(X1 , ..., Xn )) = wobei der Parameter λ > 0 unbekannt ist und mit Hilfe einer Stichprobe X1 , . . . , Xn geschätzt werden soll. 6