Standard Normalverteilung Statistik 2 2. Vorlesung, September 22, 2010 für die Standard Normal Verteilung f(x) 0.4 0.3 Der Erwartungswert: „mittlere Wert” ∞ E ( X ) = ∫ xf ( x)dx =0 0.2 Dichtefunktion von Standard Normal Verteilung −∞ Die Varianz: 0.1 ∞ Var ( X ) = ∫ (x − E ( X )) 2 ∞ f ( x ) dx = −∞ ∫x 2 f ( x )dx − (E ( X ) ) = 1 2 −∞ 0.0 für die Standard Normal Verteilung -4 -2 0 2 4 x Normalverteilung Grenzwertsatz Diese sind alle symmetrische Funktionen Parametern: (µ,σ)= (Erwartungswert, Streuung) Die Summe von unabhängigen normalverteilten Zufallsvariablen ist wieder normalverteilt. Erwartungswert: m=m1+...+mn. Varianz: σ2=σ12+...+σn2. Wenn Yn ist die Summe von unabhängigen, identisch verteilten Zufallsvariablen: Yn=X1+...+Xn Z n := X 1 + ... + X n − nm nσ E(Xi)=m, D(Xi)=σ dann für die standardisierte Variable Zn : X + ... + X n − nm < z → Φ( z ) P 1 nσ also die Verteilung von Zn kann man mit der Standard Normal Verteilung nähern, falls n ist gross genug. Ebenso, die Verteilung von Yn kann man mit der Normalverteilung nähern. 0.0 5 Dichtefunktion von Chi-Quadrat Verteilungen 0.5 Chi-Quadrat Verteilung: die Quadratsumme von n, unabhängigen standard normal verteilten Zufallsvariablen 0.4 für Merkmale, die durch mehrere additive Faktoren beeinflusst sind: Körpergrösse, Füllgewicht eines Zuckertütes, Intelligenzquotient, Benzinverbrauch usw. Aber nicht alle Zufallsgrössen sind Normalverteilt: Lebensdauer, Einkommen usw. sind linkssteil (nicht symmetrisch) und so nicht Normalverteilt. Aber wenn man Durchschnitt bildet von n solche Zufallsgrössen, dann wegen den Grenzwertsatz es liegt nahe zur Normal Verteilung. n>30 ist im allgemein gross genug zu einen guten Approximation. n=2 n=4 n=8 0.3 Andere wichtige Verteilungen: f(x) Anwendungen Dichtefunktion: Linkssteil, nicht symmetrisch Wahrscheinlichkeitsrechnung mit Tabelle Erwartungswert: m=n Varianz: σ2=2n. 0.2 0 0.1 -5 0.0 f(x) (0,2) (1,2) (0,0.5) 0.2 0.4 0.6 0.8 Dichtefunktion von verschiedene Normal Verteilungen 0 5 10 15 x 1 Student-Verteilung (t-Verteilung) Schliessende (Induktive) Statistik Dichtefunktion von verschiedene Student-Verteilungen 0.4 die Verteilung von t,n=2 t,n=5 t,n=10 Std.Norm nX0 f(x) Diese sind alle symmetrische Funktionen. 0.2 0.3 2 0.1 2 X 1 + ... + X n wo X0, X1,...,Xn sind unabhängige, standard normal verteilte Zufallsvariable. 0.0 Als n→∞, die Student-Verteilung nähert die Standard Normal Verteilung. -4 -2 0 2 Die wahren Parameter der Grundgesamtheit sind unbekannt (vielleicht weisst man auch die Verteilung nicht) Fragen: Was sind die Werte diesen Parametern? Antwort: aufgrund der Stichprobe (Schätzen), aber es gibt nur ein Näherungswert. Wichtig: der Fehler zu quantifizieren. Methoden: Punktschätzen, Konfidenzintervalle (Intervallschätzen). Sind unsere Hypothese wahr? (z.B läuft das Produktion plangemäss, also haben unsere Waren die gewünschte Eigenschaften?) Antwort: durch Hypothesen-Tests. 4 x Wahrscheinlichkeitsrechnung mit Tabelle Vergleich Deskriptive Statistik (beschreibende Statistik) Beschreibung und Zusammenfassung Darstellung von Daten (Tabellen u. Grafiken) Kennzahlen (z.B. Mittelwerte, Streuungsmaße) Einführung Induktive Statistik (schließende Statistik) Von Stichproben auf Grundgesamtheiten Schätzer Tests Entscheidungstheorie Statistisches Schätzen Bestimmung (Näherungsweise) der Parameter θ der Verteilung der Grundgesamtheit aus der Stichprobe X1,...,Xn . (Man kann es als eine Reihe von Zufallsvariablen betrachten) Beispiele für Parameter: Erwartungswert, Standardabweichung, Quantile usw. Schätzfunktion: auch eine Zufallsvariable Schätzwert: Näherungswert, bestimmt aus der Stichprobenwerten. Grundgesamtheit: davon möchten wir möglichst genaue Ergebnisse bekommen durch eine repräsentative Stichprobe. Auswahl der Stichprobe: Zufallsexperiment, also die beobachtete Merkmalausprägung ist ein Wert von eine Zufallsvariable X. Parametern der Grundgesamtheit sind also die Parametern die Verteilung von X (z.B. Erwartungswert, Varianz oder die Wahrscheinlichkeit P(X<x)). Falls n Einheiten sind zufällig ausgewählt: X1,...,Xn sind unabhängig und identisch verteilt (Realisationen: x1,...,xn sind die Werte der konkreten Stichprobe). Eigenschaften der arithmetischen Mittel für alle Fälle wo die n Stichprobenelemente haben die selbe Verteilung und sind unabhängig: E ( X ) = m,Var ( X ) = σ 2 / n Standardabweichung (Standardfehler): D( X ) = σ / n Korrektur für Stichproben aus endliche Grundgesamtheit (mit Umfang N): E ( X ) = m,Var ( X ) = σ 2 ( N − n) n( N − 1) 2 Gütekriterien Schätzer für die Varianz Erwartungstreuheit: für alle mögliche Parameterwerte im Durchschnitt bekommen wir den schätzenden Parameter. Konsistenz: mit zunehmender Stichprobenumfang der Parameter wird immer genauer nähert. Effizienz: der kleinste Varianz zwischen alle Erwartungstreuen Schätzer. n σˆ = 2 σˆ = Schätzer für die Wahrscheinlichkeit n ∑(X i − X )2 i =1 n −1 Beide sind aber konsistent, und das Differenz zwischen die beiden Schätzer nähert 0 als n immer grösser wird. Allgemeine Methode: Likelihood Funktion Wie kommt man zu einen Schätzer? Beispiel: die Wahrscheinlichkeit von einer Ereignis A. Falls P(A)=p, man hat als Verteilung der Erfolge X 1 + ... + X n n wo Xi ist 1, falls wir bei der Stichprobenelement Nummer i das Ereignis A beobachteten (ansonsten ist Xi=0). Beispiel: aus 100 Kunden in unserem Geschäft haben 15 wirklich was gekauft. Davon bekommen wir Deren Varianz ist n n P ∑ X i = k = p k (1 − p ) n − k k i =1 pˆ = X = 15% Wir betrachten es jetzt als eine Funktion von p (Likelihood Funktion). p (1 − p ) / n und der Grenzwertsatz sichert wieder, dass der Schätzer ist wenigstens nahe zur Normalverteilung. die Verteilung der Grundgesamtheit Maximum Likelihood Schätzer li k e l i h o o d f ü g g v é n y , n = 1 0 0 Wir suchen diejeniges p, für welchen die Likelihood-Funktion maximal ist. l i k e li h o o d f ü g g v é n y , n = 2 0 y 0.2 0.3 k = 1 , m a x = 0 .0 5 k = 5 ,m a x = 0 .2 5 k = 1 0 ,m a x = 0 .5 0.1 0.0 X 1 + ... + X n n 0 .05 y 0.1 0 0.1 5 k = 5 , m a x = 0 .0 5 k = 2 5 ,m a x = 0 .2 5 k = 5 0 ,m a x = 0 .5 0 .00 Man kann es mathematisch beweisen, dass die Lösung lautet pˆ = X = − X )2 Schätzer für die Wahrscheinlichkeit von einer Ereignis A: pˆ = X = i i =1 n 2 ist erwartungstreu und konsistent für die Erwartungswert. In die meissten Fällen (d.H. für die Verteilung der Grundgesamtheit) es ist auch effizient. ∑(X ist nicht erwartungstreu, also man soll die korrigierte Version anwenden (es ist erwartungstreu): θˆ = X Die bis jetzt benutzter Schätzer: 0 .0 0 .2 0 .4 0 .6 x 0 .8 1 .0 0 .0 0 .2 0 .4 0 .6 0 .8 Falls wir einen Idee haben, welche Verteilung (z.B. Normal, Gamma,...) unser Grundgesamtheit beschreibt, wir können deren Parametern schätzen, und so die Verteilung bestimmen. Daraus können wir die für uns interessante Wahrscheinlichkeiten nähern. 1 .0 x 3 falls wir die relative Häufigkeit als Schätzer anwenden. Aber man kann die Daten mit verschiedene Verteilungen nähern, und davon können wir es versuchen, z.B. eine Normalverteilung mit diesen Parametern anzuwenden. Auch andere Verteilungen sind möglich, z.B. die Gamma Verteilung. Eigenschaften der Varianz Damit können wir Schätzer für die Wahrscheinlichkeit grossen Differenzen von der Erwartungswert bekommen: P(|X-EX| ≥ ε)≤Var(X) /ε2 (Tschebischev’sche Ungleichung) Beispiele: Falls E=100, Standardabweichung=20, dann P(|X-100| ≥ 40)≤400 /1600=1/4. P(|X-100| ≥ 60)≤400 /3600=1/9. Für unsere Schätzer: man kann die nötige Stichprobenumfang bestimmen um eine gegebene Genauigkeit zu erreichen. Bootstrap 0.012 0.008 Dichte 0.010 36133 = 85 5 Daraus können wir die Verteilungen bestimmen. Rot: Normal Blau: Gamma P(X>300)=1.5% P(X>300)=4% Aus diesen Modellen bekommen 0 wir einen realistischeren Antwort. 0.006 pˆ = 0 x = 116,7; σˆ = 0.004 was ist das Anteil diejenige Arbeitnehmer, die mehr als 300 TFt pro Monat verdienen? Falls wir haben eine Stichprobe: 50, 60, 80, 100, 130, 280 (TFt) davon sehen wir, das 0.002 Monatsgehalt-verteilung Beispiel/2 0.000 Beispiel 100 200 300 400 500 TFt Beispiel pˆ = X = 15% Var ( pˆ ) = p (1 − p ) / n ˆ Also für n=100 wir haben Var=0,001275. Ep Daraus =p P (| pˆ − p |> 0,1) ≤ 0,001275 / 0,01 = 12,75% Nicht sehr genau (aber sicher). Wir bekommen Pünktlichere Ergebnisse, wenn wir die Verteilung unser Schätzer auch betrachten. Für die selbe Differenz, aufgrund der Normalverteilung: P (| pˆ − p |> 0,1) ≈ P(| Z |> 0,1 / 0,035) = 0,5% Bootstrap-Beispiel Schaetzungen aufgrund der bootstrap Stichproben 100 Die beobachtete Wahrscheinlichkeit für Insgesamt: 1%, also ein wenig grösser als das Ergebnis durch die Normalverteilung. Frequency 60 40 P ( pˆ > 25%) = 0.8% 80 P ( pˆ < 5%) = 0.2% 20 Falls wir können die Verteilung unser Schätzer nicht bestimmen, können wir eine Simulationstechnik anwenden: Nehmen wir mehrere Stichproben aus unser Stichprobe (mit Zurücklegen, und mit dem selben Umfang als die originale). Wenn wir die Schätzung für diese „Bootstrap” Stichproben ausrechnen, bekommen wir eine Näherung zu der Verteilung unser Schätzer . 0 0.05 0.10 0.15 0.20 0.25 0.30 p 4 Intervallschätzung Die wahren Parameter der Grundgesamtheit sind unbekannt Antwort: aufgrund der Stichprobe geben wir ein Schätzwert, aber es ist nur ein Näherungswert. Wichtig: den Fehler zu quantifizieren. Dazu braucht man die Eigenschaften (die Verteilung) der Schätzungen. Verteilung der Schätzer für die Mittelwert der Normalverteilung 1. σ ist bekannt Falls σ sei bekannt, wir können die Verteilung unseren Schätzfunktion X genau bestimmen: es hat Normalverteilung mit Parametern (m,σ / n). Daraus folgt, dass wir können den Unterschied zwischen unsere Schätzung und den wahren Parameter schätzen. Aber dessen Eigenschaften hängen von n und σ ab, also es ist einfacher die standardisierte Version: n ( X − m) σ zu benutzen. Vertrauensintervall Es ist nämlich standard Normalverteilt, also z.B. man weisst, dass P n ( X − m) σ > 2 ≈ 0,05 Daraus kann man ein Vertrauensintervall (Konfidenzintervall) für m konstruieren: 2σ 2σ P m ∈ X − ,X + ≈ 0,95 n n Interpretation natürlich geht es ebenso, generell für Sicherheit 1-α: z z σ σ P m ∈ X − 1−α / 2 , X + 1−α / 2 = 1 − α n n wenn man mit vielen Stichproben die selben m Schätzt, wird m in 100(1-α) Prozent aller Fälle in diesen Intervall liegen. Korrektur für Stichproben aus endlichen Grundgesamtheit (mit Umfang N): σ z P m ∈ X − 1−α / 2 n σ z N −n , X + 1−α / 2 N −1 n N − n = 1−α N − 1 Vertrauensintervall mit Falls σ ist nicht bekannt n σˆ 2 = In diesem Fall können wir die Verteilung unseren Schätzfunktion nicht genau bestimmen, wir müssen dazu auch noch die Varianz (und daraus die Standardabweichung) schätzen: ∑ ( X i − X )2 i =1 n ∑ ( X i − X )2 σˆ = i =1 n −1 n −1 Die Standardisierung: n ( X − m) σˆ Es ist nicht mehr standard Normalverteilt, sondern Student (t)-verteilt. Deckungswahrscheinlichkeit 1-α t t σˆ σˆ P m ∈ X − 1−α / 2,n−1 , X + 1−α / 2,n−1 = 1 − α n n Für n>50 die t-Quantil geht in die standard Normalquantil über. Ebenso wenn die Verteilung der Merkmal ist unbekannt, für n>50 kann man die Konfidenzbereich für die Mittelwert von Punkt 1 (σ bekannt) benutzen. Oft wählt man der Stichprobenumfang so, dass für gegebene Sicherheit 1-α die Intervallbreite eine gegebene Zahl d nicht überschreitet. Dazu: 4( z1−α / 2 ) 2 σ 2 n≥ (Fall 1: σ soll bekannt sein) 2 d 5