STATISIK LV Nr.: 1375 SS 2005 10. März 2005 1 Normalverteilung • Approximation durch Normalverteilung: Mit wachsendem n nähern sich viele theoretische Vt. der Normalverteilung • Empirische Verteilungen lassen sich ebenfalls oft durch die N-Vt. annähern. 2 Normalverteilung • Reproduktionseigenschaft (od. Additivitätseigenschaft) der Normal-Vt. • Additionstheorem der Normalverteilung: – Die Summe (X) von n unabhängig normalverteilten Zufallvariablen X1,…,Xn ist ebenfalls normalverteilt. X = X1 + … + Xn – Der Erwartungswert von X ist die Summe der einzelnen Erwartungswerte μ1,…,μn E(X) = μ = μ1 + … + μn – Die Varianz von X ist die Summe der einzelnen Varianzen σ1²,…σn² Var(X) = σ² = σ1² + … + σn² 3 Stichproben • Aufgabe: Aussagen über Grundgesamtheit • Stichprobe (Kosten, Zeit, Möglichkeit) – Zufallsstichprobe (theoretisch fundierte Aussagen über Zuverlässigkeit der Ergebnisse sind möglich) – Quotenstichprobe (keine theoretisch fundierten Aussagen über die Zuverlässigkeit der Ergebnisse) • Stpr. heißt repräsentativ, wenn ein Schluss auf Grundgesamtheit erlaubt ist • Stichprobe „verkleinertes Abbild“ der Grundgesamtheit. 4 Stichproben • Arithmetische Mittel der Stichprobe: 1 n x xi n i 1 • Varianz der Stichprobe: n 1 2 2 s (x i x) n 1 i 1 • Anteilswert P einer Stichprobe: x p n 5 Stichprobenverteilung • Verteilung des arithmetischen Mittels der Stichprobe (Zufallsstichprobe): – Zufallsvariable X1,…,Xn – Konkrete Realisation: x1,…,xn • Arithmetische Mittel: 1 n X Xi n i 1 – Arithm. Mittel von ZV ist wieder eine ZV (Funktion von n ZV) 6 Stichprobenverteilung • Erwartungswert der Verteilung des arithmetischen Mittels: 1 n E( X) E X i μ n i 1 • Varianz der Verteilung des arithm. Mittels 1 n σ2 Var( X) Var X i n i 1 n • Standardabweichung od. Standardfehler σ σ X Var( X) n 7 Stichprobenverteilung • Erwartungswert u. Varianz bekannt • Verteilung des arithm. Mittels? • Annahme: Grundgesamtheit ist N(μ,σ²)-vt. – Reproduktionseigenschaft der N-Vt: Summe von n unabhängig normal-vt. ZV ist wieder n-vt – Daher ist auch das arithm. Mittel normalverteilt 8 Grenzwertsätze Verhalten des Mittelwert von n unabhängig identisch verteilten (i.i.d.) ZV X1,…,Xn, wenn n laufend erhöht wird (n→∞) • Gesetz der Großen Zahlen • Satz von Glivenko-Cantelli • Zentraler Grenzwertsatz 9 Grenzwertsätze • Gesetz der Großen Zahlen: • Beinhaltet die Aussage, dass sich der Mittelwert mit wachsendem n immer mehr um den gemeinsamen Erwartungswert µ der Xi konzentriert. 1 n W Xi μ ε n 0 für alle Werte ε 0 n i 1 W X n μ ε n 0 10 Grenzwertsätze • Gesetz der Großen Zahlen: • Beinhaltet die Aussage, dass der Wert der empirischen Verteilungsfunktion an der Stelle t mit wachsendem n gegen den entsprechenden Wert der Verteilungsfunktion von X konvergiert. W Sn (t)-FX (t) ε 0 für alle Werte ε>0 n 11 Grenzwertsätze • Satz von Glivenko-Cantelli: • Wert der empirischen Verteilungsfunktion konvergiert an der Stelle t mit wachsendem n gegen den entsprechenden Wert der Verteilungsfunktion von X. W sup Sn (t) FX (t) n 0 1 t 12 Grenzwertsätze • Zentraler Grenzwertsatz: • Aussage über die Form der Verteilung des Mittelwertes (standardisierte ZV Zn). Die Verteilungsfunktion von Zn konvergiert gegen die Standardnormalverteilung (Φ … Vt-Fkt. der N(0,1) Vt.) Xn μ Zn n mit E(Z n ) 0 und Var(Z n ) 1 σ W(Z n z) n Φ(z) 13 Grenzwertsätze • Aus dem Zentralen Grenzwertsatz folgt: Die Verteilung des arithm. Mittels von n unabhängig identisch verteilten Zufallsvariablen Xi (X1,…,Xn) strebt mit wachsendem Stichprobenumfang n gegen eine Normalverteilung mit dem Erwartungswert µ und Varianz σ²/n. • Gleichbedeutend: Das arithmetische Mittel ist „asymptotisch normalverteilt“. • Faustregel: n > 30, N-Vt. ist gute Näherung für die Vt. des arithmetischen Mittels der Stichprobe. 14 Stichprobenverteilung • Verteilung der Varianz S² der Stichprobe: • Annahme: Grundgesamtheit ist N(µ,σ²)-vt. Xi sind n unabhängige normal-vt. ZV mit E(Xi)=µ und Var(Xi)= σ² (i=1,…,n) • Stichprobenvarianz S² ist eine Funktion von n ZV Xi und somit wieder eine ZV. n 1 2 2 S (X i X) n 1 i 1 15 Stichprobenverteilung • Verteilung der Varianz S² der Stichprobe: • Chi-Quadrat Verteilung mit v=n-1 Freiheitsgraden, χ²n-1 • Es gilt: – Ist Z² = Xi² + … + Xn² (Summe von n quadrierten unabhängigen N(0,1)-verteilten ZV Xi), dann folgt Z² einer Chi-Quadrat Verteilung mit v Freiheitsgraden. Anzahl der unabhängigen ZV, die Z² bilden, nennt man Anzahl der Freiheitsgrade. 16 Stichprobenverteilung • χ²v Verteilung: – Erwartungswert: E(Z²)=v – Varianz: Var(Z²)=2v – Mit wachsendem v nähert sich die χ²v Vt. einer N-Vt. mit Parametern µ=v und σ²=2v. 17 Stichprobenverteilung • Anteilswert P einer Stichprobe (P=X/n) • 2 Modelle: – Ziehen mit Zurücklegen – Ziehen ohne Zurücklegen • Bsp. Urne, N Kugeln, M schwarz, (N-M) weiße, ziehe n Kugeln (mit bzw. ohne Zurücklegen der gezogenen Kugeln), θ ist die Wahrscheinlichkeit für das Ziehen einer schwarzen Kugel. 18 Stichprobenverteilung • Ziehen mit Zurücklegen – Exakte Verteilung: Binomialverteilung Wahrscheinlichkeitsfunktion der ZV X: n x f B (x; n, θ) θ (1 θ)n x x – Erwartungswert: E(X) = nθ – Varianz: Var(X) = nθ(1- θ) 19 Stichprobenverteilung • Ziehen mit Zurücklegen – Erwartungswert des Stichprobenanteilswertes P: E(P) = 1/n E(x) = θ – Varianz des Stichprobenanteilswertes P: Var(P) = 1/n² Var(X) = θ(1- θ) / n – Standardfehler des Anteilswertes: θ(1 θ) σP n 20 Stichprobenverteilung • Approximation durch Normalverteilung (Faustregel: nθ(1- θ) ≥ 9) • Erwartungswert: E(P) = µ = nθ • Varianz: Var(P) = σP² = nθ(1- θ) 21 Stichprobenverteilung • Ziehen ohne Zurücklegen – Exakte Verteilung: Hypergeometrische Vt. – Wahrscheinlichkeitsfunktion der ZV X: M N M x n x f H (x; N, n, M) N n – Erwartungswert: E(X) = n M/N – Varianz: Var(X) = nθ(1- θ) · (N-n)/(N-1) 22 Stichprobenverteilung • Ziehen ohne Zurücklegen: – Erwartungswert des Stichprobenanteilswertes: E(P) = 1/n E(X) = θ – Varianz des Stichprobenanteilswertes: Var(P) = 1/n² Var(X) = θ(1- θ)/n · (N-n)/(N-1) – Standardfehler des Anteilswertes: θ(1 θ) N n σP n N 1 – Endlichkeitskorrektur = 1 setzen, wenn n bzgl. N sehr klein ist (Faustregel: n/N < 0,05) 23 Stichprobenverteilung • Approximation durch Normalverteilung µ = E(P) = θ σ² = Var(P) = θ(1- θ)/n · (N-n)/(N-1) 24 Stichprobenverteilung • Die Stichprobenverteilungen des arithmetischen Mittels, der Varianz und des Anteilswertes können also durch die Normalverteilung approximiert werden. 25 Stichprobenverteilung • Differenz zweier arithmetischer Mittel: • Annahmen: – 2 unabhängige Stichproben – Beide Grundgesamtheiten sind annähernd N-vt • Stichprobenverteilung der Differenz: N-Vt – Erwartungswert: E(D) E( X1 X2 ) E( X1 ) E( X2 ) μ1 μ 2 – Varianz: σ12 σ 22 Var(D) Var( X1 X 2 ) Var( X1 ) Var( X 2 ) n1 n 2 26 Stichprobenverteilung • Differenz zweier Anteilswerte: • Annahmen: – 2 unabhängige Stichproben – P1, P2 annähernd n-vt. und N1, N2 so groß, dass Endlichkeitskorrektur vernachlässigbar ist. • Stichprobenverteilung: N-Vt – Erwartungswert: E(D) E(P1 P2 ) E(P1 ) E(P2 ) θ1 θ2 – Varianz: θ1 (1 θ1 ) θ 2 (1 θ 2 ) Var(D) Var(P1 P2 ) n1 n2 27 Stichprobenverteilung • Quotient zweier Varianzen: • Annahmen: – 2 unabhängige Stichproben (n1, n2) – σ1² und σ2² aus n-vt Grundgesamtheiten – Quotient: 2 1 2 2 S /σ F S /σ 2 1 2 2 28 Stichprobenverteilung • Stichprobenverteilung: F-Verteilung mit v1 und v2 Freiheitsgraden, Fv1,v2. Für v2 > 2 gilt: – Erwartungswert: E(F) = v2 / (v2-2) – Varianz: 2 2v 2 (v1 v 2 2) Var(F) 2 v1 (v 2 2) (v 2 4) 29 Schätzverfahren • Schluss von der Grundgesamtheit auf eine Stichprobe: Inklusionsschluss (direkter Schluss) • Schluss von einer Stichprobe auf Parameter einer Grundgesamtheit: Repräsentationsschluss (indirekter Schluss) • Unterscheidung: – Punktschätzer (einziger Schätzwert) – Intervallschätzer (Konfidenzintervall) 30 Schätzverfahren • Punktschätzer: Für den zu schätzenden Parameter wird nur ein einziger Schätzwert angegeben. – Bsp. Schätze das unbekannte arithm. Mittel einer Grundgesamtheit μ durch das arithm. Mittel der Stichprobe x • Vorsicht: Die in einer Stichprobe realisierten Merkmalsausprägungen sind zufallsabhängig, Punktschätzer stimmen daher nur in den seltensten Fällen mit dem wahren Parameter überein. 31 Schätzverfahren • Intervallschätzer: Ausgehend von einer Stichprobe wird ein Intervall bestimmt, in dem der zu schätzende Parameter der Grundgesamtheit mit einer bestimmten vorgegebenen Wahrscheinlichkeit liegt (Konfidenzintervall). • Irrtumswahrscheinlichkeit ≤ α • Konfidenzintervall zum Niveau 1-α (Vertrauensbereich od. Vertrauensintervall) 32 Schätzverfahren • Ges: Konfidenzintervall für das arithm. 2 Mittel: ZV X~N(μ,σ ) • Symmetrische Wahrscheinlichkeitsintervall X-μ W(z α n z α ) 1- α 1 σ 2 2 • Symmetrie: z(α /2) = –z(1-α/2) daher: z = –z(1-α/2) und –z = z(α /2) und W(μ zσ X X μ zσ X ) 1 α 33 Schätzverfahren • In diesem Wahrscheinlichkeitsintervall liegt das arithm. Mittel mit der Wahrscheinlichkeit 1- α. • Gesucht ist ist aber nicht das Ws-Intervall der ZV, sondern das Konfidenzintervall für das unbekannte arithm. Mittel µ der Grundgesamtheit. – Varianz σ² der Grundgesamtheit bekannt – Varianz σ² der Grundgesamtheit unbekannt 34 Schätzverfahren • Konfidenzintervall für µ bei bekannter Varianz σ² der Grundgesamtheit: x zσ X μ x zσ X Konkreter Stichprobenmittelwert x 35 Schätzverfahren • Konfidenzintervall für µ bei unbekannter Varianz σ² der Grundgesamtheit: • Statt der unbekannte Varianz σ² wird die Stichprobenvarianz S² verwendet. • Zufallsvariable: X μ T S n T ist t- verteilt mit v=n-1 Freiheitsgraden 36 Verteilungen • Es gilt: – Ist T der Quotient einer Standardnormalverteilung und der Quadratwurzel des Mittelwerts von n quadrierten unabhängigen N(0,1)-verteilten ZV Xi, dann folgt T einer t-Verteilung mit v=n Freiheitsgraden. • Zufallsvariable: T= X0 1 n 2 Xi n i=1 T ist t- verteilt mit v=n Freiheitsgraden T~tn • t-Verteilung ist symmetrisch 37 Verteilungen • t- Verteilung mit v Freiheitsgraden: – Erwartungswert (für n>1): E(T) = 0 – Varianz (für n>2): Var(T) = n / (n-2) • Für n→∞ geht die t-Verteilung in die N(0,1) über. • Approximation durch N(0,1)-Vt für n ≥ 30 38 Schätzverfahren • Wahrscheinlichkeitsintervall für das arithm. Mittel bei unbekannter Varianz: X-μ W(t α t α ) 1- α ;n-1 1- ;n-1 S 2 2 n • Wobei t = t(1-α/2);n-1 = – t(α/2);n-1 die Punkte sind, bei denen die Verteilungsfunktion der t- Verteilung mit n-1 Freiheitsgraden die Werte 1-α/2 bzw. α/2 besitzt. 39 Schätzverfahren • Konfidenzintervall für das arithm. Mittel bei unbekannter Varianz: x tσ̂ X μ x tσ̂ X Konkreter Stichprobenmittelwert x Konkrete Stichprobenvarianz σ̂X 40 Schätzverfahren • Konfidenzintervall für den Anteilswert: • Ann. genügend großer Stichprobenumfang, d.h. Approximation durch N-Vt möglich, E(P) = θ und Var(P) = σP² • Standardisierte ZV: P-θ Z= 2 σP 41 Schätzverfahren • Wahrscheinlichkeitsintervall: P-θ W(z α z α ) 1- α 2 P 1 2 • Konfidenzintervall: p-zσP θ p+zσP • Ist σP unbekannt, verwendet man stattdessen die Stichprobenvarianz des Anteilswertes als Schätzer. 42 Schätzverfahren • Konfidenzintervall für die Varianz • ZV (n-1)S² / σ² ist χ² verteilt mit v=n-1 Freiheitsgraden • Wahrscheinlichkeitsintervall: 2 (n-1)S 2 2 W(χ α χ α ) 1- α ;n-1 1- ;n-1 σ P 2 2 • Konfidenzintervall: (n-1)S (n-1)S ; 2 χ2 χ α 1- α2 ;n-1 ;n-1 2 2 2 43 Stichprobenumfang • Bisher: – Geg: Stichprobenumfang n, Sicherheitsgrad 1-α – Ges: Konfidenzintervall • Jetzt: – Geg: Konfidenzintervall, Sicherheitsgrad 1-α – Ges: Stichprobenumfang • Absoluter Fehler Δμ = zσX ist ein Maß für die Genauigkeit der Schätzung • Breite des Konfidenzintervalls: 2Δμ 44 Stichprobenumfang • Frage: Welchen Stichprobenumfang benötigt man, um einen Parameter (arithm. Mittel) bei vorgegebener Genauigkeit und vorgegebenem Sicherheitsgrad zu schätzen? zσ n 2 (μ) 2 2 45 Eigenschaften von Schätzern Eigenschaften von Schätzfunktionen: • Erwartungstreue • Effizienz • Konsistenz • Suffizienz 46 Eigenschaften von Schätzern • Erwartungstreue • Eine Schätzfunktion heißt erwartungstreu (unverzerrt, unbiased), wenn ihr Erwartungswert mit dem wahren Parameter übereinstimmt. • Bedingung: E( Θ̂) Θ • Es gilt: E( X) μ E(S ) σ 2 2 47 Eigenschaften von Schätzern • Effizienz: • Von 2 erwartungstreuen Schätzfunktionen gilt jene als effizienter (wirksamer), die die kleinere Varianz aufweist. • Eine Schätzfunktion heißt effizient, wenn folgende Bedingungen erfüllt sind: E( Θ̂) Θ Var( Θ̂) Var( Θ̂ ) Θ̂* beliebige erwartungs treue Schätzfunk tion * 48 Eigenschaften von Schätzern • Konsistenz: • Eine Schätzfunktion heißt konsistent, wenn der Schätzwert bei laufender Vergrößerung des Stichprobenumfangs (n→∞ oder n→N) mit dem zu schätzenden Parameter zusammenfällt. 49 Eigenschaften von Schätzern • Suffizienz: • Eine Schätzfunktion heißt suffizient (erschöpfend), wenn sie sämtliche Informationen über den zu schätzenden Parameter, welche die Stichprobe enthält ausschöpft. 50 Schätzverfahren • Methode der Kleinsten Quadrat • Maximum Likelihood • Momentenmethode 51