Prof. Dr. Roland Füss Statistik II SS 2008 2. Punktschätzung von Parametern einer Grundgesamtheit Nur durch eine Totalerhebung kann man die Verteilung einer Zufallsvariablen X in einer Grundgesamtheit vollständig beschreiben. Häufig ist jedoch eine Totalerhebung entweder unmöglich oder einfach zu teuer. Deswegen versucht man mit Hilfe von Teilerhebungen ((Zufalls-)Stichproben) Anhaltspunkte über die Verteilung einer Grundgesamtheit und über deren Parameter zu gewinnen. 1 Prof. Dr. Roland Füss Statistik II SS 2008 Unterscheidungen der Schätzungen: - mit oder ohne Zurücklegen - homograder Fall vs. heterograder Fall - homograde Variablen unterscheiden, ob ein Objekt eine bestimmte Eigenschaft besitzt oder nicht, (0,1)-Variable: Schätzung von Anteilssätzen - heterograde Variablen (metrisch skalierte ZV): Schätzung von Mittelwerten und Varianzen 2 Prof. Dr. Roland Füss Statistik II SS 2008 - Punkt- oder Intervallschätzungen Bei der Punktschätzung handelt es sich um die Bestimmung eines einzelnen Wertes zur Schätzung eines unbekannten Parameters. Da Punktschätzungen mit sehr hoher Wahrscheinlichkeit mit dem wahren Wert des Parameters nicht übereinstimmen, ergänzt man eine Punktschätzung oft durch eine Intervallschätzung. Dabei berechnet man ein Intervall, das den wahren unbekannten Wert des Parameters der Grundgesamtheit mit einer vorgegebenen Wahrscheinlichkeit überdeckt. 3 Prof. Dr. Roland Füss Statistik II SS 2008 2.1. Punktschätzung für Mittelwert und Anteilswerte 2.1.1. Punktschätzung für den Mittelwert (heterograder Fall) Der unbekannte Mittelwert µ der metrischen Zufallsvariablen X einer Grundgesamtheit soll anhand einer Zufallsstichprobe von Umfang n geschätzt werden. Das arithmetische Mittel der Stichprobenelemente stellt den Schätzwert µ̂ für den unbekannten Mittelwert µ dar: 4 Statistik II Prof. Dr. Roland Füss {x1 , x2 ,..., xn } ⇒ x = 1 ∑ xi n SS 2008 µ̂ = x Die Punktschätzung µˆ = x ist die Realisation der Zufallsvariablen X n . Der geschätzte Wert µ̂ ist von dem wahren Mittelwert µ der Grundgesamtheit sorgfältig zu unterscheiden. Die Abweichung des geschätzten Wertes µ̂ vom wahren Mittelwert µ wird Schätzfehler genannt: e = µ − µˆ Bei den meisten Schätzungen treten Schätzfehler auf. Entscheidend ist aber, ob die Punktschätzung den wahren Wert im Durchschnitt trifft. 5 Prof. Dr. Roland Füss Statistik II SS 2008 1 1 1 E ( µ ) = E ( X n ) = E ( ∑ X i ) = ∑ E ( X i ) = nµ ⇒ E ( µˆ ) = µ n n n ⇒ µ̂ ist eine erwartungstreue Schätzung für µ . Die für die Schätzung des Mittelwertes der Grundgesamtheit verwendete Schätzmethode nennt man Momentenmethode. Sie schätzt das unbekannte 1. unzentrierte Moment der Grundgesamtheit (Mittelwert) mit dem entsprechenden 1. unzentrierten Moment der Stichprobe. 6 Prof. Dr. Roland Füss Statistik II SS 2008 2.1.2 Punktschätzung für den Anteilswert (homograder Fall) Analog zur Schätzung des unbekannten Mittelwertes einer Grundgesamtheit durch das arithmetische Mittel der Stichprobe ist zur Schätzung eines unbekannten Anteilwertes p einer Grundgesamtheit die Punktschätzung durch den Stichprobenanteilswert sehr gut geeignet: pˆ = h mit pˆ : Schätzwert für den Anteilsatz in der Grundgesamtheit h : Anteilsatz in der Stichprobe 7 Prof. Dr. Roland Füss Statistik II SS 2008 Diese Schätzung ist eine erwartungstreue und konsistente Schätzung. 1 1 1 E (∑ Bi ) = ∑ E ( Bi ) = np ⇒ E ( pˆ ) = p n n n 1 1 1 V ( pˆ ) = V ( H n ) = V ( ∑ Bi ) = 2 ∑ V ( B i ) = 2 npq = pq / n n n n E ( pˆ ) = E ( H n ) = ( Erwartungstreue) ⇒ ( Konsistenz ) Mit zunehmendem Stichprobenumfang wird die Varianz immer kleiner und die Schätzung genauer. 8 Prof. Dr. Roland Füss Statistik II SS 2008 2.2 Punktschätzung für Varianzen und Standardabweichungen 2.2.1 Punktschätzung für die Varianz (heterograder Fall) Wenn man bei der Punktschätzung der Varianz die Momentenmethode direkt anwendet (d.h. als Schätzwert für die unbekannte Varianz der 2 2 Grundgesamtheit σ̂ die empirische Varianz der Stichprobe s ver- wendet), bekommt man nicht erwartungstreue, sondern verzerrte Schätzer: 9 Prof. Dr. Roland Füss Statistik II SS 2008 Das 2. zentrale Moment (= empirische Varianz der Stichprobe): 1 s = ∑ ( xi − x )2 n 2 ⎤ ⎡1 2 ( ) E S = E ⎢ ∑ ( X i − µ )2 ⎥ − E( X n − µ )2 ⎦ ⎣n 1 1 n −1 2 = ∑ E ( X i − µ ) 2 − E ( X n − µ ) 2 = ∑V ( X i ) − V ( X n ) = σ 2 − σ 2 n = σ n n n Diese Punktschätzung ist somit um den Faktor (n-1)/n verzerrt. (S2: Zufallsvariable, s2: Realisation der Zufallsvariablen). 10 Prof. Dr. Roland Füss Statistik II SS 2008 Da die Verzerrung durch den Faktor (n-1)/n ausgedrückt wird, korrigiert man mit dem Kehrwert dieses Faktors: n 2 1 n 2 σ̂ = s = ( x − x ) ∑ i n −1 n − 1 i =1 2 (n-1 ist die Zahl der Freiheitsgrade) Mit dieser Formel erhält man erwartungstreue Schätzer für die Varianz. Die obige Formel gilt für den Fall mit Zurücklegen. 11 Prof. Dr. Roland Füss Statistik II SS 2008 Im Fall ohne Zurücklegen muss noch der Korrekturfaktor berücksichtigt werden: Kf = N −n <1 N −1 Schätzformel für die Varianz im Fall ohne Zurücklegen: σˆ 2 = N −1 n 2 s N n −1 12 Prof. Dr. Roland Füss Statistik II SS 2008 2.3 Eigenschaften von Punktschätzungen Schätzwert einer Punktschätzung eines Parameters ist eine Zufallsvariable und kann viele mögliche Werte annehmen. Der unbekannte Parameter selbst ist eine konstante Größe. Allgemeine Schreibweise: θ : der wahre Wert der Grundgesam theit θˆ : Schätzwert des Parameters θˆ = θˆ( X 1 ,..., X n ) : Schätzfunk tion 13 Prof. Dr. Roland Füss Statistik II SS 2008 Schätzfunktionen sind durch bestimmte stochastische Eigenschaften charakterisiert, die Auskunft darüber geben, wie gut Schätzfunktionen für bestimmte Zwecke geeignet sind. Erwartungstreue Ein Schätzer θˆ ist erwartungstreu oder unverzerrt („unbiased“), wenn sein Erwartungswert dem wahren Wert des zu schätzenden Parameters entspricht: E (θˆ ) = θ 14 Prof. Dr. Roland Füss Statistik II SS 2008 Asymptotische Erwartungstreue Die asymptotische Erwartungstreue ist eine schwächere Eigenschaft als die Erwartungstreue. Bei nicht erwartungstreuen Schätzern impliziert sie, dass die Verzerrung mit zunehmendem Stichprobenumfang geringer wird und für n → ∞ verschwindet: lim E (θˆ) = θ n→∞ 15 Statistik II Prof. Dr. Roland Füss SS 2008 Konsistenz Ein Schätzer ist konsistent, wenn er erwartungstreu (oder mindestens asymptotisch erwartungstreu) ist und seine Varianz bei zunehmendem Stichprobenumfang gegen Null geht: P (| θˆ − θ |> ε ) → 0 für n → ∞ oder p lim θˆ = θ n→ ∞ 16 Prof. Dr. Roland Füss Statistik II SS 2008 Effizienz Ein Schätzer heißt effizient, wenn er in der Klasse aller erwartungstreuen Schätzer die kleinste Varianz besitzt: V (θ *) < V (θˆ) 17 Prof. Dr. Roland Füss Statistik II SS 2008 Mittlerer Quadratischer Fehler Schätzprobleme: Erwartungstreue wird mit zu hoher Varianz erkauft. Der mittlere quadratische Fehler (mean squared error MSE) eines Schätzers ist definiert als der Erwartungswert der quadrierten Differenz zwischen Schätzwert und wahren Wert: MSE(θˆ) := E[(θˆ − θ )2 ] 18 Prof. Dr. Roland Füss Statistik II SS 2008 Bei erwartungstreuen Schätzern ist dies die Varianz, bei den verzerrten erhält man nach dem Verschiebungssatz mit d = θ die Formel MSE(θˆ) := V (θˆ) + bias 2 d.h. mittlerer quadratischer Fehler berücksichtigt beides, die Varianz und den Bias. 19 Prof. Dr. Roland Füss Statistik II SS 2008 2.4 Schätzprinzipien = wichtigsten allgemeine Ansätze zur Gewinnung von Schätzmethoden und Schätzformeln a) Momentenmethode Man schätzt die Momente der Verteilung der Grundgesamtheit mit entsprechenden Momenten der Stichprobe 20 Prof. Dr. Roland Füss Statistik II SS 2008 Grundgesamtheit Stichprobe E( X ) = µ 1 Xj ∑ n 1 2 X ∑ j n E( X 2 ) = µ 2 + σ 2 m E( X ) 1 m X ∑ j n 21 Prof. Dr. Roland Füss Statistik II SS 2008 Die Schätzformeln, die sich hieraus ergeben lauten: µˆ = x 1 1 2 2 µˆ + σˆ = ∑ x j , d.h. σˆ = ∑ x 2j − x 2 = s 2 n n 2 2 Schätzung für Varianz nur asymptotisch erwartungstreu, jedoch wenn µ 1 2 2 ˆ σ = x − µ ∑ eine erwartungstreue Schätbekannt wäre, würde j n 2 zung für die Varianz darstellen. 22 Statistik II Prof. Dr. Roland Füss SS 2008 b) Schätzprinzip der kleinsten Quadrate (KQ-Methode) = Wähle diejenige Größe Mittelwert µ, µˆ KQ als Schätzwert für den unbekannten von der die Summe der quadrierten Abstände zu den Stichprobenmittelwerten xi minimal ist: n 2 ( x − µ ˆ ) → Minimum ∑ j KQ ⎯⎯⎯ µˆ KQ j =1 23 Statistik II Prof. Dr. Roland Füss SS 2008 Minimierung durch Ableiten und Nullsetzen: n ∑ 2( x j =1 j − µˆ KQ )( −1) = ( −2)∑ ( x j −µˆ KQ ) = 0 ∑ x − ∑ µˆ j µˆ KQ n KQ = ∑ x j −nµˆ KQ = 0 j =1 1 = ∑ xj = x n 24 Prof. Dr. Roland Füss Statistik II SS 2008 = Minimierung der Fehlervarianz, wobei die Bewertung der Fehler nicht proportional, sondern quadratisch erfolgt, d.h. doppelt so große Fehler bringen vierfachen Verlust in die Bewertung (quadratische Verlustfunktion) c) Maximum-Likelihood-Prinzip = Prinzip der größten Mutmaßlichkeit Wähle θˆML als Schätzwert für einen unbekannten Parameter θ , welcher angesichts des Stichprobenergebnisses die größte Likelihood hat bzw. verglichen mit allen anderen Werten das Stichprobenergebnis mit der größten Wahrscheinlichkeit hervorgebracht hätte. 25 Prof. Dr. Roland Füss Statistik II SS 2008 Beispiel: Urne mit Kugeln mit Anteilswert p = 0,1 und p = 0,5, wobei letzterer eine größere Likelihood hat. Zur Bestimmung eines Maximum-Likelihood-Schätzers benötigt man eine sogenannte Likelihood-Funktion L. = Massenfunktion oder Dichtefunktion der gemeinsamen Verteilung der X i , wobei der Parameter θ als Variable angesehen und für xi die beobachteten Stichprobenwerte verwendet werden. L ist adbei eine Funktion von θ : L(θ ; x1, x2 ,…, xn ) := f ( x1, x2 ,…, xn ;θ ) 26 Prof. Dr. Roland Füss Statistik II SS 2008 Zur Bestimmung der Schätzfunktion löst man folgendes Maximierungsproblem: L(θˆML , x1, x2 ,…, xn ) ⎯⎯⎯ → Minimum θˆ ML wobei ein Verteilungstyp der X i a priori vorgegeben wird 27 Statistik II Prof. Dr. Roland Füss SS 2008 Beispiele: Gesucht: Maximum-Likelihood-Schätzer für den Erwartungswert die Standardabweichung σ µ und einer Normalverteilung mit der gemein- samen Dichtefunktion der i.i.d. ZV: f ( x1, x2 ,…, xn ; µ,σ ) = f N ( x1; µ,σ )… f N ( xn ; µ,σ ) ⎡ −1 n 2⎤ = exp ⎢ 2 ∑ ( x j − µ ) ⎥ n σ n 2π ⎣ 2σ j =1 ⎦ = L( µ,σ ; x1,…, xn ) 1 28 Prof. Dr. Roland Füss Statistik II SS 2008 Logarithmus der Likelihood-Funktion wird maximiert: 1 n ln L = −n ln σˆ − n ln 2π − 2 ∑ ( x j − µˆ )2 ⎯⎯⎯ → Maximum µˆ ,σˆ 2σˆ j =1 (monoton steigende Funktion) I. ML-Schätzer für µ: Partielles Ableiten von ln L nach µ̂ und Nullsetzen: ∂ 1 n ln L = − 2 ∑ 2( x j − µˆ )( −1) = 0 ∂µˆ 2σˆ j =1 29 Statistik II Prof. Dr. Roland Füss n ∑(x j =1 µˆ ML = x j SS 2008 − µˆ ) = 0 (Stichprobenmittelwert) II. ML-Schätzer für σ : ML-Schätzung für µ , nach σ ableiten und Nullsetzen: n ∂ 1 1 ln L = −n − 3 ( −2)∑ ( x j − x )2 = 0 σˆ 2σˆ ∂σˆ j =1 σˆ ML 1 n = ∑ ( x j − x )2 (asymptotisch erwartungstreu) n j =1 30 Prof. Dr. Roland Füss Statistik II SS 2008 Beispiele: Gesucht: ML-Schätzer für unbekannten Anteilswert p einer Grundgesamtheit. Zufallsstichprobe vom Umfang n mit x Elementen für das dichotome Merkmal. Likelihood-Funktion lautet: f ( x; p ) = p x (1 − p )n − x = L( p; X = x ) Nach p ableiten und Ableitung Nullsetzen: xp x −1(1 − p )n− x + p x ( n − x )(1 − p )n− x −1( −1) 31 Statistik II Prof. Dr. Roland Füss x −1 n − x −1 = xp (1 − p ) Da der erste Faktor für n−x ⎡ ⎢(1 − p ) − x ⎣ SS 2008 ⎤ p⎥ = 0 ⎦ p = 0 und p = 1 Null ist, minimieren beide Lösungen die Likelihood-Funktion. Setzt man jedoch den zweiten Faktor gleich Null, erhält man die Bestimmungsgleichung für den ML-Schätzer n−x n 1 − pˆ ML − pˆ ML = 1 − pˆ ML = 0 x x pˆ ML x = =h n 32