2 Wiederholung statistischer Grundlagen Schließende Statistik 2.3 Inhaltsverzeichnis (Ausschnitt) 2 Wiederholung statistischer Grundlagen Deskriptive Statistik Wahrscheinlichkeitsrechnung Schließende Statistik Ökonometrie (SS 2014) Folie 53 2 Wiederholung statistischer Grundlagen Schließende Statistik 2.3 Grundidee der schließenden Statistik Ziel der schließenden Statistik/induktiven Statistik: Ziehen von Rückschlüssen auf die Verteilung einer (größeren) Grundgesamtheit auf Grundlage der Beobachtung einer (kleineren) Stichprobe. Rückschlüsse auf die Verteilung können sich auch beschränken auf spezielle Eigenschaften/Kennzahlen der Verteilung, z.B. den Erwartungswert. Fundament“: Drei Grundannahmen ” 1 2 3 Der interessierende Umweltausschnitt kann durch eine (ein- oder mehrdimensionale) Zufallsvariable Y beschrieben werden. Man kann eine Menge W von Wahrscheinlichkeitsverteilungen angeben, zu der die unbekannte wahre Verteilung von Y gehört. Man beobachtet Realisationen x1 , . . . , xn von (Stichproben-)Zufallsvariablen X1 , . . . , Xn , deren gemeinsame Verteilung in vollständig bekannter Weise von der Verteilung von Y abhängt. Ziel ist es also, aus der Beobachtung der n Werte x1 , . . . , xn mit Hilfe des bekannten Zusammenhangs zwischen den Verteilungen von X1 , . . . , Xn und Y Aussagen über die Verteilung von Y zu treffen. Ökonometrie (SS 2014) Folie 54 2 Wiederholung statistischer Grundlagen Schließende Statistik 2.3 Veranschaulichung“ der schließenden Statistik ” Grundgesamtheit Ziehungsverfahren induziert Zufallsvariable Y Verteilung von Stichprobe Zufallsvariablen X1, …, Xn (konkrete) Auswahl der führt Rückschluss auf Verteilung/Kenngrößen Ziehung/ Stichprobe zu Realisationen x1, …, xn Ökonometrie (SS 2014) 2 Wiederholung statistischer Grundlagen Folie 55 Schließende Statistik 2.3 Bemerkungen zu den 3 Grundannahmen Die 1. Grundannahme umfasst insbesondere die Situation, in der die Zufallsvariable Y einem numerischen Merkmal auf einer endlichen Menge von Merkmalsträgern entspricht, wenn man mit der Zufallsvariable Y das Feststellen des Merkmalswerts eines rein zufällig (gleichwahrscheinlich) ausgewählten Merkmalsträgers beschreibt. In diesem Fall interessiert man sich häufig für bestimmte Kennzahlen von Y , z.B. den Erwartungswert von Y , der dann mit dem arithmetischen Mittel aller Merkmalswerte übereinstimmt. Die Menge W von Verteilungen aus der 2. Grundannahme ist häufig eine parametrische Verteilungsfamilie, zum Beispiel die Menge aller Normalverteilungen mit Varianz σ 2 = 22 . Wir beschränken uns auf sehr einfache Zusammenhänge zwischen der Verteilung der interessierenden Zufallsvariablen Y und der Verteilung der Zufallsvariablen X1 , . . . , Xn . Ökonometrie (SS 2014) Folie 56 2 Wiederholung statistischer Grundlagen Schließende Statistik 2.3 Einfache (Zufalls-)Stichprobe Einfachster“ Zusammenhang zwischen X1 , . . . , Xn und Y : ” I I Alle Zufallsvariablen X1 , . . . , Xn haben dieselbe Verteilung wie Y . Die Zufallsvariablen X1 , . . . , Xn sind stochastisch unabhängig. Zufallsvariablen X1 , . . . , Xn mit diesen beiden Eigenschaften nennt man eine einfache (Zufalls-)Stichprobe vom Umfang n zu Y . Eine Stichprobenrealisation x1 , . . . , xn einer solchen einfachen Stichprobe vom Umfang n erhält man z.B., wenn I I Y das Werfen eines bestimmten Würfels beschreibt und x1 , . . . , xn die erhaltenen Punktzahlen sind, wenn man den Würfel n Mal geworfen hat. Y das Feststellen des Merkmalswerts eines rein zufällig (gleichwahrscheinlich) ausgewählten Merkmalsträgers beschreibt und x1 , . . . , xn die Merkmalswerte sind, die man bei n-maliger rein zufälliger Auswahl eines Merkmalsträgers als zugehörige Merkmalswerte erhalten hat, wobei die Mehrfachauswahl desselben Merkmalsträgers nicht ausgeschlossen wird. Ökonometrie (SS 2014) Folie 57 2 Wiederholung statistischer Grundlagen Schließende Statistik 2.3 Stichprobenfunktionen Die Realisation x1 , . . . , xn einer Stichprobe hat große Ähnlichkeit mit einer Urliste zu einem Merkmal aus der deskriptiven Statistik. Die Information aus einer Stichprobe wird in der Regel zunächst mit sogenannten Stichprobenfunktionen weiter aggregiert; auch diese haben oft (große) Ähnlichkeit mit Funktionen, die in der deskriptiven Statistik zur Aggregierung von Urlisten eingesetzt werden. Interessant sind nicht nur die Anwendung dieser Stichprobenfunktionen auf bereits vorliegende Stichprobenrealisationen x1 , . . . , xn , sondern auch auf die Stichprobenzufallsvariablen X1 , . . . , Xn selbst, was dann zu einer neuen Zufallsvariablen führt! Bekannteste“ Stichprobenfunktion: ” n 1X X := Xi bzw. n i=1 Ökonometrie (SS 2014) n 1X x := xi n i=1 Folie 58 2 Wiederholung statistischer Grundlagen Schließende Statistik 2.3 Illustration: Realisationen x von X Beispiel: Verschiedene Realisationen x von X , wenn Y die Punktzahl eines fairen Würfels beschreibt und wiederholt Stichprobenrealisationen x1 , . . . , x5 vom Umfang n = 5 (durch jeweils 5-maliges Würfeln mit diesem Würfel) generiert werden: x Stichprobe Nr. x1 x2 x3 x4 x5 1 2 3 4 5 6 7 8 9 .. . 2 6 2 3 6 3 3 5 5 .. . 3 6 2 5 2 1 4 5 4 .. . 4 4 5 6 4 3 3 1 5 .. . 6 4 3 3 1 6 2 5 4 .. . 2 1 5 5 2 3 5 3 4 .. . 3.4 4.2 3.4 4.4 3 3.2 3.4 3.8 4.4 .. . .. . Ökonometrie (SS 2014) Folie 59 2 Wiederholung statistischer Grundlagen Schließende Statistik 2.3 Visualisierung Verteilung X / Zentraler Grenzwertsatz im Würfelbeispiel“ mit einfachen Stichproben vom Umfang n ” 3 4 5 6 0.12 0.08 pX(xi) 0.06 0.00 0.02 0.04 0.05 0.00 0.00 2 1 2 3 4 5 6 1 2 3 xi xi xi n=4 n=5 n=6 4 5 6 4 5 6 1 1.75 2.75 3.75 xi Ökonometrie (SS 2014) 4.75 5.75 0.08 0.06 pX(xi) 0.02 0.04 0.06 0.00 0.00 0.00 0.02 0.02 0.04 0.04 0.06 pX(xi) 0.08 0.08 0.10 0.10 0.12 1 pX(xi) 0.10 pX(xi) 0.10 0.05 pX(xi) 0.15 0.10 0.20 n=3 0.14 n=2 0.15 n=1 1 1.8 2.6 3.4 xi 4.2 5 5.8 1 2 3 xi Folie 60 2 Wiederholung statistischer Grundlagen Schließende Statistik 2.3 Bemerkungen Für Augenzahl Y eines fairen Würfels gilt: E(Y ) = 3.5. Realisationen x aus Realisationen einer einfachen Stichprobe vom Umfang n zu Y schwanken offensichtlich um den Erwartungswert von Y . Genauer kann leicht gezeigt werden (vgl. Übungsaufgabe!), dass (generell!) E(X ) = E(Y ) gilt. Je größer der Stichprobenumfang n ist, desto näher liegen tendenziell die Realisation von x am Erwartungswert. Genauer kann leicht gezeigt werden (vgl. Übungsaufgabe!), dass (generell!) σY σX = √ gilt und sich somit die Standardabweichung von X halbiert, wenn n n vervierfacht wird. Offensichtlich wird die Näherung der Werteverteilung von X durch eine Normalverteilung ( Zentraler Grenzwertsatz) immer besser, je größer der Stichprobenumfang n ist. Ökonometrie (SS 2014) 2 Wiederholung statistischer Grundlagen Folie 61 Schließende Statistik 2.3 (Punkt-)Schätzfunktionen Mit den beschriebenen Eigenschaften scheint X sehr gut geeignet, um auf Grundlage einer Stichprobenrealisation Aussagen über den Erwartungswert von Y zu machen (wenn dieser – anders als im Beispiel – unbekannt ist). Unbekannt wäre der Erwartungswert zum Beispiel auch beim Würfeln gewesen, wenn man nicht gewusst hätte, ob der Würfel fair ist! X bzw. x können so unmittelbar zur Schätzung von µY := E(Y ) oder p bzw. µ verwendet werden; in diesem Zusammenhang nennt man X dann (Punkt-)Schätzfunktion oder (Punkt-)Schätzer, x die zugehörige Realisation oder den Schätzwert. Wegen der Zusammenhänge zwischen Erwartungswert und Verteilungsparameter (vgl. Folien 20 bzw. 26) können so auch Aussagen über den Parameter p der Alternativ- bzw. den Parameter µ der Normalverteilung gewonnen werden. X wird dann auch Parameter(punkt)schätzer genannt. Ökonometrie (SS 2014) Folie 62 2 Wiederholung statistischer Grundlagen Schließende Statistik 2.3 (Qualitäts-)Eigenschaften von Schätzfunktionen I Im Beispiel offensichtlich: Wer schätzt, macht Fehler! Zur Untersuchung der Qualität von Punktschätzfunktionen: Untersuchung der Verteilung (!) des Schätzfehlers Zur Vereinheitlichung der Schreibweise: Bezeichnung“ ” b I I θ für die Schätzfunktion θ für die zu schätzende Größe Schätzfehler damit also: θb − θ Offensichtlich wünschenswert: Verteilung des Schätzfehlers nahe bei Null Gängige Konkretisierung von nahe bei Null“: Erwartete quadratische ” Abweichung (Englisch: Mean Square Error, MSE) 2 b := E θb − θ MSE(θ) soll möglichst klein sein. Ökonometrie (SS 2014) Folie 63 2 Wiederholung statistischer Grundlagen Schließende Statistik 2.3 (Qualitäts-)Eigenschaften von Schätzfunktionen II Man kann leicht zeigen: h i 2 b b MSE(θ) = E (θ − θ) = Var(θb − θ) +[ E(θb − θ) ]2 | {z } | {z } b =Var(θ) b =:Bias(θ) b = E(θb − θ) = E(θ) b − θ wird also die systematische Abweichung Mit Bias(θ) (Abweichung im Mittel, Verzerrung) eines Schätzers von der zu schätzenden Größe bezeichnet. b = 0 für alle Gibt es keine solche systematische Abweichung (gilt also Bias(θ) denkbaren Werte von θ), so nennt man θb erwartungstreu für θ. q b wird auch Standardfehler oder Stichprobenfehler von θb genannt. Var(θ) Bei Schätzung von E(Y ) mit X gilt: σY2 2 E(X )=E(Y ) 2 MSE(X ) = E (X − E(Y )) = Var(X ) = σX = n Ökonometrie (SS 2014) Folie 64 2 Wiederholung statistischer Grundlagen Schließende Statistik 2.3 (Qualitäts-)Eigenschaften von Schätzfunktionen III Naheliegende Mindestanforderung“: Mit wachsendem Stichprobenumfang n ” sollte der MSE einer vernünftigen Schätzfunktion gegen Null gehen. Schätzfunktionen θb für θ, die diese Forderung erfüllen, heißen konsistent im quadratischen Mittel oder MSE-konsistent für θ. Wegen X = σY2 n ist X offensichtlich MSE-konsistent für E(Y ). Mit der Zerlegung (vgl. Folie 64) b = Var(θ) b + [Bias(θ)] b 2 MSE(θ) ist θb also genau dann konsistent im quadratischen Mittel für θ, wenn jeweils für alle denkbaren Werte von θ sowohl 1 2 die Varianz von θb gegen Null geht als auch der Bias von θb gegen Null geht (diese Eigenschaft heißt auch asymptotische Erwartungstreue). Ökonometrie (SS 2014) 2 Wiederholung statistischer Grundlagen Folie 65 Schließende Statistik 2.3 (Qualitäts-)Eigenschaften von Schätzfunktionen IV Beim Vergleich mehrerer Schätzfunktionen ist es gängig, die Schätzfunktion vorzuziehen, die den kleineren“ MSE hat. ” Damit zieht man bei erwartungstreuen Schätzfunktionen die mit geringerer“ ” Varianz vor. Wichtig hierbei ist, dass man universelle“ Vergleiche zu ziehen hat, also nicht nur spezielle Situationen (also”spezielle θ) betrachtet. Bei erwartungstreuen Schätzfunktionen θb und θe heißt 1 2 e wenn Var(θ) b ≤ Var(θ) e für alle denkbaren θb mindestens so wirksam wie θ, Werte von θ gilt, und e wenn darüberhinaus Var(θ) b < Var(θ) e für mindestens einen θb wirksamer als θ, denkbaren Wert von θ gilt. Eine Schätzfunktion, die in einer vorgegebenen Menge von Schätzfunktionen mindestens so wirksam ist wie alle anderen Schätzfunktionen, heißt effizient in dieser Menge von Schätzfunktionen. Ökonometrie (SS 2014) Folie 66 2 Wiederholung statistischer Grundlagen Schließende Statistik 2.3 Schätzung von Var(Y ) Naheliegender Ansatz zur Schätzung der Varianz σY2 = Var(Y ) aus einer einfachen Stichprobe X1 , . . . , Xn vom Umfang n zu Y : Verwendung der empirischen Varianz n 1X (Xi − X )2 n bzw. i=1 n 1X (xi − x)2 n i=1 Man kann allerdings zeigen, dass diese Schätzfunktion nicht erwartungstreu für die Varianz von Y ist! Bei dieser Rechnung wird allerdings klar, dass man mit der leichten Anpassung n 1 X S := (Xi − X )2 n−1 2 n bzw. i=1 1 X s := (xi − x)2 n−1 2 i=1 eine erwartungstreue Schätzfunktion für σY2 erhält. Ökonometrie (SS 2014) Folie 67 2 Wiederholung statistischer Grundlagen Schließende Statistik 2.3 Intervallschätzung von µY := E(Y ) (Realisation der) Punktschätzfunktion X für µY beinhaltet (zunächst) keine Information über die Qualität der Schätzung (bzw. über den zu erwartenden Schätzfehler). Bisher: Varianz σX2 := Var(X ) (hier gleich mit MSE!) bzw. Standardfehler q σX = Var(X ) zur Quantifizierung der Schätzunsicherheit verwendet. Weitergehender Ansatz: Nicht nur Momente von X (hier: Varianz), sondern komplette Verteilung berücksichtigen! Erinnerung: X entsteht als (durch n dividierte) Summe unabhängig identisch verteilter Zufallsvariablen. X ist N µY , 2 σY n -verteilt, falls Xi (bzw. Y ) normalverteilt (Wahrscheinlichkeitsrechnung!). X kann näherungsweise als N µY , 2 σY n -verteilt angesehen, falls Xi (bzw. Y ) nicht normalverteilt (Zentraler Grenzwertsatz!). Ökonometrie (SS 2014) Folie 68 2 Wiederholung statistischer Grundlagen Schließende Statistik 2.3 Die Qualität der Näherung durch eine Normalverteilung wird mit zunehmendem Stichprobenumfang größer, hängt aber ganz entscheidend von der Verteilung von Y ab! Pauschale Kriterien an den Stichprobenumfang n ( Daumenregeln“, z.B. ” n ≥ 30) finden sich häufig in der Literatur, sind aber nicht ganz unkritisch. • σ2 σ2 Verteilungseigenschaft X ∼ N µ, n bzw. X ∼ N µ, n wird meistens (äquivalent!) in der (auch aus dem zentralen Grenzwertsatz bekannten) Gestalt X − µ√ n ∼ N(0, 1) σ X − µ√ • n ∼ N(0, 1) σ bzw. verwendet, da dann Verwendung von Tabellen zur Standardnormalverteilung möglich. Ökonometrie (SS 2014) Folie 69 2 Wiederholung statistischer Grundlagen Schließende Statistik 2.3 Beispiel: Näherung für X −µ √ n, σ 0.3 0.4 N(0,1) n=4 0.0 0.1 0.2 f(x) 0.2 0.0 0.1 f(x) 0.3 0.4 N(0,1) n=2 falls Y ∼ Unif(20, 50) −4 −2 0 2 4 −4 −2 x 2 4 x 0.2 0.3 0.4 N(0,1) n=12 0.0 0.0 0.1 0.2 f(x) 0.3 0.4 N(0,1) n=7 0.1 f(x) 0 −4 −2 0 x Ökonometrie (SS 2014) 2 4 −4 −2 0 2 4 x Folie 70 2 Wiederholung statistischer Grundlagen Schließende Statistik 2.3 Beispiel: Näherung für X −µ √ n, σ 0.3 0.4 N(0,1) n=10 0.0 0.1 0.2 f(x) 0.2 0.0 0.1 f(x) 0.3 0.4 N(0,1) n=3 falls Y ∼ Exp(2) −4 −2 0 2 4 −4 −2 x 2 4 x 0.2 0.3 0.4 N(0,1) n=250 0.0 0.0 0.1 0.2 f(x) 0.3 0.4 N(0,1) n=30 0.1 f(x) 0 −4 −2 0 2 4 −4 −2 x 0 2 4 x Ökonometrie (SS 2014) Folie 71 2 Wiederholung statistischer Grundlagen Schließende Statistik 2.3 Beispiel: Näherung für X −µ √ n, σ 0.3 0.4 N(0,1) n=10 0.0 0.1 0.2 f(x) 0.2 0.0 0.1 f(x) 0.3 0.4 N(0,1) n=3 falls Y ∼ B(1, 0.5) −4 −2 0 2 4 −4 −2 x 2 4 x 0.2 0.3 0.4 N(0,1) n=250 0.0 0.0 0.1 0.2 f(x) 0.3 0.4 N(0,1) n=30 0.1 f(x) 0 −4 −2 0 x Ökonometrie (SS 2014) 2 4 −4 −2 0 2 4 x Folie 72 2 Wiederholung statistischer Grundlagen Schließende Statistik 2.3 Beispiel: Näherung für X −µ √ n, σ 0.3 0.4 N(0,1) n=10 0.0 0.1 0.2 f(x) 0.2 0.0 0.1 f(x) 0.3 0.4 N(0,1) n=3 falls Y ∼ B(1, 0.05) −4 −2 0 2 4 −4 −2 x 2 4 x 0.2 0.3 0.4 N(0,1) n=250 0.0 0.0 0.1 0.2 f(x) 0.3 0.4 N(0,1) n=30 0.1 f(x) 0 −4 −2 0 2 4 x −4 −2 0 2 4 x Ökonometrie (SS 2014) 2 Wiederholung statistischer Grundlagen Folie 73 Schließende Statistik 2.3 Schwankungsintervalle für X I Kennt man die Verteilung von X (oder eine geeignete Näherung), kann man beispielsweise Intervalle angeben, in denen die Realisationen von X (ggf. näherungsweise) mit einer vorgegebenen Wahrscheinlichkeit liegen. Sucht man zum Beispiel ein Intervall, aus welchem die Realisationen einer Zufallsvariablen nur mit einer Wahrscheinlichkeit von 0 < α < 1 herausfallen, bietet sich I I die Verwendung des α2 -Quantils, welches nur mit Wahrscheinlichkeit α2 unterschritten wird, als untere Grenze sowie die Verwendung des 1 − α2 -Quantils, welches nur mit Wahrscheinlichkeit überschritten wird, als obere Grenze α 2 an (vgl. Übungsaufgabe 2 (c)). Ökonometrie (SS 2014) Folie 74 2 Wiederholung statistischer Grundlagen Schließende Statistik 2.3 Schwankungsintervalle für X II Für N(µ, σ 2 )-verteilte Zufallsvariablen lässt sich in Abhängigkeit des 1 − α2 -Quantils N α2 bzw. N1− α2 der N(0, 1)-Verteilung I I α 2- bzw. das α2 -Quantil durch µ + σ · N α2 und das 1 − α2 -Quantil durch µ + σ · N1− α2 berechnen (vgl. auch Folien 26 und 30). Unter Verwendung der Symmetrieeigenschaft Nα = −N1−α bzw. hier N α2 = −N1− α2 für Quantile der Standardnormalverteilung erhält man so die Darstellung µ − σ · N1− α2 , µ + σ · N1− α2 eines um den Erwartungswert µ symmetrischen Intervalls, in dem die Realisationen der Zufallsvariablen mit Wahrscheinlichkeit 1 − α liegen bzw. mit Wahrscheinlichkeit α nicht enthalten sind. Ökonometrie (SS 2014) 2 Wiederholung statistischer Grundlagen Folie 75 Schließende Statistik 2.3 Schwankungsintervalle für X III Ist X1 , . . . , Xn eine einfache Stichprobe zumpUmfang n zu Y , und sind µY = E(Y ) der Erwartungswert und σY = Var(Y ) die Standardabweichung σY von Y , so erhält man also unter Verwendung von X ∼ N µY , √ (exakt n oder näherungsweise!) für vorgegebenes 0 < α < 1 σY σY P X ∈ µY − √ · N1− α2 , µY + √ · N1− α2 =1−α n n und damit das (symmetrische) (1 − α)-Schwankungsintervall σY σY µY − √ · N1− α2 , µY + √ · N1− α2 n n von X . Ökonometrie (SS 2014) Folie 76 2 Wiederholung statistischer Grundlagen Schließende Statistik 2.3 Beispiel: Schwankungsintervall Aufgabenstellung: I I I Es gelte Y ∼ N(50, 102 ). Zu Y liege eine einfache Stichprobe X1 , . . . , X25 der Länge n = 25 vor. Gesucht ist ein 1 − α = 0.95-Schwankungsintervall für X . Lösung: I I I I Es gilt also µY = 50, σY2 = 102 , n = 25 und α = 0.05. Zur Berechnung des Schwankungsintervalls σY σY µY − √ · N1− α2 , µY + √ · N1− α2 n n benötigt man also nur noch das 1 − α2 = 0.975-Quantil N0.975 der Standardnormalverteilung. Dies erhält man mit geeigneter Software (oder aus geeigneten Tabellen) als N0.975 = 1.96. Insgesamt erhält man also das Schwankungsintervall 10 10 50 − √ · 1.96, 50 + √ · 1.96 = [46.08, 53.92] . 25 25 Eine Stichprobenziehung führt also mit einer Wahrscheinlichkeit von 95% zu einer Realisation x von X im Intervall [46.08, 53.92]. Ökonometrie (SS 2014) Folie 77 2 Wiederholung statistischer Grundlagen Schließende Statistik 2.3 Beispiel: Schwankungsintervall (Grafische Darstellung) 102 25 , α = 0.05 X 0.10 α 2 = 0.025 α 2 = 0.025 1 − α = 0.95 0.00 0.05 fX(x) 0.15 0.20 Im Beispiel: X ∼ N 50, µY − Ökonometrie (SS 2014) σY n N1−α 2 µY µY + σY n N1−α 2 Folie 78 2 Wiederholung statistischer Grundlagen Schließende Statistik 2.3 Konfidenzintervalle für den Erwartungswert I bei bekannter Varianz σ 2 In der Praxis interessanter als Schwankungsintervalle für X : Intervallschätzungen für unbekannte Erwartungswerte µ := µY = E(Y ). Zunächst: Annahme, dass die Varianz von σ 2 := σY2 = Var(Y ) (und damit auch Var(X )) bekannt ist. Für 0 < α < 1 kann die Wahrscheinlichkeitsaussage σ σ P X ∈ µ − √ · N1− α2 , µ + √ · N1− α2 =1−α n n umgestellt werden zu einer Wahrscheinlichkeitsaussage der Form σ σ =1−α . P µ ∈ X − √ · N1− α2 , X + √ · N1− α2 n n Dies liefert sogenannte Konfidenzintervalle σ σ X − √ · N1− α2 , X + √ · N1− α2 n n für µ zur Vertrauenswahrscheinlichkeit bzw. zum Konfidenzniveau 1 − α. Ökonometrie (SS 2014) Folie 79 2 Wiederholung statistischer Grundlagen Schließende Statistik 2.3 Konfidenzintervalle für den Erwartungswert II bei bekannter Varianz σ 2 In der resultierenden Wahrscheinlichkeitsaussage σ σ P µ ∈ X − √ · N1− α2 , X + √ · N1− α2 =1−α . n n sind die Intervallgrenzen σ X − √ · N1− α2 n und σ X + √ · N1− α2 n des Konfidenzintervalls zufällig (nicht etwa µ!). Ziehung einer Stichprobenrealisation liefert also Realisationen der Intervallgrenzen und damit ein konkretes Konfidenzintervall, welches den wahren (unbekannten) Erwartungswert µ entweder überdeckt oder nicht. Die Wahrscheinlichkeitsaussage für Konfidenzintervalle zum Konfidenzniveau 1 − α ist also so zu verstehen, dass man bei der Ziehung der Stichprobe mit einer Wahrscheinlichkeit von 1 − α ein Stichprobenergebnis erhält, welches zu einem realisierten Konfidenzintervall führt, das den wahren Erwartungswert überdeckt. Ökonometrie (SS 2014) Folie 80 2 Wiederholung statistischer Grundlagen Schließende Statistik 2.3 Beispiel: Konfidenzintervall bei bekannter Varianz σ 2 Die Zufallsvariable Y sei normalverteilt mit unbekanntem Erwartungswert und bekannter Varianz σ 2 = 22 . Gesucht: Konfidenzintervall für µ zum Konfidenzniveau 1 − α = 0.99. Als Realisation x1 , . . . , x16 einer einfachen Stichprobe X1 , . . . , X16 vom Umfang n = 16 zu Y liefere die Stichprobenziehung 18.75, 20.37, 18.33, 23.19, 20.66, 18.36, 20.97, 21.48, 21.15, 19.39, 23.02, 20.78, 18.76, 15.57, 22.25, 19.91 , was zur Realisationen x = 20.184 von X führt. Als Realisation des Konfidenzintervalls für µ zum Konfidenzniveau 1 − α = 0.99 erhält man damit insgesamt σ σ x − √ · N1− α2 , x + √ · N1− α2 n n 2 2 = 20.184 − √ · 2.576, 20.184 + √ · 2.576 16 16 = [18.896, 21.472] . Ökonometrie (SS 2014) Folie 81 2 Wiederholung statistischer Grundlagen Schließende Statistik 2.3 Verteilung von X bei unbekanntem σ 2 Wie kann man vorgehen, falls die Varianz σ 2 von Y unbekannt ist? Naheliegender Ansatz: Ersetzen von σ 2 durch eine geeignete Schätzfunktion. Erwartungstreue Schätzfunktion für σ 2 bereits bekannt: n 1 X S = (Xi − X )2 n−1 2 i=1 Ersetzen von σ durch S = √ S 2 möglich, Verteilung ändert sich aber: Satz 2.1 Seien Y ∼ N(µ, σ 2 ), X1 , . . . , Xn eine einfache Stichprobe zu Y . Dann gilt mit q √ Pn 1 2 S := S 2 = n−1 i=1 (Xi − X ) X − µ√ n ∼ t(n − 1) , S wobei t(n − 1) die t-Verteilung mit n − 1 Freiheitsgraden bezeichnet. Ökonometrie (SS 2014) Folie 82 2 Wiederholung statistischer Grundlagen Schließende Statistik 2.3 Die Familie der t(n)-Verteilungen Die Familie der t(n)-Verteilungen mit n > 0 ist eine spezielle Familie stetiger Verteilungen. Der Parameter n wird meist Anzahl der Freiheitsgrade“ ” ( degrees of freedom“) genannt. ” t-Verteilungen werden (vor allem in englischsprachiger Literatur) oft auch als Student’s t distribution“ bezeichnet; Student“ war das Pseudonym, unter ” ” dem William Gosset die erste Arbeit zur t-Verteilung in englischer Sprache veröffentlichte. t(n)-Verteilungen sind für alle n > 0 symmetrisch um 0. Entsprechend gilt für p-Quantile der t(n)-Verteilung, die wir im Folgendem mit tn;p abkürzen, analog zu Standardnormalverteilungsquantilen tn;p = −tn;1−p bzw. tn;1−p = −tn;p für alle p ∈ (0, 1) Für wachsendes n nähert sich die t(n)-Verteilung der Standardnormalverteilung an. Ökonometrie (SS 2014) Folie 83 2 Wiederholung statistischer Grundlagen Schließende Statistik 2.3 Grafische Darstellung einiger t(n)-Verteilungen für n ∈ {2, 5, 10, 25, 100} 0.0 0.1 0.2 f(x) 0.3 0.4 N(0,1) t(2) t(5) t(10) t(25) t(100) −4 −2 0 2 4 x Ökonometrie (SS 2014) Folie 84 2 Wiederholung statistischer Grundlagen Schließende Statistik 2.3 Konfidenzintervalle für den Erwartungswert I bei unbekannter Varianz σ 2 Konstruktion von Konfidenzintervallen für µ bei unbekannter Varianz σ 2 = Var(Y ) ganz analog zur Situation mit bekannter Varianz, lediglich √ S2 = q 1 Ersetzen von σ durch S = 2 Ersetzen von N1− α2 durch tn−1;1− α2 1 n−1 Pn i=1 (Xi − X )2 erforderlich. Resultierendes Konfidenzintervall für µ zur Vertrauenswahrscheinlichkeit bzw. zum Konfidenzniveau 1 − α: S S X − √ · tn−1;1− α2 , X + √ · tn−1;1− α2 n n Ökonometrie (SS 2014) 2 Wiederholung statistischer Grundlagen Folie 85 Schließende Statistik 2.3 Konfidenzintervalle für den Erwartungswert II bei unbekannter Varianz σ 2 Benötigte Quantile tn−1;1− α2 können ähnlich wie bei der Standardnormalverteilung z.B. mit der Statistik-Software R ausgerechnet werden oder aus geeigneten Tabellen abgelesen werden. Mit R erhält man z.B. t15;0.975 durch > qt(0.975,15) [1] 2.13145 Mit zunehmendem n werden die Quantile der t(n)-Verteilungen betragsmäßig kleiner und nähern sich den Quantilen der Standardnormalverteilung an. Ist Y und sind damit die Xi nicht normalverteilt, erlaubt der zentrale Grenzwertsatz dennoch die näherungsweise Verwendung einer √ t(n − 1)-Verteilung für X −µ n und damit auch die Berechnung von S (approximativen) Konfidenzintervallen. Ökonometrie (SS 2014) Folie 86 2 Wiederholung statistischer Grundlagen Schließende Statistik 2.3 Quantile der t-Verteilungen: tn;p n\p 0.85 0.90 0.95 0.975 0.99 0.995 0.9995 1 2 3 4 5 1.963 1.386 1.250 1.190 1.156 3.078 1.886 1.638 1.533 1.476 6.314 2.920 2.353 2.132 2.015 12.706 4.303 3.182 2.776 2.571 31.821 6.965 4.541 3.747 3.365 63.657 9.925 5.841 4.604 4.032 636.619 31.599 12.924 8.610 6.869 6 7 8 9 10 1.134 1.119 1.108 1.100 1.093 1.440 1.415 1.397 1.383 1.372 1.943 1.895 1.860 1.833 1.812 2.447 2.365 2.306 2.262 2.228 3.143 2.998 2.896 2.821 2.764 3.707 3.499 3.355 3.250 3.169 5.959 5.408 5.041 4.781 4.587 11 12 13 14 15 1.088 1.083 1.079 1.076 1.074 1.363 1.356 1.350 1.345 1.341 1.796 1.782 1.771 1.761 1.753 2.201 2.179 2.160 2.145 2.131 2.718 2.681 2.650 2.624 2.602 3.106 3.055 3.012 2.977 2.947 4.437 4.318 4.221 4.140 4.073 20 25 30 40 50 1.064 1.058 1.055 1.050 1.047 1.325 1.316 1.310 1.303 1.299 1.725 1.708 1.697 1.684 1.676 2.086 2.060 2.042 2.021 2.009 2.528 2.485 2.457 2.423 2.403 2.845 2.787 2.750 2.704 2.678 3.850 3.725 3.646 3.551 3.496 100 200 500 1000 5000 1.042 1.039 1.038 1.037 1.037 1.290 1.286 1.283 1.282 1.282 1.660 1.653 1.648 1.646 1.645 1.984 1.972 1.965 1.962 1.960 2.364 2.345 2.334 2.330 2.327 2.626 2.601 2.586 2.581 2.577 3.390 3.340 3.310 3.300 3.292 Ökonometrie (SS 2014) 2 Wiederholung statistischer Grundlagen Folie 87 Schließende Statistik 2.3 Beispiel: Konfidenzintervall bei unbekanntem σ 2 Die Zufallsvariable Y sei normalverteilt mit unbekanntem Erwartungswert und unbekannter Varianz. Gesucht: Konfidenzintervall für µ zum Konfidenzniveau 1 − α = 0.95. Als Realisation x1 , . . . , x9 einer einfachen Stichprobe X1 , . . . , X9 vom Umfang n = 9 zu Y liefere die Stichprobenziehung 28.12, 30.55, 27.49, 34.79, 30.99, 27.54, 31.46, 32.21, 31.73 , was zur √ Realisationen x = 30.542 von X und zur Realisation s = 2.436 von S = S 2 führt. Als Realisation des Konfidenzintervalls für µ zum Konfidenzniveau 1 − α = 0.95 erhält man damit insgesamt s s x − √ · tn−1;1− α2 , x + √ · tn−1;1− α2 n n 2.436 2.436 = 30.542 − √ · 2.306, 30.542 + √ · 2.306 9 9 = [28.67, 32.414] . Ökonometrie (SS 2014) Folie 88